ES2275700T3 - Procedimiento y aparato para crear plantillas de voz para un sistema de reconocimiento de voz independiente. - Google Patents
Procedimiento y aparato para crear plantillas de voz para un sistema de reconocimiento de voz independiente. Download PDFInfo
- Publication number
- ES2275700T3 ES2275700T3 ES01952681T ES01952681T ES2275700T3 ES 2275700 T3 ES2275700 T3 ES 2275700T3 ES 01952681 T ES01952681 T ES 01952681T ES 01952681 T ES01952681 T ES 01952681T ES 2275700 T3 ES2275700 T3 ES 2275700T3
- Authority
- ES
- Spain
- Prior art keywords
- vocal
- voice
- comparison
- result
- pairing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000011218 segmentation Effects 0.000 claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 42
- 230000001755 vocal effect Effects 0.000 claims description 89
- 230000002123 temporal effect Effects 0.000 claims description 21
- 230000003595 spectral effect Effects 0.000 claims description 14
- 238000005192 partition Methods 0.000 claims description 10
- 238000013139 quantization Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 8
- 238000005259 measurement Methods 0.000 claims 4
- 238000012360 testing method Methods 0.000 abstract description 26
- 238000012549 training Methods 0.000 abstract description 4
- 238000000638 solvent extraction Methods 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 32
- 238000010276 construction Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Audible-Bandwidth Dynamoelectric Transducers Other Than Pickups (AREA)
Abstract
Un procedimiento para crear plantillas de voz, para su empleo en un sistema de reconocimiento de voz independiente de la persona que habla, comprendiendo el procedimiento: segmentar cada emisión vocal de una primera pluralidad de emisiones vocales, a fin de generar una pluralidad de segmentos agrupados temporalmente para cada emisión vocal, estando cada segmento agrupado temporalmente representado por una media espectral; cuantizar la pluralidad de medias espectrales para todas las emisiones vocales de la primera pluralidad, a fin de generar una pluralidad de vectores de plantilla; comparar cada uno de los vectores de plantilla de la pluralidad con una segunda pluralidad de emisiones vocales, a fin de generar al menos un resultado de comparación; aparear la primera pluralidad de emisiones vocales con la pluralidad de vectores de plantilla si el resultado, o resultados, de comparación supera(n) al menos un valor de umbral predefinido, a fin de generar un resultado de camino óptimo de apareo;repartir la primera pluralidad de emisiones vocales en el tiempo, según el resultado del camino óptimo de apareo; y repetir la cuantización, comparación, apareo y partición hasta que el resultado, o resultados, de la comparación no supere(n) ningún valor, o valores, de umbral predefinido(s).
Description
Procedimiento y aparato para crear plantillas de
voz para un sistema de reconocimiento de voz independiente.
La presente invención se refiere, en general, al
campo de las comunicaciones y, más específicamente, a la creación
de plantillas de voz para sistemas de reconocimiento de voz
independientes de la persona que habla.
El Reconocimiento de la Voz (RV) representa una
de las técnicas más importantes para dotar a una máquina de
inteligencia simulada, a fin de reconocer órdenes del usuario o con
la voz del usuario, y de facilitar la interfaz entre el humano y la
máquina. El RV también representa una técnica clave para la
comprensión del habla humana. Los sistemas que emplean técnicas
para recuperar un mensaje lingüístico desde una señal vocal
acústica se llaman reconocedores de voz. El término "reconocedor
de voz" se utiliza aquí para referirse, en general, a cualquier
dispositivo habilitado como interfaz con un usuario parlante. Un
reconocedor de voz, típicamente, comprende un procesador acústico y
un descodificador de la palabra. El procesador acústico extrae una
secuencia de características portadoras de información, o vectores,
necesarios para lograr el RV del habla entrante no tratada. El
descodificador de la palabra descodifica la secuencia de
características, o vectores, para producir un formato de salida
significativo y deseado, tal como una secuencia de palabras
lingüísticas correspondientes a la emisión vocal de entrada.
El procesador acústico representa un subsistema
de análisis de habla, de interfaz directa con el usuario, en un
reconocedor de voz. En respuesta a una señal vocal de entrada, el
procesador acústico proporciona una representación adecuada para
caracterizar la señal vocal variable en el tiempo. El procesador
acústico debería descartar información irrelevante, tal como el
ruido de fondo, la distorsión del canal, las características de la
persona que habla y la manera de hablar. El procesamiento acústico
eficiente brinda a los reconocedores de voz potencia mejorada de
discriminación acústica. Con este fin, una característica útil para
analizar es el envoltorio espectral de lapso breve. Dos técnicas de
análisis espectral, usualmente utilizadas para caracterizar el
envoltorio espectral a corto plazo, son la codificación predictiva
lineal (Linear Predictive Coding - LPC) y la modelización espectral
basada en bancos de filtros. Los ejemplos de técnicas de LPC se
describen en la Patente Estadounidense Nº 5.414.796, que está
transferida al cesionario de la presente invención, y que se
incorpora aquí en su totalidad por referencia, y en la obra
Digital Processing of Speech Signals ["Procesamiento
Digital de Señales de Voz"] de L. B. Rabiner y R. W. Schafer
(1978), que también se incorpora aquí en su totalidad por
referencia.
El empleo del RV (también denominado usualmente
reconocimiento del habla) se está haciendo crecientemente
importante, por razones de seguridad. Por ejemplo, el RV puede
utilizarse para reemplazar la tarea manual de pulsar teclas en un
teclado de teléfono inalámbrico. Esto es especialmente importante
cuando un usuario está iniciando una llamada telefónica mientras
conduce un coche. Al utilizar un teléfono sin RV, el conductor debe
retirar una mano del volante y mirar al teclado del teléfono
mientras pulsa las teclas para marcar la llamada. Estos actos
aumentan la probabilidad de un accidente automovilístico. Un
teléfono habilitado para voz (es decir, un teléfono diseñado para
el reconocimiento de voz) permitiría al conductor realizar llamadas
telefónicas mientras observa continuamente la carretera. Y un
sistema de equipo para coche de manos libres permitiría
adicionalmente al conductor mantener ambas manos sobre el volante
durante la iniciación de la llamada.
Los dispositivos de reconocimiento de voz se
clasifican bien como dispositivos dependientes de la persona que
habla, o bien como independientes de la persona que habla. Los
dispositivos dependientes de la persona que habla, que son más
comunes, están acondicionados para reconocer comandos de usuarios
específicos. En cambio, los dispositivos independientes de la
persona que habla son capaces de aceptar comandos vocales de
cualquier usuario. Para aumentar las prestaciones de un sistema
dado de RV, ya sea dependiente de la persona que habla o
independiente de la persona que habla, se requiere la ejercitación a
fin de equipar al sistema con parámetros válidos. En otras
palabras, el sistema necesita aprender antes de poder funcionar
óptimamente.
Un dispositivo de RV dependiente de la persona
que habla, típicamente, opera en dos fases, una fase de ejercitación
y una fase de reconocimiento. En la fase de ejercitación, el
sistema de RV insta al usuario a enunciar cada una de las palabras
en el vocabulario del sistema una o dos veces (típicamente, dos
veces) para que el sistema pueda aprender las características del
habla del usuario para esas palabras o frases específicas. Un
ejemplo de vocabulario para un equipo de coche de manos libres
podría incluir los dígitos en el teclado; las palabras clave
"llamar", "enviar", "marcar", "cancelar",
"querido", "añadir", "borrar", "historia",
"programa", "sí" y "no"; y los nombres de un cierto
número predefinido de colegas, amigos o miembros de la familia a
quienes se llama frecuentemente. Una vez que la ejercitación está
completa, el usuario puede iniciar llamadas en la fase de
reconocimiento, enunciando las palabras clave ejercitadas, que el
dispositivo de RV reconoce al comparar los sonidos hablados con los
sonidos previamente ejercitados (almacenados como plantillas) y
quedarse con la coincidencia más próxima. Por ejemplo, si el nombre
"Juan" fuese uno de los nombres ejercitados, el usuario podría
iniciar una llamada a Juan diciendo la frase "Llamar a Juan".
El sistema de RV reconocería las palabras "Llamar" y
"Juan", y marcaría el número que el usuario hubiese ingresado
previamente como el número de teléfono de Juan.
Un dispositivo de RV independiente de la persona
que habla también utiliza una plantilla de ejercitación que
contiene un vocabulario pregrabado con un tamaño predefinido (p.
ej., ciertas palabras de control, los números del cero al nueve, el
sí y el no). Debe registrarse a un gran número de personas que
hablan (p. ej., 100) diciendo cada palabra en el vocabulario.
Un ejemplo de solución constructora de
plantillas, utilizando una segmentación inicial y la corrección de
límites, se revela en el documento de patente estadounidense Nº
4.802.224.
Convencionalmente, las plantillas de RV
independientes de la persona que habla se construyen comparando una
base de datos de prueba que contiene palabras habladas por un primer
grupo de personas (típicamente, 100 personas que hablan) con una
base de datos de ejercitación, que contiene las mismas palabras
habladas por un segundo grupo de personas (tantos como en el primer
grupo). Una palabra, dicha por un usuario, se denomina típicamente
una emisión vocal. Cada emisión vocal de la base de datos de
ejercitación se normaliza primero en cuanto al tiempo, y luego se
cuantiza (típicamente, se cuantiza vectorialmente según técnicas
conocidas) antes de ser probada en cuanto a la convergencia con las
emisiones vocales de la base de datos de prueba. Sin embargo, la
técnica de normalización en cuanto al tiempo se apoya en la
información obtenida sólo de tramas individuales (segmentos
periódicos de una emisión vocal) con diferencias máximas con
respecto a la trama anterior. Sería ventajoso proporcionar un
procedimiento para construir plantillas de RV independientes de la
persona que habla, que utilice más de la información en una emisión
vocal dada. Sería adicionalmente deseable aumentar la precisión, o
convergencia, de las técnicas convencionales para construir
plantillas de RV independientes de la persona que habla, basadas en
el tipo de emisión vocal. Por lo tanto, hay una necesidad de un
procedimiento para construir plantillas de reconocimiento de voz
independientes de la persona que habla, que proporcione una
precisión mejorada y que utilice una mayor cantidad de información
en las emisiones vocales.
La presente invención se refiere a un
procedimiento para construir plantillas de reconocimiento de voz
independientes de la persona que habla, que proporcione una
precisión mejorada y que utilice una mayor cantidad de información
en las emisiones vocales. En consecuencia, en un aspecto de la
invención, se proporciona un procedimiento según la reivindicación
1 a fin de crear plantillas de voz, para su utilización en un
sistema de reconocimiento de voz independiente de la persona que
habla. El procedimiento incluye, con ventaja, la segmentación de
cada emisión vocal en una primera pluralidad de emisiones vocales,
a fin de generar una pluralidad de segmentos agrupados con respecto
al tiempo para cada emisión vocal, estando cada segmento
temporalmente agrupado representado por un medio espectral; la
cuantización de la pluralidad de medios espectrales para la
totalidad de la primera pluralidad de emisiones vocales, a fin de
generar una pluralidad de vectores de plantilla; la comparación de
cada uno de la pluralidad de vectores de plantilla con una segunda
pluralidad de emisiones vocales, a fin de generar al menos un
resultado de comparación; el apareo de la primera pluralidad de
emisiones vocales con la pluralidad de vectores de plantilla, si el
resultado, o resultados, de la comparación supera(n) al menos
un valor de umbral predefinido, a fin de generar un resultado de
camino óptimo de apareo; la partición de la primera pluralidad de
emisiones vocales con respecto al tiempo, según el resultado del
camino óptimo de apareo; y la repetición de la cuantización,
comparación, apareo y partición hasta que el resultado, o
resultados, de la comparación no supere(n) a ninguno entre el
valor, o valores, de umbral
predefinido(s).
predefinido(s).
La invención también está definida por otras
realizaciones correspondientes a los aparatos de las
reivindicaciones 10 y 17, y por un programa de ordenador según la
reivindicación 16.
La Fig. 1 es un diagrama en bloques de un
sistema a fin de construir e implementar plantillas de voz para el
reconocimiento de voz independiente de la persona que habla.
La Fig. 2 es un diagrama en bloques de un
subsistema de reconocimiento de voz que puede utilizarse en el
sistema de la Fig. 1.
La Fig. 3 es un diagrama de flujo que ilustra
etapas de procedimiento llevadas a cabo por un subsistema de
reconocimiento de voz, tal como el subsistema de la Fig. 2, a fin de
reconocer muestras de voz entrantes.
La Fig. 4 es un diagrama en bloques de un
subsistema de construcción de plantillas que puede utilizarse en el
sistema de la Fig. 1.
La Fig. 5 es un diagrama en bloques de un
subsistema de construcción de plantillas que puede utilizarse en el
sistema de la Fig. 1.
La Fig. 6 es un diagrama de flujo que ilustra
las etapas de procedimiento llevadas a cabo por un subsistema de
construcción de plantillas, tal como el subsistema de la Fig. 4 o el
subsistema de la Fig. 5, para construir plantillas de voz.
Según se ilustra en la Fig. 1, un sistema 10
para construir e implementar plantillas de voz para el
reconocimiento de voz independiente de la persona que habla incluye
un subsistema 12 de construcción de plantillas independientes de la
persona que habla, y un subsistema 14 de reconocimiento de voz. El
subsistema 12 de construcción de plantillas independientes de la
persona que habla se acopla con el subsistema 14 de reconocimiento
de voz.
Las plantillas de voz independientes de la
persona que habla se construyen con el subsistema 12 de construcción
de plantillas independientes de la persona que habla, según se
describe más adelante con referencia a las Figs. 4 a 6. Las
plantillas se suministran al subsistema 14 de reconocimiento de voz
para su empleo en el reconocimiento de voz ingresada por un
usuario, según se describe más adelante con referencia a las Figs. 2
y 3.
Como se ilustra en la Fig. 2, un subsistema 100
de reconocimiento de voz incluye un convertidor 102 de analógico a
digital (A/D), un procesador acústico 104 de interfaz con el
usuario, un extractor 106 de características, una base de datos 108
de plantillas de voz, una lógica 110 de comparación de patrones y
una lógica 112 de decisión. El procesador acústico 104 y el
extractor 106 de características se implementan como un solo
dispositivo, p. ej., un extractor de parámetros. El procesador
acústico 104 incluye un módulo 114 de análisis de frecuencia. El
extractor 106 de características incluye un detector 116 de punto de
terminación, un módulo 118 de segmentación de voz por agrupación
temporal y un normalizador 120 del nivel del habla.
El A/D 102 está acoplado con el procesador
acústico 104. El procesador acústico 104 está acoplado con el
extractor 106 de características. Dentro del extractor 106 de
características, el detector 116 de puntos de terminación está
acoplado con el módulo 118 de segmentación de voz por agrupación
temporal, que está acoplado con el cuantizador 120 de amplitud. El
extractor 106 de características está acoplado con la lógica 110 de
comparación de patrones. La lógica 110 de comparación de patrones
está acoplada con la base de datos 108 de plantillas y la lógica 112
de decisión.
El subsistema 100 de reconocimiento de voz puede
residir, p. ej., en un teléfono inalámbrico o en un equipo de coche
de manos libres. Un usuario (no mostrado) dice una palabra o frase,
generando una señal de voz. La señal de voz se convierte en una
señal eléctrica de voz, s(t), con un transductor convencional
(no mostrado). La señal de voz s(t) se suministra al A/D 102,
que convierte la señal de voz en muestras de voz digitalizadas,
s(n), según un procedimiento conocido de muestreo, tal como,
p. ej., la modulación codificada en pulsos (Pulse Coded Modulation
- PCM), la ley A o la ley \mu.
Las muestras de voz s(n) se suministran
al procesador acústico 104 para la determinación de parámetros. El
procesador acústico 104 produce un conjunto de parámetros que modela
las características de la señal s(t) de voz entrante. Los
parámetros pueden determinarse según cualquiera entre un cierto
número de técnicas conocidas de determinación de parámetros de voz,
que incluyen, p. ej., la codificación por codificador de voz, los
coeficientes cepstrum basados en la transformada discreta de
Fourier (TDF) (p. ej., coeficientes cepstrum basados en la
transformada rápida de Fourier (TRF)), los coeficientes lineales
predictivos (LPC) o el análisis escalar de Bark, según se describe
en la precitada Patente Estadounidense Nº 5.414.796 y en la obra
Fundamentals of Speech Recognition ["Fundamentos del
Reconocimiento de Voz"] de Lawrence Rabiner y
Biing-Hwang Juang (1993). El conjunto de
parámetros, con ventaja, está basado en tramas (segmentado en tramas
periódicas). El procesador acústico 104 puede implementarse como un
procesador de señales digitales (PSD). El PSD puede incluir un
codificador de voz. Alternativamente, el procesador acústico 104
puede implementarse como un codificador de voz.
Cada trama de parámetros se suministra al
extractor 106 de características. En el extractor 106 de
características, el detector 116 de puntos de terminación utiliza
los parámetros extraídos para detectar los puntos de terminación de
una emisión vocal (es decir, una palabra). En un ejemplo, la
detección de puntos de terminación se realiza, con ventaja, según
una técnica descrita en la patente estadounidense Nº 6.324.509,
presentada el 8 de febrero de 1999, titulada METHOD AND APPARATUS
FOR ACCURATE ENDPOINTING OF SPEECH IN THE PRESENCE OF NOISE
["Procedimiento y aparato para la determinación precisa de puntos
de terminación de la voz en presencia de ruido"], transferida al
cesionario de la presente invención. Según esta técnica, la emisión
vocal se compara con un primer valor umbral, tal como, p. ej., un
valor umbral de la razón entre señal y ruido (SNR), a fin de
determinar un primer punto de partida y un primer punto de
terminación de la emisión vocal. Una porción de la emisión vocal,
que precede al primer punto de partida, se compara entonces con un
segundo valor umbral de SNR, a fin de determinar un segundo punto
de partida de la emisión vocal. Una porción de la emisión vocal, que
sigue al primer punto de terminación, se compara entonces con el
segundo valor umbral de SNR, a fin de determinar un segundo punto
de terminación de la emisión vocal. Los valores umbral de SNR
primero y segundo, con ventaja, se recalculan periódicamente, y el
primer valor umbral de SNR supera, con ventaja, al segundo valor
umbral de SNR.
Las tramas de parámetros de dominio de
frecuencia para la emisión vocal detectada se suministran al módulo
118 de segmentación de voz por agrupación temporal que, según un
ejemplo, implementa una técnica de compresión descrita en la patente
estadounidense Nº 6.278.972, presentada el 4 de enero de 1999,
titulada SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITION OF
SPEECH SIGNALS ["Sistema y procedimiento para la segmentación y el
reconocimiento de señales de voz"], transferida al cesionario de
la presente invención. Según esta técnica, cada trama de voz en los
parámetros de dominio de frecuencia está representada por al menos
un valor espectral asociado a la trama de voz. Un valor de
diferencia espectral se determina luego para cada par de tramas
adyacentes. El valor de diferencia espectral representa una
diferencia entre los valores espectrales asociados a las dos tramas
en el par. Un límite inicial de agrupación se establece entre cada
par de tramas adyacentes, creando agrupaciones en los parámetros, y
un valor de varianza se asigna a cada agrupación. El valor de
varianza es, con ventaja, igual a uno de los valores determinados
de diferencia espectral. Se calcula entonces una pluralidad de
parámetros de fusión de agrupaciones, estando cada uno de los
parámetros de fusión de agrupaciones asociado a un par de
agrupaciones adyacentes. Un parámetro mínimo de fusión de
agrupaciones se selecciona entre la pluralidad de parámetros de
fusión de agrupaciones. Se forma luego una agrupación fusionada,
cancelando un límite de agrupaciones entre las agrupaciones
asociadas al parámetro mínimo de fusión de agrupaciones, y asignando
un valor de varianza fusionada a la agrupación fusionada. El valor
de varianza fusionada representa los valores de varianza asignados
a las agrupaciones asociadas al parámetro mínimo de fusión de
agrupaciones. El proceso se repite, con ventaja, a fin de formar
una pluralidad de agrupaciones fusionadas, y la señal de voz
segmentada puede formarse, con ventaja, según la pluralidad de
agrupaciones fusionadas.
Se comprendería, por parte de aquellos versados
en la técnica, que el módulo 118 de segmentación de voz por
agrupación temporal puede ser reemplazado por otros dispositivos,
tales como, p. ej., un módulo de normalización temporal. Sin
embargo, también se apreciaría, por parte de artesanos capacitados,
que, debido a que el módulo 118 de segmentación de voz por
agrupación temporal fusiona en agrupaciones las tramas con
diferencias mínimas, en comparación con la trama anterior, y emplea
promedios de medias en lugar de tramas individuales, el módulo 118
de segmentación de voz por agrupación temporal utiliza más
información en la emisión vocal procesada. También se comprendería
que el módulo 118 de segmentación de voz por agrupación temporal se
utiliza, con ventaja, conjuntamente con la lógica 110 de
comparación de patrones, que emplea un modelo de distorsión temporal
dinámica (DTD), según se conoce en la técnica y se describe más
adelante.
Las medias de la agrupación se proporcionan al
normalizador 120 de nivel de voz. En un ejemplo del normalizador
120 del nivel de voz, cuantiza las amplitudes vocales asignando a
cada media de agrupación dos bits por canal (es decir, dos bits por
frecuencia). En un ejemplo de solución alternativa, en el cual se
extraen coeficientes cepstrales, el normalizador 120 de nivel de
voz no se utiliza para cuantizar las medias de agrupación, como
comprenderían los entendidos. La salida generada por el normalizador
120 del nivel de voz es suministrada por el extractor 106 de
características a la lógica 110 de comparación de patrones.
Un conjunto de plantillas para todas las
palabras del vocabulario del subsistema 100 de reconocimiento de
voz está permanentemente almacenado en la base de datos 108 de
plantillas. El conjunto de plantillas es, con ventaja, un conjunto
de plantillas independientes de la persona que habla, construidas
con un subsistema de construcción de plantillas independientes de
la persona que habla, según se describe aquí más adelante. La base
de datos 108 de plantillas se implementa, con ventaja, como
cualquier forma convencional de medio de almacenamiento no volátil,
tal como, p. ej., memoria flash. Esto permite que las plantillas
permanezcan en la base de datos 108 de plantillas cuando se
desconecta la energía del subsistema 100 de reconocimiento de
voz.
La lógica 110 de comparación de patrones compara
los vectores del extractor 106 de características con todas las
plantillas almacenadas en la base de datos 108 de plantillas. Los
resultados, o distancias, de la comparación entre los vectores y
todas las plantillas almacenadas en la base de datos 108 de
plantillas se suministran a la lógica 112 de decisión. La lógica
112 de decisión selecciona en la base de datos 108 de plantillas la
plantilla que más estrechamente coincide con los vectores. En la
alternativa, la lógica 112 de decisión puede utilizar un algoritmo
convencional de selección de los "N mejores", que escoge las N
coincidencias más estrechas dentro de un umbral de coincidencia
predefinido. Se consulta luego al usuario en cuanto a qué selección
se deseaba. La salida de la lógica 112 de decisión es la decisión
en cuanto a qué palabra en el vocabulario fue emitida.
La lógica 110 de comparación de patrones y la
lógica 112 de decisión utilizan una técnica DTD para comprobar la
convergencia. La técnica DTD se conoce en la tecnología y se
describe en la obra de Lawrence Rabiner y
Biing-Hwang Juang Fundamentals of Speech
Recognition ["Fundamentos del Reconocimiento de Voz"]
200-238 (1993). Según la técnica DTD, se forma un
enrejado graficando una secuencia temporal de la emisión vocal a
comprobar, con respecto a una secuencia temporal para cada emisión
vocal almacenada en la base de datos 108 de plantillas. La emisión
vocal bajo comprobación se compara entonces, punto a punto (p. ej.,
cada 10 ms), con cada emisión vocal en la base de datos 108 de
plantillas, una emisión vocal por vez. Para cada emisión vocal en la
base de datos 108 de plantillas, la emisión vocal bajo comprobación
se ajusta, o se "distorsiona", con respecto al tiempo,
comprimiéndose o expandiéndose en puntos específicos, hasta que se
logra la más estrecha coincidencia posible con la emisión vocal en
la base de datos 108 de plantillas. En cada punto del tiempo se
comparan las dos emisiones vocales, y o bien se declara una
coincidencia en ese punto (coste cero), o bien se declara una
discrepancia. En el caso de una discrepancia en un punto específico,
la emisión vocal bajo comprobación se comprime, se expande o, si es
necesario, se mantiene discrepante. El procedimiento continúa hasta
que las dos emisiones vocales han sido completamente comparadas
entre sí. Es posible que haya un gran número (típicamente miles) de
emisiones vocales ajustadas diversamente. Se selecciona la emisión
vocal ajustada con la función de coste más bajo (es decir, que
requiere el mínimo número de compresiones y/o expansiones y/o
discrepancias). De manera similar a un algoritmo Viterbi de
descodificación, la selección, con ventaja, se realiza mirando
hacia atrás, desde cada punto en la emisión vocal, en la base de
datos 108 de plantillas, a fin de determinar el camino con el coste
total más bajo. Esto permite determinar la emisión vocal ajustada
con el coste más bajo (es decir, más estrechamente coincidente) sin
recurrir al procedimiento de "fuerza bruta" para generar cada
una de las posibles emisiones vocales diversamente ajustadas. Las
emisiones vocales ajustadas de coste mínimo para todas las
emisiones vocales en la base de datos 108 de plantillas se comparan
luego entre sí, y la que tenga el menor coste se seleccionará como
la emisión vocal almacenada más estrechamente coincidente con la
emisión vocal bajo comprobación.
La lógica 110 de comparación de patrones y la
lógica 112 de decisión pueden implementarse, con ventaja, como un
microprocesador. El subsistema 100 de reconocimiento de voz puede
ser, p. ej., un circuito integrado específico para la aplicación.
La precisión de reconocimiento del subsistema 100 de reconocimiento
de voz es una medida de con qué calidad el subsistema 100 de
reconocimiento de voz reconoce correctamente palabras o frases en
el vocabulario. Por ejemplo, una precisión de reconocimiento del 95%
indica que el subsistema 100 de reconocimiento de voz reconoce
correctamente palabras en el vocabulario noventa y cinco veces de
cada 100.
Según un ejemplo, un subsistema de
reconocimiento de voz (no mostrado) realiza las etapas del algoritmo
ilustradas en el diagrama de flujo de la Fig. 3 para reconocer la
voz ingresada en el subsistema de reconocimiento de voz. En la
etapa 200, la voz de entrada se suministra al subsistema de
reconocimiento de voz. El flujo de control continúa luego hacia la
etapa 202. En la etapa 202 se detectan los puntos de terminación de
una emisión vocal. En un ejemplo específico, los puntos de
terminación de la emisión vocal se detectan según la técnica
descrita en la precitada patente estadounidense Nº 6.324.509, según
se describe anteriormente con referencia a la Fig. 2. El flujo de
control continúa luego hacia la etapa 204.
En la etapa 204 se lleva a cabo la segmentación
de voz por agrupación temporal sobre las emisiones vocales
extraídas. En un ejemplo específico, la técnica utilizada de
segmentación de voz por agrupación temporal es la técnica descrita
en la precitada patente estadounidense Nº 6.278.972, según se
describe anteriormente con referencia a la Fig. 2. El flujo de
control continúa entonces hacia la etapa 208. En la etapa 206 se
proporcionan plantillas independientes de la persona que habla,
para su apareo con las medias de agrupación de voz generadas en la
etapa 204. Las plantillas independientes de la persona que habla se
construyen, con ventaja, según las técnicas descritas más adelante
con referencia a las Figs. 4 a 6. El flujo de control continúa luego
hacia la etapa 208. En la etapa 208 se realiza un apareo DTD entre
las agrupaciones para una emisión vocal específica y todas las
plantillas independientes de la persona que habla, y se selecciona
la plantilla más estrechamente coincidente como la emisión vocal
reconocida. En una realización específica, el apareo DTD se realiza
según las técnicas descritas en la obra de Lawrence Rabiner y
Biing-Hwang Juang Fundamentals of Speech
Recognition ["Fundamentos del Reconocimiento de Voz"]
200-238 (1993) y, anteriormente, con referencia a la
Fig. 2. Se comprendería, por parte de aquellos versados en la
técnica, que podrían realizarse procedimientos distintos a la
segmentación de voz por agrupación temporal en la etapa 204. Tales
procedimientos incluyen, p. ej., la normalización temporal.
Según una realización, según se muestra en la
Fig. 4, un subsistema 300 construcción de plantillas independientes
de la persona que habla incluye un procesador 302 y un medio 304 de
almacenamiento. El procesador 100 es, con ventaja, un
microprocesador, pero puede ser cualquier forma convencional de
procesador, un procesador dedicado, un procesador de señales
digitales (PSD), un controlador o una máquina de estados. El
procesador 302 está acoplado con el medio 304 de almacenamiento,
que se implementa, con ventaja, como memoria flash, memoria EEPROM,
memoria RAM, memoria ROM configurada para contener instrucciones de
firmware, o un módulo de software a ejecutar en el procesador 302,
o cualquier otra forma convencional de memoria. El subsistema 300
de construcción de plantillas independientes de la persona que habla
se implementa, con ventaja, como un ordenador gobernado por el
sistema operativo UNIX®. En realizaciones alternativas, el medio 304
de almacenamiento puede ser una memoria RAM de a bordo, o bien el
procesador 302 y el medio de almacenamiento 304 podrían residir en
un circuito integrado específico para la aplicación. En una
realización, el procesador 302 está configurado para ejecutar un
conjunto de instrucciones contenidas en el medio 304 de
almacenamiento, a fin de llevar a cabo etapas de algoritmo tales
como las etapas descritas más adelante con referencia a la Fig.
6.
Según otra realización, como se muestra en la
Fig. 5, un subsistema 400 constructor de plantillas independientes
de la persona que habla incluye un detector 402 de puntos de
terminación, una lógica 404 de segmentación de voz por agrupación
temporal, un cuantizador vectorial 406, un comprobador 408 de
convergencia y lógica 410 de segmentación de voz en K medias. Un
procesador de control (no mostrado) puede emplearse, con ventaja,
para controlar el número de iteraciones que realiza el subsistema
400 de construcción de plantillas independientes de la persona que
habla.
El detector 402 de puntos de terminación se
acopla con la lógica 404 de segmentación de voz por agrupación
temporal. La lógica 404 de segmentación de voz por agrupación
temporal se acopla con el cuantizador vectorial 406. El cuantizador
vectorial 406 se acopla con el comprobador 408 de convergencia y con
la lógica 410 de segmentación de voz en K medias. El procesador de
control puede acoplarse, con ventaja, con el detector 402 de puntos
de terminación, la lógica 404 de segmentación de voz por agrupación
temporal, el cuantizador vectorial 406, el comprobador 408 de
convergencia y la lógica 410 de segmentación de voz en K medias, a
través de un bus de control (no mostrado).
Las muestras de ejercitación, S_{x}(n),
de una emisión vocal a ejercitar, se suministran en tramas al
detector 402 de puntos de terminación. Las muestras de ejercitación
se suministran, con ventaja, desde una base de datos de
ejercitación (no mostrada) en la cual se almacenan las emisiones
vocales a ejercitar. En una realización la base de datos de
ejercitación contiene 100 palabras, dicha cada una por 100 personas
distintas, con un total de 10.000 emisiones vocales almacenadas. El
detector 402 de puntos de terminación detecta los puntos de
comienzo y de terminación de una emisión vocal. En una realización,
el detector 402 de puntos de terminación funciona según una técnica
descrita en la precitada patente estadounidense Nº 6.324.509 y,
anteriormente, con referencia a la Fig. 2.
El detector 402 de puntos de terminación
proporciona la emisión vocal detectada a la lógica 404 de
segmentación de voz por agrupación temporal. La lógica 404 de
segmentación de voz por agrupación temporal efectúa un algoritmo de
compresión sobre la emisión vocal detectada. En una realización, la
lógica 404 de segmentación de voz por agrupación temporal funciona
según una técnica descrita en la precitada patente estadounidense Nº
6.278.972 y, anteriormente, con referencia a la Fig. 2. En una
realización la lógica 404 de segmentación de voz por agrupación
temporal comprime la emisión vocal detectada en veinte segmentos,
incluyendo cada segmento una media de la agrupación.
La lógica 404 de segmentación de voz por
agrupación temporal proporciona las medias de agrupación, para todas
las emisiones vocales de ejercitación para una palabra dada, al
cuantizador vectorial 406. El cuantizador vectorial 408 cuantiza
las medias de agrupaciones para las emisiones vocales (es decir,
para todas las personas que dicen la misma palabra) y proporciona
los vectores resultantes como una plantilla, potencialmente
independiente de la persona que habla (IPH), para las emisiones
vocales al comprobador 408 de convergencia. El cuantizador
vectorial 406, con ventaja, funciona según cualquiera de las
diversas técnicas conocidas de cuantización vectorial (CV).
Diversas técnicas de CV se describen, p. ej., en la obra de A.
Gersho y R. M. Gray Vector Quantization and Signal
Compression ["Cuantización Vectorial y Compresión de
Señales"] (1992). En una realización específica, el cuantizador
vectorial 406 genera vectores de cuatro agrupaciones. Así, p. ej.,
cada segmento se suministra en serie al cuantizador vectorial 406,
que representa cada segmento como cuatro agrupaciones. Cada
agrupación representa a cada persona que dice la palabra
específica, y hay múltiples agrupaciones por palabra. Según una
realización, hay ochenta vectores (cuatro agrupaciones por veinte
segmentos) por plantilla.
El comprobador 408 de convergencia compara las
plantillas potencialmente IPH con las muestras de prueba,
S_{y}(n), de las emisiones vocales a comprobar. Las muestras de prueba se suministran en tramas al comprobador 408 de convergencia. Las muestras de prueba, con ventaja, se suministran desde una base de datos de prueba (no mostrada), en la cual se almacenan las emisiones vocales a probar. En una realización, la base de datos de prueba contiene 100 palabras, cada una de ellas dicha por 100 personas distintas, con un total de 10.000 emisiones vocales almacenadas. Las palabras, con ventaja, son las mismas palabras contenidas en la base de datos de ejercitación, pero dichas por 100 personas distintas. El comprobador 408 de convergencia compara las plantillas potencialmente IPH para las emisiones vocales a ejercitar con las muestras para las emisiones vocales a probar. En una realización, el comprobador 408 de convergencia se configura para emplear un algoritmo DTD a fin de comprobar la convergencia. El algoritmo DTD empleado puede ser, con ventaja, la técnica descrita en la obra de Lawrence Rabiner y Biing-Hwang Juang, Fundamentals of Speech Recognition ["Fundamentos del Reconocimiento de Voz"] 200-238 (1993) y, anteriormente, con referencia a la Fig. 2.
S_{y}(n), de las emisiones vocales a comprobar. Las muestras de prueba se suministran en tramas al comprobador 408 de convergencia. Las muestras de prueba, con ventaja, se suministran desde una base de datos de prueba (no mostrada), en la cual se almacenan las emisiones vocales a probar. En una realización, la base de datos de prueba contiene 100 palabras, cada una de ellas dicha por 100 personas distintas, con un total de 10.000 emisiones vocales almacenadas. Las palabras, con ventaja, son las mismas palabras contenidas en la base de datos de ejercitación, pero dichas por 100 personas distintas. El comprobador 408 de convergencia compara las plantillas potencialmente IPH para las emisiones vocales a ejercitar con las muestras para las emisiones vocales a probar. En una realización, el comprobador 408 de convergencia se configura para emplear un algoritmo DTD a fin de comprobar la convergencia. El algoritmo DTD empleado puede ser, con ventaja, la técnica descrita en la obra de Lawrence Rabiner y Biing-Hwang Juang, Fundamentals of Speech Recognition ["Fundamentos del Reconocimiento de Voz"] 200-238 (1993) y, anteriormente, con referencia a la Fig. 2.
En una realización el comprobador 408 de
convergencia está configurado para analizar tanto la precisión de
los resultados, para todas las palabras en la base de datos, como la
varianza de la base de datos con respecto a la plantilla
potencialmente IPH. La varianza se comprueba primero y, si la
varianza cae por debajo de un valor umbral predefinido, se
comprueba entonces la precisión. La varianza, con ventaja, se
calcula por segmento y luego se suma para dar un valor general de
varianza. En una realización específica, la varianza se obtiene
calculando el error cuadrático medio para la mejor coincidencia de
las cuatro agrupaciones. La técnica del error cuadrático medio es
bien conocida en la técnica. La prueba de convergencia se declara
precisa si la emisión vocal de la base de datos de prueba coincide
con las plantillas potencialmente IPH generadas por la base de
datos de ejercitación (es decir, si el reconocimiento es correcto
para todas las palabras en la base de datos).
La plantilla potencialmente IPH también se
suministra desde el cuantizador vectorial 406 a la lógica 410 de
segmentación de voz en K medias. La lógica 410 de segmentación de
voz en K medias también recibe las muestras de ejercitación,
repartidas, con ventaja, en tramas. Después de que el comprobador
408 de convergencia ha realizado una primera prueba de
convergencia, los resultados, tanto para la varianza como para la
precisión, pueden caer por debajo de valores de umbral predefinidos
para la varianza y la precisión. En una realización, si los
resultados, tanto de la varianza como de la precisión, caen por
debajo de los valores de umbral predefinidos para la varianza y la
precisión, se realiza otra iteración. En consecuencia, el procesador
de control instruye a la lógica 410 de segmentación de voz en K
medias para llevar a cabo la segmentación en K medias sobre las
muestras de ejercitación, generando por ello tramas de voz
segmentadas, según se describe más adelante. Según la segmentación
de voz en K medias, las muestras de ejercitación se comparan con la
plantilla potencialmente IPH, con ventaja, con una técnica DTD,
generando por ello un camino óptimo, según se describe anteriormente
con referencia a la Fig. 2. Las muestras de ejercitación se
segmentan luego según el camino óptimo. Por ejemplo, las primeras
cinco tramas de las muestras de ejercitación pueden coincidir con la
primera trama de la plantilla potencialmente IPH, las tres tramas
siguientes de las muestras de ejercitación pueden coincidir con la
segunda trama de la plantilla potencialmente IPH, y las siguientes
diez tramas de las muestras de ejercitación pueden coincidir con la
tercera trama de la plantilla potencialmente IPH. En este caso, las
primeras cinco tramas de las muestras de ejercitación se
segmentarían en una trama, las tres tramas siguientes se
segmentarían en una segunda trama, y las diez tramas siguientes se
segmentarían en una tercera trama. En una realización, la lógica
410 de segmentación de voz en K medias realiza la segmentación en K
medias según un ejemplo de técnica de segmentación en K medias
descrita en la obra de Lawrence Rabiner y
Biing-Hwang Juang, Fundamentals of Speech
Recognition ["Fundamentos del Reconocimiento de Voz"]
382-384 (1993), que se incorpora aquí en su
totalidad por referencia. La lógica 410 de segmentación de voz en K
medias suministra entonces las tramas actualizadas de las medias de
agrupación al cuantizador vectorial 406, que cuantiza vectorialmente
las medias de agrupación y suministra los vectores resultantes (que
comprenden la nueva plantilla potencialmente IPH) al comprobador
408 de convergencia, para realizar otra prueba de convergencia.
Alguien versado en la técnica apreciaría que este procedimiento de
iteración puede continuar tanto como sea necesario para lograr
resultados de varianza y precisión por encima de los valores de
umbral predefinidos.
\newpage
Una vez que se ha superado la prueba de
convergencia, las plantillas potencialmente (ahora definitivamente)
IPH pueden emplearse, con ventaja, en un subsistema de
reconocimiento de voz, tal como el subsistema de reconocimiento de
voz de la Fig. 2. Las plantillas IPH finales se almacenarían en la
base de datos 108 de plantillas de la Fig. 2., o se utilizarían en
la etapa 206 del diagrama de flujo de la Fig. 3.
En una realización, un subsistema de
construcción de plantillas independientes de la persona que habla
(no mostrado) lleva a cabo las etapas del procedimiento ilustrado
en el diagrama de flujo de la Fig. 6 para construir una plantilla
independiente de la persona que habla para una emisión vocal. En la
etapa 500 se obtienen muestras de ejercitación de una emisión vocal
de una base de datos de ejercitación (no mostrada). La base de datos
de ejercitación contiene, con ventaja, un gran número de palabras
(p. ej., 100 palabras), cada una de ellas dicha por un gran número
de personas que hablan (p. ej., 100 personas que hablan por cada
palabra). El flujo de control continúa luego hacia la etapa 502.
En la etapa 502 se lleva a cabo la detección de
puntos de terminación sobre las muestras de ejercitación a fin de
detectar una emisión vocal. En una realización, la detección de
puntos de terminación se realiza según una técnica descrita en la
precitada Solicitud Estadounidense con Nº de Serie 09 / 246.414 y,
anteriormente, con referencia a la Fig. 2. El flujo de control
continúa luego hacia la etapa 504.
En la etapa 504 se lleva a cabo la segmentación
de voz por agrupación temporal sobre la emisión vocal detectada,
comprimiendo por ello la emisión vocal en segmentos múltiples,
estando cada segmento representado por una media. En una
realización específica, la emisión vocal se comprime en veinte
segmentos, incluyendo cada segmento una media de la agrupación. En
una realización, la segmentación de voz por agrupación temporal se
lleva a cabo según una técnica descrita en la precitada patente
estadounidense Nº 6.278.972 y, anteriormente, con referencia a la
Fig. 2. El flujo de control continúa luego hacia la etapa 506.
En la etapa 506, las medias de agrupación para
muestras de ejercitación, para todos las personas que hablan, que
dicen la misma palabra, se cuantizan vectorialmente. En
realizaciones específicas, las medias de agrupación se cuantizan
vectorialmente según cualquiera de las diversas técnicas conocidas
de CV descritas en la obra de A. Gersho y R. M. Gray, Vector
Quantization and Signal Compression ["Cuantización
Vectorial y Compresión de Señales"] (1992). En una realización
específica, se generan vectores de cuatro agrupaciones. De esta
manera, p. ej., cada segmento se representa como cuatro
agrupaciones. Cada agrupación representa a cada persona que dice la
palabra específica, y hay múltiples agrupaciones por palabra. Según
una realización, se generan ochenta vectores (cuatro agrupaciones
por veinte segmentos) por plantilla. El flujo de control continúa
luego hacia la etapa 510.
En la etapa 508, las muestras de ejercitación
obtenidas de una base de datos de prueba (no mostrada) se comprueban
en cuanto a convergencia. La base de datos de prueba, con ventaja,
contiene las mismas palabras contenidas en la base de datos de
ejercitación, cada una de ellas dicha por un gran número de personas
que hablan (p. ej., 100 personas que hablan por emisión vocal). El
flujo de control continúa luego hacia la etapa 510.
En la etapa 510 los vectores cuantizados se
comparan como plantillas potencialmente IPH con las muestras de
prueba, a fin de comprobar la convergencia. En una realización, la
prueba de convergencia es un algoritmo DTD. El algoritmo DTD
empleado, con ventaja, puede ser la técnica descrita en la obra de
Lawrence Rabiner y Biing-Hwang Juang,
Fundamentals of Speech Recognition ["Fundamentos del
Reconocimiento de Voz"] 200-238 (1993) y,
anteriormente, con referencia a la Fig. 2.
En una realización, la prueba de convergencia de
la etapa 510 analiza tanto la precisión de los resultados para
todas las palabras en la base de datos, como la varianza de la base
de datos con respecto a la plantilla potencialmente IPH. La
varianza se comprueba primero y, si la varianza cae por debajo de un
valor umbral predefinido, se comprueba entonces la precisión. La
varianza se calcula, con ventaja, por cada segmento, y luego se suma
para dar un valor general de varianza. En una realización
específica, la varianza se obtiene calculando el error cuadrático
medio para la mejor coincidencia de las cuatro agrupaciones. La
técnica del error cuadrático medio es bien conocida en la técnica.
La prueba de convergencia se declara precisa si la plantilla
potencialmente IPH generada por la base de datos de prueba coincide
con la emisión vocal de la base de datos de ejercitación (es decir,
si el reconocimiento es correcto para todas las palabras en la base
de datos). El flujo de control continúa luego hacia la etapa
512.
En la etapa 512, si los resultados de la prueba
de convergencia de la etapa 510, tanto para la varianza como para
la precisión, caen por debajo de valores de umbral predefinidos para
la varianza y la precisión, se realiza otra iteración. En
consecuencia, se lleva a cabo la segmentación de voz en K medias
sobre las muestras de ejercitación. La segmentación de voz en K
medias aparea las muestras de ejercitación con la plantilla
potencialmente IPH, con ventaja, con una técnica DTD, generando por
ello un camino óptimo según se describe anteriormente con
referencia a la Fig. 2. Las muestras de ejercitación se segmentan
luego según el camino óptimo. En una realización la segmentación de
voz en K medias se efectúa según una técnica descrita en la obra de
Lawrence Rabiner y Biing-Hwang Juang,
Fundamentals of Speech Recognition ["Fundamentos del
Reconocimiento de Voz"] 382-384 (1993). El flujo
de control vuelve luego a la etapa 506, en la cual las tramas
actualizadas de medias de agrupación se cuantizan vectorialmente y,
en la etapa 510, se comprueban (como la nueva plantilla
potencialmente IPH) en cuanto a la convergencia con las muestras de
la base de datos de prueba. Alguien versado en la técnica
apreciaría que este procedimiento de iteración puede continuar tanto
como sea necesario para lograr resultados de varianza y precisión
por encima de los valores de umbral predefinidos.
\newpage
Una vez que la prueba de convergencia se ha
superado (es decir, una vez que se alcanzan los valores de umbral),
las plantillas potencialmente (ahora definitivamente) IPH pueden
utilizarse, con ventaja, en un subsistema de reconocimiento de voz
tal como el subsistema de reconocimiento de voz de la Fig. 2. Las
plantillas definitivamente IPH se almacenarían en la base de datos
108 de plantillas de la Fig. 2, o se emplearían en la etapa 206 del
diagrama de flujo de la Fig. 3.
De esta manera, se han descrito un procedimiento
y aparato novedosos y mejorados para construir plantillas de voz
para un sistema de reconocimiento de voz independiente de la persona
que habla. Aquellos versados en la técnica comprenderían que los
datos, instrucciones, comandos, información, señales, bits, símbolos
y chips que puedan mencionarse a lo largo de la descripción
anterior se representan, con ventaja, por medio de voltajes,
corrientes, ondas electromagnéticas, campos o partículas magnéticas,
campos o partículas ópticas, o cualquier combinación de los mismos.
Los capacitados apreciarían adicionalmente que los diversos bloques
lógicos, módulos, circuitos y etapas de algoritmos ilustrativos,
descritos con relación a las realizaciones aquí reveladas, pueden
implementarse como hardware electrónico, software de ordenador, o
combinaciones de ambos. Los diversos componentes, bloques, módulos,
circuitos y etapas ilustrativos han sido descritos, generalmente, en
términos de su funcionalidad. Que la funcionalidad se implemente
como hardware o software depende de la aplicación específica y de
las restricciones de diseño impuestas sobre el sistema general. Los
artesanos capacitados reconocen la intercambiabilidad del hardware
y del software bajo estas circunstancias, y la mejor manera de
implementar la funcionalidad descrita para cada aplicación
específica. Como ejemplos, los diversos bloques lógicos, módulos,
circuitos y etapas de algoritmos ilustrativos descritos con relación
a las realizaciones aquí reveladas pueden implementarse o llevarse
a cabo con un procesador de señales digitales (PSD), un circuito
integrado específico para la aplicación (ASIC), una formación de
compuertas programables en el campo (FPGA) u otro dispositivo de
lógica programable, compuerta discreta o lógica en transistor,
componentes discretos de hardware tales como, p. ej., registros y
colas de régimen FIFO, un procesador que ejecuta un conjunto de
instrucciones en firmware, cualquier módulo convencional de software
programable y un procesador, o cualquier combinación de los mismos
diseñada para realizar las funciones aquí descritas. El procesador,
con ventaja, puede ser un microprocesador, pero en la alternativa,
el procesador puede ser cualquier procesador, controlador,
microcontrolador o máquina de estados convencionales. El módulo de
software podría residir en memoria RAM, memoria flash, memoria ROM,
memoria EPROM, memoria EEPROM, registros, disco rígido, un disco
extraíble, un CD-ROM o cualquier otra forma de
medio de almacenamiento conocida en la técnica. Un ejemplo de
procesador, con ventaja, se acopla con el medio de almacenamiento a
fin de leer información de, y grabar información en, el medio de
almacenamiento. En la alternativa, el medio de almacenamiento puede
estar integrado al procesador. El procesador y el medio de
almacenamiento pueden residir en un ASIC. El ASIC puede residir en
un teléfono. En la alternativa, el procesador y el medio de
almacenamiento pueden residir en un teléfono. El procesador puede
implementarse como una combinación de un PSD y un microprocesador, o
como dos microprocesadores conjuntamente con un núcleo de PSD,
etc.
De esta manera, se han mostrado y descrito las
realizaciones preferidas de la presente invención. Sería patente
para alguien medianamente versado en la técnica, sin embargo, que
pueden hacerse numerosas alteraciones a las realizaciones aquí
reveladas sin apartarse del espíritu o ámbito de la invención. Por
lo tanto, la presente invención no debe limitarse, excepto según
las siguientes reivindicaciones.
Claims (25)
1. Un procedimiento para crear plantillas de
voz, para su empleo en un sistema de reconocimiento de voz
independiente de la persona que habla, comprendiendo el
procedimiento:
segmentar cada emisión vocal de una primera
pluralidad de emisiones vocales, a fin de generar una pluralidad de
segmentos agrupados temporalmente para cada emisión vocal, estando
cada segmento agrupado temporalmente representado por una media
espectral;
cuantizar la pluralidad de medias espectrales
para todas las emisiones vocales de la primera pluralidad, a fin de
generar una pluralidad de vectores de plantilla;
comparar cada uno de los vectores de plantilla
de la pluralidad con una segunda pluralidad de emisiones vocales, a
fin de generar al menos un resultado de comparación;
aparear la primera pluralidad de emisiones
vocales con la pluralidad de vectores de plantilla si el resultado,
o resultados, de comparación supera(n) al menos un valor de
umbral predefinido, a fin de generar un resultado de camino óptimo
de apareo;
repartir la primera pluralidad de emisiones
vocales en el tiempo, según el resultado del camino óptimo de
apareo; y
repetir la cuantización, comparación, apareo y
partición hasta que el resultado, o resultados, de la comparación
no supere(n) ningún valor, o valores, de umbral
predefinido(s).
2. El procedimiento de la reivindicación 1, en
el cual la comparación comprende calcular una medida de
varianza.
3. El procedimiento de la reivindicación 1, en
el cual la comparación comprende calcular una medida de
precisión.
4. El procedimiento de la reivindicación 1, en
el cual la comparación comprende calcular primero una medida de
varianza y, luego, si la medida de varianza no supera un primer
valor de umbral predefinido, calcular una medida de precisión.
5. El procedimiento de la reivindicación 4, en
el cual el apareo comprende aparear la primera emisión vocal con la
pluralidad de vectores de plantilla si la medida de varianza supera
el primer valor de umbral predefinido, o bien la medida de
precisión supera un segundo valor de umbral predefinido.
6. El procedimiento de la reivindicación 1, en
el cual la comparación comprende realizar un cálculo de distorsión
temporal dinámica.
7. El procedimiento de la reivindicación 1, en
el cual el apareo comprende realizar un cálculo de distorsión
temporal dinámica.
8. El procedimiento de la reivindicación 1, en
el cual el apareo y la partición comprenden realizar un cálculo de
segmentación en K medias.
9. El procedimiento de la reivindicación 1, que
comprende adicionalmente detectar los puntos de terminación de la
primera emisión vocal.
10. Un aparato configurado a fin de crear
plantillas de voz, para su empleo en un sistema de reconocimiento
de voz independiente de la persona que habla, comprendiendo el
aparato:
medios (404) para segmentar cada emisión vocal
de una primera pluralidad de emisiones, a fin de generar una
pluralidad de segmentos agrupados temporalmente para cada emisión
vocal, estando cada segmento agrupado temporalmente representado por
una media espectral;
medios (406) para cuantizar la pluralidad de
medias espectrales, para todas las emisiones vocales de la primera
pluralidad, a fin de generar una pluralidad de vectores de
plantilla;
medios (408) para comparar cada uno de la
pluralidad de vectores de plantilla con una segunda pluralidad de
emisiones vocales, a fin de generar al menos un resultado de
comparación;
medios (410) para aparear la primera pluralidad
de emisiones vocales con la pluralidad de vectores de plantilla, si
el resultado, o resultados, de comparación supera(n) al menos
un valor de umbral predefinido, a fin de generar un resultado de
camino óptimo de apareo;
\newpage
medios (410) para repartir la primera pluralidad
de emisiones vocales en el tiempo, según el resultado del camino
óptimo de apareo; y
medios para repetir la cuantización,
comparación, apareo y partición, hasta que el resultado, o
resultados, de comparación no supere(n) ningún valor, o
valores, de umbral predefinido(s).
11. Un aparato según la reivindicación 10, en el
cual:
los medios para segmentar comprenden lógica de
segmentación;
los medios para cuantizar comprenden un
cuantizador acoplado con la lógica de segmentación;
los medios para comparar comprenden un
comprobador de convergencia acoplado con el cuantizador; y
los medios para aparear y repartir comprenden
lógica de partición acoplada con el cuantizador y el comprobador de
convergencia, y
en el cual el cuantizador, el comprobador de
convergencia y la lógica de partición están adicionalmente
configurados para repetir la cuantización, comparación, apareo y
partición hasta que el resultado, o resultados, de comparación no
supere(n) ningún valor, o valores, de umbral
predefinido(s).
12. El aparato de la reivindicación 11, en el
cual el comprobador de convergencia está configurado para realizar
un cálculo de distorsión temporal dinámica.
13. El aparato de la reivindicación 11, en el
cual la lógica de partición está configurada para realizar un
cálculo de distorsión temporal dinámica.
14. El aparato de la reivindicación 11, en el
cual la lógica de partición comprende lógica de segmentación de voz
en K medias.
15. El aparato de la reivindicación 11, que
comprende adicionalmente un detector de puntos de terminación
acoplado con la lógica de segmentación, y configurado para detectar
puntos de terminación de la primera emisión vocal.
16. Un producto de programa informático
almacenado en un medio legible por ordenador, que comprende medios
de código de programa legible por ordenador, que representan
instrucciones del procesador para causar que un ordenador lleve a
cabo todas las etapas de la reivindicación 1 cuando dicho producto
se ejecuta en un ordenador.
17. Un aparato configurado a fin de crear
plantillas de voz, para su empleo en un sistema de reconocimiento de
voz independiente de la persona que habla, comprendiendo el
aparato:
un procesador; y
medios adaptados para leer el programa de la
reivindicación 16 en un medio de almacenamiento, y para causar la
ejecución de dicho programa por dicho procesador.
18. El aparato o producto de programa de la
reivindicación 10, 11, 16 o 17, en el cual el resultado, o
resultados, de comparación es, o son, una medición de varianza.
19. El aparato o producto de programa de la
reivindicación 10, 11, 16 o 17, en el cual el resultado, o
resultados, de comparación es, o son, una medición de precisión.
20. El aparato o producto de programa de la
reivindicación 10, 11, 16 o 17, en el cual el resultado, o
resultados, de comparación es, o son, una medida de varianza y una
medida de precisión, y en el cual el conjunto de instrucciones es
ejecutable por el procesador para calcular primero la medida de
varianza y, luego, si la medida de varianza no supera un primer
valor de umbral predefinido, calcular la medida de precisión.
21. El aparato o producto de programa de la
reivindicación 20, en el cual el conjunto de instrucciones es
adicionalmente ejecutable por el procesador a fin de aparear la
primera emisión vocal con la pluralidad de vectores de plantilla,
si la medida de varianza supera el primer valor de umbral
predefinido, o bien la medida de precisión supera un segundo valor
de umbral predefinido.
22. El producto de programa o aparato de la
reivindicación 16 o 17, en el cual el conjunto de instrucciones es
ejecutable por el procesador para comparar cada uno de la pluralidad
de vectores de plantilla con la pluralidad de emisiones vocales,
realizando un cálculo de distorsión temporal dinámica.
23. El producto de programa o aparato de la
reivindicación 16 o 17, en el cual el conjunto de instrucciones es
ejecutable por el procesador a fin de aparear la primera emisión
vocal con la pluralidad de vectores de plantilla, realizando un
cálculo de distorsión temporal dinámica.
24. El producto de programa o aparato de la
reivindicación 16 o 17, en el cual el conjunto de instrucciones es
ejecutable por el procesador a fin de repartir la primera emisión
vocal, realizando un cálculo de segmentación de voz en K medias.
25. El producto de programa o aparato de la
reivindicación 16 o 17, en el cual el conjunto de instrucciones es
adicionalmente ejecutable por el procesador a fin de detectar puntos
de terminación de la primera emisión vocal.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/615,572 US6735563B1 (en) | 2000-07-13 | 2000-07-13 | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system |
US615572 | 2000-07-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2275700T3 true ES2275700T3 (es) | 2007-06-16 |
Family
ID=24465970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01952681T Expired - Lifetime ES2275700T3 (es) | 2000-07-13 | 2001-07-11 | Procedimiento y aparato para crear plantillas de voz para un sistema de reconocimiento de voz independiente. |
Country Status (13)
Country | Link |
---|---|
US (1) | US6735563B1 (es) |
EP (1) | EP1301919B1 (es) |
JP (1) | JP4202124B2 (es) |
KR (1) | KR100766761B1 (es) |
CN (1) | CN1205601C (es) |
AT (1) | ATE345562T1 (es) |
AU (1) | AU2001273410A1 (es) |
BR (1) | BR0112405A (es) |
DE (1) | DE60124551T2 (es) |
ES (1) | ES2275700T3 (es) |
HK (1) | HK1056427A1 (es) |
TW (1) | TW514867B (es) |
WO (1) | WO2002007145A2 (es) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6990446B1 (en) * | 2000-10-10 | 2006-01-24 | Microsoft Corporation | Method and apparatus using spectral addition for speaker recognition |
DE10127559A1 (de) | 2001-06-06 | 2002-12-12 | Philips Corp Intellectual Pty | Benutzergruppenspezifisches Musterverarbeitungssystem |
TW541517B (en) * | 2001-12-25 | 2003-07-11 | Univ Nat Cheng Kung | Speech recognition system |
KR100533601B1 (ko) * | 2002-12-05 | 2005-12-06 | 베스티안파트너스(주) | 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법 |
US7509257B2 (en) * | 2002-12-24 | 2009-03-24 | Marvell International Ltd. | Method and apparatus for adapting reference templates |
WO2005026043A2 (en) | 2003-07-29 | 2005-03-24 | Intelligent Energy, Inc. | Methods for providing thin hydrogen separation membranes and associated uses |
US7389233B1 (en) * | 2003-09-02 | 2008-06-17 | Verizon Corporate Services Group Inc. | Self-organizing speech recognition for information extraction |
KR100827074B1 (ko) * | 2004-04-06 | 2008-05-02 | 삼성전자주식회사 | 이동 통신 단말기의 자동 다이얼링 장치 및 방법 |
US7914468B2 (en) * | 2004-09-22 | 2011-03-29 | Svip 4 Llc | Systems and methods for monitoring and modifying behavior |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
CN1963918A (zh) * | 2005-11-11 | 2007-05-16 | 株式会社东芝 | 说话人模板的压缩、合并装置和方法,以及说话人认证 |
US8612229B2 (en) | 2005-12-15 | 2013-12-17 | Nuance Communications, Inc. | Method and system for conveying an example in a natural language understanding application |
JP4745094B2 (ja) * | 2006-03-20 | 2011-08-10 | 富士通株式会社 | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム |
US20070276668A1 (en) * | 2006-05-23 | 2007-11-29 | Creative Technology Ltd | Method and apparatus for accessing an audio file from a collection of audio files using tonal matching |
US8532984B2 (en) | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
US8239190B2 (en) | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
TWI349266B (en) * | 2007-04-13 | 2011-09-21 | Qisda Corp | Voice recognition system and method |
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
US20120168331A1 (en) * | 2010-12-30 | 2012-07-05 | Safecode Drug Technologies Corp. | Voice template protector for administering medicine |
CN102623008A (zh) * | 2011-06-21 | 2012-08-01 | 中国科学院苏州纳米技术与纳米仿生研究所 | 声纹识别方法 |
CN105989849B (zh) * | 2015-06-03 | 2019-12-03 | 乐融致新电子科技(天津)有限公司 | 一种语音增强方法、语音识别方法、聚类方法及装置 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
KR101901965B1 (ko) * | 2017-01-12 | 2018-09-28 | 엘에스산전 주식회사 | 프로젝트 화면 작성장치 |
KR102509821B1 (ko) * | 2017-09-18 | 2023-03-14 | 삼성전자주식회사 | Oos 문장을 생성하는 방법 및 이를 수행하는 장치 |
CN110706710A (zh) * | 2018-06-25 | 2020-01-17 | 普天信息技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN109801622B (zh) * | 2019-01-31 | 2020-12-22 | 嘉楠明芯(北京)科技有限公司 | 一种语音识别模板训练方法、语音识别方法及装置 |
CN111063348B (zh) * | 2019-12-13 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、设备及计算机存储介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4415767A (en) * | 1981-10-19 | 1983-11-15 | Votan | Method and apparatus for speech recognition and reproduction |
CA1261472A (en) | 1985-09-26 | 1989-09-26 | Yoshinao Shiraki | Reference speech pattern generating method |
US4797929A (en) * | 1986-01-03 | 1989-01-10 | Motorola, Inc. | Word recognition in a speech recognition system using data reduced word templates |
CA1299750C (en) * | 1986-01-03 | 1992-04-28 | Ira Alan Gerson | Optimal method of data reduction in a speech recognition system |
US4855910A (en) * | 1986-10-22 | 1989-08-08 | North American Philips Corporation | Time-clustered cardio-respiratory encoder and method for clustering cardio-respiratory signals |
US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
ATE294441T1 (de) | 1991-06-11 | 2005-05-15 | Qualcomm Inc | Vocoder mit veränderlicher bitrate |
US5337394A (en) * | 1992-06-09 | 1994-08-09 | Kurzweil Applied Intelligence, Inc. | Speech recognizer |
US5682464A (en) * | 1992-06-29 | 1997-10-28 | Kurzweil Applied Intelligence, Inc. | Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values |
JP3336754B2 (ja) * | 1994-08-19 | 2002-10-21 | ソニー株式会社 | デジタルビデオ信号の記録方法及び記録装置 |
US5839103A (en) * | 1995-06-07 | 1998-11-17 | Rutgers, The State University Of New Jersey | Speaker verification system using decision fusion logic |
JP3180655B2 (ja) * | 1995-06-19 | 2001-06-25 | 日本電信電話株式会社 | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 |
KR0169414B1 (ko) * | 1995-07-01 | 1999-01-15 | 김광호 | 복수채널 직렬 접속 제어회로 |
CN1302427A (zh) * | 1997-11-03 | 2001-07-04 | T-内提克斯公司 | 用于说话者认证的模型自适应系统和方法 |
US6278972B1 (en) * | 1999-01-04 | 2001-08-21 | Qualcomm Incorporated | System and method for segmentation and recognition of speech signals |
US6266643B1 (en) * | 1999-03-03 | 2001-07-24 | Kenneth Canfield | Speeding up audio without changing pitch by comparing dominant frequencies |
US6510534B1 (en) * | 2000-06-29 | 2003-01-21 | Logicvision, Inc. | Method and apparatus for testing high performance circuits |
-
2000
- 2000-07-13 US US09/615,572 patent/US6735563B1/en not_active Expired - Lifetime
-
2001
- 2001-07-11 DE DE60124551T patent/DE60124551T2/de not_active Expired - Lifetime
- 2001-07-11 AU AU2001273410A patent/AU2001273410A1/en not_active Abandoned
- 2001-07-11 BR BR0112405-6A patent/BR0112405A/pt not_active IP Right Cessation
- 2001-07-11 ES ES01952681T patent/ES2275700T3/es not_active Expired - Lifetime
- 2001-07-11 EP EP01952681A patent/EP1301919B1/en not_active Expired - Lifetime
- 2001-07-11 CN CNB018127711A patent/CN1205601C/zh not_active Expired - Fee Related
- 2001-07-11 WO PCT/US2001/022009 patent/WO2002007145A2/en active IP Right Grant
- 2001-07-11 KR KR1020037000496A patent/KR100766761B1/ko not_active IP Right Cessation
- 2001-07-11 AT AT01952681T patent/ATE345562T1/de not_active IP Right Cessation
- 2001-07-11 JP JP2002512966A patent/JP4202124B2/ja not_active Expired - Fee Related
- 2001-07-13 TW TW090117207A patent/TW514867B/zh not_active IP Right Cessation
-
2003
- 2003-11-26 HK HK03108617A patent/HK1056427A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US6735563B1 (en) | 2004-05-11 |
CN1205601C (zh) | 2005-06-08 |
KR100766761B1 (ko) | 2007-10-17 |
DE60124551D1 (de) | 2006-12-28 |
JP4202124B2 (ja) | 2008-12-24 |
DE60124551T2 (de) | 2007-09-06 |
JP2004504641A (ja) | 2004-02-12 |
WO2002007145A3 (en) | 2002-05-23 |
CN1441947A (zh) | 2003-09-10 |
ATE345562T1 (de) | 2006-12-15 |
WO2002007145A2 (en) | 2002-01-24 |
BR0112405A (pt) | 2003-12-30 |
EP1301919A2 (en) | 2003-04-16 |
TW514867B (en) | 2002-12-21 |
EP1301919B1 (en) | 2006-11-15 |
KR20030014332A (ko) | 2003-02-15 |
AU2001273410A1 (en) | 2002-01-30 |
HK1056427A1 (en) | 2004-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2275700T3 (es) | Procedimiento y aparato para crear plantillas de voz para un sistema de reconocimiento de voz independiente. | |
US6671669B1 (en) | combined engine system and method for voice recognition | |
White et al. | Speech recognition experiments with linear predication, bandpass filtering, and dynamic programming | |
EP1316086B1 (en) | Combining dtw and hmm in speaker dependent and independent modes for speech recognition | |
US5794196A (en) | Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules | |
US6922668B1 (en) | Speaker recognition | |
Burton et al. | Isolated-word speech recognition using multisection vector quantization codebooks | |
US20080052075A1 (en) | Incrementally regulated discriminative margins in MCE training for speech recognition | |
CN111179905A (zh) | 一种快速配音生成方法及装置 | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
US7136815B2 (en) | Method for voice recognition | |
ES2286014T3 (es) | Esquema de rechazo de reconocimiento de voz. | |
Yuan et al. | Binary quantization of feature vectors for robust text-independent speaker identification | |
Kim et al. | On approximating line spectral frequencies to LPC cepstral coefficients | |
Ravinder | Comparison of hmm and dtw for isolated word recognition system of punjabi language | |
US20030036905A1 (en) | Information detection apparatus and method, and information search apparatus and method | |
GB2388947A (en) | Method of voice authentication | |
US20070055502A1 (en) | Speech analyzing system with speech codebook | |
Kumar et al. | Text dependent voice recognition system using MFCC and VQ for security applications | |
KR20230094826A (ko) | 음소 및 문맥 정보를 고려한 화자 임베딩 추출 방법 및 장치 | |
Li | Speech recognition of mandarin monosyllables | |
Nair et al. | A reliable speaker verification system based on LPCC and DTW | |
Moore | Systems for isolated and connected word recognition | |
EP0190489B1 (en) | Speaker-independent speech recognition method and system | |
KR20060062287A (ko) | 문맥 요구형 화자 독립 인증 시스템 및 방법 |