ES2239650T3 - Identificacion y verificacion de interlocutores. - Google Patents
Identificacion y verificacion de interlocutores.Info
- Publication number
- ES2239650T3 ES2239650T3 ES01305725T ES01305725T ES2239650T3 ES 2239650 T3 ES2239650 T3 ES 2239650T3 ES 01305725 T ES01305725 T ES 01305725T ES 01305725 T ES01305725 T ES 01305725T ES 2239650 T3 ES2239650 T3 ES 2239650T3
- Authority
- ES
- Spain
- Prior art keywords
- voice
- interlocutor
- interlocutors
- space
- partner
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012795 verification Methods 0.000 title claims description 37
- 238000000034 method Methods 0.000 claims abstract description 79
- 239000013598 vector Substances 0.000 claims abstract description 38
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 230000009467 reduction Effects 0.000 claims description 12
- 230000001419 dependent effect Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000006870 function Effects 0.000 description 21
- 239000000203 mixture Substances 0.000 description 15
- 238000012360 testing method Methods 0.000 description 15
- 238000009826 distribution Methods 0.000 description 14
- 230000007704 transition Effects 0.000 description 14
- 230000006978 adaptation Effects 0.000 description 11
- 238000013459 approach Methods 0.000 description 10
- 230000009466 transformation Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 238000007667 floating Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012880 independent component analysis Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 235000015278 beef Nutrition 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 210000003928 nasal cavity Anatomy 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 102000005717 Myeloma Proteins Human genes 0.000 description 1
- 108010045503 Myeloma Proteins Proteins 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 201000009240 nasopharyngitis Diseases 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
Abstract
Método para evaluar una voz con respecto a un interlocutor (124) cliente predeterminado, comprendiendo el método las etapas de: preparar un conjunto de modelos (126) de voz con la voz (22) a partir de una pluralidad de interlocutores (122) de instrucción, en el que la pluralidad de interlocutores de instrucción no incluye al interlocutor cliente; generar vectores (134) de base que definen un espacio (142) de interlocutores a partir del conjunto de modelos (126) de voz para representar dicha pluralidad de interlocutores (122) de instrucción; representar la voz de registro de dicho interlocutor (124) cliente como una primera ubicación en dicho espacio (142) de interlocutores; caracterizado por generar un modelo (146) probabilístico de voz desde la primera ubicación; determinar en el espacio del modelo si un nuevo interlocutor (150) es el interlocutor (124) cliente evaluando una probabilidad de que el dato de voz procedente del nuevo interlocutor (150) se genere por el modelo (146) probabilístico de voz y utilizar dicha evaluación como una indicación de si el nuevo interlocutor (150) es el interlocutor (124) cliente.
Description
Identificación y verificación de
interlocutores.
La presente invención se refiere en general a la
tecnología de la voz y, más en particular, a un método para realizar
una verificación de interlocutores o una identificación de
interlocutores.
El problema de la autentificación se encuentra en
el fondo casi de cada transacción. Millones de personas realizan
transacciones financieras confidenciales por teléfono, tales como
acceder a sus cuentas bancarias o utilizar sus tarjetas de crédito.
La autentificación en esta práctica actual está lejos de ser
infalible. Las partes intercambian alguna forma de información
supuestamente secreta, tal como el número de la seguridad social, el
nombre de soltera de su madre o similares. Claramente, esta
información puede ser pirateada dando como resultado una falsa
autentificación.
Un aspecto de la presente invención trata el
problema anterior proporcionando un método para realizar una
verificación de interlocutores. La verificación de interlocutores
implica determinar si una voz dada pertenece a un determinado
interlocutor (en el presente documento denominado el "cliente")
o a un impostor (cualquiera que no sea el cliente).
En cierto modo relacionado con el problema de la
verificación de interlocutores está el problema de la identificación
de interlocutores. La identificación de interlocutores implica
comparar una voz dada con una de un grupo de voces conocidas. Como
la verificación de interlocutores, la identificación de
interlocutores tiene varias aplicaciones atractivas. Por ejemplo, un
sistema de identificación de interlocutores puede utilizarse para
clasificar un buzón de voz por interlocutor para un grupo de
interlocutores, para lo cual están sus muestras de voz. Una
capacidad de este tipo permitiría un sistema telefónico implementado
por ordenador para visualizar en una pantalla de ordenador la
identidad de las personas que llaman que han dejado mensajes en el
sistema de buzón de voz.
Aunque las aplicaciones para la verificación de
interlocutores y la identificación de interlocutores son
prácticamente infinitas, hasta ahora la solución para realizar estas
dos tareas ha demostrado ser difícil de alcanzar. Reconocer la voz
humana y particularmente distinguir un interlocutor de otros
interlocutores es un problema complejo. Pocas veces pronuncia una
persona ni siquiera una única palabra dos veces de la misma manera,
debido a cómo se produce la voz humana.
La voz humana es el resultado de aire bajo
presión procedente de los pulmones que es forzado a través de las
cuerdas vocales y modulado por la glotis para producir ondas
sonoras, que entonces resuenan en las cavidades oral y nasal antes
de ser articuladas por la lengua, mandíbula, dientes y labios.
Muchos factores afectan a cómo interactúan estos mecanismos de
producción de sonidos. El resfriado común, por ejemplo, altera en
gran medida la resonancia de la cavidad nasal así como la calidad
tonal de las cuerdas vocales.
Dada la complejidad y variabilidad con la que el
ser humano produce la voz, la verificación de interlocutores y la
identificación de interlocutores no se realizan fácilmente
comparando una nueva voz con una muestra de voz grabada
anteriormente. Empleando un umbral alto de similitud, para excluir
impostores, se puede excluir al auténtico interlocutor si él o ella
están resfriados. Por otro lado, emplear un umbral bajo de similitud
puede hacer que el sistema sea susceptible de una identificación
falsa. El documento EP-A-0984431 da
a conocer el reconocimiento de interlocutores basado en autovoces
("eigenvoices"), Ngugen P. et al., "Eigenvoices: A
compact representation of speakers in model space", Armals of
Telecommunications, Presses Polytechniques et Universitaires
Romandes, Louisanne, CH, vol. 55, nº 3/4, marzo de 2000; da a
conocer un reconocimiento de interlocutores que utiliza la
divergencia como medida de similitud.
Según la invención, se proporciona un método tal
como se expone en la reivindicación 1.
Para un entendimiento más completo de la
invención, sus objetos y ventajas, véanse la siguiente memoria
descriptiva y los dibujos adjuntos.
La figura 1 ilustra un modelo oculto de Markov
(HMM, Hidden Markov Model) a modo de ejemplo, útil para entender la
invención;
la figura 2 es un diagrama de flujo que muestra
cómo puede construirse el autoespacio ("eigenspace") para
implementar un sistema de identificación de interlocutores en el que
los interlocutores clientes conocidos están representados como
puntos en el autoespacio;
la figura 3 es un diagrama de flujo que ilustra
cómo puede construirse el autoespacio para implementar un sistema de
verificación de interlocutores en el que el interlocutor cliente y
los posibles impostores están representados como distribuciones en
el autoespacio;
\newpage
la figura 4 es un diagrama de flujo que ilustra
el procedimiento mediante el cual la identificación de
interlocutores o la verificación de interlocutores pueden realizarse
utilizando el autoespacio desarrollado durante la instrucción;
la figura 5 es una ilustración de cómo se realiza
la técnica de máxima probabilidad;
la figura 6 es un diagrama estructural de datos
que ilustra cómo pueden situarse los datos de observación
procedentes de un interlocutor en un autoespacio basado en la
operación de máxima probabilidad;
la figura 7 ilustra un modelo de mezclas
gaussianas (GMM) a modo de ejemplo, útil para entender la
invención;
la figura 8 es un diagrama de flujo que muestra
cómo pueden utilizarse los puntos procedentes del autoespacio para
generar modelos probabilísticos de voz;
la figura 9 es un diagrama de flujo que muestra
el procedimiento mediante el cual la identificación de
interlocutores o la verificación de interlocutores pueden realizarse
utilizando modelos de voz generados desde el espacio de
interlocutores;
la figura 10 es un diagrama de flujo que muestra
un enfoque para registrar interlocutores para solicitarles una voz
adicional basada en una distancia media entre las palabras
pronunciadas; y
la figura 11 es un diagrama de flujo que muestra
otro enfoque para registrar interlocutores para solicitarles una voz
adicional basada en la densidad de población dentro del espacio de
interlocutores.
Las técnicas de autovoces utilizadas por la
presente invención trabajarán con diferentes modelos de voz. Se
ilustran la realización preferida en relación con un reconocedor de
modelo oculto de Markov debido a su popularidad actual en la
tecnología de reconocimiento de voz. Sin embargo, debe entenderse
que la invención puede ponerse en práctica utilizando otros tipos de
reconocedores basados en modelos tales como, por ejemplo,
reconocedores de similitud de fonemas.
Para entender mejor las técnicas de verificación
e identificación de interlocutores de la invención, sería útil un
entendimiento básico de los sistemas de reconocimiento de voz. Dado
que la mayoría de reconocedores de voz actuales utilizan modelos
ocultos de Markov (HMM) para representar la voz, se describirá aquí
la tecnología HMM para que el lector se familiarice.
El modelo oculto de Markov es un enfoque de
modelación que implica diagramas de estado. Cualquier unidad de voz
(como una frase, palabra, subpalabra, fonema o similares) puede
modelarse con todas las fuentes de conocimientos incluidas en ese
modelo. El modelo HMM representa un procedimiento desconocido que
produce una secuencia de resultados visibles a intervalos
diferenciados, siendo los resultados elementos de algún alfabeto
finito (correspondiendo con el conjunto predefinido de unidades de
voz). Estos modelos se denominan "ocultos" porque no se conoce
la secuencia de estados que produce el resultado visible.
Tal como se ilustra en la figura 1, un HMM 10 se
ilustra por un conjunto de estados (S1, S2... S5), vectores que
definen las transiciones entre determinados pares de estados,
ilustrados como flechas en la figura 1, y una colección de datos de
probabilidad. De manera específica, el modelo oculto de Markov
incluye un conjunto de probabilidades 12 de transición asociadas a
los vectores de transición y un conjunto de probabilidades 14 de
salida asociadas al resultado visible de cada estado. El modelo se
cronometra desde un estado a otro a intervalos regularmente
separados y diferenciados. En un tiempo de reloj, el modelo puede
cambiar desde su estado actual hasta cualquier estado para el cual
exista un vector de transición. Tal como se ilustra, una transición
puede darse desde un estado dado de vuelta hasta sí mismo.
Las probabilidades de transición representan la
posibilidad de que se produzca una transición desde un estado a otro
cuando el modelo se cronometra. Por lo tanto, tal como se ilustra en
la figura 1, cada transición tiene asociada a ella un valor de
probabilidad (entre 0 a 1). La suma de todas las probabilidades que
dejan cualquier estado es igual a 1. Para fines de ilustración, se
ha dado un conjunto de valores de probabilidad de transición a modo
de ejemplo en la tabla 12 de probabilidades de transición. Se
entenderá que en una realización de trabajo, estos valores se
generarían por los datos de instrucción, con la limitación de que la
suma de todas las probabilidades que dejan cualquier estado es igual
a cero.
Cada vez que se toma una transición, el modelo
puede considerarse como si emitiera o diera salida a un elemento de
su alfabeto. En la realización ilustrada en la figura 1, se ha
supuesto una unidad de voz basada en un fonema. Por tanto, los
símbolos identificados en una tabla 14 de probabilidades de salida
corresponden a algunos de los fonemas encontrados en el inglés
estándar. El elemento del alfabeto que se emite en cada transición
depende del valor de probabilidad de salida o de la función
aprendida durante la instrucción. De este modo, las salidas emitidas
representan una secuencia de observaciones (basadas en los datos de
instrucción) y cada elemento del alfabeto tiene una probabilidad de
ser emitido.
En el modelado de la voz, es una práctica común
tratar la salida como una secuencia de vectores continuos, a
diferencia de una secuencia de símbolos alfabéticos diferenciados.
Esto requiere que las probabilidades de salida se expresen como
funciones de probabilidad continua, a diferencia de valores
numéricos individuales. Por tanto, los modelos HMM se basan con
frecuencia en funciones de probabilidad que comprenden una o más
distribuciones gaussianas. Cuando se utiliza una pluralidad de
funciones gaussianas, éstas se mezclan juntas normalmente de forma
aditiva para definir una distribución de probabilidad compleja, tal
como se ilustra en 16.
Ya se represente como una función gaussiana
individual o como una mezcla de funciones gaussianas, las
distribuciones de probabilidad pueden describirse por una pluralidad
de parámetros. Como los valores de probabilidad de transición (tabla
12,) estos parámetros de probabilidad de salida pueden comprender
números de coma flotante. La tabla 18 de parámetros identifica los
parámetros utilizados normalmente para representar funciones de
densidad de probabilidad (pdf) basadas en datos observados a partir
de los interlocutores de la instrucción. Tal como se ilustra
mediante la ecuación en la figura 1, en una función 16 gaussiana, la
función de densidad de probabilidad para un vector O de información
que va a modelarse es la suma iterativa del coeficiente de mezcla
para cada componente de mezcla multiplicado por la densidad n
gaussiana, en el que la densidad gaussiana tiene un vector u_{j}
medio y una matriz U_{j} de covarianza calculados a partir de los
parámetros de voz de coeficiente cepstral o de banco de
fil-
tros.
tros.
Los detalles de implementación de un reconocedor
de modelo oculto de Markov pueden variar mucho de una aplicación a
otra. El ejemplo de HMM mostrado en la figura 1 se pretende
simplemente que ilustre cómo se construyen los modelos ocultos de
Markov y no se concibe como una limitación en el alcance de la
presente invención. A este respecto, hay muchas variaciones en el
concepto de modelos ocultos de Markov. Tal como se entenderá de
manera más completa a partir de la descripción de más adelante, la
técnica de adaptación de autovoces de la invención puede adaptarse
fácilmente para trabajar con cada una de las diferentes variaciones
del modelo oculto de Markov, así como con otros sistemas de
modelación de la voz basados en parámetros.
Las figuras 2 y 3 ilustran, respectivamente, cómo
la identificación de interlocutores y la verificación de
interlocutores pueden realizarse utilizando las técnicas de la
invención. Como primera etapa para realizar una identificación de
interlocutores o verificación de interlocutores se construye un
autoespacio. El autoespacio específico construido depende de la
aplicación. En el caso de la identificación de interlocutores,
ilustrado en la figura 2, se utiliza un conjunto de interlocutores
20 clientes para suministrar datos 22 de instrucción con los que se
crea el autoespacio. De forma alternativa, para la verificación de
interlocutores, mostrado en la figura 3, los datos 22 de instrucción
se suministran por el interlocutor o interlocutores 21a clientes
para lo que se deseará una verificación y asimismo por uno o más
posibles impostores 21b. Aparte de esta diferencia en la fuente de
datos de instrucción, el procedimiento para generar el autoespacio
es básicamente el mismo para ambas aplicaciones de identificación de
interlocutores y de verificación de interlocutores. En consecuencia,
se han aplicado números de referencia similares a las figuras 2 y
3.
En alusión a las figuras 2 y 3, el autoespacio se
construye desarrollando y preparando modelos de interlocutor para
cada uno de los interlocutores representados en los datos 22 de
instrucción. Esta etapa se ilustra en 24 y genera un conjunto de
modelos 26 para cada interlocutor. Aunque se han ilustrado en el
presente documento modelos ocultos de Markov, la invención no se
limita a los modelos ocultos de Markov. Es más, puede utilizarse
cualquier modelo de voz que tenga parámetros adecuados para la
concatenación. Preferiblemente, los modelos 26 se preparan con datos
de instrucción suficientes, de manera que todas las unidades de
sonido definidas por el modelo son preparadas mediante al menos un
ejemplo de voz real para cada interlocutor. Aunque no se ilustra
explícitamente en las figuras 2 y 3, la etapa 24 de preparación de
modelo puede incluir un procesamiento de adaptación apropiado
auxiliar para el interlocutor para perfeccionar los modelos. Los
ejemplos de este procesamiento auxiliar incluyen una estimación
máxima a posteriori (MAP) u otros enfoques basados en la
transformación, tales como la regresión lineal de probabilidad
máxima (MLLR). El objetivo de crear modelos 26 de interlocutor es
representar con exactitud un corpus de datos de instrucción, dado
que este corpus se utiliza para definir las medidas y límites del
autoespacio en el que se sitúa a cada interlocutor de instrucción y
con respecto al que se examina cada unidad de voz.
Después de construir los modelos 26, los modelos
para cada interlocutor se utilizan para construir un supervector en
la etapa 28. El supervector, ilustrado en 30, puede formarse con la
concatenación de los parámetros del modelo para cada interlocutor.
Cuando se utilizan los modelos ocultos de Markov, el supervector
para cada interlocutor puede comprender una lista ordenada de
parámetros (normalmente números de coma flotante) correspondiendo al
menos a una parte de los parámetros de los modelos ocultos de Markov
para ese interlocutor. Los parámetros correspondientes a cada unidad
de sonido se incluyen en el supervector de un interlocutor dado. Los
parámetros pueden organizarse en cualquier orden conveniente. El
orden no es fundamental; sin embargo, una vez que se adopta un orden
ha de seguirse para todos los interlocutores de la instrucción.
La elección de los parámetros de modelo para
utilizarse al construir el supervector dependerá del poder de
procesamiento disponible del sistema de computación. Utilizando los
parámetros del modelo oculto de Markov, se han conseguido buenos
resultados construyendo supervectores a partir de los medios
gaussianos. Si se dispone de un poder de procesamiento mayor, los
supervectores pueden incluir también otros parámetros, tales como
las probabilidades de transición (tabla 12, figura 1) o los
parámetros de la matriz de covarianza (parámetros 18, figura 1). Si
los modelos ocultos de Markov generan resultados discretos (a
diferencia de densidades de probabilidad), entonces estos valores de
salida pueden utilizarse para comprender el supervector.
Después de construir los supervectores, se
realiza una operación de reducción de dimensionalidad en la etapa
32. La reducción de dimensionalidad puede llevarse a cabo a través
de cualquier transformación lineal que reduzca los supervectores de
alta dimensionalidad para dar vectores de base. Una lista de
ejemplos no exhaustiva incluye:
Análisis de componentes principales (PCA),
análisis de componentes independientes (ICA),
Análisis discriminante lineal (LDA), análisis de
factores (FA) y descomposición en valores singulares (SVD).
De forma más específica, la clase de técnicas de
reducción de la dimensionalidad útil para implementar la invención
se define de la manera siguiente. Se considera un conjunto de T
supervectores de instrucción obtenidos a partir de modelos
dependientes del interlocutor para el reconocimiento de voz. Se deja
que cada uno de estos supervectores tenga una dimensión V; por tanto
podemos indicar cada supervector como X = [x1, x2,..., xV]^T (un
vector V*1). Se considera una transformación M lineal que puede
aplicarse a un supervector (es decir, a cualquier vector de
dimensión V) para producir un nuevo vector de dimensión E (E es
menor o igual a T, el número de supervectores de instrucción); cada
vector transformado puede indicarse como W = [w1, w2, ...,wE]^T. Los
valores de los parámetros de M se calculan de alguna manera a partir
del conjunto de T supervectores de instrucción.
Por tanto, se tiene la transformación lineal W =
M*X. M tiene una dimensión E*V y W tiene una dimensión E*1, en la
que E<= T; para un conjunto particular de T supervectores de
instrucción, M será constante. Pueden utilizarse varias técnicas de
reducción de la dimensionalidad para calcular una transformación M
lineal a partir de un conjunto de T supervectores de instrucción, de
tal manera que W tiene una dimensión E<= T.
Los ejemplos incluyen análisis de componentes
principales, análisis de componentes independientes, análisis
discriminante lineal, análisis de factores y descomposición en
valores singulares. La invención puede implementarse con cualquiera
de tales métodos (no sólo aquellos enumerados) para encontrar tal
transformación M lineal constante en el caso especial en el que los
vectores de entrada son vectores de instrucción derivados del
modelado dependiente del interlocutor y en el que M se usa para
llevar a cabo la técnica anteriormente mencionada.
Los vectores de base generados en la etapa 32
definen un autoespacio abarcado por los autovectores. La reducción
de la dimensionalidad da lugar a un autovector para cada uno de los
interlocutores de instrucción. Por tanto si hay T interlocutores de
instrucción, entonces la etapa 32 de reducción de la dimensionalidad
produce T autovectores. Estos autovectores definen lo que podemos
denominar un espacio de autovoces o autoespacio.
Los autovectores que forman el espacio de
autovoces ilustrado en 34, representan una dimensión diferente a
través de la cual pueden diferenciarse diferentes interlocutores.
Cada supervector en el conjunto de instrucción original puede
representarse como una combinación lineal de estos autovectores. Los
autovectores se ordenan por su importancia en la modelación de los
datos: el primer autovector es más importante que el segundo, que es
más importante que el tercero y así sucesivamente. Por tanto, los
experimentos con esta técnica muestran, de lejos, que el primer
autovector aparece para corresponder a una dimensión
masculino-femenina.
Aunque se produzca un máximo de T autovectores en
la etapa 32, en la práctica es posible descartar varios de estos
autovectores manteniendo únicamente los primeros N autovectores. Por
tanto, en la etapa 36 se extraen opcionalmente N de los T
autovectores para comprender un autoespacio de parámetros reducidos
en 38. Los autovectores de orden superior pueden descartarse porque
normalmente contienen menos información importante con la que
distinguir entre interlocutores. Reducir el espacio de autovoces a
menos que el número total de interlocutores de instrucción
proporciona una comprensión de datos inherente que puede ser útil
cuando se construyen sistemas prácticos con fuentes de procesamiento
y memoria limitadas.
Después de generar los autovectores a partir de
los datos de instrucción, cada interlocutor en los datos de
instrucción se representa en el autoespacio. En el caso de
identificación de interlocutores, cada interlocutor cliente conocido
se representa en el autoespacio como se representa en la etapa 40a y
se ilustra en forma de diagrama en la etapa 42a. En el caso de la
verificación de interlocutores, el interlocutor cliente y los
interlocutores potencialmente impostores se representan en el
autoespacio tal como se indica en la etapa 40b y tal como se ilustra
en 42b. Los interlocutores pueden representarse en el autoespacio
bien como puntos en el autoespacio (tal como se ilustra
esquemáticamente en la figura 2 en 42a) bien como distribuciones de
probabilidad en el autoespacio (tal como se ilustra esquemáticamente
en la figura 3 en 42b).
La identificación o verificación de
interlocutores de búsqueda de usuarios proporciona nuevos datos de
voz en la etapa 44 y estos datos se utilizan para instruir a un
modelo dependiente del interlocutor tal como se indica en la etapa
46. El modelo 48 se utiliza entonces en la etapa 50 para construir
un supervector 52. Obsérvese que los nuevos datos de voz no tienen
que incluir necesariamente un ejemplo de cada unidad de sonido. Por
ejemplo, la nueva unidad de voz puede ser demasiado corta para
contener ejemplos de todas las unidades de sonido. El sistema
tratará este tema, tal como se explicará más detalladamente a
continuación.
La reducción de la dimensionalidad se realiza en
la etapa 54 en el supervector 52, dando como resultado un nuevo
punto de datos que puede representarse en un autoespacio tal como se
indica en la etapa 56 y se ilustra en 58. En la ilustración en 58,
los puntos obtenidos previamente en el autoespacio (basados en
interlocutores de instrucción) se representan como puntos, mientras
que el nuevo punto de datos de voz se representa con una
estrella.
Habiendo colocado el nuevo punto de datos en el
autoespacio, ahora puede evaluarse con respecto a su proximidad con
los otros puntos de datos anteriores o distribuciones de datos
correspondientes a los interlocutores de instrucción. La figura 4
ilustra un ejemplo tanto de la identificación de interlocutores como
de la verificación de interlocutores.
Para la identificación de interlocutores, los
nuevos datos de voz se asignan al interlocutor de instrucción más
próximo en el autoespacio, etapa 62 ilustrada esquemáticamente en
64. Por tanto, el sistema identificará la nueva voz como que es la
del interlocutor de instrucción anterior cuyo punto de datos o
distribución de datos está más próximo a la nueva voz en el
autoespacio.
Para la verificación de interlocutores, el
sistema examina el nuevo punto de datos en la etapa 66 para
determinar si está dentro de una proximidad umbral predeterminada
con respecto al interlocutor cliente en el autoespacio. En la etapa
68, como garantía, el sistema puede rechazar el nuevo dato del
interlocutor si está más próximo en el autoespacio a un interlocutor
impostor que a un cliente. Esto se ilustra esquemáticamente en 69,
en el que se han representado la proximidad al interlocutor cliente
y la proximidad al impostor más cercano.
Una técnica sencilla para colocar al nuevo
interlocutor dentro del autoespacio es utilizar una operación de
proyección simple. Una operación de proyección encuentra el punto
dentro del autoespacio que está lo más próximo posible al punto
exterior del autoespacio correspondiente a la nueva voz de entrada
del interlocutor. Es relevante apuntar que estos puntos son en
realidad supervectores desde los que puede reconstituirse un
conjunto de modelos HMM.
La operación de proyección es una técnica
relativamente rudimentaria que no garantiza que el punto dentro del
autoespacio sea óptimo para el nuevo interlocutor. Además, la
operación de proyección requiere que el supervector para el nuevo
interlocutor contenga un conjunto completo de datos para representar
el conjunto entero de modelos HMM para ese interlocutor. Este
requisito da origen a una limitación práctica importante. Si se
utiliza la proyección para restringir a un nuevo interlocutor al
autoespacio, este interlocutor ha de suministrar una voz de entrada
suficiente, de manera que todas las unidades de voz estén
representadas en los datos. Por ejemplo, si se diseñan los modelos
ocultos de Markov para representar todos los fonemas de la lengua
inglesa, entonces el interlocutor de instrucción ha de suministrar
ejemplos de todos los fonemas antes de que la técnica de proyección
simple pueda utilizarse. En muchas aplicaciones esta restricción
sencillamente no es práctica.
La técnica de probabilidad máxima de la invención
trata las dos desventajas mencionadas anteriormente de la proyección
simple. La técnica de probabilidad máxima de la invención encuentra
un punto dentro del autoespacio que representa el supervector
correspondiente a un conjunto de modelos ocultos de Markov que
tienen la máxima probabilidad de generar la voz suministrada por el
nuevo interlocutor.
Mientras que la operación de proyección simple
trata a todos los elementos del supervector como teniendo la misma
importancia, la técnica de probabilidad máxima se basa en las
probabilidades que surgen de los datos de adaptación reales y por
tanto tiende a ponderar los datos más probables con más fuerza. A
diferencia de la técnica de proyección simple, la técnica de máxima
probabilidad funcionará incluso si el nuevo interlocutor no ha
suministrado un conjunto completo de datos de instrucción (es decir,
faltan datos para algunas de las unidades de sonido). En efecto, la
técnica de probabilidad máxima tiene en cuenta el contexto en el que
se construyen los supervectores, concretamente a partir de los
modelos ocultos de Markov que implican probabilidades de que ciertos
modelos sean más probables que otros para crear la voz de entrada
suministrada por el nuevo interlocutor.
A efectos prácticos, la técnica de probabilidad
máxima seleccionará el supervector dentro del autoespacio que sea el
más acorde con la voz de entrada del nuevo interlocutor,
independientemente de cuánta voz de entrada esté disponible
realmente. A modo de ilustración, se supone que el nuevo
interlocutor es una mujer joven de Alabama. Tras la recepción de
unas cuantas sílabas pronunciadas por este interlocutor, la técnica
de probabilidad máxima seleccionará un punto dentro del autoespacio
que represente todos los fonemas (incluso aquellos todavía no
representados en la voz de entrada) acordes con el acento de mujer
nativa de Alabama de este interlocutor.
La figura 5 muestra cómo funciona la técnica de
probabilidad máxima. La voz de entrada procedente del nuevo
interlocutor se utiliza para construir un supervector 70. Tal como
se explica más adelante, el supervector comprende una lista
concatenada de parámetros de voz que corresponden a coeficientes
cepstrales o similares. En la realización ilustrada, estos
parámetros son números de coma flotante que representan medios
gaussianos extraídos del conjunto de modelos ocultos de Markov
correspondientes al nuevo interlocutor. También pueden utilizarse
otros parámetros de HMM. En la ilustración, estos medios de HMM se
muestran como puntos, como en 72. Si está totalmente poblado de
datos, el supervector 70 contendría números de coma flotante para
cada uno de los medios de HMM, correspondientes a cada unidad de
sonido representada por los modelos HMM. Con fines de ilustración,
se supone en el presente documento que los parámetros para el fonema
"ah" están presentes pero faltan los parámetros para el fonema
"iy".
El autoespacio 38 se representa por un conjunto
de autovectores 74, 76 y 78. El supervector 70 correspondiente a los
datos de observación procedentes del nuevo interlocutor puede
representarse en el autoespacio multiplicando cada uno de los
autovectores por un autovalor correspondiente, designado como
W_{1}, W_{2}... W_{n}. Inicialmente, estos autovalores son
desconocidos. La técnica de probabilidad máxima encuentra valores
para estos autovalores desconocidos. Tal como se explicará más
detalladamente, estos valores se seleccionan buscando la solución
óptima que representará mejor al nuevo interlocutor dentro del
autoespacio.
Después de multiplicar los autovalores por los
autovectores correspondientes del autoespacio 38 y de sumar los
productos resultantes, se produce un modelo 80 adaptado. Mientras
que al supervector de la voz de entrada (supervector 70) le pueden
haber faltado algunos valores de parámetros (por ejemplo, los
parámetros "iy"), el supervector 80 que representa el modelo
adaptado está completamente poblado de valores. Esto es un beneficio
de la invención. Además, los valores en el supervector 80
representan la solución óptima, concretamente aquella que tiene la
máxima probabilidad de representar al nuevo interlocutor en el
autoespacio.
Los autovalores individuales W_{1}, W_{2}...
W_{n} puede considerarse que comprenden un vector de probabilidad
máxima, denominado en el presente documento vector de probabilidad
máxima. La figura 5 ilustra un vector esquemáticamente en 82. Tal
como muestra la ilustración, el vector 82 de máxima probabilidad
comprende el conjunto de autovalores W_{1}, W_{2}...
W_{n}.
El procedimiento para realizar la adaptación
utilizando la técnica de probabilidad máxima se muestra en la figura
6. La voz de un nuevo interlocutor, que comprende los datos de
observación, se utiliza para construir un conjunto de HMM tal como
se representa en 100. Entonces, se utiliza el conjunto de HMM 102
para construir un supervector tal como se representa en 104. Tal
como se ilustra, el supervector 106 comprende una lista concatenada
de parámetros de HMM extraídos de los modelos 102 HMM.
Utilizando el supervector 106, se construye una
función Q de probabilidad en 108. La realización preferida
actualmente emplea una función de probabilidad que representa la
probabilidad de generar los datos observados por el conjunto
predefinido de modelos 102 HMM. La manipulación posterior de la
función Q de probabilidad se hace de forma más sencilla si la
función incluye no sólo un término P de probabilidad sino también el
logaritmo de este término, log P.
Entonces, la función de probabilidad se maximiza
en la etapa 110 tomando la derivada de la función de probabilidad
individualmente con respecto a cada uno de los autovalores W_{1},
W_{2}... W_{n}. Por ejemplo, si el autoespacio tiene una
dimensión 100, este sistema calcula 100 derivadas de la función Q de
probabilidad fijando cada una a cero y resolviendo para la W
respectiva. Aunque esto puede parecer un cálculo grande, es mucho
menos caro computacionalmente que realizar los miles de cálculos
requeridos normalmente por las técnicas MAP o MLLR
convencionales.
El conjunto resultante de Ws, así obtenido,
representa los autovalores necesarios para identificar el punto en
el autoespacio correspondiente al punto de probabilidad máxima. Por
tanto, el conjunto de Ws comprende un vector de probabilidad máxima
en el autoespacio. A este respecto, cada uno de los autovectores
(autovectores 74, 76, 78 en la figura 5) define un conjunto de
vectores ortogonales o coordenadas frente a las cuales se
multiplican los autovalores para definir un punto restringido dentro
del autoespacio. Este vector de probabilidad máxima, representado en
112, se utiliza para construir un supervector 114 correspondiente al
punto óptimo en el autoespacio (punto 66 en la figura 4). El
supervector 114 puede utilizarse entonces en la etapa 116 para
construir el modelo 118 adaptado para el nuevo interlocutor.
En el contexto del marco de probabilidad máxima
de la invención, se desea maximizar la probabilidad de una
observación O = o_{1}...o_{T} con respecto al modelo \lambda.
Esto puede hacerse maximizando de manera iterativa la función Q
auxiliar (abajo), donde \lambda es el modelo actual en la
iteración y \lambda es el modelo estimado. Se tiene:
Como aproximación preliminar, podría quererse
realizar una maximización únicamente con respecto a los medios. En
el contexto donde la probabilidad P viene dada por un conjunto de
modelos HMM, se obtiene lo siguiente:
en la
que
y se deja
que:
O_{t} sea el vector característico en tiempo
t
C_{m}^{(s)-1} sea la
covarianza inversa para la mezcla gaussiana m del estado s.
\overline{\mu}_{m}^{(s)} sea el medio
adaptado aproximado para el estado s, componente de mezcla m
\gamma_{m}^{(s)}(t) sea la P
(utilizando la mezcla gaussiana m|\lambda, o_{t})
Se supone que los medios gaussianos para los HMM
del nuevo interlocutor se localizan en el autoespacio. Hay que dejar
que el espacio esté abarcado por los supervectores medios
\overline{\mu}_{j} con j =1...E.
en los que
\overline{\mu}_{m}^{(x)}(j) representa el vector medio
para la mezcla gaugassiana m en el estado s del autovector
(automodelo)j. Entonces se
necesita:
Los \overline{\mu}_{j} son ortogonales y los
w_{j} representan los autovalores del modelo de interlocutor. Se
supone aquí que algunos nuevos interlocutores pueden modelarse como
una combinación lineal de la base de datos de los interlocutores
observados. Entonces
con s en estado de \lambda, m en
mezcla gaugassiana de
M.
Dado que se necesita maximizar Q, sólo se
necesita establecer
(obsérvese que debido a que los autovectores son
ortogonales,
Se tiene por tanto
Calculando la derivada anterior, se tiene:
a partir de lo cual se encuentra el
conjunto de ecuaciones
lineales.
Cuando se representan interlocutores como puntos
en el autoespacio, puede utilizarse un simple cálculo de distancia
geométrica para identificar qué interlocutor de datos de instrucción
está más próximo al nuevo interlocutor. Cuando los interlocutores se
representan como distribuciones en el autoespacio, la proximidad se
calcula tratando los datos del nuevo interlocutor como una
observación O y examinando entonces cada candidato de distribución
(que representan a los interlocutores de instrucción) para
determinar cuál es la probabilidad de que el candidato generase los
datos de observación. El candidato con la probabilidad más alta se
evalúa como teniendo la proximidad más cercana. En algunas
aplicaciones de alta seguridad, puede ser deseable rechazar la
verificación si el candidato más probable tiene una puntuación de
probabilidad inferior a un umbral predeterminado. Puede utilizarse
una función de coste para descartar así candidatos que carezcan de
un alto grado de certidumbre.
La evaluación de la proximidad del nuevo
interlocutor a los interlocutores de instrucción puede realizarse
por completo dentro del autoespacio, tal como se describe
anteriormente. De forma alternativa, puede utilizarse una técnica de
estimación bayesiana para una precisión incluso mayor.
Para mejorar la evaluación de la proximidad que
utiliza la estimación bayesiana, se multiplican las densidades
gaussianas de los interlocutores de instrucción dentro del
autoespacio por la densidad marginal estimada en el espacio
complementario ortogonal que representa los datos de interlocutor
que se descartaron mediante la reducción de la dimensionalidad. A
este respecto, se reconoce que realizar la reducción de la
dimensionalidad con los supervectores del modelo de interlocutor da
como resultado una compresión importante de los datos desde el
espacio de alta dimensionalidad hasta un espacio de baja
dimensionalidad. Aunque la reducción de la dimensionalidad conserva
los vectores de base más importantes, se descarta alguna información
de orden superior. La técnica de estimación bayesiana calcula
aproximadamente una densidad gaussiana marginal que corresponde a
esa información descartada.
Como ilustración, se supone que el autoespacio
original se construye mediante una transformación lineal del
supervector a través de un proceso de reducción de la
dimensionalidad por medio del cual se extraen M componentes del
número N superior de todos los componentes. Los M componentes más
pequeños extraídos representan un subespacio dimensional inferior de
la base de transformación que se corresponde con los autovalores
máximos. Por tanto, el autoespacio está definido por componentes i =
1...M, mientras que los componentes menores descartados corresponden
a i= M + 1...N. Estos dos conjuntos de componentes definen dos
subespacios complementarios y mutuamente excluyentes, el subespacio
principal representa el autoespacio de interés y su componente
ortogonal representa los datos que se descartaron a través de la
reducción de la dimensionalidad.
Se puede calcular la estimación de probabilidad
como el producto de las densidades gaussianas en estos dos espacios
ortogonales respectivos mediante la siguiente ecuación:
En la ecuación anterior, el primer término es la
densidad gaussiana individual en el autoespacio E y el segundo
término es la distribución gaussiana individual en el espacio
ortogonal con respecto al autoespacio. Resulta que ambos términos
pueden calcularse aproximadamente y por completo a partir del
conjunto de vectores de datos de instrucción, utilizando únicamente
las proyecciones en el autoespacio y los errores residuales.
En los ejemplos anteriores, la voz se ha
representado como modelos ocultos de Markov (HMM). Los modelos
ocultos de Markov se emplean actualmente con uso frecuente en muchos
reconocedores de voz y, por tanto, pueden utilizarse para fines de
verificación de interlocutores así como de identificación de
interlocutores. Sin embargo, las técnicas de la presente invención
no se limitan a utilizar los modelos ocultos de Markov. Por ejemplo,
un sistema útil y eficaz para la verificación de interlocutores y/o
la identificación de interlocutores puede implementarse utilizando
modelos de mezclas gaussianas (GMM). Los modelos de mezclas
gaussianas son modelos de estado individual que pueden prepararse
con datos de instrucción independientes de texto o dependientes de
texto. En comparación, normalmente los modelos ocultos de Markov
tienen estados plurales y se preparan con datos de voz que han sido
etiquetados según el texto utilizado para los datos de instrucción.
Por tanto, los modelos de mezclas gaussianas pueden considerarse
como un caso especial de los modelos ocultos de Markov, en el que se
utiliza un único estado y en los que los datos de instrucción no
necesitan etiquetarse.
El modelo de mezclas gaussianas (GMM) puede
utilizarse para fines de identificación de interlocutores y
verificación de interlocutores asignando gaussianas de componente
individual para representar amplias clases acústicas. Estas clases
pueden representar configuraciones generales de extensión vocal
dependientes del interlocutor que son útiles para modelar la
identidad del interlocutor. La densidad de mezclas gaussianas
proporciona una aproximación uniforme de la distribución de muestras
de observaciones subyacentes a largo plazo obtenida a partir de los
sonidos de un interlocutor dado. Véase Reynolds, D.A., "Speaker
Identification and Verification Using Gaussian Mixture Speaker
Models", Speech Communication, Vol. 17, pp.
91-108, 1995.
Una densidad de mezclas gaussianas es una suma
ponderada de M densidades componente y viene dada por la
ecuación,
en la que x es un vector
D-dimensional,
i = 1,..., M son las densidades componente y
p_{i},i = 1, ..., son los pesos de mezcla.
Cada densidad componente es una función gaussiana
de variable D de la forma,
con el vector medio \mu_{i} y
la matriz de covarianza \Sigma_{i}. Además, los pesos de mezcla
satisfacen la limitación de
que
La densidad completa GM se parametriza mediante
el vector medio, las matrices de covarianza y los pesos de mezcla de
todas las densidades componente.
Además, se apreciará que aunque se han ilustrado
en el presente documento HMM y GMMS, pueden utilizarse también otros
tipos de modelos de voz. Los mejores modelos para este fin son
aquellos que se expresan numéricamente (por ejemplo, como números de
coma flotante) de manera que un espacio de interlocutor puede
definirse matemáticamente. Para fines de ilustración, se ha
ilustrado un modelo 120 GMM en la figura 7.
En los ejemplos anteriores, el espacio de
interlocutor se ha representado como una combinación lineal de
autovoces. Sin embargo, las técnicas de la presente invención no se
limitan a un espacio de interlocutor de este tipo. De manera más
general, el espacio de interlocutor es un conjunto de restricciones
matemáticas derivadas de un conjunto de interlocutores de
instrucción, y representando un conocimiento a priori que debe
satisfacerse por los nuevos interlocutores. Además del espacio de
interlocutor basado en autovoces, otros enfoques incluyen (pero no
se limitan a esto) "ponderación del interlocutor de referencia"
(véase Hazen, T.J y Glass, J.R., "A comparison of Novel Techniques
for Instantaneous Speaker Adaptation", Eurospeech Proceedings,
pp. 2047-50, 1997) y agrupamiento de interlocutores
(véase Kosaka, T., y Sagayama, S.,
"Tree-Structured Speaker Clustering for Fast
Speaker Adaptation", ICASSP pp. I-245 a
I-248, 1994)
La figura 8 ilustra que también hay alterativas
para construir el espacio de interlocutor, representando la voz de
registro en el espacio de interlocutor y determinando si el
interlocutor de prueba es uno de los interlocutores clientes. Al
principio, una importante consideración con respecto a la
construcción del espacio de interlocutor se refiere a la selección
de los interlocutores 122 de instrucción. Aunque podrían utilizarse
los interlocutores 124 clientes para recoger los datos 22 de
instrucción, pueden conseguirse ciertos beneficios utilizando un
segundo grupo de individuos como los interlocutores 122 de
instrucción. Por ejemplo, este enfoque permite a los interlocutores
122 de instrucción ser grandes de forma arbitraria, y en general
permitirá datos de instrucción más diversos. Por ejemplo, podrían
seleccionarse individuos pagados o voluntarios con antelación de una
población mucho más grande que la población de interlocutores
clientes. La población seleccionada de interlocutores de instrucción
no podría tener una relación específica con la población definida
por los interlocutores 124 clientes (otra diferente a su capacidad
para hablar). Estos interlocutores de instrucción suministrarían
cada uno una muestra relativamente grande de voces de instrucción.
Esto permitiría la construcción de un espacio de interlocutor mucho
más diverso, basado en modelos de voz relativamente bien preparados
y permitiría una reducción importante en la cantidad de datos
necesarios procedentes de los interlocutores 124 clientes. De este
modo, en la etapa de registro de clientes, únicamente se
necesitarían unos cuantos segundos de voz de cada cliente, a
diferencia de varios minutos de voz. Esto es una ventaja clave para
el enfoque del espacio de
clientes.
clientes.
La etapa 132 ilustra el proceso de preparar el
espacio de interlocutores. Tal como se ha tratado anteriormente, el
resultado puede ser un conjunto de modelos de voz GMM
(preferiblemente independientes de texto) tal como se ilustra en 126
o de modelos de voz dependientes de texto, tal como se trató
anteriormente. Por tanto, aunque en el presente documento se han
ilustrado modelos de mezclas gaussianas, la invención no se limita a
los modelos de mezclas gaussianas (o modelos ocultos de Markov, para
esta cuestión). Más bien, puede utilizarse cualquier modelo de voz
que tenga parámetros adecuados para la concatenación.
De manera opcional, los modelos de voz pueden
estar bien sintonizados o adaptados para representar las diferencias
entre el entorno utilizado durante la instrucción y el entorno que
se utilizará durante el uso posterior para la verificación de
interlocutores y/o la identificación de interlocutores. Normalmente,
los datos de instrucción se recogen en condiciones controladas
(calidades de sonido de fondo conocido, micrófonos normalizados y
equipo de procesamiento de señales, colocación controlada de
micrófonos, etc.). En uso, el sistema puede utilizarse en un entorno
de oficina, por ejemplo, en el que las condiciones del entorno son
bastante diferentes de las del entorno de instrucción. Para adaptar
esta variación, puede utilizarse un proceso de adaptación del
entorno para mejorar los modelos de interlocutores de instrucción
para su uso específico en un entorno dado. Para este fin, puede
emplearse la adaptación MLLR. Asimismo, pueden utilizarse otras
técnicas de adaptación conocidas.
En la realización preferida actualmente, se
utilizan modelos para cada interlocutor para crear un supervector.
El supervector puede formarse concatenando los parámetros del modelo
para cada interlocutor. Cuando se utilizan modelos de mezclas
gaussianas, los números de coma flotante utilizados para representar
las mezclas gaussianas pueden concatenarse para cada
interlocutor.
Después de construir los supervectores, se aplica
una técnica que reduce el número de grados de libertad en un modelo
de voz para un interlocutor en particular. Tales técnicas funcionan
con datos de interlocutores de instrucción para generar un espacio
de interlocutor de dimensionalidad reducida. Aunque puede utilizarse
cualquier técnica de este tipo, en el presente documento se muestra
un análisis discriminante lineal (LDA) y se prefiere actualmente.
Por tanto, además de los supervectores, la etapa 132 hace uso de
datos 130 globales de matriz de dispersión dentro del interlocutor.
Es importante observar esto porque este tipo de datos generalmente
no es parte de un modelo de interlocutor dependiente del
interlocutor.
Después de que una técnica tal como PCA o LDA
haya generado un conjunto inicial de vectores 134 de base, puede
realizarse una etapa 136 opcional de nueva estimación del espacio de
interlocutores. En el presente documento, una técnica como MLES
puede girar los vectores 134 de base, en el espacio de manera que se
maximice la probabilidad de los datos de instrucción, según los
modelos de interlocutores de instrucción en el espacio. El resultado
sería un conjunto mejorado de vectores 138 de base. Más adelante se
proporcionan detalles de la técnica MLES.
Después de que se haya generado un espacio de
interlocutor, el sistema puede utilizarse para registrar uno o más
interlocutores clientes de manera que puede realizarse una
identificación de interlocutores o una verificación de
interlocutores con respecto a aquellos interlocutores clientes. El
registro se realiza en la etapa 140, en la que cada interlocutor
cliente se representa en un espacio de interlocutor basado en una
unidad corta de voz de registro. Esto se hace preparando un modelo
de voz de registro con la voz de registro del interlocutor cliente
(posiblemente tan sólo unas cuantas palabras), y entonces colocando
a los interlocutores clientes en el espacio de interlocutor mediante
una MLED o proyección, tal como se trató anteriormente. Si se desea,
las técnicas de adaptación al interlocutor o al entorno, tales como
MLLR, pueden utilizarse para mejorar los modelos de voz de uno o más
interlocutores clientes, o para volver a estimar el espacio de
interlocutores, de manera que esto modela mejor el nuevo entorno (es
decir, el entorno en el que se registran los interlocutores
clientes).
En este punto, el poder del espacio de
interlocutores puede ser más apreciado en detalle. Si el
interlocutor cliente proporciona una muestra muy corta de voz, puede
no haber datos suficientes para construir un modelo de voz completo
para ese interlocutor. Sin embargo, al colocar el modelo parcial en
el espacio de interlocutores en su ubicación adecuada, tal como
dicta el procedimiento MLED (o mediante proyección), el espacio de
interlocutores llenará los detalles, permitiendo un modelo de voz
completo para ese interlocutor que se generará más
tar-
de.
de.
Después de que el espacio de interlocutores se
haya creado y todos los interlocutores clientes se hayan registrado,
el sistema está listo para utilizarse. Para realizar una
verificación de interlocutor o una identificación de interlocutor
con un interlocutor de prueba, se toma una muestra de la voz de ese
interlocutor y se evalúa utilizando el espacio de interlocutores
poblado de clientes. En los ejemplos anteriores, la verificación de
interlocutores y la identificación de interlocutores se realizaron
colocando la voz del interlocutor de prueba en el espacio de
interlocutores, para determinar, a través de una medida de distancia
adecuada, qué interlocutor cliente estaba más próximo al
interlocutor de prueba. A continuación se describirá una técnica
alternativa.
En lugar de colocar el interlocutor de prueba
dentro del espacio de interlocutores, la técnica alternativa abarca
los puntos de vector del interlocutor cliente dentro del espacio de
interlocutores retrocediendo a modelos de voz completos. Recordando
que aunque la voz de registro inicial del cliente fue muy corta
(dando como resultado de manera bastante probable modelos de voz
incompletos), los puntos en el espacio de interlocutores generarán
modelos de voz completos. Esto es así porque el espacio de
interlocutores original contiene una gran cantidad de conocimiento a
priori sobre las características de la voz humana. En otras
palabras, sólo unas cuantas palabras pronunciadas por un
interlocutor cliente son suficientes para colocar ese interlocutor
cliente dentro del espacio de interlocutores, en el que puede
deducirse un modelo amplio y completo de voz.
En la técnica alternativa, cada punto de
interlocutor cliente dentro del espacio de interlocutores se utiliza
para producir su modelo completo de voz correspondiente. Entonces,
cada uno de los modelos de interlocutor cliente es una voz evaluada
con respecto al interlocutor de prueba. El modelo de cliente con la
probabilidad más alta de producir la voz de prueba se utiliza
entonces para los fines de identificación de interlocutores y/o
verificación de interlocuto-
res.
res.
La expansión de la posición del interlocutor
cliente en los vectores del espacio de interlocutores retrocediendo
a los modelos de voz se muestra en la etapa 144, en la figura 8. De
forma específica, se generan los modelos 146 de voz completos
correspondientes a partir de sus ubicaciones en el espacio 142 de
interlocutores. Entonces, estos modelos se utilizan para una
posterior verificación de interlocutores y/o identificación de
interlocutores. Cada uno de los modelos se examina con respecto a
los datos de voz de prueba suministrados por un interlocutor de
prueba (usuario del sistema). El modelo que tiene la probabilidad
más alta de generar la voz de prueba se utiliza para fines de una
posterior verificación de interlocutores e identificación de
interlocutores. La figura 9 ilustra esquemáticamente el
procedimiento en el que se utilizan los modelos 146 de
interlocutores para evaluar la voz de prueba. En la etapa 148, los
datos de la voz proporcionados por el (los) interlocutor(es)
150 de prueba se someten a los modelos 146 probabilísticos del
interlocutores clientes como parte de un análisis de probabilidad.
Cada interlocutor de prueba se asigna a cualquier cliente que
produzca la probabilidad más alta de producir su voz; de forma
alternativa, el interlocutor de prueba puede clasificarse como un
impostor. Por tanto, la evaluación final no tiene lugar en el
espacio de interlocutores sino en el espacio de modelos.
Asimismo, merece la pena observar que el espacio
de interlocutores puede adaptarse según se obtiene una nueva voz
durante el registro de clientes. En el caso de que el entorno del
cliente difiera del entorno original de instrucción (como ocurrirá
con frecuencia), puede realizarse una adaptación del entorno. Por
ejemplo, dado que el espacio de interlocutores derivado de la
instrucción produce modelos que representan o expresan una
variabilidad entre interlocutores, estos modelos pueden utilizarse
para calcular aproximadamente una función de desajuste del entorno y
para aplicar esa función al espacio de interlocutores (por ejemplo,
como una transformación lineal). Esto impediría que las
características irrelevantes del entorno de prueba interfieran en la
verificación e identificación de interlocuto-
res.
res.
Aun cuando la presente invención generalmente
necesita muy poca voz de registro, puede ser beneficioso para toda
la realización pedir a una minoría de clientes problemáticos (es
decir, variables) más datos de registro. Esto se realiza porque, en
la práctica, es normalmente un conjunto pequeño de interlocutores
clientes específicos el que produce la mayoría de las
identificaciones erróneas. En el enfoque presente, estos clientes se
identifican mientras están inscritos y se necesita más voz de esos
clientes. En otras palabras, el modelo de voz de registro puede
prepararse fácilmente con voz adicional del interlocutor cliente
cuando la voz de registro cumple condiciones predeterminadas. Por
ejemplo, la figura 10 muestra que las condiciones predeterminadas
pueden definirse para incluir la ubicación de una primera unidad de
voz en el espacio de interlocutores, estando a una distancia
predeterminada de la ubicación de una segunda unidad de voz en el
espacio de interlocutores. Si la distancia media dentro del
interlocutor es mucho mayor que la media de las dos ubicaciones, se
pide por tanto al cliente en cuestión más datos de registro. Tal
como se muestra en la figura 11, las condiciones predeterminadas
podrían asimismo definirse para incluir la primera ubicación,
estando dispuesta en una zona del espacio de interlocutores teniendo
una densidad predeterminada (es decir, un área "poblada"). En
este caso, un enfoque tal como MLED permite que se tenga en cuenta
información previa sobre la distribución de los interlocutores en el
espacio de interlocutores. Esta distribución puede calcularse
aproximadamente a partir de los datos de instrucción o de los datos
de registro.
Tal como se presentó anteriormente, la técnica
del espacio de interlocutores limita los modelos de interlocutores a
un espacio de vectores lineales de baja dimensión, denominado el
espacio de interlocutores. Este espacio de interlocutores resume un
conocimiento a priori sobre los modelos de interlocutores obtenidos
durante la instrucción inicial del sistema. Mientras que el espacio
de interlocutores en su forma generada inicialmente servirá como
herramienta potente para la identificación de interlocutores e
identificación de interlocutores, tal como se trató anteriormente,
son posibles mejoras adicionales del espacio de interlocutores
mediante una técnica denominada autoespacio de máxima probabilidad
(MLES). El método MLES realiza una nueva estimación de los datos de
instrucción. Da como resultado que giran los vectores dentro del
espacio de interlocutores, de tal manera que se maximiza la
probabilidad de los datos de instrucción según los modelos de
interlocutores de instrucción en el espacio. La técnica MLES
comienza integrando los valores como datos ocultos en el problema de
cálculo, dando lugar a:
en la que P_{o}(w, q)
contiene información anterior sobre el interlocutor q (por ejemplo,
la probabilidad de aparecer una persona de un acento o sexo dado).
De forma extensiva, se utiliza para conjuntos desequilibrados de
interlocutores. Por ejemplo, podemos colocar para una k
dada
Pueden obtenerse una serie de voces de
interlocutores a través de PCA, análisis discriminante lineal (LDA),
agrupación de interlocutores o pueden darse como un conjunto de
modelos de dependientes del interlocutor. Cuando no se conoce ningún
conocimiento particular sobre w_{k}, utilizamos MLED para
sustituir el operador de integración por un máximo operador.
La fórmula para la nueva estimación es
relativamente fácil de derivar
en la que q, m, e representa un
interlocutor, una distribución y un vector de base del espacio de
interlocutores. L_{q} es la probabilidad posterior de las unidades
de voz O^{(q)} del interlocutor, L_{q}, \gamma_{m}(t)
es la probabilidad posterior observada. w_{q}^{(e)} es la
estimación actual de la coordenada eº del interlocutor q. Finalmente
\mu_{q}^{(m)} es el complemento del medio estimado, es
decir,
A partir de lo anterior, se apreciará que la
invención proporciona técnicas potentes para realizar la
verificación de interlocutores y/o la identificación de
interlocutores. Aunque se han ilustrado varios ejemplos en el
presente documento, se apreciará por aquellos expertos en esta
técnica que son posibles numerosas variaciones dentro del alcance de
las reivindicaciones adjuntas.
Claims (14)
1. Método para evaluar una voz con respecto a un
interlocutor (124) cliente predeterminado, comprendiendo el método
las etapas de:
preparar un conjunto de modelos (126) de voz con
la voz (22) a partir de una pluralidad de interlocutores (122) de
instrucción, en el que la pluralidad de interlocutores de
instrucción no incluye al interlocutor cliente;
generar vectores (134) de base que definen un
espacio (142) de interlocutores a partir del conjunto de modelos
(126) de voz para representar dicha pluralidad de interlocutores
(122) de instrucción;
representar la voz de registro de dicho
interlocutor (124) cliente como una primera ubicación en dicho
espacio (142) de interlocutores;
caracterizado por generar un modelo (146)
probabilístico de voz desde la primera ubicación;
determinar en el espacio del modelo si un nuevo
interlocutor (150) es el interlocutor (124) cliente evaluando una
probabilidad de que el dato de voz procedente del nuevo interlocutor
(150) se genere por el modelo (146) probabilístico de voz y utilizar
dicha evaluación como una indicación de si el nuevo interlocutor
(150) es el interlocutor (124) cliente.
2. Método según la reivindicación 1, que incluye
además las etapas de:
preparar un modelo de voz de registro con la voz
de registro del interlocutor cliente; y
generar una representación del interlocutor
cliente como una primera ubicación en el espacio de
interlocutores.
3. Método según la reivindicación 2, que incluye
además la etapa de preparar el modelo de voz de registro con una voz
adicional procedente del interlocutor cliente cuando la voz de
registro cumple condiciones predeterminadas.
4. Método según la reivindicación 3, en el que la
voz de registro incluye una primera unidad de voz y una segunda
unidad de voz, incluyendo además el método la etapa de definir las
condiciones predeterminadas para incluir la ubicación de la primera
unidad de voz en el espacio de interlocutores, estando a una
distancia predeterminada de la ubicación de la segunda unidad de voz
en el espacio de interlocutores.
5. Método según la reivindicación 3, que incluye
además la etapa de definir las condiciones predeterminadas para
incluir la primera ubicación, estando situada en una zona del
espacio de interlocutores que tiene una densidad predeterminada.
6. Método según la reivindicación 1, que incluye
además la etapa de preparar un conjunto de modelos de voz
independientes de texto.
7. Método según la reivindicación 1, que incluye
además la etapa de preparar un conjunto de modelos de voz
dependientes de texto.
8. Método según la reivindicación 1, que incluye
además las etapas de:
obtener un supervector dependiente del
interlocutor para cada uno de dichos interlocutores de instrucción;
y
generar un espacio de interlocutores que tiene
una dimensionalidad menor que los modelos de voz basados en los
supervectores dependientes del interlocutor.
9. Método según la reivindicación 8, que incluye
además las etapas de:
obtener una matriz de datos de dispersión dentro
del interlocutor; y
realizar una reducción de la dimensionalidad
basada en la matriz de datos.
10. Método según la reivindicación 1, que incluye
además la etapa de estimar de nuevo el espacio de
interlocutores.
11. Método según la reivindicación 1, que incluye
además la etapa de adaptar el espacio de interlocutores basado en
información concerniente a un entorno de registro de clientes.
12. Método según la reivindicación 1, que incluye
además la etapa de construir el espacio de interlocutores reduciendo
el número de grados de libertad para cada modelo de voz de los
interlocutores de instrucción.
13. Método según la reivindicación 1, que incluye
además la etapa de realizar una identificación de
interlocutores.
14. Método según la reivindicación 1, que incluye
además la etapa de realizar una verificación de interlocutores
decidiendo si el nuevo interlocutor es el interlocutor cliente o un
impostor.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US610495 | 2000-07-05 | ||
US09/610,495 US6697778B1 (en) | 1998-09-04 | 2000-07-05 | Speaker verification and speaker identification based on a priori knowledge |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2239650T3 true ES2239650T3 (es) | 2005-10-01 |
Family
ID=24445240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01305725T Expired - Lifetime ES2239650T3 (es) | 2000-07-05 | 2001-07-02 | Identificacion y verificacion de interlocutores. |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1178467B1 (es) |
JP (1) | JP2002082694A (es) |
CN (1) | CN1253851C (es) |
DE (1) | DE60109240T2 (es) |
ES (1) | ES2239650T3 (es) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030171930A1 (en) * | 2002-03-07 | 2003-09-11 | Junqua Jean-Claude | Computer telephony system to access secure resources |
CN1308911C (zh) * | 2003-07-10 | 2007-04-04 | 上海优浪信息科技有限公司 | 一种说话者身份识别方法和系统 |
US7539616B2 (en) * | 2006-02-20 | 2009-05-26 | Microsoft Corporation | Speaker authentication using adapted background models |
JP4717872B2 (ja) * | 2006-12-06 | 2011-07-06 | 韓國電子通信研究院 | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 |
CN103035239B (zh) * | 2012-12-17 | 2014-10-08 | 清华大学 | 一种基于局部学习的说话人识别方法 |
CN106683661B (zh) * | 2015-11-05 | 2021-02-05 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
US10418037B2 (en) * | 2016-03-23 | 2019-09-17 | Telefonaktiebolaget Lm Ericsson (Publ) | Speaker verification computer system with textual transcript adaptations of universal background model and enrolled speaker model |
CN108091326B (zh) * | 2018-02-11 | 2021-08-06 | 张晓雷 | 一种基于线性回归的声纹识别方法及系统 |
CN109065059A (zh) * | 2018-09-26 | 2018-12-21 | 新巴特(安徽)智能科技有限公司 | 用音频特征主成分建立的语音群集来识别说话人的方法 |
CN112002317B (zh) * | 2020-07-31 | 2023-11-14 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN115471327A (zh) * | 2022-11-02 | 2022-12-13 | 平安银行股份有限公司 | 银行业务办理的远程面签方法、装置、计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1144172C (zh) * | 1998-04-30 | 2004-03-31 | 松下电器产业株式会社 | 包括最大似然方法的基于本征音的发言者适应方法 |
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
-
2001
- 2001-07-02 DE DE2001609240 patent/DE60109240T2/de not_active Expired - Fee Related
- 2001-07-02 EP EP20010305725 patent/EP1178467B1/en not_active Expired - Lifetime
- 2001-07-02 ES ES01305725T patent/ES2239650T3/es not_active Expired - Lifetime
- 2001-07-04 JP JP2001204031A patent/JP2002082694A/ja active Pending
- 2001-07-05 CN CN 01125917 patent/CN1253851C/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2002082694A (ja) | 2002-03-22 |
DE60109240T2 (de) | 2006-02-16 |
EP1178467B1 (en) | 2005-03-09 |
CN1366295A (zh) | 2002-08-28 |
EP1178467A1 (en) | 2002-02-06 |
CN1253851C (zh) | 2006-04-26 |
DE60109240D1 (de) | 2005-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6697778B1 (en) | Speaker verification and speaker identification based on a priori knowledge | |
Campbell | Speaker recognition: A tutorial | |
Leu et al. | An MFCC-based speaker identification system | |
WO2008100971A1 (en) | Text-dependent speaker verification | |
ES2239650T3 (es) | Identificacion y verificacion de interlocutores. | |
Das et al. | A voice identification system using hidden markov model | |
Kekre et al. | Performance comparison of speaker recognition using vector quantization by LBG and KFCG | |
Biagetti et al. | Speaker identification in noisy conditions using short sequences of speech frames | |
Campbell | Speaker recognition | |
Tsai et al. | Self-defined text-dependent wake-up-words speaker recognition system | |
Kinnunen | Optimizing spectral feature based text-independent speaker recognition | |
Panda et al. | Study of speaker recognition systems | |
JP4716125B2 (ja) | 発音評定装置、およびプログラム | |
Huo et al. | Online adaptive learning of continuous-density hidden Markov models based on multiple-stream prior evolution and posterior pooling | |
Khetri et al. | Automatic speech recognition for marathi isolated words | |
Hossan et al. | Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization | |
Price et al. | Design of matlab®-based automatic speaker recognition systems | |
CN101281746A (zh) | 一个百分之百辨认率的国语单音与句子辨认方法 | |
Zhao et al. | Measuring attribute dissimilarity with HMM KL-divergence for speech synthesis. | |
NOVOTNÝ | Improving Robustness of Speaker Recognition using Discriminative Techniques | |
Singhai et al. | Automatic speaker recognition: An approach using dwt based featureextraction and vector quantization | |
Ali et al. | Voice Reminder Assistant based on Speech Recognition and Speaker Identification using Kaldi | |
Kumar | Feature normalisation for robust speech recognition | |
Omar et al. | Approximately independent factors of speech using nonlinear symplectic transformation | |
Sriskandaraja | Spoofing countermeasures for secure and robust voice authentication system: Feature extraction and modelling |