ES2239650T3 - Identificacion y verificacion de interlocutores. - Google Patents

Identificacion y verificacion de interlocutores.

Info

Publication number
ES2239650T3
ES2239650T3 ES01305725T ES01305725T ES2239650T3 ES 2239650 T3 ES2239650 T3 ES 2239650T3 ES 01305725 T ES01305725 T ES 01305725T ES 01305725 T ES01305725 T ES 01305725T ES 2239650 T3 ES2239650 T3 ES 2239650T3
Authority
ES
Spain
Prior art keywords
voice
interlocutor
interlocutors
space
partner
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01305725T
Other languages
English (en)
Inventor
Roland Kuhn
Oliver Thyes
Patrick Nguyen
Jean-Claude Junqua
Robert Boman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/610,495 external-priority patent/US6697778B1/en
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of ES2239650T3 publication Critical patent/ES2239650T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Método para evaluar una voz con respecto a un interlocutor (124) cliente predeterminado, comprendiendo el método las etapas de: preparar un conjunto de modelos (126) de voz con la voz (22) a partir de una pluralidad de interlocutores (122) de instrucción, en el que la pluralidad de interlocutores de instrucción no incluye al interlocutor cliente; generar vectores (134) de base que definen un espacio (142) de interlocutores a partir del conjunto de modelos (126) de voz para representar dicha pluralidad de interlocutores (122) de instrucción; representar la voz de registro de dicho interlocutor (124) cliente como una primera ubicación en dicho espacio (142) de interlocutores; caracterizado por generar un modelo (146) probabilístico de voz desde la primera ubicación; determinar en el espacio del modelo si un nuevo interlocutor (150) es el interlocutor (124) cliente evaluando una probabilidad de que el dato de voz procedente del nuevo interlocutor (150) se genere por el modelo (146) probabilístico de voz y utilizar dicha evaluación como una indicación de si el nuevo interlocutor (150) es el interlocutor (124) cliente.

Description

Identificación y verificación de interlocutores.
Antecedentes y sumario de la invención
La presente invención se refiere en general a la tecnología de la voz y, más en particular, a un método para realizar una verificación de interlocutores o una identificación de interlocutores.
El problema de la autentificación se encuentra en el fondo casi de cada transacción. Millones de personas realizan transacciones financieras confidenciales por teléfono, tales como acceder a sus cuentas bancarias o utilizar sus tarjetas de crédito. La autentificación en esta práctica actual está lejos de ser infalible. Las partes intercambian alguna forma de información supuestamente secreta, tal como el número de la seguridad social, el nombre de soltera de su madre o similares. Claramente, esta información puede ser pirateada dando como resultado una falsa autentificación.
Un aspecto de la presente invención trata el problema anterior proporcionando un método para realizar una verificación de interlocutores. La verificación de interlocutores implica determinar si una voz dada pertenece a un determinado interlocutor (en el presente documento denominado el "cliente") o a un impostor (cualquiera que no sea el cliente).
En cierto modo relacionado con el problema de la verificación de interlocutores está el problema de la identificación de interlocutores. La identificación de interlocutores implica comparar una voz dada con una de un grupo de voces conocidas. Como la verificación de interlocutores, la identificación de interlocutores tiene varias aplicaciones atractivas. Por ejemplo, un sistema de identificación de interlocutores puede utilizarse para clasificar un buzón de voz por interlocutor para un grupo de interlocutores, para lo cual están sus muestras de voz. Una capacidad de este tipo permitiría un sistema telefónico implementado por ordenador para visualizar en una pantalla de ordenador la identidad de las personas que llaman que han dejado mensajes en el sistema de buzón de voz.
Aunque las aplicaciones para la verificación de interlocutores y la identificación de interlocutores son prácticamente infinitas, hasta ahora la solución para realizar estas dos tareas ha demostrado ser difícil de alcanzar. Reconocer la voz humana y particularmente distinguir un interlocutor de otros interlocutores es un problema complejo. Pocas veces pronuncia una persona ni siquiera una única palabra dos veces de la misma manera, debido a cómo se produce la voz humana.
La voz humana es el resultado de aire bajo presión procedente de los pulmones que es forzado a través de las cuerdas vocales y modulado por la glotis para producir ondas sonoras, que entonces resuenan en las cavidades oral y nasal antes de ser articuladas por la lengua, mandíbula, dientes y labios. Muchos factores afectan a cómo interactúan estos mecanismos de producción de sonidos. El resfriado común, por ejemplo, altera en gran medida la resonancia de la cavidad nasal así como la calidad tonal de las cuerdas vocales.
Dada la complejidad y variabilidad con la que el ser humano produce la voz, la verificación de interlocutores y la identificación de interlocutores no se realizan fácilmente comparando una nueva voz con una muestra de voz grabada anteriormente. Empleando un umbral alto de similitud, para excluir impostores, se puede excluir al auténtico interlocutor si él o ella están resfriados. Por otro lado, emplear un umbral bajo de similitud puede hacer que el sistema sea susceptible de una identificación falsa. El documento EP-A-0984431 da a conocer el reconocimiento de interlocutores basado en autovoces ("eigenvoices"), Ngugen P. et al., "Eigenvoices: A compact representation of speakers in model space", Armals of Telecommunications, Presses Polytechniques et Universitaires Romandes, Louisanne, CH, vol. 55, nº 3/4, marzo de 2000; da a conocer un reconocimiento de interlocutores que utiliza la divergencia como medida de similitud.
Según la invención, se proporciona un método tal como se expone en la reivindicación 1.
Para un entendimiento más completo de la invención, sus objetos y ventajas, véanse la siguiente memoria descriptiva y los dibujos adjuntos.
Breve descripción de los dibujos
La figura 1 ilustra un modelo oculto de Markov (HMM, Hidden Markov Model) a modo de ejemplo, útil para entender la invención;
la figura 2 es un diagrama de flujo que muestra cómo puede construirse el autoespacio ("eigenspace") para implementar un sistema de identificación de interlocutores en el que los interlocutores clientes conocidos están representados como puntos en el autoespacio;
la figura 3 es un diagrama de flujo que ilustra cómo puede construirse el autoespacio para implementar un sistema de verificación de interlocutores en el que el interlocutor cliente y los posibles impostores están representados como distribuciones en el autoespacio;
\newpage
la figura 4 es un diagrama de flujo que ilustra el procedimiento mediante el cual la identificación de interlocutores o la verificación de interlocutores pueden realizarse utilizando el autoespacio desarrollado durante la instrucción;
la figura 5 es una ilustración de cómo se realiza la técnica de máxima probabilidad;
la figura 6 es un diagrama estructural de datos que ilustra cómo pueden situarse los datos de observación procedentes de un interlocutor en un autoespacio basado en la operación de máxima probabilidad;
la figura 7 ilustra un modelo de mezclas gaussianas (GMM) a modo de ejemplo, útil para entender la invención;
la figura 8 es un diagrama de flujo que muestra cómo pueden utilizarse los puntos procedentes del autoespacio para generar modelos probabilísticos de voz;
la figura 9 es un diagrama de flujo que muestra el procedimiento mediante el cual la identificación de interlocutores o la verificación de interlocutores pueden realizarse utilizando modelos de voz generados desde el espacio de interlocutores;
la figura 10 es un diagrama de flujo que muestra un enfoque para registrar interlocutores para solicitarles una voz adicional basada en una distancia media entre las palabras pronunciadas; y
la figura 11 es un diagrama de flujo que muestra otro enfoque para registrar interlocutores para solicitarles una voz adicional basada en la densidad de población dentro del espacio de interlocutores.
Descripción de las realizaciones preferidas
Las técnicas de autovoces utilizadas por la presente invención trabajarán con diferentes modelos de voz. Se ilustran la realización preferida en relación con un reconocedor de modelo oculto de Markov debido a su popularidad actual en la tecnología de reconocimiento de voz. Sin embargo, debe entenderse que la invención puede ponerse en práctica utilizando otros tipos de reconocedores basados en modelos tales como, por ejemplo, reconocedores de similitud de fonemas.
Para entender mejor las técnicas de verificación e identificación de interlocutores de la invención, sería útil un entendimiento básico de los sistemas de reconocimiento de voz. Dado que la mayoría de reconocedores de voz actuales utilizan modelos ocultos de Markov (HMM) para representar la voz, se describirá aquí la tecnología HMM para que el lector se familiarice.
El modelo oculto de Markov es un enfoque de modelación que implica diagramas de estado. Cualquier unidad de voz (como una frase, palabra, subpalabra, fonema o similares) puede modelarse con todas las fuentes de conocimientos incluidas en ese modelo. El modelo HMM representa un procedimiento desconocido que produce una secuencia de resultados visibles a intervalos diferenciados, siendo los resultados elementos de algún alfabeto finito (correspondiendo con el conjunto predefinido de unidades de voz). Estos modelos se denominan "ocultos" porque no se conoce la secuencia de estados que produce el resultado visible.
Tal como se ilustra en la figura 1, un HMM 10 se ilustra por un conjunto de estados (S1, S2... S5), vectores que definen las transiciones entre determinados pares de estados, ilustrados como flechas en la figura 1, y una colección de datos de probabilidad. De manera específica, el modelo oculto de Markov incluye un conjunto de probabilidades 12 de transición asociadas a los vectores de transición y un conjunto de probabilidades 14 de salida asociadas al resultado visible de cada estado. El modelo se cronometra desde un estado a otro a intervalos regularmente separados y diferenciados. En un tiempo de reloj, el modelo puede cambiar desde su estado actual hasta cualquier estado para el cual exista un vector de transición. Tal como se ilustra, una transición puede darse desde un estado dado de vuelta hasta sí mismo.
Las probabilidades de transición representan la posibilidad de que se produzca una transición desde un estado a otro cuando el modelo se cronometra. Por lo tanto, tal como se ilustra en la figura 1, cada transición tiene asociada a ella un valor de probabilidad (entre 0 a 1). La suma de todas las probabilidades que dejan cualquier estado es igual a 1. Para fines de ilustración, se ha dado un conjunto de valores de probabilidad de transición a modo de ejemplo en la tabla 12 de probabilidades de transición. Se entenderá que en una realización de trabajo, estos valores se generarían por los datos de instrucción, con la limitación de que la suma de todas las probabilidades que dejan cualquier estado es igual a cero.
Cada vez que se toma una transición, el modelo puede considerarse como si emitiera o diera salida a un elemento de su alfabeto. En la realización ilustrada en la figura 1, se ha supuesto una unidad de voz basada en un fonema. Por tanto, los símbolos identificados en una tabla 14 de probabilidades de salida corresponden a algunos de los fonemas encontrados en el inglés estándar. El elemento del alfabeto que se emite en cada transición depende del valor de probabilidad de salida o de la función aprendida durante la instrucción. De este modo, las salidas emitidas representan una secuencia de observaciones (basadas en los datos de instrucción) y cada elemento del alfabeto tiene una probabilidad de ser emitido.
En el modelado de la voz, es una práctica común tratar la salida como una secuencia de vectores continuos, a diferencia de una secuencia de símbolos alfabéticos diferenciados. Esto requiere que las probabilidades de salida se expresen como funciones de probabilidad continua, a diferencia de valores numéricos individuales. Por tanto, los modelos HMM se basan con frecuencia en funciones de probabilidad que comprenden una o más distribuciones gaussianas. Cuando se utiliza una pluralidad de funciones gaussianas, éstas se mezclan juntas normalmente de forma aditiva para definir una distribución de probabilidad compleja, tal como se ilustra en 16.
Ya se represente como una función gaussiana individual o como una mezcla de funciones gaussianas, las distribuciones de probabilidad pueden describirse por una pluralidad de parámetros. Como los valores de probabilidad de transición (tabla 12,) estos parámetros de probabilidad de salida pueden comprender números de coma flotante. La tabla 18 de parámetros identifica los parámetros utilizados normalmente para representar funciones de densidad de probabilidad (pdf) basadas en datos observados a partir de los interlocutores de la instrucción. Tal como se ilustra mediante la ecuación en la figura 1, en una función 16 gaussiana, la función de densidad de probabilidad para un vector O de información que va a modelarse es la suma iterativa del coeficiente de mezcla para cada componente de mezcla multiplicado por la densidad n gaussiana, en el que la densidad gaussiana tiene un vector u_{j} medio y una matriz U_{j} de covarianza calculados a partir de los parámetros de voz de coeficiente cepstral o de banco de fil-
tros.
Los detalles de implementación de un reconocedor de modelo oculto de Markov pueden variar mucho de una aplicación a otra. El ejemplo de HMM mostrado en la figura 1 se pretende simplemente que ilustre cómo se construyen los modelos ocultos de Markov y no se concibe como una limitación en el alcance de la presente invención. A este respecto, hay muchas variaciones en el concepto de modelos ocultos de Markov. Tal como se entenderá de manera más completa a partir de la descripción de más adelante, la técnica de adaptación de autovoces de la invención puede adaptarse fácilmente para trabajar con cada una de las diferentes variaciones del modelo oculto de Markov, así como con otros sistemas de modelación de la voz basados en parámetros.
Las figuras 2 y 3 ilustran, respectivamente, cómo la identificación de interlocutores y la verificación de interlocutores pueden realizarse utilizando las técnicas de la invención. Como primera etapa para realizar una identificación de interlocutores o verificación de interlocutores se construye un autoespacio. El autoespacio específico construido depende de la aplicación. En el caso de la identificación de interlocutores, ilustrado en la figura 2, se utiliza un conjunto de interlocutores 20 clientes para suministrar datos 22 de instrucción con los que se crea el autoespacio. De forma alternativa, para la verificación de interlocutores, mostrado en la figura 3, los datos 22 de instrucción se suministran por el interlocutor o interlocutores 21a clientes para lo que se deseará una verificación y asimismo por uno o más posibles impostores 21b. Aparte de esta diferencia en la fuente de datos de instrucción, el procedimiento para generar el autoespacio es básicamente el mismo para ambas aplicaciones de identificación de interlocutores y de verificación de interlocutores. En consecuencia, se han aplicado números de referencia similares a las figuras 2 y 3.
En alusión a las figuras 2 y 3, el autoespacio se construye desarrollando y preparando modelos de interlocutor para cada uno de los interlocutores representados en los datos 22 de instrucción. Esta etapa se ilustra en 24 y genera un conjunto de modelos 26 para cada interlocutor. Aunque se han ilustrado en el presente documento modelos ocultos de Markov, la invención no se limita a los modelos ocultos de Markov. Es más, puede utilizarse cualquier modelo de voz que tenga parámetros adecuados para la concatenación. Preferiblemente, los modelos 26 se preparan con datos de instrucción suficientes, de manera que todas las unidades de sonido definidas por el modelo son preparadas mediante al menos un ejemplo de voz real para cada interlocutor. Aunque no se ilustra explícitamente en las figuras 2 y 3, la etapa 24 de preparación de modelo puede incluir un procesamiento de adaptación apropiado auxiliar para el interlocutor para perfeccionar los modelos. Los ejemplos de este procesamiento auxiliar incluyen una estimación máxima a posteriori (MAP) u otros enfoques basados en la transformación, tales como la regresión lineal de probabilidad máxima (MLLR). El objetivo de crear modelos 26 de interlocutor es representar con exactitud un corpus de datos de instrucción, dado que este corpus se utiliza para definir las medidas y límites del autoespacio en el que se sitúa a cada interlocutor de instrucción y con respecto al que se examina cada unidad de voz.
Después de construir los modelos 26, los modelos para cada interlocutor se utilizan para construir un supervector en la etapa 28. El supervector, ilustrado en 30, puede formarse con la concatenación de los parámetros del modelo para cada interlocutor. Cuando se utilizan los modelos ocultos de Markov, el supervector para cada interlocutor puede comprender una lista ordenada de parámetros (normalmente números de coma flotante) correspondiendo al menos a una parte de los parámetros de los modelos ocultos de Markov para ese interlocutor. Los parámetros correspondientes a cada unidad de sonido se incluyen en el supervector de un interlocutor dado. Los parámetros pueden organizarse en cualquier orden conveniente. El orden no es fundamental; sin embargo, una vez que se adopta un orden ha de seguirse para todos los interlocutores de la instrucción.
La elección de los parámetros de modelo para utilizarse al construir el supervector dependerá del poder de procesamiento disponible del sistema de computación. Utilizando los parámetros del modelo oculto de Markov, se han conseguido buenos resultados construyendo supervectores a partir de los medios gaussianos. Si se dispone de un poder de procesamiento mayor, los supervectores pueden incluir también otros parámetros, tales como las probabilidades de transición (tabla 12, figura 1) o los parámetros de la matriz de covarianza (parámetros 18, figura 1). Si los modelos ocultos de Markov generan resultados discretos (a diferencia de densidades de probabilidad), entonces estos valores de salida pueden utilizarse para comprender el supervector.
Después de construir los supervectores, se realiza una operación de reducción de dimensionalidad en la etapa 32. La reducción de dimensionalidad puede llevarse a cabo a través de cualquier transformación lineal que reduzca los supervectores de alta dimensionalidad para dar vectores de base. Una lista de ejemplos no exhaustiva incluye:
Análisis de componentes principales (PCA), análisis de componentes independientes (ICA),
Análisis discriminante lineal (LDA), análisis de factores (FA) y descomposición en valores singulares (SVD).
De forma más específica, la clase de técnicas de reducción de la dimensionalidad útil para implementar la invención se define de la manera siguiente. Se considera un conjunto de T supervectores de instrucción obtenidos a partir de modelos dependientes del interlocutor para el reconocimiento de voz. Se deja que cada uno de estos supervectores tenga una dimensión V; por tanto podemos indicar cada supervector como X = [x1, x2,..., xV]^T (un vector V*1). Se considera una transformación M lineal que puede aplicarse a un supervector (es decir, a cualquier vector de dimensión V) para producir un nuevo vector de dimensión E (E es menor o igual a T, el número de supervectores de instrucción); cada vector transformado puede indicarse como W = [w1, w2, ...,wE]^T. Los valores de los parámetros de M se calculan de alguna manera a partir del conjunto de T supervectores de instrucción.
Por tanto, se tiene la transformación lineal W = M*X. M tiene una dimensión E*V y W tiene una dimensión E*1, en la que E<= T; para un conjunto particular de T supervectores de instrucción, M será constante. Pueden utilizarse varias técnicas de reducción de la dimensionalidad para calcular una transformación M lineal a partir de un conjunto de T supervectores de instrucción, de tal manera que W tiene una dimensión E<= T.
Los ejemplos incluyen análisis de componentes principales, análisis de componentes independientes, análisis discriminante lineal, análisis de factores y descomposición en valores singulares. La invención puede implementarse con cualquiera de tales métodos (no sólo aquellos enumerados) para encontrar tal transformación M lineal constante en el caso especial en el que los vectores de entrada son vectores de instrucción derivados del modelado dependiente del interlocutor y en el que M se usa para llevar a cabo la técnica anteriormente mencionada.
Los vectores de base generados en la etapa 32 definen un autoespacio abarcado por los autovectores. La reducción de la dimensionalidad da lugar a un autovector para cada uno de los interlocutores de instrucción. Por tanto si hay T interlocutores de instrucción, entonces la etapa 32 de reducción de la dimensionalidad produce T autovectores. Estos autovectores definen lo que podemos denominar un espacio de autovoces o autoespacio.
Los autovectores que forman el espacio de autovoces ilustrado en 34, representan una dimensión diferente a través de la cual pueden diferenciarse diferentes interlocutores. Cada supervector en el conjunto de instrucción original puede representarse como una combinación lineal de estos autovectores. Los autovectores se ordenan por su importancia en la modelación de los datos: el primer autovector es más importante que el segundo, que es más importante que el tercero y así sucesivamente. Por tanto, los experimentos con esta técnica muestran, de lejos, que el primer autovector aparece para corresponder a una dimensión masculino-femenina.
Aunque se produzca un máximo de T autovectores en la etapa 32, en la práctica es posible descartar varios de estos autovectores manteniendo únicamente los primeros N autovectores. Por tanto, en la etapa 36 se extraen opcionalmente N de los T autovectores para comprender un autoespacio de parámetros reducidos en 38. Los autovectores de orden superior pueden descartarse porque normalmente contienen menos información importante con la que distinguir entre interlocutores. Reducir el espacio de autovoces a menos que el número total de interlocutores de instrucción proporciona una comprensión de datos inherente que puede ser útil cuando se construyen sistemas prácticos con fuentes de procesamiento y memoria limitadas.
Después de generar los autovectores a partir de los datos de instrucción, cada interlocutor en los datos de instrucción se representa en el autoespacio. En el caso de identificación de interlocutores, cada interlocutor cliente conocido se representa en el autoespacio como se representa en la etapa 40a y se ilustra en forma de diagrama en la etapa 42a. En el caso de la verificación de interlocutores, el interlocutor cliente y los interlocutores potencialmente impostores se representan en el autoespacio tal como se indica en la etapa 40b y tal como se ilustra en 42b. Los interlocutores pueden representarse en el autoespacio bien como puntos en el autoespacio (tal como se ilustra esquemáticamente en la figura 2 en 42a) bien como distribuciones de probabilidad en el autoespacio (tal como se ilustra esquemáticamente en la figura 3 en 42b).
Utilización del sistema de identificación de interlocutores o de verificación de interlocutores
La identificación o verificación de interlocutores de búsqueda de usuarios proporciona nuevos datos de voz en la etapa 44 y estos datos se utilizan para instruir a un modelo dependiente del interlocutor tal como se indica en la etapa 46. El modelo 48 se utiliza entonces en la etapa 50 para construir un supervector 52. Obsérvese que los nuevos datos de voz no tienen que incluir necesariamente un ejemplo de cada unidad de sonido. Por ejemplo, la nueva unidad de voz puede ser demasiado corta para contener ejemplos de todas las unidades de sonido. El sistema tratará este tema, tal como se explicará más detalladamente a continuación.
La reducción de la dimensionalidad se realiza en la etapa 54 en el supervector 52, dando como resultado un nuevo punto de datos que puede representarse en un autoespacio tal como se indica en la etapa 56 y se ilustra en 58. En la ilustración en 58, los puntos obtenidos previamente en el autoespacio (basados en interlocutores de instrucción) se representan como puntos, mientras que el nuevo punto de datos de voz se representa con una estrella.
Habiendo colocado el nuevo punto de datos en el autoespacio, ahora puede evaluarse con respecto a su proximidad con los otros puntos de datos anteriores o distribuciones de datos correspondientes a los interlocutores de instrucción. La figura 4 ilustra un ejemplo tanto de la identificación de interlocutores como de la verificación de interlocutores.
Para la identificación de interlocutores, los nuevos datos de voz se asignan al interlocutor de instrucción más próximo en el autoespacio, etapa 62 ilustrada esquemáticamente en 64. Por tanto, el sistema identificará la nueva voz como que es la del interlocutor de instrucción anterior cuyo punto de datos o distribución de datos está más próximo a la nueva voz en el autoespacio.
Para la verificación de interlocutores, el sistema examina el nuevo punto de datos en la etapa 66 para determinar si está dentro de una proximidad umbral predeterminada con respecto al interlocutor cliente en el autoespacio. En la etapa 68, como garantía, el sistema puede rechazar el nuevo dato del interlocutor si está más próximo en el autoespacio a un interlocutor impostor que a un cliente. Esto se ilustra esquemáticamente en 69, en el que se han representado la proximidad al interlocutor cliente y la proximidad al impostor más cercano.
La técnica de descomposición de autoespacio de probabilidad máxima (MLED)
Una técnica sencilla para colocar al nuevo interlocutor dentro del autoespacio es utilizar una operación de proyección simple. Una operación de proyección encuentra el punto dentro del autoespacio que está lo más próximo posible al punto exterior del autoespacio correspondiente a la nueva voz de entrada del interlocutor. Es relevante apuntar que estos puntos son en realidad supervectores desde los que puede reconstituirse un conjunto de modelos HMM.
La operación de proyección es una técnica relativamente rudimentaria que no garantiza que el punto dentro del autoespacio sea óptimo para el nuevo interlocutor. Además, la operación de proyección requiere que el supervector para el nuevo interlocutor contenga un conjunto completo de datos para representar el conjunto entero de modelos HMM para ese interlocutor. Este requisito da origen a una limitación práctica importante. Si se utiliza la proyección para restringir a un nuevo interlocutor al autoespacio, este interlocutor ha de suministrar una voz de entrada suficiente, de manera que todas las unidades de voz estén representadas en los datos. Por ejemplo, si se diseñan los modelos ocultos de Markov para representar todos los fonemas de la lengua inglesa, entonces el interlocutor de instrucción ha de suministrar ejemplos de todos los fonemas antes de que la técnica de proyección simple pueda utilizarse. En muchas aplicaciones esta restricción sencillamente no es práctica.
La técnica de probabilidad máxima de la invención trata las dos desventajas mencionadas anteriormente de la proyección simple. La técnica de probabilidad máxima de la invención encuentra un punto dentro del autoespacio que representa el supervector correspondiente a un conjunto de modelos ocultos de Markov que tienen la máxima probabilidad de generar la voz suministrada por el nuevo interlocutor.
Mientras que la operación de proyección simple trata a todos los elementos del supervector como teniendo la misma importancia, la técnica de probabilidad máxima se basa en las probabilidades que surgen de los datos de adaptación reales y por tanto tiende a ponderar los datos más probables con más fuerza. A diferencia de la técnica de proyección simple, la técnica de máxima probabilidad funcionará incluso si el nuevo interlocutor no ha suministrado un conjunto completo de datos de instrucción (es decir, faltan datos para algunas de las unidades de sonido). En efecto, la técnica de probabilidad máxima tiene en cuenta el contexto en el que se construyen los supervectores, concretamente a partir de los modelos ocultos de Markov que implican probabilidades de que ciertos modelos sean más probables que otros para crear la voz de entrada suministrada por el nuevo interlocutor.
A efectos prácticos, la técnica de probabilidad máxima seleccionará el supervector dentro del autoespacio que sea el más acorde con la voz de entrada del nuevo interlocutor, independientemente de cuánta voz de entrada esté disponible realmente. A modo de ilustración, se supone que el nuevo interlocutor es una mujer joven de Alabama. Tras la recepción de unas cuantas sílabas pronunciadas por este interlocutor, la técnica de probabilidad máxima seleccionará un punto dentro del autoespacio que represente todos los fonemas (incluso aquellos todavía no representados en la voz de entrada) acordes con el acento de mujer nativa de Alabama de este interlocutor.
La figura 5 muestra cómo funciona la técnica de probabilidad máxima. La voz de entrada procedente del nuevo interlocutor se utiliza para construir un supervector 70. Tal como se explica más adelante, el supervector comprende una lista concatenada de parámetros de voz que corresponden a coeficientes cepstrales o similares. En la realización ilustrada, estos parámetros son números de coma flotante que representan medios gaussianos extraídos del conjunto de modelos ocultos de Markov correspondientes al nuevo interlocutor. También pueden utilizarse otros parámetros de HMM. En la ilustración, estos medios de HMM se muestran como puntos, como en 72. Si está totalmente poblado de datos, el supervector 70 contendría números de coma flotante para cada uno de los medios de HMM, correspondientes a cada unidad de sonido representada por los modelos HMM. Con fines de ilustración, se supone en el presente documento que los parámetros para el fonema "ah" están presentes pero faltan los parámetros para el fonema "iy".
El autoespacio 38 se representa por un conjunto de autovectores 74, 76 y 78. El supervector 70 correspondiente a los datos de observación procedentes del nuevo interlocutor puede representarse en el autoespacio multiplicando cada uno de los autovectores por un autovalor correspondiente, designado como W_{1}, W_{2}... W_{n}. Inicialmente, estos autovalores son desconocidos. La técnica de probabilidad máxima encuentra valores para estos autovalores desconocidos. Tal como se explicará más detalladamente, estos valores se seleccionan buscando la solución óptima que representará mejor al nuevo interlocutor dentro del autoespacio.
Después de multiplicar los autovalores por los autovectores correspondientes del autoespacio 38 y de sumar los productos resultantes, se produce un modelo 80 adaptado. Mientras que al supervector de la voz de entrada (supervector 70) le pueden haber faltado algunos valores de parámetros (por ejemplo, los parámetros "iy"), el supervector 80 que representa el modelo adaptado está completamente poblado de valores. Esto es un beneficio de la invención. Además, los valores en el supervector 80 representan la solución óptima, concretamente aquella que tiene la máxima probabilidad de representar al nuevo interlocutor en el autoespacio.
Los autovalores individuales W_{1}, W_{2}... W_{n} puede considerarse que comprenden un vector de probabilidad máxima, denominado en el presente documento vector de probabilidad máxima. La figura 5 ilustra un vector esquemáticamente en 82. Tal como muestra la ilustración, el vector 82 de máxima probabilidad comprende el conjunto de autovalores W_{1}, W_{2}... W_{n}.
El procedimiento para realizar la adaptación utilizando la técnica de probabilidad máxima se muestra en la figura 6. La voz de un nuevo interlocutor, que comprende los datos de observación, se utiliza para construir un conjunto de HMM tal como se representa en 100. Entonces, se utiliza el conjunto de HMM 102 para construir un supervector tal como se representa en 104. Tal como se ilustra, el supervector 106 comprende una lista concatenada de parámetros de HMM extraídos de los modelos 102 HMM.
Utilizando el supervector 106, se construye una función Q de probabilidad en 108. La realización preferida actualmente emplea una función de probabilidad que representa la probabilidad de generar los datos observados por el conjunto predefinido de modelos 102 HMM. La manipulación posterior de la función Q de probabilidad se hace de forma más sencilla si la función incluye no sólo un término P de probabilidad sino también el logaritmo de este término, log P.
Entonces, la función de probabilidad se maximiza en la etapa 110 tomando la derivada de la función de probabilidad individualmente con respecto a cada uno de los autovalores W_{1}, W_{2}... W_{n}. Por ejemplo, si el autoespacio tiene una dimensión 100, este sistema calcula 100 derivadas de la función Q de probabilidad fijando cada una a cero y resolviendo para la W respectiva. Aunque esto puede parecer un cálculo grande, es mucho menos caro computacionalmente que realizar los miles de cálculos requeridos normalmente por las técnicas MAP o MLLR convencionales.
El conjunto resultante de Ws, así obtenido, representa los autovalores necesarios para identificar el punto en el autoespacio correspondiente al punto de probabilidad máxima. Por tanto, el conjunto de Ws comprende un vector de probabilidad máxima en el autoespacio. A este respecto, cada uno de los autovectores (autovectores 74, 76, 78 en la figura 5) define un conjunto de vectores ortogonales o coordenadas frente a las cuales se multiplican los autovalores para definir un punto restringido dentro del autoespacio. Este vector de probabilidad máxima, representado en 112, se utiliza para construir un supervector 114 correspondiente al punto óptimo en el autoespacio (punto 66 en la figura 4). El supervector 114 puede utilizarse entonces en la etapa 116 para construir el modelo 118 adaptado para el nuevo interlocutor.
En el contexto del marco de probabilidad máxima de la invención, se desea maximizar la probabilidad de una observación O = o_{1}...o_{T} con respecto al modelo \lambda. Esto puede hacerse maximizando de manera iterativa la función Q auxiliar (abajo), donde \lambda es el modelo actual en la iteración y \lambda es el modelo estimado. Se tiene:
100
Como aproximación preliminar, podría quererse realizar una maximización únicamente con respecto a los medios. En el contexto donde la probabilidad P viene dada por un conjunto de modelos HMM, se obtiene lo siguiente:
102
en la que
103
y se deja que:
O_{t} sea el vector característico en tiempo t
C_{m}^{(s)-1} sea la covarianza inversa para la mezcla gaussiana m del estado s.
\overline{\mu}_{m}^{(s)} sea el medio adaptado aproximado para el estado s, componente de mezcla m
\gamma_{m}^{(s)}(t) sea la P (utilizando la mezcla gaussiana m|\lambda, o_{t})
Se supone que los medios gaussianos para los HMM del nuevo interlocutor se localizan en el autoespacio. Hay que dejar que el espacio esté abarcado por los supervectores medios \overline{\mu}_{j} con j =1...E.
104
en los que \overline{\mu}_{m}^{(x)}(j) representa el vector medio para la mezcla gaugassiana m en el estado s del autovector (automodelo)j. Entonces se necesita:
105
Los \overline{\mu}_{j} son ortogonales y los w_{j} representan los autovalores del modelo de interlocutor. Se supone aquí que algunos nuevos interlocutores pueden modelarse como una combinación lineal de la base de datos de los interlocutores observados. Entonces
106
con s en estado de \lambda, m en mezcla gaugassiana de M.
Dado que se necesita maximizar Q, sólo se necesita establecer
107
(obsérvese que debido a que los autovectores son ortogonales,
108
Se tiene por tanto
109
Calculando la derivada anterior, se tiene:
110
a partir de lo cual se encuentra el conjunto de ecuaciones lineales.
111
Evaluación de la proximidad en el autoespacio
Cuando se representan interlocutores como puntos en el autoespacio, puede utilizarse un simple cálculo de distancia geométrica para identificar qué interlocutor de datos de instrucción está más próximo al nuevo interlocutor. Cuando los interlocutores se representan como distribuciones en el autoespacio, la proximidad se calcula tratando los datos del nuevo interlocutor como una observación O y examinando entonces cada candidato de distribución (que representan a los interlocutores de instrucción) para determinar cuál es la probabilidad de que el candidato generase los datos de observación. El candidato con la probabilidad más alta se evalúa como teniendo la proximidad más cercana. En algunas aplicaciones de alta seguridad, puede ser deseable rechazar la verificación si el candidato más probable tiene una puntuación de probabilidad inferior a un umbral predeterminado. Puede utilizarse una función de coste para descartar así candidatos que carezcan de un alto grado de certidumbre.
La evaluación de la proximidad del nuevo interlocutor a los interlocutores de instrucción puede realizarse por completo dentro del autoespacio, tal como se describe anteriormente. De forma alternativa, puede utilizarse una técnica de estimación bayesiana para una precisión incluso mayor.
Para mejorar la evaluación de la proximidad que utiliza la estimación bayesiana, se multiplican las densidades gaussianas de los interlocutores de instrucción dentro del autoespacio por la densidad marginal estimada en el espacio complementario ortogonal que representa los datos de interlocutor que se descartaron mediante la reducción de la dimensionalidad. A este respecto, se reconoce que realizar la reducción de la dimensionalidad con los supervectores del modelo de interlocutor da como resultado una compresión importante de los datos desde el espacio de alta dimensionalidad hasta un espacio de baja dimensionalidad. Aunque la reducción de la dimensionalidad conserva los vectores de base más importantes, se descarta alguna información de orden superior. La técnica de estimación bayesiana calcula aproximadamente una densidad gaussiana marginal que corresponde a esa información descartada.
Como ilustración, se supone que el autoespacio original se construye mediante una transformación lineal del supervector a través de un proceso de reducción de la dimensionalidad por medio del cual se extraen M componentes del número N superior de todos los componentes. Los M componentes más pequeños extraídos representan un subespacio dimensional inferior de la base de transformación que se corresponde con los autovalores máximos. Por tanto, el autoespacio está definido por componentes i = 1...M, mientras que los componentes menores descartados corresponden a i= M + 1...N. Estos dos conjuntos de componentes definen dos subespacios complementarios y mutuamente excluyentes, el subespacio principal representa el autoespacio de interés y su componente ortogonal representa los datos que se descartaron a través de la reducción de la dimensionalidad.
Se puede calcular la estimación de probabilidad como el producto de las densidades gaussianas en estos dos espacios ortogonales respectivos mediante la siguiente ecuación:
112
En la ecuación anterior, el primer término es la densidad gaussiana individual en el autoespacio E y el segundo término es la distribución gaussiana individual en el espacio ortogonal con respecto al autoespacio. Resulta que ambos términos pueden calcularse aproximadamente y por completo a partir del conjunto de vectores de datos de instrucción, utilizando únicamente las proyecciones en el autoespacio y los errores residuales.
Ejemplos adicionales
En los ejemplos anteriores, la voz se ha representado como modelos ocultos de Markov (HMM). Los modelos ocultos de Markov se emplean actualmente con uso frecuente en muchos reconocedores de voz y, por tanto, pueden utilizarse para fines de verificación de interlocutores así como de identificación de interlocutores. Sin embargo, las técnicas de la presente invención no se limitan a utilizar los modelos ocultos de Markov. Por ejemplo, un sistema útil y eficaz para la verificación de interlocutores y/o la identificación de interlocutores puede implementarse utilizando modelos de mezclas gaussianas (GMM). Los modelos de mezclas gaussianas son modelos de estado individual que pueden prepararse con datos de instrucción independientes de texto o dependientes de texto. En comparación, normalmente los modelos ocultos de Markov tienen estados plurales y se preparan con datos de voz que han sido etiquetados según el texto utilizado para los datos de instrucción. Por tanto, los modelos de mezclas gaussianas pueden considerarse como un caso especial de los modelos ocultos de Markov, en el que se utiliza un único estado y en los que los datos de instrucción no necesitan etiquetarse.
El modelo de mezclas gaussianas (GMM) puede utilizarse para fines de identificación de interlocutores y verificación de interlocutores asignando gaussianas de componente individual para representar amplias clases acústicas. Estas clases pueden representar configuraciones generales de extensión vocal dependientes del interlocutor que son útiles para modelar la identidad del interlocutor. La densidad de mezclas gaussianas proporciona una aproximación uniforme de la distribución de muestras de observaciones subyacentes a largo plazo obtenida a partir de los sonidos de un interlocutor dado. Véase Reynolds, D.A., "Speaker Identification and Verification Using Gaussian Mixture Speaker Models", Speech Communication, Vol. 17, pp. 91-108, 1995.
Una densidad de mezclas gaussianas es una suma ponderada de M densidades componente y viene dada por la ecuación,
113
en la que x es un vector D-dimensional,
i = 1,..., M son las densidades componente y
p_{i},i = 1, ..., son los pesos de mezcla.
Cada densidad componente es una función gaussiana de variable D de la forma,
114
con el vector medio \mu_{i} y la matriz de covarianza \Sigma_{i}. Además, los pesos de mezcla satisfacen la limitación de que
115
La densidad completa GM se parametriza mediante el vector medio, las matrices de covarianza y los pesos de mezcla de todas las densidades componente.
116
Además, se apreciará que aunque se han ilustrado en el presente documento HMM y GMMS, pueden utilizarse también otros tipos de modelos de voz. Los mejores modelos para este fin son aquellos que se expresan numéricamente (por ejemplo, como números de coma flotante) de manera que un espacio de interlocutor puede definirse matemáticamente. Para fines de ilustración, se ha ilustrado un modelo 120 GMM en la figura 7.
En los ejemplos anteriores, el espacio de interlocutor se ha representado como una combinación lineal de autovoces. Sin embargo, las técnicas de la presente invención no se limitan a un espacio de interlocutor de este tipo. De manera más general, el espacio de interlocutor es un conjunto de restricciones matemáticas derivadas de un conjunto de interlocutores de instrucción, y representando un conocimiento a priori que debe satisfacerse por los nuevos interlocutores. Además del espacio de interlocutor basado en autovoces, otros enfoques incluyen (pero no se limitan a esto) "ponderación del interlocutor de referencia" (véase Hazen, T.J y Glass, J.R., "A comparison of Novel Techniques for Instantaneous Speaker Adaptation", Eurospeech Proceedings, pp. 2047-50, 1997) y agrupamiento de interlocutores (véase Kosaka, T., y Sagayama, S., "Tree-Structured Speaker Clustering for Fast Speaker Adaptation", ICASSP pp. I-245 a I-248, 1994)
La figura 8 ilustra que también hay alterativas para construir el espacio de interlocutor, representando la voz de registro en el espacio de interlocutor y determinando si el interlocutor de prueba es uno de los interlocutores clientes. Al principio, una importante consideración con respecto a la construcción del espacio de interlocutor se refiere a la selección de los interlocutores 122 de instrucción. Aunque podrían utilizarse los interlocutores 124 clientes para recoger los datos 22 de instrucción, pueden conseguirse ciertos beneficios utilizando un segundo grupo de individuos como los interlocutores 122 de instrucción. Por ejemplo, este enfoque permite a los interlocutores 122 de instrucción ser grandes de forma arbitraria, y en general permitirá datos de instrucción más diversos. Por ejemplo, podrían seleccionarse individuos pagados o voluntarios con antelación de una población mucho más grande que la población de interlocutores clientes. La población seleccionada de interlocutores de instrucción no podría tener una relación específica con la población definida por los interlocutores 124 clientes (otra diferente a su capacidad para hablar). Estos interlocutores de instrucción suministrarían cada uno una muestra relativamente grande de voces de instrucción. Esto permitiría la construcción de un espacio de interlocutor mucho más diverso, basado en modelos de voz relativamente bien preparados y permitiría una reducción importante en la cantidad de datos necesarios procedentes de los interlocutores 124 clientes. De este modo, en la etapa de registro de clientes, únicamente se necesitarían unos cuantos segundos de voz de cada cliente, a diferencia de varios minutos de voz. Esto es una ventaja clave para el enfoque del espacio de
clientes.
La etapa 132 ilustra el proceso de preparar el espacio de interlocutores. Tal como se ha tratado anteriormente, el resultado puede ser un conjunto de modelos de voz GMM (preferiblemente independientes de texto) tal como se ilustra en 126 o de modelos de voz dependientes de texto, tal como se trató anteriormente. Por tanto, aunque en el presente documento se han ilustrado modelos de mezclas gaussianas, la invención no se limita a los modelos de mezclas gaussianas (o modelos ocultos de Markov, para esta cuestión). Más bien, puede utilizarse cualquier modelo de voz que tenga parámetros adecuados para la concatenación.
De manera opcional, los modelos de voz pueden estar bien sintonizados o adaptados para representar las diferencias entre el entorno utilizado durante la instrucción y el entorno que se utilizará durante el uso posterior para la verificación de interlocutores y/o la identificación de interlocutores. Normalmente, los datos de instrucción se recogen en condiciones controladas (calidades de sonido de fondo conocido, micrófonos normalizados y equipo de procesamiento de señales, colocación controlada de micrófonos, etc.). En uso, el sistema puede utilizarse en un entorno de oficina, por ejemplo, en el que las condiciones del entorno son bastante diferentes de las del entorno de instrucción. Para adaptar esta variación, puede utilizarse un proceso de adaptación del entorno para mejorar los modelos de interlocutores de instrucción para su uso específico en un entorno dado. Para este fin, puede emplearse la adaptación MLLR. Asimismo, pueden utilizarse otras técnicas de adaptación conocidas.
En la realización preferida actualmente, se utilizan modelos para cada interlocutor para crear un supervector. El supervector puede formarse concatenando los parámetros del modelo para cada interlocutor. Cuando se utilizan modelos de mezclas gaussianas, los números de coma flotante utilizados para representar las mezclas gaussianas pueden concatenarse para cada interlocutor.
Después de construir los supervectores, se aplica una técnica que reduce el número de grados de libertad en un modelo de voz para un interlocutor en particular. Tales técnicas funcionan con datos de interlocutores de instrucción para generar un espacio de interlocutor de dimensionalidad reducida. Aunque puede utilizarse cualquier técnica de este tipo, en el presente documento se muestra un análisis discriminante lineal (LDA) y se prefiere actualmente. Por tanto, además de los supervectores, la etapa 132 hace uso de datos 130 globales de matriz de dispersión dentro del interlocutor. Es importante observar esto porque este tipo de datos generalmente no es parte de un modelo de interlocutor dependiente del interlocutor.
Después de que una técnica tal como PCA o LDA haya generado un conjunto inicial de vectores 134 de base, puede realizarse una etapa 136 opcional de nueva estimación del espacio de interlocutores. En el presente documento, una técnica como MLES puede girar los vectores 134 de base, en el espacio de manera que se maximice la probabilidad de los datos de instrucción, según los modelos de interlocutores de instrucción en el espacio. El resultado sería un conjunto mejorado de vectores 138 de base. Más adelante se proporcionan detalles de la técnica MLES.
Después de que se haya generado un espacio de interlocutor, el sistema puede utilizarse para registrar uno o más interlocutores clientes de manera que puede realizarse una identificación de interlocutores o una verificación de interlocutores con respecto a aquellos interlocutores clientes. El registro se realiza en la etapa 140, en la que cada interlocutor cliente se representa en un espacio de interlocutor basado en una unidad corta de voz de registro. Esto se hace preparando un modelo de voz de registro con la voz de registro del interlocutor cliente (posiblemente tan sólo unas cuantas palabras), y entonces colocando a los interlocutores clientes en el espacio de interlocutor mediante una MLED o proyección, tal como se trató anteriormente. Si se desea, las técnicas de adaptación al interlocutor o al entorno, tales como MLLR, pueden utilizarse para mejorar los modelos de voz de uno o más interlocutores clientes, o para volver a estimar el espacio de interlocutores, de manera que esto modela mejor el nuevo entorno (es decir, el entorno en el que se registran los interlocutores clientes).
En este punto, el poder del espacio de interlocutores puede ser más apreciado en detalle. Si el interlocutor cliente proporciona una muestra muy corta de voz, puede no haber datos suficientes para construir un modelo de voz completo para ese interlocutor. Sin embargo, al colocar el modelo parcial en el espacio de interlocutores en su ubicación adecuada, tal como dicta el procedimiento MLED (o mediante proyección), el espacio de interlocutores llenará los detalles, permitiendo un modelo de voz completo para ese interlocutor que se generará más tar-
de.
Después de que el espacio de interlocutores se haya creado y todos los interlocutores clientes se hayan registrado, el sistema está listo para utilizarse. Para realizar una verificación de interlocutor o una identificación de interlocutor con un interlocutor de prueba, se toma una muestra de la voz de ese interlocutor y se evalúa utilizando el espacio de interlocutores poblado de clientes. En los ejemplos anteriores, la verificación de interlocutores y la identificación de interlocutores se realizaron colocando la voz del interlocutor de prueba en el espacio de interlocutores, para determinar, a través de una medida de distancia adecuada, qué interlocutor cliente estaba más próximo al interlocutor de prueba. A continuación se describirá una técnica alternativa.
En lugar de colocar el interlocutor de prueba dentro del espacio de interlocutores, la técnica alternativa abarca los puntos de vector del interlocutor cliente dentro del espacio de interlocutores retrocediendo a modelos de voz completos. Recordando que aunque la voz de registro inicial del cliente fue muy corta (dando como resultado de manera bastante probable modelos de voz incompletos), los puntos en el espacio de interlocutores generarán modelos de voz completos. Esto es así porque el espacio de interlocutores original contiene una gran cantidad de conocimiento a priori sobre las características de la voz humana. En otras palabras, sólo unas cuantas palabras pronunciadas por un interlocutor cliente son suficientes para colocar ese interlocutor cliente dentro del espacio de interlocutores, en el que puede deducirse un modelo amplio y completo de voz.
En la técnica alternativa, cada punto de interlocutor cliente dentro del espacio de interlocutores se utiliza para producir su modelo completo de voz correspondiente. Entonces, cada uno de los modelos de interlocutor cliente es una voz evaluada con respecto al interlocutor de prueba. El modelo de cliente con la probabilidad más alta de producir la voz de prueba se utiliza entonces para los fines de identificación de interlocutores y/o verificación de interlocuto-
res.
La expansión de la posición del interlocutor cliente en los vectores del espacio de interlocutores retrocediendo a los modelos de voz se muestra en la etapa 144, en la figura 8. De forma específica, se generan los modelos 146 de voz completos correspondientes a partir de sus ubicaciones en el espacio 142 de interlocutores. Entonces, estos modelos se utilizan para una posterior verificación de interlocutores y/o identificación de interlocutores. Cada uno de los modelos se examina con respecto a los datos de voz de prueba suministrados por un interlocutor de prueba (usuario del sistema). El modelo que tiene la probabilidad más alta de generar la voz de prueba se utiliza para fines de una posterior verificación de interlocutores e identificación de interlocutores. La figura 9 ilustra esquemáticamente el procedimiento en el que se utilizan los modelos 146 de interlocutores para evaluar la voz de prueba. En la etapa 148, los datos de la voz proporcionados por el (los) interlocutor(es) 150 de prueba se someten a los modelos 146 probabilísticos del interlocutores clientes como parte de un análisis de probabilidad. Cada interlocutor de prueba se asigna a cualquier cliente que produzca la probabilidad más alta de producir su voz; de forma alternativa, el interlocutor de prueba puede clasificarse como un impostor. Por tanto, la evaluación final no tiene lugar en el espacio de interlocutores sino en el espacio de modelos.
Asimismo, merece la pena observar que el espacio de interlocutores puede adaptarse según se obtiene una nueva voz durante el registro de clientes. En el caso de que el entorno del cliente difiera del entorno original de instrucción (como ocurrirá con frecuencia), puede realizarse una adaptación del entorno. Por ejemplo, dado que el espacio de interlocutores derivado de la instrucción produce modelos que representan o expresan una variabilidad entre interlocutores, estos modelos pueden utilizarse para calcular aproximadamente una función de desajuste del entorno y para aplicar esa función al espacio de interlocutores (por ejemplo, como una transformación lineal). Esto impediría que las características irrelevantes del entorno de prueba interfieran en la verificación e identificación de interlocuto-
res.
Registro de interlocutores clientes difíciles
Aun cuando la presente invención generalmente necesita muy poca voz de registro, puede ser beneficioso para toda la realización pedir a una minoría de clientes problemáticos (es decir, variables) más datos de registro. Esto se realiza porque, en la práctica, es normalmente un conjunto pequeño de interlocutores clientes específicos el que produce la mayoría de las identificaciones erróneas. En el enfoque presente, estos clientes se identifican mientras están inscritos y se necesita más voz de esos clientes. En otras palabras, el modelo de voz de registro puede prepararse fácilmente con voz adicional del interlocutor cliente cuando la voz de registro cumple condiciones predeterminadas. Por ejemplo, la figura 10 muestra que las condiciones predeterminadas pueden definirse para incluir la ubicación de una primera unidad de voz en el espacio de interlocutores, estando a una distancia predeterminada de la ubicación de una segunda unidad de voz en el espacio de interlocutores. Si la distancia media dentro del interlocutor es mucho mayor que la media de las dos ubicaciones, se pide por tanto al cliente en cuestión más datos de registro. Tal como se muestra en la figura 11, las condiciones predeterminadas podrían asimismo definirse para incluir la primera ubicación, estando dispuesta en una zona del espacio de interlocutores teniendo una densidad predeterminada (es decir, un área "poblada"). En este caso, un enfoque tal como MLED permite que se tenga en cuenta información previa sobre la distribución de los interlocutores en el espacio de interlocutores. Esta distribución puede calcularse aproximadamente a partir de los datos de instrucción o de los datos de registro.
Nueva estimación del espacio de interlocutores de MLES
Tal como se presentó anteriormente, la técnica del espacio de interlocutores limita los modelos de interlocutores a un espacio de vectores lineales de baja dimensión, denominado el espacio de interlocutores. Este espacio de interlocutores resume un conocimiento a priori sobre los modelos de interlocutores obtenidos durante la instrucción inicial del sistema. Mientras que el espacio de interlocutores en su forma generada inicialmente servirá como herramienta potente para la identificación de interlocutores e identificación de interlocutores, tal como se trató anteriormente, son posibles mejoras adicionales del espacio de interlocutores mediante una técnica denominada autoespacio de máxima probabilidad (MLES). El método MLES realiza una nueva estimación de los datos de instrucción. Da como resultado que giran los vectores dentro del espacio de interlocutores, de tal manera que se maximiza la probabilidad de los datos de instrucción según los modelos de interlocutores de instrucción en el espacio. La técnica MLES comienza integrando los valores como datos ocultos en el problema de cálculo, dando lugar a:
117
en la que P_{o}(w, q) contiene información anterior sobre el interlocutor q (por ejemplo, la probabilidad de aparecer una persona de un acento o sexo dado). De forma extensiva, se utiliza para conjuntos desequilibrados de interlocutores. Por ejemplo, podemos colocar para una k dada
1
Pueden obtenerse una serie de voces de interlocutores a través de PCA, análisis discriminante lineal (LDA), agrupación de interlocutores o pueden darse como un conjunto de modelos de dependientes del interlocutor. Cuando no se conoce ningún conocimiento particular sobre w_{k}, utilizamos MLED para sustituir el operador de integración por un máximo operador.
La fórmula para la nueva estimación es relativamente fácil de derivar
118
en la que q, m, e representa un interlocutor, una distribución y un vector de base del espacio de interlocutores. L_{q} es la probabilidad posterior de las unidades de voz O^{(q)} del interlocutor, L_{q}, \gamma_{m}(t) es la probabilidad posterior observada. w_{q}^{(e)} es la estimación actual de la coordenada eº del interlocutor q. Finalmente \mu_{q}^{(m)} es el complemento del medio estimado, es decir,
119
A partir de lo anterior, se apreciará que la invención proporciona técnicas potentes para realizar la verificación de interlocutores y/o la identificación de interlocutores. Aunque se han ilustrado varios ejemplos en el presente documento, se apreciará por aquellos expertos en esta técnica que son posibles numerosas variaciones dentro del alcance de las reivindicaciones adjuntas.

Claims (14)

1. Método para evaluar una voz con respecto a un interlocutor (124) cliente predeterminado, comprendiendo el método las etapas de:
preparar un conjunto de modelos (126) de voz con la voz (22) a partir de una pluralidad de interlocutores (122) de instrucción, en el que la pluralidad de interlocutores de instrucción no incluye al interlocutor cliente;
generar vectores (134) de base que definen un espacio (142) de interlocutores a partir del conjunto de modelos (126) de voz para representar dicha pluralidad de interlocutores (122) de instrucción;
representar la voz de registro de dicho interlocutor (124) cliente como una primera ubicación en dicho espacio (142) de interlocutores;
caracterizado por generar un modelo (146) probabilístico de voz desde la primera ubicación;
determinar en el espacio del modelo si un nuevo interlocutor (150) es el interlocutor (124) cliente evaluando una probabilidad de que el dato de voz procedente del nuevo interlocutor (150) se genere por el modelo (146) probabilístico de voz y utilizar dicha evaluación como una indicación de si el nuevo interlocutor (150) es el interlocutor (124) cliente.
2. Método según la reivindicación 1, que incluye además las etapas de:
preparar un modelo de voz de registro con la voz de registro del interlocutor cliente; y
generar una representación del interlocutor cliente como una primera ubicación en el espacio de interlocutores.
3. Método según la reivindicación 2, que incluye además la etapa de preparar el modelo de voz de registro con una voz adicional procedente del interlocutor cliente cuando la voz de registro cumple condiciones predeterminadas.
4. Método según la reivindicación 3, en el que la voz de registro incluye una primera unidad de voz y una segunda unidad de voz, incluyendo además el método la etapa de definir las condiciones predeterminadas para incluir la ubicación de la primera unidad de voz en el espacio de interlocutores, estando a una distancia predeterminada de la ubicación de la segunda unidad de voz en el espacio de interlocutores.
5. Método según la reivindicación 3, que incluye además la etapa de definir las condiciones predeterminadas para incluir la primera ubicación, estando situada en una zona del espacio de interlocutores que tiene una densidad predeterminada.
6. Método según la reivindicación 1, que incluye además la etapa de preparar un conjunto de modelos de voz independientes de texto.
7. Método según la reivindicación 1, que incluye además la etapa de preparar un conjunto de modelos de voz dependientes de texto.
8. Método según la reivindicación 1, que incluye además las etapas de:
obtener un supervector dependiente del interlocutor para cada uno de dichos interlocutores de instrucción; y
generar un espacio de interlocutores que tiene una dimensionalidad menor que los modelos de voz basados en los supervectores dependientes del interlocutor.
9. Método según la reivindicación 8, que incluye además las etapas de:
obtener una matriz de datos de dispersión dentro del interlocutor; y
realizar una reducción de la dimensionalidad basada en la matriz de datos.
10. Método según la reivindicación 1, que incluye además la etapa de estimar de nuevo el espacio de interlocutores.
11. Método según la reivindicación 1, que incluye además la etapa de adaptar el espacio de interlocutores basado en información concerniente a un entorno de registro de clientes.
12. Método según la reivindicación 1, que incluye además la etapa de construir el espacio de interlocutores reduciendo el número de grados de libertad para cada modelo de voz de los interlocutores de instrucción.
13. Método según la reivindicación 1, que incluye además la etapa de realizar una identificación de interlocutores.
14. Método según la reivindicación 1, que incluye además la etapa de realizar una verificación de interlocutores decidiendo si el nuevo interlocutor es el interlocutor cliente o un impostor.
ES01305725T 2000-07-05 2001-07-02 Identificacion y verificacion de interlocutores. Expired - Lifetime ES2239650T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US610495 2000-07-05
US09/610,495 US6697778B1 (en) 1998-09-04 2000-07-05 Speaker verification and speaker identification based on a priori knowledge

Publications (1)

Publication Number Publication Date
ES2239650T3 true ES2239650T3 (es) 2005-10-01

Family

ID=24445240

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01305725T Expired - Lifetime ES2239650T3 (es) 2000-07-05 2001-07-02 Identificacion y verificacion de interlocutores.

Country Status (5)

Country Link
EP (1) EP1178467B1 (es)
JP (1) JP2002082694A (es)
CN (1) CN1253851C (es)
DE (1) DE60109240T2 (es)
ES (1) ES2239650T3 (es)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030171930A1 (en) * 2002-03-07 2003-09-11 Junqua Jean-Claude Computer telephony system to access secure resources
CN1308911C (zh) * 2003-07-10 2007-04-04 上海优浪信息科技有限公司 一种说话者身份识别方法和系统
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
JP4717872B2 (ja) * 2006-12-06 2011-07-06 韓國電子通信研究院 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
CN103035239B (zh) * 2012-12-17 2014-10-08 清华大学 一种基于局部学习的说话人识别方法
CN106683661B (zh) * 2015-11-05 2021-02-05 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
US10418037B2 (en) * 2016-03-23 2019-09-17 Telefonaktiebolaget Lm Ericsson (Publ) Speaker verification computer system with textual transcript adaptations of universal background model and enrolled speaker model
CN108091326B (zh) * 2018-02-11 2021-08-06 张晓雷 一种基于线性回归的声纹识别方法及系统
CN109065059A (zh) * 2018-09-26 2018-12-21 新巴特(安徽)智能科技有限公司 用音频特征主成分建立的语音群集来识别说话人的方法
CN112002317B (zh) * 2020-07-31 2023-11-14 北京小米松果电子有限公司 语音输出方法、装置、存储介质和电子设备
CN115471327A (zh) * 2022-11-02 2022-12-13 平安银行股份有限公司 银行业务办理的远程面签方法、装置、计算机存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1144172C (zh) * 1998-04-30 2004-03-31 松下电器产业株式会社 包括最大似然方法的基于本征音的发言者适应方法
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices

Also Published As

Publication number Publication date
JP2002082694A (ja) 2002-03-22
DE60109240T2 (de) 2006-02-16
EP1178467B1 (en) 2005-03-09
CN1366295A (zh) 2002-08-28
EP1178467A1 (en) 2002-02-06
CN1253851C (zh) 2006-04-26
DE60109240D1 (de) 2005-04-14

Similar Documents

Publication Publication Date Title
US6697778B1 (en) Speaker verification and speaker identification based on a priori knowledge
Campbell Speaker recognition: A tutorial
Leu et al. An MFCC-based speaker identification system
WO2008100971A1 (en) Text-dependent speaker verification
ES2239650T3 (es) Identificacion y verificacion de interlocutores.
Das et al. A voice identification system using hidden markov model
Kekre et al. Performance comparison of speaker recognition using vector quantization by LBG and KFCG
Biagetti et al. Speaker identification in noisy conditions using short sequences of speech frames
Campbell Speaker recognition
Tsai et al. Self-defined text-dependent wake-up-words speaker recognition system
Kinnunen Optimizing spectral feature based text-independent speaker recognition
Panda et al. Study of speaker recognition systems
JP4716125B2 (ja) 発音評定装置、およびプログラム
Huo et al. Online adaptive learning of continuous-density hidden Markov models based on multiple-stream prior evolution and posterior pooling
Khetri et al. Automatic speech recognition for marathi isolated words
Hossan et al. Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization
Price et al. Design of matlab®-based automatic speaker recognition systems
CN101281746A (zh) 一个百分之百辨认率的国语单音与句子辨认方法
Zhao et al. Measuring attribute dissimilarity with HMM KL-divergence for speech synthesis.
NOVOTNÝ Improving Robustness of Speaker Recognition using Discriminative Techniques
Singhai et al. Automatic speaker recognition: An approach using dwt based featureextraction and vector quantization
Ali et al. Voice Reminder Assistant based on Speech Recognition and Speaker Identification using Kaldi
Kumar Feature normalisation for robust speech recognition
Omar et al. Approximately independent factors of speech using nonlinear symplectic transformation
Sriskandaraja Spoofing countermeasures for secure and robust voice authentication system: Feature extraction and modelling