ES2535858T3

ES2535858T3 - Procedimiento y dispositivo para la clasificación de interlocutores

Info

Publication number: ES2535858T3
Application number: ES07114958.7T
Authority: ES
Inventors: Fred Runge; Felix Burkhardt; Joachim Stegmann; Christian Müller
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 2007-08-24
Filing date: 2007-08-24
Publication date: 2015-05-18
Anticipated expiration: 2027-08-24
Also published as: EP2028647A1; EP2028647B1

Abstract

Procedimiento para la clasificación automática de un interlocutor gracias a un sistema numérico, en el que se aplican, como mínimo, dos procedimientos distintos de clasificación de un interlocutor a datos vocales digitales, efectuando la combinación de sus resultados, en el que el primer procedimiento procesa características a base de segmento, y el segundo procedimiento procesa características a base de expresiones, en el que el procedimiento a base de expresiones utiliza, como mínimo, un Aparato con Vector de Soporte (SVM) por clase de interlocutor sobre la base de las características de tono basadas en la expresión, en el que el procedimiento a base de segmentos utiliza, como mínimo, un modelo de mezcla Gaussiana (GMM) por clase de interlocutor, que se basa en coeficientes de frecuencia Mel-Cepstral (MFCC), tratados trama a trama.

Description

imagen1

imagen2

imagen3

imagen4

imagen5

De este ejemplo resulta evidente que una etapa central en la construcción de una SVM es la elección de la cantidad r apropiada. Depende frecuentemente del conocimiento de dominios del diseñador. De lo contrario, se escogen frecuentemente funciones polinómicas de Gauss u otras funciones elementales. [13, S. 188f] facilitan un ejemplo en el que la cantidad original de atributos es transformada por una factorización de n veces. Para dos atributos y n = 3, sería

imagen6

La dimensionalidad del espacio representado puede ser tan elevada como se desee, pero en la práctica, es limitada mediante recursos técnicos de cálculo. Para una transformación de diez características originales con n=5, se debe determinar el algoritmo de aprendizaje con intermedio de 2000 coeficientes (ver, igual referencia).

Una ventaja de la hipótesis de SVM consiste en que, es menos propensa en general para problemas de “Overfitting” que otros procedimientos. Según [13. página 191], estos se generan siempre cuando los modelos son inestables, es decir, los límites de decisión desplazan menos instancias con la variación. El hiperplano con el borde mayor permanece, no obstante, relativamente estable, dado que solamente varía cuando se añaden vectores de soporte o se anulan. Esto es válido también para un espacio de muchas dimensiones que es solicitado por una transformación no lineal. Los vectores de soporte son representantes globales del banco de datos de aprendizaje en su conjunto. Habitualmente, existe solamente un reducido número de ellos, lo que significa una reducida flexibilidad y, por lo tanto, un menor peligro de “Overfitting” (ver, [13, página 191 f]).

Modelos de mezcla Gaussiana

Los modelos de mezcla Gaussiana (Gaul’sche Mixtur-Modelle, GMM) están muy íntimamente relacionados con el clasificador de Bayes. Sirven como modelo probabilístico para densidades multivariadas de probabilidad que pueden representar las densidades deseadas (de Gauss, de Laplace). En la aplicación se calcularán, con ayuda de GMM, las densidades de probabilidad básicas específicas de la clase en base a, las cuales un clasificador de proporción de probabilidades muestra entonces un modelo determinado de una categoría. Para un vector de características x de d dimensiones, la densidad mixta (“mixture-density”) se define del modo siguiente:

imagen7

La densidad de probabilidad es una combinación lineal de densidades de probabilidad M de Gauss. Los factores de ponderación de mezcla i cumplen además la condición

imagen8

En su conjunto, se designan los parámetros del modelo por [= {j µj, j}, en el que j=1,..., M. En base a una reunión de muestras de aprendizaje se determinan los parámetros con ayuda del algoritmo de maximización-expectativa iterativo (algoritmo EM). Este adapta los parámetros de GMM de forma tal que se alcanza una mejora monótona de la probabilidad del modelo de los vectores de características observados. Para las iteraciones k y k+1 se cumple, por ejemplo, p(x| k+1 > p(x|k).

Un GMM puede ser considerado como modelo híbrido entre modelos paramétricos y no paramétricos puesto que, a pesar de que los parámetros básicos determinan el comportamiento, un grado más elevado de libertad permite las densidades de probabilidad deseadas.

Los modelos de mezcla Gaussiana constituyen un procedimiento posible para la clasificación basada en trama, en el reconocimiento de interlocutor y similares (ver, por ejemplo, [14], [15], [16]). Las características utilizadas son, en la mayor parte de casos, Coeficientes Cepstral de Frecuencia Mel (MFCC), que se combinan frecuentemente con la primera y segunda desviaciones temporales (Delta-MFCC, DeltaDelta-MFCC). Los MFCC son características establecidas basadas en trama en el reconocimiento de interlocutor. Se designarán como basados en trama porque la señal de voz continua se divide en primer lugar mediante una ventana de exploración en secciones (tramas) de una longitud aproximada de 10 ms, para poder llevar a cabo una transformación de Fourier. La designación “Mel” indica la escala de frecuencias de igual nombre, que se orienta a la percepción humana de la frecuencia básica. La designación “cepstral” se deriva de “cepstrum”, que muestra una derivación de “spectrum” (espectro). Se debe

7

imagen9

para idéntica formación y material de prueba. A pesar de que la exactitud promedio no es significativamente más elevada que en el sistema de referencia, la matriz está mejor equilibrada, es decir, la diferencia entre la menor “TruePosilive-Rate” (Tasa Positiva Real) y la siguiente es menor.

A continuación, se describirá el sistema B de la figura 7. Puesto que solamente muy pocas expresiones cubren el inventario de fonemas completo, es produce en el sistema A una proporción mayor de “missing values” (valores que faltan). El sistema B es una variante en la que se puede superar este problema, de manera que para cada segmento se genere un modelo separado. Tal como se muestra en la figura 7 se enlazaron los modelos entre sí en el “Score-Level” (nivel de calificación). La tabla 7 comprende la exactitud de clasificación conjunta del sistema B: La exactitud promedio es más elevada que en el sistema A, no obstante, esta mejora ha sido conseguida a costa de la comparatividad. El conjunto del sistema B consiste en que son necesarios múltiples modelos, lo cual tiene un efecto negativo tanto en el comportamiento del transcurso del tiempo del sistema como también en la verosimilitud del sistema.

Resumen de la invención

Un objetivo esencial de la presente invención es no solamente la mejora de la exactitud de la clasificación de interlocutor con reducción de la tasa de fallos, sino también la preparación de un procedimiento para aumentar la eficiencia del proceso de clasificación.

Se consigue este objetivo mediante un procedimiento y dispositivo que presenta las características de las reivindicaciones independientes.

En las secciones siguientes, se describirán tres procedimientos distintos, que en los estudios más nuevos han sido comparados entre sí (Sistemas A, B y C). Se exceptuará el sistema C, que será descrito en una sección posterior de manera precisa.

Mediante el procedimiento combinado de varias etapas que se describe según la invención, se consigue, en comparación con la utilización separada de la identificación de lenguaje, una reducción sustancial de la tasa de errores en la clasificación de la lengua hablada en los sistemas de diálogo de voz. Es ventajoso que no se requieren recursos adicionales, sino solamente la utilización adicional combinada de los sistemas de reconocimiento de voz existentes en los sistemas de diálogo de voz para conseguir tasas de éxito mejoradas para la consecución del resultado final.

Descripción de las figuras

A continuación, se describirán de manera abreviada las figuras, sin que ello signifique una limitación del ámbito de protección. Se muestra:

La figura 1, El sistema AGENDER con el escenario de utilización “Adaptive mobile Systeme” con el ejemplo de m3i Navegador/personal y m3i ShopAssist

Figura 2, Sistema AGENDER con el escenario de utilización “Callcenter” con el ejemplo de línea de servicio inmediato (“Service Hotline”) y sistema de compra.

Figura 3,: Un clasificador lineal simple según [12, página 216]

Figura 4,: Límite de decisión, vectores de borde y de soporte de un SVM según [12, 5.262] Y2

Figura 5,: Izquierda: espacio de características original del problema XOR. Derecha: proyección de

un espacio de características transferido a un espacio de seis dimensiones. Eje-x: 'J x1, Eje-y: 2 xlx2. El límite de decisión es ahora lineal (ver [12, 5.264]) Figura 6, Representación esquemática del sistema A para clasificación de interlocutor Figura 7, Representación esquemática del sistema B Figura 8, Representación esquemática de una realización preferente del sistema reivindicado C Figura 9, Representación esquemática de un sistema D Figura 10, Representación esquemática de un sistema E con almacenamiento, Figura 11, Representación esquemática de un sistema F

9

imagen10

imagen11

imagen12

Definición de abreviaturas

ANI: Identificación Automática de Número

ANN: Redes Neurales Artificiales- Neuronales Artificiales

APQ: Cociente de Perturbación de Amplitud

ASR: Reconocimiento Automático de voz

C45: Árbol de Decisión C 4.5 (Procedimiento de Aprendizaje a Máquina)

CLI: Identificación de la Línea que Llama

DBN: Red Dinámica de Bayes

EM-Aigorithmus: Algoritmo de Expectativa-Maximización

GMMs: Modelos de Mezcla Gaussiana (Procedimiento de Aprendizaje a Máquina)

Grammatik: Descripción estructurada de posibles informaciones introducidas a evaluar por el usuario (por ejemplo, Voz de conversación, Entradas de texto, Botones, Mímica de Rostro, etc.)

HLR: Registro de Localización Interno

IMEI: Identidad de Equipo Móvil Internacional

KNN: Vecino K más Próximo (Procedimiento de Aprendizaje a Máquina)

MFCC: Coeficiente Mel-Frecuencia-Cepstral

NB: Bayes Natural (Procedimiento de Aprendizaje a Máquina

PRO: Cociente de Perturbación de Tono

SIM: Módulo de Identidad de Abonado

SIP: Protocolo de Iniciación de Sesión

Clasificación de Interlocutores: Determinación de la adecuación, como mínimo, de un interlocutor con respecto a una mayor

Reconocimiento de interlocutores: Autentificación o Identificación de un interlocutor en base a características de

SVM: Máquina con Vector de Soporte

TTS: Texto a Voz

13

Claims

imagen1