ES2535858T3 - Procedimiento y dispositivo para la clasificación de interlocutores - Google Patents

Procedimiento y dispositivo para la clasificación de interlocutores Download PDF

Info

Publication number
ES2535858T3
ES2535858T3 ES07114958.7T ES07114958T ES2535858T3 ES 2535858 T3 ES2535858 T3 ES 2535858T3 ES 07114958 T ES07114958 T ES 07114958T ES 2535858 T3 ES2535858 T3 ES 2535858T3
Authority
ES
Spain
Prior art keywords
procedure
classification
interlocutor
expression
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES07114958.7T
Other languages
English (en)
Inventor
Fred Runge
Felix Burkhardt
Joachim Stegmann
Christian Müller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Application granted granted Critical
Publication of ES2535858T3 publication Critical patent/ES2535858T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

Procedimiento para la clasificación automática de un interlocutor gracias a un sistema numérico, en el que se aplican, como mínimo, dos procedimientos distintos de clasificación de un interlocutor a datos vocales digitales, efectuando la combinación de sus resultados, en el que el primer procedimiento procesa características a base de segmento, y el segundo procedimiento procesa características a base de expresiones, en el que el procedimiento a base de expresiones utiliza, como mínimo, un Aparato con Vector de Soporte (SVM) por clase de interlocutor sobre la base de las características de tono basadas en la expresión, en el que el procedimiento a base de segmentos utiliza, como mínimo, un modelo de mezcla Gaussiana (GMM) por clase de interlocutor, que se basa en coeficientes de frecuencia Mel-Cepstral (MFCC), tratados trama a trama.

Description

imagen1
imagen2
imagen3
imagen4
imagen5
De este ejemplo resulta evidente que una etapa central en la construcción de una SVM es la elección de la cantidad r apropiada. Depende frecuentemente del conocimiento de dominios del diseñador. De lo contrario, se escogen frecuentemente funciones polinómicas de Gauss u otras funciones elementales. [13, S. 188f] facilitan un ejemplo en el que la cantidad original de atributos es transformada por una factorización de n veces. Para dos atributos y n = 3, sería
imagen6
La dimensionalidad del espacio representado puede ser tan elevada como se desee, pero en la práctica, es limitada mediante recursos técnicos de cálculo. Para una transformación de diez características originales con n=5, se debe determinar el algoritmo de aprendizaje con intermedio de 2000 coeficientes (ver, igual referencia).
Una ventaja de la hipótesis de SVM consiste en que, es menos propensa en general para problemas de “Overfitting” que otros procedimientos. Según [13. página 191], estos se generan siempre cuando los modelos son inestables, es decir, los límites de decisión desplazan menos instancias con la variación. El hiperplano con el borde mayor permanece, no obstante, relativamente estable, dado que solamente varía cuando se añaden vectores de soporte o se anulan. Esto es válido también para un espacio de muchas dimensiones que es solicitado por una transformación no lineal. Los vectores de soporte son representantes globales del banco de datos de aprendizaje en su conjunto. Habitualmente, existe solamente un reducido número de ellos, lo que significa una reducida flexibilidad y, por lo tanto, un menor peligro de “Overfitting” (ver, [13, página 191 f]).
Modelos de mezcla Gaussiana
Los modelos de mezcla Gaussiana (Gaul’sche Mixtur-Modelle, GMM) están muy íntimamente relacionados con el clasificador de Bayes. Sirven como modelo probabilístico para densidades multivariadas de probabilidad que pueden representar las densidades deseadas (de Gauss, de Laplace). En la aplicación se calcularán, con ayuda de GMM, las densidades de probabilidad básicas específicas de la clase en base a, las cuales un clasificador de proporción de probabilidades muestra entonces un modelo determinado de una categoría. Para un vector de características x de d dimensiones, la densidad mixta (“mixture-density”) se define del modo siguiente:
imagen7
La densidad de probabilidad es una combinación lineal de densidades de probabilidad M de Gauss. Los factores de ponderación de mezcla i cumplen además la condición
imagen8
En su conjunto, se designan los parámetros del modelo por [= {j µj, j}, en el que j=1,..., M. En base a una reunión de muestras de aprendizaje se determinan los parámetros con ayuda del algoritmo de maximización-expectativa iterativo (algoritmo EM). Este adapta los parámetros de GMM de forma tal que se alcanza una mejora monótona de la probabilidad del modelo de los vectores de características observados. Para las iteraciones k y k+1 se cumple, por ejemplo, p(x| k+1 > p(x|k).
Un GMM puede ser considerado como modelo híbrido entre modelos paramétricos y no paramétricos puesto que, a pesar de que los parámetros básicos determinan el comportamiento, un grado más elevado de libertad permite las densidades de probabilidad deseadas.
Los modelos de mezcla Gaussiana constituyen un procedimiento posible para la clasificación basada en trama, en el reconocimiento de interlocutor y similares (ver, por ejemplo, [14], [15], [16]). Las características utilizadas son, en la mayor parte de casos, Coeficientes Cepstral de Frecuencia Mel (MFCC), que se combinan frecuentemente con la primera y segunda desviaciones temporales (Delta-MFCC, DeltaDelta-MFCC). Los MFCC son características establecidas basadas en trama en el reconocimiento de interlocutor. Se designarán como basados en trama porque la señal de voz continua se divide en primer lugar mediante una ventana de exploración en secciones (tramas) de una longitud aproximada de 10 ms, para poder llevar a cabo una transformación de Fourier. La designación “Mel” indica la escala de frecuencias de igual nombre, que se orienta a la percepción humana de la frecuencia básica. La designación “cepstral” se deriva de “cepstrum”, que muestra una derivación de “spectrum” (espectro). Se debe
7
imagen9
para idéntica formación y material de prueba. A pesar de que la exactitud promedio no es significativamente más elevada que en el sistema de referencia, la matriz está mejor equilibrada, es decir, la diferencia entre la menor “TruePosilive-Rate” (Tasa Positiva Real) y la siguiente es menor.
A continuación, se describirá el sistema B de la figura 7. Puesto que solamente muy pocas expresiones cubren el inventario de fonemas completo, es produce en el sistema A una proporción mayor de “missing values” (valores que faltan). El sistema B es una variante en la que se puede superar este problema, de manera que para cada segmento se genere un modelo separado. Tal como se muestra en la figura 7 se enlazaron los modelos entre sí en el “Score-Level” (nivel de calificación). La tabla 7 comprende la exactitud de clasificación conjunta del sistema B: La exactitud promedio es más elevada que en el sistema A, no obstante, esta mejora ha sido conseguida a costa de la comparatividad. El conjunto del sistema B consiste en que son necesarios múltiples modelos, lo cual tiene un efecto negativo tanto en el comportamiento del transcurso del tiempo del sistema como también en la verosimilitud del sistema.
Resumen de la invención
Un objetivo esencial de la presente invención es no solamente la mejora de la exactitud de la clasificación de interlocutor con reducción de la tasa de fallos, sino también la preparación de un procedimiento para aumentar la eficiencia del proceso de clasificación.
Se consigue este objetivo mediante un procedimiento y dispositivo que presenta las características de las reivindicaciones independientes.
En las secciones siguientes, se describirán tres procedimientos distintos, que en los estudios más nuevos han sido comparados entre sí (Sistemas A, B y C). Se exceptuará el sistema C, que será descrito en una sección posterior de manera precisa.
Mediante el procedimiento combinado de varias etapas que se describe según la invención, se consigue, en comparación con la utilización separada de la identificación de lenguaje, una reducción sustancial de la tasa de errores en la clasificación de la lengua hablada en los sistemas de diálogo de voz. Es ventajoso que no se requieren recursos adicionales, sino solamente la utilización adicional combinada de los sistemas de reconocimiento de voz existentes en los sistemas de diálogo de voz para conseguir tasas de éxito mejoradas para la consecución del resultado final.
Descripción de las figuras
A continuación, se describirán de manera abreviada las figuras, sin que ello signifique una limitación del ámbito de protección. Se muestra:
La figura 1, El sistema AGENDER con el escenario de utilización “Adaptive mobile Systeme” con el ejemplo de m3i Navegador/personal y m3i ShopAssist
Figura 2, Sistema AGENDER con el escenario de utilización “Callcenter” con el ejemplo de línea de servicio inmediato (“Service Hotline”) y sistema de compra.
Figura 3,
Un clasificador lineal simple según [12, página 216]
Figura 4,
Límite de decisión, vectores de borde y de soporte de un SVM según [12, 5.262] Y2
Figura 5,
Izquierda: espacio de características original del problema XOR. Derecha: proyección de
un espacio de características transferido a un espacio de seis dimensiones. Eje-x: 'J x1, Eje-y: 2 xlx2. El límite de decisión es ahora lineal (ver [12, 5.264]) Figura 6, Representación esquemática del sistema A para clasificación de interlocutor Figura 7, Representación esquemática del sistema B Figura 8, Representación esquemática de una realización preferente del sistema reivindicado C Figura 9, Representación esquemática de un sistema D Figura 10, Representación esquemática de un sistema E con almacenamiento, Figura 11, Representación esquemática de un sistema F
9
imagen10
imagen11
imagen12
Definición de abreviaturas
ANI
Identificación Automática de Número
ANN
Redes Neurales Artificiales- Neuronales Artificiales
APQ
Cociente de Perturbación de Amplitud
ASR
Reconocimiento Automático de voz
C45
Árbol de Decisión C 4.5 (Procedimiento de Aprendizaje a Máquina)
CLI
Identificación de la Línea que Llama
DBN
Red Dinámica de Bayes
EM-Aigorithmus
Algoritmo de Expectativa-Maximización
GMMs
Modelos de Mezcla Gaussiana (Procedimiento de Aprendizaje a Máquina)
Grammatik
Descripción estructurada de posibles informaciones introducidas a evaluar por el usuario (por ejemplo, Voz de conversación, Entradas de texto, Botones, Mímica de Rostro, etc.)
HLR
Registro de Localización Interno
IMEI
Identidad de Equipo Móvil Internacional
KNN
Vecino K más Próximo (Procedimiento de Aprendizaje a Máquina)
MFCC
Coeficiente Mel-Frecuencia-Cepstral
NB
Bayes Natural (Procedimiento de Aprendizaje a Máquina
PRO
Cociente de Perturbación de Tono
SIM
Módulo de Identidad de Abonado
SIP
Protocolo de Iniciación de Sesión
Clasificación de Interlocutores
Determinación de la adecuación, como mínimo, de un interlocutor con respecto a una mayor
Reconocimiento de interlocutores
Autentificación o Identificación de un interlocutor en base a características de
SVM
Máquina con Vector de Soporte
TTS
Texto a Voz
13

Claims (1)

  1. imagen1
ES07114958.7T 2007-08-24 2007-08-24 Procedimiento y dispositivo para la clasificación de interlocutores Active ES2535858T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP20070114958 EP2028647B1 (de) 2007-08-24 2007-08-24 Verfahren und Vorrichtung zur Sprecherklassifizierung

Publications (1)

Publication Number Publication Date
ES2535858T3 true ES2535858T3 (es) 2015-05-18

Family

ID=39046788

Family Applications (1)

Application Number Title Priority Date Filing Date
ES07114958.7T Active ES2535858T3 (es) 2007-08-24 2007-08-24 Procedimiento y dispositivo para la clasificación de interlocutores

Country Status (2)

Country Link
EP (1) EP2028647B1 (es)
ES (1) ES2535858T3 (es)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
CN102222500A (zh) * 2011-05-11 2011-10-19 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法
CN102237089B (zh) * 2011-08-15 2012-11-14 哈尔滨工业大学 一种减少文本无关说话人识别系统误识率的方法
JP5922263B2 (ja) 2012-02-21 2016-05-24 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 特定の対象音を検出するシステム及び方法
CN102655003B (zh) * 2012-03-21 2013-12-04 北京航空航天大学 基于声道调制信号mfcc的汉语语音情感点识别方法
CN103077709B (zh) * 2012-12-28 2015-09-09 中国科学院声学研究所 一种基于共有鉴别性子空间映射的语种识别方法及装置
CN105810198A (zh) * 2016-03-23 2016-07-27 广州势必可赢网络科技有限公司 基于特征域补偿的信道鲁棒的说话人辨识方法和装置
CN109065028B (zh) * 2018-06-11 2022-12-30 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质
CN110797011A (zh) * 2019-11-15 2020-02-14 天津光电通信技术有限公司 基于支持向量机的语音识别方法、装置、设备及存储介质
CN111144091B (zh) * 2019-12-02 2024-04-05 支付宝(杭州)信息技术有限公司 客服成员的确定方法、装置以及群成员身份的确定方法
CN113660670B (zh) * 2020-05-12 2024-02-06 哈尔滨工程大学 基于射频指纹的无线设备身份认证方法及其装置
TWI741937B (zh) * 2021-01-20 2021-10-01 橋良股份有限公司 人才適性度判斷系統及方法
TWI738610B (zh) * 2021-01-20 2021-09-01 橋良股份有限公司 金融商品推薦及風險控管系統及其方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10000973A1 (de) * 2000-01-06 2001-07-12 Deutsche Telekom Ag Verfahren zur sprachgesteuerten Identifizierung des Nutzers eines Telekommunikationsanschlusses im Telekommunikationsnetz beim Dialog mit einem sprachgesteuerten Dialogsystem

Also Published As

Publication number Publication date
EP2028647A1 (de) 2009-02-25
EP2028647B1 (de) 2015-03-18

Similar Documents

Publication Publication Date Title
ES2535858T3 (es) Procedimiento y dispositivo para la clasificación de interlocutores
Chowdhury et al. Fusing MFCC and LPC features using 1D triplet CNN for speaker recognition in severely degraded audio signals
US11715486B2 (en) Convolutional, long short-term memory, fully connected deep neural networks
CN110136693B (zh) 用于使用少量样本进行神经话音克隆的系统和方法
ES2311872T3 (es) Sistema y procedimiento de reconocimiento vocal automatico.
US20130185070A1 (en) Normalization based discriminative training for continuous speech recognition
US20110307254A1 (en) Speech recognition involving a mobile device
CN107229691B (zh) 一种用于提供社交对象的方法与设备
Ma et al. Target-directed mixture dynamic models for spontaneous speech recognition
US20170206904A1 (en) Classifying signals using feature trajectories
Meyer et al. Anonymizing speech with generative adversarial networks to preserve speaker privacy
Doddipatla et al. Speaker dependent bottleneck layer training for speaker adaptation in automatic speech recognition
US7496509B2 (en) Methods and apparatus for statistical biometric model migration
US9263033B2 (en) Utterance selection for automated speech recognizer training
Al-Qaderi et al. A two-level speaker identification system via fusion of heterogeneous classifiers and complementary feature cooperation
Tang et al. Knowledge transfer pre-training
ES2239650T3 (es) Identificacion y verificacion de interlocutores.
ES2942894T3 (es) Procedimiento de lectura automática de labios utilizando un componente funcional y para suministrar el componente funcional
Hwang et al. A probabilistic interpretation for artificial neural network-based voice conversion
Larcher et al. Constrained temporal structure for text-dependent speaker verification
Kanda et al. Sequence distillation for purely sequence trained acoustic models
Mišković et al. Hybrid methodological approach to context-dependent speech recognition
McLaren et al. On the Issue of Calibration in DNN-Based Speaker Recognition Systems.
Van Segbroeck et al. UBM fused total variability modeling for language identification.
Hadian et al. Phone Duration Modeling for LVCSR Using Neural Networks.