ES2535858T3 - Procedimiento y dispositivo para la clasificación de interlocutores - Google Patents
Procedimiento y dispositivo para la clasificación de interlocutores Download PDFInfo
- Publication number
- ES2535858T3 ES2535858T3 ES07114958.7T ES07114958T ES2535858T3 ES 2535858 T3 ES2535858 T3 ES 2535858T3 ES 07114958 T ES07114958 T ES 07114958T ES 2535858 T3 ES2535858 T3 ES 2535858T3
- Authority
- ES
- Spain
- Prior art keywords
- procedure
- classification
- interlocutor
- expression
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title abstract description 20
- 239000013598 vector Substances 0.000 abstract description 7
- 230000014509 gene expression Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 abstract description 3
- 230000001755 vocal effect Effects 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 101000863856 Homo sapiens Shiftless antiviral inhibitor of ribosomal frameshifting protein Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/10—Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Procedimiento para la clasificación automática de un interlocutor gracias a un sistema numérico, en el que se aplican, como mínimo, dos procedimientos distintos de clasificación de un interlocutor a datos vocales digitales, efectuando la combinación de sus resultados, en el que el primer procedimiento procesa características a base de segmento, y el segundo procedimiento procesa características a base de expresiones, en el que el procedimiento a base de expresiones utiliza, como mínimo, un Aparato con Vector de Soporte (SVM) por clase de interlocutor sobre la base de las características de tono basadas en la expresión, en el que el procedimiento a base de segmentos utiliza, como mínimo, un modelo de mezcla Gaussiana (GMM) por clase de interlocutor, que se basa en coeficientes de frecuencia Mel-Cepstral (MFCC), tratados trama a trama.
Description
De este ejemplo resulta evidente que una etapa central en la construcción de una SVM es la elección de la cantidad r apropiada. Depende frecuentemente del conocimiento de dominios del diseñador. De lo contrario, se escogen frecuentemente funciones polinómicas de Gauss u otras funciones elementales. [13, S. 188f] facilitan un ejemplo en el que la cantidad original de atributos es transformada por una factorización de n veces. Para dos atributos y n = 3, sería
La dimensionalidad del espacio representado puede ser tan elevada como se desee, pero en la práctica, es limitada mediante recursos técnicos de cálculo. Para una transformación de diez características originales con n=5, se debe determinar el algoritmo de aprendizaje con intermedio de 2000 coeficientes (ver, igual referencia).
Una ventaja de la hipótesis de SVM consiste en que, es menos propensa en general para problemas de “Overfitting” que otros procedimientos. Según [13. página 191], estos se generan siempre cuando los modelos son inestables, es decir, los límites de decisión desplazan menos instancias con la variación. El hiperplano con el borde mayor permanece, no obstante, relativamente estable, dado que solamente varía cuando se añaden vectores de soporte o se anulan. Esto es válido también para un espacio de muchas dimensiones que es solicitado por una transformación no lineal. Los vectores de soporte son representantes globales del banco de datos de aprendizaje en su conjunto. Habitualmente, existe solamente un reducido número de ellos, lo que significa una reducida flexibilidad y, por lo tanto, un menor peligro de “Overfitting” (ver, [13, página 191 f]).
Modelos de mezcla Gaussiana
Los modelos de mezcla Gaussiana (Gaul’sche Mixtur-Modelle, GMM) están muy íntimamente relacionados con el clasificador de Bayes. Sirven como modelo probabilístico para densidades multivariadas de probabilidad que pueden representar las densidades deseadas (de Gauss, de Laplace). En la aplicación se calcularán, con ayuda de GMM, las densidades de probabilidad básicas específicas de la clase en base a, las cuales un clasificador de proporción de probabilidades muestra entonces un modelo determinado de una categoría. Para un vector de características x de d dimensiones, la densidad mixta (“mixture-density”) se define del modo siguiente:
La densidad de probabilidad es una combinación lineal de densidades de probabilidad M de Gauss. Los factores de ponderación de mezcla i cumplen además la condición
En su conjunto, se designan los parámetros del modelo por [= {j µj, j}, en el que j=1,..., M. En base a una reunión de muestras de aprendizaje se determinan los parámetros con ayuda del algoritmo de maximización-expectativa iterativo (algoritmo EM). Este adapta los parámetros de GMM de forma tal que se alcanza una mejora monótona de la probabilidad del modelo de los vectores de características observados. Para las iteraciones k y k+1 se cumple, por ejemplo, p(x| k+1 > p(x|k).
Un GMM puede ser considerado como modelo híbrido entre modelos paramétricos y no paramétricos puesto que, a pesar de que los parámetros básicos determinan el comportamiento, un grado más elevado de libertad permite las densidades de probabilidad deseadas.
Los modelos de mezcla Gaussiana constituyen un procedimiento posible para la clasificación basada en trama, en el reconocimiento de interlocutor y similares (ver, por ejemplo, [14], [15], [16]). Las características utilizadas son, en la mayor parte de casos, Coeficientes Cepstral de Frecuencia Mel (MFCC), que se combinan frecuentemente con la primera y segunda desviaciones temporales (Delta-MFCC, DeltaDelta-MFCC). Los MFCC son características establecidas basadas en trama en el reconocimiento de interlocutor. Se designarán como basados en trama porque la señal de voz continua se divide en primer lugar mediante una ventana de exploración en secciones (tramas) de una longitud aproximada de 10 ms, para poder llevar a cabo una transformación de Fourier. La designación “Mel” indica la escala de frecuencias de igual nombre, que se orienta a la percepción humana de la frecuencia básica. La designación “cepstral” se deriva de “cepstrum”, que muestra una derivación de “spectrum” (espectro). Se debe
7
para idéntica formación y material de prueba. A pesar de que la exactitud promedio no es significativamente más elevada que en el sistema de referencia, la matriz está mejor equilibrada, es decir, la diferencia entre la menor “TruePosilive-Rate” (Tasa Positiva Real) y la siguiente es menor.
A continuación, se describirá el sistema B de la figura 7. Puesto que solamente muy pocas expresiones cubren el inventario de fonemas completo, es produce en el sistema A una proporción mayor de “missing values” (valores que faltan). El sistema B es una variante en la que se puede superar este problema, de manera que para cada segmento se genere un modelo separado. Tal como se muestra en la figura 7 se enlazaron los modelos entre sí en el “Score-Level” (nivel de calificación). La tabla 7 comprende la exactitud de clasificación conjunta del sistema B: La exactitud promedio es más elevada que en el sistema A, no obstante, esta mejora ha sido conseguida a costa de la comparatividad. El conjunto del sistema B consiste en que son necesarios múltiples modelos, lo cual tiene un efecto negativo tanto en el comportamiento del transcurso del tiempo del sistema como también en la verosimilitud del sistema.
Resumen de la invención
Un objetivo esencial de la presente invención es no solamente la mejora de la exactitud de la clasificación de interlocutor con reducción de la tasa de fallos, sino también la preparación de un procedimiento para aumentar la eficiencia del proceso de clasificación.
Se consigue este objetivo mediante un procedimiento y dispositivo que presenta las características de las reivindicaciones independientes.
En las secciones siguientes, se describirán tres procedimientos distintos, que en los estudios más nuevos han sido comparados entre sí (Sistemas A, B y C). Se exceptuará el sistema C, que será descrito en una sección posterior de manera precisa.
Mediante el procedimiento combinado de varias etapas que se describe según la invención, se consigue, en comparación con la utilización separada de la identificación de lenguaje, una reducción sustancial de la tasa de errores en la clasificación de la lengua hablada en los sistemas de diálogo de voz. Es ventajoso que no se requieren recursos adicionales, sino solamente la utilización adicional combinada de los sistemas de reconocimiento de voz existentes en los sistemas de diálogo de voz para conseguir tasas de éxito mejoradas para la consecución del resultado final.
Descripción de las figuras
A continuación, se describirán de manera abreviada las figuras, sin que ello signifique una limitación del ámbito de protección. Se muestra:
La figura 1, El sistema AGENDER con el escenario de utilización “Adaptive mobile Systeme” con el ejemplo de m3i Navegador/personal y m3i ShopAssist
Figura 2, Sistema AGENDER con el escenario de utilización “Callcenter” con el ejemplo de línea de servicio inmediato (“Service Hotline”) y sistema de compra.
- Figura 3,
- Un clasificador lineal simple según [12, página 216]
- Figura 4,
- Límite de decisión, vectores de borde y de soporte de un SVM según [12, 5.262] Y2
- Figura 5,
- Izquierda: espacio de características original del problema XOR. Derecha: proyección de
un espacio de características transferido a un espacio de seis dimensiones. Eje-x: 'J x1, Eje-y: 2 xlx2. El límite de decisión es ahora lineal (ver [12, 5.264]) Figura 6, Representación esquemática del sistema A para clasificación de interlocutor Figura 7, Representación esquemática del sistema B Figura 8, Representación esquemática de una realización preferente del sistema reivindicado C Figura 9, Representación esquemática de un sistema D Figura 10, Representación esquemática de un sistema E con almacenamiento, Figura 11, Representación esquemática de un sistema F
9
Definición de abreviaturas
- ANI
- Identificación Automática de Número
- ANN
- Redes Neurales Artificiales- Neuronales Artificiales
- APQ
- Cociente de Perturbación de Amplitud
- ASR
- Reconocimiento Automático de voz
- C45
- Árbol de Decisión C 4.5 (Procedimiento de Aprendizaje a Máquina)
- CLI
- Identificación de la Línea que Llama
- DBN
- Red Dinámica de Bayes
- EM-Aigorithmus
- Algoritmo de Expectativa-Maximización
- GMMs
- Modelos de Mezcla Gaussiana (Procedimiento de Aprendizaje a Máquina)
- Grammatik
- Descripción estructurada de posibles informaciones introducidas a evaluar por el usuario (por ejemplo, Voz de conversación, Entradas de texto, Botones, Mímica de Rostro, etc.)
- HLR
- Registro de Localización Interno
- IMEI
- Identidad de Equipo Móvil Internacional
- KNN
- Vecino K más Próximo (Procedimiento de Aprendizaje a Máquina)
- MFCC
- Coeficiente Mel-Frecuencia-Cepstral
- NB
- Bayes Natural (Procedimiento de Aprendizaje a Máquina
- PRO
- Cociente de Perturbación de Tono
- SIM
- Módulo de Identidad de Abonado
- SIP
- Protocolo de Iniciación de Sesión
- Clasificación de Interlocutores
- Determinación de la adecuación, como mínimo, de un interlocutor con respecto a una mayor
- Reconocimiento de interlocutores
- Autentificación o Identificación de un interlocutor en base a características de
- SVM
- Máquina con Vector de Soporte
- TTS
- Texto a Voz
13
Claims (1)
-
imagen1
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20070114958 EP2028647B1 (de) | 2007-08-24 | 2007-08-24 | Verfahren und Vorrichtung zur Sprecherklassifizierung |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2535858T3 true ES2535858T3 (es) | 2015-05-18 |
Family
ID=39046788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES07114958.7T Active ES2535858T3 (es) | 2007-08-24 | 2007-08-24 | Procedimiento y dispositivo para la clasificación de interlocutores |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP2028647B1 (es) |
ES (1) | ES2535858T3 (es) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693724A (zh) * | 2011-03-22 | 2012-09-26 | 张燕 | 一种基于神经网络的高斯混合模型的噪声分类方法 |
CN102222500A (zh) * | 2011-05-11 | 2011-10-19 | 北京航空航天大学 | 结合情感点的汉语语音情感提取及建模方法 |
CN102237089B (zh) * | 2011-08-15 | 2012-11-14 | 哈尔滨工业大学 | 一种减少文本无关说话人识别系统误识率的方法 |
JP5922263B2 (ja) | 2012-02-21 | 2016-05-24 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | 特定の対象音を検出するシステム及び方法 |
CN102655003B (zh) * | 2012-03-21 | 2013-12-04 | 北京航空航天大学 | 基于声道调制信号mfcc的汉语语音情感点识别方法 |
CN103077709B (zh) * | 2012-12-28 | 2015-09-09 | 中国科学院声学研究所 | 一种基于共有鉴别性子空间映射的语种识别方法及装置 |
CN105810198A (zh) * | 2016-03-23 | 2016-07-27 | 广州势必可赢网络科技有限公司 | 基于特征域补偿的信道鲁棒的说话人辨识方法和装置 |
CN109065028B (zh) * | 2018-06-11 | 2022-12-30 | 平安科技(深圳)有限公司 | 说话人聚类方法、装置、计算机设备及存储介质 |
CN110797011A (zh) * | 2019-11-15 | 2020-02-14 | 天津光电通信技术有限公司 | 基于支持向量机的语音识别方法、装置、设备及存储介质 |
CN111144091B (zh) * | 2019-12-02 | 2024-04-05 | 支付宝(杭州)信息技术有限公司 | 客服成员的确定方法、装置以及群成员身份的确定方法 |
CN113660670B (zh) * | 2020-05-12 | 2024-02-06 | 哈尔滨工程大学 | 基于射频指纹的无线设备身份认证方法及其装置 |
TWI741937B (zh) * | 2021-01-20 | 2021-10-01 | 橋良股份有限公司 | 人才適性度判斷系統及方法 |
TWI738610B (zh) * | 2021-01-20 | 2021-09-01 | 橋良股份有限公司 | 金融商品推薦及風險控管系統及其方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10000973A1 (de) * | 2000-01-06 | 2001-07-12 | Deutsche Telekom Ag | Verfahren zur sprachgesteuerten Identifizierung des Nutzers eines Telekommunikationsanschlusses im Telekommunikationsnetz beim Dialog mit einem sprachgesteuerten Dialogsystem |
-
2007
- 2007-08-24 ES ES07114958.7T patent/ES2535858T3/es active Active
- 2007-08-24 EP EP20070114958 patent/EP2028647B1/de not_active Not-in-force
Also Published As
Publication number | Publication date |
---|---|
EP2028647A1 (de) | 2009-02-25 |
EP2028647B1 (de) | 2015-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2535858T3 (es) | Procedimiento y dispositivo para la clasificación de interlocutores | |
Chowdhury et al. | Fusing MFCC and LPC features using 1D triplet CNN for speaker recognition in severely degraded audio signals | |
US11715486B2 (en) | Convolutional, long short-term memory, fully connected deep neural networks | |
CN110136693B (zh) | 用于使用少量样本进行神经话音克隆的系统和方法 | |
ES2311872T3 (es) | Sistema y procedimiento de reconocimiento vocal automatico. | |
US20130185070A1 (en) | Normalization based discriminative training for continuous speech recognition | |
US20110307254A1 (en) | Speech recognition involving a mobile device | |
CN107229691B (zh) | 一种用于提供社交对象的方法与设备 | |
Ma et al. | Target-directed mixture dynamic models for spontaneous speech recognition | |
US20170206904A1 (en) | Classifying signals using feature trajectories | |
Meyer et al. | Anonymizing speech with generative adversarial networks to preserve speaker privacy | |
Doddipatla et al. | Speaker dependent bottleneck layer training for speaker adaptation in automatic speech recognition | |
US7496509B2 (en) | Methods and apparatus for statistical biometric model migration | |
US9263033B2 (en) | Utterance selection for automated speech recognizer training | |
Al-Qaderi et al. | A two-level speaker identification system via fusion of heterogeneous classifiers and complementary feature cooperation | |
Tang et al. | Knowledge transfer pre-training | |
ES2239650T3 (es) | Identificacion y verificacion de interlocutores. | |
ES2942894T3 (es) | Procedimiento de lectura automática de labios utilizando un componente funcional y para suministrar el componente funcional | |
Hwang et al. | A probabilistic interpretation for artificial neural network-based voice conversion | |
Larcher et al. | Constrained temporal structure for text-dependent speaker verification | |
Kanda et al. | Sequence distillation for purely sequence trained acoustic models | |
Mišković et al. | Hybrid methodological approach to context-dependent speech recognition | |
McLaren et al. | On the Issue of Calibration in DNN-Based Speaker Recognition Systems. | |
Van Segbroeck et al. | UBM fused total variability modeling for language identification. | |
Hadian et al. | Phone Duration Modeling for LVCSR Using Neural Networks. |