ES2928736T3

ES2928736T3 - Características de bajo nivel compensadas por canal para el reconocimiento de hablantes

Info

Publication number: ES2928736T3
Application number: ES17778046T
Authority: ES
Inventors: Elie Khoury; Matthew Garland
Original assignee: Pindrop Security Inc
Current assignee: Pindrop Security Inc
Priority date: 2016-09-19
Filing date: 2017-09-19
Publication date: 2022-11-22
Anticipated expiration: 2037-09-19
Also published as: EP3516652A1; EP3516652B1

Abstract

Un sistema para generar características de canal compensado de una señal de voz incluye un simulador de ruido de canal que degrada la señal de voz, una red neuronal convolucional (CNN) de avance que genera características de canal compensado de la señal de voz degradada y una función de pérdida que calcula una diferencia entre las características de canal compensado y las características artesanales para la misma señal de voz sin procesar. Cada resultado de pérdida se puede usar para actualizar los pesos de conexión de la CNN hasta que se satisfaga un umbral de pérdida predeterminado, y la CNN se puede usar como interfaz para una red neuronal profunda (DNN) para el reconocimiento/verificación del hablante. La DNN puede incluir capas convolucionales, una capa de características de cuello de botella, múltiples capas totalmente conectadas y una capa de salida. Las características de cuello de botella se pueden usar para actualizar los pesos de conexión de las capas convolucionales, y se puede aplicar la omisión a las capas convolucionales. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Características de bajo nivel compensadas por canal para el reconocimiento de hablantes

Esta descripción reivindica el beneficio nacional, en virtud de 35 U.S.C. § 119, de la solicitud provisional de los Estados Unidos No. 62/396,617 presentada el 19 de septiembre de 2016, titulada “Improvements of GMM-Based Modeling for Speaker Recognition”, 62/396,670 también presentada el 19 de septiembre de 2016, titulada “Improvements of Speaker recognition in the Call Center”, y 15/709,024 presentada el 19 de septiembre de 2017, titulada “Channel-Compensated Low-Level Features for Speaker Recognition”.

Esta solicitud se relaciona con métodos y sistemas para el procesamiento de audio, y más particularmente con el procesamiento de audio para la identificación del hablante.

Antecedentes de la invención

Los enfoques actuales del estado de la técnica para el reconocimiento de hablantes se basan en un modelo de fondo universal (UBM) estimado mediante el uso de modelado de mezcla Gaussiana acústica (GMM) o una arquitectura de red neuronal profunda fonéticamente consciente. Las técnicas más exitosas consisten en adaptar el modelo UBM a cada expresión del habla mediante el uso del paradigma de la variabilidad total. El paradigma de la variabilidad total tiene como objetivo extraer un vector de características de baja dimensión conocido como un “vector-i” que conserva la información total sobre el hablante y el canal. Después de aplicar una técnica de compensación de canal, el vectori resultante se puede considerar una huella de voz o firma de voz del hablante.

Un inconveniente de dichos enfoques es que, al determinar o verificar de acuerdo a un programa la identidad de un hablante por medio de una señal de voz, un sistema de reconocimiento de hablantes puede encontrar una variedad de elementos que pueden alterar la señal. Esta variabilidad de canales plantea un problema real a los sistemas convencionales de reconocimiento de hablantes. El entorno y el equipo de un usuario de teléfono, por ejemplo, pueden variar de una llamada a la siguiente. Además, el equipo de telecomunicaciones que transmite una llamada puede variar incluso durante la llamada.

En un sistema convencional de reconocimiento de hablantes se recibe una señal de voz y se evalúa contra un modelo registrado previamente. Ese modelo, sin embargo, típicamente se limita a un perfil de ruido específico que incluye tipos de ruido particulares tales como balbuceo, ambiente o HVAC (calefacción, ventilación y aire acondicionado) y/o una baja relación señal-ruido (SNR) que pueden contribuir cada uno al deterioro de la calidad del modelo registrado o de la predicción de la muestra de reconocimiento. El balbuceo de la voz, en particular, ha sido reconocido en la industria como una de las interferencias de ruido más desafiantes debido a sus características tipo hablante/habla. Las características de reverberación, incluido el alto tiempo a reverberación a 60 dB (T60) y la baja relación directa a reverberación (DRR) también afectan adversamente la calidad de un sistema de reconocimiento de hablantes. Adicionalmente, un dispositivo de adquisición puede introducir artefactos de audio que a menudo se ignoran aunque el registro de hablantes puede usar un dispositivo de adquisición mientras que la prueba puede utilizar un dispositivo de adquisición diferente. Finalmente, la calidad de la(s) técnica(s) de transcodificación y la velocidad de transferencia son factores importantes que pueden reducir la eficacia de un sistema biométrico de voz.

Convencionalmente, la compensación de canal se ha abordado en diferentes niveles que siguen a la extracción de características espectrales, ya sea aplicando la normalización de características, o incluyéndola en las herramientas de modelado o ranurado tales como la Proyección de Atributos Molestos (NAP) (ver Solomonoff, y otros, “Nuisance attribute projection”, Speech Communication, 2007) o Análisis Discriminante Lineal Probabilístico (PLDA) (ver Prince, y otros, “Probabilistic Linear Discriminant Analysis for Inferences about Identity”, IEEE ICCV, 2007).

Algunos intentos de investigación han buscado extraer características de bajo nivel robustas del canal para la tarea de reconocimiento de hablantes. (Ver, por ejemplo, Richardson y otros “Channel compensation for speaker recognition using MAP adapted PLDA and denoising DNNs”, Proc. Speaker Lang. Recognit. Workshop, 2016; y Richardson, y otros “Speaker Recognition Using Real vs Synthetic Parallel Data for DNN Channel Compensation”, INTERSPEECH, 2016. ) Estos intentos emplean un sistema de red neuronal profunda (DNN) de eliminación de ruido que toma como entrada los coeficientes cepstrales en la frecuencia de Mel (MFCC) alterados y proporciona como salida una versión más limpia de estos MFCC. Sin embargo, no exploran completamente la DNN de eliminación de ruido aplicándolo directamente a la señal de audio. Una porción significativa de la información específica del hablante relevante ya se pierde después de la extracción de MFC^cde la señal alterada, y es difícil cubrir completamente esta información por parte de la DNN. El artículo de conferencia Szu-Wei Fu y otros "SNR-Aware Convolutional Neural Network Modeling for Speech Enhancement" describe antecedentes de la técnica relevantes.

Otros métodos convencionales exploran el uso de características fonéticamente conscientes que originalmente se entrenan para tareas de reconocimiento automático de voz (ASR) para discriminar entre diferentes senones. (Ver Zhang y otros “Extracting Deep Neural Network Bottleneck Features using Low-rank Matrix Factorization”, IEEE ICASSP, 2014). Combinar esas características con los MFCC puede aumentar el rendimiento. Sin embargo, estas características son computacionalmente costosas de producir: dependen de un sistema fuerte de reconocimiento automático de voz (ASR) basado en DNN entrenado con miles de senones en la capa de salida. Adicionalmente, este sistema ASR requiere una cantidad significativa de datos de audio transcritos manualmente para el entrenamiento y la alineación de tiempo de la DNN. Además, el reconocimiento de hablantes resultante funcionará solo en el idioma en el que se entrenó el sistema ASR y, por lo tanto no se puede generalizar bien para otros idiomas.

Sumario

La presente invención está definida por las reivindicaciones adjuntas.

La presente invención está dirigida a un sistema que utiliza características acústicas de bajo nivel novedosas para las tareas de verificar la identidad de un hablante y/o identificar un hablante entre un conjunto cerrado de hablantes conocidos bajo diferentes factores de molestia del canal.

La presente descripción aplica la DNN directamente sobre la señal de audio sin procesar y usa redes neuronales progresivas en lugar de la simple red neuronal totalmente conectada usada convencionalmente. La red neuronal resultante es robusta no solo a la molestia del canal, sino también para distinguir entre hablantes. Además, la señal de voz aumentada descrita incluye artefactos de transcodificación que faltan en los sistemas convencionales. Este tratamiento adicional permite que el sistema de reconocimiento de hablantes descrito cubra una amplia gama de aplicaciones más allá del canal de telefonía que incluyen, por ejemplo, interacciones de VoIP y dispositivos habilitados para voz de Internet de las cosas (loT), tales como AMAZON Ec HO y GOOGLE HOME.

En una modalidad ilustrativa, un sistema para generar características de bajo nivel compensadas por canal para reconocimiento de hablantes incluye un simulador de canal acústico, una primera red neuronal convolucional (CNN) de alimentación directa, un analizador de voz y un procesador de función de pérdida. El simulador de canal acústico recibe una señal de voz de reconocimiento (por ejemplo, una expresión capturada por un micrófono), degrada la señal de voz de reconocimiento para incluir características de un canal de audio, y genera una señal de voz degradada. La primera CNN opera en dos modos. En un modo de entrenamiento la primera CNN recibe la señal de voz degradada, y calcula a partir de la señal de voz degradada una pluralidad de características de bajo nivel compensadas por canal. En un modo de prueba y registro, la CNN recibe la señal de voz de reconocimiento y calcula a partir de ella un conjunto de características de bajo nivel, compensadas por canal. El analizador de señales de voz extrae características de la señal de voz de reconocimiento para el cálculo de la pérdida en el modo de entrenamiento. El procesador de función de pérdida calcula la pérdida en base a las características del analizador de voz y las características de bajo nivel compensadas por canal de la primera red neuronal convolucional de alimentación directa, y si la pérdida calculada es mayor que la pérdida de umbral, uno o más pesos de conexión de la primera CNN se modifican en base a la pérdida calculada. Si, sin embargo, la pérdida calculada es menor o igual que la pérdida umbral, se finaliza el modo de entrenamiento.

De acuerdo con las modalidades ilustrativas, el simulador de canal acústico incluye uno o más de un simulador de ruido ambiental, un simulador de reverberación, un simulador de características del dispositivo de adquisición de audio, y un simulador de transcodificación de ruido. De acuerdo con algunas modalidades, cada uno de estos simuladores se puede configurar selectivamente o de acuerdo a un programa para realizar una porción de dicha degradación de la señal de voz de reconocimiento. De acuerdo con otras modalidades ilustrativas el simulador de canal acústico incluye cada uno de un simulador de ruido ambiental, un simulador de reverberación, un simulador de características del dispositivo de adquisición de audio, y un simulador de transcodificación de ruido.

De acuerdo con las modalidades ilustrativas, el simulador de ruido ambiental introduce en la señal de voz de reconocimiento al menos un tipo de ruido ambiental seleccionado de una pluralidad de tipos de ruido ambiental.

De acuerdo con las modalidades ilustrativas, el simulador de ruido ambiental introduce el tipo de ruido ambiental seleccionado en una relación señal/ruido (SNR) seleccionada de una pluralidad de relaciones señal/ruido (SNR).

De acuerdo con las modalidades ilustrativas, el simulador de reverberación simula la reverberación de acuerdo con una relación directa a reverberación (DRR) seleccionada de una pluralidad de DRR. Cada DRR en la pluralidad de DRR puede tener un tiempo a reverberación correspondiente a 60 dB (T60).

De acuerdo con las modalidades ilustrativas, el simulador de características del dispositivo de adquisición de audio introduce características de audio de un dispositivo de adquisición de audio seleccionable de una pluralidad de perfiles de dispositivos de adquisición de audio almacenados cada uno de los cuales tiene una o más características de audio seleccionables.

De acuerdo con las modalidades ilustrativas, cada perfil de dispositivo de adquisición de audio de la pluralidad de perfiles de dispositivos de adquisición de audio almacenados puede incluir al menos uno de: una característica de frecuencia/ecualización, una característica de amplitud, una característica de filtrado, una característica de ruido eléctrico, y una característica de ruido físico.

De acuerdo con las modalidades ilustrativas, el simulador de ruido de transcodificación agrega selectivamente características de transcodificación de canales de audio seleccionables de una pluralidad de perfiles de características de transcodificación almacenados.

De acuerdo con las modalidades ilustrativas, cada perfil de característica de transcodificación puede incluir al menos una característica de ruido de error de cuantificación, una característica de artefacto de audio de velocidad de muestreo, y una característica de artefacto de audio de compresión de datos.

De acuerdo con las modalidades ilustrativas, las características del analizador de señales de voz y las características compensadas por canal de la primera CNN incluyen cada una un correspondiente al menos uno de los coeficientes cepstrales en la frecuencia de Mel (MFCC), coeficientes cepstrales de baja frecuencia (LFCC), y coeficientes de predicción lineal perceptiva (PLP). Es decir, usar por parte del procesador de función de pérdida, las características compensadas por canal y las características del analizador de señales de voz son de tipo similar (por ejemplo, ambos son MFCC).

De acuerdo con las modalidades ilustrativas, el sistema puede incluir además una segunda CNN, sensible al hablante, que, en el modo de prueba y registro recibe la pluralidad de características compensadas por canal de la primera CNN y extrae de las características compensadas por canal una pluralidad de características de cuello de botella sensibles al hablante.

De acuerdo con las modalidades ilustrativas, la segunda CNN incluye una pluralidad de capas convolucionales y una capa de cuello de botella. La capa de cuello de botella genera las funciones de cuello de botella sensibles al hablante. La segunda CNN también puede incluir una pluralidad de capas totalmente conectadas, una capa de salida, y un segundo procesador de función de pérdida, cada uno usado durante el entrenamiento de la segunda CNN. Al menos una de las capas completamente conectadas puede emplear una técnica de abandono para evitar el sobreajuste, con una relación de abandono para la técnica de abandono de aproximadamente el 30 %. La segunda CNN también puede incluir una capa de agrupación máxima configurada para agruparse sobre un eje de tiempo.

De acuerdo con las modalidades ilustrativas, la segunda CNN puede tomar como entrada al menos un conjunto de otras características al lado de las características compensadas por canal, extrayéndose el al menos un conjunto de otras características de la señal de voz.

En otra modalidad ilustrativa, un método para entrenar una red neuronal profunda (DNN) con características de bajo nivel compensadas por canal incluye recibir una señal de voz de reconocimiento; degradar la señal de voz de reconocimiento para producir una señal de voz compensada por canal; extraer, mediante el uso de una primera red neuronal convolucional de alimentación directa, una pluralidad de características de bajo nivel de la señal de voz compensada por canal; calcular un resultado de pérdida mediante el uso de las características de bajo nivel compensadas por canal extraídas de la señal de voz compensada por canal y características producidas manualmente extraídas de la señal de voz de reconocimiento; y modificar los pesos de conexión de la primera red neuronal convolucional de alimentación positiva si la pérdida calculada es mayor que un valor de umbral predeterminado.

Las modalidades de la presente invención puede usarse para realizar una tarea de verificación del hablante en la que el usuario ingresa una autoidentificación, y se usa una señal de voz de reconocimiento para confirmar que una identidad almacenada del usuario es la misma que la autoidentificación. En otra modalidad, la presente invención puede usarse para realizar una tarea de identificación del hablante en la que la señal de voz de reconocimiento se usa para identificar al usuario entre una pluralidad de identidades potenciales almacenadas en asociación con muestras de voz respectivas. Las modalidades antes mencionadas no son mutuamente excluyentes, y pueden usarse las mismas características acústicas de bajo nivel para realizar ambas tareas.

Las características de bajo nivel descritas en la presente descripción son resistentes contra diferentes tipos y niveles de ruido, reverberación, y artefactos acústicos que resultan de variaciones en los sistemas de adquisición de micrófonos y transcodificación. Esas características se extraen directamente de la señal de audio y conservan la información acústica relevante sobre el hablante. Las contribuciones inventivas son muchas e incluyen al menos las siguientes características: 1) un simulador de canal de audio para el aumento de datos de voz para incluir una variedad de artefactos y ruido de canal, 2) derivación de características compensadas por canal mediante el uso de una CNN (CNN), 3) un modelo CNN adicional empleado para generar características compensadas por canal que se entrenan para aumentar la variación entre hablantes y reducir la variación dentro de los hablantes, y 4) usar un DNN de entrada múltiple para una mayor precisión.

Aunque se describen múltiples modalidades, aún otras modalidades serán evidentes para los expertos en la técnica a partir de la siguiente descripción detallada, que muestra y describe modalidades ilustrativas de la invención. Como se dará cuenta, la invención es capaz de modificaciones en diferentes aspectos, todo esto sin apartarse del alcance de la presente invención. En consecuencia, los dibujos y la descripción detallada son de naturaleza ilustrativa y no restrictiva.

Figuras

La Figura 1 es un diagrama de bloques que ilustra un sistema para realizar el reconocimiento de hablantes de acuerdo con una modalidad ilustrativa de la presente invención.

La Figura 2A ilustra una estructura general de una parte frontal de red neuronal profunda en un modo de entrenamiento, de acuerdo con las modalidades ilustrativas de la presente descripción.

La Figura 2B ilustra una estructura general de una red neuronal profunda para usar en un modo de prueba y registro para un usuario particular, de acuerdo con las modalidades ilustrativas de la presente descripción.

La Figura 2C ilustra una estructura general de una red neuronal profunda para usar en un modo de prueba y registro para un usuario particular, de acuerdo con las modalidades ilustrativas de la presente descripción.

La Figura 3 es un diagrama de bloques que ilustra elementos de un simulador de canal acústico de acuerdo con las modalidades ilustrativas de la presente descripción.

La Figura 4 es un diagrama de flujo para un método de entrenamiento de una red neuronal convolucional de alimentación directa compensada por canal de acuerdo con las modalidades ilustrativas de la presente descripción.

La Figura 5 es un diagrama de flujo que agrega ruido de canal en el método de la Figura 4, de acuerdo con las modalidades ilustrativas de la presente descripción.

La Figura 6 es un diagrama de bloques de un sistema de creación de características acústicas que emplea un generador de características compensadas por canal y una segunda red neuronal para características de cuello de botella, de acuerdo con las modalidades ilustrativas de la presente descripción.

La Figura 7 es un diagrama de bloques de un sistema de reconocimiento de hablantes que emplea una pluralidad de generadores de características, incluido un generador de características compensadas por canal con la segunda red neuronal de la Figura 6 de acuerdo con las modalidades ilustrativas de la presente descripción.

Las figuras anteriores pueden representar configuraciones ilustrativas para un aparato de la descripción, que se hace para ayudar a comprender las características y la funcionalidad que se pueden incluir en las carcasas descritas en la presente descripción. El aparato no se limita a las arquitecturas o configuraciones ilustradas, sino que se puede implementar mediante el uso de una variedad de arquitecturas y configuraciones alternativas. Adicionalmente, aunque el aparato se describió anteriormente en términos de diferentes modalidades e implementaciones ilustrativas, debe entenderse que las diferentes características y funcionalidades descritas en una o más de las modalidades individuales con las que ellas se describen, pero en su lugar se pueden aplicar, solas o en alguna combinación, a una o más de las otras modalidades de la descripción, ya sea que dichas realizaciones se describan o no y que tales características se presenten o no siendo una parte de una modalidad descrita. Por lo tanto la amplitud y el alcance de la presente descripción, especialmente en cualquiera de las siguientes reivindicaciones, no se deben limitar por cualquiera de las modalidades ilustrativas descritas anteriormente.

Descripción detallada

La descripción detallada que se expone a continuación en relación con los dibujos adjuntos pretende ser una descripción de modalidades ilustrativas de la presente descripción y no pretende representar las únicas modalidades en que se puede llevar a la práctica la presente descripción. El término "ilustrativo" usado a lo largo de esta descripción significa "que sirve como un ejemplo, instancia, o ilustración," y no debería necesariamente interpretarse como preferido o ventajoso sobre otras modalidades, ya etiquetado "ilustrativo" o de cualquier otra manera. La descripción detallada incluye detalles específicos para el propósito de proporcionar una comprensión profunda de las modalidades de la descripción. Será evidente para los expertos en la técnica que las modalidades de la descripción se pueden poner en práctica sin estos detalles específicos. En algunas instancias, las estructuras y dispositivos bien conocidos se pueden mostrar en forma de diagrama de bloques con el fin de evitar ocultar la novedad de las modalidades ilustrativas presentadas en la presente descripción.

La Figura 1 es un diagrama de bloques que ilustra un sistema para realizar el reconocimiento de hablantes de acuerdo con una modalidad ilustrativa de la presente invención. De acuerdo con la Figura 1, un usuario o hablante 2 puede pronunciar una expresión en el dispositivo de entrada 10 que contiene un dispositivo de adquisición de audio, tal como un micrófono, para convertir el sonido expresado en una señal eléctrica. Como se muestra particularmente en la Figura 1, el dispositivo de entrada 10 puede ser un dispositivo capaz de telecomunicaciones, tal como un teléfono (ya sea celular o teléfono fijo) o un ordenador u otro dispositivo basado en procesador capaz de comunicaciones de voz sobre Internet (VoIP). De hecho, se contempla que la presente invención podría utilizarse específicamente en aplicaciones para proteger contra, por ejemplo, el fraude telefónico, por ejemplo, al verificar que la persona que llama es quien el/ella afirma ser, o detectar la identidad de la persona que llama como alguien en una “lista negra” o “lista de personas que llaman bloqueadas”. Aunque se contempla que el dispositivo de entrada 10 en el que se pronuncia la señal de voz de reconocimiento puede ser un dispositivo de telecomunicaciones (por ejemplo, un teléfono), este no necesita ser el caso. Por ejemplo, el dispositivo de entrada 10 puede ser simplemente un micrófono ubicado muy cerca del subsistema de reconocimiento de hablantes 20. En otras modalidades, el dispositivo de entrada 10 se puede ubicar remotamente con respecto al subsistema de reconocimiento de hablantes.

De acuerdo con la Figura 1, la expresión del usuario, que se usa para realizar la identificación del hablante, se denominará en esta descripción como la “señal de voz de reconocimiento”. La señal de voz de reconocimiento puede transmitirse eléctricamente desde el dispositivo de entrada 10 a un subsistema de reconocimiento de hablantes 20.

El subsistema de reconocimiento de hablantes 20 de la Figura 1 puede incluir un sistema informático 22, que puede ser un servidor o un ordenador personal (PC) de propósito general, programado para modelar una red neuronal profunda. Cabe señalar, sin embargo, que el sistema informático 22 no se limita estrictamente a un solo dispositivo, sino en cambio puede comprender múltiples ordenadores y/o dispositivos que trabajan en cooperación para realizar las operaciones descritas en esta descripción (por ejemplo, el entrenamiento de la DNN puede ocurrir en un dispositivo informático, mientras que la tarea de verificación/identificación real se realiza en otro). Si bien pueden usarse unidades de procesamiento central (CPU) únicas o múltiples como un dispositivo informático tanto para entrenamiento como para pruebas, también pueden usarse unidades de procesamiento de gráficos (GPU). Por ejemplo, el uso de una GPU en el sistema informático 22 puede ayudar a reducir el costo computacional, especialmente durante el entrenamiento. Además, el sistema informático se puede implementar en un entorno de computación en la nube mediante el uso de una red de servidores remotos.

Como se muestra en la Figura 1, el subsistema de reconocimiento de hablantes 20 también puede incluir un dispositivo de memoria 24 usado para entrenar la DNN en modalidades ilustrativas. Particularmente, este dispositivo de memoria 24 puede contener una pluralidad de señales de voz sin procesar y/o muestreadas (o “muestras de voz”) de múltiples usuarios o hablantes, así como también una pluralidad de huellas de voz registradas (o “modelos de hablante”) obtenidas para usuarios que se han “registrado” en el subsistema de registro del hablante 20.

En algunas modalidades, el dispositivo de memoria 24 puede incluir dos conjuntos de datos diferentes respectivamente correspondientes a las funciones respectivas de entrenamiento y prueba a realizar por la DNN. Por ejemplo, para realizar el entrenamiento el dispositivo de memoria 24 puede contener un conjunto de datos que incluye al menos dos muestras de voz obtenidas como expresiones reales de cada uno de los múltiples hablantes. Los hablantes no necesitan ser registrados o registrados planeados. Además, las expresiones no necesitan limitarse a un idioma en particular. Para usar con el sistema descrito en la presente descripción, estas muestras de voz para entrenamiento pueden ser “limpias”, es decir, que incluyen poco ruido ambiental, ruido de adquisición del dispositivo u otras características molestas.

El dispositivo de memoria 24 puede incluir otro conjunto de datos para realizar la función de “prueba”, de manera que la DNN realiza el reconocimiento de hablantes real al verificar o identificar positivamente un usuario. Para realizar esta función, el conjunto de datos solo necesita incluir una muestra de voz positiva del usuario en particular, que se puede obtener como resultado de “registrar” al usuario en el subsistema de reconocimiento de hablantes 22 (que se describirá con más detalle a continuación). Además, este conjunto de datos puede incluir una o más huellas de voz registradas, correspondientes a cada usuario que se puede verificar y/o identificar por el sistema.

Con referencia de nuevo a la Figura 1, los resultados del análisis de reconocimiento de hablantes se pueden usar por una aplicación final 30 que necesita autenticar a la persona que llama (es decir, el usuario), es decir, verificar que la persona que llama es quien el/ella afirma ser mediante el uso de las funciones de prueba descritas en la presente descripción. Como una alternativa, la aplicación final 30 puede necesitar identificar a cualquier persona que llama que esté en una lista predefinida (por ejemplo, lista negra o personas que llaman bloqueadas). Esto puede ayudar a detectar una persona que llama maliciosamente y que falsifica un número de teléfono para evadir la detección mediante la identificación de la línea llamante (CLID) (a veces denominada “ Identificador de Llamadas”). Sin embargo, aunque la presente invención puede usarse por aplicaciones 30 diseñadas para filtrar personas que llaman maliciosamente, la presente invención no se limita a esos tipos de aplicaciones 30. Por ejemplo, la presente invención se puede usar ventajosamente en otras aplicaciones 30, por ejemplo, donde se usan biometría de voz para desbloquear el acceso a una habitación, recurso, etc. Además, las aplicaciones finales 30 se pueden hospedar en un sistema informático como parte del mismo sistema informático 20 u hospedarse en un sistema informático separado similar al descrito anteriormente para el sistema informático 20. La aplicación final 30 también se puede implementar en un terminal (por ejemplo, remoto) con el sistema informático 20 actuando como un servidor. Como otro ejemplo específico, la aplicación final 30 se puede hospedar en un dispositivo móvil tal como un teléfono inteligente que interactúa con el sistema informático 20 para realizar la autenticación mediante el uso de las funciones de prueba descritas en la presente descripción.

Se debe señalar que se pueden realizar diferentes modificaciones al sistema ilustrado en la Figura 1. Por ejemplo, el dispositivo de entrada 10 puede transmitir la señal de voz de reconocimiento directamente a la aplicación final 30, que a su vez transmite la señal de voz de reconocimiento al subsistema de reconocimiento de hablantes 20. En este caso, la aplicación final 30 también puede recibir alguna forma de entrada del usuario que represente una autoidentificación. Por ejemplo, en caso de realizar una tarea de identificación del hablante, la aplicación final 30 puede solicitar al usuario identificarse a él mismo o ella misma (ya sea de forma audible o mediante otras formas de entrada), y enviar tanto la señal de voz de reconocimiento como la supuesta identidad del usuario al subsistema de reconocimiento de voz 20 para la autenticación. En otros casos, la autoidentificación del usuario puede consistir en el supuesto número de teléfono del usuario, como se obtiene por el CLID. Además, no hay limitación con respecto a las ubicaciones respectivas de los diferentes elementos ilustrados en la Figura 1. En ciertas situaciones, la aplicación final 30 puede estar distante del usuario, lo que requiere el uso de telecomunicaciones para que el usuario interactúe con la aplicación final 30. Alternativamente, el usuario (y el dispositivo de entrada 10) pueden estar muy cerca de la aplicación final 30 en el momento del uso, por ejemplo, si la aplicación 30 controla una puerta de seguridad activada por voz, etc.

La variabilidad del ruido de fondo y del canal plantea un problema real para un sistema de reconocimiento de hablantes, especialmente cuando hay una falta de coincidencia de canal entre las muestras de registro y de prueba. Las Figuras 2A-2C ilustran un sistema 200A para entrenar (la Figura 2A) y usar (las Figuras 2B, 2C) una CNN para reducir esta falta de coincidencia de canal debido a factores de molestia de canal, mejorando así la precisión de los sistemas de reconocimiento de hablantes convencionales y novedosos.

Los inventores han reconocido que los sistemas convencionales de reconocimiento de hablantes están sujetos a errores de verificación/identificación cuando una señal de voz de reconocimiento para la prueba difiere significativamente de una muestra de voz registrada para el mismo hablante. Por ejemplo, la señal de voz de reconocimiento puede incluir factores de molestia del canal que no estaban significativamente presentes en la señal de voz usada para registrar a ese hablante. Más específicamente, en el momento del registro, la expresión del hablante se puede adquirir relativamente libre de factores molestos del canal debido al uso de un micrófono de alta calidad en un entorno libre de ruido, sin ruido eléctrico ni interferencias en la trayectoria eléctrica desde el micrófono hasta el medio de grabación, y sin transcodificación de la señal. Por el contrario, en el momento de la prueba el hablante podría estar en un restaurante ruidoso, hablando a un teléfono móvil de baja calidad sujeto a ruido de transcodificación e interferencia eléctrica. Los factores de molestia del canal añadidos pueden hacer que la señal de voz de reconocimiento resultante, y cualesquiera características extraídas de la misma, sean demasiado diferentes de la señal de voz registrada. Esta diferencia puede resultar en errores de verificación/identificación. Las Figuras 2A-2C ilustran un sistema final para usar en el subsistema de reconocimiento de voz 20, que está dirigido a inmunizar el subsistema de reconocimiento de voz contra tales factores molestos del canal.

El sistema de entrenamiento 200A en la Figura 2A incluye una entrada 210, un simulador de canal acústico (también denominado dispositivo o función de compensación de canal) 220, una red neuronal convolucional (CNN) 230 de alimentación directa, un analizador de sistema 240 para extraer características producidas manualmente, y una función de pérdida 250. Aquí se proporciona una descripción general de los elementos del sistema de entrenamiento 200A, seguida de detalles de cada elemento. La entrada 210 recibe una expresión del hablante, por ejemplo, una señal de audio pregrabada o una señal de audio recibida desde un micrófono. El dispositivo de entrada 210 puede muestrear la señal de audio para producir una señal de voz de reconocimiento 212. La señal de voz de reconocimiento 212 se proporciona tanto al simulador de canal acústico 220 como al analizador de sistema 240. El simulador de canal acústico 220 procesa la señal de voz de reconocimiento 212 y proporciona a la CNN 230 una señal de voz degradada 214. La CNN 230 se configura para proporcionar características (coeficientes) 232 correspondientes a la señal de voz de reconocimiento. En paralelo, el analizador de señales 240 extrae características acústicas producidas manualmente 242 de la señal de voz de reconocimiento 212. La función de pérdida 250 utiliza tanto las características 232 de la CNN 230 como las características acústicas producidas manualmente 242 del analizador de señal 240 para producir un resultado de pérdida 252 y compara el resultado de pérdida con un umbral predeterminado. Si el resultado de pérdida es mayor que el umbral predeterminado T, el resultado de pérdida se usa para modificar las conexiones dentro de la CNN 230, y se procesa otra señal de voz de reconocimiento o expresión para entrenar aún más la CNN 230. De cualquier otra manera, si el resultado de pérdida es menor o igual que el umbral predeterminado T, la CNN 230 se considera entrenada, y la CNN 230 se puede usar entonces para proporcionar características compensadas por canal al subsistema 20 de reconocimiento de hablantes. (Ver la Figura 2B, discutida en detalle más abajo.)

Volviendo a la Figura 3, el simulador de canal acústico 220 incluye uno o más simuladores de ruido molesto, que incluyen un simulador de ruido 310, un simulador de reverberación 312, un simulador de dispositivo de adquisición 314 y/o un simulador de transcodificación de ruido 316. Cada uno de estos simuladores se discute a su vez a continuación, y cada uno modifica configurablemente la señal de voz de reconocimiento 212 para producir la señal de voz degradada 214. La señal de voz de reconocimiento 212 puede ser modificada secuencialmente por cada uno de los simuladores de ruido molesto en un orden típico de un ejemplo del mundo real tal como el orden secuencial que se muestra en la Figura 3 y que se describe en más detalle más abajo. Por ejemplo, una expresión de un hablante en un ambiente ruidoso sería capturado con los ruidos ambientales directos y los reflejos (o reverberación) de los mismos. El dispositivo de adquisición (por ejemplo, un micrófono) agregaría entonces sus características, seguido por cualquier ruido de transcodificación del canal. Los expertos en la técnica apreciarán que las diferentes circunstancias de captura de audio pueden incluir un subconjunto de factores molestos. Por lo tanto el simulador de canal acústico 220 se puede configurar para usar un subconjunto de simuladores de ruidos molestos y/o para incluir afectos de cada simulador de ruidos molestos a niveles variables.

El simulador de ruido 310 puede agregar uno o más tipos de ruido ambiental o de fondo a la señal de voz de reconocimiento 212. Los tipos de ruido pueden incluir ruidos de balbuceo, ambiente, y/o HVAC. Sin embargo, se pueden agregar tipos de ruido adicionales o alternativos a la señal. Cada tipo de ruido ambiental se puede incluir en un nivel diferente seleccionable. En algunas modalidades, el ruido ambiental se puede agregar a un nivel en relación con la amplitud de la señal de voz de reconocimiento 212. En un ejemplo no limitante, se puede seleccionar cualquiera de los cinco niveles de relación señal-ruido (SNR): 0 dB, 5 dB, 10 dB, 20 dB y 30 dB. En otras modalidades, el(los) tipo(s) de ruido seleccionado(s) se puede(n) añadir a una amplitud especificada independientemente de la amplitud de la señal de voz de reconocimiento. En algunas modalidades, el tipo de ruido, el nivel, la SNR u otras características del ruido ambiental pueden variar de acuerdo con una matriz predeterminada de valores. Alternativamente, cada valor se puede configurar en un intervalo continuo de niveles, SNR, etc. para compensar mejor para los entornos más típicos encontrados para una aplicación en particular. En algunas modalidades ilustrativas, se pueden incluir conjuntos de tipos de ruido, niveles, SNR, etc., en uno o más perfiles de entorno almacenados en una memoria (por ejemplo, la memoria 24), y el simulador de ruido 310 se puede configurar iterativamente de acuerdo con el uno o más perfiles de entorno, versiones fusionadas de dos o más perfiles de entorno, o características individuales dentro de uno o más de los perfiles de entorno. En algunas modalidades, se pueden agregar uno o más tipos de ruido a partir de una muestra de audio previamente almacenada, mientras que en otras modalidades, se pueden sintetizar uno o más tipos de ruido, por ejemplo, mediante síntesis de FM. En los experimentos, los inventores mezclaron la señal de voz de reconocimiento 212 con ruido de audio real mientras controlaban el nivel de ruido para simular una SNR objetivo. Algunos tipos de ruido, como el ruido del ventilador o ambiente, son constantes (estacionarios), mientras que otros, como el balbuceo, son relativamente aleatorios en frecuencia, tiempo, y amplitud. Por lo tanto los diferentes tipos de ruido se pueden agregar sobre una señal de voz de reconocimiento 212 completa, mientras que otros se pueden agregar aleatoriamente o periódicamente a regiones seleccionadas de la señal de voz de reconocimiento 212. Después de agregar el uno o más tipos de ruido ambiental y/o de fondo a la señal de voz de reconocimiento 212 el simulador de ruido 310 genera una primera señal de voz intermedia resultante 311, pasada al simulador de reverberación 312.

El simulador de reverberación 312 modifica la primera señal de voz intermedia 311 para incluir una reverberación de la primera señal de voz intermedia, que incluye la expresión y el ruido ambiental proporcionado por el simulador de ruido 310. Como algunos entornos incluyen una cantidad diferente de reverberación para diferentes fuentes de sonido, en algunas modalidades el simulador de reverberación 312 se puede configurar para agregar reverberación de la expresión independiente de la adición de reverberación de ruido ambiental. En aún otras modalidades, cada tipo de ruido agregado por el simulador de ruido 310 se puede procesar independientemente por el simulador de reverberación 312 para agregar un nivel diferente de reverberación. La cantidad y el tipo de reverberación en entornos del mundo real dependen del tamaño de la sala, la colocación del micrófono y la posición del hablante con respecto a la sala y el micrófono. En consecuencia, el simulador de reverberación se puede configurar para simular múltiples salas y configuraciones de micrófonos. Por ejemplo, el simulador de reverberación puede elegir entre (o transitar por) 8 tamaños de sala diferentes y 3 configuraciones de micrófono, para 24 variaciones diferentes. En algunas modalidades, el tamaño de la sala y la colocación del micrófono se pueden configurar a lo largo de un intervalo continuo de tamaños y colocaciones para compensar mejor las configuraciones más típicas encontradas para una aplicación particular. La reverberación simulada se puede configurar de acuerdo con una relación directa a reverberación (DRR) seleccionada de un conjunto de DRR, y cada DRR puede tener un tiempo de reverberación correspondiente a 60 dB (T60). El simulador de reverberación 312 genera una segunda señal de voz intermedia resultante 313 al simulador de dispositivo de adquisición 314.

El simulador de dispositivo de adquisición 314 puede usarse para simular artefactos de audio y características de una variedad de micrófonos usados para la adquisición de una señal de voz de reconocimiento 212. Como se indicó anteriormente, el subsistema de reconocimiento de hablantes 20 puede recibir señales de voz de reconocimiento 212 de diferentes teléfonos, ordenadores, y micrófonos 10. Cada dispositivo de adquisición 10 puede afectar la calidad de la señal de voz de reconocimiento 212 de una manera diferente, algunos aumentan o disminuyen la amplitud de frecuencias particulares, truncan el intervalo de frecuencia de la expresión original, algunos agregan ruido eléctrico, etc. El simulador de dispositivo de adquisición agrega así selectivamente o secuencialmente características que duplican, o al menos se aproximan a conjuntos comunes de características del dispositivo de adquisición. Por ejemplo, el simulador de dispositivo de adquisición puede simular factores molestos típicos de los tipos de teléfonos más populares (por ejemplo, APPLE IPHONE y SAMSUNG GALAXY).

El simulador de dispositivo de adquisición 314 puede incluir un dispositivo de memoria o acceso a un dispositivo de memoria compartida (por ejemplo, la memoria 24) que almacena perfiles de dispositivos de adquisición de audio. Cada perfil de dispositivo de adquisición de audio puede incluir una o más características de audio tales como las mencionadas en el párrafo anterior, y que pueden ser seleccionables y/o configurables. Por ejemplo, cada perfil de dispositivo de adquisición de audio puede incluir una o más de una característica de frecuencia/ecualización, una característica de amplitud, una característica de filtrado, una característica de ruido eléctrico, y una característica de ruido físico. En algunas modalidades, cada perfil de dispositivo de adquisición de audio puede corresponder a un dispositivo de adquisición de audio particular (por ejemplo, un modelo de teléfono particular). Alternativamente, al igual que con el simulador de ruido de canal 310 y el simulador de ruido de reverberación 312, en algunas modalidades, cada característica de audio de un dispositivo de adquisición se puede seleccionar de un conjunto predeterminado de características de audio o variar a lo largo de un intervalo continuo para proporcionar una variedad de características de audio durante iteraciones de entrenamiento. Por ejemplo, uno o más ajustes de filtro, nivel de amplitud, nivel de ruido eléctrico de ecualización, etc. pueden variar por iteración de entrenamiento. Es decir, el simulador de dispositivo de adquisición 314 puede elegir entre (o transitar por) una serie de valores para cada característica del dispositivo de adquisición, o puede elegir entre (o transitar por) un conjunto de perfiles de dispositivos de adquisición de audio. En algunas modalidades, las características del dispositivo de adquisición se pueden sintetizar, mientras que en algunas modalidades las características del dispositivo de adquisición se pueden almacenar en la memoria (por ejemplo, la memoria 24) como una muestra de audio. La salida del simulador de dispositivo de adquisición 314 es una tercera señal de voz intermedia 315 que se pasa al simulador de ruido de transcodificación 316.

En el simulador de ruido de transcodificación 316, se aplican conjuntos de técnicas de codificación de audio a la tercera señal de voz intermedia 315 para simular los efectos de audio que se agregan típicamente en la transcodificación de una señal de audio. La transcodificación varía en dependencia de la aplicación y puede incluir compresión-expansión (compresión de intervalo dinámico de la señal para permitir la comunicación a través de un canal que tiene un rango dinámico limitado y expansión en el extremo receptor) y/o codificación de audio de voz (por ejemplo, compresión de datos) usada en dispositivos móviles o de Voz sobre IP (VoIP). En algunas modalidades, se pueden implementar selectivamente dieciséis técnicas de codificación de audio diferentes: cuatro códecs de compresión-expansión (por ejemplo, G.711 |j-law, G.711 A-law), siete códecs móviles (por ejemplo, AMR de banda estrecha, AMR de banda ancha (G.722.2)), y cinco códecs VoIP (por ejemplo, iLBC, Speex). En algunos casos se pueden aplicar varias técnicas de codificación de audio simultáneamente (o en serie) a la misma tercera señal de voz intermedia 315 para simular casos en los que una señal de voz de reconocimiento 212 se puede transcodificar varias veces a lo largo de su ruta. Se pueden almacenar diferentes técnicas de codificación de audio o características de audio representativas de las mismas en los respectivos perfiles de características de transcodificación. En algunas modalidades, los perfiles de características pueden incluir una característica de ruido de error de cuantificación, una característica de artefacto de audio de velocidad de muestreo, y/o una característica de artefacto de audio de compresión de datos. El simulador de ruido de transcodificación 316 puede elegir entre (o transitar por) una serie de valores para cada técnica de codificación de audio, o puede elegir entre (o transitar por) los perfiles de características de transcodificación. En algunas modalidades, la tercera señal de voz intermedia puede estar sujeta a una transcodificación real de acuerdo con una o más de las técnicas de transcodificación de audio para generar la señal de voz degradada 214.

El simulador de canal acústico 220 se puede configurar para entrenar iterativamente la primera CNN 230 varias veces para cada señal de voz de reconocimiento de múltiples señales de voz de reconocimiento, cambiando las características del ruido para cada iteración, o para entrenar sucesivamente la primera CNN 230 mediante el uso de una pluralidad de señales de voz de reconocimiento, siendo procesada cada señal de voz de reconocimiento una sola vez, pero modificando al menos una característica de ruido para cada muestra de voz de reconocimiento. Por ejemplo, como se describió anteriormente, para cada iteración se pueden modificar una o más características de ruido ambiental, reverberación, ruido del dispositivo de adquisición y/o ruido de transcodificación para ampliar la variabilidad dentro del hablante.

Una vez que el simulador de canal acústico 220 ha generado la señal de voz degradada 214, hay dos formas de usarla: la primera es durante el entrenamiento fuera de la línea del sistema de reconocimiento de hablantes, mientras que la segunda es durante el registro y la prueba de hablantes. El primero usa la señal de voz degradada para entrenar características o modelos de fondo universales que no son resilientes a dicha variabilidad de canal, mientras que el segundo usa la señal de voz degradada para enriquecer un modelo de hablante o la expresión de prueba con todas las condiciones de canal posibles.

De regreso a la Figura 2B, después de que se entrene la primera CNN 230, el sistema de prueba y registro 200B está en una prueba y registro de señales de voz de reconocimiento. El simulador de canal acústico 220, el analizador de señal 240 y el procesador de función de pérdida 250 (cada uno mostrado en líneas de puntos) no necesitan usarse más. Es decir, la primera CNN 230 entrenada puede recibir una señal de voz de reconocimiento 212 desde la entrada 210 que pasa transparentemente a través de un simulador de canal acústico inactivo 220, y puede producir características de bajo nivel compensadas por canal 232 para el uso del resto de un subsistema de reconocimiento de hablantes 20 como pasado transparentemente a través de un procesador de función de pérdida inactivo 250. Alternativamente, como se ilustra en la Figura 2C, puede usarse un CNN 230 de compensación de canal entrenado solo en casos en donde un entrenamiento adicional sea injustificado o raro.

La red neuronal convolucional de alimentación directa 230 ilustrada en las Figuras 2A-C se entrena para crear un nuevo conjunto de características que son tanto resistentes a la variabilidad del canal como relevantes para discriminar entre los hablantes. Para lograr el primer objetivo, la CNN 230 entrenada y compensada por canal toma como entrada la señal de voz degradada descrita anteriormente y genera como salida características “limpias” o compensadas por canal que coinciden con las características producidas manualmente extraídas por el analizador de señal 240 de una señal de voz de reconocimiento no degradada. Las características producidas manualmente podrían ser, por ejemplo, MFCC (coeficientes cepstrales en la frecuencia de Mel), LFCC (coeficientes cepstrales de frecuencia lineal), PLP (Predictivo Lineal Perceptivo), MFB (Banco de Filtro de Mel) o CQCC (coeficiente cepstral Q constante). Específicamente, las “características producidas manualmente” pueden referirse a características para parámetros tales como el tamaño de las ventanas, el número de filtros, etc. que se ajustaron mediante prueba y error manual, a menudo durante varios años. La Figura 2A ilustra el proceso de entrenamiento.

La configuración de CNN 230 puede incluir una capa de entrada, una pluralidad de capas convolucionales, una capa de registro, y una capa de salida. En una modalidad no limitante, la capa de entrada se puede configurar para esperar una señal sin procesar (por ejemplo, una señal de voz de reconocimiento) de 110 milisegundos que corresponde a 880 muestras (asumiendo que la velocidad de muestreo es 8 kHz). En algunas modalidades, se pueden utilizar seis capas convolucionales, con seis capas de agrupación máxima correspondientes, cada una que usa activación de la unidad lineal rectificada (ReLu). Por ejemplo, las capas convolucionales pueden tener una configuración como la que se muestra en la Tabla 1 a continuación.

La capa Logarítmica puede ser una capa de registro por elementos (log(X 0,01)), donde X es mayor que cero (X > 0). Los inventores determinaron que la inclusión de la Capa Logarítmica proporciona valores de pérdida menores, y una mayor precisión de reconocimiento de hablantes. El desplazamiento (0,01) se incluye para evitar casos extremos (por ejemplo, donde log(X) = -~) como X se aproxima a cero. La capa de salida puede incluir veinte unidades de salida que corresponden a la dimensión de las características acústicas deseadas (por ejemplo, MFCC o CQCC). En al menos una modalidad, la normalización por lotes se aplica a cada capa convolucional. Los expertos en la técnica reconocerán que el número y la configuración de las capas de agrupación máxima y convolucionales se pueden variar para conseguir resultados diferentes.

En los resultados experimentales, las características acústicas resultantes de la configuración CNN anterior se aplicaron a un sistema de reconocimiento de hablantes de Modelo de Mezcla Gaussiana (GMM) y los resultados del reconocimiento se compararon con el mismo sistema empleando características MFCC de referencia. Los resultados indicaron una mejora significativa, con una caída relativa del 52 % en la velocidad de error equivalente (EER) sobre el mismo sistema empleando funciones de MFCC de referencia.

El analizador de señales 240 en la Figura 2A se puede configurar para realizar un análisis espectral o cepstral para producir características acústicas producidas manualmente, por ejemplo, coeficientes para MFCC, coeficientes cepstrales Q constantes (CQCC), Coeficientes Cepstrales de Baja Frecuencia (LFCC) o similares. Estas características producidas manualmente se evalúan frente a las características de bajo nivel compensadas por canal de la CNN 230 por el procesador de función de Pérdida 250.

El procesador de función de pérdida 250 recibe las características de bajo nivel compensadas por canal 232 y las características acústicas producidas manualmente 242 y calcula un resultado de pérdida 252. La función de pérdida empleada por el procesador de función de pérdida 250 puede incluir una función de error cuadrático medio. Sin embargo, los expertos en la técnica reconocerán que se podrían emplear otras funciones de pérdida. Como se indicó anteriormente, el resultado de pérdida 252 puede usarse para actualizar los pesos de conexión para los nodos de la primera CNN 230 cuando el resultado de pérdida es mayor que un umbral predeterminado. Si el resultado de pérdida es menor o igual que el umbral, el entrenamiento está completo. Si todas las iteraciones del entrenamiento se completan sin satisfacer el umbral, el entrenamiento se puede considerar fallido para el conjunto de entrenamiento de señales de voz de reconocimiento.

La Figura 4 es un diagrama de flujo para una operación o método de entrenamiento 400 para entrenar una red neuronal convolucional de alimentación directa compensada por canal (por ejemplo, 230) de acuerdo con modalidades ilustrativas de la presente descripción. La operación de entrenamiento 400 incluye una operación para adquirir una señal de voz de reconocimiento (S410). La señal de voz reconocimiento (por ejemplo, 212 en las figuras anteriores) se puede obtener de un conjunto de señales de voz de reconocimiento almacenadas previamente (por ejemplo, en la memoria 24), obtenidas de un dispositivo de adquisición de audio tal como un micrófono o conjunto de micrófonos, o de una fuente remota tal como un repositorio que tiene uno o más conjuntos de datos de reconocimiento de hablantes. En el último caso, las señales de voz de reconocimiento se pueden obtener de una pluralidad de repositorios. La señal de voz de reconocimiento puede incluir grabaciones de audio sin procesar.

En la operación S420, se agrega ruido de canal acústico a la señal de voz de reconocimiento para producir una señal de voz degradada (tal como la señal de voz degradada 214 en las figuras anteriores). La operación S420 se describe con mayor detalle a continuación con respecto a la Figura 5. En la operación S430, las características compensadas por canal se generan a partir de la señal de voz degradada mediante una primera red neuronal convolucional de alimentación directa (tal como CNN 230 en las figuras anteriores). En la operación S440, las características producidas manualmente (por ejemplo, los coeficientes de al menos uno de MFCC, LFCC, PLP, etc.) se derivan de la señal de voz de reconocimiento de acuerdo con métodos convencionales. En la operación S450, se calcula un resultado de pérdida a partir de las características compensadas por canal y las características producidas manualmente. En algunas modalidades ilustrativas, puede usarse una función de error cuadrático medio para resultados satisfactorios. Sin embargo, se reconoce que se pueden emplear otras funciones de pérdida.

En la operación S460 el resultado de la pérdida se compara con una pérdida umbral. Si la pérdida calculada es menor o igual que el umbral, el método 400 está completo, y la red neuronal convolucional de alimentación directa compensada por canal se considera entrenada con respecto a las señales de voz proporcionadas. Sin embargo, si la pérdida calculada es mayor que el umbral, la pérdida calculada se usa para modificar los pesos de conexión (S470) de la primera CNN (es decir, compensación por canal), y el método 400 se realiza de nuevo mediante el uso de una nueva señal de voz de reconocimiento y/o parámetros modificados para el ruido del canal acústico. En algunas modalidades (ver la flecha sólida a S410 desde S470), el entrenamiento de la CNN puede incluir varias pasadas mediante el uso de todas las señales de voz de reconocimiento, cada pasada usando una configuración de ruido de canal acústico diferente. En otras modalidades (ver la flecha discontinua a S420) cada señal de voz de reconocimiento se puede procesar iterativamente hasta que se consideren todas las configuraciones de ruido de canal acústico deseadas antes de procesar una siguiente señal de voz de reconocimiento. En aún otras modalidades, las señales de voz de reconocimiento se pueden procesar en serie, cada señal de voz de reconocimiento usando una configuración de ruido de canal acústico diferente.

Los expertos en la técnica reconocerán que la comparación de umbrales en la operación S460 puede alternativamente considerar el entrenamiento completo cuando la pérdida calculada es menor que el umbral, e incompleto cuando la pérdida calculada es mayor o igual que el umbral.

La Figura 5 es un diagrama de flujo que proporciona detalles adicionales a la operación S420 para agregar ruido de canal en el método 400 de la Figura 4. En la operación S422, una señal de voz de reconocimiento se puede modificar para incluir ruido ambiental o de fondo de acuerdo con una configuración mediante el uso de uno o más tipos de ruido seleccionables en una o más relaciones señal a ruido (SNR) respectivas (por ejemplo, como se describió anteriormente con respecto al simulador de ruido 310 de la Figura 3). En la operación S424 una señal de voz modificada resultante se puede modificar aún más para incluir reverberación de acuerdo con una configuración mediante el uso de uno o más tiempos a reverberación a 60 dB ((T60, por ejemplo, como se describió anteriormente con respecto al simulador de reverberación 312 en la Figura 3). En la operación S426 la señal de voz modificada adicionalmente se puede modificar aún más para incluir características del dispositivo de adquisición de audio por ejemplo, artefactos de audio, correspondientes a uno o más dispositivos de adquisición (por ejemplo, micrófono, teléfono, etc.) en diferentes modos (por ejemplo, como se describió anteriormente con respecto al simulador de dispositivo de adquisición 314 en la Figura 3). De manera similar, la señal resultante de agregar características de audio del dispositivo de adquisición se puede modificar adicionalmente en la operación S428 para incluir selectivamente características de transcodificación correspondientes a uno o más canales de audio. Por ejemplo, un canal de audio puede utilizar uno o más códecs de compresión de audio que introducen pérdida de fidelidad de audio, y los efectos de uno o más de estos códecs se pueden aplicar a la señal de voz, por ejemplo, como se describió anteriormente con respecto al simulador de ruido de transcodificación 316 en la Figura 3

Como se indicó anteriormente, en algunas modalidades, cada señal de voz de reconocimiento para entrenamiento se puede procesar iterativamente con modificación(es) por iteración a la configuración de ruido del canal acústico. El resultado de la operación de agregar ruido de canal acústico S420 es una señal de voz degradada apropiada para entrenar una red neuronal convolucional para compensar el ruido de fondo y de canal.

Es conveniente generar características acústicas que no solo sean robustas para el canal, como se abordó por los sistemas descritos anteriormente, sino que también aumenten la variabilidad entre hablantes y disminuyan la variabilidad dentro de los hablantes. Para hacerlo, los inventores pusieron en cascada el modelo de CNN compensado por canal preentrenado descrito anteriormente (por ejemplo, sistemas 200A-200C) con una segunda CNN sensible al hablante. El segundo modelo de red neuronal 600 se ilustra en la Figura 6.

El segundo modelo de red neuronal 600 incluye, además del generador de características compensado por canal 610 (tales como los sistemas 200A-200C detallados anteriormente), una red neuronal convolucional que tiene una capa de entrada 620, capas convolucionales 630, y una capa de agrupación máxima 640 que genera características de cuello de botella. Para el entrenamiento, el segundo modelo de red neuronal 600 puede incluir adicionalmente una o más capas completamente conectadas 650 y una capa de salida 660. Una capa de entrada puede ser bidimensional, con una primera dimensión correspondiente a una longitud de muestra de audio (por ejemplo, 110 milisegundos) y una segunda dimensión correspondiente al número de características acústicas (es decir, vectores de características) del generador de características compensadas por canal 610 (por ejemplo, CNN 230). En algunas modalidades, se pueden emplear dos capas convolucionales 620, utilizando una activación de tanh escalada y respectivamente que tienen un número y tamaño de filtros de (32,(15, 20)) y (64, (3, 1)). (Por ejemplo, 32 filtros de tamaño 15 x 20). La capa de agrupación máxima 640 opera sobre el eje del tiempo y su salida se indica como características de cuello de botella. Las capas completamente conectadas 650 pueden incluir 256 unidades ocultas cada una y, al igual que la capa convolucional, pueden utilizar tanh escalado para la activación. La capa de salida 660 puede tener 3622 unidades de salida, cada unidad de salida que corresponde a un solo hablante particular en los datos de entrenamiento. Naturalmente, el sistema se puede escalar para ajustarse a un número diferente de hablantes. Para evitar el sobreajuste, puede usarse una técnica de abandono en las capas totalmente conectadas 650 y la capa de salida 660, en lugar de, por ejemplo, la normalización por lotes. En una modalidad ilustrativa, una relación de abandono puede ser de aproximadamente el 30 %.

Las características de cuello de botella son un conjunto de activaciones de nodos a lo largo del tiempo desde una capa de cuello de botella en una red neuronal profunda (DNN) entrenada. La capa de cuello de botella es una capa oculta en la DNN de dimensión reducida con relación a las otras capas (por ejemplo, 3 nodos en comparación con 20). Esta DNN se puede entrenar para discriminar entre diferentes clases de salida tales como senones, hablantes, condiciones, etc. El uso de una capa de cuello de botella en la DNN garantiza que toda la información requerida para determinar en última instancia los posteriores en la capa de salida de la DNN se limite a un pequeño número de nodos. (Ver Ferrer, y otros, “Exploring the Role of Phonetic Bottleneck Features for Speaker and Language Recognition”, 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 5575-5579.)

Cuando las características de cuello de botella se aplican en la clasificación de una señal de voz particular bajo prueba frente a modelos (por ejemplo, el Modelo de Mezcla Gaussiana), la función de pérdida a minimizar para la clasificación es la Entropía Cruzada categórica. Si bien las capas completamente conectadas 650 y la capa de salida 660 se usan para el entrenamiento, se descartan en los tiempos de prueba y registro como se indicó anteriormente, ya que solo se necesita usar la red CNN entrenada para extraer características de cuello de botella que se podrían usar independientemente del clasificador de final (es decir, las capas completamente conectadas 650 y la capa de salida 660).

La Figura 7 es un diagrama de bloques de un sistema de reconocimiento de hablantes que emplea una pluralidad de generadores de características 710 para ingresar, en paralelo a la segunda red neuronal 700, conjuntos de Características 1 a N. Las características 1 a N (710) pueden incluir cualquiera de diferentes características aprendidas y producidas manualmente, tales como MFCC, LFCC, bancos de filtros y funciones glóticas, que históricamente se diseñaron para abordar los problemas de reconocimiento de hablantes, así como también las características compensadas por canal discutidas anteriormente. Los resultados mejorados de dicha técnica comparados con una técnica de fusión de grabaciones clásica pueden ser de alrededor del 10 %. Otra ventaja es que, comparado con los esquemas de fusión de grabaciones, que requieren grabaciones de dos o más sistemas, la parte frontal multi-DNN descrita implementa un sistema único e independiente, por lo tanto, que reduce los costos computacionales y de desarrollo.

La segunda red neuronal 700 corresponde a la segunda red neuronal 600 descrita anteriormente con respecto a la Figura 6, y por lo tanto no se describe de nuevo. Sin embargo, como entrada la segunda red neuronal 700 puede recibir una pluralidad de conjuntos de características acústicas además de características compensadas por canal desde un generador de características compensadas por canal 710 (tales como los sistemas 200A-200C discutidos en detalle anteriormente).

Una posible arquitectura es por lo tanto similar a la de la Figura 6 pero con entrada tridimensional en lugar de entrada bidimensional, donde la tercera dimensión define el tipo de característica.

En la descripción detallada anterior, se describen diferentes detalles específicos para proporcionar una comprensión de la creación y el uso de características de bajo nivel compensadas por canal para el reconocimiento de hablantes, y describe los aparatos, técnicas, métodos, sistemas e instrucciones de software ejecutables por ordenador presentadas aquí. Sin embargo, las técnicas se pueden poner en práctica sin los detalles específicos descritos en estos ejemplos. Diferentes alternativas, modificaciones y/o equivalentes serán evidentes para los expertos en la técnica sin variar de los aparatos y técnicas introducidos. Por ejemplo, aunque las modalidades descritas en la presente descripción se refieren a las características particulares, el alcance de esta solución incluye además las modalidades que tienen diferentes combinaciones de características y las modalidades que no incluyen todas las características descritas anteriormente. En consecuencia, se pretende que el alcance de las técnicas y soluciones introducidas en la presente descripción abarquen todas estas alternativas, modificaciones, y variaciones que caen dentro del alcance de las reivindicaciones, junto con todos los equivalentes de las mismas. Por lo tanto, la descripción no se debería tomar como limitante del alcance de la invención, que se define por las reivindicaciones.

La presente invención y particularmente el subsistema de reconocimiento de hablantes 20 se refiere generalmente a un aparato para realizar las operaciones descritas en la presente descripción. Este aparato se puede construir especialmente para los fines requeridos tales como una unidad de procesamiento de gráficos (GPU), un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), un circuito electrónico de propósito general especial de matriz de compuertas lógicas programable en campo (FPGA), o puede comprenden un ordenador de propósito general activada o reconfigurada selectivamente por un programa de ordenador almacenado en el ordenador. Tal programa de ordenador se puede almacenar en un medio de almacenamiento legible por ordenador, tales como, pero no se limitan a, cualquier tipo de disco que incluyen discos ópticos, CD-ROM, discos magneto-ópticos, memorias de solo lectura (ROM), memorias de acceso aleatorio (RAM), EPROM, EEPROM, tarjetas magnéticas u ópticas, memoria integrada, almacenamiento en la “nube”, o cualquier tipo de medio leíble por ordenador adecuado para almacenar instrucciones electrónicas.

Los algoritmos y pantallas presentadas en la presente descripción no se relacionan inherentemente con ningún ordenador particular u otro aparato. Diferentes sistemas de propósito general pueden usarse con programas de acuerdo con las enseñanzas en la presente descripción, o puede ser conveniente construir un aparato más especializado para llevar a cabo las etapas del método requeridas. La estructura requerida para una variedad de estos sistemas aparecerá en la descripción en la presente descripción. Además, la presente invención no se describe con referencia a ningún lenguaje de programación particular. Se apreciará que una variedad de lenguajes de programación pueden usarse para implementar las enseñanzas de la invención como se describe en la presente descripción.

Los términos y frases usados en este documento, y las variaciones de los mismos, a menos que de cualquier otra manera se indique expresamente, se deben interpretar como abiertos en lugar de limitantes. Como ejemplos de lo anterior: el término “que incluye” debe interpretarse como “que incluye, sin limitación” o similares; el término “ejemplo” se usa para proporcionar instancias ilustrativas del elemento en discusión, no una lista exhaustiva o limitante del mismo; y los adjetivos tales como “convencional”, “tradicional”, “estándar”, “conocido” y términos de significado similar no deben interpretarse como una limitación del elemento descrito a un período de tiempo determinado o a un elemento disponible a partir de un tiempo determinado, sino que debe interpretarse como que abarca las tecnologías convencionales, tradicionales, normales o estándares que pueden estar disponibles o conocidas ahora o en cualquier momento en el futuro. Igualmente, un grupo de elementos relacionados con la conjunción “y” no debe interpretarse como requisito para que todos y cada uno de esos elementos estén presentes en la agrupación, sino que debe interpretarse como “y/o” a menos que expresamente se indique de cualquier otra manera. Del mismo modo, un grupo de elementos vinculados con la conjunción “o” no se debe interpretar como requiriendo exclusividad mutua entre ese grupo, sino que además se debe interpretar como “y/o” a menos que expresamente se indique de cualquier otra manera. Además, aunque los elementos, los aspectos o componentes de la descripción se pueden describir o reivindicar en el singular, se contempla el plural dentro del alcance de la misma a menos que se indique explícitamente la limitación al singular. La presencia de palabras y frases de ampliación tales como “uno o más”, “al menos”, “pero no se limitan a” u otras frases similares en algunos casos, no se deben comprender en el sentido de que se pretende y requiere el caso más estrecho en los casos donde estas frases de ampliación pueden estar ausentes. Adicionalmente, cuando se establece un intervalo, las limitaciones superior e inferior del intervalo incluyen todas las unidades intermedias del mismo.

La descripción anterior de las modalidades ilustrativas descritas se proporciona para permitir a cualquier experto en la técnica fabricar o usar la presente invención. Diferentes modificaciones a esas modalidades ilustrativas serán evidentes para los expertos en la técnica, y los principios genéricos definidos en la presente descripción se pueden aplicar a otras modalidades sin apartarse del alcance de la invención. Por lo tanto, la presente invención no pretende ser limitada a las modalidades mostradas en la presente descripción sino que se debe acordar el mayor alcance posible consistente con los principios y nuevas características descritas en la presente descripción.

Claims

REIVINDICACIONES

1. Un sistema para generar características de bajo nivel compensadas por canal para el reconocimiento de hablantes, el sistema que comprende:

un simulador de canal acústico (220) configurado para recibir una señal de voz de reconocimiento, degradar la señal de voz de reconocimiento para incluir características cambiantes de un canal de audio para cada iteración de entrenamiento de una pluralidad de iteraciones de entrenamiento para la señal de voz de reconocimiento, y generar señales de voz degradadas correspondientes a la señal de voz de reconocimiento para la pluralidad de iteraciones de entrenamiento;

una primera red neuronal convolucional (230) configurada, en un modo de entrenamiento, para recibir las señales de voz degradadas, y para calcular a partir de cada una de las señales de voz degradadas una pluralidad de características de bajo nivel compensadas por canal, y además configurada, en un modo de prueba y registro, para recibir la señal de voz de reconocimiento, para calcular a partir de la señal de voz de reconocimiento una segunda pluralidad de características de bajo nivel compensadas por canal;

un analizador de señales de voz (240) configurado, en el modo de entrenamiento, para extraer características de la señal de voz de reconocimiento;

un procesador de función de pérdida (250) configurado para calcular una pérdida en base a las características del analizador de voz y las características de bajo nivel compensadas por canal de cada una de las señales de voz degradadas de la primera red neuronal convolucional;

en donde, la pérdida calculada en cada una de la pluralidad de iteraciones de entrenamiento se reduce modificando uno o más pesos de conexión de la primera red neuronal convolucional de alimentación directa, y si la pérdida calculada es menor o igual a una pérdida de umbral, o un número máximo de iteraciones de entrenamiento se ha alcanzado, se termina el modo de entrenamiento.

2. El sistema de acuerdo con la reivindicación 1, en donde el simulador de canal acústico (220) comprende un simulador de ruido ambiental (310), un simulador de reverberación (312), un simulador de características del dispositivo de adquisición de audio (314), y un simulador de ruido de transcodificación (316), cada uno de ellos seleccionable o programáticamente configurable para realizar una porción de dicha degradación de la señal de voz de reconocimiento.

3. El sistema de acuerdo con la reivindicación 2, en donde el simulador de ruido ambiental (310) introduce en la señal de voz de reconocimiento al menos un tipo de ruido ambiental seleccionado de una pluralidad de tipos de ruido ambiental.

4. El sistema de acuerdo con la reivindicación 3, en donde el simulador de ruido ambiental (310) introduce al menos un tipo de ruido ambiental seleccionado a una relación señal a ruido (SNR) seleccionada de una pluralidad de relaciones señal a ruido (SNR).

5. El sistema de acuerdo con cualquiera de las reivindicaciones 2-4, en donde el simulador de reverberación (312) se configura para simular la reverberación de acuerdo con una relación directa a reverberación (DRR) seleccionada de una pluralidad de DRR.

6. El sistema de acuerdo con la reivindicación 5, en donde cada DRR en la pluralidad de DRR tiene un tiempo de reverberación correspondiente a 60 dB.

7. El sistema de acuerdo con cualquiera de las reivindicaciones 2-6, en donde el simulador de características del dispositivo de adquisición de audio (314) simula las características de audio de un dispositivo de adquisición de audio seleccionable de una pluralidad de perfiles de dispositivos de adquisición de audio almacenados cada uno de los cuales que tiene una o más características de audio seleccionables.

8. El sistema de acuerdo con la reivindicación 7, en donde cada perfil de dispositivo de adquisición de audio incluye al menos una de: una característica de frecuencia/ecualización, una característica de amplitud, una característica de filtrado, una característica de ruido eléctrico y una característica de ruido físico.

9. El sistema de acuerdo con cualquiera de las reivindicaciones 2-8, en donde el simulador de ruido de transcodificación (316) se configura para agregar selectivamente características de transcodificación de canales de audio seleccionables de una pluralidad de perfiles de características de transcodificación almacenados.

10. El sistema de acuerdo con la reivindicación 9, en donde cada perfil de característica de transcodificación incluye al menos una de una característica de ruido de error de cuantificación, una característica de artefacto de audio de velocidad de muestreo, y una característica de artefacto de audio de compresión de datos.

11. El sistema de acuerdo con cualquiera de las reivindicaciones 1-10, que comprende además una segunda red neuronal convolucional sensible al hablante configurada, en el modo de prueba y registro, para recibir la pluralidad de características compensadas por canal de cada una de las señales de voz degradadas, y para extraer de las características compensadas por canal una pluralidad de características de cuello de botella sensibles al hablante.

12. El sistema de acuerdo con la reivindicación 11, en donde la segunda red neuronal convolucional incluye una pluralidad de capas convolucionales y una capa de cuello de botella, la capa de cuello de botella configurada para generar las características de cuello de botella sensibles al hablante.

13. El sistema de acuerdo con la reivindicación 11, en donde la segunda red neuronal convolucional toma como entrada al menos un conjunto de otras características junto con la pluralidad de características compensadas por canal de cada una de las señales de voz degradadas, el al menos un conjunto de otras características extraídas de la señal de voz de reconocimiento.

14. Un método implementado por ordenador para entrenar una red neuronal profunda (DNN) con características de bajo nivel compensadas por canal (400), el método que comprende:

recibir una señal de voz de reconocimiento (s410);

degradar la señal de voz de reconocimiento para producir una pluralidad de señales de voz compensadas por canal para incluir características cambiantes de un canal de audio para una pluralidad de iteraciones de entrenamiento para la señal de voz de reconocimiento;

extraer, mediante el uso de una primera red neuronal convolucional, en un modo de entrenamiento, una pluralidad de características de bajo nivel de cada una de la pluralidad de señales de voz compensadas por canal;

calcular (s450) un resultado de pérdida mediante el uso de las características de bajo nivel compensadas por canal extraídas de cada una de la pluralidad de señales de voz compensadas por canal y características producidas manualmente extraídas de la señal de voz de reconocimiento en cada una de la pluralidad de iteraciones de entrenamiento para la señal de voz de reconocimiento;

modificar (s470) los pesos de conexión de la primera red neuronal convolucional de alimentación directa para reducir el resultado de pérdida calculado en cada una de la pluralidad de iteraciones de entrenamiento para la señal de voz de reconocimiento; y

terminar el modo de entrenamiento si la pérdida calculada es menor o igual a un umbral de pérdida, o si se ha alcanzado un número máximo de iteraciones de entrenamiento.

15. El método de acuerdo con la reivindicación 14, en donde dicha degradación de la señal de voz de reconocimiento incluye agregar selectiva o programáticamente uno o más de ruido ambiental, reverberación, una característica del dispositivo de adquisición de audio, y un artefacto de transcodificación de canal de audio.