ES2912165T3 - Autenticación de un usuario - Google Patents

Autenticación de un usuario Download PDF

Info

Publication number
ES2912165T3
ES2912165T3 ES18755848T ES18755848T ES2912165T3 ES 2912165 T3 ES2912165 T3 ES 2912165T3 ES 18755848 T ES18755848 T ES 18755848T ES 18755848 T ES18755848 T ES 18755848T ES 2912165 T3 ES2912165 T3 ES 2912165T3
Authority
ES
Spain
Prior art keywords
user
voiceprint
speaker
authentication
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18755848T
Other languages
English (en)
Inventor
Espejo Iván Lopez
Calero Santiago Prieto
Ruiz Ana Iriarte
Redin David Roncal
Yoldi Miguel Angel Sanchez
Ladron Eduardo Azanza
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Veridas Digital Authentication Solutions S L
Veridas Digital Authentication Solutions SL
Original Assignee
Veridas Digital Authentication Solutions S L
Veridas Digital Authentication Solutions SL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Veridas Digital Authentication Solutions S L, Veridas Digital Authentication Solutions SL filed Critical Veridas Digital Authentication Solutions S L
Application granted granted Critical
Publication of ES2912165T3 publication Critical patent/ES2912165T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Collating Specific Patterns (AREA)

Abstract

Un procedimiento de autenticación de un usuario o locutor, que comprende: obtener una señal de habla de entrada y unas credenciales de usuario que identifican al usuario o locutor, incluyendo la señal de habla de entrada una señal de voz de un solo canal o de múltiples canales; extraer una huella de voz del habla a partir de la señal del habla de entrada; recuperar una huella de voz de referencia asociada a las credenciales del usuario; determinar una correspondencia de huellas de voz entre la huella de voz del habla y la huella de voz de referencia; autenticar al usuario o locutor en función de la correspondencia entre las huellas de voz; realizar una calibración de puntuación σ(x) de la autenticación del usuario o locutor, en la que x representa una puntuación de la autenticación del usuario o locutor, en la que cuanto más cerca de 1 se encuentra σ(x), más éxito se determina que tiene la autenticación del usuario o locutor, y cuanto más cerca de 0 se encuentra σ(x), menos éxito se determina que tiene la autenticación del usuario o locutor; y actualizar la huella de voz de referencia en función de la huella de voz del habla que corresponde al usuario o locutor autenticado y de si una calibración de puntuación σ(x) de la autenticación del usuario o locutor está por encima o por debajo de un umbral de calibración predefinido Ψ, en base a la siguiente fórmula: en la que ( ) corresponde a la huella de voz de referencia actualizada, ( ) corresponde a la huella de voz de referencia a actualizar, ( ) corresponde a la huella de voz del habla, y λ(σ(x), Ψ, γ) corresponde a un factor de recuerdo determinado en base a la siguiente fórmula: en la que γ es un factor heurístico predefinido que indica una importancia mínima de ( ) durante la actualización.

Description

DESCRIPCIÓN
Autenticación de un usuario
La presente solicitud reivindica la prioridad de la solicitud de patente europea EP18382505.8 presentada el 06 de julio de 2018.
La presente divulgación se refiere a procedimientos de autenticación de un usuario o locutor, y a programas informáticos, sistemas y sistemas informáticos adecuados para realizar dichos procedimientos.
ANTECEDENTES
La biometría de voz es una tecnología que permite identificar o verificar automáticamente la identidad de una persona por medio de su voz. Esta tecnología se basa en el uso de la denominada huella de voz, que se puede definir, de forma similar a una huella dactilar, como un patrón personal (es decir, único) extraído de una señal de voz de un locutor concreto.
La biometría de voz ha progresado más o menos significativamente en los últimos años, pero la biometría de voz está todavía lejos de ser una tecnología madura. Una serie de problemas condicionan su rendimiento e impiden un mayor despliegue de esta tecnología, especialmente en aquellos entornos en los que se requiere una precisión excepcional por motivos de seguridad (por ejemplo, en el sector bancario). Se han identificado diferentes categorías de factores que afectan negativamente al rendimiento de un sistema de biometría de voz, tal como por ejemplo factores de variabilidad, ataques de suplantación de identidad, etc.
En general, se acepta que los factores de variabilidad provoquen que cada muestra de voz sea diferente, incluso si un mismo locutor graba dos veces la misma expresión utilizando el mismo dispositivo en el mismo lugar. Por supuesto, las diferencias aumentan aún más en caso de diferentes escenarios de grabación y, por lo tanto, las huellas de voz de un mismo locutor resultan ser diferentes entre sí. Este hecho puede comprometer el rendimiento de un sistema de biometría de voz si hay un desajuste entre, por ejemplo, las condiciones de entrenamiento, registro e identificación/verificación, y esto puede provocar una fiabilidad y/o eficiencia insuficientes.
El documento WO 2014/040124 A1 divulga un procedimiento para mantener una huella de voz utilizable para autenticar a un usuario que comprende asociar un modelo de fondo universal entrenable con el usuario. Se genera una huella de voz para el usuario utilizando el modelo de fondo universal entrenable y al menos una muestra de voz de registro proporcionada por el usuario. El modelo de fondo universal entrenable es entrenado posteriormente con muestras de voz adicionales proporcionadas por el usuario después del registro que satisfacen criterios de adaptación predefinidos. La huella de voz es regenerada en respuesta a un cambio en el modelo de fondo universal entrenable.
También se hace referencia a los siguientes documentos de ejemplo del estado de la técnica: US 2015/301796 A1, CN 108039 177 A, EP 1901 239 A2, US 2017/140760 A1 y US 6804647 B1.
En cuanto a los ataques de suplantación de identidad, también se acepta que la tecnología actual de biometría de voz es susceptible de fracasar frente a ataques maliciosos basados en la suplantación de identidad. Lejos de estar resuelto, este problema requiere la investigación y el desarrollo de técnicas que refuercen los sistemas de biometría de voz.
Los factores anteriores aumentan la tasa de falsa aceptación de los sistemas de biometría de voz, disminuyendo de este modo su seguridad. Las expresiones de voz que producen falsas aceptaciones como resultado de los factores de variabilidad se conocen como expresiones de voz impostoras de esfuerzo cero. Por otro lado, las expresiones de voz de suplantación de identidad son las que resultan de la utilización de un procedimiento de suplantación de identidad concreto con fines fraudulentos. Diferentes técnicas intentan hacer frente a la variedad de factores mencionada anteriormente, pero el desarrollo de un sistema de biometría de voz altamente robusto y seguro sigue siendo un reto y, por lo tanto, un problema abierto.
Un objeto de la presente divulgación es proporcionar procedimientos, programas informáticos, sistemas y sistemas informáticos para autenticar a un usuario o locutor que mejoren la fiabilidad y/o eficiencia de las propuestas actuales de autenticación de usuarios.
RESUMEN
En un aspecto, se proporciona un procedimiento de autenticación de un usuario o locutor de acuerdo con la reivindicación 1. Las reivindicaciones dependientes 2 - 7 definen otras formas de realización preferidas.
En otro aspecto, se proporciona un programa informático que comprende instrucciones de programa para hacer que un sistema informático realice el procedimiento anterior, según se define en la reivindicación 8. Este programa informático puede ser incorporado en un medio de almacenamiento y/o transportado en una señal portadora, según se refleja en las reivindicaciones dependientes 9 y 10, respectivamente. Dado que este programa informático es adecuado para realizar el procedimiento de autenticación anterior, se pueden atribuir a este programa informático unos principios y unas ventajas iguales o similares a las comentadas con respecto al procedimiento.
En otro aspecto más, se proporciona un sistema según la reivindicación 11.
Estas y otras ventajas y características se harán evidentes a la vista de la descripción detallada y los dibujos.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
A continuación se describirán unos ejemplos no limitantes de la presente divulgación, con referencia a los dibujos adjuntos, en los que:
La Figura 1 es un diagrama de bloques que ilustra de forma esquemática sistemas de autenticación de un usuario o locutor según algunos ejemplos;
La Figura 2 es un diagrama de bloques que ilustra de forma esquemática sistemas de autenticación de un usuario o locutor según otros ejemplos;
La Figura 3 es un diagrama de flujo que ilustra de forma esquemática procedimientos de autenticación de un usuario o locutor según algunos ejemplos; y
La Figura 4 es un diagrama de flujo que ilustra de forma esquemática procedimientos de autenticación de un usuario o locutor según otros ejemplos.
DESCRIPCIÓN DETALLADA DE EJEMPLOS
Por razones de exhaustividad, en las siguientes descripciones se incluyen referencias a divulgaciones del estado de la técnica con el fin de proporcionar al experto información detallada para implementar cualquiera de los ejemplos que se describen en el presente documento. Estas divulgaciones del estado de la técnica se enumeran al final de esta sección de descripciones detalladas, estando cada una de dichas divulgaciones etiquetada con un identificador [NN... Nyy] en el que NN...N indica un autor principal y representativo de la divulgación e yy indica el año de la divulgación. Estas divulgaciones del estado de la técnica se mencionan en las siguientes descripciones detalladas a través de dichas etiquetas/identificadores.
La Figura 1 es un diagrama de bloques que ilustra de forma esquemática sistemas 100 para autenticar a un usuario o locutor según ejemplos. Como se muestra en la Figura, un sistema (informático) de autenticación según la invención comprende un módulo de obtención 101, un módulo de extracción 104, un módulo de recuperación 105, un módulo de correspondencia 106, un módulo de autenticación 107 y un módulo de actualización 108. El sistema 100 según la Figura 1 puede comprender además un módulo de resultados 109.
El módulo de obtención 101 está configurado para obtener una señal de habla de entrada y unas credenciales de usuario que identifican al usuario o locutor, la señal de habla de entrada incluye una señal de voz de un solo canal o una señal de voz de múltiples canales. En algunos ejemplos, el módulo de obtención 101 puede comprender un (sub) módulo 102 de obtención de credenciales de usuario configurado para obtener las credenciales de usuario, y un (sub) módulo 103 de obtención de señal de habla de entrada configurado para obtener la señal de habla de entrada.
El (sub) módulo 103 de obtención de señal de habla de entrada puede comprender un sensor de captura de audio que puede ser interno o externo a un dispositivo de captura. El sensor de captura de audio puede ser cualquier tipo de sensor adecuado para grabar una señal de voz que incluya o codifique una expresión del usuario o locutor a autenticar. El dispositivo de captura puede ser interno o externo al sistema de autenticación 100, y puede estar implementado (o configurado) para capturar audios en, por ejemplo, formato digital. Para este fin, el dispositivo de captura puede comprender cualquier sensor de captura adecuado tal como, por ejemplo, un micrófono o micrófonos de audio. El (sub) módulo 103 de obtención de señal de habla de entrada puede estar configurado para obtener o recibir procedente de, por ejemplo, una combinación del citado sensor o sensores de captura y dispositivo o dispositivos de captura, una o más capturas de audio y proporcionar dicha captura o capturas al módulo 104 de extracción. En otras partes de la descripción se proporcionan detalles funcionales sobre el (sub) módulo 103 de obtención de la señal de habla de entrada, especialmente con referencia a las figuras 3 y 4.
El módulo de extracción 104 está configurado para extraer una huella de voz de la señal de habla de entrada obtenida (o recibida) en el módulo de obtención 101. El módulo de recuperación 105 está configurado para recuperar una huella de voz de referencia asociada a las credenciales de usuario obtenidas en el módulo de obtención 101. En otras partes de la descripción se proporcionan detalles funcionales sobre el módulo de extracción 104 y el módulo de recuperación 105, especialmente con referencia a las figuras 3 y 4.
El módulo de correspondencia 106 está configurado para determinar una correspondencia (de huellas de voz) entre la huella de voz del habla (extraída en el módulo de extracción 104) y la huella de voz de referencia (recuperada en el módulo de recuperación 105). El módulo de autenticación 107 está configurado para autenticar al usuario en función de dicha correspondencia entre las huellas de voz (determinada en el módulo de correspondencia 106). El módulo de actualización 108 está configurado para actualizar la huella de voz de referencia en función de la huella de voz del habla que corresponde al usuario autenticado en el módulo de autenticación 107. El módulo de resultados 109 puede estar configurado para proporcionar resultados de la autenticación tal como, por ejemplo, si el usuario o locutor ha sido autenticado con éxito o sin éxito, si la huella de voz de referencia ha sido actualizada con éxito o sin éxito, etc. Los detalles funcionales de estos módulos 106, 107, 108, 109 se proporcionan en otras partes de la descripción, especialmente con referencia a las Figuras 3 y 4.
La Figura 2 es un diagrama de bloques que ilustra de forma esquemática sistemas 200 para la autenticación de un usuario o locutor según otros ejemplos. Estos sistemas 200 pueden ser similares a los descritos con referencia a la Figura 1. En particular, los sistemas según la Figura 2 pueden comprender un módulo de obtención 101, un módulo de extracción 104, un módulo de recuperación 105, un módulo de correspondencia 106, un módulo de autenticación 107, un módulo de actualización 108, un módulo de resultados 109, etc., que pueden ser similares o coincidentes con los de la Figura 1. Las mismas referencias numéricas de la Figura 1 se reutilizan para hacer referencia a dichos módulos similares o coincidentes en la Figura 2.
Una diferencia puede residir en el módulo de validación 201 que no está incluido en los sistemas según la Figura 1. El módulo de validación 201 puede estar configurado para determinar, en base a criterios predefinidos de validez de la señal, si la señal de habla de entrada (procedente del módulo de obtención 101) es válida o no, y para transferir los correspondientes datos de validez de la señal al módulo de resultados 109. Estos datos de validez de la señal pueden hacer que el módulo de resultados 109 produzca, por ejemplo, una advertencia de resultado o resultados de posible falsa autenticación si se ha determinado una validez no aceptable de la señal de habla de entrada. Los detalles funcionales sobre el módulo de validación 201 y la forma en que los datos de validez de la señal pueden ser procesados, por ejemplo, por el módulo de resultados 109, se proporcionan en otras partes de la descripción, especialmente con referencia a las Figuras 3 y 4.
Según se utiliza en el presente documento, el término "módulo" se puede entender que se refiere a un software, firmware, hardware y/o varias combinaciones de los mismos. Se observa que los módulos son de ejemplo. Los módulos se pueden combinar, integrar, separar y/o duplicar para soportar diversas aplicaciones. Además, una función descrita en el presente documento como realizada en un módulo particular puede ser realizada en uno o más módulos y/o por uno o más dispositivos en lugar de o además de la función realizada en el módulo particular descrito.
Además, los módulos pueden ser implementados a través de múltiples dispositivos (asociados o vinculados al sistema de autenticación 100, 200) y/u otros componentes que pueden ser locales o remotos entre sí. Además, los módulos pueden ser movidos de un dispositivo y añadidos a otro, y/o pueden ser incluidos en ambos dispositivos (asociados al sistema de autenticación 100, 200). Cualquier implementación del software puede ser incorporada de forma tangible en uno o más medios de almacenamiento tal como, por ejemplo, un dispositivo de memoria, un disquete, un disco compacto (CD), un disco versátil digital (DVD), u otros dispositivos que puedan almacenar código informático.
Cualquier sistema (informático) de autenticación 100, 200 según la presente divulgación puede ser implementado mediante medios informáticos, medios electrónicos o una combinación de los mismos. Los medios informáticos pueden ser un conjunto de instrucciones (es decir, un programa informático) y entonces el sistema (informático) de autenticación 100, 200 puede comprender una memoria y un procesador, que incorporan dicho conjunto de instrucciones almacenadas en la memoria y ejecutables por el procesador. Las instrucciones pueden comprender una funcionalidad para ejecutar procedimientos de autenticación tal como, por ejemplo, los que se describen en las figuras 3 y 4.
En el caso de que el sistema (informático) de autenticación 100, 200 se implemente únicamente mediante medios electrónicos, un controlador del sistema 100, 200 puede ser, por ejemplo, un Dispositivo Lógico Programable Complejo (CPLD: Complex Programmable Logic Device), una matriz de puertas lógicas programable en campo (FPGA: Field Programmable Gate Array) o un Circuito Integrado de Aplicación Específica (ASIC: Application-Specific Integrated Circuit).
En el caso de que el sistema (informático) de autenticación 100, 200 sea una combinación de medios electrónicos e informáticos, los medios informáticos pueden ser un conjunto de instrucciones (por ejemplo, un programa informático) y los medios electrónicos pueden ser cualquier circuito electrónico capaz de implementar las correspondientes etapas de los procedimientos de autenticación que se proponen (según, por ejemplo, las figuras 3 y 4).
El programa informático puede estar incorporado en un medio de almacenamiento (por ejemplo, un CD-ROM, un DVD, una unidad USB, una memoria informática o una memoria de sólo lectura) o ser transportado en una señal portadora (por ejemplo, en una señal portadora eléctrica u óptica).
El programa informático puede estar en forma de código fuente, código objeto, un código intermedio entre código fuente y código objeto tal como en una forma parcialmente compilada, o en cualquier otra forma adecuada para su uso en la implementación de los procedimientos de autenticación según, por ejemplo, las Figuras 3 y 4. El portador puede ser cualquier entidad o dispositivo capaz de portar/transportar el programa informático.
Por ejemplo, el portador puede comprender un medio de almacenamiento, tal como una ROM, por ejemplo un CD r Om o una ROM semiconductora, o un medio de grabación magnética, por ejemplo un disco duro. Además, el portador puede ser un portador transmisible, tal como una señal eléctrica u óptica, que puede ser transportada a través de un cable eléctrico u óptico o por radio u otros medios.
Cuando el programa informático se encuentra incorporado en una señal que puede ser transportada directamente por un cable u otro dispositivo o medio, el portador puede estar constituido por dicho cable u otro dispositivo o medio. Alternativamente, el portador puede ser un circuito integrado en el que el programa informático se encuentra incorporado, estando el circuito integrado adaptado para realizar, o para su uso en la realización de, los procedimientos pertinentes.
En cualquiera de los sistemas de autenticación (informáticos) 100, 200 que se describen en el presente documento, todos los módulos del sistema pueden estar comprendidos en un servidor informático (por ejemplo, un servidor en la nube), y el módulo de obtención 101 puede estar configurado para recibir la señal de habla de entrada y las credenciales de usuario procedentes de un dispositivo de usuario (por ejemplo, un dispositivo portátil) a través de una conexión (por ejemplo, una conexión basada en Internet) entre el servidor informático y el dispositivo de usuario. En configuraciones alternativas, sólo algunos de los módulos del sistema de autenticación 100, 200 pueden estar comprendidos en el servidor informático (en la nube) y los módulos restantes del sistema pueden estar comprendidos en el dispositivo de usuario (portátil) configurado para capturar la señal de habla de entrada y las credenciales de usuario. Un módulo concreto puede estar incluido en el servidor informático (en la nube) o en el dispositivo de usuario (portátil) en función de la carga de procesamiento prevista o estimada para dicho módulo. De este modo, se puede conseguir un buen equilibrio entre la carga de procesamiento en el servidor informático y la carga de procesamiento en el dispositivo de usuario, de modo que se puede optimizar en general la eficiencia de todo el sistema de autenticación 100, 200.
Según ejemplos, se puede proporcionar un sistema de banca en línea que puede estar configurado para autorizar a un usuario a realizar (ciertas) funcionalidades bancarias en el sistema bancario en función de una autenticación del usuario realizada por un sistema de autenticación 100, 200 tal como los que se describen en el presente documento. El sistema bancario en línea puede incluir o no incluir el sistema de autenticación 100, 200.
La Figura 3 es un diagrama de flujo que ilustra de forma esquemática procedimientos de autenticación de un usuario o locutor según ejemplos. Estos procedimientos de autenticación pueden ser realizados por sistemas de autenticación según, por ejemplo, las figuras 1 o 2. Se pueden reutilizar referencias numéricas de las figuras 1 o 2 en la siguiente descripción de la Figura 3 para una mejor comprensión.
En el bloque inicial 300, el procedimiento de autenticación puede ser iniciado como resultado de (detectar) una condición de inicio tal como, por ejemplo, la activación de la funcionalidad de autenticación, un intento de acceder a información sensible, un intento de ejecutar una aplicación que requiere la autenticación del usuario, etc.
En el bloque 301, se obtiene (o se recibe) una señal de habla de entrada del usuario o locutor para su autenticación. La señal de habla de entrada incluye una señal de voz de un solo canal o una señal de voz de múltiples canales. Esta funcionalidad puede ser realizada, por ejemplo, por el (sub) módulo 103 de obtención de la señal de habla de entrada incluido en el módulo de obtención 101.
En el bloque 302, se obtienen las credenciales de usuario que identifican al usuario o locutor a autenticar. Las credenciales de usuario pueden comprender cualquier tipo de datos que identifiquen al usuario o locutor a autenticar tal como, por ejemplo, un nombre de usuario, un identificador interno, nombre de usuario y contraseña, etc. Esta funcionalidad puede ser realizada, por ejemplo, por el (sub) módulo 102 de obtención de credenciales de usuario incluido en el módulo 101 de obtención.
En el bloque 303, se extrae una huella de voz del habla a partir de la señal del habla de entrada que se ha obtenido en el bloque 301. La huella de voz del habla puede incluir unos vectores de características acústicas representativas del usuario o locutor a autenticar, tales como i-vectores, x-vectores, etc. Esta funcionalidad puede ser realizada, por ejemplo, por el módulo de extracción 104.
En el bloque 304, se recupera una huella de voz de referencia asociada a las credenciales del usuario de, por ejemplo, un repositorio de huellas de voz de referencia predefinidas. Este repositorio puede comprender, por ejemplo, una base de datos, un sistema de archivos, o cualquier otro tipo de aplicación de almacenamiento configurada para almacenar huellas de voz y su asociación con correspondientes usuarios (a autenticar). Esta funcionalidad puede ser realizada, por ejemplo, por el módulo de recuperación 105, con respecto al cual el repositorio de huellas de voz puede ser interno o externo. La representación subyacente (o el formato o la implementación) de la huella de voz de referencia puede ser compatible con la huella de voz del habla, de modo que pueden ser comparadas entre sí en el siguiente bloque 305.
En el bloque 305, se determina o calcula una correspondencia entre la huella de voz del habla y la huella de voz de referencia. La correspondencia entre la huella de voz del habla y la huella de voz de referencia se puede determinar o calcular utilizando, por ejemplo, una distancia de coseno, un análisis discriminante lineal probabilístico (PLDA: probabilistic linear discriminant analysis), máquinas de vectores de soporte (SVM: support vector machines), redes neuronales profundas (DNN: Deep neural networks), etc. Cuanto mayor sea la correspondencia (o el grado de coincidencia), más similares se pueden considerar la huella de voz del habla y la huella de voz de referencia entre sí. Cuanto menor sea la correspondencia (o el grado de coincidencia), menos similares se pueden considerar la huella de voz del habla y la huella de voz de referencia entre sí. En otras palabras, la similitud entre la huella de voz del habla y la huella de voz de referencia se puede promocionar o degradar proporcionalmente a la correspondencia (o grado de coincidencia) entre la huella de voz del habla y la huella de voz de referencia. Esta funcionalidad puede ser realizada, por ejemplo, por el módulo de correspondencia 106.
En el bloque 306, el usuario es autenticado en función de la correspondencia entre las huellas de voz que se ha determinado en el bloque 305 anterior. Cuanto mayor sea la similitud entre la huella de voz del habla y la huella de voz de referencia, mayores pueden ser las posibilidades de autenticación con éxito del usuario. Cuanto menor sea la similitud entre la huella de voz del habla y la huella de voz de referencia, menores pueden ser las posibilidades de autenticación con éxito del usuario. En otras palabras, las posibilidades de autenticación con éxito se pueden promocionar o degradar proporcionalmente a la similitud entre la huella de voz del habla y la huella de voz de referencia. La correspondencia (o similitud) entre las huellas de voz procedente del bloque 305 puede ser comparada, por ejemplo, con un umbral de correspondencia predefinido. En el caso de que la correspondencia entre las huellas de voz sea mayor que el umbral de correspondencia predefinido, se puede determinar que el usuario ha sido autenticado con éxito y, en caso contrario, que ha sido autenticado sin éxito. En el bloque 306 también se realiza una calibración de puntuación a(x) de la autenticación, en la que x representa una puntuación de la autenticación. Cuanto más cerca de 1 esté a(xj, más satisfactoria se puede calificar la autenticación, y cuanto más cerca de 0 esté a(x), menos satisfactoria se puede calificar la autenticación. La calibración de la puntuación a(x) puede ser, por ejemplo, una calibración sigmoidea. La puntuación x puede ser determinada, por ejemplo, por un clasificador entrenado para determinar una puntuación x de la huella de voz del habla v (s), que representa la señal del habla de entrada del locutor s' en el momento t, frente a la huella de voz de referencia del locutor s en el tiempo pasado t -1. Si el locutor de la señal del habla y de la señal de referencia resultan ser el mismo locutor (s' = s), significa prueba legítima y, en caso contrario (s' = s), prueba fraudulenta. Estas funciones de "autenticación" pueden ser realizadas, por ejemplo, por el módulo de autenticación 107.
En el bloque 307, se realiza una etapa de decisión en función de si el usuario se ha autenticado (con éxito o sin éxito) en el bloque 306 anterior y de si la calibración de la puntuación a(xj está por encima o no de un umbral de calibración predefinido ^ . En el caso de que a(xj no sea mayor que ^ , puede denotar que el resultado de la actualización e(s) es igual a (o se espera o se estima que es igual a) la huella de voz de referencia a actualizar . Si el usuario ha sido autenticado (con éxito) (y opcionalmente a(x) > ^ ), se realiza una transición al bloque 308 para actualizar la huella de voz de referencia en función de la huella de voz del habla que ha provocado la autenticación (con éxito) del usuario. En caso contrario, el procedimiento puede continuar al bloque 309 para finalizar la ejecución del procedimiento con, por ejemplo, la emisión de una advertencia que indique que el usuario no puede ser autenticado (o que la autenticación del usuario no ha tenido éxito) a causa de una correspondencia insuficiente entre la huella de voz del habla y la huella de voz de referencia (y/o, opcionalmente, una calibración de puntuación inaceptable). Esta funcionalidad de "decisión" puede ser realizada, por ejemplo, por el módulo de autenticación 107.
En el bloque 308, se actualiza la huella de voz de referencia en función de la huella de voz del habla que corresponde al usuario autenticado. Si el usuario ha sido autenticado con éxito (en el bloque 306), se actualiza la huella de voz de referencia teniendo en cuenta la huella de voz del habla del usuario autenticado (con éxito). De este modo, la huella de voz de referencia del usuario se puede mantener actualizada y mejorada en el sentido de que la huella de voz de referencia es cada vez más representativa del usuario o locutor a medida que se van realizando nuevas autenticaciones. La actualización de la huella de voz de referencia se realiza en base a la siguiente fórmula:
e[s) = 1F,Y)e[s_)1 (1 - A(a(x), ^ ,y))v[S ^
en la que e(s) corresponde a la huella de voz de referencia actualizada, corresponde a la huella de voz de referencia a actualizar, v (s -1 corresponde a la huella de voz del habla, y A(a(x), ^ , y) corresponde a un factor de recuerdo que equilibra una importancia relativa de y v (s -1 en la actualización. Estas funciones de "actualización" pueden ser realizadas, por ejemplo, por el módulo de actualización 108.
El factor de recuerdo A(a(x), ^ , y) es una función lineal monótona decreciente truncada que se determina en base a la siguiente fórmula:
Figure imgf000007_0001
en la que y es un factor heurístico predefinido que indica una importancia mínima de e(i \ en la actualización. El umbral de calibración predefinido ^ puede ser, en algunas implementaciones, menor que el factor heurístico predefinido y.
En algunos ejemplos, se puede atribuir una importancia máxima a la huella de voz del habla ,(s') que representa la señal del habla de entrada en la actualización de la huella de voz de referencia. Esto se puede implementar forzando o haciendo que la calibración de la puntuación a(x) no sea menor que el factor heurístico predefinido y y que el factor de recuerdo A(a(x), ^ , y) sea igual a y. En este caso, la actualización de la huella de voz de referencia se puede realizar, por lo tanto, en base a la siguiente fórmula:
,00
= i7ís ) y ( eís-
Figure imgf000007_0002
En ejemplos alternativos, se puede atribuir una importancia a la huella de voz del habla v (s) que aumenta linealmente a medida que la calibración de la puntuación a(x) se acerca al factor heurístico predefinido y. Esto se puede implementar forzando o haciendo que la calibración de la puntuación a(x) se encuentre entre el umbral de calibración predefinido ^ y el factor heurístico predefinido y, y que el factor de recuerdo A(a(x), y) sea igual a
(y-l)g(x)+y(l-y)
y-W
En este caso, la actualización de la huella de voz de referencia se puede realizar, por lo tanto, en base a la siguiente fórmula:
Figure imgf000007_0003
En el bloque 309, el procedimiento de autenticación puede terminar, por ejemplo, proporcionando resultados de la autenticación y/o la actualización, emitiendo advertencias debidas a una autenticación anómala, liberando memoria volátil, cambiando la funcionalidad de autenticación a un estado de espera, etc. Dicha provisión de resultados, advertencias, mensajes, etc., puede ser realizada, por ejemplo, por el módulo de resultados 109.
La Figura 4 es un diagrama de flujo que ilustra de forma esquemática procedimientos de autenticación de un usuario o locutor según otros ejemplos. Estos procedimientos pueden ser similares a los descritos con referencia a la Figura 3. En particular, los procedimientos según la Figura 4 pueden comprender los bloques de obtención 301, 302, el bloque de extracción 303, el bloque de recuperación 304, el bloque de correspondencia 305, el bloque de autenticación 306, el bloque de decisión de autenticidad 307, el bloque de actualización 308, el bloque de finalización 309, etc., que pueden ser similares o coincidentes con los de la Figura 3. Se reutilizan las mismas referencias numéricas de la Figura 3 para hacer referencia a dichos módulos similares o coincidentes en la Figura 4.
Algunas diferencias pueden residir en el bloque de validación 400, el bloque de decisión de validez 401 y el bloque de advertencia 402 que no están incluidos en los procedimientos según la Figura 3. Los procedimientos de autenticación según la Figura 4 pueden ser realizados por sistemas de autenticación según, por ejemplo, la Figura 2. Se pueden reutilizar referencias numéricas de la Figura 2 en la siguiente descripción de la Figura 4 para una mejor comprensión.
En el bloque 400, se puede determinar la validez de la señal de habla de entrada en base a, por ejemplo, criterios de validez de señal predefinidos. Los criterios predefinidos de validez de la señal pueden incluir criterios predefinidos de calidad de la señal y/o criterios predefinidos de detección de suplantación de identidad. Esta función de "validez" puede ser realizada, por ejemplo, por el módulo de validación 201 de la Figura 2.
En el bloque 401, se puede realizar una etapa de decisión en función de si la señal de habla de entrada se ha determinado válida o inválida en el bloque 400 anterior. Si se ha confirmado la validez de la señal del habla de entrada en el bloque 400, se puede realizar una transición al bloque final 309 para terminar la ejecución del procedimiento teniendo en cuenta que la señal del habla de entrada es aceptablemente fiable. De lo contrario, el procedimiento puede continuar al bloque 402 para producir una advertencia de un resultado de posible falsa autenticación a causa de una fiabilidad inaceptable. Si la validez de la señal del habla de entrada está por encima de un umbral de validez predefinido, se puede considerar que la señal del habla de entrada es aceptablemente fiable y, en caso contrario, se puede considerar que la señal del habla de entrada no es fiable (es decir, con una fiabilidad inaceptable). Esta función de "decisión" puede ser realizada, por ejemplo, por el módulo de validación 201.
En el bloque 402, se puede producir una advertencia que denote una posible falsa autenticación del usuario o locutor a causa de una falta de fiabilidad de la señal del habla de entrada en términos de, por ejemplo, una calidad de la señal insuficiente y/o un exceso de indicios de suplantación de identidad. Esta función de "advertencia" puede ser realizada también, por ejemplo, por el módulo de validación 201.
El bloque final 309 puede finalmente proporcionar resultados de la autenticación, validez y/o actualización a, por ejemplo, el usuario que está intentando su autenticación, a un operador competente del sistema, etc. Estos resultados pueden ser mostrados en, por ejemplo, una pantalla o cualquier otro dispositivo de salida adecuado para este fin. Si se ha determinado una autenticación con éxito del usuario (en el bloque 306) y no se ha producido una advertencia de resultado de posible falsa autenticación (en el bloque 402), se puede mostrar un mensaje de "autenticación completa". Si se ha determinado una autenticación con éxito del usuario y se ha producido una advertencia de resultado de posible falsa autenticación, se puede mostrar un mensaje de "autenticación revisable". Si se ha determinado una autenticación sin éxito del usuario y no se ha producido una advertencia de resultado de posible falsa autenticación, se puede mostrar un mensaje de "autenticación fallida completa". Si se ha determinado una autenticación sin éxito del usuario y se ha producido una advertencia de resultado de posible falsa autenticación, se puede mostrar un mensaje de "autenticación fallida revisable". El mensaje de "autenticación revisable" puede denotar que el usuario ha sido autenticado pero con una baja fiabilidad de la señal de voz, y el mensaje de "autenticación fallida revisable" puede denotar que el usuario ha sido determinado como no auténtico pero con baja fiabilidad de la señal de habla de entrada. En ambos casos, los mensajes de "revisable" pueden estar dirigidos a personal competente para monitorización y/o corrección del resultado o resultados de la autenticación.
Los criterios de validez de la señal que se han mencionado anteriormente pueden definir una serie de condiciones de calidad de la señal que debe satisfacer la señal de habla de entrada. En particular, la validez de la señal de habla de entrada puede depender de un índice de calidad de la señal de habla de entrada determinado en función de una característica o características de calidad de la señal detectadas o extraídas a partir de la señal de habla de entrada. Como principio general, si las características de calidad de la señal producen un índice de calidad de la señal que denota una calidad aceptable de la señal de habla de entrada, se puede determinar que es válida y, en caso contrario, que es una señal inválida. El índice de calidad de la señal se puede determinar como indicador de una calidad aceptable si, por ejemplo, el índice de calidad de la señal está por encima de un umbral predefinido de calidad de la señal y, en caso contrario, como indicador de una calidad inaceptable. Cuanto mayor sea el índice de calidad de la señal, mayor validez se puede determinar que tiene la señal de habla de entrada, mientras que cuanto menor sea el índice de calidad de la señal, menor validez se puede determinar que tiene la señal de habla de entrada. En otras palabras, la validez de la señal de habla de entrada se puede promocionar o degradar proporcionalmente al índice de calidad de la señal.
Los criterios de detección de suplantación de identidad que se han mencionado anteriormente pueden definir una serie de condiciones de detección de suplantación de identidad que debe satisfacer la señal de habla de entrada. En particular, la validez de la señal de habla de entrada puede depender de un índice de suplantación de identidad de la señal de habla de entrada determinado en función de una característica o características relacionadas con la suplantación de identidad detectadas o extraídas a partir de la señal de habla de entrada. Como enfoque general, si las características relacionadas con la suplantación de identidad producen un índice de suplantación de identidad que indica indicios aceptables de suplantación de identidad de la señal de habla de entrada, se puede determinar que la señal es válida y, en caso contrario, que la señal es inválida. El índice de suplantación de identidad se puede determinar como indicador de unos indicios de suplantación de identidad aceptables si, por ejemplo, el índice de suplantación de identidad está por debajo de un umbral predefinido de suplantación de identidad (es decir, los indicios de suplantación de identidad son insignificantes) y, en caso contrario, como indicador de unos indicios de suplantación de identidad inaceptables (es decir, los indicios de suplantación de identidad son excesivos para descartar una suplantación de identidad en la señal de habla). Cuanto mayor sea el índice de suplantación de identidad, menor validez se puede determinar que tiene la señal de habla de entrada, mientras que cuanto menor sea el índice de suplantación de identidad, mayor validez se puede determinar que tiene la señal de habla de entrada. En otras palabras, la validez de la señal de habla de entrada se puede promocionar o degradar de forma inversamente proporcional al índice de suplantación de identidad.
La determinación de la característica o características de calidad de la señal puede comprender, por ejemplo, la determinación de si la señal de habla de entrada incluye una sola voz de usuario o de locutor o varias voces de usuario o de locutor. Si la señal de habla de entrada incluye una sola voz de usuario o de I ocutor, mayor se puede determinar el índice de calidad de la señal para indicar una mejor calidad de la señal de habla de entrada en comparación con el caso de que incluya varias voces de usuario o de locutor. En caso contrario (es decir, si incluye varias voces de usuario), menor se puede determinar el índice de calidad de la señal para indicar una peor calidad de la señal de habla de entrada. La determinación de si la señal de habla de entrada incluye una sola voz de usuario o varias voces de usuario o locutor se puede basar en cualquier técnica conocida destinada a este fin tal como, por ejemplo, la identificación ciega de clústeres de locutores (véase por ejemplo, [Iyer06] para una información más detallada).
Adicionalmente o alternativamente, la determinación de la característica o características de calidad de la señal puede comprender la determinación de una primera característica o primeras características de canal de la señal de habla de entrada y una segunda característica o segundas características de canal asociadas a las credenciales de usuario, y la determinación de la correspondiente diferencia o diferencias de canal entre la primera o primeras características y segunda o segundas características de canal. A continuación, el índice de calidad de la señal puede ser refinado o ajustado en función de la diferencia o diferencias de canal determinadas. Por ejemplo, cuanto mayor sea la diferencia o diferencias de canal, menor se puede determinar el índice de calidad de la señal, mientras que cuanto menor sea la diferencia o diferencias de canal, mayor se puede determinar el índice de calidad de la señal. En otras palabras, el índice de calidad de la señal se puede promocionar o degradar de forma inversamente proporcional a la diferencia o diferencias de canal. La segunda característica o segundas características de canal asociadas a las credenciales del usuario pueden estar precalculadas y almacenadas en, por ejemplo, el repositorio que se ha mencionado anteriormente de huellas de voz de referencia o un soporte de almacenamiento similar. Por lo tanto, la determinación de dicha segunda característica o características de canal puede incluir simplemente su recuperación de dicho repositorio. La determinación de la primera característica o características de canal a partir de la señal de habla de entrada se puede realizar a partir de cualquier técnica conocida destinada a este fin. Por ejemplo, la determinación de la primera característica o primeras características de canal puede comprender un análisis de un componente de desplazamiento de la señal de habla de entrada en dominios log-Mel o cepstral (véase, por ejemplo, [Gaubitch13] para una información más detallada). La determinación de la diferencia o diferencias de canal puede comprender cualquier técnica destinada a este fin tal como, por ejemplo, la medición de una distancia euclidiana o una distancia de coseno entre la primera y segunda característica o características de canal.
Adicional o alternativamente, la determinación de la característica o características de calidad de la señal puede comprender la determinación de un nivel de ruido de fondo. El nivel de ruido de fondo se puede determinar aplicando cualquier técnica conocida con dicho propósito o similar tal como, por ejemplo, una técnica basada en una relación señal-ruido (SNR: signal-to-noise ratio). La aplicación de la técnica basada en una relación señal-ruido (SNR: signal-to-noise ratio) puede comprender, por ejemplo, la determinación de una relación señal-ruido basada en una estimación de máxima probabilidad en función de un ruido acústico estimado (véase, por ejemplo, [Ephraim85]) y/o cualquier otro enfoque con el mismo objetivo o similar. La estimación del ruido acústico se puede basar en, por ejemplo, estadísticas de mínimos (véase, por ejemplo, [Martin01]) y/o en una técnica multicanal basada en redes neuronales profundas (véase, por ejemplo, [López16]) y/o en cualquier otra técnica conocida cuyo objetivo sea el mismo o similar. La determinación del nivel de ruido de fondo puede comprender (además o alternativamente) la comparación de un primer segmento de audio en la señal de habla de entrada sin voz del usuario o locutor y un segundo segmento de audio en la señal de habla de entrada con voz del usuario o locutor. Cuanto mayor sea el nivel de ruido de fondo, menor se puede determinar el índice de calidad de la señal, mientras que cuanto menor sea el nivel de ruido de fondo, mayor se puede determinar el índice de calidad de la señal. En otras palabras, el índice de calidad de la señal se puede promocionar o degradar de forma inversamente proporcional al nivel de ruido de fondo.
Adicional o alternativamente, la determinación de la característica o características de calidad de la señal puede comprender la identificación de un idioma a partir de la voz del usuario o locutor en la señal de habla de entrada. La identificación del idioma en la señal de habla de entrada se puede basar en cualquier técnica conocida destinada a este fin o similar tal como, por ejemplo, mediante el uso de i-vectores y análisis discriminante lineal probabilístico (PLDA: probabilistic linear discriminant analysis) (véase por ejemplo, [Rai16] para una información más detallada) o x-vectores (véase por ejemplo, [Snyder18]). El índice de calidad de la señal se puede determinar mayor si el idioma identificado es admisible, mientras que el índice de calidad de la señal se puede determinar menor si el idioma identificado no es admisible. El idioma identificado se puede considerar admisible si, por ejemplo, dicho idioma se corresponde con un idioma predefinido asociado a las credenciales de usuario y, en caso contrario, el idioma identificado se puede considerar no admisible. El idioma predefinido asociado a las credenciales de usuario puede estar pre­ identificado y almacenado, por ejemplo, en el repositorio que se ha mencionado anteriormente de huellas de voz de referencia o en un soporte de almacenamiento similar. De este modo, la determinación del idioma predefinido puede incluir simplemente su recuperación de dicho repositorio.
Adicional o alternativamente, la determinación de la característica o características de calidad de la señal puede comprender la identificación de una expresión a partir de una voz de usuario o locutor en la señal de habla de entrada a través de, por ejemplo, una técnica de reconocimiento automático del habla, y la determinación de una correspondencia de expresiones entre la expresión identificada y una expresión predefinida de referencia. La técnica de reconocimiento automático del habla se puede basar, por ejemplo, en una o más redes neuronales profundas (DNN: deep neural networks) y, en algunos ejemplos, se puede basar adicionalmente en modelos de Markov ocultos (HMM: hidden Markov models) (véase, por ejemplo, [Hinton12] para una información más detallada). En ejemplos particulares, el correspondiente dispositivo de usuario puede ser operado para que solicite al usuario a autenticar la pronunciación de la expresión predefinida, para que el dispositivo de usuario capture dicha expresión como (o incluida en) la señal de habla de entrada. La expresión predefinida puede ser, por ejemplo, una expresión de referencia asociada a las credenciales del usuario, que puede estar almacenada en, por ejemplo, el repositorio que se ha mencionado anteriormente de huellas de voz de referencia o un soporte de almacenamiento similar. La correspondencia entre las expresiones puede ser dependiente de texto o independiente de texto. La correspondencia dependiente de texto puede comprender, por ejemplo, una correspondencia entre las palabras incluidas en la expresión identificada y las palabras incluidas en la expresión predefinida. La correspondencia independiente de texto puede comprender, por ejemplo, una correspondencia fonética entre el contenido fonético de la expresión identificada y el contenido fonético de la expresión predefinida. Cuanto mayor sea la correspondencia entre las expresiones, mayor se puede determinar el índice de calidad de la señal, mientras que cuanto menor sea la correspondencia entre las expresiones, menor se puede determinar el índice de calidad de la señal. En otras palabras, el índice de calidad de la señal se puede promocionar o degradar proporcionalmente a la correspondencia entre las expresiones.
Adicionalmente o alternativamente, la determinación de la característica o características de calidad de la señal puede comprender la determinación o el cálculo de la duración de una voz del usuario o locutor en la señal de habla de entrada y la determinación de una correspondencia de duraciones entre la duración determinada y una duración de referencia predefinida. Esta duración de referencia puede, por ejemplo, estar asociada a las credenciales del usuario y, en algunos ejemplos, puede estar almacenada en el repositorio que se ha mencionado anteriormente de huellas de voz de referencia o en un soporte de almacenamiento similar. La determinación de la duración de la voz del usuario o locutor en la señal de habla de entrada puede incluir la aplicación de cualquier técnica o enfoque conocido con dicha finalidad o similar tal como, por ejemplo, una técnica de detección de actividad de la voz o de duración del habla basada en redes neuronales profundas (DNN) (véase por ejemplo, [Zhang13] para una información más detallada). Cuanto mayor sea la correspondencia entre las duraciones, mayor se puede determinar el índice de calidad de la señal, mientras que cuanto menor sea la correspondencia entre las duraciones, menor se puede determinar el índice de calidad de la señal. En otras palabras, el índice de calidad de la señal se puede promocionar o degradar proporcionalmente a la correspondencia de duraciones.
Adicionalmente o alternativamente, la determinación de la característica o características de calidad de la señal puede comprender la determinación de un nivel de intoxicación por alcohol a partir de una voz del usuario o locutor incluida en la señal de habla de entrada. El nivel de intoxicación por alcohol se puede determinar en base a cualquier técnica conocida con dicho propósito o similar tal como, por ejemplo, utilizando características prosódicas del habla (véase por ejemplo, [Levit01] para una información más detallada). Cuanto mayor sea el nivel de intoxicación por alcohol, menor se puede determinar el índice de calidad de la señal, mientras que cuanto menor sea el nivel de intoxicación por alcohol, mayor se puede determinar el índice de calidad de la señal. En otras palabras, el índice de calidad de la señal se puede promocionar o degradar de forma inversamente proporcional al nivel de intoxicación por alcohol.
La determinación de la característica o características relacionadas con la suplantación de identidad puede comprender, por ejemplo, la verificación de si la señal de habla de entrada incluye un código pseudoaleatorio ultrasónico que corresponde a un código de referencia predefinido. El código pseudoaleatorio ultrasónico puede corresponder a una señal ultrasónica no audible por un usuario en el rango de entre 20 kHz y 22 kHz (algo ya manejable por los dispositivos electrónicos portátiles actuales, véase, por ejemplo, [Filonenko10] para una información más detallada), o a una señal ultrasónica no audible por un usuario con una frecuencia superior a 22 kHz, en el caso de que el dispositivo de usuario lo permita. El código pseudoaleatorio ultrasónico actúa como una firma no audible que se puede utilizar para legitimar el audio de entrada. La presencia o ausencia de esta firma se puede utilizar para determinar el índice de suplantación de identidad. El código pseudoaleatorio ultrasónico y/o su existencia en la señal de habla de entrada se puede detectar aplicando cualquier técnica conocida destinada a ese fin o a uno similartal como, por ejemplo, una técnica de análisis espectral. El procedimiento de autenticación puede comprender la generación del código pseudoaleatorio ultrasónico. El código predefinido de referencia puede ser un código pseudoaleatorio ultrasónico asociado a las credenciales de usuario, por lo que puede estar almacenado en el repositorio que se ha mencionado anteriormente de huellas de voz de referencia o un soporte de almacenamiento similar. El correspondiente dispositivo de usuario puede ser operado para que reproduzca el código pseudoaleatorio ultrasónico (generado o recuperado) durante la captura de la señal de habla de entrada por parte del dispositivo de usuario, de forma que se provoque la inclusión del código pseudoaleatorio ultrasónico en la señal de habla de entrada. El índice de suplantación de identidad se puede determinar menor si la señal de habla de entrada incluye el código pseudoaleatorio ultrasónico, y el índice de suplantación de identidad se puede determinar mayor si la señal de habla de entrada no incluye el código pseudoaleatorio ultrasónico.
Adicional o alternativamente, la determinación de la característica o características relacionadas con la suplantación de identidad puede comprender la determinación de (uno o más) indicios de ataque de repetición de un solo canal (es decir, la reproducción de una señal de voz del usuario grabada previamente utilizando, por ejemplo, un altavoz) utilizando cualquier técnica conocida que tenga ese propósito o uno similar tal como, por ejemplo, un clasificador de características acústicas basado en máquinas de vectores de soporte (SVM: support vector machines) (véase, por ejemplo, [Villalba11] para una información más detallada). Cuantos más indicios de ataque de repetición de un solo canal, mayor se puede determinar el índice de suplantación de identidad, mientras que cuantos menos indicios de ataque de repetición de un solo canal, menor se puede determinar el índice de suplantación de identidad. En otras palabras, el índice de suplantación de identidad se puede promocionar o degradar proporcionalmente a los indicios de ataque de repetición de un solo canal. Si no se determinan indicios de ataque de repetición de un solo canal, no se puede inducir ninguna variación (promoción o degradación) del índice de suplantación de identidad debida a dicha característica o características relacionadas con la suplantación de identidad. Adicional o alternativamente, la determinación de la característica o características relacionadas con la suplantación de identidad puede comprender la determinación de (uno o más) indicios de ataque de repetición multicanal utilizando cualquier técnica conocida que tenga ese propósito o uno similar. Por ejemplo, los indicios de ataque de repetición multicanal se pueden determinar calculando unas relaciones de incidencia de diferentes micrófonos (utilizados para capturar la señal de habla de entrada) en componentes de un solo canal de la señal de habla de entrada. Se espera que dichas relaciones de incidencia medidas para un locutor genuino difieran significativamente de las relaciones de incidencia medidas de un ataque de repetición multicanal, en el que la señal de voz del usuario grabado es reproducida utilizando, por ejemplo, un altavoz. Por lo tanto, se puede utilizar un clasificador entrenado para identificar indicios de ataque de repetición multicanal en función de dichas relaciones de incidencia. El cálculo de dichas relaciones de incidencia puede comprender, por ejemplo, el cálculo de respuestas de canal relativas entre micrófonos en base a un procedimiento de identificación de canal ciego de un solo micrófono para el habla basado en el uso de una clasificación espectral (véase, por ejemplo, [Gaubitch11] para una información más detallada). Por ejemplo, se puede formar una matriz N * N con las respuestas de canal relativas entre micrófonos { h j ; i, j = 1,..., N}, en el que N es el número total de micrófonos disponibles y hij es la respuesta de canal relativa entre el micrófono i-ésimo y el j-ésimo. Una vez generada, se puede proporcionar la totalidad o parte de la matriz H al clasificador entrenado para identificar indicios de ataque de repetición multicanal en función de dicha matriz. El clasificador entrenado para identificar indicios de ataque de repetición multicanal se puede basar, por ejemplo, en máquinas de vectores de soporte (SVM). Cuantos más indicios de ataque de repetición multicanal se hayan identificado, mayor se puede determinar el índice de suplantación de identidad, y cuantos menos indicios de ataque de repetición multicanal se hayan identificado, menor se puede determinar el índice de suplantación de identidad. En otras palabras, el índice de suplantación de identidad se puede promocionar o degradar proporcionalmente a los indicios de ataque de repetición multicanal. Si no se han determinado indicios de ataque de repetición multicanal, no se puede inducir ninguna variación (promoción o degradación) del índice de suplantación de identidad debida a dicha característica o características relacionadas con la suplantación de identidad.
Adicionalmente o alternativamente, la determinación de la característica o características relacionadas con la suplantación de identidad puede comprender la determinación de indicios de ataque de repetición inferidos magnéticamente verificando si una medición de campo magnético procedente del dispositivo de usuario utilizado para capturar la señal de habla de entrada está por encima o por debajo de un umbral de campo magnético predefinido. El procedimiento de autenticación puede comprender operar el dispositivo de usuario para que obtenga la medición del campo magnético a través de un magnetómetro o magnetómetros correspondientes durante la captura de la señal de habla de entrada. Se espera que el dispositivo o dispositivos utilizados para reproducir la señal de voz del usuario grabada en caso de ataque de repetición generen un campo magnético que puede ser detectado por el magnetómetro o magnetómetros incluidos en el dispositivo de usuario cuando ambos dispositivos se encuentran lo suficientemente cerca. De este modo, la presencia de un campo magnético más fuerte que el campo magnético medido cuando el usuario genuino graba su voz se puede utilizar para identificar el ataque de repetición. La medición del campo magnético del dispositivo de usuario puede ser promediada para obtener una medición promedio del campo magnético a lo largo del tiempo durante la captura de la señal de habla de entrada, y dicha medición promedio del campo magnético puede ser comparada con el umbral de campo magnético predefinido para determinar los indicios de ataque de repetición inferidos magnéticamente. Cuanto más indicios de ataque de repetición inferidos magnéticamente se hayan determinado, mayor se puede determinar el índice de suplantación de identidad. Cuanto menos indicios de ataque de repetición inferidos magnéticamente se hayan determinado, menor se puede determinar el índice de suplantación de identidad. En otras palabras, el índice de suplantación de identidad se puede promocionar o degradar proporcionalmente a los indicios de ataque de repetición inferidos magnéticamente. Si no se determinan indicios de ataque de repetición inferidos magnéticamente, no se puede inducir ninguna variación (promoción o degradación) del índice de suplantación de identidad debida a dicha característica o características relacionadas con la suplantación de identidad. En los diferentes ejemplos que se describen en el presente documento, se utilizan diferentes umbrales (o valores de referencia) predefinidos para identificar situaciones especiales en función de, por ejemplo, una magnitud (medición, índice, etc.) variable que es comparada con el correspondiente umbral. Ejemplos de dichos umbrales predefinidos son el umbral de correspondencia predefinido, el umbral de calibración predefinido, el umbral de validez predefinido, el umbral de calidad de la señal predefinido, el umbral de suplantación de identidad predefinido, el umbral de campo magnético predefinido, etc. Cualquiera de dichos umbrales predefinidos haber sido preestablecido realizando experimentos para determinar, por ejemplo, a partir de qué valor la magnitud de la variable puede indicar la situación especial objetivo. Estos experimentos se pueden haber basado, por ejemplo, en cálculos de datos de prueba (o de muestra) y en la correspondiente validación por parte de un usuario competente para refinar o ajustar (continua y/o regularmente) el umbral. Este refinamiento se puede realizar tantas veces como sea necesario a lo largo de la vida del correspondiente procedimiento (y del software/sistema) y, posiblemente, en función de los resultados proporcionados por el propio procedimiento. Algunos de estos umbrales pueden corresponder al mismo concepto o similar, pero pueden tener una denominación diferente para diferenciarlos según la correspondiente funcionalidad o el correspondiente contexto de aplicación.

Claims (11)

REIVINDICACIONES
1. Un procedimiento de autenticación de un usuario o locutor, que comprende:
obtener una señal de habla de entrada y unas credenciales de usuario que identifican al usuario o locutor, incluyendo la señal de habla de entrada una señal de voz de un solo canal o de múltiples canales; extraer una huella de voz del habla a partir de la señal del habla de entrada;
recuperar una huella de voz de referencia asociada a las credenciales del usuario;
determinar una correspondencia de huellas de voz entre la huella de voz del habla y la huella de voz de referencia;
autenticar al usuario o locutor en función de la correspondencia entre las huellas de voz;
realizar una calibración de puntuación a(x) de la autenticación del usuario o locutor, en la que x representa una puntuación de la autenticación del usuario o locutor, en la que cuanto más cerca de 1 se encuentra a(x), más éxito se determina que tiene la autenticación del usuario o locutor, y cuanto más cerca de 0 se encuentra a(x), menos éxito se determina que tiene la autenticación del usuario o locutor; y actualizar la huella de voz de referencia en función de la huella de voz del habla que corresponde al usuario o locutor autenticado y de si una calibración de puntuación a(x) de la autenticación del usuario o locutor está por encima o por debajo de un umbral de calibración predefinido ^ , en base a la siguiente fórmula:
e[s) = A((t(x), V, y)e[!_\ (1 - A((t(x), ¥ ,y ) ) i; [s ^
en la que e(s) corresponde a la huella de voz de referencia actualizada, corresponde a la huella de s f voz de referencia a actualizar, (¡ ) J corresponde a la huella de voz del habla, y A(a(x), ^ , y) corresponde a un factor de recuerdo determinado en base a la siguiente fórmula:
)^(x)+y(l-^) A , ( , x„ . /(Y-la( , ,x),lfí,y)=max
y -¥ ■-Y
en la que y es un factor heurístico predefinido que indica una importancia mínima de durante la actualización.
2. Un procedimiento según la reivindicación 1, en el que la calibración de la puntuación a(x) es una calibración sigmoidea.
3. Un procedimiento según una cualquiera de las reivindicaciones 1 o 2, en el que la puntuación x se determina mediante un clasificador entrenado para determinar la puntuación x de la huella de voz del habla vt(s ^ que representa la señal de habla de entrada del usuario o locutor s' en el momento t frente a la huella de voz de referencia del usuario o locutor s en el tiempo pasado t - 1; en el que s' = s en caso de prueba legítima, y s' # s en caso contrario.
4. Un procedimiento según la reivindicación 3, en el que la puntuación de calibración a(x) no mayor que el umbral de calibración predefinido ^ denota que el resultado de la actualización et(s) debe ser igual a la huella de voz de referencia e(i \ a actualizar.
5. Un procedimiento según la reivindicación 1, en el que el umbral de calibración predefinido ^ es menor que el factor heurístico predefinido.
6. Un procedimiento según una cualquiera de las reivindicaciones 1 o 5, en el que cuando la calibración de la puntuación a(x) no es inferior al factor heurístico predefinido y, el factor de recuerdo A(a(x), V, y) es igual a y y, por lo tanto, se atribuye la máxima importancia a la huella de voz del habla v( (s f) J que representa la señal de habla de entrada en la actualización:
c f = v [ s ) y { e ‘! l - v tü} )
7. Un procedimiento según una cualquiera de las reivindicaciones 4 a 6, en el que cuando la calibración de la puntuación a(x) se encuentra entre el umbral de calibración predefinido ^ y el factor heurístico predefinido, el factor de recuerdo A(a(x), y) es igual a
(y - l) g ( x )+ y ( l- y )
Y -^
y, por lo tanto, se atribuye una importancia a la huella de voz del habla v( (s f) J que aumenta linealmente a medida que la calibración de la puntuación a(x) se acerca al factor heurístico predefinido:
Figure imgf000013_0001
8. Un programa informático que comprende instrucciones de programa para hacer que un sistema informático realice un procedimiento según una cualquiera de las reivindicaciones 1 a 7 de autenticación de un usuario o locutor.
9. Un medio de almacenamiento que incorpora un programa informático según la reivindicación 8.
10. Una señal portadora que transporta un programa informático según la reivindicación 8.
11. Un sistema para autenticar un usuario o locutor, que comprende:
un módulo de obtención configurado para obtener una señal de habla de entrada y unas credenciales de usuario que identifican al usuario o locutor, incluyendo la señal de habla de entrada una señal de voz de un solo canal o de múltiples canales;
un módulo de extracción configurado para extraer una huella de voz del habla a partir de la señal del habla de entrada;
un módulo de recuperación configurado para recuperar una huella de voz de referencia asociada a las credenciales del usuario;
un módulo de correspondencia configurado para determinar una correspondencia de huellas de voz entre la huella de voz del habla y la huella de voz de referencia;
un módulo de autenticación configurado para autenticar al usuario o locutor en función de la correspondencia entre las huellas de voz;
un módulo de puntuación configurado para realizar una calibración de puntuación a(x) de la autenticación del usuario o locutor, en la que x representa una puntuación de la autenticación del usuario o locutor, en la que cuanto más cerca de 1 se encuentra a(x), más éxito se determina que tiene la autenticación del usuario o locutor, y cuanto más cerca de 0 se encuentra a(x), menos éxito se determina que tiene la autenticación del usuario o locutor; y
un módulo de actualización configurado para actualizar la huella de voz de referencia en función de la huella de voz del habla que corresponde al usuario o locutor autenticado y de si una calibración de puntuación a(x) de la autenticación del usuario o locutor está por encima o por debajo de un umbral de calibración predefinido en base a la siguiente fórmula:
e[s) = X(o(x), y)*?^ (1 - X(a(x), lfí,y))v|s ^
en la que e(s) corresponde a la huella de voz de referencia actualizada, corresponde a la huella de voz de referencia a actualizar, v (s) corresponde a la huella de voz del habla, y A(a(x), ^ , y) corresponde a un factor de recuerdo determinado en base a la siguiente fórmula:
Figure imgf000014_0001
en la que y es un factor heurístico predefinido que indica una importancia mínima de durante la actualización.
ES18755848T 2018-07-06 2018-08-24 Autenticación de un usuario Active ES2912165T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP18382505 2018-07-06
PCT/EP2018/072918 WO2020007495A1 (en) 2018-07-06 2018-08-24 Authenticating a user

Publications (1)

Publication Number Publication Date
ES2912165T3 true ES2912165T3 (es) 2022-05-24

Family

ID=62874832

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18755848T Active ES2912165T3 (es) 2018-07-06 2018-08-24 Autenticación de un usuario

Country Status (4)

Country Link
US (1) US11869513B2 (es)
EP (1) EP3740949B1 (es)
ES (1) ES2912165T3 (es)
WO (1) WO2020007495A1 (es)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102531654B1 (ko) * 2018-05-04 2023-05-11 삼성전자주식회사 음성 입력 인증 디바이스 및 그 방법
ES2912165T3 (es) * 2018-07-06 2022-05-24 Veridas Digital Authentication Solutions S L Autenticación de un usuario
US11948582B2 (en) * 2019-03-25 2024-04-02 Omilia Natural Language Solutions Ltd. Systems and methods for speaker verification
CN111653283B (zh) * 2020-06-28 2024-03-01 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
KR20220006656A (ko) * 2020-09-10 2022-01-17 클라우드마인즈 로보틱스 컴퍼니 리미티드 음성 재생 공격 검출 방법, 장치, 매체, 기기 및 프로그램 제품
CN112201254B (zh) * 2020-09-28 2024-07-19 中国建设银行股份有限公司 无感语音认证方法、装置、设备及存储介质
US20220328050A1 (en) * 2021-04-12 2022-10-13 Paypal, Inc. Adversarially robust voice biometrics, secure recognition, and identification
CN113366567B (zh) * 2021-05-08 2024-06-04 腾讯音乐娱乐科技(深圳)有限公司 一种声纹识别方法、歌手认证方法、电子设备及存储介质
CN113570754B (zh) * 2021-07-01 2022-04-29 汉王科技股份有限公司 声纹锁控制方法、装置、电子设备
WO2023149998A1 (en) * 2022-02-03 2023-08-10 Sri International Detecting synthetic speech using a model adapted with individual speaker audio data
CN115954007B (zh) * 2023-03-14 2023-05-23 北京远鉴信息技术有限公司 一种声纹检测方法、装置、电子设备及存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6804647B1 (en) * 2001-03-13 2004-10-12 Nuance Communications Method and system for on-line unsupervised adaptation in speaker verification
US7509257B2 (en) * 2002-12-24 2009-03-24 Marvell International Ltd. Method and apparatus for adapting reference templates
JP4743053B2 (ja) * 2006-09-06 2011-08-10 ヤマハ株式会社 生体認証装置、生体認証方法およびプログラム
US8437513B1 (en) * 2012-08-10 2013-05-07 EyeVerify LLC Spoof detection for biometric authentication
US9491167B2 (en) * 2012-09-11 2016-11-08 Auraya Pty Ltd Voice authentication system and method
US9343068B2 (en) * 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
US20150242605A1 (en) * 2014-02-23 2015-08-27 Qualcomm Incorporated Continuous authentication with a mobile device
US10540979B2 (en) * 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
US9928840B2 (en) * 2015-10-16 2018-03-27 Google Llc Hotword recognition
US9747926B2 (en) * 2015-10-16 2017-08-29 Google Inc. Hotword recognition
US9940934B2 (en) * 2015-11-18 2018-04-10 Uniphone Software Systems Adaptive voice authentication system and method
US9858403B2 (en) * 2016-02-02 2018-01-02 Qualcomm Incorporated Liveness determination based on sensor signals
US10262187B1 (en) * 2016-11-10 2019-04-16 Synaptics Incorporated Systems and methods for spoof detection based on local binary patterns
US10430638B2 (en) * 2016-11-10 2019-10-01 Synaptics Incorporated Systems and methods for spoof detection relative to a template instead of on an absolute scale
US10176362B1 (en) * 2016-11-10 2019-01-08 Synaptics Incorporated Systems and methods for a gradient-based metric for spoof detection
US10068124B2 (en) * 2016-11-10 2018-09-04 Synaptics Incorporated Systems and methods for spoof detection based on gradient distribution
GB201713697D0 (en) * 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
CN108039177A (zh) * 2017-12-20 2018-05-15 广州势必可赢网络科技有限公司 一种网络实名购票的用户身份验证方法及装置
US10529356B2 (en) * 2018-05-15 2020-01-07 Cirrus Logic, Inc. Detecting unwanted audio signal components by comparing signals processed with differing linearity
ES2912165T3 (es) * 2018-07-06 2022-05-24 Veridas Digital Authentication Solutions S L Autenticación de un usuario
US11328165B2 (en) * 2020-04-24 2022-05-10 Invensense, Inc. Pressure-based activation of fingerprint spoof detection
US20210377176A1 (en) * 2020-06-02 2021-12-02 Apple Inc. Traffic class-based esp sequence
KR20220082454A (ko) * 2020-12-10 2022-06-17 삼성전자주식회사 생체 정보의 도용 여부를 검출하는 방법 및 장치
US11645865B2 (en) * 2021-03-04 2023-05-09 Qualcomm Incorporated Randomized multi-fingerprint authentication
US20220318354A1 (en) * 2021-03-31 2022-10-06 Samsung Electronics Co., Ltd. Anti-spoofing method and apparatus
EP4068226A1 (en) * 2021-03-31 2022-10-05 Samsung Electronics Co., Ltd. Method and apparatus with biometric information spoof detection
US20230030937A1 (en) * 2021-07-29 2023-02-02 Samsung Electronics Co., Ltd. Method and apparatus with image preprocessing
US20230094656A1 (en) * 2021-09-29 2023-03-30 Amitav Mukherjee Cross-layer automated network vulnerability identification and localization

Also Published As

Publication number Publication date
WO2020007495A1 (en) 2020-01-09
EP3740949A1 (en) 2020-11-25
US11869513B2 (en) 2024-01-09
EP3740949B1 (en) 2022-01-26
US20210125619A1 (en) 2021-04-29

Similar Documents

Publication Publication Date Title
ES2912165T3 (es) Autenticación de un usuario
US10950245B2 (en) Generating prompts for user vocalisation for biometric speaker recognition
US20070038460A1 (en) Method and system to improve speaker verification accuracy by detecting repeat imposters
US20140075570A1 (en) Method, electronic device, and machine readable storage medium for protecting information security
US10672403B2 (en) Age compensation in biometric systems using time-interval, gender and age
US10726849B2 (en) Speaker recognition with assessment of audio frame contribution
JP4573792B2 (ja) ユーザ認証システム、不正ユーザ判別方法、およびコンピュータプログラム
WO2017113658A1 (zh) 基于人工智能的声纹认证方法以及装置
Shiota et al. Voice Liveness Detection for Speaker Verification based on a Tandem
GB2541466A (en) Replay attack detection
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
CN102737634A (zh) 一种基于语音的认证方法及装置
CN103475490A (zh) 一种身份验证方法及装置
WO2010047816A1 (en) Speaker verification methods and apparatus
WO2010047817A1 (en) Speaker verification methods and systems
Korshunov et al. Impact of score fusion on voice biometrics and presentation attack detection in cross-database evaluations
JP6220304B2 (ja) 音声識別装置
TW200828267A (en) Voice authentication apparatus
CN110111798B (zh) 一种识别说话人的方法、终端及计算机可读存储介质
US20210382972A1 (en) Biometric Authentication Using Voice Accelerometer
Chakrabarty et al. Development and evaluation of online text-independent speaker verification system for remote person authentication
JP6280068B2 (ja) パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム
KR20110079161A (ko) 이동 단말기에서 화자 인증 방법 및 장치
JP6430318B2 (ja) 不正音声入力判定装置、方法及びプログラム
Mankad et al. Towards development of smart and reliable voice based personal assistants