ES2800348T3 - Método y sistema para verificación de orador - Google Patents

Método y sistema para verificación de orador Download PDF

Info

Publication number
ES2800348T3
ES2800348T3 ES17829582T ES17829582T ES2800348T3 ES 2800348 T3 ES2800348 T3 ES 2800348T3 ES 17829582 T ES17829582 T ES 17829582T ES 17829582 T ES17829582 T ES 17829582T ES 2800348 T3 ES2800348 T3 ES 2800348T3
Authority
ES
Spain
Prior art keywords
speaker
audio recording
voice
extracted
driver
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17829582T
Other languages
English (en)
Inventor
Jie Chen
Dan Su
Tianxiao Fu
Na Hu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Application granted granted Critical
Publication of ES2800348T3 publication Critical patent/ES2800348T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Traffic Control Systems (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Un método de verificación de orador, que comprende: adquirir una grabación de audio; extraer señales de voz de la grabación de audio; extraer características de las señales de voz extraídas; y determinar si las señales de voz extraídas representan la voz de un orador predeterminado basándose en las características extraídas y un modelo de orador entrenado con datos de voz de referencia del orador predeterminado en el que extraer las señales de voz comprende: determinar los niveles de energía de la grabación de audio que comprende determinar un espectro de imagen de resonancia de tiempo-frecuencia (RTFI) de la grabación de audio; y extraer las señales de voz basadas en los niveles de energía.

Description

DESCRIPCIÓN
Método y sistema para verificación de orador
Campo técnico
La presente divulgación se refiere en general a tecnología de verificación de orador, y más particularmente, a métodos, sistemas y aparatos para la verificación de orador fiable y eficiente.
Antecedentes
La tecnología de verificación de orador implica la verificación de un orador en función de las características de su voz o huellas de voz. Dichas características pueden estar relacionadas con las características anatómicas del orador, como el tamaño y la forma de la laringe, la boca y la nariz, y patrones de comportamiento, tal como el tono de voz y el lenguaje. Las tecnologías de verificación de orador generalmente se dividen en dos categorías: verificación del orador dependiente del texto y verificación independiente del texto. Se han desarrollado y aplicado varias técnicas de verificación de orador para verificar la identificación de un orador, particularmente como mecanismo de seguridad.
Muchos servicios y productos ahora se ofrecen y procesan a través de la comunicación remota entre un terminal de usuario y un servidor de proveedor de servicios. Por ejemplo, cada vez es más popular para los pasajeros reserven un servicio de taxi a través de una aplicación en sus terminales móviles. A continuación, la información puede transmitirse a través de Internet a un sistema de gestión de servicio de taxis, que puede procesar la información del viaje, localizar un conductor disponible registrado en el sistema y organizar una recogida en consecuencia. Sin embargo, hay situaciones en las que usuarios no autorizados utilizan incorrectamente cuentas de conductores registrados, lo que causa problemas de seguridad y problemas en la gestión de registros de conductores. Por ejemplo, un conductor registrado puede compartir su cuenta con otros conductores sin autorización, o una cuenta de conductor o el terminal móvil del conductor pueden ser pirateados o robados. Tales usos no autorizados de una cuenta de conductor no solo causan pérdida de ingresos del proveedor, sino que también plantean preocupaciones de seguridad sobre la incapacidad de rastrear la identidad real de los conductores. Por lo tanto, se necesitan sistemas fiables para verificar la identificación del conductor para mejorar la seguridad de los servicios de taxi y una gestión eficiente del registro del conductor.
En vista de los problemas anteriores, esta divulgación proporciona métodos, dispositivos y sistemas de verificación de orador para mejorar la seguridad de aplicaciones tales como el servicio de llamadas de taxis y la gestión eficiente de las cuentas de usuario registradas.
El documento EP 0424071 divulga un sistema de reconocimiento de oradores para la verificación de orador para verificar una identidad reivindicada previa. El documento US 2017/084295 divulga una tecnología basada en aprendizaje automático que analiza una entrada de audio y proporciona predicciones de estado de oradores en respuesta a la entrada de audio.
Sumario
Un aspecto de la presente divulgación está dirigido a un método de verificación de orador. El método puede incluir: adquirir una grabación de audio; extraer señales de voz de la grabación de audio; extraer características de las señales de voz extraídas; y determinar si las señales de voz extraídas representan la voz de un orador predeterminado basándose en las características extraídas y un modelo de orador entrenado con datos de voz de referencia del orador predeterminado.
Otro aspecto de la presente divulgación está dirigido a un sistema de verificación de orador. El sistema puede incluir una memoria que incluye instrucciones y un procesador configurado para ejecutar las instrucciones para: recibir una grabación de audio; extraer señales de voz de la grabación de audio; extraer características de las señales de voz extraídas; y determinar si las señales de voz extraídas representan la voz de un orador predeterminado basándose en las características extraídas y un modelo de orador entrenado con datos de voz de referencia del orador predeterminado.
Otro aspecto de la presente divulgación está dirigido a un medio de almacenamiento no transitorio legible por ordenador que almacena instrucciones que, cuando son ejecutadas por uno o más procesadores, hacen que los procesadores realicen un método de verificación de orador. El método incluye: adquirir una grabación de audio; extraer señales de voz de la grabación de audio; extraer características de las señales de voz extraídas; y determinar si las señales de voz extraídas representan la voz de un orador predeterminado basándose en las características extraídas y un modelo de orador entrenado con datos de voz de referencia del orador predeterminado.
Otro aspecto de la presente divulgación está dirigido a un método de verificación de orador. El método puede incluir: adquirir una pluralidad de grabaciones de audio desde un terminal; extraer señales de voz de la pluralidad de grabaciones de audio; extraer características de las señales de voz extraídas; clasificar las características extraídas en una o más clases; y cuando las características extraídas se clasifican en más de una clase, determinar que la pluralidad de grabaciones de audio incluye voces de uno o más oradores diferentes de un orador predeterminado. Otro aspecto de la presente divulgación está dirigido a un sistema de verificación de orador. El sistema puede incluir una memoria que incluye instrucciones y un procesador configurado para ejecutar las instrucciones para: recibir una pluralidad de grabaciones de audio desde un terminal; extraer señales de voz de la pluralidad de grabaciones de audio; extraer características de las señales de voz extraídas; clasificar las características extraídas en una o más clases; y cuando las características extraídas se clasifican en más de una clase, determinar que la pluralidad de grabaciones de audio incluye voces de uno o más oradores diferentes de un orador predeterminado.
Otro aspecto adicional de la presente divulgación está dirigido a un medio de almacenamiento no transitorio legible por ordenador que almacena instrucciones que, cuando son ejecutadas por uno o más procesadores, hacen que los procesadores realicen un método de verificación de orador. El método incluye: adquirir una pluralidad de grabaciones de audio desde un terminal; extraer señales de voz de la pluralidad de grabaciones de audio; extraer características de las señales de voz extraídas; clasificar las características extraídas en una o más clases; y cuando las características extraídas se clasifican en más de una clase, determinar que la pluralidad de grabaciones de audio incluye voces de uno o más oradores diferentes de un orador predeterminado.
Breve descripción de los dibujos
La figura 1 es un diagrama de bloques de un sistema de verificación de orador 100 utilizado en el área de gestión de servicio de taxis de acuerdo con una realización ejemplar.
La figura 2 es un diagrama de bloques de un verificador de orador 200, de acuerdo con una realización ejemplar aplicada en el área de gestión del servicio de taxis.
La figura 3 es un diagrama de flujo que ilustra un método de preprocesamiento de señal de audio 300, de acuerdo con una realización ejemplar.
La figura 4 es un diagrama de flujo que ilustra un método de preprocesamiento de señal de audio 400, de acuerdo con otra realización ejemplar.
La figura 5 es un diagrama de flujo que ilustra un proceso de verificación de orador 500, de acuerdo con una realización ejemplar.
La figura 6 es un diagrama de flujo que ilustra un proceso de inscripción o registro de orador 600, de acuerdo con una realización ejemplar.
La figura 7 es un diagrama de flujo que ilustra un método de verificación de orador 700 en el que no se ha almacenado ningún modelo de orador asociado con una cuenta de conductor registrada, de acuerdo con una realización ejemplar.
Descripción detallada
Esta divulgación generalmente se refiere a la verificación de un orador en función de las características de voz extraídas de los datos de voz del orador. Los datos de voz se pueden obtener a partir de la entrada de grabación de audio, incluidas las señales de voz del orador, tal como la grabación de voz de un orador que lee ciertos textos, o una grabación de una conversación entre el orador y otra persona. Se puede obtener en tiempo real, o mediante la entrada de grabaciones almacenadas previamente. Además, se pueden usar diferentes terminales de usuario para recibir una entrada de grabación de audio, por ejemplo, PDA, tabletas, ordenadores tales como ordenadores portátiles, teléfonos móviles, relojes inteligentes, etc.
En relación con el servicio de transporte, por ejemplo, un proveedor de servicios de transporte (por ejemplo, un proveedor de transporte en taxi, transporte privado en automóvil, transporte compartido, etc.) puede usar los datos de voz para verificar la identidad de un conductor o pasajero. Específicamente, los pasajeros que necesitan servicio de transporte, por ejemplo, servicio de taxi, pueden tener una aplicación de servicio de taxi instalada en sus terminales de usuario, tal como sus teléfonos móviles. Los conductores que brindan servicio de taxi también pueden tener las aplicaciones correspondientes instaladas en sus terminales, para recibir pedidos y/o recibir instrucciones del proveedor de servicios de transporte para procesar un pedido y recoger a un pasajero determinado. En un escenario típico, un pasajero puede ingresar información sobre un próximo viaje a través de una aplicación de teléfono móvil del lado del conductor y solicitar el servicio de taxi. El proveedor de servicios de transporte puede recibir dicha solicitud de servicio a través de una red, procesar el pedido en consecuencia y enviar un conductor disponible para organizar la recogida. Antes de la recogida del pasajero, un conductor puede contactar al pasajero de acuerdo con la información de contacto del pasajero, tal como un número de teléfono u otra información de cuenta asociada con el pasajero. La comunicación puede implicar una conversación directa entre el terminal del conductor y el terminal del pasajero. Para facilitar la gestión y garantizar la seguridad del servicio de taxis, la conversación puede grabarse y la grabación de audio puede proporcionarse a un sistema de verificación para su posterior procesamiento y verificación del orador, por ejemplo, para verificar la identidad del conductor de acuerdo con la información del conductor registrado.
La figura 1 es un diagrama de bloques de un sistema de verificación de orador 100 utilizado en la gestión del servicio de taxis de acuerdo con una realización ejemplar. Con referencia a la figura 1, el sistema 100 puede incluir un verificador de orador 110, una red 120, una pluralidad de terminales de pasajeros 130 y una pluralidad de terminales de conductor 140, un sistema de gestión de servicio de taxis 150 y un panel de control 160.
El verificador de orador 110 puede configurarse para verificar un orador de acuerdo con las características de voz de un orador. Como se muestra en la figura 1, el verificador de orador 110 puede incluir, entre otras cosas, una memoria 111, un procesador 113, un almacenamiento 115, una interfaz de entrada/salida (E/S) 117, y una interfaz de comunicación 119. Al menos algunos de estos componentes del verificador de orador 110 pueden configurarse para transferir datos y enviar o recibir instrucciones entre los mismos. En algunas realizaciones, el verificador de orador 110 puede instalarse como parte de una plataforma de gestión de servicios de taxis operada por el proveedor de servicios de transporte, o sus funciones también pueden incorporarse como parte de una aplicación de servicio de taxis (por ejemplo, una aplicación instalada en la terminal de pasajero 130), permitiendo que un usuario verifique la identidad del conductor que proporciona el servicio.
El procesador 113 puede incluir cualquier tipo apropiado de microprocesador de propósito general o especial, procesador de señal digital o microcontrolador. El procesador 113 puede configurarse como un módulo de procesador separado dedicado a verificar un orador y emitir el resultado de la verificación. Alternativamente, el procesador 113 puede configurarse como un módulo de procesador compartido para realizar otras funciones no relacionadas con la verificación del orador.
El procesador 113 puede configurarse para recibir datos y/o señales de otros componentes del sistema 110 para realizar la verificación del orador. Por ejemplo, el procesador 113 puede intercambiar información con el sistema de gestión de servicio de taxis 150 e instrucciones desde el panel de control 160 a través de, por ejemplo, la interfaz de E/S 117. Después de la verificación, el procesador 113 puede proporcionar el resultado de la verificación al sistema de gestión del servicio de taxis 150 y al panel de control 160, que puede proporcionar instrucciones adicionales tales como almacenar los resultados de la verificación, actualizar el registro de la cuenta del conductor/usuario o enviar el resultado de la verificación a un correspondiente terminal de pasajero 130 o un terminal de conductor 140 correspondiente.
El procesador 113 también puede acceder a la información transmitida a través de la interfaz de comunicación 119. Por ejemplo, el procesador 113 puede recibir una grabación de audio de una conversación que incluye señales de audio desde un terminal de pasajero 130 y un terminal de conductor 140, transmitidos a través de la red 120. Después de la verificación, el procesador 113 puede, al recibir instrucciones del panel de control 160, transmitir el resultado de la verificación al terminal de pasajero 130 correspondiente y al terminal de conductor 140 correspondiente a través de la red 120.
El procesador 113 puede ejecutar instrucciones informáticas (por ejemplo, códigos de programa) almacenadas en la memoria 111 y/o el almacenamiento 115, y puede realizar funciones de acuerdo con técnicas ejemplares descritas en esta divulgación. Más funciones ejemplares del procesador 113 se describirán más adelante en relación con las figuras 2-7.
La memoria 111 y el almacenamiento 115 pueden incluir cualquier tipo apropiado de almacenamiento masivo proporcionado para almacenar cualquier tipo de información que el procesador 113 pueda necesitar para operar. La memoria 111 y el almacenamiento 115 pueden manifestarse en un dispositivo de almacenamiento volátil o no volátil, magnético, semiconductor, de cinta, óptico, extraíble, no extraíble u otro tipo de medio tangible (es decir, no transitorio) legible por ordenador, incluyendo, pero no limitado a, una memoria de solo lectura (ROM), una memoria flash, una memoria dinámica de acceso aleatorio (RAM) y una RAM estática. La memoria 111 y/o el almacenamiento 115 pueden configurarse para almacenar uno o más programas informáticos que pueden ser ejecutados por el procesador 113 para realizar los métodos descritos en el presente documento para la verificación del orador.
La memoria 111 y/o el almacenamiento 115 pueden configurarse adicionalmente para almacenar información y datos utilizados por el procesador 113. Por ejemplo, la memoria 111 y/o el almacenamiento 115 pueden almacenar las grabaciones de audio recibidas desde los terminales de pasajero 130 y/o los terminales de conductor 140, los datos generados durante el proceso de verificación del orador y el resultado final de la verificación.
La interfaz de E/S 117 puede configurarse para facilitar la comunicación entre el verificador de orador 110, el sistema de gestión de servicio de taxis 150 y el panel de control 160. Por ejemplo, el verificador de orador 110 puede proporcionar el resultado de verificación del orador al sistema de gestión del servicio de taxis 150 a través de la interfaz de E/S 117, para actualizar la información de la cuenta del conductor y el registro del servicio de taxis. El verificador de orador 110 también puede recibir instrucciones del panel de control 160 con respecto a la realización de la verificación del orador, o para enviar el resultado de la verificación al terminal de pasajero 130 y al terminal de conductor 140 correspondientes.
La interfaz de comunicación 119 puede configurarse para comunicarse con los terminales de pasajero 130 y los terminales de conductor 140 a través de la red 120. La red 120 puede ser cualquier tipo de red cableada o inalámbrica que permita la transmisión y la recepción de datos. Por ejemplo, la red 120 puede ser una red cableada, una red inalámbrica local (por ejemplo, Bluetooth™, WiFi, comunicaciones de campo cercano (NFC), etc.), una red celular, Internet o similar, o una combinación de los mismos. También se contemplan otros métodos de comunicación conocidos que proporcionan un medio para transmitir datos.
El terminal de pasajero 130 puede ser cualquier dispositivo capaz de recibir y transmitir información a través de la red 120, por ejemplo, un teléfono móvil, un ordenador tal como un ordenador portátil o de escritorio, PDA, tabletas, relojes inteligentes, etc., que llevan una aplicación de servicio de taxis. Se puede configurar para recibir y grabar señales de audio y transmitir información a través de la red 120. Por ejemplo, un pasajero puede ingresar información a través de una aplicación en un teléfono móvil, iniciar o participar en una conversación con un terminal de conductor 140. El teléfono móvil del pasajero funciona como un terminal de pasajero 130 que recibe una grabación de audio de la conversación, que luego puede transmitirse al verificador de orador 110 para la verificación del orador.
El terminal de conductor 140 puede ser cualquier dispositivo capaz de recibir y transmitir información a través de la red 120, similar al terminal de pasajero 130. Por ejemplo, el terminal de conductor 140 puede ser un teléfono móvil, un ordenador tal como un ordenador portátil o de escritorio, PDA, tabletas, relojes inteligentes, etc., que llevan una aplicación de servicio de taxis. También puede ser un dispositivo o módulo instalado como parte de un sistema de control del vehículo. Por ejemplo, un conductor puede ingresar información a través de una aplicación en un teléfono móvil, iniciar o participar en una conversación con un terminal de pasajero 130. El teléfono móvil del conductor funciona como un terminal de conductor 140 que recibe una grabación de audio de la conversación, que luego puede transmitirse al verificador de orador 110 para la verificación del orador. Además, durante el registro de la cuenta del conductor, el terminal de conductor 140 puede configurarse para recibir el registro del conductor o la información de configuración de la cuenta, tal como número de teléfono, sexo, cuenta de correo electrónico y grabaciones de voz. El terminal de conductor 140 puede transmitir la información de registro del conductor a través de la red 120 al verificador de orador 110.
El terminal de pasajero 130 y/o el terminal de conductor 140 pueden incluir además una pantalla que incluye una pantalla LCD, un LED, una pantalla de plasma o cualquier otro tipo de pantalla, y proporcionar una interfaz gráfica de usuario (GUI) presentada en la pantalla para la entrada del usuario y mostrar los datos. Por ejemplo, la información de la cuenta del usuario y del conductor se puede mostrar a través de la pantalla, y también se puede mostrar el resultado de la verificación del orador.
El sistema de gestión del servicio de taxis 150 puede incluir además una pluralidad de componentes para gestionar el registro de cuentas de conductor y la prestación del servicio de taxis. Puede comunicarse con el verificador de orador 110 a través de la interfaz de E/S 117, para transmitir información de la cuenta del conductor y recibir el resultado de verificación desde el verificador de orador 110, etc. Además puede incluir otros componentes, tal como una base de datos que almacena el registro del conductor asociado con los resultados de verificación del orador, un procesador para evaluar el rendimiento del conductor basado en el registro del conductor, y el procesador puede configurarse además para enviar un conductor disponible enviando una notificación de pedido al terminal de conductor 140 correspondiente.
Aunque se muestra como módulos separados en la figura 1, se contempla que el verificador de orador 110, el sistema de gestión de servicio de taxis 150 y el panel de control 160 también puedan integrarse como un solo sistema. Por ejemplo, en una realización, el verificador de orador 110 y el panel de control 160 pueden integrarse en el sistema de gestión de servicio de taxis 150, que es operado por el proveedor de servicio de transporte. Otros componentes del sistema 100 y sus funciones que no están directamente relacionadas con la verificación del orador no se describen en detalle en el presente documento.
La figura 2 es un diagrama de bloques de un verificador de orador 200, de acuerdo con una realización ejemplar aplicada en el área de gestión del servicio de taxis. Con referencia a la figura 2, el verificador de orador 200 puede incluir una sección de registro del conductor 210 y una sección de verificación del conductor 220. La sección de registro del conductor 210 puede incluir además un módulo de preprocesamiento 211, un módulo de extracción de características 213, un módulo de construcción de modelo de orador 215 y una base de datos de modelo de orador 217. La sección de verificación del conductor 220 puede incluir además un módulo de preprocesamiento 221, un módulo de extracción de características 223 y un módulo de verificación de orador 225. Los módulos de preprocesamiento 211 y 221 pueden estar incorporados en el mismo módulo funcional, realizando funciones de preprocesamiento tanto en un proceso de registro de conductor como en un proceso de verificación de conductor. De manera similar, los módulos de extracción de características 213 y 223 también pueden estar incorporados en el mismo módulo funcional, realizando funciones de extracción de características, tanto para el proceso de registro del conductor como para el proceso de verificación del conductor.
Durante el registro del conductor, el módulo de preprocesamiento 211 está configurado para preprocesar las grabaciones de audio del conductor recibidas transmitidas desde el terminal de conductor 140. Las etapas de preprocesamiento incluyen la extracción de señales de voz, la eliminación del ruido ambiental o las señales de ruido de fondo, y la extracción de datos de voz del conductor, para su posterior procesamiento mediante el módulo de extracción de características de voz 213. El preprocesamiento de las grabaciones de audio puede incluir además seleccionar los datos de voz correspondientes a un orador consistente con el género asociado con el conductor, si hay señales de voz correspondientes a más de un género. Detalles de las etapas de preprocesamiento se describirán más adelante con referencia a las figuras 3 y 4.
El módulo de extracción de características 213 está configurado para extraer características de voz de los datos de voz preprocesados. Se pueden usar varias técnicas de extracción de características existentes utilizadas en tecnologías de verificación de voz o del orador. Por ejemplo, el módulo de extracción de características 213 puede configurarse para extraer Coeficientes Cepstrales de Frecuencia de Mel (MFCC), que fue introducido por Davis y Mermelstein en la década de 1980 y ampliamente utilizado en reconocimiento de voz, otros pueden incluir Coeficientes de Predicción Lineal (LPC) o Coeficientes Cepstrales de Predicción Lineal (LPCC).
El módulo de construcción del modelo de orador 215 puede configurarse para utilizar las características extraídas por el módulo de extracción de características 213, y construir un modelo acústico de orador que represente las características de voz del conductor que se está registrando. El módulo de construcción de modelos de oradores 215 puede usar varias técnicas de construcción de modelos de oradores. Por ejemplo, redes neuronales profundas (DNN) se pueden entrenar utilizando las características extraídas de los datos de voz del conductor, y se puede construir un modelo de orador extrayendo un vector de características que represente las características de voz del orador. Una DNN es una red neuronal artificial (ANN) con múltiples capas ocultas entre las capas de entrada y salida. Otros modelos de oradores que pueden utilizarse incluyen el Modelo de mezcla gaussiana (GMM) o un modelo de Modelo oculto de Markov (HMM). También hay combinaciones de diferentes enfoques para entrenar modelos de oradores. Esta divulgación actual no se limita a ningún enfoque de capacitación de modelo particular. Después de registrarse en el sistema de servicio de taxis, un conductor tendrá un modelo de orador capacitado con sus características de voz únicas. Todos los modelos de oradores pueden almacenarse en la base de datos de modelos de oradores 217, lo que significa que cada conductor registrado tendrá un modelo de orador asociado con su cuenta. Los modelos de oradores se utilizarán en el proceso de verificación del conductor.
La sección de verificación del conductor 220 incluye el módulo de preprocesamiento 221, el módulo de extracción de características 223 y el módulo de verificación de orador 225, que verifica un orador basado en los modelos de oradores guardados en la base de datos de modelos de oradores 217.
El módulo de preprocesamiento 221 puede configurarse para preprocesar una entrada de grabación de audio, que puede tener la forma de una grabación de audio de una conversación entre un conductor y un pasajero. Similar a las etapas de preprocesamiento realizadas por el módulo de preprocesamiento 211 durante el registro del conductor, el preprocesamiento durante la verificación puede incluir la selección de señales transmitidas desde el terminal de conductor 140, la extracción de señales de voz, la eliminación de ruido ambiental o señales de ruido de fondo, y la extracción de datos de voz del conductor, para su posterior procesamiento mediante el módulo de extracción de características de voz 223. El preprocesamiento de las grabaciones de audio puede incluir además seleccionar los datos de voz correspondientes a un orador consistente con el género asociado con el conductor registrado correspondiente, si están presentes señales de voz correspondientes a más de un género. Detalles del preprocesamiento se describirán más adelante con referencia a las figuras 3 y 4.
El módulo de extracción de características 223 está configurado para extraer funciones de voz de los datos de voz del orador preprocesados. El módulo de extracción de características 223 puede usar varias técnicas de extracción de características existentes usadas en tecnologías de reconocimiento de voz o de orador. Por ejemplo, el módulo de extracción de características 223 puede configurarse para extraer características de Coeficientes Cepstrales de Frecuencia de Mel (MFCC), que fue introducido por Davis y Mermelstein en la década de 1980 y ampliamente utilizado en reconocimiento de voz, otros pueden incluir Coeficientes de Predicción Lineal (LPC) o Coeficientes Cepstrales de Predicción Lineal (LPCC).
El módulo de verificación de orador 225 puede configurarse para verificar si el orador es el conductor registrado, en base a las características de voz de orador extraídas y al modelo de orador asociado con el conductor registrado. La verificación puede incluir verificar las características extraídas con el modelo de orador correspondiente al conductor registrado y calcular una puntuación de similitud. La puntuación de similitud se comparará con un umbral de similitud predeterminado. Detalles del proceso de verificación se describen a continuación con referencia a la figura 5.
La figura 3 es un diagrama de flujo que ilustra un método de preprocesamiento de señal de audio 300, de acuerdo con una realización ejemplar. El método 300 puede realizarse mediante un módulo de preprocesamiento de un dispositivo de verificación de orador, tal como el módulo de preprocesamiento 211 y/o 221 que se muestra en la figura 2. Como ejemplo, el método 300 ilustrado en el presente documento está relacionado con el preprocesamiento durante la verificación del orador/conductor utilizado en el contexto del servicio de taxis. Como se señaló anteriormente, se pueden realizar etapas de preprocesamiento similares durante el proceso de registro de usuario/conductor.
Etapa 301, el módulo de preprocesamiento 221 recibe una entrada de grabación de audio, que incluye una conversación entre un pasajero y un conductor. La grabación de audio puede transmitirse desde uno o ambos del terminal de pasajero 130 y el terminal de conductor 140 a través de una red, como se muestra en la figura 1.
Etapa 303, el módulo de preprocesamiento 221 selecciona señales de audio transmitidas desde un terminal predeterminado. Esto puede realizarse seleccionando las señales de audio transmitidas desde el terminal de conductor 140 asociado con la cuenta que se está utilizando. Cuando se utiliza una cuenta registrada, el módulo de preprocesamiento 221 puede verificar la información del terminal asociada con la cuenta, y las señales de audio transmitidas desde el terminal correspondiente pueden seleccionarse en consecuencia. Por ejemplo, esto también puede realizarse basándose en la información del canal de las señales de audio transmitidas desde el terminal de conductor 140 y el terminal de pasajero 130.
Etapa 305, el módulo de preprocesamiento 221 elimina el ruido ambiental de las señales de audio extraídas, o extrayendo señales de voz. Las señales de audio seleccionadas desde el terminal de conductor 140 predeterminado pueden incluir diversos ruidos de fondo o de entorno, tales como sonidos de otros reproductores multimedia, sonidos de otros terminales cercanos, ruido generado por el funcionamiento del vehículo y ruido del entorno fuera del vehículo. Este ruido ambiental puede eliminarse, y las señales de voz pueden extraerse. Esto puede realizarse mediante diversas técnicas existentes, tal como clasificar diferentes señales de sonido de acuerdo con sus frecuencias y eliminar las señales correspondientes a las frecuencias que no son de voz. En algunas realizaciones, esto también puede realizarse usando el espectro de imagen de frecuencia de tiempo de resonancia (RTFI), produciendo un espectro de energía de frecuencia de tiempo y seleccionando las señales de voz en función de sus niveles de energía. Por ejemplo, el módulo de preprocesamiento 221 puede realizar análisis RTFI en las señales de audio extraídas para obtener un espectro de energía de frecuencia de tiempo, que luego se promedia en un dominio de tiempo para obtener un espectro de energía promedio. El módulo de preprocesamiento 221 puede entonces usar métodos de segmentación basados en el cambio de energía para determinar los puntos de inicio y finalización de las señales de voz y las señales de no voz. Los componentes de señal que no son de voz y los componentes de ruido de fondo de la señal de audio de entrada pueden eliminarse, en función de sus niveles de energía diferentes de los de las señales de voz.
Etapa 307, el módulo de preprocesamiento 221 determina si las señales de voz incluyen discursos de múltiples oradores de diferentes géneros. Por ejemplo, las señales de voz transmitidas desde un terminal 140 del conductor pueden incluir la voz del conductor, y también voz de otra persona cercana, tal como un pasajero en el vehículo que puede ser de un género diferente. Las señales de voz de oradores de diferentes géneros pueden clasificarse en función de la diferencia en las frecuencias fundamentales características de diferentes géneros. La frecuencia fundamental representa la frecuencia de la vibración de las cuerdas vocales y se correlaciona con los cambios en la tensión de las cuerdas vocales, el tamaño y el espesor de las cuerdas vocales y la presión de aire subglótica. La frecuencia fundamental varía con factores como el género y la edad. Se correlaciona con el tono y muestra qué tan alta o baja suena la voz de una persona. Por ejemplo, un hombre adulto típico tiene una frecuencia fundamental de 85 a 180 Hz, mientras que una mujer adulta típica tiene una frecuencia fundamental de 165 a 255 Hz. Se han desarrollado muchos algoritmos para estimar la frecuencia fundamental de una señal de audio, como el algoritmo YIN ampliamente utilizado, y las modificaciones de YIN, como el algoritmo YIN Probabilístico (PYIN).
Etapa 309, si se determina que las señales de voz incluyen voces de múltiples oradores de diferentes géneros, el módulo de preprocesamiento 221 extrae datos de voz asociados con un género predeterminado asociado con la cuenta del conductor. Se pueden eliminar las señales de voz de un orador de un género diferente al asociado con la cuenta del conductor. Por ejemplo, si el género asociado con la cuenta del conductor es masculino, y las señales de voz extraídas incluyen señales de voz de una pasajera, que pueden determinarse en función de las frecuencias fundamentales características correspondientes a una mujer, las señales de voz de la pasajera pueden eliminarse.
Etapa 311, el módulo de preprocesamiento 221 transmite los datos de voz extraídos del orador al módulo de extracción de características 223 para su posterior procesamiento.
La figura 4 es un diagrama de flujo que ilustra un método de preprocesamiento de señal de audio 400, de acuerdo con otra realización ejemplar. De manera similar al método 300, el método 400 puede estar relacionado con el preprocesamiento durante el registro del orador/conductor o los procesos de verificación utilizados en el contexto del servicio de taxis. Por ejemplo, el método 400 puede realizarse mediante un módulo de preprocesamiento de un dispositivo de verificación de orador, tal como el módulo de preprocesamiento 211 y/o 221 que se muestra en la figura 2. Solo con fines ilustrativos, el método 400 se describirá como realizado por el módulo de preprocesamiento 221 en un proceso de verificación de orador.
Con referencia a la figura 4, las etapas 401-405 son similares a las etapas 301-305, cuyos detalles no se repiten en el presente documento. A continuación, en la etapa 407, el módulo de preprocesamiento 221 determina los géneros del orador de las señales de voz extraídas. Por ejemplo, como se describió anteriormente en relación con la etapa 307, el módulo de preprocesamiento 221 puede determinar los géneros de los oradores en función de las frecuencias fundamentales de las señales de voz. Cuando se determina que las señales de voz representan (es decir, la grabación de audio incluye) discursos de oradores cuyos géneros son diferentes del género de un usuario predeterminado, tal como el conductor de un vehículo, el módulo de preprocesamiento 221 continúa con la etapa 409 y selecciona las señales de voz cuyos géneros de orador son diferentes del género del usuario predeterminado.
En la etapa 411, el módulo de preprocesamiento 221 calcula una relación de la duración de tiempo de una señal de voz seleccionada a lo largo de la duración de la grabación de audio, para determinar si la voz representada por la señal de voz seleccionada representa una porción significativa de la grabación de audio. Si la relación excede un umbral predeterminado, el módulo de preprocesamiento 221 concluye directamente que el orador en la grabación de audio no es el usuario predeterminado (etapa 413). Sin embargo, si la relación es igual o inferior al umbral predeterminado, el módulo de preprocesamiento 221 elimina la señal de voz seleccionada de las señales de voz extraídas (etapa 415), y luego vuelve a la etapa 411 para verificar la relación para la siguiente señal de voz seleccionada. En la etapa 417, el módulo de preprocesamiento 221 transmite las señales de voz extraídas restantes al módulo de extracción de características 223 para un procesamiento adicional (etapa 417).
Según el método 400, durante la fase de preprocesamiento de la grabación de audio, el dispositivo de verificación del orador identifica las señales de voz cuyos géneros de orador no coinciden con el género del usuario predeterminado. Si una o más de las señales de voz identificadas constituyen una porción significativa de la grabación de audio, el dispositivo de verificación de orador concluye que el orador en la grabación de audio no es el usuario predeterminado, sin la necesidad de procesar más la grabación de audio. De lo contrario, el dispositivo de verificación de orador filtra las señales de voz identificadas de la grabación de audio, para reducir la cantidad de datos que necesitan procesamiento adicional. De esta manera, se mejora la precisión de la verificación de orador mientras se reduce el costo de cálculo.
La figura 5 es un diagrama de flujo que ilustra un proceso de verificación de orador 500, de acuerdo con una realización ejemplar. Esto puede realizarse mediante la sección de verificación de conductor 220 del verificador de orador 200 que se muestra en la figura 2. Por ejemplo, en un contexto de gestión del servicio de taxis, el método de verificación de orador 500 de esta realización puede usarse para verificar si el orador es el conductor registrado. Etapa 501, el módulo de extracción de características 223 recibe los datos de voz del orador transmitidos desde el módulo de preprocesamiento 221.
Etapa 503, el módulo de extracción de características 223 extrae las características de los datos de voz del orador. Como se describió anteriormente, se pueden usar varias técnicas de extracción de características existentes usadas en tecnologías de reconocimiento de voz u orador. Por ejemplo, el módulo de extracción de características puede configurarse para extraer características de Coeficientes Cepstrales de Frecuencia de Mel (MFCC), que fue introducido por Davis y Mermelstein en la década de 1980 y ampliamente utilizado en reconocimiento de voz, otros pueden incluir Coeficientes de Predicción Lineal (LPC) o Coeficientes Cepstrales de Predicción Lineal (LPCC). A continuación, las etapas 505 - 517 ilustran el proceso de verificar si el orador es el mismo que el conductor registrado en función de las características extraídas de los datos de voz del orador, y un modelo de orador correspondiente al conductor registrado. Estas etapas pueden realizarse mediante el módulo de verificación de orador 225. Además, los modelos de oradores de todos los conductores registrados pueden construirse en función de las características de voz de los conductores respectivos, y guardarse durante el registro del conductor, cuyo proceso se ilustra más adelante con referencia a la figura 6.
Etapa 505, el módulo de verificación de orador 225 compara las características de los datos de voz del orador con las características de referencia asociadas con un usuario predeterminado. En el contexto del servicio de taxis, el usuario predeterminado corresponde al conductor de registro, cuyo modelo de orador se ha construido y almacenado en una base de datos de modelo de orador durante el registro del conductor. Las características de referencia corresponden a las características del conductor registrado.
Etapa 507, el módulo de verificación de orador 225 calcula una puntuación de similitud que mide la similitud entre las características de los datos de voz del orador y las características de referencia del conductor registrado. Se puede calcular una puntuación de similitud verificando las características de los datos de voz del orador contra el modelo de orador correspondiente al conductor registrado. La puntuación de similitud representa el grado de similitud entre las características de los datos de voz del orador y las características de referencia del conductor registrado. Por ejemplo, un vector de características que representa las características de los datos de voz del orador puede generarse y compararse con el vector de características que representa las características asociadas con el conductor registrado.
En algunas realizaciones, se puede obtener un vector de características que representa las características asociadas con el conductor registrado después de entrenar una DNN con una pluralidad de grabaciones de audio del conductor registrado, y tomar un vector de característica promedio basado en los vectores de característica de la pluralidad de grabaciones de audio. La puntuación de similitud puede obtenerse calculando la diferencia entre el vector de características obtenido de los datos de voz del orador y el vector de características de promedio correspondiente al conductor registrado. Además, en algunas realizaciones, la puntuación del análisis discriminante lineal probabilístico (PLDA) puede usarse para el cálculo de la puntuación de similitud.
Etapa 511, el módulo de verificación de orador 225 compara la puntuación de similitud con un umbral predeterminado. La puntuación de similitud calculada se comparará con un umbral predeterminado. El umbral predeterminado representa el estándar mínimo cuando la verificación es exitosa. Por ejemplo, si el valor de similitud se manifiesta como una distancia entre el vector de características de los datos de voz del orador y el vector de características correspondiente al conductor registrado, la distancia calculada en la etapa 507 se comparará con una distancia umbral predeterminada. En aplicaciones prácticas, el umbral puede manifestarse de otras maneras o como otros valores, y puede variar según los requisitos del sistema.
Etapa 513, si la puntuación de similitud satisface el umbral predeterminado, el módulo de verificación de orador 225 concluye que el orador es el conductor de registro, es decir, la verificación es exitosa.
Etapa 515, si la puntuación de similitud no satisface el umbral predeterminado, el módulo de verificación de orador 225 concluye que el orador no es el conductor de registro, es decir, la verificación no es exitosa.
Etapa 517, el módulo de verificación de orador 225 genera el resultado de la determinación. Como se señaló anteriormente, tomando el sistema descrito en la figura 1 como ejemplo, el resultado de la determinación puede enviarse al sistema de gestión del servicio de la cabina 150 a través de la interfaz de E/S 117, para actualizar el registro del servicio de la cabina o el registro de la cuenta del conductor. También puede enviarse al panel de control 160, que luego puede enviar instrucciones solicitando que se proporcione el resultado de la determinación a una terminal de pasajero 130 o terminal de conductor 140 correspondiente, a través de la red 120.
La figura 6 es un diagrama de flujo que ilustra un proceso de inscripción o registro de orador 600, de acuerdo con una realización ejemplar. En el contexto del servicio de taxis, el proceso 600 representa un proceso en el que se registra y almacena una nueva cuenta de conductor, y se puede construir y almacenar un modelo de orador del conductor para fines de verificación futura. Por ejemplo, el proceso 600 puede realizarse mediante la sección de registro del conductor 210 del verificador de orador 200 que se muestra en la figura 2.
Etapa 601, un conductor configura una cuenta de usuario con el sistema de gestión de servicio de taxis 150. Un conductor puede registrar una nueva cuenta de usuario a través de una aplicación de terminal de conductor. La aplicación de terminal del conductor puede transmitir la información de registro requerida a un sistema de gestión del servicio de taxis, tal como el sistema de gestión del servicio de taxis 150, que procesa la solicitud de registro y configura una cuenta de usuario para el conductor.
Etapa 603, el sistema de gestión de servicio de taxis 150 almacena información de registro de usuario. Cuando se configura una nueva cuenta de conductor, la información de registro del conductor puede almacenarse, incluyendo la información asociada con el terminal de conductor 140 correspondiente, la información personal del conductor, tal como género, edad, experiencia de conducción, información de licencia e información de contacto, tal como el número de teléfono del conductor u otra información de cuenta asociada con el conductor.
Etapa 605, el módulo de preprocesamiento 211 recibe entrada de grabación de audio desde un terminal de usuario, tal como un terminal de conductor 140. Se le puede solicitar al conductor recién registrado que ingrese una o más de sus grabaciones de audio, esto puede ser en la forma de leer ciertos textos designados o enunciados de voz aleatorios. Como se muestra en la figura 1, las grabaciones de audio desde el terminal de conductor 140 pueden transmitirse a través de la red 120 al módulo de preprocesamiento 211.
Etapa 607, el módulo de preprocesamiento 211 elimina el ruido ambiental de las señales de audio o extrae las señales de voz de las señales de audio. Las entradas de grabaciones de audio en un terminal de conductor 140 pueden incluir ruido de fondo o sonidos no relacionados con la voz. Estos sonidos pueden eliminarse de las señales de audio antes de la extracción de características. En las realizaciones descritas, la etapa 507 es similar a la etapa 305, cuyos detalles no se repiten en el presente documento.
Etapa 609, el módulo de preprocesamiento 211 determina si las señales de voz incluyen voces de oradores de diferentes géneros. Esta etapa puede ser opcional, dependiendo de la calidad y de la pureza de la entrada de grabación de audio. De manera similar a la etapa 307 descrita en relación con la figura 3, si las señales de voz incluyen voces de oradores de diferentes géneros puede determinarse, por ejemplo, en función de las diferentes características de frecuencias fundamentales correspondientes a diferentes géneros.
Etapa 611, el módulo de preprocesamiento 211 extrae los datos de voz del usuario asociados con el género que se registró previamente. Durante la etapa 603, la información de género del conductor recién registrado se ha ingresado y almacenado. Si las voces de oradores de diferentes géneros están presentes en las señales de voz, las señales de voz correspondientes al género registrado pueden extraerse para su posterior procesamiento. En las realizaciones descritas, la etapa 611 es similar a la etapa 309 descrita en relación con la figura 3, cuyos detalles no se repiten en el presente documento.
Etapa 613, el módulo de extracción de características 213 extrae características de los datos de voz del usuario recibidas en el módulo de extracción de características. Esto incluye etapas similares al proceso de extracción de características descrito con referencia a la figura 5, cuyos detalles no se repiten en el presente documento.
Etapa 615, el módulo de construcción del modelo de orador 215 construye un modelo de orador basado en las características de referencia. Como se describió anteriormente con referencia a la figura 2, el módulo de construcción de modelos de oradores 215 puede usar diversas técnicas de construcción de modelos de oradores. Por ejemplo, redes neuronales profundas (DNN) se pueden entrenar utilizando las características extraídas de los datos de voz del conductor, y se puede construir un modelo de orador extrayendo un vector de características que represente las características de voz del orador. Otros modelos de oradores que pueden utilizarse incluyen el Modelo de mezcla gaussiana (GMM) y un modelo de Modelo oculto de Markov (h Mm ). También hay combinaciones de diferentes enfoques para construir modelos de oradores, la presente divulgación no se limita a ningún enfoque de construcción de modelo de orador particular.
Etapa 617, después de construir un modelo de orador correspondiente al conductor registrado, el modelo de orador puede almacenarse en la base de datos del modelo de orador 217. Cada conductor registrado puede tener un modelo de orador construido y almacenado para verificación futura.
En algunas realizaciones, una determinada cuenta de conductor registrada puede no tener un modelo de orador almacenado correspondiente al conductor. De acuerdo con una realización de verificación de orador, el verificador de orador puede recopilar una pluralidad de grabaciones de audio de conversaciones conductor-pasajero durante un período de tiempo, para determinar si una cuenta de conductor registrada es utilizada por múltiples usuarios, como se describe más adelante con referencia a la figura 6.
La figura 7 es un diagrama de flujo que ilustra un método de verificación de orador 700 en el que no se ha almacenado ningún modelo de orador asociado con una cuenta de conductor registrada ejemplar. Por ejemplo, el método 700 puede ser realizado por el sistema 100.
Etapa 701, el verificador de orador 110 recibe múltiples grabaciones de audio desde un terminal de usuario. Por ejemplo, cuando varios conductores han utilizado un terminal de conductor 140 asociado con una cuenta de conductor registrada para proporcionar servicio de taxis, el verificador de orador 110 puede recopilar múltiples grabaciones durante un período de tiempo.
Etapa 703, el verificador de orador 110 procesa previamente cada grabación de audio para extraer los datos de voz del orador transmitidos desde el terminal de conductor 140. En las realizaciones descritas, la etapa 603 es similar a los métodos 300 y/o 400, cuyos detalles no se repiten en el presente documento.
Etapa 705, el verificador de orador 110 extrae características de los datos de voz del orador. En las realizaciones descritas, la etapa 705 es similar a la etapa 503 o 613, cuyos detalles no se repiten en el presente documento. Etapa 707, el verificador de orador 110 clasifica las características extraídas. Después de que las características de los datos de voz del orador se extraen con respecto a cada entrada de grabación de audio desde el terminal de conductor 140, las características se clasifican para determinar si corresponden a la misma persona. Se pueden usar diferentes clasificadores de características en la clasificación, por ejemplo, el clasificador Naive Bayes o el clasificador de máquina de vectores de soporte (SVM). También se pueden usar otros clasificadores en las tecnologías de reconocimiento de oradores existentes, y se puede elegir en función de las características extraídas. Además, la clasificación puede no necesitar usar todas las características extraídas.
Etapa 709, el verificador de orador 110 determina si las características extraídas corresponden al mismo orador. Dependiendo de si la clasificación en la etapa 707 muestra múltiples categorías de características, el verificador de orador 110 puede determinar si hay múltiples usuarios que usan la misma cuenta de conductor. Si las características pertenecen a más de una categoría, entonces se puede determinar que hay varios usuarios que usan la misma cuenta de conductor. El resultado de la determinación puede luego enviarse al sistema de gestión del servicio de taxis 150 para acciones adicionales.
Otro aspecto de la divulgación está dirigido a un medio no transitorio, legible por ordenador, que almacena instrucciones que, cuando se ejecutan, hacen que uno o más procesadores realicen los métodos de verificación del orador, como se discutió anteriormente. El medio legible por ordenador puede incluir medios volátiles o no volátiles, magnéticos, semiconductores, cintas, ópticos, extraíbles, no extraíbles u otros tipos de medios legibles por ordenador o dispositivos de almacenamiento legibles por ordenador. Por ejemplo, el medio legible por ordenador puede ser la unidad de almacenamiento o el módulo de memoria que tiene las instrucciones del ordenador almacenadas en el mismo, como se describe. En algunas realizaciones, el medio legible por ordenador puede ser un disco o una unidad flash que tiene las instrucciones de la computadora almacenadas en el mismo.
Será evidente para los expertos en la materia que se pueden realizar diversas modificaciones y variaciones en el sistema de verificación de orador descrito y los métodos relacionados. Otras realizaciones serán evidentes para los expertos en la materia a partir de la consideración de la memoria descriptiva y la práctica del sistema de verificación de orador descrito y los métodos relacionados. Por ejemplo, aunque los sistemas y métodos de verificación de orador descritos se describen en relación con un servicio de llamadas de taxis, se pueden adaptar e implementar para otras aplicaciones en las que se puede verificar la identidad de una persona en función de la voz, tal como los centros de llamadas de servicio al cliente, sistemas de pedidos de entrega de alimentos, sistemas de pago a través de teléfono, etc. Se pretende que la memoria descriptiva y los ejemplos se consideren solo a modo de ejemplo, con un verdadero alcance indicado por las siguientes reivindicaciones.

Claims (11)

REIVINDICACIONES
1. Un método de verificación de orador, que comprende:
adquirir una grabación de audio;
extraer señales de voz de la grabación de audio;
extraer características de las señales de voz extraídas; y
determinar si las señales de voz extraídas representan la voz de un orador predeterminado basándose en las características extraídas y un modelo de orador entrenado con datos de voz de referencia del orador predeterminado
en el que extraer las señales de voz comprende:
determinar los niveles de energía de la grabación de audio que comprende determinar un espectro de imagen de resonancia de tiempo-frecuencia (RTFI) de la grabación de audio; y
extraer las señales de voz basadas en los niveles de energía.
2. El método de la reivindicación 1, en el que la grabación de audio se transmite desde un terminal (130, 140) asociado con el orador predeterminado, o la grabación de audio es de una llamada telefónica entre un conductor de un vehículo y un pasajero del mismo vehículo.
3. El método de la reivindicación 1, en el que la extracción de las señales de voz comprende:
determinar si la grabación de audio incluye voces de oradores de diferentes géneros; y
cuando se determina que la grabación de audio incluye voces de oradores de diferentes géneros, extraer señales de voz correspondientes al género del orador predeterminado.
4. El método de la reivindicación 3, en el que determinar si la grabación de audio incluye voces de oradores de diferentes géneros comprende:
detectar si la grabación de audio incluye frecuencias fundamentales características de diferentes géneros.
5. El método de la reivindicación 1, en el que:
las señales de voz extraídas incluyen una primera señal de voz; y
extraer las señales de voz comprende:
determinar el género del orador de la primera señal de voz;
cuando el género del orador de la primera señal de voz es diferente del género del orador predeterminado, determinar una relación de una duración de tiempo de la primera señal de voz sobre una duración de tiempo de la grabación de audio;
cuando la relación excede un umbral predeterminado, concluir que la grabación de audio no incluye la voz del orador predeterminado; y
cuando la relación es igual o inferior al umbral predeterminado, eliminar la primera señal de voz de las señales de voz extraídas.
6. El método de la reivindicación 1, en el que las características extraídas comprenden Coeficientes Cepstrales de Frecuencia de Mel (MFCC) de las señales de voz extraídas.
7. El método de la reivindicación 1, en el que determinar si las señales de voz extraídas representan la voz del orador predeterminado comprende además:
extraer características de referencia asociadas con el orador predeterminado de los datos de voz de referencia; y capacitar el modelo de orador basado en las características de referencia.
8. El método de la reivindicación 7, en el que el modelo de orador es al menos uno de un modelo de mezcla gaussiana (GMM), un modelo de Markov oculto (HMM) o un modelo de red neuronal profunda (DNN).
9. El método de la reivindicación 7, que comprende adicionalmente:
determinar una similitud entre las características extraídas y las características de referencia; y
determinar si las señales de voz extraídas representan la voz del orador predeterminado en función de la similitud.
10. Un sistema de verificación de orador (100), que comprende:
una memoria (111) que incluye instrucciones; y
un procesador (113) configurado para ejecutar las instrucciones para:
recibir una grabación de audio;
extraer señales de voz de la grabación de audio, que comprende:
determinar los niveles de energía de la grabación de audio que comprende
determinar un espectro de imagen de frecuencia de tiempo de resonador (RTFI) de la grabación de audio; y
extraer las señales de voz en función de los niveles de energía;
extraer características de las señales de voz extraídas; y
determinar si las señales de voz extraídas representan la voz de un orador predeterminado basándose en las características extraídas y un modelo de orador entrenado con datos de voz de referencia del orador predeterminado.
11. El sistema (100) de la reivindicación 10, en el que la grabación de audio se transmite desde un terminal (130, 140) asociado con el orador predeterminado, o la grabación de audio es de una llamada telefónica entre un conductor de un vehículo y un pasajero del mismo vehículo.
ES17829582T 2017-06-13 2017-06-13 Método y sistema para verificación de orador Active ES2800348T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/088073 WO2018227381A1 (en) 2017-06-13 2017-06-13 International patent application for method, apparatus and system for speaker verification

Publications (1)

Publication Number Publication Date
ES2800348T3 true ES2800348T3 (es) 2020-12-29

Family

ID=61558061

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17829582T Active ES2800348T3 (es) 2017-06-13 2017-06-13 Método y sistema para verificación de orador

Country Status (10)

Country Link
US (2) US10276167B2 (es)
EP (2) EP3433854B1 (es)
JP (1) JP6677796B2 (es)
CN (1) CN109429523A (es)
AU (2) AU2017305006A1 (es)
ES (1) ES2800348T3 (es)
GB (1) GB2580856A (es)
HU (1) HUE051594T2 (es)
TW (1) TWI719304B (es)
WO (1) WO2018227381A1 (es)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2578386B (en) 2017-06-27 2021-12-01 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801661D0 (en) * 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
CN107945806B (zh) * 2017-11-10 2022-03-08 北京小米移动软件有限公司 基于声音特征的用户识别方法及装置
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
CN109683938B (zh) * 2018-12-26 2022-08-02 思必驰科技股份有限公司 用于移动终端的声纹模型升级方法和装置
WO2020188724A1 (ja) * 2019-03-18 2020-09-24 富士通株式会社 話者識別プログラム、話者識別方法、および話者識別装置
CN110348474B (zh) * 2019-05-29 2021-09-10 天津五八到家科技有限公司 任务执行方法、装置及电子设备
CN110767239A (zh) * 2019-09-20 2020-02-07 平安科技(深圳)有限公司 一种基于深度学习的声纹识别方法、装置及设备
CN110808053B (zh) * 2019-10-09 2022-05-03 深圳市声扬科技有限公司 一种驾驶员身份验证方法、装置及电子设备
CN110689893A (zh) * 2019-10-12 2020-01-14 四川虹微技术有限公司 一种提高语音支付安全性的方法
WO2021127975A1 (zh) * 2019-12-24 2021-07-01 广州国音智能科技有限公司 一种声音采集对象声纹检测方法、装置和设备
CN111179911B (zh) * 2020-01-02 2022-05-03 腾讯科技(深圳)有限公司 目标语音提取方法、装置、设备、介质和联合训练方法
US11537701B2 (en) * 2020-04-01 2022-12-27 Toyota Motor North America, Inc. Transport related n-factor authentication
CN111785279A (zh) * 2020-05-18 2020-10-16 北京奇艺世纪科技有限公司 视频说话人的识别方法、装置、计算机设备及存储介质
WO2022123742A1 (ja) * 2020-12-10 2022-06-16 日本電信電話株式会社 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム
US11869511B2 (en) 2021-06-09 2024-01-09 Cisco Technology, Inc. Using speech mannerisms to validate an integrity of a conference participant
WO2023079815A1 (ja) * 2021-11-08 2023-05-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置及び情報処理プログラム
CN114726635B (zh) * 2022-04-15 2023-09-12 北京三快在线科技有限公司 权限验证方法、装置、电子设备及介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2237135A (en) * 1989-10-16 1991-04-24 Logica Uk Ltd Speaker recognition
CA2230188A1 (en) * 1998-03-27 1999-09-27 William C. Treurniet Objective audio quality measurement
US7386217B2 (en) * 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
JP2003283667A (ja) * 2002-03-22 2003-10-03 Ntt Docomo Tokai Inc 認証用音声データの登録方法
US20030236663A1 (en) * 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
US8078463B2 (en) * 2004-11-23 2011-12-13 Nice Systems, Ltd. Method and apparatus for speaker spotting
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
DE102006051709A1 (de) * 2006-10-30 2008-05-08 AHC-Oberflächentechnik GmbH Erzeugung von Verschleißschutzschichten auf Werkstoffen aus sperrschichtbildenden Metallen oder deren Legierungen mittels Laserbehandlung
US20100063817A1 (en) 2007-03-14 2010-03-11 Pioneer Corporation Acoustic model registration apparatus, talker recognition apparatus, acoustic model registration method and acoustic model registration processing program
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
CN101419799A (zh) * 2008-11-25 2009-04-29 浙江大学 基于混合t模型的说话人识别方法
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN101640043A (zh) * 2009-09-01 2010-02-03 清华大学 基于多坐标序列内核的说话人识别方法和系统
CN101770774B (zh) * 2009-12-31 2011-12-07 吉林大学 基于嵌入式的开集说话人识别方法及其系统
US20120155663A1 (en) * 2010-12-16 2012-06-21 Nice Systems Ltd. Fast speaker hunting in lawful interception systems
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification
WO2013086736A1 (zh) * 2011-12-16 2013-06-20 华为技术有限公司 说话人识别方法及设备
CN104185868B (zh) * 2012-01-24 2017-08-22 澳尔亚有限公司 话音认证和语音识别系统及方法
CN102664011B (zh) * 2012-05-17 2014-03-12 吉林大学 一种快速说话人识别方法
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
US20140214676A1 (en) * 2013-01-29 2014-07-31 Dror Bukai Automatic Learning Fraud Prevention (LFP) System
CN103236260B (zh) * 2013-03-29 2015-08-12 京东方科技集团股份有限公司 语音识别系统
US20170270930A1 (en) * 2014-08-04 2017-09-21 Flagler Llc Voice tallying system
US10706873B2 (en) 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform
EP3156978A1 (en) * 2015-10-14 2017-04-19 Samsung Electronics Polska Sp. z o.o. A system and a method for secure speaker verification
CN105513597B (zh) * 2015-12-30 2018-07-10 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
GB2552722A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
CN106571135B (zh) * 2016-10-27 2020-06-09 苏州大学 一种耳语音特征提取方法及系统

Also Published As

Publication number Publication date
TWI719304B (zh) 2021-02-21
JP2019527370A (ja) 2019-09-26
EP3706118A1 (en) 2020-09-09
EP3433854B1 (en) 2020-05-20
US10276167B2 (en) 2019-04-30
AU2019279933B2 (en) 2021-03-25
EP3433854A4 (en) 2019-02-27
EP3433854A1 (en) 2019-01-30
JP6677796B2 (ja) 2020-04-08
TW201903753A (zh) 2019-01-16
AU2019279933A1 (en) 2020-01-16
AU2017305006A1 (en) 2019-01-03
HUE051594T2 (hu) 2021-03-01
US20190214020A1 (en) 2019-07-11
US20180358020A1 (en) 2018-12-13
EP3706118B1 (en) 2023-05-31
GB201801258D0 (en) 2018-03-14
CN109429523A (zh) 2019-03-05
US10937430B2 (en) 2021-03-02
WO2018227381A1 (en) 2018-12-20
GB2580856A (en) 2020-08-05

Similar Documents

Publication Publication Date Title
ES2800348T3 (es) Método y sistema para verificación de orador
US10275671B1 (en) Validating identity and/or location from video and/or audio
KR102239129B1 (ko) 심층신경망을 이용하는 종단 간 화자 인식
CN105940407B (zh) 用于评估音频口令的强度的系统和方法
CN105723450B (zh) 用于话语检测的包络比较的方法和系统
CN110660201B (zh) 到站提醒方法、装置、终端及存储介质
CN110136727A (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
US9646613B2 (en) Methods and systems for splitting a digital signal
CN108985776A (zh) 基于多重信息验证的信用卡安全监测方法
US10984795B2 (en) Electronic apparatus and operation method thereof
WO2021169365A1 (zh) 声纹识别的方法和装置
TW202018696A (zh) 語音識別方法、裝置及計算設備
CN105679323B (zh) 一种号码发现方法及系统
CN107229691A (zh) 一种用于提供社交对象的方法与设备
KR20200076439A (ko) 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체.
US20180357269A1 (en) Address Book Management Apparatus Using Speech Recognition, Vehicle, System and Method Thereof
KR20140067687A (ko) 대화형 음성인식이 가능한 차량 시스템
CN114155460A (zh) 用户类型识别的方法、装置、计算机设备以及存储介质
Saleema et al. Voice biometrics: the promising future of authentication in the internet of things
CN109922397A (zh) 音频智能处理方法、存储介质、智能终端及智能蓝牙耳机
CN110083392B (zh) 音频唤醒预录的方法、存储介质、终端及其蓝牙耳机
CN113056908A (zh) 视频字幕合成方法、装置、存储介质及电子设备
EP4170526A1 (en) An authentication system and method
US11922538B2 (en) Apparatus for generating emojis, vehicle, and method for generating emojis
US20240127838A1 (en) Media segment prediction for media generation