ES2880006T3 - Método y aparato de construcción de modelo de la huella vocal de un usuario - Google Patents

Método y aparato de construcción de modelo de la huella vocal de un usuario Download PDF

Info

Publication number
ES2880006T3
ES2880006T3 ES16827187T ES16827187T ES2880006T3 ES 2880006 T3 ES2880006 T3 ES 2880006T3 ES 16827187 T ES16827187 T ES 16827187T ES 16827187 T ES16827187 T ES 16827187T ES 2880006 T3 ES2880006 T3 ES 2880006T3
Authority
ES
Spain
Prior art keywords
user
voice
information
speech
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16827187T
Other languages
English (en)
Inventor
Qing Ling
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Application granted granted Critical
Publication of ES2880006T3 publication Critical patent/ES2880006T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

Un método para construir un modelo de la huella vocal de un usuario, que comprende: recibir una primera entrada de información vocal por parte de un usuario (S101) que tiene una identidad de hablante, en donde el usuario no ha registrado una huella vocal, en donde la primera entrada de información vocal se recibe para una función distinta del registro de información de la huella vocal, y en donde el usuario está operando en un escenario de aplicación particular; confirmar la identidad del habla del usuario utilizando información distinta de la primera entrada de información vocal; determinar si una palabra clave preestablecida que cumple un requisito de modelado se lleva en la primera información vocal (SI02), en donde si una palabra clave preestablecida se lleva en la primera información vocal se determina utilizando una tecnología de reconocimiento de voz, en donde el requisito de modelado preestablecido se satisface con todas las palabras clave preestablecidas llevadas en la primera información vocal, y en donde la palabra clave preestablecida es un conjunto de palabras clave para el escenario de aplicación particular; cuando el resultado de la determinación sea afirmativo, capturar, a partir de la primera información vocal, un segmento vocal correspondiente a la palabra clave preestablecida que cumpla un requisito de modelado (S103); construir un modelo de la huella vocal para el usuario utilizando el segmento vocal (SI04); y almacenar el modelo de la huella vocal construido junto con un identificador de identidad del hablante para formar una biblioteca de modelos de las huellas vocales del usuario.

Description

DESCRIPCIÓN
Método y aparato de construcción de modelo de la huella vocal de un usuario
La presente solicitud reivindica la prioridad a la solicitud de patente china n.° 201510438382.0 presentada el 23 de julio de 2015 y titulada "METHOD, APPARATUS AND SYSTEM FOR CONSTRUCTING USER VOICEPRINT MODEL".
Campo técnico
La presente solicitud se refiere al campo de las tecnologías de aplicaciones informáticas y, en particular, a un método y a un aparato para construir un modelo de la huella vocal de un usuario.
Antecedentes de la técnica
La huella vocal es una de las características biométricas. El reconocimiento de la huella vocal es un método de reconocimiento biométrico que permite reconocer automáticamente la identidad de un hablante de acuerdo con sus características antropológicas y de comportamiento. La seguridad proporcionada por el reconocimiento de la huella vocal es comparable con la seguridad proporcionada por otras tecnologías de reconocimiento biométrico (tales como la huella dactilar y el iris), y sólo se necesita utilizar un teléfono/teléfono móvil o un micrófono en lugar de otros aparatos especiales para implementar un aparato de recopilación de la voz. El método de reconocimiento de la huella vocal no está relacionado con el lenguaje hablado, el dialecto o el acento, no implica ningún problema de privacidad y se aplica ampliamente. Una señal de sonido es conveniente para la transmisión y adquisición a distancia, y el método de reconocimiento de la huella vocal es especialmente ventajoso en las aplicaciones de reconocimiento de la identidad basadas en las telecomunicaciones y las redes.
El reconocimiento de la huella vocal incluye principalmente dos fases. La primera fase es una fase de registro en la que un usuario debe grabar un segmento vocal a un sistema por adelantado, y el sistema construye un modelo de la huella vocal para el usuario utilizando una característica de la huella vocal extraída de la voz registrada, véase por ejemplo el documento US 2004/0162726 A1.
La segunda fase es una fase de aplicación en la que un usuario dice en voz alta un segmento vocal designado de acuerdo con una indicación del sistema, y el sistema graba automáticamente la voz del usuario y extrae una característica de la huella vocal, realiza una operación de coincidencia en la característica de la huella vocal recién extraída y el modelo de la huella vocal preconstruido, y a continuación reconoce la identidad del usuario actual de acuerdo con el grado de coincidencia de las dos.
Con el desarrollo de los ordenadores y de las tecnologías de Internet, el reconocimiento de la huella vocal se ha infiltrado gradualmente en la vida cotidiana de las personas, por ejemplo, en las aplicaciones de los terminales inteligentes, los sistemas de atención telefónica automática, etc. A partir de la introducción anterior se desprende que el registro es una etapa indispensable en todo el proceso de reconocimiento de la huella vocal. Sin embargo, la etapa de registro supondrá en cierta medida inconvenientes para los usuarios, en particular para un grupo especial que no sea sensible a las nuevas tecnologías, tal como las personas de mediana edad y los ancianos, e incluso hay un problema con si una huella vocal se puede registrar con éxito. Además, en algunos casos, se puede pedir al usuario que grabe varios segmentos vocales durante el registro para mejorar la seguridad o la solidez del sistema, y esto aumentará adicionalmente la dificultad de utilización para el usuario.
Resumen de la invención
De acuerdo con la invención, se proporciona un método para construir un modelo de la huella vocal de un usuario según se describe en la reivindicación 1 y un aparato para construir un modelo de la huella vocal de un usuario según se describe en la reivindicación 2.
Aplicando el método para construir un modelo de la huella vocal de un usuario proporcionado por las formas de realización de la presente solicitud, en teoría, se puede construir un modelo de la huella vocal de un usuario automáticamente en cualquier escenario de aplicación donde se pueda recibir la voz de un usuario. En la presente memoria, la recepción de la información vocal puede ser una operación necesaria para implementar otras funciones por parte del usuario, y no es necesario ejecutar a propósito una operación de registro de la información de la huella vocal, facilitando por lo tanto la utilización por parte del usuario.
En consecuencia, en un escenario de aplicación que requiera la verificación de la identidad, si se puede adquirir la información de la voz de un usuario y la información de la voz lleva una palabra clave sobre la que cual se ha construido un modelo de la huella vocal anteriormente, se puede llevar a cabo la verificación de la identidad de forma automática mediante la utilización de una huella vocal, omitiendo de este modo las complicadas operaciones de otras maneras de verificación. Además, no es necesario que el usuario diga en voz alta a propósito una contraseña de verificación en el proceso de verificación.
Breve descripción de los dibujos
Para describir las soluciones técnicas de las formas de realización de la presente solicitud o de la técnica anterior con mayor claridad, a continuación, se presentan brevemente los dibujos adjuntos necesarios para describir las formas de realización o la técnica anterior. Aparentemente, los dibujos adjuntos descritos a continuación son meramente algunas formas de realización registradas en la presente solicitud, y los expertos en la técnica aún pueden deducir otros dibujos a partir de estos dibujos adjuntos.
La FIG. 1 es un diagrama de flujo esquemático de un método para construir un modelo de la huella vocal de un usuario de acuerdo con la presente solicitud;
La FIG. 2 es un diagrama de flujo esquemático de un método de verificación de la identidad del usuario de acuerdo con un ejemplo que no está cubierto por la invención reivindicada;
La FIG. 3 es un diagrama estructural esquemático de un aparato para construir un modelo de la huella vocal de un usuario de acuerdo con la presente solicitud;
La FIG. 4 es un diagrama estructural esquemático de un aparato de verificación de la identidad del usuario de acuerdo con un ejemplo que no está cubierto por la invención reivindicada; y
La FIG. 5 es un diagrama estructural esquemático de un sistema de verificación de la identidad del usuario de acuerdo con un ejemplo que no está cubierto por la invención reivindicada.
Descripción detallada
La voz es un importante soporte para la comunicación entre humanos. Con el rápido desarrollo de tecnologías tales como el reconocimiento de voz, los usuarios ya se pueden comunicar con los ordenadores a través de la voz en muchos escenarios, tal como la entrada vocal y el control vocal. En otras palabras, desde la perspectiva de un ordenador, hay muchas oportunidades de recopilar información de la voz del usuario. Además, la información vocal de un usuario se puede recopilar a partir de un mensaje telefónico y un registro telefónico en tiempo real del usuario. Basándose en dicha condición real, la presente solicitud proporciona una solución que puede implementar el modelado de la huella vocal de un usuario en cualquier escenario en el que se pueda recopilar la voz de un usuario, sin añadir ningunas operaciones de registro adicional para el usuario, resolviendo de este modo el problema en la técnica anterior de que la operación de registro de la huella vocal es complicada.
El reconocimiento de huellas vocales incluye el reconocimiento de huellas vocales dependiente del texto y el reconocimiento de huellas vocales independiente del texto. Un sistema de reconocimiento de huellas vocales dependiente del texto requiere que un usuario pronuncie de acuerdo con el contenido especificado durante el registro. Se establece con precisión un modelo de la huella vocal de cada usuario. Además, el usuario también debe pronunciar de acuerdo con el contenido especificado durante el reconocimiento. Se puede conseguir un efecto de reconocimiento deseable ya que los modelos de las huellas vocales de todos los usuarios son "estándar". Sin embargo, el sistema requiere la cooperación del usuario, y si la pronunciación del usuario no confirma el contenido especificado, no se puede reconocer correctamente al usuario. En teoría, un sistema de reconocimiento independiente del texto puede no especificar el contenido de la pronunciación del hablante. Sin embargo, es relativamente difícil establecer un modelo, y no se puede conseguir un efecto de reconocimiento ideal durante la aplicación real.
Para garantizar el efecto de reconocimiento, la solución proporcionada en la presente solicitud se propone para la tecnología de reconocimiento de huella vocal "dependiente del texto", y entonces, un problema que se debe resolver es: cómo permitir a un usuario decir en voz alta el "contenido especificado" sin aumentar una operación adicional para el usuario.
Durante la implementación de esta solución, el inventor descubre que: en un escenario de aplicación específico, un usuario tiene una probabilidad muy alta de decir en voz alta una palabra clave relacionada con el escenario. Por ejemplo, cuando el usuario realiza una consulta sobre un producto utilizando la voz (por ejemplo, de una manera tal como por teléfono o mediante un mensaje de voz), es casi inevitable que el usuario diga en voz alta una o varias palabras clave del producto, tales como el nombre, el modelo, la función, la pieza y el fallo normal. Cuando el usuario realiza una operación de control vocal, muchas instrucciones de control vocal también están predefinidas, y hay una variedad de escenarios similares. Basándose en dichas condiciones reales, para los diferentes escenarios en los que se aplica el reconocimiento de la huella vocal, se pueden hacer estadísticas por adelantado sobre una o más palabras clave de alta frecuencia que aparecen en estos escenarios, y las palabras de alta frecuencia se definen como el "contenido especificado". De esta manera, el sistema puede implementar el modelado de la huella vocal para el usuario una vez que el usuario diga en voz alta estas palabras clave durante la interacción vocal.
Para que los expertos en la técnica puedan comprender mejor la solución técnica de la presente solicitud, se describirán en detalle las soluciones técnicas de las formas de realización de la presente solicitud a través de los dibujos adjuntos a las formas de realización de la presente solicitud. Aparentemente, las formas de realización descritas son simplemente una parte de las formas de realización de la presente solicitud, y no son todas las formas de realización.
Según se muestra en la FIG. 1, se muestra un diagrama de flujo de un método para construir un modelo de la huella vocal de un usuario de acuerdo con la presente solicitud, y el método puede incluir las siguientes etapas:
S101: Se recibe la información vocal introducida por un usuario;
S102: Se determina si una palabra clave preestablecida que cumple un requisito de modelado se lleva en la información vocal;
S103: Cuando el resultado de la determinación es afirmativo, se captura un segmento vocal a partir de la información vocal correspondiente a la palabra clave preestablecida que cumple un requisito de modelado; y
S104: Se construye un modelo de la huella vocal para el usuario utilizando el segmento vocal.
La solución anterior se ilustrará adicionalmente en detalle a continuación:
En teoría, la solución de la presente solicitud se puede implementar en cualquier escenario en el que se pueda recopilar la voz de un usuario, tal como entrada vocal, control vocal y mensajes telefónicos. En definitiva, durante la solicitud real, se deben considerar de forma adicional los siguientes factores: si el escenario tiene un requisito de reconocimiento de la huella vocal, si se puede determinar la identidad de un usuario que habla actualmente, la longitud de la voz del usuario (que implica la complejidad de cálculo), si se puede recopilar con eficacia un segmento vocal que lleve una palabra clave (que implica la eficacia de la recopilación), etc.
Un escenario de aplicación típico es, por ejemplo, un "una frase describe un problema" en un sistema de respuesta vocal interactivo (IVR). El sistema puede confirmar la identidad de un usuario de acuerdo con un identificador de llamadas o por medio de información de verificación introducida manualmente por el usuario, o de otras maneras. La longitud vocal de "una frase" es adecuada para el procesamiento posterior. Además, es muy probable que el usuario diga en voz alta algunas palabras clave en muchos escenarios de servicios específicos. Por ejemplo, en un escenario de transacción en línea, las palabras clave que pueden intervenir incluyen: pedido, recibo, suministro, importe, etc. En un escenario tal como el banco y el pago, las palabras clave que pueden intervenir incluyen: transferencia, saldo, cuenta, contraseña, etc.
Además, cuando el usuario utiliza un terminal personal, se pueden utilizar varias instrucciones de control vocal utilizadas en una capa del sistema operativo o en diversas capas de aplicación específicas para la recopilación de la información vocal durante el modelado de la huella vocal. En primer lugar, el usuario puede realizar una variedad de operaciones de verificación cuando utiliza el terminal como una pertenencia personal. Por ejemplo, se puede requerir que el usuario introduzca un gesto o una contraseña numérica al desbloquear un teléfono móvil o al entrar en algunas aplicaciones específicas, cumpliendo por lo tanto primero el requisito de verificación de la identidad del usuario. Además, las instrucciones de control vocal utilizadas por tanto por el sistema operativo como por la aplicación específica no son demasiado largas, y muchas de ellas también están predefinidas. Por ejemplo, la función de interacción vocal en un teléfono móvil Android se activa utilizando una instrucción de voz "OK Google" u "OK Google ya". Todas estas palabras clave se pueden utilizar para implementar el modelado de la huella vocal del usuario.
Si el requisito de la complejidad de cálculo no es tan alto, se puede grabar una llamada del usuario a la que se haya accedido realmente a una plataforma de respuesta manual, y la voz del usuario y la voz de la plataforma de respuesta manual se distinguen de acuerdo con las características del audio, de tal manera que sólo se analice la parte vocal del usuario en las etapas posteriores. De esta manera, se puede recopilar con mayor eficacia un segmento vocal que contenga una palabra clave a partir de una llamada larga y completa del usuario.
En definitiva, los diversos escenarios de aplicación mencionados anteriormente se utilizan meramente a título ilustrativo, y no se deben entender como una limitación a la solución de la presente solicitud.
De acuerdo con S101, la información vocal del usuario se puede recibir en cualquier escenario de aplicación. En definitiva, el requisito final es implementar el modelado de la huella vocal y, por consiguiente, es necesario confirmar primero la identidad del hablante actual de otra manera (tal como una identificación de usuario, una contraseña de verificación, un gesto, una huella digital, etc.).
En S102, se determina si una palabra clave preestablecida que cumple con un requisito de modelado se lleva en la información vocal. En este caso, una o más palabras clave se pueden preestablecer de acuerdo con los requisitos reales. La preconfiguración de múltiples palabras clave tiene la ventaja de que: por un lado, se puede mejorar la probabilidad de modelar con éxito, es decir, el modelado de la huella vocal se puede implementar siempre que el usuario diga en voz alta al menos una de las múltiples palabras clave; por otro lado, se puede requerir la utilización de múltiples segmentos de huella vocal para la verificación conjunta en algunos escenarios de aplicación que tengan altos requisitos de seguridad.
En esta etapa, es necesario determinar si una palabra clave preestablecida está presente en la información vocal utilizando una tecnología relacionada con el reconocimiento del habla. Un modelo de un sistema de reconocimiento vocal generalmente incluye dos partes que incluyen un modelo acústico y un modelo de lenguaje, que corresponden respectivamente al cálculo de una probabilidad de voz a sílabas y al cálculo de una probabilidad de sílabas a palabras. De acuerdo con un requisito real de la solución de la presente solicitud, el reconocimiento de la información vocal se puede implementar desde las dos perspectivas siguientes:
a) Utilizando características acústicas:
Todas las lenguas humanas están compuestas por una serie de sílabas secuenciales, y la información sonora consecutiva se denomina como un flujo silábico. Desde la perspectiva de la acústica, un flujo silábico se puede dividir en varias sílabas independientes. Además, cada sílaba de pronunciación tiene su característica de audio fija. La tecnología de reconocimiento de voz establece un modelo acústico basado en los dos aspectos, implementando por lo tanto la segmentación de palabras en el flujo silábico. Sin embargo, en la presente solicitud, la tecnología se puede utilizar directamente para implementar el reconocimiento en la información vocal del usuario, y una solución específica incluye las siguientes etapas:
dividir la información vocal utilizando el modelo acústico para obtener al menos un segmento vocal; y
determinar si el segmento vocal obtenido o una combinación del mismo coincide con la característica de audio de la palabra clave preestablecida que cumple con un requisito de modelado, y en caso afirmativo, determinar que la palabra clave preestablecida que cumple con un requisito de modelado se lleva en la información vocal.
Por ejemplo, las palabras clave preestablecidas incluyen: transferencia, saldo, cuenta y contraseña, y entonces, el sistema debe prealmacenar datos de audio o datos de las características de audio de las cuatro palabras clave. Si la voz recibida del usuario es "consultar el saldo", se pueden obtener primero varios segmentos vocales (los resultados específicos de la división pueden ser diferentes de acuerdo con los distintos algoritmos de división, que no se describen en este documento) dividiéndolos con un modelo acústico, y se puede saber después de la comparación que estos segmentos o combinaciones de segmentos incluyen partes que coinciden con la característica de audio "saldo". Por consiguiente, se puede determinar que la palabra clave que cumple un requisito de modelado se lleva en la información vocal.
b) Utilizando características del lenguaje:
La segmentación de palabras de texto pertenece al campo de las tecnologías de procesamiento del lenguaje natural. En comparación con la segmentación de palabras a nivel puramente acústico, la tecnología de segmentación de palabras de texto está más avanzada y tiene un mejor efecto real. Además, se puede entender que una misma pronunciación puede corresponder a varios tipos de textos y, por consiguiente, se puede conseguir un mejor efecto comparando directamente el contenido del texto durante la comparación. En la presente solicitud, el reconocimiento de la información vocal del usuario se puede implementar utilizando directamente una combinación de la tecnología de reconocimiento de voz y la tecnología de segmentación de palabras de texto. Una solución específica incluye las siguientes etapas:
realizar el reconocimiento de voz en la información vocal para obtener la información de texto correspondiente;
dividir la información del texto utilizando un modelo lingüístico para obtener al menos un segmento de texto; y
determinar si el segmento de texto obtenido o una combinación del mismo está de acuerdo con el contenido de texto de la palabra clave preestablecida que cumple con un requisito de modelado, y en caso afirmativo, determinar que la palabra clave preestablecida que cumple con un requisito de modelado se lleva en la información vocal.
De acuerdo con las dos soluciones anteriores, los expertos en la técnica pueden realizar selecciones de forma flexible de acuerdo con los requisitos reales. Por ejemplo, de acuerdo con las características de los diferentes idiomas, cada palabra de un idioma occidental (tal como el inglés y el francés) tiene un significado relativamente completo, pero cada carácter del chino no tiene esta característica; por consiguiente, la forma de procesamiento que simplemente utiliza las características acústicas es más adecuada para procesar los idiomas occidentales en la actualidad. Se sugiere que el chino se procese con referencia a las características de la lengua. En definitiva, se debe señalar que la presente solicitud no se centra en el algoritmo de reconocimiento de voz o en el algoritmo de segmentación de palabras, y cualquier medida técnica se puede aplicar a la presente solicitud siempre que pueda satisfacer los requisitos correspondientes.
Si se ha confirmado en S102 que la palabra clave preestablecida que cumple con un requisito de modelado se lleva en la información vocal del usuario, el segmento vocal correspondiente se capturará adicionalmente a partir de la información vocal en S103. Si la determinación se realiza en base al segmento vocal en S102, el segmento vocal se captura directamente de acuerdo con el resultado de la coincidencia del segmento vocal. Si la determinación se realiza en base al segmento de texto en S102, el segmento vocal se captura de acuerdo con una posición del segmento vocal correspondiente obtenido por deducción inversa del resultado de la coincidencia del segmento de texto. Por ejemplo, un usuario dijo: "Quiero consultar el saldo de la cuenta", donde "cuenta" y "saldo" son palabras clave preestablecidas que cumplen un requisito de modelado. Las posiciones relativas de las dos palabras en toda la información vocal se pueden determinar de acuerdo con el procedimiento de procesamiento en S102, y a continuación se capturan los segmentos de audio de las dos palabras "cuenta" y "saldo".
En S104, el modelado de la huella vocal se realiza utilizando el segmento de audio capturado en S103. El método de modelado específico no está relacionado con la presente solicitud y no se describe en detalle en este documento. Por último, el resultado del modelado se almacena junto con el identificador de identidad del hablante determinado en S101, para formar una biblioteca de modelos de las huellas vocales del usuario.
Aplicando el método anterior, cuando el usuario utiliza otras funciones vocales, el modelado de la huella vocal se puede realizar "por casualidad", facilitando por lo tanto la utilización por parte del usuario. Además, utilizar las "palabras clave" puede tanto satisfacer el requisito de modelado "dependiente del texto" como garantizar un alto índice de éxito en el modelado.
Además, el método anterior se puede aplicar adicionalmente a la actualización del modelo de la huella vocal, además de aplicarse al registro de la información de la huella vocal por primera vez. Se puede considerar una estrategia de actualización específica desde las dos perspectivas siguientes:
1) Mejora de un modelo:
El procedimiento anterior de construcción de un modelo de la huella vocal admite múltiples palabras clave por defecto, y el usuario puede no decir en voz alta necesariamente todas las palabras clave durante una interacción vocal. Sin embargo, la interacción vocal del usuario es un comportamiento normal y, por consiguiente, después de que la construcción de un modelo de la huella vocal se completa por primera vez, la información vocal del usuario se puede recopilar de nuevo en el procedimiento posterior de interacción con el usuario. Si la información vocal recién recopilada incluye una palabra clave que no está incluida en el modelo anterior, la nueva palabra clave se puede utilizar para complementar el modelo de la huella vocal existente.
En concreto, para un usuario en particular, suponiendo que existe actualmente un modelo de la huella vocal del usuario, en S102, la "palabra clave preestablecida que cumple un requisito de modelado" se puede definir adicionalmente como la "palabra clave preestablecida que no está incluida en el modelo de la huella vocal actual del usuario".
Por ejemplo, las palabras clave designadas por el sistema incluyen: "transferencia", "saldo", "cuenta" y "contraseña". Cuando un usuario X se registra por primera vez para obtener información vocal, se han establecido modelos de las huellas vocales para dos palabras clave, "cuenta" y "saldo", para el usuario respectivamente. Por consiguiente, se recopila adicionalmente la información vocal "Quiero modificar la contraseña de la cuenta» del usuario X. De acuerdo con S102, se puede determinar que tanto "cuenta" como "contraseña" pertenecen a las palabras clave preestablecidas, en donde "contraseña" es una palabra clave preestablecida que no está incluida en el modelo de la huella vocal actual del usuario X. Por consiguiente, el modelado de la huella vocal se realiza utilizando la "contraseña" posteriormente, y el resultado del modelado se añade a una biblioteca de modelos de las huellas vocales del usuario X.
Aplicando este método, el modelo de la huella vocal del usuario se puede mejorar continuamente, para satisfacer diversos requisitos especiales. Además, si el sistema tiene un mayor requisito de seguridad, se puede especificar que el número de palabras clave incluidas en un modelo de la huella vocal del usuario debe ser mayor que un determinado número antes de que las palabras clave se apliquen. Cuando el modelado de la huella vocal del usuario no se puede implementar realizando sólo la recopilación de la información vocal una vez, se puede adoptar el método de esta forma de realización para completar el modelado de la huella vocal del usuario mediante la recopilación de la información vocal del usuario múltiples veces.
2) Preparación de un modelo:
La tecnología de reconocimiento biométrico y la tecnología de aprendizaje automático están estrechamente relacionadas. En muchos escenarios de aplicación, un modelo se prepara generalmente recopilando muestras múltiples veces, mejorando de este modo el rendimiento en múltiples aspectos tales como la precisión del reconocimiento y la tolerancia a los fallos. Para la solución de la presente solicitud, la preparación del modelo de la huella vocal también se puede realizar mediante la recopilación de la información vocal de un mismo usuario para una misma palabra clave múltiples veces.
Se puede observar que, el requisito en este documento es opuesto al requisito de 1). En concreto, para implementar múltiples veces la recopilación de una muestra de la huella vocal para una misma palabra clave, en S102, la "palabra clave preestablecida que cumple con un requisito de modelado" se debe definir adicionalmente como la "palabra clave preestablecida que se ha incluido en el modelo de la huella vocal actual del usuario."
Por ejemplo, las palabras clave designadas por el sistema incluyen: "transferencia", "saldo", "cuenta" y "contraseña". Cuando un usuario X se registra por primera vez para obtener información vocal, se han establecido modelos de las huellas vocales para dos palabras clave, "cuenta" y "saldo", para el usuario respectivamente. En el proceso posterior de recopilación de la información vocal, sólo se puede prestar atención a las dos palabras clave, "cuenta" y "saldo", de tal manera que los modelos de las huellas vocales de las dos palabras clave se preparan de forma continua.
En la aplicación real, también se pueden establecer algunas condiciones de limitación para evitar recopilar la información vocal del usuario de forma ilimitada. Por ejemplo, si el número de muestras de huellas vocales recopiladas para una palabra clave ha alcanzado un umbral, ya no se recopilará ninguna muestra de huellas vocales para la palabra clave a posterior.
Además, de acuerdo con un requisito específico de la aplicación y el algoritmo de preparación seleccionado, las muestras recopiladas durante varias veces se pueden procesar utilizando un método tal como el de promediado y retención simultánea, que no se debe limitar en la presente solicitud.
Las dos estrategias de actualización mencionadas anteriormente se pueden implementar de forma independiente o combinadas. De hecho, desde una perspectiva macroscópica, la implementación de las dos funciones no se verá afectada incluso aunque la "palabra clave preestablecida que cumple un requisito de modelado" no esté definida. En otras palabras, cada vez que se realiza S102, se adquieren todas las palabras clave que llevan esta información vocal en la medida de lo posible. Se establece un nuevo modelo de huella vocal para una palabra clave que no esté incluida en el modelo anterior, y una palabra clave que haya sido incluida en el modelo anterior se utiliza para preparar el modelo anterior. Además, se puede seleccionar una de las dos funciones anteriores para su implementación. Es importante que aplicar la solución de la presente solicitud permite aprender sin causar molestias al usuario, perfeccionando por lo tanto de forma gradual el modelo de la huella vocal del usuario.
El método para construir un modelo de la huella vocal de un usuario proporcionado por la presente solicitud se presentó anteriormente. Basándose en un concepto similar, la presente solicitud proporciona adicionalmente un método de verificación de la identidad del usuario en función de la huella vocal, que no está cubierto por la invención reivindicada. Con referencia a la FIG. 2, el método puede incluir las siguientes etapas:
S201: Se recibe la información vocal introducida por un usuario.
S202: Se determina si una palabra clave preestablecida que cumple un requisito de verificación se lleva en la información vocal.
S203: Cuando el resultado de la determinación es afirmativo, se captura la información vocal de un segmento vocal correspondiente a la palabra clave preestablecida que cumple un requisito de verificación.
S204: Se extrae una característica de la huella vocal del segmento vocal.
S205: La identidad del usuario se verifica utilizando la característica de la huella vocal y un modelo preconstruido de la huella vocal del usuario.
Las etapas S201 a S203 son básicamente idénticas a las etapas S101 a S103 en términos de implementación técnica, y la diferencia radica sólo en los diferentes escenarios de aplicación. S204 a S205 son etapas normales de verificación de la huella vocal, y no se presentarán en detalle. La diferencia entre la solución de la presente solicitud y la solución convencional de verificación de la huella vocal se enfatiza a continuación.
De acuerdo con la introducción de la técnica anterior de la presente solicitud, se sabe que el reconocimiento de la huella vocal incluye principalmente dos etapas que incluyen el registro y la aplicación, en donde la etapa de registro proporciona la preparación de datos necesaria para la sección de aplicación. El modelado de la huella vocal implementado mediante la aplicación del método de la presente solicitud principalmente se puede aplicar a diversos requisitos de aplicación. Además, también se pueden cumplir algunos requisitos de aplicación especiales de acuerdo con las características de la solución de la presente solicitud.
En sentido estricto, los escenarios de aplicación de las tecnologías de reconocimiento de características biométricas, incluyendo el reconocimiento de la huella vocal, se pueden clasificar con precisión adicional en dos categorías: verificación e identificación. La verificación se refiere a la autentificación de si el usuario tiene la identidad declarada por él mismo, por ejemplo, un bloqueo de huellas dactilares, un bloqueo de huellas vocales, etc. La identificación se refiere a determinar la identidad del usuario, por ejemplo, el órgano de seguridad pública identifica a un criminal investigando las huellas dactilares o los registros de la escena del crimen. Es fácil saber que la verificación tiene un requisito menor que la identificación.
La solución técnica proporcionada en la presente solicitud se propone sobre la base del requisito de "verificación", y tiene al menos las siguientes características en comparación con la verificación normal de la huella vocal.
En primer lugar, aunque la solución proporcionada por la presente solicitud se basa en la tecnología de la huella vocal "dependiente del texto", cuando se aplica la solución, no es necesario que el usuario diga en voz alta el "contenido especificado" a propósito, y tampoco es necesario que el sistema pregunte o guíe al usuario a propósito. Esto se debe a que todos los requisitos anteriores se pueden cumplir por casualidad cuando el usuario realiza otras operaciones.
Por ejemplo, en un sistema de autoservicio de voz de un banco, cuando un usuario marca un número de servicio y dice en voz alta "consultar el saldo" en la sección de "una frase describe un problema" de acuerdo con una solicitud de voz de autoservicio, el sistema puede realizar el reconocimiento de voz, el reconocimiento semántico, el análisis de requisitos y otros procesamientos de acuerdo con la información, y determinar que al estar el servicio relacionado con la privacidad personal y la identidad del usuario se debe autenticar adicionalmente. La manera convencional de procesar puede ser que se proporcione al usuario una solicitud "Por favor, introduzca la contraseña de su cuenta, y termine con #", y a continuación el usuario opera de acuerdo con la solicitud para completar la verificación. Utilizando la solución proporcionada en la presente solicitud, si se ha completado previamente el modelado de la palabra clave "saldo" para el usuario, después de que el usuario diga en voz alta "consultar el saldo", la verificación se puede implementar utilizando la huella vocal, y no es necesario que el usuario introduzca una contraseña. La conveniencia de la verificación por huella vocal se disfruta cuando no es necesario decir en voz alta el "contenido especificado" a propósito.
A continuación, el contenido específico pronunciado por el usuario es incierto; sin embargo, de acuerdo con las características de las "palabras clave", existe realmente una alta probabilidad de que el usuario diga en voz alta estas palabras clave, y la probabilidad puede mejorar obviamente a medida que se incrementa el número de palabras clave. Incluso si la verificación de la huella vocal falla, se puede seguir utilizando la forma normal de verificación. Por ejemplo, se puede utilizar la introducción manual de una contraseña en el ejemplo anterior, y esto no supondrá problemas adicionales para el usuario.
Además, al definir la "palabra clave preestablecida que cumple un requisito de verificación" en S203, el rendimiento del sistema se puede mejorar adicionalmente o se pueden cumplir requisitos específicos adicionales. Por ejemplo, la "palabra clave preestablecida que cumple un requisito de verificación" se puede definir como: una palabra clave preestablecida que se haya incluido en el modelo de la huella vocal actual del usuario, para evitar que el sistema realice un procesamiento no válido posteriormente, tal como la extracción o la coincidencia de la huella vocal. Además, para un escenario de aplicación que tenga un requisito de seguridad superior, tal como una transacción de pago, el número de palabras clave que lleva la voz del usuario también se puede definir en la "palabra clave preestablecida que cumple un requisito de verificación". Si no se cumple el requisito de número, se considera que esta forma no es lo suficientemente segura, y en ese momento, la forma de verificación de la huella vocal se puede abandonar y se puede utilizar otra forma más segura en su lugar.
Por último, se puede entender que el método de modelado de la huella vocal y el método de verificación de la huella vocal proporcionados por la presente solicitud se basan en el mismo principio y, por consiguiente, las dos soluciones se pueden integrar de diversas maneras. Por ejemplo, después del procedimiento de verificación, la información vocal del usuario utilizada en esta verificación se puede seguir utilizando para perfeccionar el modelo de la huella vocal. En una aplicación típica, primero se determina si la información vocal utilizada en esta verificación lleva una palabra clave preestablecida que no esté incluida en el modelo de la huella vocal actual del usuario, y en caso afirmativo, se captura un segmento vocal correspondiente a la palabra clave a partir de la información vocal, y el modelo de la huella vocal del usuario se actualiza utilizando el segmento vocal. La forma específica de actualización se puede obtener con referencia a las formas de realización anteriores, y no se repetirá en este documento. Además, desde la perspectiva del procedimiento técnico, si la verificación de identidad tiene éxito no afecta a la actualización del modelo de la huella vocal. En definitiva, si se considera la mejora de la seguridad, la operación de actualización del modelo de la huella vocal se puede activar adicionalmente cuando la verificación de la identidad del usuario tenga éxito. Además, la "verificación de la identidad con éxito" no se limita a la verificación de la identidad de la huella vocal.
En resumen, en comparación con la técnica anterior, la presente solicitud tiene como principal ventaja que: el registro y la verificación de la información de la huella vocal del usuario se pueden implementar por casualidad cuando el usuario realice otras operaciones basadas en la voz, facilitando por lo tanto la utilización por parte del usuario. Además, al establecer una palabra clave particular para un escenario de aplicación particular, se puede conservar la ventaja de "depender del texto", y también se puede garantizar un índice de éxito superior en el escenario de aplicación incierto original.
En correspondencia con la forma de realización del método anterior, la presente solicitud proporciona además un aparato para construir un modelo de la huella vocal de un usuario. Con referencia a la FIG. 3, el aparato puede incluir: un módulo de recepción de información vocal 110 configurado para recibir información vocal introducida por un usuario;
un módulo de determinación de palabras clave de modelado 120 configurado para determinar si una palabra clave preestablecida que cumple con un requisito de modelado se lleva en la información vocal;
un módulo de captura de segmentos vocales 130 configurado para, cuando el resultado de la determinación es afirmativo, capturar, a partir de la información vocal, un segmento vocal correspondiente a la palabra clave preestablecida que cumple un requisito de modelado; y
un módulo de construcción del modelo de la huella vocal 140 configurado para construir un modelo de la huella vocal para el usuario utilizando el segmento vocal.
Según una implementación específica de la presente solicitud, el modelo de determinación de palabras clave de modelado 120 se puede configurar en concreto para:
cuando el modelo de la huella vocal del usuario ya existe actualmente, determinar si una palabra clave preestablecida que no está incluida en el modelo de la huella vocal se lleva en la información vocal;
o
cuando el modelo de la huella vocal del usuario ya existe actualmente, determinar si una palabra clave preestablecida que ya se haya incluido en el modelo de la huella vocal se lleva en la información vocal. De acuerdo con una implementación específica de la presente solicitud, el modelo de construcción del modelo de la huella vocal 140 se puede configurar en concreto para:
cuando el modelo de la huella vocal del usuario ya existe actualmente, actualizar el modelo de la huella vocal utilizando el segmento vocal.
Según una implementación específica de la presente solicitud, el modelo de determinación de palabras clave de modelado 120 se puede configurar en concreto para:
dividir la información vocal mediante un modelo acústico para obtener al menos un segmento vocal; y determinar si el segmento vocal obtenido o una combinación de los mismos coincide con la característica de audio de la palabra clave preestablecida que cumple un requisito de modelado y, en caso afirmativo, determinar que la palabra clave preestablecida que cumple un requisito de modelado se lleva en la información vocal.
O
el modelo de determinación de palabras clave de modelado 120 se puede configurar adicionalmente en concreto para:
realizar el reconocimiento de voz en la información vocal para obtener la información de texto correspondiente; dividir la información del texto utilizando un modelo lingüístico para obtener al menos un segmento de texto; y
determinar si el segmento de texto obtenido o una combinación del mismo está de acuerdo con el contenido de texto de la palabra clave preestablecida que cumple un requisito de modelado, y en caso afirmativo, determinar que la palabra clave preestablecida que cumple un requisito de modelado se lleva en la información vocal.
En correspondencia con el método anterior, la presente solicitud proporciona adicionalmente un aparato de verificación de la identidad del usuario en función de la huella vocal que no está cubierto por la invención reivindicada. Con referencia a la FIG. 4, el aparato puede incluir:
un módulo de recepción de información vocal 210 configurado para recibir información vocal introducida por un usuario;
un módulo de determinación de las palabras clave de verificación 220 configurado para determinar si una palabra clave preestablecida que cumple con un requisito de verificación se lleva en la información vocal; un módulo de captura de segmentos vocales 230 configurado para, cuando el resultado de la determinación es afirmativo, capturar, a partir de la información vocal, un segmento vocal correspondiente a la palabra clave preestablecida que cumple un requisito de verificación;
un módulo de extracción de las características de la huella vocal 250 configurado para extraer una característica de la huella vocal del segmento vocal; y
un módulo de verificación 260 configurado para verificar la identidad del usuario utilizando la función de la huella vocal y un modelo de la huella vocal preconstruido del usuario.
La presente solicitud proporciona además un sistema de verificación de la identidad del usuario basado en la huella vocal, y el sistema puede incluir el aparato para construir un modelo de la huella vocal del usuario y el aparato de verificación de la identidad del usuario según se describió anteriormente.
De hecho, las funciones implementadas por algunos módulos en los dos aparatos anteriores son completamente iguales, por ejemplo:
el módulo de recepción de información vocal 110 y el módulo de recepción de información vocal 210;
el módulo de captura de segmentos vocales 130 y el módulo de captura de segmentos vocales 230;
y una diferencia entre el módulo de determinación de palabras clave de verificación 120 y el módulo de determinación de palabras clave de verificación 220 reside simplemente en las diferentes reglas de acuerdo con las cuales se realiza la determinación. Por consiguiente, durante las aplicaciones reales, estos módulos idénticos o similares se pueden multiplexar por completo en el sistema, según se muestra en la FIG. 5.
El módulo de recepción de información vocal 310 integra las funciones del módulo de recepción de información vocal 110 y del módulo de recepción de información vocal 210.
El módulo de determinación de palabras clave 320 integra las funciones del módulo de determinación de palabras clave de verificación 120 y del módulo de determinación de palabras clave de verificación 220.
El módulo de captura de segmentos vocales 330 integra las funciones del módulo de captura de segmentos vocales 130 y del módulo de captura de segmentos vocales 230.
Las funciones del módulo de construcción del modelo de la huella vocal 340, el módulo de extracción de las características de la huella vocal 350 y el módulo de verificación 360 son respectivamente idénticas a las funciones de los módulos de los mismos nombres en los aparatos anteriores.
Los procesos de implementación de las funciones y los efectos de todas las unidades del aparato anterior pueden hacer referencia en concreto a los procesos de implementación de las etapas correspondientes en el método anterior, y no se repiten en la presente memoria.
Basándose en la descripción anterior de las formas de implementación, un experto en la técnica puede comprender claramente que la presente solicitud se puede implementar mediante software en combinación con una plataforma de hardware universal necesaria. Sobre la base de dicha comprensión, la solución técnica de la presente solicitud en esencia, o la parte que contribuye a la técnica anterior, se puede incorporar en la forma de un producto de software, que no está cubierto por la invención reivindicada. El producto de software se puede almacenar en un medio de almacenamiento, tal como una ROM/RAM, un disco magnético o un disco óptico, e incluir varias instrucciones que permitan a un dispositivo informático (que puede ser un ordenador personal, un servidor, un dispositivo de red o similar) ejecutar el método en todas las formas de realización o ciertas partes de las formas de realización de la presente solicitud.
Diversas formas de realización de la memoria descriptiva se describen de forma progresiva. Las partes iguales o similares entre las formas de realización pueden hacer referencia unas a otras. Cada forma de realización se focaliza y describe la parte que es diferente de las otras formas de realización. En particular, la forma de realización del aparato o sistema es básicamente similar a la forma de realización del método, de modo que se describa de forma sencilla, y para las partes relacionadas, se puede hacer referencia a la descripción de las partes en la forma de realización del método. La forma de realización del aparato o sistema descrita anteriormente es meramente ilustrativa, en la que los módulos ilustrados como partes separadas pueden estar o no separados físicamente. Durante la implementación de la presente solicitud, las funciones de los módulos se pueden implementar en la misma una o más piezas de software y/o hardware. El objetivo de la solución de la presente forma de realización se puede implementar seleccionando una parte o todos los módulos de la misma de acuerdo con los requisitos reales. Los expertos en la técnica pueden entender e implementar la presente solicitud sin esfuerzos creativos.
Las implementaciones específicas de la presente solicitud se describen más arriba. Se debe señalar que, los expertos en la técnica que, pueden hacer varias mejoras y modificaciones sin apartarse del alcance de la presente invención, que se define por las reivindicaciones.

Claims (2)

REIVINDICACIONES
1. Un método para construir un modelo de la huella vocal de un usuario, que comprende:
recibir una primera entrada de información vocal por parte de un usuario (S101) que tiene una identidad de hablante, en donde el usuario no ha registrado una huella vocal, en donde la primera entrada de información vocal se recibe para una función distinta del registro de información de la huella vocal, y en donde el usuario está operando en un escenario de aplicación particular;
confirmar la identidad del habla del usuario utilizando información distinta de la primera entrada de información vocal;
determinar si una palabra clave preestablecida que cumple un requisito de modelado se lleva en la primera información vocal (SI02), en donde si una palabra clave preestablecida se lleva en la primera información vocal se determina utilizando una tecnología de reconocimiento de voz, en donde el requisito de modelado preestablecido se satisface con todas las palabras clave preestablecidas llevadas en la primera información vocal, y en donde la palabra clave preestablecida es un conjunto de palabras clave para el escenario de aplicación particular;
cuando el resultado de la determinación sea afirmativo, capturar, a partir de la primera información vocal, un segmento vocal correspondiente a la palabra clave preestablecida que cumpla un requisito de modelado (S103);
construir un modelo de la huella vocal para el usuario utilizando el segmento vocal (SI04); y
almacenar el modelo de la huella vocal construido junto con un identificador de identidad del hablante para formar una biblioteca de modelos de las huellas vocales del usuario.
2. Un aparato para construir un modelo de la huella vocal de un usuario, que comprende varios módulos configurados para realizar el método de la reivindicación 1.
ES16827187T 2015-07-23 2016-07-14 Método y aparato de construcción de modelo de la huella vocal de un usuario Active ES2880006T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510438382.0A CN106373575B (zh) 2015-07-23 2015-07-23 一种用户声纹模型构建方法、装置及系统
PCT/CN2016/089962 WO2017012496A1 (zh) 2015-07-23 2016-07-14 一种用户声纹模型构建方法、装置及系统

Publications (1)

Publication Number Publication Date
ES2880006T3 true ES2880006T3 (es) 2021-11-23

Family

ID=57833756

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16827187T Active ES2880006T3 (es) 2015-07-23 2016-07-14 Método y aparato de construcción de modelo de la huella vocal de un usuario

Country Status (9)

Country Link
US (2) US10714094B2 (es)
EP (1) EP3327720B1 (es)
JP (1) JP6859522B2 (es)
KR (1) KR102250460B1 (es)
CN (1) CN106373575B (es)
ES (1) ES2880006T3 (es)
PL (1) PL3327720T3 (es)
SG (1) SG11201800297WA (es)
WO (1) WO2017012496A1 (es)

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN104616655B (zh) * 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
WO2018108263A1 (en) * 2016-12-14 2018-06-21 Telefonaktiebolaget Lm Ericsson (Publ) Authenticating a user subvocalizing a displayed text
KR102640423B1 (ko) * 2017-01-31 2024-02-26 삼성전자주식회사 음성 입력 처리 방법, 이를 지원하는 전자 장치, 및 시스템
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN107590374A (zh) * 2017-07-31 2018-01-16 捷开通讯(深圳)有限公司 语音助手权限的控制方法、智能终端及存储装置
US10789959B2 (en) * 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108665901B (zh) * 2018-05-04 2020-06-30 广州国音科技有限公司 一种音素/音节提取方法及装置
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
RU2763392C1 (ru) * 2018-06-29 2021-12-28 Хуавэй Текнолоджиз Ко., Лтд. Способ голосового управления, носимое устройство и терминал
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109065058B (zh) * 2018-09-30 2024-03-15 合肥鑫晟光电科技有限公司 语音通信方法、装置及系统
CN109599116B (zh) * 2018-10-08 2022-11-04 中国平安财产保险股份有限公司 基于语音识别的监管保险理赔的方法、装置和计算机设备
US20200201970A1 (en) * 2018-12-20 2020-06-25 Cirrus Logic International Semiconductor Ltd. Biometric user recognition
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111833882A (zh) * 2019-03-28 2020-10-27 阿里巴巴集团控股有限公司 声纹信息管理方法、装置、系统及计算设备、存储介质
US11227606B1 (en) * 2019-03-31 2022-01-18 Medallia, Inc. Compact, verifiable record of an audio communication and method for making same
US11398239B1 (en) 2019-03-31 2022-07-26 Medallia, Inc. ASR-enhanced speech compression
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
CN110671792A (zh) * 2019-05-08 2020-01-10 青岛海尔空调器有限总公司 用于控制出风风量和出音音量的方法、装置和空调室内机
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
CN110298150B (zh) * 2019-05-29 2021-11-26 上海拍拍贷金融信息服务有限公司 一种基于语音识别的身份验证方法及系统
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110570869B (zh) * 2019-08-09 2022-01-14 科大讯飞股份有限公司 一种声纹识别方法、装置、设备及存储介质
US10839060B1 (en) * 2019-08-27 2020-11-17 Capital One Services, Llc Techniques for multi-voice speech recognition commands
CN110491393B (zh) * 2019-08-30 2022-04-22 科大讯飞股份有限公司 声纹表征模型的训练方法及相关装置
CN110738998A (zh) * 2019-09-11 2020-01-31 深圳壹账通智能科技有限公司 基于语音的个人信用评估方法、装置、终端及存储介质
CN110753254A (zh) * 2019-10-30 2020-02-04 四川长虹电器股份有限公司 应用于智能语音电视声纹支付的声纹注册方法
CN110991498A (zh) * 2019-11-18 2020-04-10 有时数联科技(北京)有限公司 一种基于算法模型的识别方法、装置及系统
CN111048100B (zh) * 2019-11-21 2023-09-08 深圳市东进银通电子有限公司 一种大数据并行化声纹辨认系统和方法
CN113112997A (zh) * 2019-12-25 2021-07-13 华为技术有限公司 数据采集的方法及装置
CN111063360B (zh) * 2020-01-21 2022-08-19 北京爱数智慧科技有限公司 一种声纹库的生成方法和装置
CN111341326B (zh) * 2020-02-18 2023-04-18 RealMe重庆移动通信有限公司 语音处理方法及相关产品
CN111524521B (zh) * 2020-04-22 2023-08-08 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111653283B (zh) * 2020-06-28 2024-03-01 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11315575B1 (en) 2020-10-13 2022-04-26 Google Llc Automatic generation and/or use of text-dependent speaker verification features
US11522994B2 (en) 2020-11-23 2022-12-06 Bank Of America Corporation Voice analysis platform for voiceprint tracking and anomaly detection
CN112417532A (zh) * 2020-12-08 2021-02-26 浙江百应科技有限公司 一种支持语音和隐私输入的智能ai信息查询方法
CN112908339B (zh) * 2021-03-18 2022-11-04 龙马智芯(珠海横琴)科技有限公司 一种会议环节定位方法、装置、定位设备及可读存储介质
TWI755328B (zh) * 2021-05-24 2022-02-11 中華電信股份有限公司 孩童聲音偵測系統、方法及電腦可讀媒介
CN113488042B (zh) * 2021-06-29 2022-12-13 荣耀终端有限公司 一种语音控制方法及电子设备
CN116229987B (zh) * 2022-12-13 2023-11-21 广东保伦电子股份有限公司 一种校园语音识别的方法、装置及存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
JPH11291799A (ja) 1998-04-09 1999-10-26 Combi Corp チャイルドシート
US6691089B1 (en) * 1999-09-30 2004-02-10 Mindspeed Technologies Inc. User configurable levels of security for a speaker verification system
JP4440502B2 (ja) * 2001-08-31 2010-03-24 富士通株式会社 話者認証システム及び方法
JP2003302999A (ja) * 2002-04-11 2003-10-24 Advanced Media Inc 音声による個人認証システム
US7222072B2 (en) * 2003-02-13 2007-05-22 Sbc Properties, L.P. Bio-phonetic multi-phrase speaker identity verification
US20060229879A1 (en) * 2005-04-06 2006-10-12 Top Digital Co., Ltd. Voiceprint identification system for e-commerce
CN101051463B (zh) * 2006-04-06 2012-07-11 株式会社东芝 说话人认证的验证方法及装置
JP4897040B2 (ja) * 2007-03-14 2012-03-14 パイオニア株式会社 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム
CN101465123B (zh) * 2007-12-20 2011-07-06 株式会社东芝 说话人认证的验证方法和装置以及说话人认证系统
JP5457706B2 (ja) 2009-03-30 2014-04-02 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP5223843B2 (ja) * 2009-10-22 2013-06-26 富士通株式会社 情報処理装置およびプログラム
CN102238189B (zh) * 2011-08-01 2013-12-11 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
JP5611270B2 (ja) * 2012-05-08 2014-10-22 ヤフー株式会社 単語分割装置、及び単語分割方法
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
JP6239826B2 (ja) * 2013-01-29 2017-11-29 綜合警備保障株式会社 話者認識装置、話者認識方法及び話者認識プログラム
US9711148B1 (en) * 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
CN103971700A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 语音监控方法及装置
US9343068B2 (en) * 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
CN104765996B (zh) * 2014-01-06 2018-04-27 讯飞智元信息科技有限公司 声纹密码认证方法及系统
CN104901926A (zh) * 2014-03-06 2015-09-09 武汉元宝创意科技有限公司 基于声纹特征的远程认证支付的系统与方法
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
US10008208B2 (en) * 2014-09-18 2018-06-26 Nuance Communications, Inc. Method and apparatus for performing speaker recognition
CN104202486A (zh) * 2014-09-26 2014-12-10 上海华勤通讯技术有限公司 移动终端及其屏幕解锁方法
US9721571B2 (en) * 2015-06-14 2017-08-01 Nice Ltd. System and method for voice print generation
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
CN105930892A (zh) 2016-04-22 2016-09-07 深圳活悦网络科技有限公司 一种可变logo二维码防伪方法及系统
CN107103480A (zh) 2017-05-18 2017-08-29 电子科技大学 基于主权区块链的供应链管理方法
CN107657463A (zh) 2017-09-29 2018-02-02 北京京东尚科信息技术有限公司 物品溯源平台和方法及装置

Also Published As

Publication number Publication date
KR102250460B1 (ko) 2021-05-13
EP3327720B1 (en) 2021-05-05
PL3327720T3 (pl) 2021-10-25
US20180137865A1 (en) 2018-05-17
US20200321010A1 (en) 2020-10-08
US10714094B2 (en) 2020-07-14
US11043223B2 (en) 2021-06-22
EP3327720A1 (en) 2018-05-30
KR20180034507A (ko) 2018-04-04
EP3327720A4 (en) 2019-04-03
JP2018527609A (ja) 2018-09-20
SG11201800297WA (en) 2018-02-27
CN106373575A (zh) 2017-02-01
CN106373575B (zh) 2020-07-21
JP6859522B2 (ja) 2021-04-14
WO2017012496A1 (zh) 2017-01-26

Similar Documents

Publication Publication Date Title
ES2880006T3 (es) Método y aparato de construcción de modelo de la huella vocal de un usuario
US8812319B2 (en) Dynamic pass phrase security system (DPSS)
Larcher et al. The RSR2015: Database for text-dependent speaker verification using multiple pass-phrases
US20180047397A1 (en) Voice print identification portal
CN110169014A (zh) 用于认证的装置、方法和计算机程序产品
TW201918920A (zh) 聲紋認證方法、帳號註冊方法及裝置
US20170359334A1 (en) System and method for voice authentication
US8095372B2 (en) Digital process and arrangement for authenticating a user of a database
CN108417216B (zh) 语音验证方法、装置、计算机设备和存储介质
KR102097710B1 (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
WO2006087799A1 (ja) 音声認証システム
US20030074201A1 (en) Continuous authentication of the identity of a speaker
JP2006505021A (ja) 安全なアプリケーション環境のためのローバスト多要素認証
EP1962280A1 (en) Method and network-based biometric system for biometric authentication of an end user
CN107886958A (zh) 一种基于声纹的快递柜取件方法及装置
CN111630934A (zh) 隐私保护的声纹认证装置和方法
Chakrabarty et al. Development and evaluation of online text-independent speaker verification system for remote person authentication
WO2020045204A1 (ja) 生体認証装置、生体認証方法および記録媒体
JP7339116B2 (ja) 音声認証装置、音声認証システム、および音声認証方法
KR20130059999A (ko) 음성 기반 인증시스템 및 방법
US10628567B2 (en) User authentication using prompted text
KR101703942B1 (ko) 화자 인증을 이용한 금융 보안 시스템 및 그 방법
Tanwar et al. An approach to ensure security using voice authentication system
CN113241078A (zh) 基于考勤机的语音识别的方法和系统
KR20140029990A (ko) 생체정보를 이용한 본인인증 시스템 및 방법