ES2880006T3

ES2880006T3 - Método y aparato de construcción de modelo de la huella vocal de un usuario

Info

Publication number: ES2880006T3
Application number: ES16827187T
Authority: ES
Inventors: Qing Ling
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd
Priority date: 2015-07-23
Filing date: 2016-07-14
Publication date: 2021-11-23
Anticipated expiration: 2036-07-14
Also published as: KR102250460B1; EP3327720B1; PL3327720T3; US20180137865A1; US20200321010A1; US10714094B2; US11043223B2; EP3327720A1; KR20180034507A; EP3327720A4; JP2018527609A; SG11201800297WA; CN106373575A; CN106373575B; JP6859522B2; WO2017012496A1

Abstract

Un método para construir un modelo de la huella vocal de un usuario, que comprende: recibir una primera entrada de información vocal por parte de un usuario (S101) que tiene una identidad de hablante, en donde el usuario no ha registrado una huella vocal, en donde la primera entrada de información vocal se recibe para una función distinta del registro de información de la huella vocal, y en donde el usuario está operando en un escenario de aplicación particular; confirmar la identidad del habla del usuario utilizando información distinta de la primera entrada de información vocal; determinar si una palabra clave preestablecida que cumple un requisito de modelado se lleva en la primera información vocal (SI02), en donde si una palabra clave preestablecida se lleva en la primera información vocal se determina utilizando una tecnología de reconocimiento de voz, en donde el requisito de modelado preestablecido se satisface con todas las palabras clave preestablecidas llevadas en la primera información vocal, y en donde la palabra clave preestablecida es un conjunto de palabras clave para el escenario de aplicación particular; cuando el resultado de la determinación sea afirmativo, capturar, a partir de la primera información vocal, un segmento vocal correspondiente a la palabra clave preestablecida que cumpla un requisito de modelado (S103); construir un modelo de la huella vocal para el usuario utilizando el segmento vocal (SI04); y almacenar el modelo de la huella vocal construido junto con un identificador de identidad del hablante para formar una biblioteca de modelos de las huellas vocales del usuario.

Description

DESCRIPCIÓN

Método y aparato de construcción de modelo de la huella vocal de un usuario

La presente solicitud reivindica la prioridad a la solicitud de patente china n.° 201510438382.0 presentada el 23 de julio de 2015 y titulada "METHOD, APPARATUS AND SYSTEM FOR CONSTRUCTING USER VOICEPRINT MODEL".

Campo técnico

La presente solicitud se refiere al campo de las tecnologías de aplicaciones informáticas y, en particular, a un método y a un aparato para construir un modelo de la huella vocal de un usuario.

Antecedentes de la técnica

La huella vocal es una de las características biométricas. El reconocimiento de la huella vocal es un método de reconocimiento biométrico que permite reconocer automáticamente la identidad de un hablante de acuerdo con sus características antropológicas y de comportamiento. La seguridad proporcionada por el reconocimiento de la huella vocal es comparable con la seguridad proporcionada por otras tecnologías de reconocimiento biométrico (tales como la huella dactilar y el iris), y sólo se necesita utilizar un teléfono/teléfono móvil o un micrófono en lugar de otros aparatos especiales para implementar un aparato de recopilación de la voz. El método de reconocimiento de la huella vocal no está relacionado con el lenguaje hablado, el dialecto o el acento, no implica ningún problema de privacidad y se aplica ampliamente. Una señal de sonido es conveniente para la transmisión y adquisición a distancia, y el método de reconocimiento de la huella vocal es especialmente ventajoso en las aplicaciones de reconocimiento de la identidad basadas en las telecomunicaciones y las redes.

El reconocimiento de la huella vocal incluye principalmente dos fases. La primera fase es una fase de registro en la que un usuario debe grabar un segmento vocal a un sistema por adelantado, y el sistema construye un modelo de la huella vocal para el usuario utilizando una característica de la huella vocal extraída de la voz registrada, véase por ejemplo el documento US 2004/0162726 A1.

La segunda fase es una fase de aplicación en la que un usuario dice en voz alta un segmento vocal designado de acuerdo con una indicación del sistema, y el sistema graba automáticamente la voz del usuario y extrae una característica de la huella vocal, realiza una operación de coincidencia en la característica de la huella vocal recién extraída y el modelo de la huella vocal preconstruido, y a continuación reconoce la identidad del usuario actual de acuerdo con el grado de coincidencia de las dos.

Con el desarrollo de los ordenadores y de las tecnologías de Internet, el reconocimiento de la huella vocal se ha infiltrado gradualmente en la vida cotidiana de las personas, por ejemplo, en las aplicaciones de los terminales inteligentes, los sistemas de atención telefónica automática, etc. A partir de la introducción anterior se desprende que el registro es una etapa indispensable en todo el proceso de reconocimiento de la huella vocal. Sin embargo, la etapa de registro supondrá en cierta medida inconvenientes para los usuarios, en particular para un grupo especial que no sea sensible a las nuevas tecnologías, tal como las personas de mediana edad y los ancianos, e incluso hay un problema con si una huella vocal se puede registrar con éxito. Además, en algunos casos, se puede pedir al usuario que grabe varios segmentos vocales durante el registro para mejorar la seguridad o la solidez del sistema, y esto aumentará adicionalmente la dificultad de utilización para el usuario.

Resumen de la invención

De acuerdo con la invención, se proporciona un método para construir un modelo de la huella vocal de un usuario según se describe en la reivindicación 1 y un aparato para construir un modelo de la huella vocal de un usuario según se describe en la reivindicación 2.

Aplicando el método para construir un modelo de la huella vocal de un usuario proporcionado por las formas de realización de la presente solicitud, en teoría, se puede construir un modelo de la huella vocal de un usuario automáticamente en cualquier escenario de aplicación donde se pueda recibir la voz de un usuario. En la presente memoria, la recepción de la información vocal puede ser una operación necesaria para implementar otras funciones por parte del usuario, y no es necesario ejecutar a propósito una operación de registro de la información de la huella vocal, facilitando por lo tanto la utilización por parte del usuario.

En consecuencia, en un escenario de aplicación que requiera la verificación de la identidad, si se puede adquirir la información de la voz de un usuario y la información de la voz lleva una palabra clave sobre la que cual se ha construido un modelo de la huella vocal anteriormente, se puede llevar a cabo la verificación de la identidad de forma automática mediante la utilización de una huella vocal, omitiendo de este modo las complicadas operaciones de otras maneras de verificación. Además, no es necesario que el usuario diga en voz alta a propósito una contraseña de verificación en el proceso de verificación.

Breve descripción de los dibujos

Para describir las soluciones técnicas de las formas de realización de la presente solicitud o de la técnica anterior con mayor claridad, a continuación, se presentan brevemente los dibujos adjuntos necesarios para describir las formas de realización o la técnica anterior. Aparentemente, los dibujos adjuntos descritos a continuación son meramente algunas formas de realización registradas en la presente solicitud, y los expertos en la técnica aún pueden deducir otros dibujos a partir de estos dibujos adjuntos.

La FIG. 1 es un diagrama de flujo esquemático de un método para construir un modelo de la huella vocal de un usuario de acuerdo con la presente solicitud;

La FIG. 2 es un diagrama de flujo esquemático de un método de verificación de la identidad del usuario de acuerdo con un ejemplo que no está cubierto por la invención reivindicada;

La FIG. 3 es un diagrama estructural esquemático de un aparato para construir un modelo de la huella vocal de un usuario de acuerdo con la presente solicitud;

La FIG. 4 es un diagrama estructural esquemático de un aparato de verificación de la identidad del usuario de acuerdo con un ejemplo que no está cubierto por la invención reivindicada; y

La FIG. 5 es un diagrama estructural esquemático de un sistema de verificación de la identidad del usuario de acuerdo con un ejemplo que no está cubierto por la invención reivindicada.

Descripción detallada

La voz es un importante soporte para la comunicación entre humanos. Con el rápido desarrollo de tecnologías tales como el reconocimiento de voz, los usuarios ya se pueden comunicar con los ordenadores a través de la voz en muchos escenarios, tal como la entrada vocal y el control vocal. En otras palabras, desde la perspectiva de un ordenador, hay muchas oportunidades de recopilar información de la voz del usuario. Además, la información vocal de un usuario se puede recopilar a partir de un mensaje telefónico y un registro telefónico en tiempo real del usuario. Basándose en dicha condición real, la presente solicitud proporciona una solución que puede implementar el modelado de la huella vocal de un usuario en cualquier escenario en el que se pueda recopilar la voz de un usuario, sin añadir ningunas operaciones de registro adicional para el usuario, resolviendo de este modo el problema en la técnica anterior de que la operación de registro de la huella vocal es complicada.

El reconocimiento de huellas vocales incluye el reconocimiento de huellas vocales dependiente del texto y el reconocimiento de huellas vocales independiente del texto. Un sistema de reconocimiento de huellas vocales dependiente del texto requiere que un usuario pronuncie de acuerdo con el contenido especificado durante el registro. Se establece con precisión un modelo de la huella vocal de cada usuario. Además, el usuario también debe pronunciar de acuerdo con el contenido especificado durante el reconocimiento. Se puede conseguir un efecto de reconocimiento deseable ya que los modelos de las huellas vocales de todos los usuarios son "estándar". Sin embargo, el sistema requiere la cooperación del usuario, y si la pronunciación del usuario no confirma el contenido especificado, no se puede reconocer correctamente al usuario. En teoría, un sistema de reconocimiento independiente del texto puede no especificar el contenido de la pronunciación del hablante. Sin embargo, es relativamente difícil establecer un modelo, y no se puede conseguir un efecto de reconocimiento ideal durante la aplicación real.

Para garantizar el efecto de reconocimiento, la solución proporcionada en la presente solicitud se propone para la tecnología de reconocimiento de huella vocal "dependiente del texto", y entonces, un problema que se debe resolver es: cómo permitir a un usuario decir en voz alta el "contenido especificado" sin aumentar una operación adicional para el usuario.

Durante la implementación de esta solución, el inventor descubre que: en un escenario de aplicación específico, un usuario tiene una probabilidad muy alta de decir en voz alta una palabra clave relacionada con el escenario. Por ejemplo, cuando el usuario realiza una consulta sobre un producto utilizando la voz (por ejemplo, de una manera tal como por teléfono o mediante un mensaje de voz), es casi inevitable que el usuario diga en voz alta una o varias palabras clave del producto, tales como el nombre, el modelo, la función, la pieza y el fallo normal. Cuando el usuario realiza una operación de control vocal, muchas instrucciones de control vocal también están predefinidas, y hay una variedad de escenarios similares. Basándose en dichas condiciones reales, para los diferentes escenarios en los que se aplica el reconocimiento de la huella vocal, se pueden hacer estadísticas por adelantado sobre una o más palabras clave de alta frecuencia que aparecen en estos escenarios, y las palabras de alta frecuencia se definen como el "contenido especificado". De esta manera, el sistema puede implementar el modelado de la huella vocal para el usuario una vez que el usuario diga en voz alta estas palabras clave durante la interacción vocal.

Para que los expertos en la técnica puedan comprender mejor la solución técnica de la presente solicitud, se describirán en detalle las soluciones técnicas de las formas de realización de la presente solicitud a través de los dibujos adjuntos a las formas de realización de la presente solicitud. Aparentemente, las formas de realización descritas son simplemente una parte de las formas de realización de la presente solicitud, y no son todas las formas de realización.

Según se muestra en la FIG. 1, se muestra un diagrama de flujo de un método para construir un modelo de la huella vocal de un usuario de acuerdo con la presente solicitud, y el método puede incluir las siguientes etapas:

S101: Se recibe la información vocal introducida por un usuario;

S102: Se determina si una palabra clave preestablecida que cumple un requisito de modelado se lleva en la información vocal;

S103: Cuando el resultado de la determinación es afirmativo, se captura un segmento vocal a partir de la información vocal correspondiente a la palabra clave preestablecida que cumple un requisito de modelado; y

S104: Se construye un modelo de la huella vocal para el usuario utilizando el segmento vocal.

La solución anterior se ilustrará adicionalmente en detalle a continuación:

En teoría, la solución de la presente solicitud se puede implementar en cualquier escenario en el que se pueda recopilar la voz de un usuario, tal como entrada vocal, control vocal y mensajes telefónicos. En definitiva, durante la solicitud real, se deben considerar de forma adicional los siguientes factores: si el escenario tiene un requisito de reconocimiento de la huella vocal, si se puede determinar la identidad de un usuario que habla actualmente, la longitud de la voz del usuario (que implica la complejidad de cálculo), si se puede recopilar con eficacia un segmento vocal que lleve una palabra clave (que implica la eficacia de la recopilación), etc.

Un escenario de aplicación típico es, por ejemplo, un "una frase describe un problema" en un sistema de respuesta vocal interactivo (IVR). El sistema puede confirmar la identidad de un usuario de acuerdo con un identificador de llamadas o por medio de información de verificación introducida manualmente por el usuario, o de otras maneras. La longitud vocal de "una frase" es adecuada para el procesamiento posterior. Además, es muy probable que el usuario diga en voz alta algunas palabras clave en muchos escenarios de servicios específicos. Por ejemplo, en un escenario de transacción en línea, las palabras clave que pueden intervenir incluyen: pedido, recibo, suministro, importe, etc. En un escenario tal como el banco y el pago, las palabras clave que pueden intervenir incluyen: transferencia, saldo, cuenta, contraseña, etc.

Además, cuando el usuario utiliza un terminal personal, se pueden utilizar varias instrucciones de control vocal utilizadas en una capa del sistema operativo o en diversas capas de aplicación específicas para la recopilación de la información vocal durante el modelado de la huella vocal. En primer lugar, el usuario puede realizar una variedad de operaciones de verificación cuando utiliza el terminal como una pertenencia personal. Por ejemplo, se puede requerir que el usuario introduzca un gesto o una contraseña numérica al desbloquear un teléfono móvil o al entrar en algunas aplicaciones específicas, cumpliendo por lo tanto primero el requisito de verificación de la identidad del usuario. Además, las instrucciones de control vocal utilizadas por tanto por el sistema operativo como por la aplicación específica no son demasiado largas, y muchas de ellas también están predefinidas. Por ejemplo, la función de interacción vocal en un teléfono móvil Android se activa utilizando una instrucción de voz "OK Google" u "OK Google ya". Todas estas palabras clave se pueden utilizar para implementar el modelado de la huella vocal del usuario.

Si el requisito de la complejidad de cálculo no es tan alto, se puede grabar una llamada del usuario a la que se haya accedido realmente a una plataforma de respuesta manual, y la voz del usuario y la voz de la plataforma de respuesta manual se distinguen de acuerdo con las características del audio, de tal manera que sólo se analice la parte vocal del usuario en las etapas posteriores. De esta manera, se puede recopilar con mayor eficacia un segmento vocal que contenga una palabra clave a partir de una llamada larga y completa del usuario.

En definitiva, los diversos escenarios de aplicación mencionados anteriormente se utilizan meramente a título ilustrativo, y no se deben entender como una limitación a la solución de la presente solicitud.

De acuerdo con S101, la información vocal del usuario se puede recibir en cualquier escenario de aplicación. En definitiva, el requisito final es implementar el modelado de la huella vocal y, por consiguiente, es necesario confirmar primero la identidad del hablante actual de otra manera (tal como una identificación de usuario, una contraseña de verificación, un gesto, una huella digital, etc.).

En S102, se determina si una palabra clave preestablecida que cumple con un requisito de modelado se lleva en la información vocal. En este caso, una o más palabras clave se pueden preestablecer de acuerdo con los requisitos reales. La preconfiguración de múltiples palabras clave tiene la ventaja de que: por un lado, se puede mejorar la probabilidad de modelar con éxito, es decir, el modelado de la huella vocal se puede implementar siempre que el usuario diga en voz alta al menos una de las múltiples palabras clave; por otro lado, se puede requerir la utilización de múltiples segmentos de huella vocal para la verificación conjunta en algunos escenarios de aplicación que tengan altos requisitos de seguridad.

En esta etapa, es necesario determinar si una palabra clave preestablecida está presente en la información vocal utilizando una tecnología relacionada con el reconocimiento del habla. Un modelo de un sistema de reconocimiento vocal generalmente incluye dos partes que incluyen un modelo acústico y un modelo de lenguaje, que corresponden respectivamente al cálculo de una probabilidad de voz a sílabas y al cálculo de una probabilidad de sílabas a palabras. De acuerdo con un requisito real de la solución de la presente solicitud, el reconocimiento de la información vocal se puede implementar desde las dos perspectivas siguientes:

a) Utilizando características acústicas:

Todas las lenguas humanas están compuestas por una serie de sílabas secuenciales, y la información sonora consecutiva se denomina como un flujo silábico. Desde la perspectiva de la acústica, un flujo silábico se puede dividir en varias sílabas independientes. Además, cada sílaba de pronunciación tiene su característica de audio fija. La tecnología de reconocimiento de voz establece un modelo acústico basado en los dos aspectos, implementando por lo tanto la segmentación de palabras en el flujo silábico. Sin embargo, en la presente solicitud, la tecnología se puede utilizar directamente para implementar el reconocimiento en la información vocal del usuario, y una solución específica incluye las siguientes etapas:

dividir la información vocal utilizando el modelo acústico para obtener al menos un segmento vocal; y

determinar si el segmento vocal obtenido o una combinación del mismo coincide con la característica de audio de la palabra clave preestablecida que cumple con un requisito de modelado, y en caso afirmativo, determinar que la palabra clave preestablecida que cumple con un requisito de modelado se lleva en la información vocal.

Por ejemplo, las palabras clave preestablecidas incluyen: transferencia, saldo, cuenta y contraseña, y entonces, el sistema debe prealmacenar datos de audio o datos de las características de audio de las cuatro palabras clave. Si la voz recibida del usuario es "consultar el saldo", se pueden obtener primero varios segmentos vocales (los resultados específicos de la división pueden ser diferentes de acuerdo con los distintos algoritmos de división, que no se describen en este documento) dividiéndolos con un modelo acústico, y se puede saber después de la comparación que estos segmentos o combinaciones de segmentos incluyen partes que coinciden con la característica de audio "saldo". Por consiguiente, se puede determinar que la palabra clave que cumple un requisito de modelado se lleva en la información vocal.

b) Utilizando características del lenguaje:

La segmentación de palabras de texto pertenece al campo de las tecnologías de procesamiento del lenguaje natural. En comparación con la segmentación de palabras a nivel puramente acústico, la tecnología de segmentación de palabras de texto está más avanzada y tiene un mejor efecto real. Además, se puede entender que una misma pronunciación puede corresponder a varios tipos de textos y, por consiguiente, se puede conseguir un mejor efecto comparando directamente el contenido del texto durante la comparación. En la presente solicitud, el reconocimiento de la información vocal del usuario se puede implementar utilizando directamente una combinación de la tecnología de reconocimiento de voz y la tecnología de segmentación de palabras de texto. Una solución específica incluye las siguientes etapas:

realizar el reconocimiento de voz en la información vocal para obtener la información de texto correspondiente;

dividir la información del texto utilizando un modelo lingüístico para obtener al menos un segmento de texto; y

determinar si el segmento de texto obtenido o una combinación del mismo está de acuerdo con el contenido de texto de la palabra clave preestablecida que cumple con un requisito de modelado, y en caso afirmativo, determinar que la palabra clave preestablecida que cumple con un requisito de modelado se lleva en la información vocal.

De acuerdo con las dos soluciones anteriores, los expertos en la técnica pueden realizar selecciones de forma flexible de acuerdo con los requisitos reales. Por ejemplo, de acuerdo con las características de los diferentes idiomas, cada palabra de un idioma occidental (tal como el inglés y el francés) tiene un significado relativamente completo, pero cada carácter del chino no tiene esta característica; por consiguiente, la forma de procesamiento que simplemente utiliza las características acústicas es más adecuada para procesar los idiomas occidentales en la actualidad. Se sugiere que el chino se procese con referencia a las características de la lengua. En definitiva, se debe señalar que la presente solicitud no se centra en el algoritmo de reconocimiento de voz o en el algoritmo de segmentación de palabras, y cualquier medida técnica se puede aplicar a la presente solicitud siempre que pueda satisfacer los requisitos correspondientes.

Si se ha confirmado en S102 que la palabra clave preestablecida que cumple con un requisito de modelado se lleva en la información vocal del usuario, el segmento vocal correspondiente se capturará adicionalmente a partir de la información vocal en S103. Si la determinación se realiza en base al segmento vocal en S102, el segmento vocal se captura directamente de acuerdo con el resultado de la coincidencia del segmento vocal. Si la determinación se realiza en base al segmento de texto en S102, el segmento vocal se captura de acuerdo con una posición del segmento vocal correspondiente obtenido por deducción inversa del resultado de la coincidencia del segmento de texto. Por ejemplo, un usuario dijo: "Quiero consultar el saldo de la cuenta", donde "cuenta" y "saldo" son palabras clave preestablecidas que cumplen un requisito de modelado. Las posiciones relativas de las dos palabras en toda la información vocal se pueden determinar de acuerdo con el procedimiento de procesamiento en S102, y a continuación se capturan los segmentos de audio de las dos palabras "cuenta" y "saldo".

En S104, el modelado de la huella vocal se realiza utilizando el segmento de audio capturado en S103. El método de modelado específico no está relacionado con la presente solicitud y no se describe en detalle en este documento. Por último, el resultado del modelado se almacena junto con el identificador de identidad del hablante determinado en S101, para formar una biblioteca de modelos de las huellas vocales del usuario.

Aplicando el método anterior, cuando el usuario utiliza otras funciones vocales, el modelado de la huella vocal se puede realizar "por casualidad", facilitando por lo tanto la utilización por parte del usuario. Además, utilizar las "palabras clave" puede tanto satisfacer el requisito de modelado "dependiente del texto" como garantizar un alto índice de éxito en el modelado.

Además, el método anterior se puede aplicar adicionalmente a la actualización del modelo de la huella vocal, además de aplicarse al registro de la información de la huella vocal por primera vez. Se puede considerar una estrategia de actualización específica desde las dos perspectivas siguientes:

1) Mejora de un modelo:

El procedimiento anterior de construcción de un modelo de la huella vocal admite múltiples palabras clave por defecto, y el usuario puede no decir en voz alta necesariamente todas las palabras clave durante una interacción vocal. Sin embargo, la interacción vocal del usuario es un comportamiento normal y, por consiguiente, después de que la construcción de un modelo de la huella vocal se completa por primera vez, la información vocal del usuario se puede recopilar de nuevo en el procedimiento posterior de interacción con el usuario. Si la información vocal recién recopilada incluye una palabra clave que no está incluida en el modelo anterior, la nueva palabra clave se puede utilizar para complementar el modelo de la huella vocal existente.

En concreto, para un usuario en particular, suponiendo que existe actualmente un modelo de la huella vocal del usuario, en S102, la "palabra clave preestablecida que cumple un requisito de modelado" se puede definir adicionalmente como la "palabra clave preestablecida que no está incluida en el modelo de la huella vocal actual del usuario".

Por ejemplo, las palabras clave designadas por el sistema incluyen: "transferencia", "saldo", "cuenta" y "contraseña". Cuando un usuario X se registra por primera vez para obtener información vocal, se han establecido modelos de las huellas vocales para dos palabras clave, "cuenta" y "saldo", para el usuario respectivamente. Por consiguiente, se recopila adicionalmente la información vocal "Quiero modificar la contraseña de la cuenta» del usuario X. De acuerdo con S102, se puede determinar que tanto "cuenta" como "contraseña" pertenecen a las palabras clave preestablecidas, en donde "contraseña" es una palabra clave preestablecida que no está incluida en el modelo de la huella vocal actual del usuario X. Por consiguiente, el modelado de la huella vocal se realiza utilizando la "contraseña" posteriormente, y el resultado del modelado se añade a una biblioteca de modelos de las huellas vocales del usuario X.

Aplicando este método, el modelo de la huella vocal del usuario se puede mejorar continuamente, para satisfacer diversos requisitos especiales. Además, si el sistema tiene un mayor requisito de seguridad, se puede especificar que el número de palabras clave incluidas en un modelo de la huella vocal del usuario debe ser mayor que un determinado número antes de que las palabras clave se apliquen. Cuando el modelado de la huella vocal del usuario no se puede implementar realizando sólo la recopilación de la información vocal una vez, se puede adoptar el método de esta forma de realización para completar el modelado de la huella vocal del usuario mediante la recopilación de la información vocal del usuario múltiples veces.

2) Preparación de un modelo:

La tecnología de reconocimiento biométrico y la tecnología de aprendizaje automático están estrechamente relacionadas. En muchos escenarios de aplicación, un modelo se prepara generalmente recopilando muestras múltiples veces, mejorando de este modo el rendimiento en múltiples aspectos tales como la precisión del reconocimiento y la tolerancia a los fallos. Para la solución de la presente solicitud, la preparación del modelo de la huella vocal también se puede realizar mediante la recopilación de la información vocal de un mismo usuario para una misma palabra clave múltiples veces.

Se puede observar que, el requisito en este documento es opuesto al requisito de 1). En concreto, para implementar múltiples veces la recopilación de una muestra de la huella vocal para una misma palabra clave, en S102, la "palabra clave preestablecida que cumple con un requisito de modelado" se debe definir adicionalmente como la "palabra clave preestablecida que se ha incluido en el modelo de la huella vocal actual del usuario."

Por ejemplo, las palabras clave designadas por el sistema incluyen: "transferencia", "saldo", "cuenta" y "contraseña". Cuando un usuario X se registra por primera vez para obtener información vocal, se han establecido modelos de las huellas vocales para dos palabras clave, "cuenta" y "saldo", para el usuario respectivamente. En el proceso posterior de recopilación de la información vocal, sólo se puede prestar atención a las dos palabras clave, "cuenta" y "saldo", de tal manera que los modelos de las huellas vocales de las dos palabras clave se preparan de forma continua.

En la aplicación real, también se pueden establecer algunas condiciones de limitación para evitar recopilar la información vocal del usuario de forma ilimitada. Por ejemplo, si el número de muestras de huellas vocales recopiladas para una palabra clave ha alcanzado un umbral, ya no se recopilará ninguna muestra de huellas vocales para la palabra clave a posterior.

Además, de acuerdo con un requisito específico de la aplicación y el algoritmo de preparación seleccionado, las muestras recopiladas durante varias veces se pueden procesar utilizando un método tal como el de promediado y retención simultánea, que no se debe limitar en la presente solicitud.

Las dos estrategias de actualización mencionadas anteriormente se pueden implementar de forma independiente o combinadas. De hecho, desde una perspectiva macroscópica, la implementación de las dos funciones no se verá afectada incluso aunque la "palabra clave preestablecida que cumple un requisito de modelado" no esté definida. En otras palabras, cada vez que se realiza S102, se adquieren todas las palabras clave que llevan esta información vocal en la medida de lo posible. Se establece un nuevo modelo de huella vocal para una palabra clave que no esté incluida en el modelo anterior, y una palabra clave que haya sido incluida en el modelo anterior se utiliza para preparar el modelo anterior. Además, se puede seleccionar una de las dos funciones anteriores para su implementación. Es importante que aplicar la solución de la presente solicitud permite aprender sin causar molestias al usuario, perfeccionando por lo tanto de forma gradual el modelo de la huella vocal del usuario.

El método para construir un modelo de la huella vocal de un usuario proporcionado por la presente solicitud se presentó anteriormente. Basándose en un concepto similar, la presente solicitud proporciona adicionalmente un método de verificación de la identidad del usuario en función de la huella vocal, que no está cubierto por la invención reivindicada. Con referencia a la FIG. 2, el método puede incluir las siguientes etapas:

S201: Se recibe la información vocal introducida por un usuario.

S202: Se determina si una palabra clave preestablecida que cumple un requisito de verificación se lleva en la información vocal.

S203: Cuando el resultado de la determinación es afirmativo, se captura la información vocal de un segmento vocal correspondiente a la palabra clave preestablecida que cumple un requisito de verificación.

S204: Se extrae una característica de la huella vocal del segmento vocal.

S205: La identidad del usuario se verifica utilizando la característica de la huella vocal y un modelo preconstruido de la huella vocal del usuario.

Las etapas S201 a S203 son básicamente idénticas a las etapas S101 a S103 en términos de implementación técnica, y la diferencia radica sólo en los diferentes escenarios de aplicación. S204 a S205 son etapas normales de verificación de la huella vocal, y no se presentarán en detalle. La diferencia entre la solución de la presente solicitud y la solución convencional de verificación de la huella vocal se enfatiza a continuación.

De acuerdo con la introducción de la técnica anterior de la presente solicitud, se sabe que el reconocimiento de la huella vocal incluye principalmente dos etapas que incluyen el registro y la aplicación, en donde la etapa de registro proporciona la preparación de datos necesaria para la sección de aplicación. El modelado de la huella vocal implementado mediante la aplicación del método de la presente solicitud principalmente se puede aplicar a diversos requisitos de aplicación. Además, también se pueden cumplir algunos requisitos de aplicación especiales de acuerdo con las características de la solución de la presente solicitud.

En sentido estricto, los escenarios de aplicación de las tecnologías de reconocimiento de características biométricas, incluyendo el reconocimiento de la huella vocal, se pueden clasificar con precisión adicional en dos categorías: verificación e identificación. La verificación se refiere a la autentificación de si el usuario tiene la identidad declarada por él mismo, por ejemplo, un bloqueo de huellas dactilares, un bloqueo de huellas vocales, etc. La identificación se refiere a determinar la identidad del usuario, por ejemplo, el órgano de seguridad pública identifica a un criminal investigando las huellas dactilares o los registros de la escena del crimen. Es fácil saber que la verificación tiene un requisito menor que la identificación.

La solución técnica proporcionada en la presente solicitud se propone sobre la base del requisito de "verificación", y tiene al menos las siguientes características en comparación con la verificación normal de la huella vocal.

En primer lugar, aunque la solución proporcionada por la presente solicitud se basa en la tecnología de la huella vocal "dependiente del texto", cuando se aplica la solución, no es necesario que el usuario diga en voz alta el "contenido especificado" a propósito, y tampoco es necesario que el sistema pregunte o guíe al usuario a propósito. Esto se debe a que todos los requisitos anteriores se pueden cumplir por casualidad cuando el usuario realiza otras operaciones.

Por ejemplo, en un sistema de autoservicio de voz de un banco, cuando un usuario marca un número de servicio y dice en voz alta "consultar el saldo" en la sección de "una frase describe un problema" de acuerdo con una solicitud de voz de autoservicio, el sistema puede realizar el reconocimiento de voz, el reconocimiento semántico, el análisis de requisitos y otros procesamientos de acuerdo con la información, y determinar que al estar el servicio relacionado con la privacidad personal y la identidad del usuario se debe autenticar adicionalmente. La manera convencional de procesar puede ser que se proporcione al usuario una solicitud "Por favor, introduzca la contraseña de su cuenta, y termine con #", y a continuación el usuario opera de acuerdo con la solicitud para completar la verificación. Utilizando la solución proporcionada en la presente solicitud, si se ha completado previamente el modelado de la palabra clave "saldo" para el usuario, después de que el usuario diga en voz alta "consultar el saldo", la verificación se puede implementar utilizando la huella vocal, y no es necesario que el usuario introduzca una contraseña. La conveniencia de la verificación por huella vocal se disfruta cuando no es necesario decir en voz alta el "contenido especificado" a propósito.

A continuación, el contenido específico pronunciado por el usuario es incierto; sin embargo, de acuerdo con las características de las "palabras clave", existe realmente una alta probabilidad de que el usuario diga en voz alta estas palabras clave, y la probabilidad puede mejorar obviamente a medida que se incrementa el número de palabras clave. Incluso si la verificación de la huella vocal falla, se puede seguir utilizando la forma normal de verificación. Por ejemplo, se puede utilizar la introducción manual de una contraseña en el ejemplo anterior, y esto no supondrá problemas adicionales para el usuario.

Además, al definir la "palabra clave preestablecida que cumple un requisito de verificación" en S203, el rendimiento del sistema se puede mejorar adicionalmente o se pueden cumplir requisitos específicos adicionales. Por ejemplo, la "palabra clave preestablecida que cumple un requisito de verificación" se puede definir como: una palabra clave preestablecida que se haya incluido en el modelo de la huella vocal actual del usuario, para evitar que el sistema realice un procesamiento no válido posteriormente, tal como la extracción o la coincidencia de la huella vocal. Además, para un escenario de aplicación que tenga un requisito de seguridad superior, tal como una transacción de pago, el número de palabras clave que lleva la voz del usuario también se puede definir en la "palabra clave preestablecida que cumple un requisito de verificación". Si no se cumple el requisito de número, se considera que esta forma no es lo suficientemente segura, y en ese momento, la forma de verificación de la huella vocal se puede abandonar y se puede utilizar otra forma más segura en su lugar.

Por último, se puede entender que el método de modelado de la huella vocal y el método de verificación de la huella vocal proporcionados por la presente solicitud se basan en el mismo principio y, por consiguiente, las dos soluciones se pueden integrar de diversas maneras. Por ejemplo, después del procedimiento de verificación, la información vocal del usuario utilizada en esta verificación se puede seguir utilizando para perfeccionar el modelo de la huella vocal. En una aplicación típica, primero se determina si la información vocal utilizada en esta verificación lleva una palabra clave preestablecida que no esté incluida en el modelo de la huella vocal actual del usuario, y en caso afirmativo, se captura un segmento vocal correspondiente a la palabra clave a partir de la información vocal, y el modelo de la huella vocal del usuario se actualiza utilizando el segmento vocal. La forma específica de actualización se puede obtener con referencia a las formas de realización anteriores, y no se repetirá en este documento. Además, desde la perspectiva del procedimiento técnico, si la verificación de identidad tiene éxito no afecta a la actualización del modelo de la huella vocal. En definitiva, si se considera la mejora de la seguridad, la operación de actualización del modelo de la huella vocal se puede activar adicionalmente cuando la verificación de la identidad del usuario tenga éxito. Además, la "verificación de la identidad con éxito" no se limita a la verificación de la identidad de la huella vocal.

En resumen, en comparación con la técnica anterior, la presente solicitud tiene como principal ventaja que: el registro y la verificación de la información de la huella vocal del usuario se pueden implementar por casualidad cuando el usuario realice otras operaciones basadas en la voz, facilitando por lo tanto la utilización por parte del usuario. Además, al establecer una palabra clave particular para un escenario de aplicación particular, se puede conservar la ventaja de "depender del texto", y también se puede garantizar un índice de éxito superior en el escenario de aplicación incierto original.

En correspondencia con la forma de realización del método anterior, la presente solicitud proporciona además un aparato para construir un modelo de la huella vocal de un usuario. Con referencia a la FIG. 3, el aparato puede incluir: un módulo de recepción de información vocal 110 configurado para recibir información vocal introducida por un usuario;

un módulo de determinación de palabras clave de modelado 120 configurado para determinar si una palabra clave preestablecida que cumple con un requisito de modelado se lleva en la información vocal;

un módulo de captura de segmentos vocales 130 configurado para, cuando el resultado de la determinación es afirmativo, capturar, a partir de la información vocal, un segmento vocal correspondiente a la palabra clave preestablecida que cumple un requisito de modelado; y

un módulo de construcción del modelo de la huella vocal 140 configurado para construir un modelo de la huella vocal para el usuario utilizando el segmento vocal.

Según una implementación específica de la presente solicitud, el modelo de determinación de palabras clave de modelado 120 se puede configurar en concreto para:

cuando el modelo de la huella vocal del usuario ya existe actualmente, determinar si una palabra clave preestablecida que no está incluida en el modelo de la huella vocal se lleva en la información vocal;

o

cuando el modelo de la huella vocal del usuario ya existe actualmente, determinar si una palabra clave preestablecida que ya se haya incluido en el modelo de la huella vocal se lleva en la información vocal. De acuerdo con una implementación específica de la presente solicitud, el modelo de construcción del modelo de la huella vocal 140 se puede configurar en concreto para:

cuando el modelo de la huella vocal del usuario ya existe actualmente, actualizar el modelo de la huella vocal utilizando el segmento vocal.

dividir la información vocal mediante un modelo acústico para obtener al menos un segmento vocal; y determinar si el segmento vocal obtenido o una combinación de los mismos coincide con la característica de audio de la palabra clave preestablecida que cumple un requisito de modelado y, en caso afirmativo, determinar que la palabra clave preestablecida que cumple un requisito de modelado se lleva en la información vocal.

O

el modelo de determinación de palabras clave de modelado 120 se puede configurar adicionalmente en concreto para:

realizar el reconocimiento de voz en la información vocal para obtener la información de texto correspondiente; dividir la información del texto utilizando un modelo lingüístico para obtener al menos un segmento de texto; y

determinar si el segmento de texto obtenido o una combinación del mismo está de acuerdo con el contenido de texto de la palabra clave preestablecida que cumple un requisito de modelado, y en caso afirmativo, determinar que la palabra clave preestablecida que cumple un requisito de modelado se lleva en la información vocal.

En correspondencia con el método anterior, la presente solicitud proporciona adicionalmente un aparato de verificación de la identidad del usuario en función de la huella vocal que no está cubierto por la invención reivindicada. Con referencia a la FIG. 4, el aparato puede incluir:

un módulo de recepción de información vocal 210 configurado para recibir información vocal introducida por un usuario;

un módulo de determinación de las palabras clave de verificación 220 configurado para determinar si una palabra clave preestablecida que cumple con un requisito de verificación se lleva en la información vocal; un módulo de captura de segmentos vocales 230 configurado para, cuando el resultado de la determinación es afirmativo, capturar, a partir de la información vocal, un segmento vocal correspondiente a la palabra clave preestablecida que cumple un requisito de verificación;

un módulo de extracción de las características de la huella vocal 250 configurado para extraer una característica de la huella vocal del segmento vocal; y

un módulo de verificación 260 configurado para verificar la identidad del usuario utilizando la función de la huella vocal y un modelo de la huella vocal preconstruido del usuario.

La presente solicitud proporciona además un sistema de verificación de la identidad del usuario basado en la huella vocal, y el sistema puede incluir el aparato para construir un modelo de la huella vocal del usuario y el aparato de verificación de la identidad del usuario según se describió anteriormente.

De hecho, las funciones implementadas por algunos módulos en los dos aparatos anteriores son completamente iguales, por ejemplo:

el módulo de recepción de información vocal 110 y el módulo de recepción de información vocal 210;

el módulo de captura de segmentos vocales 130 y el módulo de captura de segmentos vocales 230;

y una diferencia entre el módulo de determinación de palabras clave de verificación 120 y el módulo de determinación de palabras clave de verificación 220 reside simplemente en las diferentes reglas de acuerdo con las cuales se realiza la determinación. Por consiguiente, durante las aplicaciones reales, estos módulos idénticos o similares se pueden multiplexar por completo en el sistema, según se muestra en la FIG. 5.

El módulo de recepción de información vocal 310 integra las funciones del módulo de recepción de información vocal 110 y del módulo de recepción de información vocal 210.

El módulo de determinación de palabras clave 320 integra las funciones del módulo de determinación de palabras clave de verificación 120 y del módulo de determinación de palabras clave de verificación 220.

El módulo de captura de segmentos vocales 330 integra las funciones del módulo de captura de segmentos vocales 130 y del módulo de captura de segmentos vocales 230.

Las funciones del módulo de construcción del modelo de la huella vocal 340, el módulo de extracción de las características de la huella vocal 350 y el módulo de verificación 360 son respectivamente idénticas a las funciones de los módulos de los mismos nombres en los aparatos anteriores.

Los procesos de implementación de las funciones y los efectos de todas las unidades del aparato anterior pueden hacer referencia en concreto a los procesos de implementación de las etapas correspondientes en el método anterior, y no se repiten en la presente memoria.

Basándose en la descripción anterior de las formas de implementación, un experto en la técnica puede comprender claramente que la presente solicitud se puede implementar mediante software en combinación con una plataforma de hardware universal necesaria. Sobre la base de dicha comprensión, la solución técnica de la presente solicitud en esencia, o la parte que contribuye a la técnica anterior, se puede incorporar en la forma de un producto de software, que no está cubierto por la invención reivindicada. El producto de software se puede almacenar en un medio de almacenamiento, tal como una ROM/RAM, un disco magnético o un disco óptico, e incluir varias instrucciones que permitan a un dispositivo informático (que puede ser un ordenador personal, un servidor, un dispositivo de red o similar) ejecutar el método en todas las formas de realización o ciertas partes de las formas de realización de la presente solicitud.

Diversas formas de realización de la memoria descriptiva se describen de forma progresiva. Las partes iguales o similares entre las formas de realización pueden hacer referencia unas a otras. Cada forma de realización se focaliza y describe la parte que es diferente de las otras formas de realización. En particular, la forma de realización del aparato o sistema es básicamente similar a la forma de realización del método, de modo que se describa de forma sencilla, y para las partes relacionadas, se puede hacer referencia a la descripción de las partes en la forma de realización del método. La forma de realización del aparato o sistema descrita anteriormente es meramente ilustrativa, en la que los módulos ilustrados como partes separadas pueden estar o no separados físicamente. Durante la implementación de la presente solicitud, las funciones de los módulos se pueden implementar en la misma una o más piezas de software y/o hardware. El objetivo de la solución de la presente forma de realización se puede implementar seleccionando una parte o todos los módulos de la misma de acuerdo con los requisitos reales. Los expertos en la técnica pueden entender e implementar la presente solicitud sin esfuerzos creativos.

Las implementaciones específicas de la presente solicitud se describen más arriba. Se debe señalar que, los expertos en la técnica que, pueden hacer varias mejoras y modificaciones sin apartarse del alcance de la presente invención, que se define por las reivindicaciones.

Claims

REIVINDICACIONES

1. Un método para construir un modelo de la huella vocal de un usuario, que comprende:

recibir una primera entrada de información vocal por parte de un usuario (S101) que tiene una identidad de hablante, en donde el usuario no ha registrado una huella vocal, en donde la primera entrada de información vocal se recibe para una función distinta del registro de información de la huella vocal, y en donde el usuario está operando en un escenario de aplicación particular;

confirmar la identidad del habla del usuario utilizando información distinta de la primera entrada de información vocal;

determinar si una palabra clave preestablecida que cumple un requisito de modelado se lleva en la primera información vocal (SI02), en donde si una palabra clave preestablecida se lleva en la primera información vocal se determina utilizando una tecnología de reconocimiento de voz, en donde el requisito de modelado preestablecido se satisface con todas las palabras clave preestablecidas llevadas en la primera información vocal, y en donde la palabra clave preestablecida es un conjunto de palabras clave para el escenario de aplicación particular;

cuando el resultado de la determinación sea afirmativo, capturar, a partir de la primera información vocal, un segmento vocal correspondiente a la palabra clave preestablecida que cumpla un requisito de modelado (S103);

construir un modelo de la huella vocal para el usuario utilizando el segmento vocal (SI04); y

almacenar el modelo de la huella vocal construido junto con un identificador de identidad del hablante para formar una biblioteca de modelos de las huellas vocales del usuario.

2. Un aparato para construir un modelo de la huella vocal de un usuario, que comprende varios módulos configurados para realizar el método de la reivindicación 1.