ES2817841T3 - Procedimiento y aparato para ajustar umbral de detección para activar función de asistente de voz - Google Patents

Procedimiento y aparato para ajustar umbral de detección para activar función de asistente de voz Download PDF

Info

Publication number
ES2817841T3
ES2817841T3 ES14784130T ES14784130T ES2817841T3 ES 2817841 T3 ES2817841 T3 ES 2817841T3 ES 14784130 T ES14784130 T ES 14784130T ES 14784130 T ES14784130 T ES 14784130T ES 2817841 T3 ES2817841 T3 ES 2817841T3
Authority
ES
Spain
Prior art keywords
mobile device
context
threshold
unit
voice assistant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14784130T
Other languages
English (en)
Inventor
Minsub Lee
Taesu Kim
Kyu Woong Hwang
Minho Jin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2817841T3 publication Critical patent/ES2817841T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)

Abstract

Un procedimiento para activar una función de asistente de voz en un dispositivo móvil, comprendiendo el procedimiento: recibir un flujo de sonido de entrada por un sensor de sonido; determinar un contexto del dispositivo móvil; ajustar un umbral para activar la función de asistente de voz en base al contexto; detectar una palabra clave objetivo del flujo de sonido de entrada en base a una característica de sonido extraída del flujo de sonido de entrada y en base al umbral ajustado; y activar la función de asistente de voz si se detecta la palabra clave objetivo; caracterizado por que ajustar el umbral comprende ajustar el umbral en base a una probabilidad de usar la función de asistente de voz en el contexto del dispositivo móvil.

Description

DESCRIPCIÓN
Procedimiento y aparato para ajustar umbral de detección para activar función de asistente de voz
CAMPO
[0001] La presente divulgación se refiere en general a un procedimiento para activar una función de asistente de voz en un dispositivo móvil. Más específicamente, la presente divulgación se refiere al ajuste de un umbral para detectar una palabra clave objetivo en el dispositivo móvil.
ANTECEDENTES
[0002] En los últimos años, el uso de dispositivos móviles tales como teléfonos inteligentes y tablets se ha generalizado. Dichos dispositivos móviles permiten en general comunicaciones de voz y datos a través de redes inalámbricas. Típicamente, estos dispositivos incluyen características o aplicaciones adicionales, que proporcionan una variedad de funciones diseñadas para mejorar la comodidad del usuario.
[0003] Entre dichas aplicaciones o características, una aplicación de asistente de voz permite que un dispositivo móvil reciba un comando de voz de un usuario para hacer funcionar diversas funciones u otras aplicaciones en respuesta al comando de voz. Por ejemplo, una aplicación de asistente de voz puede permitir al usuario pronunciar un comando de voz para llamar al número de teléfono deseado, reproducir un archivo de audio, hacer una foto, buscar en Internet u obtener información meteorológica, sin hacer funcionar físicamente el dispositivo móvil con la mano. En consecuencia, el usuario puede optar por usar un comando de voz para controlar diversas operaciones del dispositivo móvil en una variedad de situaciones donde el usuario puede no querer o no puede hacer funcionar físicamente el dispositivo móvil.
[0004] Las aplicaciones convencionales de asistente de voz a menudo se activan en respuesta a una entrada física de un usuario (por ejemplo, a mano). Sin embargo, dado que uno de los propósitos al usar una aplicación de asistente de voz puede ser hacer funcionar un dispositivo móvil sin una entrada física, el usuario puede encontrar inconveniente o difícil activar físicamente la aplicación de asistente de voz. Por tanto, algunos dispositivos móviles permiten que un usuario active la aplicación de asistente de voz al pronunciar un comando de voz.
[0005] Sin embargo, dichos dispositivos móviles se activan a menudo erróneamente en respuesta a diversos sonidos de entrada capturados por los dispositivos o no se activan en respuesta a un comando de voz adecuado. Por ejemplo, un dispositivo móvil puede reconocer erróneamente el enunciado de otra persona como un comando de voz adecuado y activar una aplicación de asistente de voz. Por otro lado, cuando un dispositivo móvil está en un entorno ruidoso, el dispositivo móvil puede no reconocer un comando de voz adecuado debido al ruido de fondo y, por tanto, no puede activar la aplicación de asistente de voz.
[0006] En un artículo titulado "OK Google... Now We’re Talking!" publicado en opusresearch.net (https:// opusresearch.net/wordpress/2013/08/02/ok-google-now-were-talking/) Dan Miller describe la posibilidad de activar la función de asistente de voz de un teléfono móvil mediante la detección de una palabra clave objetivo.
BREVE EXPLICACIÓN
[0007] La presente divulgación proporciona procedimientos y dispositivos para activar una función de asistente de voz mediante la detección de una palabra clave objetivo en un flujo de sonido de entrada en base a un umbral que puede ajustarse de acuerdo con los contextos de los dispositivos.
[0008] De acuerdo con un aspecto de la presente divulgación, se divulga un procedimiento para activar una función de asistente de voz en un dispositivo móvil. El procedimiento incluye recibir un flujo de sonido de entrada por un sensor de sonido y determinar un contexto del dispositivo móvil. En este procedimiento, un umbral para activar la función de asistente de voz se ajusta en base al contexto. El procedimiento detecta una palabra clave objetivo del flujo de sonido de entrada en base al umbral ajustado. Si se detecta la palabra clave objetivo, el procedimiento activa la función de asistente de voz. La presente divulgación también describe un aparato, un dispositivo, una combinación de medios y un medio legible por ordenador relacionado con este procedimiento.
[0009] De acuerdo con otro aspecto de la presente divulgación, un dispositivo móvil para activar una función de asistente de voz incluye un sensor de sonido, una unidad de ajuste de umbral y una unidad de activación por voz. El sensor de sonido está configurado para recibir un flujo de sonido de entrada. La unidad de ajuste de umbral está configurada para ajustar un umbral para activar la función de asistente de voz determinando un contexto del dispositivo móvil. La unidad de activación por voz está configurada para activar la función de asistente de voz si se detecta una palabra clave objetivo del flujo de sonido de entrada en base al umbral ajustado.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
[0010] Los modos de realización de los aspectos inventivos de la presente divulgación se entenderán con referencia a la siguiente descripción detallada, cuando se lea junto con los dibujos adjuntos.
La FIG. 1 ilustra un dispositivo móvil configurado para ajustar un umbral de detección para activar una función de asistente de voz cuando se determina que un contexto del dispositivo móvil está en un vehículo, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 2 ilustra un dispositivo móvil configurado para ajustar un umbral de detección para activar una función de asistente de voz si se determina que un contexto del dispositivo móvil es por la mañana cuando es probable que un usuario esté despierto, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 3 ilustra un dispositivo móvil configurado para ajustar un umbral de detección para activar una función de asistente de voz si se determina que un contexto del dispositivo móvil es por la noche cuando es probable que un usuario esté dormido, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 4 ilustra un dispositivo móvil configurado para ajustar un umbral de detección para activar una función de asistente de voz cuando se determina que un contexto del dispositivo móvil está en una bolsa, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 5 ilustra un dispositivo móvil configurado para ajustar un umbral de detección para activar una función de asistente de voz en un contexto de recepción de un mensaje de texto, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 6 ilustra un diagrama de bloques de un dispositivo móvil configurado para detectar una palabra clave objetivo a partir de un flujo de sonido de entrada ajustando un umbral para detectar la palabra clave objetivo en base al contexto del dispositivo móvil, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 7 ilustra un diagrama de bloques de una unidad de sensor en un dispositivo móvil configurado para emitir un flujo de sonido y datos de sensor para su uso en la determinación de un contexto del dispositivo móvil, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 8 ilustra un diagrama de bloques de una unidad de ajuste de umbral en un dispositivo móvil configurado para determinar un umbral de detección para activar una función de asistente de voz infiriendo un contexto del dispositivo móvil, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 9 es un diagrama de flujo de un procedimiento, realizado en un dispositivo móvil, para determinar un umbral de detección para activar una función de asistente de voz infiriendo un contexto del dispositivo móvil, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 10 es un diagrama de flujo de un procedimiento, realizado en un dispositivo móvil, para generar un umbral de detección ajustado y restablecer el umbral de detección a un umbral de detección predeterminado después de un período de tiempo especificado, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 11 ilustra un diagrama de bloques de una unidad de activación por voz en un dispositivo móvil configurado para activar una función de asistente de voz mediante la detección de una palabra clave objetivo en un flujo de sonido de entrada en base a un umbral de detección ajustado, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 12 es un diagrama de flujo de un procedimiento, realizado en un dispositivo móvil, para activar una función de asistente de voz mediante la detección de una palabra clave objetivo en un flujo de sonido de entrada en base a un umbral de detección ajustado, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 13 ilustra un diagrama de bloques de un dispositivo móvil en un sistema de comunicación inalámbrica en el cual los procedimientos y los aparatos para detectar una palabra clave objetivo en un flujo de sonido de entrada se basan en un umbral de detección que se ajusta de acuerdo con el contexto del dispositivo móvil, de acuerdo con un modo de realización de la presente divulgación.
DESCRIPCIÓN DETALLADA
[0011] Ahora se hará referencia en detalle a diversos modos de realización de ejemplo, ejemplos de los cuales se ilustran en los dibujos adjuntos. En la siguiente descripción detallada, se exponen numerosos detalles específicos para proporcionar un entendimiento exhaustivo de la presente materia objeto. Sin embargo, será evidente para un experto en la técnica que la presente materia objeto puede llevarse a la práctica sin estos detalles específicos. En otros casos, los procedimientos, sistemas y componentes bien conocidos no se han descrito en detalle para no complicar innecesariamente aspectos de los diversos modos de realización.
[0012] La FIG. 1 ilustra un dispositivo móvil 110 configurado para ajustar un umbral de detección para activar una función de asistente de voz cuando se determina que un contexto del dispositivo móvil 110 está en un vehículo 130, de acuerdo con un modo de realización de la presente divulgación. En este modo de realización ilustrado, un usuario 120 del dispositivo móvil 110 está conduciendo el vehículo 130 mientras que el dispositivo móvil 110 está colocado en un asiento de pasajero del vehículo 130. El dispositivo móvil 110 de la FIG. 1 puede ser un teléfono inteligente equipado con una función de reconocimiento de habla para reconocer el habla de un usuario en un sonido de entrada.
[0013] Cuando se activa la función de asistente de voz en el dispositivo móvil 110, el dispositivo móvil 110 puede responder a diversas solicitudes verbales, instrucciones, comandos y similares del usuario 120 usando la función de reconocimiento de habla. Por ejemplo, el usuario 120 puede pronunciar una instrucción tal como "LLAMAR A SUSAN" cuando se haya activado la función de asistente de voz. En respuesta, el dispositivo móvil 110 reconoce la instrucción y llama a Susan usando un número de teléfono asociado con el nombre reconocido. La función de asistente de voz en el dispositivo móvil 110 puede activarse en respuesta a una entrada por medio de un botón o de una pantalla táctil del dispositivo móvil 110.
[0014] En algunos modos de realización, el dispositivo móvil 110 almacena una palabra clave objetivo predeterminada para activar la función de asistente de voz cuando la palabra clave objetivo se detecte en un sonido de entrada del usuario 120. Como se usa en el presente documento, el término "palabra clave objetivo" se refiere a cualquier representación digital o analógica de una o más palabras o sonido que puede usarse para activar una función o una aplicación en el dispositivo móvil 110. Por ejemplo, una palabra clave predeterminada tal como "HOLA, ASISTENTE DE VOZ" o "INICIAR ASISTENTE DE Vo Z" puede almacenarse en el dispositivo móvil 110 como una palabra clave objetivo para activar la función de asistente de voz. Cuando se reciba un sonido de entrada del usuario 120, el dispositivo móvil 110 puede detectar la palabra clave objetivo en el sonido de entrada realizando una función de reconocimiento de voz en el sonido de entrada recibido.
[0015] El dispositivo móvil 110 puede configurarse para detectar una palabra clave objetivo en base a un umbral de detección para garantizar un nivel de confianza deseado. En un modo de realización, el dispositivo móvil 110 calcula un grado de similitud (o un puntaje de coincidencia de palabra clave) entre un sonido de entrada y la palabra clave objetivo y compara el grado de similitud con el umbral de detección. Al calcular el grado de similitud, puede usarse un modelo de sonido preestablecido para la palabra clave objetivo. Si el grado de similitud entre el sonido de entrada y la palabra clave objetivo (o el modelo de sonido) excede el umbral de detección, el dispositivo móvil 110 detecta la palabra clave objetivo en el sonido de entrada y activa la función de asistente de voz. Por otro lado, si el grado de similitud no excede el umbral de detección, el dispositivo móvil 110 determina que la palabra clave objetivo no se detecta en el sonido de entrada.
[0016] El umbral de detección afecta la precisión al detectar una palabra clave objetivo en un sonido de entrada. Por ejemplo, si el umbral de detección es demasiado alto, el dispositivo móvil 110 puede no detectar una palabra clave objetivo a partir de un sonido de entrada que incluya la palabra clave objetivo. En dicho caso, el dispositivo móvil 110 puede "omitir" la palabra clave objetivo en el sonido de entrada, y conducir a un aumento de la tasa de omisión para la palabra clave objetivo. Por otro lado, si el umbral de detección es demasiado bajo, el dispositivo móvil 110 puede detectar erróneamente una palabra clave objetivo en un sonido de entrada que no incluya la palabra clave objetivo. En dicho caso, el dispositivo móvil puede activar erróneamente la función de asistente de voz (es decir, "activación falsa") y causar un aumento de la tasa de activación falsa para la función de asistente de voz.
[0017] En algunos modos de realización, el umbral de detección se establece inicialmente en un valor predeterminado (por ejemplo, un valor predeterminado) y luego se ajusta en base a un cambio en un contexto del dispositivo móvil 110. Con referencia a la FIG. 1, el dispositivo móvil 110 está configurado para determinar un contexto en base a datos de contexto de diversos sensores tales como un sensor de sonido, un sistema de posicionamiento global (GPS) y un acelerómetro. Por ejemplo, el sensor de sonido del dispositivo móvil 110 puede capturar ruidos de tráfico ambiental, incluyendo un sonido de motor y ruido de carretera, como un sonido de entrada. Además, el GPS y el acelerómetro pueden monitorear la localización, la velocidad y/o la aceleración del dispositivo móvil 110. En base a los datos de contexto de los sensores, el dispositivo móvil 110 puede identificar el contexto del dispositivo móvil 110 como si estuviera en un vehículo.
[0018] Cuando se determina que el contexto del dispositivo móvil 110 está en un vehículo, puede suponerse que el usuario 120 del dispositivo móvil 110 en la FIG. 1 es más probable que use la función de asistente de voz que hacer funcionar físicamente el dispositivo móvil 110 a mano. Por consiguiente, el dispositivo móvil 110 puede ajustar el umbral de detección a un valor inferior al umbral de detección predeterminado que está predeterminado para contextos normales o no identificados. El umbral de detección reducido aumenta la probabilidad de detectar la palabra clave objetivo (por ejemplo, una disminución de la tasa de fallos) para reducir la probabilidad de que el usuario tenga que hacer funcionar el dispositivo móvil 110 a mano.
[0019] También puede suponerse que la probabilidad de usar la función de asistente de voz es alta en algunos otros contextos. La FIG. 2 ilustra el dispositivo móvil 110 configurado para ajustar el umbral de detección para activar la función de asistente de voz si se determina que un contexto del dispositivo móvil 110 es por la mañana cuando es probable que un usuario 210 esté despierto, de acuerdo con un modo de realización de la presente divulgación. El dispositivo móvil 110 se coloca cerca del usuario 210, por ejemplo, se coloca sobre una mesa 230 cerca de una cama 220 como se ilustra en la FIG. 2.
[0020] En este ejemplo, el usuario 210 se ha despertado por la mañana pero todavía está sentado en la cama 220. En este caso, un sensor de iluminación en el dispositivo móvil 110 puede generar datos de contexto que indican un entorno brillante del dispositivo móvil 110. Además, una unidad de reloj en el dispositivo móvil 110 también puede proporcionar una hora actual (por ejemplo, 7:00 AM) como datos de contexto. En algunos modos de realización, el tiempo actual puede compararse con un tiempo establecido en el dispositivo móvil 110 por el usuario 210 que indica cuándo se despierta típicamente. Además, un sensor de sonido en el dispositivo móvil 110 también captura un sonido ambiental silencioso que tiene una intensidad pequeña como sonido de entrada, que se proporciona como datos de contexto. Además, una unidad GPS en el dispositivo móvil 110 puede determinar que el dispositivo móvil 110 está en casa del usuario 210, que también se usa como datos de contexto.
[0021] En base a los datos de contexto generados anteriormente, el dispositivo móvil 110 puede determinar el contexto del dispositivo móvil 110 para estar por la mañana cuando es probable que el usuario 210 esté despierto. En este caso, puede suponerse que es más probable que el usuario 210 del dispositivo móvil 110 use la función de asistente de voz que haga funcionar físicamente el dispositivo móvil 110 a mano. Por ejemplo, el usuario 210 puede desear verificar el clima o el horario del día usando la función de asistente de voz en el dispositivo móvil 110 mientras está sentado en la cama 220. En consecuencia, el dispositivo móvil 110 puede ajustar el umbral de detección a un valor inferior al umbral de detección predeterminado, lo lleva a aumentar la probabilidad de detectar la palabra clave objetivo (por ejemplo, una disminución de la tasa de omisión).
[0022] Por el contrario, puede suponerse que la probabilidad de usar la función de asistente de voz es baja. La FIG. 3 ilustra el dispositivo móvil 110 configurado para ajustar el umbral de detección para activar la función de asistente de voz si se determina que un contexto del dispositivo móvil 110 es de noche cuando es probable que un usuario 310 esté dormido (es decir, un contexto de sueño), de acuerdo con un modo de realización de la presente divulgación. En la FIG. 3 , el dispositivo móvil 110 se coloca cerca del usuario 310, por ejemplo, se coloca sobre una mesa 330 cerca de una cama 320.
[0023] En el ejemplo de la FIG. 3 , el usuario 310 está durmiendo en la cama 320 por la noche. En este caso, un sensor de iluminación en el dispositivo móvil 110 puede detectar un entorno oscuro del dispositivo móvil 110 y proporcionar datos de contexto que indiquen el entorno oscuro. Además, una unidad de reloj en el dispositivo móvil 110 también puede proporcionar una hora actual (por ejemplo, 3:00 AM) como datos de contexto. En algunos modos de realización, el tiempo actual puede compararse con un intervalo de tiempo establecido en el dispositivo móvil 110 por el usuario 310, que indica cuándo él o ella típicamente se va a dormir y se despierta. Además, un sensor de sonido en el dispositivo móvil 110 también puede capturar un sonido ambiental silencioso que tenga una intensidad pequeña como sonido de entrada y proporcionarlo como datos de contexto. Además, la localización del dispositivo móvil 110 puede determinarse mediante una unidad GPS en el dispositivo móvil 110 y usarse como datos de contexto (por ejemplo, en el hogar del usuario 310).
[0024] En base a los datos de contexto generados anteriormente, el dispositivo móvil 110 puede determinar que el contexto del dispositivo móvil 110 es por la noche cuando es probable que el usuario 310 esté dormido. En este caso, puede suponerse que es menos probable que el usuario 310 del dispositivo móvil 110 use la función de asistente de voz que cuando el usuario 310 está despierto durante el día. En consecuencia, el dispositivo móvil 110 puede ajustar el umbral de detección a un valor superior al umbral de detección predeterminado. El aumento del umbral de detección lleva a reducir la probabilidad de activar erróneamente la función de asistente de voz (por ejemplo, una disminución de la tasa de activación falsa).
[0025] También puede suponerse que la probabilidad de usar la función de asistente de voz es baja en algunos otros contextos. La FIG. 4 ilustra el dispositivo móvil 110 configurado para ajustar el umbral de detección para activar la función de asistente de voz cuando se determina que el contexto del dispositivo móvil 110 está en una bolsa 410, de acuerdo con un modo de realización de la presente divulgación. En el ejemplo ilustrado, aunque el dispositivo móvil 110 se coloca en la bolsa 410 (como se indica mediante un círculo punteado), puede colocarse dentro de cualquier otro tipo de recipientes, tales como un bolsillo de ropa, una bolsita y similares.
[0026] En el ejemplo de la FIG. 4 , se usan diversos sensores para generar datos de contexto que indiquen el contexto del dispositivo móvil 110. Por ejemplo, un sensor de iluminación en el dispositivo móvil 110 puede detectar un entorno oscuro del dispositivo móvil 110 dentro de la bolsa 410 y generar datos de contexto que indiquen el entorno oscuro. Además, un sensor de proximidad en el dispositivo móvil 110, que está configurado para detectar objetos localizados cerca del sensor, puede usarse para generar datos de contexto que indiquen que existe un objeto cerca del dispositivo móvil 110. En este ejemplo, el sensor de proximidad puede detectar la existencia de objetos cercanos, por ejemplo, una superficie interna de la bolsa 410. Además, un sensor de sonido del dispositivo móvil 110 puede capturar el sonido de raspado o pulsación como un sonido de entrada, lo que puede causarse por la fricción entre el dispositivo móvil 110 y la superficie interna circundante de la bolsa 410. El sonido de entrada capturado también se usa como datos de contexto para determinar el contexto del dispositivo móvil 110.
[0027] En base a los datos de contexto generados anteriormente, el dispositivo móvil 110 puede determinar que el contexto está en un recipiente tal como la bolsa 410. En este contexto, puede suponerse que es menos probable que un usuario del dispositivo móvil 110 en la FIG. 4 use la función de asistente de voz que cuando el dispositivo móvil 110 está colocado fuera de dicho recipiente (por ejemplo, la bolsa 410). En consecuencia, el dispositivo móvil 110 puede ajustar el umbral de detección a un valor superior al umbral de detección predeterminado. El aumento del umbral de detección lleva a reducir la probabilidad de activar erróneamente la función de asistente de voz (por ejemplo, una disminución de la tasa de activación falsa).
[0028] En algunos modos de realización, el dispositivo móvil 110 puede detectar un contexto donde un estado operativo del dispositivo móvil 110 cambia de un estado inactivo a un estado activo. La FIG. 5 ilustra el dispositivo móvil 110 configurado para ajustar un umbral de detección para activar la función de asistente de voz en un contexto de recepción de un mensaje de texto, de acuerdo con un modo de realización de la presente divulgación. Inicialmente, el dispositivo móvil 110 puede estar en el estado inactivo en el que un procesador de aplicaciones puede estar en un estado inactivo para conservar energía para el dispositivo móvil 110. Cuando el dispositivo móvil 110 recibe el mensaje de texto de una red externa durante el estado inactivo, el procesador de la aplicación puede activarse para ejecutar una aplicación de mensaje y emitir una notificación de un remitente (es decir, "JOHN DOE") y el mensaje de texto (es decir, "HOLA, ¿PUEDES HABLAR AHORA?") en una pantalla 510 del dispositivo móvil 110. El estado operativo del dispositivo móvil 110 también puede cambiar del estado inactivo al estado activo cuando el dispositivo móvil 110 reciba un mensaje de correo electrónico, un mensaje multimedia, una notificación automática y similares. Además, el dispositivo móvil 110 también puede cambiar del estado inactivo al estado activo en respuesta a un acontecimiento de alarma (por ejemplo, una alarma de temporizador).
[0029] Cuando el estado operativo del dispositivo móvil 110 o el procesador de la aplicación cambie del estado inactivo al estado activo, es más probable que un usuario del dispositivo móvil 110 use la función de asistente de voz para realizar una operación. En el ejemplo de la FIG. 5. el usuario puede usar el dispositivo móvil 110 para llamar al remitente del mensaje de texto a través de la función de asistente de voz. En consecuencia, puede suponerse que la probabilidad de usar la función de asistente de voz es mayor que cuando el dispositivo móvil 110 está en el estado inactivo. Por tanto, cuando el dispositivo móvil 110 detecta un cambio en el estado operativo desde un estado inactivo a un estado activo, ajusta el umbral de detección para que sea inferior al umbral de detección predeterminado. El umbral de detección reducido aumenta la probabilidad de detectar la palabra clave objetivo (por ejemplo, una disminución de la tasa de omisión).
[0030] La FIG. 6 ilustra un diagrama de bloques del dispositivo móvil 110 configurado para detectar una palabra clave objetivo a partir de un flujo de sonido de entrada ajustando un umbral para detectar la palabra clave objetivo en base a un contexto del dispositivo móvil 110, de acuerdo con un modo de realización de la presente divulgación. Como se usa en el presente documento, el término "flujo de sonido" se refiere a una secuencia de una o más señales de sonido o datos de sonido. Como se ilustra en la FIG. 6 , el dispositivo móvil 110 puede incluir una unidad de sensor 610, una unidad I/O (entrada/salida) 620, una unidad de almacenamiento 630, una unidad de comunicación 640 y un procesador 650. El dispositivo móvil 110 puede ser cualquier dispositivo adecuado equipado con una capacidad de captura y de procesamiento de sonido tal como un teléfono celular, un teléfono inteligente, un ordenador portátil, un ordenador personal tipo tablet, un dispositivo de videojuegos, un reproductor multimedia, etc.
[0031] El procesador 650 puede incluir un procesador de señales digitales (DSP) 680, una unidad de asistente de voz 688, una unidad de reloj 690 y una unidad de programación 692, y puede ser un procesador de aplicaciones o una unidad central de procesamiento (CPU) para gestionar y hacer funcionar el dispositivo móvil 110. La unidad de reloj 690 implementa una función de reloj, una función de temporizador y similares. Por ejemplo, la unidad de reloj 690 puede emitir una hora actual a un usuario del dispositivo móvil 110 o notificar al usuario cuando se alcance una hora establecida (por ejemplo, una alarma de temporizador) a través de una unidad de pantalla y/o una unidad de altavoz de la unidad I/O 620. Además, la unidad de programación 692 almacena y gestiona programaciones (por ejemplo, citas, eventos, etc.) que se introducen por el usuario. La unidad de programación 692 puede realizar un seguimiento de los tiempos de las programaciones almacenadas y proporcionar notificaciones asociadas al usuario a través de la unidad I/O 620.
[0032] El DSP 680 puede incluir un detector de habla 682, una unidad de ajuste de umbral 684 y una unidad de activación por voz 686. En un modo de realización, el DSP 680 es un procesador de baja potencia para reducir el consumo de energía en el procesamiento de un flujo de sonido. En esta configuración, la unidad de ajuste de umbral 684 está configurada para ajustar el umbral de detección en base al contexto del dispositivo móvil 110. La unidad de activación por voz 686 está configurada para activar la unidad de asistente de voz 688 cuando se detecte la palabra clave objetivo en el flujo de sonido en base al umbral de detección ajustado.
[0033] La unidad de sensor 610 puede incluir un sensor de sonido 660 y un sensor de contexto 670. El sensor de sonido 660 está configurado para recibir y proporcionar el flujo de sonido de entrada al detector de habla 682 y la unidad de ajuste de umbral 684 en el DSP 680. En algunos modos de realización, el sensor de sonido 660 activa el detector de habla 682 y la unidad de ajuste de umbral 684 en el DSP 680 cuando el flujo de sonido de entrada recibido es mayor en intensidad que una intensidad de sonido de umbral. Tras la activación, el flujo de sonido de entrada también se proporciona desde el sensor de sonido 660 al detector de habla 682 y a la unidad de ajuste de umbral 684.
[0034] El sensor de contexto 670 en la unidad de sensor 610 puede incluir una variedad de sensores para generar datos de sensor indicativos del contexto del dispositivo móvil 110. Los datos de sensor se proporcionan luego a la unidad de ajuste de umbral 684. En un modo de realización, el sensor de contexto 670 también puede activar la unidad de ajuste de umbral 684 antes de que se proporcionen los datos de sensor. El sensor de sonido 660 y el sensor de contexto 670 se describirán con más detalle con referencia a la FIG. 7 a continuación. La unidad de comunicación 640, la unidad de reloj 690 y la unidad de programación 692 pueden configurarse para proporcionar a la unidad de ajuste de umbral 684 una notificación que indique un cambio en un estado operativo del procesador 650 desde un estado inactivo a un estado activo, como se describirá con más detalle con referencia a la FIG. 8 a continuación.
[0035] La unidad de ajuste de umbral 684 está configurada para determinar un contexto del dispositivo móvil 110 en base al flujo de sonido de entrada recibido, los datos de sensor y/o una o más notificaciones, que pueden denominarse colectivamente datos de contexto. Después de determinar el contexto del dispositivo móvil 110, la unidad de ajuste de umbral 684 ajusta el umbral de detección de acuerdo con el contexto determinado. Por ejemplo, si el contexto del dispositivo móvil 110 indica que es probable que se use la unidad de asistente de voz 688 (por ejemplo, en los contextos como se describe anteriormente con referencia a las FIGS. 1,2 y 5), la unidad de ajuste de umbral 684 ajusta el umbral de detección para que sea bajo, por ejemplo, inferior que el umbral de detección predeterminado. Por otro lado, si el contexto del dispositivo móvil 110 indica que no es probable que se use la unidad de asistente de voz 688 (por ejemplo, en los contextos descritos anteriormente con referencia a las FIGS.
3 y 4), la unidad de ajuste de umbral 684 ajusta el umbral de detección para que sea alto, por ejemplo, superior que el umbral de detección predeterminado.
[0036] En algunos modos de realización, los valores de umbral de detección pueden predeterminarse para diferentes contextos y almacenarse en la unidad de almacenamiento 630 del dispositivo móvil 110. Por ejemplo, los contextos y los valores de umbral de detección asociados pueden almacenarse como una tabla de búsqueda o una estructura de base de datos. En el caso de la tabla de búsqueda, la unidad de ajuste de umbral 684 puede acceder a la tabla usando un contexto determinado como índice para obtener el valor umbral de detección asociado. La unidad de ajuste de umbral 684 proporciona entonces el valor umbral de detección obtenido como el umbral de detección ajustado a la unidad de activación por voz 686. La unidad de almacenamiento 630 en el dispositivo móvil 110 puede implementarse usando cualquier dispositivo de almacenamiento o de memoria adecuado tal como una RAM (memoria de acceso aleatorio), una ROM (memoria de solo lectura), una EEPROM (memoria de solo lectura programable y borrable eléctricamente), una memoria flash o una SSD (unidad de estado sólido).
[0037] Para su uso en la detección de la palabra clave objetivo, la unidad de almacenamiento 630 también puede almacenar la palabra clave objetivo. En un modo de realización, la palabra clave objetivo puede dividirse en una pluralidad de unidades de sonido básicas tales como teléfonos, fonemas o subunidades de las mismas, y puede generarse una pluralidad de porciones que representen la palabra clave objetivo en base a las unidades básicas de sonido. Cada porción de la palabra clave objetivo se asocia entonces con un estado bajo un modelo de cadena de Markov, tal como un modelo oculto de Markov (HMM), un modelo semiMarkov (SMM) o una combinación de ambos. En este caso, la unidad de almacenamiento 630 puede almacenar información de estado en una pluralidad de estados asociados con la pluralidad de porciones de la palabra clave objetivo, que incluye información de transición de cada uno de los estados al siguiente estado, incluyendo ella misma.
[0038] El detector de habla 682 en el DSP 680, cuando se activa, recibe el flujo de sonido de entrada desde el sensor de sonido 660. A continuación, el detector de habla 682 extrae una pluralidad de características de sonido del flujo de sonido de entrada recibido y determina si las características de sonido extraídas son indicativas de un sonido de interés tal como el habla usando cualquier procedimiento de clasificación de sonido adecuado tal como un clasificador basado en el modelo de mezclas gaussianas (GMM), una red neuronal artificial, un HMM, un modelo gráfico, una máquina de vectores de soporte (SVM) y similares. Si se determina que el flujo de sonido de entrada recibido es un sonido de interés, el detector de habla 682 activa la unidad de activación por voz 686 y el flujo de sonido de entrada recibido se proporciona a la unidad de activación por voz 686. En algunos otros modos de realización, el detector de habla 682 puede omitirse en el DSP 680. En este caso, cuando el flujo de sonido de entrada recibido es mayor en intensidad que el umbral de intensidad, el sensor de sonido 660 activa la unidad de activación por voz 686 y proporciona el flujo de sonido de entrada recibido directamente a la unidad de activación por voz 686.
[0039] Como se describe anteriormente, la unidad de activación por voz 686 está provista del umbral de detección ajustado y del flujo de sonido de entrada desde la unidad de ajuste de umbral 684 y el detector de habla 682. Al recibir el umbral de detección ajustado y el flujo de sonido de entrada, la unidad de activación por voz 686 detecta la palabra clave objetivo del flujo de sonido de entrada en base al umbral de detección. A medida que se recibe el flujo de sonido de entrada, la unidad de activación por voz 686 puede extraer secuencialmente una pluralidad de características de sonido del flujo de sonido de entrada. Además, la unidad de activación por voz 686 puede procesar cada una de la pluralidad de características de sonido extraídas, y obtener la información de estado que incluye la pluralidad de estados y la información de transición para la palabra clave objetivo desde la unidad de almacenamiento 630. Para cada característica de sonido procesada, puede determinarse un puntaje de observación para cada uno de los estados mediante el uso de cualquier modelo de probabilidad adecuado tal como un GMM, una red neuronal y un SVM.
[0040] A partir de la información de transición, la unidad de activación por voz 686 puede obtener puntajes de transición de cada uno de los estados a un estado siguiente en una pluralidad de secuencias de estado que son posibles para la palabra clave objetivo. Después de determinar los puntajes de observación y obtener los puntajes de transición, la unidad de activación por voz 686 determina los puntajes para las posibles secuencias de estado. En un modo de realización, el puntaje más alto entre los puntajes determinados puede usarse como un puntaje de palabra clave para la característica de sonido procesada. Si el puntaje de palabra clave para la característica de sonido procesada es mayor que el umbral de detección (que también puede denominarse puntaje de palabra clave de umbral), la unidad de activación por voz 686 detecta el flujo de sonido de entrada como la palabra clave objetivo. Al detectar la palabra clave objetivo, la unidad de activación por voz 686 genera y transmite una señal de activación para encender la unidad de asistente de voz 688, que está asociada con la palabra clave objetivo.
[0041] La unidad de asistente de voz 688 se activa en respuesta a la señal de activación de la unidad de activación por voz 686. Una vez activada, la unidad de asistente de voz 688 puede emitir un mensaje tal como "¿PUEDO AYUDARTE?" en la unidad de pantalla y/o a través de la unidad de altavoz de la unidad I/O 620. En respuesta, un usuario puede pronunciar comandos de voz para activar diversas funciones asociadas del dispositivo móvil 110. Por ejemplo, cuando se recibe un comando de voz para la búsqueda en Internet, la unidad de asistente de voz 688 puede reconocer el comando de voz como un comando de búsqueda y realizar una búsqueda web a través de la unidad de comunicación 640 a través de una red externa 694. Aunque el modo de realización ilustrado activa la unidad de asistente de voz 688 en respuesta a la detección de la palabra clave objetivo, también puede activar cualquier otra aplicación o característica en respuesta a la detección de una palabra clave objetivo asociada.
[0042] La FIG. 7 ilustra un diagrama de bloques más detallado de la unidad de sensor 610 configurada para emitir un flujo de sonido y datos de sensor para su uso en la determinación de un contexto del dispositivo móvil 110, de acuerdo con un modo de realización de la presente divulgación. El sensor de sonido 660 recibe un flujo de sonido de entrada, que luego se proporciona al detector de habla 682 en el DSP 680. El flujo de sonido de entrada recibido también se proporciona a la unidad de ajuste de umbral 684 en el DSP 680 como datos de contexto. El sensor de sonido 660 puede incluir uno o más micrófonos o cualquier otro tipo de sensores de sonido que puedan usarse para recibir, captar, detectar y/o percibir el flujo de sonido de entrada. Además, el sensor de sonido 660 puede emplear cualquier software y/o hardware adecuado para realizar dichas funciones. En un modo de realización, el sensor de sonido 660 puede configurarse para recibir el flujo de sonido de entrada periódicamente de acuerdo con un ciclo de trabajo.
[0043] Como se ilustra en la FIG. 7 , el sensor de contexto 670 puede incluir un sensor de localización 710, un acelerómetro 720, un sensor de proximidad 730 y un sensor de iluminación 740. El sensor de localización 710, que puede implementarse mediante un dispositivo GPS, está configurado para generar datos de sensor asociados con el dispositivo móvil 110 tales como una localización, una dirección, una velocidad a la cual está moviéndose el dispositivo móvil 110 o similares. El acelerómetro 720 genera datos de sensor que indican aceleración, orientación y similares del dispositivo móvil 110.
[0044] El sensor de proximidad 730 está configurado para detectar un objeto localizado cerca del dispositivo móvil 110, por ejemplo, usando tecnologías magnéticas, ópticas o capacitivas. Aunque un sensor de proximidad 730 se ilustra en la FIG. 7 , el sensor de contexto 670 puede incluir cualquier número adecuado de sensores de proximidad para detectar objetos en múltiples localizaciones del dispositivo móvil 110 (por ejemplo, en los lados frontal, trasero, derecho e izquierdo del dispositivo móvil 110). El sensor de iluminación 740 es un detector de luz configurado para detectar una condición de iluminación, es decir, brillo, del entorno del dispositivo móvil 110. Los datos de sensor generados por el sensor de localización 710, el acelerómetro 720, el sensor de proximidad 730 y el sensor de iluminación 740 se proporcionan a la unidad de ajuste de umbral 684 y se usan como datos de contexto para determinar el contexto del dispositivo móvil 110.
[0045] La FIG. 8 ilustra un diagrama de bloques de la unidad de ajuste de umbral 684 configurada para ajustar un umbral de detección para activar la unidad de asistente de voz 688 determinando un contexto del dispositivo móvil 110, de acuerdo con un modo de realización de la presente divulgación. La unidad de ajuste de umbral 684 puede incluir una unidad de inferencia de contexto 810 y una unidad de determinación de umbral 820. La unidad de inferencia de contexto 810 determina el contexto del dispositivo móvil 110 y la unidad de determinación de umbral 820 ajusta el umbral de detección en base al contexto del dispositivo móvil 110. El umbral de detección ajustado se proporciona luego a la unidad de activación por voz 686 para su uso en la detección de una palabra clave objetivo a partir de un flujo de sonido de entrada.
[0046] Para determinar el contexto del dispositivo móvil 110, la unidad de inferencia de contexto 810 recibe el flujo de sonido de entrada del sensor de sonido 660 y los datos de sensor del sensor de contexto 670. La unidad de inferencia de contexto 810 también está configurada para recibir una o más notificaciones de la unidad de reloj 690, la unidad de programación 692 y la unidad de comunicación 640. Además, la unidad de reloj 690 puede proporcionar una hora actual a la unidad de inferencia de contexto 810. El flujo de sonido de entrada, los datos de sensor, las notificaciones y la hora actual se usan por la unidad de inferencia de contexto 810 como datos de contexto para determinar el contexto del dispositivo móvil 110.
[0047] Como se describe con referencia a la FIG. 6 anteriormente, las notificaciones proporcionadas a la unidad de inferencia de contexto 810 pueden indicar información de estado de un dispositivo móvil, tal como un cambio en un estado operativo del procesador 650 de un estado inactivo a un estado activo. Por ejemplo, la unidad de comunicación 640 puede proporcionar dicha notificación al recibir un mensaje electrónico a través de la red 694 en la FIG. 6 , El mensaje electrónico puede incluir cualquier mensaje o notificación recibida a través de la red 694, tal como un mensaje de correo electrónico, un mensaje de texto, un mensaje multimedia, una notificación automática y similares. La unidad de reloj 690 puede configurarse para alertar a un usuario a una hora especificada (por ejemplo, una alarma). Cuando se alcanza el tiempo especificado, la unidad de reloj 690 activa el procesador 650 y se proporciona una notificación del cambio en el estado operativo del procesador 650 a la unidad de inferencia de contexto 810. Además, la unidad de programación 692 puede realizar un seguimiento de los tiempos de las programaciones o acontecimientos almacenados en el dispositivo móvil 110 y proporcionar una notificación a la unidad de inferencia de contexto 810 en dichos momentos o en un momento predeterminado antes de dichos momentos.
[0048] La unidad de inferencia de contexto 810 analiza los datos de contexto recibidos y determina el contexto del dispositivo móvil 110. Al determinar el contexto del dispositivo móvil 110, la unidad de inferencia de contexto 810 puede inferir el contexto a partir del sonido de entrada, los datos de sensor, las notificaciones, la hora actual o cualquier combinación de los mismos. Por ejemplo, puede inferirse que el contexto del dispositivo móvil 110 está en un vehículo en base al flujo de sonido de entrada y a los datos de sensor que pueden incluir una localización, una velocidad y/o una aceleración del dispositivo móvil 110, como se describe con referencia a la FIG. 1 anteriormente.
[0049] En algunos modos de realización, diversos contextos del dispositivo móvil 110 pueden predeterminarse y almacenarse de acuerdo con una base de datos de contexto que asocie los contextos con datos de contexto que pueden recibirse por la unidad de inferencia de contexto 810. Entre los contextos predeterminados en la base de datos de contexto, la unidad de inferencia de contexto 810 puede seleccionar un contexto que corresponda a los datos de contexto recibidos como contexto actual del dispositivo móvil 110. La unidad de inferencia de contexto 810 genera entonces un indicador de contexto para el contexto seleccionado y proporciona el indicador de contexto a la unidad de determinación de umbral 820.
[0050] Al recibir el indicador de contexto de la unidad de inferencia de contexto 810, la unidad de determinación de umbral 820 ajusta el umbral de detección en base al indicador de contexto recibido. En algunos modos de realización, los valores para el umbral de detección pueden preestablecerse para los contextos predeterminados y almacenarse en la unidad de almacenamiento 630. La unidad de determinación de umbral 820 puede acceder a la unidad de almacenamiento 630 para obtener un valor de umbral de detección asociado con el contexto identificado por el indicador de contexto.
[0051] En un modo de realización, el valor umbral de detección puede establecerse en base a la probabilidad de usar la unidad de asistente de voz 688 en cada uno de los contextos. Por ejemplo, si la probabilidad de usar la unidad de asistente de voz 688 es alta (por ejemplo, en los contextos descritos anteriormente con referencia a las FIGS. 1.2 y 5), la unidad de ajuste de umbral 684 puede disminuir el umbral de detección (por ejemplo, ser inferior al umbral de detección predeterminado que está predeterminado para contextos normales o no identificados). Por otro lado, si la probabilidad de usar la unidad de asistente de voz 688 es baja (por ejemplo, en los contextos descritos anteriormente con referencia a las FIGS. 3 y 4), la unidad de ajuste de umbral 684 puede aumentar el umbral de detección (por ejemplo, para ser superior que el umbral de detección predeterminado). Como resultado, el umbral de detección puede ajustarse en asociación con la probabilidad de usar la unidad de asistente de voz 688 en el contexto determinado del dispositivo móvil 110. El umbral de detección ajustado se proporciona luego a la unidad de activación por voz 686 para usarse en la detección de una palabra clave objetivo para activar la unidad de asistente de voz 688.
[0052] La FIG. 9 es un diagrama de flujo de un procedimiento 900, realizado en la unidad de ajuste de umbral 684 del dispositivo móvil 110, para determinar el umbral de detección para activar la unidad de asistente de voz 688 infiriendo un contexto del dispositivo móvil 110, de acuerdo con un modo de realización de la presente divulgación. La unidad de inferencia de contexto 810 en la unidad de ajuste de umbral 684 recibe datos de contexto, en 910. En base a los datos de contexto recibidos, el contexto del dispositivo móvil 110 puede determinarse en la unidad de inferencia de contexto 810, en 920. La unidad de inferencia de contexto 810 también puede generar un indicador de contexto asociado con el contexto determinado, que se proporciona a la unidad de determinación de umbral 820.
[0053] La unidad de determinación de umbral 820, en 930, ajusta el umbral de detección de acuerdo con el contexto del dispositivo móvil 110 que se identifica por el indicador de contexto recibido de la unidad de inferencia de contexto 810. Para ajustar el umbral de detección, la unidad de determinación de umbral 820 puede acceder a la unidad de almacenamiento 630 para obtener un valor de umbral de detección asociado con el contexto del dispositivo móvil 110. Una vez que se ajusta el umbral de detección, la unidad de determinación de umbral 820 puede proporcionar el umbral de detección ajustado a la unidad de activación por voz 686, en 940. El umbral de detección ajustado se usa para detectar la palabra clave objetivo por la unidad de activación por voz 686.
[0054] En algunos modos de realización, el umbral de detección ajustado puede restablecerse al umbral de detección predeterminado. La FIG. 10 es un diagrama de flujo de un procedimiento 1000, realizado en la unidad de ajuste de umbral 684 del dispositivo móvil 110, para generar un umbral de detección ajustado y restablecer el umbral de detección a un umbral de detección predeterminado después de un período de tiempo especificado, de acuerdo con un modo de realización de la presente divulgación. De la misma manera que se describe con respecto a la FIG. 9 anteriormente, la unidad de inferencia de contexto 810 recibe datos de contexto en 910, y determina un contexto del dispositivo móvil 110 en 920. La unidad de determinación de umbral 820 ajusta el umbral de detección en base al contexto en 930, y proporciona el umbral de detección ajustado a la unidad de activación por voz 686 en 940.
[0055] Puede establecerse un temporizador para un período de tiempo específico, en 1010, por ejemplo, usando la unidad de reloj 690 en el procesador 650. El período de tiempo puede estar predeterminado. La unidad de ajuste de umbral 684 monitorea el temporizador y determina si ha transcurrido el período de tiempo especificado, en 1020. De forma alternativa, la unidad de reloj 690 puede detectar si ha transcurrido el período de tiempo especificado y notificar a la unidad de ajuste de umbral 684 cuándo ha transcurrido el período de tiempo. Si ha transcurrido el período de tiempo especificado, la unidad de ajuste de umbral 684 puede restablecer el umbral de detección al umbral de detección predeterminado (por ejemplo, el umbral de detección predeterminado), en 1030. De lo contrario, si el período de tiempo especificado no ha transcurrido, el procedimiento 1000 puede volver a 1020 para determinar si el período de tiempo especificado ha transcurrido o no.
[0056] La FIG. 11 ilustra un diagrama de bloques de la unidad de activación por voz 686 configurada para activar la unidad de asistente de voz 688 mediante la detección de la palabra clave objetivo en un flujo de sonido de entrada en base al umbral de detección ajustado, de acuerdo con un modo de realización de la presente divulgación. La unidad de activación por voz 686 puede incluir un extractor de características 1110, una unidad de cálculo de puntaje de palabra clave 1120 y una unidad de detección de palabras clave 1130. Cuando la unidad de detección de palabras clave 1130 en la unidad de activación por voz 686 detecta la palabra clave objetivo del flujo de sonido de entrada, genera una señal de activación para encender la unidad de asistente de voz 688.
[0057] Cuando el detector de habla 682 determina que un flujo de sonido de entrada es voz humana, el extractor de características 1110 recibe el flujo de sonido de entrada y extrae una o más características de sonido del flujo de sonido de entrada. En algunos modos de realización, el extractor de características 1110 segmenta el flujo de sonido de entrada en una pluralidad de tramas secuenciales de un período de tiempo igual. Por ejemplo, el flujo de sonido de entrada puede recibirse y segmentarse secuencialmente en tramas de 10 ms. En este caso, el extractor de características 1110 extrae una característica de sonido de cada una de las tramas. En un modo de realización, el extractor de características 1110 puede extraer las características de sonido de las tramas usando cualquier procedimiento de extracción de características adecuado tal como el procedimiento MFCC (coeficientes cepstrales de frecuencia de Mel). Por ejemplo, en el caso del procedimiento MFCC, los componentes de un vector n-dimensional se calculan a partir de cada una de las tramas segmentadas y el vector se usa como una característica de sonido.
[0058] Las características de sonido extraídas se proporcionan desde el extractor de características 1110 a la unidad de cálculo de puntaje de palabra clave 1120. Al recibir cada característica de sonido, la unidad de cálculo de puntaje de palabra clave 1120 determina un puntaje de palabra clave para la característica de sonido. El puntaje de palabra clave puede determinarse de la manera descrita anteriormente con referencia a la FIG. 6 , El puntaje de palabra clave determinado se proporciona a la unidad de detección de palabras clave 1130.
[0059] La unidad de detección de palabras clave 1130 recibe el puntaje de palabra clave de la unidad de cálculo de puntaje de palabra clave 1120. La unidad de detección de palabras clave 1130 también recibe el umbral de detección ajustado desde la unidad de ajuste de umbral 684. El puntaje de palabra clave recibida se compara con el umbral de detección ajustado. Cuando el puntaje de palabra clave supera el puntaje de umbral ajustado, la unidad de detección de palabras clave 1130 genera la señal de activación para encender la unidad de asistente de voz 688. De lo contrario, la unidad de detección de palabras clave 1130 no activa la unidad de asistente de voz 688. En este caso, la unidad de detección de palabras clave 1130 puede recibir un puntaje de palabra clave posterior, que está determinada por la unidad de cálculo de puntaje de palabra clave 1120 para una próxima característica de sonido extraída, y determinar si el puntaje de palabra clave posterior excede el umbral de detección ajustado.
[0060] La FIG. 12 es un diagrama de flujo de un procedimiento 1200, realizado en la unidad de activación por voz 686, para activar la unidad de asistente de voz 688 mediante la detección de una palabra clave objetivo en un flujo de sonido de entrada en base a un umbral de detección ajustado, de acuerdo con un modo de realización de la presente divulgación. El procedimiento 1200 comienza en 1210 y continúa hasta 1220, donde el extractor de características 1110 en la unidad de activación por voz 686 recibe el flujo de sonido de entrada desde el detector de habla 682. El extractor de características 1110 puede extraer una característica de sonido del flujo de sonido de entrada, en 1230. La característica de sonido extraída se proporciona a la unidad de cálculo de puntaje de palabra clave 1120 en la unidad de activación por voz 686.
[0061] En un modo de realización, el flujo de sonido de entrada se segmenta secuencialmente en una pluralidad de tramas, de los cuales se extrae una pluralidad de características de sonido. En este caso, la pluralidad de características de sonido se proporciona secuencialmente a la unidad de cálculo de puntaje de palabra clave 1120. Al recibir cada característica de sonido del extractor de características 1110, la unidad de puntaje de palabra clave 1120 puede determinar un puntaje de palabra clave para la característica de sonido, en 1240. Como se describe anteriormente con referencia a la FIG. 6 , la característica de palabra clave puede determinarse usando cualquier tecnología de reconocimiento de habla adecuada tal como un modelo de cadena de Markov.
[0062] En el procedimiento ilustrado 1200, la unidad de detección de palabras clave 1130 recibe el umbral de detección ajustado desde la unidad de ajuste de umbral 684, en 1250. En un modo de realización, el umbral de detección ajustado puede recibirse en 1250, mientras que el flujo de sonido de entrada se recibe en 1220, la característica de sonido se extrae en 1230 o el puntaje de palabra clave se determina en 1240. En otro modo de realización, la unidad de detección de palabras clave 1130 puede recibir el umbral de detección ajustado antes de que el extractor de características 1110 reciba el flujo de sonido de entrada en 1220 o después de que la unidad de cálculo de puntaje de palabra clave 1120 determine el puntaje de palabra clave en 1240.
[0063] La unidad de detección de palabras clave 1130 puede determinar, en 1260, si el puntaje de palabra clave excede el umbral de detección recibido. Si se determina que el puntaje de palabra clave no excede el umbral de detección en 1260, el procedimiento puede proceder a 1270 para recibir una próxima característica de sonido extraída por el extractor de características 1110 y determinar un puntaje de palabra clave para la próxima característica de sonido en 1240. Por otro lado, si se determina que el puntaje de palabra clave excede el umbral de detección en 1260, la unidad de detección de palabras clave 1130 puede generar y transmitir una señal de activación para encender la unidad de asistente de voz 688, en 1280. El procedimiento puede terminar entonces en 1290.
[0064] La FIG. 13 ilustra un diagrama de bloques de un dispositivo móvil 1300 en un sistema de comunicación inalámbrica en el cual los procedimientos y aparatos para detectar una palabra clave objetivo en un flujo de sonido de entrada en base a un umbral de detección que se ajusta de acuerdo con un contexto del dispositivo móvil 1300, de acuerdo con un modo de realización de la presente divulgación. El dispositivo móvil 1300 puede ser un teléfono celular, un terminal, un teléfono, un asistente digital personal (PDA), un módem inalámbrico, un teléfono sin cable, etc. El sistema de comunicación inalámbrica puede ser un sistema de Acceso Múltiple por División de Código (CDMA), un Sistema Global para Comunicaciones Móviles (GSM), un sistema CDMA de Banda Ancha (W-CDMA), un sistema de Evolución a Largo Plazo (LTE), un sistema LTE Avanzado, y así sucesivamente.
[0065] El dispositivo electrónico 1300 puede proporcionar comunicación bidireccional por medio de una ruta de recepción y una ruta de transmisión. En la ruta de recepción, las señales transmitidas por las estaciones base se reciben por una antena 1312 y se proporcionan a un receptor (RCVR) 1314. El receptor 1314 puede condicionar y digitalizar la señal recibida, y proporcionar la señal digital condicionada y digitalizada a una sección digital 1320 para su procesamiento adicional. En la ruta de transmisión, un transmisor (TMTR) recibe datos que se van a transmitir desde una sección digital 1320, procesa y condiciona los datos, y genera una señal modulada, que se transmite por medio de la antena 1312 a las estaciones base. El receptor 1314 y el transmisor 1316 forman parte de un transceptor que soporta CDMA, GSM, W-CDMA, LTE, LTE avanzada, etc.
[0066] La sección digital 1320 incluye diversas unidades de procesamiento, interfaz y memoria, tales como, por ejemplo, un procesador de módem 1322, un ordenador con conjunto reducido de instrucciones/procesador de señales digitales (RISC/DSP) 1324, un controlador/procesador 1326, una memoria interna 1328, un codificador de audio generalizado 1332, un decodificador de audio generalizado 1334, un procesador de gráficos/pantalla 1336, y una interfaz de bus externo (EBI) 1338. El procesador de módem 1322 puede realizar un procesamiento para la transmisión y la recepción de datos, por ejemplo, codificación, modulación, demodulación y decodificación. El RISC/DSP 1324 puede realizar un procesamiento general y especializado para el dispositivo electrónico 1300. El controlador/procesador 1326 controla la operación de diversas unidades de procesamiento e interfaz dentro de la sección digital 1320. La memoria interna 1328 puede almacenar datos y/o instrucciones para diversas unidades dentro de la sección digital 1320.
[0067] El codificador de audio generalizado 1332 realiza la codificación para señales de entrada desde una fuente de audio 1342, un micrófono 1343, etc. El decodificador de audio generalizado 1334 realiza la decodificación de datos de audio codificados y proporciona señales de salida a un altavoz/auricular 1344. Cabe señalar que el codificador de audio generalizado 1332 y el decodificador de audio generalizado 1334 no se requieren necesariamente para la interfaz con la fuente de audio, el micrófono 1343 y el altavoz/auricular 1344 y por tanto no se muestran en el dispositivo móvil 1300. El procesador de gráficos/pantalla 1336 puede realizar un procesamiento de gráficos, vídeos, imágenes y textos, que pueden presentarse a una unidad de pantalla 1346. La EBI 1338 puede facilitar la transferencia de datos entre la sección digital 1320 y una memoria principal 1348.
[0068] La sección digital 1320 se implementa con uno o más procesadores, DSP, microprocesadores, RISC, etc. La sección digital 1320 también puede fabricarse en uno o más circuitos integrados específicos de la aplicación (ASIC) y/o en algún otro tipo de circuitos integrados (IC).
[0069] En general, cualquier dispositivo descrito en el presente documento es indicativo de diversos tipos de dispositivos, tales como un teléfono inalámbrico, un teléfono celular, un ordenador portátil, un dispositivo multimedia inalámbrico, una tarjeta de ordenador personal (PC) de comunicación inalámbrica, un PDA, un dispositivo externo o módem interno, un dispositivo que se comunica a través de un canal inalámbrico, etc. Un dispositivo puede tener diversos nombres, tales como un terminal de acceso (AT), una unidad de acceso, una unidad de abonado, una estación móvil, un dispositivo cliente, una unidad móvil, un teléfono móvil, una estación remota, un terminal remoto, una unidad remota, un dispositivo de usuario, un equipo de usuario, un dispositivo portátil, etc. Cualquier dispositivo descrito en el presente documento puede tener una memoria para almacenar instrucciones y datos, así como hardware, software, firmware o combinaciones de los mismos.
[0070] Las técnicas descritas en el presente documento pueden implementarse mediante diversos medios. Por ejemplo, estas técnicas se implementan en hardware, firmware, software o en una combinación de los mismos. Los expertos en la técnica apreciarán además que los diversos bloques lógicos, módulos, circuitos y etapas de algoritmo ilustrativos descritos en relación con la divulgación en el presente documento pueden implementarse como hardware electrónico, software informático o combinaciones de ambos. Para ilustrar claramente esta intercambiabilidad de hardware y software, anteriormente se han descrito diversos componentes, bloques, módulos, circuitos y etapas ilustrativos, en general, en términos de su funcionalidad. Que dicha funcionalidad se implemente como hardware o software depende de la aplicación en particular y de las restricciones de diseño impuestas al sistema global. Los expertos en la técnica pueden implementar la funcionalidad descrita de distintas formas para cada solicitud en particular, pero no se debe interpretar que dichas decisiones de implementación suponen apartarse del alcance de la presente divulgación.
[0071] Para una implementación en hardware, las unidades de procesamiento usadas para realizar las técnicas se implementan dentro de uno o más ASIC, DSP, dispositivos de procesamiento de señales digitales (DSPD), dispositivos de lógica programable (PLD), matrices de compuertas programables por campo (FPGA), procesadores, controladores, microcontroladores, microprocesadores, dispositivos electrónicos, otras unidades electrónicas diseñadas para realizar las funciones descritas en el presente documento, un ordenador o una combinación de los mismos.
[0072] Por tanto, los diversos bloques lógicos, módulos y circuitos ilustrativos descritos en relación con la divulgación en el presente documento pueden implementarse o realizarse con un procesador de uso general, un DSP, un ASIC, una FPGA o con otro dispositivo de lógica programable, lógica de transistor o de compuertas discretas, componentes de hardware discretos, o con cualquier combinación de los mismos diseñada para realizar las funciones descritas en el presente documento. Un procesador de uso general puede ser un microprocesador pero, de forma alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador o máquina de estados convencional. Un procesador también puede implementarse como una combinación de dispositivos informáticos, por ejemplo, una combinación de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o más microprocesadores junto con un núcleo de DSP o cualquier otra configuración de este tipo.
[0073] Si se implementan en software, las funciones pueden almacenarse en, o transmitir a través de, un medio legible por ordenador como una o más instrucciones o código. Los medios legibles por ordenador incluyen tanto medios de almacenamiento informático como medios de comunicación incluyendo cualquier medio que facilite la transferencia de un programa informático de un lugar a otro. Un medio de almacenamiento puede ser cualquier medio disponible al que se pueda acceder mediante un ordenador. A modo de ejemplo y no limitado a ello, dichos medios legibles por ordenador pueden comprender RAM, ROM, EEPROM, CD-ROM u otros dispositivos de almacenamiento en disco óptico, almacenamiento en disco magnético u otro almacenamiento magnético, o cualquier otro medio que pueda usarse para transportar o almacenar el código de programa deseado en forma de instrucciones o estructuras de datos y al que pueda accederse mediante un ordenador. Además, cualquier conexión recibe apropiadamente la denominación de medio legible por ordenador. Por ejemplo, si el software se transmite desde una página web, un servidor u otra fuente remota usando un cable coaxial, un cable de fibra óptica, un par trenzado, una línea de abonado digital (DSL) o tecnologías inalámbricas tales como infrarrojos, radio y microondas, entonces el cable coaxial, el cable de fibra óptica, el par trenzado, la DSL o las tecnologías inalámbricas, tales como infrarrojos, radio y microondas se incluyen en la definición de medio. Los discos, como se usan en el presente documento, incluyen el disco compacto (CD), el disco láser, el disco óptico, el disco versátil digital (DVD), el disco flexible y el disco Blu-ray, donde algunos discos habitualmente reproducen datos de forma magnética, mientras que otros discos reproducen los datos de forma óptica con láser. Las combinaciones de lo anterior también se deben incluir dentro del alcance de los medios legibles por ordenador.
[0074] La descripción previa de la divulgación se proporciona para permitir que cualquier experto en la técnica realice o use la divulgación. Diversas modificaciones a la divulgación serán fácilmente evidentes para los expertos en la técnica, y los principios genéricos definidos en el presente documento pueden aplicarse a otras variaciones sin apartarse del espíritu o alcance de la divulgación. Por tanto, la divulgación no está prevista para los ejemplos descritos en el presente documento, sino que se le debe conceder el alcance más amplio conforme a los principios y características novedosas divulgados en el presente documento.
[0075] Aunque las implementaciones ejemplares pueden referirse a usar aspectos de la presente materia objeto divulgada en el contexto de uno o más sistemas informáticos autónomos, la materia objeto no está limitada, sino que en su lugar puede implementarse en relación con cualquier entorno informático, tal como una red o un entorno informático distribuido. Aún más, pueden implementarse aspectos de la presente materia objeto divulgada en o a través de una pluralidad de chips o dispositivos de procesamiento, y el almacenamiento puede realizarse de forma similar en una pluralidad de dispositivos. Dichos dispositivos pueden incluir PC, servidores de red y dispositivos de auricular.
[0076] Aunque la materia objeto se ha descrito en un lenguaje específico con respecto a las características estructurales y/o acciones metodológicas, se entenderá que la materia objeto definida en las reivindicaciones adjuntas no se limita necesariamente a las características específicas o acciones que se han descrito anteriormente. En su lugar, las características y acciones específicas descritas anteriormente se divulgan como formas de ejemplo de implementación de las reivindicaciones.

Claims (15)

REIVINDICACIONES
1. Un procedimiento para activar una función de asistente de voz en un dispositivo móvil, comprendiendo el procedimiento:
recibir un flujo de sonido de entrada por un sensor de sonido;
determinar un contexto del dispositivo móvil;
ajustar un umbral para activar la función de asistente de voz en base al contexto;
detectar una palabra clave objetivo del flujo de sonido de entrada en base a una característica de sonido extraída del flujo de sonido de entrada y en base al umbral ajustado; y
activar la función de asistente de voz si se detecta la palabra clave objetivo;
caracterizado por que ajustar el umbral comprende ajustar el umbral en base a una probabilidad de usar la función de asistente de voz en el contexto del dispositivo móvil.
2. El procedimiento de la reivindicación 1, en el que determinar el contexto del dispositivo móvil comprende identificar el contexto del dispositivo móvil en base al flujo de sonido de entrada, y en el que la detección de la palabra clave objetivo se basa además en realizar una comparación entre una característica de sonido procesada correspondiente a la característica de sonido y al umbral ajustado.
3. El procedimiento de la reivindicación 1, en el que determinar el contexto del dispositivo móvil comprende:
obtener datos indicativos del contexto del dispositivo móvil de al menos uno de un sensor de aceleración, un sensor de localización, un sensor de iluminación, un sensor de proximidad, una unidad de reloj y una unidad de calendario en el dispositivo móvil; e
identificar el contexto del dispositivo móvil en base a los datos.
4. El procedimiento de la reivindicación 1, en el que determinar el contexto del dispositivo móvil comprende:
obtener información de estado del dispositivo móvil; e
identificar el contexto del dispositivo móvil en base a la información de estado.
5. El procedimiento de la reivindicación 4, en el que la información de estado indica un cambio en un estado operativo de un procesador en el dispositivo móvil de un estado inactivo a un estado activo.
6. El procedimiento de la reivindicación 1, que comprende además establecer el umbral en un umbral predeterminado cuando transcurra un período de tiempo predeterminado después de ajustar el umbral.
7. El procedimiento de la reivindicación 1, en el que la detección de palabras clave objetivo del flujo de sonido de entrada comprende:
calcular un grado de similitud entre el flujo de sonido de entrada y un modelo de sonido de la palabra clave objetivo;
comparar el grado de similitud con el umbral; y
detectar la palabra clave objetivo del flujo de sonido de entrada si el grado de similitud excede el umbral.
8. Un dispositivo móvil para activar una función de asistente de voz, que comprende:
un sensor de sonido configurado para recibir un flujo de sonido de entrada;
una unidad de ajuste de umbral configurada para ajustar un umbral para activar la función de asistente de voz determinando un contexto, y ajustar el umbral para activar la función de asistente de voz en base al contexto; y
una unidad de activación por voz configurada para activar la función de asistente de voz si se detecta una palabra clave objetivo del flujo de sonido de entrada en base a una característica de sonido extraída del flujo de sonido de entrada y en base al umbral ajustado;
caracterizado por que la unidad de ajuste de umbral está configurada además para ajustar el umbral en base a una probabilidad de usar la función de asistente de voz en el contexto del dispositivo móvil.
9. El dispositivo móvil de la reivindicación 8, en el que la unidad de ajuste de umbral comprende una unidad de inferencia de contexto configurada para identificar el contexto del dispositivo móvil en base al flujo de sonido de entrada, y en el que la unidad de activación por voz está configurada además para activar la función de asistente de voz si la palabra clave objetivo se detecta en base a una comparación entre una característica de sonido procesada correspondiente a la característica de sonido y el umbral ajustado.
10. El dispositivo móvil de la reivindicación 8, en el que la unidad de ajuste de umbral comprende una unidad de determinación de contexto configurada para obtener datos indicativos del contexto del dispositivo móvil de al menos uno de un sensor de aceleración, un sensor de localización, un sensor de iluminación, un sensor de proximidad, una unidad de reloj y una unidad de calendario en el dispositivo móvil, e identificar el contexto del dispositivo móvil en base a los datos.
11. El dispositivo móvil de la reivindicación 8, en el que la unidad de ajuste de umbral comprende una unidad de determinación de contexto configurada para obtener información de estado del dispositivo móvil e identificar el contexto del dispositivo móvil en base a la información de estado.
12. El dispositivo móvil de la reivindicación 11, en el que la información de estado indica un cambio en un estado operativo de un procesador en el dispositivo móvil de un estado inactivo a un estado activo.
13. El dispositivo móvil de la reivindicación 8, en el que la unidad de ajuste de umbral está configurada además para establecer el umbral en un umbral predeterminado cuando transcurra un período de tiempo predeterminado después de ajustar el umbral.
14. El dispositivo móvil de la reivindicación 8, en el que la unidad de activación por voz está configurada además para calcular un grado de similitud entre el flujo de sonido de entrada y un modelo de sonido de la palabra clave objetivo, comparar el grado de similitud con el umbral y detectar la palabra clave objetivo desde el flujo de sonido de entrada si el grado de similitud excede el umbral.
15. Un medio de almacenamiento legible por ordenador que comprende instrucciones para activar una función de asistente de voz en un dispositivo móvil, causando las instrucciones que un procesador del dispositivo móvil realice operaciones de acuerdo con el procedimiento de las reivindicaciones 1 a 7.
ES14784130T 2013-09-17 2014-09-08 Procedimiento y aparato para ajustar umbral de detección para activar función de asistente de voz Active ES2817841T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/029,131 US9240182B2 (en) 2013-09-17 2013-09-17 Method and apparatus for adjusting detection threshold for activating voice assistant function
PCT/US2014/054540 WO2015041882A1 (en) 2013-09-17 2014-09-08 Method and apparatus for adjusting detection threshold for activating voice assistant function

Publications (1)

Publication Number Publication Date
ES2817841T3 true ES2817841T3 (es) 2021-04-08

Family

ID=51703378

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14784130T Active ES2817841T3 (es) 2013-09-17 2014-09-08 Procedimiento y aparato para ajustar umbral de detección para activar función de asistente de voz

Country Status (7)

Country Link
US (1) US9240182B2 (es)
EP (2) EP3047482B1 (es)
JP (1) JP6538060B2 (es)
KR (1) KR102317608B1 (es)
CN (1) CN105556595B (es)
ES (1) ES2817841T3 (es)
WO (1) WO2015041882A1 (es)

Families Citing this family (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9772815B1 (en) 2013-11-14 2017-09-26 Knowles Electronics, Llc Personalized operation of a mobile device using acoustic and non-acoustic information
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US20140337031A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for detecting a target keyword
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US9026176B2 (en) * 2013-05-12 2015-05-05 Shyh-Jye Wang Message-triggered voice command interface in portable electronic devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US20150053779A1 (en) 2013-08-21 2015-02-26 Honeywell International Inc. Devices and methods for interacting with an hvac controller
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
US9781106B1 (en) 2013-11-20 2017-10-03 Knowles Electronics, Llc Method for modeling user possession of mobile device for user authentication framework
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US9741343B1 (en) * 2013-12-19 2017-08-22 Amazon Technologies, Inc. Voice interaction application selection
US9899021B1 (en) * 2013-12-20 2018-02-20 Amazon Technologies, Inc. Stochastic modeling of user interactions with a detection system
US9500739B2 (en) 2014-03-28 2016-11-22 Knowles Electronics, Llc Estimating and tracking multiple attributes of multiple objects from multi-sensor data
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
WO2015149216A1 (en) * 2014-03-31 2015-10-08 Intel Corporation Location aware power management scheme for always-on- always-listen voice recognition system
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
KR102338899B1 (ko) * 2015-01-02 2021-12-13 삼성전자주식회사 홈 디바이스를 제어하는 방법 및 디바이스
CN104657072B (zh) * 2015-01-15 2018-06-12 小米科技有限责任公司 一种触发执行操作指令的方法和装置
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN106469040B (zh) 2015-08-19 2019-06-21 华为终端有限公司 通信方法、服务器及设备
CN106486127A (zh) * 2015-08-25 2017-03-08 中兴通讯股份有限公司 一种语音识别参数自动调整的方法、装置及移动终端
CN105261368B (zh) * 2015-08-31 2019-05-21 华为技术有限公司 一种语音唤醒方法及装置
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
DE112015006887B4 (de) * 2015-09-09 2020-10-08 Mitsubishi Electric Corporation Fahrzeug-Spracherkennungsvorrichtung und Fahrzeugausrüstung
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9946862B2 (en) * 2015-12-01 2018-04-17 Qualcomm Incorporated Electronic device generating notification based on context data in response to speech phrase from user
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR102501083B1 (ko) * 2016-02-05 2023-02-17 삼성전자 주식회사 음성 인식 방법 및 이를 사용하는 전자 장치
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
KR102307976B1 (ko) * 2016-05-10 2021-09-30 구글 엘엘씨 디바이스들 상의 보이스 어시스턴트에 대한 구현들
CN108604254B (zh) 2016-05-13 2022-04-12 谷歌有限责任公司 语音控制的隐藏字幕显示
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10102732B2 (en) * 2016-06-28 2018-10-16 Infinite Designs, LLC Danger monitoring system
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
US10291975B2 (en) * 2016-09-06 2019-05-14 Apple Inc. Wireless ear buds
WO2018118744A1 (en) * 2016-12-19 2018-06-28 Knowles Electronics, Llc Methods and systems for reducing false alarms in keyword detection
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10204624B1 (en) * 2017-08-14 2019-02-12 Lenovo (Singapore) Pte. Ltd. False positive wake word
EP3484176A1 (en) * 2017-11-10 2019-05-15 Nxp B.V. Vehicle audio presentation controller
KR102492727B1 (ko) * 2017-12-04 2023-02-01 삼성전자주식회사 전자장치 및 그 제어방법
US10524046B2 (en) 2017-12-06 2019-12-31 Ademco Inc. Systems and methods for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10948563B2 (en) * 2018-03-27 2021-03-16 Infineon Technologies Ag Radar enabled location based keyword activation for voice assistants
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
JP2019204025A (ja) * 2018-05-24 2019-11-28 レノボ・シンガポール・プライベート・リミテッド 電子機器、制御方法、及びプログラム
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
JP2019211599A (ja) * 2018-06-04 2019-12-12 本田技研工業株式会社 音声認識装置、音声認識方法およびプログラム
EP3753017B1 (en) * 2018-06-05 2023-08-02 Samsung Electronics Co., Ltd. A voice assistant device and method thereof
WO2019235858A1 (en) 2018-06-05 2019-12-12 Samsung Electronics Co., Ltd. A voice assistant device and method thereof
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
KR102523982B1 (ko) 2018-08-21 2023-04-20 구글 엘엘씨 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드
CN110867182B (zh) * 2018-08-28 2022-04-12 仁宝电脑工业股份有限公司 多语音助理的控制方法
TWI683306B (zh) * 2018-08-28 2020-01-21 仁寶電腦工業股份有限公司 多語音助理之控制方法
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
CN109346071A (zh) * 2018-09-26 2019-02-15 出门问问信息科技有限公司 唤醒处理方法、装置及电子设备
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11562135B2 (en) 2018-10-16 2023-01-24 Oracle International Corporation Constructing conclusive answers for autonomous agents
JP7407580B2 (ja) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
US11232788B2 (en) * 2018-12-10 2022-01-25 Amazon Technologies, Inc. Wakeword detection
US11321536B2 (en) * 2019-02-13 2022-05-03 Oracle International Corporation Chatbot conducting a virtual social dialogue
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
CN110022427A (zh) * 2019-05-22 2019-07-16 乐山师范学院 汽车使用智能辅助系统
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110047487B (zh) * 2019-06-05 2022-03-18 广州小鹏汽车科技有限公司 车载语音设备的唤醒方法、装置、车辆以及机器可读介质
KR20200141860A (ko) * 2019-06-11 2020-12-21 삼성전자주식회사 전자 장치 및 그 제어 방법
CN112104901A (zh) * 2019-06-17 2020-12-18 深圳市同行者科技有限公司 一种车载设备的自销售方法及系统
CN110797051A (zh) * 2019-10-28 2020-02-14 星络智能科技有限公司 一种唤醒门限设置方法、装置、智能音箱及存储介质
CN110942768A (zh) * 2019-11-20 2020-03-31 Oppo广东移动通信有限公司 设备唤醒的测试方法、装置、移动终端和存储介质
WO2021141330A1 (ko) * 2020-01-06 2021-07-15 삼성전자(주) 전자장치 및 그 제어방법
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11721338B2 (en) * 2020-08-26 2023-08-08 International Business Machines Corporation Context-based dynamic tolerance of virtual assistant
KR20220111574A (ko) * 2021-02-02 2022-08-09 삼성전자주식회사 전자 장치 및 그 제어 방법
EP4220628A4 (en) 2021-02-19 2024-05-22 Samsung Electronics Co Ltd ELECTRONIC SERVICE SUPPORT DEVICE FOR ARTIFICIAL INTELLIGENCE (AI) AGENT TALKING WITH USER
CN113470657B (zh) * 2021-05-18 2023-12-01 翱捷科技(深圳)有限公司 一种语音唤醒阈值调整方法及系统
US11823707B2 (en) * 2022-01-10 2023-11-21 Synaptics Incorporated Sensitivity mode for an audio spotting system

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3079006B2 (ja) * 1995-03-22 2000-08-21 シャープ株式会社 音声認識制御装置
EP0856832A1 (fr) 1997-02-03 1998-08-05 Koninklijke Philips Electronics N.V. Procédé de reconnaissance vocale de mots et dispositif dans lequel ledit procédé est mis en application
AU2048001A (en) * 1999-11-23 2001-06-04 Katherine Axia Keough System and method of templating specific human voices
JP2004294946A (ja) * 2003-03-28 2004-10-21 Toshiba Corp 携帯型電子機器
EP1679867A1 (en) * 2005-01-06 2006-07-12 Orange SA Customisation of VoiceXML Application
JP4660299B2 (ja) * 2005-06-29 2011-03-30 三菱電機株式会社 移動体用情報装置
US20070263805A1 (en) 2006-05-01 2007-11-15 Mcdonald Christopher F Method to alert participant on a conference call
US20080147411A1 (en) * 2006-12-19 2008-06-19 International Business Machines Corporation Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment
JP5229217B2 (ja) 2007-02-27 2013-07-03 日本電気株式会社 音声認識システム、方法およびプログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20080300025A1 (en) * 2007-05-31 2008-12-04 Motorola, Inc. Method and system to configure audio processing paths for voice recognition
JP4973722B2 (ja) 2009-02-03 2012-07-11 株式会社デンソー 音声認識装置、音声認識方法、及びナビゲーション装置
JP2010281855A (ja) * 2009-06-02 2010-12-16 Nissan Motor Co Ltd 音声対話装置および音声対話方法
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120264091A1 (en) * 2009-08-17 2012-10-18 Purdue Research Foundation Method and system for training voice patterns
US8270954B1 (en) 2010-02-02 2012-09-18 Sprint Communications Company L.P. Concierge for portable electronic device
US8359020B2 (en) 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
JP2012216057A (ja) * 2011-03-31 2012-11-08 Toshiba Corp 音声処理装置、及び音声処理方法
JP5797009B2 (ja) * 2011-05-19 2015-10-21 三菱重工業株式会社 音声認識装置、ロボット、及び音声認識方法
KR101683083B1 (ko) * 2011-09-30 2016-12-07 애플 인크. 가상 비서에서 커맨드 처리를 용이하게 하기 위한 컨텍스트 정보의 이용
KR101590332B1 (ko) * 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법
US9349366B2 (en) * 2012-06-13 2016-05-24 Wearsafe Labs Llc Systems and methods for managing an emergency situation
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置

Also Published As

Publication number Publication date
JP2016536648A (ja) 2016-11-24
CN105556595A (zh) 2016-05-04
EP3754652B1 (en) 2023-09-06
EP3047482A1 (en) 2016-07-27
EP3754652A1 (en) 2020-12-23
US9240182B2 (en) 2016-01-19
WO2015041882A1 (en) 2015-03-26
US20150081296A1 (en) 2015-03-19
KR102317608B1 (ko) 2021-10-25
JP6538060B2 (ja) 2019-07-03
KR20160055915A (ko) 2016-05-18
CN105556595B (zh) 2019-11-01
EP3754652C0 (en) 2023-09-06
EP3047482B1 (en) 2020-06-10

Similar Documents

Publication Publication Date Title
ES2817841T3 (es) Procedimiento y aparato para ajustar umbral de detección para activar función de asistente de voz
ES2818085T3 (es) Procedimiento y aparato para activación de aplicación mediante entrada de voz
ES2842181T3 (es) Generación de notificaciones basadas en datos de contexto en respuesta a una frase hablada por un usuario
US9892729B2 (en) Method and apparatus for controlling voice activation
US9390599B2 (en) Noise-sensitive alert presentation
US9916431B2 (en) Context-based access verification
JP2019091472A (ja) 発語トリガを常時リッスンするための動的閾値
US10334100B2 (en) Presence-based device mode modification