ES2754448T3 - Control de un dispositivo electrónico en base a la dirección del habla - Google Patents

Control de un dispositivo electrónico en base a la dirección del habla Download PDF

Info

Publication number
ES2754448T3
ES2754448T3 ES16705671T ES16705671T ES2754448T3 ES 2754448 T3 ES2754448 T3 ES 2754448T3 ES 16705671 T ES16705671 T ES 16705671T ES 16705671 T ES16705671 T ES 16705671T ES 2754448 T3 ES2754448 T3 ES 2754448T3
Authority
ES
Spain
Prior art keywords
speech
electronic device
voice command
user
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16705671T
Other languages
English (en)
Inventor
Sungrack Yun
Taesu Kim
Duck Hoon Kim
Kyuwoong Hwang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2754448T3 publication Critical patent/ES2754448T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Navigation (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Un procedimiento para controlar un dispositivo electrónico en respuesta al habla expresada por un usuario, comprendiendo el procedimiento: recibir un sonido de entrada por un sensor de sonido; detectar el habla expresada por el usuario en el sonido de entrada; determinar, en respuesta a detectar el habla en el sonido de entrada, un primer valor para un primer intervalo de frecuencias del habla y un segundo valor para un segundo intervalo de frecuencias del habla, en el que el primer intervalo de frecuencias es mayor que el segundo intervalo de frecuencias, y en el que los primer y segundo valores caracterizan sus intervalos de frecuencias asociados; determinar un valor de planicidad espectral usando los primer y segundo valores determinados; y determinar si una dirección de partida del habla expresada por el usuario es hacia el dispositivo electrónico en base al valor de planicidad espectral determinado.

Description

DESCRIPCIÓN
Control de un dispositivo electrónico en base a la dirección del habla
CAMPO DE LA DIVULGACIÓN
[0001] La presente descripción se refiere en general al control de dispositivos electrónicos, y más específicamente, al control de dispositivos electrónicos en respuesta al habla expresada por un usuario.
DESCRIPCIÓN DE LA TÉCNICA RELACIONADA
[0002] Recientemente, se ha generalizado el uso de dispositivos electrónicos tales como teléfonos inteligentes, ordenadores de tableta, televisores inteligentes y similares. Estos dispositivos a menudo proporcionan funcionalidades de comunicación de voz y/o datos sobre redes inalámbricas o cableadas. Además, dichos dispositivos pueden proporcionar una variedad de funciones diseñadas para potenciar la conveniencia del usuario, tal como procesamiento de sonido, procesamiento de imágenes o vídeos, navegación, reproducción de música o archivos multimedia, etc.
[0003] Entre dichas funciones, los dispositivos electrónicos convencionales a menudo están equipados con una función de reconocimiento del habla. Dichos dispositivos electrónicos pueden realizar una función en respuesta a recibir y reconocer un comando de voz de un usuario. Por ejemplo, un dispositivo electrónico equipado con una función de reconocimiento del habla puede activar una aplicación, reproducir un archivo de audio o hacer una foto en respuesta a un comando de voz de un usuario.
[0004] Debido al uso generalizado de dispositivos electrónicos, los usuarios a menudo tienen acceso a una pluralidad de dispositivos electrónicos equipados con una función de reconocimiento del habla que se encuentran cerca uno del otro. Por ejemplo, un usuario puede estar en un salón en el que se encuentran su teléfono inteligente, ordenador de tableta y televisor inteligente. En dicho caso, si el usuario expresa un comando de voz hacia el teléfono inteligente como el objetivo previsto, el ordenador de tableta y el televisor inteligente, así como el teléfono inteligente, pueden recibir y responder al comando de voz. Por tanto, dichos dispositivos electrónicos pueden no ser capaces de determinar con exactitud si son el objetivo previsto de un comando de voz para responder al comando de voz.
[0005] La patente de Estados Unidos n.° 7.167.544 B1 describe un sistema de telecomunicaciones que proporciona mensajes de error correspondientes a errores de reconocimiento del habla. Al menos un parámetro de voz se analiza durante un procedimiento de reconocimiento de voz. Si el parámetro de voz supera un umbral, se entrega un mensaje al usuario. El mensaje pide al usuario que vuelva a introducir el comando con una corrección que se ha ajustado al parámetro de voz.
[0006] La solicitud de patente europea con publicación n.° EP 2509070 A1 describe técnicas en las que se usan señales de orientación de audio o visual para determinar la relevancia del habla introducida. En algunos casos, se pueden determinar las características de orientación para el sonido de entrada. La relevancia del habla del usuario durante un intervalo de tiempo se puede caracterizar en base a una o más características de orientación.
SUMARIO DE LA INVENCIÓN
[0007] El alcance de protección se define por las reivindicaciones independientes. Los rasgos característicos opcionales se incluyen en las reivindicaciones dependientes.
[0008] La presente divulgación proporciona procedimientos y aparatos para controlar un dispositivo electrónico en respuesta al habla expresada por un usuario.
[0009] De acuerdo con un aspecto de la presente invención, se proporciona un procedimiento para controlar un dispositivo electrónico en respuesta al habla expresada por un usuario de acuerdo con la reivindicación 1. De acuerdo con otro aspecto de la presente invención, se proporciona un dispositivo electrónico de acuerdo con la reivindicación 7. De acuerdo con otro aspecto de la presente invención, se proporciona un medio de almacenamiento legible por ordenador no transitorio de acuerdo con la reivindicación 13.
[0010] En coherencia con la indicación proporcionada previamente, de que la invención se expone en las reivindicaciones independientes, todas las siguientes apariciones de la expresión "modo(s) de realización [de esta/la presente divulgación]", si se refiere a ofrecer combinaciones diferentes de las definidas por las reivindicaciones independientes, se refieren a ejemplos que se presentaron originalmente pero que no representan modos de realización de la invención reivindicada actualmente, cuyos ejemplos todavía se muestran solo con propósitos ilustrativos.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
[0011] Los modos de realización de la presente divulgación se entenderán con referencia a la siguiente descripción detallada, cuando se lea junto con los dibujos adjuntos.
La FIG. 1 ilustra dispositivos electrónicos configurados para detectar el habla expresada por un usuario y realizar una función en base a una dirección de partida del habla, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 2 ilustra direcciones de partida para comandos de voz, que se expresan por un usuario y se reciben por un sensor de sonido en un dispositivo electrónico, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 3 ilustra un comando de voz expresado por un usuario en una dirección de partida y recibido por uno o más sensores de sonido en cada uno de los dispositivos electrónicos, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 4 ilustra un diagrama de bloques de un dispositivo electrónico configurado para determinar si una dirección de partida del habla es hacia sí misma y realizar una función asociada con un comando de voz en el habla, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 5 ilustra un diagrama de flujo de un procedimiento ejemplar para controlar un dispositivo electrónico en respuesta al habla expresada por un usuario, de acuerdo con un modo de realización de la presente divulgación. La FIG. 6 ilustra un diagrama de flujo de un procedimiento ejemplar realizado en un dispositivo electrónico para determinar si una dirección de partida (DDP) del habla recibida de un usuario es hacia sí misma, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 7 ilustra un diagrama de flujo de un procedimiento ejemplar para controlar un dispositivo electrónico en respuesta al habla expresada por un usuario en relación con otros dispositivos electrónicos, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 8 ilustra un gráfico ejemplar que se puede generar por un dispositivo electrónico trazando los valores de energía de un sonido de entrada recibido en un tiempo especificado como función de la frecuencia, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 9 ilustra una pluralidad de dispositivos electrónicos configurados para comunicarse con un servidor 920 por medio de una red de comunicación para determinar un objetivo previsto de un habla expresada por un usuario, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 10 ilustra un diagrama de flujo de un procedimiento ejemplar para controlar un dispositivo electrónico en respuesta al habla expresada por un usuario en relación con un servidor, de acuerdo con un modo de realización de la presente divulgación.
La FIG. 11 ilustra un diagrama de bloques de un dispositivo electrónico en el que los procedimientos y aparatos de la presente divulgación para controlar un dispositivo electrónico en respuesta al habla expresada por un usuario se pueden implementar de acuerdo con algunos modos de realización.
La FIG. 12 es un diagrama de bloques que ilustra un sistema de servidor, que puede ser uno cualquiera de los servidores descritos previamente implementado de acuerdo con algunos modos de realización.
DESCRIPCIÓN DETALLADA
[0012] Ahora se hará referencia en detalle a diversos modos de realización, ejemplos de los cuales se ilustran en los dibujos adjuntos. En la siguiente descripción detallada, se exponen numerosos detalles específicos para proporcionar un entendimiento exhaustivo de la presente materia objeto. Sin embargo, será evidente para un experto en la técnica que la presente materia objeto se puede llevar a la práctica sin estos detalles específicos. En otros casos, los procedimientos, sistemas y componentes bien conocidos no se han descrito en detalle para no complicar innecesariamente aspectos de los diversos modos de realización.
[0013] La FIG. 1 ilustra dispositivos electrónicos 120 a 150 configurados para detectar el habla expresada por un usuario 110 y realizar una función en base a una dirección de partida del habla, de acuerdo con un modo de realización de la presente divulgación. Los dispositivos electrónicos 120 a 150 pueden ser cualquier dispositivo adecuado equipado con capacidades de captación y procesamiento de sonido, tal como un teléfono móvil, un teléfono inteligente, un ordenador portátil, un ordenador corporal, un ordenador de tableta, un dispositivo de juego, un reproductor multimedia, un televisor inteligente, un dispositivo de iluminación controlado por voz, etc. En el modo de realización ilustrado, los dispositivos electrónicos 120 a 150 son un teléfono inteligente, un ordenador de tableta, un televisor inteligente y un dispositivo de iluminación controlado por voz, respectivamente, y se pueden encontrar en una habitación 100. Aunque los dispositivos electrónicos 120 a 150 se muestran en la habitación 100, cualquier número de dispositivos electrónicos se puede encontrar en la habitación 100 o en cualquier otra ubicación adecuada cercana al usuario 110.
[0014] El usuario 110 puede expresar un comando de voz en una dirección hacia uno de los dispositivos electrónicos 120 a 150 como un dispositivo objetivo para controlar el funcionamiento del dispositivo objetivo. Como se usa en el presente documento, la frase "una dirección de partida hacia un dispositivo electrónico" o cualquier variación de la misma se puede referir a una dirección a lo largo de una línea entre una fuente de sonido (por ejemplo, un usuario) y el dispositivo electrónico, y puede incluir cualquier dirección que se desvíe de la línea dentro de un ángulo o alcance especificado. En el modo de realización ilustrado, el usuario 110 puede expresar un comando de voz (por ejemplo, "HOLA, ASISTENTE") en una dirección hacia el dispositivo electrónico 120 para activar el dispositivo electrónico 120 o indicar al dispositivo electrónico 120 que realice una función (por ejemplo, una aplicación de asistente de voz 122). Como se usa en el presente documento, el término "comando de voz" se puede referir a cualquier habla o locución que incluya una o más palabras o sonido que sea indicativo de un comando o instrucción para realizar o activar una función o una aplicación en los dispositivos electrónicos 120 a 150.
[0015] En respuesta a un comando de voz, los dispositivos electrónicos 120 a 150 pueden realizar una función o ejecutar una aplicación asociada con el comando de voz en base a una dirección de partida del comando de voz del usuario 110. Por ejemplo, el dispositivo electrónico 120 puede activar la aplicación de asistente de voz 122 tras determinar que la dirección de partida del comando de voz "HOLA, ASISTENTE" es hacia sí mismo. En base a una dirección de partida del habla de un usuario, un dispositivo electrónico puede determinar si el habla expresada por el usuario está en una dirección hacia sí mismo, como se mostrará con más detalle a continuación.
[0016] Los dispositivos electrónicos 120 a 150 se pueden configurar para recibir de forma continua, periódica o intermitente un sonido de entrada por medio de un sensor de sonido (por ejemplo, un micrófono) y detectar el habla en el sonido de entrada. En el modo de realización ilustrado, el usuario 110 puede expresar un comando de voz (por ejemplo, "HOLA, ASISTENTE") hacia el dispositivo electrónico 120 para activar una aplicación de asistente de voz 122 del dispositivo electrónico 120. El habla del usuario que incluye el comando de voz se puede recibir por los dispositivos electrónicos 120 a 150 como un sonido de entrada. A medida que el habla del usuario se recibe como un sonido de entrada, los dispositivos electrónicos 120 a 150 pueden detectar el habla en el sonido de entrada.
[0017] Una vez que se detecta el habla en el sonido de entrada, cada uno de los dispositivos electrónicos 120 a 150 puede determinar si una dirección de partida del habla (es decir, dirección del habla expresada) del usuario 110 es hacia sí mismo. Como se usa en el presente documento, la frase "determinar si una dirección de partida del habla es hacia sí mismo" o cualquier variación de la misma se puede referir a determinar si una dirección del habla expresada es hacia un dispositivo electrónico, y puede englobar una prueba positiva (es decir, determinar si una dirección del habla expresada es hacia un dispositivo electrónico) o bien una prueba negativa (es decir, determinar si una dirección del habla expresada no es hacia un dispositivo electrónico). Entre los dispositivos electrónicos 120 a 150, el dispositivo electrónico 120 puede determinar que la dirección de partida del habla es hacia sí mismo y proceder a activar la aplicación de asistente de voz 122 al reconocer el comando de voz (por ejemplo, "HOLA, ASISTENTE") en el habla. Cada uno de los otros dispositivos electrónicos de 130 a 150 puede determinar que la dirección de partida del habla no es hacia sí mismo, de modo que el comando de voz no se procesa.
[0018] Para determinar si una dirección de partida del habla es hacia sí mismo, cada uno de los dispositivos electrónicos 120 a 150 puede analizar las características del habla recibida del usuario 110. En un modo de realización, cada uno de los dispositivos electrónicos 120 a 150 puede determinar las primeras características de un primer intervalo de frecuencias (por ejemplo, la primera banda de frecuencia) y las segundas características de un segundo intervalo de frecuencias (por ejemplo, la segunda banda de frecuencia) del habla, y determinar si la dirección de partida del habla es hacia sí mismo en base a las primeras y segundas características. Por ejemplo, el primer intervalo de frecuencias puede ser mayor que el segundo intervalo de frecuencias y los primer y segundo intervalos de frecuencias pueden incluir al menos una frecuencia.
[0019] Las primeras y segundas características pueden ser valores o parámetros tales como valores de energía, momentos espectrales (por ejemplo, la media, la varianza, la asimetría y la curtosis), planicidad espectral, centroide espectral, factor de cresta, pendiente espectral, caída espectral, contorno de F0, etc., que pueden caracterizar el intervalo de frecuencias asociado en el habla recibido del usuario 110. En un ejemplo que no está dentro del alcance de las reivindicaciones, cada uno de los dispositivos electrónicos 120 a 150 puede calcular una proporción entre las primeras y segundas características y determinar que la dirección de partida del habla es hacia sí mismo en base a la proporción. De acuerdo con la invención reivindicada, los dispositivos electrónicos 120 a 150 determinan un valor de planicidad espectral en base a las primeras y segundas características y determinan que la dirección de partida del habla es hacia sí mismo en base al valor de planicidad espectral. La proporción calculada o el valor de planicidad espectral puede ser indicativo de una probabilidad de que la dirección de partida del habla sea hacia sí mismo.
[0020] En un modo de realización particular, cada uno de los dispositivos electrónicos 120 a 150 puede calcular una proporción entre un valor de energía de un intervalo de alta frecuencia y un valor de energía de un intervalo de baja frecuencia del habla, y determinar que una dirección de partida del habla es hacia sí mismo cuando la proporción es mayor que o igual a un valor umbral, que puede ser un valor umbral predeterminado. De forma alternativa o adicionalmente, cada uno de los dispositivos electrónicos 120 a 150 puede determinar un valor de planicidad espectral de un intervalo de alta frecuencia del habla de acuerdo con la siguiente ecuación:
PLANICIDAD
Figure imgf000005_0001
(Ecuación 1)
donde EL representa un valor de energía de un intervalo de baja frecuencia, de Hl a Hn representan n partes del intervalo de alta frecuencia (por ejemplo, el intervalo de alta frecuencia se puede dividir en tres partes diferentes cuando n=3), y de EHl a EHn representan valores de energía de las n partes del intervalo de alta frecuencia, respectivamente. En este caso, cada uno de los dispositivos electrónicos 120 a 150 puede determinar que una dirección de partida del habla es hacia sí mismo cuando el valor de planicidad espectral es menor que o igual a un valor umbral, que puede ser un valor umbral predeterminado.
[0021] Puesto que una señal o sonido de baja frecuencia tiende a propagarse en todas direcciones, mientras que una señal o sonido de alta frecuencia es más direccional al propagarse principalmente en una dirección de partida de la señal o sonido, cada uno de los dispositivos electrónicos 120 a 150 puede usar la proporción entre el valor de energía del intervalo de alta frecuencia y el valor de energía del intervalo de baja frecuencia o el valor de planicidad espectral del intervalo de alta frecuencia para determinar si la dirección de partida del habla es hacia sí mismo. En el modo de realización ilustrado, el dispositivo electrónico 120 puede determinar que la dirección del habla expresada es hacia sí mismo, y realizar el reconocimiento del habla en el habla para reconocer un comando de voz (por ejemplo, "HOLA, ASISTENTE") en el habla. Una vez que se reconoce el comando de voz, el dispositivo electrónico 120 puede activar la aplicación de asistente de voz 122 asociada con el comando de voz (por ejemplo, "HOLA, ASISTENTE").
[0022] En algunos modos de realización, los dispositivos electrónicos 120 a 150 se pueden configurar para comunicarse entre sí por medio de una red cableada o inalámbrica (no mostrada). En este caso, cada uno de los dispositivos electrónicos 120 a 150 puede detectar el habla expresada por el usuario 110 y calcular una proporción entre las primeras y segundas características (por ejemplo, valores de energía) del habla o un valor de planicidad espectral de un intervalo de alta frecuencia del habla. La proporción calculada o el valor de planicidad espectral se pueden enviar a continuación a los otros dispositivos electrónicos. Tras comparar las proporciones o los valores de planicidad espectral de los dispositivos electrónicos 120 a 150, uno de los dispositivos electrónicos 120 a 150 que tiene la proporción más alta o el valor de planicidad espectral más bajo puede determinar que es el dispositivo objetivo previsto para el habla. En respuesta, el dispositivo electrónico objetivo puede proceder a reconocer el comando de voz en el habla y realizar una función asociada con el comando de voz.
[0023] La FIG. 2 ilustra las direcciones de partida 212 y 222 para los comandos de voz 210 y 220, respectivamente, que se expresan por el usuario 110 y se reciben por un sensor de sonido en el dispositivo electrónico 120, de acuerdo con un modo de realización de la presente divulgación. El usuario 110 puede expresar los comandos de voz 210 y 220 en diferentes direcciones en diferentes tiempos y los comandos de voz 210 y 220 se pueden detectar como habla por el dispositivo electrónico 120. Como se muestra, la dirección de partida 212 del comando de voz 210 del usuario 110 puede ser hacia el dispositivo electrónico 120, mientras que la dirección de partida 222 del comando de voz 220 puede ser en otra dirección alejada del dispositivo electrónico 120.
[0024] El dispositivo electrónico 120 se puede configurar para determinar que una dirección de partida del habla es hacia sí mismo cuando se determina que la dirección está dentro de un ángulo o alcance especificado desde una línea entre el dispositivo electrónico 120 y el usuario 110. En el modo de realización ilustrado, el ángulo o alcance especificado puede ser p grados desde una línea de referencia 230 entre el usuario 110 y el dispositivo electrónico 120. Si un ángulo entre una dirección de partida del habla y la línea de referencia 230 es menor que o igual a p grados, el dispositivo electrónico 120 puede determinar que la dirección de partida del habla es hacia sí mismo. Por ejemplo, el dispositivo electrónico 120 puede detectar el comando de voz 210 como habla y determinar que el ángulo 01 entre la dirección de partida 212 del habla y la línea de referencia 230 es menor que p grados. En este caso, el dispositivo electrónico 120 puede determinar que la dirección de partida 212 del habla es hacia sí mismo y reconocer el comando de voz 210 en el habla para realizar una función asociada con el comando de voz 210.
[0025] Por otra parte, el dispositivo electrónico 120 puede detectar el comando de voz 220 como habla y determinar que el ángulo 02 entre la dirección de partida 222 del habla y la línea de referencia 230 es mayor que p grados. En este caso, el dispositivo electrónico 120 puede determinar que la dirección de partida 222 del habla no es hacia sí mismo, de modo que el comando de voz 220 no se procesa. Por tanto, en base a una dirección de partida (DDP) del habla del usuario 110, el dispositivo electrónico 120 puede determinar si el habla se expresa en una dirección hacia el dispositivo electrónico incluso cuando el usuario 110 habla en diferentes direcciones en una misma ubicación. En un modo de realización, el dispositivo electrónico 120 puede determinar una dirección de partida del habla usando un único sensor de sonido (por ejemplo, micrófono) o cualquier número de sensores de sonido.
[0026] Como se usa en el presente documento, una dirección de partida del habla es diferente de "una dirección de llegada" (DDL), que se refiere a un ángulo de llegada del habla expresada por un usuario. Si se usara una dirección de llegada (DDL), el dispositivo electrónico 120 puede determinar que la dirección de llegada del comando de voz 210 en el dispositivo electrónico 120 es una dirección definida por la línea de referencia 230. De forma similar, el dispositivo electrónico 120 puede determinar que la dirección de llegada del comando de voz 220 en el dispositivo electrónico 120 es una dirección definida por la línea de referencia 230, incluso cuando el comando de voz 220 se expresa en una dirección alejada del dispositivo electrónico 120. En ambos casos, la dirección de llegada 230 de los comandos de voz 210 y 220 en el dispositivo electrónico 120 está a grados alejada de una línea de referencia 240, que se puede definir como una línea entre un par de sensores de sonido (por ejemplo, un par de micrófonos). Puesto que se determina que las direcciones de llegada 230 son las mismas para los comandos de voz 210 y 220 que se expresan en diferentes direcciones, el dispositivo electrónico 120 puede usar una dirección de llegada (DDL) para determinar en qué dirección se encuentra la fuente de sonido con referencia a la línea de referencia 240 y usar una dirección de partida para determinar si el habla se expresa en una dirección hacia el dispositivo electrónico 120. Aunque el dispositivo electrónico 120 se muestra en la FIG. 2, cualquier otro dispositivo electrónico tal como el dispositivo electrónico 130, 140 o 150 se puede configurar para determinar si el habla de un usuario (por ejemplo, el usuario 110) se expresa en una dirección hacia sí mismo de manera similar al dispositivo electrónico 120.
[0027] La FIG. 3 ilustra un comando de voz 310 expresado por el usuario 110 en una dirección de partida 312 y recibido por uno o más sensores de sonido en cada uno de los dispositivos electrónicos 120 y 130, de acuerdo con un modo de realización de la presente divulgación. El usuario 110 se puede encontrar cerca de los dispositivos electrónicos 120 y 130, y expresar el comando de voz 310 hacia el dispositivo electrónico 120. Como se muestra, una distancia D1 entre el usuario 110 y el dispositivo electrónico 120 puede ser mayor que una distancia D2 entre el usuario 110 y el dispositivo electrónico 130.
[0028] En un modo de realización, cada uno de los dispositivos electrónicos 120 y 130 puede detectar el comando de voz 310 como habla y calcular una proporción entre las primeras características de un primer intervalo de frecuencias (por ejemplo, un valor de energía de una banda de alta frecuencia) y las segundas características de un segundo intervalo de frecuencias (por ejemplo, un valor de energía de una banda de baja frecuencia) del habla. De forma alternativa o adicionalmente, cada uno de los dispositivos electrónicos 120 y 130 puede determinar un valor de planicidad espectral de un intervalo de alta frecuencia del habla en base a las primeras características de un primer intervalo de frecuencias (por ejemplo, valores de energía de una banda de alta frecuencia) y las segundas características de un segundo intervalo de frecuencias (por ejemplo, un valor de energía de una banda de baja frecuencia) del habla. En base a la proporción calculada o al valor de planicidad espectral, cada uno de los dispositivos electrónicos 120 y 130 puede determinar si la dirección de partida 312 del comando de voz 310 es hacia sí mismo. Puesto que una intensidad de una señal del habla recibida por el dispositivo electrónico 120 o 130 puede variar dependiendo de una distancia (por ejemplo, D1 o D2) del usuario 110, el dispositivo electrónico 120 o 130 puede usar la proporción entre las primeras características y las segundas características del habla o el valor de planicidad espectral del intervalo de alta frecuencia del habla como un valor normalizado que es independiente de una distancia del usuario 110. En consecuencia, la proporción o el valor de planicidad espectral calculado por el dispositivo electrónico 120 o 130 puede ser independiente de una intensidad de una señal del sonido de entrada recibido del usuario 110.
[0029] De acuerdo con el modo de realización ilustrado, cada uno de los dispositivos electrónicos 120 y 130 puede detectar el comando de voz 310 como habla y determinar si la dirección de partida 312 del habla es hacia sí mismo independiente de la distancia D1 o D2 de la fuente de sonido (por ejemplo, el usuario 110). Por ejemplo, el dispositivo electrónico 120 puede detectar el comando de voz 310 como habla y determinar que la dirección de partida 312 del habla es hacia sí mismo en base a una proporción entre los valores de energía de las bandas de alta y baja frecuencia del habla o un valor de planicidad espectral de una banda de alta frecuencia. En un modo de realización, el dispositivo electrónico 120 puede determinar que la dirección de partida 312 del habla es hacia sí mismo cuando la proporción es mayor que o igual a un valor umbral o cuando el valor de planicidad espectral es menor que o igual a un valor umbral. Tras determinar que la dirección de partida 312 del habla es hacia sí mismo, el dispositivo electrónico 120 puede reconocer el comando de voz 310 en el habla y realizar una función asociada con el comando de voz 310.
[0030] Por otra parte, el dispositivo electrónico 130, que se encuentra más cerca del usuario 110 que el dispositivo electrónico 120, puede detectar el comando de voz 310 como habla y determinar que la dirección de partida 312 del habla no es hacia sí mismo en base a una proporción entre los valores de energía de las bandas de alta y baja frecuencia del habla o un valor de planicidad espectral de una banda de alta frecuencia. Aunque la intensidad del sonido del habla recibida por el dispositivo electrónico 130 puede ser mayor que la del dispositivo electrónico 120 puesto que la distancia D1 es mayor que la distancia D2, el dispositivo electrónico 130 puede determinar que la dirección de partida 312 del habla no es hacia sí mismo en base a la proporción o el valor de planicidad espectral de modo que el comando de voz 310 no se procesa.
[0031] La FIG. 4 ilustra un diagrama de bloques del dispositivo electrónico 120 configurado para determinar si una dirección de partida del habla es hacia sí mismo y realizar una función asociada con un comando de voz en el habla, de acuerdo con un modo de realización de la presente divulgación. El dispositivo electrónico 120 puede incluir un sensor de sonido 420, un procesador 430, una unidad de E/S 440, una unidad de almacenamiento 450 y una unidad de comunicación 460. Como se muestra, el procesador 430 puede incluir un detector del habla 432, una unidad de análisis de frecuencia 434, una unidad de determinación de dirección del habla 436 y una unidad de reconocimiento del habla 438. El procesador 430 puede ser cualquier procesador adecuado para gestionar y hacer funcionar el dispositivo electrónico 120, tal como un procesador de aplicaciones (AP), una unidad de procesamiento central (CPU), un procesador de señales digitales (DSP), etc. El dispositivo electrónico 120 puede ser cualquier dispositivo adecuado equipado con capacidades de captación y procesamiento de sonido, tal como un teléfono móvil, un teléfono inteligente, un ordenador portátil, un ordenador corporal, un ordenador de tableta, un dispositivo de juego, un reproductor multimedia, un televisor inteligente, un dispositivo de iluminación controlado por voz, etc.
[0032] El sensor de sonido 420 se puede configurar para recibir de forma continua, periódica o intermitente un sonido de entrada 410 y proporcionar el sonido de entrada 410 recibido al detector del habla 432. Por ejemplo, el sensor de sonido 420 puede recibir al menos una parte del habla que incluye un comando de voz de un usuario como el sonido de entrada 410 y proporcionar el sonido de entrada 410 al detector del habla 432. El sensor de sonido 420 puede incluir uno o más micrófonos o cualquier otro tipo de sensores de sonido que se puedan usar para recibir, captar, detectar y/o percibir el sonido de entrada 410. Además, el sensor de sonido 420 puede emplear cualquier software y/o hardware adecuado para realizar dichas funciones.
[0033] En algunos modos de realización, el sensor de sonido 420 se puede configurar para recibir periódicamente el sonido de entrada 410 de acuerdo con un ciclo de trabajo para reducir el consumo de potencia. Por ejemplo, el sensor de sonido 420 se puede activar periódicamente en un ciclo de trabajo de un 10 %. Dado un período de 100 ms, el sensor de sonido 420 se puede configurar, por tanto, para funcionar en un "estado activo" durante 10 ms y en un "estado inactivo" durante los siguientes 90 ms.
[0034] En este caso, cuando una parte del sonido de entrada 410 se recibe durante una parte activa del ciclo de trabajo, el sensor de sonido 420 puede determinar si la parte del sonido de entrada 410 es mayor que una intensidad de sonido umbral. En un modo de realización particular, la intensidad de sonido umbral puede ser una intensidad de sonido umbral predeterminada. Si se determina que la intensidad de la parte del sonido de entrada 410 es mayor que la intensidad de sonido umbral predeterminada, el sensor de sonido 420 puede activar el detector del habla 432 en el procesador 430 y proporcionar la parte del sonido de entrada 410 al detector del habla 432. De forma alternativa, sin determinar si la parte recibida supera una intensidad de sonido umbral, el sensor de sonido 420 puede recibir la parte del sonido de entrada 410 periódicamente durante un estado activo del ciclo de trabajo y activar automáticamente el detector del habla 432 para proporcionar la parte recibida al detector del habla 432. En otro modo de realización, el sensor de sonido 420 puede recibir continuamente el sonido de entrada 410 y activar el detector del habla 432 para proporcionar el sonido de entrada 410 recibido al detector del habla 432.
[0035] Tras activarse, el detector del habla 432 en el procesador 330 puede recibir al menos la parte del sonido de entrada 410 desde el sensor de sonido 420. A continuación, el detector del habla 432 puede extraer una pluralidad de rasgos característicos de sonido de al menos la parte del sonido de entrada 410 y determinar si los rasgos característicos de sonido extraídos son indicativos de un sonido de interés tal como el habla usando cualquier procedimiento de clasificación de sonido adecuado tal como un clasificador basado en el modelo de mezclas gaussianas (GMM), una red neuronal, un modelo oculto de Márkov (HMM), un modelo gráfico, una máquina de vectores soporte (SVM) y similares. Si se determina que al menos la parte del sonido de entrada 410 es un sonido de interés (por ejemplo, habla), el detector del habla 432 puede recibir una parte restante del sonido de entrada 410 por medio del sensor de sonido 420. Además, el detector del habla 432 puede activar la unidad de análisis de frecuencia 434 y proporcionar el sonido de entrada 410 a la unidad de análisis de frecuencia 434.
[0036] La unidad de análisis de frecuencia 434 se puede configurar para analizar las características del habla recibida del usuario como el sonido de entrada 410. En un modo de realización, la unidad de análisis de frecuencia 434 puede determinar las primeras características de un primer intervalo de frecuencias (por ejemplo, la primera banda de frecuencia) y las segundas características de un segundo intervalo de frecuencias (por ejemplo, la segunda banda de frecuencia) del habla (es decir, el sonido de entrada 410). Por ejemplo, el primer intervalo de frecuencias puede ser mayor que el segundo intervalo de frecuencias y los primer y segundo intervalos de frecuencias pueden incluir al menos una frecuencia.
[0037] De acuerdo con un modo de realización, las primeras y segundas características pueden ser valores o parámetros tales como valores de energía, momentos espectrales (por ejemplo, la media, la varianza, la asimetría y la curtosis), planicidad espectral, centroide espectral, factor de cresta, pendiente espectral, caída espectral, contorno de F0, etc., que pueden caracterizar el intervalo de frecuencias asociado en el habla recibido del usuario. En un modo de realización particular, la unidad de análisis de frecuencia 434 puede calcular una proporción entre las primeras y segundas características. Por ejemplo, la unidad de análisis de frecuencia 434 puede convertir el sonido de entrada 410 del dominio del tiempo en el dominio de la frecuencia o el dominio de la frecuencia-tiempo, y calcular una proporción entre un valor de energía de un intervalo de alta frecuencia (por ejemplo, de 10 kHz a 15 kHz) y un valor de energía de un intervalo de baja frecuencia (por ejemplo, de 0 kHz a 5 kHz). De forma alternativa o adicionalmente, la unidad de análisis de frecuencia 434 puede calcular un valor de planicidad espectral de un intervalo de alta frecuencia del habla usando la ecuación 1 anterior. La unidad de análisis de frecuencia 434 puede proporcionar la proporción o el valor de planicidad espectral calculados a la unidad de determinación de la dirección del habla 436. La proporción o el valor de planicidad espectral puede ser indicativo de una probabilidad de que la dirección de partida del habla del usuario sea hacia el dispositivo electrónico 120.
[0038] Tras recibir la proporción o el valor de planicidad espectral, la unidad de determinación de la dirección del habla 436 puede determinar si una dirección de partida del habla es hacia sí mismo en base a la proporción o el valor de planicidad espectral. En un modo de realización, la unidad de determinación de la dirección del habla 436 puede determinar que una dirección de partida del habla es hacia el dispositivo electrónico 120 cuando la proporción es mayor que o igual a un valor umbral o cuando el valor de planicidad espectral es menor que o igual a un valor umbral. En un modo de realización particular, el valor umbral puede ser un valor umbral predeterminado. Puesto que una señal o sonido de baja frecuencia tiende a propagarse en todas direcciones, mientras que una señal o sonido de alta frecuencia es más direccional al propagarse principalmente en una dirección de partida de la señal o sonido, la unidad de análisis de frecuencia 434 puede usar la proporción entre el valor de energía del intervalo de alta frecuencia y el valor de energía del intervalo de baja frecuencia o el valor de planicidad espectral del intervalo de alta frecuencia para determinar si la dirección de partida del habla es hacia el dispositivo electrónico.
[0039] En respuesta a determinar que la dirección de partida del habla del usuario es hacia el dispositivo electrónico 120, se puede proporcionar el sonido de entrada 410 a la unidad de reconocimiento del habla 438 para realizar el reconocimiento del habla en el habla. A continuación, la unidad de reconocimiento del habla 438 puede reconocer el comando de voz en el habla (es decir, el sonido de entrada 410). En un modo de realización, la unidad de reconocimiento del habla 438 puede acceder a modelos de lenguaje, modelos acústicos, modelos de gramática o similares desde la unidad de almacenamiento 450 para su uso en el reconocimiento del habla y/o comandos de voz de uno o más usuarios. La unidad de almacenamiento 450 puede ser almacenamiento remoto o local, y se puede implementar usando cualquier dispositivo de almacenamiento o memoria adecuado, tal como una RAM (memoria de acceso aleatorio), una ROM (memoria de solo lectura), una EEPROM (memoria de solo lectura programable y borrable eléctricamente), una memoria flash o un SSD (unidad de estado sólido). Una vez que se reconoce el comando de voz, el procesador 430 puede realizar una función asociada con el comando de voz y mostrar el resultado del mismo al usuario por medio de la unidad de E/S 440. Aunque el dispositivo electrónico 120 se muestra en la FIG. 4, cualquier otro dispositivo electrónico tal como el dispositivo electrónico 130, 140 o 150 se puede configurar para determinar si el habla de un usuario se expresa en una dirección hacia sí mismo de manera similar al dispositivo electrónico 120.
[0040] En algunos modos de realización, el dispositivo electrónico 120 se puede configurar para comunicarse con un dispositivo externo (por ejemplo, los dispositivos electrónicos 120 a 150 en la FIG. 1 o un servidor) por medio de la unidad de comunicación 460. En este caso, el dispositivo electrónico 120 puede enviar la proporción calculada o el valor de planicidad espectral al dispositivo externo por medio de la unidad de comunicación 460. El dispositivo electrónico 120 también puede recibir una proporción o un valor de planicidad espectral del dispositivo externo como una indicación de una dirección del habla expresada por medio de la unidad de comunicación 460. Tras comparar las proporciones o los valores de planicidad espectral, la unidad de determinación de la dirección del habla 436 puede determinar que el dispositivo electrónico 120 es el dispositivo objetivo previsto para el habla si el dispositivo electrónico 120 tiene la proporción más alta o el valor de planicidad espectral más bajo. Si se determina que el dispositivo electrónico 120 tiene la proporción más alta o el valor de planicidad espectral más bajo, la unidad de reconocimiento del habla 438 puede reconocer el comando de voz en el habla (es decir, el sonido de entrada 410) para realizar una función asociada con el comando de voz.
[0041] De forma alternativa o adicionalmente, el dispositivo electrónico 120 puede recibir un mensaje del dispositivo externo (por ejemplo, un servidor) que indica que es el dispositivo objetivo previsto para el comando de voz. Tras recibir el mensaje, la unidad de reconocimiento del habla 438 puede reconocer el comando de voz en el habla (es decir, el sonido de entrada 410). A continuación, el procesador 430 puede realizar una función asociada con el comando de voz reconocido.
[0042] La FIG. 5 ilustra un diagrama de flujo de un procedimiento ejemplar 500 para controlar un dispositivo electrónico en respuesta al habla expresada por un usuario, de acuerdo con un modo de realización de la presente divulgación. Inicialmente, el dispositivo electrónico (por ejemplo, uno de los dispositivos electrónicos 120 a 150 en la FIG. 1) puede recibir habla que incluye un comando de voz como un sonido de entrada por medio de un sensor de sonido (por ejemplo, un micrófono) en 510. En 520, el dispositivo electrónico puede determinar si se detecta habla en el sonido de entrada recibido. El dispositivo electrónico puede detectar el habla usando cualquier procedimiento, tal como un clasificador basado en el modelo de mezclas gaussianas (GMM), una red neuronal, un modelo oculto de Márkov (HMM), un modelo gráfico, una máquina de vectores soporte (SVM) y similares. Si no se detecta el habla (es decir, NO en 520), el procedimiento 500 puede volver a 510 y recibir otro sonido de entrada por medio del sensor de sonido.
[0043] Cuando se detecta el habla en el sonido de entrada recibido (es decir, SÍ en 520), el dispositivo electrónico puede determinar una dirección de partida (DDP) del habla y determinar si la dirección de partida (DDP) del habla es hacia a sí mismo en 530. Si el dispositivo electrónico determina que la dirección de partida (DDP) del habla no es hacia sí mismo (es decir, NO en 530), el procedimiento 500 puede volver a 510 y recibir otro sonido de entrada por medio del sensor de sonido. Por otra parte, si el dispositivo electrónico determina que la dirección de partida (d Dp ) del habla es hacia sí mismo (es decir, SÍ en 530), el dispositivo electrónico puede reconocer el comando de voz en el habla en 540. Una vez que se reconoce el comando de voz en el habla, el dispositivo electrónico puede realizar una función asociada con el comando de voz en 550. Algunos modos de realización de la presente divulgación que determinan una proporción entre las primeras características de un primer intervalo de frecuencias y las segundas características de un segundo intervalo de frecuencias de un habla se describen a continuación con referencia a las FIG. 6 a 10. Como se describió anteriormente, dichos modos de realización pueden determinar un valor de planicidad espectral de un intervalo de alta frecuencia de un habla en lugar de o además de determinar una proporción entre las primeras características de un primer intervalo de frecuencias y las segundas características de un segundo intervalo de frecuencias de un habla.
[0044] La FIG. 6 ilustra un diagrama de flujo de un procedimiento ejemplar 530 realizado en un dispositivo electrónico para determinar si una dirección de partida (DDP) del habla recibida de un usuario es hacia sí mismo, de acuerdo con un modo de realización de la presente divulgación. Inicialmente, el dispositivo electrónico puede determinar las primeras características de un primer intervalo de frecuencias y las segundas características de un segundo intervalo de frecuencias del habla en 610 y 620, respectivamente. Por ejemplo, el primer intervalo de frecuencias puede ser mayor que el segundo intervalo de frecuencias y los primer y segundo intervalos de frecuencias pueden incluir al menos una frecuencia. De acuerdo con un modo de realización, las primeras y segundas características pueden ser valores o parámetros tales como valores de energía, momentos espectrales (por ejemplo, la media, la varianza, la asimetría y la curtosis), planicidad espectral, centroide espectral, factor de cresta, pendiente espectral, caída espectral, contorno de f0, etc., que pueden caracterizar el intervalo de frecuencias asociado en el habla recibido del usuario.
[0045] En 630, el dispositivo electrónico puede determinar una proporción entre las primeras características del primer intervalo de frecuencias y las segundas características del segundo intervalo de frecuencias del habla. Por ejemplo, el dispositivo electrónico puede calcular una proporción entre un valor de energía de un intervalo de alta frecuencia y un valor de energía de un intervalo de baja frecuencia del habla. Tras determinar la proporción, el dispositivo electrónico puede determinar si la proporción es mayor que o igual a un valor umbral, que puede ser un valor predeterminado, en 640. En un modo de realización, un valor óptimo para reducir una falsa alarma y potenciar la exactitud de la detección se puede determinar y establecerse como el valor umbral.
[0046] Cuando la proporción es mayor que o igual al valor umbral (es decir, SÍ en 640), el dispositivo electrónico puede determinar que la dirección de partida del habla es hacia sí mismo y el procedimiento 530 puede proceder al procedimiento 540 en la FIG. 5 para reconocer un comando de voz en el habla. Por otra parte, cuando la proporción es menor que el valor umbral (es decir, NO en 640), el dispositivo electrónico puede determinar que la dirección de partida del habla no es hacia sí mismo y el procedimiento 530 puede proceder al procedimiento 510 en la FIG. 5 para recibir otro sonido de entrada por medio del sensor de sonido.
[0047] La FIG. 7 ilustra un diagrama de flujo de un procedimiento ejemplar 700 para controlar un dispositivo electrónico en respuesta al habla expresada por un usuario en conexión con otros dispositivos electrónicos, de acuerdo con un modo de realización de la presente divulgación. Inicialmente, el dispositivo electrónico (por ejemplo, uno de los dispositivos electrónicos 120 a 150 en la FIG. 1) puede recibir habla que incluye un comando de voz como un sonido de entrada por medio de un sensor de sonido (por ejemplo, un micrófono) en 710. En 720, el dispositivo electrónico puede determinar si se detecta habla en el sonido de entrada recibido. El dispositivo electrónico puede detectar el habla usando cualquier procedimiento, tal como un clasificador basado en el modelo de mezclas gaussianas (GMM), una red neuronal, un modelo oculto de Márkov (HMM), un modelo gráfico, una máquina de vectores soporte (SVM) y similares. Si no se detecta el habla (es decir, NO en 720), el procedimiento 700 puede volver a 710 para recibir otro sonido de entrada por medio del sensor de sonido.
[0048] Cuando se detecta el habla en el sonido de entrada recibido (es decir, SÍ en 720), el dispositivo electrónico puede determinar una dirección de partida (DDP) del habla en 730. En un modo de realización, el dispositivo electrónico puede calcular una proporción entre un valor de energía de un intervalo de alta frecuencia y un valor de energía de un intervalo de baja frecuencia del habla. A continuación, en 740, el dispositivo electrónico puede determinar si una dirección de partida (DDP) del habla es hacia sí mismo en 740. En un modo de realización, el dispositivo electrónico puede determinar que la dirección de partida del habla es hacia sí mismo cuando la proporción entre el valor de energía del intervalo de alta frecuencia y el valor de energía del intervalo de baja frecuencia del habla es mayor que o igual a un valor umbral, que puede ser un valor predeterminado. Si el dispositivo electrónico determina que la dirección de partida (DDP) del habla no es hacia sí mismo (es decir, NO en 740), el procedimiento 700 puede volver a 710 para recibir otro sonido de entrada por medio del sensor de sonido.
[0049] Por otra parte, si el dispositivo electrónico determina que la dirección de partida (DDP) del habla es hacia sí mismo (es decir, SÍ en 740), el dispositivo electrónico puede recibir al menos una indicación de una dirección del habla expresada desde dispositivos externos en 750. En un modo de realización, la indicación de la dirección del habla expresada puede ser una proporción entre un valor de energía de un intervalo de alta frecuencia y un valor de energía de un intervalo de baja frecuencia del habla recibida en un dispositivo externo. En 760, el dispositivo electrónico puede determinar si es el objetivo previsto del habla en base a la proporción calculada y la al menos una indicación recibida desde otros dispositivos externos. Por ejemplo, el dispositivo electrónico puede comparar la proporción calculada con las proporciones recibidas desde los otros dispositivos y determinar que es el objetivo del habla cuando la proporción calculada tiene el valor más alto.
[0050] Si el dispositivo electrónico determina que no es el objetivo previsto del habla (es decir, NO en 760), el procedimiento 700 puede volver a 710 para recibir otro sonido de entrada por medio del sensor de sonido. Por otra parte, si el dispositivo electrónico determina que es el objetivo previsto del habla (es decir, SÍ en 760), el dispositivo electrónico puede reconocer el comando de voz en el habla en 770. Una vez que se reconoce el comando de voz en el habla, el dispositivo electrónico puede realizar una función asociada con el comando de voz en 780. En otro modo de realización, el dispositivo electrónico puede omitir realizar la etapa de 740. En este caso, el dispositivo electrónico puede proceder directamente a recibir al menos una indicación de una dirección del habla expresada desde dispositivos externos en 750 después de determinar una dirección de partida (DDP) del habla (por ejemplo, calcular una proporción entre un valor de energía de un intervalo de alta frecuencia y un valor de energía de un intervalo de baja frecuencia del habla) en 730.
[0051] La FIG. 8 ilustra un gráfico ejemplar 800 que se puede generar por un dispositivo electrónico trazando los valores de energía de un sonido de entrada recibido en un tiempo especificado como función de la frecuencia, de acuerdo con un modo de realización de la presente divulgación. El eje horizontal del gráfico 800 puede representar un intervalo de frecuencias comenzando a partir de 0 Hz y el eje vertical puede representar un intervalo de valores de energía del sonido de entrada. Por ejemplo, una intensidad de señal del sonido de entrada a una frecuencia especificada se puede representar como un valor de energía. El intervalo de frecuencias en el gráfico 800 se puede dividir en una pluralidad de intervalos de frecuencias de 810 a 880 (por ejemplo, bandas de frecuencia), teniendo cada uno un ancho de 2,5 kHz. De forma alternativa, la pluralidad de intervalos de frecuencias de 810 a 880 puede tener anchuras diferentes.
[0052] En un modo de realización, el dispositivo electrónico puede recibir el habla de un usuario que incluye un comando de voz en un tiempo particular como un sonido de entrada por medio de un sensor de sonido. A continuación, las intensidades del sonido recibido asociado con un intervalo de frecuencias se pueden convertir en valores de energía. Los valores de energía se pueden trazar en el gráfico 800 como función de la frecuencia.
[0053] Entre la pluralidad de intervalos de frecuencias de 810 a 880, el dispositivo electrónico puede seleccionar un intervalo de baja frecuencia 810 y un intervalo de alta frecuencia 850. Aunque el gráfico 800 se ilustra con los intervalos de baja y alta frecuencia 810 y 850 que se seleccionan, se puede seleccionar cualquier número de intervalos de frecuencias para el intervalo de baja frecuencia o el intervalo de alta frecuencia. Se puede obtener un valor de energía para cada uno del intervalo de baja frecuencia 810 y el intervalo de alta frecuencia 850 integrando los valores de energía dentro del intervalo de frecuencias. A continuación, el dispositivo electrónico puede calcular una proporción entre los valores de energía para los intervalos de alta y baja frecuencia 850 y 810, respectivamente. Puesto que la proporción se basa en los valores de energía para los intervalos de alta y baja frecuencia 850 y 810, respectivamente, que pueden tener diferentes características de propagación direccional, la proporción puede ser indicativa de una probabilidad de que una dirección de partida del habla del usuario sea hacia el dispositivo electrónico.
[0054] El dispositivo electrónico se puede configurar para determinar que la dirección de partida del habla del usuario es hacia sí mismo cuando la proporción es mayor que o igual a un valor de umbral, que puede ser un valor predeterminado. En un modo de realización, un valor óptimo para reducir una falsa alarma y potenciar la exactitud de la detección se puede determinar y establecerse como el valor umbral. Por ejemplo, el valor umbral se puede establecer como 0,5. En este caso, la proporción entre los valores de energía de los intervalos de alta y baja frecuencia 850 y 810, respectivamente, se puede determinar como 0,6, como se muestra en el gráfico 800. Puesto que la proporción es mayor que o igual al valor umbral, el dispositivo electrónico puede determinar que la dirección de partida del habla del usuario es hacia sí mismo. Por otra parte, si se determina que la proporción es menor que el valor umbral, el dispositivo electrónico puede determinar que la dirección de partida del habla del usuario no es hacia sí mismo.
[0055] En otro modo de realización, el dispositivo electrónico puede recibir el habla de un usuario que incluye un comando de voz para un período de tiempo especificado como un sonido de entrada por medio del sensor de sonido. El sonido de entrada se puede convertir de un dominio del tiempo a un dominio de la frecuencia-tiempo usando cualquier transformación o función adecuada, tal como la transformada de Fourier, etc. En este caso, el dispositivo electrónico puede generar un gráfico tridimensional que traza los valores de energía asociados con el sonido de entrada recibido como función de la frecuencia y el tiempo. Por ejemplo, el gráfico tridimensional puede incluir cualquier número adecuado de gráficos bidimensionales (por ejemplo, el gráfico 800) a lo largo del eje del tiempo. Se puede obtener un valor de energía para un intervalo de baja frecuencia y un valor de energía para un intervalo de alta frecuencia integrando los valores de energía dentro del intervalo de frecuencias durante el período de tiempo especificado. A continuación, el dispositivo electrónico puede calcular una proporción entre los valores de energía para los intervalos de alta y baja frecuencia y determinar si la dirección de partida del habla del usuario es hacia sí mismo de una manera similar a la descrita con referencia al gráfico 800.
[0056] La FIG. 9 ilustra la pluralidad de dispositivos electrónicos 120 a 150 configurados para comunicarse con un servidor 920 por medio de una red de comunicación 910 para determinar un objetivo previsto de un habla expresada por el usuario 110, de acuerdo con un modo de realización de la presente divulgación. En el modo de realización ilustrada, los dispositivos electrónicos 120 a 150 son un teléfono inteligente, un ordenador de tableta, un televisor inteligente y un dispositivo de iluminación controlado por voz, respectivamente, y se pueden encontrar en una habitación 900. Aunque los dispositivos electrónicos 120 a 150 se muestran en la habitación 900, cualquier número de dispositivos electrónicos se puede encontrar en la habitación 900 o en cualquier otra ubicación adecuada cercana al usuario 110.
[0057] En el modo de realización ilustrado, el usuario 110 puede expresar un comando de voz en una dirección hacia el dispositivo electrónico 130 para activar el dispositivo electrónico 130 o indicar al dispositivo electrónico 120 que realice una función. En este caso, cada uno de los dispositivos electrónicos 120 a 150 puede recibir el comando de voz como un sonido de entrada y detectar el habla en el sonido de entrada. Tras detectar el habla, cada uno de los dispositivos electrónicos 120 a 150 puede calcular una proporción entre las primeras características de un primer intervalo de frecuencias (por ejemplo, un valor de energía de un intervalo de alta frecuencia) y las segundas características de un segundo intervalo de frecuencias (por ejemplo, un valor de energía de un intervalo de baja frecuencia) del habla.
[0058] A continuación, las proporciones calculadas se pueden enviar al servidor 920 por medio de la red de comunicación 910. En un modo de realización, la red de comunicación 910 puede ser una red cableada o una red inalámbrica. Tras recibir las proporciones, el servidor 920 puede comparar las proporciones recibidas desde los dispositivos electrónicos 120 a 150 y determinar que el dispositivo electrónico que tiene la proporción más alta es el dispositivo objetivo previsto para el comando de voz.
[0059] Adicionalmente, el servidor 920 se puede configurar para comparar la proporción más alta con un valor umbral, que puede ser un valor predeterminado. Por ejemplo, se puede determinar el valor umbral como un valor óptimo para reducir una falsa alarma y potenciar la exactitud de la detección. Cuando la proporción más alta es mayor que o igual al valor umbral, el servidor 920 puede determinar que el dispositivo electrónico que tiene la proporción más alta es el dispositivo objetivo previsto para el comando de voz. Por otra parte, cuando la proporción más alta es menor que el valor umbral, el servidor 920 puede determinar que ninguno de los dispositivos electrónicos es el dispositivo objetivo previsto para el comando de voz.
[0060] En el modo de realización ilustrado, el servidor 920 puede determinar que la proporción recibida desde el dispositivo electrónico 130 es la proporción más alta entre las proporciones recibidas de los dispositivos electrónicos 120 a 150 puesto que el usuario ha expresado el comando de voz en una dirección hacia la dispositivo electrónico 130. En respuesta, el servidor 920 puede enviar un mensaje al dispositivo electrónico 130 indicando que es el dispositivo objetivo previsto para el comando de voz. Tras recibir el mensaje, el dispositivo electrónico 130 puede proceder a reconocer el comando de voz y realizar una función asociada con el comando de voz.
[0061] La FIG. 10 ilustra un diagrama de flujo de un procedimiento ejemplar 1000 para controlar un dispositivo electrónico en respuesta al habla expresada por un usuario en conexión con un servidor, de acuerdo con un modo de realización de la presente divulgación. Inicialmente, el dispositivo electrónico (por ejemplo, uno de los dispositivos electrónicos 120 a 150 en la FIG. 1) puede recibir habla que incluye un comando de voz como un sonido de entrada por medio de un sensor de sonido (por ejemplo, un micrófono) en 1010. En 1020, el dispositivo electrónico puede determinar si se detecta habla en el sonido de entrada recibido. El dispositivo electrónico puede detectar el habla usando cualquier procedimiento, tal como un clasificador basado en el modelo de mezclas gaussianas (GMM), una red neuronal, un modelo oculto de Márkov (HMM), un modelo gráfico, una máquina de vectores soporte (SVM) y similares. Si no se detecta el habla (es decir, NO en 1020), el procedimiento 1000 puede volver a 1010 para recibir otro sonido de entrada por medio del sensor de sonido.
[0062] Cuando se detecta el habla en el sonido de entrada recibido (es decir, SÍ en 1020), el dispositivo electrónico puede calcular una proporción entre las primeras características de un primer intervalo frecuencias (por ejemplo, un valor de energía de un intervalo de alta frecuencia) y las segundas características de un segundo intervalo de frecuencias (por ejemplo, un valor de energía de un intervalo de baja frecuencia) del habla en 1030. La proporción calculada puede ser indicativa de una probabilidad de que la dirección de partida del habla sea hacia sí mismo. En 1040, el dispositivo electrónico puede enviar la proporción calculada a un servidor.
[0063] Después de enviar la proporción al servidor, el dispositivo electrónico puede determinar si un mensaje que indica que es el dispositivo objetivo previsto del comando de voz se recibe desde el servidor dentro de un período de tiempo especificado en 1050. Si el dispositivo electrónico no recibe la señal desde el servidor durante el período de tiempo especificado, el procedimiento 1000 puede volver a 1010 para recibir otro sonido de entrada por medio del sensor de sonido. Por otra parte, si el dispositivo electrónico recibe la señal desde el servidor dentro del período especificado, el dispositivo electrónico puede reconocer el comando de voz en el habla en 1060. Una vez que se reconoce el comando de voz en el habla, el dispositivo electrónico puede realizar una función asociada con el comando de voz en 1070.
[0064] La FIG. 11 ilustra un diagrama de bloques de un dispositivo electrónico 1100 en el que los procedimientos y aparatos de la presente divulgación para controlar un dispositivo electrónico en respuesta al habla expresada por un usuario se pueden implementar de acuerdo con algunos modos de realización. El dispositivo electrónico 1100 puede ser un teléfono móvil, un teléfono inteligente, un ordenador corporal, un reloj inteligente, gafas inteligentes, un ordenador personal de tableta, un terminal, un auricular, un asistente digital personal (PDA), un módem inalámbrico, un teléfono inalámbrico, una tableta y así sucesivamente. El sistema de comunicación inalámbrica puede ser un sistema CDMA, un sistema GSM, un sistema W-CDMA, un sistema LTE, un sistema LTE avanzada y así sucesivamente.
[0065] El dispositivo electrónico 1100 puede proporcionar comunicación bidireccional por medio de una ruta de recepción y una ruta de transmisión. En la ruta de recepción, las señales transmitidas por las estaciones base se pueden recibir por una antena 1112 y se pueden proporcionar a un receptor (RCVR) 1114. El receptor 1114 puede condicionar y digitalizar la señal recibida, y proporcionar la señal digital condicionada y digitalizada a una sección digital para su procesamiento adicional. En la ruta de transmisión, un transmisor (TMTR) 1116 puede recibir datos que se van a transmitir desde una sección digital 1120, procesar y condicionar los datos, y generar una señal modulada, que se transmite por medio de la antena 1112 a las estaciones base. El receptor 1114 y el transmisor 1116 pueden formar parte de un transceptor que puede admitir CDMA, GSM, W-CDMA, LTE, LTE avanzada, etc.
[0066] La sección digital 1120 puede incluir diversas unidades de procesamiento, interfaz y memoria, tales como, por ejemplo, un procesador de módem 1122, un ordenador con conjunto reducido de instrucciones/procesador de señales digitales (RISC/DSP) 1124, un controlador/procesador 1126, una memoria interna 1128, un codificador de audio/vídeo generalizado 1132, un descodificador de audio generalizado 1134, un procesador de gráficos/pantalla 1136, y una interfaz de bus externo (EBI) 1138. El procesador de módem 1122 puede realizar un procesamiento para la transmisión y recepción de datos, por ejemplo, codificación, modulación, desmodulación y descodificación. El RISC/DSP 1124 puede realizar un procesamiento general y especializado para el dispositivo electrónico 1100. El controlador/procesador 1126 puede realizar la operación de diversas unidades de procesamiento e interfaz dentro de la sección digital 1120. La memoria interna 1128 puede almacenar datos y/o instrucciones para diversas unidades dentro de la sección digital 1120.
[0067] El codificador de audio/vídeo generalizado 1132 puede realizar la codificación para señales de entrada desde una fuente de audio/vídeo 1142, un micrófono 1144, un sensor de imagen 1146, etc. El decodificador de audio generalizado 1134 puede realizar la descodificación de datos de audio codificados y puede proporcionar señales de salida a un altavoz/auriculares 1148. El procesador de gráficos/pantalla 1136 puede realizar un procesamiento de gráficos, vídeos, imágenes y textos, que se pueden presentar a una unidad de pantalla 1150. La EBI 1138 puede facilitar la transferencia de datos entre la sección digital 1120 y una memoria principal 1152.
[0068] La sección digital 1120 se puede implementar con uno o más procesadores, DSP, microprocesadores, RISC, etc. La sección digital 1120 también se puede fabricar en uno o más circuitos integrados específicos de la aplicación (ASIC) y/o algún otro tipo de circuitos integrados (IC).
[0069] La FIG. 12 es un diagrama de bloques que ilustra un sistema de servidor 1200, que puede ser uno cualquiera de los servidores descritos previamente implementado de acuerdo con algunos modos de realización. El sistema de servidor 1200 puede incluir una o más unidades de procesamiento (por ejemplo, CPU) 1202, una o más redes u otras interfaces de red de comunicaciones, una memoria 1212 y uno o más buses de comunicación 1214 para interconectar estos componentes. El sistema de servidor 1200 también puede incluir una interfaz de usuario (no mostrada) que tiene un dispositivo de pantalla y un teclado.
[0070] La memoria 1212 puede ser cualquier memoria adecuada, tal como una memoria de acceso aleatorio de alta velocidad, (por ejemplo, DRAM, SRAM, DDR RAM u otros dispositivos de memoria de estado sólido de acceso aleatorio). La memoria 1212 puede incluir o puede ser de forma alternativa memoria no volátil (por ejemplo, uno o más dispositivos de almacenamiento de disco magnético, dispositivos de almacenamiento de disco óptico, dispositivos de memoria flash u otros dispositivos de almacenamiento de estado sólido no volátiles). En algunos modos de realización, la memoria 1212 puede incluir uno o más dispositivos de almacenamiento ubicados remotamente de la(s) CPU 1202 y/o ubicados remotamente en múltiples sitios.
[0071] Uno cualquiera de los dispositivos de memoria anteriores representados por la memoria 1212 puede almacenar cualquier número de módulos o programas que corresponda a un conjunto de instrucciones para realizar y/o ejecutar cualquiera de los procesos, operaciones y procedimientos descritos previamente. Por ejemplo, la memoria 1212 puede incluir un sistema operativo 1216 configurado para almacenar instrucciones que incluye procedimientos para manejar diversos servicios básicos del sistema y para realizar tareas dependientes del hardware. Se puede usar un módulo de comunicación de red 1218 de la memoria 1212 para conectar el sistema de servidor 1200 a otros ordenadores por medio de una o más interfaces de red de comunicación 1210 (cableadas o inalámbricas) y una o más redes de comunicación, tales como Internet, otras redes de área amplia, redes de área local, redes de área metropolitana y así sucesivamente.
[0072] La memoria 1212 también puede incluir una base de datos 1220 configurada para incluir modelos de lenguaje, modelos acústicos, modelos de gramática o similares. Cada uno de los modelos de la base de datos se puede usar para reconocer el habla y/o comandos de uno o más usuarios. El sistema operativo 1216 puede actualizar la base de datos 1220 a través del módulo de comunicación de red 1218. El sistema operativo 1216 también puede proporcionar un mensaje que indica que un dispositivo electrónico es un dispositivo objetivo previsto para un comando de voz por medio del módulo de comunicación de red 1218.
[0073] En general, cualquier dispositivo descrito en el presente documento puede representar diversos tipos de dispositivos, tales como un teléfono inalámbrico, un teléfono móvil, un ordenador portátil, un dispositivo multimedia inalámbrico, una tarjeta de ordenador personal (PC) de comunicación inalámbrica, un PDA, un módem externo o interno, un dispositivo que se comunica a través de un canal inalámbrico, etc. Un dispositivo puede tener diversos nombres, tales como terminal de acceso (AT), unidad de acceso, unidad de abonado, estación móvil, dispositivo móvil, unidad móvil, teléfono móvil, móvil, estación remota, terminal remoto, unidad remota, dispositivo de usuario, equipo de usuario, dispositivo portátil, etc. Cualquier dispositivo descrito en el presente documento puede tener una memoria para almacenar instrucciones y datos, así como hardware, software, firmware o combinaciones de los mismos.
[0074] Las técnicas descritas en el presente documento se pueden implementar por diversos medios. Por ejemplo, estas técnicas se pueden implementar en hardware, firmware, software o una combinación de los mismos. Los expertos en la técnica apreciarán además que los diversos bloques lógicos, módulos, circuitos y etapas de algoritmo ilustrativos descritos en relación con la divulgación en el presente documento se pueden implementar como hardware electrónico, software informático o combinaciones de ambos. Para ilustrar claramente esta intercambiabilidad de hardware y software, anteriormente se han descrito diversos componentes, bloques, módulos, circuitos y etapas ilustrativos, en general, en términos de su funcionalidad. Que dicha funcionalidad se implemente como hardware o software depende de la aplicación y las restricciones de diseño particulares impuestas en el sistema global. Los expertos en la técnica pueden implementar la funcionalidad descrita de formas variadas para cada aplicación particular, pero no se debe interpretar que dichas decisiones de implementación suponen apartarse del alcance de la invención, como se define por las reivindicaciones adjuntas.
[0075] Para una implementación en hardware, las unidades de procesamiento usadas para realizar las técnicas se pueden implementar dentro de uno o más ASIC, DSP, dispositivos de procesamiento de señales digitales (DSPD), dispositivos de lógica programable (PLD), matrices de puertas programables in situ (FPGA), procesadores, controladores, microcontroladores, microprocesadores, dispositivos electrónicos, otras unidades electrónicas diseñadas para realizar las funciones descritas en el presente documento, un ordenador o una combinación de los mismos.
[0076] Por tanto, los diversos bloques lógicos, módulos y circuitos ilustrativos descritos en relación con la divulgación en el presente documento se pueden implementar o realizar con un procesador de propósito general, un DSP, un ASIC, una FPGA u otro dispositivo de lógica programable, lógica de transistor o de puertas discretas, componentes de hardware discretos, o con cualquier combinación de los mismos diseñada para realizar las funciones descritas en el presente documento. Un procesador de propósito general puede ser un microprocesador pero, de forma alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador o máquina de estados. Un procesador también se puede implementar como una combinación de dispositivos informáticos, por ejemplo, una combinación de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o más microprocesadores junto con un núcleo de DSP o cualquier otra configuración de este tipo.
[0077] Si se implementan en software, las funciones se pueden almacenar en un medio legible por ordenador. Los medios legibles por ordenador incluyen tanto medios de almacenamiento informático como medios de comunicación, incluyendo cualquier medio que facilite la transferencia de un programa informático de un lugar a otro. Un medio de almacenamiento puede ser cualquier medio disponible al que se pueda acceder mediante un ordenador. A modo de ejemplo y no limitado a ello, dichos medios legibles por ordenador pueden comprender RAM, ROM, EEPROM, CD-ROM u otros dispositivos de almacenamiento en disco óptico, almacenamiento en disco magnético u otro almacenamiento magnético, o cualquier otro medio que se pueda usar para transportar o almacenar el código de programa deseado en forma de instrucciones o estructuras de datos y al que se pueda acceder mediante un ordenador. Los discos, como se usan en el presente documento, incluyen el disco compacto (CD), el disco láser, el disco óptico, el disco versátil digital (DVD), el disco flexible y el disco Blu-ray, donde algunos discos reproducen normalmente los datos magnéticamente, mientras que otros discos reproducen los datos ópticamente con láseres. Las combinaciones de lo anterior se deberían incluir también dentro del alcance de los medios legibles por ordenador. Por ejemplo, un medio de almacenamiento legible por ordenador puede ser un dispositivo de almacenamiento legible por ordenador no transitorio que incluye instrucciones ejecutables por un procesador. Por tanto, un medio de almacenamiento legible por ordenador puede no ser una señal.
[0078] La descripción previa de la divulgación se proporciona para permitir que un experto en la técnica fabrique o use la divulgación. Diversas modificaciones de la divulgación resultarán fácilmente evidentes para los expertos en la técnica, y los principios genéricos definidos en el presente documento se pueden aplicar a otras variaciones sin apartarse del alcance de la invención, como se define en las reivindicaciones adjuntas. Por tanto, la divulgación no está prevista para limitarse a los ejemplos descritos en el presente documento, sino que se le concede el alcance más amplio consecuente con las reivindicaciones adjuntas.
[0079] Aunque las implementaciones ejemplares se refieren a utilizar aspectos de la materia objeto divulgada actualmente en el contexto de uno o más sistemas informáticos autónomos, la materia objeto no está limitada a ello, sino que en su lugar se puede implementar en relación con cualquier entorno informático, tal como una red o un entorno informático distribuido. Aún más, se pueden implementar aspectos de la materia objeto divulgada actualmente en o a través de una pluralidad de chips o dispositivos de procesamiento, y el almacenamiento se puede realizar de forma similar a través de una pluralidad de dispositivos. Dichos dispositivos pueden incluir PC, servidores de red y dispositivos portátiles.
[0080] Aunque la materia objeto se ha descrito en un lenguaje específico con respecto a los rasgos característicos estructurales y/o acciones metodológicas, se debe entender que la materia objeto definida en las reivindicaciones adjuntas no se limita necesariamente a los rasgos característicos o acciones específicas descritos anteriormente. En su lugar, los rasgos característicos y acciones específicas descritas anteriormente se divulgan como formas de ejemplo de implementación de las reivindicaciones.
[0081] Se apreciará que los módulos o programas anteriormente identificados (es decir, conjuntos de instrucciones) no necesitan implementarse como programas, procedimientos o módulos de software separados, y por tanto se pueden combinar diversos subconjuntos de estos módulos o de otro modo reorganizar en diversos modos de realización. Además, la memoria 1212 puede almacenar módulos y estructuras de datos adicionales no descritos anteriormente.

Claims (14)

REIVINDICACIONES
1. Un procedimiento para controlar un dispositivo electrónico en respuesta al habla expresada por un usuario, comprendiendo el procedimiento:
recibir un sonido de entrada por un sensor de sonido;
detectar el habla expresada por el usuario en el sonido de entrada;
determinar, en respuesta a detectar el habla en el sonido de entrada, un primer valor para un primer intervalo de frecuencias del habla y un segundo valor para un segundo intervalo de frecuencias del habla, en el que el primer intervalo de frecuencias es mayor que el segundo intervalo de frecuencias, y en el que los primer y segundo valores caracterizan sus intervalos de frecuencias asociados;
determinar un valor de planicidad espectral usando los primer y segundo valores determinados; y determinar si una dirección de partida del habla expresada por el usuario es hacia el dispositivo electrónico en base al valor de planicidad espectral determinado.
2. El procedimiento de la reivindicación 1, que comprende además:
reconocer un comando de voz en el habla en respuesta a determinar que la dirección de partida del habla es hacia el dispositivo electrónico; y
realizar una función asociada con el comando de voz reconocido.
3. El procedimiento de la reivindicación 1, en el que los primer y segundo valores para los primer y segundo intervalos de frecuencias son valores de energía del habla para los primer y segundo intervalos de frecuencias.
4. El procedimiento de la reivindicación 1, en el que los primer y segundo valores para los primer y segundo intervalos de frecuencias son momentos espectrales, planicidad espectral, centroides espectrales, factores de cresta, pendientes espectrales, caídas espectrales o contornos de F0 de los primer y segundo intervalos de frecuencias.
5. El procedimiento de la reivindicación 1, que comprende además:
recibir una indicación de una dirección del habla expresada desde un dispositivo externo.
6. El procedimiento de la reivindicación 5, que comprende además:
determinar si un objetivo del habla es el dispositivo electrónico o el dispositivo externo en base a los primer y segundo valores y la indicación del dispositivo externo;
reconocer un comando de voz en el habla en respuesta a determinar que el objetivo del habla es el dispositivo electrónico; y
realizar una función asociada con el comando de voz reconocido.
7. Un dispositivo electrónico, que comprende:
medios para recibir un sonido de entrada;
medios para detectar el habla expresada por un usuario en el sonido de entrada;
medios para determinar, en respuesta a detectar el habla en el sonido de entrada, un primer valor para un primer intervalo de frecuencias del habla y un segundo valor para un segundo intervalo de frecuencias del habla, en el que el primer intervalo de frecuencias es mayor que el segundo intervalo de frecuencias, y en el que los primer y segundo valores caracterizan sus intervalos de frecuencias asociados; y
medios para determinar un valor de planicidad espectral usando los valores determinados de la característica;
medios para determinar si una dirección de partida del habla expresada por el usuario es hacia el dispositivo electrónico en base al valor de planicidad espectral determinado.
8. El dispositivo electrónico de la reivindicación 7, que comprende además:
medios para reconocer un comando de voz en el habla en respuesta a determinar que la dirección de partida del habla es hacia el dispositivo electrónico; y
medios para realizar una función asociada con el comando de voz reconocido.
9. El dispositivo electrónico de la reivindicación 7, en el que los primer y segundo valores para los primer y segundo intervalos de frecuencias son valores de energía del habla para los primer y segundo intervalos de frecuencias.
10. El dispositivo electrónico de la reivindicación 7, en el que los primer y segundo valores para los primer y segundo intervalos de frecuencias son momentos espectrales, planicidad espectral, centroides espectrales, factores de cresta, pendientes espectrales, caídas espectrales o contornos de F0 del sonido de entrada para los primer y segundo intervalos de frecuencias.
11. El dispositivo electrónico de la reivindicación 7, que comprende además:
medios para recibir una indicación de una dirección del habla expresada desde un dispositivo externo.
12. El dispositivo electrónico de la reivindicación 11, en el que los medios para determinar si una dirección de partida del habla expresada por el usuario es hacia el dispositivo electrónico se configura para: determinar si un objetivo del habla es el dispositivo electrónico o el dispositivo externo en base a los primer y segundo valores y la indicación del dispositivo externo, y
el dispositivo electrónico comprende además:
medios para reconocer un comando de voz en el habla en respuesta a determinar que el objetivo del habla es el dispositivo electrónico; y
medios para realizar una función asociada con el comando de voz reconocido.
13. Un medio de almacenamiento legible por ordenador no transitorio que comprende instrucciones adaptadas para hacer que al menos un procesador de un dispositivo electrónico realice las operaciones de:
recibir un sonido de entrada por un sensor de sonido;
detectar el habla expresada por un usuario en el sonido de entrada;
determinar, en respuesta a detectar el habla en el sonido de entrada, un primer valor para un primer intervalo de frecuencias del habla y un segundo valor para un segundo intervalo de frecuencias del habla, en el que el primer intervalo de frecuencias es mayor que el segundo intervalo de frecuencias, y en el que los primer y segundo valores caracterizan sus intervalos de frecuencias asociados; y
determinar un valor de planicidad espectral usando los valores determinados de la característica; determinar si una dirección de partida del habla expresada por el usuario es hacia el dispositivo electrónico en base al valor de planicidad espectral determinado.
14. El medio de almacenamiento legible por ordenador no transitorio de la reivindicación 13, que comprende además instrucciones adaptadas para hacer que el al menos un procesador del dispositivo electrónico realice las operaciones de:
reconocer un comando de voz en el habla en respuesta a determinar que la dirección de partida del habla es hacia el dispositivo electrónico; y
realizar una función asociada con el comando de voz reconocido.
ES16705671T 2015-03-27 2016-02-04 Control de un dispositivo electrónico en base a la dirección del habla Active ES2754448T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/671,858 US9911416B2 (en) 2015-03-27 2015-03-27 Controlling electronic device based on direction of speech
PCT/US2016/016649 WO2016160123A1 (en) 2015-03-27 2016-02-04 Controlling electronic device based on direction of speech

Publications (1)

Publication Number Publication Date
ES2754448T3 true ES2754448T3 (es) 2020-04-17

Family

ID=55404841

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16705671T Active ES2754448T3 (es) 2015-03-27 2016-02-04 Control de un dispositivo electrónico en base a la dirección del habla

Country Status (8)

Country Link
US (1) US9911416B2 (es)
EP (1) EP3274988B1 (es)
JP (1) JP2018512619A (es)
KR (1) KR101981878B1 (es)
CN (1) CN107408386B (es)
ES (1) ES2754448T3 (es)
HU (1) HUE047117T2 (es)
WO (1) WO2016160123A1 (es)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106125048B (zh) * 2016-07-11 2019-05-24 浙江大华技术股份有限公司 一种声源定位方法及装置
EP2911149B1 (en) * 2014-02-19 2019-04-17 Nokia Technologies OY Determination of an operational directive based at least in part on a spatial audio property
WO2016208789A1 (ko) * 2015-06-26 2016-12-29 삼성전자 주식회사 소리를 판별하는 방법 및 이를 위한 장치
US11587559B2 (en) * 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
KR102427833B1 (ko) * 2015-11-30 2022-08-02 삼성전자주식회사 사용자 단말장치 및 디스플레이 방법
WO2017138934A1 (en) * 2016-02-10 2017-08-17 Nuance Communications, Inc. Techniques for spatially selective wake-up word recognition and related systems and methods
US9911417B2 (en) * 2016-04-01 2018-03-06 Tai-An Lu Internet of things system with voice-controlled functions and method for processing information of the same
US10147423B2 (en) * 2016-09-29 2018-12-04 Intel IP Corporation Context-aware query recognition for electronic devices
US9642225B1 (en) * 2016-10-20 2017-05-02 Kai-kong Ng Voice-controlled lighting control system
KR101893768B1 (ko) * 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
US10403276B2 (en) 2017-03-17 2019-09-03 Microsoft Technology Licensing, Llc Voice enabled features based on proximity
KR102471493B1 (ko) * 2017-10-17 2022-11-29 삼성전자주식회사 전자 장치 및 음성 인식 방법
TWM562433U (zh) * 2018-01-05 2018-06-21 Thermaltake Technology Co Ltd 聲控輸入系統
US11150869B2 (en) 2018-02-14 2021-10-19 International Business Machines Corporation Voice command filtering
US11200890B2 (en) 2018-05-01 2021-12-14 International Business Machines Corporation Distinguishing voice commands
US11238856B2 (en) 2018-05-01 2022-02-01 International Business Machines Corporation Ignoring trigger words in streamed media content
CN112154412A (zh) * 2018-06-01 2020-12-29 苹果公司 用数字助理提供音频信息
JP7419270B2 (ja) 2018-06-21 2024-01-22 マジック リープ, インコーポレイテッド ウェアラブルシステム発話処理
CN108922528B (zh) * 2018-06-29 2020-10-23 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置
US11062703B2 (en) 2018-08-21 2021-07-13 Intel Corporation Automatic speech recognition with filler model processing
NO20181210A1 (en) * 2018-08-31 2020-03-02 Elliptic Laboratories As Voice assistant
CN109391528A (zh) * 2018-08-31 2019-02-26 百度在线网络技术(北京)有限公司 语音智能设备的唤醒方法、装置、设备及存储介质
CN109831709B (zh) * 2019-02-15 2020-10-09 杭州嘉楠耘智信息科技有限公司 音源定向方法及装置和计算机可读存储介质
EP3931827A4 (en) 2019-03-01 2022-11-02 Magic Leap, Inc. INPUT DETERMINATION FOR A VOICE PROCESSING ENGINE
KR102245953B1 (ko) * 2019-06-05 2021-04-28 엘지전자 주식회사 복수의 전자기기의 제어방법
CN110459213A (zh) * 2019-06-28 2019-11-15 浙江想能睡眠科技股份有限公司 基于语音控制的智能床垫及其控制方法
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
US11355108B2 (en) 2019-08-20 2022-06-07 International Business Machines Corporation Distinguishing voice commands
US11205433B2 (en) * 2019-08-21 2021-12-21 Qualcomm Incorporated Method and apparatus for activating speech recognition
KR102329353B1 (ko) * 2020-03-17 2021-11-22 성균관대학교산학협력단 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
US11778370B2 (en) * 2020-12-07 2023-10-03 Gulfstream Aerospace Corporation Microphone array onboard aircraft to determine crew/passenger location and to steer a transducer beam pattern to that location
CN115086096A (zh) * 2021-03-15 2022-09-20 Oppo广东移动通信有限公司 响应控制语音的方法、装置、设备及存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19956747C1 (de) 1999-11-25 2001-01-11 Siemens Ag Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
DE10133126A1 (de) 2001-07-07 2003-01-16 Philips Corp Intellectual Pty Richtungssensitives Audioaufnahmesystem mit Anzeige von Aufnahmegebiet und/oder Störquelle
JP4157581B2 (ja) * 2004-12-03 2008-10-01 本田技研工業株式会社 音声認識装置
JP4873913B2 (ja) 2004-12-17 2012-02-08 学校法人早稲田大学 音源分離システムおよび音源分離方法、並びに音響信号取得装置
DK1699261T3 (da) * 2005-03-01 2011-08-15 Oticon As System og fremgangsmåde til bestemmelse af direktionalitet af lyd detekteret af et høreapparat
EP2237271B1 (en) 2009-03-31 2021-01-20 Cerence Operating Company Method for determining a signal component for reducing noise in an input signal
US8588441B2 (en) * 2010-01-29 2013-11-19 Phonak Ag Method for adaptively matching microphones of a hearing system as well as a hearing system
US9053697B2 (en) * 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
WO2012098844A1 (ja) * 2011-01-18 2012-07-26 パナソニック株式会社 車両方向特定装置、車両方向特定方法、及びそのプログラム
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
US20130204629A1 (en) 2012-02-08 2013-08-08 Panasonic Corporation Voice input device and display device
US20130238326A1 (en) 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
KR101946364B1 (ko) * 2012-05-01 2019-02-11 엘지전자 주식회사 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법
US9251787B1 (en) * 2012-09-26 2016-02-02 Amazon Technologies, Inc. Altering audio to improve automatic speech recognition
WO2014087495A1 (ja) 2012-12-05 2014-06-12 株式会社日立製作所 音声対話ロボット、音声対話ロボットシステム
US9525938B2 (en) * 2013-02-06 2016-12-20 Apple Inc. User voice location estimation for adjusting portable device beamforming settings
US20140244267A1 (en) * 2013-02-26 2014-08-28 Avaya Inc. Integration of user orientation into a voice command system
US9384751B2 (en) 2013-05-06 2016-07-05 Honeywell International Inc. User authentication of voice controlled devices
EP2911149B1 (en) 2014-02-19 2019-04-17 Nokia Technologies OY Determination of an operational directive based at least in part on a spatial audio property
EP2928210A1 (en) * 2014-04-03 2015-10-07 Oticon A/s A binaural hearing assistance system comprising binaural noise reduction

Also Published As

Publication number Publication date
KR20170131465A (ko) 2017-11-29
EP3274988B1 (en) 2019-08-07
CN107408386A (zh) 2017-11-28
JP2018512619A (ja) 2018-05-17
KR101981878B1 (ko) 2019-05-23
CN107408386B (zh) 2018-11-23
HUE047117T2 (hu) 2020-04-28
US9911416B2 (en) 2018-03-06
US20160284350A1 (en) 2016-09-29
EP3274988A1 (en) 2018-01-31
WO2016160123A1 (en) 2016-10-06

Similar Documents

Publication Publication Date Title
ES2754448T3 (es) Control de un dispositivo electrónico en base a la dirección del habla
US11393472B2 (en) Method and apparatus for executing voice command in electronic device
US20220093108A1 (en) Speaker identification
JP6630765B2 (ja) 個別化されたホットワード検出モデル
ES2842181T3 (es) Generación de notificaciones basadas en datos de contexto en respuesta a una frase hablada por un usuario
US9508342B2 (en) Initiating actions based on partial hotwords
ES2817841T3 (es) Procedimiento y aparato para ajustar umbral de detección para activar función de asistente de voz
CN106233376B (zh) 用于通过话音输入激活应用程序的方法和设备
KR102018152B1 (ko) 항상-온-항상-청취 음성 인식 시스템을 위한 위치 인식 전력 관리 스킴
KR101824158B1 (ko) 화자 검증을 위한 동적 임계치
US9620116B2 (en) Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
US20150302856A1 (en) Method and apparatus for performing function by speech input
US9867012B2 (en) Whispered speech detection
JP6911938B2 (ja) 装置及び方法
US20230395077A1 (en) Device finder using voice authentication
US10818298B2 (en) Audio processing