FR3075427A1 - Assistant vocal - Google Patents

Assistant vocal Download PDF

Info

Publication number
FR3075427A1
FR3075427A1 FR1762353A FR1762353A FR3075427A1 FR 3075427 A1 FR3075427 A1 FR 3075427A1 FR 1762353 A FR1762353 A FR 1762353A FR 1762353 A FR1762353 A FR 1762353A FR 3075427 A1 FR3075427 A1 FR 3075427A1
Authority
FR
France
Prior art keywords
processor
video data
input
output
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1762353A
Other languages
English (en)
Inventor
Julien Pairis
David Wuilmot
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Priority to FR1762353A priority Critical patent/FR3075427A1/fr
Priority to PCT/FR2018/053158 priority patent/WO2019122578A1/fr
Priority to US16/954,947 priority patent/US20200379731A1/en
Priority to EP18833272.0A priority patent/EP3729236A1/fr
Publication of FR3075427A1 publication Critical patent/FR3075427A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Un dispositif (1) d'assistance comprenant : - au moins un processeur (3) couplé de manière opérationnelle avec une mémoire (5), - au moins une première entrée (10) reliée au processeur (3) et apte à recevoir des données vidéo issues d'au moins un capteur vidéo (11), et - au moins une seconde entrée (20) reliée au processeur (3) et apte à recevoir des données audio issues d'au moins un microphone (21). Le processeur (3) est agencé pour : - analyser les données vidéo issues de la première entrée (10), - identifier dans les données vidéo au moins un geste humain de référence, et - déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo.

Description

Assistant vocal
L’invention relève du domaine de la fourniture de service, notamment par commande vocale.
Le développement des objets dits « connectés » tend à faciliter les interactions machinemachine et la compatibilité des appareils les uns avec les autres. Ainsi, un téléphone mobile peut servir d’interface pour commander une enceinte sans-fd ou un téléviseur d’un autre fabricant/concepteur.
En outre, les appareils domestiques, notamment dans le domaine du multimédia et de la hautefidélité (« Hi-Fi »), présentent des interfaces homme-machine dont la nature évolue. Les interfaces à commande vocale tendent à remplacer les écrans tactiles, qui remplaçaient euxmêmes les télécommandes à boutons physiques. De telles interfaces à commande vocale sont notamment à la base de l’essor des « assistants vocaux » tels que les systèmes connus sous les noms « Google Home » (Google), « Siri » (Apple) ou « Alexa » (Amazon).
Pour éviter des déclenchements intempestifs, les assistants vocaux sont généralement prévus pour s’activer seulement lorsqu’un mot-clé ou une phrase-clé est prononcé par l’utilisateur. Il est aussi théoriquement possible de limiter l’activation en reconnaissant seulement les voix d’utilisateurs présumés légitimes. Cependant, de telles précautions sont imparfaites, en particulier lorsque la qualité sonore perçue ne permet pas une bonne analyse des sons, par exemple dans un environnement bruyant. Le mot-clé ou la phrase-clé peut ne pas être capté par le microphone ou ne pas être reconnu parmi l’ensemble des sons captés. Dans de tels cas, le déclenchement est impossible ou erratique.
L’invention vient améliorer la situation.
Il est proposé un dispositif d’assistance comprenant :
- au moins un processeur couplé de manière opérationnelle avec une mémoire,
- au moins une première entrée reliée au processeur et apte à recevoir des données vidéo issues d’au moins un capteur vidéo, et
- au moins une seconde entrée reliée au processeur et apte à recevoir des données audio issues d’au moins un microphone, le processeur étant agencé pour :
- analyser les données vidéo issues de la première entrée,
- identifier dans les données vidéo au moins un geste humain de référence, et
- déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
Selon un autre aspect, il est proposé un système d’assistance comprenant un tel dispositif et l’un au moins des organes suivants :
- un capteur vidéo connecté ou connectable à la première entrée ;
- un microphone connecté ou connectable à la seconde entrée ;
- un haut-parleur connecté ou connectable à une sortie du dispositif.
Selon un autre aspect, il est proposé un procédé d’assistance, mis en œuvre par des moyens informatiques, comprenant :
- analyser des données vidéo issues d’une première entrée,
- identifier dans les données vidéo au moins un geste humain de référence et,
- déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
Selon un autre aspect de l’invention, il est proposé un programme informatique comportant des instructions pour la mise en œuvre du procédé tel que défini dans les présentes lorsque ce programme est exécuté par un processeur. Selon un autre aspect de l’invention, il est proposé un support d’enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme.
De tels objets permettent à un utilisateur de déclencher la mise en œuvre d’un processus de commande vocale en effectuant un geste, par exemple de la main. Ainsi, les déclenchements intempestifs et les absences de déclenchement résultant habituellement d’un dysfonctionnement du processus de reconnaissance vocale, sont évités. Notamment, le déclenchement du processus de commande vocale est insensible au bruit ambiant et aux commandes vocales involontaires. Les interfaces à commande gestuelle sont moins répandues que les interfaces à commande vocale, notamment car il est considéré comme moins naturel ou moins instinctif de s’adresser à une machine par des gestes que par la voix. Par conséquent, l’usage de commandes gestuelles est réservé à des contextes particuliers plutôt qu’aux usages dits « grand public » et « domestique ». De tels objets sont particulièrement avantageux lorsqu’ils sont combinés avec des assistants vocaux. La reconnaissance gestuelle pour le déclenchement de la reconnaissance vocale peut être combinée avec le déclenchement par reconnaissance vocale (prononciation de mot(s)-clé(s)). Dans ce cas, l’utilisateur peut au choix faire un geste ou prononcer un (des) mot(s)-clé(s) pour activer l’assistant vocal. En variante, le déclenchement par reconnaissance gestuelle vient remplacer le déclenchement par reconnaissance vocale. Dans ce cas, l’efficacité est encore améliorée. Cela permet en outre de neutraliser les microphones hors des périodes d’activation des assistants, soit en les éteignant, soit en les déconnectant. Les risques que les microphones soient utilisés à des fins non prévues sont réduits, par exemple par un tiers prenant indûment le contrôle de tels assistants vocaux.
Les caractéristiques suivantes peuvent, optionnellement, être mises en œuvre. Elles peuvent être mises en œuvre indépendamment les unes des autres ou en combinaison les unes avec les autres :
- Le dispositif peut comprendre, en outre, une sortie pilotée par le processeur et apte à transmettre des commandes à un système de diffusion sonore. Le processeur peut, en outre, être agencé pour transmettre une commande de réduction du volume sonore ou d’interruption de la diffusion sonore en cas de détection dudit au moins un geste humain de référence dans les données vidéo. Cela permet de réduire le bruit ambiant et donc de faciliter des opérations ultérieures d’analyse audio, notamment de reconnaissance vocale, et améliore donc la pertinence et le fonctionnement des services basés sur l’analyse audio.
- L’analyse de données audio peut inclure une reconnaissance de commandes vocales. Cela permet de fournir des services interactifs à l’utilisateur, notamment du type assistance vocale.
- Le dispositif peut comprendre, en outre, une sortie pilotée par le processeur et apte à transmettre des commandes à un dispositif tiers. Le processeur peut, en outre, être agencé pour transmettre une commande sur ladite sortie, la commande étant sélectionnée en fonction des résultats de la reconnaissance de commandes vocales. Un tel dispositif permet de commander vocalement des dispositifs tiers de manière améliorée.
- Le processeur peut, en outre, être agencé pour déclencher l’émission d’un indicateur visuel et/ou sonore perceptible par un utilisateur en cas de détection dudit au moins un geste humain de référence dans les données vidéo. Cela permet à l’utilisateur de prononcer des mots/phrases à destination de certains appareils seulement lorsqu’il sait que l’analyse audio est effective, ce qui lui évite de répéter inutilement certaines commandes.
- Le déclenchement de l’émission d’un indicateur peut inclure :
- l’allumage d’un voyant du dispositif,
- l’émission d’un son prédéterminé sur une sortie du dispositif, et/ou
- l’émission d’un mot prédéterminé ou d’une suite de mots prédéterminée sur une sortie du dispositif.
Cela permet de s’adapter à de nombreuses situations, notamment lorsque l’environnement est bruyant ou qu’un voyant n’est pas visible par un utilisateur.
Les caractéristiques optionnelles précitées peuvent être transposées, indépendamment les unes des autres ou en combinaison les unes avec les autres, aux dispositifs, systèmes, procédés, programmes d’ordinateur et/ou supports d’enregistrement non transitoire lisibles par un ordinateur.
D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :
- la figure 1 montre un exemple non limitatif d’un dispositif proposé selon un ou plusieurs modes de réalisation, et
- la figure 2 montre un exemple non limitatif d’interactions mises en œuvre selon un ou plusieurs modes de réalisation.
Dans la description détaillée ci-après de modes de réalisation, de nombreux détails spécifiques sont présentés pour apporter une compréhension plus complète. Néanmoins, la personne du métier peut se rendre compte que des modes de réalisation peuvent être mis en pratique sans ces détails spécifiques. Dans d’autres cas, des caractéristiques bien connues ne sont pas décrites en détail pour éviter de compliquer inutilement la description.
Dans la suite, il est question de détection d’au moins un geste humain. Le terme « geste » est ici utilisé dans son sens large, à savoir comme visant aussi bien des mouvements (dynamiques) et des postures (statiques) d’au moins un membre du corps humain, typiquement une main.
La figure 1 représente un dispositif 1 d’assistance à disposition d’un utilisateur 100. Le dispositif 1 comprend :
- au moins un processeur 3 couplé de manière opérationnelle avec une mémoire 5,
- au moins une première entrée 10 reliée au processeur 3, et
- au moins une seconde entrée 20 reliée au processeur 3.
La première entrée 10 est apte à recevoir des données vidéo issues d’au moins un capteur vidéo 11, par exemple une caméra ou une webcam. La première entrée 10 forme une interface entre le capteur vidéo et le dispositif 1 et prend, par exemple, la forme d’un connecteur de type HDMI (pour «High-Definition Multimedia Interface»), En variante, d’autres types d’entrée vidéo peuvent être prévus, en complément ou en remplacement du connecteur HDMI. Par exemple, le dispositif 1 peut comprendre une pluralité de premières entrées 10, sous la forme de plusieurs connecteurs de même type ou de type différents. Ainsi, le processeur 3 peut recevoir en entrée plusieurs flux vidéo. Cela permet, par exemple, de capter des images dans différentes pièces d’un bâtiment ou selon différents angles. Le dispositif 1 peut, en outre, être rendu compatible avec une variété de capteurs vidéo 11.
La seconde entrée 20 est apte à recevoir des données audio issues d’au moins un microphone 21. La seconde entrée 20 forme une interface entre le microphone et le dispositif 1 et prend, par exemple, la forme d’un connecteur de type coaxial (par exemple dit « jack »). En variante, d’autres types d’entrée audio peuvent être prévus, en complément ou en remplacement du connecteur coaxial. Notamment, la première entrée 10 et la seconde entrée 20 peuvent présenter un connecteur commun, apte à recevoir à la fois un flux vidéo et un flux audio. Les connecteurs HDMI sont, par exemple, des connecteurs présentant cette possibilité. Les connecteurs HDMI présentent, en outre, l’avantage d’être répandus sur les appareils existants, notamment les téléviseurs. Ainsi, un unique connecteur HDMI peut permettre au dispositif 1 d’être relié un téléviseur équipé à la fois d’un microphone et d’une caméra. Ces équipements tiers peuvent alors être utilisés pour alimenter respectivement une première entrée 10 et une seconde entrée 20 du dispositif 1.
Par exemple, le dispositif 1 peut aussi comprendre une pluralité de secondes entrées 20, sous la forme de plusieurs connecteurs de même type ou de type différents. Ainsi, le processeur 3 peut recevoir en entrée plusieurs flux audio, par exemple de plusieurs microphones répartis dans une pièce, ce qui permet d’améliorer la reconnaissance vocale ultérieure par des méthodes de traitement des signaux connues en tant que telles. Le dispositif 1 peut, en outre, être rendu compatible avec une variété de microphones 21.
Dans l’exemple non limitatif représenté en figure 1, le dispositif 1 comprend en outre :
- une sortie 30 reliée au processeur 3 et pilotée par le processeur 3.
La sortie 30 est apte à transmettre des commandes à un système de diffusion sonore 50, par exemple une enceinte connectée, une installation haute-fidélité (« Hi-Fi »), un téléviseur, un ordiphone (ou « smartphone »), une tablette ou encore un ordinateur. Le système de diffusion sonore 50 comprend au moins un haut-parleur 51.
Dans l’exemple non limitatif représenté en figure 1, le dispositif 1 comprend en outre :
- une sortie 40 reliée au processeur 3 et pilotée par le processeur 3.
La sortie 40 est apte à transmettre des commandes à au moins un dispositif tiers 60, par exemple une enceinte connectée, une installation Hi-Fi, un téléviseur, un ordiphone (ou « smartphone »), une tablette ou encore un ordinateur.
Les sorties 30, 40 peuvent, par exemple, prendre la forme de connecteurs de divers types sélectionnés de préférence pour être compatibles avec les équipements tiers. Le connecteur d’une des sorties 30, 40 peut, par exemple, être commun avec le connecteur d’une des entrées. Par exemple, les connecteurs HDMI permettent la mise en œuvre de transmissions audio bidirectionnelles (technologie connue sous le sigle «ARC » pour «Audio Return Charnel »). Ainsi, une seconde entrée 20 et une sortie 30 peuvent présenter un connecteur commun relié à un équipement, tel qu’un téléviseur, incluant à la fois un microphone 21 et des haut-parleurs 51.
Par exemple, le dispositif 1 peut aussi comprendre une unique sortie ou bien plus de deux sorties sous la forme de plusieurs connecteurs de même type ou de type différents. Ainsi, le processeur 3 peut transmettre en sortie plusieurs commandes, par exemple pour piloter distinctement plusieurs équipements tiers.
Jusqu’ici, les entrées 10, 20 et sorties 30, 40 ont été présentées comme prenant la forme d’un ou plusieurs connecteurs mécaniques. Autrement dit, le dispositif 1 peut être relié à des équipements tiers par des câbles. En variante, certaines au moins des entrées/sorties peuvent prendre la forme d’un module de communication sans fd. Dans de tels cas, le dispositif 1 comprend en outre au moins un module de communication sans fil, de sorte que le dispositif 1 peut être relié sans-fil à des dispositifs tiers distants, y compris des dispositifs tels que présentés en exemple ci-avant. Les modules de communication sans fil sont alors reliés au processeur 3 et pilotés par le processeur 3.
Les modules de communication peuvent, par exemple, inclure un module de communication à courte distance, par exemple à base d’ondes radio telles que celles de type Wifi. Les réseaux locaux sans fil, notamment domestiques, sont souvent mis en œuvre au moyen d’un réseau Wifi. Ainsi, le dispositif 1 peut s’intégrer à un environnement existant, notamment les réseaux dits « domotiques ».
Les modules de communication peuvent, par exemple, inclure un module de communication à faible distance, par exemple de type Bluetooth®. Des moyens de communication compatibles avec la technologie de type Bluetooth® équipent une grande partie des équipements récents, en particulier les ordiphones et les enceintes dites « portables ».
Les modules de communication peuvent, par exemple, inclure un module de communication en champ proche (ou NFC pour « Near Field Communication »). Dans de tels cas, la communication n’étant efficace qu’à des distances de quelques centimètres, le dispositif 1 doit être disposé à proximité immédiate de relais ou des équipements tiers auquel on souhaite se connecter.
Dans l’exemple non limitatif représenté en figure 1, le capteur vidéo 11, le microphone 21 et le haut-parleur 51 du système de diffusion sonore 50 sont des équipements tiers (non intégrés au dispositif 1). Ces équipements peuvent être reliés au processeur 3 du dispositif 1 tout en étant intégrés à d’autres dispositifs, ensembles ou séparément les uns des autres. De tels dispositifs tiers comprennent, par exemple, un téléviseur, un ordiphone, une tablette ou encore un ordinateur. Ces équipements peuvent aussi être reliés au processeur 3 du dispositif 1 tout en étant des équipements indépendants de tout autre dispositif. Dans les modes de réalisation pour lesquels certains au moins des équipements précités sont absents du dispositif 1, notamment le capteur vidéo 11 et le microphone 21, le dispositif 1 peut être considéré comme un boîtier multimédia, ou dispositif d’appoint, destiné à venir se connecter ou s’appairer avec au moins un dispositif tiers, par exemple un téléviseur. Dans ce cas, un tel boîtier multimédia n’est opérationnel qu’une fois connecté à un tel dispositif tiers. Un tel boîtier multimédia peut être inclus dans un décodeur TV (désigné par le sigle STB pour « Set Top Box ») ou bien encore dans une console de jeu.
En variante, certains au moins des équipements précités peuvent être intégrés au dispositif 1. Dans ce dernier cas, le dispositif 1 comprend en outre :
- au moins un capteur vidéo 11 connecté à une première entrée 10 ;
- au moins un microphone 21 connecté à une seconde entrée 20 ; et/ou
- au moins un haut-parleur 51 connecté à une sortie 30 du dispositif 1.
En variante, le dispositif 1 comprend une combinaison d’équipements intégrés et d’entrées/sorties destinées à se connecter à des dispositifs tiers et dépourvues d’équipement intégré correspondant.
Dans des variantes, le dispositif 1 comprend, en outre, au moins un indicateur visuel, par exemple un ou plusieurs voyants. Un tel indicateur, piloté par le processeur 3, peut être activé de manière à renseigner l’utilisateur 100 sur un état du dispositif 1. L’état d’un tel indicateur peut varier, par exemple lors des opérations d’appairage avec des équipements tiers et/ou en cas d’activation ou de désactivation du dispositif 1 comme cela sera décrit plus en détail ci-après.
Dans les modes de réalisation pour lesquels certains au moins des équipements précités sont intégrés au dispositif 1, notamment au moins un capteur vidéo 11 et au moins un microphone 21, le dispositif 1 peut être considéré comme un dispositif au moins en partie autonome. Notamment, le procédé décrit ci-après et en référence à la figure 2 peut être mis en œuvre par le dispositif 1 sans qu’il soit nécessaire de le connecter ou de l’appairer avec des dispositifs tiers.
Le dispositif 1 comprend, en outre, une source d’alimentation non représentée, par exemple un cordon d’alimentation pour un branchement au secteur et/ou une batterie.
Dans les exemples décrits ici, le dispositif 1 comprend un unique processeur 3. En variante, plusieurs processeurs peuvent coopérer pour mettre en œuvre les opérations décrites dans les présentes.
Le processeur 3, ou unité de traitement de données (CPU), est associé à la mémoire 5. La mémoire 5 comprend par exemple une mémoire vive (RAM), une mémoire morte (ROM), une mémoire cache et/ou une mémoire flash, ou tout autre medium de stockage apte au stockage de code logiciel sous forme d’instructions exécutables par un processeur ou de structures de données accessibles par un processeur.
Le processeur 3 est agencé pour :
- analyser les données vidéo issues d’au moins une première entrée 10,
- identifier dans les données vidéo au moins un geste humain de référence, et
- déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
Le geste de référence ou les gestes de référence peuvent être, par exemple, stockés sous forme de critères de détermination/identification dans la mémoire 5 et auxquels le processeur 3 fait appel au cours de l’analyse des données vidéo. De tels critères peuvent être fixés par défaut. En variante, de tels critères peuvent être modifiés par des mises à jour logicielles et/ou par apprentissage auprès de l’utilisateur 100 lui-même. Ainsi, l’utilisateur 100 peut sélectionner les gestes clés ou gestes de référence permettant le déclenchement de l’analyse des données audio.
Dans les exemples décrits ici, à la fois le déclenchement de l’analyse de données audio et l’analyse audio elle-même sont mis en œuvre par le dispositif 1 (par l’intermédiaire d’une seconde entrée 20 et du processeur 3). En variante, le déclenchement est mis en œuvre par le dispositif 1 tandis que l’analyse audio est mise en œuvre par un dispositif tiers auquel est connecté le dispositif 1. Autrement dit, le dispositif 1 peut fonctionner selon un mode dit « autonome » au sens où le dispositif 1 assure lui-même l’analyse audio et optionnellement des opérations ultérieures. Un tel dispositif 1 peut avantageusement remplacer un assistant vocal. Le dispositif 1 peut aussi fonctionner selon un mode « d’appoint » au sens où le dispositif 1 déclenche l’analyse audio par un dispositif tiers, par exemple en transmettant un signal d’activation au dispositif tiers, tel que ceux référencés 60 et relié à la sortie 40.
Autrement dit, le processeur 3 peut, optionnellement, être agencé pour mettre en œuvre l’analyse des données audio en plus du déclenchement.
Que le dispositif 1 fonctionne en mode « autonome » ou « d’appoint », le déclenchement de l’analyse audio par détection d’un geste peut être cumulé avec un déclenchement de l’analyse audio par la voix (prononciation d’un ou plusieurs mots-clés). Ainsi, l’analyse audio et les services qui en découlent peuvent rester activables, en parallèle, par la voix seule indépendamment des gestes (détectée par un dispositif tiers) aussi bien que par les gestes indépendamment de la voix (détectée par le dispositif 1). Le déclenchement peut aussi être conditionné par la détection d’une combinaison de la voix et de l’emploi d’un geste de référence, simultanément ou successivement.
En variante, le déclenchement de l’analyse audio par détection d’un geste peut être exclusif d’un déclenchement de l’analyse audio par la voix. Autrement dit, le dispositif 1 peut être agencé pour rendre les voix, y compris celle de l’utilisateur 100, inopérantes avant le déclenchement de l’analyse audio par un geste. Ainsi, un dispositif 1 en mode autonome, ou un système combinant un dispositif 1 d’appoint avec un dispositif tiers, peuvent interdire le déclenchement de l’analyse audio par la voix.
L’analyse de données audio peut inclure une reconnaissance de commandes vocales. Des techniques de reconnaissance de commandes vocales sont connues en tant que telles, notamment dans le contexte des assistants vocaux.
La figure 2 représente les interactions entre différents éléments au cours de la mise en œuvre d’un procédé selon un mode de réalisation.
L’utilisateur 100 effectue un geste (statique ou dynamique). Le geste est capturé par un capteur vidéo 11 relié à une première sortie 10 d’un dispositif 1. Le processeur 3 du dispositif 1 reçoit un flux vidéo (ou des données vidéo) incluant la capture du geste de référence. Le processeur 3 peut recevoir un flux vidéo sensiblement en continu ou bien, par exemple, seulement lorsqu’un mouvement est détecté.
Le processeur 3 met en œuvre une opération d’analyse des données vidéo reçues. Les opérations incluent des tentatives d’identification d’un ou plusieurs gestes humains de référence. Si aucun geste de référence n’est détecté, alors la suite du procédé n’est pas déclenchée. Le dispositif 1 reste en veille.
Si le geste de référence effectué par l’utilisateur 100 est détecté, alors la suite du procédé est mise en œuvre. Sur la figure 2, la mise en œuvre de deux opérations optionnelles et indépendantes l’une de l’autre sont représentées en traits tiretés :
- une opération visant à réduire le bruit ambiant avant de mettre en œuvre l’analyse audio, et
- une opération visant à confirmer à l’utilisateur 100 que l’analyse audio est déclenchée ou sur le point de l’être.
Dans les modes de réalisation comprenant une combinaison de ces deux opérations optionnelles, elles peuvent être mises en œuvre l’une après l’autre ou concomitamment.
Dans des modes de réalisation, le processeur 3 est donc, en outre, agencé pour transmettre une commande de réduction du volume sonore ou d’interruption de la diffusion sonore en cas de détection d’au moins un geste humain de référence dans les données vidéo. La commande est, par exemple, transmise via la sortie 30 et à destination du système de diffusion sonore 50 incluant un haut-parleur 51 comme cela est représenté en figure 2. La transmission d’une telle commande peut être réalisée, en remplacement ou en complément, via d’autres sorties du dispositif 1 telles que la sortie 40 et à destination d’équipements tiers 60.
Le processeur 3 est, en outre, agencé pour déclencher l’émission d’un indicateur visuel et/ou sonore perceptible par l’utilisateur 100 en cas de détection d’au moins un geste humain de référence dans les données vidéo. L’envoi de l’indicateur est représenté par l’envoi d’un « OK » en figure 2. Par exemple, le déclenchement de l’émission d’un indicateur peut inclure :
- l’allumage d’un voyant du dispositif 1 ;
- l’émission d’un son prédéterminé sur une sortie du dispositif 1, par exemples les sorties 30 et/ou 40 du mode de réalisation de la figure 1 ; et/ou
- l’émission d’un mot prédéterminé ou d’une suite de mots prédéterminée sur une sortie du dispositif 1, par exemples les sorties 30 et/ou 40 du mode de réalisation de la figure 1.
Dans le mode de réalisation représenté en figure 2, une fois l’analyse des données audio déclenchée, le processeur 3 est agencé pour recevoir des données audio à analyser, notamment via une seconde sortie 20 et le microphone 21. Les données audio comprennent, par exemple, une commande vocale prononcée par l’utilisateur 100. Dans des exemples non limitatifs, le processeur 3 peut, en outre, être agencé pour mettre en œuvre une analyse audio incluant une reconnaissance de commandes vocales, puis pour transmettre une commande sélectionnée en fonction des résultats de la reconnaissance de commandes vocales, notamment via les sorties 30 et/ou 40, et à destination respectivement du système de diffusion sonore 50 et/ou d’un dispositif tiers 60.
La variété de commandes vocales pouvant être traduites par le dispositif 1 en commande interprétables informatiquement par des dispositifs tiers comprend, par exemple, des commandes usuelles d’un système Hi-fi, du type « augmentation du volume », « diminution du volume », « changement de piste » ou encore « changement de source ».
Jusqu’ici, il a été fait référence à des modes de réalisation et des variantes d’un dispositif 1. La personne du métier comprendra sans effort que les diverses combinaisons d’opérations décrites comme mises en œuvre par le processeur 3 peuvent généralement être entendues comme formant un procédé d’assistance (de l’utilisateur 100) mis en œuvre par des moyens informatiques. Un tel procédé peut, aussi, prendre la forme d’un programme informatique ou d’un support sur lequel est enregistré un tel programme.
Le dispositif 1 a été présenté dans un état fonctionnel. La personne du métier comprendra en outre, qu’en pratique, le dispositif 1 peut prendre une forme temporairement inactive, telle qu’un système incluant divers pièces prévues pour coopérer les unes avec les autres. Un tel système peut, par exemple, comprendre un dispositif 1 et l’un au moins parmi un capteur vidéo connectable à la première entrée 10, un microphone connectable à la seconde entrée 20 et un haut-parleur 51 connectable à une sortie 30 du dispositif 1.
Optionnellement, le dispositif 1 peut être fourni avec un dispositif de traitement incluant un système d’exploitation et des programmes, composants, modules et/ou applications sous forme de logiciels exécutés par le processeur 3, qui peuvent être stockés dans une mémoire nonvolatile telle que la mémoire 5.
En fonction des modes de réalisation choisis, certains actes, actions, évènements ou fonctions de chacune des méthodes et procédés décrits dans le présent document peuvent être effectués ou se produire selon un ordre différent de celui dans lequel ils ont été décrits, ou peuvent être ajoutés, fusionnés ou bien ne pas être effectués ou ne pas se produire, selon le cas. En outre, dans certains modes de réalisation, certains actes, actions ou évènements sont effectués ou se produisent concurremment et non pas successivement ou vice et versa.
Bien que décrits à travers un certain nombre d’exemples de réalisation détaillés, les procédés proposés et les systèmes et dispositifs pour la mise en œuvre des procédés comprennent différentes variantes, modifications et perfectionnements qui apparaîtront de façon manifeste à la personne du métier, étant entendu que ces différentes variantes, modifications et perfectionnements font partie de la portée de l’invention, telle que définie par la protection recherchée. De plus, différents aspects et caractéristiques décrits ci-dessus peuvent être mis en œuvre ensemble, ou séparément, ou bien substitués les uns aux autres, et l’ensemble des différentes combinaisons et sous combinaisons des aspects et caractéristiques font partie de la portée de l’invention. En outre, il se peut que certains systèmes et équipements décrits ci-dessus n’incorporent pas la totalité des modules et fonctions décrits pour les modes de réalisation préférés.
L’invention ne se limite pas aux exemples de dispositifs, systèmes, procédés, supports d’enregistrement et programmes décrits ci-avant, seulement à titre d’exemple, mais elle englobe toutes les variantes que pourra envisager la personne de l’art dans le cadre de la protection recherchée.

Claims (10)

  1. Revendications
    1. Dispositif (1) d’assistance comprenant :
    - au moins un processeur (3) couplé de manière opérationnelle avec une mémoire (5),
    - au moins une première entrée (10) reliée au processeur (3) et apte à recevoir des données vidéo issues d’au moins un capteur vidéo (11), et
    - au moins une seconde entrée (20) reliée au processeur (3) et apte à recevoir des données audio issues d’au moins un microphone (21), le processeur (3) étant agencé pour :
    - analyser les données vidéo issues de la première entrée (10),
    - identifier dans les données vidéo au moins un geste humain de référence, et
    - déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
  2. 2. Dispositif selon la revendication 1 comprenant en outre une sortie (30) pilotée par le processeur (3) et apte à transmettre des commandes à un système de diffusion sonore (50), le processeur (3) étant en outre agencé pour transmettre une commande de réduction du volume sonore ou d’interruption de la diffusion sonore en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
  3. 3. Dispositif selon l’une des revendications précédentes dans lequel l’analyse de données audio inclut une reconnaissance de commandes vocales.
  4. 4. Dispositif selon la revendication 3, comprenant en outre une sortie (30, 40) pilotée par le processeur (3) et apte à transmettre des commandes à un dispositif tiers (50, 60), le processeur (3) étant en outre agencé pour transmettre une commande sur ladite sortie (30, 40), la commande étant sélectionnée en fonction des résultats de la reconnaissance de commandes vocales.
  5. 5. Dispositif selon l’une des revendications précédentes dans lequel le processeur (3) est en outre agencé pour déclencher l’émission d’un indicateur visuel et/ou sonore perceptible par un utilisateur en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
  6. 6. Dispositif selon la revendication 5, dans lequel le déclenchement de l’émission d’un indicateur inclut :
    - l’allumage d’un voyant du dispositif,
    - l’émission d’un son prédéterminé sur une sortie (30, 40) du dispositif (1), et/ou
    - l’émission d’un mot prédéterminé ou d’une suite de mots prédéterminée sur une sortie (30, 40) du dispositif (1).
  7. 7. Système d’assistance comprenant un dispositif (1) selon l’une des revendications précédentes et l’un au moins des organes suivants :
    - un capteur vidéo (11) connecté ou connectable à la première entrée (10) ;
    - un microphone (21) connecté ou connectable à la seconde entrée (20) ;
    - un haut-parleur (51) connecté ou connectable à une sortie (30) du dispositif (1).
  8. 8. Procédé d’assistance, mis en œuvre par des moyens informatiques, comprenant :
    - analyser des données vidéo issues d’une première entrée (10),
    - identifier dans les données vidéo au moins un geste humain de référence et,
    - déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
  9. 9. Support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme comprenant des instructions pour la mise en œuvre du procédé selon la revendication précédente.
  10. 10. Programme informatique comportant des instructions pour la mise en œuvre du procédé selon la revendication 8 lorsque ce programme est exécuté par un processeur (3).
FR1762353A 2017-12-18 2017-12-18 Assistant vocal Pending FR3075427A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR1762353A FR3075427A1 (fr) 2017-12-18 2017-12-18 Assistant vocal
PCT/FR2018/053158 WO2019122578A1 (fr) 2017-12-18 2018-12-07 Assistant vocal
US16/954,947 US20200379731A1 (en) 2017-12-18 2018-12-07 Voice assistant
EP18833272.0A EP3729236A1 (fr) 2017-12-18 2018-12-07 Assistant vocal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1762353 2017-12-18
FR1762353A FR3075427A1 (fr) 2017-12-18 2017-12-18 Assistant vocal

Publications (1)

Publication Number Publication Date
FR3075427A1 true FR3075427A1 (fr) 2019-06-21

Family

ID=61521657

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1762353A Pending FR3075427A1 (fr) 2017-12-18 2017-12-18 Assistant vocal

Country Status (4)

Country Link
US (1) US20200379731A1 (fr)
EP (1) EP3729236A1 (fr)
FR (1) FR3075427A1 (fr)
WO (1) WO2019122578A1 (fr)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7302200B2 (ja) * 2019-02-26 2023-07-04 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
WO2020235141A1 (fr) * 2019-05-17 2020-11-26 パナソニックIpマネジメント株式会社 Procédé de traitement d'informations, système de traitement d'informations et programme de traitement d'informations

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2555536A1 (fr) * 2011-08-05 2013-02-06 Samsung Electronics Co., Ltd. Procédé pour commander un appareil électronique sur la base de la reconnaissance de mouvement et de reconnaissance vocale et appareil électronique appliquant celui-ci
US20140168058A1 (en) * 2012-12-18 2014-06-19 Hyundai Motor Company Apparatus and method for recognizing instruction using voice and gesture
US20150331490A1 (en) * 2013-02-13 2015-11-19 Sony Corporation Voice recognition device, voice recognition method, and program
US20150336588A1 (en) * 2012-07-06 2015-11-26 Audi Ag Method and control system for operating a motor vehicle

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US8532871B2 (en) * 2007-06-05 2013-09-10 Mitsubishi Electric Company Multi-modal vehicle operating device
KR102160767B1 (ko) * 2013-06-20 2020-09-29 삼성전자주식회사 제스처를 감지하여 기능을 제어하는 휴대 단말 및 방법
US10431211B2 (en) * 2016-07-29 2019-10-01 Qualcomm Incorporated Directional processing of far-field audio
KR102399809B1 (ko) * 2017-10-31 2022-05-19 엘지전자 주식회사 전자 장치 및 그 제어 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2555536A1 (fr) * 2011-08-05 2013-02-06 Samsung Electronics Co., Ltd. Procédé pour commander un appareil électronique sur la base de la reconnaissance de mouvement et de reconnaissance vocale et appareil électronique appliquant celui-ci
US20150336588A1 (en) * 2012-07-06 2015-11-26 Audi Ag Method and control system for operating a motor vehicle
US20140168058A1 (en) * 2012-12-18 2014-06-19 Hyundai Motor Company Apparatus and method for recognizing instruction using voice and gesture
US20150331490A1 (en) * 2013-02-13 2015-11-19 Sony Corporation Voice recognition device, voice recognition method, and program

Also Published As

Publication number Publication date
WO2019122578A1 (fr) 2019-06-27
EP3729236A1 (fr) 2020-10-28
US20200379731A1 (en) 2020-12-03

Similar Documents

Publication Publication Date Title
US10522146B1 (en) Systems and methods for recognizing and performing voice commands during advertisement
US11310765B2 (en) System and method to silence other devices in response to an incoming audible communication
US11626117B2 (en) Contingent device actions during loss of network connectivity
EP2990943B1 (fr) Procédé et système de commande de dispositif terminal intelligent
JP6489563B2 (ja) 音量調節方法、システム、デバイス及びプログラム
US9685156B2 (en) Low-power voice command detector
US20130332168A1 (en) Voice activated search and control for applications
US10133546B2 (en) Providing content on multiple devices
EP3535754B1 (fr) Réception améliorée de commandes audios
KR102147329B1 (ko) 영상 표시 기기 및 그의 동작 방법
US20190121605A1 (en) Monitoring Environmental Noise and Data Packets to Display a Transcription of Call Audio
US20130072251A1 (en) Mobile terminal, method for controlling of the mobile terminal and system
KR102265931B1 (ko) 음성 인식을 이용하는 통화 수행 방법 및 사용자 단말
US20150163610A1 (en) Audio keyword based control of media output
KR101874888B1 (ko) 휴대 단말기의 이어폰 인식 방법 및 장치
KR20110054609A (ko) 블루투스 디바이스의 원격 제어 방법 및 장치
FR2997599A3 (fr) Appareil de traitement d'image et procede de commande de celui-ci et systeme de traitement d'image
CN112969096A (zh) 媒体播放方法及装置、电子设备
CA3041198A1 (fr) Controle de formation de faisceau d'un reseau de microphones
US10062386B1 (en) Signaling voice-controlled devices
WO2019122578A1 (fr) Assistant vocal
KR20190051379A (ko) 전자 장치 및 그 제어 방법
KR20230133864A (ko) 스피치 오디오 스트림 중단들을 처리하는 시스템들및 방법들
US20200043486A1 (en) Natural language processing while sound sensor is muted
US11050499B1 (en) Audience response collection and analysis

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20190621

RX Complete rejection

Effective date: 20200512