FR3075427A1

FR3075427A1 - VOICE ASSISTANT

Info

Publication number: FR3075427A1
Application number: FR1762353A
Authority: FR
Inventors: Julien Pairis; David Wuilmot
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2019-06-21
Also published as: US20200379731A1; WO2019122578A1; EP3729236A1

Abstract

Un dispositif (1) d'assistance comprenant : - au moins un processeur (3) couplé de manière opérationnelle avec une mémoire (5), - au moins une première entrée (10) reliée au processeur (3) et apte à recevoir des données vidéo issues d'au moins un capteur vidéo (11), et - au moins une seconde entrée (20) reliée au processeur (3) et apte à recevoir des données audio issues d'au moins un microphone (21). Le processeur (3) est agencé pour : - analyser les données vidéo issues de la première entrée (10), - identifier dans les données vidéo au moins un geste humain de référence, et - déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo. An assistance device (1) comprising: - at least one processor (3) operatively coupled with a memory (5), - at least a first input (10) connected to the processor (3) and capable of receiving video data from at least one video sensor (11), and - at least a second input (20) connected to the processor (3) and able to receive audio data from at least one microphone (21). The processor (3) is arranged for: - analyze the video data from the first input (10), - identify at least one reference human gesture in the video data, and - trigger an analysis of audio data only if said at least one reference human gesture in the video data is detected.

Description

Assistant vocalVoice assistant

L’invention relève du domaine de la fourniture de service, notamment par commande vocale.The invention relates to the field of service provision, in particular by voice command.

Le développement des objets dits « connectés » tend à faciliter les interactions machinemachine et la compatibilité des appareils les uns avec les autres. Ainsi, un téléphone mobile peut servir d’interface pour commander une enceinte sans-fd ou un téléviseur d’un autre fabricant/concepteur.The development of so-called "connected" objects tends to facilitate machine-machine interactions and the compatibility of devices with each other. For example, a mobile phone can be used as an interface to control a wireless speaker or TV from another manufacturer / designer.

En outre, les appareils domestiques, notamment dans le domaine du multimédia et de la hautefidélité (« Hi-Fi »), présentent des interfaces homme-machine dont la nature évolue. Les interfaces à commande vocale tendent à remplacer les écrans tactiles, qui remplaçaient euxmêmes les télécommandes à boutons physiques. De telles interfaces à commande vocale sont notamment à la base de l’essor des « assistants vocaux » tels que les systèmes connus sous les noms « Google Home » (Google), « Siri » (Apple) ou « Alexa » (Amazon).In addition, household appliances, particularly in the multimedia and high fidelity (“Hi-Fi”) fields, have human-machine interfaces whose nature is changing. Voice-activated interfaces tend to replace touch screens, which themselves replaced physical button remote controls. Such voice-activated interfaces are, in particular, the basis of the rise of "voice assistants" such as systems known as "Google Home" (Google), "Siri" (Apple) or "Alexa" (Amazon).

Pour éviter des déclenchements intempestifs, les assistants vocaux sont généralement prévus pour s’activer seulement lorsqu’un mot-clé ou une phrase-clé est prononcé par l’utilisateur. Il est aussi théoriquement possible de limiter l’activation en reconnaissant seulement les voix d’utilisateurs présumés légitimes. Cependant, de telles précautions sont imparfaites, en particulier lorsque la qualité sonore perçue ne permet pas une bonne analyse des sons, par exemple dans un environnement bruyant. Le mot-clé ou la phrase-clé peut ne pas être capté par le microphone ou ne pas être reconnu parmi l’ensemble des sons captés. Dans de tels cas, le déclenchement est impossible ou erratique.To avoid nuisance triggers, voice assistants are generally intended to activate only when a keyword or a key phrase is spoken by the user. It is also theoretically possible to limit activation by recognizing only the voices of presumed legitimate users. However, such precautions are imperfect, in particular when the perceived sound quality does not allow a good analysis of sounds, for example in a noisy environment. The keyword or key phrase may not be picked up by the microphone or may not be recognized among all the sounds picked up. In such cases, triggering is impossible or erratic.

L’invention vient améliorer la situation.The invention improves the situation.

Il est proposé un dispositif d’assistance comprenant :An assistance device is proposed comprising:

- au moins un processeur couplé de manière opérationnelle avec une mémoire,- at least one processor operatively coupled with a memory,

- au moins une première entrée reliée au processeur et apte à recevoir des données vidéo issues d’au moins un capteur vidéo, et- at least a first input connected to the processor and capable of receiving video data from at least one video sensor, and

- au moins une seconde entrée reliée au processeur et apte à recevoir des données audio issues d’au moins un microphone, le processeur étant agencé pour :- at least one second input connected to the processor and capable of receiving audio data from at least one microphone, the processor being arranged for:

- analyser les données vidéo issues de la première entrée,- analyze the video data from the first entry,

- identifier dans les données vidéo au moins un geste humain de référence, et- identify at least one reference human gesture in the video data, and

- déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo.- trigger an analysis of audio data only if said at least one reference human gesture in the video data is detected.

Selon un autre aspect, il est proposé un système d’assistance comprenant un tel dispositif et l’un au moins des organes suivants :According to another aspect, an assistance system is proposed comprising such a device and at least one of the following organs:

- un capteur vidéo connecté ou connectable à la première entrée ;- a video sensor connected or connectable to the first input;

- un microphone connecté ou connectable à la seconde entrée ;- a microphone connected or connectable to the second input;

- un haut-parleur connecté ou connectable à une sortie du dispositif.- a speaker connected or connectable to an output of the device.

Selon un autre aspect, il est proposé un procédé d’assistance, mis en œuvre par des moyens informatiques, comprenant :According to another aspect, an assistance method is proposed, implemented by computer means, comprising:

- analyser des données vidéo issues d’une première entrée,- analyze video data from a first entry,

- identifier dans les données vidéo au moins un geste humain de référence et,- identify at least one reference human gesture in the video data and,

Selon un autre aspect de l’invention, il est proposé un programme informatique comportant des instructions pour la mise en œuvre du procédé tel que défini dans les présentes lorsque ce programme est exécuté par un processeur. Selon un autre aspect de l’invention, il est proposé un support d’enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme.According to another aspect of the invention, there is provided a computer program comprising instructions for implementing the method as defined herein when this program is executed by a processor. According to another aspect of the invention, there is provided a non-transient recording medium, readable by a computer, on which such a program is recorded.

De tels objets permettent à un utilisateur de déclencher la mise en œuvre d’un processus de commande vocale en effectuant un geste, par exemple de la main. Ainsi, les déclenchements intempestifs et les absences de déclenchement résultant habituellement d’un dysfonctionnement du processus de reconnaissance vocale, sont évités. Notamment, le déclenchement du processus de commande vocale est insensible au bruit ambiant et aux commandes vocales involontaires. Les interfaces à commande gestuelle sont moins répandues que les interfaces à commande vocale, notamment car il est considéré comme moins naturel ou moins instinctif de s’adresser à une machine par des gestes que par la voix. Par conséquent, l’usage de commandes gestuelles est réservé à des contextes particuliers plutôt qu’aux usages dits « grand public » et « domestique ». De tels objets sont particulièrement avantageux lorsqu’ils sont combinés avec des assistants vocaux. La reconnaissance gestuelle pour le déclenchement de la reconnaissance vocale peut être combinée avec le déclenchement par reconnaissance vocale (prononciation de mot(s)-clé(s)). Dans ce cas, l’utilisateur peut au choix faire un geste ou prononcer un (des) mot(s)-clé(s) pour activer l’assistant vocal. En variante, le déclenchement par reconnaissance gestuelle vient remplacer le déclenchement par reconnaissance vocale. Dans ce cas, l’efficacité est encore améliorée. Cela permet en outre de neutraliser les microphones hors des périodes d’activation des assistants, soit en les éteignant, soit en les déconnectant. Les risques que les microphones soient utilisés à des fins non prévues sont réduits, par exemple par un tiers prenant indûment le contrôle de tels assistants vocaux.Such objects allow a user to trigger the implementation of a voice command process by making a gesture, for example with the hand. Thus, untimely triggers and absence of triggers, usually resulting from a malfunction of the speech recognition process, are avoided. In particular, the triggering of the voice command process is insensitive to ambient noise and involuntary voice commands. Gesture-based interfaces are less common than voice-activated interfaces, especially since it is considered less natural or less instinctive to address a machine by gestures than by voice. Consequently, the use of gestural commands is reserved for specific contexts rather than for so-called "general public" and "domestic" uses. Such objects are particularly advantageous when combined with voice assistants. Gesture recognition for triggering voice recognition can be combined with triggering by voice recognition (pronunciation of keyword (s)). In this case, the user can either make a gesture or say a keyword (s) to activate the voice assistant. Alternatively, triggering by gesture recognition replaces triggering by voice recognition. In this case, the efficiency is further improved. This also makes it possible to neutralize the microphones outside the assistant activation periods, either by switching them off or by disconnecting them. The risks of microphones being used for unintended purposes are reduced, for example by a third party taking undue control of such voice assistants.

Les caractéristiques suivantes peuvent, optionnellement, être mises en œuvre. Elles peuvent être mises en œuvre indépendamment les unes des autres ou en combinaison les unes avec les autres :The following features can optionally be implemented. They can be implemented independently of each other or in combination with each other:

- Le dispositif peut comprendre, en outre, une sortie pilotée par le processeur et apte à transmettre des commandes à un système de diffusion sonore. Le processeur peut, en outre, être agencé pour transmettre une commande de réduction du volume sonore ou d’interruption de la diffusion sonore en cas de détection dudit au moins un geste humain de référence dans les données vidéo. Cela permet de réduire le bruit ambiant et donc de faciliter des opérations ultérieures d’analyse audio, notamment de reconnaissance vocale, et améliore donc la pertinence et le fonctionnement des services basés sur l’analyse audio.- The device may further comprise an output controlled by the processor and capable of transmitting commands to a sound broadcasting system. The processor can, moreover, be arranged to transmit a command to reduce the sound volume or to interrupt the sound broadcast in the event of said at least one reference human gesture being detected in the video data. This reduces ambient noise and therefore facilitates subsequent operations of audio analysis, in particular speech recognition, and therefore improves the relevance and operation of services based on audio analysis.

- L’analyse de données audio peut inclure une reconnaissance de commandes vocales. Cela permet de fournir des services interactifs à l’utilisateur, notamment du type assistance vocale.- Analysis of audio data may include recognition of voice commands. This makes it possible to provide interactive services to the user, in particular of the voice assistance type.

- Le dispositif peut comprendre, en outre, une sortie pilotée par le processeur et apte à transmettre des commandes à un dispositif tiers. Le processeur peut, en outre, être agencé pour transmettre une commande sur ladite sortie, la commande étant sélectionnée en fonction des résultats de la reconnaissance de commandes vocales. Un tel dispositif permet de commander vocalement des dispositifs tiers de manière améliorée.- The device can further comprise an output controlled by the processor and able to transmit commands to a third-party device. The processor can, moreover, be arranged to transmit a command on said output, the command being selected according to the results of the recognition of voice commands. Such a device allows voice control of third party devices in an improved manner.

- Le processeur peut, en outre, être agencé pour déclencher l’émission d’un indicateur visuel et/ou sonore perceptible par un utilisateur en cas de détection dudit au moins un geste humain de référence dans les données vidéo. Cela permet à l’utilisateur de prononcer des mots/phrases à destination de certains appareils seulement lorsqu’il sait que l’analyse audio est effective, ce qui lui évite de répéter inutilement certaines commandes.- The processor can, moreover, be arranged to trigger the emission of a visual and / or audible indicator perceptible by a user in the event of detection of said at least one reference human gesture in the video data. This allows the user to speak words / phrases to certain devices only when they know that the audio analysis is effective, thus avoiding unnecessary repetition of certain commands.

- Le déclenchement de l’émission d’un indicateur peut inclure :- The triggering of the emission of an indicator can include:

- l’allumage d’un voyant du dispositif,- the lighting of a device indicator,

- l’émission d’un son prédéterminé sur une sortie du dispositif, et/ou- the emission of a predetermined sound on an output of the device, and / or

- l’émission d’un mot prédéterminé ou d’une suite de mots prédéterminée sur une sortie du dispositif.- the emission of a predetermined word or a predetermined series of words on an output of the device.

Cela permet de s’adapter à de nombreuses situations, notamment lorsque l’environnement est bruyant ou qu’un voyant n’est pas visible par un utilisateur.This allows you to adapt to many situations, especially when the environment is noisy or when a light is not visible to a user.

Les caractéristiques optionnelles précitées peuvent être transposées, indépendamment les unes des autres ou en combinaison les unes avec les autres, aux dispositifs, systèmes, procédés, programmes d’ordinateur et/ou supports d’enregistrement non transitoire lisibles par un ordinateur.The aforementioned optional characteristics can be transposed, independently of each other or in combination with each other, to non-transient computer-readable devices, systems, methods, computer programs and / or recording media.

D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :Other characteristics, details and advantages will appear on reading the detailed description below, and on analysis of the appended drawings, in which:

- la figure 1 montre un exemple non limitatif d’un dispositif proposé selon un ou plusieurs modes de réalisation, et- Figure 1 shows a non-limiting example of a device proposed according to one or more embodiments, and

- la figure 2 montre un exemple non limitatif d’interactions mises en œuvre selon un ou plusieurs modes de réalisation.- Figure 2 shows a non-limiting example of interactions implemented according to one or more embodiments.

Dans la description détaillée ci-après de modes de réalisation, de nombreux détails spécifiques sont présentés pour apporter une compréhension plus complète. Néanmoins, la personne du métier peut se rendre compte que des modes de réalisation peuvent être mis en pratique sans ces détails spécifiques. Dans d’autres cas, des caractéristiques bien connues ne sont pas décrites en détail pour éviter de compliquer inutilement la description.In the following detailed description of embodiments, many specific details are presented to provide a more complete understanding. Nevertheless, the person skilled in the art can realize that embodiments can be put into practice without these specific details. In other cases, well-known features are not described in detail to avoid unnecessarily complicating the description.

Dans la suite, il est question de détection d’au moins un geste humain. Le terme « geste » est ici utilisé dans son sens large, à savoir comme visant aussi bien des mouvements (dynamiques) et des postures (statiques) d’au moins un membre du corps humain, typiquement une main.In the following, it is a question of detecting at least one human gesture. The term "gesture" is used here in its broadest sense, that is to say as well referring to movements (dynamic) and postures (static) of at least one member of the human body, typically a hand.

La figure 1 représente un dispositif 1 d’assistance à disposition d’un utilisateur 100. Le dispositif 1 comprend :FIG. 1 represents a device 1 for assistance available to a user 100. The device 1 comprises:

- au moins un processeur 3 couplé de manière opérationnelle avec une mémoire 5,at least one processor 3 operatively coupled with a memory 5,

- au moins une première entrée 10 reliée au processeur 3, etat least one first input 10 connected to processor 3, and

- au moins une seconde entrée 20 reliée au processeur 3.- at least one second input 20 connected to processor 3.

La première entrée 10 est apte à recevoir des données vidéo issues d’au moins un capteur vidéo 11, par exemple une caméra ou une webcam. La première entrée 10 forme une interface entre le capteur vidéo et le dispositif 1 et prend, par exemple, la forme d’un connecteur de type HDMI (pour «High-Definition Multimedia Interface»), En variante, d’autres types d’entrée vidéo peuvent être prévus, en complément ou en remplacement du connecteur HDMI. Par exemple, le dispositif 1 peut comprendre une pluralité de premières entrées 10, sous la forme de plusieurs connecteurs de même type ou de type différents. Ainsi, le processeur 3 peut recevoir en entrée plusieurs flux vidéo. Cela permet, par exemple, de capter des images dans différentes pièces d’un bâtiment ou selon différents angles. Le dispositif 1 peut, en outre, être rendu compatible avec une variété de capteurs vidéo 11.The first input 10 is capable of receiving video data from at least one video sensor 11, for example a camera or a webcam. The first input 10 forms an interface between the video sensor and the device 1 and takes, for example, the form of an HDMI type connector (for “High-Definition Multimedia Interface”), As a variant, other types of video input can be provided, in addition to or in replacement of the HDMI connector. For example, the device 1 may comprise a plurality of first inputs 10, in the form of several connectors of the same type or of different types. Thus, the processor 3 can receive as input several video streams. This allows, for example, to capture images in different rooms of a building or from different angles. The device 1 can, moreover, be made compatible with a variety of video sensors 11.

La seconde entrée 20 est apte à recevoir des données audio issues d’au moins un microphone 21. La seconde entrée 20 forme une interface entre le microphone et le dispositif 1 et prend, par exemple, la forme d’un connecteur de type coaxial (par exemple dit « jack »). En variante, d’autres types d’entrée audio peuvent être prévus, en complément ou en remplacement du connecteur coaxial. Notamment, la première entrée 10 et la seconde entrée 20 peuvent présenter un connecteur commun, apte à recevoir à la fois un flux vidéo et un flux audio. Les connecteurs HDMI sont, par exemple, des connecteurs présentant cette possibilité. Les connecteurs HDMI présentent, en outre, l’avantage d’être répandus sur les appareils existants, notamment les téléviseurs. Ainsi, un unique connecteur HDMI peut permettre au dispositif 1 d’être relié un téléviseur équipé à la fois d’un microphone et d’une caméra. Ces équipements tiers peuvent alors être utilisés pour alimenter respectivement une première entrée 10 et une seconde entrée 20 du dispositif 1.The second input 20 is capable of receiving audio data from at least one microphone 21. The second input 20 forms an interface between the microphone and the device 1 and takes, for example, the form of a connector of coaxial type ( for example says "jack"). Alternatively, other types of audio input may be provided, in addition to or as a replacement for the coaxial connector. In particular, the first input 10 and the second input 20 may have a common connector, capable of receiving both a video stream and an audio stream. HDMI connectors are, for example, connectors with this possibility. The HDMI connectors also have the advantage of being widespread on existing devices, notably televisions. Thus, a single HDMI connector can allow the device 1 to be connected to a television equipped with both a microphone and a camera. These third-party equipment can then be used to supply respectively a first input 10 and a second input 20 of the device 1.

Par exemple, le dispositif 1 peut aussi comprendre une pluralité de secondes entrées 20, sous la forme de plusieurs connecteurs de même type ou de type différents. Ainsi, le processeur 3 peut recevoir en entrée plusieurs flux audio, par exemple de plusieurs microphones répartis dans une pièce, ce qui permet d’améliorer la reconnaissance vocale ultérieure par des méthodes de traitement des signaux connues en tant que telles. Le dispositif 1 peut, en outre, être rendu compatible avec une variété de microphones 21.For example, the device 1 can also include a plurality of second inputs 20, in the form of several connectors of the same type or of different types. Thus, the processor 3 can receive as input several audio streams, for example from several microphones distributed in a room, which makes it possible to improve the subsequent speech recognition by signal processing methods known as such. The device 1 can also be made compatible with a variety of microphones 21.

Dans l’exemple non limitatif représenté en figure 1, le dispositif 1 comprend en outre :In the nonlimiting example shown in FIG. 1, the device 1 also comprises:

- une sortie 30 reliée au processeur 3 et pilotée par le processeur 3.an output 30 connected to processor 3 and controlled by processor 3.

La sortie 30 est apte à transmettre des commandes à un système de diffusion sonore 50, par exemple une enceinte connectée, une installation haute-fidélité (« Hi-Fi »), un téléviseur, un ordiphone (ou « smartphone »), une tablette ou encore un ordinateur. Le système de diffusion sonore 50 comprend au moins un haut-parleur 51.The output 30 is capable of transmitting commands to a sound diffusion system 50, for example a connected speaker, a high-fidelity installation (“Hi-Fi”), a television set, a computer (or “smartphone”), a tablet or even a computer. The sound diffusion system 50 comprises at least one speaker 51.

- une sortie 40 reliée au processeur 3 et pilotée par le processeur 3.an output 40 connected to processor 3 and controlled by processor 3.

La sortie 40 est apte à transmettre des commandes à au moins un dispositif tiers 60, par exemple une enceinte connectée, une installation Hi-Fi, un téléviseur, un ordiphone (ou « smartphone »), une tablette ou encore un ordinateur.The output 40 is capable of transmitting commands to at least one third party device 60, for example a connected speaker, a Hi-Fi installation, a television set, a computer (or “smartphone”), a tablet or even a computer.

Les sorties 30, 40 peuvent, par exemple, prendre la forme de connecteurs de divers types sélectionnés de préférence pour être compatibles avec les équipements tiers. Le connecteur d’une des sorties 30, 40 peut, par exemple, être commun avec le connecteur d’une des entrées. Par exemple, les connecteurs HDMI permettent la mise en œuvre de transmissions audio bidirectionnelles (technologie connue sous le sigle «ARC » pour «Audio Return Charnel »). Ainsi, une seconde entrée 20 et une sortie 30 peuvent présenter un connecteur commun relié à un équipement, tel qu’un téléviseur, incluant à la fois un microphone 21 et des haut-parleurs 51.The outputs 30, 40 can, for example, take the form of connectors of various types preferably selected to be compatible with third-party equipment. The connector of one of the outputs 30, 40 may, for example, be common with the connector of one of the inputs. For example, the HDMI connectors allow the implementation of two-way audio transmissions (technology known under the acronym "ARC" for "Audio Return Charnel"). Thus, a second input 20 and an output 30 may have a common connector connected to equipment, such as a television, including both a microphone 21 and speakers 51.

Par exemple, le dispositif 1 peut aussi comprendre une unique sortie ou bien plus de deux sorties sous la forme de plusieurs connecteurs de même type ou de type différents. Ainsi, le processeur 3 peut transmettre en sortie plusieurs commandes, par exemple pour piloter distinctement plusieurs équipements tiers.For example, the device 1 can also comprise a single output or even more than two outputs in the form of several connectors of the same type or of different types. Thus, the processor 3 can transmit several commands as an output, for example to control several third-party devices distinctly.

Jusqu’ici, les entrées 10, 20 et sorties 30, 40 ont été présentées comme prenant la forme d’un ou plusieurs connecteurs mécaniques. Autrement dit, le dispositif 1 peut être relié à des équipements tiers par des câbles. En variante, certaines au moins des entrées/sorties peuvent prendre la forme d’un module de communication sans fd. Dans de tels cas, le dispositif 1 comprend en outre au moins un module de communication sans fil, de sorte que le dispositif 1 peut être relié sans-fil à des dispositifs tiers distants, y compris des dispositifs tels que présentés en exemple ci-avant. Les modules de communication sans fil sont alors reliés au processeur 3 et pilotés par le processeur 3.So far, inputs 10, 20 and outputs 30, 40 have been presented as taking the form of one or more mechanical connectors. In other words, the device 1 can be connected to third-party equipment by cables. As a variant, at least some of the inputs / outputs can take the form of a communication module without fd. In such cases, the device 1 also comprises at least one wireless communication module, so that the device 1 can be wirelessly connected to remote third-party devices, including devices as shown in the example above. . The wireless communication modules are then connected to processor 3 and controlled by processor 3.

Les modules de communication peuvent, par exemple, inclure un module de communication à courte distance, par exemple à base d’ondes radio telles que celles de type Wifi. Les réseaux locaux sans fil, notamment domestiques, sont souvent mis en œuvre au moyen d’un réseau Wifi. Ainsi, le dispositif 1 peut s’intégrer à un environnement existant, notamment les réseaux dits « domotiques ».The communication modules can, for example, include a short-distance communication module, for example based on radio waves such as those of the Wifi type. Wireless local area networks, particularly domestic networks, are often implemented using a Wi-Fi network. Thus, the device 1 can be integrated into an existing environment, in particular the so-called "home automation" networks.

Les modules de communication peuvent, par exemple, inclure un module de communication à faible distance, par exemple de type Bluetooth®. Des moyens de communication compatibles avec la technologie de type Bluetooth® équipent une grande partie des équipements récents, en particulier les ordiphones et les enceintes dites « portables ».The communication modules can, for example, include a short distance communication module, for example of the Bluetooth® type. Communication means compatible with Bluetooth® type technology equip a large part of recent equipment, in particular smartphones and so-called “portable” speakers.

Les modules de communication peuvent, par exemple, inclure un module de communication en champ proche (ou NFC pour « Near Field Communication »). Dans de tels cas, la communication n’étant efficace qu’à des distances de quelques centimètres, le dispositif 1 doit être disposé à proximité immédiate de relais ou des équipements tiers auquel on souhaite se connecter.The communication modules can, for example, include a near field communication module (or NFC for "Near Field Communication"). In such cases, the communication being effective only at distances of a few centimeters, the device 1 must be placed in the immediate vicinity of relays or third-party equipment to which one wishes to connect.

Dans l’exemple non limitatif représenté en figure 1, le capteur vidéo 11, le microphone 21 et le haut-parleur 51 du système de diffusion sonore 50 sont des équipements tiers (non intégrés au dispositif 1). Ces équipements peuvent être reliés au processeur 3 du dispositif 1 tout en étant intégrés à d’autres dispositifs, ensembles ou séparément les uns des autres. De tels dispositifs tiers comprennent, par exemple, un téléviseur, un ordiphone, une tablette ou encore un ordinateur. Ces équipements peuvent aussi être reliés au processeur 3 du dispositif 1 tout en étant des équipements indépendants de tout autre dispositif. Dans les modes de réalisation pour lesquels certains au moins des équipements précités sont absents du dispositif 1, notamment le capteur vidéo 11 et le microphone 21, le dispositif 1 peut être considéré comme un boîtier multimédia, ou dispositif d’appoint, destiné à venir se connecter ou s’appairer avec au moins un dispositif tiers, par exemple un téléviseur. Dans ce cas, un tel boîtier multimédia n’est opérationnel qu’une fois connecté à un tel dispositif tiers. Un tel boîtier multimédia peut être inclus dans un décodeur TV (désigné par le sigle STB pour « Set Top Box ») ou bien encore dans une console de jeu.In the nonlimiting example shown in FIG. 1, the video sensor 11, the microphone 21 and the speaker 51 of the sound broadcasting system 50 are third-party equipment (not integrated into the device 1). This equipment can be connected to the processor 3 of the device 1 while being integrated into other devices, together or separately from each other. Such third-party devices include, for example, a television, a smartphone, a tablet or even a computer. This equipment can also be connected to the processor 3 of the device 1 while being equipment independent of any other device. In the embodiments for which at least some of the aforementioned equipment is absent from the device 1, in particular the video sensor 11 and the microphone 21, the device 1 can be considered as a multimedia box, or auxiliary device, intended to come connect or pair with at least one third-party device, such as a TV. In this case, such a multimedia box is only operational once connected to such a third-party device. Such a multimedia box can be included in a TV decoder (designated by the acronym STB for "Set Top Box") or even in a game console.

En variante, certains au moins des équipements précités peuvent être intégrés au dispositif 1. Dans ce dernier cas, le dispositif 1 comprend en outre :As a variant, at least some of the aforementioned equipment may be integrated into the device 1. In the latter case, the device 1 also comprises:

- au moins un capteur vidéo 11 connecté à une première entrée 10 ;- at least one video sensor 11 connected to a first input 10;

- au moins un microphone 21 connecté à une seconde entrée 20 ; et/ou- at least one microphone 21 connected to a second input 20; and or

- au moins un haut-parleur 51 connecté à une sortie 30 du dispositif 1.- at least one speaker 51 connected to an output 30 of the device 1.

En variante, le dispositif 1 comprend une combinaison d’équipements intégrés et d’entrées/sorties destinées à se connecter à des dispositifs tiers et dépourvues d’équipement intégré correspondant.Alternatively, the device 1 comprises a combination of integrated equipment and inputs / outputs intended to connect to third-party devices and devoid of corresponding integrated equipment.

Dans des variantes, le dispositif 1 comprend, en outre, au moins un indicateur visuel, par exemple un ou plusieurs voyants. Un tel indicateur, piloté par le processeur 3, peut être activé de manière à renseigner l’utilisateur 100 sur un état du dispositif 1. L’état d’un tel indicateur peut varier, par exemple lors des opérations d’appairage avec des équipements tiers et/ou en cas d’activation ou de désactivation du dispositif 1 comme cela sera décrit plus en détail ci-après.In variants, the device 1 further comprises at least one visual indicator, for example one or more indicator lights. Such an indicator, controlled by the processor 3, can be activated so as to inform the user 100 about a state of the device 1. The state of such an indicator can vary, for example during pairing operations with equipment. third party and / or in the event of activation or deactivation of the device 1 as will be described in more detail below.

Dans les modes de réalisation pour lesquels certains au moins des équipements précités sont intégrés au dispositif 1, notamment au moins un capteur vidéo 11 et au moins un microphone 21, le dispositif 1 peut être considéré comme un dispositif au moins en partie autonome. Notamment, le procédé décrit ci-après et en référence à la figure 2 peut être mis en œuvre par le dispositif 1 sans qu’il soit nécessaire de le connecter ou de l’appairer avec des dispositifs tiers.In the embodiments for which at least some of the aforementioned equipment is integrated into the device 1, in particular at least one video sensor 11 and at least one microphone 21, the device 1 can be considered as a device at least partially autonomous. In particular, the method described below and with reference to Figure 2 can be implemented by the device 1 without the need to connect or pair it with third-party devices.

Le dispositif 1 comprend, en outre, une source d’alimentation non représentée, par exemple un cordon d’alimentation pour un branchement au secteur et/ou une batterie.The device 1 further comprises a power source, not shown, for example a power cord for connection to the mains and / or a battery.

Dans les exemples décrits ici, le dispositif 1 comprend un unique processeur 3. En variante, plusieurs processeurs peuvent coopérer pour mettre en œuvre les opérations décrites dans les présentes.In the examples described here, the device 1 comprises a single processor 3. As a variant, several processors can cooperate to implement the operations described herein.

Le processeur 3, ou unité de traitement de données (CPU), est associé à la mémoire 5. La mémoire 5 comprend par exemple une mémoire vive (RAM), une mémoire morte (ROM), une mémoire cache et/ou une mémoire flash, ou tout autre medium de stockage apte au stockage de code logiciel sous forme d’instructions exécutables par un processeur ou de structures de données accessibles par un processeur.The processor 3, or data processing unit (CPU), is associated with the memory 5. The memory 5 comprises for example a random access memory (RAM), a read only memory (ROM), a cache memory and / or a flash memory , or any other storage medium capable of storing software code in the form of instructions executable by a processor or data structures accessible by a processor.

Le processeur 3 est agencé pour :The processor 3 is arranged for:

- analyser les données vidéo issues d’au moins une première entrée 10,- analyze the video data from at least one first input 10,

Le geste de référence ou les gestes de référence peuvent être, par exemple, stockés sous forme de critères de détermination/identification dans la mémoire 5 et auxquels le processeur 3 fait appel au cours de l’analyse des données vidéo. De tels critères peuvent être fixés par défaut. En variante, de tels critères peuvent être modifiés par des mises à jour logicielles et/ou par apprentissage auprès de l’utilisateur 100 lui-même. Ainsi, l’utilisateur 100 peut sélectionner les gestes clés ou gestes de référence permettant le déclenchement de l’analyse des données audio.The reference gesture or the reference gestures can be, for example, stored in the form of determination / identification criteria in the memory 5 and which the processor 3 calls upon during the analysis of the video data. Such criteria can be set by default. As a variant, such criteria can be modified by software updates and / or by learning from the user 100 himself. Thus, the user 100 can select the key gestures or reference gestures allowing the triggering of the analysis of the audio data.

Dans les exemples décrits ici, à la fois le déclenchement de l’analyse de données audio et l’analyse audio elle-même sont mis en œuvre par le dispositif 1 (par l’intermédiaire d’une seconde entrée 20 et du processeur 3). En variante, le déclenchement est mis en œuvre par le dispositif 1 tandis que l’analyse audio est mise en œuvre par un dispositif tiers auquel est connecté le dispositif 1. Autrement dit, le dispositif 1 peut fonctionner selon un mode dit « autonome » au sens où le dispositif 1 assure lui-même l’analyse audio et optionnellement des opérations ultérieures. Un tel dispositif 1 peut avantageusement remplacer un assistant vocal. Le dispositif 1 peut aussi fonctionner selon un mode « d’appoint » au sens où le dispositif 1 déclenche l’analyse audio par un dispositif tiers, par exemple en transmettant un signal d’activation au dispositif tiers, tel que ceux référencés 60 et relié à la sortie 40.In the examples described here, both the triggering of the audio data analysis and the audio analysis itself are implemented by the device 1 (via a second input 20 and the processor 3) . As a variant, the triggering is implemented by the device 1 while the audio analysis is implemented by a third-party device to which the device 1 is connected. In other words, the device 1 can operate in a so-called “autonomous” mode at meaning that the device 1 itself performs audio analysis and optionally subsequent operations. Such a device 1 can advantageously replace a voice assistant. The device 1 can also operate in a “backup” mode in the sense that the device 1 triggers the audio analysis by a third-party device, for example by transmitting an activation signal to the third-party device, such as those referenced 60 and connected at exit 40.

Autrement dit, le processeur 3 peut, optionnellement, être agencé pour mettre en œuvre l’analyse des données audio en plus du déclenchement.In other words, the processor 3 can, optionally, be arranged to carry out the analysis of the audio data in addition to the triggering.

Que le dispositif 1 fonctionne en mode « autonome » ou « d’appoint », le déclenchement de l’analyse audio par détection d’un geste peut être cumulé avec un déclenchement de l’analyse audio par la voix (prononciation d’un ou plusieurs mots-clés). Ainsi, l’analyse audio et les services qui en découlent peuvent rester activables, en parallèle, par la voix seule indépendamment des gestes (détectée par un dispositif tiers) aussi bien que par les gestes indépendamment de la voix (détectée par le dispositif 1). Le déclenchement peut aussi être conditionné par la détection d’une combinaison de la voix et de l’emploi d’un geste de référence, simultanément ou successivement.Whether the device 1 operates in “autonomous” or “backup” mode, the triggering of the audio analysis by detection of a gesture can be combined with a triggering of the audio analysis by the voice (pronunciation of one or multiple keywords). Thus, the audio analysis and the services which result from it can remain activatable, in parallel, by the voice alone independently of the gestures (detected by a third party device) as well as by the gestures independently of the voice (detected by the device 1). . Triggering can also be conditioned by the detection of a combination of the voice and the use of a reference gesture, simultaneously or successively.

En variante, le déclenchement de l’analyse audio par détection d’un geste peut être exclusif d’un déclenchement de l’analyse audio par la voix. Autrement dit, le dispositif 1 peut être agencé pour rendre les voix, y compris celle de l’utilisateur 100, inopérantes avant le déclenchement de l’analyse audio par un geste. Ainsi, un dispositif 1 en mode autonome, ou un système combinant un dispositif 1 d’appoint avec un dispositif tiers, peuvent interdire le déclenchement de l’analyse audio par la voix.As a variant, the triggering of the audio analysis by detection of a gesture may be exclusive of a triggering of the audio analysis by the voice. In other words, the device 1 can be arranged to make the voices, including that of the user 100, inoperative before the triggering of the audio analysis by a gesture. Thus, a device 1 in autonomous mode, or a system combining a backup device 1 with a third-party device, can prohibit the triggering of audio analysis by voice.

L’analyse de données audio peut inclure une reconnaissance de commandes vocales. Des techniques de reconnaissance de commandes vocales sont connues en tant que telles, notamment dans le contexte des assistants vocaux.Analysis of audio data may include recognition of voice commands. Techniques for recognizing voice commands are known as such, in particular in the context of voice assistants.

La figure 2 représente les interactions entre différents éléments au cours de la mise en œuvre d’un procédé selon un mode de réalisation.FIG. 2 represents the interactions between different elements during the implementation of a method according to one embodiment.

L’utilisateur 100 effectue un geste (statique ou dynamique). Le geste est capturé par un capteur vidéo 11 relié à une première sortie 10 d’un dispositif 1. Le processeur 3 du dispositif 1 reçoit un flux vidéo (ou des données vidéo) incluant la capture du geste de référence. Le processeur 3 peut recevoir un flux vidéo sensiblement en continu ou bien, par exemple, seulement lorsqu’un mouvement est détecté.User 100 performs a gesture (static or dynamic). The gesture is captured by a video sensor 11 connected to a first output 10 of a device 1. The processor 3 of the device 1 receives a video stream (or video data) including the capture of the reference gesture. The processor 3 can receive a substantially continuous video stream or, for example, only when motion is detected.

Le processeur 3 met en œuvre une opération d’analyse des données vidéo reçues. Les opérations incluent des tentatives d’identification d’un ou plusieurs gestes humains de référence. Si aucun geste de référence n’est détecté, alors la suite du procédé n’est pas déclenchée. Le dispositif 1 reste en veille.The processor 3 implements an analysis operation of the video data received. The operations include attempts to identify one or more reference human gestures. If no reference gesture is detected, then the rest of the process is not triggered. Device 1 remains on standby.

Si le geste de référence effectué par l’utilisateur 100 est détecté, alors la suite du procédé est mise en œuvre. Sur la figure 2, la mise en œuvre de deux opérations optionnelles et indépendantes l’une de l’autre sont représentées en traits tiretés :If the reference gesture made by the user 100 is detected, then the rest of the method is implemented. In FIG. 2, the implementation of two optional and independent operations from one another are shown in dashed lines:

- une opération visant à réduire le bruit ambiant avant de mettre en œuvre l’analyse audio, et- an operation aimed at reducing ambient noise before implementing audio analysis, and

- une opération visant à confirmer à l’utilisateur 100 que l’analyse audio est déclenchée ou sur le point de l’être.- an operation aimed at confirming to user 100 that the audio analysis has been triggered or is about to be triggered.

Dans les modes de réalisation comprenant une combinaison de ces deux opérations optionnelles, elles peuvent être mises en œuvre l’une après l’autre ou concomitamment.In the embodiments comprising a combination of these two optional operations, they can be implemented one after the other or concomitantly.

Dans des modes de réalisation, le processeur 3 est donc, en outre, agencé pour transmettre une commande de réduction du volume sonore ou d’interruption de la diffusion sonore en cas de détection d’au moins un geste humain de référence dans les données vidéo. La commande est, par exemple, transmise via la sortie 30 et à destination du système de diffusion sonore 50 incluant un haut-parleur 51 comme cela est représenté en figure 2. La transmission d’une telle commande peut être réalisée, en remplacement ou en complément, via d’autres sorties du dispositif 1 telles que la sortie 40 et à destination d’équipements tiers 60.In embodiments, the processor 3 is therefore, in addition, arranged to transmit a command to reduce the sound volume or to interrupt the sound broadcasting in the event of detection of at least one reference human gesture in the video data. . The command is, for example, transmitted via the output 30 and intended for the sound diffusion system 50 including a loudspeaker 51 as shown in FIG. 2. The transmission of such a command can be carried out, in replacement or in complement, via other outputs of the device 1 such as the output 40 and intended for third party equipment 60.

Le processeur 3 est, en outre, agencé pour déclencher l’émission d’un indicateur visuel et/ou sonore perceptible par l’utilisateur 100 en cas de détection d’au moins un geste humain de référence dans les données vidéo. L’envoi de l’indicateur est représenté par l’envoi d’un « OK » en figure 2. Par exemple, le déclenchement de l’émission d’un indicateur peut inclure :The processor 3 is, in addition, arranged to trigger the emission of a visual and / or audible indicator perceptible by the user 100 in the event of detection of at least one reference human gesture in the video data. The sending of the indicator is represented by the sending of an "OK" in Figure 2. For example, the triggering of the emission of an indicator can include:

- l’allumage d’un voyant du dispositif 1 ;- the lighting of a device 1 indicator;

- l’émission d’un son prédéterminé sur une sortie du dispositif 1, par exemples les sorties 30 et/ou 40 du mode de réalisation de la figure 1 ; et/ou- the emission of a predetermined sound on an output of the device 1, for example the outputs 30 and / or 40 of the embodiment of FIG. 1; and or

- l’émission d’un mot prédéterminé ou d’une suite de mots prédéterminée sur une sortie du dispositif 1, par exemples les sorties 30 et/ou 40 du mode de réalisation de la figure 1.- the emission of a predetermined word or of a predetermined series of words on an output of the device 1, for example the outputs 30 and / or 40 of the embodiment of FIG. 1.

Dans le mode de réalisation représenté en figure 2, une fois l’analyse des données audio déclenchée, le processeur 3 est agencé pour recevoir des données audio à analyser, notamment via une seconde sortie 20 et le microphone 21. Les données audio comprennent, par exemple, une commande vocale prononcée par l’utilisateur 100. Dans des exemples non limitatifs, le processeur 3 peut, en outre, être agencé pour mettre en œuvre une analyse audio incluant une reconnaissance de commandes vocales, puis pour transmettre une commande sélectionnée en fonction des résultats de la reconnaissance de commandes vocales, notamment via les sorties 30 et/ou 40, et à destination respectivement du système de diffusion sonore 50 et/ou d’un dispositif tiers 60.In the embodiment shown in FIG. 2, once the analysis of the audio data has started, the processor 3 is arranged to receive audio data to be analyzed, in particular via a second output 20 and the microphone 21. The audio data comprises, for example example, a voice command pronounced by the user 100. In nonlimiting examples, the processor 3 can, in addition, be arranged to carry out an audio analysis including recognition of voice commands, then to transmit a command selected according to results of the recognition of voice commands, in particular via outputs 30 and / or 40, and intended respectively for the sound broadcasting system 50 and / or a third-party device 60.

La variété de commandes vocales pouvant être traduites par le dispositif 1 en commande interprétables informatiquement par des dispositifs tiers comprend, par exemple, des commandes usuelles d’un système Hi-fi, du type « augmentation du volume », « diminution du volume », « changement de piste » ou encore « changement de source ».The variety of voice commands that can be translated by the device 1 into commands that can be interpreted by computer by third-party devices includes, for example, usual commands of a Hi-fi system, of the “increase in volume”, “decrease in volume” type, "Change of track" or "change of source".

Jusqu’ici, il a été fait référence à des modes de réalisation et des variantes d’un dispositif 1. La personne du métier comprendra sans effort que les diverses combinaisons d’opérations décrites comme mises en œuvre par le processeur 3 peuvent généralement être entendues comme formant un procédé d’assistance (de l’utilisateur 100) mis en œuvre par des moyens informatiques. Un tel procédé peut, aussi, prendre la forme d’un programme informatique ou d’un support sur lequel est enregistré un tel programme.Hitherto, reference has been made to embodiments and variants of a device 1. The person skilled in the art will understand without effort that the various combinations of operations described as implemented by the processor 3 can generally be heard. as forming a method of assistance (of the user 100) implemented by computer means. Such a process can also take the form of a computer program or of a medium on which such a program is recorded.

Le dispositif 1 a été présenté dans un état fonctionnel. La personne du métier comprendra en outre, qu’en pratique, le dispositif 1 peut prendre une forme temporairement inactive, telle qu’un système incluant divers pièces prévues pour coopérer les unes avec les autres. Un tel système peut, par exemple, comprendre un dispositif 1 et l’un au moins parmi un capteur vidéo connectable à la première entrée 10, un microphone connectable à la seconde entrée 20 et un haut-parleur 51 connectable à une sortie 30 du dispositif 1.The device 1 has been presented in a functional state. The person skilled in the art will further understand that, in practice, the device 1 can take a temporarily inactive form, such as a system including various parts intended to cooperate with each other. Such a system can, for example, include a device 1 and at least one of a video sensor connectable to the first input 10, a microphone connectable to the second input 20 and a speaker 51 connectable to an output 30 of the device 1.

Optionnellement, le dispositif 1 peut être fourni avec un dispositif de traitement incluant un système d’exploitation et des programmes, composants, modules et/ou applications sous forme de logiciels exécutés par le processeur 3, qui peuvent être stockés dans une mémoire nonvolatile telle que la mémoire 5.Optionally, the device 1 can be provided with a processing device including an operating system and programs, components, modules and / or applications in the form of software executed by the processor 3, which can be stored in a nonvolatile memory such as memory 5.

En fonction des modes de réalisation choisis, certains actes, actions, évènements ou fonctions de chacune des méthodes et procédés décrits dans le présent document peuvent être effectués ou se produire selon un ordre différent de celui dans lequel ils ont été décrits, ou peuvent être ajoutés, fusionnés ou bien ne pas être effectués ou ne pas se produire, selon le cas. En outre, dans certains modes de réalisation, certains actes, actions ou évènements sont effectués ou se produisent concurremment et non pas successivement ou vice et versa.Depending on the embodiments chosen, certain acts, actions, events or functions of each of the methods and processes described in this document may be performed or occur in a different order from that in which they have been described, or may be added , merged or not be performed or not occur, as the case may be. In addition, in certain embodiments, certain acts, actions or events are performed or occur concurrently and not successively or vice versa.

Bien que décrits à travers un certain nombre d’exemples de réalisation détaillés, les procédés proposés et les systèmes et dispositifs pour la mise en œuvre des procédés comprennent différentes variantes, modifications et perfectionnements qui apparaîtront de façon manifeste à la personne du métier, étant entendu que ces différentes variantes, modifications et perfectionnements font partie de la portée de l’invention, telle que définie par la protection recherchée. De plus, différents aspects et caractéristiques décrits ci-dessus peuvent être mis en œuvre ensemble, ou séparément, ou bien substitués les uns aux autres, et l’ensemble des différentes combinaisons et sous combinaisons des aspects et caractéristiques font partie de la portée de l’invention. En outre, il se peut que certains systèmes et équipements décrits ci-dessus n’incorporent pas la totalité des modules et fonctions décrits pour les modes de réalisation préférés.Although described through a certain number of detailed exemplary embodiments, the proposed methods and the systems and devices for implementing the methods include different variants, modifications and improvements which will be apparent to the person skilled in the art, it being understood that these different variants, modifications and improvements are part of the scope of the invention, as defined by the protection sought. In addition, different aspects and characteristics described above can be implemented together, or separately, or substituted for each other, and all of the different combinations and sub combinations of aspects and characteristics are part of the scope of the 'invention. In addition, some systems and equipment described above may not incorporate all of the modules and functions described for the preferred embodiments.

L’invention ne se limite pas aux exemples de dispositifs, systèmes, procédés, supports d’enregistrement et programmes décrits ci-avant, seulement à titre d’exemple, mais elle englobe toutes les variantes que pourra envisager la personne de l’art dans le cadre de la protection recherchée.The invention is not limited to the examples of devices, systems, methods, recording media and programs described above, only by way of example, but it encompasses all the variants that the person skilled in the art can envisage in the protection sought.

Claims

claims

1. Assistance device (1) comprising:

- at least one processor (3) operatively coupled with a memory (5),

- at least a first input (10) connected to the processor (3) and capable of receiving video data from at least one video sensor (11), and

- at least a second input (20) connected to the processor (3) and capable of receiving audio data coming from at least one microphone (21), the processor (3) being arranged for:

- analyze the video data from the first input (10),

- identify at least one reference human gesture in the video data, and

- trigger an analysis of audio data only if said at least one reference human gesture in the video data is detected.

2. Device according to claim 1 further comprising an output (30) controlled by the processor (3) and capable of transmitting commands to a sound distribution system (50), the processor (3) being further arranged to transmit a command to reduce the sound volume or to interrupt the sound diffusion in the event of said at least one reference human gesture being detected in the video data.

3. Device according to one of the preceding claims, in which the analysis of audio data includes recognition of voice commands.

4. Device according to claim 3, further comprising an output (30, 40) controlled by the processor (3) and capable of transmitting commands to a third party device (50, 60), the processor (3) being further arranged for transmitting a command on said output (30, 40), the command being selected according to the results of the recognition of voice commands.

5. Device according to one of the preceding claims in which the processor (3) is further arranged to trigger the emission of a visual and / or audible indicator perceptible by a user in the event of detection of said at least one human gesture of reference in video data.

6. Device according to claim 5, in which the triggering of the emission of an indicator includes:

- the lighting of a device indicator,

- the emission of a predetermined sound on an output (30, 40) of the device (1), and / or

- the emission of a predetermined word or of a predetermined series of words on an output (30, 40) of the device (1).

7. Assistance system comprising a device (1) according to one of the preceding claims and at least one of the following organs:

- a video sensor (11) connected or connectable to the first input (10);

- a microphone (21) connected or connectable to the second input (20);

- a loudspeaker (51) connected or connectable to an output (30) of the device (1).

8. Assistance process, implemented by IT means, comprising:

- analyze video data from a first input (10),

- identify at least one reference human gesture in the video data and,

9. Non-transient recording medium readable by a computer on which a program is recorded comprising instructions for implementing the method according to the preceding claim.

10. Computer program comprising instructions for implementing the method according to claim 8 when this program is executed by a processor (3).