EP3729236A1 - Assistant vocal - Google Patents

Assistant vocal

Info

Publication number
EP3729236A1
EP3729236A1 EP18833272.0A EP18833272A EP3729236A1 EP 3729236 A1 EP3729236 A1 EP 3729236A1 EP 18833272 A EP18833272 A EP 18833272A EP 3729236 A1 EP3729236 A1 EP 3729236A1
Authority
EP
European Patent Office
Prior art keywords
processor
video data
input
output
human gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP18833272.0A
Other languages
German (de)
English (en)
Inventor
Julien PAIRIS
David Wuilmot
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Publication of EP3729236A1 publication Critical patent/EP3729236A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the invention relates to the field of service provision, in particular by voice command.
  • a mobile phone can serve as an interface to control a wireless speaker or a TV from another manufacturer / designer.
  • voice-activated interfaces tend to replace touch screens, which in turn replace physical button remote controls.
  • voice assistants such as systems known as “Google Home” (Google), “Siri” (Apple) or “Alexa” (Amazon).
  • voice assistants are usually provided to activate only when a keyword or key phrase is spoken by the user. It is also theoretically possible to limit activation by recognizing only the voices of presumed legitimate users. However, such precautions are imperfect, especially when the perceived sound quality does not allow a good analysis of sounds, for example in a noisy environment. The keyword or key phrase may not be picked up by the microphone or may not be recognized among all the sounds picked up. In such cases, the triggering is impossible or erratic.
  • the invention improves the situation.
  • an assistance device comprising:
  • At least one processor operatively coupled with a memory
  • At least a first input connected to the processor and able to receive video data from at least one video sensor
  • At least one second input connected to the processor and able to receive audio data originating from at least one microphone
  • the processor being arranged for:
  • an assistance system comprising such a device and at least one of the following organs:
  • a video sensor connected or connectable to the first input
  • a speaker connected or connectable to an output of the device.
  • a method of assistance implemented by computer means, comprising:
  • a computer program comprising instructions for implementing the method as defined herein when this program is executed by a processor.
  • a non-transitory recording medium readable by a computer, on which is recorded such a program.
  • Such objects allow a user to trigger the implementation of a voice command process by performing a gesture, for example by hand.
  • the nuisance tripping and the absence of tripping usually resulting from a malfunction of the voice recognition process are avoided.
  • the triggering of the voice command process is insensitive to ambient noise and involuntary voice commands.
  • Gesture-based interfaces are less common than voice-activated interfaces, especially since it is considered less natural or less instinctive to speak to a machine through gestures than by voice. Consequently, the use of gestural commands is reserved for particular contexts rather than so-called "general public" and "domestic" uses.
  • Such objects are particularly advantageous when combined with voice assistants.
  • Gesture recognition for triggering speech recognition can be combined with voice recognition triggering (pronunciation of keywords)).
  • the user can either make a gesture or pronounce a word (s) to activate the voice assistant.
  • the gesture recognition trigger replaces the voice recognition trigger.
  • the efficiency is further improved. This also makes it possible to neutralize the microphones outside the activation periods of the assistants, either by switching them off or by disconnecting them. Risks that microphones are used for unintended purposes are reduced, for example by a third party taking undue control of such voice assistants.
  • the device may furthermore comprise an output driven by the processor and capable of transmitting commands to a sound broadcasting system.
  • the processor may, in addition, be arranged to transmit a command to reduce the sound volume or interruption of the sound diffusion in case of detection of said at least one reference human gesture in the video data. This reduces the ambient noise and therefore facilitates subsequent audio analysis operations, including voice recognition, and thus improves the relevance and operation of services based on audio analysis.
  • Audio data analysis can include voice command recognition. This makes it possible to provide interactive services to the user, in particular of the voice assistance type.
  • the device may further comprise an output driven by the processor and adapted to transmit commands to a third party device.
  • the processor may further be arranged to transmit a command to said output, the command being selected based on the results of voice command recognition.
  • the processor may further be arranged to trigger the emission of a visual indicator and / or sound perceptible by a user in case of detection of said at least one reference human gesture in the video data. This allows the user to pronounce words / phrases to certain devices only when he knows that the audio analysis is effective, which avoids unnecessary repetition of certain commands.
  • Triggering the issuance of an indicator may include: - the lighting of a light of the device,
  • the aforementioned optional features may be transposed, independently of each other or in combination with each other, to computer-readable devices, systems, methods, computer programs and / or non-transient recording media.
  • FIG. 1 shows a nonlimiting example of a device proposed according to one or more embodiments
  • FIG. 2 shows a nonlimiting example of interactions implemented according to one or more embodiments.
  • many specific details are presented to provide a more complete understanding. Nevertheless, those skilled in the art may realize that embodiments can be put into practice without these specific details. In other cases, well-known features are not described in detail to avoid unnecessarily complicating the description.
  • FIG. 1 represents a device 1 of assistance available to a user 100.
  • the device 1 comprises:
  • At least one processor 3 operably coupled to a memory 5,
  • the first input 10 is able to receive video data from at least one video sensor 11, for example a camera or a webcam.
  • the first input 10 forms an interface between the video sensor and the device 1 and takes, for example, the form of a connector type HDMI (for "High-Definition Multimedia Interface").
  • HDMI for "High-Definition Multimedia Interface”
  • other types of video input may be provided, in addition to or instead of the HDMI connector.
  • the device 1 may comprise a plurality of first inputs 10, in the form of several connectors of the same type or of different types.
  • the processor 3 can receive several video streams as input. This allows, for example, to capture images in different rooms of a building or at different angles.
  • the device 1 can, in addition, be made compatible with a variety of video sensors 11.
  • the second input 20 is able to receive audio data coming from at least one microphone 21.
  • the second input 20 forms an interface between the microphone and the device 1 and takes, for example, the form of a coaxial type connector (for example, "jack").
  • a coaxial type connector for example, "jack"
  • other types of audio input may be provided, in addition to or instead of the coaxial connector.
  • the first input 10 and the second input 20 may have a common connector, able to receive both a video stream and an audio stream.
  • HDMI connectors are, for example, connectors with this capability.
  • HDMI connectors also have the advantage of being widespread on existing devices, including televisions. Thus, a single HDMI connector may allow the device 1 to be connected a TV equipped with both a microphone and a camera.
  • These third devices can then be used to supply respectively a first input 10 and a second input 20 of the device 1.
  • the device 1 may also comprise a plurality of second inputs 20, in the form of several connectors of the same type or of different types.
  • the processor 3 can receive as input several audio streams, for example several microphones distributed in a room, which improves the subsequent speech recognition by known signal processing methods as such.
  • the device 1 can, in addition, be made compatible with a variety of microphones 21.
  • the device 1 furthermore comprises:
  • the output 30 is able to transmit commands to a sound distribution system 50, for example a connected speaker, a high-fidelity installation ("Hi-Fi"), a television, a smartphone (or “smartphone”), a tablet or a computer.
  • the sound diffusion system 50 comprises at least one loudspeaker 51.
  • the device 1 furthermore comprises:
  • the output 40 is capable of transmitting commands to at least one third-party device 60, for example a connected speaker, a Hi-Fi installation, a television set, a smartphone (or “smartphone”), a tablet or a computer.
  • a third-party device 60 for example a connected speaker, a Hi-Fi installation, a television set, a smartphone (or “smartphone"), a tablet or a computer.
  • the outputs 30, 40 may, for example, take the form of connectors of various types preferably selected to be compatible with third-party equipment.
  • the connector of one of the outputs 30, 40 may, for example, be common with the connector of one of the inputs.
  • the HDMI connectors allow the implementation of two-way audio transmissions (technology known under the acronym "ARC" for "Audio Return Charnel”).
  • a second input 20 and an output 30 may have a common connector connected to equipment, such as a television, including both a microphone 21 and loudspeakers 51.
  • the device 1 may also comprise a single output or more than two outputs in the form of several connectors of the same type or of different types.
  • the processor 3 can output several commands, for example to control distinctly several third-party devices.
  • inlets 10, 20 and outlets 30, 40 have been shown to take the form of one or more mechanical connectors.
  • the device 1 can be connected to third devices by cables.
  • at least some of the inputs / outputs may take the form of a wireless communication module.
  • the device 1 further comprises at least one wireless communication module, so that the device 1 can be wirelessly connected to remote third-party devices, including devices as exemplified above. .
  • the wireless communication modules are then connected to the processor 3 and controlled by the processor 3.
  • the communication modules may, for example, include a short-distance communication module, for example based on radio waves such as those of Wifi type.
  • Wireless local networks, especially domestic networks, are often implemented via a Wi-Fi network.
  • the device 1 can integrate into an existing environment, including so-called "home automation" networks.
  • the communication modules may, for example, include a short-distance communication module, for example of the Bluetooth® type.
  • Communication means compatible with Bluetooth® type technology equip a large part of the recent equipment, especially the smartphones and the so-called "portable" speakers.
  • the communication modules may, for example, include a Near Field Communication (NFC) module.
  • NFC Near Field Communication
  • the communication being effective only at distances of a few centimeters, the device 1 must be disposed in the immediate vicinity of relays or third party equipment to which it is desired to connect.
  • the video sensor 11, the microphone 21 and the loudspeaker 51 of the sound diffusion system 50 are third-party devices (not integrated with the device 1). These devices can be connected to the processor 3 of the device 1 while being integrated with other devices, together or separately from each other.
  • Such third-party devices include, for example, a television, a smartphone, a tablet or a computer.
  • This equipment can also be connected to the processor 3 of the device 1 while being equipment independent of any other device.
  • the device 1 can be considered as a multimedia box, or auxiliary device, intended to come connect or pair with at least one third-party device, for example a television.
  • such a multimedia box is operational once connected to such a third party device. Lin such multimedia box can be included in a TV decoder (designated by the acronym STB for "Set Top Box”) or even in a game console.
  • the device 1 furthermore comprises:
  • At least one video sensor 11 connected to a first input 10; at least one microphone 21 connected to a second input 20; and or
  • At least one loudspeaker 51 connected to an output 30 of the device 1.
  • the device 1 comprises a combination of integrated equipment and inputs / outputs intended to connect to third-party devices and without corresponding integrated equipment.
  • the device 1 further comprises at least one visual indicator, for example one or more LEDs.
  • Such an indicator driven by the processor 3, can be activated so as to inform the user 100 about a state of the device 1.
  • the state of such an indicator may vary, for example during pairing operations with equipment third and / or in case of activation or deactivation of the device 1 as will be described in more detail below.
  • the device 1 can be considered as an at least partly autonomous device.
  • the method described below and with reference to FIG. 2 can be implemented by the device 1 without it being necessary to connect it or to pair it with third-party devices.
  • the device 1 further comprises a power source not shown, for example a power cord for mains connection and / or a battery.
  • the device 1 comprises a single processor 3. In a variant, several processors can cooperate to implement the operations described herein.
  • the processor 3, or data processing unit (CPU), is associated with the memory 5.
  • the memory 5 comprises for example a random access memory (RAM), a read only memory (ROM), a cache memory and / or a flash memory , or any other storage medium capable of storing software code in the form of executable instructions by a processor or data structures accessible by a processor.
  • the processor 3 is arranged for:
  • the reference gesture or the reference gestures can be, for example, stored in the form of identification / identification criteria in the memory 5 and to which the processor 3 uses during the analysis of the video data.
  • Such criteria can be set by default.
  • such criteria can be modified by software updates and / or by training with the user 100 himself.
  • the user 100 can select the key gestures or reference gestures for triggering the analysis of the audio data.
  • both the triggering of the audio data analysis and the audio analysis itself are carried out by the device 1 (via a second input 20 and the processor 3) .
  • the triggering is implemented by the device 1 while the audio analysis is implemented by a third device to which the device 1 is connected.
  • the device 1 can operate in a so-called "autonomous" mode. sense where the device 1 itself provides the audio analysis and optionally subsequent operations.
  • Such a device 1 can advantageously replace a voice assistant.
  • the device 1 can also operate in a "backup" mode in the sense that the device 1 triggers the audio analysis by a third device, for example by transmitting an activation signal to the third device, such as those referenced 60 and connected at the exit 40.
  • the processor 3 may, optionally, be arranged to implement G analysis of audio data in addition to triggering.
  • the triggering of the audio analysis by detection of a gesture can be cumulated with a triggering of the audio analysis by the voice (pronunciation of one or several keywords).
  • the audio analysis and the services derived therefrom can remain activatable, in parallel, by the voice alone regardless of the gestures (detected by a third device) as well as by the gestures independently of the voice (detected by the device 1) .
  • the trigger can also be conditioned by the detection of a combination of the voice and the use of a reference gesture, simultaneously or successively.
  • the triggering of the audio analysis by detection of a gesture can be exclusive of a triggering of the audio analysis by the voice.
  • the device 1 can be arranged to make the voices, including that of user G 100, inoperative before triggering the audio analysis by a gesture.
  • a device 1 in autonomous mode, or a system combining a device 1 booster with a third device can prohibit the triggering of G audio analysis by voice.
  • Audio data analysis can include voice command recognition.
  • Voice command recognition techniques are known as such, especially in the context of voice assistants.
  • Figure 2 shows the interactions between different elements during the implementation of a method according to one embodiment.
  • the user 100 performs a gesture (static or dynamic).
  • the gesture is captured by a video sensor 11 connected to a first output 10 of a device 1.
  • the processor 3 of the device 1 receives a video stream (or video data) including the capture of the reference gesture.
  • the processor 3 may receive a substantially continuous video stream or, for example, only when motion is detected.
  • the processor 3 implements an analysis operation of the received video data. Operations include attempts to identify one or more human reference gestures. If no reference gesture is detected, then the rest of the process is not triggered. Device 1 remains in standby.
  • the processor 3 is therefore furthermore arranged to transmit a command for reducing the sound volume or interrupting the sound diffusion if at least one reference human gesture is detected in the video data.
  • the order is, for example, transmitted via the output 30 and to the sound distribution system 50 including a loudspeaker 51 as shown in Figure 2.
  • the transmission of such a command can be performed, in replacement or complement, via d other outputs of the device 1 such as the output 40 and to third-party equipment 60.
  • the processor 3 is, furthermore, arranged to trigger the transmission of a visual and / or audible indicator perceptible by the user 100 in case of detection of at least one reference human gesture in the video data.
  • the sending of the indicator is represented by the sending of an "OK" in FIG. 2.
  • the triggering of the emission of an indicator may include:
  • the processor 3 is arranged to receive audio data to be analyzed, in particular via a second output 20 and the microphone 21.
  • the audio data comprises, for example, For example, a voice command pronounced by the user 100.
  • the processor 3 may, in addition, be arranged to implement an audio analysis including a recognition of voice commands, then to transmit a command selected according to results of the recognition of voice commands, in particular via the outputs 30 and / or 40, and to respectively the sound broadcasting system 50 and / or a third party device 60.
  • Device 1 has been presented in a functional state. Those skilled in the art will further understand that, in practice, the device 1 may take a temporarily inactive form, such as a system including various parts intended to cooperate with each other. Such a system may, for example, comprise a device 1 and at least one of a video sensor connectable to the first input 10, a microphone connectable to the second input 20 and a speaker 51 connectable to an output 30 of the device 1.
  • a video sensor connectable to the first input 10
  • a microphone connectable to the second input 20
  • speaker 51 connectable to an output 30 of the device 1.
  • the device 1 can be provided with a processing device including an operating system and programs, components, modules and / or applications in the form of software executed by the processor 3, which can be stored in a non-volatile memory such as memory 5.
  • a processing device including an operating system and programs, components, modules and / or applications in the form of software executed by the processor 3, which can be stored in a non-volatile memory such as memory 5.
  • the proposed methods and systems and devices for implementing the methods include various alternatives, modifications, and enhancements that will be apparent to the skilled person, being understood that these different variants, modifications and improvements are part of the scope of the invention, as defined by the protection sought.
  • various aspects and features described above may be implemented together, or separately, or substituted for each other, and all of the various combinations and sub-combinations of aspects and features are within the scope of the invention. 'invention.
  • some of the systems and equipment described above may not incorporate all of the modules and features described for the preferred embodiments.
  • the invention is not limited to the examples of devices, systems, methods, recording media and programs described above, only by way of example, but encompasses all variants that the person skilled in the art might consider in the framework of the protection sought.

Abstract

Un dispositif (1) d'assistance comprenant : - au moins un processeur (3) couplé de manière opérationnelle avec une mémoire (5), - au moins une première entrée (10) reliée au processeur (3) et apte à recevoir des données vidéo issues d'au moins un capteur vidéo (11), et - au moins une seconde entrée (20) reliée au processeur (3) et apte à recevoir des données audio issues d'au moins un microphone (21). Le processeur (3) est agencé pour : - analyser les données vidéo issues de la première entrée (10), - identifier dans les données vidéo au moins un geste humain de référence, et - déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo.

Description

Assistant vocal
L’invention relève du domaine de la fourniture de service, notamment par commande vocale.
Le développement des objets dits « connectés » tend à faciliter les interactions machine- machine et la compatibilité des appareils les uns avec les autres. Ainsi, un téléphone mobile peut servir d’interface pour commander une enceinte sans-fil ou un téléviseur d’un autre fabricant/concepteur.
En outre, les appareils domestiques, notamment dans le domaine du multimédia et de la haute- fidélité (« Hi-Fi »), présentent des interfaces homme-machine dont la nature évolue. Les interfaces à commande vocale tendent à remplacer les écrans tactiles, qui remplaçaient eux- mêmes les télécommandes à boutons physiques. De telles interfaces à commande vocale sont notamment à la base de l’essor des « assistants vocaux » tels que les systèmes connus sous les noms « Google Home » (Google), « Siri » (Apple) ou « Alexa » (Amazon).
Pour éviter des déclenchements intempestifs, les assistants vocaux sont généralement prévus pour s’activer seulement lorsqu’un mot-clé ou une phrase-clé est prononcé par l’utilisateur. Il est aussi théoriquement possible de limiter l’activation en reconnaissant seulement les voix d’utilisateurs présumés légitimes. Cependant, de telles précautions sont imparfaites, en particulier lorsque la qualité sonore perçue ne permet pas une bonne analyse des sons, par exemple dans un environnement bruyant. Le mot-clé ou la phrase-clé peut ne pas être capté par le microphone ou ne pas être reconnu parmi l’ensemble des sons captés. Dans de tels cas, le déclenchement est impossible ou erratique.
L’invention vient améliorer la situation.
Il est proposé un dispositif d’ assistance comprenant :
- au moins un processeur couplé de manière opérationnelle avec une mémoire,
- au moins une première entrée reliée au processeur et apte à recevoir des données vidéo issues d’ au moins un capteur vidéo, et
- au moins une seconde entrée reliée au processeur et apte à recevoir des données audio issues d’ au moins un microphone,
le processeur étant agencé pour :
- analyser les données vidéo issues de la première entrée, - identifier dans les données vidéo au moins un geste humain de référence, et
- déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
Selon un autre aspect, il est proposé un système d’assistance comprenant un tel dispositif et l’un au moins des organes suivants :
- un capteur vidéo connecté ou connectable à la première entrée ;
- un microphone connecté ou connectable à la seconde entrée ;
- un haut-parleur connecté ou connectable à une sortie du dispositif.
Selon un autre aspect, il est proposé un procédé d’assistance, mis en œuvre par des moyens informatiques, comprenant :
- analyser des données vidéo issues d’une première entrée,
- identifier dans les données vidéo au moins un geste humain de référence et,
- déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
Selon un autre aspect de l’invention, il est proposé un programme informatique comportant des instructions pour la mise en œuvre du procédé tel que défini dans les présentes lorsque ce programme est exécuté par un processeur. Selon un autre aspect de l’invention, il est proposé un support d’enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme.
De tels objets permettent à un utilisateur de déclencher la mise en œuvre d’un processus de commande vocale en effectuant un geste, par exemple de la main. Ainsi, les déclenchements intempestifs et les absences de déclenchement résultant habituellement d’un dysfonctionnement du processus de reconnaissance vocale, sont évités. Notamment, le déclenchement du processus de commande vocale est insensible au bruit ambiant et aux commandes vocales involontaires. Les interfaces à commande gestuelle sont moins répandues que les interfaces à commande vocale, notamment car il est considéré comme moins naturel ou moins instinctif de s’adresser à une machine par des gestes que par la voix. Par conséquent, l’usage de commandes gestuelles est réservé à des contextes particuliers plutôt qu’aux usages dits « grand public » et « domestique ». De tels objets sont particulièrement avantageux lorsqu’ils sont combinés avec des assistants vocaux. La reconnaissance gestuelle pour le déclenchement de la reconnaissance vocale peut être combinée avec le déclenchement par reconnaissance vocale (prononciation de mot(s)-clé(s)). Dans ce cas, l’utilisateur peut au choix faire un geste ou prononcer un (des) mot(s)-clé(s) pour activer l’assistant vocal. En variante, le déclenchement par reconnaissance gestuelle vient remplacer le déclenchement par reconnaissance vocale. Dans ce cas, l’efficacité est encore améliorée. Cela permet en outre de neutraliser les microphones hors des périodes d’activation des assistants, soit en les éteignant, soit en les déconnectant. Les risques que les microphones soient utilisés à des fins non prévues sont réduits, par exemple par un tiers prenant indûment le contrôle de tels assistants vocaux.
Les caractéristiques suivantes peuvent, optionnellement, être mises en œuvre. Elles peuvent être mises en œuvre indépendamment les unes des autres ou en combinaison les unes avec les autres :
- Le dispositif peut comprendre, en outre, une sortie pilotée par le processeur et apte à transmettre des commandes à un système de diffusion sonore. Le processeur peut, en outre, être agencé pour transmettre une commande de réduction du volume sonore ou d’interruption de la diffusion sonore en cas de détection dudit au moins un geste humain de référence dans les données vidéo. Cela permet de réduire le bruit ambiant et donc de faciliter des opérations ultérieures d’analyse audio, notamment de reconnaissance vocale, et améliore donc la pertinence et le fonctionnement des services basés sur l’analyse audio.
- L’analyse de données audio peut inclure une reconnaissance de commandes vocales. Cela permet de fournir des services interactifs à l’utilisateur, notamment du type assistance vocale.
- Le dispositif peut comprendre, en outre, une sortie pilotée par le processeur et apte à transmettre des commandes à un dispositif tiers. Le processeur peut, en outre, être agencé pour transmettre une commande sur ladite sortie, la commande étant sélectionnée en fonction des résultats de la reconnaissance de commandes vocales. Un tel dispositif permet de commander vocalement des dispositifs tiers de manière améliorée.
- Le processeur peut, en outre, être agencé pour déclencher l’émission d’un indicateur visuel et/ou sonore perceptible par un utilisateur en cas de détection dudit au moins un geste humain de référence dans les données vidéo. Cela permet à l’utilisateur de prononcer des mots/phrases à destination de certains appareils seulement lorsqu’il sait que l’analyse audio est effective, ce qui lui évite de répéter inutilement certaines commandes.
- Le déclenchement de l’émission d’un indicateur peut inclure : - l’allumage d’un voyant du dispositif,
- l’émission d’un son prédéterminé sur une sortie du dispositif, et/ou
- l’émission d’un mot prédéterminé ou d’une suite de mots prédéterminée sur une sortie du dispositif.
Cela permet de s’adapter à de nombreuses situations, notamment lorsque l’environnement est bruyant ou qu’un voyant n’est pas visible par un utilisateur.
Les caractéristiques optionnelles précitées peuvent être transposées, indépendamment les unes des autres ou en combinaison les unes avec les autres, aux dispositifs, systèmes, procédés, programmes d’ordinateur et/ou supports d’enregistrement non transitoire lisibles par un ordinateur.
D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :
- la figure 1 montre un exemple non limitatif d’un dispositif proposé selon un ou plusieurs modes de réalisation, et
- la figure 2 montre un exemple non limitatif d’interactions mises en œuvre selon un ou plusieurs modes de réalisation. Dans la description détaillée ci-après de modes de réalisation, de nombreux détails spécifiques sont présentés pour apporter une compréhension plus complète. Néanmoins, la personne du métier peut se rendre compte que des modes de réalisation peuvent être mis en pratique sans ces détails spécifiques. Dans d’autres cas, des caractéristiques bien connues ne sont pas décrites en détail pour éviter de compliquer inutilement la description.
Dans la suite, il est question de détection d’au moins un geste humain. Le terme « geste » est ici utilisé dans son sens large, à savoir comme visant aussi bien des mouvements (dynamiques) et des postures (statiques) d’au moins un membre du corps humain, typiquement une main. La figure 1 représente un dispositif 1 d’assistance à disposition d’un utilisateur 100. Le dispositif 1 comprend :
- au moins un processeur 3 couplé de manière opérationnelle avec une mémoire 5,
- au moins une première entrée 10 reliée au processeur 3, et
- au moins une seconde entrée 20 reliée au processeur 3. La première entrée 10 est apte à recevoir des données vidéo issues d’au moins un capteur vidéo 11, par exemple une caméra ou une webcam. La première entrée 10 forme une interface entre le capteur vidéo et le dispositif 1 et prend, par exemple, la forme d’un connecteur de type HDMI (pour « High-Definition Multimedia Interface »). En variante, d’autres types d’entrée vidéo peuvent être prévus, en complément ou en remplacement du connecteur HDMI. Par exemple, le dispositif 1 peut comprendre une pluralité de premières entrées 10, sous la forme de plusieurs connecteurs de même type ou de type différents. Ainsi, le processeur 3 peut recevoir en entrée plusieurs flux vidéo. Cela permet, par exemple, de capter des images dans différentes pièces d’un bâtiment ou selon différents angles. Le dispositif 1 peut, en outre, être rendu compatible avec une variété de capteurs vidéo 11.
La seconde entrée 20 est apte à recevoir des données audio issues d’au moins un microphone 21. La seconde entrée 20 forme une interface entre le microphone et le dispositif 1 et prend, par exemple, la forme d’un connecteur de type coaxial (par exemple dit «jack »). En variante, d’autres types d’entrée audio peuvent être prévus, en complément ou en remplacement du connecteur coaxial. Notamment, la première entrée 10 et la seconde entrée 20 peuvent présenter un connecteur commun, apte à recevoir à la fois un flux vidéo et un flux audio. Les connecteurs HDMI sont, par exemple, des connecteurs présentant cette possibilité. Les connecteurs HDMI présentent, en outre, l’avantage d’être répandus sur les appareils existants, notamment les téléviseurs. Ainsi, un unique connecteur HDMI peut permettre au dispositif 1 d’être relié un téléviseur équipé à la fois d’un microphone et d’une caméra. Ces équipements tiers peuvent alors être utilisés pour alimenter respectivement une première entrée 10 et une seconde entrée 20 du dispositif 1.
Par exemple, le dispositif 1 peut aussi comprendre une pluralité de secondes entrées 20, sous la forme de plusieurs connecteurs de même type ou de type différents. Ainsi, le processeur 3 peut recevoir en entrée plusieurs flux audio, par exemple de plusieurs microphones répartis dans une pièce, ce qui permet d’améliorer la reconnaissance vocale ultérieure par des méthodes de traitement des signaux connues en tant que telles. Le dispositif 1 peut, en outre, être rendu compatible avec une variété de microphones 21.
Dans l’exemple non limitatif représenté en figure 1, le dispositif 1 comprend en outre :
- une sortie 30 reliée au processeur 3 et pilotée par le processeur 3. La sortie 30 est apte à transmettre des commandes à un système de diffusion sonore 50, par exemple une enceinte connectée, une installation haute -fidélité (« Hi-Fi »), un téléviseur, un ordiphone (ou « smartphone »), une tablette ou encore un ordinateur. Le système de diffusion sonore 50 comprend au moins un haut-parleur 51.
Dans l’exemple non limitatif représenté en figure 1, le dispositif 1 comprend en outre :
- une sortie 40 reliée au processeur 3 et pilotée par le processeur 3.
La sortie 40 est apte à transmettre des commandes à au moins un dispositif tiers 60, par exemple une enceinte connectée, une installation Hi-Fi, un téléviseur, un ordiphone (ou « smartphone »), une tablette ou encore un ordinateur.
Les sorties 30, 40 peuvent, par exemple, prendre la forme de connecteurs de divers types sélectionnés de préférence pour être compatibles avec les équipements tiers. Le connecteur d’une des sorties 30, 40 peut, par exemple, être commun avec le connecteur d’une des entrées. Par exemple, les connecteurs HDMI permettent la mise en œuvre de transmissions audio bidirectionnelles (technologie connue sous le sigle « ARC » pour « Audio Return Charnel »). Ainsi, une seconde entrée 20 et une sortie 30 peuvent présenter un connecteur commun relié à un équipement, tel qu’un téléviseur, incluant à la fois un microphone 21 et des haut-parleurs 51.
Par exemple, le dispositif 1 peut aussi comprendre une unique sortie ou bien plus de deux sorties sous la forme de plusieurs connecteurs de même type ou de type différents. Ainsi, le processeur 3 peut transmettre en sortie plusieurs commandes, par exemple pour piloter distinctement plusieurs équipements tiers.
Jusqu’ici, les entrées 10, 20 et sorties 30, 40 ont été présentées comme prenant la forme d’un ou plusieurs connecteurs mécaniques. Autrement dit, le dispositif 1 peut être relié à des équipements tiers par des câbles. En variante, certaines au moins des entrées/sorties peuvent prendre la forme d’un module de communication sans fil. Dans de tels cas, le dispositif 1 comprend en outre au moins un module de communication sans fil, de sorte que le dispositif 1 peut être relié sans-fil à des dispositifs tiers distants, y compris des dispositifs tels que présentés en exemple ci-avant. Les modules de communication sans fil sont alors reliés au processeur 3 et pilotés par le processeur 3. Les modules de communication peuvent, par exemple, inclure un module de communication à courte distance, par exemple à base d’ondes radio telles que celles de type Wifi. Les réseaux locaux sans fil, notamment domestiques, sont souvent mis en œuvre au moyen d’un réseau Wifi. Ainsi, le dispositif 1 peut s’intégrer à un environnement existant, notamment les réseaux dits « domotiques ».
Les modules de communication peuvent, par exemple, inclure un module de communication à faible distance, par exemple de type Bluetooth®. Des moyens de communication compatibles avec la technologie de type Bluetooth® équipent une grande partie des équipements récents, en particulier les ordiphones et les enceintes dites « portables ».
Les modules de communication peuvent, par exemple, inclure un module de communication en champ proche (ou NFC pour « Near Field Communication »). Dans de tels cas, la communication n’étant efficace qu’à des distances de quelques centimètres, le dispositif 1 doit être disposé à proximité immédiate de relais ou des équipements tiers auquel on souhaite se connecter.
Dans l’exemple non limitatif représenté en figure 1, le capteur vidéo 11, le microphone 21 et le haut-parleur 51 du système de diffusion sonore 50 sont des équipements tiers (non intégrés au dispositif 1). Ces équipements peuvent être reliés au processeur 3 du dispositif 1 tout en étant intégrés à d’autres dispositifs, ensembles ou séparément les uns des autres. De tels dispositifs tiers comprennent, par exemple, un téléviseur, un ordiphone, une tablette ou encore un ordinateur. Ces équipements peuvent aussi être reliés au processeur 3 du dispositif 1 tout en étant des équipements indépendants de tout autre dispositif. Dans les modes de réalisation pour lesquels certains au moins des équipements précités sont absents du dispositif 1, notamment le capteur vidéo 11 et le microphone 21, le dispositif 1 peut être considéré comme un boîtier multimédia, ou dispositif d’appoint, destiné à venir se connecter ou s’appairer avec au moins un dispositif tiers, par exemple un téléviseur. Dans ce cas, un tel boîtier multimédia n’est opérationnel qu’une fois connecté à un tel dispositif tiers. Lin tel boîtier multimédia peut être inclus dans un décodeur TV (désigné par le sigle STB pour « Set Top Box ») ou bien encore dans une console de jeu.
En variante, certains au moins des équipements précités peuvent être intégrés au dispositif 1. Dans ce dernier cas, le dispositif 1 comprend en outre :
- au moins un capteur vidéo 11 connecté à une première entrée 10 ; - au moins un microphone 21 connecté à une seconde entrée 20 ; et/ou
- au moins un haut-parleur 51 connecté à une sortie 30 du dispositif 1.
En variante, le dispositif 1 comprend une combinaison d’équipements intégrés et d’entrées/sorties destinées à se connecter à des dispositifs tiers et dépourvues d’équipement intégré correspondant.
Dans des variantes, le dispositif 1 comprend, en outre, au moins un indicateur visuel, par exemple un ou plusieurs voyants. Un tel indicateur, piloté par le processeur 3, peut être activé de manière à renseigner l’utilisateur 100 sur un état du dispositif 1. L’état d’un tel indicateur peut varier, par exemple lors des opérations d’appairage avec des équipements tiers et/ou en cas d’activation ou de désactivation du dispositif 1 comme cela sera décrit plus en détail ci-après.
Dans les modes de réalisation pour lesquels certains au moins des équipements précités sont intégrés au dispositif 1 , notamment au moins un capteur vidéo 11 et au moins un microphone 21, le dispositif 1 peut être considéré comme un dispositif au moins en partie autonome. Notamment, le procédé décrit ci-après et en référence à la figure 2 peut être mis en œuvre par le dispositif 1 sans qu’il soit nécessaire de le connecter ou de l’appairer avec des dispositifs tiers.
Le dispositif 1 comprend, en outre, une source d’alimentation non représentée, par exemple un cordon d’ alimentation pour un branchement au secteur et/ou une batterie.
Dans les exemples décrits ici, le dispositif 1 comprend un unique processeur 3. En variante, plusieurs processeurs peuvent coopérer pour mettre en œuvre les opérations décrites dans les présentes.
Le processeur 3, ou unité de traitement de données (CPU), est associé à la mémoire 5. La mémoire 5 comprend par exemple une mémoire vive (RAM), une mémoire morte (ROM), une mémoire cache et/ou une mémoire flash, ou tout autre medium de stockage apte au stockage de code logiciel sous forme d’instructions exécutables par un processeur ou de structures de données accessibles par un processeur.
Le processeur 3 est agencé pour :
- analyser les données vidéo issues d’au moins une première entrée 10,
- identifier dans les données vidéo au moins un geste humain de référence, et - déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
Le geste de référence ou les gestes de référence peuvent être, par exemple, stockés sous forme de critères de détermination/identification dans la mémoire 5 et auxquels le processeur 3 fait appel au cours de l’analyse des données vidéo. De tels critères peuvent être fixés par défaut. En variante, de tels critères peuvent être modifiés par des mises à jour logicielles et/ou par apprentissage auprès de l’utilisateur 100 lui-même. Ainsi, l’utilisateur 100 peut sélectionner les gestes clés ou gestes de référence permettant le déclenchement de l’analyse des données audio.
Dans les exemples décrits ici, à la fois le déclenchement de l’analyse de données audio et l’analyse audio elle-même sont mis en œuvre par le dispositif 1 (par l’intermédiaire d’une seconde entrée 20 et du processeur 3). En variante, le déclenchement est mis en œuvre par le dispositif 1 tandis que l’analyse audio est mise en œuvre par un dispositif tiers auquel est connecté le dispositif 1. Autrement dit, le dispositif 1 peut fonctionner selon un mode dit « autonome » au sens où le dispositif 1 assure lui-même l’analyse audio et optionnellement des opérations ultérieures. Un tel dispositif 1 peut avantageusement remplacer un assistant vocal. Le dispositif 1 peut aussi fonctionner selon un mode « d’appoint » au sens où le dispositif 1 déclenche l’analyse audio par un dispositif tiers, par exemple en transmettant un signal d’activation au dispositif tiers, tel que ceux référencés 60 et relié à la sortie 40.
Autrement dit, le processeur 3 peut, optionnellement, être agencé pour mettre en œuvre G analyse des données audio en plus du déclenchement.
Que le dispositif 1 fonctionne en mode « autonome » ou « d’ appoint », le déclenchement de l’analyse audio par détection d’un geste peut être cumulé avec un déclenchement de l’analyse audio par la voix (prononciation d’un ou plusieurs mots-clés). Ainsi, l’analyse audio et les services qui en découlent peuvent rester activables, en parallèle, par la voix seule indépendamment des gestes (détectée par un dispositif tiers) aussi bien que par les gestes indépendamment de la voix (détectée par le dispositif 1). Le déclenchement peut aussi être conditionné par la détection d’une combinaison de la voix et de l’emploi d’un geste de référence, simultanément ou successivement.
En variante, le déclenchement de l’analyse audio par détection d’un geste peut être exclusif d’un déclenchement de l’analyse audio par la voix. Autrement dit, le dispositif 1 peut être agencé pour rendre les voix, y compris celle de G utilisateur 100, inopérantes avant le déclenchement de l’analyse audio par un geste. Ainsi, un dispositif 1 en mode autonome, ou un système combinant un dispositif 1 d’appoint avec un dispositif tiers, peuvent interdire le déclenchement de G analyse audio par la voix.
L’analyse de données audio peut inclure une reconnaissance de commandes vocales. Des techniques de reconnaissance de commandes vocales sont connues en tant que telles, notamment dans le contexte des assistants vocaux.
La figure 2 représente les interactions entre différents éléments au cours de la mise en œuvre d’un procédé selon un mode de réalisation.
L’utilisateur 100 effectue un geste (statique ou dynamique). Le geste est capturé par un capteur vidéo 11 relié à une première sortie 10 d’un dispositif 1. Le processeur 3 du dispositif 1 reçoit un flux vidéo (ou des données vidéo) incluant la capture du geste de référence. Le processeur 3 peut recevoir un flux vidéo sensiblement en continu ou bien, par exemple, seulement lorsqu’un mouvement est détecté.
Le processeur 3 met en œuvre une opération d’analyse des données vidéo reçues. Les opérations incluent des tentatives d’identification d’un ou plusieurs gestes humains de référence. Si aucun geste de référence n’est détecté, alors la suite du procédé n’est pas déclenchée. Le dispositif 1 reste en veille.
Si le geste de référence effectué par l’utilisateur 100 est détecté, alors la suite du procédé est mise en œuvre. Sur la figure 2, la mise en œuvre de deux opérations optionnelles et indépendantes l’une de l’autre sont représentées en traits tiretés :
- une opération visant à réduire le bruit ambiant avant de mettre en œuvre l’analyse audio, et
- une opération visant à confirmer à l’utilisateur 100 que l’analyse audio est déclenchée ou sur le point de l’être.
Dans les modes de réalisation comprenant une combinaison de ces deux opérations optionnelles, elles peuvent être mises en œuvre l’une après l’autre ou concomitamment.
Dans des modes de réalisation, le processeur 3 est donc, en outre, agencé pour transmettre une commande de réduction du volume sonore ou d’interruption de la diffusion sonore en cas de détection d’au moins un geste humain de référence dans les données vidéo. La commande est, par exemple, transmise via la sortie 30 et à destination du système de diffusion sonore 50 incluant un haut-parleur 51 comme cela est représenté en figure 2. La transmission d’une telle commande peut être réalisée, en remplacement ou en complément, via d’autres sorties du dispositif 1 telles que la sortie 40 et à destination d’équipements tiers 60.
Le processeur 3 est, en outre, agencé pour déclencher l’émission d’un indicateur visuel et/ou sonore perceptible par l’utilisateur 100 en cas de détection d’au moins un geste humain de référence dans les données vidéo. L’envoi de l’indicateur est représenté par l’envoi d’un « OK » en figure 2. Par exemple, le déclenchement de l’émission d’un indicateur peut inclure :
- l’allumage d’un voyant du dispositif 1 ;
- l’émission d’un son prédéterminé sur une sortie du dispositif 1, par exemples les sorties 30 et/ou 40 du mode de réalisation de la figure 1 ; et/ou
- l’émission d’un mot prédéterminé ou d’une suite de mots prédéterminée sur une sortie du dispositif 1 , par exemples les sorties 30 et/ou 40 du mode de réalisation de la figure 1.
Dans le mode de réalisation représenté en figure 2, une fois l’analyse des données audio déclenchée, le processeur 3 est agencé pour recevoir des données audio à analyser, notamment via une seconde sortie 20 et le microphone 21. Les données audio comprennent, par exemple, une commande vocale prononcée par l’utilisateur 100. Dans des exemples non limitatifs, le processeur 3 peut, en outre, être agencé pour mettre en œuvre une analyse audio incluant une reconnaissance de commandes vocales, puis pour transmettre une commande sélectionnée en fonction des résultats de la reconnaissance de commandes vocales, notamment via les sorties 30 et/ou 40, et à destination respectivement du système de diffusion sonore 50 et/ou d’un dispositif tiers 60.
La variété de commandes vocales pouvant être traduites par le dispositif 1 en commande interprétables informatiquement par des dispositifs tiers comprend, par exemple, des commandes usuelles d’un système Hi-fi, du type « augmentation du volume », « diminution du volume », « changement de piste » ou encore « changement de source ».
Jusqu’ici, il a été fait référence à des modes de réalisation et des variantes d’un dispositif 1. La personne du métier comprendra sans effort que les diverses combinaisons d’opérations décrites comme mises en œuvre par le processeur 3 peuvent généralement être entendues comme formant un procédé d’assistance (de l’utilisateur 100) mis en œuvre par des moyens informatiques. Un tel procédé peut, aussi, prendre la forme d’un programme informatique ou d’un support sur lequel est enregistré un tel programme.
Le dispositif 1 a été présenté dans un état fonctionnel. La personne du métier comprendra en outre, qu’en pratique, le dispositif 1 peut prendre une forme temporairement inactive, telle qu’un système incluant divers pièces prévues pour coopérer les unes avec les autres. Un tel système peut, par exemple, comprendre un dispositif 1 et l’un au moins parmi un capteur vidéo connectable à la première entrée 10, un microphone connectable à la seconde entrée 20 et un haut-parleur 51 connectable à une sortie 30 du dispositif 1.
Optionnellement, le dispositif 1 peut être fourni avec un dispositif de traitement incluant un système d’exploitation et des programmes, composants, modules et/ou applications sous forme de logiciels exécutés par le processeur 3, qui peuvent être stockés dans une mémoire non- volatile telle que la mémoire 5.
En fonction des modes de réalisation choisis, certains actes, actions, évènements ou fonctions de chacune des méthodes et procédés décrits dans le présent document peuvent être effectués ou se produire selon un ordre différent de celui dans lequel ils ont été décrits, ou peuvent être ajoutés, fusionnés ou bien ne pas être effectués ou ne pas se produire, selon le cas. En outre, dans certains modes de réalisation, certains actes, actions ou évènements sont effectués ou se produisent concurremment et non pas successivement ou vice et versa.
Bien que décrits à travers un certain nombre d’exemples de réalisation détaillés, les procédés proposés et les systèmes et dispositifs pour la mise en œuvre des procédés comprennent différentes variantes, modifications et perfectionnements qui apparaîtront de façon manifeste à la personne du métier, étant entendu que ces différentes variantes, modifications et perfectionnements font partie de la portée de l’invention, telle que définie par la protection recherchée. De plus, différents aspects et caractéristiques décrits ci-dessus peuvent être mis en œuvre ensemble, ou séparément, ou bien substitués les uns aux autres, et l’ensemble des différentes combinaisons et sous combinaisons des aspects et caractéristiques font partie de la portée de l’invention. En outre, il se peut que certains systèmes et équipements décrits ci-dessus n’incorporent pas la totalité des modules et fonctions décrits pour les modes de réalisation préférés. L’invention ne se limite pas aux exemples de dispositifs, systèmes, procédés, supports d’enregistrement et programmes décrits ci-avant, seulement à titre d’exemple, mais elle englobe toutes les variantes que pourra envisager la personne de l’art dans le cadre de la protection recherchée.

Claims

Revendications
1. Dispositif (1) d’assistance comprenant :
- au moins un processeur (3) couplé de manière opérationnelle avec une mémoire (5),
- au moins une première entrée (10) reliée au processeur (3) et apte à recevoir des données vidéo issues d’au moins un capteur vidéo (11), et
- au moins une seconde entrée (20) reliée au processeur (3) et apte à recevoir des données audio issues d’au moins un microphone (21),
le processeur (3) étant agencé pour :
- analyser les données vidéo issues de la première entrée (10),
- identifier dans les données vidéo au moins un geste humain de référence, et
- déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
2. Dispositif selon la revendication 1 comprenant en outre une sortie (30) pilotée par le processeur (3) et apte à transmettre des commandes à un système de diffusion sonore (50), le processeur (3) étant en outre agencé pour transmettre une commande de réduction du volume sonore ou d’interruption de la diffusion sonore en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
3. Dispositif selon l’une des revendications précédentes dans lequel l’analyse de données audio inclut une reconnaissance de commandes vocales.
4. Dispositif selon la revendication 3, comprenant en outre une sortie (30, 40) pilotée par le processeur (3) et apte à transmettre des commandes à un dispositif tiers (50, 60), le processeur (3) étant en outre agencé pour transmettre une commande sur ladite sortie (30, 40), la commande étant sélectionnée en fonction des résultats de la reconnaissance de commandes vocales.
5. Dispositif selon l’une des revendications précédentes dans lequel le processeur (3) est en outre agencé pour déclencher l’émission d’un indicateur visuel et/ou sonore perceptible par un utilisateur en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
6. Dispositif selon la revendication 5, dans lequel le déclenchement de l’émission d’un indicateur inclut :
- l’allumage d’un voyant du dispositif,
- l’émission d’un son prédéterminé sur une sortie (30, 40) du dispositif (1), et/ou
- l’émission d’un mot prédéterminé ou d’une suite de mots prédéterminée sur une sortie (30, 40) du dispositif (1).
7. Système d’assistance comprenant un dispositif (1) selon l’une des revendications précédentes et l’un au moins des organes suivants :
- un capteur vidéo (11) connecté ou connectable à la première entrée (10) ;
- un microphone (21) connecté ou connectable à la seconde entrée (20) ;
- un haut-parleur (51) connecté ou connectable à une sortie (30) du dispositif (1).
8. Procédé d’assistance, mis en œuvre par des moyens informatiques, comprenant :
- analyser des données vidéo issues d’une première entrée (10),
- identifier dans les données vidéo au moins un geste humain de référence et,
- déclencher une analyse de données audio seulement en cas de détection dudit au moins un geste humain de référence dans les données vidéo.
9. Support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme comprenant des instructions pour la mise en œuvre du procédé selon la revendication précédente.
10. Programme informatique comportant des instructions pour la mise en œuvre du procédé selon la revendication 8 lorsque ce programme est exécuté par un processeur (3).
EP18833272.0A 2017-12-18 2018-12-07 Assistant vocal Withdrawn EP3729236A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1762353A FR3075427A1 (fr) 2017-12-18 2017-12-18 Assistant vocal
PCT/FR2018/053158 WO2019122578A1 (fr) 2017-12-18 2018-12-07 Assistant vocal

Publications (1)

Publication Number Publication Date
EP3729236A1 true EP3729236A1 (fr) 2020-10-28

Family

ID=61521657

Family Applications (1)

Application Number Title Priority Date Filing Date
EP18833272.0A Withdrawn EP3729236A1 (fr) 2017-12-18 2018-12-07 Assistant vocal

Country Status (4)

Country Link
US (1) US20200379731A1 (fr)
EP (1) EP3729236A1 (fr)
FR (1) FR3075427A1 (fr)
WO (1) WO2019122578A1 (fr)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7302200B2 (ja) * 2019-02-26 2023-07-04 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN113038873A (zh) * 2019-05-17 2021-06-25 松下知识产权经营株式会社 信息处理方法、信息处理系统以及信息处理程序

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US8532871B2 (en) * 2007-06-05 2013-09-10 Mitsubishi Electric Company Multi-modal vehicle operating device
EP2555536A1 (fr) * 2011-08-05 2013-02-06 Samsung Electronics Co., Ltd. Procédé pour commander un appareil électronique sur la base de la reconnaissance de mouvement et de reconnaissance vocale et appareil électronique appliquant celui-ci
DE102012013503B4 (de) * 2012-07-06 2014-10-09 Audi Ag Verfahren und Steuerungssystem zum Betreiben eines Kraftwagens
KR20140086302A (ko) * 2012-12-28 2014-07-08 현대자동차주식회사 음성과 제스처를 이용한 명령어 인식 장치 및 그 방법
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
KR102160767B1 (ko) * 2013-06-20 2020-09-29 삼성전자주식회사 제스처를 감지하여 기능을 제어하는 휴대 단말 및 방법
US10431211B2 (en) * 2016-07-29 2019-10-01 Qualcomm Incorporated Directional processing of far-field audio
KR102399809B1 (ko) * 2017-10-31 2022-05-19 엘지전자 주식회사 전자 장치 및 그 제어 방법

Also Published As

Publication number Publication date
FR3075427A1 (fr) 2019-06-21
WO2019122578A1 (fr) 2019-06-27
US20200379731A1 (en) 2020-12-03

Similar Documents

Publication Publication Date Title
US11310765B2 (en) System and method to silence other devices in response to an incoming audible communication
US10121465B1 (en) Providing content on multiple devices
US10209951B2 (en) Language-based muting during multiuser communications
US10516776B2 (en) Volume adjusting method, system, apparatus and computer storage medium
CN105323648B (zh) 字幕隐藏方法和电子装置
EP2990943B1 (fr) Procédé et système de commande de dispositif terminal intelligent
CN105814909B (zh) 用于反馈检测的系统和方法
US9799329B1 (en) Removing recurring environmental sounds
EP2973543B1 (fr) Fourniture de contenu sur plusieurs dispositifs
US10178185B2 (en) Load-balanced, persistent connection techniques
US20130332168A1 (en) Voice activated search and control for applications
KR102147329B1 (ko) 영상 표시 기기 및 그의 동작 방법
US20150149169A1 (en) Method and apparatus for providing mobile multimodal speech hearing aid
KR102265931B1 (ko) 음성 인식을 이용하는 통화 수행 방법 및 사용자 단말
FR2997599A3 (fr) Appareil de traitement d'image et procede de commande de celui-ci et systeme de traitement d'image
KR101874888B1 (ko) 휴대 단말기의 이어폰 인식 방법 및 장치
KR20110054609A (ko) 블루투스 디바이스의 원격 제어 방법 및 장치
US20150163610A1 (en) Audio keyword based control of media output
CA3041198A1 (fr) Controle de formation de faisceau d'un reseau de microphones
US20230186938A1 (en) Audio signal processing device and operating method therefor
WO2019122578A1 (fr) Assistant vocal
US9521235B2 (en) Two-way mirroring system for sound data
US10062386B1 (en) Signaling voice-controlled devices
US20200043486A1 (en) Natural language processing while sound sensor is muted
US10212476B2 (en) Image display apparatus and image displaying method

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20200519

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
RAP3 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20220930

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20230211