FR3034887A1

FR3034887A1 - DEVICE AND METHOD FOR REAL-TIME GESTURAL CONTROL OF AUDIO SIGNAL

Info

Publication number: FR3034887A1
Application number: FR1553023A
Authority: FR
Inventors: Thomas Jean-Roger Mathieu Amilien; Jean-Baptiste Guignard
Original assignee: Individual
Current assignee: Qualcomm Technologies Inc
Priority date: 2015-04-08
Filing date: 2015-04-08
Publication date: 2016-10-14
Anticipated expiration: 2035-04-08
Also published as: FR3034887B1; WO2016162416A1

Abstract

L'invention concerne un dispositif et un procédé de commande gestuelle en temps réel de signal audio permettant, en fonction de données gestuelles (311), de modifier des paramètres de lecture (marche/arrêt, vitesse de lecture) et d'appliquer des effets sonores à un signal audio d'arrivée (321). Ce signal audio d'arrivée (321) est généré en continu à partir d'un signal audio de travail (361) correspondant au signal audio d'origine (11) extrait au fur et à mesure d'une opération de lecture d'un fichier (1) audio ou audio-vidéo. Les données gestuelles sont générées à partir de positions successives d'au moins une partie (91a, 91b) d'un corps humain (9) détectées dans un champ de captation (21) par un capteur (2).The invention relates to a device and a method for real-time gestural control of an audio signal, which, as a function of gestural data (311), makes it possible to modify reading parameters (on / off, reading speed) and to apply effects sound to an incoming audio signal (321). This incoming audio signal (321) is continuously generated from a working audio signal (361) corresponding to the original audio signal (11) extracted as a read operation of a file (1) audio or audio-video. The gestural data is generated from successive positions of at least a portion (91a, 91b) of a human body (9) detected in a capture field (21) by a sensor (2).

Description

- 1 - « Dispositif et procédé de commande gestuelle en temps réel de signal audio » Domaine technique La présente invention se rapporte au domaine des interactions homme-machine et des systèmes temps réel. Plus précisément, la présente invention concerne un dispositif et un 5 procédé de commande gestuelle en temps réel de signal audio. Etat de la technique antérieure On connaît dans l'art antérieur des dispositifs de commande gestuelle en temps réel de signal audio.FIELD OF THE INVENTION The present invention relates to the field of human-machine interactions and real-time systems. More specifically, the present invention relates to a device and method for real-time gesture control of audio signal. STATE OF THE PRIOR ART In the prior art, real-time gesture control devices for audio signals are known.

10 Par exemple, le système « iSymphony » permet de modifier en temps réel des paramètres tels que la vitesse de lecture ou le volume d'un enregistrement audio numérique par l'intermédiaire de la captation des mouvements d'un bâton. Ce système est doté d'une intelligence permettant typiquement de reconnaître différents types de gestes associés à des 15 trajectoires de ce bâton dans un champ de captation (espace physique) et de modifier, en fonction du type de geste reconnu, de tels paramètres. Ce système permet aussi de réaliser une opération d'étirement temporel, appelée « time-stretching » en anglais. Un inconvénient d'un tel système est qu'il implique de réaliser une 20 lecture préalable de l'enregistrement audio numérique, notamment pour mettre en oeuvre l'opération d'étirement temporel. Une lecture préalable du fichier doit être réalisée, à la vitesse nominale de lecture, afin de repérer à l'avance des points caractéristiques de l'enregistrement audio numérique. Un autre système connu est le système « TimeFlux » qui permet 25 notamment de modifier la vitesse de lecture d'un enregistrement audio, par exemple par l'intermédiaire d'une souris d'ordinateur ou d'un capteur optique (par exemple un capteur « Leap Motion ») capable de détecter des déplacements d'une ou deux mains dans un champ de captation (espace physique).For example, the "iSymphony" system makes it possible to modify, in real time, parameters such as the playback speed or the volume of a digital audio recording via the capture of the movements of a stick. This system is endowed with an intelligence that typically makes it possible to recognize different types of gestures associated with trajectories of this stick in a capture field (physical space) and to modify, according to the type of gesture recognized, such parameters. This system also makes it possible to perform a temporal stretching operation, called "time-stretching" in English. A disadvantage of such a system is that it involves performing a prior reading of the digital audio recording, in particular to implement the time stretching operation. A prior reading of the file must be performed, at the nominal reading speed, in order to identify in advance the characteristic points of the digital audio recording. Another known system is the "TimeFlux" system which makes it possible in particular to modify the playback speed of an audio recording, for example by means of a computer mouse or an optical sensor (for example a sensor "Leap Motion") able to detect movements of one or two hands in a capture field (physical space).

30 Un inconvénient d'un tel système est qu'il ne permet pas de réaliser une opération d'étirement temporel en temps réel, c'est-à-dire sans prétraitement du fichier, et sans changement de tonalité. 3034887 - 2 - Un autre inconvénient est que ce système nécessite une multiplicité de plug-ins (ou greffons logiciels), ne lui permettant pas de constituer un système clef-en-main. Un autre inconvénient de ce système est qu'il ne permet pas de 5 personnaliser des effets à appliquer à l'enregistrement audio en fonction de gestes d'un utilisateur. Encore un autre inconvénient est que ce système n'est pas ouvert à n'importe quel fichier sonore ou musical : ce système est contraint par une banque de sons prétraitée et bornée.A disadvantage of such a system is that it does not allow a temporal stretching operation to be carried out in real time, that is to say without pretreatment of the file, and without changing the tone. 3034887 - 2 - Another disadvantage is that this system requires a multiplicity of plug-ins (or software plugins), not allowing it to constitute a turnkey system. Another disadvantage of this system is that it does not allow customizing effects to be applied to the audio recording according to a user's gestures. Another disadvantage is that this system is not open to any sound or musical file: this system is constrained by a pretreated and limited sound bank.

10 Un autre inconvénient d'un tel système est qu'il requiert des connaissances poussées en musique assistée par ordinateur (MAO) et qu'il doit être utilisé au sein d'un environnement de type « studio à la maison » (ou « home studio » en anglais).Another disadvantage of such a system is that it requires advanced computer-aided music (CAM) knowledge and must be used within a home studio environment (or home). studio "in English).

15 Un objectif de l'invention est de remédier à tout ou partie des inconvénients des dispositifs de commande de l'état de la technique qui visent à influer sur la reproduction de signaux audio par le geste. Un objectif particulier de l'invention est de proposer un dispositif de commande gestuelle en temps réel de la reproduction d'un signal audio qui 20 permette de s'affranchir de tout prétraitement de ce signal audio, préalablement à sa reproduction. En l'occurrence, l'invention a pour objectif de permettre une interaction sur la reproduction d'un signal audio encodé dans un fichier numérique, sans décodage préalable de l'ensemble de ce fichier numérique.An object of the invention is to overcome all or part of the disadvantages of control devices of the state of the art which aim to influence the reproduction of audio signals by the gesture. A particular object of the invention is to propose a device for real-time gestural control of the reproduction of an audio signal which makes it possible to overcome any preprocessing of this audio signal, prior to its reproduction. In this case, the invention aims to allow interaction on the reproduction of an audio signal encoded in a digital file, without prior decoding of the entire digital file.

25 Exposé de l'invention Cet objectif est atteint avec un dispositif de commande gestuelle en temps réel de la reproduction d'un signal audio, ce dispositif étant agencé pour recevoir un fichier, de préférence numérique, audio ou audio-vidéo 30 encodant un signal audio d'origine, ce dispositif comprenant : un capteur, par exemple le système Leap Motion@ ou un smartphone, agencé pour détecter dans un champ de captation multidimensionnel, de préférence tridimensionnel, une position d'au moins une partie d'un corps humain, de préférence d'au moins une 35 main, 3034887 - 3 - un système de traitement informatique comprenant : o un module de gestion de données gestuelles agencé pour générer des données gestuelles à partir de positions successives de l'au moins une partie dudit au moins un corps humain détectées par le capteur, o un module de gestion de données audio agencé pour générer en continu un signal audio d'arrivée à partir du signal audio d'origine extrait progressivement du fichier audio ou audiovidéo, o un module de traitement de signal agencé pour appliquer des effets sonores au signal audio d'arrivée en fonction des données gestuelles. On entend par effet sonore toute altération du signal, notamment en termes de volume ou d'intensité sonore, d'égalisation en fréquence, de time-stretching, de synthèse granulaire, de fondu, ou encore de réverbération. Les effets sonores peuvent altérer une dynamique du signal, c'est-à-dire influer sur les écarts entre les plus faibles niveaux du signal et ses plus hauts niveaux. Les effets sonores peuvent aussi consister en des effets temporels, modifiant la reproduction temporelle (retards, déphasages, etc.) de tout ou partie du signal. Enfin, les effets sonores peuvent agir sur le spectre fréquentiel du signal, par exemple en filtrant des bandes de fréquences, en décalant des fréquences, ou en générant des harmoniques. Selon l'invention, le signal audio d'origine est extrait progressivement du fichier audio ou audio-vidéo. Cela signifie que la génération du signal audio d'arrivée à partir d'un échantillon donné du signal audio d'origine ne nécessite l'extraction préalable que de cet échantillon donné. En l'occurrence, les échantillons en amont de cet échantillon donné (situés en arrière dans le temps) ne sont plus nécessaires pour la génération du signal audio d'arrivée, et les échantillons situés en aval de cet échantillon donné (situés plus loin dans le temps) ne sont pas nécessaires. Bien entendu, l'échantillon de signal audio d'origine nécessaire à la génération du signal audio d'arrivée évolue au cours du temps. 3034887 - 4 - Selon une forme particulière de réalisation, le dispositif de commande comprend, en outre : o un module de gestion de données audio agencé pour réaliser une opération de lecture dans laquelle on extrait 5 progressivement le signal audio d'origine du fichier audio ou audio-vidéo en fonction de paramètres de lecture, o un module de gestion de paramètres de lecture agencé pour modifier au moins l'un des paramètres de lecture suivants en fonction des données gestuelles : 10 un mode de lecture pouvant prendre un état « actif » dans lequel l'opération de lecture est mise en oeuvre et un état « inactif » dans lequel l'opération de lecture n'est pas mise en oeuvre, une vitesse de lecture, la vitesse de lecture étant la 15 vitesse d'extraction du signal audio d'origine au cours de l'opération de lecture. Un tel dispositif permet alors de modifier, par le geste : - des paramètres de lecture (du type lecture, pause, arrêt, vitesse de lecture) du fichier audio ou audio-vidéo reçu par le dispositif, 20 et/ou - des paramètres sonores (du type des effets sonores mentionnés ci-dessus) du signal audio d'arrivée. Le module de gestion de données audio et le module de gestion de 25 paramètres de lecture sont de préférence intégrés dans le système de traitement informatique du dispositif de commande. Le module de gestion de données audio peut être agencé, en outre, pour : 30 o stocker dans une mémoire tampon un signal audio de travail correspondant au signal audio d'origine extrait progressivement du fichier audio ou audio-vidéo, et o générer en continu le signal audio d'arrivée à partir de ce signal audio de travail. 3034887 - 5 - Il est à noter que le signal audio de travail correspond au signal audio d'origine extrait au fur et à mesure de l'opération de lecture du fichier audio ou audio-vidéo.SUMMARY OF THE INVENTION This object is achieved with a real-time gesture control device for reproducing an audio signal, which device is arranged to receive a file, preferably digital, audio or audio-video encoding a signal. original audio, this device comprising: a sensor, for example the Leap Motion® system or a smartphone, arranged to detect in a multidimensional capture field, preferably three-dimensional, a position of at least a part of a human body preferably, at least one hand, a computer processing system comprising: a gesture data management module arranged to generate gestural data from successive positions of the at least a portion of said least one human body detected by the sensor, o an audio data management module arranged to continuously generate an incoming audio signal from the audio signal of original origin it progressively audio or audio file, o a signal processing module arranged to apply sound effects to the incoming audio signal according to the gestural data. Sound effect means any alteration of the signal, especially in terms of volume or sound intensity, frequency equalization, time-stretching, granular synthesis, fade, or reverberation. Sound effects can alter signal dynamics, ie, influence the differences between the lowest signal levels and its highest levels. The sound effects can also consist of temporal effects, modifying the temporal reproduction (delays, phase shifts, etc.) of all or part of the signal. Finally, sound effects can act on the frequency spectrum of the signal, for example by filtering frequency bands, shifting frequencies, or generating harmonics. According to the invention, the original audio signal is extracted progressively from the audio or audio-video file. This means that the generation of the incoming audio signal from a given sample of the original audio signal requires the prior extraction only of that given sample. In this case, the samples upstream of this given sample (located backwards in time) are no longer needed for the generation of the incoming audio signal, and the samples located downstream of this given sample (located further in time) are not necessary. Of course, the original audio signal sample required for the generation of the incoming audio signal evolves over time. According to a particular embodiment, the control device further comprises: an audio data management module arranged to perform a reading operation in which the original audio signal is extracted progressively from the audio file; or audio-video according to reading parameters, o a reading parameter management module arranged to modify at least one of the following reading parameters according to the gestural data: a reading mode that can take an "active" state Wherein the read operation is performed and an "idle" state in which the read operation is not performed, a read speed, the read speed is the read speed of the read original audio signal during the read operation. Such a device then makes it possible to modify, by the gesture: - reading parameters (of the type play, pause, stop, playback speed) of the audio or audio-video file received by the device, 20 and / or - sound parameters (of the type of sound effects mentioned above) of the incoming audio signal. The audio data management module and the reading parameter management module are preferably integrated in the computer processing system of the control device. The audio data management module may further be arranged to: store in a buffer a work audio signal corresponding to the original audio signal progressively extracted from the audio or audio-video file, and generate continuously the incoming audio signal from this working audio signal. It should be noted that the working audio signal corresponds to the original audio signal extracted as the audio or audio-video file is read.

5 Un tel dispositif est notamment avantageux car il permet de détecter des gestes d'un utilisateur non appareillé, pouvant notamment avoir les mains libres de tout dispositif de commande de type bâton, télécommande ou autre dispositif permettant une captation de mouvement. De plus, le système de traitement informatique permet de traiter en 10 temps réel tout type de fichier audio ou audio numérique, sans lecture préalable de fichier. De préférence, le système de traitement informatique comprend en outre un module de gestion de hauteur sonore agencé pour maintenir une 15 hauteur sonore du signal audio d'arrivée lorsque la vitesse de lecture est modifiée. On entend par hauteur d'un son la fréquence de vibration de ce son. Lorsque le son est composé de plusieurs fréquences, la hauteur est définie au moins par la fréquence fondamentale de ce son.Such a device is particularly advantageous because it makes it possible to detect gestures of a non-paired user, who can in particular have his hands free of any control device of the stick, remote control or other type of device enabling motion capture. In addition, the computer processing system makes it possible to process any type of digital audio or audio file in real time, without prior reading of the file. Preferably, the computer processing system further comprises a sound pitch management module arranged to maintain a sound pitch of the incoming audio signal when the playback speed is changed. The pitch of a sound is the frequency of vibration of that sound. When the sound is composed of several frequencies, the pitch is defined at least by the fundamental frequency of this sound.

20 Le module de gestion de hauteur sonore est par exemple intégré dans le système de traitement informatique du dispositif de commande. L'au moins une partie du corps humain peut être au moins une main. Le dispositif permet alors à un utilisateur d'interagir sur la reproduction du 25 signal sonore à la manière d'un chef d'orchestre. Selon une caractéristique avantageuse, le capteur et le module de gestion de données gestuelles peuvent en outre être agencés pour générer des données gestuelles à partir d'un degré de fermeture de l'au moins une main.For example, the sound level management module is integrated in the computer processing system of the control device. The at least part of the human body can be at least one hand. The device then allows a user to interact on the reproduction of the sound signal in the manner of a conductor. According to an advantageous characteristic, the sensor and the gesture data management module can also be arranged to generate gestural data from a degree of closure of the at least one hand.

30 Selon une autre caractéristique avantageuse, le capteur et le module de gestion de données gestuelles peuvent en outre être agencés pour générer des données gestuelles à partir d'un degré d'inclinaison de l'au moins une main. -6 - 3034887 L'invention concerne aussi un procédé de commande gestuelle en temps réel de la reproduction d'un signal audio comprenant : une détection dans un champ de captation multidimensionnel, de préférence tridimensionnel, d'une position d'au moins une partie d'un 5 corps humain, de préférence d'au moins une main, une génération de données gestuelles à partir de positions successives de l'au moins une partie dudit corps humain, une opération de lecture dans laquelle un signal audio d'origine est progressivement extrait d'un fichier audio ou audio-vidéo en fonction 10 de paramètres de lecture, un stockage d'un signal audio de travail correspondant au signal audio d'origine extrait au fur et à mesure de l'opération de lecture, une génération en continu d'un signal audio d'arrivée à partir du signal audio de travail, 15 une modification d'au moins l'un des, de préférence de tous les, paramètres de lecture suivants en fonction des données gestuelles : o un mode de lecture pouvant prendre un état « actif » dans lequel l'opération de lecture est mise en oeuvre et un état « inactif » dans lequel l'opération de lecture n'est pas mise en 20 oeuvre, et/ou o une vitesse de lecture, la vitesse de lecture étant la vitesse d'extraction du signal audio d'origine au cours de l'opération de lecture, une application d'effets sonores au signal audio d'arrivée en fonction 25 des données gestuelles. De préférence, les effets sonores appliqués au signal audio d'arrivée comprennent une modification d'une intensité sonore.According to another advantageous characteristic, the sensor and the gesture data management module may also be arranged to generate gestural data from a degree of inclination of the at least one hand. The invention also relates to a method for real-time gesture control of the reproduction of an audio signal comprising: a detection in a multidimensional, preferably three-dimensional, capture field of a position of at least a part of a human body, preferably at least one hand, a generation of gestural data from successive positions of the at least a portion of said human body, a read operation in which an original audio signal is progressively extracted from an audio or audio-video file according to reading parameters, a storage of a working audio signal corresponding to the original audio signal extracted as the read operation, a generation in a continuous stream of an incoming audio signal from the working audio signal, a modification of at least one of, preferably all of, the following playback parameters according to the gesture data: e of read that can take an "active" state in which the read operation is implemented and an "inactive" state in which the read operation is not implemented, and / or o a speed of reading, the reading speed being the speed of extraction of the original audio signal during the reading operation, an application of sound effects to the incoming audio signal according to the gesture data. Preferably, the sound effects applied to the incoming audio signal include a change in loudness.

30 Avantageusement, l'intensité sonore du signal audio d'arrivée peut être modifiée lorsque les données gestuelles générées traduisent un déplacement de l'au moins une partie dudit corps humain entre deux positions successives situées dans un plan vertical du champ de captation, le plan vertical comprenant de préférence le vecteur de gravité terrestre. 3034887 - 7 - Selon une caractéristique avantageuse, l'intensité sonore du signal audio d'arrivée peut être augmentée lorsqu'une première position parmi lesdites au moins deux positions successives est située à une altitude inférieure à une deuxième position, et l'intensité sonore du signal audio 5 d'arrivée peut être diminuée lorsque la première position est située à une altitude supérieure à la deuxième position. Selon une autre caractéristique avantageuse, la modification de l'intensité sonore peut comprendre un traitement d'égalisation en 10 fréquence. De préférence, plus l'intensité sonore est élevée, plus le traitement d'égalisation en fréquence est large en ouverture, c'est-à-dire plus le spectre de fréquences est pleinement restitué. Par exemple, à intensité sonore maximale (100%), toutes les fréquences sont restituées ; lorsque 15 l'intensité sonore s'écarte de cette intensité maximale, c'est-à-dire s'éloigne de 100% et s'approche de 0%, on applique typiquement un filtre passe-haut obstruant des fréquences médium-aigues. Selon une forme particulière de réalisation, la modification de 20 l'intensité sonore comprend un effet de fondu dans lequel l'intensité sonore passe progressivement d'une première valeur d'intensité sonore à une deuxième valeur d'intensité sonore, puis retourne progressivement à la première valeur d'intensité sonore. La première valeur d'intensité sonore est de préférence l'intensité sonore appliquée juste avant le déclenchement 25 de l'effet de fondu. La deuxième valeur d'intensité sonore est par exemple inférieure à la première valeur d'intensité sonore, typiquement de 10 à 30% inférieure. L'effet de fondu peut avoir une durée prédéterminée, par exemple de l'ordre de quelques secondes. Le retour à la première valeur d'intensité est alors effectué indépendamment des données gestuelles.Advantageously, the sound intensity of the incoming audio signal can be modified when the generated gestural data translate a displacement of the at least part of said human body between two successive positions located in a vertical plane of the capture field, the plane vertical preferably comprising the earth gravity vector. According to an advantageous characteristic, the sound intensity of the arrival audio signal can be increased when a first position among said at least two successive positions is located at an altitude lower than a second position, and the sound intensity. the arrival audio signal can be decreased when the first position is at an altitude greater than the second position. According to another advantageous feature, the change in loudness may include frequency equalization processing. Preferably, the higher the loudness, the higher the frequency equalization processing is in opening, that is to say the more the frequency spectrum is fully restored. For example, at maximum loudness (100%), all frequencies are restored; when the sound intensity deviates from this maximum intensity, i.e. away from 100% and approaches 0%, a high-pass filter is typically applied which blocks mid-high frequencies. According to a particular embodiment, the modification of the sound intensity comprises a fading effect in which the sound intensity progressively changes from a first sound intensity value to a second sound intensity value, and then gradually returns to the first loudness value. The first loudness value is preferably the loudness applied just before the fade effect is triggered. The second loudness value is, for example, less than the first loudness value, typically 10 to 30% lower. The fade effect can have a predetermined duration, for example of the order of a few seconds. The return to the first intensity value is then performed independently of the gestural data.

30 Avantageusement, le mode de lecture reste dans l'état « actif » lorsque l'intensité sonore est modifiée. Selon encore une autre caractéristique avantageuse, l'au moins une 35 partie dudit corps humain peut être une main, et l'intensité sonore peut 3034887 - 8 - passer progressivement de la première valeur d'intensité sonore à la deuxième valeur d'intensité sonore lorsque les données gestuelles générées traduisent un mouvement de supination ou de pronation de la main.Advantageously, the reading mode remains in the "active" state when the loudness is changed. According to yet another advantageous feature, the at least a portion of said human body may be a hand, and the loudness may progressively change from the first loudness value to the second loudness value. when the gestural data generated translate a movement of supination or pronation of the hand.

5 La deuxième valeur peut avantageusement être inférieure à la première valeur lorsque les données gestuelles générées traduisent un mouvement de supination de la main. De préférence, la modification de l'intensité sonore s'accompagne 10 d'un traitement de réverbération, de préférence de type « à queue courte » et intensité modérée. Avantageusement, les effets sonores appliqués au signal audio d'arrivée peuvent comprendre une opération d'étirement temporel au cours 15 de laquelle : l'opération de lecture est interrompue, le signal audio d'arrivée est généré par combinaison d'un ou plusieurs échantillons du signal audio de travail. Par échantillon, on entend une partie du signal audio considéré entre 20 deux instants distincts, typiquement séparés l'un de l'autre d'une durée comprise entre quelques dixièmes de secondes et quelques secondes. Selon une caractéristique avantageuse, l'au moins une partie dudit corps humain est de préférence une main, et l'opération d'étirement 25 temporel est de préférence réalisée pendant toute la durée où les données gestuelles générées traduisent un mouvement de préhension de la main au cours duquel des doigts de la main sont refermés sur la paume de la main. Par mouvement de préhension, on désigne un mouvement par lequel un ou plusieurs doigts de la main se referment, ce ou ces doigts étant 30 dirigés vers la paume de la main. Selon une autre caractéristique avantageuse, l'opération d'étirement temporel comprend un traitement de synthèse granulaire. 3034887 - 9 - Selon encore une autre caractéristique avantageuse, l'opération d'étirement temporel comprend un traitement de réverbération. De préférence, la vitesse de lecture est modifiée en fonction d'une 5 différence entre, d'une part, un premier intervalle de temps séparant une première et une deuxième position prises par l'au moins une partie dudit corps humain et, d'autre part, un deuxième intervalle de temps séparant une troisième position d'une quatrième position successive prise par l'au moins une partie dudit corps humain. La troisième position peut 10 correspondre à la première position et la quatrième position peut correspondre à la deuxième position. Typiquement, lorsque le mouvement est périodique, les troisième et quatrième positions correspondent respectivement aux première et deuxième positions. De préférence, le deuxième intervalle de temps succède dans le temps au premier intervalle 15 de temps. Avantageusement, la vitesse de lecture peut être ralentie lorsque le deuxième intervalle de temps est plus court que le premier intervalle de temps, et la vitesse de lecture peut être accélérée lorsque le deuxième 20 intervalle de temps est plus long que le premier intervalle de temps. Description des figures et modes de réalisation D'autres avantages et particularités de l'invention apparaîtront à la lecture de la description détaillée de mises en oeuvre et de modes de 25 réalisation nullement limitatifs, et de la FIGURE 1 représentant un dispositif selon l'invention recevant un fichier audio ou audio-vidéo, ainsi qu'un individu placé dans un champ de captation. Les modes de réalisation décrits ci-après étant nullement limitatifs, 30 on pourra notamment considérer des variantes de l'invention ne comprenant qu'une sélection de caractéristiques décrites, isolées des autres caractéristiques décrites (même si cette sélection est isolée au sein d'une phrase comprenant ces autres caractéristiques), si cette sélection de caractéristiques est suffisante pour conférer un avantage technique ou pour 35 différencier l'invention par rapport à l'état de la technique antérieure. Cette 3034887 - 10 - sélection comprend au moins une caractéristique, de préférence fonctionnelle sans détails structurels, ou avec seulement une partie des détails structurels si cette partie uniquement est suffisante pour conférer un avantage technique ou pour différencier l'invention par rapport à l'état de la 5 technique antérieure. Un mode de réalisation de l'invention est illustré en FIGURE 1 faisant apparaître un dispositif de commande gestuelle en temps réel de reproduction d'un signal audio selon l'invention.The second value may advantageously be less than the first value when the gestural data generated translate a supination movement of the hand. Preferably, the change in loudness is accompanied by reverberation processing, preferably of the "short tail" type and moderate intensity. Advantageously, the sound effects applied to the incoming audio signal may include a time stretching operation during which: the read operation is interrupted, the incoming audio signal is generated by combining one or more samples the working audio signal. By sample is meant a part of the audio signal considered between two distinct instants, typically separated from each other by a duration of between a few tenths of seconds and a few seconds. According to an advantageous characteristic, the at least a portion of said human body is preferably a hand, and the temporal stretching operation is preferably carried out during the entire period when the generated gestural data translate a hand gripping motion. during which fingers of the hand are closed on the palm of the hand. By gripping movement, is meant a movement by which one or more fingers of the hand are closed, or these fingers being directed towards the palm of the hand. According to another advantageous characteristic, the temporal stretching operation comprises a granular synthesis treatment. According to yet another advantageous characteristic, the temporal stretching operation comprises a reverberation treatment. Preferably, the reading speed is changed according to a difference between, on the one hand, a first time interval separating a first and a second position taken by the at least a portion of said human body and, secondly, a second time interval separating a third position from a fourth successive position taken by the at least part of said human body. The third position may correspond to the first position and the fourth position may correspond to the second position. Typically, when the movement is periodic, the third and fourth positions respectively correspond to the first and second positions. Preferably, the second time interval succeeds in time at the first time interval. Advantageously, the reading speed can be slowed down when the second time interval is shorter than the first time interval, and the reading speed can be accelerated when the second time interval is longer than the first time interval. DESCRIPTION OF THE FIGURES AND EMBODIMENTS Other advantages and particularities of the invention will appear on reading the detailed description of implementations and non-limiting embodiments, and FIG. 1 representing a device according to the invention. receiving an audio or audio-video file, as well as an individual placed in a capture field. The embodiments described below being in no way limiting, it will be possible to consider variants of the invention comprising only a selection of characteristics described, isolated from the other characteristics described (even if this selection is isolated within a sentence including these other features), if this selection of features is sufficient to confer a technical advantage or to differentiate the invention from the state of the art. This selection comprises at least one characteristic, preferably functional without structural details, or with only a part of the structural details if this part alone is sufficient to confer a technical advantage or to differentiate the invention from the state. of the prior art. An embodiment of the invention is illustrated in FIG. 1 showing a gesture control device in real time for reproducing an audio signal according to the invention.

10 Ce dispositif est agencé pour recevoir un fichier, de préférence numérique, audio ou audio-vidéo 1. Ce fichier 1 encode typiquement un signal audio d'origine 11 selon tout type de format connu, par exemple MPEG, MP3, WAV, FLAC, etc.This device is arranged to receive a file, preferably digital, audio or audio-video file 1. This file 1 typically encodes an original audio signal 11 according to any type of known format, for example MPEG, MP3, WAV, FLAC, etc.

15 Le dispositif de l'invention comprend typiquement un capteur 2 apte à détecter une position d'au moins une partie d'un corps humain 9. Le corps humain 9 est aussi appelé utilisateur dans ce document. Dans un mode de mise en oeuvre préféré, l'au moins une partie de l'utilisateur 9 correspond à l'une ou à ses deux mains 91a, 91b.The device of the invention typically comprises a sensor 2 adapted to detect a position of at least a portion of a human body 9. The human body 9 is also referred to herein as the user. In a preferred embodiment, the at least part of the user 9 corresponds to one or both hands 91a, 91b.

20 Le capteur 2 permet de détecter la ou les mains 91a, 91b au sein d'un champ de captation 21 multidimensionnel. Ce champ de captation 21 peut être tout ou partie de l'espace physique tridimensionnel dans lequel se trouve l'utilisateur 9. Le capteur 2 est par exemple un capteur optique. Afin de capter des 25 mouvements bidimensionnels, le capteur comprend par exemple un élément photosensible formé de points photosensibles agencés sous forme d'une matrice bidimensionnelle. Afin de capter des mouvements tridimensionnels, et/ou des mouvements de préhension d'une main, le capteur peut comporter au moins deux éléments photosensibles chacun formés d'une 30 matrice bidimensionnelle de points photosensibles. Dans la mesure où le dispositif selon l'invention vise à capter des mouvements d'un corps humain, le capteur opère avantageusement dans le domaine infrarouge, c'est-à-dire dans le domaine des longueurs d'ondes sensiblement comprises entre 750 nm et 0,1 mm. Néanmoins, le capteur pourrait également opérer 35 dans le spectre visible. À titre d'exemple non limitatif, le capteur est par 3034887 exemple le système Leap Motion®, un capteur optique de smartphone, ou tout système équipé notamment d'une ou de plusieurs caméras. Le dispositif de l'invention comprend un système de traitement 5 informatique 3. Ce système de traitement informatique 3 permet notamment de recueillir des données détectées par le capteur 2. Dans le mode de mise en oeuvre ici décrit, ces données correspondent à des gestes manuels de l'utilisateur 9.The sensor 2 makes it possible to detect the hand or hands 91a, 91b within a multidimensional capture field 21. This capture field 21 may be all or part of the three-dimensional physical space in which the user 9 is located. The sensor 2 is for example an optical sensor. In order to capture two-dimensional motions, the sensor comprises for example a photosensitive element formed of photosensitive points arranged in the form of a two-dimensional matrix. In order to capture three-dimensional movements, and / or gripping movements of a hand, the sensor may comprise at least two photosensitive elements each formed of a two-dimensional matrix of photosensitive dots. Insofar as the device according to the invention aims to capture movements of a human body, the sensor advantageously operates in the infrared range, that is to say in the wavelength range substantially between 750 nm. and 0.1 mm. Nevertheless, the sensor could also operate in the visible spectrum. By way of non-limiting example, the sensor is, for example, the Leap Motion® system, a smartphone optical sensor, or any system equipped in particular with one or more cameras. The device of the invention comprises a computer processing system 3. This computer processing system 3 notably makes it possible to collect data detected by the sensor 2. In the embodiment described here, these data correspond to manual gestures. of the user 9.

10 Le recueil des données détectées par le capteur 2 est réalisé par un module de gestion des données gestuelles 31 du système de traitement informatique 3. Ce module 31 permet de générer des données gestuelles 311 à partir des données détectées par le capteur 2, en l'occurrence des positions 15 successives de l'une ou des deux mains 91a, 91b de l'utilisateur 9. Comme illustré en FIGURE 1, le système de traitement informatique 3 peut être agencé pour : - comparer les données gestuelles générées 311 avec une ou 20 plusieurs séries de données gestuelles de référence 351, 352, 353, 354 stockées dans une bibliothèque 35, et - générer des données de commande en fonction du résultat de la comparaison. La comparaison des données gestuelles générées 311 avec des séries 25 de données gestuelles de référence 351, 352, 353, 354 permet d'identifier des types de mouvement réalisés par l'utilisateur 9. Prenons l'exemple d'une série de données gestuelles de référence 351 correspondant à un geste d'une main 91a occupant successivement deux positions A, B distinctes dans le champ de captation 21, ce geste 30 correspondant par exemple à un déplacement linéaire vertical de la main 91a du bas vers le haut relativement au corps de l'utilisateur 9 placé en position neutre (par exemple en station debout). Dans un tel exemple, le capteur 2 détecte la main 91a dans une première position A à un instant TA puis dans une deuxième position B à un instant TB, l'instant TB étant 35 postérieur à l'instant TA, et le module 31 génère des données gestuelles 3034887 - 12 - 311 traduisant ce mouvement. Ces données gestuelles 311 sont alors comparées par le système de traitement informatique 3 aux séries de données gestuelles de référence 351, 352, 353, 354. Dans cet exemple, le système de traitement informatique 3 associe alors les données gestuelles 5 311 à la série de données gestuelles de référence 351, et génère des données de commande aptes à être utilisées par d'autres modules 33, 34 décrits ci-dessous afin de commander une ou plusieurs actions associées à un tel geste (par exemple, augmentation de l'intensité sonore d'un signal audio 321).The collection of the data detected by the sensor 2 is carried out by a gesture data management module 31 of the computer processing system 3. This module 31 makes it possible to generate gestural data 311 from the data detected by the sensor 2, in accordance with FIG. occurrence of successive positions of one or both hands 91a, 91b of the user 9. As illustrated in FIGURE 1, the computer processing system 3 can be arranged to: - compare the generated gestural data 311 with one or 20 sets of reference gesture data 351, 352, 353, 354 stored in a library 35, and - generating control data according to the result of the comparison. The comparison of the gestural data generated 311 with reference gesture data series 351, 352, 353, 354 makes it possible to identify types of movement made by the user 9. Let us take the example of a series of gestural data of reference 351 corresponding to a gesture of a hand 91a successively occupying two distinct positions A, B in the capture field 21, this gesture corresponding for example to a vertical linear movement of the hand 91a from bottom to top relative to the body of the user 9 placed in a neutral position (for example while standing). In such an example, the sensor 2 detects the hand 91a in a first position A at a time TA and then in a second position B at a time TB, the instant TB being later than the instant TA, and the module 31 generates gesture data 3034887 - 12 - 311 translating this movement. This gestural data 311 is then compared by the computer processing system 3 to the reference data series 351, 352, 353, 354. In this example, the computer processing system 3 then associates the gestural data 311 to the series of data. reference gesture data 351, and generates control data that can be used by other modules 33, 34 described below to control one or more actions associated with such a gesture (for example, increasing the loudness an audio signal 321).

10 Le système de traitement informatique 3 comprend aussi un module de gestion de données audio 32 agencé pour générer en continu un signal audio d'arrivée 321 à partir du signal audio d'origine 11 extrait progressivement du fichier audio ou audio-vidéo 1.The computer processing system 3 also includes an audio data management module 32 arranged to continuously generate an incoming audio signal 321 from the original audio signal 11 progressively extracted from the audio or audio-video file 1.

15 Pour ce faire, dans l'exemple de la FIGURE 1, le module de gestion de données audio 32 est agencé pour : - réaliser une opération de lecture dans laquelle on extrait progressivement le signal audio d'origine 11 du fichier audio ou audio-vidéo 1 en fonction de paramètres de lecture, 20 - stocker dans une mémoire tampon 36 un signal audio de travail 361 correspondant au signal audio d'origine extrait au fur et à mesure de l'opération de lecture, - générer en continu le signal audio d'arrivée 321 à partir du signal audio de travail 361.To do this, in the example of FIG. 1, the audio data management module 32 is arranged to: perform a read operation in which the original audio signal 11 is extracted progressively from the audio or audio file; video 1 as a function of reading parameters, 20 - storing in a buffer 36 a working audio signal 361 corresponding to the original audio signal extracted as the reading operation proceeds, - continuously generating the audio signal of arrival 321 from the working audio signal 361.

25 Le stockage du signal audio de travail 361 dans une mémoire tampon 36 ne signifie aucunement que l'on doive réaliser une pré-lecture du fichier audio ou audio-vidéo 1 pour appliquer des paramètres de lecture ou tout autre type de traitement de signal, y compris une opération d'étirement temporel (voir plus loin).The storage of the working audio signal 361 in a buffer memory 36 does not mean that it is necessary to perform a pre-reading of the audio or audio-video file 1 to apply reading parameters or any other type of signal processing, including a time stretching operation (see below).

30 La mémoire tampon 36 peut simplement consister en tout support apte à véhiculer des informations numériques ou de signal, lequel est susceptible d'engendrer un retard entre la lecture du fichier audio ou audiovidéo, et la reproduction du signal audio d'arrivée. En outre, le signal audio de travail 361 peut consister en une partie 35 tronquée ou partielle du signal audio d'origine 11 extrait. 3034887 - 13 - De préférence, le capteur 2 et le module de gestion de données gestuelles 31 sont agencés pour générer des données gestuelles : - à partir d'un degré de fermeture de l'au moins une main 91a, 91b, 5 et/ou - à partir d'un degré d'inclinaison de l'au moins une main 91a, 91b. Le système de traitement informatique 3 peut aussi comprendre un module de gestion de paramètres de lecture 33 agencé pour modifier au 10 moins l'un des paramètres de lecture suivants (de préférence tous) en fonction des données gestuelles ou de commande : - un mode de lecture pouvant prendre un état « actif » dans lequel l'opération de lecture est mise en oeuvre et un état « inactif » dans lequel l'opération de lecture n'est pas mise en oeuvre, 15 - une vitesse de lecture, la vitesse de lecture étant la vitesse d'extraction du signal audio d'origine 11 au cours de l'opération de lecture. Comme illustré en FIGURE 1, le système de traitement informatique 3 20 comprend en outre un module de traitement de signal 34 agencé pour appliquer des effets sonores au signal audio d'arrivée 321 ou de travail en fonction des données gestuelles ou de commande. Par distinction avec le module de gestion de paramètres de lecture 33, le module de traitement de signal 34 agit sur le signal audio 25 d'arrivée 321 ou de travail et non simplement sur la lecture du signal audio d'origine 11. Un tel dispositif permet d'associer, à chaque type de geste effectué par l'utilisateur 9, notamment par déplacement de l'une ou de ses deux 30 mains 91a, 91b, une ou plusieurs actions de lecture du signal audio d'origine 11 et/ou de traitement du signal audio d'arrivée 321 ou de travail. Plusieurs types d'association non limitatifs sont décrits ci-dessous en exemple. 3034887 - 14 - Dans un premier type d'association, l'intensité sonore du signal audio d'arrivée 321 est modifiée lorsque les données gestuelles générées 311 traduisent un déplacement de l'au moins une partie dudit corps humain 9 entre deux positions successives situées dans un plan vertical du champ de 5 captation 21, le plan vertical comprenant de préférence le vecteur de gravité terrestre. De préférence, dans ce premier type d'association, l'intensité sonore du signal audio d'arrivée 321 est augmentée lorsqu'une première position parmi lesdites au moins deux positions successives est située à une altitude 10 inférieure à une deuxième position (cet exemple correspond à l'exemple déjà décrit plus haut), et l'intensité sonore du signal audio d'arrivée 321 est diminuée lorsque la première position est située à une altitude supérieure à la deuxième position. Dans un mode de réalisation, le champ de captation 21 comprend 15 trois zones distinctes séparées par deux plans horizontaux. À chaque zone est attribuée une valeur d'intensité sonore ou une valeur d'atténuation de l'intensité sonore par rapport à une intensité sonore de référence. Par exemple, l'intensité sonore est atténuée de 3 dB dans une première zone inférieure, de 0 dB dans une deuxième zone intermédiaire et est augmentée 20 de 3 dB dans une troisième zone supérieure. La modification de l'intensité sonore peut comprendre un effet de fondu, dans lequel l'intensité sonore passe progressivement d'une première valeur d'intensité sonore à une deuxième valeur d'intensité sonore. De préférence, lors d'une telle modification de l'intensité sonore, le mode de 25 lecture reste dans l'état « actif ». De préférence, la modification de l'intensité sonore comprend un traitement d'égalisation en fréquence. De préférence, plus l'intensité sonore est faible, moins le champ (ou spectre) des fréquences de l'égalisation est large.The buffer memory 36 may simply consist of any medium capable of carrying digital or signal information, which is likely to cause a delay between the reading of the audio or audio file, and the reproduction of the incoming audio signal. In addition, the working audio signal 361 may consist of a truncated or partial portion of the original audio signal 11 being extracted. Preferably, the sensor 2 and the gesture data management module 31 are arranged to generate gestural data: from a degree of closure of the at least one hand 91a, 91b, 5 and / or or - from a degree of inclination of the at least one hand 91a, 91b. The computer processing system 3 may also include a read parameter management module 33 arranged to modify at least one of the following reading parameters (preferably all) as a function of the gesture or control data: read that can take an "active" state in which the read operation is implemented and an "inactive" state in which the read operation is not implemented, - a read speed, the speed of reading is the speed of extraction of the original audio signal 11 during the read operation. As illustrated in FIGURE 1, the computer processing system 3 further comprises a signal processing module 34 arranged to apply sound effects to the incoming audio signal 321 or work according to the gesture or control data. In distinction with the read parameter management module 33, the signal processing module 34 acts on the incoming audio signal 321 or the work signal and not simply on the reading of the original audio signal 11. Such a device associates, with each type of gesture performed by the user 9, in particular by moving one or both of his hands 91a, 91b, one or more read actions of the original audio signal 11 and / or processing the incoming audio signal 321 or work. Several types of nonlimiting association are described below as examples. In a first type of association, the sound intensity of the incoming audio signal 321 is modified when the generated gestural data 311 translate a displacement of the at least part of said human body 9 between two successive positions located in a vertical plane of the capture field 21, the vertical plane preferably comprising the earth gravity vector. Preferably, in this first type of association, the sound intensity of the incoming audio signal 321 is increased when a first position among said at least two successive positions is situated at an altitude lower than a second position (this example corresponds to the example already described above), and the sound intensity of the incoming audio signal 321 is decreased when the first position is located at an altitude greater than the second position. In one embodiment, the capture field 21 comprises three distinct areas separated by two horizontal planes. Each zone is assigned a sound intensity value or a sound intensity attenuation value with respect to a reference sound intensity. For example, the loudness is attenuated by 3 dB in a first lower zone, 0 dB in a second intermediate zone and is increased by 3 dB in a third upper zone. The change in loudness may include a fading effect, wherein the sound intensity progressively changes from a first loudness value to a second loudness value. Preferably, during such a change in loudness, the playback mode remains in the "active" state. Preferably, the change in loudness includes frequency equalization processing. Preferably, the lower the sound intensity, the less the field (or spectrum) of the frequencies of the equalization is wide.

30 Dans un deuxième type d'association, l'intensité sonore passe progressivement de la première valeur d'intensité sonore à la deuxième valeur d'intensité sonore lorsque les données gestuelles générées 311 traduisent un mouvement de supination ou de pronation de la main. 3034887 - 15 - De préférence, la deuxième valeur est inférieure à la première valeur lorsque les données gestuelles générées 311 traduisent un mouvement de supination de la main. La première valeur est par exemple de 100% en fin de mouvement de pronation (par exemple, paume orientée vers le bas), et 5 la deuxième valeur de 0% en fin de mouvement de supination (par exemple, paume orientée vers le haut). Dans le cadre du deuxième type d'association, la modification de l'intensité sonore s'accompagne de préférence d'un traitement de réverbération à queue courte et d'intensité modérée.In a second type of association, the loudness gradually changes from the first loudness value to the second loudness value when the generated gestural data 311 translate a supination or pronation movement of the hand. Preferably, the second value is less than the first value when the generated gestural data 311 translate a supination movement of the hand. The first value is, for example, 100% at the end of the pronation movement (for example, palm pointing downwards), and the second value of 0% at the end of the supination movement (for example, palm facing upwards). . In the second type of association, the change in loudness is preferably accompanied by a short-tail reverberation treatment of moderate intensity.

10 Les effets sonores appliqués au signal audio d'arrivée 321 peuvent comprendre une opération d'étirement temporel au cours de laquelle : - l'opération de lecture est interrompue, - le signal audio d'arrivée 321 est généré par combinaison d'un ou 15 plusieurs échantillons du signal audio de travail 361. Dans un troisième type d'association, l'opération d'étirement temporel est réalisée pendant toute la durée où les données gestuelles générées 311 traduisent un mouvement de préhension de la main au cours 20 duquel des doigts de la main sont refermés sur la paume de la main. De préférence, l'opération d'étirement temporel comprend un traitement de synthèse granulaire. Pour ce faire, on peut, par exemple, pour perpétrer un effet de durée, générer une onde complexe établie à partir de micro-grains (ou échantillons de courte durée) extraits du fichier 25 1, modifiés et réassemblés dans un ordre différent de l'ordre dans lequel ces micro-grains sont assemblés dans le fichier 1. De préférence, l'opération d'étirement temporel comprend un traitement de réverbération, dit « à queue longue » et d'intensité maximale (on parle d'effet « humide »).The sound effects applied to the incoming audio signal 321 may include a time stretching operation during which: the read operation is interrupted; the incoming audio signal 321 is generated by combining one or 15 In a third type of association, the time stretching operation is performed during the entire time that the generated gesture data 311 translate a gripping movement of the hand during which fingers of the hand are closed on the palm of the hand. Preferably, the time stretching operation comprises granular synthesis processing. To do this, it is possible, for example, to perpetrate a duration effect, to generate a complex wave established from micro-grains (or short samples) extracted from the file 1, modified and reassembled in a different order from the first one. order in which these micro-grains are assembled in the file 1. Preferably, the temporal stretching operation comprises a reverberation treatment, called "long tail" and maximum intensity (it is called "wet" effect ").

30 Dans un quatrième type d'association, la vitesse de lecture est modifiée en fonction d'une différence entre, d'une part, un premier intervalle de temps séparant une première et une deuxième position prises par l'au moins une partie dudit corps humain 9 et, d'autre part, un 35 deuxième intervalle de temps séparant une troisième position d'une 3034887 - 16 - quatrième position successive prise par l'au moins une partie dudit corps humain 9. De préférence, la vitesse de lecture est ralentie lorsque le deuxième intervalle de temps est plus court que le premier intervalle de temps, et elle 5 est accélérée lorsque le deuxième intervalle de temps est plus long que le premier intervalle de temps. Il est à noter que le dispositif de commande réalisant des opérations en temps réel, une modification de la vitesse de lecture, autrement dit de la vitesse d'extraction du signal audio d'origine, se traduit normalement par 10 une modification de la "vitesse ressentie" à laquelle le signal audio de sortie est reproduit. Une exception notable à la correspondance entre ces deux vitesses existe en cas d'opération d'étirement temporel, où le signal audio de sortie est généré à partir du dernier échantillon de signal audio d'origine extrait, c'est-à-dire sans extraction d'un nouvel échantillon de signal.In a fourth type of association, the reading speed is changed according to a difference between, on the one hand, a first time interval separating a first and a second position taken by the at least a part of said body. 9 and secondly, a second time interval separating a third position from a fourth successive position taken by the at least a portion of said human body 9. Preferably, the reading speed is slowed when the second time interval is shorter than the first time interval, and it is accelerated when the second time interval is longer than the first time interval. It should be noted that the control device performing real-time operations, a change in the read speed, ie the extraction speed of the original audio signal, normally results in a change in the "speed". felt "at which the output audio signal is reproduced. A notable exception to the correspondence between these two speeds exists in the case of a time stretching operation, where the output audio signal is generated from the last extracted original audio signal sample, i.e. without extraction of a new signal sample.

15 Bien sûr, l'invention n'est pas limitée aux exemples qui viennent d'être décrits et de nombreux aménagements peuvent être apportés à ces exemples sans sortir du cadre de l'invention. De plus, les différentes caractéristiques, formes, variantes et modes de réalisation de l'invention 20 peuvent être associés les uns avec les autres selon diverses combinaisons dans la mesure où ils ne sont pas incompatibles ou exclusifs les uns des autres.Of course, the invention is not limited to the examples which have just been described and many adjustments can be made to these examples without departing from the scope of the invention. In addition, the various features, shapes, variants and embodiments of the invention can be associated with each other in various combinations in that they are not incompatible or exclusive of each other.

Claims

REVENDICATIONS1. A device for real-time gesture control of the reproduction of an audio signal, this device being arranged to receive an audio or audio-video file (1) encoding an original audio signal (11), this device comprising: a sensor ( 2) arranged to detect in a multidimensional capture field (21) a position of at least a portion (91a, 91b) of a human body (9), a computer processing system (3) comprising: gesture data management (31) arranged to generate gestural data (311) from successive positions of the at least part of said at least one human body (9) detected by the sensor (2), o a management module audio data arrangement arranged to continuously generate an incoming audio signal from the original audio signal progressively extracted from the audio or audio-video file, o a signal processing module (34) arranged to apply sound effects to the signal Incoming audio (321) in function we have gestural data.

2. Device according to claim 1, characterized in that the computer processing system (3) further comprises a sound pitch management module (37) arranged to maintain a sound pitch of the incoming audio signal (321) when the reading speed is changed.

3. Device according to claim 1 or 2, characterized in that the at least one part (91a, 91b) of the human body (9) is at least one hand (91a, 91b), and in that the sensor (2 ) and the gesture data management module (31) are furthermore arranged to generate gestural data from a degree of closure of the at least one hand (91a, 91b).

4. Device according to one of claims 1 to 3, characterized in that the at least a portion of the human body (9) is at least one hand (91a, 91b), and 3034887 - 18 - in that the sensor (2) and the gesture data management module (31) are further arranged to generate gestural data from a degree of inclination of the at least one hand (91a, 91b). 5

A method for real-time gesture control of reproduction of an audio signal comprising: a detection in a multidimensional capture field (21) of a position of at least a portion (91a, 91b) of a human body ( 9), a generation of gestural data (311) from successive positions of the at least a portion of said human body (9), a read operation in which an original audio signal (11) is progressively extracted from an audio or audio-video file (1) according to read parameters, a storage of a working audio signal (361) corresponding to the original audio signal extracted as the read operation proceeds , continuously generating an incoming audio signal (321) from the working audio signal (361), changing at least one of the following reading parameters according to the gesture data: reading mode that can take an "active" state in which the read operation is implemented and an "idle" state in which the read operation is not implemented, o a read speed, the read speed being the extraction speed of the original audio signal (11 ) during the read operation, an application of sound effects to the incoming audio signal (321) in accordance with the gesture data.

The method of claim 5, characterized in that the sound effects applied to the incoming audio signal (321) include a change in a loudness. 3034887 - 19 -

7. Method according to claim 6, characterized in that the sound intensity of the incoming audio signal (321) is modified when the generated gestural data (311) translate a displacement of the at least part of said human body (9). ) between two successive positions located in a vertical plane of the capture field (21).

The method of claim 7, characterized in that the sound intensity of the incoming audio signal (321) is increased when a first one of said at least two successive positions is at an altitude lower than that of a second position, and in that the sound intensity of the incoming audio signal (321) is decreased when the first position is at an altitude higher than that of the second position.

9. Method according to one of claims 6 to 8, characterized in that the modification of the loudness comprises a frequency equalization process.

10. Method according to one of claims 6 to 9, characterized in that the modification of the sound intensity comprises a fading effect in which the sound intensity passes gradually from a first sound intensity value to a second one. sound intensity value.

11. The method of claim 10, characterized in that the at least a portion of said human body (9) is a hand, and in that the sound intensity 25 passes gradually from the first sound intensity value to the second sound intensity value when the generated gestural data (311) translate a movement of supination or pronation of the hand.

12. A method according to claim 11, characterized in that the second value is less than the first value when the gesture data generated (311) translate a supination movement of the hand.

13. Method according to one of claims 10 to 12, characterized in that the modification of the sound intensity is accompanied by a reverberation treatment. 3034887 - 20 -

The method according to one of claims 5 to 13, characterized in that the sound effects applied to the incoming audio signal (321) comprise a time stretching operation during which: the read operation is interrupted the incoming audio signal (321) is generated by combining one or more samples of the working audio signal (361).

15. Method according to claim 14, characterized in that the at least part of said human body (9) is a hand, and in that the temporal stretching operation is carried out during the entire duration of the gestural data. generated (311) translate a gripping movement of the hand during which fingers of the hand are closed on the palm of the hand. 15

16. The method of claim 14 or 15, characterized in that the time stretching operation comprises a granular synthesis treatment. 20

17. Method according to one of claims 14 to 16, characterized in that the time stretching operation comprises a reverberation treatment.

18. Method according to one of claims 5 to 17, characterized in that the reading speed is changed according to a difference between, on the one hand, a first time interval separating a first and a second position taken by the at least a portion of said human body (9) and secondly a second time interval separating a third position from a fourth successive position taken by the at least a portion of said human body (9). 30

19. The method of claim 18, characterized in that the reading speed is slowed down when the second time interval is shorter than the first time interval, and in that the reading speed is accelerated when the second time interval. is longer than the first time interval.