EP3542545A1 - Improved audio headphones device - Google Patents

Improved audio headphones device

Info

Publication number
EP3542545A1
EP3542545A1 EP17808108.9A EP17808108A EP3542545A1 EP 3542545 A1 EP3542545 A1 EP 3542545A1 EP 17808108 A EP17808108 A EP 17808108A EP 3542545 A1 EP3542545 A1 EP 3542545A1
Authority
EP
European Patent Office
Prior art keywords
user
sound
environment
signals
loudspeaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP17808108.9A
Other languages
German (de)
French (fr)
Inventor
Slim ESSID
Raphael Blouet
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BLOUET, RAPHAEL
Institut Mines Telecom IMT
Original Assignee
Telecom ParisTech
Institut Mines Telecom IMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecom ParisTech, Institut Mines Telecom IMT filed Critical Telecom ParisTech
Publication of EP3542545A1 publication Critical patent/EP3542545A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1091Details not provided for in groups H04R1/1008 - H04R1/1083
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/28Transducer mountings or enclosures modified by provision of mechanical or acoustic impedances, e.g. resonator, damping means
    • H04R1/2803Transducer mountings or enclosures modified by provision of mechanical or acoustic impedances, e.g. resonator, damping means for loudspeaker transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the invention relates to a portable sound listening device.
  • This may be an audio headset with left and right headphones, or left and right hand-held headphones.
  • Noise-canceling audio headphones are known, based on a pickup by a microphone array of the user's sound environment.
  • these devices seek to build, in real time, the optimal filter to minimize the contribution of the sound environment in the sound signal perceived by the user.
  • a filter of the surrounding noise may be a function of the type of environment provided by the user himself, who can then select different modes of noise cancellation (office, outside, etc.).
  • the "outside" mode in this case provides a reinjection of the surrounding signal (but at a much lower level than without a filter, and this so as to allow the user to remain aware of its environment).
  • It can be audio headphones, configurable via a smartphone application. Speech amplification is possible in a noisy environment, where speech is usually located in front of the user.
  • the methods implemented by certain hearing aids to improve the hearing-impaired user's experience propose axes of innovation such as the improvement of the spatial selectivity (according to the direction of the eyes of the user for example) .
  • these different existing achievements do not allow:
  • the noise-canceling headphones are based on a sound-only multichannel capture of the user's environment. They seek to reduce overall its contribution to the signal perceived by the user regardless of the nature of the environment, even if it contains potentially interesting information. These devices therefore tend to isolate the user from his environment.
  • the selective headphones prototypes allow the user to configure his sound environment for example by applying equalization filters or by increasing the intelligibility of speech. These devices make it possible to improve the perception of the environment of the user but do not really make it possible to modify the broadcasted content according to the state of the user or the classes of sounds present in the environment. In this configuration, the user listening to music with a loud volume is always isolated from his environment and the need a device allowing the user to capture the relevant information in his environment is always present.
  • the headphones and interactive earphones can be equipped with sensors to load and broadcast content associated with a place (as part of a tourist visit for example) or an activity (game, sports training). If some devices even have inertial or physiological sensors to monitor the activity of the user and if the dissemination of certain content may then depend on the results of the analysis of the signals from these sensors, the content broadcast does not result from an automatic generation process taking into account the analysis of the sound scene surrounding the user and do not automatically select the components of this environment relevant to the user. Furthermore, the operating modes are static, and do not automatically follow the evolution over time of the sound environment, and even less other evolutionary parameters such as a physiological state for example of the user.
  • the present invention improves the situation. It proposes for this purpose a method implemented by computer means, data processing for a sound reproduction on a sound reproduction device, headset or earphones, portable by a user in an environment, the device comprising:
  • the processing circuit comprising:
  • an input interface for receiving signals from at least the microphone
  • a processing unit for reading at least one audio content to be reproduced on the loudspeaker, and an output interface for delivering at least audio signals to be reproduced by the loudspeaker.
  • processing unit is further arranged to implement the steps:
  • the device comprises a plurality of microphones and the analysis of the signals from the microphones further comprises a sound source separation process in the environment applied to the signals from the microphones.
  • the selected sound can be:
  • the device comprises at least two loudspeakers and the reproduction of the signals on the loudspeakers applies a 3D sound effect
  • a sound source position detected in the environment and emitting a selected sound, can be taken into account. to apply a sound spatialization effect of the source in the mix.
  • the device may further comprise a connection to a human-machine interface available to a user for entering preferences for selecting sounds from the environment (in the general sense, as will be seen below) and the criterion The user preference is then determined by learning a history of preferences entered by the user and stored in memory.
  • the device may further comprise a connection to a database of user preferences and the user preference criterion is then determined by analyzing the content of said database.
  • the device may further include a connection to one or more state sensors of a user of the device, such that the user preference criterion takes into account a current state of the user, thereby contributing to a definition. of the "environment" of the user, in the general sense.
  • the device may comprise a connection to a mobile terminal available to the user of the device, this terminal advantageously comprising one or more state sensors of the user.
  • the processing unit may be further arranged to select a content to be read from among a plurality of contents, depending on the state of the user.
  • the predetermined target sound classes may include at least speech sounds whose voiceprints are pre-recorded.
  • step a) may optionally include at least one of the following operations:
  • 'interest for the user of the device extracting parameters specific to these sources of interest with a view to a subsequent rendering of the sounds picked up and coming from these sources of interest in a spatialized audio mix;
  • a classification system for example by deep neural networks
  • known sound classes speech, music, noise, etc.
  • possible identification by d other techniques for classifying the sound stage for example, sound recognition of a desk, an outdoor street, transportation, etc.
  • step c) may optionally include at least one of the following operations:
  • temporal filtering for example Wiener filtering, and / or Duet algorithm
  • spectral filtering and / or spatial filtering for example Wiener filtering, and / or Duet algorithm
  • HRTF Head Related Transfer Functions
  • the present invention also relates to a computer program comprising instructions for implementing the above method, when this program is executed by a processor.
  • the invention also relates to a sound reproduction device, of the headset or earphone type, portable by a user in an environment, the device comprising:
  • the processing circuit comprising:
  • an input interface for receiving signals from at least the microphone, a processing unit for reading at least one audio content to be reproduced on the loudspeaker, and
  • an output interface for delivering at least audio signals to be reproduced by the loudspeaker.
  • the processing unit is further arranged for:
  • the invention thus proposes a system including an intelligent audio device, integrating for example a network of sensors, at least one loudspeaker and a terminal (e.g. smartphoned).
  • a terminal e.g. smartphoned.
  • the originality of this system is to be able to automatically generate, in real time, the "optimal soundtrack" of the user, that is to say the multimedia content best suited to its environment and its state clean.
  • the user's own state can be defined by: i) a set of preferences (type of music, sound classes of interest, etc.); (ii) his activity (rest, office, sports training, etc.); iii) its physiological states (stress, fatigue, stress, etc.) and / or socio-emotional states (personality, mood, emotions, etc.).
  • the multimedia content generated may comprise a main audio content (to be broadcast in the headset) and possibly secondary multimedia contents (texts, images, video) that can be broadcast via the smartphoned terminal.
  • the different content elements include both the elements of the user's content base (music, video, etc., hosted on the terminal or in the cloud), the result of captures made by a sensor network that includes the system and synthetic elements generated by the system (notifications, "jingles” sound or text, noise comfort, etc.).
  • the system can automatically analyze the user's environment and predict the components potentially of interest to the user in order to restore them in an increased and controlled manner, superimposing them optimally on the contents consumed by the user (typical the music he listens to).
  • state-of-the-art devices do not make it possible to automatically identify each class of sound present in the user's environment in order to associate with each of them a treatment that meets the expectations of the user. the user (for example a highlighting of a sound, or on the contrary a reduction, the generation of an alert), according to its identification in the environment.
  • the state of the art does not use analysis of the sound stage, nor the state of the user or his activity to calculate the sound reproduction.
  • FIG. 1 illustrates a device according to the invention, in a first embodiment
  • FIG. 2 illustrates a device according to the invention, in a second embodiment, here connected to a mobile terminal
  • FIG. 3 illustrates the steps of a method according to one embodiment of the invention
  • FIG. 4 specifies steps of the method of FIG. 3, according to a particular embodiment.
  • a sound reproduction device DIS (of the headset or earpiece type), worn for example by a user in an environment ENV, comprises at least:
  • one (or two, in the example represented) speakers HP at least one sensor, for example a microphone MIC (or a row of microphones in the example shown to capture a directivity sounds from the environment) and - a connection to a processing circuit.
  • a microphone MIC or a row of microphones in the example shown to capture a directivity sounds from the environment
  • the processing circuit can be integrated directly into the headphones and housed in a loudspeaker enclosure (as illustrated in FIG. 1), or can, in the variant illustrated in FIG. 2, be implemented in a TER terminal of the user, by example a smartphone-type mobile terminal, or be distributed between several terminals of the user (a smartphone, and a connected object possibly including other sensors).
  • the connection between the headset (or headsets) and the dedicated processing circuit of the terminal is performed by a USB connection or short-range radio frequency (for example by Bluetooth or other) and the headset (or headsets) is equipped with a transmitter / receiver BT1, communicating with a transceiver BT2 that includes the terminal TER.
  • a hybrid solution in which the processing circuit is distributed between the speaker of the headset and a terminal is also possible.
  • the processing circuit comprises:
  • an input interface IN for receiving signals coming from at least the microphone MIC, a processing unit typically comprising a processor PROC and a memory MEM, for interpreting, with respect to the environment ENV, the signals coming from the microphone by learning (for example by classification, or by "matching" type "finger printing” for example),
  • an output interface OUT for delivering at least audio signals that are functions of the environment and to be reproduced by the loudspeaker.
  • the memory MEM can store instructions of a computer program within the meaning of the present invention, and possibly temporary data (calculation or otherwise), as well as durable data, such as the user's preferences, or even model definition data or other, as will be discussed later.
  • the input interface IN is, in a sophisticated embodiment, connected to a network of microphones, as well as to an inertial sensor (provided on the headphones or in the terminal) and the definition of user preferences.
  • the user preference data may be stored locally in the MEM memory, as indicated above. As a variant, they can be stored, possibly with other data, in a remote database DB accessible via a communication via a local or extended NW network.
  • An LP communication module with such a network suitable for this purpose can be provided in the headset or in the TER terminal.
  • a man / machine interface can allow the user to define and update his preferences.
  • the man / machine interface can simply correspond to a touch screen of the smartphone TER for example. Otherwise, it can be provided such an interface directly on the headset.
  • additional sensors in the TER terminal to enrich the definition of the environment of the user, in the general sense.
  • additional sensors may be physiological sensors specific to the user (measurement of electroencephalogram, heart rate measurement, pedometer, etc.) or any other sensor to improve the knowledge of the environment / current state of the user.
  • this definition can directly include the notification by the user himself of his activity, his own condition and his environment.
  • the definition of the environment can take into account:
  • Metadata for example the genre, the listening occurrences per piece
  • metadata may also be associated; - Moreover, the browsing history and applications of his smartphone; the history of its consumption of streaming content (via a service provider) or locally;
  • the input interface may, in the general sense, be connected to a set of sensors, and also include connection modules (including the LP interface) for characterizing the user's environment, but also habits and preferences (history of content consumption, streaming activities and / or social networks).
  • connection modules including the LP interface
  • habits and preferences history of content consumption, streaming activities and / or social networks.
  • multimedia output is implemented by automatic extraction, via signal processing and artificial intelligence modules, in particular machine learning modules (represented by step S7 in FIG. important for creating the output media stream.
  • PI, P2, ... in the figures can typically be environment parameters which must be taken into account for the reproduction on loudspeakers. For example, if a sound picked up in the environment is identified as a speech signal to be played back:
  • a first set of parameters may be coefficients of an optimal filter (Wiener filter type) making it possible to enhance the speech signal to increase its intelligibility;
  • a second parameter is the directivity of the sound captured in the environment and to be rendered for example by means of a binaural rendering (rendering technique using transfer functions of HRTF type);
  • the processing unit requests the input interface to collect the signals from the microphone or microphone array MIC that the DIS carries.
  • sensors in the terminal TER in step S2, or elsewhere in step S3 (connected heart rate sensors, EEG, etc.), can communicate their signals to the processing unit.
  • information data other than captured signals can be transmitted. by the memory MEM and / or by the database BD to the processing unit.
  • step S4 all these data and signals specific to the environment and the state of the user (hereinafter referred to generically as "environment”) are collected and interpreted by the implementation, at the step S7, a computer module for decoding the environment by artificial intelligence.
  • this decoding module can use a learning base which can, for example, be remote and requested in step S8 via the network NW (and the communication interface LP), in order to extract parameters relevant PI, P2, P3, at step S9 which model the environment in general.
  • the sound scene to be rendered is generated in step S 10 and transmitted in the form of audio signals to the loudspeakers HP at step SU.
  • This sound scene may possibly be accompanied by graphic information, for example metadata, to be displayed on the screen of the terminal TER in step S12.
  • an analysis of the environmental signals is carried out, with: an identification of the environment with a view to estimating prediction models making it possible to characterize the user's environment and his or her own state (these models being used with a recommendation engine as will be seen below with reference to the figure 4), and
  • a fine acoustic analysis to generate more precise parameters and used to manipulate the audio content to be restored (separation / enhancement of particular sound sources, sound effects, mixing, spatialization, or other).
  • the identification of the environment makes it possible to characterize, by automatic learning, the environment / state pair of the user. It is mainly:
  • the classes of its target may be defined, one by one, by the user via his terminal or by using predefined operating modes;
  • the fine acoustic analysis makes it possible to calculate the acoustic parameters which are used for the audio reproduction (for example in 3D restitution).
  • a recommendation engine is used to receive the descriptors of the "environment", in particular the classes of identified sound events (parameters PI, P2, etc.). , and provide on this basis a recommendation model (or a combination of models) at step S 19.
  • the recommendation engine may use the characterization of the user's contents and their similarity to external contents as well as user preferences, which have been recorded in a learning base in step S 15, and / or the standard preferences of other users in step S18.
  • the user can also intervene at this step with his terminal to enter a preference at step S24, for example with respect to a content or a list of contents. to play.
  • a recommendation model is chosen that is relevant to the environment and the state of the user (for example, in the group of rhythmic music, in a situation of movement of the apparently user in a gym).
  • a composition engine is then implemented in step S20, which combines the parameters PI, P2 ..., with the recommendation model, to develop a composition program in step S21. This is a routine that suggests for example:
  • composition engine To mix to the content, according to a sound level and a spatial rendering (3D audio) that has been defined by the composition engine.
  • the synthesis engine strictly speaking, of the audible signal intervenes in step S22, to elaborate the signals to be restored to the steps SI 1 and S 12, from:
  • step S25 (as a substep of step S6), of course, one of the contents having been selected in step S21 by the composition engine,
  • the stream generated is adapted to the expectations of the user and optimized according to the context of its distribution, according to three main steps in a particular embodiment:
  • the generated multimedia stream includes at least audio signals but potentially textual, haptic and / or visual notifications.
  • the audio signals include a mix:
  • a content selected in the user's content database music, video, etc.
  • entered as a preference by the user in step S24 or recommended directly by the recommendation engine according to the state of the user and the environment
  • sounds picked up by the MIC sensor network selected in the sound environment (thus filtered), enhanced (for example by source separation techniques) and processed so that they are of frequency texture, intensity and spatialisation, adjusted to be injected into the mix in a timely fashion, and
  • the recommendation engine is based on:
  • the models are updated continuously over time to adapt to the evolution of the user.
  • composition engine plans The composition engine plans:
  • the time at which each piece of content must be played including the order in which the user's contents are presented (for example, the order of the music in a playlist), and the external moments or sounds or the notifications are broadcast: in real time or delayed (for example between two pieces of a playlist) so as not to disturb the listening or the current activity of the user at an inconvenient time;
  • Planning is based on templates and rules built from decoding the user's environment and their own state. For example, the spatial position of a sound event captured by the pickups and the gain level associated with it depend on the result of the sound source localization detection performed by the decoding of the environment in step S7 of the figure 3.
  • the synthesis engine is based on signal processing techniques, natural languages and images, respectively for the synthesis of audio, textual and visual outputs (images or videos), and jointly for the generation of multimedia outputs, for example video.
  • the synthesis is first performed locally on short time windows and the signal is reconstructed by addition-overlap before being transmitted to at least two speakers (one for each ear).
  • Different gains (power levels) and audio effects are applied to the different content elements as provided by the composition engine.
  • the processing applied by windows may include a filtering (for example of Wiener) making it possible to enhance, from one or more of the audio streams captured, a particular sound source (as provided by the composition engine).
  • the processing may include 3D audio rendering, possibly using HRTF filtering techniques (HRTF transfer functions for "Head Related Transfer Functions").
  • the description of the environment of the user is limited to his sound environment; the user's own state is limited to his preferences: class of his target, notifications he wishes to receive, these preferences being defined by the user using his terminal; the device (possibly in cooperation with the terminal) is equipped with inertial sensors (accelerometer, gyroscope and magnetometer); playback parameters are automatically changed when a target sound class is detected in the user's environment; - messages of short duration can be recorded; notifications can be sent to the user to warn him of the detection of an event of interest.
  • inertial sensors accelerelerometer, gyroscope and magnetometer
  • the captured signals are analyzed to determine:
  • a set of sensors including a network of microphones, a video camera, a pedometer, inertial sensors (accelerometers, gyroscopes, magnetometers), physiological sensors can capture the visual and sound environment of the user (microphones and camera), the data characterizing his movement (inertial sensors, pedometer) and his physiological parameters (EEG, ECG, EMG, electrodermal) as well as all the contents he is consulting (music , radio broadcasts, videos, browsing history and applications of his smartphone).
  • inertial sensors accelerometers, gyroscopes, magnetometers
  • physiological sensors can capture the visual and sound environment of the user (microphones and camera), the data characterizing his movement (inertial sensors, pedometer) and his physiological parameters (EEG, ECG, EMG, electrodermal) as well as all the contents he is consulting (music , radio broadcasts, videos, browsing history and applications of his smartphone).
  • a musical stream adapted to the environment and to the user's own state can be generated (for example a playlist of which each piece is selected according to its musical tastes, its stride and its state of fatigue). While all sound sources are canceled in the user's headset, the voice of a coach ("coach") near the user, when it is identified (voice record previously recorded), is mixed at stream and rendered spatially using binaural rendering techniques (by HRTF for example).

Abstract

The invention relates to a data processing for sound reproduction on a sound reproduction device (DIS), of the headphones or earpiece type, that can be worn by a user in an environment (ENV). The device comprises at least one loudspeaker (HP), at least one microphone (MIC) and a connection to a processing circuit comprising: - an input interface (IN) for receiving signals from at least the microphone, - a processing unit (PROC, MEM) for reading at least an audio content to be reproduced on the loudspeaker, and - an output interface (OUT) for delivering at least the audio signals to be reproduced by the loudspeaker. The processing unit is designed for: a) analysing signals coming from the microphone in order to identify sounds emitted by the environment and corresponding to predetermined target sound classes, b) selecting at least one sound identified according to a user preference criterion, and c) constructing said audio signals to be reproduced by the loudspeaker, by a mix chosen between the audio content and the selected sound.

Description

Dispositif à casque audio, perfectionné  Advanced headphone device
L'invention est relative à un dispositif portable d'écoute sonore. Il peut s'agir d'un casque audio avec des écouteurs gauche et droit, ou encore d'oreillettes portatives gauche et droite. The invention relates to a portable sound listening device. This may be an audio headset with left and right headphones, or left and right hand-held headphones.
On connaît des casques d'écoute audio antibruit, basés sur une captation par un réseau de microphones de l'environnement sonore de l'utilisateur. De manière générale, ces dispositifs cherchent à construire, en temps réel, le filtre optimal permettant de réduire au maximum la contribution de l'environnement sonore dans le signal sonore perçu par l'utilisateur. Il a été proposé récemment un filtre du bruit environnant qui peut être fonction du type d'environnement renseigné par l'utilisateur lui-même, lequel peut alors sélectionner différents modes d'annulation du bruit (bureau, extérieur, etc.). Le mode « extérieur » dans ce cas prévoit une réinjection du signal environnant (mais à un niveau beaucoup plus faible que sans filtre, et ce de manière à permettre à l'utilisateur de rester conscient de son environnement). Noise-canceling audio headphones are known, based on a pickup by a microphone array of the user's sound environment. In general, these devices seek to build, in real time, the optimal filter to minimize the contribution of the sound environment in the sound signal perceived by the user. It has recently been proposed a filter of the surrounding noise that may be a function of the type of environment provided by the user himself, who can then select different modes of noise cancellation (office, outside, etc.). The "outside" mode in this case provides a reinjection of the surrounding signal (but at a much lower level than without a filter, and this so as to allow the user to remain aware of its environment).
On connaît aussi des casques audio et oreillettes, sélectifs, permettant une écoute personnalisée de l'environnement. Apparus récemment, ces produits permettent de modifier la perception de l'environnement selon deux axes : We also know headphones audio and earphones, selective, allowing a personalized listening of the environment. Recently introduced, these products make it possible to modify the perception of the environment according to two axes:
- l'augmentation de la perception (intelligibilité de la parole), et  - the increase in perception (intelligibility of the speech), and
- la protection de l'appareil auditif en environnement bruité.  - protection of the hearing aid in a noisy environment.
Il peut s'agir d'écouteurs audio, paramétrables via une application sur smartphone. L'amplification de la parole est possible dans un environnement bruité, la parole étant généralement localisée devant l'utilisateur.  It can be audio headphones, configurable via a smartphone application. Speech amplification is possible in a noisy environment, where speech is usually located in front of the user.
Il peut s'agir aussi d'écouteurs audio connectés à un smartphone, permettant à l'utilisateur de configurer sa perception de l'environnement sonore : ajuster le volume, ajouter un équaliseur ou des effets sonores. On peut citer aussi les casques et écouteurs interactifs, pour de la réalité augmentée, permettant d'enrichir l'environnement sonore (jeu, reconstitution historique) ou d'accompagner une activité de l'utilisateur (coach virtuel). Enfin, les procédés mis en œuvre par certaines prothèses auditives pour améliorer l'expérience de l'utilisateur mal entendant proposent des axes d'innovation tels que l'amélioration de la sélectivité spatiale (suivant la direction des yeux de l'utilisateur par exemple). Toutefois, ces différentes réalisations existantes ne permettent pas : It can also be audio headphones connected to a smartphone, allowing the user to configure his perception of the sound environment: adjust the volume, add an equalizer or sound effects. We can also mention the interactive headphones and headphones, for augmented reality, to enrich the sound environment (game, pageant) or to support a user activity (virtual coach). Finally, the methods implemented by certain hearing aids to improve the hearing-impaired user's experience propose axes of innovation such as the improvement of the spatial selectivity (according to the direction of the eyes of the user for example) . However, these different existing achievements do not allow:
d'analyser et interpréter l'activité de l'utilisateur, ni les contenus qu'il consomme, ni l'environnement (notamment la scène sonore) dans lequel il est immergé ;  to analyze and interpret the activity of the user, neither the contents that he consumes, nor the environment (notably the sound stage) in which he is immersed;
de modifier automatiquement le rendu audio en fonction du résultat de ces analyses.  to automatically modify the audio rendering according to the result of these analyzes.
Typiquement, les casques anti-bruit sont basés sur une captation multicanal exclusivement sonore de l'environnement de l'utilisateur. Ils cherchent à réduire de manière globale sa contribution dans le signal perçu par l'utilisateur indépendamment de la nature de l'environnement, et ce même s'il contient des informations potentiellement intéressantes. Ces dispositifs tendent donc à isoler l'utilisateur de son environnement. Typically, the noise-canceling headphones are based on a sound-only multichannel capture of the user's environment. They seek to reduce overall its contribution to the signal perceived by the user regardless of the nature of the environment, even if it contains potentially interesting information. These devices therefore tend to isolate the user from his environment.
Les prototypes de casque audio sélectifs permettent à l'utilisateur de configurer son environnement sonore par exemple en appliquant des filtres d'égalisation ou en augmentant l'intelligibilité de la parole. Ces dispositifs permettent d'améliorer la perception de l'environnement de l'utilisateur mais ne permettent pas de modifier réellement les contenus diffusés en fonction de l'état de l'utilisateur ou des classes de sons présentes dans l'environnement. Dans cette configuration, l'utilisateur écoutant de la musique avec un fort volume est toujours isolé de son environnement et le besoin d'un dispositif permettant à l'utilisateur de capter les informations pertinentes dans son environnement est toujours présent. The selective headphones prototypes allow the user to configure his sound environment for example by applying equalization filters or by increasing the intelligibility of speech. These devices make it possible to improve the perception of the environment of the user but do not really make it possible to modify the broadcasted content according to the state of the user or the classes of sounds present in the environment. In this configuration, the user listening to music with a loud volume is always isolated from his environment and the need a device allowing the user to capture the relevant information in his environment is always present.
Certes, les casques et écouteurs interactifs peuvent être équipés de capteurs permettant de charger et de diffuser des contenus associés à un lieu (dans le cadre d'une visite touristique par exemple) ou à une activité (jeu, entraînement sportif). Si certains appareils disposent même de capteurs inertiels ou physiologiques pour surveiller l'activité de l'utilisateur et si la diffusion de certains contenus peut dépendre alors des résultats de l'analyse des signaux issus de ces capteurs, les contenus diffusés ne résultent pas d'un processus de génération automatique prenant en compte l'analyse de la scène sonore environnant l'utilisateur et ne permettent pas de sélectionner automatiquement les composantes de cet environnement pertinentes pour l'utilisateur. Par ailleurs, les modes de fonctionnement sont statiques, et ne suivent pas automatiquement l'évolution au cours du temps de l'environnement sonore, et encore moins d'autres paramètres évolutifs tels qu'un état physiologique par exemple de l'utilisateur. Certainly, the headphones and interactive earphones can be equipped with sensors to load and broadcast content associated with a place (as part of a tourist visit for example) or an activity (game, sports training). If some devices even have inertial or physiological sensors to monitor the activity of the user and if the dissemination of certain content may then depend on the results of the analysis of the signals from these sensors, the content broadcast does not result from an automatic generation process taking into account the analysis of the sound scene surrounding the user and do not automatically select the components of this environment relevant to the user. Furthermore, the operating modes are static, and do not automatically follow the evolution over time of the sound environment, and even less other evolutionary parameters such as a physiological state for example of the user.
La présente invention vient améliorer la situation. Elle propose à cet effet un procédé mis en œuvre par des moyens informatiques, de traitement de données pour une restitution sonore sur un dispositif de restitution sonore, de type casque ou oreillettes, portable par un utilisateur dans un environnement, le dispositif comportant : The present invention improves the situation. It proposes for this purpose a method implemented by computer means, data processing for a sound reproduction on a sound reproduction device, headset or earphones, portable by a user in an environment, the device comprising:
- au moins un haut-parleur,  - at least one speaker,
- au moins un microphone, - at least one microphone,
- une connexion à un circuit de traitement,  a connection to a processing circuit,
le circuit de traitement comportant : the processing circuit comprising:
- une interface d'entrée pour recevoir des signaux issus au moins du microphone, an input interface for receiving signals from at least the microphone,
- une unité de traitement pour lire au moins un contenu audio à restituer sur le haut- parleur, et - une interface de sortie pour délivrer au moins des signaux audio à restituer par le haut-parleur. a processing unit for reading at least one audio content to be reproduced on the loudspeaker, and an output interface for delivering at least audio signals to be reproduced by the loudspeaker.
En particulier, l'unité de traitement est agencée en outre pour mettre en œuvre les étapes :  In particular, the processing unit is further arranged to implement the steps:
a) analyser les signaux issus du microphone pour identifier des sons émis par l'environnement et correspondant à des classes de sons cibles, prédéterminées, b) sélectionner au moins un son identifié, selon un critère de préférence d'utilisateur, et c) construire lesdits signaux audio à restituer par le haut-parleur, par un mixage choisi entre le contenu audio et le son sélectionné. a) analyzing the signals from the microphone to identify sounds emitted by the environment and corresponding to predetermined target sound classes, b) selecting at least one identified sound, according to a user preference criterion, and c) constructing said audio signals to be reproduced by the loudspeaker, by a mix selected between the audio content and the selected sound.
Dans une forme de réalisation possible, le dispositif comporte une pluralité de microphones et l'analyse des signaux issus des microphones comporte en outre un traitement de séparation de sources sonores dans l'environnement appliqué aux signaux issus des microphones. In one possible embodiment, the device comprises a plurality of microphones and the analysis of the signals from the microphones further comprises a sound source separation process in the environment applied to the signals from the microphones.
Par exemple, à l'étape c), le son sélectionné peut être : For example, in step c), the selected sound can be:
- analysé au moins en fréquence et durée,  - analyzed at least in frequency and duration,
- rehaussé par filtrage après le traitement de séparation de sources, et mixé au contenu audio.  - enhanced by filtering after source separation processing, and mixed with audio content.
Dans une réalisation où le dispositif comporte au moins deux haut-parleurs et la restitution des signaux sur les haut-parleurs applique un effet sonore 3D, une position de source sonore, détectée dans l'environnement et émettant un son sélectionné, peut être prise en compte pour appliquer un effet de spatialisation sonore de la source dans le mixage. In an embodiment where the device comprises at least two loudspeakers and the reproduction of the signals on the loudspeakers applies a 3D sound effect, a sound source position, detected in the environment and emitting a selected sound, can be taken into account. to apply a sound spatialization effect of the source in the mix.
Dans une réalisation, le dispositif peut comporter en outre une connexion à une interface homme machine à disposition d'un utilisateur pour entrer des préférences de sélection de sons de l'environnement (au sens général, comme on le verra plus loin) et le critère de préférence d'utilisateur est alors déterminé par apprentissage d'un historique des préférences entrées par l'utilisateur et stockées en mémoire. Dans une réalisation (alternative ou complémentaire), le dispositif peut comporter en outre une connexion à une base de données de préférences d'utilisateurs et le critère de préférence d'utilisateur est déterminé alors par analyse du contenu de ladite base de données. In one embodiment, the device may further comprise a connection to a human-machine interface available to a user for entering preferences for selecting sounds from the environment (in the general sense, as will be seen below) and the criterion The user preference is then determined by learning a history of preferences entered by the user and stored in memory. In an embodiment (alternative or complementary), the device may further comprise a connection to a database of user preferences and the user preference criterion is then determined by analyzing the content of said database.
Le dispositif peut comporter en outre une connexion à un ou plusieurs capteurs d'état d'un utilisateur du dispositif, de sorte que le critère de préférence d'utilisateur tient compte d'un état courant de l'utilisateur, contribuant alors à une définition de « l'environnement » de l'utilisateur, au sens général. The device may further include a connection to one or more state sensors of a user of the device, such that the user preference criterion takes into account a current state of the user, thereby contributing to a definition. of the "environment" of the user, in the general sense.
Dans une telle réalisation, le dispositif peut comporter une connexion à un terminal mobile à disposition de l'utilisateur du dispositif, ce terminal comportant avantageusement un ou plusieurs capteurs d'état de l'utilisateur. L'unité de traitement peut être agencée en outre pour sélectionner un contenu à lire parmi une pluralité de contenus, en fonction de l'état capté de l'utilisateur. In such an embodiment, the device may comprise a connection to a mobile terminal available to the user of the device, this terminal advantageously comprising one or more state sensors of the user. The processing unit may be further arranged to select a content to be read from among a plurality of contents, depending on the state of the user.
Dans une forme de réalisation, les classes de sons cibles, prédéterminées, peuvent comporter au moins des sons de paroles, dont les empreintes vocales sont préenregistrées. In one embodiment, the predetermined target sound classes may include at least speech sounds whose voiceprints are pre-recorded.
En outre, à titre d'exemple, l'étape a) peut comporter optionnellement au moins l'une des opérations suivantes : In addition, by way of example, step a) may optionally include at least one of the following operations:
• construction et application d'un filtre dynamique pour une annulation du bruit dans les signaux issus du microphone ;  • construction and application of a dynamic filter for cancellation of noise in the signals from the microphone;
• localisation et isolation de sources sonores de l'environnement par application d'un traitement de séparation de sources appliqué à des signaux issus de plusieurs microphones, et exploitant par exemple une formation de voies (dite « beamforming »), pour identifier des sources d'intérêt (pour l'utilisateur du dispositif) extraire des paramètres propres à ces sources d'intérêt en vue d'une restitution ultérieure des sons captés et issus de ces sources d'intérêt dans un mixage audio spatialisé ; Locating and isolating sound sources from the environment by applying a source separation process applied to signals from several microphones, and for example using beamforming, to identify sources of noise. 'interest (for the user of the device) extracting parameters specific to these sources of interest with a view to a subsequent rendering of the sounds picked up and coming from these sources of interest in a spatialized audio mix;
identification des différentes classes de son correspondant aux sources (dans différentes directions spatiales) par un système de classification (par exemple par réseaux de neurones profonds) de classes de son connues (parole, musique, bruit, etc.), et possible identification par d'autres techniques de classification de la scène sonore (par exemple, reconnaissance sonore d'un bureau, d'une rue en extérieur, de transports, etc.).  identification of the different classes of sound corresponding to the sources (in different spatial directions) by a classification system (for example by deep neural networks) of known sound classes (speech, music, noise, etc.), and possible identification by d other techniques for classifying the sound stage (for example, sound recognition of a desk, an outdoor street, transportation, etc.).
En outre, à titre d'exemple, l'étape c) peut comporter optionnellement au moins l'une des opérations suivantes : In addition, by way of example, step c) may optionally include at least one of the following operations:
- filtrage temporel, filtrage spectral et/ou filtrage spatial (par exemple filtrage de Wiener, et/ou algorithme Duet), pour rehausser, à partir d'un ou plusieurs flux audio captés par une pluralité de microphones, une source sonore donnée (en se basant sur les paramètres extrait par le module de séparation de sources précité) ;  temporal filtering, spectral filtering and / or spatial filtering (for example Wiener filtering, and / or Duet algorithm), to enhance, from one or more audio streams picked up by a plurality of microphones, a given sound source (in based on the parameters extracted by the aforementioned source separation module);
- rendu audio 3D, par exemple à l'aide de techniques de filtrage HRTF (Head Related Transfer Functions).  - 3D audio rendering, for example using HRTF (Head Related Transfer Functions) filtering techniques.
La présente invention vise aussi un programme informatique comportant des instructions pour la mise en œuvre du procédé ci-avant, lorsque ce programme est exécuté par un processeur. L'invention vise aussi un dispositif de restitution sonore, de type casque ou oreillettes, portable par un utilisateur dans un environnement, le dispositif comportant : The present invention also relates to a computer program comprising instructions for implementing the above method, when this program is executed by a processor. The invention also relates to a sound reproduction device, of the headset or earphone type, portable by a user in an environment, the device comprising:
- au moins un haut-parleur,  - at least one speaker,
- au moins un microphone,  - at least one microphone,
- une connexion à un circuit de traitement,  a connection to a processing circuit,
le circuit de traitement comportant : the processing circuit comprising:
- une interface d'entrée pour recevoir des signaux issus au moins du microphone, - une unité de traitement pour lire au moins un contenu audio à restituer sur le haut- parleur, et an input interface for receiving signals from at least the microphone, a processing unit for reading at least one audio content to be reproduced on the loudspeaker, and
- une interface de sortie pour délivrer au moins des signaux audio à restituer par le haut-parleur.  an output interface for delivering at least audio signals to be reproduced by the loudspeaker.
L'unité de traitement est agencée en outre pour : The processing unit is further arranged for:
- analyser les signaux issus du microphone pour identifier des sons émis par l'environnement et correspondant à des classes de sons cibles, prédéterminées, analyzing the signals from the microphone to identify sounds emitted by the environment and corresponding to predetermined classes of target sounds,
- sélectionner au moins un son identifié, selon un critère de préférence d'utilisateur, etselecting at least one identified sound, according to a user preference criterion, and
- construire lesdits signaux audio à restituer par le haut-parleur, par un mixage choisi entre le contenu audio et le son sélectionné. - Build said audio signals to be reproduced by the speaker, by a mix selected between the audio content and the selected sound.
L'invention propose ainsi un système incluant un dispositif audio intelligent, intégrant par exemple un réseau de capteurs, au moins un haut-parleur et un terminal (e.g. smartphoné). L'originalité de ce système est d'être capable de générer automatiquement, en temps réel, la "bande son optimale" de l'utilisateur, c'est-à-dire le contenu multimédia le mieux adapté à son environnement et à son état propre. The invention thus proposes a system including an intelligent audio device, integrating for example a network of sensors, at least one loudspeaker and a terminal (e.g. smartphoned). The originality of this system is to be able to automatically generate, in real time, the "optimal soundtrack" of the user, that is to say the multimedia content best suited to its environment and its state clean.
L'état propre d'un utilisateur peut être défini par : i) un ensemble de préférences (type de musique, classes de son d'intérêt, etc.) ; ii) son activité (au repos, au bureau, en entraînement sportif, etc.) ; iii) ses états physiologiques (stress, fatigue, effort, etc.) et/ou socio-émotionnels (personnalité, humeur, émotions, etc.). The user's own state can be defined by: i) a set of preferences (type of music, sound classes of interest, etc.); (ii) his activity (rest, office, sports training, etc.); iii) its physiological states (stress, fatigue, stress, etc.) and / or socio-emotional states (personality, mood, emotions, etc.).
Le contenu multimédia généré peut comporter un contenu audio principal (à diffuser dans le casque) et éventuellement des contenus multimédias secondaires (textes, images, vidéo) qui peuvent être diffusés via le terminal de type smartphoné. The multimedia content generated may comprise a main audio content (to be broadcast in the headset) and possibly secondary multimedia contents (texts, images, video) that can be broadcast via the smartphoned terminal.
Les différents éléments de contenu regroupent à la fois les éléments de la base de contenus de l'utilisateur (musiques, vidéo, etc., hébergées sur le terminal ou dans le cloud), le résultat de captations effectuées par un réseau de capteurs que comporte le système et des éléments synthétiques générés par le système (notifications, « jingles » sonores ou textuels, bruit de confort, etc.). The different content elements include both the elements of the user's content base (music, video, etc., hosted on the terminal or in the cloud), the result of captures made by a sensor network that includes the system and synthetic elements generated by the system (notifications, "jingles" sound or text, noise comfort, etc.).
Ainsi, le système peut analyser automatiquement l'environnement de l'utilisateur et prédire les composantes potentiellement d'intérêt pour l'utilisateur afin de les restituer de manière augmentée et contrôlée, en les superposant de façon optimale aux contenus consommés par celui-ci (typiquement la musique qu'il écoute). Thus, the system can automatically analyze the user's environment and predict the components potentially of interest to the user in order to restore them in an increased and controlled manner, superimposing them optimally on the contents consumed by the user ( typically the music he listens to).
La restitution effective des contenus prend en compte la nature des contenus et des composantes extraites de l'environnement (ainsi que l'état propre de l'utilisateur dans une forme de réalisation plus sophistiquée). Le flux sonore diffusé dans le casque n'est plus issu de deux sources concurrentes : The actual rendering of the contents takes into account the nature of the contents and components extracted from the environment (as well as the user's own state in a more sophisticated embodiment). The sound flow diffused in the helmet no longer comes from two competing sources:
- une source principale (musique ou émission de radio ou autre), et - a main source (music or radio program or other), and
- une source perturbatrice (le bruit ambiant), mais d'un ensemble de flux d'informations dont les contributions relatives sont ajustées en fonction de leur pertinence. Ainsi, un message diffusé dans l'enceinte d'une gare sera restitué de manière à ce qu'il soit bien perçu par l'utilisateur alors même que celui-ci écoute de la musique à un niveau élevé, tout en réduisant le bruit ambiant non pertinent pour l'utilisateur. Cette possibilité est offerte par l'ajout d'un module de traitement intelligent intégrant notamment des algorithmes de séparation de sources et de classification de scènes sonores. L'avantage applicatif direct est d'une part de reconnecter l'utilisateur avec son environnement ou de l'avertir si une classe de sons ciblés est détectée, et d'autre part de générer automatiquement un contenu adapté à chaque instant aux attentes de l'utilisateur grâce à un moteur de recommandation prenant en charge les différents éléments de contenu, précités. - a disturbing source (ambient noise), but a set of information flows whose relative contributions are adjusted according to their relevance. Thus, a message broadcast in the enclosure of a station will be restored so that it is well perceived by the user while he listens to music at a high level, while reducing the ambient noise irrelevant for the user. This possibility is offered by the addition of an intelligent processing module including algorithms for separating sources and classification of sound scenes. The direct application advantage is, on the one hand, to reconnect the user with his environment or to warn him if a class of targeted sounds is detected, and on the other hand to automatically generate content adapted at each moment to the expectations of the user. user through a recommendation engine supporting the various content elements, supra.
Il convient de rappeler que les dispositifs de l'état de l'art ne permettent pas d'identifier automatiquement chaque classe de son présente dans l'environnement de l'utilisateur pour associer à chacune d'elle un traitement conforme aux attentes de l'utilisateur (par exemple une mise en avant d'un son, ou au contraire une réduction, la génération d'une alerte), en fonction de son identification dans l'environnement. L'état de l'art n'utilise pas d'analyse de la scène sonore, ni l'état de l'utilisateur ou son activité pour calculer le rendu sonore. It should be remembered that state-of-the-art devices do not make it possible to automatically identify each class of sound present in the user's environment in order to associate with each of them a treatment that meets the expectations of the user. the user (for example a highlighting of a sound, or on the contrary a reduction, the generation of an alert), according to its identification in the environment. The state of the art does not use analysis of the sound stage, nor the state of the user or his activity to calculate the sound reproduction.
D'autres avantages et caractéristiques de l'invention apparaîtront à la lecture de la description détaillée d'exemples de réalisation ci-après, et à l'examen des dessins annexés sur lesquels : Other advantages and characteristics of the invention will appear on reading the detailed description of examples of embodiment below and on examining the appended drawings in which:
- la figure 1 illustre un dispositif selon l'invention, dans une première forme de réalisation, FIG. 1 illustrates a device according to the invention, in a first embodiment,
- la figure 2 illustre un dispositif selon l'invention, dans une deuxième forme de réalisation, ici connecté à un terminal mobile, FIG. 2 illustrates a device according to the invention, in a second embodiment, here connected to a mobile terminal,
- la figure 3 illustre les étapes d'un procédé selon une forme de réalisation de l'invention, et - la figure 4 précise des étapes du procédé de la figure 3, selon une forme de réalisation particulière. FIG. 3 illustrates the steps of a method according to one embodiment of the invention, and FIG. 4 specifies steps of the method of FIG. 3, according to a particular embodiment.
En référence à la figure 1, un dispositif DIS de restitution sonore (de type casque ou oreillettes), porté par exemple par un utilisateur dans un environnement ENV, comporte au moins : With reference to FIG. 1, a sound reproduction device DIS (of the headset or earpiece type), worn for example by a user in an environment ENV, comprises at least:
- un (ou deux, dans l'exemple représenté) haut-parleurs HP, au moins un capteur, par exemple un microphone MIC (ou une rangée de microphones dans l'exemple représenté pour capter une directivité des sons issus de l'environnement), et - une connexion à un circuit de traitement.  one (or two, in the example represented) speakers HP, at least one sensor, for example a microphone MIC (or a row of microphones in the example shown to capture a directivity sounds from the environment) and - a connection to a processing circuit.
Le circuit de traitement peut être intégré directement au casque et être logé dans une enceinte d'un haut-parleur (comme illustré sur la figure 1), ou peut, dans la variante illustrée sur la figure 2, être implémenté dans un terminal TER de l'utilisateur, par exemple un terminal mobile de type smartphone, ou encore être distribué entre plusieurs terminaux de l'utilisateur (un smartphone, et un objet connecté comportant éventuellement d'autres capteurs). Dans cette variante, la connexion entre le casque (ou les oreillettes) et le circuit de traitement dédié du terminal s'effectue par une connexion USB ou radio fréquence courte portée (par exemple par Bluetooth ou autre) et le casque (ou les oreillettes) est équipé d'un émetteur/récepteur BT1, communiquant avec un émetteur/récepteur BT2 que comporte le terminal TER. Une solution hybride dans laquelle le circuit de traitement est distribué entre l'enceinte du casque et un terminal est également possible. The processing circuit can be integrated directly into the headphones and housed in a loudspeaker enclosure (as illustrated in FIG. 1), or can, in the variant illustrated in FIG. 2, be implemented in a TER terminal of the user, by example a smartphone-type mobile terminal, or be distributed between several terminals of the user (a smartphone, and a connected object possibly including other sensors). In this variant, the connection between the headset (or headsets) and the dedicated processing circuit of the terminal is performed by a USB connection or short-range radio frequency (for example by Bluetooth or other) and the headset (or headsets) is equipped with a transmitter / receiver BT1, communicating with a transceiver BT2 that includes the terminal TER. A hybrid solution in which the processing circuit is distributed between the speaker of the headset and a terminal is also possible.
Dans l'un ou l'autre des modes de réalisation ci-avant, le circuit de traitement comporte : In either of the embodiments above, the processing circuit comprises:
- une interface d'entrée IN, pour recevoir des signaux issus au moins du microphone MIC, une unité de traitement comportant typiquement un processeur PROC et une mémoire MEM, pour interpréter, relativement à l'environnement ENV, les signaux issus du microphone par apprentissage (par exemple par classification, ou encore par « matching » de type « finger printing » par exemple), an input interface IN, for receiving signals coming from at least the microphone MIC, a processing unit typically comprising a processor PROC and a memory MEM, for interpreting, with respect to the environment ENV, the signals coming from the microphone by learning (for example by classification, or by "matching" type "finger printing" for example),
- une interface de sortie OUT pour délivrer au moins des signaux audio fonctions de l'environnement et à restituer par le haut-parleur. an output interface OUT for delivering at least audio signals that are functions of the environment and to be reproduced by the loudspeaker.
La mémoire MEM peut stocker des instructions d'un programme informatique au sens de la présente invention, et éventuellement des données temporaires (de calcul ou autre), ainsi que des données durables, comme par exemple les préférences de l'utilisateur, ou encore des données de définition de modèles ou autres, comme on le verra plus loin. L'interface d'entrée IN est, dans une forme de réalisation sophistiquée, reliée à un réseau de microphones, ainsi qu'à un capteur inertiel (prévu sur le casque ou dans le terminal) et la définition des préférences de l'utilisateur. Les données de préférences de l'utilisateur peuvent être stockées localement dans la mémoire MEM, comme indiqué ci-dessus. En variante, elles peuvent être stockées, avec éventuellement d'autres données, dans une base de données distante DB accessible par une communication via un réseau local ou étendu NW. Un module de communication LP avec un tel réseau convenant pour cet effet peut être prévu dans le casque ou dans le terminal TER. The memory MEM can store instructions of a computer program within the meaning of the present invention, and possibly temporary data (calculation or otherwise), as well as durable data, such as the user's preferences, or even model definition data or other, as will be discussed later. The input interface IN is, in a sophisticated embodiment, connected to a network of microphones, as well as to an inertial sensor (provided on the headphones or in the terminal) and the definition of user preferences. The user preference data may be stored locally in the MEM memory, as indicated above. As a variant, they can be stored, possibly with other data, in a remote database DB accessible via a communication via a local or extended NW network. An LP communication module with such a network suitable for this purpose can be provided in the headset or in the TER terminal.
Avantageusement, une interface homme/machine peut permettre à l'utilisateur de définir et de mettre à jour ses préférences. Dans la réalisation de la figure 2 où le dispositif DIS est appairé avec le terminal TER, l'interface homme/machine peut simplement correspondre à un écran tactile du smartphone TER par exemple. Sinon, il peut être prévu une telle interface directement sur le casque. Advantageously, a man / machine interface can allow the user to define and update his preferences. In the embodiment of FIG. 2, where the device DIS is paired with the terminal TER, the man / machine interface can simply correspond to a touch screen of the smartphone TER for example. Otherwise, it can be provided such an interface directly on the headset.
Dans la réalisation de la figure 2 toutefois, il est avantageusement possible de tirer profit de la présence de capteurs supplémentaires dans le terminal TER pour enrichir la définition de l'environnement de l'utilisateur, au sens général. Ces capteurs supplémentaires peuvent être des capteurs physiologiques propres à l'utilisateur (mesure d' électroencéphalogramme, mesure du rythme cardiaque, podomètre, etc.) ou tous autres capteurs permettant d'améliorer la connaissance du couple environnement/état courant de l'utilisateur. De plus, cette définition peut inclure directement la notification par l'utilisateur lui-même de son activité, de son état propre et de son environnement. In the embodiment of FIG. 2, however, it is advantageously possible to take advantage of the presence of additional sensors in the TER terminal to enrich the definition of the environment of the user, in the general sense. These additional sensors may be physiological sensors specific to the user (measurement of electroencephalogram, heart rate measurement, pedometer, etc.) or any other sensor to improve the knowledge of the environment / current state of the user. In addition, this definition can directly include the notification by the user himself of his activity, his own condition and his environment.
La définition de l'environnement peut prendre en compte en outre :  The definition of the environment can take into account:
l'ensemble des contenus accessibles et un historique des contenus consultés (musiques, vidéos, émissions radios, etc.),  all the accessible contents and a history of the contents consulted (music, videos, radio broadcasts, etc.),
- des métadonnées (par exemple le genre, les occurrences d'écoute par morceau) associées à la librairie musicale de l'utilisateur peuvent aussi être associées ; - par ailleurs, l'historique de navigation et des applications de son smartphone ; l'historique de sa consommation de contenus en streaming (via un fournisseur de service) ou en local ; metadata (for example the genre, the listening occurrences per piece) associated with the user's music library may also be associated; - Moreover, the browsing history and applications of his smartphone; the history of its consumption of streaming content (via a service provider) or locally;
les préférences et l'activité en cours de ses connexions sur les réseaux sociaux.  preferences and current activity of its connections on social networks.
Ainsi, l'interface d'entrée peut, au sens général, être connectée à un ensemble de capteurs, et comprendre aussi des modules de connexion (notamment l'interface LP) pour la caractérisation de l'environnement de l'utilisateur, mais aussi de ses habitudes et préférences (historiques de consommations de contenus, activités en streaming et/ou réseaux sociaux). Thus, the input interface may, in the general sense, be connected to a set of sensors, and also include connection modules (including the LP interface) for characterizing the user's environment, but also habits and preferences (history of content consumption, streaming activities and / or social networks).
On décrit ci-après en référence à la figure 3 le traitement qu'opère l'unité de traitement précitée, surveillant l'environnement et éventuellement l'état de l'utilisateur pour caractériser les informations pertinentes et susceptibles d'être restituées dans le flux multimédia de sortie. Dans une forme de réalisation, cette surveillance est mise en œuvre par l'extraction automatique, via des modules de traitement du signal et d'intelligence artificielle, notamment de machine learning (représentés par l'étape S7 dans la figure 3), de paramètres importants pour la création du flux multimédia de sortie. Ces paramètres, notés PI, P2,..., dans les figures peuvent être typiquement des paramètres d'environnement qui doivent être pris en compte pour la restitution sur haut-parleurs. Par exemple, si un son capté dans l'environnement est identifié comme étant un signal de parole à restituer : With reference to FIG. 3, the treatment operated by the aforementioned processing unit, monitoring the environment and possibly the state of the user to characterize the relevant information that can be restored to the stream is described below. multimedia output. In one embodiment, this monitoring is implemented by automatic extraction, via signal processing and artificial intelligence modules, in particular machine learning modules (represented by step S7 in FIG. important for creating the output media stream. These parameters, denoted PI, P2, ..., in the figures can typically be environment parameters which must be taken into account for the reproduction on loudspeakers. For example, if a sound picked up in the environment is identified as a speech signal to be played back:
- un premier ensemble de paramètres peut être des coefficients d'un filtre optimal (type filtre de Wiener) permettant de rehausser le signal de parole pour en augmenter l'intelligibilité ; a first set of parameters may be coefficients of an optimal filter (Wiener filter type) making it possible to enhance the speech signal to increase its intelligibility;
- un deuxième paramètre est la directivité du son capté dans l'environnement et à restituer par exemple à l'aide d'un rendu binaural (technique de restitution utilisant des fonctions de transfert de type HRTF) ; a second parameter is the directivity of the sound captured in the environment and to be rendered for example by means of a binaural rendering (rendering technique using transfer functions of HRTF type);
- etc. On comprendra ainsi que ces paramètres PI, P2, sont à interpréter comme des « descripteurs » de l'environnement et de l'état propre de l'utilisateur au sens général, qui alimentent un programme de génération de la « bande son optimale » pour cet utilisateur. Cette bande son est obtenue par composition de ses contenus, d'éléments de l'environnement et d'éléments synthétiques. - etc. It will thus be understood that these parameters PI, P2, are to be interpreted as "descriptors" of the environment and the general state of the user in the general sense, which feed a program for generating the "optimal soundtrack" for this user. This soundtrack is obtained by composition of its contents, elements of the environment and synthetic elements.
Au cours de la première étape S 1 , l'unité de traitement sollicite l'interface d'entrée pour collecter les signaux issus du microphone ou du réseau de microphones MIC que porte le dispositif DIS. Bien entendu, d'autres capteurs (d'inertie, ou autres) dans le terminal TER à l'étape S2, ou ailleurs à l'étape S3 (capteurs connectés de rythme cardiaque, EEG, etc.), peuvent communiquer leurs signaux à l'unité de traitement. Par ailleurs, des données d'informations autres que des signaux captés (préférences de l'utilisateur à l'étape S5, et/ou l'historique de consommation des contenus et des connexions aux réseaux sociaux à l'étape S6) peuvent être transmises par la mémoire MEM et/ou par la base de données BD à l'unité de traitement. During the first step S 1, the processing unit requests the input interface to collect the signals from the microphone or microphone array MIC that the DIS carries. Of course, other sensors (inertia, or others) in the terminal TER in step S2, or elsewhere in step S3 (connected heart rate sensors, EEG, etc.), can communicate their signals to the processing unit. On the other hand, information data other than captured signals (user's preferences in step S5, and / or the consumption history of content and connections to the social networks in step S6) can be transmitted. by the memory MEM and / or by the database BD to the processing unit.
A l'étape S4, toutes ces données et signaux propres à l'environnement et l'état de l'utilisateur (appelés ci-après de façon générique « environnement ») sont collectés et interprétés par la mise en œuvre, à l'étape S7, d'un module informatique de décodage de l'environnement par intelligence artificielle. A cet effet, ce module de décodage peut utiliser une base d'apprentissage qui peut, par exemple, être distante et sollicitée à l'étape S8 via le réseau NW (et l'interface de communication LP), afin d'extraire des paramètres pertinents PI, P2, P3, à l'étape S9 qui modélisent l'environnement de manière générale. In step S4, all these data and signals specific to the environment and the state of the user (hereinafter referred to generically as "environment") are collected and interpreted by the implementation, at the step S7, a computer module for decoding the environment by artificial intelligence. For this purpose, this decoding module can use a learning base which can, for example, be remote and requested in step S8 via the network NW (and the communication interface LP), in order to extract parameters relevant PI, P2, P3, at step S9 which model the environment in general.
Comme détaillé plus loin en référence à la figure 4, à partir de ces paramètres notamment, la scène sonore à restituer est générée à l'étape S 10 et transmise sous la forme de signaux audio aux haut-parleurs HP à l'étape SU . Cette scène sonore peut être accompagnée éventuellement d'informations graphiques, par exemple des métadonnées, à afficher sur l'écran du terminal TER à l'étape S12. As further detailed with reference to FIG. 4, from these parameters in particular, the sound scene to be rendered is generated in step S 10 and transmitted in the form of audio signals to the loudspeakers HP at step SU. This sound scene may possibly be accompanied by graphic information, for example metadata, to be displayed on the screen of the terminal TER in step S12.
Ainsi, il est procédé à une analyse des signaux d'environnement, avec : - une identification de l'environnement en vue d'estimer des modèles de prédiction permettant de caractériser l'environnement de l'utilisateur et son état propre (ces modèles étant utilisés avec un moteur de recommandation comme on le verra plus loin en référence à la figure 4), et Thus, an analysis of the environmental signals is carried out, with: an identification of the environment with a view to estimating prediction models making it possible to characterize the user's environment and his or her own state (these models being used with a recommendation engine as will be seen below with reference to the figure 4), and
- une analyse acoustique fine permettant de générer des paramètres plus précis et servant à la manipulation du contenu audio à restituer (séparation/rehaussement de sources sonores particulières, effets sonores, mixage, spatialisation, ou autres). - A fine acoustic analysis to generate more precise parameters and used to manipulate the audio content to be restored (separation / enhancement of particular sound sources, sound effects, mixing, spatialization, or other).
L'identification de l'environnement permet de caractériser, par apprentissage automatique, le couple environnement/état propre de l'utilisateur. Il s'agit principalement : The identification of the environment makes it possible to characterize, by automatic learning, the environment / state pair of the user. It is mainly:
de détecter si certaines classes de sons cibles, parmi plusieurs classes préenregistrées, sont présentes dans l'environnement de l'utilisateur et de déterminer, le cas échéant, leur direction de provenance. Initialement, les classes de son cibles peuvent être définies, une à une, par l'utilisateur via son terminal ou en utilisant des modes de fonctionnement prédéfinis ;  detect whether certain classes of target sounds, among several prerecorded classes, are present in the environment of the user and determine, if necessary, their direction of provenance. Initially, the classes of its target may be defined, one by one, by the user via his terminal or by using predefined operating modes;
de déterminer l'activité de l'utilisateur : repos, au bureau, en activité dans une salle de sport, ou autres ;  determine the activity of the user: rest, at the office, active in a gym, or other;
de déterminer l'état émotionnel et physiologique de l'utilisateur (par exemple « en forme », d'après un podomètre, ou « stressé » d'après son EEG) ;  to determine the emotional and physiological state of the user (for example "in shape", according to a pedometer, or "stressed" according to his EEG);
de décrire les contenus qu'il consomme au moyen de techniques d'analyse par le contenu (techniques d'audition et de vision par ordinateur, et de traitement des langues naturelles). L'analyse acoustique fine permet de calculer les paramètres acoustiques qui sont utilisés pour la restitution audio (par exemple en restitution 3D).  describe the content they consume using content analysis techniques (computer-based hearing and vision techniques, and natural language processing). The fine acoustic analysis makes it possible to calculate the acoustic parameters which are used for the audio reproduction (for example in 3D restitution).
En référence maintenant à la figure 4, à l'étape S 17, un moteur de recommandation est utilisé pour recevoir les descripteurs de « l'environnement », en particulier les classes d'événements sonores identifiés (paramètres PI, P2, ..), et fournir sur cette base un modèle de recommandation (ou une combinaison de modèles) à l'étape S 19. A cet effet, le moteur de recommandation peut utiliser la caractérisation des contenus de l'utilisateur et leur similarité à des contenus externes ainsi que des préférences de l'utilisateur, qui ont été enregistrées dans une base d'apprentissage à l'étape S 15, et/ou des préférences standards d'autres utilisateurs à l'étape S 18. L'utilisateur peut aussi intervenir à cette étape avec son terminal pour entrer une préférence à l'étape S24, par exemple par rapport à un contenu ou une liste de contenus à jouer. Referring now to FIG. 4, in step S17, a recommendation engine is used to receive the descriptors of the "environment", in particular the classes of identified sound events (parameters PI, P2, etc.). , and provide on this basis a recommendation model (or a combination of models) at step S 19. At this indeed, the recommendation engine may use the characterization of the user's contents and their similarity to external contents as well as user preferences, which have been recorded in a learning base in step S 15, and / or the standard preferences of other users in step S18. The user can also intervene at this step with his terminal to enter a preference at step S24, for example with respect to a content or a list of contents. to play.
A partir de l'ensemble de ces recommandations, il est choisi un modèle de recommandation pertinent en fonction de l'environnement et de l'état de l'utilisateur (par exemple dans le groupe des musiques rythmées, en situation de mouvement de l'utilisateur apparemment dans une salle de sport). Il est mis en œuvre ensuite un moteur de composition à l'étape S20, lequel combine les paramètres PI, P2..., au modèle de recommandation, pour élaborer un programme de composition à l'étape S21. Il s'agit ici d'une routine qui suggère par exemple : From all these recommendations, a recommendation model is chosen that is relevant to the environment and the state of the user (for example, in the group of rhythmic music, in a situation of movement of the apparently user in a gym). A composition engine is then implemented in step S20, which combines the parameters PI, P2 ..., with the recommendation model, to develop a composition program in step S21. This is a routine that suggests for example:
- un type de contenu spécifique à rechercher dans les contenus de l'utilisateur, - en tenant compte de son état propre (par exemple son activité) et de certains types de sons de l'environnement extérieur identifiés dans les paramètres PI, P2, ..., a specific type of content to be searched for in the contents of the user, taking into account its own state (for example its activity) and certain types of sounds of the external environment identified in the parameters PI, P2,. ..,
- à mixer au contenu, selon un niveau sonore et un rendu spatial (audio 3D) qui a été défini par le moteur de composition. - To mix to the content, according to a sound level and a spatial rendering (3D audio) that has been defined by the composition engine.
Le moteur de synthèse, à proprement parler, du signal sonore intervient à l'étape S22, pour élaborer les signaux à restituer aux étapes SI 1 et S 12, à partir : The synthesis engine, strictly speaking, of the audible signal intervenes in step S22, to elaborate the signals to be restored to the steps SI 1 and S 12, from:
- des contenus de l'utilisateur (issus de l'étape S25 (en tant que sous étape de l'étape S6), bien entendu, l'un des contenus ayant été sélectionné à l'étape S21 par le moteur de composition, the contents of the user (from step S25 (as a substep of step S6), of course, one of the contents having been selected in step S21 by the composition engine,
- des signaux sonores captés dans l'environnement (SI, éventuellement de paramètres PI, P2, ... dans le cas d'une synthèse des sons de l'environnement à restituer), et sound signals picked up in the environment (IF, possibly parameters PI, P2, ... in the case of a synthesis of the sounds of the environment to be rendered), and
- d'autres sons, possiblement synthétiques, de notifications (bip, cloche, ou autre), pouvant annoncer un événement extérieur et à mixer au contenu à restituer (sélectionné à l'étape S21 à partir de l'étape S 16), avec éventuellement un rendu 3D défini à l'étape S23. other sounds, possibly synthetic, of notifications (beep, bell, or other), able to announce an external event and to mix the content to be restored (selected in step S21 from step S 16), possibly with a 3D rendering defined in step S23.
Ainsi, le flux généré est adapté aux attentes de l'utilisateur et optimisé en fonction du contexte de sa diffusion, selon trois étapes principales dans une forme de réalisation particulière : Thus, the stream generated is adapted to the expectations of the user and optimized according to the context of its distribution, according to three main steps in a particular embodiment:
- l'utilisation d'un moteur de recommandation pour filtrer et sélectionner en temps réel les éléments de contenu à mixer pour la restitution sonore (et possiblement visuelle aussi) d'un flux multimédia (dit de « réalité contrôlée ») ; the use of a recommendation engine for filtering and selecting in real time the content elements to be mixed for the sound reproduction (and possibly also visual) of a multimedia flow (called "controlled reality");
- l'utilisation d'un moteur de composition de média qui programme l'agencement temporel, fréquentiel et spatial des éléments de contenu, avec des niveaux sonores respectifs définis également ;  the use of a media composition engine which programs the temporal, frequency and spatial arrangement of the content elements, with respective sound levels also defined;
- l'utilisation d'un moteur de synthèse générant les signaux du rendu sonore (et éventuellement visuel), avec possiblement une spatialisation sonore, suivant le programme établi par le moteur de composition.  the use of a synthesis engine generating the signals of the sound (and possibly visual) rendering, possibly with sound spatialization, according to the program established by the composition engine.
Le flux multimédia généré comporte au moins des signaux audio mais potentiellement des notifications textuelles, haptiques et ou visuelles. Les signaux audio comprennent un mixage : The generated multimedia stream includes at least audio signals but potentially textual, haptic and / or visual notifications. The audio signals include a mix:
- d'un contenu sélectionné dans la base de contenus de l'utilisateur (musiques, vidéo, etc.), entré comme préférence par l'utilisateur à l'étape S24, ou recommandé directement par le moteur de recommandation en fonction de l'état de l'utilisateur et de 1 ' environnement,  a content selected in the user's content database (music, video, etc.), entered as a preference by the user in step S24, or recommended directly by the recommendation engine according to the state of the user and the environment,
avec éventuellement with possibly
- des sons captés par le réseau de capteurs MIC, sélectionnés dans l'environnement sonore (donc filtrés), rehaussés (par exemple par des techniques de séparation de source) et traités pour qu'ils soient de texture fréquentielle, d'intensité et de spatialisation, ajustées pour être injectés dans le mixage de façon opportune, et  sounds picked up by the MIC sensor network, selected in the sound environment (thus filtered), enhanced (for example by source separation techniques) and processed so that they are of frequency texture, intensity and spatialisation, adjusted to be injected into the mix in a timely fashion, and
- des éléments synthétiques récupérés d'une base à l'étape S 16, par exemple des sons de notifïcations/jingles sonores/textuels, bruit de confort, etc.). Le moteur de recommandation se base conjointement sur : synthetic elements recovered from a base at step S 16, for example sound / text jingles sounds, comfort noise, etc.). The recommendation engine is based on:
les préférences de l'utilisateur obtenues de manière explicite à travers une forme de questionnement, ou de manière implicite en exploitant le résultat du décodage de son état propre,  the user's preferences obtained explicitly through a form of questioning, or implicitly by exploiting the result of the decoding of his own state,
des techniques de filtrage collaboratif et de graphes sociaux, exploitant les modèles de plusieurs utilisateurs à la fois (étape S 18),  collaborative filtering techniques and social graphs, exploiting the models of several users at once (step S 18),
la description des contenus de l'utilisateur et leur similarité, afin de construire des modèles permettant de décider quels éléments de contenu doivent être joués à l'utilisateur.  the description of the user's content and their similarity, in order to build models for deciding which content elements should be played to the user.
Les modèles sont mis à jour de façon continue au cours du temps pour s'adapter à l'évolution de l'utilisateur.  The models are updated continuously over time to adapt to the evolution of the user.
Le moteur de composition planifie : The composition engine plans:
- l'instant auquel doit être joué chaque élément de contenu, notamment l'ordre dans lequel les contenus de l'utilisateur sont présentés (par exemple, l'ordre des morceaux de musique dans une playlist), et les moments ou les sons extérieurs ou les notifications sont diffusées : en temps réel ou en différé (par exemple entre deux morceaux d'une playlist) pour ne pas perturber l'écoute ou l'activité en cours de l'utilisateur à un moment inopportun ; - the time at which each piece of content must be played, including the order in which the user's contents are presented (for example, the order of the music in a playlist), and the external moments or sounds or the notifications are broadcast: in real time or delayed (for example between two pieces of a playlist) so as not to disturb the listening or the current activity of the user at an inconvenient time;
- la position spatiale (en vue d'un rendu 3D) de chaque élément de contenu ; - the spatial position (for 3D rendering) of each piece of content;
- les différents effets audio (gain, filtrage, égalisation, compression dynamique, écho ou réverbération (« reverb »), ralentissement/accélération temporelle, transposition...) qui doivent être appliqués à chaque élément de contenu. - the different audio effects (gain, filtering, equalization, dynamic compression, echo or reverb ("reverb"), slowdown / temporal acceleration, transposition ...) that must be applied to each element of content.
La planification se base sur des modèles et des règles construites à partir du décodage de l'environnement de l'utilisateur et de son état propre. Par exemple, la position spatiale d'un événement sonore capturé par les micros et le niveau de gain qui lui est associé dépendent du résultat de la détection de localisation de sources sonores que réalise le décodage de l'environnement à l'étape S7 de la figure 3. Le moteur de synthèse s'appuie sur des techniques de traitement du signal, des langues naturelles et des images, respectivement pour la synthèse de sorties audio, textuelles et visuelles (images ou vidéos), et conjointement pour la génération de sorties multimédia, par exemple vidéo. Planning is based on templates and rules built from decoding the user's environment and their own state. For example, the spatial position of a sound event captured by the pickups and the gain level associated with it depend on the result of the sound source localization detection performed by the decoding of the environment in step S7 of the figure 3. The synthesis engine is based on signal processing techniques, natural languages and images, respectively for the synthesis of audio, textual and visual outputs (images or videos), and jointly for the generation of multimedia outputs, for example video.
Dans le cas de la synthèse de la sortie audio, des techniques de filtrage temporel, spectral et/ou spatial peuvent être exploitées. Par exemple, la synthèse est d'abord réalisée localement sur des fenêtres temporelles courtes et le signal est reconstruit par addition-recouvrement avant d'être transmis à au moins deux haut-parleurs (un pour chaque oreille). Des gains (niveaux de puissance) et des effets audio différents sont appliqués aux différents éléments de contenu, tel que prévu par le moteur de composition. Dans une réalisation particulière, le traitement appliqué par fenêtres peut inclure un filtrage (par exemple de Wiener) permettant de rehausser, à partir d'un ou plusieurs des flux audio captés, une source sonore particulière (telle que prévue par le moteur de composition). Dans une réalisation particulière, le traitement peut inclure un rendu audio 3D, éventuellement à l'aide de techniques de filtrage HRTF (fonctions de transfert HRTF pour « Head Related Transfer Functions »). In the case of the synthesis of the audio output, temporal, spectral and / or spatial filtering techniques can be exploited. For example, the synthesis is first performed locally on short time windows and the signal is reconstructed by addition-overlap before being transmitted to at least two speakers (one for each ear). Different gains (power levels) and audio effects are applied to the different content elements as provided by the composition engine. In a particular embodiment, the processing applied by windows may include a filtering (for example of Wiener) making it possible to enhance, from one or more of the audio streams captured, a particular sound source (as provided by the composition engine). . In a particular embodiment, the processing may include 3D audio rendering, possibly using HRTF filtering techniques (HRTF transfer functions for "Head Related Transfer Functions").
Dans un premier exemple illustrant une implémentation minimale, - la description de l'environnement de l'utilisateur est limitée à son environnement sonore ; l'état propre de l'utilisateur est limité à ses préférences : classe de son cible, notifications qu'il souhaite recevoir, ces préférences étant définies par l'utilisateur à l'aide de son terminal ; le dispositif (éventuellement en coopération avec le terminal) est équipé de capteurs inertiels (accéléromètre, gyroscope et magnétomètre) ; les paramètres de restitution sont automatiquement modifiés lorsqu'une classe de sons cibles est détectée dans l'environnement de l'utilisateur ; - les messages de courtes durées peuvent être enregistrés ; des notifications peuvent être envoyées à l'utilisateur pour l'avertir de la détection d'un événement d'intérêt. In a first example illustrating a minimal implementation, the description of the environment of the user is limited to his sound environment; the user's own state is limited to his preferences: class of his target, notifications he wishes to receive, these preferences being defined by the user using his terminal; the device (possibly in cooperation with the terminal) is equipped with inertial sensors (accelerometer, gyroscope and magnetometer); playback parameters are automatically changed when a target sound class is detected in the user's environment; - messages of short duration can be recorded; notifications can be sent to the user to warn him of the detection of an event of interest.
Les signaux captés sont analysés afin de déterminer : The captured signals are analyzed to determine:
- les classes de sons présentes dans l'environnement de l'utilisateur et les directions d'où elles proviennent, avec, à cet effet : - the sound classes present in the user's environment and the directions from which they come, with, for this purpose:
- une détection des directions de plus fortes énergies sonore en analysant les contenus dans chacune de ces directions de manière indépendante, a detection of the directions of higher sound energies by analyzing the contents in each of these directions independently,
- une détermination globale pour chaque direction de la contribution de chacune des classes de son (par exemple en utilisant une technique de séparation de sources), - an overall determination for each direction of the contribution of each sound class (eg using a source separation technique),
- les paramètres de modèles décrivant l'environnement de l'utilisateur et ceux des paramètres alimentant le moteur de recommandation. - Model parameters describing the user's environment and those parameters feeding the recommendation engine.
Dans un deuxième exemple illustrant une implémentation plus sophistiquée, un ensemble de capteurs comprenant un réseau de microphones, une caméra vidéo, un podomètre, des capteurs inertiels (accéléromètres, gyroscopes, magnétomètres), des capteurs physiologiques peuvent capter l'environnement visuel et sonore de l'utilisateur (micros et caméra), les données caractérisant son mouvement (capteurs inertiels, podomètre) et ses paramètres physiologiques (EEG, ECG, EMG, électrodermal) ainsi que l'ensemble des contenus qu'il est en train de consulter (musiques, émissions radio, vidéos, historique de navigation et des applications de son smartphone). Ensuite, les différents flux sont analysés pour extraire l'information liée à l'activité de l'utilisateur, son humeur, son état de fatigue et son environnement (par exemple course sur tapis roulant dans une salle de sport, de bonne humeur et en état de faible fatigue). Un flux musical adapté à l'environnement et à l'état propre de l'utilisateur peut être généré (par exemple une playlist dont chaque morceau est sélectionné en fonction de ses goûts musicaux, de sa foulée et de son état de fatigue). Alors que toutes les sources sonores sont annulées dans le casque de l'utilisateur, la voix d'un entraîneur (« coach sportif ») à proximité de l'utilisateur, lorsqu'elle est identifiée (empreinte vocale préalablement enregistrée), est mixée au flux et restituée spatialement à l'aide de techniques de rendu binaural (par HRTF par exemple). In a second example illustrating a more sophisticated implementation, a set of sensors including a network of microphones, a video camera, a pedometer, inertial sensors (accelerometers, gyroscopes, magnetometers), physiological sensors can capture the visual and sound environment of the user (microphones and camera), the data characterizing his movement (inertial sensors, pedometer) and his physiological parameters (EEG, ECG, EMG, electrodermal) as well as all the contents he is consulting (music , radio broadcasts, videos, browsing history and applications of his smartphone). Then, the different flows are analyzed to extract the information related to the user's activity, his mood, his state of fatigue and his environment (for example running on carpets riding in a gym, in a good mood and in a state of low fatigue). A musical stream adapted to the environment and to the user's own state can be generated (for example a playlist of which each piece is selected according to its musical tastes, its stride and its state of fatigue). While all sound sources are canceled in the user's headset, the voice of a coach ("coach") near the user, when it is identified (voice record previously recorded), is mixed at stream and rendered spatially using binaural rendering techniques (by HRTF for example).

Claims

REVENDICATIONS
1. Procédé mis en œuvre par des moyens informatiques, de traitement de données pour une restitution sonore sur un dispositif de restitution sonore, de type casque ou oreillettes, portable par un utilisateur dans un environnement, le dispositif comportant : - au moins un haut-parleur, 1. Method implemented by computer means for processing data for sound reproduction on a sound reproduction device, of the headset or earpiece type, portable by a user in an environment, the device comprising: at least one loudspeaker; speaker,
- au moins un microphone,  - at least one microphone,
- une connexion à un circuit de traitement,  a connection to a processing circuit,
le circuit de traitement comportant : the processing circuit comprising:
- une interface d'entrée pour recevoir des signaux issus au moins du microphone, - une unité de traitement pour lire au moins un contenu audio à restituer sur le haut- parleur, et  an input interface for receiving signals originating at least from the microphone; a processing unit for reading at least one audio content to be reproduced on the loudspeaker, and
- une interface de sortie pour délivrer au moins des signaux audio à restituer par le haut-parleur,  an output interface for delivering at least audio signals to be reproduced by the loudspeaker,
caractérisé en ce que l'unité de traitement est agencée en outre pour mettre en œuvre les étapes : characterized in that the processing unit is further arranged to implement the steps:
a) analyser les signaux issus du microphone pour identifier des sons émis par l'environnement et correspondant à des classes de sons cibles, prédéterminées, b) sélectionner au moins un son identifié, selon un critère de préférence d'utilisateur, et c) construire lesdits signaux audio à restituer par le haut-parleur, par un mixage choisi entre le contenu audio et le son sélectionné, a) analyzing the signals from the microphone to identify sounds emitted by the environment and corresponding to predetermined target sound classes, b) selecting at least one identified sound, according to a user preference criterion, and c) constructing said audio signals to be reproduced by the loudspeaker, by a mix selected between the audio content and the selected sound,
et en ce que, le dispositif comportant une pluralité de microphones, l'analyse des signaux issus des microphones comporte en outre un traitement de séparation de sources sonores dans l'environnement appliqué aux signaux issus des microphones. and in that the device comprising a plurality of microphones, the analysis of the signals from the microphones further comprises a sound source separation process in the environment applied to the signals from the microphones.
2. Procédé selon la revendication 1, caractérisé en ce que, à l'étape c), le son sélectionné est : 2. Method according to claim 1, characterized in that, in step c), the selected sound is:
- analysé au moins en fréquence et durée,  - analyzed at least in frequency and duration,
- rehaussé par filtrage après le traitement de séparation de sources, et mixé au contenu audio. - enhanced by filtering after source separation processing, and mixed with audio content.
3. Procédé selon l'une des revendications précédentes, caractérisé en ce que, le dispositif comportant au moins deux haut-parleurs et la restitution des signaux sur les haut-parleurs appliquant un effet sonore 3D, une position de source sonore, détectée dans l'environnement et émettant un son sélectionné, est prise en compte pour appliquer un effet de spatialisation sonore de la source dans le mixage. 3. Method according to one of the preceding claims, characterized in that, the device comprising at least two speakers and the return of the signals on the speakers applying a 3D sound effect, a sound source position, detected in the environment and emitting a selected sound, is taken into account to apply a sound spatialization effect of the source in the mix.
4. Procédé selon l'une des revendications précédentes, caractérisé en ce que le dispositif comporte en outre une connexion à une interface homme machine à disposition d'un utilisateur pour entrer des préférences de sélection de sons de l'environnement, et en ce que le critère de préférence d'utilisateur est déterminé par apprentissage d'un historique des préférences entrées par l'utilisateur et stockées en mémoire. 4. Method according to one of the preceding claims, characterized in that the device further comprises a connection to a man-machine interface available to a user for entering preferences for selecting sounds from the environment, and in that the user preference criterion is determined by learning a history of preferences entered by the user and stored in memory.
5. Procédé selon l'une des revendications précédentes, caractérisé en ce que le dispositif comporte en outre une connexion à une base de données de préférences d'utilisateurs et le critère de préférence d'utilisateur est déterminé par analyse du contenu de ladite base de données. 5. Method according to one of the preceding claims, characterized in that the device further comprises a connection to a database of user preferences and the user preference criterion is determined by analysis of the content of said database. data.
6. Procédé selon l'une des revendications précédentes, caractérisé en ce que le dispositif comporte en outre une connexion à un ou plusieurs capteurs d'état d'un utilisateur du dispositif, et en ce que le critère de préférence d'utilisateur tient compte d'un état courant de l'utilisateur. 6. Method according to one of the preceding claims, characterized in that the device further comprises a connection to one or more state sensors of a user of the device, and in that the user preference criterion takes into account a current state of the user.
7. Procédé selon la revendication 6, caractérisé en ce que le dispositif comporte une connexion à un terminal mobile à disposition de l'utilisateur du dispositif, le terminal comportant un ou plusieurs capteurs d'état de l'utilisateur. 7. Method according to claim 6, characterized in that the device comprises a connection to a mobile terminal available to the user of the device, the terminal comprising one or more state sensors of the user.
8. Procédé selon l'une des revendications 6 et 7, caractérisé en ce que, l'unité de traitement est agencée en outre pour sélectionner un contenu à lire parmi une pluralité de contenus, en fonction de l'état de l'utilisateur. 8. Method according to one of claims 6 and 7, characterized in that the processing unit is further arranged to select a content to be read from among a plurality of contents, depending on the state of the user.
9. Procédé selon l'une des revendications précédentes, caractérisé en ce que les classes de sons cibles, prédéterminées, comportent au moins des sons de paroles, d'empreintes vocales préenregistrées. 9. Method according to one of the preceding claims, characterized in that the classes of target sounds, predetermined, comprise at least speech sounds, prerecorded voice prints.
10. Programme informatique caractérisé en ce qu'il comporte des instructions pour la mise en œuvre du procédé selon l'une des revendications 1 à 9, lorsque ce programme est exécuté par un processeur. 10. Computer program characterized in that it comprises instructions for the implementation of the method according to one of claims 1 to 9, when the program is executed by a processor.
11. Dispositif de restitution sonore, de type casque ou oreillettes, portable par un utilisateur dans un environnement, le dispositif comportant : 11. A sound reproduction device, of the headset or earphone type, portable by a user in an environment, the device comprising:
- au moins un haut-parleur,  - at least one speaker,
- au moins un microphone,  - at least one microphone,
- une connexion à un circuit de traitement,  a connection to a processing circuit,
le circuit de traitement comportant : the processing circuit comprising:
- une interface d'entrée pour recevoir des signaux issus au moins du microphone,an input interface for receiving signals from at least the microphone,
- une unité de traitement pour lire au moins un contenu audio à restituer sur le haut- parleur, et a processing unit for reading at least one audio content to be reproduced on the loudspeaker, and
- une interface de sortie pour délivrer au moins des signaux audio à restituer par le haut-parleur,  an output interface for delivering at least audio signals to be reproduced by the loudspeaker,
caractérisé en ce que l'unité de traitement est agencée en outre pour : characterized in that the processing unit is further arranged for:
- analyser les signaux issus du microphone pour identifier des sons émis par l'environnement et correspondant à des classes de sons cibles, prédéterminées, analyzing the signals from the microphone to identify sounds emitted by the environment and corresponding to predetermined classes of target sounds,
- sélectionner au moins un son identifié, selon un critère de préférence d'utilisateur, etselecting at least one identified sound, according to a user preference criterion, and
- construire lesdits signaux audio à restituer par le haut-parleur, par un mixage choisi entre le contenu audio et le son sélectionné, constructing said audio signals to be reproduced by the loudspeaker, by a mix chosen between the audio content and the selected sound,
et en ce que, le dispositif comportant une pluralité de microphones, l'analyse des signaux issus des microphones comporte en outre un traitement de séparation de sources sonores dans l'environnement appliqué aux signaux issus des microphones. and in that the device comprising a plurality of microphones, the analysis of the signals from the microphones further comprises a sound source separation process in the environment applied to the signals from the microphones.
EP17808108.9A 2016-11-21 2017-11-20 Improved audio headphones device Withdrawn EP3542545A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1661324A FR3059191B1 (en) 2016-11-21 2016-11-21 PERFECTLY AUDIO HELMET DEVICE
PCT/FR2017/053183 WO2018091856A1 (en) 2016-11-21 2017-11-20 Improved audio headphones device

Publications (1)

Publication Number Publication Date
EP3542545A1 true EP3542545A1 (en) 2019-09-25

Family

ID=58347514

Family Applications (1)

Application Number Title Priority Date Filing Date
EP17808108.9A Withdrawn EP3542545A1 (en) 2016-11-21 2017-11-20 Improved audio headphones device

Country Status (5)

Country Link
US (1) US20200186912A1 (en)
EP (1) EP3542545A1 (en)
FR (1) FR3059191B1 (en)
TW (1) TW201820315A (en)
WO (1) WO2018091856A1 (en)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10361673B1 (en) * 2018-07-24 2019-07-23 Sony Interactive Entertainment Inc. Ambient sound activated headphone
TWI671738B (en) * 2018-10-04 2019-09-11 塞席爾商元鼎音訊股份有限公司 Sound playback device and reducing noise method thereof
US10575094B1 (en) * 2018-12-13 2020-02-25 Dts, Inc. Combination of immersive and binaural sound
US11221820B2 (en) * 2019-03-20 2022-01-11 Creative Technology Ltd System and method for processing audio between multiple audio spaces
US11252497B2 (en) * 2019-08-09 2022-02-15 Nanjing Zgmicro Company Limited Headphones providing fully natural interfaces
TWI731472B (en) * 2019-11-14 2021-06-21 宏碁股份有限公司 Electronic device and automatic adjustment method for volume
TWI740374B (en) * 2020-02-12 2021-09-21 宏碁股份有限公司 Method for eliminating specific object voice and ear-wearing audio device using same
CN113347519B (en) * 2020-02-18 2022-06-17 宏碁股份有限公司 Method for eliminating specific object voice and ear-wearing type sound signal device using same
TWI768589B (en) * 2020-12-10 2022-06-21 國立勤益科技大學 Deep learning rhythm practice system
US11307825B1 (en) * 2021-02-28 2022-04-19 International Business Machines Corporation Recording a separated sound from a sound stream mixture on a personal device
US20220312126A1 (en) * 2021-03-23 2022-09-29 Sonova Ag Detecting Hair Interference for a Hearing Device
CN113301466A (en) * 2021-04-29 2021-08-24 南昌大学 Adjustable active noise reduction earphone with built-in noise monitoring device
CN114067832A (en) * 2021-11-11 2022-02-18 中国科学院声学研究所 Head-related transfer function prediction method and device and electronic equipment
WO2024010501A1 (en) * 2022-07-05 2024-01-11 Telefonaktiebolaget Lm Ericsson (Publ) Adjusting an audio experience for a user

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8155334B2 (en) * 2009-04-28 2012-04-10 Bose Corporation Feedforward-based ANR talk-through
FR2983605A1 (en) * 2011-12-05 2013-06-07 France Telecom DEVICE AND METHOD FOR SELECTING AND UPDATING USER PROFILE.
US10038952B2 (en) * 2014-02-04 2018-07-31 Steelcase Inc. Sound management systems for improving workplace efficiency
US9344793B2 (en) * 2013-02-11 2016-05-17 Symphonic Audio Technologies Corp. Audio apparatus and methods
US9508335B2 (en) * 2014-12-05 2016-11-29 Stages Pcs, Llc Active noise control and customized audio system

Also Published As

Publication number Publication date
TW201820315A (en) 2018-06-01
WO2018091856A1 (en) 2018-05-24
US20200186912A1 (en) 2020-06-11
FR3059191A1 (en) 2018-05-25
FR3059191B1 (en) 2019-08-02

Similar Documents

Publication Publication Date Title
FR3059191B1 (en) PERFECTLY AUDIO HELMET DEVICE
US10187740B2 (en) Producing headphone driver signals in a digital audio signal processing binaural rendering environment
US9959783B2 (en) Converting audio to haptic feedback in an electronic device
KR102436168B1 (en) Systems and methods for creating listening logs and music libraries
CN105637903B (en) System and method for generating sound
KR20180137490A (en) Personal emotion-based computer-readable cognitive memory and cognitive insights for memory and decision making
JP7167910B2 (en) Information processing device, information processing method, and program
CN106488311B (en) Sound effect adjusting method and user terminal
McGill et al. Acoustic transparency and the changing soundscape of auditory mixed reality
US10466955B1 (en) Crowdsourced audio normalization for presenting media content
EP2920979B1 (en) Acquisition of spatialised sound data
WO2017162980A1 (en) Method and device for controlling the setting of at least one audio and/or video parameter, corresponding terminal and computer program
CN110493635A (en) Video broadcasting method, device and terminal
WO2005017892A2 (en) Method for reproducing audio documents with the aid of an interface comprising document groups and associated reproducing device
WO2021129444A1 (en) File clustering method and apparatus, and storage medium and electronic device
CN113039815B (en) Sound generating method and device for executing the same
EP3777247B1 (en) Method and system for broadcasting a multichannel audio stream to terminals of spectators attending a sporting event
US20230267942A1 (en) Audio-visual hearing aid
EP2206236A1 (en) Audio or audio-video player including means for acquiring an external audio signal
WO2022178852A1 (en) Listening assisting method and apparatus
JP2016131329A (en) Image and sound recording device, image and sound recording method, and image and sound recording program
CN115767407A (en) Sound generating method and device for executing the same
FR2921746A1 (en) Portable musical signal listening device e.g. MPEG-1 audio layer 3 walkman, for e.g. car, has transferring stage transferring external audio signal to musical signal listening unit, and processor applying processing function to audio signal
FR2921747A1 (en) Portable audio signal i.e. music, listening device e.g. MPEG-1 audio layer 3 walkman, for e.g. coach, has analyzing and transferring unit transferring external audio signal that informs monitoring of sound event to user, to listening unit

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20190515

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20210205

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

RAP3 Party data changed (applicant data changed or rights of an application transferred)

Owner name: INSTITUT MINES TELECOM

Owner name: BLOUET, RAPHAEL

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20221022