FR3078249A1 - Systeme interactif de diffusion de contenu multimedia - Google Patents

Systeme interactif de diffusion de contenu multimedia Download PDF

Info

Publication number
FR3078249A1
FR3078249A1 FR1851781A FR1851781A FR3078249A1 FR 3078249 A1 FR3078249 A1 FR 3078249A1 FR 1851781 A FR1851781 A FR 1851781A FR 1851781 A FR1851781 A FR 1851781A FR 3078249 A1 FR3078249 A1 FR 3078249A1
Authority
FR
France
Prior art keywords
user
multimedia content
computer device
attributes
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1851781A
Other languages
English (en)
Inventor
Thomas D. Semah
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dotsify
Original Assignee
Dotsify
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dotsify filed Critical Dotsify
Priority to FR1851781A priority Critical patent/FR3078249A1/fr
Priority to PCT/EP2019/055072 priority patent/WO2019166591A1/fr
Publication of FR3078249A1 publication Critical patent/FR3078249A1/fr
Pending legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/68Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
    • A61B5/6887Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient mounted on external non-worn devices, e.g. non-medical devices
    • A61B5/6898Portable consumer electronic devices, e.g. music players, telephones, tablet computers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/636Filtering based on additional data, e.g. user or group profiles by using biological or physiological data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/252Processing of multiple end-users' preferences to derive collaborative data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2668Creating a channel for a dedicated end-user group, e.g. insertion of targeted commercials based on end-user profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42201Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/375Electroencephalography [EEG] using biofeedback
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/377Electroencephalography [EEG] using evoked responses
    • A61B5/38Acoustic or auditory stimuli
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/68Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
    • A61B5/6801Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient specially adapted to be attached to or worn on the body surface
    • A61B5/6813Specially adapted to be attached to a specific body part
    • A61B5/6814Head
    • A61B5/6815Ear

Abstract

L'invention concerne un système de diffusion de contenu multimédia interactif, ledit système comprenant : - au moins une base de données multimédia stockant des contenus multimédia et une pluralité de caractéristiques associées à ces contenus, certaines de ces caractéristiques étant des attributs quantifiés de contenus multimédia ; - au moins un capteur de signal biologique en communication afin d'acquérir un ou plusieurs ensembles de données relatif à l'utilisateur ; - un lecteur de media en communication afin de lire les contenus multimédias ; - une base de données utilisateurs associant au moins un attribut de contenu multimédia à une information de caractérisation de réaction d'au moins un utilisateur ; - au moins un dispositif informatique adapté pour la mise en œuvre de divers traitement, le lecteur de média et/ou le (ou des) dispositif(s) informatique(s) étant adaptés pour choisir pour l'utilisateur et lui diffuser un contenu multimédia en fonction des informations de caractérisation de la base de données.

Description

SYSTEME INTERACTIF DE DIFFUSION DE CONTENU MULTIMEDIA
DOMAINE TECHNIQUE GÉNÉRAL ET ART ANTÉRIEUR « La musique est la langue des émotions » - Emmanuel Kant. Elle incarne l'esprit humain et nous permet de nous exprimer au-delà des mots. Or lorsque l'on écoute de la musique, l’émotion qui fait vibrer tout notre corps prend racine dans notre cerveau. Cette dernière se révèle être une arme puissante, exerçant un effet profond sur l'être humain, et nous plonge ainsi dans un état psychologique et physiologique bien spécifique. Lorsqu'elle est bien choisie, elle stimule le circuit de la récompense, libérant ainsi de la dopamine. Or notre système de récompense repose sur une variabilité individuelle, ce qui singularise l'individu dans sa recherche du plaisir. Nous écoutons de la musique pour le plaisir qu'elle nous procure, et pratiquons sans le savoir une automédication par la musique, beaucoup d’entre nous ont leur playlist pour se redonner de l’énergie ou au contraire, se calmer, se libérer du stress, apaiser ses angoisses. Elle nous accompagne le long de notre vie pendant les moments les plus exaltants et nos plus grandes épreuves, offrant alors l'énergie nécessaire pour transformer notre réalité.
Chaque être humain réagit de façon différente par rapport à la musique. Nos besoins sont différents. Il existe différente façon de réagir à la musique. Il est d'autant plus difficile également pour certaines personnes de définir la musique qu'elles aiment, en réalité c'est beaucoup plus compliqué que ça, nos envies et goûts musicaux fluctuent au cours du temps. Il est désormais question d'« être » la musique en cours de lecture.
Le modèle de concept de casque audio « Mico » imaginé par Neurowear offre une routine d'écoute musicale selon laquelle des ondes cérébrales sont détectées à travers le capteur positionné sur le front, l'application associé permet d'analyser l'état du cerveau de l'utilisateur puis de rechercher une musique la plus appropriée possible dans une base de données selon le statut de l'utilisateur. La base de données musicale est dotée de 100 morceaux qui ont été préalablement « neuro-tagués » en testant la réaction du cerveau de plusieurs personnes à ces chansons. Si un utilisateur présente une activité cérébrale similaire à l’une des réactions des utilisateurs observés précédemment, on joue la musique correspondante. Le capteur sur le front détecte et analyse les ondes cérébrales de l'utilisateur, détermine son humeur et fait correspondre l'utilisateur avec la chanson la plus appropriée.
Quant au système évoqué par WO 2016070188, ce dernier propose une routine d'écoute musicale par l'intermédiaire également d'un casque audio intelligent permettant d'écouter de la musique fondée cette fois-ci sur les émotions apprises, les humeurs et/ou les préférences.
Le système évoqué par WO 2016040398 permet à travers un dispositif d’interface utilisateur d'accéder à des contenus multimédias, l'utilisateur est amené à indiquer ses préférences à travers une surface tactile présente sur le casque, il peut faire glisser son doigt sur la surface tactile pour passer à la musique suivante ou bien taper sur la surface tactile pour indiquer qu'il aime la musique en cours de lecture afin d'influer sur la musique suivante. Un modèle de taxonomie a été mis en œuvre afin de classer les unités d'information multimédia conformément à un ensemble prédéterminé de paramètres de classification et un module de corrélation sur la base du modèle de taxonomie permet de jouer des contenus multimédias aux indices de réaction favorable. Les informations relevées ne le sont que lorsque l'utilisateur interagit avec la surface tactile.
PRÉSENTATION GÉNÉRALE DE L'INVENTION
La présente invention propose une façon nouvelle d'interagir avec des contenus multimédias sous toutes leurs formes grâce aux neurosciences et à l'intelligence artificielle.
Un but général de l'invention est de proposer un système de diffusion de contenus multimédias appréciés par l'utilisateur résultant de l'analyse de l'activité physiologique (bio-signaux comme électroencéphalogrammes (EEG)) et permettant de replacer la perception humaine au cœur de l'expérience multimédia.
La présente invention a pour objectif d'interpréter l'activité cérébrale d'un individu en temps réel afin d'adapter l'expérience d'écoute musicale et ainsi offrir à l'utilisateur la musique qu'il mérite à chaque moment. L'invention rend l'écoute musicale beaucoup plus immersive par la création de nouvelles interactions avec le contenu multimédia.
Par opposition aux concepts de l'art antérieur, le système et le procédé proposés reposent, selon un aspect, sur un modèle de mesure du degré de satisfaction et d'engagement de l'utilisateur. L'utilisateur écoute une musique et notre dispositif est capable de savoir si l’utilisateur aime ou n’aime pas ce contenu audio par une analyse en blocs, le niveau d’appréciation est mesuré pour chacun d’eux. Alors que la recherche actuelle dans le domaine de la Récupération d’information Musicale (RIM) se cantonne à la simple extraction de caractéristiques musicales, l’invention couple à cette connaissance musicale, une connaissance neuroscientifique par les réactions EEG. Les préférences musicales de l’utilisateur sont mesurées avec précisions, afin d'établir une cartographie précise des goûts musicaux. Toutefois, les contenus audio de la base de données musicale n'ont pas besoin d'être « neuro-tagués » au cours d'écoutes préalables, l'invention offre ainsi la possibilité de découvrir une multitude de contenus multimédias nouveaux correspondant parfaitement aux attentes de l'utilisateur. Ce dernier bénéficie également de la connaissance accumulée du pot commun d'utilisateurs.
Le système proposé de recommandation musicale ne nécessite pas d'interaction tactile ou de gestuelle particulière afin de mesurer le degré de satisfaction du contenu multimédia en cours de lecture. Par exemple, dans le cas d'une écoute par casque, l'expérience peut commencer dès que l'utilisateur porte le casque. La routine d'écoute musicale repose sur l'analyse de l'activité physiologique - l'activité cérébrale à titre d'exemple. La classification des contenus multimédias s'opère au sein d'une base de données musicale intelligente où les données physiologiques récoltées par chacun des profils utilisateurs sont stockées pour chacun des contenus multimédias écoutés. Le degré de satisfaction ainsi que l'engagement ne portent pas sur un contenu multimédia dans son ensemble. L'analyse est faite pour chaque bloc qui le compose. Il est ainsi possible de mesurer les préférences musicales de l'utilisateur avec précision et proposer des contenus aux attributs musicaux appréciés. Dès les premières écoutes l'utilisateur obtient des recommandations de qualité.
Ainsi, le but est d'offrir un voyage musical ultime à l'utilisateur sans avoir à toucher à quoi que ce soit (ni le casque, ni le smartphone). L'utilisateur n'a plus à choisir sans cesse un artiste, un morceau, un album, ou bien une playlist sur son smartphone (ou tout système informatique). Il s'agit de faire comprendre à la machine nos goûts musicaux grâce à une analyse conjointe de l'EEG à la musique dotée d'empreintes acoustiques des sons dont elle est composée. Désormais, la musique « choisit » son utilisateur.
Une solution proposée utilise en particulier une base de données d'utilisateurs stockant l'ensemble des signaux électriques émanant des interfaces hommes-machines pour chacun des profils utilisateurs. Les enregistrements EEG sont enregistrés en continu lorsque le casque est en train de lire du contenu. Ces masses de données sont stockées en cloud en temps réel pour chacun des utilisateurs pendant la consommation du contenu multimédia. Ces masses de données permettent à la suite d'un apprentissage automatique (« machine learning ») de déterminer comment l'utilisateur réagit au contenu, savoir s'il apprécie par exemple le morceau musical en cours de lecture et sa réaction face aux caractéristiques constituant ce morceau.
Selon un autre aspect encore, il est proposé un module permettant de rendre intelligent n'importe quel casque. Ce module peut par exemple se clipser sur l'arceau qui enserre la tête de l’auditeur. De cette façon, un ou plusieurs capteurs d'électroencéphalographie (EEG) mesurent l'activité cérébrale en temps réel du sujet. Pendant la lecture du contenu audio, le module capture alors les réponses neurales de l'utilisateur associées.
Il est en outre proposé une nouvelle façon d'appréhender l'assistance personnelle grâce aux objets connectées. Une fois connecté, le casque comprend le caractère unique de l'individu et lui recommande du contenu de façon automatisé sans que ce dernier n'ait à interagir avec son smartphone (ou tout autre système informatique). La réaction résultant de la consommation de contenu multimédia émane uniquement des bio-signaux. Au cours de la routine d'écoute musicale, on ne presse aucun bouton sur le casque pour passer d'un contenu à l'autre ou bien indiquer le fait que l'on aime ou que l'on aime pas un contenu. Aucune interaction n'est requise de la part de l'utilisateur, ce dernier n'a pas à renseigner s'il est satisfait ou non d'un contenu sur une quelconque application mobile. Les données associées à la lecture des contenus multimédias sont stockées et analysées en temps réel. Plus l'utilisateur porte le casque, plus le choix de contenus associé à son profil sera de qualité, ce dernier bénéficie également de la connaissance accumulée des autres utilisateurs.
Un ou plusieurs électrodes sont positionnés sur le cuir chevelu afin d'enregistrer l'activité électrique cérébrale sous forme de signaux, encore appelé électroencéphalographie (EEG). Ces signaux sont convertis et amplifiés par l'appareil, le bio-signal est transmis par télécommunication (Bluetooth par exemple) à un système informatique, comprenant au moins un dispositif de calcul qui peut être un téléphone intelligent. L'appareil peut être facilement incorporé à un casque audio mais également casque VR (Réalité Virtuelle) ou casque AR (Réalité Augmentée) ou bandeau connecté. Un programme informatique (une application mobile par exemple) acquiert et classifie les bio-signaux émanant de l'activité cérébrale afin de porter une analyse rigoureuse des informations de retour biologique et ainsi diffuser du contenu multimédia selon les informations émanant du cerveau de l'utilisateur.
Procédé et système
Ainsi, selon un aspect, l'invention permet de bénéficier de contenu multimédia apprécié par l'utilisateur par l'analyse de sa réaction aux contenus en lecture notamment la musique à travers ses bio-signaux. L'analyse du degré de satisfaction peut porter sur un morceau dans son ensemble ou bien selon ses caractéristiques intrinsèques. L'un des objectifs est de mettre en place d'une base de données intelligente musicale (un service cloud destiné aux clients) capable de sélectionner en temps réel le contenu le plus approprié pour l'utilisateur. Cette dernière permettra aux lecteurs de musique, applications musicales et services en streaming de réaliser des choix plus judicieux, intelligents pour l'utilisateur par l'analyse de la réaction des contenus et sélection automatisée de contenus appropriés. La réaction aux contenus multimédias émane des réponses cérébrales on mesure le degré de satisfaction de l'individu - un rapport de suivi de la réaction face au contenu musicale est généré.
Les données EEG sont enregistrées pour chacun des contenus en cours de lecture, venant ainsi alimenter notre base de données intelligente musicale. Ainsi pour chaque signal audio est associé les bio-signaux résultants. Un apprentissage profond nous permet de mesurer la satisfaction de l'utilisateur (« J'aime » ou « J'aime pas ») et ainsi enrichir son expérience musicale en continu sans que ce dernier n'ait à interagir avec son smartphone. Le niveau de satisfaction du premier contenu multimédia influe sur le second etc ... le contenu multimédia étant préalablement classifié de façon intelligente dans des bases de données au moyen de descripteurs. L'idée est de bâtir une cartographie solide d'appréciation d'une musique par un individu. On détecte le degré de satisfaction et des émotions ressenties associées à un contenu multimédia.
L'interprétation ne repose pas uniquement d'interprétation de ses propres bio-signaux mais de la combinaison de ses propres données et des autres utilisateurs (pot commun d'utilisateurs).
Ainsi notamment, l'invention propose un système et un procédé de diffusion de contenu multimédia interactif.
Le système comprend :
- au moins une base de données multimédia stockant des contenus multimédia et une pluralité de caractéristiques associées à ces contenus, certaines de ces caractéristiques étant des attributs quantifiés de contenus multimédia ;
- au moins un capteur de signal biologique en communication afin d'acquérir un ou plusieurs ensembles de données relatif à l'utilisateur (pouvant être des capteurs d'ondes cérébrales, bracelets, etc.) ;
- un lecteur de media (casque audio ou téléphone portable avec un programme de type « player ») en communication afin de lire les contenus multimédias dans la base de données
- une base de données utilisateurs associant au moins un attribut de contenu multimédia à une information de caractérisation de réaction d'au moins un utilisateur (la ou les informations étant par exemple structurée en termes de paramètres définissant un profil utilisateur) ;
- au moins un dispositif informatique qui met en œuvre le procédé.
Notamment, le procédé met en œuvre des traitements suivants o lecture d'un ou plusieurs ensembles de données acquises par le ou les capteurs de bio-signaux, o catégorisation du ou des ensembles de données reçus pour catégoriser lesdits un ou plusieurs ensembles de données, o analyse en temps réel desdites données catégorisées et détermination d'au moins une information (degré de satisfaction, émotion, etc.) de caractérisation de la réaction de l'utilisateur pendant la consommation du contenu multimédia, o association de l'information de caractérisation ainsi déterminée à un ou plusieurs attributs du contenu multimédia en lecture, o mise à jour de la base de données utilisateurs en fonction de l'association ainsi déterminée
Le lecteur de média et/ou le (ou les) dispositif(s) informatique(s) sont en outrent adaptés pour choisir pour l'utilisateur et lui diffuser un contenu multimédia en fonction des informations de caractérisation de la base de données.
Par contenu multimédia il peut s'agir d'une musique tout à fait classique, d'un mix de musiques, d'une musique évolutive dans le temps, ou bien d'un morceau crée sur-mesure.
Les différents paramètres de décisions émanent de l'analyse automatisée de l'activité physiologique de l'utilisateur (exemple : ondes cérébrales).
Les données ou ensemble de données reçus sont enregistrés dans la base de données utilisateurs pour référence future.
La base de données multi média et la base de données utilisateurs peuvent être organisées en une seule base.
Un serveur stocke et traite les bio-signaux, le dispositif informatique à distance diffuse du contenu multimédia apprécié par le consommateur.
Les solutions proposées offrent de nombreux avantages :
• Phase d'apprentissage écourtée pour l'utilisateur car ce dernier bénéficier des réactions des n-1 autres utilisateurs ;
• Casque susceptible d'être partagé entre différents utilisateurs : L'utilisateur se connecte à son profil utilisateur (service cloud) ;
• Découverte de contenus selon ce que l'utilisateur aime véritablement, indépendamment de la popularité des contenus ;
• La musique peut tisser des liens entre les gens et créer des communautés. Notre solution offre la possibilité via une application (dans le cas où l'utilisateur souhaite utiliser son casque de façon couplée avec une application) de rentrer en contact avec des utilisateurs ayant les mêmes réactions musicales, des personnes qui réagissent de la même manière à la musique. Une application peut permettre de faire des rencontres, créer des interactions virtuelles avec des personnes ayant les mêmes goûts musicaux, plusieurs expériences sont possibles.
• Possibilité d'écouter musique émanant d'une vidéo (extraction du signal audio) • Un mode offre la possibilité d'écouter des extraits musicaux plutôt que la totalité de la musique grâce aux « audio thumbails ». Ce mode de prévisualisation permet de ne pas être obligé d'écouter une musique non désirée entièrement et ainsi d'ajuster automatiquement sa propre liste de lecture.
• Possibilité de créer un morceau de musique sur mesure, généré par l'activité physiologique d'un seul utilisateur. Des bouts de musique s'agencent et le morceau de musique évolutif est lue en temps réel sur son lecteur multimédia. A titre d'exemple, une mélodie au format
MIDI (« Musical Instrument Digital Interface ») peut être jouée par un instrument VST (« Virtual Studio Technology »), à titre d'exemples non limitatifs, un kick, un hat, un snare, un drum, des loops, des samples, une percussion, une voix, une basse, des effets, une batterie, des synthés peuvent l'accompagner de façon synchronisée. Un algorithme évolutif permet de combiner les différents fragments musicaux de façon judicieuse afin de générer une musique unique pour l'utilisateur. Les fragments musicaux retenus reposent sur une sélection des attributs musicaux préférés de l'utilisateur. L'utilisateur pourra partager ce morceau de musique sur mesure, alors stocké sur le cloud, sur les réseaux sociaux.
• Possibilité de créer un morceau de musique sur mesure, généré par l'activité physiologique de plusieurs utilisateurs. Les utilisateurs portent leur propre casque et écoutent une musique commune qui va alors évoluer en temps réel selon les caractéristiques d'appréciation propres à chacun. La musique est alors générée par les utilisateurs ayant pris part à l'expérience. Des bouts de musique s'agencent et le morceau de musique évolutif est lue sur les différents lecteurs. A titre d'exemple, une mélodie au format MIDI (« Musical Instrument Digital Interface ») peut être jouée par un instrument VST (« Virtual Studio Technology »), à titre d'exemples non limitatifs, un kick, un hat, un snare, un drum, des loops, des samples, une percussion, une voix, une basse, des effets, une batterie, des synthés peuvent l'accompagner de façon synchronisée. Un algorithme évolutif permet de combiner les différents fragments musicaux de façon judicieuse afin de générer une musique pour le groupe d'utilisateurs. Les fragments musicaux retenus reposent sur une sélection des attributs musicaux préférés de l'utilisateur. L'utilisateur pourra partager ce morceau de musique sur mesure, alors stocké sur le cloud, sur les réseaux sociaux.
Il est également proposé une méthode pour des applications fondées sur l'analyse des bio-signaux (signaux électroencéphalographiques (EEG) à partir du système comprenant un ou plusieurs capteurs par exemple mais pouvant être également ECG, EMG, EOG, GSR. ou toutes combinaison de ces derniers / Programme informatique, lorsqu'il est exécuté par un processeur :
a. Présentation d'un premier stimuli multimédia à l'utilisateur,
b. Acquisition d'au moins une mesure de signal biologique (des signaux EEG) provenant d'un utilisateur grâce à un capteur de mesure,
c. Classer le signal EEG : Niveaux de satisfaction de l'utilisateur pour chaque attribut du contenu multimédia,
d. Association de l'utilisateur à des contenus multimédias présentant les caractéristiques similaires appréciées et/ou autres utilisateurs présentant même réaction au contenu,
e. Lecture d'un contenu multimédia sur le dispositif compatible avec Internet.
Le système (casque audio) peut fonctionner de façon couplée à un smartphone, dans ce cas-là, le lecteur média est matérialisé par une application mobile pour smartphone (dispositif informatique à distance).
Toutefois, le lecteur média peut être intégré directement dans le système (casque audio) avec une possibilité de télécharger de façon automatique le contenu le plus approprié pour l'utilisateur lorsque le casque est connecté au service cloud. Ce contenu pourra donc être alors lu même hors réseau à tout moment sans être appairé à un smartphone, d'où la revendication 21.
Le système comprend en outre une interface de réseau de communication pour communiquer avec le cloud distant d’unités d’information multimédia ; le système établit une communication avec le cloud afin de télécharger les contenus multimédias les plus appropriés.
Un ensemble de contenus multimédias peut être chargé en amont directement sur le système afin que ce dernier soit en écoute même sans connexion internet (absence de Wi-Fi ou service de données mobile). Ce contenu est alors chargé lorsque le système est connecté à un réseau (internet), seul le contenu ayant du sens pour l'utilisateur est chargé. La mise à jour du contenu musical embarqué directement sur le système a lieu de façon automatique dès que le casque est connecté à nouveau au cloud.
Hors connexion, l'ensemble des retours liés à la consommation des contenus téléchargés sur le système sont stockés en mémoire et viendront alimenter la base de données utilisateurs dès que le système est à nouveau connecté à un réseau.
Le module de sélection utilise les résultats des réactions obtenus par l'utilisateur et ainsi les attributs appréciés, télécharge du contenu multimédia présentant des caractéristiques similaires à celles appréciées par l'utilisateur.
L'invention propose en outre une plate-forme virtuelle pour consommer le contenu multimédia, on peut y avoir accès directement grâce au système ou bien par l'intermédiaire d'un smartphone connecté à ce même système.
Au moins un dispositif informatique perd la communication au dispositif informatique à distance présent sur le réseau de communication (cession de réseau). Ce dernier passe automatiquement en lecture du contenu multimédia téléchargé préalablement. Les bio-signaux sont stockés et seront transmis au dispositif informatique à distance présent sur le réseau de communication ultérieurement, lorsque le réseau de communication reprend.
Le système présente en outre les différentes caractéristiques suivantes prises seules ou en combinaison :
- Le système est capable de synchroniser plusieurs morceaux de musique - censés être appréciés par l'utilisateur - entre eux de façon à ce qu'un premier morceau soit synchronisé avec un second selon un même BPM (Battements par minute), un second avec un troisième et ainsi de suite de telle sorte à ce que les morceaux s'enchaînent de façon à constituer un mix agréable à l'écoute, et ce en temps réel, de la même façon qu'un DJ apprend de la foule.
- Le système est capable de former un contenu audio par un assemblage de « stems ». Un « stems » est un format audio multipiste qui permet généralement aux DJ et aux performeurs live de séparer les pistes d’un morceau et de les traiter individuellement. Le format stems permet de diviser les pistes en quatre éléments différents et ensuite de les isoler les uns des autres.
- Le système est capable de modifier un contenu audio en temps réel. L'utilisateur décide de jouer un contenu musical disponible sur le service cloud. La lecture de l'activité physiologique en temps réel de l'utilisateur et les préférences observées chez ce dernier peuvent activer ou désactiver le volume de certains éléments de musique au cours du temps en laissant toujours actif au moins un des bouts de musique (basse, batterie, synthés, voix, percussions, etc.). Ces bouts de musique sont stockés dans la base de données musicale intelligente. Seuls les bouts de musique censés être apprécié par l'utilisateur composeront le flux (streaming) musical. Des effets musical (presets) peuvent également venir moduler les éléments de musique.
- - Le système est capable de générer du contenu multimédia sur-mesure, le fichier musical est dans ce cas-là crée selon la base de données musicale intelligente selon une clé et un Battement par minute (BPM). Sur cette base vient se reposer une mélodie au format MIDI, cette mélodie épouse un instrument (VST). Une voix parfaitement synchronisée peut venir se déposer, des loops constitués de kicks, snare, hats, percussions ; ainsi que des effets peuvent également venir accompagner les autres éléments musicaux. Le système est capable de de créer des accords et accompagnement au moyen d'un apprentissage automatique.
- Au moins un dispositif informatique est adapté pour traiter le signal audio par blocs et associer à chaque bloc un ou plusieurs attributs.
- Au moins dispositif informatique est adapté pour diviser le signal audio en trames de tailles prédéfinies et analyser chaque trame pour fournir au moins un descripteur.
- Le dispositif informatique est adapté pour que les durées des trames soient fonctions d'un paramètre musical déterminé sur le signal audio.
- Un paramètre musical est une attaque de note ou un tempo.
- Un attribut appartient à la liste suivante : la durée, l'intensité, le timbre, la hauteur tonale, la densité, la matière, le contraste, le mouvement mélodique, le tempo.
- Le système comporte un module adapté pour être clipser de façon amovible sur les arceaux d'un casque audio et/ou AR. et/ou VR, le dit module intégrant au moins un capteur de signal biologique.
- Le système comprend en outre un classifieur par apprentissage machine (ML) adapté pour classifier les bio-signaux et les analyser afin de mesurer un degré de satisfaction de l'utilisateur résultant de la lecture du contenu multimédia.
- Au moins un dispositif informatique est configuré pour transmettre une information de degré de satisfaction du contenu multimédia en cours de lecture à un dispositif informatique à distance présent sur le réseau de communication.
- Le dispositif informatique est adapté pour transformer les bio-signaux sont transformés en images, ces images étant traitées par des réseaux de neurones convolutifs (CNNs).
- Le dispositif informatique est adapté pour pour déterminer une image pour chaque phrase musicale de 8 temps, le traitement par réseau de neurones étant appliqué à chaque image individuellement.
- Le dispositif informatique est adapté pour déterminer plusieurs images pour une même phrase, le traitement par réseau de neurones étant appliqué à la séquence d'images ainsi obtenu.
- Un dispositif informatique est adapté pour mettre en œuvre un traitement ESN sur lesdits bio-signaux et corrige les trous lors d'une défaillance d'acquisition.
- Un dispositif informatique est adapté pour synchroniser l'acquisition des signaux est synchronisée par rapport à la lecture de contenu multimédia.
- Un dispositif informatique est adapté pour que l'acquisition des signaux intervienne pendant la diffusion d'un contenu multimédia, par intermittence, de façon périodique ou continue.
- Au moins un dispositif informatique est configuré pour générer un rapport de suivi de l'utilisateur.
- Au moins un dispositif informatique met à jour la base de données utilisateurs en fonction des acquisitions de bio-signaux.
- Au moins un dispositif informatique met à jour la base de données avec les résultats des traitements d'association lorsqu'à l'issu d'une période hors connexion, il récupère une communication permettant une mise à jour à distance.
- Au moins un dispositif informatique comporte un mécanisme d'apprentissage qui classe les attributs constituant le contenu multimédia en fonction du niveau de satisfaction mesuré au fil des écoutes, le résultat de cette classification est mémorisé dans la base de données, ladite base de données étant interrogeable à partir des attributs.
Au moins un dispositif informatique est adapté pour que le contenu multimédia en cours de lecture dépende d'un profil utilisateur et de la connaissance accumulée des autres utilisateurs utilisant le système.
- Le lecteur média est adapté pour interroger la base de données, télécharge des contenus multimédias à distance présentant des attributs similaires à ceux appréciés par l'utilisateur, et les mémorise en vue d'une lecture ultérieure hors connexion, le lecteur média passe automatiquement en lecture de contenus téléchargés préalablement.
- Au moins un dispositif informatique est adapté pour que les contenus multimédias sont mis à jour automatiquement lorsqu'une connexion est rétablie.
- Au moins un dispositif informatique est adapté pour sélectionner plusieurs contenus multimédias correspondant à un taux de satisfaction supérieur à un seuil donné et présentant certains attributs similaires et met en œuvre un mixage de ces contenus en temps réel.
- Au moins un dispositif informatique est adapté pour modifier le contenu multimédia en cours de lecture en fonction des attributs qu'il présente et du degré de satisfaction associé à ces attributs pour l'utilisateur.
- Au moins un dispositif informatique est adapté pour que des éléments de contenus multimédia soient désactivés lorsque le degré de satisfaction associé aux attributs de ces contenus est inférieur à un seuil pour l'utilisateur.
- Au moins un dispositif informatique est adapté pour générer un contenu multimédia en fonction des attributs appréciés par l'utilisateur.
- Ledit dispositif informatique est adapté pour que le contenu multimédia soit généré en fonction d'une clef et d'un battement par minute (BPM) préalablement choisis.
- Au moins un dispositif informatique est adapté pour que le contenu multimédia obtenu soit mémorisé à distance.
- Le système comprend un serveur adapté pour interroger la base de données sur les attributs appréciés par un utilisateur, ladite base de données identifiant au moins un utilisateur présentant un historique d'écoutes similaire ou bien une similarité d'attributs appréciés.
- Au moins un dispositif informatique est adapté pour changer le contenu multimédia joué en le remplaçant par un autre lorsque le degré de satisfaction de l'utilisateur est inférieur à un seuil donné.
PRÉSENTATION DES FIGURES
D'autres caractéristiques et avantages de l'invention ressortiront encore de la description qui suit, laquelle est purement illustrative et non limitative, et doit être lue en regard des figures annexées sur lesquelles :
- la figure 1 illustre le principe général d'une mise en œuvre possible de l'invention dans le cas d'un casque couplé à une application ;
- la figure 2 illustre un exemple de chaîne de traitement des signaux EEG ;
- la figure 3 illustre un réseau de neurones convolutif possible ;
- la figure 4 illustre un mode mise en œuvre dans lequel les couches LSTM sont appliquées (architecture multi trames) ;
- la figure 5 illustre la mesure du niveau de satisfaction de l'utilisateur à partir d'un découpage en trames du signal audio (base de données intelligente) ;
- la figure 6 illustre un mode de mise en œuvre dans lequel le casque est hors connexion ;
- la figure 7 illustre une logique de sélection de musique par similarité d'attributs (Logique A) ;
- la figure 8 illustre une autre logique de sélection de musique par recherche de réactions similaires chez les autres utilisateurs (Logique B -Voyage musical selon le pot commun d'utilisateurs) ;
- la figure 9 illustre le couplage des logiques illustrées sous les figures 7 et 8 avec une approche de sélection classique de contenu musical.
EXEMPLES DE PLUSIEURS MODES DE RÉALISATION
Base de données musicale intelligente
On assiste depuis ces dernières années à une explosion du nombre de titres disponibles dû à une dématérialisation du contenu musical (profusion de l'information musicale). La grande majorité des dispositifs de lecture permette une recherche d'informations musicales reposant principalement sur des informations éditoriales (titre, artiste, album, numéro de piste, date de parution). Ces informations sont parfois enrichies de données complémentaires comme la localisation de l'enregistrement ou le lien hypertexte menant au site internet du compositeur. Ces métadonnées, juxtaposées à l'information musicale, fournissent des descriptions annexes au contenu musical lui-même, et sont destinées à indexer facilement les titres afin de les retrouver aisément sur les plateformes internet, en magasin ou encore au sein de sa propre bibliothèque musicale.
Désormais, il s'agit de décrire la musique par son contenu musical même et la perception des utilisateurs des éléments le constituant, et non plus par des informations relatives au simple contexte. Une telle approche possède l'avantage crucial de donner une description automatique pertinente sur le plan musical et unique afin de proposer du contenu multimédia ayant du sens pour l'utilisateur. L'analyse automatique du contenu audionumérique porte sur les critères musicaux (instruments, notes, rythmes présents dans un enregistrement). On se concentre entre autres sur la détermination des structures musicales abstraites encodées dans les signaux, et permet ainsi de nouvelles interactions avec l'information musicale. La recherche basée sur le contenu musical s'effectue sur des critères de caractérisation des morceaux de musique déduits du support de codage musical, tel que le signal audionumérique. Par conséquent, elle ne requiert pas d'effort d'annotation manuelle et reste indépendante de la popularité des morceaux de musique. De ce fait, l'approche par le contenu et perception humaine résultante élargit le champ d'interaction et de parcours avec une large base de données musicale en ouvrant la recherche d'information à différentes familles d'applications.
Analyse automatique par trames
En raison de la complexité et de la diversité de la donnée musicale, l'analyse automatique du signal audio musical est liée à de nombreux critères. Les caractéristiques tant physiques qu'acoustiques du son musical (évolution temporelle, transitoires, analyse spectrale et fréquences) liées aux paramètres de la stimulation de l'oreille sont pris en considération. La musique est un objet complexe, un objet multidimensionnel.
Tout morceau de musique peut être représenté comme une suite de sons organisés dans le temps. Un intérêt est porté à l'analyse de la structure temporelle d'un morceau de musique (organisation temporelle des éléments musicaux qui la compose).
Les algorithmes d'analyse du signal audio s'opèrent selon une approche de traitement par blocs. Le signal audio (500-a) est alors divisé en trames de tailles prédéfinies (500-b). Les durées de trames dépendent d'un paramètre musical, comme les attaques de notes ou le tempo. L'analyse par algorithme (500-c) produit alors un descripteur (500-d).
Un descripteur est une valeur numérique extraite du signal audio dont le but est de représenter une propriété particulière se son contenu.
Chaque trame est ainsi caractérisée par un ensemble d'attributs qui peuvent être des descripteurs (c'est à dire des valeurs numériques) ou être constitués par une autre information de caractérisation (exemple : présence violon ou voix). Les attributs de chaque trame sont par exemple choisis parmi les attributs suivants :
• La durée : Représente l'étalement du son dans le temps, (long/bref). La durée est étroitement liée au rythme.
• L'intensité : Impression de force ou de faiblesse produite par un son. Elle est caractérisée par le volume sonore (doux/fort). L'intensité est liée soit à la puissance avec laquelle on joue d’un instrument (y compris la voix), soit au nombre d'instruments mis en jeu simultanément.
• Le timbre : Est la qualité spécifique du son, sa « couleur », caractéristique liée à la présence et à la mobilité des harmoniques qui la composent. Elle permet à un auditeur de « juger comme dissimilaires deux sons présentés dans les mêmes conditions et possédant la même dynamique sonore et la même hauteur » (USA Standard Acoustical Terminology. Timbre, 1960). On peut également le définir comme la « carte d'identité » d'un instrument ou d'une voix.
Une façon de décrire le timbre consiste à encoder l'enveloppe spectrale de la portion du signal audio (500-a) contenue dans la trame (500-b) qui lui est associée.
Les descripteurs les plus utilisés dans ce cadre sont les coefficients cepstraux à l'échelle de Mel, ou MFCCs (Mel Frequency Cepstral Coefficients) [Davis, Mermelstein (1980)]. Les MFCCs d'une portion du signal (500-a) sont obtenus de la manière suivante :
- On calcule le spectre en amplitude d'une portion du signal (500-a) par une transformée de Fourier discrète,
- On calcule le logarithme du spectre en amplitude,
- Ce log-spectre est filtré par un banc de filtres triangulaires régulièrement espacés sur l'échelle de Mel afin de prendre en considération certaines caractéristiques de l'audition humaine,
- Les coefficients cepstraux sont obtenus en effectuant une Transformée en consinus discrète, ces derniers permettent d'obtenir une description compacte et informative du contenu timbrai du signal.
• La hauteur tonale : Représente une sensation auditive grave ou aigu selon que la fréquence de la vibration produisant le son sera plus ou moins élevée.
Les descripteurs de type « tonal » visent à décrire le contenu d'une portion du signal (500-a) en termes d'un ensemble de hauteurs tonales en référence à la gamme chromatique de la théorie de la musique occidentale. Ils sont utiles pour étudier le signal du point de vue de la mélodie, de l'harmonie, de la tonalité. Le contenu harmonique d'une portion du signal audio (500-a) est généralement décrit par l'intermédiaire d'un vecteur de chroma. Il est habituellement défini comme un vecteur de dimension 12 qui représente l'énergie moyenne associée à chaque demi-ton de la gamme chromatique, sur l'ensemble des octaves audibles par une une oreille humaine. Pour obtenir ce descripteur, on calcule le spectre en puissance de la portion du signal considérée. Chaque fréquence du spectre est étiquetée selon le demi-ton qui lui est le plus proche. On calcule ensuite la moyenne arithmétique des énergies des fréquences associées à chaque demi-ton sans distinction d'octave pour obtenir chaque coefficient du vecteur de chroma.
Peuvent être ajoutés un certain nombre d'attributs repérables dans le déroulement d'un extrait :
• La densité : C'est la quantité d'éléments sonores contenus dans une musique. Le nombre peut varier sans modifier l'intensité. L'espace sonore peut être « aérée ou « compact ».
• La matière : C'est l'aspect du son : lisse, rugueux, scintillant, épais, lourd.
• Le contraste : Créé par la juxtaposition d'intensités, de hauteurs, de timbres... différents.
• Le mouvement mélodique : C'est la direction auditive que prend la mélodie. Il est défini par deux critères : le sens (ascendant ou descendant) et la qualité (conjointe ou disjointe) • Le tempo : C'est la vitesse de référence de la pulsation d'un morceau et se mesure en pulsations par minute (ou beat per minute, BPM).
• La phrase musicale : La musique est comparable à un discours narratif, elle est composée de phrases qui ont un début, un « milieu », une fin. La compréhension d'une phrase découle du rythme et de la respiration. Les phrases composant une musique peuvent être plus ou moins longues.
• La structure de l'extrait : Les morceaux de musique sont caractérisés par l'agencement de segments structurels caractéristiques, ou forme musicale. Ne forme-t-il qu'un seul thème ? Plusieurs ? A-t-il une forme couplet/refrain ?
Les morceaux de musique sont caractérisés par l'agencement de segments structurels caractéristiques, ou forme musicale.
La modélisation séquentielle permet de modéliser la temporalité de la musique et notamment d'analyser les structures répétitives. L'analyse du signal audio, notamment la répétition de thèmes, de motifs sonores, de rythmes, etc., peut être à l'origine du plaisir produit par un contenu audio. L'analyse et le repérage des structures répétitives, permet d'enrichir le parcours du contenu musical, en permettant notamment à l'utilisateur d'écouter un morceau de musique en évitant certaines sections, moins appréciées.
Prise en considération de la réaction des individus dans le processus de sélection musicale.
Toute donnée émanant de l'utilisateur afin d'alimenter en continu les algorithmes de « machine learning ». Les données massives récoltées via le « pot commun » d'utilisateurs viennent enrichir le contenu multimédia mis à leur disposition en temps réel et accélérer l'apprentissage.
Pour chacune des trames définies précédemment, on enregistre l'activité physiologique de l'individu. Notre approche nouvelle
L'individu II écoute une première musique Ml (signal audio). On stocke l'onde cérébrale I1M1O1 de l'individu II pendant la lecture de la musique Ml afin d'analyser sa réaction face aux attributs de la musique et ce pour chacune des trames.
Cette même musique Ml a été écoutée précédemment par un ensemble d'autres individus (12, 13, 14, 15 ...). Pendant la lecture de ce contenu Ml, l'onde cérébrale résultante (02, 03, 04, 05 ...) a été stockée pour chacun des individus.
Le programme informatique (dispositif de lecture) va choisir une musique M2 possédant les attributs appréciés présentes au sein de la musique Ml. De la même façon que précédemment, l'individu II écoute la musique M2, on stocke l'onde cérébrale I1M2O1 de l'individu Il pendant la lecture de la musique M2 afin d'analyser sa réaction face aux attributs de la musique.
Système de reconnaissance des émotions, du genre grâce à la Récupération d'information Musicale (RIM).
Portée par une approche informatique, la recherche actuelle dans le domaine de la Récupération d’information Musicale (RIM) utilise des connaissances découlant aussi bien du traitement du signal, de l'apprentissage automatique (ou « Machine Learning » en anglais), de la théorie de l'information et de la théorie de la musique afin de reconnaître les caractéristiques d'une musique (tempo, clef, progressions d'accords, genre musical, ou encore de la structure). Ces algorithmes sont capables de reconnaître et extraire l'information, de permettra à des systèmes de réaliser d'importantes opérations de tri, de recherche, de recommandations musicales, de génération de données, de transcription et même de de générer ou d'accompagner une performance musicale et ce en temps réel.
Notre système offre la possibilité également de décoder l'émotion pouvant être engendré par un morceau musical afin d'aller au-delà des simples informations éditoriales. Des réseaux de neurones profonds (Deep Neural Network DNNs) sont mis à contribution afin de classifier les morceaux de musique selon l'émotion qu'ils engendrent par exemple et également classifier les sous-ensembles constituant ces morceaux. Ces modèles sont génératifs et capable d'apprendre de façon non supervisée.
L'approche traditionnelle d'indexation audio repose sur i) une phase d'extraction de descripteurs audios, c'est-à-dire le calcul de nouvelles représentations plus compactes de l'information essentielle, et ii) une phase de modélisation des corrélations entre ces descripteurs pour chaque catégorie étudiée. On peut par exemple procéder à une extraction de caractéristiques via Mel-Frequency Cepstral Coefficients (MFCC) et une estimation par noyau (ou encore méthode de ParzenRosenblatt ou Kernel Density Estimation (KDE)), la classification par perceptron multicouche (multilayer perceptron MLP). Toutefois, de nombreuses méthodes d'apprentissage profond peuvent être utilisées afin de procéder à l'extraction de caractéristiques. C'est le cas des réseaux de neurones artificiels, notamment acycliques (feed-forward) à l'image des réseaux de neurones convolutifs (ou réseau de neurones à convolution, ou CNN ou ConvNet) pour l’extraction de caractéristiques, la classification pouvant être réalisé par perceptron multicouche (multilayer perceptron MLP). Cette extraction de caractéristiques peut également être effectuée via un Deep Belief
Network (DBN) sur une transformation de Fourier discrète (TFD) de l'audio et d'utiliser des machines à vecteurs de support (SVM) comme classifieur.
Un traitement de type « Shift-Invariant Sparse Coding (SISC) » offre un haut niveau de représentation des données en entrée. Des traitements de type « Convolutional Deep Belief Network » (CDBN) peuvent également permettre de classifier les fichiers audio.
L'utilisateur : routine d'écoute musicale
Les sensations induites par un même contenu musical sont propres à chacun, une même musique peut être perçue de façon différente. De la même façon, la sensation induite par une musique peut varier chez l'individu au cours de sa vie.
Diverses techniques d'identification audionumérique comme le « fingerprinting » - empreinte acoustique - permettent d'associer au contenu audionumérique d'une œuvre une empreinte (ou signature) liée au contenu musical, qui permet de l'identifier de manière unique au sein d'une base de données.
L'utilisateur écoute une musique proposée par le système.
Des systèmes d'identification audionumérique isolent un ensemble de caractéristiques du signal.
Ces caractéristiques sont stockées pour chacune des musiques sur une base de données située sur un serveur central.
L'utilisateur en apprécie certaines, d'autres moins. Afin de satisfaire l'utilisateur, le casque va alors procéder à la requête suivante : Recherche d'une œuvre musicale présentant un nombre significatif de ressemblances appréciées (similarité d'attributs) par rapport à la musique précédente.
Une routine d'écoute musicale selon les attributs de la musique est illustrée sur la figure 7.
En variante, l'apprentissage peut se faire sur le pot commun d'utilisateurs (figure 8). On bénéficie de l'historique des contenus musicaux écoutés par ces individus ainsi que les réponses cérébrales associées aux contenus sollicités. Ces données permettent d'établir des clusters d'utilisateurs aux comportements d'écoute similaires. L'utilisateur pourra ainsi se voir proposer des contenus musicaux appréciés par un individu présentant des réponses cérébrales similaires. L'apprentissage ne se fait alors pas de façon individuelle pour chaque utilisateur mais sur un pot commun d'utilisateurs large.
Le couplage des logiques A et B en vue de la sélection de la musique est illustré en figure 9. La sélection du contenu musical approprié repose sur la logique A (figure 7) et/ou la logique B (figure 8) ainsi que sur l'approche habituelle prenant en considération les goûts musicaux d'un utilisateur, le tracking des applications disponibles sur un smartphone, les listes de lecture de contenu multimédia, les pistes favorites ainsi que les données émanant des réseaux sociaux.
Généralités sur le système
Le système proposé offre aux passionnés de musique une nouvelle expérience auditive grâce à l'intelligence artificielle et aux neurosciences.
Dans l'exemple illustré sur la figure 1, le système comporte un casque audio 101 à capteurs EEG, un module 102 intelligent (processeurs, mémoires) connecté aux bio-capteurs EEG du casque 101. Ledit module 102 est lui-même connecté à un système informatique 103 tel qu'un téléphone, une tablette, un ordinateur portable, montre connecté avec lequel il échange via des protocoles de télécommunication (107) : Réseau longue portée (3G, 4G), communication via hub (Bluetooth, wifi), réseau courte portée (RFID, NFC).
Le système informatique utilise une application logicielle 105 pour la lecture de contenus multimédias eux-mêmes stockés dans une base de données 104 sur un serveur à distance. L'application 105 est par exemple capable d'intégrer de façon native les différents services de streaming tel que Spotify®, Deezer®, Soundcloud®, Apple Music®, Tidal®, YouTube Music Key®, Amazon Prime Music® ...
L'application 105 a été conçu afin d'être capable de fonctionner que ce soit avec des interfaces d’appareils mobiles (iOS et Android) et fixes (Windows et Mac).
Les contenus sélectionnés et envoyés sur le système informatique 103 et son application 105 sont eux-mêmes transmis par cette application 105 au casque audio 101.
Les capteurs EEG du casque 101 peuvent être localisés sur l'arceau du casque et/ou sur les hauts parleurs et/ou du front.
Les données produites par les équipements sont stockées dans le « nuage ». Le module 102 pré-traite les bio-signaux et les transmet à un serveur à distance 106 (qui peut être le même que celui de la base de données des contenus multimédias) sur lequel sont mis en œuvre différents algorithmes d'apprentissage (« Machine Learning ») décrits ci-après.
En variante les capteurs peuvent être des capteurs bio-signaux autres que de type EEG : ECG, EMG, EOG, GSR. porté par des vêtements connectés, bracelets, montres, tatouages électroniques etc...
Le contenu peut être diffusé autrement que sur un casque intelligent : enceintes, écouteurs, casque classique, lunettes etc...
Par ailleurs, le prétraitement peut ne pas être mis en œuvre par le module 102 associé au casque 101 mais être réalisé avec le reste du traitement sur les bio-signaux au niveau du serveur 106.
Également, le module 102 peut être un élément indépendant du casque 101 qui intègre des capteurs biologiques. Il est adapté pour se clipser sur un casque classique et pour lorsqu'il est clipser positionner les capteurs par rapport aux zones d'intérêt sur le cuir chevelu de l'utilisateur. De cette façon, il est possible de transformer instantanément n'importe quel casque disponible sur le marché en casque intelligent désormais capable d'acquérir des signaux d’ondes cérébrales grâce à des capteurs EEG intégrés, d'en apprécier les changements en temps réel, et de les traiter efficacement grâce au « Machine Learning » notamment afin de diffuser à l'utilisateur du contenu multimédia ayant du sens. La technologie est ainsi destinée :
• aux constructeurs de casques (la technologie peut être intégrée en interne) • pour les particuliers disposant d'un casque initial et ne souhaitant pas faire l'acquisition d'un nouveau casque. Ils peuvent désormais le transformer et le rendre capable de décoder leur activité cérébrale grâce à notre module et interagir de façon nouvelle avec leur applications ou services de streaming habituels.
Le dispositif a également du sens dans le domaine de la réalité virtuelle (Virtual reality VR - Oculus Rift, HTC Vive, Playstation VR, Google Cardboard, Samsung Gear VR, Homido) et augmenté (Augmented reality AR - Magic Leap, Microsoft HoloLens) dont les possibilités d'applications sont nombreuses. Les casques de réalité virtuelle (Virtual reality VR) et augmenté (Augmented reality AR) incorporent par exemple des capteurs EEG et un ensemble informatique équivalent au module 102. Les professionnels peuvent également développer leurs propres applications fondées sur notre technologie. Un kit de développement SDK (Source Software Development Kit) pourra être disponible à des développeurs tiers désireux de créer diverses applications.
Le système proposé est capable de « lire » le cerveau humain en temps réel et via un algorithme de « machine learning » d'interpréter ces changements d'activités cérébrales afin de donner à l'utilisateur la bonne musique au bon moment. L'utilisateur n'a plus à choisir sans cesse un artiste, un morceau, un album, ou bien une playlist. Désormais, la musique « choisit » son utilisateur.
Le produit répond au problème de la curation musicale. Il est difficile de trouver son bonheur parmi plus de 40 millions de musiques disponibles sur les plateformes habituelles de streaming. Le système constitue ainsi pour l'utilisateur quel qu'il soit (mélomanes, sportifs, employés de bureaux) et quel que soit le contexte au sein duquel il évolue (en marche, en train de courir, à vélo, au repos) un assistant personnel capable d'apprendre et de s'adapter au caractère unique de chacun.
Activité physiologique - Exemple de l'EEG
Acquisition du signai
Le système proposé est une interface homme-machine (« Braincomputer interface » (BCI) ou « Interface Neuronale Directe » (IND)) qui enregistre en temps réel par capteurs de bio-signaux l'activité physiologique de l'utilisateur.
Dans le cas d'un casque à capteurs EEG, ceci sont constitués un jeux d'électrodes dites sèches en contact du cuir chevelu. Les signaux électriques émis par les neurones sont alors enregistrés en temps réel de façon non invasive pour l'utilisateur.
Pré-traitement - Amplification du signai et numérisation
Une fois les signaux électriques analogiques mesurés, ces derniers sont numérisés et prétraités pour obtenir une caractérisation des ondes cérébrales en fréquence, et en amplitude. Ainsi que l'illustre la figure 1, le spectre peut être découpé en 4 bandes de fréquences, par ordre croissant : Delta (<4 Hz), Thêta (4-8 Hz), Alpha (8-13Hz), Bêta (13-30 Hz).
L'activité électrique cérébrale est non linéaire et non stationnaire. Les signaux EEG sont variables dans le temps. Le prétraitement peut être associé à un filtrage permettent de débarrasser les signaux enregistrés, d'artefacts tels que le bruit de fond ou encore les mouvements des muscles, afin d'extraire des informations pertinentes.
A titre d'exemple : Le prétraitement peut s'effectuer à l'aide d'une transformée de Fourier, ou d'une décomposition en ondelettes discrète qui offre notamment l'avantage d'analyser l'évolution du contenu fréquentiel du signal dans le temps.
Catégorisation des réactions résultant de la consommation du contenu
Les signaux cérébraux sont ensuite classés, analysés et interprétés au niveau du serveur 106. La durée des signaux, leur fréquence et leur répartition dans l'espace sont prises compte pour cette opération. Plusieurs techniques d'apprentissage automatique (ou « Machine Learning » en anglais) et de classification peuvent être mises en œuvre sur les données physiologiques mesurées.
En apprentissage supervisé, les algorithmes réalisent des prédictions fondées sur un ensemble d'exemples. Par discrimination, on apprend à la machine à catégoriser automatiquement une observation parmi un nombre fixé et connu de catégories, appelées aussi classes ou étiquettes. Cela se fait en utilisant un ensemble d'apprentissage, c'est-à-dire un ensemble d'exemples de chaque classe sur lequel les classes sont connues.
Par exemple, pour la mesure d'un degré de satisfaction, l'apprentissage pourra utiliser deux catégories : satisfait, non satisfait. Des catégories intermédiaires pourraient également être envisagées. Egalement encore, le système peut observer le degré d'intérêt pour les contenus et les classer en deux catégories (« suscite un intérêt pour l'utilisateur » « ne suscite pas d'intérêt pur l'utilisateur ») ou plus si on veut introduire des niveaux intermédiaires, perception d'un contenu multimédia constituent des problèmes complexes pour une machine.
Ce traitement de catégorisation est mis en œuvre sur les biosignaux relevés lors de la lecture d'un contenu multimédia donné. Ce contenu multimédia étant lui-même associé à des attributs, la catégorisation permet d'associer un degré de satisfaction (celui relevé sur le contenu multimédia joué) à un attribut présent dans le contenu multimédia en question.
Ainsi :
- utilisateur « satisfait » d'un contenu multimédia utilisateur « satisfait » d'un ou de plusieurs attributs associés à ce contenu multimédia
- utilisateur « non satisfait » d'un contenu multimédia utilisateur « non satisfait » d'un ou de plusieurs attributs associés à ce contenu multimédia
Plusieurs approches en apprentissage supervisé sont possibles à l'image des réseaux de neurones ou des séparateurs à vastes marges (SVM). L'utilisation des SVM est particulièrement efficace lorsqu'il s'agit de classer des signaux EEG. L'atout majeur repose dans l'utilisation de noyaux. Les noyaux permettent non seulement d'apprendre des fonctions de décision non linéaires, mais ils peuvent aussi être appris de manière à s'adapter à chaque tâche de classification. D'autres approches reposent sur l'utilisation de modèles de type auto-régressif (AR.) ou encore des chaînes de Markov cachées.
D'autres méthodes possibles en apprentissage supervisée sont les suivantes : Méthode des k plus proches voisins, classification naïve bayésienne, réseaux bayésiens, modèle de logique floue, « boosting », arbres de décision (CART), forêts aléatoires, régression linéaire multiple (MLR), régression par les moindres carrés partiels (PLS), sparse-PLS, régression sur les composantes principales (PCR), espace de versions, analyse factorielle discriminante (AFD), modèles de classification probabiliste. La fiabilité des règles de classification des objets peut être mesurée par exemple par « bootstrap » ou bien par validation croisée (« cross-validation »), il existe au moins trois techniques (« testset validation » ou « holdout method », « k-fold cross-validation » et « leave-one-out cross-validation » (LOOCV)).
En variante, l'apprentissage peut se faire de façon non supervisée : k-means, les cartes auto-organisatrices (SOM) ou encore Kohonen, théorie de la résonance adaptative (ART) [Carpenter & Grossberg (1987)], classification ascendante hiérarchique (CAH) [Lance & Williams (1967)].
L'apprentissage semi-supervisé permet de combiner les données avec labels et sans labels.
Série d'algorithmes permettant d'apprécier la réaction d'un utilisateur face à un contenu en cours de lecture (liste non limitative)
Préalablement à la classification, différentes caractéristiques des données peuvent être extraites en mettant en œuvre les traitements suivants : FFT, Wavelet transform, variance, mean, PCA, Short time Fourier Transform, mutual information, Statistical feature combined with Corrélation dimension, statistical features, wavelet based features, higher order crossings.
Une fois l'extraction de caractéristiques réalisée, on peut utiliser, selon que l'apprentissage soit supervisé, non supervisé ou semi-supervisé, les algorithmes suivants pour la mise en œuvre de cet apprentissage : Neural Network, Linear Kernel SVM, RBF Kernel SVM, Naïve Bayes, Fisher Discriminant analysis, Discriminant analysis, SVM, Relevance Vector Machine, Quadratic Discriminant Analysis, Neural Networks, QDA, KNN, Mahalanobis Distance, Linear Discriminant Analysis (LDA).
Apprentissage profond
En variante ou en complément, l'apprentissage peut s'effectuer en utilisant un système d’apprentissage et de classification fondé sur des réseaux de neurones artificiels (« Deep neural networks »).
L'EEG est décodé en mettant en œuvre un traitement d'apprentissage profond « Deep learning ». Les données des capteurs sont comparées avec les données que le système a apprises. Il les classifie, avec une certaine probabilité de précision.
Le système, avec le temps gagne d'avantage d'expérience et ainsi accroît la probabilité d'une classification correcte, en s'entraînant soi-même sur les nouvelles données reçues. En d'autres mots, il peut apprendre de ses erreurs.
Désormais : Signal Acquisition -> Réseaux de neurones -> Sortie
Il s'agit d'apprécier la réponse du cerveau à chacune des caractéristiques d'un contenu multimédia en acquérant le bio-signal résultant sur tout le long.
Les séries temporelles EEG provenant de diverses localisations sont acquises. Diverses architectures d'apprentissage profond sont mises en œuvre afin d'apprendre de façon automatique des signaux physiologiques de sujets bien différents, comme les réseaux de neurones convolutifs (CNN pour Convolutional Neural Networks) et les réseaux de neurones récurrents (RNNs).
La figure 2 est un organigramme qui illustre un exemple de chaîne de traitement des signaux EEG (200).
Les séries temporelles EEG provenant de diverses localisations sont acquises. Diverses architectures d'apprentissage profond sont mises en œuvre afin d'apprendre de façon automatique des signaux physiologiques de sujets bien différents, comme les réseaux de neurones convolutifs (CNN pour Convolutional Neural Networks) et les réseaux de neurones récurrents (RNNs).
A l'étape 201, chacun des contenus multimédias sont préalablement divisés en blocs, chacun des blocs correspondant à une phrase musicale de 8 temps.
A l'étape 202, les électrodes EEG sont placées sur le cuir chevelu dans un espace tridimensionnel, ces dernières mesurent trois bandes de fréquences : thêta (4-7Hz), alpha (8-13Hz) et bêta (13-30Hz).
L'approche considérée repose sur une transformation des données EEG en images multi-dimensionnelles en entrée (tenseurs) afin de maintenir la structure des données le long du processus d'apprentissage selon trois bandes de fréquences de thêta (4-7Hz), alpha (8-13Hz) et bêta (13-30Hz). Par opposition aux analyses traditionnelles négligeant l'information spatiale, l'activité électrique EEG est transformée en images multispectrales afin de préserver la topologie.
A l'étape 203, les mesures d'activités cérébrales sont transformées en image 2D (203-a) afin de préserver la structure spatiale et plusieurs canaux de couleurs sont utilisés pour représenter la dimension spectrale. Afin de transformer les cartes de l'activité spatialement distribuée en images 2D, la localisation des électrodes de l'espace tridimensionnel est projetée sur une surface 2D. Afin de respecter la distance relative entre des électrodes voisines lors de cette transformation, la projection de Postel - qui n'est autre qu'une projection azimutale équidistante - les distances entre le centre de projection et tout autre point sont préservées. Appliquer cette méthode sur les localisations des électrodes 3D permet d'obtenir des projetés 2D des localisations des électrodes.
Afin d'interpoler les mesures de puissance dispersées sur le cuir chevelu et d'estimer les valeurs entre les électrodes, on procède à un découpage dit « à la Clough-Tocher » (203-b). L'approche par subdivision Clough-Toucher permet par triangulation des points formés des électrodes positionnées sur le cuir chevelu, la formation d'un réseau de triangles. Chaque triangle domaine est subdivisé en trois sous-triangles en joignant le barycentre - point de maille - avec les trois sommets permettant ainsi d'affiner le maillage. Cette procédure est répétée pour chacune des bandes de fréquence d'intérêt.
Enfin, la séquence des cartes topographiques spectrales sont fusionnées afin de former une séquence d'images à trois canaux de couleur qui sont introduits dans un réseau de neurones récurrentsconvolutif pour la représentation et classification.
A l'étape 204, on entraîne un réseau de neurones convolutif inspiré des techniques de classification d'images afin d'apprendre des représentations à partir de la séquence d'images EEG (301). Cette méthode est particulièrement appropriée afin de préserver la structure spatiale, spectrale et temporelle de l'EEG et ainsi de trouver des caractéristiques moins sensibles aux variations et distorsions dans chaque dimension.
L'architecture mis en œuvre se décompose en deux parties.
La première partie de l'architecture consistant en une succession de couches de convolution et d'agrégation, est dédié à l'extraction automatique de caractéristiques (302). L'architecture proposée met en œuvre plusieurs réseaux de neurones profonds comprenant une succession de couches de convolution qui traite les données d'un champ récepteur alternant avec des couches d'agrégation (« pooling »). Cette succession permet de compresser l'information en réduisant la taille de l'image intermédiaire afin d'extraire de façon automatique des caractéristiques.
Les couches d'agrégation spatiale peuvent être vues comme des fonctions d'agrégation, par exemple « max-pooling ». Elles fournissent alors en sortie le pixel dont la valeur est maximale vis-à-vis de la sortie des filtres de convolutions. Cette étape permet de faire une réduction de la dimension de l'image. L'opération de « pooling », étape de sous-échantillonnage, permet de gagner en temps de calcul. Des couches de correction (« ReLU » pour « Rectified Linear Unit ») sont intercalées entre les couches de traitement. Elles vont améliorer l'efficacité du traitement en opérant une fonction mathématique (fonction d'activation) sur les signaux de sorties de la couche précédente. Le « ReLU » [K. Jarrett, K. Kavukcuoglu, M. Ranzato, Y. LeCun (2009)] peut se définir comme f(a) = max(0,a), la fonction f(a)=tanh(a) [D. Nguyen, B. Widrow (1990)] ou bien la fonction sigmoïde ^0)=(1+6 °)1 [M. Norouzi, M. Ranjbar, G. Mori (2009)] avec aest l'entrée d'un neurone.
La deuxième partie de l'architecture, composée de couches de neurones complètement connectées, est dédié à la classification (303). Après plusieurs couches de convolution et de max-pooling, on met en œuvre un traitement de type « raisonnement de haut de niveau ». Ce traitement se fait dans le réseau neuronal via des couches de neurones complètement connectés (« fully connected ») permettant la classification. Les neurones dans une couche entièrement connectée ont des connexions vers toutes les sorties de la couche précédente. Une fois l'obtention de cette dernière couche « fully connected », la fonction softmax [C. Bishop, 1995] est utilisée. Pour un ensemble de ez valeurs numériques LeL, le softmax de cet ensemble vaut g(V) =--^Le
Le softmax permet d'obtenir une distribution de probabilités d'appartenance à chaque classe. Chaque classe aura une valeur réelle comprise dans l'intervalle [0, 1] (étape 205).
Afin de classifier les états psychologiques de l'utilisateur, son degré de satisfactions, et la perception résultant d'un contenu multimédia en cours de lecture et des attributs le constituant, deux approches sont possibles : une approche mono-trame (étape 204-a) et une approche multi-trames (étape 204-b).
Approche mono-trame (étape 204-a)
Dans une approche mono-trame (étape 2014-a), une unique image multicanaux est construite à partir des mesures spectrales effectuées sur la durée de l'essai complet correspondant à la durée d'une phrase du contenu audio (une phrase étant constitué de 8 temps). L'architecture peut être structurée séquentiellement selon différentes configurations de réseaux de neurones convolutifs, en faisant varier la profondeur.
La figure 3 illustre un réseau de neurones convolutif possible (300).
Un réseau de neurones possible est un réseau constitué de deux couches de convolution constituées de 32 filtres de taille 3x3 pixels (CNN3-32), suivies d'une fonction d'activation ReLU puis d'une couche de max-pooling de taille 2 x 2 (304).
A ce réseau de neurones peut être ajouté en amont deux nouvelles couches de convolution constituées de 64 filtres de tailles 3 x 3 pixels (CNN3-64), suivies à nouveau d'une fonction d'activation ReLU puis d'une autre couche de max-pooling (304).
On peut également ajouter à cette configuration une nouvelle couche de convolution constituées de 128 filtres de tailles 3x3 pixels (CNN3-128).
On peut également privilégier initialement quatre couches de convolution constituées de 32 filtres de taille 3x3 pixels (CNN3-32) plutôt que deux couches, comme prévue initialement.
Enfin, une couche de neurones complètement connectés (« fully connected ») de 512 nœuds (FC-512) (305) est ajoutée à l'architecture, cette dernière est connectée à un softmax (306) comme dernière couche.
Approche multi-trames (étape 204-b)
On peut recourir à une approche multi-trames, une phrase est divisée en 8 temps d'intervalles de durée plus courte et une image est construite pour chacun ces intervalles de temps, donnant ainsi plusieurs trames pour une même phrase (8 trames par phrase). Ainsi, la séquence d'images dérivée des blocs consécutifs (fenêtres temporelles) est utilisée pour tenir compte des évolutions temporelles de l'activité cérébrale. La séquence d'images est alors utilisée comme donnée d'entrée pour le réseau de neurones récurrents-convolutif. Les diverses architectures mises en exergue dans l'approche mono-trame peuvent être utilisées pour chaque trame. Toutefois, afin d'extraire l'information temporelle des cartes topographiques spectrales, plusieurs techniques d'apprentissage profond peuvent être utilisées :
- Le modèle max-pooling utilisé sur les sorties des réseaux de neurones convolutifs pour chaque trame.
- Le modèle de convolution temporelle appliquant une convolution ID sur les sorties des réseaux de neurones convolutifs pour chaque trame convolution unidimensionnelle.
Les réseaux de neurones récurrents à large « mémoire court-terme » (« LSTM » pour Long ShortTerm Memory) [S. Hochreiter, J. Schmidhuber (1997)] permettent de modéliser l'évolution temporelle de l'activité cérébrale. L'implémentation du réseau de neurones récurrents (RNN) se fonde sur celui de type Elman (1990) dont les couches cachées et couches de sorties sont calculer respectivement comme suit : ht = H(Wxhxt +Whhht_1+bh) (1)
Vt = ^hy^t + by (2) avec xt le vecteur d'entrée du RNN à t, ht_r la sortie de la couche cachée à t -1. Les paramètres WxhlWhh et Why du RNN sont les matrices de poids associées à la connexion récurrente, bh,by\es biais, et h0 la couche cachée initiale de l'étape précédente pour le premier vecteur de la séquence pour lequel rien n'a encore été calculé. La fonction H utilisée pour les couches cachées est généralement une sigmoïde. Elle est implémentée à l'aide des équations suivantes :
Ê σ(Μ/Χί Xf + IV/tj Wci ct_i A bi ) ft = o(Wxfxt + Whfht_1+ Wcfct_1 + bf)
G = A Q-i + ittanh (Wxcxt +Whcht_1+ bc ) ot = a(Wxnxt +Whoht_1+ WC0ct + b0) ht = ot tanh (ct ) (3) (4) (5) (6) (7) avec o, la fonction sigmoïde logistique. L'état de la cellule peut être modifié à travers une porte qui autorise ou bloque la mise à jour, I' « input gâte » i. De même une porte contrôle si l'état de cellule est communiqué en sortie de l'unité LSTM, il s'agit de I' « output gâte » o. Le « LSTM » utilise une porte permettant la remise à zéro de l’état de la cellule, la « forget gâte » f. L’idée associée au LSTM est que chaque unité computationnelle est liée non seulement à un état caché h mais également à un état c de la cellule qui joue le rôle de mémoire.
De nombreuses autres architectures/techniques d’apprentissage profond existent et peuvent être utilisés : Backpropagation, Perceptron (P), Multi Layer Perceptron (MLP), Feed Forward (FF), Radial Basis Network (RBF), Deep Feed Forward (DFF), Gated Recourent Unit (GRU), Autoencoder (AE), Variational AE (VAE), Denoising AE (DAE), Sparse AE (SAE), Markov Chain (MC), réseau de neurones d’Hopfield (HN), machine de Boltzmann (BM), machine de Boltzmann restreinte (RBM), Deep Belief Network (DBN), Deep Convolutional Network (DCN), Deconvolutional Network (DN), Deep Convolutional Inverse Graphies Network (DCIGN), Generative Adversarial Network (GAN), Liquid State Machine (LSM), Extrême Learning Machine (ELM), Deep Residual Network (DRN), Kohonen Network (KN), Support Vector
Machine (SVM), Neural Turing Machine (NTM), Spiking Neural
Networks (SNNs) ...
Résolution des problèmes liés à l'acquisition des données
Des problèmes liés à l'acquisition des données peuvent apparaître, ce qui occasionne un réel impact avant de les interpréter. Ces « trous » dans les données peuvent arriver au moment où l'utilisateur bouge, et change de position fréquemment au cours de sa routine d'écoute musicale. De ce fait l'implémentation d'un Echo State Network (ESN) permet aux réseaux de neurones récurrents (RNNs) de présenter des performances élevées en portant un très grand nombre de nœuds cachés tout en fournissant un faible coût de calcul. La propriété principale de l’ESN est l’état d’écho, qui peut être décrit comme le fait que le réservoir doit oublier asymptotiquement son historique d’entrée une fois alimenté par une entrée externe. L'ESN a notamment démontré une performance robuste dans le contexte de l’apprentissage supervisé, en particulier pour la prévision des séries chronologiques et la classification des séries chronologiques.
Anticipations & prédictions
Le système est capable de réaliser des prédictions grâce à une analyse prédictive, anticiper les réactions de l'utilisateur. Une variété de techniques pouvant être utilisée allant de la modélisation prédictive, de l'apprentissage en « machine learning », et du traitement de « data mining » qui analyse les faits actuelles et historiques afin d'établir des prédictions sur le futur ou des évènements encore inconnus. Possibilité de calculer les coefficients cepstraux à partir de l'analyse LPC (Linear Prédictive coding) du signal, les coefficients sont appelés LPCC (linear prédiction cepstral coefficients).
Produits logiciels & support de transmission
Afin d'effectuer les opérations de la présente invention, les produits logiciels peuvent être écrits dans une combinaison quelconque d’un ou plusieurs langages de programmation, tels que Python, Java,
Ruby, PHP, C, C ++, C #, Pascal, Fortran, Péri, Matlab, SAS, SPSS,
JavaScript, AJAX, y compris tout langage de programmation similaire.
Les instructions peuvent en outre être transmises ou reçues sur un réseau informatique par un « moyen de transmission ». Ces dernières peuvent être transmises à l’aide d'un dispositif d’interface de réseau et de n'importe quel protocole de transfert (par exemple HTTP). Le code de programme informatique lisible peut s'exécuter entièrement sur le dispositif informatique de l’utilisateur, partiellement sur le dispositif informatique de l’utilisateur et un logiciel autonome, partiellement sur le dispositif informatique de l’utilisateur et en partie sur un dispositif informatique à distance ou entièrement sur le dispositif informatique ou le serveur distant. Dans ce dernier scénario, l’ordinateur distant peut être connecté à l’ordinateur de l’utilisateur via n’importe quel type de réseau, un réseau personnel (PAN), un réseau local (LAN), un réseau étendu (WAN), un réseau de la région métropolitaine (MAN), ou l’Internet, les réseaux de téléphonie mobile (par exemple, un système mondial de communications mobiles (GSM), un réseau long term évolution (LTE)), et les réseaux de données sans fil (par exemple, les réseaux LiFi, WiFi, WiMAX) ou tout autre réseau sans fil approprié ou une combinaison de deux ou plusieurs de ces derniers.
Bibliographie • Neurowear :
- neurowear mico instruction movie (https://www.youtube.com/watch?v=JyiXQgj_Nfk)
- neurowear website (Projects / mico) (httD://neurowear.com/Droiects detail/mico.htmD • WO 2016040398 : Aivvy Inc. (A method and System to enable user related content preferences intelligently on a headphone) • WO 2016070188 : Smart audio headphone System (Kim Revyn) • US 20160098980 : Matteo Ercolnao (System and method for création of musical memories) • US 20140347265 : Interaxon Inc. (Wearable computing apparatus and method) • WO 2014107795 Al : Interaxon Inc. (Adaptive brain training computer System and method) • W02014085910A1 : Interaxon Inc. (System and method for enhancing content using brain-state data) • US 9330680 : BioBeats, Inc. (Biometric-music interaction methods and Systems) • US 5740812 A : Mindwaves, Ltd. (Apparatus for and method of providing brainwave biofeedback) • US20090069707A1 : Brain Train (Method to improve neurofeedback training using a reinforcement System of computerized game-like cognitive or entertainment-based training activities) • US 20140223462 : Christopher Allen Aimone (System and method for enhancing content using brain-state data) • WO 2009126330 : Daniel Wonchul Chang (Method and System for brain entrainment) • EP 2507994 Al : Créative Technology Ltd. (Methods and Systems for consuming media content among a group of at least two entities) • US 20090124920 : Kip Errett Patterson (Biofeedback devices, Systems and method) • US8676230B2 : Neurosky, Inc. (Bio signal based mobile device applications)

Claims (30)

  1. REVENDICATIONS
    1. Système de diffusion de contenu multimédia interactif, ledit système comprenant :
    - au moins une base de données multimédia stockant des contenus multimédia et une pluralité de caractéristiques associées à ces contenus, certaines de ces caractéristiques étant des attributs quantifiés de contenus multimédia ;
    - au moins un capteur de signal biologique en communication afin d'acquérir un ou plusieurs ensembles de données relatif à l'utilisateur ;
    - un lecteur de media en communication afin de lire les contenus multimédias ;
    - une base de données utilisateurs associant au moins un attribut de contenu multimédia à une information de caractérisation de réaction d'au moins un utilisateur ;
    - au moins un dispositif informatique adapté pour la mise en œuvre des traitements suivants :
    o lecture d'un ou plusieurs ensembles de données acquises par le ou les capteurs de bio-signaux, o catégorisation du ou des ensembles de données reçus pour catégoriser lesdits un ou plusieurs ensembles de données, o analyse en temps réel desdites données catégorisées et détermination d'au moins une information de caractérisation de la réaction de l'utilisateur pendant la consommation du contenu multimédia, o association de l'information de caractérisation ainsi déterminée à un ou plusieurs attributs du contenu multimédia en lecture, o mise à jour de la base de données utilisateurs en fonction de l'association ainsi déterminée.
    - le lecteur de média et/ou le (ou des) dispositif(s) informatique(s) étant adaptés pour choisir pour l'utilisateur et lui diffuser un contenu multimédia en fonction des informations de caractérisation de la base de données.
  2. 2. Système selon la revendication 1, dans lequel au moins un dispositif informatique est adapté pour traiter le signal audio par blocs et associer à chaque bloc un ou plusieurs attributs.
  3. 3. Système selon la revendication 2, dans lequel au moins dispositif informatique est adapté pour diviser le signal audio en trames de tailles prédéfinies et analyser chaque trame pour fournir au moins un descripteur.
  4. 4. Système selon la revendication 3, dans lequel le dispositif informatique est adapté pour que les durées des trames soient fonctions d'un paramètre musical déterminé sur le signal audio.
  5. 5. Système selon la revendication 4, dans lequel un paramètre musical est une attaque de note ou un tempo.
  6. 6. Système selon l'une des revendications précédentes dans lequel un attribut appartient à la liste suivante : la durée, l'intensité, le timbre, la hauteur tonale, la densité, la matière, le contraste, le mouvement mélodique, le tempo.
  7. 7. Système selon l'une des revendications précédentes comportant un module adapté pour être clipser de façon amovible sur les arceaux d'un casque audio et/ou AR et/ou VR, le dit module intégrant au moins un capteur de signal biologique.
  8. 8. Système selon la revendication 1, comprenant en outre un classifieur par apprentissage machine (ML) adapté pour classifier les bio-signaux et les analyser afin de mesurer un degré de satisfaction de l'utilisateur résultant de la lecture du contenu multimédia.
  9. 9. Système selon la revendication 8, dans lequel au moins un dispositif informatique est configuré pour transmettre une information de degré de satisfaction du contenu multimédia en cours de lecture à un dispositif informatique à distance présent sur le réseau de communication.
  10. 10.Système selon la revendication 9, dans lequel le dispositif informatique est adapté pour transformer les bio-signaux sont transformés en images, ces images étant traitées par des réseaux de neurones convolutifs (CNNs).
  11. 11. Système selon la revendication 3 et la revendication 10, dans lequel le dispositif informatique est adapté pour déterminer une image pour chaque phrase musicale de 8 temps, le traitement par réseau de neurones étant appliqué à chaque image individuellement.
  12. 12. Système selon la revendication 3 et la revendication 10, dans lequel le dispositif informatique est adapté pour déterminer plusieurs images pour une même phrase, le traitement par réseau de neurones étant appliqué à la séquence d'images ainsi obtenu.
  13. 13. Système selon l'une des revendications précédentes, dans lequel un dispositif informatique est adapté pour mettre en œuvre un traitement ESN sur lesdits bio-signaux et corrige les trous lors d'une défaillance d'acquisition.
  14. 14. Système selon l'une des revendications précédentes, dans lequel un dispositif informatique est adapté pour synchroniser l'acquisition des signaux est synchronisée par rapport à la lecture de contenu multimédia.
  15. 15. Système selon l'une des revendications précédentes, dans lequel un dispositif informatique est adapté pour que l'acquisition des signaux intervienne pendant la diffusion d'un contenu multimédia, par intermittence, de façon périodique ou continue.
  16. 16. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est configuré pour générer un rapport de suivi de l'utilisateur.
  17. 17. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique met à jour la base de données utilisateurs en fonction des acquisitions de biosignaux.
  18. 18. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique met à jour la base de données avec les résultats des traitements d'association lorsqu'à l'issu d'une période hors connexion, il récupère une communication permettant une mise à jour à distance.
  19. 19. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique comporte un mécanisme d'apprentissage qui classe les attributs constituant le contenu multimédia en fonction du niveau de satisfaction mesuré au fil des écoutes, le résultat de cette classification est mémorisé dans la base de données, ladite base de données étant interrogeable à partir des attributs.
  20. 20. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour que le contenu multimédia en cours de lecture dépende d'un profil utilisateur et de la connaissance accumulée des autres utilisateurs utilisant le système.
  21. 21. Système selon l'une des revendications précédentes, dans lequel le lecteur média est adapté pour interroger la base de données, télécharge des contenus multimédias à distance présentant des attributs similaires à ceux appréciés par l'utilisateur, et les mémorise en vue d'une lecture ultérieure hors connexion, le lecteur média passe automatiquement en lecture de contenus téléchargés préalablement.
  22. 22. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour que les contenus multimédias sont mis à jour automatiquement lorsqu'une connexion est rétablie.
  23. 23. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour sélectionner plusieurs contenus multimédias correspondant à un taux de satisfaction supérieur à un seuil donné et présentant certains attributs similaires et met en œuvre un mixage de ces contenus en temps réel.
  24. 24. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour modifier le contenu multimédia en cours de lecture en fonction des attributs qu'il présente et du degré de satisfaction associé à ces attributs pour l'utilisateur.
  25. 25. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour que des éléments de contenus multimédia soient désactivés lorsque le degré de satisfaction associé aux attributs de ces contenus est inférieur à un seuil pour l'utilisateur.
  26. 26. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour générer un contenu multimédia en fonction des attributs appréciés par l'utilisateur.
  27. 27. Système selon la revendication 26, dans lequel ledit dispositif informatique est adapté pour que le contenu multimédia soit généré en fonction d'une clef et d'un battement par minute (BPM) préalablement choisis.
  28. 28. Système selon l'une des revendications de 23 à 27, dans lesquels au moins un dispositif informatique est adapté pour que le contenu multimédia obtenu soit mémorisé à distance.
  29. 29. Système selon l'une des revendications précédentes, comportant un serveur adapté pour interroger la base de données sur les attributs appréciés par un utilisateur, ladite base de données identifiant au moins un utilisateur présentant un historique d'écoutes similaire ou bien une similarité d'attributs appréciés.
  30. 30. Système selon l'une des revendications précédentes, dans lequel au moins un dispositif informatique est adapté pour changer le contenu multimédia joué en le remplaçant par un autre lorsque le degré de satisfaction de l'utilisateur est inférieur à un seuil donné.
    1/9
FR1851781A 2018-02-28 2018-02-28 Systeme interactif de diffusion de contenu multimedia Pending FR3078249A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR1851781A FR3078249A1 (fr) 2018-02-28 2018-02-28 Systeme interactif de diffusion de contenu multimedia
PCT/EP2019/055072 WO2019166591A1 (fr) 2018-02-28 2019-02-28 Système interactif de diffusion de contenu multimédia

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1851781A FR3078249A1 (fr) 2018-02-28 2018-02-28 Systeme interactif de diffusion de contenu multimedia
FR1851781 2018-02-28

Publications (1)

Publication Number Publication Date
FR3078249A1 true FR3078249A1 (fr) 2019-08-30

Family

ID=61873620

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1851781A Pending FR3078249A1 (fr) 2018-02-28 2018-02-28 Systeme interactif de diffusion de contenu multimedia

Country Status (2)

Country Link
FR (1) FR3078249A1 (fr)
WO (1) WO2019166591A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695631B (zh) * 2020-06-12 2023-06-20 泽恩科技有限公司 基于sae的检定故障特征提取方法、装置、设备以及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050092165A1 (en) * 2000-07-14 2005-05-05 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo
US20140214848A1 (en) * 2013-01-28 2014-07-31 Tata Consultancy Services Limited Media system for generating playlist of multimedia files
US20150093729A1 (en) * 2012-09-07 2015-04-02 BioBeats Inc. Biometric-music interaction methods and systems
US20150297109A1 (en) * 2014-04-22 2015-10-22 Interaxon Inc. System and method for associating music with brain-state data
US20170339484A1 (en) * 2014-11-02 2017-11-23 Ngoggle Inc. Smart audio headphone system
US20180027347A1 (en) * 2011-06-10 2018-01-25 X-System Limited Method and system for analysing sound

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5740812A (en) 1996-01-25 1998-04-21 Mindwaves, Ltd. Apparatus for and method of providing brainwave biofeedback
US20090069707A1 (en) 2007-09-06 2009-03-12 Sandford Joseph A Method to improve neurofeedback training using a reinforcement system of computerized game-like cognitive or entertainment-based training activities
US20090124920A1 (en) 2007-11-09 2009-05-14 Kip Errett Patterson Biofeedback devices, systems and method
WO2009126330A1 (fr) 2008-04-11 2009-10-15 Daniel Wonchul Chang Procédé et système pour entraînement cérébral
SG171495A1 (en) 2009-12-01 2011-06-29 Creative Tech Ltd Methods and systems for consuming media content among a group of at least two entities
US8676230B2 (en) 2011-05-16 2014-03-18 Neurosky, Inc. Bio signal based mobile device applications
US9330680B2 (en) 2012-09-07 2016-05-03 BioBeats, Inc. Biometric-music interaction methods and systems
US10009644B2 (en) 2012-12-04 2018-06-26 Interaxon Inc System and method for enhancing content using brain-state data
WO2014107795A1 (fr) 2013-01-08 2014-07-17 Interaxon Inc. Système informatique d'entraînement cérébral adaptatif et procédé
WO2014138925A1 (fr) 2013-03-15 2014-09-18 Interaxon Inc. Appareil informatique vestimentaire et procédé associé
US20160070702A1 (en) 2014-09-09 2016-03-10 Aivvy Inc. Method and system to enable user related content preferences intelligently on a headphone
US9607595B2 (en) 2014-10-07 2017-03-28 Matteo Ercolano System and method for creation of musical memories

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050092165A1 (en) * 2000-07-14 2005-05-05 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo
US20180027347A1 (en) * 2011-06-10 2018-01-25 X-System Limited Method and system for analysing sound
US20150093729A1 (en) * 2012-09-07 2015-04-02 BioBeats Inc. Biometric-music interaction methods and systems
US20140214848A1 (en) * 2013-01-28 2014-07-31 Tata Consultancy Services Limited Media system for generating playlist of multimedia files
US20150297109A1 (en) * 2014-04-22 2015-10-22 Interaxon Inc. System and method for associating music with brain-state data
US20170339484A1 (en) * 2014-11-02 2017-11-23 Ngoggle Inc. Smart audio headphone system

Also Published As

Publication number Publication date
WO2019166591A1 (fr) 2019-09-06

Similar Documents

Publication Publication Date Title
US11342062B2 (en) Method and system for analysing sound
US11334804B2 (en) Cognitive music selection system and method
Sarkar et al. Recognition of emotion in music based on deep convolutional neural network
Kim et al. Music recommendation system using human activity recognition from accelerometer data
Ozel et al. Synchrosqueezing transform based feature extraction from EEG signals for emotional state prediction
US20200286505A1 (en) Method and system for categorizing musical sound according to emotions
US20230113072A1 (en) Method, system, and medium for affective music recommendation and composition
US20170339484A1 (en) Smart audio headphone system
Deng et al. Emotional states associated with music: Classification, prediction of changes, and consideration in recommendation
Shanthi et al. An integrated approach for mental health assessment using emotion analysis and scales
Kim et al. Dual-function integrated emotion-based music classification system using features from physiological signals
WO2019166591A1 (fr) Système interactif de diffusion de contenu multimédia
EP4297832A1 (fr) Dispositif et procédé de modification d&#39;un état émotionnel d&#39;un utilisateur
Dalida et al. Music Mood Prediction Based on Spotify’s Audio Features Using Logistic Regression
Gloor et al. Measuring audience and actor emotions at a theater play through automatic emotion recognition from face, speech, and body sensors
MERGE Audio: Music Emotion Recognition next Generation–Audio Classification with Deep Learning
KR102533608B1 (ko) 뇌파 데이터에 기초한 음악 생성 방법, 컴퓨팅 장치 및 컴퓨터 프로그램
Pozzi Music emotion detection. A framework based on electrodermal activities
Rao et al. A study on music based audio and brain signal processing
Singh et al. Study on Facial Recognition to Detect Mood and Suggest Songs
Devi et al. Treatment for Insomnia using Music Genre prediction using Convolutional Recurrent Neural Network
Patel Music therapy-based emotion regulation using convolutional neural network
Laugs Creating a Speech and Music Emotion Recognition System for Mixed Source Audio
Chemeque Rabel Content-based music recommendation system: A comparison of supervised Machine Learning models and music features
Roopa et al. Customized Music Classification and Recommendation System Based on Classifiers of Neural Networks and Sensor Embedded on Smart Devices

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20190830

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7