FR3121535A1 - Autoencodeur multimodal a fusion de donnees latente amelioree - Google Patents

Autoencodeur multimodal a fusion de donnees latente amelioree Download PDF

Info

Publication number
FR3121535A1
FR3121535A1 FR2103265A FR2103265A FR3121535A1 FR 3121535 A1 FR3121535 A1 FR 3121535A1 FR 2103265 A FR2103265 A FR 2103265A FR 2103265 A FR2103265 A FR 2103265A FR 3121535 A1 FR3121535 A1 FR 3121535A1
Authority
FR
France
Prior art keywords
latent
vector
autoencoder
modality
encoders
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR2103265A
Other languages
English (en)
Other versions
FR3121535B1 (fr
Inventor
Andrea Ancora
Matthieu DA-SILVA-FILARDER
Maxime DEROME
Pietro MICHIARDI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renault SAS
Original Assignee
Renault SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renault SAS filed Critical Renault SAS
Priority to FR2103265A priority Critical patent/FR3121535B1/fr
Priority to PCT/EP2022/058163 priority patent/WO2022207573A1/fr
Priority to EP22719247.3A priority patent/EP4315170A1/fr
Publication of FR3121535A1 publication Critical patent/FR3121535A1/fr
Application granted granted Critical
Publication of FR3121535B1 publication Critical patent/FR3121535B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

L’invention concerne un autoencodeur multimodal à fusion de données latente comprenant : une pluralité de modalités ; une pluralité d’encodeurs encodant, pour chaque modalité de ladite pluralité respectivement, un vecteur d’entrée d’une pluralité de vecteurs d’entrée en un vecteur latent d’une pluralité de vecteur latents de dimension prédéfini, ladite dimension prédéfinie étant identique pour chaque modalité ; un module de fusion latente fusionnant ladite pluralité de vecteurs latents en un vecteur fusionné de ladite dimension prédéfinie ; une pluralité de décodeurs décodant, pour chaque modalité de ladite pluralité de modalités respectivement, ledit vecteur fusionné en un vecteur de sortie d’une pluralité de vecteurs de sortie, un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité; ledit autoencodeur multimodal étant caractérisé en ce que le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments correspondants de ladite pluralité de vecteurs latents. Figure pour l’abrégé : Fig. 2a

Description

AUTOENCODEUR MULTIMODAL A FUSION DE DONNEES LATENTE AMELIOREE
Domaine de l’invention
La présente invention concerne le domaine de l’apprentissage machine. Plus spécifiquement, l’invention concerne le domaine des autoencodeurs.
Etat de l’art précédent.
Dans de nombreux domaines, le déploiement massif de capteurs variés permet d’envisager le déploiement de systèmes décisionnels autonomes. Par exemple, dans le domaine automobile, de nombreuses recherches portent sur le développement de véhicules autonomes, dans lesquels la sortie de divers capteurs (caméras, LIDARS…) est analysée pour déterminer quelle est la situation environnante, et conduire le véhicule automatiquement.
Dans ce cadre, l’analyse et le traitement d’une masse extrêmement importante de données capturées par les capteurs est essentielle. En particulier, un objectif permanent de recherche dans ce domaine consiste à obtenir, à partir des données brutes issues des capteurs, une représentation de l’environnement pouvant être intégrée dans une chaîne de prise de décision. Les techniques dites d’apprentissage machine sont de plus en plus largement utilisées dans ce cadre.
Les autoencodeurs sont une technique récente permettant de transformer une source de données complexe en une représentation de haut niveau. Les autoencodeurs sont un type de réseaux de neurones artificiels entrainés pour effectuer un codage de données efficace de manière non supervisée.
Un autoencodeur consiste en un premier réseau de neurones, qui encode un vecteur d’entrée généralement noté en un vecteur compressé (également appelé vecteur latent) généralement noté , et un deuxième réseau de neurones qui décode le vecteur compressé en un vecteur décompressé ou reconstruit généralement noté , aussi proche que possible du vecteur d’entrée. Le vecteur compressé a une dimensionnalité inférieure à celle du vecteur d’entrée et du vecteur reconstruit : il est exprimé par des variables appelées variables latentes, qui sont considérées comme définissant les caractéristiques essentielles du vecteur. Ainsi, le vecteur décompressé est similaire, mais en général pas strictement identique au vecteur d’entrée Les autoencodeurs permettent typiquement une réduction de dimensionnalité de la donnée très efficace, permettant d’ignorer le « bruit » d’un signal. Le vecteur compressé et les variables latentes peuvent être considérés comme contenant des informations de très haut niveau. Par exemple, si le vecteur d’entrée est une image, les éléments du vecteur compressé peuvent indiquer différents types d’objets présents dans l’image.
Une évolution des autoencodeurs, appelée autoencodeurs variationnels, consiste à représenter chaque caractéristique du vecteur compressé non pas comme une valeur unique, mais comme une distribution de probabilité définie par une moyenne μ et un écart-type σ. Au décodage, une valeur est sélectionnée, pour chaque caractéristique, en fonction de la distribution de probabilité. Ainsi un modèle génératif est obtenu, puisque, pour un même vecteur d’entrée , un grand nombre de vecteurs décompressés peuvent être générés. Les autoencodeurs variationnels sont décrits par exemple par Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, or Diederik P. Kingma and Volodymyr Kuleshov. Stochastic Gradient Variational Bayes and the Variational Autoencoder. In ICLR, pp. 1–4, 2014.
Une nouvelle catégorie d’autoencodeurs est appelée autoencodeurs multimodaux, les autoencodeurs multimodaux sont notamment décrits par Wu, M., & Goodman, N. (2018). Multimodal generative models for scalable weakly-supervised learning.arXiv preprint arXiv:1802.05335. Un autoencodeur multimodal est constitué d’une pluralité de modalités, chaque modalité comportant un encodeur et un décodeur. Chaque encodeur encode un vecteur d’entrée distinct en un vecteur compressé, puis les vecteurs compressés fournis par chacune des modalités sont fusionnés en un vecteur compressé fusionné unique pour toutes les modalités. Ensuite, chaque décodeur de chaque modalité décode le vecteur compressé fusionné en un vecteur décompressé propre à chaque modalité. Un autoencodeur multimodal peut également être, ou non, un autoencodeur variationnel.
L’objectif des autoencodeurs multimodaux est d’entraîner de manière conjointe les encodeurs et décodeurs des différentes modalités, pour parvenir à extraire des variables latentes synthétisant les informations fournies par l’ensemble des modalités. Par exemple, les différentes modalités peuvent correspondre à des données fournies par différents capteurs à un même instant (par exemple, une trame RGB fournie par caméra en modalité 1, un nuage de points LIDAR en modalité 2 ; ou une trame RGB fournie par une caméra avant d’un véhicule en modalité 1, une trame RGB fournie par une caméra avant d’un véhicule en modalité 2, etc). Les autoencodeurs multimodaux permettent ainsi, lorsqu’ils sont appliqués à des sorties de données capteurs, d’effectuer une fusion des données capteurs permettant d’aboutir à une représentation commune du monde par les différents capteurs. Les variables latentes du vecteur compressé fusionnés sont ainsi particulièrement pertinentes pour synthétiser les données fournies par les capteurs dans le cadre d’un système de prise de décision, par exemple un véhicule autonome.
Parmi les différents types de fusion de données envisagées, la combinaison par composants consiste à obtenir les valeurs de chaque élément du vecteur compressé fusionné en combinant les éléments correspondants des vecteurs compressés de chaque modalité, c’est-à-dire que tous les vecteurs compressés des modalités, et fusionnés ont la même dimension, et le 1eélément du vecteur fusionné est obtenu en combinant tous les 1eéléments des vecteurs compressés des modalités, le 2eélément du vecteur fusionné est obtenu en combinant tous les 2eéléments des vecteurs compressés des modalités, etc. L’utilisation d’une combinaison par composant présente l’avantage de conserver un espace latent fusionné de taille limité, tout limitant la complexité de calcul, qui sera proportionnelle à C * N (où C est le nombre d’éléments des vecteurs compressés et fusionnés, et N le nombre de modalités).
Plusieurs méthodes de fusion par modalités ont été proposées, notamment la méthode dite « Product of Experts » (PoE, en français « Produit des experts ») décrite par Wu, M., & Goodman, N. (2018). Multimodal generative models for scalable weakly-supervised learning.arXiv preprint arXiv:1802.05335, la méthode dite « Mixture of Experts (MoE, en français « mélange des experts ») décrite par Shi, Y., Siddharth, N., Paige, B., & Torr, P. H. (2019). Variational mixture-of-experts autoencoders for multi-modal deep generative models.arXiv preprint arXiv:1911.03393., et la méthode dite « Robust Bayesian Committe Machines » (en français « Machines de comité bayesiennes robustes ») décrite par Deisenroth, M., & Ng, J. W. (2015, June). Distributed gaussian processes. InInternational Conference on Machine Learning(pp. 1481-1490). PMLR.
Cependant, la capacité des méthodes connues de fusion par modalité à obtenir une fusion efficace des variables latentes demeure limitée.
Il y a donc besoin d’un autoencodeur multimodal permettant une fusion efficace des variables latentes.
Résumé de l’invention.
A cet effet, l’invention a pour objet un autoencodeur multimodal à fusion de données latente comprenant : une pluralité de modalités; une pluralité d’encodeurs encodant, pour chaque modalité de ladite pluralité respectivement, un vecteur d’entrée en un vecteur latent de dimension prédéfinie, ladite dimension prédéfinie étant identique pour chaque modalité ; un module de fusion latente fusionnant les vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné de ladite dimension prédéfinie ; une pluralité de décodeurs décodant, pour chaque modalité de ladite pluralité de modalités respectivement, ledit vecteur fusionné en un vecteur de sortie, un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ; ledit autoencodeur multimodal étant caractérisé en ce que le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
Avantageusement, le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée de manière aléatoire parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
Avantageusement, l’autoencodeur est un autoencodeur variationnel, et chaque élément d’un desdits vecteurs latents encodés par ladite pluralité d’encodeurs, et du vecteur fusionné est formé d’une moyenne et d’un écart-type.
Avantageusement, le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné la moyenne et l’écart-type de l’élément ayant l’écart-type le plus faible parmi les éléments correspondants desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
Avantageusement, chaque encodeur de chaque modalité de ladite pluralité de modalités prend en entrée des mesures de chaque capteur d’une pluralité de capteurs respectivement.
Avantageusement, les capteurs de ladite pluralité de capteurs sont co-localisés.
Avantageusement, les capteurs de ladite pluralité de capteurs sont localisés dans un véhicule automobile.
L’invention a également pour objet une méthode d’entraînement d’un autoencodeur multimodal à fusion de données latente comprenant une pluralité de modalités, ladite méthode comprenant plusieurs itérations d’entraînement, chaque itération d’entraînement comprenant: l’encodage, par une pluralité d’encodeurs, pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée en un vecteur latent de dimension prédéfinie, ladite dimension prédéfinie étant identique pour chaque modalité ; la fusion latente des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné de ladite dimension prédéfinie ; le décodage, par une pluralité de décodeurs, pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie, un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ; le calcul d’une fonction de perte, à partir des vecteurs de sortie et des vecteurs d’entrée ; l’adaptation des encodeurs et des décodeurs, pour minimiser ladite fonction de perte ; ladite méthode d’entraînement étant caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
L’invention a également pour objet une méthode d’utilisation d’un autoencodeur multimodal à fusion de données latente comprenant une pluralité de modalités, ladite méthode comprenant : l’encodage, par une pluralité d’encodeurs, pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée en un vecteur latent de dimension prédéfinie, ladite dimension prédéfinie étant identique pour chaque modalité ; la fusion latente des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné de ladite dimension prédéfinie ; le décodage, par une pluralité de décodeurs, pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie ,un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ; ladite méthode d’utilisation étant caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
L’invention a également pour objet un programme d’ordinateur comprenant des instructions de code de programme enregistrées sur un support lisible par ordinateur, lesdites instructions de code de programme étant configurées, lorsque ledit programme fonctionne sur un ordinateur pour exécuter une méthode selon l’un des modes de réalisation de l’invention.
L’invention a également pour objet un système de calcul comprenant : une pluralité de capteurs ; au moins une unité de calcul configurée pour exécuter un autoencodeur multimodal à fusion de données latente selon l’un des modes de réalisation de l’invention, chaque capteur de ladite pluralité étant respectivement associé à une modalité de la pluralité de modalités de l’autoencodeur.
D’autres caractéristiques, détails et avantages de l’invention ressortiront à la lecture de la description faite en référence aux dessins annexés donnés à titre d’exemple et qui représentent, respectivement :
un premier exemple de système de calcul selon un ensemble de modes de réalisation de l’invention ;
un deuxième exemple de système de calcul selon un ensemble de modes de réalisation de l’invention ;
un premier exemple d’autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention ;
un deuxième exemple d’autoencodeur variationnel multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention ;
un exemple de méthode d’entraînement d’un autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention ;
un exemple de méthode d’utilisation d’un autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention ;
un premier exemple d’estimation de résultats d’une fusion latente, selon une méthode de l’état de l’art dite « Product of Experts » ;
un premier exemple d’estimation de résultats d’une fusion latente, selon un ensemble de modes de réalisation de l’invention ;
un deuxième exemple d’estimation de résultats d’une fusion latente, selon un ensemble de modes de réalisation de l’invention ;
un premier exemple de reconstitution multimodale de données issues de capteurs caméra, LIDAR et RADAR embarqués dans une voiture ;
un deuxième exemple de reconstitution multimodale de données issues de capteurs caméra, LIDAR et RADAR embarqués dans une voiture.
La représente un premier exemple de système de calcul selon un ensemble de modes de réalisation de l’invention.
Le système Sysa est formé d’un véhicule automobile Auta.
Le véhicule Auta est équipé d’une pluralité de capteurs Capt1, Capt2, etc ainsi que d’au moins une unité de calcul Calca.
Selon différents modes de réalisation de l’invention, une unité de calcul peut être un processeur fonctionnant selon des instructions logicielles, une configuration matérielle d'un processeur ou une combinaison de ceux-ci. Il est à noter que l'une quelconque ou toutes les fonctions décrites ici peuvent être implémentées dans une mise en œuvre matérielle pure et / ou par un processeur fonctionnant conformément aux instructions du logiciel. Il faut également comprendre que l'une quelconque ou toutes les instructions logicielles peuvent être stockées sur un support lisible par ordinateur non transitoire. Par souci de simplicité, dans le reste de la description, la ou les unités de calcul pourront être appelées «l’unité de calcul». Cependant, il est à noter que les opérations de l'invention peuvent également être effectuées dans une seule unité de calcul, ou une pluralité d’unités de calcul, par exemple une pluralité de processeurs ou un processeur multi-cœurs.
L’unité de calcul Calca est configurée pour exécuter un autoencodeur multimodal à fusion de données latente AE comprenant une pluralité de modalités. Chaque modalité de l’encodeur multimodal est respectivement associée à un capteur parmi la pluralité de capteurs Capt1, Capt2, etc. Dit autrement, les sorties de chacun des capteurs sont fournis en entrée des différentes modalités de l’autoencodeur AE.
Comme il sera expliqué plus en détails dans la suite de la description, l’un des objectifs de l’invention, et de l’autoencodeur multimodal AE, est d’obtenir une représentation latente de l’autoencodeur qui fournisse une représentation de faible dimensionnalité des données capturées par l’ensemble des capteurs.
Selon différents modes de réalisation de l’invention, différentes combinaisons de capteurs peuvent être utilisées pour ladite pluralité, comme par exemple :
  • une caméra et un LIDAR ;
  • deux caméras ayant deux angles de vue différents (par exemple, une caméra avant et une caméra arrière ;
  • des configurations supplémentaires dérivées de celles-ci-dessus avec l’utilisation aussi de RADAR et capteurs à ultrasons (UPA)
L’autoencodeur AE peut prendre en entrée des données fournies par l’ensemble des capteurs présents dans le véhicule Auta, ou seulement d’une partie d’entre eux.
Le système Sysa peut être utilisé aussi bien pour les phases d’entraînement que les phases d’inférence de l’autoencodeur AE.
Dans un ensemble de modes de réalisation de l’invention, l’au moins une unité de calcul Calca est de plus configurée pour exécuter un module de guidage autonome du véhicule Auta. Dans ce cas, l’utilisation de l’autoencodeur AE permet avantageusement d’effectuer une fusion de données des capteurs très efficace, et d’aboutir à une représentation de faible dimensionnalité de l’ensemble des données capturées par les capteurs. Cette représentation de faible dimensionnalité permet ainsi d’obtenir des caractéristiques de haut niveau sur l’environnement du véhicule, et de faciliter le guidage autonome de celui-ci.
La représente un deuxième exemple de système de calcul selon un ensemble de modes de réalisation de l’invention.
Le système Sysb est formé par un véhicule automobile Autb, et un dispositif de calcul Dispb communicant par un lien de transmission de données Transb.
Le dispositif de calcul Dispb peut être tout dispositif apte à effectuer des calculs, tels qu’un serveur, un ordinateur personnel, une tablette ou un smartphone. Le dispositif de calcul Dispb comprend au moins une unité de calcul Calcb apte à exécuter un encodeur multimodal AE. Le lien de transmission de données Transb peut être formé de tout élément permettant une liaison de données entre le véhicule automobile Autb et le dispositif de calcul Dispb. Par exemple une liaison de données de type 4G, Wi-Fi ou Bluetooth peuvent être utilisées. Le lien de transmission de données Transb permet notamment au véhicule Autb de transmettre les mesures des capteurs au dispositif de calcul Calcb pour le traitement de celles-ci.
Comme le véhicule automobile Auta de la , le véhicule automobile Autb comprend la pluralité de capteurs Capt1, Capt2, etc… associés respectivement aux modalités de l’autoencodeur AE.
La seule différence entre les systèmes Sysa et Sysb réside donc dans le fait que, dans le système Sysa, l’exécution de l’autoencodeur s’effectue dans le véhicule Auta lui-même, alors que, dans le cadre du système Sysb, elle s’effectue de manière déportée dans un dispositif distant Dispb.
Il convient de noter que les systèmes Sysa et Sysb sont fournis à titre d’exemple uniquement.
De manière plus générale, il apparaîtra dans la suite de la description qu’un autoencodeur multimodal selon l’invention est apte à effectuer une fusion de données de plusieurs sources pour aboutir à une représentation de faible dimension des données représentative de l’ensemble des sources, que les sources de données soient des capteurs ou non.
Plus particulièrement, un autoencodeur selon l’invention est apte à effectuer une fusion de mesures de capteurs. L’invention est donc applicable à une pluralité de capteurs, qu’ils soient localisés ou non dans un véhicule automobile.
L’invention est en particulier applicable à des capteurs colocalisés, c’est-à-dire localisés substantiellement au même emplacement, puisqu’une telle pluralité de capteurs mesurera des données dans un même environnement, sur lesquels une fusion de données efficace pourra être effectuée. Des capteurs colocalisés peuvent par exemple être des capteurs situés dans un même boîtier, un même véhicule, ou plus généralement des capteurs situés à proximité les uns des autres, qu’ils se situent ou non dans un véhicule automobile.
La représente un premier exemple d’autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention.
L’autoencodeur multimodal à fusion de données latente AEa comprend une pluralité de modalités Mod1, Mod2, Mod3. Bien que trois modalités soient représentées sur la , cet exemple n’est pas limitatif, et tout nombre de modalités égal ou supérieur à 2 peut être utilisé.
Chaque modalité comprend un encodeur Enc1a, Enc2a, Enc3a, encodant un vecteur d’entrée , , en un vecteur latent , , , également appelé vecteur compressé de dimension prédéfinie n, ladite dimension prédéfinie étant identique pour chaque modalité.
Par exemple :
  • la 1emodalité Mod1 comprend un encodeur Enc1a encodant un vecteur d’entrée en un vecteur latent ;
  • la 2e modalité Mod2 comprend un encodeur Enc2a encodant un vecteur d’entrée en un vecteur latent ;
  • la 3e modalité Mod3 comprend un encodeur Enc3a encodant un vecteur d’entrée en un vecteur latent ;
  • les vecteurs latents , , sont de même dimension prédéfinie n.
Les vecteurs d’entrée , , correspondent à différentes sources de données. Par exemple, le vecteur d’entrée peut correspondre aux mesures issues du capteur Capt1, et le vecteur d’entrée aux mesures issues du capteur Capt2.
Selon différents modes de réalisation de l’invention, les vecteurs d’entrée , , peuvent correspondre à des données brutes issues des capteurs et/ou à des données pré-traitées. Par exemple, un vecteur d’entrée peut correspondre à une image, ou une image sur laquelle une segmentation sémantique a été effectuée.
L’autoencodeur multimodal AEa comprend un module de fusion latente Fusa fusionnant les vecteurs latents en sortie desdits encodeurs en un vecteur fusionné de ladite dimension prédéfinie.
Dit autrement, le module de fusion latente Fusa prend en entrée vecteurs latents , , générés par les encodeurs pour chaque modalité, et les fusionne en un vecteur fusionné unique . Le vecteur fusionné fournit donc une représentation de haut niveau, et de faible dimensionnalité, de l’information contenue dans l’ensemble des vecteurs d’entrée , , .
L’autoencodeur multimodal à fusion de données AEa comprend de plus, pour chaque modalité de ladite pluralité, un décodeur Dec1b, Dec2b, Dec3b décodant le vecteur fusionné en un vecteur de sortie , , de même dimension que le vecteur d’entrée de ladite modalité.
Par exemple :
  • la 1emodalité Mod1 comprend un décodeur Dec1a décodant le vecteur fusionné en un vecteur de sortie de même dimension que le vecteur d’entrée ;
  • la 2e modalité Mod2 comprend un décodeur Dec2a décodant le vecteur fusionné en un vecteur de sortie de même dimension que le vecteur d’entrée ;
  • la 3e modalité Mod3 comprend un décodeur Dec3a décodant le vecteur fusionné en un vecteur de sortie de même dimension que le vecteur d’entrée .
Il est ici à noter que, alors que dans le cadre d’un autoencodeur classique, les vecteurs de sortie , , seraient respectivement similaires aux vecteurs d’entrée , , , dans le cadre de l’autoencodeur multimodal AEa, le vecteur fusionné est enrichi d’informations issues de l’ensemble des vecteurs d’entrée. Les valeurs de chacun des vecteurs de sortie , , dépendent donc de l’ensemble des vecteurs d’entrée , , .
Chacun des encodeurs Enc1a, Enc2a, Enc3a, et des décodeurs Dec1b, Dec2b, Dec3b est un réseau de neurones. Les caractéristiques de chacun de ces réseaux de neurones dépendent de la topologie des données d’entrée. Par exemple, des réseaux de neurones convolutionnels peuvent être utilisés, notamment pour des données image issues de caméra. L’homme de l’art pourra sans effort déterminer le type de réseau de neurones le plus adapté pour un type d’entrées donné. Dans un ensemble de modes de réalisation de l’invention, les types de réseaux de neurones suivants peuvent être utilisés :
  • Des architectures à base de réseaux pleinement connectés (en anglais Fully-Connected Networks ou FCN) ;
  • Des architectures à base de réseaux récursifs (par exemple, un réseau récurrent à mémoire court et long terme (en anglais Long Short Term Memory ou LSTM) et Réseaux de Neurones Récurrents (en anglais Recurrent Neural Networks ou RNN) ;
  • Des architectures à base de réseaux impulsionnels (en anglais Spiking Neural Networks).
Le module de fusion latente Fusa est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments correspondants des vecteurs latents desdites modalités.
Dit autrement, la valeur de chaque élément d’indice (avec si les indices des éléments sont notés 1 à ) du vecteur fusionné est choisie comme une des valeurs des éléments d’indice des vecteur latents , , . Le vecteur sélectionné pour la valeur n’est évidemment pas nécessairement le même pour chaque élément.
Par exemple, la valeur du 1eélément de peut être sélectionnée comme celle du 1eélément de , mais celle du 2eélément de peut être sélectionnée comme celle du 2eélément de , etc.
Le choix du vecteur latent dans lequel est sélectionnée la valeur d’un élément donné du vecteur fusionné peut être différent à chaque utilisation de l’autoencodeur multimodal. En particulier, la sélection peut être ré-effectuée pour chaque élément, de manière indépendante, à chaque itération d’une phase d’entrainement (ou d’apprentissage) de l’autoencodeur.
Cette sélection d’une valeur unique parmi les vecteurs latents est contre-intuitive pour l’homme de l’art. En effet, les techniques de l’état de l’art utilisent plutôt une combinaison des valeurs des éléments des vecteurs latents. Par exemple, dans l’état de l’art, la valeur d’un ieélément de pourrait être la moyenne, une moyenne pondérée, ou une combinaison plus complexe des valeurs des ie séléments de , , . Il est donc contre-intuitif pour l’homme de l’art de ne sélectionner qu’une valeur parmi celle des ie séléments de , , pour obtenir la valeur du ieélément de .
Pourtant, cette sélection d’un élément unique de , , pour former l’élément correspondant de fournit l’effet surprenant de créer, au fur et à mesure des itérations d’apprentissage, un modèle de données commun aux différentes modalités. Ainsi, au fur et à mesure de l’apprentissage, un élément i de chacun des vecteurs latents , , codera une même variable latente pour toutes les modalités, quelle que soit la source des données d’entrée des modalités.
Ainsi, l’invention permet de réaliser une fusion très efficace des données d’entrée, et des apprentissages des différentes modalités de l’autoencodeur AEa.
Dans un ensemble de modes de réalisation de l’invention, la sélection de la valeur à assigner à chaque élément du vecteur fusionné parmi les valeurs des éléments correspondants de , , s’effectue de manière aléatoire.
Ainsi, à chaque itération d’utilisation de l’autoencodeur :
  • la valeur du 1eélément de est choisie de manière aléatoire parmi les valeurs des 1eéléments de , , ;
  • la valeur du 2eélément de est choisie de manière aléatoire parmi les valeurs des 2eéléments de , , ;
  • Et ainsi de suite pour chacun des n éléments de .
Cette méthode peut être appelée « Russian roulette ».
Ceci permet, de manière particulièrement efficace, d’entraîner les encodeurs et décodeurs des différentes modalités à coder, pour chaque élément de leurs vecteurs compressés, les mêmes variables latentes. En effet, chaque itération d’entraînement prendra en compte, de manière aléatoire, une valeur issue d’un des encodeurs pour chaque élément de , ce qui permet d’entraîner les encodeurs et décodeurs de manière à ce qu’une même caractéristique soit codée pour un élément donné, quelle que soit la modalité sélectionnée.
La représente un deuxième exemple d’autoencodeur variationnel multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention.
Comme l’autoencodeur multimodal AEa, l’autoencodeur multimodal AEb comprend une pluralité de modalités, notées dans cet exemple Mod1, Mod2, Mod3, chaque modalité prenant en entrée un vecteur d’entrée , , encodé respectivement par un encodeur Enc1b, Enc2b, Enc3b en un vecteur compressé, ou latent , , , puis le module de fusion Fusb fusionne les vecteurs latents , , en un vecteur fusionné qui sera décodé pour chaque modalité par un décodeur Dec1b, Dec2b, Dec3b respectivement en un vecteur de sortie , , .
A la différence de l’autoencodeur AEa, l’autoencodeur AEb est un autoencodeur variationnel, c’est-à-dire que chaque élément des vecteurs latents , , , et du vecteur fusionné comporte, non pas une valeur unique, mais une moyenne μ et un écart-type σ définissant une distribution. Pour le décodage par les décodeurs Dec1b, Dec2b, Dec3b, une valeur est sélectionnée parmi la distribution de probabilité définie par les valeurs de moyenne μ et d’écart-type pour chaque élément de , permettant ainsi le décodage.
Dans un ensemble de modes de réalisation de l’invention, le module de fusion latente Fusb est configuré pour assigner à au moins un élément du vecteur fusionné la moyenne et l’écart-type de l’élément ayant l’écart-type le plus faible parmi les éléments correspondants des vecteurs latents desdites modalités.
Dit autrement, si l’autoencodeur comprend un nombre de modalités égal à C, les modalités sont notés par un indice i avec , et, pour un élément donné, les moyennes et écart-type pour la modalité sont notés et , alors les valeurs de moyenne et d’écart-type de cet élément pour sont choisies comme celles de l’élément correspondant de la modalité d’indice k, pour lequel l’écart-type est le plus faible :
Cette méthode peut être appelée « survival of the fittest ».
Ceci permet de sélectionner, pour chaque variable latente, la valeur correspondante ayant l’écart-type le plus faible parmi les vecteurs latents , , , et donc de disposer des valeurs les plus précises pour chaque variable latente.
La représente un exemple de méthode d’entraînement d’un autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention.
La méthode 300 est une méthode d’entraînement d’un autoencodeur multimodal à fusion de données latentes tel que les autoencodeurs AE, AEa, AEb. La méthode comprend une pluralité d’itérations des étapes suivantes.
Chaque itération comprend une première étape 310 d’encodage, par une pluralité d’encodeurs tels que les encodeurs Enc1a, Enc1b, Enc2a, Enc2b, Enc3a, Enc3b, pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée tels que le vecteur , ou en un vecteur latent tels que le vecteur , ou de dimension prédéfinie n, ladite dimension prédéfinie étant identique pour chaque modalité.
Chaque itération comprend une deuxième étape 320 de fusion latente des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné de ladite dimension prédéfinie.
Chaque itération comprend une troisième étape 330 de décodage, par une pluralité de décodeurs tels que les décodeurs Dec1a, Dec1b, Dec2a, Dec2b, Dec3a, Dec3b, pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie tel que le vecteur , ou , un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité.
Chaque itération comprend une quatrième étape 340 de calcul d’une fonction de perte, à partir des vecteurs de sortie et des vecteurs d’entrée.
La fonction de perte permet d’évaluer la perte entre les vecteurs d’entrée , , , et les vecteurs de sortie , , . Selon différents modes de réalisation de l’invention, différentes fonctions de pertes peuvent être utilisées telle que des distances euclidiennes (par exemple fonctions de type L2 ou L1) ou des fonctions liées à la perception des images (en anglais pixel perceptual loss functions).
Chaque itération comprend une cinquième étape 350 d’adaptation des encodeurs et des décodeurs, pour minimiser la fonction de perte.
Cette cinquième étape peut en particulier être réalisée par la méthode dite de rétropropagation du gradient, pour adapter les poids et biais des réseaux de neurones formant les encodeurs et décodeurs, à partir du gradient de la fonction de perte.
La méthode d’entrainement est caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
Plusieurs itérations des étapes 310, 320, 330, 340, et 350 sont effectuées afin de réaliser l’entraînement.
Selon différents modes de réalisation de l’invention, plusieurs critères peuvent être utilisés pour stopper les itérations et terminer l’entraînement. Par exemple, un nombre prédéfini d’itérations peut par exemple être effectué, les itérations peuvent se poursuivre jusqu’à ce que la fonction de perte soit inférieure à un seuil, ou jusqu’à ce que la différence entre les valeurs de la fonction de perte entre deux itérations successives soit inférieure à un seuil.
Tous les modes de réalisation discutés ci-dessus sont respectivement applicables à la méthode 300.
La représente un exemple de méthode d’utilisation d’un autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention.
La méthode d’utilisation 400 correspond à l’utilisation effective d’un autoencodeur multimodal à fusion de données latente tel que l’un des autoencodeurs AE, AEa, AEb, c’est-à-dire qu’elle correspond à une phase d’inférence.
La méthode 400 comprend une première étape 410 d’encodage, par une pluralité d’encodeurs tels que les encodeurs Enc1a, Enc1b, Enc2a, Enc2b, Enc3a, Enc3b, pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée tels que le vecteur , , en un vecteur latent tels que le vecteur , , de dimension prédéfinie n, ladite dimension prédéfinie étant identique pour chaque modalité.
La méthode 400 comprend une deuxième étape 420 de fusion latente des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné de ladite dimension prédéfinie.
La méthode 400 comprend une troisième étape 430 de décodage, par une pluralité de décodeurs tels que les décodeurs Dec1a, Dec1b, Dec2a, Dec2b, Dec3a, Dec3b, pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie tels que les vecteurs , , , un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité.
La méthode 400 est caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments des vecteurs latents encodés par ladite pluralité d’encodeurs.
Tous les modes de réalisation discutés ci-dessus sont respectivement applicables à la méthode 400.
La représente un premier exemple d’estimation de résultats d’une fusion latente, selon une méthode de l’état de l’art dite « Product of Experts » ;
La un premier exemple d’estimation de résultats d’une fusion latente, selon un ensemble de modes de réalisation de l’invention ;
La un deuxième exemple d’estimation de résultats d’une fusion latente, selon un ensemble de modes de réalisation de l’invention ;
Les graphes 500a, 500b, 500c représentent trois exemples d’estimation de résultats d’une fusion latente, respectivement pour :
  • une méthode de l’état de l’art dite « Product of Experts » dans le cas du graphe 500a ;
  • un premier exemple de mode de réalisation de l’invention, correspondant à un exemple de la figure 2b, avec un autoencodeur variationnel, où chaque élément du vecteur fusionné est choisi comme un élément correspondant des vecteurs latents ayant la variance la plus faible (méthode appelée « survival of the fittest »), dans le cas du graphe 500b ;
  • un deuxième exemple de modes de réalisation de l’invention, correspondant à un exemple de la figure 2c, avec un autoencodeur variationnel, où chaque élément du vecteur fusionné est choisi de manière aléatoire parmi les éléments correspondants des vecteurs latents (méthode appelée « russian roulette »), dans le cas du graphe 500c.
Pour ces trois exemples, les autoencodeurs ont été entraînés de la même manière (même jeu d’entraînement, nombre d’itération et fonction de perte pour l’entraînement notamment), seule la fusion latente étant modifiée entre les trois exemples.
Les graphes 500a, 500b, 500c sont basés sur le même exemple, dans lequel la position d’un jouet dans une image est estimée à partir d’images plus ou moins bruitées.
Dans chaque graphe, l’axe horizontal représente le niveau de bruitage (ou SNR, de l’anglais Signal to Noise Ratio, ou en français Radio Signal sur Bruit), en dB de l’image d’entrée, et l’axe vertical la variance des résultats, avec une échelle logarithmique. Une meilleure qualité de fusion est associée avec une variance plus faible (donc plus bas sur l’axe vertical).
Pour chaque axe, quatre courbes sont représentées :
  • Une fusion optimale théorique 540a, 540b, 540c, identique pour les trois graphes ;
  • L’évolution de la variance de la position entre l’image d’entrée bruitée, et la position véritable dans l’image non bruitée : courbes 530a, 530b, 530c, identiques pour les trois graphes ;
  • L’erreur en sortie de l’autoencodeur multimodal, par rapport à l’entrée non bruitée : courbes 520a, 520b, 520c ;
  • L’erreur en sortie de l’autoencodeur multimodal, par rapport à l’entrée bruitée : courbes 510a, 510b, 510c.
Ces exemples montrent qu’à SNR équivalent, les erreurs en sortie des autoencodeurs selon l’invention montrent une variance plus faible que les autoencodeurs selon l’état de l’art. Cet exemple démontre que l’invention permet une fusion de données latentes plus efficace que les méthodes de l’état de l’art pour un autoencodeur multimodal.
La représente un premier exemple de reconstitution multimodale de données issues de capteurs caméra, LIDAR et RADAR embarqués dans une voiture.
La représente un deuxième exemple de reconstitution multimodale de données issues de capteurs caméra, LIDAR et RADAR embarqués dans une voiture.
Dans les deux cas, une scène est capturée par trois capteurs (respectivement caméra, LIDAR et RADAR) embarqués dans une même voiture. Dans le cas de la , une première scène consiste en 3 objets devant deux murs formant un angle. Dans le cas de la , une deuxième scène contient un seul objet devant les deux mêmes murs.
Les vignettes 610a, 610b représentent le ou les objets vus par le LIDAR devant les murs. La voiture où est situé le LIDAR est située en bas à droite de cette représentation, comme indiqué par le cône de prise de vue apparent en bas des vignettes.
Les vignettes 611a, 611b représentent une image de la scène vue par une caméra embarquée dans la même de la voiture.
Les vignettes 612a, 612b représentent une vue RADAR de la même scène. Dans ce cas, la vue est une vue 2D de l’emplacement et de la forme « vue du haut » des objets. La vue est également inversée par rapport aux autres vignettes, c’est-à-dire que le « L » en bas de ces vignettes représente les deux murs, et la ou les traits le ou les objets.
Dans les deux cas une fusion de données multimodales est effectuée par un autoencodeur multimodal selon l’un des modes de réalisation de l’invention. Les vecteurs représentant les prises de vues 610a, 611a, 612a, 610b, 611b, 612b sont donc encodés en un vecteur latent pour chacune des deux scènes, puis les vecteurs latents sont décodés en des vecteurs décompressés. Dans cet exemple, chaque vecteur latent comprend 64 éléments.
Les vignettes 620a, 620b, 621a, 621b, 622a, 622b représentent respectivement les vues LIDAR, caméra et RADAR de la première et la deuxième scène telles que restituées par les vecteurs décompressés. Ces vues décompressées sont très proches des vues initiales, alors même qu’elles ont été générées à partir d’un vecteur latent comprenant une quantité d’information très réduite (64 éléments dans cet exemple).
Cet exemple démontre donc la capacité de l’invention à encoder de manière très efficace l’information issue de plusieurs capteurs, en particulier de capteurs co-localisés, et donc à réaliser une fusion de données efficace.
Les exemples ci-dessus démontrent la capacité de l’invention à permettre une fusion de données latente efficace d’un autoencodeur multimodal. Ils ne sont cependant donnés qu’à titre d’exemple et ne limitent en aucun cas la portée de l’invention, définie dans les revendications ci-dessous.

Claims (11)

  1. Autoencodeur multimodal à fusion de données latente (AE, AEa, AEb) comprenant :
    • une pluralité de modalités (Mod1, Mod2, Mod3) ;
    • une pluralité d’encodeurs (Enc1a, Enc1b, Enc2a, Enc2b, Enc3a, Enc3b) encodant, pour chaque modalité de ladite pluralité respectivement, un vecteur d’entrée ( , , ) en un vecteur latent ( , , ) de dimension prédéfinie (n), ladite dimension prédéfinie étant identique pour chaque modalité ;
    • un module de fusion latente (Fusa, Fusb) fusionnant les vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné ( ) de ladite dimension prédéfinie ;
    • une pluralité de décodeurs (Dec1a, Dec1b, Dec2a, Dec2b, Dec3a, Dec3b) décodant, pour chaque modalité de ladite pluralité de modalités respectivement, ledit vecteur fusionné en un vecteur de sortie ( , , ), un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité;
    ledit autoencodeur multimodal étant caractérisé en ce que le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
  2. Autoencodeur multimodal à fusion de données latente selon la revendication 1, dans lequel le module de fusion latente (Fusa) est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée de manière aléatoire parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
  3. Autoencodeur multimodal à fusion de données latente selon la revendication 1, dans lequel l’autoencodeur est un autoencodeur variationnel, et chaque élément d’un desdits vecteurs latents ( , , ) encodés par ladite pluralité d’encodeurs, et du vecteur fusionné ( ) est formé d’une moyenne et d’un écart-type.
  4. Autoencodeur multimodal à fusion de données latente selon la revendication 3, dans lequel le module de fusion latente (Fusb) est configuré pour assigner à au moins un élément du vecteur fusionné la moyenne et l’écart-type de l’élément ayant l’écart-type le plus faible parmi les éléments correspondants desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
  5. Autoencodeur selon l’une quelconque des revendications précédentes, dans laquelle chaque encodeur de chaque modalité de ladite pluralité de modalités prend en entrée des mesures de chaque capteur d’une pluralité de capteurs respectivement (Capt1, Capt2).
  6. Autoencodeur selon la revendication 5, dans lequel les capteurs de ladite pluralité de capteurs sont co-localisés.
  7. Autoencodeur selon la revendication 6, dans les capteurs de ladite pluralité de capteurs sont localisés dans un véhicule automobile (Auta, Autb).
  8. Méthode (300) d’entraînement d’un autoencodeur multimodal à fusion de données latente (AE, AEa, AEb) comprenant une pluralité de modalités (Mod1, Mod2, Mod3), ladite méthode comprenant plusieurs itérations d’entraînement, chaque itération d’entraînement comprenant :
    • l’encodage (310), par une pluralité d’encodeurs (Enc1a, Enc1b, Enc2a, Enc2b, Enc3a, Enc3b), pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée ( , , ) en un vecteur latent ( , , ) de dimension prédéfinie (n), ladite dimension prédéfinie étant identique pour chaque modalité ;
    • la fusion latente (320) des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné ( ) de ladite dimension prédéfinie ;
    • le décodage (330), par une pluralité de décodeurs (Dec1a, Dec1b, Dec2a, Dec2b, Dec3a, Dec3b), pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie ( , , ), un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ;
    • le calcul (340) d’une fonction de perte, à partir des vecteurs de sortie et des vecteurs d’entrée ;
    • l’adaptation (350) des encodeurs et des décodeurs, pour minimiser ladite fonction de perte ;
    ladite méthode d’entraînement étant caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
  9. Méthode (400) d’utilisation d’un autoencodeur multimodal à fusion de données latente (AE, AEa, AEb) comprenant une pluralité de modalités (Mod1, Mod2, Mod3), ladite méthode comprenant :
    • l’encodage (410), par une pluralité d’encodeurs (Enc1a, Enc1b, Enc2a, Enc2b, Enc3a, Enc3b), pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée ( , , ) en un vecteur latent ( , , ) de dimension prédéfinie (n), ladite dimension prédéfinie étant identique pour chaque modalité ;
    • la fusion latente (420) des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné ( ) de ladite dimension prédéfinie ;
    • le décodage (430), par une pluralité de décodeurs (Dec1a, Dec1b, Dec2a, Dec2b, Dec3a, Dec3b), pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie ( , , ), un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ;
    ladite méthode d’utilisation étant caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
  10. Programme d’ordinateur comprenant des instructions de code de programme enregistrées sur un support lisible par ordinateur, lesdites instructions de code de programme étant configurées, lorsque ledit programme fonctionne sur un ordinateur pour exécuter une méthode selon l’une des revendications 8 ou 9.
  11. Système de calcul (Sysa, Sysb) comprenant :
    • une pluralité de capteurs (Capt1, Capt2…) ;
    • au moins une unité de calcul (Calca, Calcb) configurée pour exécuter un autoencodeur multimodal à fusion de données latente (AE, AEa, AEb) selon l’une des revendications 1 à 7, chaque capteur de ladite pluralité étant respectivement associé à une modalité de la pluralité de modalités de l’autoencodeur.
FR2103265A 2021-03-30 2021-03-30 Autoencodeur multimodal a fusion de donnees latente amelioree Active FR3121535B1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR2103265A FR3121535B1 (fr) 2021-03-30 2021-03-30 Autoencodeur multimodal a fusion de donnees latente amelioree
PCT/EP2022/058163 WO2022207573A1 (fr) 2021-03-30 2022-03-28 Autoencodeur multimodal a fusion de donnees latente amelioree
EP22719247.3A EP4315170A1 (fr) 2021-03-30 2022-03-28 Autoencodeur multimodal a fusion de donnees latente amelioree

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2103265A FR3121535B1 (fr) 2021-03-30 2021-03-30 Autoencodeur multimodal a fusion de donnees latente amelioree
FR2103265 2021-03-30

Publications (2)

Publication Number Publication Date
FR3121535A1 true FR3121535A1 (fr) 2022-10-07
FR3121535B1 FR3121535B1 (fr) 2024-05-24

Family

ID=76601315

Family Applications (1)

Application Number Title Priority Date Filing Date
FR2103265A Active FR3121535B1 (fr) 2021-03-30 2021-03-30 Autoencodeur multimodal a fusion de donnees latente amelioree

Country Status (3)

Country Link
EP (1) EP4315170A1 (fr)
FR (1) FR3121535B1 (fr)
WO (1) WO2022207573A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230140656A1 (en) * 2021-10-28 2023-05-04 Aramco Overseas Company B.V. Method and system for determining seismic processing parameters using machine learning

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DEISENROTH, M.NG, J. W.: "Dis-tributed gaussian processes", INTERNATIONAL CONFÉRENCE ON MACHINE LEARNING, June 2015 (2015-06-01), pages 1481 - 1490
DIEDERIK P. KINGMAVOLODYMYR KULESHOV: "Stochastic Gradient Variational Bayes and the Variational Autoencoder", ICLR, 2014, pages 1 - 4
EVANGELOPOULOS GEORGIOS ET AL: "Multimodal Saliency and Fusion for Movie Summarization Based on Aural, Visual, and Textual Attention", IEEE TRANSACTIONS ON MULTIMEDIA, IEEE, USA, vol. 15, no. 7, 1 November 2013 (2013-11-01), pages 1553 - 1568, XP011529375, ISSN: 1520-9210, [retrieved on 20131011], DOI: 10.1109/TMM.2013.2267205 *
JEAN-FRAN\C{C}OIS TREMBLAY ET AL: "Multimodal dynamics modeling for off-road autonomous vehicles", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 29 March 2021 (2021-03-29), XP081900555 *
JUN-HO CHOI ET AL: "EmbraceNet: A robust deep learning architecture for multimodal classification", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 19 April 2019 (2019-04-19), XP081171411, DOI: 10.1016/J.INFFUS.2019.02.010 *
KINGMA, D. P.WELLING, M.: "Auto-encoding variational bayes", ARXIV PREPRINT ARXIV:1312.6114, 2013

Also Published As

Publication number Publication date
FR3121535B1 (fr) 2024-05-24
WO2022207573A1 (fr) 2022-10-06
EP4315170A1 (fr) 2024-02-07

Similar Documents

Publication Publication Date Title
EP3301617B1 (fr) Procédés d'apprentissage sécurisé de paramètres d'un réseau de neurones à convolution, et de classification sécurisée d'une donnée d'entrée
Zhang et al. FAMED-Net: A fast and accurate multi-scale end-to-end dehazing network
KR102141163B1 (ko) Sar 영상 생성을 위한 뉴럴 네크워크 학습 방법 및 장치.
US10929676B2 (en) Video recognition using multiple modalities
FR3112007A1 (fr) Procédé et appareil d’entraînement de modèle, et procédé et appareil de prédiction
WO2016079179A1 (fr) Procede et dispositif de filtrage adaptatif temps reel d'images de disparite ou de profondeur bruitees
Swami et al. Candy: Conditional adversarial networks based fully end-to-end system for single image haze removal
EP4315170A1 (fr) Autoencodeur multimodal a fusion de donnees latente amelioree
CN111950251A (zh) 测量给定ai任务的数据集的相似性的方法
FR3112413A1 (fr) Dispositif électronique et procédé de traitement de données à base de réseaux génératifs inversibles, système électronique de détection et programme d’ordinateur associés
EP0447306B1 (fr) Dispositif de reconnaissance de séquences dans un signal multidimensionnel
EP4202770A1 (fr) Reseau de neurones avec generation a la volee des parametres du reseau
US20230410255A1 (en) Decreased quantization latency
EP2943935B1 (fr) Estimation de mouvement d'une image
EP2804129A1 (fr) Procédé de reconnaissance vocale visuelle avec sélection de groupes de points d'intérêts les plus pertinents
EP3797509B1 (fr) Traitement d'un bruit impulsionnel dans une séquence vidéo
WO2020157733A1 (fr) Procédé dynamique d'imagerie tridimensionnelle
FR3104291A1 (fr) Procédé et système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs et N réseaux de neurones encodeurs dédiés
Fabbri Enhancing Visual Perception in Noisy Environments using Generative Adversarial Networks
EP4150574B1 (fr) Procédé de traitement d'images
US20230056657A1 (en) System and method of dual-pixel image synthesis and image background manipulation
FR3138718A1 (fr) Dispositif électronique et procédé de traitement de données comportant au moins un modèle d’intelligence artificielle auto-adaptatif avec apprentissage local, système électronique et programme d’ordinateur associés
EP4191530A1 (fr) Procédé de localisation et cartographie simultanées intégrant un masquage temporel auto-supervisé et modèle d'apprentissage automatique pour générer un tel masquage
FR3120173A1 (fr) Détermination d’au moins un mode de codage d’image ou d’au moins un mode de décodage d’image, codage et décodage d’image utilisant une telle détermination
Константинов NEURAL NETWORKS FOR DETERMINING THE OPTICAL FLOW

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20221007

PLFP Fee payment

Year of fee payment: 3

CA Change of address

Effective date: 20230512

PLFP Fee payment

Year of fee payment: 4