FR3121535A1

FR3121535A1 - Autoencodeur multimodal a fusion de donnees latente amelioree

Info

Publication number: FR3121535A1
Application number: FR2103265A
Authority: FR
Inventors: Andrea Ancora; Matthieu DA-SILVA-FILARDER; Maxime DEROME; Pietro MICHIARDI
Original assignee: Renault SAS
Current assignee: Renault SAS
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2022-10-07
Anticipated expiration: 2041-03-30
Also published as: EP4315170A1; WO2022207573A1; FR3121535B1

Abstract

L’invention concerne un autoencodeur multimodal à fusion de données latente comprenant : une pluralité de modalités ; une pluralité d’encodeurs encodant, pour chaque modalité de ladite pluralité respectivement, un vecteur d’entrée d’une pluralité de vecteurs d’entrée en un vecteur latent d’une pluralité de vecteur latents de dimension prédéfini, ladite dimension prédéfinie étant identique pour chaque modalité ; un module de fusion latente fusionnant ladite pluralité de vecteurs latents en un vecteur fusionné de ladite dimension prédéfinie ; une pluralité de décodeurs décodant, pour chaque modalité de ladite pluralité de modalités respectivement, ledit vecteur fusionné en un vecteur de sortie d’une pluralité de vecteurs de sortie, un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité; ledit autoencodeur multimodal étant caractérisé en ce que le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments correspondants de ladite pluralité de vecteurs latents. Figure pour l’abrégé : Fig. 2a

Description

AUTOENCODEUR MULTIMODAL A FUSION DE DONNEES LATENTE AMELIOREE

Domaine de l’invention

La présente invention concerne le domaine de l’apprentissage machine. Plus spécifiquement, l’invention concerne le domaine des autoencodeurs.
Etat de l’art précédent.

Dans de nombreux domaines, le déploiement massif de capteurs variés permet d’envisager le déploiement de systèmes décisionnels autonomes. Par exemple, dans le domaine automobile, de nombreuses recherches portent sur le développement de véhicules autonomes, dans lesquels la sortie de divers capteurs (caméras, LIDARS…) est analysée pour déterminer quelle est la situation environnante, et conduire le véhicule automatiquement.

Dans ce cadre, l’analyse et le traitement d’une masse extrêmement importante de données capturées par les capteurs est essentielle. En particulier, un objectif permanent de recherche dans ce domaine consiste à obtenir, à partir des données brutes issues des capteurs, une représentation de l’environnement pouvant être intégrée dans une chaîne de prise de décision. Les techniques dites d’apprentissage machine sont de plus en plus largement utilisées dans ce cadre.

Les autoencodeurs sont une technique récente permettant de transformer une source de données complexe en une représentation de haut niveau. Les autoencodeurs sont un type de réseaux de neurones artificiels entrainés pour effectuer un codage de données efficace de manière non supervisée.

Un autoencodeur consiste en un premier réseau de neurones, qui encode un vecteur d’entrée généralement noté en un vecteur compressé (également appelé vecteur latent) généralement noté , et un deuxième réseau de neurones qui décode le vecteur compressé en un vecteur décompressé ou reconstruit généralement noté , aussi proche que possible du vecteur d’entrée. Le vecteur compressé a une dimensionnalité inférieure à celle du vecteur d’entrée et du vecteur reconstruit : il est exprimé par des variables appelées variables latentes, qui sont considérées comme définissant les caractéristiques essentielles du vecteur. Ainsi, le vecteur décompressé est similaire, mais en général pas strictement identique au vecteur d’entrée Les autoencodeurs permettent typiquement une réduction de dimensionnalité de la donnée très efficace, permettant d’ignorer le « bruit » d’un signal. Le vecteur compressé et les variables latentes peuvent être considérés comme contenant des informations de très haut niveau. Par exemple, si le vecteur d’entrée est une image, les éléments du vecteur compressé peuvent indiquer différents types d’objets présents dans l’image.

Une évolution des autoencodeurs, appelée autoencodeurs variationnels, consiste à représenter chaque caractéristique du vecteur compressé non pas comme une valeur unique, mais comme une distribution de probabilité définie par une moyenne μ et un écart-type σ. Au décodage, une valeur est sélectionnée, pour chaque caractéristique, en fonction de la distribution de probabilité. Ainsi un modèle génératif est obtenu, puisque, pour un même vecteur d’entrée , un grand nombre de vecteurs décompressés peuvent être générés. Les autoencodeurs variationnels sont décrits par exemple par Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, or Diederik P. Kingma and Volodymyr Kuleshov. Stochastic Gradient Variational Bayes and the Variational Autoencoder. In ICLR, pp. 1–4, 2014.

Une nouvelle catégorie d’autoencodeurs est appelée autoencodeurs multimodaux, les autoencodeurs multimodaux sont notamment décrits par Wu, M., & Goodman, N. (2018). Multimodal generative models for scalable weakly-supervised learning.arXiv preprint arXiv:1802.05335. Un autoencodeur multimodal est constitué d’une pluralité de modalités, chaque modalité comportant un encodeur et un décodeur. Chaque encodeur encode un vecteur d’entrée distinct en un vecteur compressé, puis les vecteurs compressés fournis par chacune des modalités sont fusionnés en un vecteur compressé fusionné unique pour toutes les modalités. Ensuite, chaque décodeur de chaque modalité décode le vecteur compressé fusionné en un vecteur décompressé propre à chaque modalité. Un autoencodeur multimodal peut également être, ou non, un autoencodeur variationnel.

L’objectif des autoencodeurs multimodaux est d’entraîner de manière conjointe les encodeurs et décodeurs des différentes modalités, pour parvenir à extraire des variables latentes synthétisant les informations fournies par l’ensemble des modalités. Par exemple, les différentes modalités peuvent correspondre à des données fournies par différents capteurs à un même instant (par exemple, une trame RGB fournie par caméra en modalité 1, un nuage de points LIDAR en modalité 2 ; ou une trame RGB fournie par une caméra avant d’un véhicule en modalité 1, une trame RGB fournie par une caméra avant d’un véhicule en modalité 2, etc). Les autoencodeurs multimodaux permettent ainsi, lorsqu’ils sont appliqués à des sorties de données capteurs, d’effectuer une fusion des données capteurs permettant d’aboutir à une représentation commune du monde par les différents capteurs. Les variables latentes du vecteur compressé fusionnés sont ainsi particulièrement pertinentes pour synthétiser les données fournies par les capteurs dans le cadre d’un système de prise de décision, par exemple un véhicule autonome.

Parmi les différents types de fusion de données envisagées, la combinaison par composants consiste à obtenir les valeurs de chaque élément du vecteur compressé fusionné en combinant les éléments correspondants des vecteurs compressés de chaque modalité, c’est-à-dire que tous les vecteurs compressés des modalités, et fusionnés ont la même dimension, et le 1^eélément du vecteur fusionné est obtenu en combinant tous les 1^eéléments des vecteurs compressés des modalités, le 2^eélément du vecteur fusionné est obtenu en combinant tous les 2^eéléments des vecteurs compressés des modalités, etc. L’utilisation d’une combinaison par composant présente l’avantage de conserver un espace latent fusionné de taille limité, tout limitant la complexité de calcul, qui sera proportionnelle à C * N (où C est le nombre d’éléments des vecteurs compressés et fusionnés, et N le nombre de modalités).

Plusieurs méthodes de fusion par modalités ont été proposées, notamment la méthode dite « Product of Experts » (PoE, en français « Produit des experts ») décrite par Wu, M., & Goodman, N. (2018). Multimodal generative models for scalable weakly-supervised learning.arXiv preprint arXiv:1802.05335, la méthode dite « Mixture of Experts (MoE, en français « mélange des experts ») décrite par Shi, Y., Siddharth, N., Paige, B., & Torr, P. H. (2019). Variational mixture-of-experts autoencoders for multi-modal deep generative models.arXiv preprint arXiv:1911.03393., et la méthode dite « Robust Bayesian Committe Machines » (en français « Machines de comité bayesiennes robustes ») décrite par Deisenroth, M., & Ng, J. W. (2015, June). Distributed gaussian processes. InInternational Conference on Machine Learning(pp. 1481-1490). PMLR.

Cependant, la capacité des méthodes connues de fusion par modalité à obtenir une fusion efficace des variables latentes demeure limitée.

Il y a donc besoin d’un autoencodeur multimodal permettant une fusion efficace des variables latentes.
Résumé de l’invention.

A cet effet, l’invention a pour objet un autoencodeur multimodal à fusion de données latente comprenant : une pluralité de modalités; une pluralité d’encodeurs encodant, pour chaque modalité de ladite pluralité respectivement, un vecteur d’entrée en un vecteur latent de dimension prédéfinie, ladite dimension prédéfinie étant identique pour chaque modalité ; un module de fusion latente fusionnant les vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné de ladite dimension prédéfinie ; une pluralité de décodeurs décodant, pour chaque modalité de ladite pluralité de modalités respectivement, ledit vecteur fusionné en un vecteur de sortie, un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ; ledit autoencodeur multimodal étant caractérisé en ce que le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.

Avantageusement, le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée de manière aléatoire parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.

Avantageusement, l’autoencodeur est un autoencodeur variationnel, et chaque élément d’un desdits vecteurs latents encodés par ladite pluralité d’encodeurs, et du vecteur fusionné est formé d’une moyenne et d’un écart-type.

Avantageusement, le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné la moyenne et l’écart-type de l’élément ayant l’écart-type le plus faible parmi les éléments correspondants desdits vecteurs latents encodés par ladite pluralité d’encodeurs.

Avantageusement, chaque encodeur de chaque modalité de ladite pluralité de modalités prend en entrée des mesures de chaque capteur d’une pluralité de capteurs respectivement.

Avantageusement, les capteurs de ladite pluralité de capteurs sont co-localisés.

Avantageusement, les capteurs de ladite pluralité de capteurs sont localisés dans un véhicule automobile.

L’invention a également pour objet une méthode d’entraînement d’un autoencodeur multimodal à fusion de données latente comprenant une pluralité de modalités, ladite méthode comprenant plusieurs itérations d’entraînement, chaque itération d’entraînement comprenant: l’encodage, par une pluralité d’encodeurs, pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée en un vecteur latent de dimension prédéfinie, ladite dimension prédéfinie étant identique pour chaque modalité ; la fusion latente des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné de ladite dimension prédéfinie ; le décodage, par une pluralité de décodeurs, pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie, un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ; le calcul d’une fonction de perte, à partir des vecteurs de sortie et des vecteurs d’entrée ; l’adaptation des encodeurs et des décodeurs, pour minimiser ladite fonction de perte ; ladite méthode d’entraînement étant caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.

L’invention a également pour objet une méthode d’utilisation d’un autoencodeur multimodal à fusion de données latente comprenant une pluralité de modalités, ladite méthode comprenant : l’encodage, par une pluralité d’encodeurs, pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée en un vecteur latent de dimension prédéfinie, ladite dimension prédéfinie étant identique pour chaque modalité ; la fusion latente des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné de ladite dimension prédéfinie ; le décodage, par une pluralité de décodeurs, pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie ,un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ; ladite méthode d’utilisation étant caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.

L’invention a également pour objet un programme d’ordinateur comprenant des instructions de code de programme enregistrées sur un support lisible par ordinateur, lesdites instructions de code de programme étant configurées, lorsque ledit programme fonctionne sur un ordinateur pour exécuter une méthode selon l’un des modes de réalisation de l’invention.

L’invention a également pour objet un système de calcul comprenant : une pluralité de capteurs ; au moins une unité de calcul configurée pour exécuter un autoencodeur multimodal à fusion de données latente selon l’un des modes de réalisation de l’invention, chaque capteur de ladite pluralité étant respectivement associé à une modalité de la pluralité de modalités de l’autoencodeur.

D’autres caractéristiques, détails et avantages de l’invention ressortiront à la lecture de la description faite en référence aux dessins annexés donnés à titre d’exemple et qui représentent, respectivement :

un premier exemple de système de calcul selon un ensemble de modes de réalisation de l’invention ;

un deuxième exemple de système de calcul selon un ensemble de modes de réalisation de l’invention ;

un premier exemple d’autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention ;

un deuxième exemple d’autoencodeur variationnel multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention ;

un exemple de méthode d’entraînement d’un autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention ;

un exemple de méthode d’utilisation d’un autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention ;

un premier exemple d’estimation de résultats d’une fusion latente, selon une méthode de l’état de l’art dite « Product of Experts » ;

un premier exemple d’estimation de résultats d’une fusion latente, selon un ensemble de modes de réalisation de l’invention ;

un deuxième exemple d’estimation de résultats d’une fusion latente, selon un ensemble de modes de réalisation de l’invention ;

un premier exemple de reconstitution multimodale de données issues de capteurs caméra, LIDAR et RADAR embarqués dans une voiture ;

un deuxième exemple de reconstitution multimodale de données issues de capteurs caméra, LIDAR et RADAR embarqués dans une voiture.

La représente un premier exemple de système de calcul selon un ensemble de modes de réalisation de l’invention.

Le système Sysa est formé d’un véhicule automobile Auta.

Le véhicule Auta est équipé d’une pluralité de capteurs Capt1, Capt2, etc ainsi que d’au moins une unité de calcul Calca.

Selon différents modes de réalisation de l’invention, une unité de calcul peut être un processeur fonctionnant selon des instructions logicielles, une configuration matérielle d'un processeur ou une combinaison de ceux-ci. Il est à noter que l'une quelconque ou toutes les fonctions décrites ici peuvent être implémentées dans une mise en œuvre matérielle pure et / ou par un processeur fonctionnant conformément aux instructions du logiciel. Il faut également comprendre que l'une quelconque ou toutes les instructions logicielles peuvent être stockées sur un support lisible par ordinateur non transitoire. Par souci de simplicité, dans le reste de la description, la ou les unités de calcul pourront être appelées «l’unité de calcul». Cependant, il est à noter que les opérations de l'invention peuvent également être effectuées dans une seule unité de calcul, ou une pluralité d’unités de calcul, par exemple une pluralité de processeurs ou un processeur multi-cœurs.

L’unité de calcul Calca est configurée pour exécuter un autoencodeur multimodal à fusion de données latente AE comprenant une pluralité de modalités. Chaque modalité de l’encodeur multimodal est respectivement associée à un capteur parmi la pluralité de capteurs Capt1, Capt2, etc. Dit autrement, les sorties de chacun des capteurs sont fournis en entrée des différentes modalités de l’autoencodeur AE.

Comme il sera expliqué plus en détails dans la suite de la description, l’un des objectifs de l’invention, et de l’autoencodeur multimodal AE, est d’obtenir une représentation latente de l’autoencodeur qui fournisse une représentation de faible dimensionnalité des données capturées par l’ensemble des capteurs.

Selon différents modes de réalisation de l’invention, différentes combinaisons de capteurs peuvent être utilisées pour ladite pluralité, comme par exemple :

une caméra et un LIDAR ;
deux caméras ayant deux angles de vue différents (par exemple, une caméra avant et une caméra arrière ;
des configurations supplémentaires dérivées de celles-ci-dessus avec l’utilisation aussi de RADAR et capteurs à ultrasons (UPA)

L’autoencodeur AE peut prendre en entrée des données fournies par l’ensemble des capteurs présents dans le véhicule Auta, ou seulement d’une partie d’entre eux.

Le système Sysa peut être utilisé aussi bien pour les phases d’entraînement que les phases d’inférence de l’autoencodeur AE.

Dans un ensemble de modes de réalisation de l’invention, l’au moins une unité de calcul Calca est de plus configurée pour exécuter un module de guidage autonome du véhicule Auta. Dans ce cas, l’utilisation de l’autoencodeur AE permet avantageusement d’effectuer une fusion de données des capteurs très efficace, et d’aboutir à une représentation de faible dimensionnalité de l’ensemble des données capturées par les capteurs. Cette représentation de faible dimensionnalité permet ainsi d’obtenir des caractéristiques de haut niveau sur l’environnement du véhicule, et de faciliter le guidage autonome de celui-ci.

La représente un deuxième exemple de système de calcul selon un ensemble de modes de réalisation de l’invention.

Le système Sysb est formé par un véhicule automobile Autb, et un dispositif de calcul Dispb communicant par un lien de transmission de données Transb.

Le dispositif de calcul Dispb peut être tout dispositif apte à effectuer des calculs, tels qu’un serveur, un ordinateur personnel, une tablette ou un smartphone. Le dispositif de calcul Dispb comprend au moins une unité de calcul Calcb apte à exécuter un encodeur multimodal AE. Le lien de transmission de données Transb peut être formé de tout élément permettant une liaison de données entre le véhicule automobile Autb et le dispositif de calcul Dispb. Par exemple une liaison de données de type 4G, Wi-Fi ou Bluetooth peuvent être utilisées. Le lien de transmission de données Transb permet notamment au véhicule Autb de transmettre les mesures des capteurs au dispositif de calcul Calcb pour le traitement de celles-ci.

Comme le véhicule automobile Auta de la , le véhicule automobile Autb comprend la pluralité de capteurs Capt1, Capt2, etc… associés respectivement aux modalités de l’autoencodeur AE.

La seule différence entre les systèmes Sysa et Sysb réside donc dans le fait que, dans le système Sysa, l’exécution de l’autoencodeur s’effectue dans le véhicule Auta lui-même, alors que, dans le cadre du système Sysb, elle s’effectue de manière déportée dans un dispositif distant Dispb.

Il convient de noter que les systèmes Sysa et Sysb sont fournis à titre d’exemple uniquement.

De manière plus générale, il apparaîtra dans la suite de la description qu’un autoencodeur multimodal selon l’invention est apte à effectuer une fusion de données de plusieurs sources pour aboutir à une représentation de faible dimension des données représentative de l’ensemble des sources, que les sources de données soient des capteurs ou non.

Plus particulièrement, un autoencodeur selon l’invention est apte à effectuer une fusion de mesures de capteurs. L’invention est donc applicable à une pluralité de capteurs, qu’ils soient localisés ou non dans un véhicule automobile.

L’invention est en particulier applicable à des capteurs colocalisés, c’est-à-dire localisés substantiellement au même emplacement, puisqu’une telle pluralité de capteurs mesurera des données dans un même environnement, sur lesquels une fusion de données efficace pourra être effectuée. Des capteurs colocalisés peuvent par exemple être des capteurs situés dans un même boîtier, un même véhicule, ou plus généralement des capteurs situés à proximité les uns des autres, qu’ils se situent ou non dans un véhicule automobile.

La représente un premier exemple d’autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention.

L’autoencodeur multimodal à fusion de données latente AEa comprend une pluralité de modalités Mod1, Mod2, Mod3. Bien que trois modalités soient représentées sur la , cet exemple n’est pas limitatif, et tout nombre de modalités égal ou supérieur à 2 peut être utilisé.

Chaque modalité comprend un encodeur Enc1a, Enc2a, Enc3a, encodant un vecteur d’entrée , , en un vecteur latent , , , également appelé vecteur compressé de dimension prédéfinie n, ladite dimension prédéfinie étant identique pour chaque modalité.

Par exemple :

la 1^emodalité Mod1 comprend un encodeur Enc1a encodant un vecteur d’entrée en un vecteur latent ;
la 2emodalité Mod2 comprend un encodeur Enc2a encodant un vecteur d’entrée en un vecteur latent ;
la 3emodalité Mod3 comprend un encodeur Enc3a encodant un vecteur d’entrée en un vecteur latent ;
les vecteurs latents , , sont de même dimension prédéfinie n.

Les vecteurs d’entrée , , correspondent à différentes sources de données. Par exemple, le vecteur d’entrée peut correspondre aux mesures issues du capteur Capt1, et le vecteur d’entrée aux mesures issues du capteur Capt2.

Selon différents modes de réalisation de l’invention, les vecteurs d’entrée , , peuvent correspondre à des données brutes issues des capteurs et/ou à des données pré-traitées. Par exemple, un vecteur d’entrée peut correspondre à une image, ou une image sur laquelle une segmentation sémantique a été effectuée.

L’autoencodeur multimodal AEa comprend un module de fusion latente Fusa fusionnant les vecteurs latents en sortie desdits encodeurs en un vecteur fusionné de ladite dimension prédéfinie.

Dit autrement, le module de fusion latente Fusa prend en entrée vecteurs latents , , générés par les encodeurs pour chaque modalité, et les fusionne en un vecteur fusionné unique . Le vecteur fusionné fournit donc une représentation de haut niveau, et de faible dimensionnalité, de l’information contenue dans l’ensemble des vecteurs d’entrée , , .

L’autoencodeur multimodal à fusion de données AEa comprend de plus, pour chaque modalité de ladite pluralité, un décodeur Dec1b, Dec2b, Dec3b décodant le vecteur fusionné en un vecteur de sortie , , de même dimension que le vecteur d’entrée de ladite modalité.

Par exemple :

la 1^emodalité Mod1 comprend un décodeur Dec1a décodant le vecteur fusionné en un vecteur de sortie de même dimension que le vecteur d’entrée ;
la 2emodalité Mod2 comprend un décodeur Dec2a décodant le vecteur fusionné en un vecteur de sortie de même dimension que le vecteur d’entrée ;
la 3emodalité Mod3 comprend un décodeur Dec3a décodant le vecteur fusionné en un vecteur de sortie de même dimension que le vecteur d’entrée .

Il est ici à noter que, alors que dans le cadre d’un autoencodeur classique, les vecteurs de sortie , , seraient respectivement similaires aux vecteurs d’entrée , , , dans le cadre de l’autoencodeur multimodal AEa, le vecteur fusionné est enrichi d’informations issues de l’ensemble des vecteurs d’entrée. Les valeurs de chacun des vecteurs de sortie , , dépendent donc de l’ensemble des vecteurs d’entrée , , .

Chacun des encodeurs Enc1a, Enc2a, Enc3a, et des décodeurs Dec1b, Dec2b, Dec3b est un réseau de neurones. Les caractéristiques de chacun de ces réseaux de neurones dépendent de la topologie des données d’entrée. Par exemple, des réseaux de neurones convolutionnels peuvent être utilisés, notamment pour des données image issues de caméra. L’homme de l’art pourra sans effort déterminer le type de réseau de neurones le plus adapté pour un type d’entrées donné. Dans un ensemble de modes de réalisation de l’invention, les types de réseaux de neurones suivants peuvent être utilisés :

Des architectures à base de réseaux pleinement connectés (en anglais Fully-Connected Networks ou FCN) ;
Des architectures à base de réseaux récursifs (par exemple, un réseau récurrent à mémoire court et long terme (en anglais Long Short Term Memory ou LSTM) et Réseaux de Neurones Récurrents (en anglais Recurrent Neural Networks ou RNN) ;
Des architectures à base de réseaux impulsionnels (en anglais Spiking Neural Networks).

Le module de fusion latente Fusa est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments correspondants des vecteurs latents desdites modalités.

Dit autrement, la valeur de chaque élément d’indice (avec si les indices des éléments sont notés 1 à ) du vecteur fusionné est choisie comme une des valeurs des éléments d’indice des vecteur latents , , . Le vecteur sélectionné pour la valeur n’est évidemment pas nécessairement le même pour chaque élément.

Par exemple, la valeur du 1^eélément de peut être sélectionnée comme celle du 1^eélément de , mais celle du 2^eélément de peut être sélectionnée comme celle du 2^eélément de , etc.

Le choix du vecteur latent dans lequel est sélectionnée la valeur d’un élément donné du vecteur fusionné peut être différent à chaque utilisation de l’autoencodeur multimodal. En particulier, la sélection peut être ré-effectuée pour chaque élément, de manière indépendante, à chaque itération d’une phase d’entrainement (ou d’apprentissage) de l’autoencodeur.

Cette sélection d’une valeur unique parmi les vecteurs latents est contre-intuitive pour l’homme de l’art. En effet, les techniques de l’état de l’art utilisent plutôt une combinaison des valeurs des éléments des vecteurs latents. Par exemple, dans l’état de l’art, la valeur d’un i^eélément de pourrait être la moyenne, une moyenne pondérée, ou une combinaison plus complexe des valeurs des i^e ^séléments de , , . Il est donc contre-intuitif pour l’homme de l’art de ne sélectionner qu’une valeur parmi celle des i^e ^séléments de , , pour obtenir la valeur du i^eélément de .

Pourtant, cette sélection d’un élément unique de , , pour former l’élément correspondant de fournit l’effet surprenant de créer, au fur et à mesure des itérations d’apprentissage, un modèle de données commun aux différentes modalités. Ainsi, au fur et à mesure de l’apprentissage, un élément i de chacun des vecteurs latents , , codera une même variable latente pour toutes les modalités, quelle que soit la source des données d’entrée des modalités.

Ainsi, l’invention permet de réaliser une fusion très efficace des données d’entrée, et des apprentissages des différentes modalités de l’autoencodeur AEa.

Dans un ensemble de modes de réalisation de l’invention, la sélection de la valeur à assigner à chaque élément du vecteur fusionné parmi les valeurs des éléments correspondants de , , s’effectue de manière aléatoire.

Ainsi, à chaque itération d’utilisation de l’autoencodeur :

la valeur du 1^eélément de est choisie de manière aléatoire parmi les valeurs des 1^eéléments de , , ;
la valeur du 2^eélément de est choisie de manière aléatoire parmi les valeurs des 2^eéléments de , , ;
Et ainsi de suite pour chacun des n éléments de .

Cette méthode peut être appelée « Russian roulette ».

Ceci permet, de manière particulièrement efficace, d’entraîner les encodeurs et décodeurs des différentes modalités à coder, pour chaque élément de leurs vecteurs compressés, les mêmes variables latentes. En effet, chaque itération d’entraînement prendra en compte, de manière aléatoire, une valeur issue d’un des encodeurs pour chaque élément de , ce qui permet d’entraîner les encodeurs et décodeurs de manière à ce qu’une même caractéristique soit codée pour un élément donné, quelle que soit la modalité sélectionnée.

La représente un deuxième exemple d’autoencodeur variationnel multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention.

Comme l’autoencodeur multimodal AEa, l’autoencodeur multimodal AEb comprend une pluralité de modalités, notées dans cet exemple Mod1, Mod2, Mod3, chaque modalité prenant en entrée un vecteur d’entrée , , encodé respectivement par un encodeur Enc1b, Enc2b, Enc3b en un vecteur compressé, ou latent , , , puis le module de fusion Fusb fusionne les vecteurs latents , , en un vecteur fusionné qui sera décodé pour chaque modalité par un décodeur Dec1b, Dec2b, Dec3b respectivement en un vecteur de sortie , , .

A la différence de l’autoencodeur AEa, l’autoencodeur AEb est un autoencodeur variationnel, c’est-à-dire que chaque élément des vecteurs latents , , , et du vecteur fusionné comporte, non pas une valeur unique, mais une moyenne μ et un écart-type σ définissant une distribution. Pour le décodage par les décodeurs Dec1b, Dec2b, Dec3b, une valeur est sélectionnée parmi la distribution de probabilité définie par les valeurs de moyenne μ et d’écart-type pour chaque élément de , permettant ainsi le décodage.

Dans un ensemble de modes de réalisation de l’invention, le module de fusion latente Fusb est configuré pour assigner à au moins un élément du vecteur fusionné la moyenne et l’écart-type de l’élément ayant l’écart-type le plus faible parmi les éléments correspondants des vecteurs latents desdites modalités.

Dit autrement, si l’autoencodeur comprend un nombre de modalités égal à C, les modalités sont notés par un indice i avec , et, pour un élément donné, les moyennes et écart-type pour la modalité sont notés et , alors les valeurs de moyenne et d’écart-type de cet élément pour sont choisies comme celles de l’élément correspondant de la modalité d’indice k, pour lequel l’écart-type est le plus faible :

Cette méthode peut être appelée « survival of the fittest ».

Ceci permet de sélectionner, pour chaque variable latente, la valeur correspondante ayant l’écart-type le plus faible parmi les vecteurs latents , , , et donc de disposer des valeurs les plus précises pour chaque variable latente.

La représente un exemple de méthode d’entraînement d’un autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention.

La méthode 300 est une méthode d’entraînement d’un autoencodeur multimodal à fusion de données latentes tel que les autoencodeurs AE, AEa, AEb. La méthode comprend une pluralité d’itérations des étapes suivantes.

Chaque itération comprend une première étape 310 d’encodage, par une pluralité d’encodeurs tels que les encodeurs Enc1a, Enc1b, Enc2a, Enc2b, Enc3a, Enc3b, pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée tels que le vecteur , ou en un vecteur latent tels que le vecteur , ou de dimension prédéfinie n, ladite dimension prédéfinie étant identique pour chaque modalité.

Chaque itération comprend une deuxième étape 320 de fusion latente des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné de ladite dimension prédéfinie.

Chaque itération comprend une troisième étape 330 de décodage, par une pluralité de décodeurs tels que les décodeurs Dec1a, Dec1b, Dec2a, Dec2b, Dec3a, Dec3b, pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie tel que le vecteur , ou , un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité.

Chaque itération comprend une quatrième étape 340 de calcul d’une fonction de perte, à partir des vecteurs de sortie et des vecteurs d’entrée.

La fonction de perte permet d’évaluer la perte entre les vecteurs d’entrée , , , et les vecteurs de sortie , , . Selon différents modes de réalisation de l’invention, différentes fonctions de pertes peuvent être utilisées telle que des distances euclidiennes (par exemple fonctions de type L2 ou L1) ou des fonctions liées à la perception des images (en anglais pixel perceptual loss functions).

Chaque itération comprend une cinquième étape 350 d’adaptation des encodeurs et des décodeurs, pour minimiser la fonction de perte.

Cette cinquième étape peut en particulier être réalisée par la méthode dite de rétropropagation du gradient, pour adapter les poids et biais des réseaux de neurones formant les encodeurs et décodeurs, à partir du gradient de la fonction de perte.

La méthode d’entrainement est caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.

Plusieurs itérations des étapes 310, 320, 330, 340, et 350 sont effectuées afin de réaliser l’entraînement.

Selon différents modes de réalisation de l’invention, plusieurs critères peuvent être utilisés pour stopper les itérations et terminer l’entraînement. Par exemple, un nombre prédéfini d’itérations peut par exemple être effectué, les itérations peuvent se poursuivre jusqu’à ce que la fonction de perte soit inférieure à un seuil, ou jusqu’à ce que la différence entre les valeurs de la fonction de perte entre deux itérations successives soit inférieure à un seuil.

Tous les modes de réalisation discutés ci-dessus sont respectivement applicables à la méthode 300.

La représente un exemple de méthode d’utilisation d’un autoencodeur multimodal à fusion de données latente selon un ensemble de modes de réalisation de l’invention.

La méthode d’utilisation 400 correspond à l’utilisation effective d’un autoencodeur multimodal à fusion de données latente tel que l’un des autoencodeurs AE, AEa, AEb, c’est-à-dire qu’elle correspond à une phase d’inférence.

La méthode 400 comprend une première étape 410 d’encodage, par une pluralité d’encodeurs tels que les encodeurs Enc1a, Enc1b, Enc2a, Enc2b, Enc3a, Enc3b, pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée tels que le vecteur , , en un vecteur latent tels que le vecteur , , de dimension prédéfinie n, ladite dimension prédéfinie étant identique pour chaque modalité.

La méthode 400 comprend une deuxième étape 420 de fusion latente des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné de ladite dimension prédéfinie.

La méthode 400 comprend une troisième étape 430 de décodage, par une pluralité de décodeurs tels que les décodeurs Dec1a, Dec1b, Dec2a, Dec2b, Dec3a, Dec3b, pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie tels que les vecteurs , , , un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité.

La méthode 400 est caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments des vecteurs latents encodés par ladite pluralité d’encodeurs.

Tous les modes de réalisation discutés ci-dessus sont respectivement applicables à la méthode 400.

La représente un premier exemple d’estimation de résultats d’une fusion latente, selon une méthode de l’état de l’art dite « Product of Experts » ;

La un premier exemple d’estimation de résultats d’une fusion latente, selon un ensemble de modes de réalisation de l’invention ;

La un deuxième exemple d’estimation de résultats d’une fusion latente, selon un ensemble de modes de réalisation de l’invention ;

Les graphes 500a, 500b, 500c représentent trois exemples d’estimation de résultats d’une fusion latente, respectivement pour :

une méthode de l’état de l’art dite « Product of Experts » dans le cas du graphe 500a ;
un premier exemple de mode de réalisation de l’invention, correspondant à un exemple de la figure 2b, avec un autoencodeur variationnel, où chaque élément du vecteur fusionné est choisi comme un élément correspondant des vecteurs latents ayant la variance la plus faible (méthode appelée « survival of the fittest »), dans le cas du graphe 500b ;
un deuxième exemple de modes de réalisation de l’invention, correspondant à un exemple de la figure 2c, avec un autoencodeur variationnel, où chaque élément du vecteur fusionné est choisi de manière aléatoire parmi les éléments correspondants des vecteurs latents (méthode appelée « russian roulette »), dans le cas du graphe 500c.

Pour ces trois exemples, les autoencodeurs ont été entraînés de la même manière (même jeu d’entraînement, nombre d’itération et fonction de perte pour l’entraînement notamment), seule la fusion latente étant modifiée entre les trois exemples.

Les graphes 500a, 500b, 500c sont basés sur le même exemple, dans lequel la position d’un jouet dans une image est estimée à partir d’images plus ou moins bruitées.

Dans chaque graphe, l’axe horizontal représente le niveau de bruitage (ou SNR, de l’anglais Signal to Noise Ratio, ou en français Radio Signal sur Bruit), en dB de l’image d’entrée, et l’axe vertical la variance des résultats, avec une échelle logarithmique. Une meilleure qualité de fusion est associée avec une variance plus faible (donc plus bas sur l’axe vertical).

Pour chaque axe, quatre courbes sont représentées :

Une fusion optimale théorique 540a, 540b, 540c, identique pour les trois graphes ;
L’évolution de la variance de la position entre l’image d’entrée bruitée, et la position véritable dans l’image non bruitée : courbes 530a, 530b, 530c, identiques pour les trois graphes ;
L’erreur en sortie de l’autoencodeur multimodal, par rapport à l’entrée non bruitée : courbes 520a, 520b, 520c ;
L’erreur en sortie de l’autoencodeur multimodal, par rapport à l’entrée bruitée : courbes 510a, 510b, 510c.

Ces exemples montrent qu’à SNR équivalent, les erreurs en sortie des autoencodeurs selon l’invention montrent une variance plus faible que les autoencodeurs selon l’état de l’art. Cet exemple démontre que l’invention permet une fusion de données latentes plus efficace que les méthodes de l’état de l’art pour un autoencodeur multimodal.

La représente un premier exemple de reconstitution multimodale de données issues de capteurs caméra, LIDAR et RADAR embarqués dans une voiture.

La représente un deuxième exemple de reconstitution multimodale de données issues de capteurs caméra, LIDAR et RADAR embarqués dans une voiture.

Dans les deux cas, une scène est capturée par trois capteurs (respectivement caméra, LIDAR et RADAR) embarqués dans une même voiture. Dans le cas de la , une première scène consiste en 3 objets devant deux murs formant un angle. Dans le cas de la , une deuxième scène contient un seul objet devant les deux mêmes murs.

Les vignettes 610a, 610b représentent le ou les objets vus par le LIDAR devant les murs. La voiture où est situé le LIDAR est située en bas à droite de cette représentation, comme indiqué par le cône de prise de vue apparent en bas des vignettes.

Les vignettes 611a, 611b représentent une image de la scène vue par une caméra embarquée dans la même de la voiture.

Les vignettes 612a, 612b représentent une vue RADAR de la même scène. Dans ce cas, la vue est une vue 2D de l’emplacement et de la forme « vue du haut » des objets. La vue est également inversée par rapport aux autres vignettes, c’est-à-dire que le « L » en bas de ces vignettes représente les deux murs, et la ou les traits le ou les objets.

Dans les deux cas une fusion de données multimodales est effectuée par un autoencodeur multimodal selon l’un des modes de réalisation de l’invention. Les vecteurs représentant les prises de vues 610a, 611a, 612a, 610b, 611b, 612b sont donc encodés en un vecteur latent pour chacune des deux scènes, puis les vecteurs latents sont décodés en des vecteurs décompressés. Dans cet exemple, chaque vecteur latent comprend 64 éléments.

Les vignettes 620a, 620b, 621a, 621b, 622a, 622b représentent respectivement les vues LIDAR, caméra et RADAR de la première et la deuxième scène telles que restituées par les vecteurs décompressés. Ces vues décompressées sont très proches des vues initiales, alors même qu’elles ont été générées à partir d’un vecteur latent comprenant une quantité d’information très réduite (64 éléments dans cet exemple).

Cet exemple démontre donc la capacité de l’invention à encoder de manière très efficace l’information issue de plusieurs capteurs, en particulier de capteurs co-localisés, et donc à réaliser une fusion de données efficace.

Les exemples ci-dessus démontrent la capacité de l’invention à permettre une fusion de données latente efficace d’un autoencodeur multimodal. Ils ne sont cependant donnés qu’à titre d’exemple et ne limitent en aucun cas la portée de l’invention, définie dans les revendications ci-dessous.

Claims

Autoencodeur multimodal à fusion de données latente (AE, AEa, AEb) comprenant :
une pluralité de modalités (Mod1, Mod2, Mod3) ;

une pluralité d’encodeurs (Enc1a, Enc1b, Enc2a, Enc2b, Enc3a, Enc3b) encodant, pour chaque modalité de ladite pluralité respectivement, un vecteur d’entrée ( , , ) en un vecteur latent ( , , ) de dimension prédéfinie (n), ladite dimension prédéfinie étant identique pour chaque modalité ;

un module de fusion latente (Fusa, Fusb) fusionnant les vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné ( ) de ladite dimension prédéfinie ;

une pluralité de décodeurs (Dec1a, Dec1b, Dec2a, Dec2b, Dec3a, Dec3b) décodant, pour chaque modalité de ladite pluralité de modalités respectivement, ledit vecteur fusionné en un vecteur de sortie ( , , ), un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité;
ledit autoencodeur multimodal étant caractérisé en ce que le module de fusion latente est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
Autoencodeur multimodal à fusion de données latente selon la revendication 1, dans lequel le module de fusion latente (Fusa) est configuré pour assigner à au moins un élément du vecteur fusionné une valeur sélectionnée de manière aléatoire parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
Autoencodeur multimodal à fusion de données latente selon la revendication 1, dans lequel l’autoencodeur est un autoencodeur variationnel, et chaque élément d’un desdits vecteurs latents ( , , ) encodés par ladite pluralité d’encodeurs, et du vecteur fusionné ( ) est formé d’une moyenne et d’un écart-type.
Autoencodeur multimodal à fusion de données latente selon la revendication 3, dans lequel le module de fusion latente (Fusb) est configuré pour assigner à au moins un élément du vecteur fusionné la moyenne et l’écart-type de l’élément ayant l’écart-type le plus faible parmi les éléments correspondants desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
Autoencodeur selon l’une quelconque des revendications précédentes, dans laquelle chaque encodeur de chaque modalité de ladite pluralité de modalités prend en entrée des mesures de chaque capteur d’une pluralité de capteurs respectivement (Capt1, Capt2).
Autoencodeur selon la revendication 5, dans lequel les capteurs de ladite pluralité de capteurs sont co-localisés.
Autoencodeur selon la revendication 6, dans les capteurs de ladite pluralité de capteurs sont localisés dans un véhicule automobile (Auta, Autb).
Méthode (300) d’entraînement d’un autoencodeur multimodal à fusion de données latente (AE, AEa, AEb) comprenant une pluralité de modalités (Mod1, Mod2, Mod3), ladite méthode comprenant plusieurs itérations d’entraînement, chaque itération d’entraînement comprenant :
l’encodage (310), par une pluralité d’encodeurs (Enc1a, Enc1b, Enc2a, Enc2b, Enc3a, Enc3b), pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée ( , , ) en un vecteur latent ( , , ) de dimension prédéfinie (n), ladite dimension prédéfinie étant identique pour chaque modalité ;

la fusion latente (320) des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné ( ) de ladite dimension prédéfinie ;

le décodage (330), par une pluralité de décodeurs (Dec1a, Dec1b, Dec2a, Dec2b, Dec3a, Dec3b), pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie ( , , ), un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ;

le calcul (340) d’une fonction de perte, à partir des vecteurs de sortie et des vecteurs d’entrée ;

l’adaptation (350) des encodeurs et des décodeurs, pour minimiser ladite fonction de perte ;
ladite méthode d’entraînement étant caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
Méthode (400) d’utilisation d’un autoencodeur multimodal à fusion de données latente (AE, AEa, AEb) comprenant une pluralité de modalités (Mod1, Mod2, Mod3), ladite méthode comprenant :
l’encodage (410), par une pluralité d’encodeurs (Enc1a, Enc1b, Enc2a, Enc2b, Enc3a, Enc3b), pour chaque modalité de ladite pluralité respectivement, d’un vecteur d’entrée ( , , ) en un vecteur latent ( , , ) de dimension prédéfinie (n), ladite dimension prédéfinie étant identique pour chaque modalité ;

la fusion latente (420) des vecteurs latents encodés par ladite pluralité d’encodeurs en un vecteur fusionné ( ) de ladite dimension prédéfinie ;

le décodage (430), par une pluralité de décodeurs (Dec1a, Dec1b, Dec2a, Dec2b, Dec3a, Dec3b), pour chaque modalité de ladite pluralité de modalités respectivement, dudit vecteur fusionné en un vecteur de sortie ( , , ), un vecteur de sortie étant de même dimension qu’un vecteur d’entrée pour chaque modalité ;
ladite méthode d’utilisation étant caractérisée en ce que la fusion latente consiste à assigner à au moins un élément du vecteur fusionné une valeur sélectionnée parmi les valeurs des éléments desdits vecteurs latents encodés par ladite pluralité d’encodeurs.
Programme d’ordinateur comprenant des instructions de code de programme enregistrées sur un support lisible par ordinateur, lesdites instructions de code de programme étant configurées, lorsque ledit programme fonctionne sur un ordinateur pour exécuter une méthode selon l’une des revendications 8 ou 9.
Système de calcul (Sysa, Sysb) comprenant :
une pluralité de capteurs (Capt1, Capt2…) ;

au moins une unité de calcul (Calca, Calcb) configurée pour exécuter un autoencodeur multimodal à fusion de données latente (AE, AEa, AEb) selon l’une des revendications 1 à 7, chaque capteur de ladite pluralité étant respectivement associé à une modalité de la pluralité de modalités de l’autoencodeur.