FR3112007A1

FR3112007A1 - Procédé et appareil d’entraînement de modèle, et procédé et appareil de prédiction

Info

Publication number: FR3112007A1
Application number: FR2013370A
Authority: FR
Inventors: Xibin Song; Dingfu Zhou; Jin Fang; Liangjun ZHANG
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-26
Filing date: 2020-12-16
Publication date: 2021-12-31
Also published as: CN111753961B; GB2596370B; GB202019743D0; CN111753961A; GB2596370A; US20210406599A1; US11841921B2

Abstract

La présente demande propose un procédé et un appareil d’entraînement de modèle, ainsi qu’un procédé et un appareil de prédiction, et elle concerne les domaines de l’intelligence artificielle, de l’apprentissage profond, du traitement d’image et de la conduite autonome. Le procédé d’entraînement de modèle comporte : l’entrée d’une première image échantillon d’images échantillons dans un modèle de prédiction d’informations de profondeur, et l’acquisition d’informations de profondeur de la première image échantillon ; l’acquisition d’informations de posture inter-images basées sur une deuxième image échantillon et sur la première image échantillon ; l’acquisition d’une image de projection correspondant à la première image échantillon, au moins selon les informations de posture inter-images et les informations de profondeur ; et l’acquisition d’une fonction de perte en déterminant une fonction pour calculer une similarité entre la deuxième image échantillon et l’image de projection, et l’entraînement du modèle de prédiction d’informations de profondeur en utilisant la fonction de perte. (figure 1)

Description

PROCÉDÉ ET APPAREIL D’ENTRAÎNEMENT DE MODÈLE, ET PROCÉDÉ ET APPAREIL DE PRÉDICTION

La présente demande concerne le domaine de la technologie informatique, et en particulier les domaines de l’intelligence artificielle, de l’apprentissage profond, du traitement de l’image et de la conduite autonome.

CONTEXTE

Dans l’art connexe, des solutions d’estimation d’informations de profondeur supervisée prennent généralement une image couleur comme entrée, et estiment les informations de profondeur de l’image couleur au moyen de l’apprentissage machine, tel que le réseau neuronal convolutif. Pendant l’entraînement, un radar laser ou un autre capteur de profondeur est utilisé pour collecter des informations de profondeur réelle servant de signal de supervision. Cependant, il est difficile de collecter des informations de profondeur dense avec une grande précision, ce qui impose des restrictions sur l’entraînement.

RÉSUMÉ

La présente demande propose un procédé et un dispositif d’entraînement de modèle, ainsi qu’un procédé et un appareil de prédiction.

Dans un premier aspect, un procédé d’entraînement de modèle est proposé, comportant :

l’entrée d’une première image échantillon d’images échantillons dans un modèle de prédiction d’informations de profondeur, et l’acquisition d’informations de profondeur de la première image échantillon ;

l’acquisition d’informations de posture inter-images sur la base d’une deuxième image échantillon d’images échantillons et de la première image échantillon ;

l’acquisition d’une image de projection correspondant à la première image échantillon, au moins selon les informations de posture inter-images et les informations de profondeur ; et

l’acquisition d’une fonction de perte en déterminant une fonction pour calculer la similarité entre la deuxième image échantillon et l’image de projection, et l’entraînement du modèle de prédiction d’informations de profondeur à l’aide de la fonction de perte.

Dans un deuxième aspect, il est proposé un procédé de prédiction, comportant :

l’acquisition d’une image à prédire ; et

l’entrée de l’image à prédire dans un modèle de prédiction d’informations de profondeur, et l’acquisition d’informations de profondeur de l’image à prédire fournies en sortie par le modèle de prédiction d’informations de profondeur ;

dans lequel le modèle de prédiction d’informations de profondeur est entraîné en utilisant le procédé d’entraînement de modèle proposé dans la présente demande.

Dans un troisième aspect, il est proposé un appareil d’entraînement de modèle, comportant :

l’entrée d’une première image échantillon dans un modèle de prédiction d’informations de profondeur, et l’acquisition d’informations de profondeur de la première image échantillon;

l’acquisition d’informations de posture inter-images sur la base d’une deuxième image échantillon et de la première image échantillon ;

l’acquisition d’une image de projection correspondant à la première image échantillon au moins selon les informations de posture inter-images et les informations de profondeur ; et

l’acquisition d’une fonction de perte en déterminant une fonction pour calculer la similarité entre la deuxième image échantillon et l’image de projection, et l’entraînement du modèle de prédiction d’information de profondeur en utilisant la fonction de perte.

Dans un quatrième aspect, il est proposé un appareil de prédiction, comportant :

un module d’acquisition d’image à prédire configuré pour acquérir une image à prédire ; et

un module de prédiction configuré pour entrer l’image à prédire dans un modèle de prédiction d’informations de profondeur, et pour acquérir des informations de profondeur de l’image à prédire fournies en sortie par le modèle de prédiction d’informations de profondeur ;

dans lequel le modèle de prédiction d’informations de profondeur est entraîné en utilisant l’appareil d’entraînement de modèle proposé dans la présente demande.

Selon la technologie de la présente demande, le problème selon lequel le modèle de prédiction d’informations de profondeur est limité lorsqu’un radar laser ou un autre capteur de profondeur est utilisé pour collecter des informations de profondeur réelle servant de signal de surveillance, est résolu.

Il convient de comprendre que le contenu ci-dessus n’est pas entendu identifier des particularités essentielles ou critiques de modes de réalisation de la présente demande, et ne doit pas être interprété comme limitant la portée de la présente demande. D’autres particularités de la présente demande peuvent être aisément comprises à partir de la description détaillée suivante.

Les dessins sont utilisés pour mieux faire comprendre la présente demande et ne sauraient être utilisés comme une limitation à la présente demande, dans lesquels :

La montre un premier organigramme d’un procédé d’entraînement de modèle selon un mode de réalisation de la présente demande ;

La montre un deuxième organigramme d’un procédé d’entraînement selon un mode de réalisation de la présente demande ;

La montre un troisième organigramme d’un procédé d’entraînement selon un mode de réalisation de la présente demande ;

La montre un quatrième organigramme d’un procédé d’entraînement selon un mode de réalisation de la présente demande ;

La montre un cinquième organigramme d’un procédé d’entraînement selon un mode de réalisation de la présente demande ;

La montre un exemple de diagramme d’un modèle de prédiction d’informations de profondeur selon un mode de réalisation de la présente demande ;

La montre un sixième organigramme d’un procédé d’entraînement de modèle selon un mode de réalisation de la présente demande ;

La montre un organigramme d’un procédé de prédiction selon un mode de réalisation de la présente demande ;

La montre un schéma fonctionnel d’un appareil d’entraînement de modèle selon un mode de réalisation de la présente demande ;

La montre un schéma fonctionnel d’un appareil de prédiction selon un mode de réalisation de la présente demande ; et

La montre un schéma fonctionnel d’un dispositif électronique pour la mise en œuvre du procédé d’entraînement de modèle ou du procédé de prédiction selon un mode de réalisation de la présente demande.

DESCRIPTION DÉTAILLÉE

Les exemples de modes de réalisation de la demande seront décrits ci-dessous en combinaison avec des dessins, comportant divers détails des modes de réalisation de la demande pour faciliter la compréhension, qui doivent être considérés comme exemplaires uniquement. Par conséquent, l’homme du métier devrait être conscient que divers changements et modifications peuvent être apportés aux modes de réalisation décrits ici sans s’écarter de la portée et de l’esprit de la présente demande. De même, des descriptions de fonctions et de structures bien connues sont omises dans la description suivante par souci de clarté et de concision.

Un mode de réalisation de la présente demande propose un procédé d’entraînement de modèle qui est applicable aux systèmes de conduite autonomes, tels que les véhicules autonomes et les excavateurs sans pilote, et qui est également applicable aux technologies de réalité augmentée (RA) et de réalité virtuelle (RV). En se référant à la , le procédé peut comporter :

S101, une première image échantillon est entrée dans un modèle de prédiction d’informations de profondeur, et des informations de profondeur de la première image sont acquises ;

S102, des d’informations de posture inter-images sont acquises sur la base d’une deuxième image échantillon et de la première image échantillon ;

S103, une image de projection correspondant à la première image échantillon est acquise, au moins selon les informations de posture inter-images et les informations de profondeur ; et

S104, une fonction de perte est acquise en déterminant une fonction pour calculer la similarité entre la deuxième image échantillon et l’image de projection, et le modèle de prédiction d’informations de profondeur est entraîné à l’aide de la fonction de perte.

Dans la présente demande, une image est utilisée comme entrée, et des informations de profondeur correspondant à l’image peuvent être efficacement estimées de manière autosupervisée, de sorte qu’il n’est pas nécessaire d’utiliser un radar laser ou un autre capteur de profondeur pour collecter des informations de profondeur de haute précision, ce qui impose moins de restrictions.

Dans un exemple, une image couleur est utilisée comme entrée pour l’estimation d’informations de profondeur autosupervisée, et l’ensemble du procédé peut être divisé en deux parties, comportant : l’estimation d’informations de posture inter-image et l’estimation d’informations de profondeur de l’image. Par exemple, en donnant deux images It和It+1, l’image I_tpeut être projetée sur la vue de I_t+1pour produire une image virtuelle It’ selon les informations de posture inter-images P_tet les informations de profondeur D_tacquises correspondant à l’image I_t. Si les informations de posture inter-image P_tet les informations de profondeur D_tsont estimées avec assez de précision, l’image I_t’ et l’image I_t+1seront assez similaires pour qu’une fonction pour calculer la similarité entre l’image I_t’ et l’image I_t+1soit déterminée de manière à acquérir une fonction de perte (I_t+1,I_t _’) et que le modèle de prédiction d’informations de profondeur soit entraîné à l’aide de la fonction de perte. Facultativement, en S101, les images échantillons peuvent être des trames vidéo, par exemple, la première image échantillon et la deuxième image échantillon sont deux trames vidéo avec un nombre prédéfini de trames intercalées entre elles. Ou bien, la première image échantillon et la deuxième image échantillon sont deux trames vidéo consécutives (par exemple, I_t, et I_t+1). En outre, la première image échantillon et la deuxième image échantillon peuvent être sélectionnées de manière à ce que le contenu de la première image échantillon et de la deuxième image échantillon soit similaire. Par exemple, les images échantillons comportent des images multi-trames capturées par deux dispositifs de prise de vue (comme une caméra binoculaire) dans la même orientation, et la première image échantillon et la deuxième image échantillon sont des images capturées par les deux dispositifs de prise de vue en même temps.

Facultativement, les images échantillons sont des images en couleur.

Dans un mode de réalisation, en se référant à la , S101 les informations de profondeur de la première image échantillon sont acquises, comporte S201~S203.

En S201, un redimensionnement est effectué sur la première image échantillon pour obtenir une première image de taille différente de la première image échantillon.

Facultativement, il existe une pluralité de premières images, chacune ayant une taille différente.

Facultativement, le redimensionnement effectué sur la première image échantillon peut aussi consister à sous-échantillonner la première image échantillon. Par exemple, une image ayant une taille de M×N peut être sous-échantillonnée d’un facteur s, ce qui permet d’obtenir une image de taille (M/s) × (N/s).

En S202, une particularité d’image est acquise en effectuant une extraction de particularité sur la première image.

En S203, les informations de profondeur de la première image échantillon sont déterminées selon la particularité d’image.

Facultativement, lorsqu’il existe une pluralité de premières images, une extraction de particularité est effectuée sur chaque première image, et les particularités de la pluralité de premières images sont combinées pour déterminer les informations de profondeur de la première image échantillon.

L’avantage de procéder ainsi est que la première image échantillon est redimensionnée pour obtenir les premières images de différentes tailles, de sorte que les informations de particularité d’image dans différentes tailles peuvent être obtenues, ce qui permet d’extraire des informations plus exhaustives, dont à la fois des informations globales et des informations détaillées locales.

Dans un mode de réalisation, en se référant à la , S101 des informations de profondeur de la première image échantillon sont acquises, comporte S301~S302.

En S301, une particularité convolutive est acquise en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur.

Facultativement, le modèle de prédiction d’informations de profondeur comprend un réseau d’extraction de particularité contenant couches convolutives multiples, et des particularités extraites à l’aide de différentes couches convolutives sont de taille différente. La particularité convolutive extraite avec chaque couche convolutive peut être obtenue en effectuant une extraction de particularité sur la première image échantillon directement en utilisant le réseau d’extraction de particularité, de sorte que les particularités convolutives de couches convolutives multiples sont acquises.

En S302, les informations de profondeur de la première image échantillon sont déterminées selon la particularité convolutive.

Facultativement, lorsque les particularités convolutives de couches convolutives multiples sont acquises, les informations de profondeur de la première image échantillon peuvent être déterminées en combinant les particularités convolutives de couches convolutives multiples.

L’avantage de procéder ainsi est que la particularité de la première image est extraite avec diverses couches convolutives, ce qui permet d’extraire des informations de particularité plus exhaustives, comportant à la fois des informations globales et des informations locales détaillées.

Dans un mode de réalisation, en se référant à la , S101 des informations de profondeur de la première image échantillon sont acquises, comporte S401~S402.

En S401, une particularité d’image et une particularité convolutive de la première image échantillon sont obtenues, la particularité d’image étant acquise en effectuant une extraction de particularité sur une première image, la première image étant une image différente de la première image échantillon en taille, la particularité convolutive étant acquise en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et

en S402, les informations de profondeur de la première image échantillon sont déterminées selon la particularité d’image et la particularité convolutive.

Facultativement, la particularité d’image et la particularité convolutive sont concaténées (concat), et les informations de profondeur de la première image échantillon sont déterminées selon la particularité concaténée ;

Par exemple, s’il existe des particularités des premières images en tailles multiples et des particularités convolutives acquises avec des couches convolutives multiples, S402 peut comporter :

(1) une particularité d’image et une particularité convolutive de la même taille de particularité sont concaténées, et des particularités concaténées de tailles multiples sont obtenues ;

(2) des informations de profondeur intermédiaire sont déterminées sur la base des particularités concaténées de tailles multiples ; et

(3) les informations de profondeur de la première image échantillon sont déterminées sur la base des informations de profondeur intermédiaire.

Dans ce mode de réalisation, des particularités d’image déterminées à partir des premières images de différentes tailles et des particularités convolutives extraites avec différentes couches convolutives sont combinées, de sorte que de nouvelles informations de particularité avec une plus forte expressivité sont obtenues, et donc des informations de profondeur avec une plus grande précision peuvent être obtenues.

Facultativement, dans l’opération (2) ci-dessus du S402, une reconstruction d’image peut être utilisée pour obtenir les informations de profondeur intermédiaire. Spécifiquement, les particularités concaténées de tailles multiples sont soumises à une opération de convolution multicouche et à une opération de fonction d’activation (par exemple, sigmoïde), et une pluralité d’images de profondeur D={D1, ..., Dn} correspondant aux particularités concaténées de tailles multiples sont obtenues. De façon similaire, en S203 et S302, l’acquisition des informations de profondeur basées sur la particularité d’image ou la particularité convolutive peut également être effectuée selon ce mode de réalisation.

Facultativement, après l’acquisition des particularités concaténées de tailles multiples, un renforcement par canal est effectué sur les particularités concaténées de tailles multiples pour obtenir des particularités renforcées de tailles multiples. Grâce au renforcement par canal, des informations effectives dans les particularités acquises de tailles multiples peuvent être renforcées de manière effective.

En se référant à la , une particularité F (c×w×h) est donnée, où c désigne le nombre de canaux de la particularité, w et h désignent respectivement la largeur et la hauteur de la particularité, et le processus de renforcement par canal est le suivant :

(1) une opération de convolution (conv) et une opération de fonction de remise en forme sont effectuées sur la particularité F pour obtenir une particularité Q (c×(h×w)) et une particularité H ((h×w)×c) ;

(2) une opération de multiplication matricielle est effectuée sur la particularité Q (c×(h×w)) et la particularité H ((h×w)×c) pour obtenir une matrice M (c×c), puis une opération softmax de régression logistique est effectuée sur la matrice M (c×c) pour obtenir une matrice M’ (c×c) ;

(3) une opération de convolution est effectuée sur la particularité F pour obtenir une nouvelle particularité F’ (c×h×w) ; et

(4) une opération de multiplication matricielle est effectuée sur la particularité F’ (c×h×w) en prenant M’ (c×c) comme poids pour obtenir une particularité renforcée Fh (c×h×w) ; et une opération d’addition au niveau du pixel est effectuée sur la particularité Fh et la particularité F’ pour obtenir une particularité renforcée finale Fo.

En se référant à la , il est montré un exemple de diagramme du modèle de prédiction d’informations de profondeur.

Dans une première étape, la première image échantillon est sous-échantillonnée pour obtenir des premières images de tailles multiples, telles qu’une première image A, une première image B et une première image C. Une extraction de particularité est effectuée sur chaque première image pour obtenir une particularité d’image.

En outre, la première image échantillon est directement entrée dans un réseau d’extraction de particularité dans le modèle de prédiction d’informations de profondeur, où le réseau d’extraction de particularité contient des couches convolutives multiples, comme une couche convolutive C1, une couche convolutive C2 et une couche convolutive C3, comme illustré. Une extraction de particularité est effectuée dans chaque couche convolutive pour obtenir une particularité convolutive.

Une particularité d’image et une particularité convolutive de la même taille de particularité sont concaténées (concat), et des particularités concaténées de tailles multiples sont obtenues.

Dans une deuxième étape, après avoir obtenu des particularités concaténées de tailles multiples, un renforcement par canal est effectué sur les particularités concaténées de tailles multiples pour obtenir des particularités renforcées de tailles multiples. Grâce au renforcement par canal, des informations des particularités acquises de tailles multiples peuvent être renforcées de manière effective.

Dans une troisième étape, après l’obtention des particularités de tailles multiples renforcées par canal, une reconstruction d’image est effectuée sur les particularités renforcées de tailles multiples pour obtenir une pluralité d’images de profondeur D={D1, ..., Dn}.

Dans une quatrième étape, selon la pluralité d’images de profondeur D={D1, ..., Dn}, les informations de profondeur pour la sortie finale sont déterminées.

Dans un mode de réalisation, S102 les informations de posture inter-images sont acquises sur la base d’une deuxième image échantillon des images échantillons et la première image échantillon, comporte :

(1) l’extraction de particularité est effectuée sur la deuxième image échantillon et la première image échantillon ; et

(2) les informations de posture inter-images sont acquises en effectuant une régression sur les particularités extraites de la deuxième image échantillon et de la première image échantillon. Facultativement, les informations de posture inter-images Pt comprennent une pluralité de paramètres de rotation et une pluralité de paramètres de translation, par exemple, si un système de coordonnées rectangulaires spatiales xyz est établi, il y a alors en correspondance trois paramètres de rotation et trois paramètres de translation.

L’avantage de procéder ainsi est que les informations de posture inter-images sont déterminées en effectuant une extraction de particularité sur les images et une régression sur les particularités extraites, de sorte que le résultat du calcul est plus précis.

La est un exemple d’organigramme pour la mise en œuvre de S102. En se référant à la , la première image échantillon et la deuxième image échantillon (par exemple, It, et It+1) sont entrées dans une dorsale de réseau neuronal convolutif, et l’extraction de particularité est effectuée avec la dorsale ; puis une régression est effectuée sur les particularités extraites en utilisant un réseau entièrement connecté pour obtenir le résultat de posture inter-trame final Pt. La dorsale ici peut être un réseau d’extraction de particularité commun, tel que resnet 18 ou resnet 50.

Dans un mode de réalisation, S103 une image de projection correspondant à la première image échantillon est acquise au moins selon les informations de posture inter-image et les informations de profondeur, comporte :

(1) un premier paramètre de collecte correspondant à la première image échantillon et un deuxième paramètre de collecte correspondant à la deuxième image échantillon sont acquis ;

(2) les premières données de nuage de points de la première image échantillon sont déterminées selon les informations de profondeur de la première image échantillon et le premier paramètre de collecte ;

où les données de nuage de points se réfèrent à un jeu de données de points dans un certain système de coordonnées ; et chaque point peut contenir une variété d’informations, telles que coordonnées tridimensionnelles, couleur, valeur de classification, valeur d’intensité et temps ;

(3) les premières données de nuage de points sont transformées en deuxièmes données de nuage de points selon les informations de posture inter-images ; et

(4) les deuxièmes données de nuage de points sont projetées selon le deuxième paramètre de collecte pour obtenir l’image de projection.

Spécifiquement, on suppose que le premier paramètre de collecte correspondant à la première image échantillon It est K_t, le deuxième paramètre de collecte correspondant au deuxième échantillon d’image I_t+1est K_t+1, et que K_tet K_t+1sont des matrices. Selon les informations de profondeur D_tcorrespondant à I_t, on obtient les premières données de nuage de points P_dt=K_t-1×D_t. Selon les informations de posture inter-image Pt, les premières données de nuage de points P_dtpeuvent être transformées en deuxièmes données de nuage de points P_dt+1dans une vue correspondant à la deuxième image échantillon I_t+1: P_dt+1=P_t×P_dt. Enfin, les deuxièmes données de nuage de points P_dt+1sont projetées selon le deuxième paramètre de collecte K_t+1pour obtenir une image de projection I_t _’: I_t _’=K_t+1×P_dt+1.

L’avantage de procéder ainsi est que, en effectuant les étapes décrites ci-dessus, l’image de projection de la première image échantillon dans la vue de la deuxième image échantillon peut être obtenue en utilisant les paramètres de collecte, les informations de posture inter-image et les informations de profondeur de l’acquisition d’image, et la précision des informations de profondeur peut être validée sur la base de la similarité entre l’image de projection et la deuxième image échantillon. Le procédé est simple en calcul et facile à mettre en œuvre, et ne nécessite pas de matériels autres pour collecter les informations, ce qui réduit considérablement le coût.

Dans un mode de réalisation, la fonction de perte déterminée en S104 peut être la SIMilarité structurelle (SSIM) entre la deuxième image échantillon et l’image de projection, qui est un indice qui estime la similarité entre deux images.

Voici un exemple de la fonction de perte :

Dans d’autres modes de réalisation, la similarité peut être calculée à l’aide d’autres procédés, par exemple les procédés de calcul de similarité cosinus, similarité à base d’histogramme, à base d’informations mutuelles ou à base d’informations d’empreintes digitales d’image.

Dans un autre mode de réalisation, dans le cas du (2) en S402, une pluralité d’images de profondeur D={D1, ..., Dn} correspondant aux particularités de tailles multiples peut être obtenue, en correspondance à S102, une pluralité d’images de projection correspondant à la première image échantillon peut être acquise selon les informations de posture inter-images et la pluralité d’images de profondeur.

La fonction de perte déterminée en S104 peut en outre comporter : la similarité entre la deuxième image échantillon et chacune de la pluralité d’images de profondeur est calculée, et une somme pondérée de la pluralité de similarités est calculée, la similarité étant positivement liée à la taille de l’image de profondeur. Voici un exemple de la fonction de perte :

dans laquelle le poids de la similarité est Wi=1/2^k, où k est relatif à la taille de l’image de profondeur, par exemple, la valeur de k peut être déterminée selon le facteur de sous-échantillonnage pour produire l’image de profondeur courante.

En correspondance, en se référant à la , un mode de réalisation de la présente demande propose un procédé de prédiction, comportant :

S801, une image à prédire est acquise ; et

S802, l’image à prédire est entrée dans un modèle de prédiction d’informations de profondeur, et des informations de profondeur de l’image à prédire fournies en sortie par le modèle de prédiction d’informations de profondeur sont acquises ;

dans lequel le modèle de prédiction d’informations de profondeur est entraîné en utilisant le procédé d’entraînement de modèle proposé dans la présente demande. En outre, le modèle de prédiction d’informations de profondeur peut également être mis en œuvre selon le mode de réalisation ci-dessus et ne sera pas décrit ici en détail.

En correspondance, en se référant à la , un mode de réalisation de la présente demande propose un appareil d’entraînement de modèle 900, comportant :

un module d’acquisition d’informations de profondeur 901 pour entrer une première image échantillon dans un modèle de prédiction d’informations de profondeur, et acquérir des informations de profondeur de la première image échantillon ;

un module d’acquisition d’informations de posture inter-images 902 pour acquérir des d’informations de posture inter-images basées sur une deuxième image échantillon des images échantillons et sur la première image échantillon ;

un module d’acquisition d’image de projection 903 pour acquérir une image de projection correspondant à la première image échantillon au moins selon les informations de posture inter-images et les informations de profondeur ; et

un module d’acquisition de fonction de perte 904 pour acquérir une fonction de perte en déterminant une fonction pour calculer la similarité entre la deuxième image échantillon et l’image de projection, et entraîner le modèle de prédiction d’informations de profondeur en utilisant la fonction de perte.

Dans un mode de réalisation, le module d’acquisition d’informations de profondeur 901 comporte :

un sous-module de redimensionnement d’image pour effectuer un redimensionnement de la première image échantillon afin d’obtenir une première image dont la taille est différente de celle de la première image échantillon ;

un sous-module d’acquisition de particularité d’image pour acquérir une particularité d’image en effectuant une extraction de particularité sur la première image ; et

un premier sous-module d’acquisition d’informations de profondeur pour déterminer les informations de profondeur de la première image échantillon selon la particularité d’image.

un sous-module d’acquisition de particularité convolutive pour acquérir une particularité convolutive en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et

un deuxième sous-module d’acquisition d’informations de profondeur pour déterminer les informations de profondeur de la première image échantillon selon la particularité convolutive.

un sous-module d’acquisition de particularité pour acquérir une particularité d’image et une particularité convolutive de la première image échantillon, la particularité d’image étant acquise en effectuant une extraction de particularité sur une première image, la première image étant une image de taille différente de la première image échantillon, la particularité convolutive étant acquise en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et

un troisième sous-module d’acquisition d’informations de profondeur pour déterminer les informations de profondeur de la première image échantillon selon la particularité d’image et la particularité convolutive.

Dans un mode de réalisation, le module d’acquisition d’informations de posture inter-images 902 comporte :

un sous-module d’extraction de particularité pour effectuer l’extraction de particularité sur la deuxième image échantillon et la première image échantillon ; et

un sous-module d’informations de posture inter-images pour acquérir les informations de posture inter-images en effectuant une régression sur les particularités extraites de la deuxième image échantillon et de la première image échantillon.

Dans un mode de réalisation, le module d’acquisition d’image de projection 903 comporte :

un sous-module d’acquisition de paramètre de collecte pour acquérir un premier paramètre de collecte correspondant à la première image échantillon et un deuxième paramètre de collecte correspondant à la deuxième image échantillon ;

un premier sous-module d’acquisition de données de nuage de points pour déterminer des premières données de nuage de points de la première image échantillon selon les informations de profondeur de la première image échantillon et le premier paramètre de collecte ;

un deuxième sous-module d’acquisition de données de nuage de points pour transformer les premières données de nuage de points en deuxièmes données de nuage de points selon les informations de posture inter-images ; et

un sous-module de projection pour projeter les deuxièmes données de nuage de points selon le deuxième paramètre de collecte afin d’obtenir l’image de projection.

En correspondance, en se référant à la , un mode de réalisation de la présente demande propose en outre un appareil de prédiction 1000, comportant :

un module d’acquisition d’image à prédire 1001 pour acquérir une image à prédire ; et

un module de prédiction 1002 pour entrer l’image à prédire dans un modèle de prédiction d’informations de profondeur, et acquérir des informations de profondeur de l’image à prédire fournies en sortie par le modèle de prédiction d’informations de profondeur ;

Selon des modes de réalisation de la présente demande, la présente demande propose en outre un dispositif électronique et un support de stockage lisible.

Comme le montre la , un schéma fonctionnel d’un dispositif électronique pour la mise en œuvre du procédé d’entraînement de modèle ou du procédé de prédiction selon un mode de réalisation de la présente demande est montré. Le dispositif électronique est entendu représenter diverses formes d’ordinateurs numériques, tels que des ordinateurs portables, ordinateurs de bureau, postes de travail, assistants numériques personnels, serveurs, serveurs lames, ordinateurs centraux et autres ordinateurs convenables. Le dispositif électronique peut également représenter diverses formes de dispositifs mobiles, tels que des assistants numériques personnels, téléphones cellulaires, téléphones intelligents, dispositifs portables et autres dispositifs informatiques similaires. Les composants montrés ici, leurs connexions et relations, ainsi que leurs fonctions, ne le sont qu’à titre d’exemple et ne sont pas entendus limiter la mise en œuvre de l’application décrite et/ou revendiquée ici.

Comme le montre la , le dispositif électronique comporte : un ou plusieurs processeurs 1101, une mémoire 1102, et des interfaces pour connecter divers composants, dont des interfaces à grande vitesse et des interfaces à petite vitesse. Les divers composants sont interconnectés à l’aide de différents bus et peuvent être montés sur une carte mère commune ou autrement selon les besoins. Le processeur peut traiter des instructions pour exécution au sein du dispositif électronique, y compris des instructions stockées dans la mémoire ou sur la mémoire pour afficher des informations graphiques de l’interface graphique sur un dispositif d’entrée/sortie externe, tel qu’un dispositif d’affichage couplé à l’interface. Dans d’autres modes de réalisation, des processeurs multiples et/ou des bus multiples peuvent être utilisés avec des mémoires multiples et des stockages multiples, si souhaité. En outre, des dispositifs électroniques multiples peuvent être connectés, chacun assurant certaines des opérations nécessaires (par exemple, un ensemble de serveurs, un jeu de serveurs lames ou un système multiprocesseur). Un exemple de processeur 1101 est montré à la .

La mémoire 1102 est un support de stockage non transitoire lisible par ordinateur proposé dans la présente demande. La mémoire stocke des instructions exécutables par au moins un processeur amener l’au moins un processeur à réaliser le procédé d’entraînement de modèle ou le procédé de prédiction proposé ici. Le support de stockage non transitoire lisible par ordinateur de la présente demande stocke des instructions d’ordinateur permettant à un ordinateur de réaliser le procédé d’entraînement de modèle ou le procédé de prédiction proposé dans la présente demande.

La mémoire 1102, en tant que support de stockage non transitoire lisible par ordinateur, peut être utilisée pour stocker des programmes logiciels non transitoires, des programmes exécutables par ordinateur non transitoires et des modules, tels que des instructions de programme/modules correspondant au procédé d’entraînement de modèle dans les modes de réalisation de la présente demande (par exemple, le module d’acquisition d’informations de profondeur 901, le module d’acquisition d’informations de posture inter-images 902, le module d’acquisition d’image de projection 903 et le module d’acquisition de fonction de perte 904 montrés sur la ). Le processeur 1101 exécute diverses applications fonctionnelles du serveur et un traitement des données, c’est-à-dire en implémentant le procédé d’entraînement de modèle dans les modes de réalisation des procédés décrits ci-dessus, en exécutant les programmes logiciels, instructions et modules non transitoires stockés dans la mémoire 1102.

La mémoire 1102 peut comporter une zone de stockage de programme et une zone de stockage de données, la zone de stockage de programme pouvant stocker des programmes d’application requis par un système d’exploitation et au moins une fonction ; la zone de stockage de données pouvant stocker des données créées selon l’utilisation du dispositif électronique d’entraînement de modèle, etc. En outre, la mémoire 1102 peut comporter une mémoire vive à grande vitesse, et peut également comporter une mémoire non transitoire, telle qu’au moins un dispositif de stockage sur disque magnétique, un dispositif de mémoire flash, ou un autre dispositif de mémoire à semi-conducteurs non transitoire. Dans certains modes de réalisation, la mémoire 1102 comporte facultativement des mémoires situées à distance du processeur 1101, et les mémoires distantes peuvent être connectées au dispositif électronique d’entraînement de modèle via un réseau. Les exemples de réseau incluent, sans s’y limiter, Internet, intranets, réseaux locaux, réseaux de communication mobile et leurs combinaisons.

Le dispositif électronique pour le procédé d’entraînement de modèle ou le procédé de prédiction peut en outre comporter : un dispositif d’entrée 1103 et un dispositif de sortie 1104. Le processeur 1101, la mémoire 1102, le dispositif d’entrée 1103 et le dispositif de sortie 1104 peuvent être connectés via un bus ou autrement, comme illustré à la en prenant la connexion par bus comme exemple.

Le dispositif d’entrée 1103 peut recevoir des informations numériques ou de caractères et générer des entrées de signaux clés relatifs à des paramètres utilisateur et des commandes fonctionnelles du dispositif électronique d’entraînement de modèle, par exemple, le dispositif d’entrée peut comporter un écran tactile, un clavier, une souris, un trackpad, un pavé tactile, une baguette de pointage, un ou plusieurs boutons de souris, une boule de commande, un joystick et d’autres dispositifs d’entrée. Les dispositifs de sortie 1104 peuvent comporter un dispositif d’affichage, un dispositif d’éclairage auxiliaire (par exemple, une DEL), un dispositif de retour tactile (par exemple, un moteur à vibration), etc. Le dispositif d’affichage peut comporter, sans s’y limiter, un afficheur à cristaux liquides (LCD), un afficheur à diodes électroluminescentes (DEL) et un afficheur plasma. Dans certains modes de réalisation, le dispositif d’affichage peut être un écran tactile.

Divers modes de réalisation des systèmes et techniques décrits ici peuvent être implémentés dans des circuits électroniques numériques, des systèmes de circuits intégrés, ASIC (circuits intégrés à application spécifique), matériel informatique, microprogrammes, logiciels et/ou combinaisons de ceux-ci. Ces divers modes de réalisation peuvent comporter une implémentation dans un ou plusieurs programmes d’ordinateur qui peuvent être exécutés et/ou interprétés sur un système programmable comprenant au moins un processeur programmable, qui peut être un processeur programmable spécialisé ou d’usage général, qui peut recevoir des données et instructions d’un système de stockage, au moins un dispositif d’entrée et au moins un dispositif de sortie, et transmettre des données et instructions au système de stockage, à l’au moins un dispositif d’entrée et à l’au moins un dispositif de sortie.

Ces programmes informatiques (également appelés programmes, logiciels, applications logicielles ou code) comportent des instructions-machine d’un processeur programmable et peuvent être implémentés à l’aide de langages de programmation procéduraux et/ou orientés objet de haut niveau et/ou de langages assembleurs/machines. Tels qu’utilisés ici, les termes "support lisible par machine" et "support lisible par ordinateur" désignent tout produit, appareil et/ou dispositif de programme d’ordinateur (par exemple, disque magnétique, disque optique, mémoire, dispositif logique programmable (PLD)) destiné à fournir des instructions-machine et/ou des données à un processeur programmable, y compris un support lisible par machine qui reçoit des instructions machine sous forme de signaux lisibles par machine. L’expression "signal lisible par la machine" désigne tout signal utilisé pour fournir des instructions-machine et/ou des données à un processeur programmable.

Pour permettre une interaction avec un utilisateur, les systèmes et techniques décrits ici peuvent être implémentés sur un ordinateur comportant : un dispositif d’affichage (par exemple, un tube à rayons cathodiques ou un moniteur (afficheur à cristaux liquides) pour afficher des informations à l’intention d’un utilisateur ; et un clavier et un dispositif de pointage (par exemple, une souris ou une boule de commande) par lesquels un utilisateur peut fournir une entrée à l’ordinateur. D’autres types de dispositifs peuvent également être utilisés pour interagir avec un utilisateur ; par exemple, le retour fourni à l’utilisateur peut être toute forme de retour sensoriel (par exemple, un retour visuel, auditif ou tactile) ; et l’entrée de l’utilisateur peut être reçue sous toute forme (y compris une entrée acoustique, entrée vocale ou entrée tactile).

Les systèmes et techniques décrits ici peuvent être implémentés dans un système informatique qui comporte un composant d’arrière-plan (par exemple, un serveur de données), ou un système informatique qui comporte un composant de logiciel médiateur (par exemple, un serveur d’application), ou un système informatique qui comporte un composant frontal (par exemple, un ordinateur d’utilisateur ayant une interface utilisateur graphique ou un navigateur web par lequel un utilisateur peut interagir avec des modes de réalisation des systèmes et techniques décrits ici), ou dans un système informatique qui comporte toute combinaison de ces composants d’arrière-plan, composants de logiciel médiateur ou composants frontaux. Les composants du système peuvent être interconnectés par toute forme ou moyen de communication de données numériques (par exemple, un réseau de communication). Les exemples de réseaux de communication comportent : les réseaux locaux (LAN), réseaux étendus (WAN) et Internet.

Le système d’ordinateur peut comporter un client et un serveur. Le client et le serveur sont typiquement éloignés l’un de l’autre et interagissent typiquement par le biais d’un réseau de communication. La relation entre le client et le serveur est générée par des programmes d’ordinateur s’exécutant sur les ordinateurs respectifs et ayant une relation client-serveur l’un avec l’autre. Le serveur peut être un serveur en nuage, également appelé serveur informatique en nuage ou hôte en nuage, est un produit hôte dans un système de service informatique en nuage, et résout les défauts de haute difficulté de gestion et de faible expansibilité commerciale dans le service traditionnel d’hôte physique et de serveur privé virtuel (VPS).

Il sera apprécié que les différentes formes de flux décrites ci-dessus puissent être utilisées, et que les étapes puissent être réordonnées, ajoutées ou supprimées. Par exemple, les étapes décrites dans la présente demande peuvent être exécutées en parallèle ou de manière séquentielle, ou dans un ordre différent, pour autant que les résultats souhaités des solutions techniques divulguées dans la présente demande puissent être atteints, et qu’aucune limitation n’y soit apportée ici.

Les modes de réalisation décrits ci-dessus n’ont pas à être interprétés comme limitant la portée de la présente demande. Il apparaîtra à l’homme du métier que diverses modifications, combinaisons, sous-combinaisons et substitutions sont possibles, en fonction des exigences de conception et d’autres facteurs. Toute modification, équivalent et amélioration dans l’esprit et les principes de la présente demande sont entendus être inclus dans la portée de la présente demande.

Claims

Procédé d’entraînement de modèle, comprenant :
l’entrée d’une première image échantillon dans un modèle de prédiction d’informations de profondeur, et l’acquisition d’informations de profondeur de la première image échantillon ;
l’acquisition d’informations de posture inter-images sur la base d’une deuxième image échantillon et de la première image échantillon ;
l’acquisition d’une image de projection correspondant à la première image échantillon, au moins selon les informations de posture inter-images et les informations de profondeur ; et
l’acquisition d’une fonction de perte en déterminant une fonction pour calculer une similarité entre la deuxième image échantillon et l’image de projection, et l’entraînement du modèle de prédiction d’informations de profondeur à l’aide de la fonction de perte.
Procédé d’entraînement de modèle selon la revendication 1, dans lequel l’acquisition des informations de profondeur de la première image échantillon, comprend :
la réalisation d’un redimensionnement sur la première image échantillon pour obtenir une première image dont la taille est différente de celle de la première image échantillon ;
l’acquisition d’une particularité d’image en effectuant une extraction de particularité sur la première image ; et
déterminer les informations de profondeur de la première image échantillon selon les particularités d’image.
Procédé d’entraînement de modèle selon la revendication 1 ou 2, dans lequel l’acquisition d’informations de profondeur de la première image échantillon, comprend :
l’acquisition d’une particularité convolutive en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et
la détermination des informations de profondeur de la première image échantillon selon la particularité convolutive.
Procédé d’entraînement de modèle selon la revendication 1, dans lequel l’acquisition des informations de profondeur de la première image échantillon, comprend :
l’acquisition d’une particularité d’image et d’une particularité convolutive de la première image échantillon, la particularité d’image étant acquise en effectuant une extraction de particularité sur une première image, la première image étant une image différente de la première image échantillon en taille, la particularité convolutive étant acquise en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et
la détermination des informations de profondeur de la première image échantillon selon la particularité d’image et la particularité convolutive.
Procédé d’entraînement de modèle selon la revendication 1 ou 4, dans lequel l’acquisition d’informations de posture inter-images basée sur la deuxième image échantillon des images échantillons et la première image échantillon, comprend :
l’extraction de particularité sur la deuxième image échantillon et la première image échantillon ; et
l’acquisition des d’informations de posture inter-images en effectuant une régression sur les particularités extraites de la deuxième image échantillon et de la première image échantillon.
Procédé d’entraînement de modèle selon la revendication 1 ou 4, dans lequel
l’acquisition de l’image de projection correspondant à la première image échantillon, au moins selon les informations de posture inter-images et les informations de profondeur, comprend :
l’acquisition d’un premier paramètre de collecte correspondant à la première image échantillon et d’un deuxième paramètre de collecte correspondant à la deuxième image échantillon ;
la détermination des premières données de nuage de points de la première image échantillon, selon les informations de profondeur de la première image échantillon et le premier paramètre de collecte ;
la transformation des premières données de nuage de points en deuxièmes données de nuage de points, selon les informations relatives à la posture inter-image ; et
en projetant les deuxièmes données de nuage de points selon le deuxième paramètre de collecte pour obtenir l’image de projection.
Procédé de prédiction, comprenant :
l’acquisition d’une image à prédire ; et
l’entrée de l’image à prédire dans un modèle de prédiction d’informations de profondeur, et l’acquisition d’informations de profondeur de l’image à prédire fournie en sortie par le modèle de prédiction d’informations de profondeur ;
dans lequel le modèle de prédiction d’informations de profondeur est entraîné en utilisant le procédé d’entraînement de modèle de l’une quelconque des revendications 1 à 6.
Appareil d’entraînement de modèle, comprenant :
un module d’acquisition d’informations de profondeur configuré pour fournir en entrée une première image échantillon d’images échantillons dans un modèle de prédiction d’informations de profondeur, et pour acquérir des informations de profondeur de la première image d’échantillon ;
un module d’acquisition d’informations de posture inter-images configuré pour acquérir des informations de posture inter-images basées sur une deuxième image échantillon des images échantillons et sur la première image échantillon ;
un module d’acquisition d’image de projection configuré pour acquérir une image de projection correspondant à la première image échantillon, au moins selon les informations de posture inter-images et les informations de profondeur ; et
un module d’acquisition de fonction de perte configuré pour acquérir une fonction de perte en déterminant une fonction pour calculer la similarité entre la deuxième image échantillon et l’image de projection, et pour entraîner le modèle de prédiction d’informations de profondeur à l’aide de la fonction de perte.
Appareil d’entraînement du modèle selon la revendication 8, dans lequel le module d’acquisition d’informations de profondeur comprend :
un sous-module de redimensionnement d’image pour effectuer un redimensionnement sur la première image échantillon afin d’obtenir une première image dont la taille est différente de celle de la première image échantillon ;
un sous-module d’acquisition de particularité d’image pour acquérir une particularité d’image en effectuant une extraction de particularité sur la première image ; et
un premier sous-module d’acquisition d’informations de profondeur pour déterminer les informations de profondeur de la première image échantillon selon la particularité d’image.
Appareil d’entraînement de modèle selon la revendication 8 ou 9, dans lequel le module d’acquisition d’informations de profondeur comprend :
un sous-module d’acquisition de particularité convolutive pour acquérir une particularité convolutive en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et
un deuxième sous-module d’acquisition d’informations de profondeur pour déterminer les informations de profondeur de la première image échantillon selon la particularité convolutive.
Appareil d’entraînement de modèle selon la revendication 8, dans lequel le module d’acquisition d’informations de profondeur comprend :
un sous-module d’acquisition de particularité pour acquérir une particularité d’image et une particularité convolutive de la première image échantillon, la particularité d’image étant acquise en effectuant une extraction de particularité sur une première image, la première image étant une image différente de la première image échantillon en taille, la particularité convolutive étant acquise en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et
un troisième sous-module d’acquisition d’informations de profondeur pour déterminer les informations de profondeur de la première image échantillon selon la particularité d’image et la particularité convolutive.
Appareil d’entraînement de modèle selon la revendication 8 ou 11, dans lequel le module d’acquisition d’informations de posture inter-images comprend :
un sous-module d’extraction de particularité pour effectuer une extraction de particularité sur la deuxième image échantillon et la première image échantillon ; et
un sous-module d’informations de posture inter-images pour acquérir les informations de posture inter-images en effectuant une régression sur les particularités extraites de la deuxième image échantillon et de la première image échantillon.
Appareil d’entraînement de modèle selon la revendication 8 ou 11, dans lequel
le module d’acquisition d’image de projection comprend :
un sous-module d’acquisition de paramètre de collecte pour acquérir un premier paramètre de collecte correspondant à la première image échantillon et un deuxième paramètre de collecte correspondant à la deuxième image échantillon ;
un premier sous-module d’acquisition de données de nuage de points pour déterminer des premières données de nuage de points de la première image échantillon selon les informations de profondeur de la première image échantillon et le premier paramètre de collecte ;
un deuxième sous-module d’acquisition de données de nuage de points pour transformer les premières données de nuage de points en deuxièmes données de nuage de points selon les informations de posture inter-images ; et
un sous-module de projection pour projeter les deuxièmes données de nuage de points selon le deuxième paramètre de collecte pour obtenir l’image de projection.
Appareil de prédiction, comprenant :
un module d’acquisition d’image à prédire configuré pour acquérir une image à prédire ; et
un module de prédiction configuré pour entrer l’image à prédire dans un modèle de prédiction d’informations de profondeur, et pour acquérir des informations de profondeur de l’image à prédire fournies en sortie par le modèle de prédiction d’informations de profondeur ;
dans lequel le modèle de prédiction d’information de profondeur est entraîné en utilisant l’appareil d’entraînement de modèle de l’une quelconque des revendications 9 à 13.
Dispositif électronique, comprenant :
au moins un processeur ; et
une mémoire connectée en communication avec l’au moins un processeur ; dans lequel,
la mémoire stocke des instructions exécutables par l’au moins un processeur, et les instructions, lorsqu’elles sont exécutées par l’au moins un processeur, amènent l’au moins un processeur à réaliser le procédé de l’une quelconque des revendications 1 à 7.
Support de stockage lisible par ordinateur non transitoire stockant des instructions d’ordinateur pour amener l’ordinateur à réaliser le procédé de l’une quelconque des revendications 1 à 7.