FR3112007A1 - Procédé et appareil d’entraînement de modèle, et procédé et appareil de prédiction - Google Patents

Procédé et appareil d’entraînement de modèle, et procédé et appareil de prédiction Download PDF

Info

Publication number
FR3112007A1
FR3112007A1 FR2013370A FR2013370A FR3112007A1 FR 3112007 A1 FR3112007 A1 FR 3112007A1 FR 2013370 A FR2013370 A FR 2013370A FR 2013370 A FR2013370 A FR 2013370A FR 3112007 A1 FR3112007 A1 FR 3112007A1
Authority
FR
France
Prior art keywords
image
sample image
depth information
sample
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR2013370A
Other languages
English (en)
Inventor
Xibin Song
Dingfu Zhou
Jin Fang
Liangjun ZHANG
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of FR3112007A1 publication Critical patent/FR3112007A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

La présente demande propose un procédé et un appareil d’entraînement de modèle, ainsi qu’un procédé et un appareil de prédiction, et elle concerne les domaines de l’intelligence artificielle, de l’apprentissage profond, du traitement d’image et de la conduite autonome. Le procédé d’entraînement de modèle comporte : l’entrée d’une première image échantillon d’images échantillons dans un modèle de prédiction d’informations de profondeur, et l’acquisition d’informations de profondeur de la première image échantillon ; l’acquisition d’informations de posture inter-images basées sur une deuxième image échantillon et sur la première image échantillon ; l’acquisition d’une image de projection correspondant à la première image échantillon, au moins selon les informations de posture inter-images et les informations de profondeur ; et l’acquisition d’une fonction de perte en déterminant une fonction pour calculer une similarité entre la deuxième image échantillon et l’image de projection, et l’entraînement du modèle de prédiction d’informations de profondeur en utilisant la fonction de perte. (figure 1)

Description

PROCÉDÉ ET APPAREIL D’ENTRAÎNEMENT DE MODÈLE, ET PROCÉDÉ ET APPAREIL DE PRÉDICTION
La présente demande concerne le domaine de la technologie informatique, et en particulier les domaines de l’intelligence artificielle, de l’apprentissage profond, du traitement de l’image et de la conduite autonome.
CONTEXTE
Dans l’art connexe, des solutions d’estimation d’informations de profondeur supervisée prennent généralement une image couleur comme entrée, et estiment les informations de profondeur de l’image couleur au moyen de l’apprentissage machine, tel que le réseau neuronal convolutif. Pendant l’entraînement, un radar laser ou un autre capteur de profondeur est utilisé pour collecter des informations de profondeur réelle servant de signal de supervision. Cependant, il est difficile de collecter des informations de profondeur dense avec une grande précision, ce qui impose des restrictions sur l’entraînement.
RÉSUMÉ
La présente demande propose un procédé et un dispositif d’entraînement de modèle, ainsi qu’un procédé et un appareil de prédiction.
Dans un premier aspect, un procédé d’entraînement de modèle est proposé, comportant :
l’entrée d’une première image échantillon d’images échantillons dans un modèle de prédiction d’informations de profondeur, et l’acquisition d’informations de profondeur de la première image échantillon ;
l’acquisition d’informations de posture inter-images sur la base d’une deuxième image échantillon d’images échantillons et de la première image échantillon ;
l’acquisition d’une image de projection correspondant à la première image échantillon, au moins selon les informations de posture inter-images et les informations de profondeur ; et
l’acquisition d’une fonction de perte en déterminant une fonction pour calculer la similarité entre la deuxième image échantillon et l’image de projection, et l’entraînement du modèle de prédiction d’informations de profondeur à l’aide de la fonction de perte.
Dans un deuxième aspect, il est proposé un procédé de prédiction, comportant :
l’acquisition d’une image à prédire ; et
l’entrée de l’image à prédire dans un modèle de prédiction d’informations de profondeur, et l’acquisition d’informations de profondeur de l’image à prédire fournies en sortie par le modèle de prédiction d’informations de profondeur ;
dans lequel le modèle de prédiction d’informations de profondeur est entraîné en utilisant le procédé d’entraînement de modèle proposé dans la présente demande.
Dans un troisième aspect, il est proposé un appareil d’entraînement de modèle, comportant :
l’entrée d’une première image échantillon dans un modèle de prédiction d’informations de profondeur, et l’acquisition d’informations de profondeur de la première image échantillon;
l’acquisition d’informations de posture inter-images sur la base d’une deuxième image échantillon et de la première image échantillon ;
l’acquisition d’une image de projection correspondant à la première image échantillon au moins selon les informations de posture inter-images et les informations de profondeur ; et
l’acquisition d’une fonction de perte en déterminant une fonction pour calculer la similarité entre la deuxième image échantillon et l’image de projection, et l’entraînement du modèle de prédiction d’information de profondeur en utilisant la fonction de perte.
Dans un quatrième aspect, il est proposé un appareil de prédiction, comportant :
un module d’acquisition d’image à prédire configuré pour acquérir une image à prédire ; et
un module de prédiction configuré pour entrer l’image à prédire dans un modèle de prédiction d’informations de profondeur, et pour acquérir des informations de profondeur de l’image à prédire fournies en sortie par le modèle de prédiction d’informations de profondeur ;
dans lequel le modèle de prédiction d’informations de profondeur est entraîné en utilisant l’appareil d’entraînement de modèle proposé dans la présente demande.
Selon la technologie de la présente demande, le problème selon lequel le modèle de prédiction d’informations de profondeur est limité lorsqu’un radar laser ou un autre capteur de profondeur est utilisé pour collecter des informations de profondeur réelle servant de signal de surveillance, est résolu.
Il convient de comprendre que le contenu ci-dessus n’est pas entendu identifier des particularités essentielles ou critiques de modes de réalisation de la présente demande, et ne doit pas être interprété comme limitant la portée de la présente demande. D’autres particularités de la présente demande peuvent être aisément comprises à partir de la description détaillée suivante.
Les dessins sont utilisés pour mieux faire comprendre la présente demande et ne sauraient être utilisés comme une limitation à la présente demande, dans lesquels :
La montre un premier organigramme d’un procédé d’entraînement de modèle selon un mode de réalisation de la présente demande ;
La montre un deuxième organigramme d’un procédé d’entraînement selon un mode de réalisation de la présente demande ;
La montre un troisième organigramme d’un procédé d’entraînement selon un mode de réalisation de la présente demande ;
La montre un quatrième organigramme d’un procédé d’entraînement selon un mode de réalisation de la présente demande ;
La montre un cinquième organigramme d’un procédé d’entraînement selon un mode de réalisation de la présente demande ;
La montre un exemple de diagramme d’un modèle de prédiction d’informations de profondeur selon un mode de réalisation de la présente demande ;
La montre un sixième organigramme d’un procédé d’entraînement de modèle selon un mode de réalisation de la présente demande ;
La montre un organigramme d’un procédé de prédiction selon un mode de réalisation de la présente demande ;
La montre un schéma fonctionnel d’un appareil d’entraînement de modèle selon un mode de réalisation de la présente demande ;
La montre un schéma fonctionnel d’un appareil de prédiction selon un mode de réalisation de la présente demande ; et
La montre un schéma fonctionnel d’un dispositif électronique pour la mise en œuvre du procédé d’entraînement de modèle ou du procédé de prédiction selon un mode de réalisation de la présente demande.
DESCRIPTION DÉTAILLÉE
Les exemples de modes de réalisation de la demande seront décrits ci-dessous en combinaison avec des dessins, comportant divers détails des modes de réalisation de la demande pour faciliter la compréhension, qui doivent être considérés comme exemplaires uniquement. Par conséquent, l’homme du métier devrait être conscient que divers changements et modifications peuvent être apportés aux modes de réalisation décrits ici sans s’écarter de la portée et de l’esprit de la présente demande. De même, des descriptions de fonctions et de structures bien connues sont omises dans la description suivante par souci de clarté et de concision.
Un mode de réalisation de la présente demande propose un procédé d’entraînement de modèle qui est applicable aux systèmes de conduite autonomes, tels que les véhicules autonomes et les excavateurs sans pilote, et qui est également applicable aux technologies de réalité augmentée (RA) et de réalité virtuelle (RV). En se référant à la , le procédé peut comporter :
S101, une première image échantillon est entrée dans un modèle de prédiction d’informations de profondeur, et des informations de profondeur de la première image sont acquises ;
S102, des d’informations de posture inter-images sont acquises sur la base d’une deuxième image échantillon et de la première image échantillon ;
S103, une image de projection correspondant à la première image échantillon est acquise, au moins selon les informations de posture inter-images et les informations de profondeur ; et
S104, une fonction de perte est acquise en déterminant une fonction pour calculer la similarité entre la deuxième image échantillon et l’image de projection, et le modèle de prédiction d’informations de profondeur est entraîné à l’aide de la fonction de perte.
Dans la présente demande, une image est utilisée comme entrée, et des informations de profondeur correspondant à l’image peuvent être efficacement estimées de manière autosupervisée, de sorte qu’il n’est pas nécessaire d’utiliser un radar laser ou un autre capteur de profondeur pour collecter des informations de profondeur de haute précision, ce qui impose moins de restrictions.
Dans un exemple, une image couleur est utilisée comme entrée pour l’estimation d’informations de profondeur autosupervisée, et l’ensemble du procédé peut être divisé en deux parties, comportant : l’estimation d’informations de posture inter-image et l’estimation d’informations de profondeur de l’image. Par exemple, en donnant deux images It和It+1, l’image Itpeut être projetée sur la vue de It+1pour produire une image virtuelle It’ selon les informations de posture inter-images Ptet les informations de profondeur Dtacquises correspondant à l’image It. Si les informations de posture inter-image Ptet les informations de profondeur Dtsont estimées avec assez de précision, l’image It’ et l’image It+1seront assez similaires pour qu’une fonction pour calculer la similarité entre l’image It’ et l’image It+1soit déterminée de manière à acquérir une fonction de perte (It+1,It ) et que le modèle de prédiction d’informations de profondeur soit entraîné à l’aide de la fonction de perte. Facultativement, en S101, les images échantillons peuvent être des trames vidéo, par exemple, la première image échantillon et la deuxième image échantillon sont deux trames vidéo avec un nombre prédéfini de trames intercalées entre elles. Ou bien, la première image échantillon et la deuxième image échantillon sont deux trames vidéo consécutives (par exemple, It, et It+1). En outre, la première image échantillon et la deuxième image échantillon peuvent être sélectionnées de manière à ce que le contenu de la première image échantillon et de la deuxième image échantillon soit similaire. Par exemple, les images échantillons comportent des images multi-trames capturées par deux dispositifs de prise de vue (comme une caméra binoculaire) dans la même orientation, et la première image échantillon et la deuxième image échantillon sont des images capturées par les deux dispositifs de prise de vue en même temps.
Facultativement, les images échantillons sont des images en couleur.
Dans un mode de réalisation, en se référant à la , S101 les informations de profondeur de la première image échantillon sont acquises, comporte S201~S203.
En S201, un redimensionnement est effectué sur la première image échantillon pour obtenir une première image de taille différente de la première image échantillon.
Facultativement, il existe une pluralité de premières images, chacune ayant une taille différente.
Facultativement, le redimensionnement effectué sur la première image échantillon peut aussi consister à sous-échantillonner la première image échantillon. Par exemple, une image ayant une taille de M×N peut être sous-échantillonnée d’un facteur s, ce qui permet d’obtenir une image de taille (M/s) × (N/s).
En S202, une particularité d’image est acquise en effectuant une extraction de particularité sur la première image.
En S203, les informations de profondeur de la première image échantillon sont déterminées selon la particularité d’image.
Facultativement, lorsqu’il existe une pluralité de premières images, une extraction de particularité est effectuée sur chaque première image, et les particularités de la pluralité de premières images sont combinées pour déterminer les informations de profondeur de la première image échantillon.
L’avantage de procéder ainsi est que la première image échantillon est redimensionnée pour obtenir les premières images de différentes tailles, de sorte que les informations de particularité d’image dans différentes tailles peuvent être obtenues, ce qui permet d’extraire des informations plus exhaustives, dont à la fois des informations globales et des informations détaillées locales.
Dans un mode de réalisation, en se référant à la , S101 des informations de profondeur de la première image échantillon sont acquises, comporte S301~S302.
En S301, une particularité convolutive est acquise en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur.
Facultativement, le modèle de prédiction d’informations de profondeur comprend un réseau d’extraction de particularité contenant couches convolutives multiples, et des particularités extraites à l’aide de différentes couches convolutives sont de taille différente. La particularité convolutive extraite avec chaque couche convolutive peut être obtenue en effectuant une extraction de particularité sur la première image échantillon directement en utilisant le réseau d’extraction de particularité, de sorte que les particularités convolutives de couches convolutives multiples sont acquises.
En S302, les informations de profondeur de la première image échantillon sont déterminées selon la particularité convolutive.
Facultativement, lorsque les particularités convolutives de couches convolutives multiples sont acquises, les informations de profondeur de la première image échantillon peuvent être déterminées en combinant les particularités convolutives de couches convolutives multiples.
L’avantage de procéder ainsi est que la particularité de la première image est extraite avec diverses couches convolutives, ce qui permet d’extraire des informations de particularité plus exhaustives, comportant à la fois des informations globales et des informations locales détaillées.
Dans un mode de réalisation, en se référant à la , S101 des informations de profondeur de la première image échantillon sont acquises, comporte S401~S402.
En S401, une particularité d’image et une particularité convolutive de la première image échantillon sont obtenues, la particularité d’image étant acquise en effectuant une extraction de particularité sur une première image, la première image étant une image différente de la première image échantillon en taille, la particularité convolutive étant acquise en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et
en S402, les informations de profondeur de la première image échantillon sont déterminées selon la particularité d’image et la particularité convolutive.
Facultativement, la particularité d’image et la particularité convolutive sont concaténées (concat), et les informations de profondeur de la première image échantillon sont déterminées selon la particularité concaténée ;
Par exemple, s’il existe des particularités des premières images en tailles multiples et des particularités convolutives acquises avec des couches convolutives multiples, S402 peut comporter :
(1) une particularité d’image et une particularité convolutive de la même taille de particularité sont concaténées, et des particularités concaténées de tailles multiples sont obtenues ;
(2) des informations de profondeur intermédiaire sont déterminées sur la base des particularités concaténées de tailles multiples ; et
(3) les informations de profondeur de la première image échantillon sont déterminées sur la base des informations de profondeur intermédiaire.
Dans ce mode de réalisation, des particularités d’image déterminées à partir des premières images de différentes tailles et des particularités convolutives extraites avec différentes couches convolutives sont combinées, de sorte que de nouvelles informations de particularité avec une plus forte expressivité sont obtenues, et donc des informations de profondeur avec une plus grande précision peuvent être obtenues.
Facultativement, dans l’opération (2) ci-dessus du S402, une reconstruction d’image peut être utilisée pour obtenir les informations de profondeur intermédiaire. Spécifiquement, les particularités concaténées de tailles multiples sont soumises à une opération de convolution multicouche et à une opération de fonction d’activation (par exemple, sigmoïde), et une pluralité d’images de profondeur D={D1, ..., Dn} correspondant aux particularités concaténées de tailles multiples sont obtenues. De façon similaire, en S203 et S302, l’acquisition des informations de profondeur basées sur la particularité d’image ou la particularité convolutive peut également être effectuée selon ce mode de réalisation.
Facultativement, après l’acquisition des particularités concaténées de tailles multiples, un renforcement par canal est effectué sur les particularités concaténées de tailles multiples pour obtenir des particularités renforcées de tailles multiples. Grâce au renforcement par canal, des informations effectives dans les particularités acquises de tailles multiples peuvent être renforcées de manière effective.
En se référant à la , une particularité F (c×w×h) est donnée, où c désigne le nombre de canaux de la particularité, w et h désignent respectivement la largeur et la hauteur de la particularité, et le processus de renforcement par canal est le suivant :
(1) une opération de convolution (conv) et une opération de fonction de remise en forme sont effectuées sur la particularité F pour obtenir une particularité Q (c×(h×w)) et une particularité H ((h×w)×c) ;
(2) une opération de multiplication matricielle est effectuée sur la particularité Q (c×(h×w)) et la particularité H ((h×w)×c) pour obtenir une matrice M (c×c), puis une opération softmax de régression logistique est effectuée sur la matrice M (c×c) pour obtenir une matrice M’ (c×c) ;
(3) une opération de convolution est effectuée sur la particularité F pour obtenir une nouvelle particularité F’ (c×h×w) ; et
(4) une opération de multiplication matricielle est effectuée sur la particularité F’ (c×h×w) en prenant M’ (c×c) comme poids pour obtenir une particularité renforcée Fh (c×h×w) ; et une opération d’addition au niveau du pixel est effectuée sur la particularité Fh et la particularité F’ pour obtenir une particularité renforcée finale Fo.
En se référant à la , il est montré un exemple de diagramme du modèle de prédiction d’informations de profondeur.
Dans une première étape, la première image échantillon est sous-échantillonnée pour obtenir des premières images de tailles multiples, telles qu’une première image A, une première image B et une première image C. Une extraction de particularité est effectuée sur chaque première image pour obtenir une particularité d’image.
En outre, la première image échantillon est directement entrée dans un réseau d’extraction de particularité dans le modèle de prédiction d’informations de profondeur, où le réseau d’extraction de particularité contient des couches convolutives multiples, comme une couche convolutive C1, une couche convolutive C2 et une couche convolutive C3, comme illustré. Une extraction de particularité est effectuée dans chaque couche convolutive pour obtenir une particularité convolutive.
Une particularité d’image et une particularité convolutive de la même taille de particularité sont concaténées (concat), et des particularités concaténées de tailles multiples sont obtenues.
Dans une deuxième étape, après avoir obtenu des particularités concaténées de tailles multiples, un renforcement par canal est effectué sur les particularités concaténées de tailles multiples pour obtenir des particularités renforcées de tailles multiples. Grâce au renforcement par canal, des informations des particularités acquises de tailles multiples peuvent être renforcées de manière effective.
Dans une troisième étape, après l’obtention des particularités de tailles multiples renforcées par canal, une reconstruction d’image est effectuée sur les particularités renforcées de tailles multiples pour obtenir une pluralité d’images de profondeur D={D1, ..., Dn}.
Dans une quatrième étape, selon la pluralité d’images de profondeur D={D1, ..., Dn}, les informations de profondeur pour la sortie finale sont déterminées.
Dans un mode de réalisation, S102 les informations de posture inter-images sont acquises sur la base d’une deuxième image échantillon des images échantillons et la première image échantillon, comporte :
(1) l’extraction de particularité est effectuée sur la deuxième image échantillon et la première image échantillon ; et
(2) les informations de posture inter-images sont acquises en effectuant une régression sur les particularités extraites de la deuxième image échantillon et de la première image échantillon. Facultativement, les informations de posture inter-images Pt comprennent une pluralité de paramètres de rotation et une pluralité de paramètres de translation, par exemple, si un système de coordonnées rectangulaires spatiales xyz est établi, il y a alors en correspondance trois paramètres de rotation et trois paramètres de translation.
L’avantage de procéder ainsi est que les informations de posture inter-images sont déterminées en effectuant une extraction de particularité sur les images et une régression sur les particularités extraites, de sorte que le résultat du calcul est plus précis.
La est un exemple d’organigramme pour la mise en œuvre de S102. En se référant à la , la première image échantillon et la deuxième image échantillon (par exemple, It, et It+1) sont entrées dans une dorsale de réseau neuronal convolutif, et l’extraction de particularité est effectuée avec la dorsale ; puis une régression est effectuée sur les particularités extraites en utilisant un réseau entièrement connecté pour obtenir le résultat de posture inter-trame final Pt. La dorsale ici peut être un réseau d’extraction de particularité commun, tel que resnet 18 ou resnet 50.
Dans un mode de réalisation, S103 une image de projection correspondant à la première image échantillon est acquise au moins selon les informations de posture inter-image et les informations de profondeur, comporte :
(1) un premier paramètre de collecte correspondant à la première image échantillon et un deuxième paramètre de collecte correspondant à la deuxième image échantillon sont acquis ;
(2) les premières données de nuage de points de la première image échantillon sont déterminées selon les informations de profondeur de la première image échantillon et le premier paramètre de collecte ;
où les données de nuage de points se réfèrent à un jeu de données de points dans un certain système de coordonnées ; et chaque point peut contenir une variété d’informations, telles que coordonnées tridimensionnelles, couleur, valeur de classification, valeur d’intensité et temps ;
(3) les premières données de nuage de points sont transformées en deuxièmes données de nuage de points selon les informations de posture inter-images ; et
(4) les deuxièmes données de nuage de points sont projetées selon le deuxième paramètre de collecte pour obtenir l’image de projection.
Spécifiquement, on suppose que le premier paramètre de collecte correspondant à la première image échantillon It est Kt, le deuxième paramètre de collecte correspondant au deuxième échantillon d’image It+1est Kt+1, et que Ktet Kt+1sont des matrices. Selon les informations de profondeur Dtcorrespondant à It, on obtient les premières données de nuage de points Pdt=Kt-1×Dt. Selon les informations de posture inter-image Pt, les premières données de nuage de points Pdtpeuvent être transformées en deuxièmes données de nuage de points Pdt+1dans une vue correspondant à la deuxième image échantillon It+1: Pdt+1=Pt×Pdt. Enfin, les deuxièmes données de nuage de points Pdt+1sont projetées selon le deuxième paramètre de collecte Kt+1pour obtenir une image de projection It : It =Kt+1×Pdt+1.
L’avantage de procéder ainsi est que, en effectuant les étapes décrites ci-dessus, l’image de projection de la première image échantillon dans la vue de la deuxième image échantillon peut être obtenue en utilisant les paramètres de collecte, les informations de posture inter-image et les informations de profondeur de l’acquisition d’image, et la précision des informations de profondeur peut être validée sur la base de la similarité entre l’image de projection et la deuxième image échantillon. Le procédé est simple en calcul et facile à mettre en œuvre, et ne nécessite pas de matériels autres pour collecter les informations, ce qui réduit considérablement le coût.
Dans un mode de réalisation, la fonction de perte déterminée en S104 peut être la SIMilarité structurelle (SSIM) entre la deuxième image échantillon et l’image de projection, qui est un indice qui estime la similarité entre deux images.
Voici un exemple de la fonction de perte :
Dans d’autres modes de réalisation, la similarité peut être calculée à l’aide d’autres procédés, par exemple les procédés de calcul de similarité cosinus, similarité à base d’histogramme, à base d’informations mutuelles ou à base d’informations d’empreintes digitales d’image.
Dans un autre mode de réalisation, dans le cas du (2) en S402, une pluralité d’images de profondeur D={D1, ..., Dn} correspondant aux particularités de tailles multiples peut être obtenue, en correspondance à S102, une pluralité d’images de projection correspondant à la première image échantillon peut être acquise selon les informations de posture inter-images et la pluralité d’images de profondeur.
La fonction de perte déterminée en S104 peut en outre comporter : la similarité entre la deuxième image échantillon et chacune de la pluralité d’images de profondeur est calculée, et une somme pondérée de la pluralité de similarités est calculée, la similarité étant positivement liée à la taille de l’image de profondeur. Voici un exemple de la fonction de perte :
dans laquelle le poids de la similarité est Wi=1/2k, où k est relatif à la taille de l’image de profondeur, par exemple, la valeur de k peut être déterminée selon le facteur de sous-échantillonnage pour produire l’image de profondeur courante.
En correspondance, en se référant à la , un mode de réalisation de la présente demande propose un procédé de prédiction, comportant :
S801, une image à prédire est acquise ; et
S802, l’image à prédire est entrée dans un modèle de prédiction d’informations de profondeur, et des informations de profondeur de l’image à prédire fournies en sortie par le modèle de prédiction d’informations de profondeur sont acquises ;
dans lequel le modèle de prédiction d’informations de profondeur est entraîné en utilisant le procédé d’entraînement de modèle proposé dans la présente demande. En outre, le modèle de prédiction d’informations de profondeur peut également être mis en œuvre selon le mode de réalisation ci-dessus et ne sera pas décrit ici en détail.
En correspondance, en se référant à la , un mode de réalisation de la présente demande propose un appareil d’entraînement de modèle 900, comportant :
un module d’acquisition d’informations de profondeur 901 pour entrer une première image échantillon dans un modèle de prédiction d’informations de profondeur, et acquérir des informations de profondeur de la première image échantillon ;
un module d’acquisition d’informations de posture inter-images 902 pour acquérir des d’informations de posture inter-images basées sur une deuxième image échantillon des images échantillons et sur la première image échantillon ;
un module d’acquisition d’image de projection 903 pour acquérir une image de projection correspondant à la première image échantillon au moins selon les informations de posture inter-images et les informations de profondeur ; et
un module d’acquisition de fonction de perte 904 pour acquérir une fonction de perte en déterminant une fonction pour calculer la similarité entre la deuxième image échantillon et l’image de projection, et entraîner le modèle de prédiction d’informations de profondeur en utilisant la fonction de perte.
Dans un mode de réalisation, le module d’acquisition d’informations de profondeur 901 comporte :
un sous-module de redimensionnement d’image pour effectuer un redimensionnement de la première image échantillon afin d’obtenir une première image dont la taille est différente de celle de la première image échantillon ;
un sous-module d’acquisition de particularité d’image pour acquérir une particularité d’image en effectuant une extraction de particularité sur la première image ; et
un premier sous-module d’acquisition d’informations de profondeur pour déterminer les informations de profondeur de la première image échantillon selon la particularité d’image.
Dans un mode de réalisation, le module d’acquisition d’informations de profondeur 901 comporte :
un sous-module d’acquisition de particularité convolutive pour acquérir une particularité convolutive en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et
un deuxième sous-module d’acquisition d’informations de profondeur pour déterminer les informations de profondeur de la première image échantillon selon la particularité convolutive.
Dans un mode de réalisation, le module d’acquisition d’informations de profondeur 901 comporte :
un sous-module d’acquisition de particularité pour acquérir une particularité d’image et une particularité convolutive de la première image échantillon, la particularité d’image étant acquise en effectuant une extraction de particularité sur une première image, la première image étant une image de taille différente de la première image échantillon, la particularité convolutive étant acquise en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et
un troisième sous-module d’acquisition d’informations de profondeur pour déterminer les informations de profondeur de la première image échantillon selon la particularité d’image et la particularité convolutive.
Dans un mode de réalisation, le module d’acquisition d’informations de posture inter-images 902 comporte :
un sous-module d’extraction de particularité pour effectuer l’extraction de particularité sur la deuxième image échantillon et la première image échantillon ; et
un sous-module d’informations de posture inter-images pour acquérir les informations de posture inter-images en effectuant une régression sur les particularités extraites de la deuxième image échantillon et de la première image échantillon.
Dans un mode de réalisation, le module d’acquisition d’image de projection 903 comporte :
un sous-module d’acquisition de paramètre de collecte pour acquérir un premier paramètre de collecte correspondant à la première image échantillon et un deuxième paramètre de collecte correspondant à la deuxième image échantillon ;
un premier sous-module d’acquisition de données de nuage de points pour déterminer des premières données de nuage de points de la première image échantillon selon les informations de profondeur de la première image échantillon et le premier paramètre de collecte ;
un deuxième sous-module d’acquisition de données de nuage de points pour transformer les premières données de nuage de points en deuxièmes données de nuage de points selon les informations de posture inter-images ; et
un sous-module de projection pour projeter les deuxièmes données de nuage de points selon le deuxième paramètre de collecte afin d’obtenir l’image de projection.
En correspondance, en se référant à la , un mode de réalisation de la présente demande propose en outre un appareil de prédiction 1000, comportant :
un module d’acquisition d’image à prédire 1001 pour acquérir une image à prédire ; et
un module de prédiction 1002 pour entrer l’image à prédire dans un modèle de prédiction d’informations de profondeur, et acquérir des informations de profondeur de l’image à prédire fournies en sortie par le modèle de prédiction d’informations de profondeur ;
dans lequel le modèle de prédiction d’informations de profondeur est entraîné en utilisant l’appareil d’entraînement de modèle proposé dans la présente demande.
Selon des modes de réalisation de la présente demande, la présente demande propose en outre un dispositif électronique et un support de stockage lisible.
Comme le montre la , un schéma fonctionnel d’un dispositif électronique pour la mise en œuvre du procédé d’entraînement de modèle ou du procédé de prédiction selon un mode de réalisation de la présente demande est montré. Le dispositif électronique est entendu représenter diverses formes d’ordinateurs numériques, tels que des ordinateurs portables, ordinateurs de bureau, postes de travail, assistants numériques personnels, serveurs, serveurs lames, ordinateurs centraux et autres ordinateurs convenables. Le dispositif électronique peut également représenter diverses formes de dispositifs mobiles, tels que des assistants numériques personnels, téléphones cellulaires, téléphones intelligents, dispositifs portables et autres dispositifs informatiques similaires. Les composants montrés ici, leurs connexions et relations, ainsi que leurs fonctions, ne le sont qu’à titre d’exemple et ne sont pas entendus limiter la mise en œuvre de l’application décrite et/ou revendiquée ici.
Comme le montre la , le dispositif électronique comporte : un ou plusieurs processeurs 1101, une mémoire 1102, et des interfaces pour connecter divers composants, dont des interfaces à grande vitesse et des interfaces à petite vitesse. Les divers composants sont interconnectés à l’aide de différents bus et peuvent être montés sur une carte mère commune ou autrement selon les besoins. Le processeur peut traiter des instructions pour exécution au sein du dispositif électronique, y compris des instructions stockées dans la mémoire ou sur la mémoire pour afficher des informations graphiques de l’interface graphique sur un dispositif d’entrée/sortie externe, tel qu’un dispositif d’affichage couplé à l’interface. Dans d’autres modes de réalisation, des processeurs multiples et/ou des bus multiples peuvent être utilisés avec des mémoires multiples et des stockages multiples, si souhaité. En outre, des dispositifs électroniques multiples peuvent être connectés, chacun assurant certaines des opérations nécessaires (par exemple, un ensemble de serveurs, un jeu de serveurs lames ou un système multiprocesseur). Un exemple de processeur 1101 est montré à la .
La mémoire 1102 est un support de stockage non transitoire lisible par ordinateur proposé dans la présente demande. La mémoire stocke des instructions exécutables par au moins un processeur amener l’au moins un processeur à réaliser le procédé d’entraînement de modèle ou le procédé de prédiction proposé ici. Le support de stockage non transitoire lisible par ordinateur de la présente demande stocke des instructions d’ordinateur permettant à un ordinateur de réaliser le procédé d’entraînement de modèle ou le procédé de prédiction proposé dans la présente demande.
La mémoire 1102, en tant que support de stockage non transitoire lisible par ordinateur, peut être utilisée pour stocker des programmes logiciels non transitoires, des programmes exécutables par ordinateur non transitoires et des modules, tels que des instructions de programme/modules correspondant au procédé d’entraînement de modèle dans les modes de réalisation de la présente demande (par exemple, le module d’acquisition d’informations de profondeur 901, le module d’acquisition d’informations de posture inter-images 902, le module d’acquisition d’image de projection 903 et le module d’acquisition de fonction de perte 904 montrés sur la ). Le processeur 1101 exécute diverses applications fonctionnelles du serveur et un traitement des données, c’est-à-dire en implémentant le procédé d’entraînement de modèle dans les modes de réalisation des procédés décrits ci-dessus, en exécutant les programmes logiciels, instructions et modules non transitoires stockés dans la mémoire 1102.
La mémoire 1102 peut comporter une zone de stockage de programme et une zone de stockage de données, la zone de stockage de programme pouvant stocker des programmes d’application requis par un système d’exploitation et au moins une fonction ; la zone de stockage de données pouvant stocker des données créées selon l’utilisation du dispositif électronique d’entraînement de modèle, etc. En outre, la mémoire 1102 peut comporter une mémoire vive à grande vitesse, et peut également comporter une mémoire non transitoire, telle qu’au moins un dispositif de stockage sur disque magnétique, un dispositif de mémoire flash, ou un autre dispositif de mémoire à semi-conducteurs non transitoire. Dans certains modes de réalisation, la mémoire 1102 comporte facultativement des mémoires situées à distance du processeur 1101, et les mémoires distantes peuvent être connectées au dispositif électronique d’entraînement de modèle via un réseau. Les exemples de réseau incluent, sans s’y limiter, Internet, intranets, réseaux locaux, réseaux de communication mobile et leurs combinaisons.
Le dispositif électronique pour le procédé d’entraînement de modèle ou le procédé de prédiction peut en outre comporter : un dispositif d’entrée 1103 et un dispositif de sortie 1104. Le processeur 1101, la mémoire 1102, le dispositif d’entrée 1103 et le dispositif de sortie 1104 peuvent être connectés via un bus ou autrement, comme illustré à la en prenant la connexion par bus comme exemple.
Le dispositif d’entrée 1103 peut recevoir des informations numériques ou de caractères et générer des entrées de signaux clés relatifs à des paramètres utilisateur et des commandes fonctionnelles du dispositif électronique d’entraînement de modèle, par exemple, le dispositif d’entrée peut comporter un écran tactile, un clavier, une souris, un trackpad, un pavé tactile, une baguette de pointage, un ou plusieurs boutons de souris, une boule de commande, un joystick et d’autres dispositifs d’entrée. Les dispositifs de sortie 1104 peuvent comporter un dispositif d’affichage, un dispositif d’éclairage auxiliaire (par exemple, une DEL), un dispositif de retour tactile (par exemple, un moteur à vibration), etc. Le dispositif d’affichage peut comporter, sans s’y limiter, un afficheur à cristaux liquides (LCD), un afficheur à diodes électroluminescentes (DEL) et un afficheur plasma. Dans certains modes de réalisation, le dispositif d’affichage peut être un écran tactile.
Divers modes de réalisation des systèmes et techniques décrits ici peuvent être implémentés dans des circuits électroniques numériques, des systèmes de circuits intégrés, ASIC (circuits intégrés à application spécifique), matériel informatique, microprogrammes, logiciels et/ou combinaisons de ceux-ci. Ces divers modes de réalisation peuvent comporter une implémentation dans un ou plusieurs programmes d’ordinateur qui peuvent être exécutés et/ou interprétés sur un système programmable comprenant au moins un processeur programmable, qui peut être un processeur programmable spécialisé ou d’usage général, qui peut recevoir des données et instructions d’un système de stockage, au moins un dispositif d’entrée et au moins un dispositif de sortie, et transmettre des données et instructions au système de stockage, à l’au moins un dispositif d’entrée et à l’au moins un dispositif de sortie.
Ces programmes informatiques (également appelés programmes, logiciels, applications logicielles ou code) comportent des instructions-machine d’un processeur programmable et peuvent être implémentés à l’aide de langages de programmation procéduraux et/ou orientés objet de haut niveau et/ou de langages assembleurs/machines. Tels qu’utilisés ici, les termes "support lisible par machine" et "support lisible par ordinateur" désignent tout produit, appareil et/ou dispositif de programme d’ordinateur (par exemple, disque magnétique, disque optique, mémoire, dispositif logique programmable (PLD)) destiné à fournir des instructions-machine et/ou des données à un processeur programmable, y compris un support lisible par machine qui reçoit des instructions machine sous forme de signaux lisibles par machine. L’expression "signal lisible par la machine" désigne tout signal utilisé pour fournir des instructions-machine et/ou des données à un processeur programmable.
Pour permettre une interaction avec un utilisateur, les systèmes et techniques décrits ici peuvent être implémentés sur un ordinateur comportant : un dispositif d’affichage (par exemple, un tube à rayons cathodiques ou un moniteur (afficheur à cristaux liquides) pour afficher des informations à l’intention d’un utilisateur ; et un clavier et un dispositif de pointage (par exemple, une souris ou une boule de commande) par lesquels un utilisateur peut fournir une entrée à l’ordinateur. D’autres types de dispositifs peuvent également être utilisés pour interagir avec un utilisateur ; par exemple, le retour fourni à l’utilisateur peut être toute forme de retour sensoriel (par exemple, un retour visuel, auditif ou tactile) ; et l’entrée de l’utilisateur peut être reçue sous toute forme (y compris une entrée acoustique, entrée vocale ou entrée tactile).
Les systèmes et techniques décrits ici peuvent être implémentés dans un système informatique qui comporte un composant d’arrière-plan (par exemple, un serveur de données), ou un système informatique qui comporte un composant de logiciel médiateur (par exemple, un serveur d’application), ou un système informatique qui comporte un composant frontal (par exemple, un ordinateur d’utilisateur ayant une interface utilisateur graphique ou un navigateur web par lequel un utilisateur peut interagir avec des modes de réalisation des systèmes et techniques décrits ici), ou dans un système informatique qui comporte toute combinaison de ces composants d’arrière-plan, composants de logiciel médiateur ou composants frontaux. Les composants du système peuvent être interconnectés par toute forme ou moyen de communication de données numériques (par exemple, un réseau de communication). Les exemples de réseaux de communication comportent : les réseaux locaux (LAN), réseaux étendus (WAN) et Internet.
Le système d’ordinateur peut comporter un client et un serveur. Le client et le serveur sont typiquement éloignés l’un de l’autre et interagissent typiquement par le biais d’un réseau de communication. La relation entre le client et le serveur est générée par des programmes d’ordinateur s’exécutant sur les ordinateurs respectifs et ayant une relation client-serveur l’un avec l’autre. Le serveur peut être un serveur en nuage, également appelé serveur informatique en nuage ou hôte en nuage, est un produit hôte dans un système de service informatique en nuage, et résout les défauts de haute difficulté de gestion et de faible expansibilité commerciale dans le service traditionnel d’hôte physique et de serveur privé virtuel (VPS).
Il sera apprécié que les différentes formes de flux décrites ci-dessus puissent être utilisées, et que les étapes puissent être réordonnées, ajoutées ou supprimées. Par exemple, les étapes décrites dans la présente demande peuvent être exécutées en parallèle ou de manière séquentielle, ou dans un ordre différent, pour autant que les résultats souhaités des solutions techniques divulguées dans la présente demande puissent être atteints, et qu’aucune limitation n’y soit apportée ici.
Les modes de réalisation décrits ci-dessus n’ont pas à être interprétés comme limitant la portée de la présente demande. Il apparaîtra à l’homme du métier que diverses modifications, combinaisons, sous-combinaisons et substitutions sont possibles, en fonction des exigences de conception et d’autres facteurs. Toute modification, équivalent et amélioration dans l’esprit et les principes de la présente demande sont entendus être inclus dans la portée de la présente demande.

Claims (16)

  1. Procédé d’entraînement de modèle, comprenant :
    l’entrée d’une première image échantillon dans un modèle de prédiction d’informations de profondeur, et l’acquisition d’informations de profondeur de la première image échantillon ;
    l’acquisition d’informations de posture inter-images sur la base d’une deuxième image échantillon et de la première image échantillon ;
    l’acquisition d’une image de projection correspondant à la première image échantillon, au moins selon les informations de posture inter-images et les informations de profondeur ; et
    l’acquisition d’une fonction de perte en déterminant une fonction pour calculer une similarité entre la deuxième image échantillon et l’image de projection, et l’entraînement du modèle de prédiction d’informations de profondeur à l’aide de la fonction de perte.
  2. Procédé d’entraînement de modèle selon la revendication 1, dans lequel l’acquisition des informations de profondeur de la première image échantillon, comprend :
    la réalisation d’un redimensionnement sur la première image échantillon pour obtenir une première image dont la taille est différente de celle de la première image échantillon ;
    l’acquisition d’une particularité d’image en effectuant une extraction de particularité sur la première image ; et
    déterminer les informations de profondeur de la première image échantillon selon les particularités d’image.
  3. Procédé d’entraînement de modèle selon la revendication 1 ou 2, dans lequel l’acquisition d’informations de profondeur de la première image échantillon, comprend :
    l’acquisition d’une particularité convolutive en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et
    la détermination des informations de profondeur de la première image échantillon selon la particularité convolutive.
  4. Procédé d’entraînement de modèle selon la revendication 1, dans lequel l’acquisition des informations de profondeur de la première image échantillon, comprend :
    l’acquisition d’une particularité d’image et d’une particularité convolutive de la première image échantillon, la particularité d’image étant acquise en effectuant une extraction de particularité sur une première image, la première image étant une image différente de la première image échantillon en taille, la particularité convolutive étant acquise en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et
    la détermination des informations de profondeur de la première image échantillon selon la particularité d’image et la particularité convolutive.
  5. Procédé d’entraînement de modèle selon la revendication 1 ou 4, dans lequel l’acquisition d’informations de posture inter-images basée sur la deuxième image échantillon des images échantillons et la première image échantillon, comprend :
    l’extraction de particularité sur la deuxième image échantillon et la première image échantillon ; et
    l’acquisition des d’informations de posture inter-images en effectuant une régression sur les particularités extraites de la deuxième image échantillon et de la première image échantillon.
  6. Procédé d’entraînement de modèle selon la revendication 1 ou 4, dans lequel
    l’acquisition de l’image de projection correspondant à la première image échantillon, au moins selon les informations de posture inter-images et les informations de profondeur, comprend :
    l’acquisition d’un premier paramètre de collecte correspondant à la première image échantillon et d’un deuxième paramètre de collecte correspondant à la deuxième image échantillon ;
    la détermination des premières données de nuage de points de la première image échantillon, selon les informations de profondeur de la première image échantillon et le premier paramètre de collecte ;
    la transformation des premières données de nuage de points en deuxièmes données de nuage de points, selon les informations relatives à la posture inter-image ; et
    en projetant les deuxièmes données de nuage de points selon le deuxième paramètre de collecte pour obtenir l’image de projection.
  7. Procédé de prédiction, comprenant :
    l’acquisition d’une image à prédire ; et
    l’entrée de l’image à prédire dans un modèle de prédiction d’informations de profondeur, et l’acquisition d’informations de profondeur de l’image à prédire fournie en sortie par le modèle de prédiction d’informations de profondeur ;
    dans lequel le modèle de prédiction d’informations de profondeur est entraîné en utilisant le procédé d’entraînement de modèle de l’une quelconque des revendications 1 à 6.
  8. Appareil d’entraînement de modèle, comprenant :
    un module d’acquisition d’informations de profondeur configuré pour fournir en entrée une première image échantillon d’images échantillons dans un modèle de prédiction d’informations de profondeur, et pour acquérir des informations de profondeur de la première image d’échantillon ;
    un module d’acquisition d’informations de posture inter-images configuré pour acquérir des informations de posture inter-images basées sur une deuxième image échantillon des images échantillons et sur la première image échantillon ;
    un module d’acquisition d’image de projection configuré pour acquérir une image de projection correspondant à la première image échantillon, au moins selon les informations de posture inter-images et les informations de profondeur ; et
    un module d’acquisition de fonction de perte configuré pour acquérir une fonction de perte en déterminant une fonction pour calculer la similarité entre la deuxième image échantillon et l’image de projection, et pour entraîner le modèle de prédiction d’informations de profondeur à l’aide de la fonction de perte.
  9. Appareil d’entraînement du modèle selon la revendication 8, dans lequel le module d’acquisition d’informations de profondeur comprend :
    un sous-module de redimensionnement d’image pour effectuer un redimensionnement sur la première image échantillon afin d’obtenir une première image dont la taille est différente de celle de la première image échantillon ;
    un sous-module d’acquisition de particularité d’image pour acquérir une particularité d’image en effectuant une extraction de particularité sur la première image ; et
    un premier sous-module d’acquisition d’informations de profondeur pour déterminer les informations de profondeur de la première image échantillon selon la particularité d’image.
  10. Appareil d’entraînement de modèle selon la revendication 8 ou 9, dans lequel le module d’acquisition d’informations de profondeur comprend :
    un sous-module d’acquisition de particularité convolutive pour acquérir une particularité convolutive en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et
    un deuxième sous-module d’acquisition d’informations de profondeur pour déterminer les informations de profondeur de la première image échantillon selon la particularité convolutive.
  11. Appareil d’entraînement de modèle selon la revendication 8, dans lequel le module d’acquisition d’informations de profondeur comprend :
    un sous-module d’acquisition de particularité pour acquérir une particularité d’image et une particularité convolutive de la première image échantillon, la particularité d’image étant acquise en effectuant une extraction de particularité sur une première image, la première image étant une image différente de la première image échantillon en taille, la particularité convolutive étant acquise en effectuant une extraction de particularité sur la première image échantillon en utilisant une couche convolutive dans le modèle de prédiction d’informations de profondeur ; et
    un troisième sous-module d’acquisition d’informations de profondeur pour déterminer les informations de profondeur de la première image échantillon selon la particularité d’image et la particularité convolutive.
  12. Appareil d’entraînement de modèle selon la revendication 8 ou 11, dans lequel le module d’acquisition d’informations de posture inter-images comprend :
    un sous-module d’extraction de particularité pour effectuer une extraction de particularité sur la deuxième image échantillon et la première image échantillon ; et
    un sous-module d’informations de posture inter-images pour acquérir les informations de posture inter-images en effectuant une régression sur les particularités extraites de la deuxième image échantillon et de la première image échantillon.
  13. Appareil d’entraînement de modèle selon la revendication 8 ou 11, dans lequel
    le module d’acquisition d’image de projection comprend :
    un sous-module d’acquisition de paramètre de collecte pour acquérir un premier paramètre de collecte correspondant à la première image échantillon et un deuxième paramètre de collecte correspondant à la deuxième image échantillon ;
    un premier sous-module d’acquisition de données de nuage de points pour déterminer des premières données de nuage de points de la première image échantillon selon les informations de profondeur de la première image échantillon et le premier paramètre de collecte ;
    un deuxième sous-module d’acquisition de données de nuage de points pour transformer les premières données de nuage de points en deuxièmes données de nuage de points selon les informations de posture inter-images ; et
    un sous-module de projection pour projeter les deuxièmes données de nuage de points selon le deuxième paramètre de collecte pour obtenir l’image de projection.
  14. Appareil de prédiction, comprenant :
    un module d’acquisition d’image à prédire configuré pour acquérir une image à prédire ; et
    un module de prédiction configuré pour entrer l’image à prédire dans un modèle de prédiction d’informations de profondeur, et pour acquérir des informations de profondeur de l’image à prédire fournies en sortie par le modèle de prédiction d’informations de profondeur ;
    dans lequel le modèle de prédiction d’information de profondeur est entraîné en utilisant l’appareil d’entraînement de modèle de l’une quelconque des revendications 9 à 13.
  15. Dispositif électronique, comprenant :
    au moins un processeur ; et
    une mémoire connectée en communication avec l’au moins un processeur ; dans lequel,
    la mémoire stocke des instructions exécutables par l’au moins un processeur, et les instructions, lorsqu’elles sont exécutées par l’au moins un processeur, amènent l’au moins un processeur à réaliser le procédé de l’une quelconque des revendications 1 à 7.
  16. Support de stockage lisible par ordinateur non transitoire stockant des instructions d’ordinateur pour amener l’ordinateur à réaliser le procédé de l’une quelconque des revendications 1 à 7.
FR2013370A 2020-06-26 2020-12-16 Procédé et appareil d’entraînement de modèle, et procédé et appareil de prédiction Pending FR3112007A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010593221.X 2020-06-26
CN202010593221.XA CN111753961B (zh) 2020-06-26 2020-06-26 模型训练方法和装置、预测方法和装置

Publications (1)

Publication Number Publication Date
FR3112007A1 true FR3112007A1 (fr) 2021-12-31

Family

ID=72677258

Family Applications (1)

Application Number Title Priority Date Filing Date
FR2013370A Pending FR3112007A1 (fr) 2020-06-26 2020-12-16 Procédé et appareil d’entraînement de modèle, et procédé et appareil de prédiction

Country Status (4)

Country Link
US (1) US11841921B2 (fr)
CN (1) CN111753961B (fr)
FR (1) FR3112007A1 (fr)
GB (1) GB2596370B (fr)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116803074A (zh) * 2020-11-11 2023-09-22 华为技术有限公司 用于验证估计深度信息的设备和方法
CN112634343A (zh) * 2020-12-23 2021-04-09 北京百度网讯科技有限公司 图像深度估计模型的训练方法、图像深度信息的处理方法
CN112651453B (zh) * 2020-12-30 2023-10-13 北京百度网讯科技有限公司 损失函数的自适应方法、装置、设备和存储介质
CN112927319B (zh) * 2021-02-25 2023-10-03 北京百度网讯科技有限公司 模型训练方法、图像处理方法、装置、设备及存储介质
CN112862006B (zh) * 2021-03-25 2024-02-06 北京百度网讯科技有限公司 图像深度信息获取模型的训练方法、装置及电子设备
CN112991415B (zh) * 2021-04-13 2024-05-03 Oppo广东移动通信有限公司 深度信息确定方法、装置、电子设备和存储介质
CN114332028A (zh) * 2021-12-30 2022-04-12 小荷医疗器械(海南)有限公司 内窥镜图像的处理方法、装置、可读介质和电子设备
CN114596637B (zh) * 2022-03-23 2024-02-06 北京百度网讯科技有限公司 图像样本数据增强训练方法、装置及电子设备
CN114758076A (zh) * 2022-04-22 2022-07-15 北京百度网讯科技有限公司 一种用于建立三维模型的深度学习模型的训练方法及装置
CN115457036B (zh) * 2022-11-10 2023-04-25 中国平安财产保险股份有限公司 检测模型训练方法、智能点数方法和相关设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578436B (zh) * 2017-08-02 2020-06-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
JP2021503134A (ja) * 2017-11-15 2021-02-04 グーグル エルエルシーGoogle LLC 画像深度とエゴモーション予測ニューラルネットワークの教師なし学習
CN108038474B (zh) * 2017-12-28 2020-04-14 深圳励飞科技有限公司 人脸检测方法、卷积神经网络参数的训练方法、装置及介质
CN108389226A (zh) 2018-02-12 2018-08-10 北京工业大学 一种基于卷积神经网络和双目视差的无监督深度预测方法
KR102220109B1 (ko) * 2018-05-31 2021-02-25 주식회사 뷰노 심층 신경망을 이용하여 영상을 분류하는 방법 및 이를 이용한 장치
CN110800023A (zh) 2018-07-24 2020-02-14 深圳市大疆创新科技有限公司 图像处理方法和设备、摄像装置以及无人机
CN109461180B (zh) * 2018-09-25 2022-08-30 北京理工大学 一种基于深度学习的三维场景重建方法
CN109377530B (zh) * 2018-11-30 2021-07-27 天津大学 一种基于深度神经网络的双目深度估计方法
CN110009674B (zh) 2019-04-01 2021-04-13 厦门大学 基于无监督深度学习的单目图像景深实时计算方法
US11044462B2 (en) 2019-05-02 2021-06-22 Niantic, Inc. Self-supervised training of a depth estimation model using depth hints
CN110490919B (zh) * 2019-07-05 2023-04-18 天津大学 一种基于深度神经网络的单目视觉的深度估计方法
CN111652921B (zh) 2020-04-21 2023-04-28 深圳大学 一种单目深度预测模型的生成方法及单目深度预测方法
CN111311685B (zh) 2020-05-12 2020-08-07 中国人民解放军国防科技大学 一种基于imu与单目图像的运动场景重构无监督方法

Also Published As

Publication number Publication date
CN111753961B (zh) 2023-07-28
GB2596370B (en) 2023-05-24
GB202019743D0 (en) 2021-01-27
CN111753961A (zh) 2020-10-09
GB2596370A (en) 2021-12-29
US20210406599A1 (en) 2021-12-30
US11841921B2 (en) 2023-12-12

Similar Documents

Publication Publication Date Title
FR3112007A1 (fr) Procédé et appareil d’entraînement de modèle, et procédé et appareil de prédiction
Ming et al. Deep learning for monocular depth estimation: A review
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
US10733431B2 (en) Systems and methods for optimizing pose estimation
US10796452B2 (en) Optimizations for structure mapping and up-sampling
US20230215126A1 (en) Multi-Angle Object Recognition
CN112862877B (zh) 用于训练图像处理网络和图像处理的方法和装置
CN113743607B (zh) 异常检测模型的训练方法、异常检测方法及装置
Zhang et al. Gated fusion network for degraded image super resolution
JP2021507388A (ja) インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体
US20230154170A1 (en) Method and apparatus with multi-modal feature fusion
CN113066017A (zh) 一种图像增强方法、模型训练方法及设备
CN112561879B (zh) 模糊度评价模型训练方法、图像模糊度评价方法及装置
EP3945456A1 (fr) Procédé et appareil de reconnaissance d'événements vidéo, dispositif électronique et support d'enregistrement
CN113781493A (zh) 图像处理方法、装置、电子设备、介质及计算机程序产品
CN114677517B (zh) 一种无人机用语义分割网络模型及图像分割识别方法
JPWO2020194378A1 (ja) 画像処理システム、画像処理装置、画像処理方法、及び画像処理プログラム
CN111292333A (zh) 用于分割图像的方法和装置
CN111932530A (zh) 三维对象检测方法、装置、设备和可读存储介质
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
Al Mansoori et al. An investigation of various dehazing algorithms used on thermal infrared imagery for maritime surveillance systems
Bhattacharyya et al. Efficient unsupervised monocular depth estimation using attention guided generative adversarial network
Zhao et al. Robust single-photon 3D imaging based on full-scale feature integration and intensity edge guidance
Yusiong et al. Unsupervised monocular depth estimation of driving scenes using siamese convolutional LSTM networks
CN116433674B (zh) 半导体硅晶圆检测方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4