EP4162448A1 - Procédé et dispositif de reconstruction tridimensionnelle d'un visage avec partie dentée à partir d'une seule image - Google Patents

Procédé et dispositif de reconstruction tridimensionnelle d'un visage avec partie dentée à partir d'une seule image

Info

Publication number
EP4162448A1
EP4162448A1 EP21730227.2A EP21730227A EP4162448A1 EP 4162448 A1 EP4162448 A1 EP 4162448A1 EP 21730227 A EP21730227 A EP 21730227A EP 4162448 A1 EP4162448 A1 EP 4162448A1
Authority
EP
European Patent Office
Prior art keywords
image
face
toothed portion
reconstruction
toothed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP21730227.2A
Other languages
German (de)
English (en)
Inventor
Olivier QUERBES
Véronique QUERBES
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of EP4162448A1 publication Critical patent/EP4162448A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30036Dental; Teeth
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/41Medical
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/44Morphing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2021Shape modification

Definitions

  • the present invention relates generally to three-dimensional facial reconstruction, and more particularly to a method and to a device for three-dimensional reconstruction of a face having a toothed part, from a single image, as well as to a computer program product implementing the method.
  • the invention finds applications, in particular, in digital processing techniques in the field of dentistry.
  • the planned dental treatment can be of an aesthetic, orthodontic or prosthetic nature.
  • Three-dimensional (3D) facial reconstruction is a rapidly expanding field and finds very varied applications. Previously used mainly in the audiovisual industry, it now finds other applications, notably in the simulation of aesthetic treatments.
  • Document US2018174367A discloses an augmented reality display system of a model making it possible to directly see the simulated result of a planned dental treatment, and also offering the possibility of interacting with this model to modify it in real time.
  • the system operates by acquiring video data (therefore relating to a plurality of images), simulating dental treatments on this video data, and rendering the result in augmented reality. If a 3D scan of the toothed part is available, it can be registered on an image, with or without the simulation of the planned treatment. Alternatively, a simulation can be done on video data, with the double disadvantage of having two image sensors on the one hand, and a rough simulation result on the other.
  • Document US2018110590A discloses a simulation method in which a dental arch is digitized in 3D on which it is envisaged to apply a dental treatment (fitting of rings, crowns, aligners, etc.), then, in a reality system augmented we align the 3D dental arch including the simulation of the dental treatment projected on the real image of the patient which is in 2D, with the aim of visualizing in this system no longer the real dental arch of the patient but this arch with the result of the planned dental treatment.
  • the invention aims to aim to make possible the facial reconstruction, ie, 3D reconstruction, of the face of a human subject with a visible toothed portion, from any series of 2D images or possibly from any 'a single 2D image of the face with the toothed portion, the 3D reconstruction thus obtained lending itself well to the apposition in the 3D domain of the result of the simulation of a projected dental treatment which modifies the toothed portion.
  • This object is achieved by means of a method comprising the separation of the 2D image of the face into a part corresponding to the toothed part alone and another part corresponding to the rest of the face, the first part being subjected to a digital processing of enhancement before merging with the second, either at 2D level or at 3D level.
  • the 3D reconstruction, or 3D surface, thus obtained is suitable for the simulation of a projected dental treatment to be applied to the toothed portion of the face, by substitution for the zone of the 3D surface corresponding to said toothed portion of another 3D surface corresponding to said toothed portion as it would be after said planned treatment.
  • a three-dimensional, 3D reconstruction method to obtain, from at least one two-dimensional, 2D, color image of a human face with a visible toothed portion, a single reconstructed 3D surface. of the toothed portion and of the facial portion outside the toothed portion of the face, said method comprising:
  • the embodiments use the enhanced 2D image (or images) with respect to the toothed portion, in order to produce a 3D facial reconstruction, with toothed portion, of the subject's face. It is the enhancement of the toothed part of the image of the patient's face that makes possible the 3D reconstruction not only of the facial part (excluding the toothed part) but also of the toothed part itself, from a single 2D image of the face with this toothed part visible.
  • This first mode of implementation provides that the facial reconstruction is decoupled from that of the toothed portion.
  • the generation of the 3D surface of the face can comprise:
  • the second deep learning algorithm can be based on a method of the pose generation method type 3D via a 3D Morphable Model or 3DMM (standing for “3D Morphable Model”) adapted to deform a generic 3D surface so as to be closer photometrically to the 2D image.
  • the first deep learning algorithm can be adapted to predict a depth map for the toothed portion of the face from training data by masking a depth map associated with the 2D image with the same mask as a mask used on the 2D image to get the first part of the 2D image corresponding to the toothed part of the face, and the depth map for the toothed portion of the face can be converted to a 3D reconstruction which is merged with the 3D reconstruction of the facial portion outside the toothed portion of the face to produce the 3D surface of the face.
  • the second algorithm can also be adapted to produce the relative 3D position of the camera having taken the face as presented on the 2D image as well as an estimate of the 2D area of said 2D image in which is locates the toothed portion of the face, so that a consolidated 3D surface of the face can be obtained from a plurality of 2D images of the face taken by a camera at different respective viewing angles and for each of which the steps of the process are repeated to obtain respective reconstructed 3D surfaces, said reconstructed 3D surfaces then being combined using the relative 3D position of the camera having taken the face as presented on each 2D image as well as the estimation of the 2D area of said image 2D in which the toothed portion of the face is located.
  • a second embodiment provides that the 3D reconstruction of the facial part outside the toothed part and that of the toothed portion are carried out by one and the same algorithm.
  • the generation of the 3D surface of the face can comprise the implementation of a third deep learning algorithm, adapted to produce an overall 3D reconstruction of the toothed portion and of the facial portion outside the toothed portion from of the second part of the 2D image to which is added the first part of said enhanced 2D image with mutual registration of said second part of the 2D image and of said and first part of said enhanced 2D image.
  • the third deep learning algorithm can be based on a method of the 3D pose generation method type via a 3D morphable or 3DMM model adapted to deform a generic 3D surface so as to approximate on the photometric plane of the second part of the 2D image to which is added the first part of said enhanced 2D image;
  • - modifying the photometric characteristics of the first 2D part of the image may include increasing the sharpness and / or increasing the contrast of said first part of the 2D image;
  • the enhancement of the toothed portion of the 2D image can be achieved using a series of purely photometric filters
  • the enhancement 2D processing comprises the extraction of the blue channel, a high-pass contrast enhancement filtering applied to the extracted blue channel, as well as a local histogram equalization filtering, for example of CLAHE type, applied to the blue filtered channel;
  • the high-pass contrast enhancement filtering applied to the blue channel may include an algorithm for increasing the sharpness, for example consisting in partially subtracting from said blue channel a blurred version of itself;
  • the first part of the enhanced 2D image can be produced from the original 2D image as an intermediate output of a semantic segmentation deep learning network, having a higher contrast than the 2D image original, and selected according to a determined quantitative criterion;
  • a contrast metric can be associated with the output of the convolution kernel of each of the convolution layers of the semantic segmentation deep learning network, and the selected intermediate output of the semantic segmentation deep learning network can be the output showing maximum contrast with respect to the metrics associated with the respective intermediate outputs of said semantic segmentation deep learning network.
  • the invention also relates to a device having means suitable for carrying out all the steps of the method according to the first aspect above.
  • a third aspect of the invention relates to a computer program product comprising one or more sequences of instructions stored on a memory medium readable by a machine comprising a processor, said sequences of instructions being adapted to achieve all the steps of the method according to the first aspect of the invention when the program is read from the memory medium and executed by the processor.
  • the invention also relates to a method for simulating the aesthetic result of a dental treatment planned for a human subject, for example an aesthetic, orthodontic or prosthetic treatment, from at least one two-dimensional, 2D, color image of the subject's face with a visible toothed portion, said method comprising:
  • the method comprises the implementation of an algorithm applied to a 3D reconstruction of the total dental arch of the subject, said algorithm being adapted to register the dental arch on the toothed portion of the 3D surface of the face as obtained by the method according to the first aspect, and to replace the toothed portion within said 3D surface of the face by a corresponding part of said 3D reconstruction of the dental arch of the subject, that is to say by the part of the dental arch of the subject which is visible in the 2D image;
  • the dental arch can undergo a digital treatment, either automatic or manual, before realignment on the toothed portion of the 3D surface of the face, in order to simulate within said 3D surface of the face the aesthetic result of the planned treatment;
  • the planned treatment may include at least one from the list of the following aesthetic, orthodontic or prosthetic treatments: a change in the color of the teeth, a realignment of the teeth, an affixing of veneers on the teeth, an installation of orthodontic material (for example for example rings) or prosthetic (for example a crown, a "bridge”, an "inlay-core”, an “inlay-onlay”).
  • FIG. 1 is a functional diagram illustrating the segmentation, according to the method of the first aspect of the invention, of a 2D color image of a human face with a visible toothed portion, into a first part corresponding to the portion toothed face only and a second part corresponding to the facial portion, outside said toothed portion, of the face;
  • FIG. 2 is a diagram of steps of a first embodiment of the method making it possible to obtain a 3D reconstruction from the 2D image of FIG. 1, in which the 3D reconstruction is carried out separately for each of the first and second parts of the 2D image, after enhancement of the first part and before merging to 3D level of the 3D reconstructions thus obtained;
  • FIG. 3 is a diagram of steps of a first embodiment of the method making it possible to obtain a 3D reconstruction from the 2D image of FIG. 1, in which the 3D reconstruction is carried out together for the first and second parts of the 2D image, after enhancement of the first part and merging of the two parts to the 2D level;
  • FIG. 4 is a functional diagram illustrating a first method of enhancing the toothed portion of the face of the 2D image, using a processing which implements a series of photometric filters;
  • Figure 5 is a functional diagram illustrating a second method of enhancing the toothed portion of the face of the 2D image, exploiting advances in artificial intelligence using an intermediate output of a deep learning network;
  • FIG. 6 is a functional diagram illustrating an example of implementation of the simulation method according to the fourth aspect of the invention, in which the intended treatment is teeth whitening.
  • the invention takes advantage of deep learning architectures such as deep neural networks and convolutional neural networks (or neural networks) or convolutional neural network or even CNN (standing for "Convolutional Neural Networks) »)
  • deep learning architectures such as deep neural networks and convolutional neural networks (or neural networks) or convolutional neural network or even CNN (standing for "Convolutional Neural Networks) »)
  • CNN standing for "Convolutional Neural Networks” »
  • An “image”, or “view”, or even “scan”, consists of a set of points of the real three-dimensional scene.
  • the points concerned are the points of the real scene projected in the focal plane of the 2D sensor used to acquire the 2D image, and are defined by the pixels of the 2D image.
  • this term designates the product or result of the 3D reconstruction processing, the points concerned being a 3D point cloud obtained by a transformation of a “depth map” (see definition given below), or by triangulation in the case of stereoscopy, or by 3D deformation of a generic 3D model in the case of a 3DMM type method (see definition given below).
  • a point cloud defines a skeleton of the three-dimensional scene.
  • a 3D mesh of this cloud of points for example a mesh of triangulated 3D points, can define an envelope.
  • a "monocular" image acquisition device is a device having only a single image sensor and capable of acquiring images of a three-dimensional scene only under a single viewing angle only at a given device position.
  • the “registration” (in English “registration") consists in determining the spatial relationship between two representations (2D image or 3D surface) of the same object so as to overlap the representations of the same physical point.
  • the “pose calculation” is the estimation of the position and the orientation of the scene imaged with respect to the imager (image sensor). This is one of the fundamental problems in computer vision, often referred to as “Perspective-n-Points” (PnP).
  • This problem consists in estimating the pose (2-tuple [R j ,; tj ⁇ formed by the rotation matrix flj and the translation vector tj) of the camera with respect to an object in the scene, which amounts to finding the pose making it possible to reduce the reprojection error between a point in space and its 2D correspondent in the image.
  • ePNP from the English “Efficient Perspective-n-Point”
  • This approach adds to that the fact of setting the pose of the camera through 4 control points, ensuring that the estimated transformation is rigid. The fact of proceeding in this way makes it possible to make the computation times shorter.
  • enhancement of the toothed portion is understood to mean a 2D level treatment specific to the toothed portion aimed at improving the photometric characteristics of said toothed portion.
  • this specific processing to the toothed portion may include applying a sequence of image processing filters. In other embodiments, it includes taking advantage of an intermediate output of a learning network.
  • a “sharpening” algorithm is an image processing algorithm for increasing the sharpness of the image.
  • 3DMM denotes a method of generating a 3D pose via a 3D morphable (that is to say modifiable) model. This method is particularly suitable for processing information on the face of a human being (skin, wrinkles, illumination, relief, etc.).
  • the 3DMM method involves affixing a 3D face (mask) to the 2D image, and modifying it to match a face on the 2D image. The information corresponding to the modified mask is then extracted which will make it possible to create the 3D representation of the face of the 2D image.
  • a "depth map” associated with a 2D image is a form of 2D representation of reconstructed 3D information, corresponding to the portion of the 3D scene reprojected in the 2D image.
  • this is a set of values, coded in the form of levels (or shades) of gray, respectively associated with each pixel p, of the 2D image: plus the distance between the point of the three-dimensional scene and the plane of the 2D image is large, and the darker the pixel.
  • One CNN is made up of two types of artificial neurons, arranged in “strata” or “layers” successively processing information:
  • processing neurons which process a limited portion of the image (called the “receptive field”) through a convolution function; and, - the (total or partial) pooling neurons of the outputs, known as “pooling” neurons (which means “regrouping” or “pooling”, in English), which make it possible to compress the information by reducing the size of the intermediate image (often by downsampling).
  • All the outputs of a processing layer make it possible to reconstitute an intermediate image, which serves as a basis for the following layer.
  • a non-linear and punctual corrective treatment can be applied between each layer to improve the relevance of the result.
  • CNNs are currently experiencing wide applications in the field of image recognition.
  • the embodiments of the method of the invention include the segmentation of the two-dimensional image (2D) 21 of the face of a human subject, here a young woman, in a first part 22, on the one hand, and a second part 22, on the other hand.
  • the first part 22 corresponds only to the toothed portion 1 of the face, which is visible in image 21. It is obtained by masking and blacking, in image 21, the facial portion 4 outside the toothed portion 1 of the face.
  • the second part 23 corresponds only to the facial portion 4, apart from the toothed portion 1, of the face. It is obtained by masking and blacking in the 2D image of said toothed portion 1 of the face.
  • the toothed part 1 is shown in Figure 1 in detail 10 of image 21, which corresponds to the area of the subject's mouth, which area is also identified by the same reference 10 in part 22 and in part 23 of image 21.
  • the toothed part excludes the lips and the gums, in order to really only understand the portion visible in image 21, where appropriate, of the upper arch and / or the lower arch of the subject's dentition.
  • This toothed portion presents, compared to the rest of the face, a high specularity and a particular texture which make 3D reconstruction difficult with conventional 3D facial reconstruction techniques.
  • This segmentation of the 2D image into two parts makes it possible to implement an image processing specific to the toothed portion 1 which is the sole object of the first part 22, in order to overcome the poor photometric properties of said portion toothed 1 in relation to the other portions of the face.
  • the image processing is adapted to enhance these properties, in particular the contrast.
  • Such a treatment is designated by the term “enhancement”. It is only applied to the toothed portion 1, ie, only to the part 22 of the image 22 of the face.
  • the toothed part after raising and the facial part outside the toothed part are then merged, that is to say recombined to finally give the 3D reconstruction of the two-dimensional image 21 of the face with the toothed part.
  • the method begins, in step 201, with the acquisition of at least one image (ie, of a 2D view) of the face of a subject that includes a visible toothed portion.
  • a 2D view is the case, especially when the subject is smiling.
  • a smile is the result of a natural expression of an emotion, which can also be controlled by the subject.
  • smiling exposes all or part of the upper dental arch, and usually also the lower arch of the subject, due to the opening of the mouth and the stretching of the lips that smiling causes.
  • step 201 includes taking a plurality of images of the patient's face, such as image 21, taken from different respective viewing angles. These embodiments, which will be returned to later, improve the precision of the 3D reconstruction of the subject's face.
  • step 202 the segmentation of the image 21 is carried out into a first part 22 and a second part 24.
  • the first part 22 corresponds to the toothed portion 1 from the face only.
  • the second part 24 corresponds only to the facial portion 4, apart from said toothed portion 1, of the face.
  • This segmentation step 202 can be carried out by a digital processing applied to the data of the image 21, via an algorithm 51 which implements the detection of external limits of the toothed portion 1 of the face thanks to a deep detection learning network. of characteristic points on a face. This makes it possible to generate a mask for each of said first and second parts 22 and 24, respectively, of the image. 21.
  • the effect of these masks is as follows:
  • - the first part 22 of image 21 is obtained from said image 21 by masking, that is to say by putting in black the facial portion 4 outside the toothed portion of the face; and, - the second part 24 of image 21 is obtained from said image 21 by putting the toothed portion 4 of the face in black.
  • parts 22 and 24 of image 21 are 2D images each corresponding to said image 21 but in which part of the pixels are replaced by black pixels.
  • This technique is known per se and its implementation is within the reach of those skilled in the art, which is why it will not be described in more detail in the present description.
  • the deep learning network of algorithm 51 is, in particular, adapted to exclude the lips and the gums from the first part 22, so that the latter only includes the toothed part 1 proper, of which the specularity and texture are very different from that of organic tissues, whether they are soft or hard, such as the skin, lips or mucous membranes of the mouth.
  • An example of such a deep learning network is described in the article Bulat et al. "How far are we from solving the 2D & 3D face aligned problem? (And a dataset of 230,0003D facial landmarks)", ICCV, 2017. The described algorithm finds characteristic points distributed along the lips.
  • step 203 the implementation of a facial reconstruction algorithm is carried out which can also be implemented in the form of a deep learning network 42.
  • This CNN is adapted to predict a 3D textured reconstruction 34 of the facial portion 4 outside the toothed portion 1 of the face. This reconstruction is obtained on the basis of the second part 24 of image 21.
  • the algorithm 42 is for example based on the concept of 3DMM (standing for “3D Morphable Mode!”), According to which the 3D surface corresponding to the three-dimensional reconstruction of a Any face can be obtained by deformation of an average face, the deformation being parameterized by a vector comprising a face number K of real values.
  • the deep learning network 42 has been trained for this purpose to be able to predict, given a 2D image supplied as input, the set of K face parameters which deforms the average 3D face model so that 'it resembles as much as possible, photometrically, to the face of the 2D image supplied as input.
  • the algorithm implemented by the network deep learning 42 implements a 3DMM type method suitable for deforming a generic 3D surface so as to approach the 2D image photometrically.
  • the algorithm can be based on a photometric proximity metric between the deformed 3D model and the starting 2D image, in connection with an optimization process based on this metric.
  • This network 42 is learned from 2D images of faces, the 3D surface of which is also known by a spatially precise means (for example a facial scanner with structured light).
  • the learning network 42 is also suitable for predicting also an illumination model (represented by 9 parameters) and a pose (represented by 6 parameters), which make it possible to estimate the relative 3D position of the camera having taken the face as presented on the 2D image supplied as input.
  • This pose estimation can be advantageously used in the case of using the method with several 2D images as input, which will be explained later.
  • step 204 comprises the application of digital processing 54 to the data of the first part 22 of the image 21, which corresponds to the toothed portion 1 of the subject's face.
  • This processing 54 comprises an enhancement of the first part 22 of the image 21 in order to modify the photometric characteristics of this first part.
  • this enhancement aims to improve the contrast of the image 22.
  • the processing 54 therefore makes it possible to generate an enhanced version 23 of the image 22 corresponding to the toothed portion of the face. Two embodiments of the enhancement will be described below, with reference to FIG. 4 and to FIG. 5, respectively.
  • step 205 one carries out the implementation of another deep learning algorithm 41, adapted to produce a depth map (in the 2D domain) of the toothed portion 1 of the face on the basis of the 'enhanced image 23 corresponding to the first part 22 of the two-dimensional image 21.
  • the deep learning algorithm 41 is adapted to predict a depth map for the toothed portion of the face from training data, by masking a depth map associated with the image 21 with the same mask as a mask used in image 21 to obtain, in step 202, the first part 22 of image 21 corresponding to toothed part 1 of the face. This depth map for the toothed portion 1 of the face is then converted into a 3D reconstruction.
  • the deep learning algorithm 41 can implement a particular example of CNN, which is in fact an FCN (standing for “Fully Convolutional Network”) inspired by the article by J. Long, E. Shelhamer and T. Darrell, "Fully convolutional networks for semantic segmentation", IEEE
  • Such a deep learning network is specifically trained to produce a depth map of the toothed part 1. It takes as input 2D images, the toothed portion 1 of which is isolated as described above in connection with step 202 (the rest of the image being masked and put in black) then enhanced by processing 54 as explained above. in connection with step 204. At output, deep learning network predicts the expected depth map on the toothed portion 1, generated from the learning data of the network by masking the global depth map with the same mask used on the 2D image in the enhancement step 204.
  • Step 206 then comprises the implementation of an algorithm 56 for merging the three-dimensional reconstruction 23 of the toothed portion 1 and the three-dimensional textured reconstruction 34 of the facial portion 4 of the face represented by the two-dimensional image 21 , to obtain the three-dimensional reconstruction 35 of the complete face, with its toothed portion 1.
  • the three-dimensional reconstruction 33 corresponding to the depth map produced by the algorithm 41 for the toothed portion 1 of the face is merged with the three-dimensional reconstruction 34 obtained by algorithm 42 for the facial portion outside the toothed portion of the face, in order to produce the three-dimensional surface 35 of the complete face.
  • the fusion algorithm 56 can again implement a deep learning network.
  • this network it is necessary to constitute a database, with data tuples acquired for different people, and which associate, for each 2D image of a person, the surface 3D of his face as well as the toothed portion.
  • the 2D image of each person can be acquired by any commercial device (camera, cell phone, digital tablet, etc.).
  • any commercial device camera, cell phone, digital tablet, etc.
  • a 3D reconstruction of the facial portion 4 of the face excluding the toothed part it is possible to use a 3D scan of facial reconstruction using structured light.
  • a 3D reconstruction can be obtained by an intraoral scanner in real colors (for example a WoW TM scanner available from the company BIOTECH DENTAL), thus producing a complete, textured and precise 3D dental arch.
  • such a scanner can restore the texture of the teeth by amalgamating the colors of the 2D images (encoded by an RGB coding, for example) used for the 3D reconstruction. It is then easy to re-texture the 3D model using not the raw 2D images, but images enhanced by algorithm 54 of step 204 of the process.
  • the 3D model then presents a much more contrasted surface and better suited to subsequent image processing algorithms based on photometry, which can ultimately be implemented in the context of the use made of facial reconstructions. which are obtained by virtue of the method of the invention, for example for the simulation of the aesthetic effect of a planned dental treatment.
  • the 3D reconstruction of the part of the image corresponding to the toothed portion 1 of the face, enhanced or textured in RGB depending on the use to be made of it is readjusted manually on the 3D reconstruction of the facial part 4 of the face, in order to produce a single 3D reconstruction comprising the facial portion 4 and the toothed portion 1 of the face.
  • the relative pose of the 2D image with respect to the 3D reconstruction can be calculated semi-automatically, by choosing 3D points of interest on the 3D surface as well as their corresponding point on the 2D image. Thanks to these pairs, a relative pose algorithm, for example ePNP, makes it possible to find the pose.
  • triplet training data ⁇ 2D image; 3D reconstruction; pose ⁇ .
  • This training data can easily be converted into other triples ⁇ 2D image; depth map; pose ⁇ , the depth map possibly being preferred in certain embodiments. Thanks to the deep learning network 56 trained as it has just been explained, the 3D surface of the face generated in step 206 of the method from the enhanced version 23 of the first part 22 of the 2D image , on the one hand, and of the second part 24 of said 2D image, on the other hand, is a good quality 3D reconstruction including for the toothed portion 1 of the face.
  • This 3D reconstruction is therefore well suited for the simulation of a projected treatment to be applied to the toothed portion of the face, by substitution for the zone of the 3D surface corresponding to said toothed portion of another 3D surface corresponding to said toothed portion such as that it would be after said planned treatment.
  • the enhanced image 23 corresponding to the part 22 of the input image
  • the deep learning algorithm 41 which corresponds to the toothed portion 1 of the face, is used by the deep learning algorithm 41 to produce a three-dimensional reconstruction 33 of the toothed portion 1 of the face in image 21.
  • the deep learning algorithm 42 which is for example based on a 3DMM method, generates a three-dimensional reconstruction 34 of the facial portion 4 alone.
  • Such an algorithm for example, is advantageously suitable for, moreover, producing the relative 3D position of the camera having taken the face as presented in the 2D image, as well as an estimate of the 2D area of said 2D image in which is the toothed portion of the face.
  • step 206 a consolidated 3D surface of the face from a plurality of 2D images of the face such as image 21, taken by a camera according to respective different viewing angles.
  • Each of these images is subjected to the 3D reconstruction method according to steps 202 to 205 of FIG. 2.
  • the implementation of the method of FIG. 2 can be repeated to obtain respective reconstructed 3D surfaces.
  • These reconstructed 3D surfaces can then be combined, in step 206, by using the relative 3D position of the camera having taken the face as presented on each 2D image as well as the estimation of the 2D area of said 2D image in which is the toothed portion of the face.
  • the consolidated 3D surface of the face which is obtained by this type of implementation from a plurality of 2D images of the subject's face is a more precise 3D reconstruction of the face and teeth than that obtained from a single 2D image of said face.
  • the generation of the 3D surface of the face comprises the implementation of another deep learning algorithm 43 capable of predicting a 3D reconstruction from a 2D image, which differs from the deep learning algorithms 41 and 42 from the embodiment of FIG. 2.
  • This another algorithm is suitable for producing an overall 3D reconstruction of the toothed portion 1 and of the facial portion 4 outside the toothed portion, from the second part 24 of the 2D image to which is added the first part 22 of said enhanced 2D image , with mutual registration of said second part of the 2D image and of said first part of said enhanced 2D image.
  • This third algorithm 43 can be derived from the algorithm 42 used in step 203 of the implementation mode illustrated by FIG. 2.
  • the first step 301 and the second step 302 of the implementation mode according to Figure 3 are identical, the first step 201 and the second step 202, respectively, of the implementation mode according to Figure 2. Further , the third step 303 of the embodiment of FIG. 3 corresponds to step 304 of the embodiment of FIG. 2.
  • the first step 301 corresponds to taking a 2D image of the face d 'a patient with a visible toothed portion 1.
  • the second step 302 is the step of segmenting the acquired 2D image, into a first part 22 corresponding to the toothed portion alone, and a second part
  • the third step 303 comprises the enhancement processing of the part 22 of the image corresponding to the toothed part 1, which makes it possible to produce an enhanced version 23 of said image 22
  • step 304 in fact, the enhanced image 23 which corresponds to the image 22 of the toothed portion alone on which a specific treatment has been applied to enhance the photometric characteristics, is reinjected into the original 2D image 21. More particularly, this result can be obtained by merging the enhanced image 23 and the part 24 of the original 2D image 21 corresponding to the facial part 4 except the toothed part 1 of the face, by a fusion algorithm 52. The result of this fusion is a reflective two-dimensional image 25, in which the toothed part 1 is enhanced. In other words, the image 25 produced by the fusion algorithm 52 is still a 2D image, like the original image 21, but it differs in that the toothed part 1 of the face is enhanced there.
  • step 305 the facial reconstruction and that of the toothed portion are carried out by the common implementation of a three-dimensional reconstruction algorithm 43, applied to the reflective two-dimensional image 25 in which the toothed part 1 is raised.
  • This algorithm can be derived from the algorithm 42 used in step 303 of the implementation of the method according to FIG. 2, but on the condition of adding the image of a toothed portion with enhanced texture in the training data.
  • the algorithm implemented by the deep learning network 43 implements a 3DMM type method applied to the reflowed 2D image 25, and which is adapted to deform a generic 3D surface so as to approach the 2D image photometrically.
  • algorithm 43 can be based on a photometric proximity metric between the deformed 3D model and the starting 2D image, in connection with an optimization process based on this metric .
  • the total reconstructions (of an image with a facial part and with a toothed part) showing an enhanced texture on the teeth, are registered with each other.
  • a restricted parameterization is then set up on these readjusted data in order to best account for the interindividual deformations.
  • the deformations are parameterized by a total number K of deformation parameters which is greater than the number K face of parameters of the algorithm 42 of FIG. 2, accounting for both the face and the teeth.
  • the modification of the photometric characteristics of the first part 22 of the original 2D image 21 which is generated in the enhancement step 204 of FIG. 2 as in step 303 of FIG. 3 comprises increasing the sharpness and / or increasing the contrast of said first part 22 of the 2D image.
  • the enhancement of the toothed portion of the 2D image can be achieved using a series of purely photometric filters.
  • enhancement treatment 54 at the 2D level which is applied to the toothed portion 1 comprises:
  • step 401 extracting the blue channel from the color image coded in the format RGB;
  • a high-pass contrast enhancement filtering 402 applied to the blue channel extracted in step 401; as well as
  • step 403 a CLAHE-type histogram local equalization filtering applied to the filtered blue channel which is obtained by step 402.
  • step 401 one skilled in the art will appreciate that the blue channel is, spectrally, the one which contains the most contrast on dental tissue.
  • the high-pass contrast enhancement filtering applied in step 402 to the blue channel may include an algorithm for increasing the sharpness such as a "sharpening" algorithm applied to the blue channel.
  • a “sharpening” algorithm applied to the blue channel.
  • One such algorithm involves partially subtracting a blurred version of itself from the blue channel, which has the effect of emphasizing high spatial frequency details.
  • the local histogram equalization filtering of step 403 can for example be of CLAHE type, as described in the chapter by Karel Zuiderveld
  • the enhanced version 23 of the first part 22 of the original two-dimensional image 21 corresponding to the toothed portion of the image 21 can be obtained from said original 2D image 21, as an intermediate output of a depth map prediction deep learning network 50, having a higher contrast than the original 2D image according to a determined quantitative criterion.
  • a depth map prediction deep learning network 50 having a higher contrast than the original 2D image according to a determined quantitative criterion.
  • the deep learning architecture 50 is for example a convolutional neural network (CNN) which can have a completely conventional structure.
  • CNN convolutional neural network
  • This type of CNN is available in libraries known to those skilled in the art which are in free access.
  • the two-dimensional image 21 is provided in the form of a matrix of pixels.
  • the color is coded by a third dimension, from depth equal to 3, to represent the fundamental colors [Red, Green, Blue]
  • the CNN of FIG. 5 is in fact an FCN (standing for “Fully Convolutional Network”) inspired by the scientific article already mentioned above, by J. Long, et al., “Fully convolutional networks for semantic segmentation ", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, 2015, pp. 3431- 3440.
  • This FCN has two very distinct parts, according to an encoding / decoding architecture.
  • the first part of the encoding FCN is the convolutional part itself. It comprises the “convolutional processing layer” 51, which has a succession of filters, or “convolution cores”, applied in layers.
  • the convolutional processing layer 51 functions as an extractor of the characteristics of the 2D images admitted as input to the CNN.
  • the input image 21 is passed through the succession of convolution nuclei, each time creating a new image called a convolution map.
  • Each convolutional kernel has two convolutional layers 511 and 512, and a layer 513 for reducing the resolution of the image by a pooling operation also called a local maximum operation ("maxpooling").
  • the output of the convolutional part 51 is then supplied as the input of a final convolutional layer 520 capturing the entire visual field of action of the preceding layer, and thus mimicking a fully connected layer (“fully connected” layer in English).
  • a final deconvolution layer 530 outputs a 22 ’depth map.
  • this type of CNN is unfortunately not suitable for 3D reconstruction of toothed part 1 in picture 22, due to the high specularity and low texture of the teeth. This is why the 22 ′′ depth map generated by this network 50 is not usable for the intended application.
  • each convolutional kernel (or kernel) of the convolutional processing layer 51 of the network 50 is suitable for extracting determined photometric characteristics from the 2D image admitted as input to the CNN.
  • each kernel generates a convolution map in the form of a new image constituting a version of the input image which is enhanced from the point of view of said characteristics.
  • the enhanced image 23 corresponding to the enhanced version of the image 21 at the input of the deep learning network 50 can be extracted as a determined intermediate output of said network 50, having a higher contrast than the original 2D image according to a determined quantitative criterion.
  • This intermediate output can be selected from among the outputs of the convolution kernels by a selection engine 52, on the basis of the values of a contrast metric which are respectively associated with the output of each of the convolution kernels of each convolution layer of the network 50.
  • the selected intermediate output of network 50 may be the output of the core of the convolutional processing layer 51 of said network which exhibits maximum contrast with respect to the metrics associated with the respective intermediate outputs of the network, that is, that is to say at the outputs of the respective cores of the layer 51.
  • the image delivered by this intermediate output has a higher contrast than the original 2D image 21 supplied at the input of the CNN.
  • the invention which has been described in the foregoing makes it possible to make possible facial reconstruction with a toothed portion on the basis of any single 2D image, or on any series of 2D images. In the latter case, multiple images are taken from different viewing angles, and a final multi-view stereoscopic reconstruction procedure is conducted to produce a more accurate 3D reconstruction of the face and teeth.
  • the method finds very varied applications, in particular in the simulation of dental treatments having aesthetic implications.
  • the functional diagram of FIG. 6 illustrates an example of a method of simulating the aesthetic result of an aesthetic, orthodontic or prosthetic dental treatment, which is designed for a human subject, ie, a patient from at least one two-dimensional, 2D, color image of the subject's face with a visible toothed portion.
  • the envisaged treatment is a cosmetic treatment consisting of teeth whitening.
  • the method comprises:
  • the three-dimensional reconstruction 75 of the patient's dental arch 1 which is obtained in step 61 may be a 3D reconstruction of the patient's full arch.
  • This 3D reconstruction can for example be reconstructed by an intraoral 3D scanner (IOS) 72.
  • the three-dimensional reconstruction 75 of the dental arch 1 of the patient can be obtained by volumetric imaging by conical beam (or CBCT, put for " Cone Beam Computed Tomography ”).
  • CBCT is a computed tomography technique used to produce a digital x-ray, located between the dental panoramic and the scanner.
  • a dental practitioner (such as a dental surgeon or an orthodontist, for example) develops a dental treatment plan 74.
  • the dental arch 1 undergoes automatic or manual digital processing which generates a simulation 2 of said dental arch after treatment.
  • the treated dental arch 2 here we can speak of the bleached dental arch
  • the treated dental arch 2 is registered on the toothed portion of the three-dimensional surface 73 of the patient's face, in order to simulate within said 3D surface the aesthetic result of the patient. planned treatment 74.
  • step 63 the three-dimensional surface 77 of the toothed portion 2 as it would appear after the planned dental treatment, here teeth whitening, is readjusted on the toothed portion of the three-dimensional reconstruction 73 of the patient's face, thanks to a registration algorithm 76.
  • a registration algorithm 76 which is applied to a three-dimensional reconstruction 77 of the dental arch is adapted to register the bleached dental arch 2 on the toothed portion of the three-dimensional surface 73 of the patient's face as obtained by the method according to the first aspect of the invention.
  • the display of the three-dimensional surface 73 of the face with the toothed portion 2 as it would be after the projected treatment can be a 3D display, for example in 3D software of the Meshlab TM type (which is a free software for processing 3D meshes), in CAD software (put for ("Computer Aided Design"). It can also be the display of a 2D image, or a display on glasses virtual reality glasses, or on augmented reality glasses These examples are not limiting.
  • the planned treatment can include at least one of the following aesthetic, orthodontic or prosthetic treatments: a change in the color of the teeth, a realignment of the teeth, an affixing of veneers on the teeth, an installation of orthodontic material (rings) or prosthetic (crown, "bridge”, “inlay core”, “inlay onlay”), etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

Il est divulgué un procédé de reconstruction 3D pour obtenir à partir d'une image 2D en couleurs d'un visage humain avec une portion dentée (1) visible, une unique surface 3D reconstruite de la portion dentée et de la portion faciale (4) hors portion dentée. Le procédé comprend la segmentation de l'image 2D en une première partie (22) correspondant à la portion dentée (1) et une seconde partie correspondant à la portion faciale (4) hors ladite portion dentée, le rehaussement de la première partie de l'image 2D afin de modifier des caractéristiques photométriques, et la génération d'une surface 3D du visage reconstruite à partir de la première partie réhaussée de l'image 2D et de la seconde partie de ladite image 2D. La surface 3D du visage obtenue est adaptée pour la simulation d'un traitement dentaire, par substitution à la zone de la surface 3D correspondant à la portion dentée (1) d'une autre surface 3D correspondant à la portion dentée après le traitement projeté.

Description

Procédé et dispositif de reconstruction tridimensionnelle d’un visage avec partie dentée à partir d’une seule image
[Domaine technique]
[0001] La présente invention se rapporte de manière générale à la reconstruction tridimensionnelle faciale, et plus particulièrement à un procédé et à un dispositif de reconstruction tridimensionnelle d’un visage ayant une partie dentée, à partir d’une seule image, ainsi qu’à un produit programme d’ordinateur implémentant le procédé.
[0002] L'invention trouve des applications, en particulier, dans les techniques de traitement numérique dans le domaine de la dentisterie.
[0003] Elle propose en effet, en outre, un procédé de simulation du résultat esthétique d’un traitement dentaire projeté pour un sujet humain, à partir d’au moins une image bidimensionnelle (2D), en couleurs, du visage du sujet avec une portion dentée visible. Le traitement dentaire projeté peut être de nature esthétique, orthodontique ou prothétique.
[Etat de la technique antérieure]
[0004] La reconstruction tridimensionnelle (3D) faciale est un domaine en pleine expansion et trouve des applications très variées. Jusqu’ici utilisée principalement dans le domaine de l’industrie audiovisuelle, elle trouve désormais d’autres applications, notamment dans la simulation de traitements esthétiques.
[0005] Parmi les traitements esthétiques, on peut mentionner les traitements dentaires (blanchiments de dents, appositions de facettes sur les dents, réalignement dentaire, travaux prothétiques, etc.). Pour ces traitements, le patient doit souvent engager le traitement sans pouvoir à l’avance apprécier par lui-même le résultat esthétique que ce traitement produira. Il doit s’en remettre à l’expertise du praticien pour cela. Le besoin existe de pouvoir donner au patient le bénéfice et les avantages d’une simulation apte à présenter de manière réaliste le résultat esthétique de ce genre de traitement avant son engagement effectif, pour éventuellement choisir de modifier le traitement projeté, en concertation avec le praticien.
[0006] Certaines techniques de reconstruction faciale existent déjà. Mais la plupart de ces techniques sont basées soit sur des technologies lourdes en termes de traitement numérique, c’est-à-dire en temps de traitement et en ressources de calcul nécessaires pour exécuter un algorithme de reconstruction, ou en termes de matériel. D’autres techniques sont basées sur l’acquisition de plusieurs images 2D passives afin de pouvoir travailler en photogrammétrie. Or, nombre de dispositifs du commerce ne comportent qu’un seul capteur 2D, ce qui complexifie l’utilisation de ce genre d’algorithme.
[0007] Certaines solutions techniques peuvent répondre au besoin exprimé plus haut, notamment grâce à l’intelligence artificielle (Al, ou IA de l’anglais « Artificial Intelligence »). Des réseaux d’apprentissage profond de plus en plus évolués permettent de reconstruire la face en 3D, à partir d’une seule image 2D, et ceci avec un rendu de plus en plus réaliste. Malheureusement, la portion dentée reste très souvent un élément inaccessible aux algorithmes d’apprentissage profond du fait de leur caractère particulier, c’est-à-dire très spéculaire et peu texturé.
[0008] Dans l’article par Wu et al., " Model-based teeth reconstruction", ACM T ransactions on Graphics 35, Article numéro 220, pp.1-13, Novembre 2016, les auteurs divulguent une solution paramétrique pour la reconstruction de la portion dentée. Toutefois, cette dernière n’est compatible qu’avec des capteurs calibrés. En raison de sa nature paramétrique, elle ne s’applique toutefois qu’à des dents ne déviant que dans une certaine mesure d’une dent prise comme standard.
[0009] Le document US2018174367A divulgue un système de visualisation en réalité augmentée d’un modèle permettant de voir directement le résultat simulé d’un traitement dentaire envisagé, et offrant aussi la possibilité d’interagir avec ce modèle pour le modifier en temps réel. Le système fonctionne par acquisition de données vidéo (se rapportant donc à une pluralité d’images), simulation de traitements dentaires sur ces données vidéo, et restitution du résultat en réalité augmentée. Si un scan 3D de la partie dentée est disponible, il peut être recalé sur une image, avec ou sans la simulation du traitement envisagé. Sinon, une simulation peut être faite sur des données vidéo, avec toutefois pour double inconvénient la nécessité d’avoir deux capteurs d’images, d’une part, et un résultat de la simulation qui est grossier, d’autre part.
[0010] Le document US2018110590A divulgue un procédé de simulation dans lequel on numérise en 3D une arcade dentaire sur laquelle on envisage d’appliquer un traitement dentaire (pose de bagues, couronnes, aligneurs, etc.), puis, dans un système de réalité augmentée on aligne l’arcade dentaire 3D comprenant la simulation du traitement dentaire projeté sur l’image réelle du patient qui est en 2D, dans le but de visualiser dans ce système non plus l’arcade dentaire réelle du patient mais cette arcade avec le résultat du traitement dentaire projeté. Toutefois, la méthode d’alignement des données 3D de l’arcade modifiée dans l’espace 2D de l’image réelle du patient n’étant pas explicitée, ce procédé paraît insuffisamment décrit pour pouvoir être reproduit par un homme du métier.
[Exposé de l’invention]
[0011] L'invention vise à vise à rendre possible la reconstruction faciale, i.e., reconstruction 3D, du visage d’un sujet humain avec une portion dentée visible, à partir d’une série d’images 2D quelconques ou possiblement à partir d’une unique image 2D quelconque du visage avec la portion dentée, la reconstruction 3D ainsi obtenue se prêtant bien à l’apposition dans le domaine 3D du résultat de la simulation d’un traitement dentaire projeté qui modifie la portion dentée. [0012] Ce but est atteint grâce à une méthode comprenant la séparation de l’image 2D du visage en une partie correspondant à la partie dentée seule et une autre partie correspondant au reste du visage, la première partie étant soumise à un traitement numérique de rehaussement avant fusion avec la seconde, soit au niveau 2D soit au niveau 3D. La reconstruction 3D, ou surface 3D, ainsi obtenue est adaptée pour la simulation d’un traitement dentaire projeté à appliquer à la portion dentée du visage, par substitution à la zone de la surface 3D correspondant à ladite portion dentée d’une autre surface 3D correspondant à ladite portion dentée telle qu’elle serait après ledit traitement projeté.
[0013] Plus spécifiquement, il est proposé un procédé de reconstruction tridimensionnelle, 3D, pour obtenir, à partir d’au moins une image bidimensionnelle, 2D, en couleurs d’un visage humain avec une portion dentée visible, une unique surface 3D reconstruite de la portion dentée et de la portion faciale hors portion dentée du visage, ledit procédé comprenant :
- la segmentation de l’image 2D en une première partie correspondant à la portion dentée du visage uniquement par masquage dans l’image 2D de la portion faciale hors portion dentée du visage, d’une part, et une seconde partie correspondant uniquement à la portion faciale, hors ladite portion dentée, du visage par masquage dans l’image 2D de la portion dentée du visage, d’autre part ;
- le rehaussement de la première partie de l’image 2D afin de modifier des caractéristiques photométriques de ladite première partie ;
- la génération d’une surface 3D du visage reconstruite à partir de la première partie réhaussée de l’image 2D, d’une part, et de la seconde partie de ladite image 2D, d’autre part, ladite surface 3D du visage étant adaptée pour la simulation d’un traitement dentaire projeté à appliquer à la portion dentée du visage, par substitution à la zone de la surface 3D correspondant à ladite portion dentée d’une autre surface 3D correspondant à ladite portion dentée après ledit traitement dentaire projeté, ladite génération de la surface 3D du visage comprenant :
- l’implémentation d’un premier algorithme d’apprentissage profond adapté pour produire une carte de profondeur 2D représentant une reconstruction 3D de la portion dentée du visage sur la base de la première partie de l’image 2D réhaussée ;
- l’implémentation d’un second algorithme d’apprentissage profond de reconstruction faciale, adapté pour produire une reconstruction 3D texturée de la portion faciale hors portion dentée du visage sur la base de la seconde partie de l’image 2D ; et,
- un algorithme de fusion de la reconstruction 3D de la portion dentée et de la reconstruction 3D texturée de la partie faciale de l’image 2D de l’image 2D, pour obtenir la surface 3D du visage avec sa portion dentée.
[0014] Les modes de mise en œuvre utilisent l’image (ou les images) 2D réhaussée(s) en ce qui concerne la portion dentée, afin de produire une reconstruction 3D faciale, avec portion dentée, du visage du sujet. C’est le rehaussement de la partie dentée de l’image du visage du patient qui rend possible la reconstruction 3D non seulement de la partie faciale (hors la partie dentée) mais aussi de la partie dentée elle-même, à partir d’une unique image 2D du visage avec cette partie dentée visible.
[0015] Ce premier mode de mise en œuvre prévoit que la reconstruction faciale est découplée de celle de la portion dentée. Dans ce premier mode de mise en œuvre en effet, la génération de la surface 3D du visage peut comprendre :
- l’implémentation d’un premier algorithme d’apprentissage profond adapté pour produire une carte de profondeur 2D représentant une reconstruction 3D de la portion dentée du visage sur la base de la première partie de l’image 2D réhaussée ;
- l’implémentation d’un second algorithme d’apprentissage profond de reconstruction faciale, adapté pour produire une reconstruction 3D texturée de la portion faciale hors portion dentée du visage sur la base de la seconde partie de l’image 2D ; et,
- un algorithme de fusion de la reconstruction 3D de la portion dentée et de la reconstruction 3D texturée de la partie faciale de l’image 2D de l’image 2D, pour obtenir la surface 3D du visage avec sa portion dentée ; [0016] Dans ce premier mode de mise en œuvre, le second algorithme d’apprentissage profond peut être basé sur une méthode de type méthode de génération de pose 3D via un modèle 3D morphable ou 3DMM (de l’anglais « 3D Morphable Model ») adaptée pour déformer une surface 3D générique de sorte à se rapprocher sur le plan photométrique de l’image 2D.
[0017] Le cas échéant, le premier algorithme d’apprentissage profond peut être adapté pour prédire une carte de profondeur pour la portion dentée du visage à partir de données d’apprentissage en masquant une carte de profondeur associée à l’image 2D avec le même masque qu’un masque utilisé sur l’image 2D pour obtenir la première partie de l’image 2D correspondant à la partie dentée du visage, et la carte de profondeur pour la portion dentée du visage peut être convertie en une reconstruction 3D qui est fusionnée avec la reconstruction 3D de la portion faciale hors portion dentée du visage pour produire la surface 3D du visage.
[0018] Le second algorithme peut être adapté, en outre, pour produire la position 3D relative de la caméra ayant pris le visage tel que présenté sur l’image 2D ainsi qu’une estimation de la zone 2D de ladite image 2D dans laquelle se situe la portion dentée du visage, en sorte qu’une surface 3D consolidée du visage peut être obtenue à partir d’une pluralité d’images 2D du visage prises par une caméra selon des angles de vue respectifs différents et pour chacune desquelles les étapes du procédé sont répétées pour obtenir des surfaces 3D reconstruites respectives, lesdites surfaces 3D reconstruites étant alors combinées en utilisant la position 3D relative de la caméra ayant pris le visage tel que présenté sur chaque image 2D ainsi que l’estimation de la zone 2D de ladite image 2D dans laquelle se situe la portion dentée du visage.
[0019] Un second mode de mise en oeuvre prévoit que la reconstruction 3D de la partie faciale hors la partie dentée et celle de la portion dentée sont réalisées par un seul et même algorithme. Dans cette mise en oeuvre, la génération de la surface 3D du visage peut comprendre l’implémentation d’un troisième algorithme d’apprentissage profond, adapté pour produire globalement une reconstruction 3D de la portion dentée et de la portion faciale hors portion dentée à partir de la seconde partie de l’image 2D à laquelle est ajoutée la première partie de ladite image 2D rehaussée avec recalage mutuel de ladite seconde partie de l’image 2D et de ladite et première partie de ladite image 2D rehaussée.
[0020] Des modes de mise en oeuvre, pris isolément ou en combinaison, prévoient en outre que :
- le troisième algorithme d’apprentissage profond peut être basé sur une méthode de type méthode de génération de pose 3D via un modèle 3D morphable ou 3DMM adaptée pour déformer une surface 3D générique de sorte à se rapprocher sur le plan photométrique de la seconde partie de l’image 2D à laquelle est ajoutée la première partie de ladite image 2D rehaussée ;
- la modification des caractéristiques photométriques de la première partie 2D de l’image peut comprendre l’augmentation de la netteté et/ou l’augmentation du contraste de ladite première partie de l’image 2D ;
- le rehaussement de la portion dentée de l’image 2D peut être réalisé en utilisant une série de filtres purement photométriques ;
- le traitement 2D de rehaussement comprend l’extraction du canal bleu, un filtrage passe-haut de rehaussement de contraste appliqué au canal bleu extrait, ainsi qu’un filtrage d’égalisation locale d’histogramme, par exemple de type CLAHE, appliqué au canal bleu filtré ;
- le filtrage passe-haut de rehaussement de contraste appliqué au canal bleu peut comprend un algorithme d’augmentation de la netteté, consistant par exemple à soustraire en partie dudit canal bleu une version floutée de lui-même ;
- en variante, la première partie de l’image 2D réhaussée peut être produite à partir de l’image 2D originale comme une sortie intermédiaire d’un réseau d’apprentissage profond de segmentation sémantique, ayant un contraste plus élevé que l’image 2D originale, et sélectionnée selon un critère quantitatif déterminé ;
- une métrique de contraste peut être associé à la sortie du noyau de convolution de chacune des couches de convolution du réseau d’apprentissage profond de segmentation sémantique, et la sortie intermédiaire sélectionnée du réseau d’apprentissage profond de segmentation sémantique peut être la sortie exhibant un maximum de contraste eu égard aux métriques associées aux sorties intermédiaires respectives dudit réseau d’apprentissage profond de segmentation sémantique.
[0021] Dans un deuxième aspect, l’invention a également pour objet un dispositif ayant des moyens adaptés pour exécuter toutes les étapes du procédé selon le premier aspect ci-dessus. [0022] Un troisième aspect de l’invention se rapporte à un produit programme d'ordinateur comprenant une ou plusieurs séquences d'instructions stockées sur un support de mémoire lisible par une machine comprenant un processeur, lesdites séquences d'instructions étant adaptées pour réaliser toutes les étapes du procédé selon le premier aspect de l'invention lorsque le programme est lu dans le support de mémoire et exécuté par le processeur.
[0023] Dans un quatrième et dernier aspect, l’invention a également pour objet un procédé de simulation du résultat esthétique d’un traitement dentaire projeté pour un sujet humain, par exemple un traitement esthétique, orthodontique ou prothétique, à partir d’au moins une image bidimensionnelle, 2D, en couleurs du visage du sujet avec une portion dentée visible, ledit procédé comprenant :
- la reconstruction tridimensionnelle, 3D, à partir de l’image 2D, du visage avec la portion dentée, pour obtenir une unique surface tridimensionnelle, 3D, reconstruite de la portion dentée et de la portion faciale hors portion dentée du visage par le procédé selon le premier aspect ;
- la substitution à la zone de la surface 3D correspondant à la portion dentée du visage d’une autre surface 3D correspondant à ladite portion dentée après ledit traitement projeté ; et,
- l’affichage de la surface 3D du visage avec la portion dentée après le traitement dentaire projeté.
[0024] Des modes de mise en oeuvre, pris isolément ou en combinaison, prévoient en outre que :
- le procédé comprend l’implémentation d’un algorithme appliqué à une reconstruction 3D de l’arcade dentaire totale du sujet, ledit algorithme étant adapté pour recaler l’arcade dentaire sur la portion dentée de la surface 3D du visage telle qu’obtenue par le procédé selon le premier aspect, et pour remplacer la portion dentée au sein de ladite surface 3D du visage par une partie correspondante de ladite reconstruction 3D de l’arcade dentaire du sujet, c’est-à-dire par la partie de l’arcade dentaire du sujet qui est visible dans l’image 2D ;
- l’arcade dentaire peut subir un traitement numérique, soit automatique soit manuel, avant recalage sur la portion dentée de la surface 3D du visage, afin de simuler au sein de ladite surface 3D du visage le résultat esthétique du traitement projeté ;
- la reconstruction 3D de l’arcade dentaire du sujet peut être obtenue avec une caméra intraorale ; et/ou
- le traitement projeté peut comprendre l’un au moins parmi la liste des traitements esthétique, orthodontique ou prothétique suivants : un changement de teinte des dents, un réalignement des dents, une apposition de facettes sur les dents, une pose de matériel orthodontique (par exemple des bagues) ou prothétique (par exemple une couronne, un « bridge », un « inlay-core », un « inlay-onlay »).
[Description des dessins]
[0025] D’autres caractéristiques et avantages de l’invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés sur lesquels : [Fig. 1] la figure 1 est un diagramme fonctionnel illustrant la segmentation, selon le procédé du premier aspect de l’invention, d’une image 2D en couleurs d’un visage humain avec une portion dentée visible, en une première partie correspondant à la portion dentée du visage uniquement et une seconde partie correspondant à la portion faciale, hors ladite portion dentée, du visage ;
[Fig. 2] la figure 2 est un diagramme d’étapes d’un premier mode de mise en oeuvre du procédé permettant d’obtenir une reconstruction 3D à partir de l’image 2D de la figure 1 , dans lequel la reconstruction 3D est réalisée séparément pour chacune des première et seconde parties de l’image 2D, après réhaussement de la première partie et avant fusion au niveau 3D des reconstructions 3D ainsi obtenues ;
[Fig. 3] la figure 3 est un diagramme d’étapes d’un premier mode de mise en oeuvre du procédé permettant d’obtenir une reconstruction 3D à partir de l’image 2D de la figure 1 , dans lequel la reconstruction 3D est réalisée ensemble pour les première et seconde parties de l’image 2D, après rehaussement de la première partie et fusion des deux parties au niveau 2D ;
[Fig. 4] la figure 4 est un diagramme fonctionnel illustrant une première méthode de réhaussement de la portion dentée du visage de l’image 2D, utilisant un traitement qui met en oeuvre une série de filtres photométriques ;
[Fig. 5] la figure 5 est un diagramme fonctionnel illustrant une seconde méthode de réhaussement de la portion dentée du visage de l’image 2D, exploitant les progrès de l’intelligence artificielle en utilisant une sortie intermédiaire d’un réseau d’apprentissage profond ; et,
[Fig. 6] la figure 6 est un diagramme fonctionnel illustrant un exemple de mise en oeuvre du procédé de simulation selon le quatrième aspect de l’invention, dans le quel le traitement projeté est un blanchiment de dents.
[Description des modes de réalisation]
[0026] Dans la description de modes de réalisation qui va suivre et dans les Figures des dessins annexés, les mêmes éléments ou des éléments similaires portent les mêmes références numériques aux dessins. [0027] L’invention tire avantage des architectures d’apprentissage profond telles que les réseaux de neurones profonds et les réseaux de neurones (ou réseaux neuronaux) convolutifs ou réseau de neurones à convolution ou encore CNN (de l’anglais « Convolutional Neural Networks ») pour réaliser des reconstructions tridimensionnelles à partir d’une (ou plusieurs) image(s) 2D d’un visage humain qui comprend une partie dentée visible, acquise(s) par un dispositif d’acquisition comprenant un capteur d’image 2D unique.
[0028] Avant d’entamer la description de modes de réalisation détaillés, il apparaît utile de préciser la définition de certaines expressions ou de certains termes qui y seront employés. À moins qu’il n’en soit disposé autrement, ces définitions s’appliquent nonobstant d’autres définitions que l’homme du métier peut trouver dans certains ouvrages de la littérature spécialisée.
[0029] Une « image », ou « vue », ou encore « balayage » (« scan » en anglais), est constituée d'un ensemble de points de la scène tridimensionnelle réelle. Pour une image 2D acquise par un dispositif d’acquisition d’image, ou dispositif imageur (par exemple un capteur CCD ou un capteur CMOS), les points concernés sont les points de la scène réelle projetés dans le plan de la focale du capteur 2D servant à acquérir l’image 2D, et sont définis par les pixels de l’image 2D. Pour une surface 3D reconstruite (aussi appelée « reconstruction 3D »), ce terme désigne le produit ou résultat du traitement de reconstruction 3D, les points concernés étant un nuage de points 3D obtenu par une transformation d’une « carte de profondeur » (voir définition donnée plus bas), ou par triangulation dans le cas de la stéréoscopie, ou encore par déformation 3D d’un modèle 3D générique dans le cas d’une méthode de type 3DMM (voir définition donnée plus bas). Un tel nuage de points définit un squelette de la scène tridimensionnelle. Et un maillage 3D de ce nuage de points, par exemple un maillage de points 3D triangulés, peut en définir une enveloppe.
[0030] Un dispositif d’acquisition d’image « monoculaire » est un dispositif n’ayant qu’un unique capteur d’image et capable de n’acquérir des images d’une scène tridimensionnelle que sous un angle de vue unique seulement à une position du dispositif donnée.
[0031] Le « recalage » (en anglais « registration ») consiste à déterminer la relation spatiale entre deux représentations (image 2D ou surface 3D) d’un même objet de sorte à faire se superposer les représentations d’un même point physique. [0032] Le « calcul de pose » est l’estimation de la position et de l’orientation de la scène imagée par rapport à l’imageur (capteur d’image). C’est un des problèmes fondamentaux en vision par ordinateur, souvent nommé « Perspective-n-Points » (PnP). Ce problème consiste à estimer la pose (2-uplet [Rj, ; tj\ formé de la matrice de rotation flj et du vecteur de translation tj) de la caméra par rapport à un objet dans la scène, ce qui revient à trouver la pose permettant de réduire l’erreur de reprojection entre un point de l’espace et son correspondant 2D dans l’image. Une approche plus récente, nommée ePNP (de l’anglais « Efficient Perspective-n- Point »), suppose que la caméra est calibrée, et prend le parti de s’affranchir des problèmes de calibration en normalisant les points 2D en les multipliant par l’inverse de la matrice intrinsèque. Cette approche rajoute à cela le fait de paramétrer la pose de la caméra en passant par 4 points de contrôles, assurant que la transformation estimée soit rigide. Le fait de procéder ainsi permet de rendre les temps de calcul moins longs.
[0033] Par « rehaussement » de la portion dentée, on entend un traitement au niveau 2D spécifique à la portion dentée visant à en améliorer les caractéristiques photométriques de ladite portion dentée. Dans des modes de réalisation, ce traitement spécifique à la portion dentée peut comprendre l’application d’une séquence de filtres de traitement d’image. Dans d’autres modes de réalisation, il comprend la mise à profit d’une sortie intermédiaire d’un réseau d’apprentissage.
[0034] Un algorithme « d’accroissement de la netteté » (« sharpening » en anglais) est un algorithme de traitement d’image visant à augmenter la netteté (« sharpen » en anglais) de l’image.
[0035] L’acronyme « 3DMM » (de l’anglais « 3D Morphable Model ») désigne une méthode de génération de pose 3D via un modèle 3D morphable (c’est-à-dire modifiable). Cette méthode est particulièrement adaptée au traitement de l’information du visage d’un être humain (peau, rides, illumination, relief etc.). La méthode du 3DMM consiste à apposer un visage en 3D (masque) sur l’image 2D, et à le modifier pour le faire correspondre avec un visage sur l’image 2D. Sont ensuite extraites les informations correspondant au masque modifié qui vont permettre de créer la représentation en 3D du visage de l’image 2D. [0036] Une « carte de profondeur » (« Depth map » en anglais) associée à une image 2D, est une forme de représentation en 2D de l’information 3D reconstruite, correspondant à la portion de la scène 3D se reprojetant dans l’image 2D. En pratique, il s’agit d’un ensemble de valeurs, codées sous la forme de niveaux (ou nuances) de gris, respectivement associées à chaque pixel p, de l’image 2D : plus la distance entre le point de la scène tridimensionnelle et le plan de l’image 2D est importante, et plus le pixel est sombre.
[0037] Un « réseau de neurones (ou réseau neuronal) convolutif » ou « réseau de neurones (ou réseau neuronal) à convolution » ou encore CNN (de l’anglais « Convolutional Neural Networks »), est un type de réseau de neurones artificiels acycliques (« feed-forward », en anglais), consistant en un empilage multicouche de perceptrons, dont le but est de prétraiter de petites quantités d'informations. Un CNN se compose de deux types de neurones artificiels, agencés en « strates » ou « couches » traitant successivement l'information :
- les neurones de traitement, qui traitent une portion limitée de l'image (appelée « champ réceptif ») au travers d'une fonction de convolution ; et, - les neurones de mise en commun (totale ou partielle) des sorties, dits neurones de « pooling » (qui signifie « regroupement » ou « mise en commun », en anglais), qui permettent de compresser l'information en réduisant la taille de l'image intermédiaire (souvent par sous-échantillonnage).
L'ensemble des sorties d'une couche de traitement permet de reconstituer une image intermédiaire, qui sert de base à la couche suivante. Un traitement correctif non-linéaire et ponctuel peut être appliqué entre chaque couche pour améliorer la pertinence du résultat. Les CNN connaissent actuellement de larges applications dans le domaine de la reconnaissance d'image.
[0038] En référence à la figure 1 , les modes de mises en oeuvre du procédé de l’invention comprennent la segmentation de l’image bidimensionnelle (2D) 21 du visage d’un sujet humain, ici une jeune femme, en une première partie 22, d’une part, et en une seconde partie 22, d’autre part. La première partie 22 correspond uniquement à la portion dentée 1 du visage, qui est visible dans l’image 21 . Elle est obtenue par masquage et mise en noir, dans l’image 21 , de la portion faciale 4 hors portion dentée 1 du visage. La seconde partie 23 correspond uniquement à la portion faciale 4, hors la portion dentée 1 , du visage. Elle est obtenue par masquage et mise en noir dans l’image 2D de ladite portion dentée 1 du visage.
[0039] La partie dentée 1 est représentée à la figure 1 dans le détail 10 de l’image 21 , qui correspond à la zone de la bouche du sujet, laquelle zone est aussi identifiée par la même référence 10 dans la partie 22 et dans la partie 23 de l’image 21. L’homme du métier appréciera que la partie dentée exclût les lèvres et les gencives, pour ne comprendre vraiment que la portion visible dans l’image 21 , le cas échéant, de l’arcade supérieure et/ou de l’arcade inférieur de la dentition du sujet. Cette portion dentée présente, par rapport au reste du visage, une spécularité élevée et une texture particulière qui rendent difficile la reconstruction 3D avec les techniques classiques de reconstruction 3D faciale.
[0040] Cette segmentation de l’image 2D en deux parties permet d’implémenter un traitement d’image spécifique à la portion dentée 1 qui est l’unique objet de la première partie 22, afin de pallier les mauvaises propriétés photométriques de ladite portion dentée 1 par rapport aux autres portions du visage. Le traitement d’image est adapté pour rehausser ces propriétés, notamment le contraste. On désigne un tel traitement par le terme « rehaussement ». Il est uniquement appliqué à la portion dentée 1 , i.e., seulement à la partie 22 de l’image 22 du visage. La partie dentée après rehaussement et la partie faciale hors partie dentée sont ensuite fusionnées, c’est-à-dire recombinées pour donner au final la reconstruction 3D de l’image bidimensionnelle 21 du visage avec partie dentée. [0041] Il est proposé essentiellement deux modes de réalisation, selon que la fusion ci- dessus est effectuée au niveau 2D, c’est-à-dire avant une reconstruction 3D appliquée à l’image recomposée, ou que la fusion est effectuée au niveau 3D, c’est-à-dire après des reconstructions 3D appliquées à chacune des deux parties de l’image respectivement. Ces deux modes de mise en oeuvre vont maintenant être décrit en regard des diagrammes d’étapes de la figure 2 et de la figure 3, respectivement.
[0042] En référence tout d’abord au diagramme d’étapes de la figure 2, le procédé commence, à l’étape 201 , par l’acquisition d’au moins une image (i.e., d’une vue en 2D) du visage d’un sujet qui comprend une partie dentée visible. Ceci est le cas, notamment lorsque le sujet sourit. Un sourire est le résultat d’une expression naturelle d’une émotion, qui peut aussi être commandé par le sujet. En général, le fait de sourire découvre tout ou partie de l’arcade dentaire supérieure, et généralement aussi de l’arcade inférieure du sujet, en raison de l’ouverture de la bouche et de l’étirement des lèvres que le sourire provoque. L’image 21 du sujet en train de sourire peut être prise par le sujet lui-même, ou par une autre personne à l’aide par exemple de la caméra embarquée d’un dispositif portable du sujet comme son téléphone portable, ou par tout autre dispositif imageur similaire, par exemple un appareil photo, une webcam, etc. . Dans des modes de réalisation, l’étape 201 comprend la prise d’une pluralité d’images du visage du patient comme l’image 21 , prises sous des angles de vue respectifs différents. Ces modes de réalisation, sur lesquels on reviendra plus loin, permettent d’améliorer la précision de la reconstruction 3D du visage du sujet.
[0043] À l’étape 202, on réalise la segmentation de l’image 21 en une première partie 22 et une seconde partie 24. Comme précédemment exposé plus haut en référence à la figure 1 , la première partie 22 correspond à la portion dentée 1 du visage uniquement. Et la seconde partie 24 correspond uniquement à la portion faciale 4, hors ladite portion dentée 1 , du visage. Cette étape de segmentation 202 peut être réalisée par un traitement numérique appliqué sur les données de l’image 21 , via un algorithme 51 qui implémente la détection de limites externes de la portion dentée 1 du visage grâce à un réseau d’apprentissage profond de détection de points caractéristiques sur un visage. Ceci permet de générer un masque pour chacune desdites première et seconde parties 22 et 24, respectivement, de l’image 21 . L’effet de ces masques est le suivant :
- la première partie 22 de l’image 21 est obtenue à partir de ladite image 21 en masquant, c’est-à-dire en mettant en noir la portion faciale 4 hors la portion dentée du visage ; et, - la seconde partie 24 de l’image 21 est obtenue à partir de ladite image 21 en en mettant en noir la portion dentée 4 du visage.
En fait, ce qu’on appelle les parties 22 et 24 de l’image 21 sont des images 2D correspondant chacune à ladite image 21 mais dans lesquelles une partie des pixels est remplacés par des pixels noirs. [0044] Cette technique est connue en soi et sa mise en oeuvre est à la portée de l’homme du métier, c’est pourquoi elle ne sera pas décrite plus en détails dans la présente description. On notera simplement que le réseau d’apprentissage profond de l’algorithme 51 est, en particulier, adapté pour exclure les lèvres et les gencives de la première partie 22, afin que celle-ci ne comprennent que la partie dentée 1 proprement dite, dont la spécularité et la texture sont très différentes de celles des tissus organiques, qu’ils soient mous ou durs, tels que la peau, les lèvres ou les muqueuses de la bouche. Un exemple de tel réseau d’apprentissage profond est décrit dans l’article Bulat et al. "How far are we from solving the 2D & 3D face alignaient problem? (and a dataset of 230,0003D facial landmarks)", ICCV, 2017. L’algorithme décrit retrouve des points caractéristiques répartis le long des lèvres.
En isolant la partie de l’image à l’intérieur de ces points, la partie dentée est isolée.
[0045] À l’étape 203, on réalise l’implémentation d’un algorithme de reconstruction faciale qui peut également être implémenté sous la forme d’un réseau d’apprentissage profond 42. Ce CNN est adapté pour prédire une reconstruction 3D texturée 34 de la portion faciale 4 hors portion dentée 1 du visage. Cette reconstruction est obtenue sur la base de la seconde partie 24 de l’image 21.
[0046] Dans des modes de mise en oeuvre, l’algorithme 42 se base par exemple sur le concept de 3DMM (de l’anglais « 3D Morphable Mode! »), selon lequel la surface 3D correspondant à la reconstruction tridimensionnelle d’un visage quelconque peut être obtenue par déformation d’un visage moyen, la déformation étant paramétrée par un vecteur comprenant un nombre K face de valeurs réelles.
[0047] Plus particulièrement, le réseau d’apprentissage profond 42 a été entraîné à cette fin pour être capable de prédire, étant donnée une image 2D fournie en entrée, le jeu de K face paramètres qui déforme le modèle 3D moyen de visage afin qu’il ressemble le plus possible, sur le plan photométrique, au visage de l’image 2D fournie en entrée. Dit autrement, l’algorithme mis en oeuvre par le réseau d’apprentissage profond 42 implémente une méthode de type 3DMM adaptée pour déformer une surface 3D générique de sorte à se rapprocher de l’image 2D sur le plan photométrique. Pour se rapprocher au mieux de l’image 2D, l’algorithme peut se baser sur une métrique de proximité photométrique entre le modèle 3D déformé et l’image 2D de départ, en lien avec un processus d’optimisation basé sur cette métrique. L’apprentissage de ce réseau 42 se fait à partir d’images 2D de visages dont on connaît par ailleurs la surface 3D par un moyen spatialement précis (par exemple un scanner facial à lumière structurée).
[0048] Divers exemples de tels algorithmes sont connus de l’Homme du métier. On peut citer, par exemple, l’algorithme décrit dans l’article par Deng et al. "Accurate 3D face reconstruction with weakly supervisée! iearning: from single image to image sef', IEEE Computer Vision and Pattern Récognition Workshop (CVPRW) on Analysis and Modeling of Faces and Gestures (AMFG), 2019.
[0049] On notera que, outre la surface tridimensionnelle 34 de la face (hors portion dentée), le réseau d’apprentissage 42 est également adapté pour prédire aussi un modèle d’illumination (représenté par 9 paramètres) et une pose (représentée par 6 paramètres), qui permettent d’estimer la position 3D relative de la caméra ayant pris le visage tel que présenté sur l’image 2D fournie en entrée. Cette estimation de pose peut être avantageusement mise à profit dans le cas de l’utilisation du procédé avec plusieurs images 2D en entrée, ce qui sera explicité plus loin.
[0050] La limite d’utilisation de ce genre d’algorithmes d’apprentissage profond est qu’il ne peut prédire une reconstruction plausible de la portion dentée 1 , du fait du caractère photométrique (très spéculaire, peu texturé) de cette dernière. C’est pourquoi l’invention propose de contourner ce problème, en réhaussant la portion dentée 1 des images 2D afin de la rendre utilisable sur le plan photométrique pour effectuer une reconstruction tridimensionnelle satisfaisante.
[0051] En effet, l’étape 204 comprend l’application d’un traitement numérique 54 aux données de la première partie 22 de l’image 21 , laquelle correspond à la portion dentée 1 du visage du sujet. Ce traitement 54 comprend un rehaussement de la première partie 22 de l’image 21 afin de modifier des caractéristiques photométriques de cette première partie. Essentiellement, ce rehaussement vise à améliorer le contraste de l’image 22. Le traitement 54 permet donc de générer une version réhaussée 23 de l’image 22 correspondant à la portion dentée du visage. Deux modes de mise en oeuvre du rehaussement seront décrits plus bas, en référence à la figure 4 et à la figure 5, respectivement. [0052] À l’étape 205, on réalise l’implémentation d’un autre algorithme d’apprentissage profond 41 , adapté pour produire une carte de profondeur (dans le domaine 2D) de la portion dentée 1 du visage sur la base de l’image rehaussée 23 correspondant à la première partie 22 de l’image bidimensionnelle 21 . Dans un mode de réalisation, l’algorithme d’apprentissage profond 41 est adapté pour prédire une carte de profondeur pour la portion dentée du visage à partir de données d’apprentissage, en masquant une carte de profondeur associée à l’image 21 avec le même masque qu’un masque utilisé sur l’image 21 pour obtenir, à l’étape 202, la première partie 22 de l’image 21 correspondant à la partie dentée 1 du visage. Cette carte de profondeur pour la portion dentée 1 du visage est ensuite convertie en une reconstruction 3D.
[0053] Dans des mises en œuvre, l’algorithme d’apprentissage profond 41 peut implémenter un exemple particulier de CNN, qui est en fait un FCN (de l’anglais « Fully Convolutional Network ») inspiré de l’article par J. Long, E. Shelhamer et T. Darrell, "Fully convolutional networks for semantic segmentation", IEEE
Conférence on Computer Vision and Pattern Récognition (CVPR), Boston, MA, 2015, pp. 3431-3440. Un tel réseau d’apprentissage profond est spécifiquement entraîné pour produire une carte de profondeur de la partie dentée 1 . Il prend en entrée des images 2D dont la portion dentée 1 est isolée comme décrit plus haut en lien avec l’étape 202 (le reste de l’image étant masqué et mis en noir) puis réhaussée par le traitement 54 comme expliqué ci-dessus en lien avec l’étape 204. En sortie, réseau d’apprentissage profond prédit la carte de profondeur attendue sur la portion dentée 1 , générée à partir des données d’apprentissage du réseau en masquant la carte de profondeur globale avec le même masque utilisé sur l’image 2D à l’étape de rehaussement 204.
[0054] L’étape 206 comprend alors l’implémentation d’un algorithme 56 de fusion de la reconstruction tridimensionnelle 23 de la portion dentée 1 et de la reconstruction tridimensionnelle texturée 34 de la portion faciale 4 du visage représenté par l’image bidimensionnelle 21 , pour obtenir la reconstruction tridimensionnelle 35 du visage complet, avec sa portion dentée 1. Dit autrement, à l’étape 206, la reconstruction tridimensionnelle 33 correspondant à la carte de profondeur produite par l’algorithme 41 pour la portion dentée 1 du visage, est fusionnée avec la reconstruction tridimensionnelle 34 obtenue par l’algorithme 42 pour la portion faciale hors portion dentée du visage, afin de produire la surface tridimensionnelle 35 du visage complet.
[0055] L’algorithme de fusion 56 peut là encore mettre en œuvre un réseau d’apprentissage profond. [0056] Pour l’entraînement de ce réseau, il est nécessaire de se constituer une base de données, avec des n-uplets de données acquis pour des personnes différentes, et qui associent, pour chaque image 2D d’une personne, la surface 3D de son visage ainsi que de la portion dentée.
[0057] Plus particulièrement, à l’effet de constituer un triplet de données d’apprentissage, l’image 2D de chaque personne peut être acquise par un appareil quelconque du commerce (appareil photo, téléphone portable, tablette numérique, etc.). Pour la reconstruction 3D de la portion faciale 4 du visage hors partie dentée, il est possible d’utiliser un scan 3D de reconstruction faciale par lumière structurée. Par ailleurs, pour la portion dentée 1 qui n’est pas ou qui serait mal imagée par ce genre d’appareil, on peut obtenir une reconstruction 3D par un scanner intra oral en couleurs réelles (par exemple un scanner WoW™ disponible auprès de la société BIOTECH DENTAL), produisant ainsi une arcade dentaire 3D complète, texturée et précise. On notera qu’un tel scanner peut restituer la texture des dents en amalgamant les couleurs des images 2D (codées par un codage RGB, par exemple) ayant servi à la reconstruction 3D. Il est alors aisé de retexturer le modèle 3D en utilisant non pas les images 2D brutes, mais des images réhaussées par l’algorithme 54 de l’étape 204 du procédé. Le modèle 3D présente alors une surface bien plus contrastée et mieux adaptée à des algorithmes de traitement d’image subséquents se basant sur de la photométrie, lesquels peuvent in fine être mis en oeuvre dans le cadre de l’utilisation qui est faite des reconstructions faciales qui sont obtenues grâce au procédé de l’invention, par exemple pour la simulation de l’effet esthétique d’un traitement dentaire projeté.
[0058] Dans les triplets de données d’apprentissage, la reconstruction 3D de la partie de l’image correspondant à la portion dentée 1 du visage, réhaussée ou texturée en RGB suivant l’utilisation que l’on veut en faire, est recalée manuellement sur la reconstruction 3D de la partie faciale 4 du visage, afin de produire une unique reconstruction 3D comprenant la portion faciale 4 et la portion dentée 1 du visage. Enfin, la pose relative de l’image 2D par rapport à la reconstruction 3D peut être calculée de manière semi-automatique, en choisissant des points d’intérêt 3D sur la surface 3D ainsi que leur point correspondant sur l’image 2D. Grâce à ces couples, un algorithme de pose relative, par exemple ePNP, permet de retrouver la pose. Par ce procédé, on obtient des données d’apprentissage par triplet {image 2D ; reconstruction 3D ; pose}. Ces données d’apprentissage peuvent aisément être converties en d’autres triplets {image 2D ; carte de profondeur ; pose}, la carte de profondeur pouvant être préférée dans certains modes de mise en oeuvre. [0059] Grâce au réseau d’apprentissage profond 56 entraîné comme il vient d’être exposé, la surface 3D du visage générée à l’étape 206 du procédé à partir de la version réhaussée 23 de la première partie 22 de l’image 2D, d’une part, et de la seconde partie 24 de ladite image 2D, d’autre part, est une reconstruction 3D de bonne qualité y-compris pour la portion dentée 1 du visage. Cette reconstruction 3D est donc bien adaptée pour la simulation d’un traitement projeté à appliquer à la portion dentée du visage, par substitution à la zone de la surface 3D correspondant à ladite portion dentée d’une autre surface 3D correspondant à ladite portion dentée telle qu’elle serait après ledit traitement projeté. [0060] En résumé, l’image réhaussée 23 correspondant à la partie 22 de l’image d’entrée
21 qui correspond à la portion dentée 1 du visage, est utilisée par l’algorithme d’apprentissage profond 41 afin de produire une reconstruction tridimensionnelle 33 de la portion dentée 1 du visage dans l’image 21 . Parallèlement, l’algorithme d’apprentissage profond 42, qui est par exemple basé sur une méthode 3DMM, génère une reconstruction tridimensionnelle 34 de la portion faciale 4 seule. Un tel algorithme, par exemple, est avantageusement adapté pour, en outre, produire la position 3D relative de la caméra ayant pris le visage tel que présenté sur l’image 2D, ainsi qu’une estimation de la zone 2D de ladite image 2D dans laquelle se situe la portion dentée du visage. Ceci peut être mis à profit, dans certaines implémentations de la méthode, pour obtenir à l’étape 206 une surface 3D consolidée du visage à partir d’une pluralité d’images 2D du visage comme l’image 21 , prises par une caméra selon des angles de vue respectifs différents. Chacune de ces images est soumise au procédé de reconstruction 3D selon les étapes 202 à 205 de la figure 2. Dit autrement, la mise en oeuvre du procédé de la figure 2 peut être répétée pour obtenir des surfaces 3D reconstruites respectives. Ces surfaces 3D reconstruites peuvent alors être combinées, à l’étape 206, en utilisant la position 3D relative de la caméra ayant pris le visage tel que présenté sur chaque image 2D ainsi que l’estimation de la zone 2D de ladite image 2D dans laquelle se situe la portion dentée du visage. La surface 3D consolidée du visage qui est obtenue par ce type d’implémentation à partir d’une pluralité d’images 2D du visage du sujet est une reconstruction 3D de la face et des dents plus précise que celle obtenue à partir d’une seule image 2D dudit visage.
[0061] Dans un second mode de mise en oeuvre, qui va maintenant être décrit en référence à la figure 3, la génération de la surface 3D du visage comprend l’implémentation d’un autre algorithme d’apprentissage profond 43 apte à prédire une reconstruction 3D à partir d’une image 2D, qui diffère des algorithmes d’apprentissage profond 41 et 42 du mode de mise en oeuvre de la figure 2. Cet autre algorithme est adapté pour produire globalement une reconstruction 3D de la portion dentée 1 et de la portion faciale 4 hors portion dentée, à partir de la seconde partie 24 de l’image 2D à laquelle est ajoutée la première partie 22 de ladite image 2D rehaussée, avec recalage mutuel de ladite seconde partie de l’image 2D et de ladite première partie de ladite image 2D rehaussée. Ce troisième algorithme 43 peut être dérivé de l’algorithme 42 utilisé à l’étape 203 du mode de mise en œuvre illustré par la figure 2.
[0062] La première étape 301 et la deuxième étape 302 du mode de mise en œuvre selon la figure 3 sont identiques, la première étape 201 et la deuxième étape 202, respectivement, du mode de mise en œuvre selon la figure 2. En outre, la troisième étape 303 du mode de mise en œuvre de la figure 3 correspond à l’étape 304 du mode de mise en œuvre de la figure 2. Ainsi, la première étape 301 correspond à la prise d’une image 2D du visage d’un patient avec une portion dentée 1 visible. La deuxième étape 302 est l’étape de segmentation de l’image 2D acquise, en une première partie 22 correspondant à la portion dentée seule, et une seconde partie
24 correspondant à la partie faciale 4 hormis la portion dentée 1. Et la troisième étape 303 comprend le traitement de rehaussement de la partie 22 de l’image correspondant à la partie dentée 1 , qui permet de produire une version réhaussée 23 de ladite image 22. Ces étapes 301 , 302 et 304 ne sont donc pas décrites à nouveau en détail ici.
[0063] La suite des étapes de la mise en œuvre du procédé selon la figure 3 diffère cependant de la mise en œuvre conforme à la figure 2.
[0064] À l’étape 304, en effet, l’image réhaussée 23 qui correspond à l’image 22 de la portion dentée seule sur laquelle il a été appliqué un traitement spécifique pour en rehausser des caractéristiques photométriques, est réinjectée dans l’image 2D d’origine 21. Plus particulièrement, ce résultat peut être obtenu en fusionnant l’image réhaussée 23 et la partie 24 de l’image 2D d’origine 21 correspondant à la partie facial 4 hormis la partie dentée 1 du visage, par un algorithme de fusion 52. Le résultat de cette fusion est une image bidimensionnelle 25 refusionnée, dans laquelle la partie dentée 1 est réhaussée. Dit autrement, l’image 25 produite par l’algorithme de fusion 52 est toujours une image 2D, comme l’image 21 d’origine, mais elle s’en distingue en ce que la partie dentée 1 du visage y est réhaussée.
[0065] Puis, à l’étape 305, la reconstruction faciale et celle de la portion dentée sont réalisées par l’implémentation commune d’un algorithme 43 de reconstruction tridimensionnelle, appliqué à l’image bidimensionnelle refusionnée 25 dans laquelle la partie dentée 1 est réhaussée. Cet algorithme peut se dériver de l’algorithme 42 utilisé à l’étape 303 de la mise en oeuvre du procédé selon la figure 2, mais à la condition d’ajouter l’image d’une portion dentée avec texture réhaussée dans les données d’apprentissage. Suivant le processus d’apprentissage décrit plus haut à propos de l’algorithme 42 de la figure 2, on peut sous cette condition utiliser la même base de données d’apprentissage pour entraîner le réseau 43 à prédire, depuis des images 2D de visages avec portion dentée réhaussée, la surface 3D totale comprenant la portion dentée texturée. Dit autrement, l’algorithme mis en oeuvre par le réseau d’apprentissage profond 43 implémente une méthode de type 3DMM appliquée à l’image 2D refusionnée 25, et qui est adaptée pour déformer une surface 3D générique de sorte à se rapprocher de l’image 2D sur le plan photométrique. Pour se rapprocher au mieux, de l’image 2D, l’algorithme 43 peut se baser sur une métrique de proximité photométrique entre le modèle 3D déformé et l’image 2D de départ, en lien avec un processus d’optimisation basé sur cette métrique. [0066] En se référant par exemple au principe de l’article scientifique de Deng et al. déjà cité plus haut, les reconstructions totales (d’une image avec partie faciale et avec partie dentée) exhibant une texture réhaussée sur les dents, sont recalées entre elles. Une paramétrisation restreinte est alors mise en place sur ces données recalées afin de rendre compte au mieux des déformations interindividuelles. En sortie de ce processus, on paramètre les déformations par un nombre K total de paramètres de déformation qui est supérieur au nombre K face de paramètres de l’algorithme 42 de la figure 2, rendant compte et de la face et des dents. Une fois le réseau d’apprentissage profond 43 ainsi entraîné, il est capable de reconstruire, pour toute image 2D de visage comprenant ou non une portion dentée, la surface 3D correspondante.
[0067] Comme l’homme du métier l’aura compris, la modification des caractéristiques photométriques de la première partie 22 de l’image 2D d’origine 21 qui est générée à l’étape de rehaussement 204 de la figure 2 comme à l’étape 303 de la figure 3, comprend l’augmentation de la netteté et/ou l’augmentation du contraste de ladite première partie 22 de l’image 2D.
[0068] Selon un premier exemple de mise en oeuvre, illustré par le diagramme fonctionnel de la figure 4, le rehaussement de la portion dentée de l’image 2D peut être réalisé en utilisant une série de filtres purement photométriques.
[0069] Plus particulièrement le traitement 54 de rehaussement au niveau 2D qui est appliqué à la portion dentée 1 comprend :
- à l’étape 401 , l’extraction du canal bleu de l’image en couleurs codée au format RGB ;
- un filtrage passe-haut de rehaussement de contraste 402 appliqué au canal bleu extrait à l’étape 401 ; ainsi que
- à l’étape 403, un filtrage d’égalisation locale d’histogramme de type CLAHE appliqué au canal bleu filtré qui est obtenu par l’étape 402.
[0070] Concernant l’étape 401 , l’homme du métier appréciera que le canal bleu est, sur le plan spectral, celui qui contient le plus de contraste sur du tissu dentaire.
[0071] En outre, dans un exemple, le filtrage passe-haut de rehaussement de contraste appliqué à l’étape 402 au canal bleu peut comprendre un algorithme d’augmentation de la netteté tel qu’un algorithme de « sharpening » appliqué sur le canal bleu. Un tel algorithme consiste à soustraire en partie du canal bleu une version floutée de lui-même, ce qui a pour effet d’accentuer les détails de haute fréquence spatiale.
[0072] Enfin, le filtrage d’égalisation locale d’histogramme de l’étape 403 peut par exemple être de type CLAHE, tel que décrit dans le chapitre par Karel Zuiderveld
“Contrast Limited Adaptive Histogram Equalization” , dans l’ouvrage Graphics Gems IV, éditions P. Heckbert, Cambridge, MA. (Academie Press, New York), Août 1994, pp. 474-485.
[0073] Selon un second exemple de mise en oeuvre, illustré par le diagramme fonctionnel de la figure 5, la version réhaussée 23 de la première partie 22 de l’image bidimensionnelle originale 21 correspondant à la portion dentée de l’image 21 peut être obtenue à partir de ladite image 2D originale 21 , comme une sortie intermédiaire d’un réseau d’apprentissage profond 50 de prédiction de carte de profondeur, ayant un contraste plus élevé que l’image 2D originale selon un critère quantitatif déterminé. L’homme du métier appréciera qu’il est parfaitement admis que le réseau d’apprentissage profond 50, appliqué sur une image non réhaussée, ne peut produire en sortie que des cartes de profondeur qui sont non utilisables en tant que telles, mais que cela n’empêche pas d’utiliser ses sorties intermédiaires comme celles d’un rehausseur de contraste en accord avec des mises en oeuvre de l’invention, nonobstant le fait que ses sorties soient non utilisables et sont effectivement non utilisées.
[0074] L’architecture d’apprentissage profond 50 est par exemple un réseau de neurones convolutif (CNN) qui peut avoir une structure tout à fait classique. Ce type de CNN est disponible dans des librairies connues par l’homme du métier qui sont en accès libre. En entrée, l’image 21 en deux dimensions est fournie sous la forme d’une matrice de pixels. La couleur est codée par une troisième dimension, de profondeur égale à 3, pour représenter les couleurs fondamentales [Rouge, Vert, Bleu]
[0075] Le CNN de la figure 5 est en fait un FCN (de l’anglais « Fully Convolutional Network ») inspiré de l’article scientifique déjà mentionné plus haut, par J. Long, et al., "Fully convolutional networks for semantic segmentation", IEEE Conférence on Computer Vision and Pattern Récognition (CVPR), Boston, MA, 2015, pp. 3431- 3440. Ce FCN comporte deux parties bien distinctes, selon une architecture encodage/décodage.
[0076] La première partie du FCN d’encodage est la partie convolutive proprement dite. Elle comprend, la « couche de traitement convolutif » 51 , qui possède une succession de filtres, ou « noyaux de convolution », appliqués en strates. La couche de traitement convolutif 51 fonctionne comme un extracteur de caractéristiques des images 2D admises en entrée du CNN. Dans l’exemple, l’image d’entrée 21 est passée à travers la succession des noyaux de convolution, créant à chaque fois une nouvelle image appelée carte de convolution. Chaque noyau de convolution possède deux couches de convolution 511 et 512, et une couche 513 de réduction de la résolution de l’image par une opération de mise en commun aussi appelée opération de maximum local (« maxpooling », en anglais).
[0077] La sortie de la partie convolutive 51 est ensuite fournie en entrée d’une ultime couche de convolution 520 captant tout le champ d’action visuel de la couche précédente, et mimant ainsi une couche entièrement connectée (couche « fully connected » en anglais).
[0078] Enfin, une couche de déconvolution 530 finale produit en sortie une carte de profondeur 22’. Comme il a déjà été dit, ce type de CNN n’est malheureusement pas adapté pour la reconstruction 3D de la partie dentée 1 dans l’image 22, en raison de la forte spécularité et la faible texture des dents. C’est pourquoi la carte de profondeur 22’ générée par ce réseau 50 n’est pas exploitable pour l’application envisagée.
[0079] Par contre, chaque noyau (ou kernel) de convolution de la couche de traitement convolutif 51 du réseau 50 est adaptée pour extraire des caractéristiques photométriques déterminées de l’image 2D admise en entrée du CNN. Dit autrement, chaque noyau génère une carte de convolution sous la forme d’une nouvelle image constituant une version de l’image d’entrée qui est réhaussée du point de vue desdites caractéristiques. [0080] Ainsi, l’image réhaussée 23 correspondant à la version réhaussée de l’image 21 en entrée du réseau d’apprentissage profond 50 peut être extraite comme une sortie intermédiaire déterminée dudit réseau 50, ayant un contraste plus élevé que l’image 2D originale selon un critère quantitatif déterminé. Cette sortie intermédiaire peut être sélectionnée parmi les sorties des noyaux de convolution par un moteur de sélection 52, sur la base des valeurs d’une métrique de contraste qui sont respectivement associées à la sortie de chacun des noyaux de convolution de chaque couche de convolution du réseau 50. Par exemple, la sortie intermédiaire sélectionnée du réseau 50 peut être la sortie du noyau de la couche de traitement convolutif 51 dudit réseau qui exhibe un maximum de contraste eu égard aux métriques associées aux sorties intermédiaires respectives du réseau, c’est-à-dire aux sorties des noyaux respectifs de la couche 51. L’image délivrée par cette sortie intermédiaire a un contraste plus élevé que l’image 2D originale 21 fournie en entrée du CNN.
[0081] L’invention qui a été décrite dans ce qui précède permet de rendre possible la reconstruction faciale avec une portion dentée sur la base d’une seule image 2D quelconque, ou sur une série d’images 2D quelconque. Dans ce dernier cas, plusieurs images sont prises selon des angles de vue différents, et une procédure finale de reconstruction stéréoscopique multi vues est conduite afin de produire une reconstruction 3D de la face et des dents plus précise.
[0082] Le procédé trouve des applications très variées, notamment dans la simulation de traitements dentaire ayant des implications esthétiques.
[0083] Ainsi par exemple, le diagramme fonctionnel de la figure 6 illustre un exemple de procédé de simulation du résultat esthétique d’un traitement dentaire esthétique, orthodontique ou prothétique, qui est projeté pour un sujet humain, i.e., un patient à partir d’au moins une image bidimensionnelle, 2D, en couleurs du visage du sujet avec une portion dentée visible. Dans cet exemple, le traitement envisagé est un traitement esthétique consistant en un blanchiment des dents.
[0084] Le procédé comprend :
- la reconstruction tridimensionnelle 60, à partir d’une image 2D d’origine 71 du visage du patient avec une portion dentée visible (ou d’une pluralité de telles images), pour obtenir une unique surface tridimensionnelle 73 reconstruite de la portion dentée 1 et de la portion faciale 4 hors portion dentée du visage par le procédé tel que décrit dans ce qui précède ;
- l’obtention 61 d’une reconstruction tridimensionnelle 75 de l’arcade dentaire du patient, au moins de la portion 1 de ladite arcade dentaire concernée par le traitement projeté et qui est visible dans l’image 2D d’origine 71 ;
- la substitution 63 à la zone de la surface tridimensionnelle 73 correspondant à la portion dentée 1 du visage dans l’image 2D d’origine 71 , d’une autre surface tridimensionnelle 77 correspondant à la portion dentée 2 telle qu’elle serait après ledit traitement projeté ; et,
- l’affichage de la surface tridimensionnelle 73 du visage avec la portion dentée 2 telle qu’elle serait après le traitement projeté.
[0085] Dans un exemple, la reconstruction tridimensionnelle 75 de l’arcade dentaire 1 du patient qui est obtenue à l’étape 61 peut être une reconstruction 3D de l’arcade complète du patient. Cette reconstruction 3D peut par exemple être reconstruite par un scanner 3D intraoral (IOS) 72. Dans une variante, la reconstruction tridimensionnelle 75 de l’arcade dentaire 1 du patient peut être obtenue par imagerie volumétrique par faisceau conique (ou CBCT, mis pour « Cône Beam Computed Tomography »). La CBCT est une technique de tomodensitométrie permettant de produire une radiographie numérisée, située entre le panoramique dentaire et le scanner. [0086] Dans une étape 62, un praticien dentaire (comme un chirurgien dentaire ou un orthodontiste, par exemple) élabore un projet de traitement dentaire 74. En conséquence, l’arcade dentaire 1 subit un traitement numérique automatique ou manuel qui génère une simulation 2 de ladite arcade dentaire après traitement. Puis, l’arcade dentaire traitée 2 (ici on peut parler de l’arcade dentaire blanchie), est recalée sur la portion dentée de la surface tridimensionnelle 73 du visage du patient, afin de simuler au sein de ladite surface 3D le résultat esthétique du traitement projeté 74.
[0087] En effet, à l’étape 63, la surface tridimensionnelle 77 de la portion dentée 2 telle qu’elle se présenterait après le traitement dentaire projeté, ici un blanchiment des dents, est recalée sur la portion dentée de la reconstruction tridimensionnelle 73 du visage du patient, grâce à un algorithme de recalage 76. Ainsi, elle remplace au sein de la reconstruction tridimensionnelle 73 du visage du patient, la portion dentée 1 qui est visible dans l’image 2D d’origine 71. Dit autrement, l’algorithme de recalage 76 qui est appliqué à une reconstruction tridimensionnelle 77 de l’arcade dentaire est adapté pour recaler l’arcade dentaire blanchie 2 sur la portion dentée de la surface tridimensionnelle 73 du visage du patient telle qu’obtenue par le procédé selon le premier aspect de l’invention. Ceci permet au patient d’apprécier la pertinence du traitement dentaire projeté 74, du point de vue de l’esthétique, sur la base d’une vue d’ensemble 73 de son visage avec la partie dentée telle qu’elle serait après ledit traitement dentaire projeté. [0088] L’affichage de la surface tridimensionnelle 73 du visage avec la portion dentée 2 telle qu’elle serait après le traitement projeté peut être un affichage en 3D, par exemple dans un logiciel de 3D du type de Meshlab™ (qui est un logiciel libre de traitement de maillages 3D), dans un logiciel de CAO (mis pour (« Conception Assistée par Ordinateur »). Il peut aussi s’agir de l’affichage d’une image 2D, ou d’un affichage sur des lunettes de réalité virtuelle, ou sur des lunettes de réalité augmentée. Ces exemples ne sont pas limitatifs.
[0089] L’exemple d’un blanchiment des dents n’est pas limitatif des traitements dentaires qui peuvent être simulés grâce au procédé tel que décrit ci-dessus en regard de la figure 6. En outre, plusieurs traitements peuvent être simulés simultanément. Ainsi, le traitement projeté peut comprendre l’un au moins parmi les traitements esthétiques, orthodontiques ou prothétiques suivants : un changement de teinte des dents, un réalignement des dents, une apposition de facettes sur les dents, une pose de matériel orthodontique (bagues) ou prothétique (couronne, « bridge », « inlay core », « inlay onlay »), etc.
[0090] De manière plus générale, la présente invention a été décrite et illustrée dans la présente description détaillée et dans les figures des dessins annexés, dans des formes de réalisation possibles. La présente invention ne se limite pas, toutefois, aux formes de réalisation présentées. D’autres variantes et modes de réalisation peuvent être déduits et mis en oeuvre par la personne du métier à la lecture de la présente description et des dessins annexés.
[0091] Dans les revendications, le terme "comprendre" ou "comporter" n’exclut pas d’autres éléments ou d’autres étapes. Un seul processeur ou plusieurs autres unités peuvent être utilisées pour mettre en oeuvre l’invention. Les différentes caractéristiques présentées et/ou revendiquées peuvent être avantageusement combinées. Leur présence dans la description ou dans des revendications dépendantes différentes, n’excluent pas cette possibilité. Les signes de référence ne sauraient être compris comme limitant la portée de l’invention.

Claims

Revendications
[Revendication 1] Procédé de reconstruction tridimensionnelle, 3D, pour obtenir, à partir d’au moins une image bidimensionnelle, 2D, en couleurs d’un visage humain avec une portion dentée visible, une unique surface 3D reconstruite de la portion dentée et de la portion faciale hors portion dentée du visage, ledit procédé comprenant :
- la segmentation de l’image 2D en une première partie correspondant à la portion dentée du visage uniquement par masquage dans l’image 2D de la portion faciale hors portion dentée du visage, d’une part, et une seconde partie correspondant uniquement à la portion faciale, hors ladite portion dentée, du visage par masquage dans l’image 2D de la portion dentée du visage, d’autre part ;
- le rehaussement de la première partie de l’image 2D afin de modifier des caractéristiques photométriques de ladite première partie ;
- la génération d’une surface 3D (35) du visage reconstruite à partir de la première partie réhaussée (23) de l’image 2D, d’une part, et de la seconde partie (24) de ladite image 2D, d’autre part, ladite surface 3D du visage étant adaptée pour la simulation d’un traitement projeté (74) à appliquer à la portion dentée (1) du visage, par substitution à la zone de la surface 3D (73) correspondant à ladite portion dentée (1) d’une autre surface 3D (77) correspondant à ladite portion dentée (2) après ledit traitement dentaire projeté, ladite génération de la surface 3D du visage comprenant :
- l’implémentation d’un premier algorithme d’apprentissage profond (41) adapté pour produire une carte de profondeur 2D représentant une reconstruction 3D (33) de la portion dentée du visage sur la base de la première partie (22) de l’image 2D réhaussée ;
- l’implémentation d’un second algorithme d’apprentissage profond (42) de reconstruction faciale, adapté pour produire une reconstruction 3D texturée (34) de la portion faciale hors portion dentée du visage sur la base de la seconde partie (24) de l’image 2D ; et,
- un algorithme (56) de fusion de la reconstruction 3D de la portion dentée et de la reconstruction 3D texturée de la partie faciale de l’image 2D de l’image 2D, pour obtenir la surface 3D (35) du visage avec sa portion dentée.
[Revendication 2] Procédé selon la revendication 1 , dans lequel le premier algorithme d’apprentissage profond (2) est adapté pour prédire une carte de profondeur pour la portion dentée du visage à partir de données d’apprentissage en masquant une carte de profondeur associé à l’image 2D avec le même masque qu’un masque utilisé sur l’image 2D pour obtenir la première partie de l’image 2D correspondant à la partie dentée du visage, et dans lequel la carte de profondeur pour la portion dentée du visage est convertie en une reconstruction 3D qui est fusionnée avec la reconstruction 3D de la portion faciale hors portion dentée du visage pour produire la surface 3D du visage.
[Revendication 3] Procédé selon la revendication 1 ou la revendication 2, dans lequel le second algorithme d’apprentissage profond (42) est basé sur une méthode de type méthode de génération de pose 3D via un modèle 3D morphable adaptée pour déformer une surface 3D générique de sorte à se rapprocher de l’image 2D sur le plan photométrique.
[Revendication 4] Procédé selon la revendication 3, dans lequel le second algorithme (42) est adapté, en outre, pour produire la position 3D relative de la caméra ayant pris le visage tel que présenté sur l’image 2D ainsi qu’une estimation de la zone 2D de ladite image 2D dans laquelle se situe la portion dentée du visage, et dans lequel une surface 3D consolidée du visage est obtenue à partir d’une pluralité d’images 2D du visage prises par une caméra selon des angles de vue respectifs différents et pour chacune desquelles les étapes du procédé selon l’une quelconque des revendications 1 à 4 sont répétées pour obtenir des surfaces 3D reconstruites respectives, lesdites surfaces 3D reconstruites étant combinées en utilisant la position 3D relative de la caméra ayant pris le visage tel que présenté sur chaque image 2D ainsi que l’estimation de la zone 2D de ladite image 2D dans laquelle se situe la portion dentée du visage.
[Revendication 5] Procédé selon la revendication 1 , dans lequel la génération de la surface 3D du visage comprend l’implémentation d’un troisième algorithme d’apprentissage profond (43), différent du premier et du second algorithme d’apprentissage profond et adapté pour produire globalement une reconstruction 3D de la portion dentée et de la portion faciale hors portion dentée à partir de la seconde partie de l’image 2D à laquelle est ajoutée (304) la première partie de ladite image 2D rehaussée avec recalage mutuel de ladite seconde partie de l’image 2D et de ladite et première partie de ladite image 2D rehaussée.
[Revendication 6] Procédé selon la revendication 5, dans lequel le troisième algorithme d’apprentissage profond (43) est basé sur une méthode de type méthode de génération de pose 3D via un modèle 3D morphable adaptée pour déformer une surface 3D générique de sorte à se rapprocher sur le plan photométrique de la seconde partie de l’image 2D à laquelle est ajoutée la première partie de ladite image 2D rehaussée.
[Revendication 7] Procédé selon l’une quelconque des revendications 1 à 6, dans lequel la modification des caractéristiques photométriques (54) de la première partie 2D de l’image comprend l’augmentation de la netteté et/ou l’augmentation du contraste de ladite première partie de l’image 2D.
[Revendication 8] Procédé selon la revendication 7, dans lequel le rehaussement de la portion dentée de l’image 2D est réalisé en utilisant une série de filtres purement photométriques (401 ,402,403).
[Revendication 9] Procédé selon la revendication 8, dans lequel le traitement 2D de rehaussement comprend l’extraction du canal bleu (401), un filtrage passe-haut de rehaussement de contraste appliqué au canal bleu extrait (402), ainsi qu’un filtrage d’égalisation locale d’histogramme, par exemple de type CLAHE (403), appliqué au canal bleu filtré.
[Revendication 10] Procédé selon la revendication 9, dans lequel le filtrage passe-haut de rehaussement de contraste (402) appliqué au canal bleu comprend un algorithme d’augmentation de la netteté, consistant par exemple à soustraire en partie dudit canal bleu une version floutée de lui-même.
[Revendication 11] Procédé selon la revendication 7, dans lequel la première partie de l’image 2D réhaussée (23) est produite à partir de l’image 2D originale comme une sortie intermédiaire d’un réseau d’apprentissage profond de segmentation sémantique (50), ayant un contraste plus élevé que l’image 2D originale, sélectionnée (52) selon un critère quantitatif déterminé.
[Revendication 12] Procédé selon la revendication 11 , dans lequel une métrique de contraste est associé à la sortie du noyau de convolution de chacune des couches de convolution (51) du réseau d’apprentissage profond de segmentation sémantique (50), et dans lequel la sortie intermédiaire sélectionnée du réseau d’apprentissage profond de segmentation sémantique est la sortie exhibant un maximum de contraste eu égard aux métriques associées aux sorties intermédiaires respectives dudit réseau d’apprentissage profond de segmentation sémantique.
[Revendication 13] Dispositif ayant des moyens configurés pour mettre en oeuvre toutes les étapes d’un procédé selon l’une quelconque des revendications 1 à 12.
[Revendication 14] Produit programme d'ordinateur comprenant une ou plusieurs séquences d'instructions stockées sur un support de mémoire lisible par une machine comprenant un processeur, lesdites séquences d'instructions étant adaptées pour réaliser toutes les étapes du procédé selon l’une quelconque des revendications 1 à 12 lorsque le programme est lu dans le support de mémoire et exécuté par le processeur.
[Revendication 15] Procédé de simulation du résultat esthétique d’un traitement dentaire projeté pour un sujet humain, à partir d’au moins une image bidimensionnelle, 2D, en couleurs du visage du sujet avec une portion dentée (1) visible, ledit procédé comprenant : - la reconstruction tridimensionnelle, 3D, à partir de l’image 2D, du visage avec la portion dentée, pour obtenir une unique surface 3D (73) de la portion dentée et de la portion faciale hors portion dentée du visage reconstruite par le procédé selon l’une quelconque des revendications 1 à 12 ; - la substitution (76) à la zone de la surface 3D correspondant à la portion dentée (1 ) du visage d’une autre surface 3D (77) correspondant à ladite portion dentée (2) après ledit traitement projeté ; et,
- l’affichage de la surface 3D du visage avec la portion dentée après le traitement dentaire projeté.
[Revendication 16] Procédé selon la revendication 15 comprenant l’implémentation d’un algorithme (76) appliqué à une reconstruction 3D (77) de l’arcade dentaire du sujet, ledit algorithme étant adapté pour recaler l’arcade dentaire sur la portion dentée de la surface 3D (73) du visage telle qu’obtenue par le procédé selon l’une quelconque des revendications 1 à 12, et pour remplacer la portion dentée (1) au sein de ladite surface 3D du visage par une partie correspondante (2) de ladite reconstruction 3D de l’arcade dentaire du sujet.
[Revendication 17] Procédé selon la revendication 16, dans lequel l’arcade dentaire (75) subit un traitement numérique avant recalage sur la portion dentée de la surface 3D (73) du visage, afin de simuler au sein de ladite surface 3D du visage le résultat esthétique du traitement projeté.
[Revendication 18] Procédé selon la revendication 16 ou la revendication 17, dans lequel la reconstruction 3D (75) de l’arcade dentaire du sujet est obtenue avec une caméra intraorale.
[Revendication 19] Procédé selon l’une quelconque des revendications 15 à 18, dans lequel le traitement projeté comprend l’un au moins parmi la liste des traitements esthétique, orthodontique ou prothétique suivants : un changement de teinte des dents, un réalignement des dents, une apposition de facettes sur les dents, une pose de matériel orthodontique comme des bagues, ou une pose de matériel prothétique comme une couronne, un « bridge », un « inlay core » ou un « inlay onlay ».
EP21730227.2A 2020-06-06 2021-06-04 Procédé et dispositif de reconstruction tridimensionnelle d'un visage avec partie dentée à partir d'une seule image Pending EP4162448A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2005928A FR3111066A1 (fr) 2020-06-06 2020-06-06 Procédé et dispositif de reconstruction tridimensionnelle d’un visage avec partie dentée à partir d’une seule image
PCT/EP2021/065067 WO2021245273A1 (fr) 2020-06-06 2021-06-04 Procédé et dispositif de reconstruction tridimensionnelle d'un visage avec partie dentée à partir d'une seule image

Publications (1)

Publication Number Publication Date
EP4162448A1 true EP4162448A1 (fr) 2023-04-12

Family

ID=73038070

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21730227.2A Pending EP4162448A1 (fr) 2020-06-06 2021-06-04 Procédé et dispositif de reconstruction tridimensionnelle d'un visage avec partie dentée à partir d'une seule image

Country Status (4)

Country Link
US (1) US20230222750A1 (fr)
EP (1) EP4162448A1 (fr)
FR (1) FR3111066A1 (fr)
WO (1) WO2021245273A1 (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201809768D0 (en) * 2018-06-14 2018-08-01 Fuel 3D Tech Limited Deformity edge detection
US11563929B2 (en) * 2019-06-24 2023-01-24 Align Technology, Inc. Intraoral 3D scanner employing multiple miniature cameras and multiple miniature pattern projectors
US11978207B2 (en) * 2021-06-03 2024-05-07 The Procter & Gamble Company Oral care based digital imaging systems and methods for determining perceived attractiveness of a facial image portion
US20240046569A1 (en) * 2022-08-03 2024-02-08 Naver Corporation Three dimensional rendering systems and methods from monocular image

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3050375A1 (fr) * 2016-04-22 2017-10-27 H43 Dev Procede de controle de la dentition
US10660728B2 (en) 2016-10-20 2020-05-26 Baliram Maraj Systems and methods for dental treatment utilizing mixed reality and deep learning
US10467815B2 (en) 2016-12-16 2019-11-05 Align Technology, Inc. Augmented reality planning and viewing of dental treatment outcomes
WO2019215550A1 (fr) * 2018-05-10 2019-11-14 3M Innovative Properties Company Traitement orthodontique simulé par visualisation en réalité augmentée en temps réel
EP4331532A3 (fr) * 2018-06-29 2024-07-10 Align Technology, Inc. Fourniture d'un résultat simulé d'un traitement dentaire sur un patient

Also Published As

Publication number Publication date
WO2021245273A1 (fr) 2021-12-09
US20230222750A1 (en) 2023-07-13
FR3111066A1 (fr) 2021-12-10

Similar Documents

Publication Publication Date Title
WO2021245273A1 (fr) Procédé et dispositif de reconstruction tridimensionnelle d'un visage avec partie dentée à partir d'une seule image
US10896535B2 (en) Real-time avatars using dynamic textures
EP2450852A1 (fr) Procédé et dispositif de simulation virtuelle d' une image
EP4161437B1 (fr) Prise d'empreinte optique de l'arcade dentaire d'un patient
JP2005522108A (ja) データ品位を向上する方法及びシステム
WO2013057210A2 (fr) Methode de simulation d'une chevelure a colorimetrie variable et dispositif pour la mise en œuvre de la methode
EP3832535A1 (fr) Procédé de détection d'au moins un élément d'intérêt visible dans une image d'entrée au moyen d'un réseau de neurones à convolution
CN109829925B (zh) 一种在抠图任务中提取干净前景的方法及模型训练方法
WO2021250091A1 (fr) Procédé de segmentation automatique d'une arcade dentaire
EP3928291A1 (fr) Procede de correction d'un contour
Chhabra et al. Detailed survey on exemplar based image inpainting techniques
EP4049289A1 (fr) Procede de generation d'une image dentaire
FR3057981B1 (fr) Procede d'elaboration d'un nuage de points 3d representatif d'une oreille 3d d'un individu, et systeme associe
Khan et al. Towards monocular neural facial depth estimation: Past, present, and future
FR3066304A1 (fr) Procede de compositon d'une image d'un utilisateur immerge dans une scene virtuelle, dispositif, equipement terminal, systeme de realite virtuelle et programme d'ordinateur associes
WO2020169939A1 (fr) Procédé d'estimation et de visualisation d'un résultat d'un plan de traitement dentaire
WO2021245290A1 (fr) Génération de modèles 3d à l'échelle à partir d'images 2d produites par un dispositif d'imagerie monoculaire
FR2968436A1 (fr) Methode de determination des mouvements d'un objet a partir d'un flux d'images
CN113066114A (zh) 一种基于Retinex模型的卡通风格迁移方法
WO2020157733A1 (fr) Procédé dynamique d'imagerie tridimensionnelle
FR2920938A1 (fr) Procede et dispositif de simulation virtuelle d'une image
EP4150574B1 (fr) Procédé de traitement d'images
Goyal et al. Image Inpainting
Lenka et al. Improvement of Exemplar Based Inpainting by Enhancement of Patch Prior
Dib et al. MoSAR: Monocular Semi-Supervised Model for Avatar Reconstruction using Differentiable Shading

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230109

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)