CN116097319A - 利用空间感知的条件gan的高分辨率可控面部老化 - Google Patents
利用空间感知的条件gan的高分辨率可控面部老化 Download PDFInfo
- Publication number
- CN116097319A CN116097319A CN202180046647.6A CN202180046647A CN116097319A CN 116097319 A CN116097319 A CN 116097319A CN 202180046647 A CN202180046647 A CN 202180046647A CN 116097319 A CN116097319 A CN 116097319A
- Authority
- CN
- China
- Prior art keywords
- aging
- computing device
- image
- skin
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000032683 aging Effects 0.000 title claims abstract description 259
- 230000001815 facial effect Effects 0.000 title claims description 42
- 238000012549 training Methods 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 65
- 239000003550 marker Substances 0.000 claims abstract description 59
- 230000037303 wrinkles Effects 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 23
- 230000000694 effects Effects 0.000 claims description 17
- 210000001061 forehead Anatomy 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 7
- 230000003712 anti-aging effect Effects 0.000 claims description 7
- 238000007665 sagging Methods 0.000 claims description 7
- 238000004088 simulation Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 230000003190 augmentative effect Effects 0.000 claims description 6
- 239000002537 cosmetic Substances 0.000 claims description 6
- 239000003607 modifier Substances 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000003716 rejuvenation Effects 0.000 claims description 4
- 238000000844 transformation Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 claims description 2
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 17
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 17
- 210000000887 face Anatomy 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 238000013459 approach Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 208000012641 Pigmentation disease Diseases 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000019612 pigmentation Effects 0.000 description 4
- 230000003679 aging effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 210000004209 hair Anatomy 0.000 description 3
- 230000009759 skin aging Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010924 continuous production Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 201000000195 skin tag Diseases 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010042496 Sunburn Diseases 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002124 flame ionisation detection Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000002169 hydrotherapy Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000036548 skin texture Effects 0.000 description 1
- 230000036555 skin type Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- A—HUMAN NECESSITIES
- A45—HAND OR TRAVELLING ARTICLES
- A45D—HAIRDRESSING OR SHAVING EQUIPMENT; EQUIPMENT FOR COSMETICS OR COSMETIC TREATMENTS, e.g. FOR MANICURING OR PEDICURING
- A45D44/00—Other cosmetic or toiletry articles, e.g. for hairdressers' rooms
- A45D44/005—Other cosmetic or toiletry articles, e.g. for hairdressers' rooms for selecting or displaying personal cosmetic colours or hairstyle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
- G06Q30/0643—Graphical representation of items or shoppers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30088—Skin; Dermal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Biodiversity & Conservation Biology (AREA)
- Human Computer Interaction (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
提供了计算设备和方法等从而可控制地变换面部的图像,该图像包括高分辨率图像,以便模拟连续老化。使用种族特定的老化信息和弱空间监督来指导通过训练包括基于GAN的生成器的模型而定义的老化过程。老化图将种族特定的老化信息呈现为皮肤标志分数或表观年龄值。分数位于图中,与面部的与皮肤标志相关联的皮肤标志区域的相应位置相关联。基于拼片的训练,特别是与位置信息相关联以区分来自面部的不同部位的相似拼片,用来在高分辨率图像上进行训练,同时使资源使用最小化。
Description
相关申请的交叉引证
本申请要求于2020年6月30日提交的题为“High-Resolution Controllable FaceAging with Spatially-Aware Conditional GANs”的美国临时申请号63/046,011以及于2020年9月11日提交的题为“High-Resolution Controllable Face Aging withSpatially-Aware Conditional GANs”的现有法国专利申请号2009199的优先权和/或权益,在可允许的情况下,其各自的全部内容通过引证结合于本文中。
技术领域
本公开涉及图像处理,并且更具体地,涉及利用空间感知的条件生成对抗网络(GAN)的高分辨率可控面部老化。
背景技术
面部老化是图像合成任务,其中必须变换参考图像以给出人的不同年龄的印象,同时保持主体的身份和关键面部特征。当正确地完成时,从预测失踪人员的未来外貌到娱乐和教育用途中,这个过程可以用于不同领域。重点可以放在实现高分辨率面部老化上,因为这是捕捉老化的微小细节(细纹、色素沉着等)的有用步骤。近年来,GAN[14]已经允许对该任务进行基于学习的方法。然而,结果通常质量不足并且仅提供有限的老化选项。诸如StarGAN[10]等流行模型在没有额外微调和修改的情况下无法产生令人信服的结果。这部分来源于将老化减少至真实或表观年龄的选择[1]。另外,当前的方法将老化处理为逐步过程,按域(30-40、40-50、50+等)分割年龄[2、16、28、30、32]。
实际上,老化是连续过程,该连续过程根据诸如面部特征和种族等遗传因素以及生活方式选择(吸烟、水疗、晒伤等)或行为可以采取许多形式。值得注意的是,习惯的面部表情促进了表情皱纹并且可能在前额、上唇或眼角(鱼尾纹)处突出。此外,老化是主观的,因为它取决于评估年龄的人的文化背景。这些因素要求更细粒度的方法来面对老化。
用于面部老化的现有方法和数据集产生偏向平均值的结果,其中个体变化和表情皱纹常常不可见或被忽略,有利于全局图案,诸如面部变胖。此外,它们几乎不提供对老化过程的控制,并且可能难以缩放成大图像,从而防止它们在许多现实世界应用中的使用。
发明内容
根据本文中的技术方法,提供了用于可控制地变换面部的图像(包括高分辨率图像)以模拟连续老化的计算设备和方法等的各个实施方式。在实施方式中,种族特定的老化信息和弱空间监督用于指导通过训练包括基于GAN的生成器的模型所定义的老化过程。在实施方式中,老化图将种族特定的老化信息呈现为皮肤标志分数或表观年龄值。在实施方式中,分数位于与面部的与皮肤标志相关联的皮肤标志区域的相应位置相关联的图中。在实施方式中,基于拼片的训练(尤其与位置信息相关联以区分来自面部的不同部位的相似拼片)用于在高分辨率图像上训练,同时使计算资源使用最小化。
附图说明
图1是示出了根据实施方式的以连续方式老化的各个行中的两个面部的高分辨率面部的阵列。
图2A、图2B、图2C和图2D是示出了图2E中示出的面部的一些相应老化标志区域的图像。图2E还示出了根据实施方式的由面部的区域的相关联的老化标志分数构造的面部的老化图。图2A至图2D中示出的区域(a)-(d)相对于图2E放大示出。
图3A和图3B示出了水平和垂直位置梯度图。
图4和图5是根据实施方式的训练工作流的图示。
图6是示出了根据先前方法和实施方式的方法的老化比较的老化图像阵列。
图7是示出了使用实施方式的方法的来自FFHQ数据集的不同年龄和种族的六个面部的复原、原始和老化的图像阵列。
图8是示出了根据实施方式的没有定义皮肤标志值的组802和定义皮肤标志值的组804中的模型结果的图像阵列800。
图9是根据实施方式的以连续方式示出了老化的图像阵列。
图10A、图10B、图10C、图10D、图10E和图10F是示出了根据实施方式的使用各个老化图的原始图像和老化图像的相同面部的图像。
图11示出了根据实施方式的两个相应面部的两个图像阵列,示出了使用1024×1024图像上的三个不同拼片大小的一个面部的复原结果和第二面部的老化结果。
图12示出了示出老化效果的图像阵列,其中第一阵列示出了使用未利用位置图训练的模型(拼片)的老化,并且第二阵列示出了使用利用位置图训练的模型(拼片)的老化,其中每个模型按照实施方式进行训练。
图13示出了根据实施方式的示出老化效果的图像阵列,其中第一阵列示出了使用利用均匀特征图训练的模型(拼片)的老化,并且第二阵列示出了使用利用老化图训练的模型(拼片)的老化。
图14是根据实施方式的包括多个计算设备的计算机系统的框图。
包含面部图像的附图在本公开中出于呈现目的而被掩蔽,并且在使用时不被掩蔽。
具体实施方式
根据本文中的技术方法,在各个实施方式中是针对通过创建能够单独变换局部老化标志的模型来获得高分辨率面部老化结果的系统和方法。图1是示出了根据实施方式的以连续方式老化的各个行102和104中的两个面部的高分辨率面部的阵列100。
在实施方式中,有组织的高分辨率数据集与新技术(的组合)联合使用以产生详细的最先进的老化结果。临床老化标志和弱空间监督允许对老化过程进行细粒度的控制。
在实施方式中,引入基于拼片(patch)的方法以实现对高分辨率图像的推断,同时保持训练模型的计算成本较低。这允许该模型在比先前方法大4倍的规模上给出最先进的老化结果。
相关工作
条件生成对抗网络(条件GAN)[14]利用对抗损失的原理来迫使由生成模型生成的样本与真实样本不可区分。该方法导致了骄人结果,尤其是在图像生成领域。可以扩展GAN以基于一个或几个条件来生成图像。训练所得条件GAN以生成满足真实性和条件准则这两者的图像。
未配对的图像到图像转换条件GAN是用于图像到图像转换[18]任务的强大工具,其中输入图像被给予模型以合成变换图像。StarGAN[10]引入使用附加条件来指定要应用的期望变换的方式。他们提出以链接到输入图像的特征图[10]的形式将输入条件馈入生成器,但是新方法使用更复杂的机制(诸如AdAIN[20]或其2D扩展SPADE[22])来以更优化的方式给予生成器条件。在先前的技术需要不同域中的像素对准的训练图像的情况下,诸如CycleGAN[34]和StarGAN[10]等近期工作引入循环一致性损失以使得能够在离散域之间进行未配对的训练。这已经在[23]中延伸以允许在连续域之间进行转换。
面部老化
为了使来自单个图片的面部老化,传统方法使用同一个人的一个图像[2、16、30、32、33]或多个图像[26、28]的训练数据,以及拍摄图片时人的年龄。使用纵向数据与同一个人的多张照片提供了较低的灵活性,因为它对数据集集合创建了严重的时间相关约束。
年龄通常被分堆(例如,分组)成离散的年龄组(20-30、30-40、40-50、50+等)[2、16、30、32],其更简单地制定问题,但是限制对老化过程的控制并且不允许训练利用组的有序性质。[33]中的公开内容通过将年龄视为连续值来解决该限制。老化不是客观的,因为不同皮肤类型,老化不同,并且不同人群探索不同的老化标志。聚焦在表观年龄上,因为老化的指导因此冻结了主观观点。此类方法不能针对人群的视角进行定制,而不需要从其观点来看的额外年龄估计数据。
为了改善所生成的图像的细节质量和水平,[32]使用来自[23]的生成器中的注意机制。然而,所生成的样本是对于现实世界应用而言过于粗糙的低清晰度图像。以此尺度工作隐藏了生成逼真图像的一些困难,诸如皮肤纹理、细纹和细节的整体清晰度。
方法
问题公式化
在实施方式中,目标是使用单个未配对的图像来训练能够生成逼真的高清晰度(例如,1024×1024)老化面部的模型,其中对细粒度的老化标志进行连续控制以在原始图像与变换图像之间创建平滑变换。这是更直观的方法,因为老化是连续过程并且年龄组域没有明确地强制执行逻辑顺序。
在实施方式中,种族特定皮肤图集[4-7,13]的使用结合了临床老化标志的种族维度。这些图集定义了许多临床标志,诸如眼下皱纹、面部下部下垂、脸颊上色素斑的密度等。每个标志链接至面部上的特定区域并且在根据种族的标度上打分。除了年龄之外,使用这些标签使得更全面地表示老化,并且允许用临床标志和分数的各种组合来变换图像。
在实施方式中,图2A、图2B、图2C和图2D是示出了图2E中示出的面部212的各个老化标志区域(a)-(d)(202、204、206和208)的图像。使用了其他标志区域,但未示出。图2E还示出了针对面部212的老化图210。根据实施方式,老化图210由针对面部212的所有区域的相关联的老化标志分数构成。应当理解,图2A至图2D中示出的区域(a)-(d)相对于图2E的面部212放大示出。在实施方式中,皮肤标志表示“年龄”、“前额皱纹”、“鼻唇沟”、“眼下皱纹”、“眉间皱纹”、“眼间皱纹”、“嘴角皱纹”、“上唇”和“面部下部下垂”。在实施方式中,其他皮肤标志用于其存在足够的训练等数据。
在老化图210中,每个像素的亮度表示局部临床标志的归一化分数(例如,唇角皱纹(a)、眼下皱纹(b)、鼻唇沟皱纹(c)、眼间皱纹(d)等)。当没有老化标志分数可用(定义)时,使用表观年龄值。
换言之,在实施方式中,老化目标以针对特定面部图像(例如,212)的老化图(例如,210)的形式被传递到网络。为此,计算面部特征点,并且定义用于每个老化标志的相关区域(例如,参见图2A至图2D的实施例)。然后,每个区域(例如,前额(在图2A至图2D中未示出为区域))填充有对应标志(例如,前额皱纹)的分数值。在图2A至图2D的本实施例中,适用区域的皮肤老化标志值是(a)0.11;(b)0.36;(c)0.31;以及(d)0.40。在实施方式中,(经由估计器)使用表观年龄或实际年龄(如果可用的话)来填充未定义临床标志的空白。最后,将粗糙掩模应用于图像的背景。
在实施方式中,皮肤老化标志值(和表观年龄,如果使用的话)在0和1之间的尺度上被归一化。
同时处理整个图像将是理想的,但是用1024×1024个图像训练模型需要大的计算资源。在实施方式中,使用基于拼片的训练方法来在训练期间仅使用部分图像和老化图的对应拼片部分来训练模型。基于拼片的训练减少了任务的上下文(即,全局信息),而且减少了处理大批量高分辨率图像所需的计算资源,如在[8]中所推荐的。在128×128、256×256或512×512个像素的小拼片上使用大批量大小。在实施方式中,训练在每次在训练过程中看到图像时对随机拼片进行采样(在这种训练中约300次)。
基于拼片的训练的主要缺点是小拼片可看起来相似(例如,前额和脸颊),然而必须不同地老化(例如,分别为水平和垂直皱纹)。参考图3A和图3B,在实施方式中,为了避免从这些模糊区域上的算术平均值确定的皱纹,生成器设置有分别来自水平梯度位置图300和垂直梯度位置图302的两个拼片。算术平均皱纹在外观上不自然。这允许模型了解拼片的位置,以便在潜在的模糊区域之间进行区分。
网络架构
在实施方式中,训练过程是基于StarGAN[10]框架的。生成器是源自[11]的完全卷积编码器-解码器,其中解码器中的SPADE[22]残差块结合老化和位置图。这允许模型利用老化图中存在的空间信息,并且在解码器中以多个尺度使用该空间信息。为了避免学习不必要的细节,来自[23]的注意机制用于迫使生成器仅在需要时变换图像。鉴别器是[10]的修改版本,且产生用于WGAN[3]目标(针对等式1中的图像i及老化图a给定)的输出、拼片的坐标的估计及老化图的低分辨率估计。
在实施方式中,图4和图5呈现了基于拼片的训练工作流400和500,其中图4示出了训练生成器(G)402和图5示出了训练基于GAN的模型的鉴别器(D)502。
参考图4,生成器(G)402包括编码器部分402A和解码器部分402B,其中,解码器部分402B配置有SPADE残差块以再次适应其图和位置。工作流操作400通过从图像I(404)、老化图A(406)和位置图X和Y(408,410)中的每一个裁剪拼片以定义图像拼片Ip(412)、老化图拼片Ap(414)和位置图Xp和Yp(416,418)而开始。生成器402经由SPADE配置420根据图414和位置(图416,418)变换图像拼片Ip412以产生图像Δp 422。如所述,对于1024×1024的训练图像,拼片大小可以是128×128、256×256或512×512个像素。
[23]的注意机制424用于迫使生成器402仅在需要时变换图像(拼片412),从而给出结果G(Ip|Ap)426。
参考图5和工作流操作500,鉴别器(D)502产生真/假输出504、拼片的估计位置(x,y)506以及估计的老化图(508)。这些输出(504,506和508)分别用WGAN目标、位置和老化图损失函数(510,512和516)惩罚。进一步描述位置和老化图损失函数。
结果426用于基于循环GAN的模型训练以从生成器402产生结果G(G(Ip|Ap))518。循环一致性损失520确保变换保留原始图像拼片412的关键特征。
老化图
在实施方式中,为了避免由于不能以像素精度放置边界框而对模型(例如,生成器G)进行惩罚,老化图被模糊以使边缘平滑并且对下采样的10×10个图计算鉴别器回归损失。该公式允许以比单独的统一特征图[10、28、32、33]更紧凑和有意义的方式打包信息。当标志(例如,前额色素沉着和前额皱纹)之间存在较大重叠时,该方法仅需要多个特征图。在实施方式中,小重叠的一般情况是仅具有一个老化图,其中值是重叠区域中的两个标志的平均值。如果区域重叠太多(例如,前额皱纹VS前额色素沉着),在实施方式中,老化图包括两层老化图(即,在这种情况下用于皱纹的一层老化图以及用于色素沉着的一层老化图)。
考虑图像拼片i和老化图拼片a,在等式2中给出损失。
位置图
在实施方式中,两个正交梯度(位置图416、418)用于帮助生成器402将相关的老化变换应用于给定拼片(例如,412)。拼片412的X、Y坐标可以作为两个数字而不是线性梯度图提供给生成器402,但是这样做将阻止在全尺度图像上使用模型,因为它将破坏其完全卷积性质。考虑位于坐标(x,y)处的图像拼片i和老化图拼片a,在等式3中给出损失。
训练
在实施方式中,使用亚当[21]优化器对模型进行训练,其中β1=0,β2=0.99并且用于G的学习速率是7×10-5并且用于D的学习速率是2×10-4。在两个时间尺度更新规则[17]之后,在每个步骤更新这两个模型。此外,在训练过程中,用于G和D这两者的学习速率被线性衰减至零。为了增强循环一致性,[31]的感知损失以λCyc=100使用。对于回归任务,λLoc=50用于预测拼片的(x,y)坐标,并且λAge=100来估计下采样的老化图。利用在λGP=10的[15]中呈现的原始梯度惩罚来惩罚鉴别器。在等式4中给出完整损失目标函数:
推断
对于推断,在实施方式中,可以诸如通过确定G的参数的指数移动平均值[29]以定义推断模型G,来针对稳定性优化所训练的(生成器)模型G。由于网络的完全卷积性质和连续的2D老化图的使用,不管在训练期间使用的拼片的大小,训练的生成器可以直接在1024×1024图像上使用。
在实施方式中,手动创建目标老化图。在实施方式中,面部特征点和目标分数用于建立目标老化图。
在实施方式中,促进用户在应用界面中输入目标老化并且该应用被配置为利用目标老化定义老化图(和位置图,如果必要的话)作为老化图值。
在实施方式中,代替绝对年龄,促进用户输入年龄差异(例如,如减少3年或增加10年的增量值)。在该实施方式中,应用随后分析接收图像以确定表观年龄或皮肤标志值,并随后定义相对于该分析的老化图,修改表观年龄/皮肤标志值以适合用户请求。该应用被配置为使用该图来定义示出老化图像的修改图像。
在实施方式中,一种方法(例如,计算设备方法)包括:
接收用户提供的“自拍”图像;
分析图像以生成“当前”皮肤标志值;2020年6月4日的题为“Automatic image-based diagnostics using deep learning”的美国专利公开号2020/0170564A1示出并描述了自动皮肤标志分析,其全部内容通过引证结合于本文中;
(经由显示设备)向用户呈现有注释的自拍,该有注释的自拍示出了覆盖在与各个标志相关的面部区域上的用户的分析过的皮肤标志;
接收调整一个或多个标志分数的用户输入(经由图形或其他用户界面)。举例来说,输入是皮肤标志调整值(例如,目标或增量)。举例来说,输入是与一个区域(或多于一个区域)相关的产品和/或服务选择。产品和/或服务与皮肤标志分数调整值(例如,增量)相关联。
使用当前皮肤标志分数和皮肤标志分数调整值来定义老化图;
利用生成器G使用该图来定义修改图像;并且
举例来说,(例如,经由显示设备)向用户呈现经改图像示出了在使用产品和/或服务之后用户可能看起来像什么。
实验
实验设置
大多数面部老化数据集[9,24,25]在种族[19]方面缺乏多样性,并且集中于低分辨率图像(高达250×250像素)。这不足以捕捉与皮肤老化相关的细节。此外,它们通常不能使面部的姿态和表情归一化(微笑、皱眉、扬眉),这导致与老化无关的加重皱纹(主要是鼻唇皱纹、鱼尾纹、前额皱纹和眼下皱纹)。最后,缺乏关于老化标志的细粒度信息使得其他方法捕捉不想要的相关特征,诸如面部变胖,如在诸如IMDB-Wiki[25]等数据集中观察到的。可以在图6中观察到这些效果。
图6示出了包括在第一列602中的原始图像和在其余列中的老化图像的图像阵列600,以示出先前的老化方法与本文中当前教导的方法的比较。根据先前的老化方法的图像根据[28]、[16]、[26]和[2]分别呈现在行604、606、608和610中。在行612中呈现了根据本文中当前教导的方法的图像。
以前的方法在低分辨率图像上操作,并且遭受皱纹动态范围的缺乏,特别是对于表情皱纹(行604)。它们还易于发生色移和伪影(606、608和610),以及不想要的相关特征,诸如面部变胖(610)。
为了解决这些问题,使用手动生成的老化图或统一老化图来突出复原/老化,在两个有组织的高分辨率数据集上测试根据本教导的模型。
FFHQ
使用FFHQ数据集[20]进行测试。在实施方式中,为了使照明、姿势和面部表情的问题最小化,应用简单的启发法来选择更好质量的数据集的子集。为此,从所有面部提取面部特征点并且用于去除头部向左、向右、向上或向下太严重倾斜的所有图像。此外,去除所有张嘴的图像以限制人工鼻唇沟和眼下皱纹。最后,使用HOG[12]特征描述符来去除头发覆盖面部的图像。该选择使得数据集从70k+图像降至10k+图像。由于FFHQ数据集的极具多样性,剩余的图像仍然远远不是完美的,尤其是在照明颜色、方向和曝光方面。
为了获得这些图像上的个别老化标志的分数,在实施方式中,使用基于ResNet[27]架构的老化标志估计模型,在下文描述的高质量标准化数据集(即,6000个高分辨率的3000×3000图像)上训练该模型。最后,使用特征点作为粗略边界框的基础来生成真实老化图。在1024×1024个面部上随机选择的256×256个拼片上训练该模型。
高质量标准化数据集
为了获得更好的性能,在实施方式中,收集了6000张高分辨率(3000×3000)的面部图像的数据集,该面部居中和对齐、跨越大多数年龄、性别和种族(非洲人、白种人、中国人、日本人和印度人)。使用种族特定临床老化标志图集[4-7,13]来标记图像并在覆盖大部分面部的标志(表观年龄、前额皱纹、鼻唇皱纹、眼下皱纹、上唇皱纹、嘴角皱纹以及面部下部下垂)上评分。
结果
FFHQ数据集
尽管数据集具有复杂性,并且没有真实年龄值,但是基于拼片的模型能够以连续方式变换面部上的个别皱纹。
图7是示出了使用本文中的当前教导的实施方式的来自FFHQ数据集的不同年龄和种族的六个面部的原始(列702)、复原(列704)和老化(列706)图像的图像阵列700。图7显示了模型如何能够变换不同的皱纹,即使基于拼片的训练的复杂性、数据集中照明的较大变化以及临床标志/年龄的等级之间的不平衡,其中绝大多数年轻受试者具有很少皱纹。图8是示出了根据实施方式的没有定义皮肤标志值的组802和定义皮肤标志值的组804中的模型结果的图像阵列800。在没有定义标志的情况下,用年龄值填充该图。这有助于模型学习全局特征,诸如头发斑白(组802)。在老化图中使用个体临床标志允许我们老化所有标志,但是保持头发的外观完整(组804),突出了模型对个体标志的控制,允许以可控方式老化面部,这用年龄的唯一标记是不可行的。
高质量标准化数据集
在更加标准化的图像上,并且在种族和老化标志具有更好的覆盖范围,该模型以高水平的细节、真实性和不可见伪影展示了最先进的性能(图1、图9)。举例来说,图9是根据实施方式的在行902、904、906和908中以连续方式示出了四个面部老化的图像阵列900。没有区域保持不变,甚至面部的下部的前额或下垂。用于填充间隙的补充年龄信息可以在眉毛变薄或变灰时看到。
沿着老化图的连续谱,使用本文中教导的老化过程是成功的,允许为标志严重性值的多样化集合生成逼真图像。在实施方式中,如图10A至图10F的实施例中所示,在同一面部上示出了使用分别定义的老化图的该逼真且连续的老化。图10A示出了应用老化之前的面部的图像1002。图10B示出了经由老化图老化的面部的图像1004,该老化图复原了除鼻唇、嘴角和面部右侧部分上的眼睛皱纹下面的所有标志。图10C示出了图仅老化面部底部的图像1006和图10D示出了图仅老化顶部的图像1008。图10E示出了图被定义为仅使眼下皱纹老化的图像1010。图10F示出了定义为以不对称方式老化面部的图的图像1012,即眼下右皱纹和左鼻唇沟。
评估度量
为了被认为是成功的,面部老化的任务需要满足三个标准:图像必须是逼真的,受试者的身份必须被保留,并且面部必须被老化。由于WGAN目标函数、循环一致性损失和老化图估计损失,这些分别在训练期间被强制执行。本质上,一个单个度量不能确保满足所有标准。例如,模型可以留下输入图像而不改变它,并且仍然成功实现真实性和身份。相反,模型可能在老化方面成功,但真实性和/或身份失败。如果一个模型在每个度量上不优于另一个模型,则可以选择取舍。
对FFHQ和高质量标准化数据集的实验在保留受试者身份方面从未显示任何问题。在实施方式中,选择集中于用于定量评估的真实性和老化标准。因为本文中的方法集中于作为老化标志的组合而不是仅依赖于年龄的老化,因此目标年龄的准确性不被用作度量。反而,弗雷歇起始距离(FID)[17]用于评估图像的真实性、以及针对目标老化标志的准确性的平均误差(MAE)。
为此,一半数据集被用作真实图像的参考,并且其余数据集被用作要由模型变换的图像。从真实标签中随机选择用于变换这些图像的老化图以确保生成图像跟随原始数据集的分布。使用基于ResNet[27]架构的专用老化标志估计模型在所有生成图像上估计个体分数值。作为FID分数的参考,在真实图像数据集的两半之间计算FID。注意,数据集的大小防止在推荐的50k+[17,20]上计算FID,从而导致对该值的过高估计。这可以在仅计算真实图像之间的FID时看到,给定49.0的基线FID。在表1中呈现了结果。
表1
年龄与临床标志之间的比较
在实施方式中,当在没有临床标志的情况下训练时,仅使用年龄来创建统一的老化图,该模型仍给出令人信服的结果,其中估计年龄的标准具有低FID和MAE。因此,表2示出了具有临床标志且仅具有年龄的模型的弗雷歇起始距离和平均误差。
表2
然而,通过将老化面部与仅年龄方法进行比较,看起来一些皱纹对于仅年龄模型不展现其全范围的动态性。这是由于并不是所有老化标志都需要被最大化以便达到数据集的限制年龄的事实。事实上,标准化数据集(65至80岁)的150个最老个体显示其归一化老化标志的中值标准偏差0.18,突出显示老年人中的老化标志的许多可能组合。对于仅年龄模型,这是个问题,因为它仅提供一种方式来使面部老化。例如,诸如前额皱纹等标志高度地取决于受试者的面部表情并且是老化过程的主要组成部分。通过仅观察数据集中受试者的年龄,不能控制这些临床老化标志的分布。
相反,在实施方式中,利用老化图老化的面部提供对老化过程的更多控制。通过控制每个个体老化标志,可以选择是否应用这些表情皱纹。该益处的自然扩展是皮肤的色素沉着,在一些亚洲国家,其被视为老化的标志。在不必从局部角度重新估计年龄的情况下,基于年龄的模型不能为这些国家产生老化。这不像本文中公开的方法没有扩展,本文中公开的方法一旦用每个相关的老化标志进行训练,就能够提供针对不同国家的观点定制的面部老化体验,所有这些都在单个模型中并且没有附加标签。
消融研究
拼片大小的影响:在实施方式中,当训练模型时,对于给定的目标图像分辨率(在实验中为1024×1024个像素),可以选择用于训练的拼片的大小。拼片越大,模型将必须执行老化任务的上下文越多。然而,对于相同的计算能力,较大的拼片使得批量大小更小,这阻碍了训练[8]。使用128×128、256×256和512×512个像素的拼片进行实验。图11示出了根据本文中教导的在1024×1024的面部图像上示出复原和老化结果的图像阵列1100。阵列1100包括用于两个相应面部的第一图像阵列1102和第二图像阵列1104。阵列1102示出了一个面部的复原结果并且阵列1104示出了第二面部的老化结果。行1106、1108和1110示出了使用各自不同的拼片大小的结果。行1106示出了128×128拼片大小,行1108示出了256×256拼片大小,行1110示出了512×512拼片大小。
图11示出了在实施方式中,所有拼片大小设法完成使高分辨率面部老化,但达到各种真实程度。最小的拼片大小最遭受上下文缺乏,并且产生劣于其他两个的结果,具有可见的纹理伪影。256×256拼片给出了令人信服的结果,当与512×512拼片比较时仅有轻微的不完美可见。这些结果表明,该技术应用于更大的分辨率,诸如在2048×2048图像上具有512×512拼片。
位置图:
在实施方式中,为了看到位置图的贡献,利用和不用它们训练模型。如所预期的,位置图的影响在小拼片大小上更突出,其中模糊性高。图12示出了如何在小拼片大小上且缺失位置信息的情况下,模型不能区分来自面部的不同部位的相似拼片。图12示出了根据本文中教导的两个(拼片训练的)模型的示出两个阵列1202和1204中的老化效果的图像阵列1200。因此,图12在阵列1202中示出了在不使用位置图的情况下利用最小拼片大小老化的面部,以及在阵列1204中示出了在使用位置图的情况下利用最小拼片大小老化的面部。在每个相应阵列中,示出了老化的面部以及与原始图像的差异。当在不使用位置图的情况下训练(拼片)时,模型不能添加与位置一致的皱纹,并生成一般斜波纹。这种影响在较大的拼片大小上较少存在,因为拼片的位置较不模糊。位置图消除了斜线纹理伪影的存在,尤其是在前额上,在前额上允许出现水平皱纹。
信息的空间化:
将根据本文教导的提出的老化图的使用与格式化条件的基线方法进行比较,即,给出所有标志分数作为个体统一特征图。由于并非每个标志都存在于特定拼片中,尤其是当拼片大小小时,大多数处理的信息对于模型是无用的。老化图表示一种简单的方式:除了它们的空间范围和位置以外,仅给予模型存在于拼片中的标签。图13突出显示了老化图的效果。图13示出了根据本文教导的示出老化效果的图像阵列1300,其中第一阵列1302示出了使用利用统一特征图训练的模型(拼片)的老化,并且第二阵列1304示出了使用利用老化图训练的模型(拼片)的老化。
在小的或中等拼片(例如,128×128或256×256像素)上,该模型很难创建逼真结果。老化图有助于降低问题的复杂度。因此,图13在三个图像的阵列1302和三个图像的阵列1304中示出了具利用大拼片大小(例如,512×512)用个体统一条件特征图(阵列1302)和提出的老化图(阵列1304)老化的面部,以及与每个相应阵列中的原始图像的差异。拼片大小不需要是原始图像尺寸的两倍(例如,800×800将是大的,而不是1024×1024图像的全尺寸)。由于更密集的空间化信息,老化图有助于使训练更高效,并且产生更逼真的老化。差异突出了基线技术的小的不逼真的皱纹。
可替换地,在实施方式中,使用如在StarGAN中示出的不同方法,由此给模型每个拼片的所有标志值,甚至拼片中不存在的标志的值。
应用
在实施方式中,所公开的技术和方法论包括开发者相关的方法和系统,以定义(诸如通过调节)具有用于提供年龄模拟的图像到图像转换的生成器的模型。生成器表现出(对多个年龄相关的皮肤标志的)连续控制以在(例如,面部的)原始图像和变换图像之间创建平滑变换。使用单独的未配对的训练图像来训练生成器,其中,训练图像中的每一个具有老化图,该老化图标识与相应年龄相关的皮肤标志相关联的面部特征点以提供弱空间监督来指导老化过程。在实施方式中,年龄相关的皮肤标志表示老化的种族特定维度。
在实施方式中,将具有用于年龄模拟的图像到图像转换的生成器的基于GAN的模型结合到计算机实现的方法(例如,应用)或计算设备或系统中以提供虚拟现实、增强现实和/或修改的现实体验。应用被配置为便于用户使用配备有相机的智能电话或平板电脑等来拍摄自拍图像(或视频),并且生成器G应用所期望的效果,诸如由智能电话或平板电脑回放或其他呈现。
在实施方式中,本文教导的生成器G被配置为用于在通常可用的消费者智能电话或平板电脑(例如,目标设备)上加载和执行。示例性配置包括具有以下硬件规范的设备:CPU E5-2686v4@2.30GHz,被剖析为仅具有1个核和1个线程。在实施方式中,生成器G被配置为用于在具有更多资源的计算设备上加载和执行,该计算设备包括服务器、台式机、游戏计算机或诸如具有多个核并在多个线程中执行的其他设备。在实施方式中,提供生成器G作为(基于云的)服务。
在实施方式中,除了(例如,在训练时间使用的)开发者和(在推断时间使用的)目标计算设备方面之外,普通技术人员将理解,公开了计算机程序产品方面,其中指令被存储在非瞬态存储设备(例如,在存储器、CD-ROM、DVD-ROM、盘等),以配置计算设备执行本文公开的任何方法方面。
图14是根据实施方式的计算机系统1400的框图。计算机系统1400包括多个计算设备(1402、1406、1408、1410和1450),该多个计算设备包括服务器、开发者计算机(PC、台式机等)和典型的用户计算机(例如,PC、台式机和外形较小的(个人)移动设备,诸如智能电话和平板电脑等)。在该实施方式中,计算设备1402提供了网络模型训练环境1412,其包括根据本文教导的硬件和软件,以定义用于提供连续老化的图像到图像转换的模型。网络模型训练环境1412的组件包括模型训练器组件1414,用于例如通过调节来定义和配置包括生成器G1416和鉴别器D1418的模型。众所周知,生成器G有助于定义用于推断的模型以执行图像到图像转换,而鉴别器D1418是用于训练的构造。
在该实施方式中,诸如根据图4和图5的训练工作流来执行调节。工作流使用高分辨率图像(例如,1024×1024或更高的像素分辨率)的拼片训练。该训练针对面部的这种皮肤标志所在的相应区域使用皮肤标志值或它们的表观年龄。诸如通过使用老化图来提供这些特征的密集的空间化信息。在该实施方式中,提供拼片的位置,例如,以避免模糊并且使用位置信息将类似的拼片与面部的不同部位区分开。在该实施方式中,为了实现完全卷积处理,使用训练图像内的(x,y)坐标的梯度位置图来提供位置信息。在该实施方式中,模型和鉴别器具有形式,提供输出并且使用本文上述的目标函数(例如,损失函数)进行调节。
在该实施方式中,因为训练使用拼片、老化图和位置图,因此环境1412的更多组件包括图像拼片(Ip)制作器组件1420、老化图(Ap)制作器组件1422和位置图(Xp,Yp)制作器组件1424。未示出其他组件。在该实施方式中,数据服务器(例如,1404)或其他形式的计算设备存储(高分辨率)图像的图像数据集1426以用于训练和其他目的等,并且通过一个或多个网络耦接,代表性地示出为网络1428,该网络1428耦接计算设备1402、1404、1406、1408和1410中的任一个。举例来说,网络1428是无线的或其他方式、公共的或其他方式等。还将理解的是,简化了系统1400。服务中的至少任一个可由一个以上计算设备实现。
一旦被训练,生成器1416可以如所希望的被进一步定义且被提供为推断时间模型(生成器GIT)1430。根据本文中的技术和方法论,在实施方式中,使得推断时间模型(生成器GIT1430)可以不同的方式使用。在实施方式中,以诸如图14中所示的一个方式,生成器GIT1430被提供为云服务1432或经由云服务器1408提供的其他软件即服务(SaaS)。诸如增强现实(AR)应用1434等用户应用被定义为与为生成器GIT1430提供界面的云服务1432一起使用。在实施方式中,提供AR应用1434以用于从由服务器1406提供的应用分布服务1436分布(例如,经由下载)。
尽管未示出,但在实施方式中,针对具有特定硬件和软件(尤其是操作系统配置等)的特定目标设备,使用应用开发者计算设备开发了AR应用1434。在实施方式中,AR应用1434是被配置成在特定本地环境(诸如针对特定操作系统(和/或硬件)定义的特定本地环境)中执行的本地应用。本地应用通常通过被配置为由第三方服务操作的电子商务“商店”的应用分布服务1436来分布,尽管这不是必需的。在实施方式中,AR应用1420是基于浏览器的应用,例如被配置为在目标用户设备的浏览器环境中执行。
AR应用1434被提供用于由诸如移动设备1410等用户设备分布(例如,下载)。在实施方式中,AR应用1434被配置为(例如经由界面)向用户提供增强现实体验。例如,经由推断时间生成器1430的处理向图像提供效果。移动设备具有捕捉图像(例如,捕捉的图像1438)的相机(未示出),在实施方式中,该图像是包括自拍图像的静止图像。使用提供图像到图像转换的图像处理技术将效果应用于捕捉的图像1438。在移动设备1410的显示设备(未示出)上定义和显示老化图像1440以模拟对捕捉的图像1438的影响。可改变相机的位置,并且响应于又一捕捉的图像应用的效果模拟增强现实。应当理解,捕捉的图像定义源图像或原始图像,而老化图像定义转换或变换的图像或应用了效果的图像。
在图14的本实施方式的本云服务范例中,捕捉的图像1438被提供给云服务1432,在云服务中由生成器GIT1430处理,以利用连续老化执行图像到图像转换,以定义老化图像1440。老化图像1440被传送到移动设备1440以供显示、保存、共享等。
在实施方式中,AR应用1434提供用于操作AR应用1434的界面(未示出),例如,可以是能够语音的图形用户界面(GUI)。该界面被配置为能够图像捕捉、与云服务通信、以及显示、保存和/或共享转换的图像(例如,老化图像1440)。在实施方式中,该界面被配置为使用户能够为云服务提供输入,诸如定义老化图。如前所述,在实施方式中,输入包括目标年龄。如前所述,在实施方式中,输入包括年龄增量。如前所述,在实施方式中,输入包括产品/服务选择。
在图14的实施方式中,AR应用1434或另一个(未示出)提供接入(例如,经由通信)至提供电子商务服务1452的计算设备1450。电子商务服务1452包括用于提供对产品、服务或这两者的(个性化的)推荐的推荐组件1454。在该实施方式中,这种产品和/或服务是抗老化或复原的产品和/或服务等。在该实施方式中,这种产品和/或服务例如与特定皮肤标志相关联。从设备1410捕捉的图像被提供给电子商务服务1452。根据实施方式,诸如通过使用深度学习的皮肤标志分析器模型1456来执行皮肤标志分析。使用训练模型的图像处理分析皮肤(例如,面部的与特定皮肤标志相关联的区域)以生成包括皮肤标志中的至少一些的分数的皮肤分析。可以使用基于ResNet[27]架构的(专用的)老化标志估计模型(例如,分类器的类型)在图像上生成个体分数的值,诸如,先前描述的用于分析训练集数据。
在该实施方式中,皮肤标志(例如,其分数)用于生成个性化推荐。例如,相应产品(或服务)与一个或多个皮肤标志且与针对这种标志的特定分数(或分数范围)相关联。在该实施方式中,信息被存储在数据库(例如,1460)中以由电子商务服务1452诸如经由将用户数据与产品和/或服务数据匹配的合适的查找来使用。在实施方式中,可以利用基于规则的匹配来选择一个产品或多个产品和/或对与针对这种标志的特定分数(或分数范围)相关联的产品/服务进行排名。在实施方式中,供推荐组件1454使用的更多用户数据包括性别、种族和位置数据等中的任何数据。例如,位置数据可与选择可用于用户的位置或以其他方式与用户的位置相关联的产品/品牌、配方、法规要求、格式(例如,大小等)、标签、SKU(库存单位)中的任一个相关。在实施方式中,任何这种性别、种族和/或位置数据还可以帮助选择和/或排序所选择的产品/服务或过滤产品/服务(例如,移除未在位置销售或未针对位置销售的产品/服务)。在实施方式中,位置数据用于确定可用的零售商/服务提供商(例如,利用物理业务位置(例如,商店、沙龙、办公室等)与否),使得用户可以在本地购买产品/服务。
在该实施方式中,从电子商务服务提供用户捕捉的图像的皮肤标志分数,以诸如在AR应用界面中经由AR应用1434进行显示。在该实施方式中,皮肤标志分数用于定义老化图,用于提供给云服务1432以供生成器GIT1430使用来定义转换的图像。例如,在该实施方式中,由模型1456生成的皮肤标志分数被用作最初从图像生成的那样以定义一些皮肤标志的老化图值。如最初生成的其他皮肤标志分数被修改成定义一些皮肤标志的老化图值。在该实施方式中,例如,用户可以修改如经由界面生成的一些分数(例如,仅眼睛周围的皮肤标志)。例如,在实施方式中,使用其他手段诸如通过应用规则或其他代码来修改分数。在该实施方式中,进行修饰以表示所选皮肤标志的复原、或老化或任何组合。代替皮肤标志分数的表观年龄值可以用于如先前描述的一些皮肤标志。
在不是限制性的实施方式中,用户接收个性化产品推荐,诸如由电子商务服务1452推荐的个性化产品推荐。用户选择特定产品或服务。其选择调用对于用户对链接到产品或服务的相关联的皮肤标志的皮肤标志分数的修改。该修改调整分数以模拟产品或服务的使用。如最初生成的或如修改的皮肤标志分数被用在老化图中并且被提供给云服务1432以接收老化图像。如在本文先前描述的,不同标志的皮肤标志分数可以组合在图中并且生成器GIT能够不同地老化不同的标志。因此,在该实施方式中,定义老化图,其中一些皮肤标志分数如最初针对一些标志生成的,而其他标志具有修改的分数。
在图14的实施方式中,电子商务服务1452配置有购买组件1458,以促进产品或服务的购买。产品或服务包括化妆产品或服务或其他。虽然未示出,但是电子商务服务1452和/或AR应用1434提供对捕捉的图像的图像处理以模拟化妆产品或服务,诸如对捕捉的图像应用化妆,从而产生应用了效果的图像。
尽管在上述实施方式中使用捕捉的图像作为用于处理的源图像,但是在实施方式中,使用其他源图像(例如,除了设备1410的相机之外的其他源)。实施方式可以使用捕捉的图像或其他源图像。不管是捕捉的图像还是另一图像,在实施方式中,这种图像是高分辨率图像以改善用户体验,因为生成器GIT1430的模型是针对其进行训练的。尽管未示出,但是在该实施方式中,当被分析时,由皮肤标志分析器模型使用的图像被缩小。针对这种分析进行其他图像预处理。
在实施方式中,AR应用1434可关于质量特征(即,照明、居中、背景、头发遮挡等)来指导用户以改善性能。在实施方式中,AR应用1434在其不满足某些最小要求和不合适的情况下拒绝图像。
尽管在图14中示出为移动设备,但是在实施方式中,如所陈述的,计算设备1410可以具有不同的外形。相反(或此外)提供生成器GIT1430作为云服务,它可以被本地托管和执行为具有足够存储和处理资源的特定计算设备。
因此,在实施方式中,提供了一种计算设备(例如,设备1402、1408或1410),包括:处理单元,该处理单元被配置为:接收面部的原始图像并使用年龄模拟生成器来生成转换的图像以供呈现;其中,生成器在对面部的原始图像和转换图像之间的多个年龄相关的皮肤标志的连续控制来模拟老化,生成器被配置为使用皮肤标志的各个老化目标来转换原始图像。应当理解,这种计算设备(例如,设备1402、1408或1410)被配置为执行根据实施方式的相关方法方面,例如,如参考图15所描述的。应当理解,这种计算设备方面的实施方式具有对应的方法方面实施方式。类似地,计算设备和方法方面具有对应的计算机程序产品方面。计算机程序方面包括存储指令的(例如,非暂时性)存储设备,在由计算设备的处理器执行时,这些指令配置计算设备以执行诸如根据本文中的任何各个实施方式的方法。
在实施方式中,生成器是基于条件GAN的。在实施方式中,将目标作为标识与面部的皮肤标志中的各个皮肤标志相关联的区域的老化图提供给生成器,其中老化图中的每个区域填充有与相关联的皮肤标志对应的相应老化目标。在实施方式中,老化图通过相关联的皮肤标志的分数值来表示相关联的皮肤标志的特定老化目标。在实施方式中,老化图通过相关联的皮肤标志的表观年龄值来表示相关联的皮肤标志的特定老化目标。在实施方式中,老化图通过相关联的皮肤标志的分数值(当可用时)和当分数值不可用时的表观年龄值来表示相关联的皮肤标志的特定老化目标。在实施方式中,老化图被定义为使用像素强度来表示老化目标。
在实施方式中,老化图遮蔽掉原始图像的背景。
在实施方式中,生成器通过使用各个训练图像和相关联的老化图的训练来配置,并且其中,相关联的老化图提供弱空间监督,以引导各个皮肤标志的老化变换。在实施方式中,皮肤标志表示老化的种族特定维度。在实施方式中,皮肤标志表示“年龄”、“前额皱纹”、“鼻唇沟”、“眼下皱纹”、“眉间皱纹”、“眼间皱纹”、“嘴角皱纹”、“上唇”和“面部下部下垂”中的一种或多种。
在实施方式中,生成器是完全卷积编码器-解码器,包括在解码器中的残差块以老化图形式结合老化目标。在实施方式中,生成器被配置成使用基于拼片的训练,该基于拼片的训练使用特定训练图像的一部分和相关联的老化图的对应拼片。在实施方式中,残差块还结合位置信息以指示特定训练图像的该部分的相应位置以及相关联的老化图的对应拼片。在实施方式中,使用从与原始图像的高度和宽度(H×W)大小相关的水平梯度图和垂直梯度图定义的各个X和Y坐标图来提供位置信息。在实施方式中,特定的训练图像是高分辨率图像,并且拼片大小是其一部分。在实施方式中,拼片大小为高分辨率图像的1/2或更小。
在实施方式中,生成器是经由注意机制来配置的,以便将生成器限制为变换年龄相关的皮肤标志,同时使要应用的额外变换最小化。
在实施方式中,(例如,设备1410的)处理单元被配置为与提供生成器以供使用的第二计算设备(例如,1408)通信,处理单元传送原始图像并接收转换的图像。
在实施方式中,原始图像是1024×1024像素或更高的高分辨率图像。
在实施方式中,(例如,计算设备1410的)处理单元还被配置为提供增强现实应用以使用转换的图像来模拟老化。在实施方式中,计算设备包括相机,并且其中,处理单元从相机接收原始图像。
在实施方式中,处理单元被配置为提供以下项中的至少一个:推荐功能,该推荐功能推荐产品和服务中的至少一个;以及电子商务功能,利用该电子商务功能购买产品和服务中的至少一个。在实施方式中,在上下文中,“提供”的操作包括与由另一计算设备(例如,1450)提供的基于网络的或其他基于网络的服务进行通信以促进推荐和/或购买。
在实施方式中,该产品包括复原产品、抗老化产品、和化妆产品中的一种。
在实施方式中,该服务包括复原服务、抗老化服务和化妆服务中的一种。
图15是例如由计算设备1402或1408执行的根据实施方式的方法方面的操作流程图1500。在步骤1502中,操作接收面部的原始图像,并且在步骤1504中,使用年龄模拟生成器生成用于呈现的转换的图像;其中,生成器在对面部的原始图像和转换的图像之间的多个年龄相关的皮肤标志的连续控制来模拟老化,生成器被配置为使用皮肤标志的各个老化目标来转换原始图像。如所述,相关计算设备方面的实施方式具有对应的方法实施方式。
在实施方式中,网络模型训练环境提供计算设备,该计算设备被配置为执行方法,诸如通过调节(基于GAN的)年龄模拟生成器来配置的方法。在实施方式中,该方法包括:定义年龄模拟生成器,该年龄模拟生成器对面部的原始图像与变换图像之间的多个年龄相关的皮肤标志具有连续控制,其中,定义包括使用单独的未配对的训练图像来训练生成器,其中,训练图像中的每一个与用于皮肤标志中的至少一些的老化目标相关联;以及提供生成器以用于转换图像。
在实施方式中,生成器是基于条件GAN的。
在实施方式中,该方法包括将老化目标定义为标识面部的与皮肤标志中的各个皮肤标志相关联的区域的老化图,其中老化图中的每个区域填充有与相关联的皮肤标志对应的相应老化目标。
在实施方式中,提供了一种计算设备,该计算设备包括面部效果单元,该面部效果单元包括处理电路,该处理电路被配置为将至少一个面部效果应用于源图像并且在界面上生成应用效果的源图像的虚拟实例,该面部效果单元利用生成器对面部的原始图像与转换的图像之间的多个年龄相关的皮肤标志进行连续控制来模拟老化,生成器被配置为使用皮肤标志的各个老化目标来转换原始图像。在实施方式中,界面是电子商务界面,例如,以能够进行购买或产品/服务。
在实施方式中,计算设备包括推荐单元,该推荐单元包括处理电路,该处理电路被配置为呈现对产品和/或服务的推荐,并且接收对产品和/或服务的选择,其中,产品和/或服务与用于皮肤标志中的至少一个的老化目标修改器相关联。在实施方式中,界面是电子商务界面,例如,以能够购买推荐的产品/服务。面部效果单元被配置为响应于该选择使用老化目标修改器生成皮肤标志的各个老化目标,由此模拟产品和/或服务在源图像上的效果。在实施方式中,推荐单元被配置为通过以下操作来获得推荐:调用皮肤标志分析器以使用源图像确定当前皮肤标志分数;以及使用当前皮肤标志分数来确定产品和/或服务。在实施方式中,皮肤标志分析器被配置为使用深度学习模型来分析源图像。在实施方式中,老化目标由当前皮肤标志分数和老化目标修改器定义。
结论
在本公开中,呈现了使用临床标志来创建用于面部老化的老化图。在对老化过程进行完全控制的情况下,对高分辨率图像展示了最先进的结果。在实施方式中,基于拼片的方法允许在保持大批量大小的同时在大图像上训练条件GAN。
实际实现方式可包括在本文中描述的特征中的任何一个或全部。这些和其他方面、特征和不同组合可被表达为方法、设备、系统、用于执行功能的装置、程序产品和以其他方式组合本文描述的特征。已经描述了多个实施方式。然而,应当理解,在不偏离本文描述的过程和技术的精神和范围的情况下,可以做出各种修改。此外,可以提供其他步骤,或者可以从描述的过程中消除步骤,并且可以将其他组件添加到描述的系统中,或者从描述的系统中去除其他组件。因此,其他实施方式在所附权利要求的范围内。
贯穿本说明书的说明书和权利要求书,词语“包括(comprise)”和“包含(contain)”以及它们的变型是指“包括但不限于”,并且它们不旨在(并且不)排除其他组件、整数或步骤。贯穿本说明书,除非上下文另有要求,否则单数包括复数。具体地,当使用不定冠词时,除非上下文另有要求,否则说明书应理解为设想了多个以及奇点。
结合本发明的特定方面、实施方式或实施例描述的特征、整数、特性或组应被理解为可应用于任何其他方面、实施方式或实施例,除非与其不兼容。本文公开的所有特征(包括任何所附权利要求、摘要和附图)和/或所公开的任何方法或过程的所有步骤可以任何组合进行组合,除了以下组合:这种特征和/或步骤中的至少一些是相互排斥的。本发明不限于任何前述实施例或实施方式的细节。本发明延伸到在本说明书(包括任何所附权利要求、摘要和附图)中公开的特征的任何新颖特征或任何新颖组合,或者延伸到所公开的任何方法或过程的步骤的任何新颖步骤或任何新颖组合。
1.Agustsson,E.,Timofte,R.,Escalera,S.,Baro,X.,Guyon,I.,Rothe,R.:Apparent and real age estimation in still images with deep residualregressors on appareal database.In:2017 12th IEEE International Conference onAutomatic Face&Gesture Recognition(FG 2017).pp.87–94.IEEE(2017)
2.Antipov,G.,Baccouche,M.,Dugelay,J.L.:Face aging with conditionalgenerative adversarial networks.In:2017 IEEE international conference onimage processing(ICIP).pp.2089–2093.IEEE(2017)
3.Arjovsky,M.,Chintala,S.,Bottou,L.Wasserstein gan.arXiv preprintarXiv:1701.07875(2017)
4.Bazin,R.,Doublet,E.:Skin aging atlas.volume 1.caucasian type.MED’COM publishing(2007)
5.Bazin,R.,Flament,F.:Skin aging atlas.volume 2,asian type(2010)
6.Bazin,R.,Flament,F.,Giron,F.:Skin aging atlas.volume 3.afro-american type.Paris:Med’com(2012)
7.Bazin,R.,Flament,F.,Rubert,V.:Skin aging atlas.volume 4,indian type(2015)
8.Brock,A.,Donahue,J.,Simonyan,K.:Large scale gan training for highfidelity natural image synthesis.arXiv preprint arXiv:1809.11096(2018)
9.Chen,B.C.,Chen,C.S.,Hsu,W.H.:Cross-age reference coding for age-invariant face recognition and retrieval.In:European conference on computervision.pp.768–783.Springer(2014)
10.Choi,Y.,Choi,M.,Kim,M.,Ha,J.W.,Kim,S.,Choo,J.:Stargan:Unifiedgenerative adversarial networks for multi-domain image-to-imagetranslation.In:Proceedings of the IEEE conference on computer vision andpattern recognition.pp.8789–8797(2018)
11.Choi,Y.,Uh,Y.,Yoo,J.,Ha,J.W.:Stargan v2:Diverse image synthesisfor multiple domains.arXiv preprint arXiv:1912.01865(2019)
12.Dalal,N.,Triggs,B.:Histograms of oriented gradients for humandetection.In:2005 IEEE computer society conference on computer vision andpattern recognition(CVPR’05).vol.1,pp.886–893.IEEE(2005)
13.Flament,F.,Bazin,R.,Qiu,H.:Skin aging atlas.volume 5,photo-agingface&body(2017)
14.Goodfellow,I.,Pouget-Abadie,J.,Mirza,M.,Xu,B.,Warde-Farley,D.,Ozair,S.,Courville,A.,Bengio,Y.:Generative adversarial nets.In:Advances inneural information processing systems.pp.2672–2680(2014)
15.Gulrajani,I.,Ahmed,F.,Arjovsky,M.,Dumoulin,V.,Courville,A.C.:Improved training of wasserstein gans.In:Advances in neural informationprocessing systems.pp.5767–5777(2017)
16.Heljakka,A.,Solin,A.,Kannala,J.:Recursive chaining of reversibleimage-to-image translators for face aging.In:International Conference onAdvanced Concepts for Intelligent Vision Systems.pp.309–320.Springer(2018)
17.Heusel,M.,Ramsauer,H.,Unterthiner,T.,Nessler,B.,Hochreiter,S.:Ganstrained by a two time-scale update rule converge to a local nashequilibrium.In:Advances in neural information processing systems.pp.6626–6637(2017)
18.Isola,P.,Zhu,J.Y.,Zhou,T.,Efros,A.A.:Image-to-image translationwith conditional adversarial networks.In:Proceedings of the IEEE conferenceon computer vision and pattern recognition.pp.1125–1134(2017)
19.K.,Joo,J.:Fairface:Face attribute dataset for balancedrace,gender,and age.arXiv preprint arXiv:1908.04913(2019)
20.Karras,T.,Laine,S.,Aila,T.:A style-based generator architecturefor generative adversarial networks.In:Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.pp.4401–4410(2019)
21.Kingma,D.P.,Ba,J.:Adam:A method for stochastic optimization.arXivpreprint arXiv:1412.6980(2014)
22.Park,T.,Liu,M.Y.,Wang,T.C.,Zhu,J.Y.:Semantic image synthesis withspatially-adaptive normalization.In:Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.pp.2337–2346(2019)
23.Pumarola,A.,Agudo,A.,Martinez,A.M.,Sanfeliu,A.,Moreno-Noguer,F.:Ganimation:Anatomically-aware facial animation from a single image.In:Proceedings of the European Conference on Computer Vision(ECCV).pp.818–833(2018)
24.Ricanek,K.,Tesafaye,T.:Morph:A longitudinal image database ofnormal adult age-progression.In:7th International Conference on AutomaticFace and Gesture Recognition(FGR06).pp.341–345.IEEE(2006)
25.Rothe,R.,Timofte,R.,Van Gool,L.:Dex:Deep expectation of apparentage from a single image.In:Proceedings of the IEEE international conferenceon computer vision workshops.pp.10–15(2015)
26.Song,J.,Zhang,J.,Gao,L.,Liu,X.,Shen,H.T.:Dual conditional gans forface aging and rejuvenation.In:IJCAI.pp.899–905(2018)
27.Szegedy,C.,Ioffe,S.,Vanhoucke,V.,Alemi,A.A.:Inception-v4,inception-resnet and the impact of residual connections on learning.In:Thirty-first AAAI conference on artificial intelligence(2017)
28.Wang,Z.,Tang,X.,Luo,W.,Gao,S.:Face aging with identity-preservedconditional generative adversarial networks.In:Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.pp.7939–7947(2018)
29.Yazici,Y.,Foo,C.S.,Winkler,S.,Yap,K.H.,Piliouras,G.,Chandrasekhar,V.:The unusual effectiveness of averaging in gan training.arXiv preprintarXiv:1806.04498(2018)
30.Zeng,H.,Lai,H.,Yin,J.:Controllable face aging.arXiv preprintarXiv:1912.09694(2019)
31.Zhang,R.,Isola,P.,Efros,A.A.,Shechtman,E.,Wang,O.:The unreasonableeffectiveness of deep features as a perceptual metric.In:Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.pp.586–595(2018)
32.Zhu,H.,Huang,Z.,Shan,H.,Zhang,J.:Look globally,age locally:Faceaging with an attention mechanism.arXiv preprint arXiv:1910.12771(2019)
33.Zhu,H.,Zhou,Q.,Zhang,J.,Wang,J.Z.:Facial aging and rejuvenation byconditional multi-adversarial autoencoder with ordinal regression.arXivpreprint arXiv:1804.02740(2018)
34.Zhu,J.Y.,Park,T.,Isola,P.,Efros,A.A.:Unpaired image-to-imagetranslation using cycle-consistent adversarial networks.In:Proceedings of theIEEE international conference on computer vision.pp.2223–2232(2017)
Claims (47)
1.一种计算设备,包括:
处理单元,所述处理单元被配置为:接收面部的原始图像并且使用年龄模拟生成器来生成转换图像以供呈现;
其中,所述生成器利用对所述面部的所述原始图像与所述转换图像之间的多个年龄相关的皮肤标志的连续控制来模拟老化,所述生成器被配置为使用所述皮肤标志的相应老化目标来转换所述原始图像。
2.根据权利要求1所述的计算设备,其中,所述生成器是基于条件GAN的。
3.根据权利要求1或权利要求2所述的计算设备,其中,将所述目标作为标识所述面部的与所述皮肤标志中的相应皮肤标志相关联的区域的老化图提供给所述生成器,其中,所述老化图中的每个区域填充有与相关联的皮肤标志对应的相应老化目标。
4.根据权利要求3所述的计算设备,其中,所述老化图通过所述相关联的皮肤标志的评分值来表示针对所述相关联的皮肤标志的特定老化目标。
5.根据权利要求3所述的计算设备,其中,所述老化图通过针对所述相关联的皮肤标志的表观年龄值来表示针对所述相关联的皮肤标志的特定老化目标。
6.根据权利要求3所述的计算设备,其中,当所述相关联的皮肤标志的评分值可用时,所述老化图通过所述评分值来表示针对所述相关联的皮肤标志的特定老化目标,并且当所述评分值不可用时,所述老化图通过表观年龄值来表示针对所述相关联的皮肤标志的特定老化目标。
7.根据权利要求3至6中任一项所述的计算设备,其中,所述老化图被定义为使用像素强度来表示所述老化目标。
8.根据权利要求3至7中任一项所述的计算设备,其中,所述老化图遮蔽掉所述原始图像的背景。
9.根据权利要求1至8中任一项所述的计算设备,其中,所述生成器是通过使用相应训练图像和相关联的老化图进行训练而配置的,并且其中,所述相关联的老化图提供弱空间监督,以引导所述各个皮肤标志的老化变换。
10.根据权利要求1至9中任一项所述的计算设备,其中,所述皮肤标志表示老化的种族特定维度。
11.根据权利要求1至10中任一项所述的计算设备,其中,所述皮肤标志表示“年龄”、“前额皱纹”、“鼻唇沟”、“眼下皱纹”、“眉间皱纹”、“眼间皱纹”、“嘴角皱纹”、“上唇”和“面部下部下垂”中的一种或多种。
12.根据权利要求1至11中任一项所述的计算设备,其中,所述生成器是完全卷积编码器-解码器,所述完全卷积编码器-解码器包括所述解码器中的残差块从而以老化图形式结合所述老化目标。
13.根据权利要求12所述的计算设备,其中,所述生成器被配置为使用基于拼片的训练,所述基于拼片的训练使用特定训练图像的一部分和相关联的老化图的对应拼片。
14.根据权利要求13所述的计算设备,其中,所述残差块还结合位置信息以指示所述特定训练图像的所述一部分和所述相关联的老化图的所述对应拼片的相应位置。
15.根据权利要求14所述的计算设备,其中,使用从与所述原始图像的高度和宽度(H×W)大小相关的水平梯度图和垂直梯度图定义的相应X和Y坐标图来提供所述位置信息。
16.根据权利要求13至15中任一项所述的计算设备,其中,所述特定训练图像是高分辨率图像,并且拼片大小是其一部分。
17.根据权利要求16所述的计算设备,其中,所述拼片大小是所述高分辨率图像的1/2或更小。
18.根据权利要求1至17中任一项所述的计算设备,其中,所述生成器经由注意机制配置为限制所述生成器变换所述年龄相关的皮肤标志,同时使要应用的附加变换最小化。
19.根据权利要求1至18中任一项所述的计算设备,其中,所述处理单元被配置为与提供所述生成器以供使用的第二计算设备通信,所述处理单元传送所述原始图像并接收所述转换图像。
20.根据权利要求1至19中任一项所述的计算设备,其中,所述原始图像是1024×1024像素或更高的高分辨率图像。
21.根据权利要求1至20中任一项所述的计算设备,其中,所述处理单元还被配置为提供增强现实应用以使用所述转换图像来模拟老化。
22.根据权利要求21所述的计算设备,包括相机,并且其中,所述处理单元从所述相机接收所述原始图像。
23.根据权利要求1至22中任一项所述的计算设备,其中,所述处理单元被配置为提供以下中的至少一者:推荐功能,所述推荐功能推荐产品和服务中的至少一者;以及电子商务功能,利用所述电子商务功能购买所述产品和所述服务中的至少一者。
24.根据权利要求23所述的计算设备,其中,所述产品包括复原产品、抗老化产品和化妆产品中的一种。
25.根据权利要求23所述的计算设备,其中,所述服务包括复原服务、抗老化服务和化妆服务中的一种。
26.一种方法,包括:
定义年龄模拟生成器,所述年龄模拟生成器对面部的原始图像与变换图像之间的多个年龄相关的皮肤标志具有连续控制,其中,定义包括使用单独的未配对的训练图像来训练所述生成器,其中,所述训练图像中的每一个训练图像与针对所述皮肤标志中的至少一些皮肤标志的老化目标相关联;以及
提供所述生成器以用于转换图像。
27.根据权利要求26所述的方法,其中,所述生成器是基于条件GAN的。
28.根据权利要求26或27所述的方法,包括将所述老化目标定义为标识所述面部的与所述皮肤标志中的相应皮肤标志相关联的区域的老化图,其中,所述老化图中的每个区域填充有与相关联的皮肤标志对应的相应老化目标。
29.一种计算设备,包括:
面部效果单元,所述面部效果单元包括处理电路,所述处理电路被配置为将至少一个面部效果应用于源图像并在界面上生成应用效果的源图像的虚拟实例,所述面部效果单元利用生成器通过对所述面部的原始图像与转换图像之间的多个年龄相关的皮肤标志的连续控制来模拟老化,所述生成器被配置为使用针对所述皮肤标志的相应老化目标来转换所述原始图像。
30.根据权利要求29所述的计算设备,还包括:
推荐单元,所述推荐单元包括处理电路,所述处理电路被配置为呈现对产品和/或服务的推荐并且接收对所述产品和/或服务的选择,其中,所述产品和/或服务与针对所述皮肤标志中的至少一个皮肤标志的老化目标修改器相关联;并且
其中,所述面部效果单元被配置为响应于所述选择使用所述老化目标修改器来生成所述皮肤标志的所述相应老化目标,由此模拟所述产品和/或服务在所述源图像上的效果。
31.根据权利要求30所述的计算设备,其中,所述推荐单元被配置为通过以下来获得所述推荐:
调用皮肤标志分析器以使用所述源图像来确定当前皮肤标志分数;以及
使用所述当前皮肤标志分数来确定所述产品和/或服务。
32.根据权利要求31所述的计算设备,其中,所述皮肤标志分析器被配置为使用深度学习模型来分析所述源图像。
33.根据权利要求31或32所述的计算设备,其中,所述老化目标由所述当前皮肤标志分数和所述老化目标修改器定义。
34.根据权利要求29至33中任一项所述的计算设备,其中,所述生成器是基于条件GAN的。
35.根据权利要求29至34中任一项所述的计算设备,其中,将所述老化目标作为标识所述面部的与所述皮肤标志中的相应皮肤标志相关联的区域的老化图提供给所述生成器,其中,所述老化图中的每个区域填充有与相关联的皮肤标志对应的相应老化目标。
36.根据权利要求35所述的计算设备,其中,所述老化图通过所述相关联的皮肤标志的评分值来表示所述相关联的皮肤标志的特定老化目标。
37.根据权利要求35所述的计算设备,其中,所述老化图通过所述相关联的皮肤标志的表观年龄值来表示所述相关联的皮肤标志的特定老化目标。
38.根据权利要求39所述的计算设备,其中,当针对所述相关联的皮肤标志的评分值可用时,所述老化图通过所述评分值来表示针对所述相关联的皮肤标志的特定老化目标,并且当所述评分值不可用时,所述老化图通过表观年龄值来表示针对所述相关联的皮肤标志的特定老化目标。
39.根据权利要求35至38中任一项所述的计算设备,其中,所述老化图被定义为使用像素强度来表示所述老化目标。
40.根据权利要求35至39中任一项所述的计算设备,其中,所述老化图遮蔽掉所述源图像的背景。
41.根据权利要求29至44中任一项所述的计算设备,其中,所述皮肤标志表示“年龄”、“前额皱纹”、“鼻唇沟”、“眼下皱纹”、“眉间皱纹”、“眼间皱纹”、“嘴角皱纹”、“上唇”和“面部下部下垂”中的一种或多种。
42.根据权利要求29至41中任一项所述的计算设备,其中,所述生成器是完全卷积编码器-解码器,所述完全卷积编码器-解码器包括所述解码器中的残差块从而以老化图形式结合所述老化目标。
43.根据权利要求29至42中任一项所述的计算设备,其中,所述原始图像是1024×1024像素或更高的高分辨率图像。
44.根据权利要求29至43中任一项所述的计算设备,包括相机,并且其中,所述计算设备被配置为从所述相机生成所述原始图像。
45.根据权利要求29至44中任一项所述的计算设备,其中,所述产品包括复原产品、抗老化产品和化妆产品中的一种。
46.根据权利要求29至45中任一项所述的计算设备,其中,所述服务包括复原服务、抗老化服务和化妆服务中的一种。
47.根据权利要求29至46中任一项所述的计算设备,其中,所述界面包括电子商务界面以使得能够购买任何产品和服务。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063046011P | 2020-06-30 | 2020-06-30 | |
US63/046,011 | 2020-06-30 | ||
FR2009199 | 2020-09-11 | ||
FR2009199A FR3112633B1 (fr) | 2020-06-30 | 2020-09-11 | Vieillissement du visage contrôlable à haute résolution avec des GAN conditionnels à sensibilité spatiale |
PCT/EP2021/067890 WO2022002964A1 (en) | 2020-06-30 | 2021-06-29 | High-resolution controllable face aging with spatially-aware conditional gans |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116097319A true CN116097319A (zh) | 2023-05-09 |
Family
ID=76765173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180046647.6A Pending CN116097319A (zh) | 2020-06-30 | 2021-06-29 | 利用空间感知的条件gan的高分辨率可控面部老化 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210407153A1 (zh) |
EP (1) | EP4150514A1 (zh) |
JP (1) | JP2023531265A (zh) |
KR (1) | KR20230028481A (zh) |
CN (1) | CN116097319A (zh) |
WO (1) | WO2022002964A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3135557A1 (fr) * | 2022-05-10 | 2023-11-17 | L'oreal | Procédé de prédiction d’évolution temporelle de signes cutanés |
FR3135556A1 (fr) * | 2022-05-10 | 2023-11-17 | L'oreal | Détection et visualisation de signes cutanés au moyen d’une carte thermique |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3547373A (en) | 1968-05-23 | 1970-12-15 | Eastman Kodak Co | Cartridge and means for locating a cartridge on a projector or the like |
US20140229239A1 (en) * | 2013-02-14 | 2014-08-14 | Bank Of America Corporation | Face retirement tool |
US10360494B2 (en) * | 2016-11-30 | 2019-07-23 | Altumview Systems Inc. | Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules |
US11113511B2 (en) * | 2017-02-01 | 2021-09-07 | Lg Household & Health Care Ltd. | Makeup evaluation system and operating method thereof |
JP6849825B2 (ja) * | 2017-05-31 | 2021-03-31 | ザ プロクター アンド ギャンブル カンパニーThe Procter & Gamble Company | 見掛け肌年齢を判定するためのシステム及び方法 |
US10943156B2 (en) * | 2018-01-05 | 2021-03-09 | L'oreal | Machine-implemented facial health and beauty assistant |
CN114502061B (zh) | 2018-12-04 | 2024-05-28 | 巴黎欧莱雅 | 使用深度学习的基于图像的自动皮肤诊断 |
-
2021
- 2021-06-29 EP EP21737441.2A patent/EP4150514A1/en active Pending
- 2021-06-29 CN CN202180046647.6A patent/CN116097319A/zh active Pending
- 2021-06-29 KR KR1020237002611A patent/KR20230028481A/ko unknown
- 2021-06-29 WO PCT/EP2021/067890 patent/WO2022002964A1/en unknown
- 2021-06-29 JP JP2022580297A patent/JP2023531265A/ja active Pending
- 2021-06-30 US US17/363,098 patent/US20210407153A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4150514A1 (en) | 2023-03-22 |
US20210407153A1 (en) | 2021-12-30 |
JP2023531265A (ja) | 2023-07-21 |
KR20230028481A (ko) | 2023-02-28 |
WO2022002964A1 (en) | 2022-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11783461B2 (en) | Facilitating sketch to painting transformations | |
Pang et al. | Image-to-image translation: Methods and applications | |
Gecer et al. | Synthesizing coupled 3d face modalities by trunk-branch generative adversarial networks | |
KR20210119438A (ko) | 얼굴 재연을 위한 시스템 및 방법 | |
JP7448652B2 (ja) | 教師あり学習のための非ペアデータを使用する画像から画像への変換 | |
JP6728487B2 (ja) | 電子装置及びその制御方法 | |
Singh et al. | Neural style transfer: A critical review | |
Despois et al. | AgingMapGAN (AMGAN): High-resolution controllable face aging with spatially-aware conditional GANs | |
JP2024500896A (ja) | 3d頭部変形モデルを生成するための方法、システム及び方法 | |
US11074671B2 (en) | Electronic apparatus and control method thereof | |
CN116097319A (zh) | 利用空间感知的条件gan的高分辨率可控面部老化 | |
JP2024503794A (ja) | 2次元(2d)顔画像から色を抽出するための方法、システム及びコンピュータプログラム | |
Xia et al. | Controllable continuous gaze redirection | |
Yang et al. | Controllable sketch-to-image translation for robust face synthesis | |
US20220207790A1 (en) | Image generation method and apparatus, and computer | |
Geng et al. | Towards photo-realistic facial expression manipulation | |
EP4256535A1 (en) | Applying a continuous effect via model-estimated class embeddings | |
Hu et al. | Face reenactment via generative landmark guidance | |
Šoberl | Mixed reality and deep learning: Augmenting visual information using generative adversarial networks | |
JPWO2022002964A5 (zh) | ||
Laishram et al. | High-Quality Face Caricature via Style Translation | |
CN117576248B (zh) | 基于姿态引导的图像生成方法和装置 | |
FR3112633A1 (fr) | Vieillissement du visage contrôlable à haute résolution avec des GAN conditionnels à sensibilité spatiale | |
CN116848560A (zh) | 经由模型估计的类嵌入应用连续效果 | |
Koujan | 3D Face Modelling, Analysis and Synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |