CN113728353A - 使用条件循环一致性生成图像至图像转换模型的用于增强现实的系统和方法 - Google Patents

使用条件循环一致性生成图像至图像转换模型的用于增强现实的系统和方法 Download PDF

Info

Publication number
CN113728353A
CN113728353A CN201980084128.1A CN201980084128A CN113728353A CN 113728353 A CN113728353 A CN 113728353A CN 201980084128 A CN201980084128 A CN 201980084128A CN 113728353 A CN113728353 A CN 113728353A
Authority
CN
China
Prior art keywords
effect
image
model
encodings
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980084128.1A
Other languages
English (en)
Inventor
艾瑞克·埃尔莫斯尼诺
马赫
埃琳娜·克泽勒
艾德蒙·彭
艾利克斯·莱文什坦
帕汉姆·阿拉比
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ba Lioulaiya
LOreal SA
Original Assignee
Ba Lioulaiya
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ba Lioulaiya filed Critical Ba Lioulaiya
Publication of CN113728353A publication Critical patent/CN113728353A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

系统和方法涉及将效果应用于诸如增强现实效果(例如,化妆、头发、指甲等)的图像的网络模型。网络模型使用条件循环一致性生成图像至图像来转换模型,将图像从未应用效果的第一域空间转换到应用了效果的第二连续域空间。为了渲染在训练时间没有看到的任意效果(例如,唇膏),效果的空间表示为通过对该效果的诸如可作为产品样本获得的简单样本图像以及无效果进行编码而学习的连续域(例如,条件可变向量)。以无监督的方式对模型进行端到端训练。为了调节该模型的生成器,使用卷积条件批归一化(CCBN)来应用对表示化妆特性的参考样本图像进行编码的向量。

Description

使用条件循环一致性生成图像至图像转换模型的用于增强现 实的系统和方法
交叉引用
本申请要求于2018年11月15日提交的美国临时申请第62/767,769号的本国权益和/或优先权,其全部内容通过引证在允许的地方结合于本文中。
技术领域
本公开涉及一种图像处理,并且更具体地,涉及通过图像处理创建增强现实,使用条件循环一致性生成图像至图像转换模型(例如,神经网络模型)来转换图像。
背景技术
实时虚拟化妆应用以具有高身份保持性和详细真实性的增强现实为用户提供交互体验。理想地,用户喜欢在不实际试用化妆产品(例如,唇膏或眼影)的情况下对其进行预览。此外,虚拟试用给予用户根据他们的个人偏好调整产品的相关属性(例如,颜色和光泽度)的自由。
大多数此类应用依赖于经典机器学习或计算机视觉技术,其涉及两个步骤:基于回归森林的级联或其他方法来检测面部标志;以及使用传统图形技术和检测到的标志来渲染输出图像。这两步解决方案相当快并且在大多数情况下产生可信结果,但是具有几个限制。值得注意的是:(i)渲染化妆的形状受检测到的标志的精确度限制;(ii)虚拟化妆的颜色和光泽需要基于实际产品的特性、照明方向和强度等的估计来手动地设计;以及(iii)需要根据个人的肤色仔细地调整虚拟化妆和原始图像之间的结合。
由于这些限制和其他限制,这种解决方案不能在保持真实性的同时容易地将规模扩展成大量产品。为了支持新产品,必须调整这些参数,直到它们产生看起来足够像实际产品的渲染。这个过程既耗时又不准确,并且因此随着产品目录大小的增加而导致不良的规模扩展。
已经完成了以纯粹无监督的方式探索和学习面部特征空间的工作。然而,在仅应修改相关区域,而面部的其他部分或属性应尽可能保持相同(身份保持问题)的意义上,化妆应用的任务h哌啶更严格。
图像至图像的转换
操纵特定面部属性可被视为图像至图像的转换问题。Pix2pix[1](参考文献列于下文,并在允许的情况下通过引证结合于本文中)和CycleGAN[2]使用GAN解决该双域问题。前者平衡成对的图像数据集,而后者由于循环一致性损耗可以从两个未成对的数据集学习转换模型,这减少了解空间中可能的映射函数的数量。CycleGAN的一个显著缺点是其不能在多于两个域之间转换。基于CycleGAN的架构,当将无化妆照片转换成参考照片的化妆风格并将参考照片转换成无化妆照片时,PairedCycleGAN[3]通过优化循环一致性损耗具体解决化妆生成问题。用于化妆应用的生成器将1)源无化妆图像和2)应用了目标化妆的参考图像作为输入,并且在保持其身份的同时输出应用了化妆的源图像。PairedCycleGAN中的方法和CycleGAN之间的主要区别在于对应于化妆应用和化妆去除的两个发生器是非对称功能,其中,一种是传达风格,而另一种是去除风格。虽然这项工作清楚地证明具有循环一致性损耗的GAN能够学习复杂的唇膏特性并准确地渲染它们,但是对于实际使用情况,对参考图像的需要是个问题。
如果模型将在线上商店中用作虚拟试用特征,则每个产品将需要参考图像。此外,诸如参考图像中的光照和身份等方面将以细微的方式影响唇膏再现,从而限制模型编码真实唇膏属性而不是在单个实例中显示的那些属性的能力。
条件图像生成
生成模型中的最近发展解决了对真实世界高维度数据分布建模的问题。生成模型的两个主要流是生成对抗网络[4]和基于对数似然的方法(例如,自回归模型[5]、可变自动编码器[6]和可逆生成流[7])。这些模型可以取决于通过在训练期间馈入标签中的真实数据的子分布。在最近的文献中关于如何实现该条件概率模型的细节有所不同。
条件GAN(cGAN)[8]使生成器分布和给出条件变量向量
Figure BDA0003120932300000031
的目标数据分布的子集之间的差异最小化。Mirza等人[9]和Reed等人[10]已尝试将条件向量连结到鉴别器的输入或中间卷积层之间的特征映射。在StarGAN[11]中还存在使用标签信息来监督构建在鉴别器中的特征向量之上的额外分类器的探索。Miyato等人[8]尝试使用输出投影方法,该方法求解鉴别器中的条件向量与特征向量之间的内积。
通常,对于cGAN,需要根据最近的文献和实验调节鉴别器和发生器以获得最佳性能。Miyato等人[8](通过引证将其全部结合在此)借鉴了Perez等人[12]的想法,使用条件批归一化(CBN)层调节cGAN的发生器。
发明内容
因此,理想的是具有可以自身学习条件化妆空间的端到端模型。即,通过对带妆的现实世界的个人的图像和/或视频进行训练,模型可以学习如何保留个人的身份,而同时修改图像以产生化妆的现实渲染。
公开了条件循环一致性生成图像至图像转换模型,例如,带有例如cGAN特征的添加特征的修改的CycleGAN架构。采用添加的特征使生成器分布与给出表示增强现实图像特性(诸如,化妆特性)的参考样本进行编码的条件变量向量的目标数据分布的子集之间的差异最小化。更具体地,为了调节生成器,使用卷积条件批归一化(CCBN)来应用对表示效果的(例如,化妆)属性的参考样本图像进行编码的向量。
提供了一种根据待应用于图像的效果将图像从第一域空间转换到第二连续域空间的计算装置。该计算装置包括:存储单元,该存储单元存储条件循环一致性图像至图像转换模型,该图像至图像转换模型被配置为将图像转换至第二连续域空间,其中,通过使用以连续方式表示待应用效果的物理特性的多个编码进行训练来调节模型,并且其中,从待应用效果的多个相应的离散实例对多个编码进行编码,相应的离散实例包括表示无待应用效果的实例;以及处理单元,该处理单元被配置为:接收图像和待应用效果的期望的实例;向模型提供图像和期望的实例以获得转换后的图像;并且提供转换后的图像以供呈现。
待应用效果可以是化妆效果(例如,虚拟唇膏)、指甲效果(例如,手指或脚趾甲效果,诸如美甲和修甲效果)和染发效果之一。
图像可以没有该待应用的效果,并且第一域空间由各自都没有该待应用的效果的多个图像来限定。
该模型可包括条件循环一致性生成对抗网络(ccGAN)模型。
该模型可包括使用由编码器(E)编码的多个编码分别训练的生成器(G)和鉴别器(D)。
可使用针对多个编码中的每个相应编码的卷积条件批正常操作的多个编码来调节生成器(G)。
可使用针对多个编码中的每个相应编码的输出投影操作的多个编码来调节鉴别器(D)。
编码器可被配置为针对包括表示无待应用效果的样本图像的相应实例中的每一个,对来自相应样本图像的待应用效果的相应实例中的每一个的物理特性进行编码。
该模型可包括训练的生成器(G)。
计算装置可耦接至数据存贮器(例如,可配置为数据库的数据存储装置),该数据存贮器被配置为存储多个编码;并且处理单元可被配置为向模型提供多个编码中对应于待应用效果的期望的实例的对应编码。数据存贮器可存储用于未训练到模型的待应用效果的相应实例的一个或多个未训练的实例编码;并且处理单元可被配置为向模型提供一个或多个未训练的实例编码中对应于待应用效果的期望的实例的对应的未训练的实例编码。
可根据下式通过使两个互补方向上的对抗损耗和循环一致性损耗最小化来优化发生器G的参数θ:
Figure BDA0003120932300000041
可根据下式通过使两个互补方向上的对抗损耗最大化来优化鉴别器D的参数θ:
Figure BDA0003120932300000051
图像可包括自拍图像或自拍视频,并且在自拍视频的情况下,处理单元被配置为转换自拍视频的图像以对其应用效果以创建3D效果,特别是3D化妆效果。
可在提供到模型之前由处理单元对图像进行预处理。
转换后的图像可包括图像的区域,并且其中,处理单元被配置为将转换后的图像融合到该图像中以供呈现。
计算装置可包括或耦接至相机捕获图像以供处理单元接收。计算装置可包括服务器,并且处理单元可被配置为从与服务器连通的客户端装置接收图像和期望的实例。
存储装置可存储用于界面的指令以向用户提供期望的实例选择功能以限定期望的实例,并且处理器可由指令配置为提供界面,接收输入并且响应于输入而限定期望的实例。输入可包括先前未训练至模型的自定义效果。存储装置可存储用于搜索功能的指令以搜索用于限定期望的实例的先前计算的编码。处理器可由指令配置为使用输入和搜索功能来从所计算的编码中找到自定义效果的最佳匹配以限定期望效果。存储装置可存储用于提供编码功能以限定用于期望效果的新编码的指令,并且处理器可由指令配置为使用输入和编码功能来限定用于自定义效果的期望效果。
提供了一种被配置为生成条件循环一致性图像至图像转换模型的计算装置,该模型被配置为根据待应用于图像的效果将图像从第一域空间转换至第二连续域空间。该计算装置包括:存储装置,该存储装置存储包括生成器、鉴别器和编码器的模型,该模型被配置为通过使用来自编码器的以连续方式表示待应用效果的物理特性的多个编码进行训练来调节生成器和鉴别器,并且其中,从待应用效果的多个相应的离散实例对多个编码进行编码,相应的离散实例包括表示无待应用效果的实例;以及处理单元,被配置为:接收训练数据,并将训练数据以批次提供给模型以限定训练的模型。该模型可包括条件循环一致性生成对抗网络(ccGAN)模型。
为了接收训练数据,处理单元可被配置为:从第一域空间X接收多个真实图像x,第一域空间包括未应用效果的域空间并且每个x均未应用效果;从第二连续域空间Y接收多个真实图像yj,第二连续域空间包括应用了效果的域空间并且每个yj具有应用了效果的实例j,其中,j=1、2、3……表示效果的相应的离散实例中的每一个;接收多个参考图像zj以表示效果的相应的离散实例中的每一个;以及接收对应于无待应用效果的白色图像z0。处理单元还可被配置为创建用于发生器(G)和鉴别器(D)的参数θG和θD。为了以批次提供训练数据,处理单元可被配置成这样操作:重复地以从训练数据确定的批次(batches)和训练轮次(epochs),使用编码器对用于生成器(G)和鉴别器(D)的编码E(zj)进行编码;使用编码器对用于生成器的编码E(z0)进行编码;向生成器(G)提供图像x和编码E(zj)以在第二连续域空间中生成伪图像
Figure BDA0003120932300000061
向鉴别器(D)提供伪图像
Figure BDA0003120932300000062
和与伪图像对应的真实图像yj以及编码E(zj),以生成输出dj;向生成器(G)提供伪图像
Figure BDA0003120932300000063
和编码E(z0)以输出x’;以及通过使对抗损耗和循环一致性损耗最小化来优化发生器(G)的参数θG,以及通过根据下式使对抗损耗最大化来优化鉴别器(D)的参数θD
Figure BDA0003120932300000064
Figure BDA0003120932300000065
普通技术人员还将认识到等效的方法和计算机程序产品方面。
附图说明
图1是使用具有循环一致性损耗的条件GAN训练模型的数据流的表示。
图2是根据实例的下取样、膨胀和残余块层数量的效果的表格形式的图形表示。
图3是示出了在颜色维度(色调从0至360°)上内插学习的编码空间的表格形式的图形表示。
图4是示出了在湿度维度(从0至1)上内插学习的编码空间的表格形式的图形表示。
图5是示出了在测试集上内插学习的编码空间给定的合成样本图像的表格形式的图形表示。应注意,在训练期间不使用真正的事实图像。
本发明构思通过其某些实施方式进行了最佳描述,在本文中参考附图来描述这些实施方式,其中,在全文中,相同的参考标号表示相同的特征。应理解,当在本文中使用时,术语“发明”旨在包含作为以下描述的实施方式的基础的发明构思,而不仅仅是实施方式本身。应进一步理解,总体发明构思不限于以下描述的说明性实施方式,并且应鉴于此阅读以下描述。尽管主要参考虚拟唇膏作为化妆效果进行描述,但是如本领域普通技术人员将理解的,本文的教导可应用于其他增强现实效果,包括但不限于化妆、指甲和染发。
具体实施方式
近来,诸如具有循环一致性损耗的条件GAN的条件生成图像至图像转换网络在域之间的图像转换任务方面已经实现了显著结果。这些方法的主要优势在于可以对未配对的数据上进行训练,这有助于许多问题,包括增强现实的问题。在保持诸如姿势和照明等所有其他变量相同的同时,获得两个真实世界图像几乎是不可能的或难以承受的时间和资源,这两个图像中的一个图像具有诸如唇膏的化妆效果,而另一个图像没有化妆效果。换言之,难以获得足够数量的配对的诸如用于监督学习的真正的事实数据。
可以考虑与待应用效果有关的额外问题。例如,在唇膏域中(但类似地在其他域中),可以采用调节参数,使得它可以表示我们希望应用的各种不同的唇膏,其中这个调节参数可被认为指定子域。此条件不单表示为唇膏产品的离散独热编码,因为此方法不可扩展且不会影响唇膏存在于物理特性的共享的连续空间中的事实。公开了一种方法,该方法通过对简单的样本图像进行编码来创建唇膏的(效果的)物理特性的表示并且使用该编码来调节图像至图像转换模型(例如,GAN)。该方法将问题制定为1)唯一的无唇膏域和2)连续的唇膏域之间的转换。
已经描述了该任务及其背后的动机,将理解的是,本文件公开了:(i)模型的训练,该模型将图像转换成由物理(效果)唇膏特性限定的连续域空间,其中(ii)该模型从包含关于诸如样本图像的唇膏(效果)的所有必要信息的简单输入自动学习这些物理特性的表示。
模型架构
目前,我们选择具有一些额外修改的CycleGAN架构[2],以提供条件循环一致性生成图像至图像转换模型。我们使用单对鉴别器/生成器以及调节来替代原始双域架构。以此方式,其可扩展到多维连续编码空间中的两个以上转换方向。为了渲染在训练时间看不到的任意唇膏,我们将唇膏的空间表示为通过对产品的简单样本图像进行编码而学习的连续域。如上所述,唇膏是物理效果的实例并且预期了其他效果(例如,其他面部或其他皮肤化妆、染发、指甲效果等)。
我们还使用引入cGAN中的输出投影方法,其显示更好的训练稳定性和更少的模式崩溃。
从CycleGAN[2]修改鉴别器模型架构和生成器模型架构这两者。命名为ResNetGenerator的生成器是编码器-瓶颈-解码器型架构。命名为NLayerDiscriminator的鉴别器是常规编码器型架构。在下文列出了网络细节。
为了更好的调节性能,我们用输出投影调节鉴别器,并且用条件批归一化调节发生器。我们将频谱归一化应用于鉴别器和发生器这两者中的所有权重。
图1示出了表示模型图的数据流100。提供了无唇膏图像x 102(例如,来自无化妆域的无化妆图像)和唇膏图像yj 104(例如,来自化妆域的化妆图像),其中,j表示唇膏身份(例如,在化妆的目标子域中,j=1、2、3……)。对于每个唇膏产品j,提供了样本参考图像zj106。
首先通过编码器108馈送参考图像zj 106产生唇膏j的表示,以产生分别包括
Figure BDA0003120932300000081
110A和
Figure BDA0003120932300000082
110B的ej=E(zj)110。使用编码110A和生成器G 112,产生伪唇膏图像
Figure BDA0003120932300000083
114=G(x;ejG)。图像
Figure BDA0003120932300000084
114和yj 104(即,伪唇膏图像和真实唇膏图像)被传递到鉴别器D 116,以产生在图1中分别标记为118A和118B的
Figure BDA0003120932300000085
Figure BDA0003120932300000086
最后,(尽管未示出)应用循环一致性以从
Figure BDA0003120932300000091
去除唇膏。为此,发生器G 112以无唇膏情况为条件,这通过对表示为z0的空白白色样本进行编码来执行,从而产生
Figure BDA0003120932300000092
化妆风格
Figure BDA0003120932300000093
110A的编码使用卷积条件批处理正常操作来调节生成器G 104。即,编码器E的输出适于在生成器网络的不同残余块处调节CBN。这通过在编码器与给定块的每个CBN之间插入小的卷积网络来实现(并非所有块都必须通过CBN进行调节,但消融研究证明仅调节一个块是次最佳的)。当训练生成器G 112时,所有CCBN都被训练,以便检索用于适配代码调节的最佳权重。
编码
Figure BDA0003120932300000094
110B使用输出投影操作来调节鉴别器D 116。编码器E 108是由卷积层和自适应平均池化层组成的浅层网络,其输出然后被重新成形为一维编码
Figure BDA0003120932300000095
也可在下文涉及网络细节的表格中找到生成器G 112、鉴别器D 116和编码器E108中的每一个的模型架构。在生成器G和鉴别器D的表格中分别描述了参考编码器。
在训练期间,通过使两个互补方向上的对抗损耗和循环一致性损耗最小化来优化发生器G 112的参数:
Figure BDA0003120932300000101
Figure BDA0003120932300000102
Figure BDA0003120932300000103
Figure BDA0003120932300000104
其中,pdata(x)和pdata(y)是参数数据在无化妆域和化妆域中的相应分布。
通过使两个互补方向上的对抗损耗最大化来优化鉴别器D 116的参数。
Figure BDA0003120932300000105
Figure BDA0003120932300000106
Figure BDA0003120932300000107
在推断时
在推断期间,仅使用发生器G 112和与发生器G 112相关的编码器E108(或其编码),但是以与训练期间稍微不同的方式被使用。可将流程概括为如下:
1.对于每个唇膏j及其样本图像zj,在产品目录中,获得其编码EG(zj),并且将其存储在数据存贮器中(例如,数据库)供以后使用。如果可以获得给定唇膏的多个样本图像,则可以通过对每个图像的编码进行平均来推断更可靠的编码。
2.为了在自拍图像x上渲染给定唇膏j,从数据库获得j的编码
Figure BDA0003120932300000111
并且运行生成器G(x;EG(zj))。
3.如果利用裁剪到唇部区域的自拍来训练模型,则在正确位置处将生成器的输出混合回到原始自拍图像中。
推断与训练之间的主要差别在于可以为唇膏目录中的每个产品预先计算编码。如有必要,还可以在测试自拍上手动地轻微调整这些编码,以便产生更好地反映真实产品的渲染。可以许多方式修改或组合这些编码以渲染实际上不存在的唇膏。可以使用户通过向界面提供输入,诸如通过移动数字滑块(例如,以选择用于编码的值)来设计他们自己的唇膏(例如,作为待应用效果的期望的实例的自定义效果)。搜索功能然后可找到与用户的创建十分匹配的真实产品(例如,自定义效果)(例如,使用到产品目录中的编码的最小欧几里德距离)。然后可将该效果的编码与输入图像(例如,静态或视频)一起提供给生成器以产生经修改的图像以便虚拟试用用户的创建。可在运行时编码自定义效果并提供给生成器。由此,在具有处理器和存储指令的存储单元的计算装置中,这些指令在由处理器执行时配置计算装置的操作,该存储装置可存储用于界面的指令以向用户提供限定期望的实例的期望的实例选择功能。处理器然后可以提供界面、接收输入并且响应于该输入限定期望的实例。
该输入可以限定先前未训练到模型的自定义效果。存储装置可存储用于搜索功能的指令以搜索用于限定期望的实例的先前计算的编码。处理器可使用输入和搜索功能来从所计算的编码中找到自定义效果的最佳匹配以限定期望效果。存储装置可存储提供编码功能的指令以限定用于期望效果的新编码。处理器使用输入和编码功能来从自定义效果限定期望效果。
在重新训练时
在任何时候,可以简单地通过将其样本编码存储在数据库(数据存贮器)中来将新的唇膏添加到产品目录中。如在先前部分中所述,这将不需要任何额外的训练。然而,对于应用的长期维护,当新的唇膏被添加有显著偏离最初用于训练模型的那些的物理特性时,周期性地重新训练模型可能是有利的。
例如,模型可能最初在普通的扁平颜色上训练,并且因此将不能很好地概括为具有异质特性的闪光唇膏。在这种情况下,将需要使用闪光唇膏的样本和应用于不同的人时的它们的合成外观来训练该模型。然而,应注意,这不是常见的情况,因为在实践中绝大多数唇膏共享相同类型的物理特性。
总结了用于训练和用于推断的操作并且在以下操作列表中示出:
Figure BDA0003120932300000121
Figure BDA0003120932300000131
广泛地,对于训练操作,初始化相应的发生器和鉴别器参数。如众所周知的,以轮次(epoches)执行训练,轮次包括批次(batches)。在训练实例中,利用训练数据来执行训练,该训练数据针对每批包括来自第一域的未应用效果的真实图像、来自第二域的具有应用了效果的真实图像以及应用了效果的编码。还使用无待应用效果(白色效果图像)的编码。模型部件(生成器和鉴别器)处理训练数据并且确定损耗函数。根据用于下一个训练实例的损耗函数来调整相应的发生器和鉴别器参数。
额外的操作步骤包括收集化妆产品数据集(效果数据集)。在产品、身份和环境中具有大变化的数据集优选的限定连续空间。理想地,用于条件CycleGAN的训练图像是在不同背景下使用不同产品的人的实例图像。例如,对于每种产品,额外的操作可收集10个样本参考图像。在此,各种产品将是最重要的因素,以便覆盖化妆编码空间并且很好地概括属于相同空间的新的未见过的产品。相反,没有使用任何化妆的人的图像的变化和数量可以相对较少。遵循以上操作列表通过在正由编码器联合学习的化妆产品的物理表示上调节来训练该模型。编码效果的向量可被存储到包括存储装置(例如,数据库)的数据存贮器以在推断时提供给模型,而不是在推断时编码样本。该数据存贮器可以限定效果的目录。
额外的操作可以利用或没有重新训练将新的唇膏添加到目录(数据存贮器)。由于我们想要避免每次我们向我们所支持的目录添加新产品时都重新训练模型,所以模型向新产品概括的能力是现有技术的主要差别。在任何情况下,如果待添加的新产品(例如,特定效果)属于与已经在其上训练的模型的产品相同的特征空间,则将新产品添加到目录是非常直接的。在其他情况下(例如,在新产品是异常值并且不在模型已经在其上训练的特征空间内或如果以其他方式期望),可以使用特定效果来重新训练模型。例如,如果待添加的产品与目录中的所有现有产品显著不同(例如,当目录仅包含单个色调时的新的闪光唇膏),或者如果大量新产品要被添加到目录中,则模型将在那些新产品上微调并且在整个组合的新数据集上重新训练。
所提出的图像转换方法的创新在于生成器和鉴别器通过学习和使用唇膏的物理特性来执行其任务,这些特性从简单的样本图像中提取。因此,如果模型呈现有在训练时间从未看到的新产品样本,则其任务将保持不变,并且其应当能够适当地概括。它不需要看到新产品在应用于面部时看起来像什么的任何实例,因为它可以提取产品的物理特性并且知道那些特性如何影响最终外观。
为了概括,模型被训练成在训练期间看到唇膏类型中的足够变化,以便能够学习唇膏的特性及其应用于人时的效果。例如,如果模型是从未示出金属唇膏的实例,则它将不会学习表示构成金属材料的独特特性,也不知道如何在渲染中使用这些特性。另一方面,如果已经看到几种类型的金属唇膏并且在训练之后呈现了新颜色中的一种,则将能够编码其特性并且正确地渲染它,只要它在训练期间也看到了类似颜色。应注意,不需要看到类似着色的金属唇膏;看到具有类似颜色的任何类型的唇膏应该是足够的。
抽象地,我们可以看到,训练所需的不同唇膏的数目是我们希望渲染的唇膏的特征空间的大小的函数。尽管该值难以量化,但是其建议最佳的数据收集策略,其优先改变唇膏类型,而不是改变具有相同唇膏的环境(即,每个具有几个实例的许多唇膏,而不是每个具有许多实例的少数唇膏)。
实验和结果
对于我们的所有实验,我们使用有唇膏和没有唇膏的图像的数据集。为了简化实验及其分析,我们不考虑其他类型的化妆,尽管所描述的方法也可以应用于它们。
评估度量
由于缺乏一致的真正的事实图像,常常很难评价学习到的图像到图像转换模型并且根据任务的性质而改变。在化妆应用的情况下,唇部的区域应理想地与应用相应的真实唇膏一样逼真,而面部上其他地方的变化应不可察觉。
首先,我们在视觉上检查增量图像(delta image)的质量,该增量图像是生成图像与输入图像之间的归一化差异。这可以在没有真正的事实图像的情况下完成。
尽管我们可以在评估合成数据集的训练时获得一致的真正的事实,但是通常很难获得真实化妆数据集上的一致的真正事实。代替实例方式或点方式比较,评估生成模型的性能的通用方式是比较所有真正的事实图像与生成图像之间的分布差异,而不管是否一致。
为了减少评估期间的噪声,我们仅比较生成图像和真正的事实图像的唇部区域。评价生成模型的常见方式包括Frechet起始距离(FID)[15]和起始分数(IS)[16]
下采样、膨胀和层数
在文献中,多级下采样使得CNN在计算上在对象分类任务上实践。然而,对于需要详细的空间信息的任务(例如,图像转换和重建),空间分辨率的此损失可对模型的性能具有显著影响。相反,增加卷积的膨胀因数或使用生成器中的大量残余块有助于维持空间分辨率,并且可以用于准确地对详细的唇膏分布进行建模。图2示出了对改变这三个超参数的影响的消融研究。表1中示出了基于第4.1节中描述的度量的相应的评估结果。
Figure BDA0003120932300000151
表1:在轮次400具有快照的‘全部’测试情况的评估结果。
我们发现,9layer-1downsample-32dilation(9层-1下采样-32膨胀)模型给出最佳性能。然而,对于实时应用,比如移动装置上的化妆预览,其计算和存储使用超出了实际限制。在此情况下,将残余块的数量减少到2layer是在性能与计算之间折衷的实际方式。
合成唇膏数据集的连续编码
为了概念验证,我们首先尝试对五个维度(R、G、B、湿度、glossDetail)的手工设计的编码空间进行训练。与图1相反,在这种情况下不需要参考编码器。用于特定唇膏的编码
Figure BDA0003120932300000161
等于该唇膏的(R、G、B、湿度、glossDetail)属性向量,而朝向无唇膏域的反向编码
Figure BDA0003120932300000162
是恒定向量(-1,-1,-1,-1,-1)。
图3和图4示出了通过分别在训练期间不一定出现的一些相等间隔样品点上在RGB维度(色调=0~360°)和湿度维度(湿度=0~1)内插入此多维编码空间而生成的测试集中的非共享身份的一些图像。合成唇膏数据集上的参考图像编码
图2示出了从在合成RGB样本数据集上训练的模型生成的图像。该数据集中的训练集是根据以下操作生成的:
1)从均匀分布U(R,G,B)取样(R,G,B)点j。
2)将这种颜色和无化妆照片x传递给传统的虚拟化妆试用程序,以生成具有唇膏j的这种颜色的合成图像y。
3)生成具有与j相似的颜色和不同形状的五个合成样本图像。
4)对于所有无化妆照片重复步骤1至3。
测试集包含训练集中的所有身份,但是具有不同的面部位置或取向。它还包含未出现在训练集中的额外身份(图2、3、4和5中示出的)。基于不一定出现在训练集中的十二个相等间隔色调插值色点的恒定阵列来生成参考样本图像。在测试期间,对于测试集中的每个图像,模型将那十二个唇膏中的每一个都置于测试图像上。
示例性计算环境
上述方法可在计算装置或其系统(诸如客户端-服务器模型)中实现。可经由应用(例如,在计算装置上)或经由web浏览器(例如,在与客户端装置(例如,诸如平板计算机、智能电话、膝上型计算机、台式计算机、自助服务机或其他形式因素的用户装置)通信的服务器计算装置上)提供神经网络模型以使得用户能够在增强现实界面中自拍(图像或具有图像的视频)并虚拟地试用化妆。神经网络模型可提供为来自云的服务(例如,接收无化妆图像和化妆选择;并且返回示出应用于无化妆图像的化妆的“修改的”或转换的图像)。
可为用户提供界面(例如,图形用户界面(GUI))以选择或配置待应用的化妆,拍摄自拍图像或自拍视频并且查看带有应用化妆效果的自拍图像或自拍视频。可转换自拍视频以实时地或接近实时地应用效果(例如,提供在转换视频中出现的3D化妆效果)。
可以存储并呈现(例如,并排)分别应用了不同化妆的两个或更多个所生成的图像以供在GUI中进行比较。
可以响应于手势(例如,在计算装置的触摸屏上)、指针输入、语音输入、文本输入等来激活/调用该界面,并且计算装置相应地配置有输入和输出装置以及能力。
可提供指令(软件)(例如,用于存储到计算装置的存储单元)以配置计算装置的操作,诸如当指令由计算装置的处理单元执行时。
在一方面,计算装置根据待应用于图像的效果将图像从第一域空间转换到第二连续域空间。该计算装置包括:存储单元,该存储单元存储条件循环一致性生成对抗网络(ccGAN)模型,该模型被配置为将图像转换到第二连续域空间,其中,通过使用以连续方式表示待应用效果的物理特性的多个编码进行训练来调节ccGAN模型,并且其中,从待应用效果的多个相应的离散实例对多个编码进行编码,相应的离散实例包括表示无待应用效果的实例;以及处理单元,该处理单元被配置为:接收图像和待应用效果的期望的实例;向模型提供图像和期望的实例以获得转换后的图像;并且提供转换后的图像以供呈现。
待应用效果可以是化妆效果,例如,所示出和描述的虚拟唇膏。
待应用效果可以是头发颜色效果。即,所提出的关于化妆风格变换的方法可以扩展到头发颜色变换/染发。为了使用类似方法修改头发图像像素的目的,可类似地应用染发-经由编码器E使用训练染发图像调节发生器G和鉴别器D。训练图像表示效果(即,头发颜色)的离散实例,但是被编码为提供足够的数据以使得能够在推断时在用于待应用效果的连续的(子)域上进行图像转换,正如在虚拟唇膏实例中一样。以类似方式用具有多种头发颜色的人的图像X的集合进行训练,覆盖染色应用感兴趣的头发颜色空间j。对象(例如,人)的训练图像X应当在真实的照明条件范围下拍摄。训练图像还将包括用于身份保留训练的足够数量的不同身份(即,不同人)。
为了限定通过编码器E应用的用于训练的头发样本(例如,图像zj),从第一图像集收集训练对象的头发的另一图像集。例如,在受控照明条件下采集此第二图像集,使得用于颜色实例j的头发样本不被像变化的随机照明条件的令人讨厌的因素污染。从这些受控图像中提取样本头发图像块,并用于编码特定的头发颜色样本。训练中头发颜色的总体将限定颜色空间。类似于化妆产品编码,仅需要稀疏地对头发颜色空间进行采样,但是优选地在足够的范围上对头发颜色空间进行采样,以向用户给出更宽的选择和用于在连续域内进行内插的更准确的结果,诸如当期望颜色效果但不匹配训练实例时。在推断中,在训练过程中未看到的头发样本将被编码并被用于改变测试对象(图像)的头发颜色,类似于化妆效果。可以如在本文中关于化妆效果所描述的,类似地限定无头发效果z0
除了计算装置和方法方面之外,普通技术人员将理解,公开了计算机程序产品方面,其中指令被存储在非暂时性存储装置(例如,存储器、CD-ROM、DVD-ROM、磁盘等)中将计算装置配置为执行存储其中的任何方法方面。
实际的实现方式可包括本文中描述的任何或全部特征。这些和其他方面、特征和不同组合可被表达为方法、设备、系统、用于执行功能的装置、程序产品,且以其他方式组合本文中描述的特征。已经描述了多个实施方式。然而,将理解,在不脱离本文中描述的过程和技术的精神和范围的情况下,可以做出各种修改。此外,可以提供其他步骤,或者可以从所描述的过程消除步骤,并且可以向所描述的系统添加其他部件或者移除其他部件。因此,其他实施方式在所附权利要求的范围内。
贯穿本说明书的描述和权利要求,词语“包括(comprise)”与“包含(contain)”以及它们的变型意味着“包括但不限于”,并且它们并不意指(并且不)排除任何其他部件、整数或步骤。贯穿本说明书,除非上下文另有明确的指示,否则单数形式包括复数形式。特别是,当使用不定冠词时,本说明书应理解为考虑到复数以及单数,除非上下文另有要求。
除非有不兼容的说明,结合本发明的特定方面、实施方式或实例描述的特征、整体、特性、化合物、化学部分或基团应被理解为适用于任何其他方面、实施方式或实例。本公开(包括任何所附的权利要求书、摘要和附图)中公开的所有特征、和/或如此公开的任何方法或过程的所有步骤,可以以任何组合来结合,除了这种特征和/或步骤中的至少一些是互斥的组合。本发明不限于任何前述实例或实施方式的细节。本发明延伸至在本说明书(包括任何所附的权利要求书、摘要和附图)中公开的所有特征的任何一个新颖性或任何新颖性的组合,或公开的任何方法或过程的步骤的任何一个新颖的或任何新颖性的组合。
重要的是,神经网络模型将计算装置从一般计算装置变换成先前未见过的特殊装置。根据神经网络模型提供的装置和方法以及其他方面实现特定物品到不同状态或事物的变换或缩小-将图像从一个域空间转换到其中添加了效果的第二连续域空间。根据神经网络模型提供的装置和方法以及其他方面涉及特定特征和/或功能和/或操作,该特征和/或功能和/或操作中的任一者(或两者)1)不同于本领域中很好理解的例行的常规活动,或者2)添加将该方面限制为特定有用应用的非常规步骤。
网络细节
Figure BDA0003120932300000191
Figure BDA0003120932300000201
表2:发生器网络架构。
Figure BDA0003120932300000202
表3:鉴别器网络架构。
参考文献
[1]P.Isola,J.-Y.Zhu,T.Zhou,and A.A.Efros,“Image-to-image translationwith conditional adversarial networks,”in Conference on Computer Vision andPattern Recognition,2017.
[2]J.-Y.Zhu,T.Park,P.Isola,and A.A.Efros,“Unpaired image-to-imagetranslation using cycle-consistent adversarial networks,”in Computer Vision(ICCV),2017IEEE International Conference on,2017.
[3]H.Chang,J.Lu,F.Yu,and A.Finkelstein,“PairedCycleGAN:Asymmetricstyle transfer for applying and removing makeup,”in CVPR 2018,June 2018.
[4]I.Goodfellow,J.Pouget-Abadie,M.Mirza,B.Xu,D.Warde-Farley,S.Ozair,A.Courville,and Y.Bengio,“Generative adversarial nets,”in Advances in NeuralInformation Processing Systems 27(Z.Ghahramani,M.Welling,C.Cortes,N.D.Lawrence,and K.Q.Weinberger,eds.),pp.2672–2680,Curran Associates,Inc.,2014.
[5]A.van den Oord,N.Kalchbrenner,and K.Kavukcuoglu,“Pixel recurrentneural networks,”CoRR,vol.abs/1601.06759,2016.
[6]D.P.Kingma and M.Welling,“Auto-Encoding Variational Bayes,”ArXive-prints,Dec.2013.
[7]D.P.Kingma and P.Dhariwal,“Glow:Generative Flow with Invertible1x1Convolutions,”ArXiv e-prints,July 2018.
[8]T.Miyato and M.Koyama,“cGANs with projection discriminator,”inInternational Conference on Learning Representations,2018.
[9]M.Mirza and S.Osindero,“Conditional generative adversarial nets,”arXiv preprint arXiv:1411.1784,2014.
[10]S.Reed,Z.Akata,X.Yan,L.Logeswaran,B.Schiele,and H.Lee,“Generativeadversarial text-to-image synthesis,”in Proceedings of The 33rd InternationalConference on Machine Learning,2016.
[11]Y.Choi,M.Choi,M.Kim,J.-W.Ha,S.Kim,and J.Choo,“Stargan:Unifiedgenerative adversarial networks for multi-domain image-to-image translation,”arXiv preprint arXiv:1711.09020,2017.
[12]E.Perez,H.de Vries,F.Strub,V.Dumoulin,and A.C.Courville,“Learningvisual reasoning without strong priors,”CoRR,vol.abs/1707.03017,2017.
[13]E.Perez,H.De Vries,F.Strub,V.Dumoulin,and A.Courville,“LearningVisual Reasoning Without Strong Priors,”in ICML 2017’s Machine Learning inSpeech and Language Processing Workshop,(Sidney,France),Aug.2017.
[14]T.Miyato,T.Kataoka,M.Koyama,and Y.Yoshida,“Spectral normalizationfor generative adversarial networks,”in International Conference on LearningRepresentations,2018.
[15]M.Heusel,H.Ramsauer,T.Unterthiner,B.Nessler,G.Klambauer,andS.Hochreiter,“Gans trained by a two time-scale update rule converge to a nashequilibrium,”CoRR,vol.abs/1706.08500,2017.
[16]T.Salimans,I.J.Goodfellow,W.Zaremba,V.Cheung,A.Radford,andX.Chen,“Improved techniques for training gans,”CoRR,vol.abs/1606.03498,2016.

Claims (56)

1.一种根据待应用于图像的效果将所述图像从第一域空间转换到第二连续域空间的计算装置,所述计算装置包括:
存储单元,所述存储单元存储条件循环一致性生成的图像至图像转换模型,所述图像至图像转换模型被配置为将所述图像转换至所述第二连续域空间,其中,通过使用以连续方式表示待应用的所述效果的物理特性的多个编码进行训练来调节所述模型,并且其中,从待应用的所述效果的多个相应的离散实例对多个所述编码进行编码,所述相应的离散实例包括表示无待应用效果的实例;以及
处理单元,所述处理单元被配置为:接收所述图像和待应用的所述效果的期望的实例;向所述模型提供所述图像和所述期望的实例以获得转换后的图像;并且提供所述转换后的图像以供呈现。
2.根据权利要求1所述的计算装置,其中,待应用的所述效果包括增强现实效果。
3.根据权利要求1和权利要求2中任一项所述的计算装置,其中,待应用的所述效果包括化妆效果、指甲效果和染发效果之一。
4.根据权利要求1至3中任一项所述的计算装置,其中,所述模型包括条件循环一致性生成的对抗网络(ccGAN)模型。
5.根据权利要求1至4中任一项所述的计算装置,其中,所述图像没有待应用的所述效果,并且所述第一域空间由每个均没有待应用的所述效果的多个图像限定。
6.根据权利要求1至5中任一项所述的计算装置,其中,所述模型在推断时间包括生成器(G),其中,在训练时间,使用由编码器(E)编码的多个所述编码将所述生成器(G)与鉴别器(D)一起训练。
7.根据权利要求6所述的计算装置,其中,通过使用针对多个所述编码中的每个相应编码的卷积条件批正常操作,利用多个所述编码来调节所述生成器(G)。
8.根据权利要求6和权利要求7中任一项所述的计算装置,其中,通过使用针对多个所述编码中的每个相应编码的输出投影操作,利用多个所述编码来调节所述鉴别器(D)。
9.根据权利要求6至8中任一项所述的计算装置,其中,所述编码器被配置为针对包括表示无待应用效果的样本图像的相应实例中的每一个,对来自相应样本图像的待应用的所述效果的相应实例中的每一个的物理特性进行编码。
10.根据权利要求6至9中任一项所述的计算装置,其中,所述模型包括训练的所述生成器(G)。
11.根据权利要求10所述的计算装置,其中,
所述计算装置耦接至数据存贮器,所述数据存贮器包括被配置为存储多个所述编码的存储装置;并且
所述处理单元被配置为向所述模型提供多个所述编码中对应于待应用的所述效果的所述期望的实例的对应编码。
12.根据权利要求11所述的计算装置,其中,
所述数据存贮器存储用于未被训练到所述模型的待应用的所述效果的相应实例的一个或多个未训练的实例编码;并且
所述处理单元被配置为向所述模型提供所述一个或多个未训练的实例编码中对应于待应用的所述效果的所述期望的实例的对应的一个未训练的实例编码。
13.根据权利要求6至12中任一项所述的计算装置,其中,通过根据下式使两个互补方向上的对抗损耗和循环一致性损耗最小化来优化所述发生器G的参数θ:
Figure FDA0003120932290000021
14.根据权利要求6至13中任一项所述的计算装置,其中,通过根据下式使两个互补方向上的所述对抗损耗最大化来优化所述鉴别器D的参数θ:
Figure FDA0003120932290000022
15.根据权利要求1至14中任一项所述的计算装置,其中,所述图像包括自拍图像或自拍视频,并且在所述自拍视频的情况下,所述处理单元被配置为转换所述自拍视频的图像以将所述效果应用于所述自拍视频的图像以创建3D效果。
16.根据权利要求1至15中任一项所述的计算装置,其中,所述转换后的图像包括所述图像的区域,并且其中,所述处理单元被配置为将所述转换后的图像融合到所述图像中以供呈现。
17.根据权利要求1至16中任一项所述的计算装置,其中,以下之一成立:
a.所述计算装置包括相机;以及
b.所述计算装置耦接至相机;
从而捕获所述图像以供所述处理单元接收。
18.根据权利要求1至16中任一项所述的计算装置,其中,所述计算装置包括服务器,并且所述处理单元从与所述服务器连通的客户端装置接收所述图像和所述期望的实例。
19.根据权利要求1至18中任一项所述的计算装置,其中,所述存储装置存储用于界面的指令以向用户提供期望的实例选择功能以限定所述期望的实例,并且其中,所述处理单元被配置为提供所述界面、接收输入并且响应于所述输入来限定所述期望的实例。
20.根据权利要求19所述的计算装置,其中,所述输入包括先前未训练到所述模型的自定义效果。
21.根据权利要求20所述的计算装置,其中,所述存储装置存储用于搜索功能的指令以搜索用于限定所述期望效果的先前计算的编码,并且其中,所述处理单元被配置为使用所述输入和搜索功能从所述计算的编码中找到所述自定义效果的最佳匹配以限定所述期望效果。
22.根据权利要求20所述的计算装置,其中,所述存储装置存储用于提供编码功能的指令以限定用于所述期望效果的新编码,并且其中,所述处理单元被配置为使用所述输入和所述编码功能来限定用于所述自定义效果的所述期望效果。
23.一种被配置为生成条件循环一致性生成的图像至图像转换模型的计算装置,所述模型被配置为根据待应用于图像的效果将所述图像从第一域空间转换到第二连续域空间,所述计算装置包括:
存储装置,所述存储装置存储所述模型,所述模型包括生成器、鉴别器和编码器,所述模型被配置为通过使用来自所述编码器的以连续方式表示待应用的所述效果的物理特性的多个编码进行训练来调节所述生成器和所述鉴别器,并且其中,从待应用的所述效果的多个相应的离散实例对多个所述编码进行编码,所述相应的离散实例包括表示无待应用效果的实例;以及
处理单元,所述处理单元被配置为:
接收训练数据并以批次提供所述训练数据以限定训练的所述模型。
24.根据权利要求23所述的计算装置,其中,所述模型包括条件循环一致性生成的对抗网络(ccGAN)模型。
25.根据权利要求23和24中任一项所述的计算装置,其中:
为了接收所述训练数据,所述处理单元被配置为:
从所述第一域空间X接收多个真实图像x,所述第一域空间X包括未应用效果的域空间并且每个x均未应用效果;
从所述第二连续域空间Y接收多个真实图像yj,所述第二连续域空间Y包括应用了效果的域空间并且每个yj具有应用了所述效果的实例j,其中,j=1、2、3……表示所述效果的所述相应的离散实例中的每一个;
接收多个参考图像
Figure FDA0003120932290000041
以表示所述效果的所述相应的离散实例中的每一个;并且
接收对应于无待应用效果的白色图像
Figure FDA0003120932290000042
所述处理单元还被配置为创建用于所述生成器(G)和鉴别器(D)的参数θG和θD;并且
为了以批次提供所述训练数据,所述处理单元被配置为如此操作:
重复地,以从所述训练数据确定的批次和训练轮次,
使用所述编码器对用于所述生成器(G)和所述鉴别器(D)的编码
Figure FDA0003120932290000043
进行编码;
使用所述编码器对用于所述生成器的编码
Figure FDA0003120932290000044
进行编码;
向所述生成器(G)提供所述图像x和编码
Figure FDA0003120932290000051
以在所述第二连续域空间中生成伪图像
Figure FDA0003120932290000052
向所述鉴别器(D)提供所述伪图像
Figure FDA0003120932290000053
和与所述伪图像对应的真实图像yj以及编码
Figure FDA0003120932290000054
以生成输出dj
向所述生成器(G)提供所述伪图像
Figure FDA0003120932290000055
和编码
Figure FDA0003120932290000056
以输出x’;并且
根据下式,通过使所述对抗损耗和循环一致性损耗最小化来优化所述生成器(G)的参数θG,并且通过使所述对抗损耗最大化来优化所述鉴别器(D)的参数θD
Figure FDA0003120932290000057
Figure FDA0003120932290000058
26.根据权利要求23至25中任一项所述的计算装置,其中,待应用的所述效果包括增强现实效果,优选地,包括化妆效果、指甲效果和染发效果之一。
27.根据权利要求23至26中任一项所述的计算装置,其中,通过使用针对多个所述编码中的每个相应编码的卷积条件批正常操作,利用多个所述编码来调节生成器(G)。
28.根据权利要求23至27中任一项所述的计算装置,其中,通过使用针对多个所述编码中的每个相应编码的输出投影操作,利用多个所述编码来调节所述鉴别器(D)。
29.一种根据待应用于图像的效果将所述图像从第一域空间转换到第二连续域空间的计算机实现的方法,所述方法包括:
接收所述图像和待应用的所述效果的期望的实例;
向所述模型提供所述图像和所述期望的实例以获得转换后的图像;和
提供所述转换后的图像以供呈现;
其中,所述模型包括条件循环一致性生成的图像至图像转换模型,其被配置为将所述图像转换到所述第二连续域空间,其中,通过使用以连续方式表示待应用的所述效果的物理特性的多个编码进行训练来调节所述模型,并且其中,多个所述编码是从待应用的所述效果的多个相应的离散实例编码的,所述相应的离散实例包括表示无待应用效果的实例。
30.根据权利要求29所述的方法,其中,所述模型是从条件循环一致性生成的对抗网络(ccGAN)模型限定的。
31.根据权利要求29和权利要求30中任一项所述的方法,其中,待应用的所述效果包括化妆效果、指甲效果和染发效果之一。
32.根据权利要求29至31中任一项所述的方法,其中,所述图像包括没有待应用的所述效果的图像,并且所述第一域空间由每个均没有待应用的所述效果的多个图像限定。
33.根据权利要求29至32中任一项所述的方法,其中,所述模型包括分别使用由编码器(E)编码的多个所述编码来训练的生成器(G)和鉴别器(D)。
34.根据权利要求33所述的方法,其中,通过使用针对多个所述编码中的每个相应编码的卷积条件批正常操作,利用多个所述编码调节所述生成器(G)。
35.根据权利要求33和权利要求34中任一项所述的方法,其中,通过使用针对多个所述编码中的每个相应编码的输出投影操作,利用多个所述编码调节所述鉴别器(D)。
36.根据权利要求33至35中任一项所述的方法,其中,所述编码器被配置为针对包括表示无待应用效果的样本图像的相应实例中的每一个,对来自相应样本图像的待应用的所述效果的相应实例中的每一个的物理特性进行编码。
37.根据权利要求33至36中任一项所述的方法,其中,所述模型包括训练的所述生成器(G)。
38.根据权利要求37所述的方法,包括从包括存储多个所述编码的存储装置的数据存贮器中检索多个所述编码中对应于待应用的所述效果的所述期望的实例的对应的一个编码,以提供给所述模型。
39.根据权利要求38所述的方法,其中,
所述数据存贮器存储用于未训练到所述模型的待应用的所述效果的相应实例的一个或多个未训练的实例编码;并且
所述方法包括从所述数据库检索以向所述模型提供所述一个或多个未训练的实例编码中的对应于待应用的所述效果的所述期望的实例的对应的一个未训练的实例编码。
40.根据权利要求33至37中任一项所述的方法,其中,通过根据下式使两个互补方向上的对抗损耗和循环一致性损耗最小化来优化所述发生器G的参数θ:
Figure FDA0003120932290000071
41.根据权利要求33至40中任一项所述的方法,其中,通过根据下式使两个互补方向上的所述对抗损耗最大化来优化所述鉴别器D的参数θ:
Figure FDA0003120932290000072
42.根据权利要求29至41中任一项所述的方法,包括经由所述处理单元使用耦接到所述处理单元的相机捕获所述图像以接收所述图像。
43.根据权利要求29至42中任一项所述的方法,其中,所述图像包括自拍图像和自拍视频中的一者,并且在所述自拍视频的情况下,所述方法转换所述自拍视频的图像以将所述效果应用于所述自拍视频的图像以创建3D效果,具体地,创建3D化妆效果。
44.根据权利要求29至43中任一项所述的方法,包括在提供给所述模型之前由所述处理单元预处理所述图像。
45.根据权利要求29至44中任一项所述的方法,其中,所述转换后的图像包括所述图像的区域,并且其中,所述方法包括将所述转换后的图像融合到所述图像以供所述处理单元呈现。
46.根据权利要求29至45中任一项所述的方法,包括:提供包括期望的实例选择功能的界面以限定所述期望的实例;并且经由所述期望的实例选择功能接收输入,并且响应于所述输入限定所述期望的实例。
47.根据权利要求46所述的方法,其中,所述输入包括先前未训练到所述模型的自定义效果。
48.根据权利要求47所述的方法,包括使用所述输入搜索用于限定所述期望效果的先前计算的编码,以从所述计算的编码中找到所述自定义效果的最佳匹配以限定所述期望效果。
49.根据权利要求47所述的方法,包括响应于所述输入使用编码功能以限定用于所述期望效果的新编码,以限定用于所述自定义效果的所述期望效果。
50.一种生成条件循环一致性生成的图像至图像转换模型的模型的计算机实现的方法,所述模型被配置为根据待应用于图像的效果将所述图像从第一域空间转换到第二连续域空间,所述方法包括,经由处理单元:
接收训练数据并向所述模型以批次提供所述训练数据以限定训练的所述模型;并且
其中,所述模型包括存储在耦接至所述处理单元的存储装置中的生成器、鉴别器和编码器,所述模型被配置为通过使用来自所述编码器的以连续方式表示待应用的所述效果的物理特性的多个编码进行训练来调节所述生成器和所述鉴别器,并且其中,多个所述编码是从待应用的所述效果的多个相应的离散实例编码的,所述相应的离散实例包括表示无待应用效果的实例。
51.根据权利要求50所述的方法,其中,所述模型包括条件循环一致性生成的对抗网络(ccGAN)模型。
52.根据权利要求50和51中任一项所述的方法,其中:
为了接收所述训练数据,所述方法包括:
从所述第一域空间X接收多个真实图像x,所述第一域空间X包括未应用效果的域空间并且每个x均未应用效果;
从所述第二连续域空间Y接收多个真实图像yj,所述第二连续域空间Y包括应用了效果的域空间并且每个yj具有应用了所述效果的实例j,其中j=1、2、3……表示所述效果的所述相应的离散实例中的每一个;
接收多个参考图像
Figure FDA0003120932290000081
以表示所述效果的所述相应的离散实例中的每一个;和
接收与无待应用效果对应的白色图像
Figure FDA0003120932290000082
其中,所述方法还包括通过所述处理单元创建用于所述发生器(G)和所述鉴别器(D)的参数θG和θD;并且
其中,为了以批次提供所述训练数据,所述方法包括:
重复地,以从所述训练数据确定的批次和训练轮次,
使用所述编码器对用于所述生成器(G)和所述鉴别器(D)的编码
Figure FDA0003120932290000091
进行编码;
使用所述编码器对用于所述生成器的编码
Figure FDA0003120932290000092
进行编码;
向所述生成器(G)提供所述图像x和编码
Figure FDA0003120932290000093
以在所述第二连续域空间中生成伪图像
Figure FDA0003120932290000094
向所述鉴别器(D)提供所述伪图像
Figure FDA0003120932290000095
和与所述伪图像对应的真实图像yj以及编码
Figure FDA0003120932290000096
以生成输出dj
向所述生成器(G)提供所述伪图像
Figure FDA0003120932290000097
和编码
Figure FDA0003120932290000098
以输出x’;并且
根据下式,通过使所述对抗损耗和循环一致性损耗最小化来优化所述发生器(G)的参数θG,并且通过使所述对抗损耗最大化来优化所述鉴别器(D)的参数θD
Figure FDA0003120932290000099
Figure FDA00031209322900000910
53.根据权利要求50至52中任一项所述的方法,其中,待应用的所述效果包括增强现实效果,优选地,包括化妆效果、指甲效果和染发效果之一。
54.根据权利要求50至53中任一项所述的方法,其中,使用针对多个所述编码中的每个相应编码的卷积条件批正常操作,利用多个所述编码来调节生成器(G)。
55.根据权利要求50至54中任一项所述的方法,其中,使用针对多个所述编码中的每个相应编码的输出投影操作,利用多个所述编码来调节所述鉴别器(D)。
56.一种计算机程序产品,包括存储指令的非暂时性存储单元,所述指令在由计算装置的处理单元执行时,将所述计算装置配置为执行根据权利要求29至55中任一项所述的方法。
CN201980084128.1A 2018-11-15 2019-11-14 使用条件循环一致性生成图像至图像转换模型的用于增强现实的系统和方法 Pending CN113728353A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862767769P 2018-11-15 2018-11-15
US62/767,769 2018-11-15
PCT/CA2019/051624 WO2020097731A1 (en) 2018-11-15 2019-11-14 System and method for augmented reality using conditional cycle-consistent generative image-to-image translation models

Publications (1)

Publication Number Publication Date
CN113728353A true CN113728353A (zh) 2021-11-30

Family

ID=70726432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980084128.1A Pending CN113728353A (zh) 2018-11-15 2019-11-14 使用条件循环一致性生成图像至图像转换模型的用于增强现实的系统和方法

Country Status (5)

Country Link
US (1) US11645497B2 (zh)
EP (1) EP3881277A4 (zh)
JP (1) JP7364676B2 (zh)
CN (1) CN113728353A (zh)
WO (1) WO2020097731A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048980B2 (en) 2019-04-30 2021-06-29 Agora Lab, Inc. Optimizing supervised generative adversarial networks via latent space regularizations
CN113344784B (zh) 2019-04-30 2023-09-22 达音网络科技(上海)有限公司 通过潜在空间正则化对监督式生成对抗网络进行优化
US11664820B2 (en) * 2019-09-25 2023-05-30 Nokia Technologies Oy Domain adaptation
EP4128194A1 (en) 2020-03-31 2023-02-08 Snap Inc. Augmented reality beauty product tutorials
CN113870431A (zh) * 2020-06-30 2021-12-31 复旦大学 三维模型动作迁移方法
WO2022003537A1 (en) * 2020-07-02 2022-01-06 Shiseido Company, Limited System and method for image transformation
CN111815534B (zh) * 2020-07-14 2023-12-19 厦门美图之家科技有限公司 实时皮肤妆容迁移方法、装置、电子设备和可读存储介质
IL276478B2 (en) * 2020-08-03 2023-07-01 Inspekto A M V Ltd Adaptive system and method for inspecting photographed objects
WO2022029771A1 (en) * 2020-08-03 2022-02-10 Inspekto A.M.V Ltd Adaptive system and method for inspection of imaged items
CN112115771B (zh) * 2020-08-05 2022-04-01 暨南大学 一种基于星形生成对抗网络的步态图像合成方法
CN112992304B (zh) * 2020-08-24 2023-10-13 湖南数定智能科技有限公司 高分辨率红眼病案例数据生成方法、设备及存储介质
CN112651915B (zh) * 2020-12-25 2023-08-29 百果园技术(新加坡)有限公司 一种人脸图像合成方法、系统、电子设备及存储介质
CN112614070B (zh) * 2020-12-28 2023-05-30 南京信息工程大学 一种基于DefogNet的单幅图像去雾方法
CN112991494B (zh) * 2021-01-28 2023-09-15 腾讯科技(深圳)有限公司 图像生成方法、装置、计算机设备及计算机可读存储介质
CN113643400B (zh) * 2021-08-23 2022-05-24 哈尔滨工业大学(威海) 一种图像生成方法
CN114495112B (zh) * 2022-01-20 2024-07-19 北京字节跳动网络技术有限公司 图像中文本的处理方法、装置、可读介质和电子设备
FR3132370B1 (fr) 2022-01-28 2024-08-16 Loreal Procédé pour la simulation d’une application d’un produit cosmétique de maquillage sur une surface corporelle
FR3137550B1 (fr) 2022-07-05 2024-07-19 Oreal Procédé de détermination de paramètres relatifs à la coloration d’une zone corporelle d’un individu
US20240127563A1 (en) * 2022-10-17 2024-04-18 Snap Inc. Stylizing a whole-body of a person
CN116229229A (zh) * 2023-05-11 2023-06-06 青岛科技大学 基于深度学习的多域图像融合方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182657A (zh) * 2018-01-26 2018-06-19 深圳市唯特视科技有限公司 一种基于循环生成对抗网络的面部图像转换方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104380339B (zh) * 2013-04-08 2018-11-30 松下电器(美国)知识产权公司 图像处理装置、图像处理方法、以及介质
US10504004B2 (en) * 2016-09-16 2019-12-10 General Dynamics Mission Systems, Inc. Systems and methods for deep model translation generation
WO2018132721A1 (en) * 2017-01-12 2018-07-19 The Regents Of The University Of Colorado, A Body Corporate Method and system for implementing three-dimensional facial modeling and visual speech synthesis
WO2019090213A1 (en) * 2017-11-03 2019-05-09 Siemens Aktiengesellschaft Segmenting and denoising depth images for recognition applications using generative adversarial neural networks
US20190279075A1 (en) * 2018-03-09 2019-09-12 Nvidia Corporation Multi-modal image translation using neural networks
US10825219B2 (en) * 2018-03-22 2020-11-03 Northeastern University Segmentation guided image generation with adversarial networks
US11170536B2 (en) * 2018-09-21 2021-11-09 Revive Al, Inc. Systems and methods for home improvement visualization

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182657A (zh) * 2018-01-26 2018-06-19 深圳市唯特视科技有限公司 一种基于循环生成对抗网络的面部图像转换方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI HUAI-YU ET AL: "Facial Image Attributes Transformation via Conditional Recycle Generative Adversarial Networks", JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, vol. 33, no. 3, 11 May 2018 (2018-05-11), pages 511 - 521, XP036502347, DOI: 10.1007/s11390-018-1835-2 *
TINGTING LI ET AL: "BeautyGAN: Instance-level Facial Makeup Transfer with Deep Generative Adversarial Network", PROCEEDINGS OF THE 26TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, 15 October 2018 (2018-10-15), pages 645 - 653, XP058544159, DOI: 10.1145/3240508.3240618 *
谢志峰;叶冠桦;闫淑萁;何绍荣;丁友东;: "基于生成对抗网络的HDR图像风格迁移技术", 上海大学学报(自然科学版), vol. 24, no. 04, 31 August 2018 (2018-08-31), pages 524 - 534 *

Also Published As

Publication number Publication date
EP3881277A1 (en) 2021-09-22
US11645497B2 (en) 2023-05-09
US20200160153A1 (en) 2020-05-21
WO2020097731A1 (en) 2020-05-22
JP7364676B2 (ja) 2023-10-18
EP3881277A4 (en) 2022-08-17
JP2022519003A (ja) 2022-03-18

Similar Documents

Publication Publication Date Title
CN113728353A (zh) 使用条件循环一致性生成图像至图像转换模型的用于增强现实的系统和方法
Tomei et al. Art2real: Unfolding the reality of artworks via semantically-aware image-to-image translation
Wu et al. Relgan: Multi-domain image-to-image translation via relative attributes
US10424087B2 (en) Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures
Portenier et al. Faceshop: Deep sketch-based face image editing
Zhu et al. Generative visual manipulation on the natural image manifold
CN110322416B (zh) 图像数据处理方法、装置以及计算机可读存储介质
Singh et al. Neural style transfer: A critical review
CN116075830A (zh) 图像到图像转换中语义关系保留的知识提炼
Yeo et al. Simple yet effective way for improving the performance of GAN
US20220207790A1 (en) Image generation method and apparatus, and computer
Hermosilla et al. Thermal face generation using stylegan
Liu et al. Name your style: An arbitrary artist-aware image style transfer
CN116097319A (zh) 利用空间感知的条件gan的高分辨率可控面部老化
Ardino et al. Semantic-guided inpainting network for complex urban scenes manipulation
Mobahi et al. A compositional model for low-dimensional image set representation
Hou et al. Deep generative image priors for semantic face manipulation
Awiszus et al. Learning disentangled representations via independent subspaces
Guo et al. Attribute-controlled face photo synthesis from simple line drawing
Rahman et al. Pacmo: Partner dependent human motion generation in dyadic human activity using neural operators
Song et al. Talking face video generation with editable expression
Kacete et al. Unconstrained gaze estimation using random forest regression voting
Šoberl Mixed reality and deep learning: Augmenting visual information using generative adversarial networks
WO2010010342A1 (en) A system and method for facial recognition
Li et al. A method for face fusion based on variational auto-encoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination