CN107845062B - 图像生成方法及装置 - Google Patents
图像生成方法及装置 Download PDFInfo
- Publication number
- CN107845062B CN107845062B CN201711123279.2A CN201711123279A CN107845062B CN 107845062 B CN107845062 B CN 107845062B CN 201711123279 A CN201711123279 A CN 201711123279A CN 107845062 B CN107845062 B CN 107845062B
- Authority
- CN
- China
- Prior art keywords
- glasses
- network
- face image
- image
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000011521 glass Substances 0.000 claims abstract description 107
- 238000012549 training Methods 0.000 claims abstract description 65
- 230000006870 function Effects 0.000 claims description 47
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000011176 pooling Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
- G06Q30/0643—Graphical representation of items or shoppers
Landscapes
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本公开是关于一种图像生成方法及装置。该方法包括:根据未戴眼镜人脸图像和对应的戴眼镜人脸图像,训练得到图像生成网络;将待处理的未戴眼镜人脸图像输入图像生成网络,生成第一试戴眼镜人脸图像。根据本公开的实施例,通过未戴眼镜人脸图像与对应戴眼镜人脸图像训练得到图像生成网络,从而实现将待处理的未戴眼镜人脸图像输入该图像生成网络时,可以生成具有较高真实度的第一试戴眼镜人脸图像。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种图像生成方法及装置。
背景技术
目前,终端设备(例如,智能手机等)上可以安装多种具有娱乐性质的图像应用,这些图像应用可以对图像中的人脸进行娱乐性处理,例如,试戴配饰(例如,试戴眼镜、试戴帽子)等。然而,现有的图像应用在试戴配饰过程中,具有试戴效果较差、试戴效果不真实等缺点。
发明内容
为克服相关技术中存在的问题,本公开提供一种图像生成方法及装置。
根据本公开实施例的第一方面,提供一种图像生成方法,包括:
根据未戴眼镜人脸图像和对应的戴眼镜人脸图像,训练得到图像生成网络;
将待处理的未戴眼镜人脸图像输入所述图像生成网络,生成第一试戴眼镜人脸图像。
对于以上方法,在一种可能的实现方式中,根据未戴眼镜人脸图像和对应的戴眼镜人脸图像,训练得到图像生成网络,包括:
根据损失函数、所述未戴眼镜人脸图像和所述对应的戴眼镜人脸图像,训练判别网络和生成网络,所述判别网络用于判断输入的图像与所述对应的戴眼镜人脸图像的一致性;
重复训练所述生成网络和所述判别网络,在训练次数达到预设阈值或所述判别网络输出的判别结果处于收敛时,将当前的生成网络确定为所述图像生成网络;
其中,所述损失函数由所述生成网络、所述判别网络以及图像的像素点的权重确定;所述像素点的权重由所述像素点与目标像素点的距离确定。
对于以上方法,在一种可能的实现方式中,根据损失函数、所述未戴眼镜人脸图像和所述对应的戴眼镜人脸图像,训练判别网络和生成网络,包括:
将所述未戴眼镜人脸图像输入到生成网络中,生成第二试戴眼镜人脸图像;
将所述第二试戴眼镜人脸图像输入到判别网络中,得到第一判别结果;
将所述对应的戴眼镜人脸图像输入到判别网络中,得到第二判别结果;
计算所述对应的戴眼镜人脸图像与所述第二试戴眼镜人脸图像之间的距离损失结果;
根据所述第一判别结果、所述第二判别结果、所述距离损失结果以及所述图像的像素点的权重,通过所述损失函数计算得到损失;
根据所述损失,调整所述判别网络或生成网络中的参数的权重。
根据本公开实施例的第二方面,提供一种图像生成装置,包括:
训练模块,用于根据未戴眼镜人脸图像和对应的戴眼镜人脸图像,训练得到图像生成网络;
生成模块,用于将待处理的未戴眼镜人脸图像输入所述图像生成网络,生成第一试戴眼镜人脸图像。
对于以上装置,在一种可能的实现方式中,所述训练模块包括:
训练子模块,用于根据损失函数、所述未戴眼镜人脸图像和所述对应的戴眼镜人脸图像,训练判别网络和生成网络,所述判别网络用于判断输入的图像与所述对应的戴眼镜人脸图像的一致性;
确定子模块,用于重复训练所述生成网络和所述判别网络,在训练次数达到预设阈值或所述判别网络输出的判别结果处于收敛时,将当前的生成网络确定为所述图像生成网络;
其中,所述损失函数由所述生成网络、所述判别网络以及图像的像素点的权重确定;所述像素点的权重由所述像素点与目标像素点的距离确定。
对于以上装置,在一种可能的实现方式中,所述训练子模块还用于:
将所述未戴眼镜人脸图像输入到生成网络中,生成第二试戴眼镜人脸图像;
将所述第二试戴眼镜人脸图像输入到判别网络中,得到第一判别结果;
将所述对应的戴眼镜人脸图像输入到判别网络中,得到第二判别结果;
计算所述对应的戴眼镜人脸图像与所述第二试戴眼镜人脸图像之间的距离损失结果;
根据所述第一判别结果、所述第二判别结果、所述距离损失结果以及所述图像的像素点的权重,通过所述损失函数计算得到损失;
根据所述损失,调整所述判别网络或生成网络中的参数的权重。
根据本公开实施例的第三方面,提供一种图像生成装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述方法。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行上述图像生成方法。
本公开的实施例提供的技术方案可以包括以下有益效果:通过未戴眼镜人脸图像与对应戴眼镜人脸图像训练得到图像生成网络,从而实现将待处理的未戴眼镜人脸图像输入该图像生成网络时,可以生成具有较高真实度的第一试戴眼镜人脸图像。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种图像生成方法的流程图。
图2是根据一示例性实施例示出的一种图像生成方法的流程图。
图3是根据一示例性实施例示出的生成网络的示意框图。
图4是根据一示例性实施例示出的判别网络的示意框图。
图5是根据一示例性实施例示出的一种图像生成方法的应用场景的示意图。
图6是根据一示例性实施例示出的一种图像生成装置的框图。
图7是根据一示例性实施例示出的一种图像生成装置的框图。
图8是根据一示例性实施例示出的一种图像生成装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
生成式对抗网络(Generative Adversarial Networks,GAN),包含一个生成网络和一个判别网络。生成网络捕捉样本数据的分布,判别网络是一个二分类器,用于判别输入是真实的数据还是生成的样本。生成式对抗网络的优化过程是一个二元极小极大博弈问题。训练判别网络时,固定生成网络中参数的权重,更新判别网络中的参数的权重。训练生成网络时,固定判别网络中参数的权重,更新生成网络中的参数的权重。由此交替迭代训练判别网络和生成网络,不断提高两个网络的能力,直到两个网络都收敛。
图1是根据一示例性实施例示出的一种图像生成方法的流程图。如图1所示,该方法应用于图像生成装置中,例如,美颜设备等,本公开对此不作限制。该图像生成方法包括:
在步骤S11中,根据未戴眼镜人脸图像和对应的戴眼镜人脸图像,训练得到图像生成网络;
在步骤S12中,将待处理的未戴眼镜人脸图像输入所述图像生成网络,生成第一试戴眼镜人脸图像。
根据本公开的实施例,通过未戴眼镜人脸图像与对应戴眼镜人脸图像训练得到图像生成网络,从而实现将待处理的未戴眼镜人脸图像输入该图像生成网络时,可以生成具有较高真实度的第一试戴眼镜人脸图像。
举例来说,可以采集多张未戴眼镜人脸图像以及对应的戴眼镜人脸图像(例如,各10000张),并分别保存,其中,两组对比图像的分辨率保持一致,这样,可以保证图像生成网络训练结果的可靠性。
在一种可能的实现方式中,可以对未戴眼镜人脸图像以及对应戴眼镜人脸图像加随机噪声,以模拟真实环境,从而提高训练后得到的图像生成网络的可靠性。本领域技术人员应理解,可以采用相关技术中公知的方式对未戴眼镜人脸图像以及对应戴眼镜人脸图像加随机噪声,本公开对此不作限制。
图2是根据一示例性实施例示出的一种图像生成方法的流程图。在一种可能的实现方式中,如图2所示,步骤S11可以包括:
在步骤S111中,根据损失函数、所述未戴眼镜人脸图像和所述对应的戴眼镜人脸图像,训练判别网络和生成网络,所述判别网络用于判断输入的图像与所述对应的戴眼镜人脸图像的一致性。
举例来说,可以根据损失函数、未戴眼镜人脸图像、对应的戴眼镜人脸图像,来训练判别网络和生成网络,其中,判别网络用于判断输入的图像与对应的戴眼镜人脸图像的一致性。在实际训练过程中,可以根据损失函数、未戴眼镜人脸图像以及对应的戴眼镜人脸图像,交替训练判别网络和生成网络。
其中,交替训练判别网络和生成网络可以如前文所述,在训练判别网络时,固定生成网络中的参数的权重,根据损失,通过后向传递算法确定判别网络中参数的权重。在训练生成网络时,固定判别网络中参数的权重,根据损失,通过后向传递算法确定生成网络中参数的权重。
在步骤S112中,重复训练所述生成网络和所述判别网络,在训练次数达到预设阈值或所述判别网络输出的判别结果处于收敛时,将当前的生成网络确定为所述图像生成网络。
举例来说,重复训练判别网络和生成网络,在训练次数达到预设阈值或判别网络输出的判别结果处于收敛(例如,判别网络输出0.5)时,将当前的生成网络确定为图像生成网络。这样,可以根据未戴眼镜人脸图像和对应的戴眼镜人脸图像,训练得到图像生成网络。本领域技术人员应理解,可以采用相关技术中公知的方式根据未戴眼镜人脸图像和对应的戴眼镜人脸图像训练得到图像生成网络,本公开对此不作限制。
在一种可能的实现方式中,所述损失函数由所述生成网络、所述判别网络以及图像的像素点的权重确定;所述像素点的权重由所述像素点与目标像素点的距离确定。
举例来说,损失函数可以由生成网络、判别网络以及图像的像素点的权重来确定,图像的像素点的权重可以由该像素点与目标像素点的距离确定。例如,目标像素点可以为图像中眼睛区域的像素点,则图像的像素点的权重可以由该像素点距离眼睛区域的像素点的距离确定。例如,距离眼睛区域的像素点的距离较大的像素点的权重较小,距离眼睛区域的像素点的距离较小的像素点的权重较大等。
举例来说,当像素点与目标像素点的距离小于第一距离阈值时,该像素点的权重为1,当像素点与目标像素点的距离大于或等于第一距离阈值时,该像素点的权重为0至0.1中的某值。例如,当该像素点位于图像的眼镜区域附近时,该像素点距离眼睛区域的像素点的距离较小(例如,d<dist),此时,该像素点的权重较大(例如,可以为1)。当该像素点位于图像的边缘距离图像的眼镜区域较远时,该像素点距离眼睛区域的像素点的距离较大(例如,d>dist),此时,该像素点的权重较小(例如,可以为0)。
通过这种方式,可以根据像素点与目标像素点的距离来确定像素点的权重,并根据像素点的权重、生成网络以及判别网络来确定损失函数。在训练过程中,对权重较大的像素点的关注度较高,错误容忍度小,对权重较小的像素点的关注度较低,较少关注权重较小的像素点的错误。这样,可以提高训练效率,加快训练判别网络和生成网络的收敛。本领域技术人员应理解,像素点与目标像素点的距离与该像素点的权重的对应关系不限于上述示例,只要可以由像素点与目标像素点的距离确定像素点的权重即可,本公开对此不作限制。
在一种可能的实现方式中,损失函数可以如公式1所示:
在一种可能的实现方式中,可以通过公式2确定图像生成网络Gfinal:
其中,G表示生成网络,D表示判别网络,x表示对应的戴眼镜人脸图像,x~pdata(x)表示对应的戴眼镜人脸图像数据分布,D(x)表示x作为判别网络的输入得到的判别结果,表示在对应的戴眼镜人脸图像数据分布条件下,对应的戴眼镜人脸图像在判别网络的损失,z表示未戴眼镜人脸图像,G(z)表示未戴眼镜人脸图像经过生成网络生成的人脸图像,D(G(z))表示G(z)作为判别网络的输入得到的判别结果,表示在生成的人脸图像数据分布条件下,生成的人脸图像在判别网络的损失。E[||x-G(z)||1]表示对应的戴眼镜人脸图像和生成的人脸图像的一维距离损失,λ表示像素点的权重。
可以理解的是,生成网络G是用于生成图像的网络,判别网络D是用于判别的网络,输出判别结果。判别结果表示输入判别网络的图像是否为真实的戴眼镜人脸图像的概率。判别结果为1则表示输入判别网络的图像100%是真实的戴眼镜人脸图像,判别结果为0则表示输入判别网络的图像不可能是真实的戴眼镜人脸图像。
在实际训练过程中,生成网络G的目标就是尽量生成真实图像去欺骗判别网络D。而判别网络D的目标就是尽量把生成网络G生成的图像和真实图像分别开来。由此生成网络G和判别网络D构成了一个动态的博弈过程。在最理想的状态下,最后博弈的结果为生成网络G可以生成足以以假乱真的图像G(z),判别网络D难以判别生成网络G生成的图像究竟是不是真实,因此D(G(z))=0.5。
需要说明的是,本领域技术人员应理解,因为x就是真实的对应的戴眼镜人脸图像,所以对于判别网络D来说,D(x)越接近1越好。而G(z)是生成网络G生成的人脸图像,所以对于判别网络D来说,D(G(z))越接近0越好。生成网络G的目的:D(G(z))是判别网络D判断生成网络G生成的人脸图像是否真实的戴眼镜人脸图像的概率,生成网络G应该希望自己生成的图像越接近真实越好。也就是说,生成网络G希望D(G(z))尽可能得大,这时公式1的值会变小。因此公式2的最前面的记号是判别网络D的目的:判别网络D的能力越强,D(x)应该越大,D(G(z))应该越小,这时公式1的值会变大。因此公式2的最前面的记号是
通过这种方式,根据像素点的权重、生成网络以及判别网络来确定损失函数。在训练过程中,对权重较大的像素点的关注度较高,错误容忍度小,对权重较小的像素点的关注度较低,较少关注权重较小的像素点的错误。这样,可以提高训练效率,加快训练判别网络和生成网络的收敛,并使得训练得到的图像生成网络生成的第一试戴眼镜人脸图像更真实。本领域技术人员应理解,损失函数还可以包括其他形式,只要可以根据损失函数训练判别网络和生成网络即可,本公开对此不作限制。
在一种可能的实现方式中,根据损失函数、所述未戴眼镜人脸图像和所述对应的戴眼镜人脸图像,训练判别网络和生成网络(步骤S111)可以包括:
将所述未戴眼镜人脸图像输入到生成网络中,生成第二试戴眼镜人脸图像;
将所述第二试戴眼镜人脸图像输入到判别网络中,得到第一判别结果;
将所述对应的戴眼镜人脸图像输入到判别网络中,得到第二判别结果;
计算所述对应的戴眼镜人脸图像与所述第二试戴眼镜人脸图像之间的距离损失结果;
根据所述第一判别结果、所述第二判别结果、所述距离损失结果以及所述图像的像素点的权重,通过所述损失函数计算得到损失;
根据所述损失,调整所述判别网络或生成网络中的参数的权重。
举例来说,可以将未戴眼镜人脸图像z输入到生成网络中,生成第二试戴眼镜人脸图像G(z)。将该第二试戴眼镜人脸图像G(z)输入到判别网络,得到第一判别结果D(G(z))。将对应的戴眼镜人脸图像x输入到判别网络中,得到第二判别结果D(x)。计算对应的戴眼镜人脸图像x与第二试戴眼镜人脸图像G(z)之间的距离损失结果E[||x-G(z)||1]。根据第一判别结果D(G(z))、第二判别结果、D(x)距离损失结果E[||x-G(z)||1]以及图像的像素点的权重λ,根据损失函数计算得到损失。采用随机梯度下降法,根据该损失,调整判别网络或生成网络中参数的权重。
通过这种方式,可以根据损失函数、未戴眼镜人脸图像和对应的戴眼镜人脸图像,训练判别网络和生成网络。本领域技术人员应理解,可以采用相关技术中公知的方式根据损失函数、未戴眼镜人脸图像和对应的戴眼镜人脸图像,训练判别网络和生成网络,本公开对此不作限制。
在一种可能的实现方式中,生成网络包括通过残差方式连接的多个编码模块(Encode)和多个解码模块(Decode),编码模块包括卷积层、线性整流函数(ReLu,RectifiedLinear Unit)层和最大池化层(Max Pooling),解码模块包括卷积层、线性整流函数层和最大池化层。
其中,编码模块用于对待处理的未戴眼镜人脸图像进行编码。解码模块用于对通过编码模块编码得到的图像进行解码。编码模块和解码模块均能够改变图像分辨率和图像通道数,例如增加图像分辨率并降低图像通道数,或降低图像分辨率并增加图像通道数。卷积层、线性整流函数层和最大池化层均为编码模块和解码模块中的一个基本运算单元。
图3是根据一示例性实施例示出的生成网络的示意框图。如图3所示,生成网络包括一个输入层(input)、一个输出层(output)以及一个十层的编码模块-解码模块结构,包括通过残差方式连接的5个编码模块和5个解码模块。每个编码模块和每个解码模块均包括1个卷积层、1个线性整流函数层和1个最大池化层。其中,编码模块分别为Encode1(64*3*3-S2)、Encode2(128*3*3-S2)、Encode3(256*3*3-S2)、Encode4(512*3*3-S2)和Encode5(512*3*3-S2)。解码模块分别为Decode1(512*3*3-S2)、Decode2(512*3*3-S2)、Decode3(256*3*3-S2)、Decode4(128*3*3-S2)和Decode5(64*3*3-S2)。本领域技术人员应理解,生成网络的结构可以包括多种形式,本公开对此不作限制。
在一种可能的实现方式中,判别网络包括一个输入层以及依次连接的多个编码模块、多个全连接(FC,Fully Connected Layers)层和阈值函数(Sigmoid)层,编码模块包括卷积层、线性整流函数层和最大池化层。
其中,编码模块用于对待处理的未戴眼镜人脸图像进行编码。全连接层用于将学习到的分布式特征表示映射到样本标记空间。阈值函数层用于将变量映射到[0,1]之间。编码模块能够改变图像分辨率和图像通道数,例如降低图像分辨率并增加图像通道数。卷积层、线性整流函数层和最大池化层均为编码模块中的一个基本运算单元。
图4是根据一示例性实施例示出的判别网络的示意框图。如图4所示,判别网络包括一个输入层(Input’)以及依次连接的5个编码模块、2个全连接层(FC1和FC2)和1个阈值函数层。每个编码模块包括1个卷积层、1个线性整流函数层和1个最大池化层。其中,编码模块分别为Encode1’(64*3*3-S2)、Encode2’(128*3*3-S2)、Encode3’(256*3*3-S2)、Encode4’(512*3*3-S2)和Encode5’(512*3*3-S2)。本领域技术人员应理解,判别网络的结构可以包括多种形式,本公开对此不作限制。
根据本公开的实施例,通过未戴眼镜人脸图像与对应戴眼镜人脸图像训练得到图像生成网络,从而实现将待处理的未戴眼镜人脸图像输入该图像生成网络时,可以生成具有较高真实度的第一试戴眼镜人脸图像。
应用示例
以下结合“试戴眼镜”作为一个示例性应用场景,给出根据本公开实施例的应用示例,以便于理解图像生成方法的流程。本领域技术人员应理解,以下应用示例仅仅是出于便于理解本发明实施例的目的,不应视为对本发明实施例的限制。
图5是根据一示例性实施例示出的一种图像生成方法的应用场景的示意图。如图5所述,在该应用示例中,通过生成网络和判别网络进行生成式对抗网络训练。
在该应用示例中,采集训练样本(步骤700)。例如,采集未戴眼镜人脸图像以及对应戴眼镜人脸图像(例如,各10000张),并分别保存,其中两组对比图像分辨率一致。在该应用示例中,对未戴眼镜人脸图像以及对应戴眼镜人脸图像加随机噪声(步骤701)。
在该应用示例中,根据未戴眼镜人脸图像以及对应戴眼镜人脸图像,训练图像生成网络。在该应用示例中,根据损失函数、未戴眼镜人脸图像以及对应的戴眼镜人脸图像,训练判别网络和生成网络(步骤702)。
在该应用示例中,将未戴眼镜人脸图像输入到生成网络中,生成第二试戴眼镜人脸图像。将该第二试戴眼镜人脸图像输入到判别网络中,得到第一判别结果。将对应的戴眼镜人脸图像输入到判别网络中,得到第二判别结果。计算对应的戴眼镜人脸图像与第二试戴眼镜人脸图像之间的距离损失结果,根据第一判别结果、第二判别结果、距离损失结果以及图像的像素点的权重,通过损失函数计算得到损失。并根据该损失,调整判别网络或生成网络中的参数的权重,其中,图像的像素点的权重由该像素点与目标像素点的距离确定,损失函数由生成网络、判别网络以及图像的像素点的权重确定。例如,将10000张未戴眼镜人脸图像输入到生成网络中,生成10000张第二试戴眼镜人脸图像,将10000张第二试戴眼镜人脸图像(生成的假的戴眼镜人脸图像)以及10000张对应的戴眼镜人脸图像(真实戴眼镜人脸图像)一同输入到判别网络中,根据损失函数,计算损失。根据该损失,调整判别网络中参数的权重(例如,默认先训练10次判别网络,再训练100次生成网络,此时训练判别网络,固定生成网络中参数的权重),得到第1次训练后的生成网络和判别网络(此时,生成网络的参数的权重与初始时没有区别,判别网络的参数的权重与初始时有区别)。反复10次,训练该判别网络。在训练该判别网络10次后,开始训练生成网络。将10000张未戴眼镜人脸图像输入到生成网络中,生成10000张第二试戴眼镜人脸图像,将10000张第二试戴眼镜人脸图像(生成的假的戴眼镜人脸图像)以及10000张对应的戴眼镜人脸图像(真实戴眼镜人脸图像)一同输入到判别网络中,根据损失函数,计算损失。根据该损失,调整生成网络中参数的权重(此时,固定判别网络中参数的权重),反复训练100次生成网络后,重新开始训练判别网络。如此重复训练生成网络和判别网络,在训练次数达到预设阈值或判别网络输出的判别结果处于收敛(例如,0.5,生成网络和判别网络收敛)时,可以将当前的生成网络确定为图像生成网络(步骤703)。
在该应用示例中,该图像生成网络可以用于生成第一试戴眼镜人脸图像。例如,可以接收待处理的未戴眼镜人脸图像,并将该待处理的未戴眼镜人脸图像输入到该图像生成网络中,生成第一试戴眼镜人脸图像(步骤704)例如,用户a打开其终端设备的摄像头,该用户希望通过该摄像头进行自拍,该用户将拍摄模式设置为趣味拍摄(试戴眼镜)。该用户的终端设备可以接收到用户的未戴眼镜人脸图像,该用户的终端设备可以将该用户的未戴眼镜人脸图像输入到图像生成网络中,生成用户的试戴眼镜人脸图像,例如,可以根据用户选择的希望试戴的多个眼镜,分别生成多个相应的试戴眼镜人脸图像。
根据本公开的实施例,通过未戴眼镜人脸图像与对应戴眼镜人脸图像训练得到图像生成网络,从而实现将待处理的未戴眼镜人脸图像输入该图像生成网络时,可以生成具有较高真实度的第一试戴眼镜人脸图像。
图6是根据一示例性实施例示出的一种图像生成装置的框图。参照图6,该装置包括训练模块91和生成模块92。
该训练模块91,被配置为根据未戴眼镜人脸图像和对应的戴眼镜人脸图像,训练得到图像生成网络;
该生成模块92,被配置为将待处理的未戴眼镜人脸图像输入所述图像生成网络,生成第一试戴眼镜人脸图像。
图7是根据一示例性实施例示出的一种图像生成装置的框图。参照图7,在一种可能的实现方式中,所述训练模块91包括:
训练子模块911,被配置为根据损失函数、所述未戴眼镜人脸图像和所述对应的戴眼镜人脸图像,训练判别网络和生成网络,所述判别网络用于判断输入的图像与所述对应的戴眼镜人脸图像的一致性;
确定子模块912,被配置为重复训练所述生成网络和所述判别网络,在训练次数达到预设阈值或所述判别网络输出的判别结果处于收敛时,将当前的生成网络确定为所述图像生成网络;
其中,所述损失函数由所述生成网络、所述判别网络以及图像的像素点的权重确定;所述像素点的权重由所述像素点与目标像素点的距离确定。
在一种可能的实现方式中,所述训练子模块911还被配置为:
将所述未戴眼镜人脸图像输入到生成网络中,生成第二试戴眼镜人脸图像;
将所述第二试戴眼镜人脸图像输入到判别网络中,得到第一判别结果;
将所述对应的戴眼镜人脸图像输入到判别网络中,得到第二判别结果;
计算所述对应的戴眼镜人脸图像与所述第二试戴眼镜人脸图像之间的距离损失结果;
根据所述第一判别结果、所述第二判别结果、所述距离损失结果以及所述图像的像素点的权重,通过所述损失函数计算得到损失;
根据所述损失,调整所述判别网络或生成网络中的参数的权重。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种图像生成装置的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (6)
1.一种图像生成方法,其特征在于,包括:
根据未戴眼镜人脸图像和对应的戴眼镜人脸图像,训练得到图像生成网络;
将待处理的未戴眼镜人脸图像输入所述图像生成网络,生成第一试戴眼镜人脸图像;
根据未戴眼镜人脸图像和对应的戴眼镜人脸图像,训练得到图像生成网络,包括:
根据损失函数、所述未戴眼镜人脸图像和所述对应的戴眼镜人脸图像,训练判别网络和生成网络,所述判别网络用于判断输入的图像与所述对应的戴眼镜人脸图像的一致性;
重复训练所述生成网络和所述判别网络,在训练次数达到预设阈值或所述判别网络输出的判别结果处于收敛时,将当前的生成网络确定为所述图像生成网络;
其中,所述损失函数由所述生成网络、所述判别网络以及图像的像素点的权重确定;所述像素点的权重由所述像素点与目标像素点的距离确定,所述目标像素点为图像中眼睛区域的像素点。
2.根据权利要求1所述的方法,其特征在于,根据损失函数、所述未戴眼镜人脸图像和所述对应的戴眼镜人脸图像,训练判别网络和生成网络,包括:
将所述未戴眼镜人脸图像输入到生成网络中,生成第二试戴眼镜人脸图像;
将所述第二试戴眼镜人脸图像输入到判别网络中,得到第一判别结果;
将所述对应的戴眼镜人脸图像输入到判别网络中,得到第二判别结果;
计算所述对应的戴眼镜人脸图像与所述第二试戴眼镜人脸图像之间的距离损失结果;
根据所述第一判别结果、所述第二判别结果、所述距离损失结果以及所述图像的像素点的权重,通过所述损失函数计算得到损失;
根据所述损失,调整所述判别网络或生成网络中的参数的权重。
3.一种图像生成装置,其特征在于,包括:
训练模块,用于根据未戴眼镜人脸图像和对应的戴眼镜人脸图像,训练得到图像生成网络;
生成模块,用于将待处理的未戴眼镜人脸图像输入所述图像生成网络,生成第一试戴眼镜人脸图像;
所述训练模块包括:
训练子模块,用于根据损失函数、所述未戴眼镜人脸图像和所述对应的戴眼镜人脸图像,训练判别网络和生成网络,所述判别网络用于判断输入的图像与所述对应的戴眼镜人脸图像的一致性;
确定子模块,用于重复训练所述生成网络和所述判别网络,在训练次数达到预设阈值或所述判别网络输出的判别结果处于收敛时,将当前的生成网络确定为所述图像生成网络;
其中,所述损失函数由所述生成网络、所述判别网络以及图像的像素点的权重确定;所述像素点的权重由所述像素点与目标像素点的距离确定,所述目标像素点为图像中眼睛区域的像素点。
4.根据权利要求3所述的装置,其特征在于,所述训练子模块还用于:
将所述未戴眼镜人脸图像输入到生成网络中,生成第二试戴眼镜人脸图像;
将所述第二试戴眼镜人脸图像输入到判别网络中,得到第一判别结果;
将所述对应的戴眼镜人脸图像输入到判别网络中,得到第二判别结果;
计算所述对应的戴眼镜人脸图像与所述第二试戴眼镜人脸图像之间的距离损失结果;
根据所述第一判别结果、所述第二判别结果、所述距离损失结果以及所述图像的像素点的权重,通过所述损失函数计算得到损失;
根据所述损失,调整所述判别网络或生成网络中的参数的权重。
5.一种图像生成装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行权利要求1或2所述的方法。
6.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由处理器执行时,使得处理器能够执行根据权利要求1或2所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711123279.2A CN107845062B (zh) | 2017-11-14 | 2017-11-14 | 图像生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711123279.2A CN107845062B (zh) | 2017-11-14 | 2017-11-14 | 图像生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107845062A CN107845062A (zh) | 2018-03-27 |
CN107845062B true CN107845062B (zh) | 2021-08-17 |
Family
ID=61678861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711123279.2A Active CN107845062B (zh) | 2017-11-14 | 2017-11-14 | 图像生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107845062B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753850B (zh) * | 2017-11-03 | 2022-10-25 | 富士通株式会社 | 面部识别模型的训练方法和训练设备 |
CN110399764A (zh) * | 2018-04-24 | 2019-11-01 | 华为技术有限公司 | 人脸识别方法、装置及计算机可读介质 |
CN108595916B (zh) * | 2018-05-10 | 2020-10-20 | 浙江工业大学 | 基于生成对抗网络的基因表达全谱推断方法 |
CN108776959B (zh) * | 2018-07-10 | 2021-08-06 | Oppo(重庆)智能科技有限公司 | 图像处理方法、装置及终端设备 |
CN109615593A (zh) * | 2018-11-29 | 2019-04-12 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN110021052B (zh) * | 2019-04-11 | 2023-05-30 | 北京百度网讯科技有限公司 | 用于生成眼底图像生成模型的方法和装置 |
CN110991325A (zh) * | 2019-11-29 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、图像识别的方法以及相关装置 |
CN111861949B (zh) * | 2020-04-21 | 2023-07-04 | 北京联合大学 | 一种基于生成对抗网络的多曝光图像融合方法及系统 |
JP6856965B1 (ja) * | 2020-11-27 | 2021-04-14 | 株式会社ネフロック | 画像出力装置及び画像出力方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034079A (zh) * | 2009-09-24 | 2011-04-27 | 汉王科技股份有限公司 | 眼镜遮挡下的人脸识别方法和系统 |
CN105184253A (zh) * | 2015-09-01 | 2015-12-23 | 北京旷视科技有限公司 | 一种人脸识别方法和人脸识别系统 |
CN105975920A (zh) * | 2016-04-28 | 2016-09-28 | 上海交通大学 | 一种眼镜试戴方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740876B (zh) * | 2014-12-10 | 2019-11-22 | 阿里巴巴集团控股有限公司 | 一种图像预处理方法及装置 |
CN106127253B (zh) * | 2016-06-27 | 2019-04-05 | 北京航空航天大学 | 一种利用样本特征学习分类的红外弱小目标检测方法 |
CN107103590B (zh) * | 2017-03-22 | 2019-10-18 | 华南理工大学 | 一种基于深度卷积对抗生成网络的图像反射去除方法 |
-
2017
- 2017-11-14 CN CN201711123279.2A patent/CN107845062B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034079A (zh) * | 2009-09-24 | 2011-04-27 | 汉王科技股份有限公司 | 眼镜遮挡下的人脸识别方法和系统 |
CN105184253A (zh) * | 2015-09-01 | 2015-12-23 | 北京旷视科技有限公司 | 一种人脸识别方法和人脸识别系统 |
CN105975920A (zh) * | 2016-04-28 | 2016-09-28 | 上海交通大学 | 一种眼镜试戴方法及系统 |
Non-Patent Citations (3)
Title |
---|
GeneGAN: Learning Object Transfiguration and Attribute Subspace from Unpaired Data;Shuchang Zhou 等;《arXiv:1705.04932v1》;20170514;全文 * |
Generative adversarial nets;Ian J. Goodfellow 等;《Advances in Neural Information Processing Systems (NIPS)》;20141231;全文 * |
Learning to Discover Cross-Domain Relations with Generative Adversarial Networks;Taeksoo Kim 等;《Proceedings of the 34 th International Conference on Machine Learning》;20170831;第70卷;论文第1-7页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107845062A (zh) | 2018-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107845062B (zh) | 图像生成方法及装置 | |
CN109670397B (zh) | 人体骨骼关键点的检测方法、装置、电子设备及存储介质 | |
CN108121952B (zh) | 人脸关键点定位方法、装置、设备及存储介质 | |
CN106651955B (zh) | 图片中目标物的定位方法及装置 | |
CN107945133B (zh) | 图像处理方法及装置 | |
CN106331504B (zh) | 拍摄方法及装置 | |
CN106778773B (zh) | 图片中目标物的定位方法及装置 | |
JP2021526698A (ja) | 画像生成方法および装置、電子機器、並びに記憶媒体 | |
CN107944367B (zh) | 人脸关键点检测方法及装置 | |
CN107133354B (zh) | 图像描述信息的获取方法及装置 | |
CN106557759B (zh) | 一种标志牌信息获取方法及装置 | |
CN109756723B (zh) | 获取影像的方法和装置,存储介质和电子设备 | |
CN105335684B (zh) | 人脸检测方法及装置 | |
CN109599104B (zh) | 多波束选取方法及装置 | |
CN107220614B (zh) | 图像识别方法、装置及计算机可读存储介质 | |
CN107341509B (zh) | 卷积神经网络的训练方法、装置及可读存储介质 | |
KR20160108827A (ko) | 이미지 필터를 생성하기 위한 방법 및 장치 | |
CN110569822A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
KR101979650B1 (ko) | 서버 및 그것의 동작 방법 | |
CN107133577B (zh) | 一种指纹识别方法和装置 | |
CN112188091B (zh) | 人脸信息识别方法、装置、电子设备及存储介质 | |
CN107424130B (zh) | 图片美颜方法和装置 | |
CN106980836B (zh) | 身份验证方法及装置 | |
CN109447258B (zh) | 神经网络模型的优化方法及装置、电子设备和存储介质 | |
CN110674932A (zh) | 一种二阶段卷积神经网络目标检测网络训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |