CN112967180B - 一种生成对抗网络的训练方法、图像风格转换方法和装置 - Google Patents
一种生成对抗网络的训练方法、图像风格转换方法和装置 Download PDFInfo
- Publication number
- CN112967180B CN112967180B CN202110288532.XA CN202110288532A CN112967180B CN 112967180 B CN112967180 B CN 112967180B CN 202110288532 A CN202110288532 A CN 202110288532A CN 112967180 B CN112967180 B CN 112967180B
- Authority
- CN
- China
- Prior art keywords
- image
- style
- layer
- network
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 94
- 238000012549 training Methods 0.000 title claims abstract description 71
- 230000001815 facial effect Effects 0.000 claims abstract description 103
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims description 31
- 210000000697 sensory organ Anatomy 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 210000000056 organ Anatomy 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种生成对抗网络的训练方法、图像风格转换方法和装置,该训练方法包括:获取原始风格的待训练图像;利用待训练图像对生成对抗网络进行训练,以获得训练后的生成对抗网络;其中,生成对抗网络中的生成网络包括卷积层、风格转换层、反卷积层和人脸五官专注层,卷积层用于对待训练图像进行卷积运算,风格转换层用于将初始特征图转换成目标风格的中间特征图,反卷积层用于对中间特征图进行反卷积运算,人脸五官专注层用于在对中间特征图进行反卷积运算的过程中,对中间特征图中的像素值进行权重分布,以突出中间特征图中的人脸五官特征。本申请实施例解决了现有技术中存在着的无法辨别图像风格转换前后是否还是同一个人的问题。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种生成对抗网络的训练方法、图像风格转换方法和装置。
背景技术
现实生活的应用中,存在许多不同的成像模式和相应的风格图像,有时为了特定的场景需求,经常需要进行图像风格的转变。
目前,虽然现有的图像风格转换方法能够实现图像风格的转换,但是,在转换的过程中,容易被风格影响到原来的内容,导致风格转换后的图像中的人脸五官被某种程度的修改,进而难以确认图像风格转换前后是否还是同一个人。
发明内容
本申请实施例的目的在于提供一种生成对抗网络的训练方法、图像风格转换方法和装置,以解决了现有技术中存在着的无法辨别图像风格转换前后是否还是同一个人的问题。
第一方面,本申请实施例提供了一种生成对抗网络的训练方法,该训练方法包括:获取原始风格的待训练图像;利用待训练图像对生成对抗网络进行训练,以获得训练后的生成对抗网络;
其中,生成对抗网络包括生成网络,生成网络包括卷积层、风格转换层、反卷积层和人脸五官专注层,卷积层用于对待训练图像进行卷积运算,以获得原始风格的初始特征图,风格转换层用于将初始特征图转换成目标风格的中间特征图,反卷积层用于对中间特征图进行反卷积运算,以获得目标风格的输出图像,人脸五官专注层用于在通过反卷积层对中间特征图进行反卷积运算的过程中,对中间特征图中的像素值进行权重分布,以突出中间特征图中的人脸五官特征。
因此,本申请实施例通过生成网络中的人脸五官专注层对中间特征图中的像素值进行权重分布,对中间特征图中的人脸五官特征来做加强,从而使得生成网络更有效保留五官的特征跟风格,进而解决了现有技术中存在着的无法辨别图像风格转换前后是否还是同一个人的问题。
在一个可能的实施例中,生成对抗网络还包括判别网络,判别网络包括图像处理层和人脸五官识别层;
其中,利用待训练图像对生成对抗网络进行训练,以获得训练后的生成对抗网络,包括:获取与待训练图像对应的目标风格的目标图像;通过图像处理层分别对输出图像和目标图像进行屏蔽处理,以获得输出图像中的人脸五官图像和目标图像中的人脸五官图像;通过人脸五官识别层对输出图像中的人脸五官图像和目标图像中的人脸五官图像进行人脸五官的识别,以确定输出图像中的人脸五官图像和目标图像中的人脸五官图像的五官相似值。
在一个可能的实施例中,判别网络还包括风格转换识别层;
其中,利用待训练图像对生成对抗网络进行训练,以获得训练后的生成对抗网络,还包括:通过风格转换识别层对输出图像和目标图像进行图像风格的识别,以获得输出图像和目标图像的图像风格相似值。
在一个可能的实施例中,利用待训练图像对生成对抗网络进行训练,以获得训练后的生成对抗网络,还包括:根据五官相似值和图像风格相似值,对生成对抗网络的参数进行调整。
第二方面,本申请实施例提供了一种图像风格转换方法,该图像风格转换方法包括:获取原始风格的待转换图像;通过预先训练好的生成对抗网络中的生成网络对待转换图像的图像风格进行转换,以获得目标风格的重建图像,其中,预先训练好的生成对抗网络为通过第一方面中任一项的生成对抗网络的训练方法训练后得到的。
第三方面,本申请实施例提供了一种生成对抗网络的训练装置,该训练装置包括:第一获取模块,用于获取原始风格的待训练图像;训练模块,用于利用待训练图像对生成对抗网络进行训练,以获得训练后的生成对抗网络;
其中,生成对抗网络包括生成网络,生成网络包括卷积层、风格转换层、反卷积层和人脸五官专注层,卷积层用于对待训练图像进行卷积运算,以获得原始风格的初始特征图,风格转换层用于将初始特征图转换成目标风格的中间特征图,反卷积层用于对中间特征图进行反卷积运算,以获得目标风格的输出图像,人脸五官专注层用于在通过反卷积层对中间特征图进行反卷积运算的过程中,对中间特征图中的像素值进行权重分布,以突出中间特征图中的人脸五官特征。
在一个可能的实施例中,生成对抗网络还包括判别网络,判别网络包括图像处理层和人脸五官识别层;
训练模块,具体用于:获取与待训练图像对应的目标风格的目标图像;通过图像处理层分别对输出图像和目标图像进行屏蔽处理,以获得输出图像中的人脸五官图像和目标图像中的人脸五官图像;通过人脸五官识别层对输出图像中的人脸五官图像和目标图像中的人脸五官图像进行人脸五官的识别,以确定输出图像中的人脸五官图像和目标图像中的人脸五官图像的五官相似值。
在一个可能的实施例中,判别网络还包括风格转换识别层;
训练模块,还具体用于:通过风格转换识别层对输出图像和目标图像进行图像风格的识别,以获得输出图像和目标图像的图像风格相似值。
在一个可能的实施例中,训练模块,还具体用于:根据五官相似值和图像风格相似值,对生成对抗网络的参数进行调整。
第四方面,本申请实施例提供了一种图像风格转换装置,该图像风格转换装置包括:第二获取模块,用于获取原始风格的待转换图像;转换模块,用于通过预先训练好的生成对抗网络中的生成网络对待转换图像的图像风格进行转换,以获得目标风格的重建图像,其中,预先训练好的生成对抗网络为通过第一方面中任一项的生成对抗网络的训练方法训练后得到的。
第五方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第六方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第二方面或第二方面的任一可选的实现方式所述的方法。
第七方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第八方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第二方面或第二方面的任一可选的实现方式所述的方法。
第九方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
第十方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第二方面或第二方面的任意可能的实现方式中的方法。
为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种生成对抗网络的训练方法的流程图;
图2示出了本申请实施例提供的一种生成网络的结构示意图;
图3示出了本申请实施例提供的一种判别网络的示意图;
图4示出了本申请实施例提供的一种图像风格转换方法的流程图;
图5示出了本申请实施例提供的一种生成对抗网络的训练装置的结构框图;
图6示出了本申请实施例提供的一种图像风格转换装置的结构框图;
图7是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
目前,现有的图像风格转换方法只能在特定资料上面做稳定的风格转换,就算是图像的风格转换成功了(例如,成功将红绿蓝RGB图像转换成近红外NIR图像),也很难确认转换的图像前后是否是相同的人。因为在转换的过程中,容易被风格影响到原来的内容,导致风格转换后的图像中的人脸五官被某种程度的修改,进而难以确认图像风格转换前后是否还是同一个人。
也就是说,现有的图像风格转换方法存在着专注在风格上面,没有去强烈保留人脸五官的内容,从而引起无法辨别图像风格转换前后是否还是同一个人的问题。
基于此,本申请实施例提供了一种生成对抗网络的训练方案,通过获取原始风格的待训练图像,并利用待训练图像对生成对抗网络进行训练,以获得训练后的生成对抗网络。其中,生成对抗网络包括生成网络,生成网络包括卷积层、风格转换层、反卷积层和人脸五官专注层,卷积层用于对待训练图像进行卷积运算,以获得原始风格的初始特征图,风格转换层用于将初始特征图转换成目标风格的中间特征图,反卷积层用于对中间特征图进行反卷积运算,以获得目标风格的输出图像,人脸五官专注层用于在通过反卷积层对中间特征图进行反卷积运算的过程中,对中间特征图中的像素值进行权重分布,以突出中间特征图中的人脸五官特征。
因此,本申请实施例通过生成网络中的人脸五官专注层对中间特征图中的像素值进行权重分布,对中间特征图中的人脸五官特征来做加强,从而使得生成网络更有效保留五官的特征跟风格,进而解决了现有技术中存在着的无法辨别图像风格转换前后是否还是同一个人的问题。
请参见图1,图1示出了本申请实施例提供的一种生成对抗网络的训练方法的流程图,应理解,图1所示的训练方法可以由生成对抗网络的训练装置执行,该训练装置可以与下文中的图5所示的装置对应,该装置可以是能够执行该方法的各种设备,例如,如个人计算机、服务器或网络设备等,本申请实施例并不限于此,具体包括如下步骤:
步骤S110,获取原始风格的训练图像集。其中,训练图像集包括原始风格的待训练图像、和与待训练图像对应的目标风格的目标图像。
应理解,原始风格对应的具体图像风格和目标风格对应的具体图像风格均可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,原始风格的图像可以为RGB图像。
再例如,目标风格的图像可以为NIR图像。
还应理解,目标图像可以是指将待训练图像成功转换成目标风格后的图像,即目标图像可以看作是真实图像。
步骤S120,利用训练图像集对生成对抗网络进行训练,以获得训练后的生成对抗网络。
应理解,生成对抗网络包括生成网络和判别网络,并且生成网络的具体结构可根据实际需求来进行设置,本申请实施例并不局限于此。
可选地,请参见图2,图2示出了本申请实施例提供的一种生成网络的结构示意图。如图2所示的生成网络包括卷积层、风格转换层、反卷积层和人脸五官专注层。其中,风格转换层分别与卷积层和反卷积层连接,且反卷积层还与人脸五官专注层连接。
此外,卷积层用于对输入到卷积层中的图像(例如,待训练图像或者待转换图像)进行卷积运算,以获得初始特征图,即可通过卷积层学习到一些重要特征;风格转换层用于将初始特征图转换成目标风格的中间特征图,即可将初始特征图当作风格转换层的输入,然后可通过风格转换层学习初始特征图的风格特色,并学习如何转换到目标风格;反卷积层用于对中间特征图进行反卷积运算,以获得输出图像,且此时输出图像可以是目标风格的(例如,在生成网络是训练好的生成网络的情况下,输出图像的风格可以是目标风格),也可以是近似目标风格的(例如,在生成网络是未训练好的生成网络的情况下,输出图像的风格可以是近似目标风格的),即可通过反卷积层来对输出图像进行上采样以获得输出图像;人脸五官专注层用于在通过反卷积层对中间特征图进行反卷积运算的过程中,对中间特征图进行权重分布,以突出中间特征图中的人脸五官特征,即在反卷积预算的过程中,可通过人脸五官专注层来关注中间特征图的重点权重部分(例如,人脸五官对应的区域为重点权重部分,即人脸五官对应的区域为权重比较高的部分),通过这样来保留人脸五官的细节。
应理解,卷积层的具体层、风格转换层的具体层、反卷积层的具体层和人脸五官专注层的具体层均可根据实际需求来进行进行设置,本申请实施例并不局限于此。
例如,人脸五官专注层可以为基于空间的注意力模块。
再例如,人脸五官专注层可包括一卷积层和一softmax层。
再例如,风格转换层内部可设置一些残差网络层(即resnet block),以通过这些残差网络层来学习如何转换风格。
因此,本申请实施例通过在生成网络中加入该人脸五官专注层,可以使得生成网络能够得到更为凸显人脸五官特征的输出图像。
还应理解,判别网络的具体结构也可根据实际需求来进行设置,本申请实施例并不局限于此。
可选地,请参见图3,图3示出了本申请实施例提供的一种判别网络的示意图。如图3所示的判别网络包括图像处理层、人脸五官识别层和风格转换识别层。其中,图像处理层和人脸五官识别层为判别网络的其中一个分支,风格转换识别层为判别网络的另外一个分支。
此外,图像处理层用于对输入到图像处理层中的图像(例如,生成网络的输出图像和目标图像)进行屏蔽处理,从而获得图像中的人体五官图像,即通过图像处理层分别对输出图像和目标图像进行屏蔽处理(或者遮罩处理),以获得输出图像中的人脸五官图像和目标图像中的人脸五官图像;人脸五官识别层用于对输出图像中的人脸五官图像和目标图像中的人脸五官图像进行人脸五官的识别,以确定输出图像中的人脸五官图像和目标图像中的人脸五官图像的五官相似值,即可将输出图像中的人脸五官图像和目标图像中的人脸五官图像当作人脸五官识别层的输入,以获得五官相似值,且该五官相似值可表示输出图像中的人脸五官和目标图像中的人脸五官的相似程度,从而后续可利用该五官相似值作为损失函数来调整生成网络,以使生成网络在进行图像风格转换时保留个人的五官特征。
也就是说,人脸五官识别层用于确认输出图像中的五官与待训练图像(或者待转换图像)中的五官是否一致。
应理解,图像处理层进行屏蔽处理的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,人体五官图像要通过输入到图像处理层中的图像和预先设置好的屏蔽图片相乘来获得。
还应理解,图像处理层的具体层结构和人脸五官识别层的具体层结构均可根据实际需求来进行设置,本申请实施例并不局限于此。
另外,风格转换识别层用于对输出图像和目标图像(即真实图像)进行图像风格的识别,以获得输出图像和目标图像的图像风格相似值,且该图像风格相似值可以为表示真实分布的对数值,从而可利用图像风格相似值。
也就是说,风格转换识别层用于确认输出图像和目标图像的相似程度。
应理解,风格转换识别层的具体层结构也可根据实际需求来进行设置,本申请实施例并不局限于此。
为了便于理解本申请实施例,下面通过具体的实施例来进行设置。
具体地,可将待训练图像作为生成对抗网络中的生成网络的输入,并可将生成网络输出的输出图像和目标图像作为生成对抗网络中的判别网络的输入,对生成对抗网络进行迭代训练,以得到训练后的生成对抗网络。
还应理解,对生成对抗网络进行迭代训练的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,可将待训练图像作为生成网络的输入,从而获得输出图像,并可将输出图像和目标图像作为判别网络的输入,从而获得五官相似值和图像风格相似值。以及,还可通过五官相似值和图像风格相似值,对生成对抗网络的参数进行调整。
还应理解,通过五官相似值和图像风格相似值,对生成对抗网络的参数进行调整的具体过程可根据实际需求来进行设置。
例如,在五官相似值小于第一阈值的情况下,可认为此时生成网络的人脸五官保留的性能还没有达到预设的性能,从而可对生成网络的参数进行调整。
再例如,在图像风格相似值小于第二阈值的情况下,可认为此时生成网络的图像转换性能还没有到达预设的性能,从而可对生成网络的参数进行调整。
还应理解,第一阈值的具体值和第二阈值的具体值均可根据实际需求来进行设置,本申请实施例并不局限于此。
这里需要说明的是,对于风格转换识别层来说,风格转换识别层会有想要生成的真实图像(即目标图像)和通过生成网络生成的风格转换图像(例如,输出图像)来让风格转换识别层学习真假判断,最后通过输出的结果来当损失值,以更新参数;对于人脸五官识别层来说,人脸五官识别层会有想要生成的真实五官图片(即目标图像中的人脸五官图像)和通过生成网络获得的五官图像(例如,输出图像中的人脸五官图像)来让人脸五官识别层学习真假判断,最后通过输出的结果来当损失值,以更新参数。
这里还需要说明的是,本申请实施例对生成网络的优化有一致性损失,其是目标图像跟输出图像在判别网络的均方差损失(例如,用于判断输出图像中五官保留效果的五官相似值),随后在通过均方差损失来确认图像转换过程中的保持原色彩。对于判别网络的优化目标是目标图像跟输出图像的图像风格相似值,再来针对生成网络的优化目标是通过人脸五官识别层来确认五官相似值。
这里还需要说明的是,本申请实施例可以应用于人脸辨识的训练,基本上使用的过程可以是将多个待训练图像作为输入图像,然后可利用预先训练好的生成网络来产生风格转换后的目标图像,从而风格转换后的目标图像就可以来当作人脸辨识训练的样本集,这样就可以补充原本的风格转换图像和输出图像的数量差距很大的问题,然后因为增加了很多风格转换的图像,使得人脸辨识模型具有更强的鲁棒性。
这里还需要说明的是,本申请实施例还可应用到注册人脸资料的场景,并且具有两大优点:其中一个是基本上人都会需要在机器前面做注册获得目标风格的图像,并且通过本申请实施例的方案就可实现远端注册;另外一个是当大量的人员需要注册的时候,通过本申请实施例的方案也可很快地实现,不需要人员一直在机器上等待,从而也可以提高图像转换风格的转换效率。
这里还需要说明的是,因为NIR图片是比较不受光线影响的,所以通过本申请实施例的方案也可以在某种程度上减少光线的影响。
因此,本申请实施例通过生成网络中的人脸五官专注层对中间特征图中的像素值进行权重分布,对中间特征图中的人脸五官特征来做加强,从而使得生成网络更有效保留五官的特征跟风格,进而解决了现有技术中存在着的无法辨别图像风格转换前后是否还是同一个人的问题。
应理解,上述生成对抗网络的训练方法仅是示例性的,本领域技术人员根据上述的方法可以进行各种变形,修改或变形之后的内容也在本申请保护范围内。
请参见图4,图4示出了本申请实施例提供的一种图像风格转换方法的流程图,应理解,图4所示的方法可以由图像风格转换方法的装置执行,该装置可以与下文中的图6所示的装置对应,该装置可以是能够执行该方法的各种设备,例如,如个人计算机、服务器或网络设备等,本申请实施例并不限于此,具体包括如下步骤:
步骤S410,获取原始风格的待转换图像。
应理解,原始风格的具体风格可根据实际需求来进行设置,本申请实施例并不局限于此。
步骤S420,通过预先训练好的生成对抗网络中的生成网络对待转换图像的图像风格进行转换,以获得目标风格的重建图像。
应理解,目标风格的具体风格可根据实际需求来进行设置,本申请实施例并不局限于此。
还应理解,预先训练好的生成对抗网络可以是通过图1所示的生成对抗网络的训练方法训练后获得的,具体可参见图1至图3的相关描述,在此不再重复赘述。
应理解,上述图像风格转换方法仅是示例性的,本领域技术人员根据上述的方法可以进行各种变形,修改或变形之后的内容也在本申请保护范围内。
请参见图5,图5示出了本申请实施例提供的一种生成对抗网络的训练装置500的结构框图,应理解,该训练装置500与上述图1的方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该训练装置500具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该训练装置500包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在训练装置500的操作系统(operating system,OS)中的软件功能模块。具体地,该训练装置500包括:
第一获取模块510,用于获取原始风格的待训练图像;
训练模块520,用于利用待训练图像对生成对抗网络进行训练,以获得训练后的生成对抗网络;
其中,生成对抗网络包括生成网络,生成网络包括卷积层、风格转换层、反卷积层和人脸五官专注层,卷积层用于对待训练图像进行卷积运算,以获得原始风格的初始特征图,风格转换层用于将初始特征图转换成目标风格的中间特征图,反卷积层用于对中间特征图进行反卷积运算,以获得目标风格的输出图像,人脸五官专注层用于在通过反卷积层对中间特征图进行反卷积运算的过程中,对中间特征图中的像素值进行权重分布,以突出中间特征图中的人脸五官特征。
在一个可能的实施例中,生成对抗网络还包括判别网络,判别网络包括图像处理层和人脸五官识别层;
训练模块520,具体用于:获取与待训练图像对应的目标风格的目标图像;通过图像处理层分别对输出图像和目标图像进行屏蔽处理,以获得输出图像中的人脸五官图像和目标图像中的人脸五官图像;通过人脸五官识别层对输出图像中的人脸五官图像和目标图像中的人脸五官图像进行人脸五官的识别,以确定输出图像中的人脸五官图像和目标图像中的人脸五官图像的五官相似值。
在一个可能的实施例中,判别网络还包括风格转换识别层;训练模块520,还具体用于:通过风格转换识别层对输出图像和目标图像进行图像风格的识别,以获得输出图像和目标图像的图像风格相似值。
在一个可能的实施例中,训练模块520,还具体用于:根据五官相似值和图像风格相似值,对生成对抗网络的参数进行调整。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
请参见图6,图6示出了本申请实施例提供的一种图像风格转换装置600的结构框图,应理解,该图像风格转换装置600与上述图4的方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该图像风格转换装置600具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该图像风格转换装置600包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在图像风格转换装置600的操作系统(operatingsystem,OS)中的软件功能模块。具体地,该图像风格转换装置600包括:
第二获取模块610,用于获取原始风格的待转换图像;
转换模块620,用于通过预先训练好的生成对抗网络中的生成网络对待转换图像的图像风格进行转换,以获得目标风格的重建图像,其中,预先训练好的生成对抗网络为通过图1所示的生成对抗网络的训练方法训练后得到的。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
请参见图7,图7是本申请实施例提供的一种电子设备700的结构框图。电子设备700可以包括处理器710、通信接口720、存储器730和至少一个通信总线740。其中,通信总线740用于实现这些组件直接的连接通信。其中,本申请实施例中的通信接口720用于与其他设备进行信令或数据的通信。处理器710可以是一种集成电路芯片,具有信号的处理能力。上述的处理器710可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器710也可以是任何常规的处理器等。
存储器730可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器730中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器710执行时,电子设备700可以执行上述方法实施例中的各个步骤。
电子设备700还可以包括存储控制器、输入输出单元、音频单元、显示单元。
所述存储器730、存储控制器、处理器710、外设接口、输入输出单元、音频单元、显示单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线740实现电性连接。所述处理器710用于执行存储器730中存储的可执行模块。并且,电子设备700用于执行图1所示的方法或者执行图4所示的方法。
音频单元向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元在所述电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
可以理解,图7所示的结构仅为示意,所述电子设备700还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。
本申请还提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行方法实施例所述的方法。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种生成对抗网络的训练方法,其特征在于,包括:
获取原始风格的待训练图像;
利用所述待训练图像对所述生成对抗网络进行训练,以获得训练后的生成对抗网络;
其中,所述生成对抗网络包括生成网络,所述生成网络包括卷积层、风格转换层、反卷积层和人脸五官专注层,所述卷积层用于对所述待训练图像进行卷积运算,以获得所述原始风格的初始特征图,所述风格转换层用于将所述初始特征图转换成目标风格的中间特征图,所述反卷积层用于对所述中间特征图进行反卷积运算,以获得所述目标风格的输出图像,所述人脸五官专注层用于在通过所述反卷积层对所述中间特征图进行反卷积运算的过程中,对所述中间特征图中的像素值进行权重分布,以突出所述中间特征图中的人脸五官特征;
其中,所述生成对抗网络还包括判别网络,所述判别网络包括图像处理层和人脸五官识别层;并且
其中,所述利用所述待训练图像对所述生成对抗网络进行训练,以获得训练后的生成对抗网络,包括:获取与所述待训练图像对应的目标风格的目标图像;通过所述图像处理层分别对所述输出图像和所述目标图像进行屏蔽处理,以获得所述输出图像中的人脸五官图像和所述目标图像中的人脸五官图像;通过所述人脸五官识别层对所述输出图像中的人脸五官图像和所述目标图像中的人脸五官图像进行人脸五官的识别,以确定所述输出图像中的人脸五官图像和所述目标图像中的人脸五官图像的五官相似值。
2.根据权利要求1所述的训练方法,其特征在于,所述判别网络还包括风格转换识别层;
其中,所述利用所述待训练图像对所述生成对抗网络进行训练,以获得训练后的生成对抗网络,还包括:
通过所述风格转换识别层对所述输出图像和所述目标图像进行图像风格的识别,以获得所述输出图像和所述目标图像的图像风格相似值。
3.根据权利要求2所述的训练方法,其特征在于,所述利用所述待训练图像对所述生成对抗网络进行训练,以获得训练后的生成对抗网络,还包括:
根据所述五官相似值和所述图像风格相似值,对所述生成对抗网络的参数进行调整。
4.一种图像风格转换方法,其特征在于,包括:
获取原始风格的待转换图像;
通过预先训练好的生成对抗网络中的生成网络对所述待转换图像的图像风格进行转换,以获得目标风格的重建图像,其中,所述预先训练好的生成对抗网络为通过权利要求1-3任一项所述的生成对抗网络的训练方法训练后得到的。
5.一种生成对抗网络的训练装置,其特征在于,包括:
第一获取模块,用于获取原始风格的待训练图像;
训练模块,用于利用所述待训练图像对所述生成对抗网络进行训练,以获得训练后的生成对抗网络;
其中,所述生成对抗网络包括生成网络,所述生成网络包括卷积层、风格转换层、反卷积层和人脸五官专注层,所述卷积层用于对所述待训练图像进行卷积运算,以获得所述原始风格的初始特征图,所述风格转换层用于将所述初始特征图转换成目标风格的中间特征图,所述反卷积层用于对所述中间特征图进行反卷积运算,以获得所述目标风格的输出图像,所述人脸五官专注层用于在通过所述反卷积层对所述中间特征图进行反卷积运算的过程中,对所述中间特征图中的像素值进行权重分布,以突出所述中间特征图中的人脸五官特征;
其中,所述生成对抗网络还包括判别网络,所述判别网络包括图像处理层和人脸五官识别层;并且
其中,所述训练模块具体用于:获取与所述待训练图像对应的目标风格的目标图像;通过所述图像处理层分别对所述输出图像和所述目标图像进行屏蔽处理,以获得所述输出图像中的人脸五官图像和所述目标图像中的人脸五官图像;通过所述人脸五官识别层对所述输出图像中的人脸五官图像和所述目标图像中的人脸五官图像进行人脸五官的识别,以确定所述输出图像中的人脸五官图像和所述目标图像中的人脸五官图像的五官相似值。
6.根据权利要求5所述的训练装置,其特征在于,所述判别网络还包括风格转换识别层;
所述训练模块,还具体用于:通过所述风格转换识别层对所述输出图像和所述目标图像进行图像风格的识别,以获得所述输出图像和所述目标图像的图像风格相似值。
7.根据权利要求6所述的训练装置,其特征在于,所述训练模块,还具体用于:根据所述五官相似值和所述图像风格相似值,对所述生成对抗网络的参数进行调整。
8.一种图像风格转换装置,其特征在于,包括:
第二获取模块,用于获取原始风格的待转换图像;
转换模块,用于通过预先训练好的生成对抗网络中的生成网络对所述待转换图像的图像风格进行转换,以获得目标风格的重建图像,其中,所述预先训练好的生成对抗网络为通过权利要求1-3任一项所述的生成对抗网络的训练方法训练后得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110288532.XA CN112967180B (zh) | 2021-03-17 | 2021-03-17 | 一种生成对抗网络的训练方法、图像风格转换方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110288532.XA CN112967180B (zh) | 2021-03-17 | 2021-03-17 | 一种生成对抗网络的训练方法、图像风格转换方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112967180A CN112967180A (zh) | 2021-06-15 |
CN112967180B true CN112967180B (zh) | 2023-12-22 |
Family
ID=76279188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110288532.XA Active CN112967180B (zh) | 2021-03-17 | 2021-03-17 | 一种生成对抗网络的训练方法、图像风格转换方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112967180B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628148B (zh) * | 2021-09-17 | 2024-05-10 | 福建库克智能科技有限公司 | 红外图像降噪方法和装置 |
CN114596615B (zh) * | 2022-03-04 | 2023-05-05 | 湖南中科助英智能科技研究院有限公司 | 基于对抗学习的人脸活体检测方法、装置、设备及介质 |
CN117576245B (zh) * | 2024-01-15 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 一种图像的风格转换方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308681A (zh) * | 2018-09-29 | 2019-02-05 | 北京字节跳动网络技术有限公司 | 图像处理方法和装置 |
CN109410131A (zh) * | 2018-09-28 | 2019-03-01 | 杭州格像科技有限公司 | 基于条件生成对抗神经网络的人脸美颜方法及系统 |
CN110738153A (zh) * | 2019-09-30 | 2020-01-31 | 汉王科技股份有限公司 | 异质人脸图像转换方法、装置、电子设备及存储介质 |
CN111340720A (zh) * | 2020-02-14 | 2020-06-26 | 云南大学 | 一种基于语义分割的套色木刻版画风格转换算法 |
CN111583097A (zh) * | 2019-02-18 | 2020-08-25 | 北京三星通信技术研究有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
US10762650B1 (en) * | 2019-09-13 | 2020-09-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | System and method for estimating depth using a monocular camera |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163048B (zh) * | 2018-07-10 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 手部关键点的识别模型训练方法、识别方法及设备 |
-
2021
- 2021-03-17 CN CN202110288532.XA patent/CN112967180B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410131A (zh) * | 2018-09-28 | 2019-03-01 | 杭州格像科技有限公司 | 基于条件生成对抗神经网络的人脸美颜方法及系统 |
CN109308681A (zh) * | 2018-09-29 | 2019-02-05 | 北京字节跳动网络技术有限公司 | 图像处理方法和装置 |
CN111583097A (zh) * | 2019-02-18 | 2020-08-25 | 北京三星通信技术研究有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
US10762650B1 (en) * | 2019-09-13 | 2020-09-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | System and method for estimating depth using a monocular camera |
CN110738153A (zh) * | 2019-09-30 | 2020-01-31 | 汉王科技股份有限公司 | 异质人脸图像转换方法、装置、电子设备及存储介质 |
CN111340720A (zh) * | 2020-02-14 | 2020-06-26 | 云南大学 | 一种基于语义分割的套色木刻版画风格转换算法 |
Also Published As
Publication number | Publication date |
---|---|
CN112967180A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112967180B (zh) | 一种生成对抗网络的训练方法、图像风格转换方法和装置 | |
Zhou et al. | Semantic-supervised infrared and visible image fusion via a dual-discriminator generative adversarial network | |
CN113222916A (zh) | 采用目标检测模型检测图像的方法、装置、设备和介质 | |
CN108416343B (zh) | 一种人脸图像识别方法及装置 | |
CN113191495A (zh) | 超分模型的训练及人脸识别方法、装置、介质及电子设备 | |
CN113177449B (zh) | 人脸识别的方法、装置、计算机设备及存储介质 | |
CN111062426A (zh) | 一种建立训练集的方法、装置、电子设备以及介质 | |
KR20220100812A (ko) | 안면 생체 검출 방법, 장치, 전자 기기 및 저장 매체 | |
US10885308B2 (en) | Method and apparatus for evaluating illumination condition in face image | |
Huo et al. | High‐dynamic range image generation from single low‐dynamic range image | |
CN108304815A (zh) | 一种数据获取方法、装置、服务器及存储介质 | |
CN110555334A (zh) | 人脸特征确定方法、装置、存储介质及电子设备 | |
TWI803243B (zh) | 圖像擴增方法、電腦設備及儲存介質 | |
CN109493296A (zh) | 图像增强方法、装置、电子设备及计算机可读介质 | |
CN112149570A (zh) | 多人活体检测方法、装置、电子设备及存储介质 | |
JP7176616B2 (ja) | 画像処理システム、画像処理装置、画像処理方法、及び画像処理プログラム | |
WO2015010559A1 (en) | Devices, terminals and methods for image processing | |
Wang et al. | Salient video object detection using a virtual border and guided filter | |
CN113516697A (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN104851114B (zh) | 一种实现图像局部变色的方法及终端 | |
JP2018180879A (ja) | 物体認識装置、物体認識システム、及び物体認識方法 | |
CN111666884A (zh) | 活体检测方法、装置、计算机可读介质及电子设备 | |
CN113674230B (zh) | 一种室内逆光人脸关键点的检测方法及装置 | |
CN114821730A (zh) | 人脸识别方法、装置、设备及计算机可读存储介质 | |
CN112052863B (zh) | 一种图像检测方法及装置、计算机存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |