CN112150489A - 图像的风格转换方法、装置、电子设备及存储介质 - Google Patents
图像的风格转换方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112150489A CN112150489A CN202011023355.4A CN202011023355A CN112150489A CN 112150489 A CN112150489 A CN 112150489A CN 202011023355 A CN202011023355 A CN 202011023355A CN 112150489 A CN112150489 A CN 112150489A
- Authority
- CN
- China
- Prior art keywords
- style
- image
- graph
- style conversion
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 307
- 238000000034 method Methods 0.000 title claims abstract description 135
- 230000006870 function Effects 0.000 claims description 173
- 238000012549 training Methods 0.000 claims description 168
- 238000005457 optimization Methods 0.000 claims description 65
- 230000015654 memory Effects 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 13
- 230000000694 effects Effects 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种图像的风格转换方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域。具体实现方案为:检测待处理的图像中是否包括人脸;若包括,采用预训练的人脸风格转换模型和预设的风格图,对待处理的图像中的人脸区域进行风格转换,使得风格转换后的人脸区域仅携带风格图中的颜色信息,而不包括风格图中的纹理信息;采用预训练的图像风格转换模型和预设的风格图,对待处理的图像中的人脸区域之外的其他区域进行风格转换。本申请的方案,能够在待处理的图像中包括人脸的时候,对人脸区域和其他区域进行不同的风格转换,能够有效地保证人脸区域的清晰度,提高图像风格转换的质量。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,具体涉及一种图像的风格转换方法、装置、电子设备及存储介质。
背景技术
随着用户对艺术的追求,风格化的图像越来越受到追捧。风格化的图像,即是将内容图融入风格图中的颜色、纹理等风格样式。
例如,现有技术中,图像风格化的处理过程中,可以给定一个内容图和风格图,经过神经网络后生成一幅新的图像,这幅新的图像保留了内容图的语义内容,同时还融入了风格图的颜色、纹理等风格样式,能够满足用户对个性化风格的需求。
发明内容
本申请提供了一种图像的风格转换方法、装置、电子设备及存储介质。
根据本申请的一方面,提供了一种图像的风格转换方法,其中,所述方法包括:
检测待处理的图像中是否包括人脸;
若包括,采用预训练的人脸风格转换模型和预设的风格图,对所述待处理的图像中的人脸区域进行风格转换,使得风格转换后的所述人脸区域仅携带所述风格图中的颜色信息,而不包括所述风格图中的纹理信息;
采用预训练的图像风格转换模型和预设的所述风格图,对所述待处理的图像中的所述人脸区域之外的其他区域进行风格转换。
根据本申请的另一方面,提供了一种风格转换模型的训练方法,其中,所述方法包括:
采集数条训练样本,各条所述训练样本中包括内容图、风格图以及基于优化方法得到的目标结果图;
采用各条所述训练样本,训练所述风格转换模型。
根据本申请的再一方面,提供了一种图像的风格转换装置,其中,所述装置包括:
检测模块,用于检测待处理的图像中是否包括人脸;
人脸风格转换模块,用于若包括,采用预训练的人脸风格转换模型和预设的风格图,对所述待处理的图像中的人脸区域进行风格转换,使得风格转换后的所述人脸区域仅携带所述风格图中的颜色信息,而不包括所述风格图中的纹理信息;
图像风格转换模块,用于采用预训练的图像风格转换模型和预设的所述风格图,对所述待处理的图像中的所述人脸区域之外的其他区域进行风格转换。
根据本申请的又一方面,提供了一种风格转换模型的训练装置,其中,所述装置包括:
采集模块,用于采集数条训练样本,各条所述训练样本中包括内容图、风格图以及基于优化方法得到的目标结果图;
训练模块,用于采用各条所述训练样本,训练所述风格转换模型。
根据本申请的再另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据本申请的再又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方法。
根据本申请的技术,通过先检测待处理的图像中是否包括人脸,若包括时,采用预训练的人脸风格转换模型和预设的风格图,对待处理的图像中的人脸区域进行风格转换,使得风格转换后的人脸区域仅携带风格图中的颜色信息,而不包括风格图中的纹理信息,进而可以使得风格转换后的人脸区域非常清晰;并采用预训练的图像风格转换模型和预设的风格图,对待处理的图像中的人脸区域之外的其他区域进行风格转换,能够在待处理的图像中包括人脸的时候,对人脸区域和其他区域进行不同的风格转换,能够有效地保证人脸区域的清晰度,提高图像风格转换的质量。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是根据本申请第三实施例的示意图;
图4是根据本申请第四实施例的示意图;
图5是根据本申请第五实施例的示意图;
图6是根据本申请第六实施例的示意图;
图7是用来实现本申请实施例的上述方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请第一实施例的示意图;如图1所示,本实施例提供一种图像的风格转换方法,具体可以包括如下步骤:
S101、检测待处理的图像中是否包括人脸;若包括,执行步骤S102;否则执行步骤S103;
S102、采用预训练的人脸风格转换模型和预设的风格图,对待处理的图像中的人脸区域进行风格转换,使得风格转换后的人脸区域仅携带风格图中的颜色信息,而不包括风格图中的纹理信息;执行步骤S104;
S103、采用预训练的图像风格转换模型和预设的风格图,对待处理的图像中的人脸区域之外的其他区域进行风格转换,结束。
S104、采用预训练的图像风格转换模型,对待处理的图像中的人脸区域之外的其他区域进行风格转换,结束。
本实施例的图像的风格转换方法的执行主体为图像的风格转换装置,该图像的风格转换装置可以为一电子实体,或者也可以采用软件集成的应用。
现有的图像的风格转换方案中,直接将图像进行风格转换,在图像中包括人脸的时候,同时在人脸上加上风格图对应的纹理信息和颜色信息等,造成人脸非常不清晰,风格转换后得到的结果图质量非常差。考虑到上述问题,本实施例中,在进行风格转换之前,先对待处理的图像进行检测,检测该待处理的图像中是否包括人脸,若包括,采用预训练的人脸风格转换模型和预设的风格图,对待处理的图像中的人脸区域进行风格转换,例如,为了提高对人脸区域风格转换的质量,可以使得风格转换后的人脸区域仅携带风格图的颜色信息,而不包括风格图中的纹理信息,可以保证人脸区域非常清晰,进而提高人脸区域的风格转换的质量。然后采用预训练的图像风格转换模型和预设的风格图,对待处理的图像中的人脸区域之外的其他区域进行风格转换。
对于待处理的图像中未包括人脸的情况,可以直接采用预训练的图像风格转换模型和预设的风格图,对待处理的图像进行风格转换。
本实施例的人脸风格转换模型用于对图像中的人脸区域进行风格转换,也可以称之为人脸图像风格转换模型,为了便于与图像风格转换模型做区分,可以简称为人脸风格转换模型。
本实施例的待处理的图像也可以称之为内容图,即携带一定的内容信息。风格图中可以携带有特定的颜色信息和纹理信息,本实施例的风格转换的目的便是将内容图转换为携带风格图中的颜色信息和纹理信息的结果图。
本实施例的图像的风格转换方法,采用上述技术方案,先检测待处理的图像中是否包括人脸,若包括时,采用预训练的人脸风格转换模型和预设的风格图,对待处理的图像中的人脸区域进行风格转换,使得风格转换后的人脸区域仅携带风格图中的颜色信息,而不包括风格图中的纹理信息,进而可以使得风格转换后的人脸区域非常清晰;并采用预训练的图像风格转换模型和预设的风格图,对待处理的图像中的人脸区域之外的其他区域进行风格转换;且在若未包括人脸时,直接采用预训练的图像风格转换模型和预设的风格图,对待处理的图像进行风格转换,能够有效地提高风格转换后的图像的清晰度,提高图像风格转换的质量。
可选地,本实施例的上述步骤S101可以通过采用预训练的人脸检测模型检测待处理的图像中是否包括人脸;若包括,输出人脸区域的位置信息,即人脸区域在待处理图像中的位置信息,以实现在待处理的图像中对人脸进行定位,以便于后续按照步骤S102对待处理的图像中的人脸区域进行风格转换。采用该方式可以对人脸区域进行准确检测,以有效地提高后续人脸风格转换的准确性。
例如可以采用开源的人脸分割模型,提取出人脸的分割mask,为了避免也检测到了脖子的区域,首先可以获取人脸关键点,然后以鼻子作为中心点,以中心点到分割上边缘的距离作为二分之一高度,以中心点到分割左右边缘的距离最大值作为二分之一宽度,得到人脸区域的矩形框。
另外,可选地,本实施例中还可以采用其他方式检测待处理的图像中是否包括人脸。例如通过对人脸皮肤检测、人脸轮廓检测等来实现人脸区域的检测,在此不再一一举例赘述。
图2是根据本申请第二实施例的示意图;如图2所示,本实施例提供一种风格转换模型的训练方法,具体可以包括如下步骤:
S201、采集数条训练样本,各条训练样本中包括内容图、风格图以及基于优化方法得到的目标结果图;
S202、采用各条所述训练样本,训练风格转换模型。
本实施例的风格转换模型的训练方法的执行主体为风格转换模型的训练装置,该风格转换模型的训练装置可以为一电子实体,或者也可以采用软件集成的应用。
本实施例的风格转换模型的训练方法,可以适用于对图1所示实施例的图像风格转换模型以及人脸风格转换模型进行训练。
且本实施例的风格转换模型的训练方法中,采样的训练样本中包括内容图、风格图以及基于优化方法得到的目标结果图。若风格转换模型为人脸风格转换模型时,该内容图对应为人脸图。其中基于优化方法得到的目标结果图,该优化方法得到的目标结果图,可以使得采集到的目标结果图能够充分学习到风格图中的纹理信息和颜色信息,再采用采集的各条训练样本,训练风格转换模型时,能够使得风格转换模型充分学习到目标结果图中的纹理信息和颜色信息。
现有的学术界对风格化的研究颇为热门,其中,风格转换模型的训练主要分为两个方向:基于优化的方法和基于前馈的方法。其中基于优化的方法是指,每次来一张内容图,都需要重新训练一个针对于该内容图的模型,来生成对应的结果图。这样的话,每次会耗费数分钟的时间才能生成结果图。如果用于产品上会导致用户等待时长过长,严重影响用户体验。另一个方向是基于前馈的方法,即模型训练完之后,就固定住模型,每次来一张内容图,只需进行一次模型前馈,即可得到输出的结果图。但是这种方法生成的纹理效果较差,跟风格图相差较大,通常情况下,虽然整体学到了颜色的部分纹理的变换,但是整体的螺纹、画笔笔触都没有学习到。因此,现有的基于优化的方法,速度极慢,一般需要数分钟;而基于前馈的方法,纹理效果学习的不好。
本实施例的风格转换模型的训练方法,训练样本中的目标结果图基于优化方法得到,可以提高训练样本的质量。然后进一步采用采集的数条训练样本训练该风格转换模型,可以保证风格转换模型能够充分学习到目标结果图中的纹理信息和颜色信息。即本实施例的训练方法,将基于优化方法和基于前馈的方法有效地结合,使得风格转换模型不仅可以充分学习到目标结果图中的纹理信息和颜色信息,而且也可以在进行风格转换时,直接使用训练好的风格转换模型,有效地节省风格转换的时长,提高风格转换的效率。
图3是根据本申请第三实施例的示意图;如图3所示,在上述图2所示实施例的基础上,详细提供一种风格转换模型的训练方法,具体可以包括如下步骤:
S301、采集数条训练样本,各条训练样本中包括内容图、风格图以及基于优化方法得到的目标结果图;
S302、对于各条训练样本,获取对应的风格转换模型输出的预测结果图;
S303、基于对应的训练样本以及对应的预测结果图,构建相应的第一损失函数;
S304、判断第一损失函数是否收敛,若不收敛,执行步骤S305;若收敛,执行步骤S306;
S305、调整风格转换模型的参数,使得第一损失函数收敛趋向于收敛;返回步骤S302,采用下一条训练样本继续训练;
S306、判断第一损失函数在连续的预设轮数的训练中是否始终收敛,若是,确定风格转换模型的参数,进而确定风格转换模型,训练结束;否则,返回步骤S302,采用下一条训练样本继续训练。
该步骤S306为训练的终止条件。其中连续的预设轮数可以指的是连续的50、80、100或者其他整数,如果在连续的预设轮数的训练中,第一损失函数始终收敛,则说明该风格转换模型已经训练的非常准确,可以结束训练,保存该风格转换模型的参数,作为训练好的风格转换模型的参数。可选地,这里的训练终止条件也可以为达到预设的训练迭代次数,如一百万次或者其他整数,在此不做限定。
上述步骤S302-S306为上述图2所示实施例的步骤S201的一种具体实现方式。
本实施例中采集的训练样本的内容图时,可以采用MS-COCO-2014数据集,该数据集包含了8w多张图像,涵盖了室内、室外,人物,风景,食物,动物等各类场景,来源于真实生活拍摄,更贴近于用户拍摄场景。本实施例的风格图,可以采用梵高、莫奈等携带明显的艺术风格的名画,例如可以以梵高的星月夜作为风格图。另外,实际应用中,也可以采用任意具有特定的颜色信息和纹理信息的图像作为风格图。
进一步可选地,上述图3所示实施例的步骤S303基于对应的训练样本以及对应的预测结果图,构建相应的第一损失函数,具体可以包括如下步骤:
(a1)对于各条训练样本,基于目标结果图和预测结果图,构建判别器损失函数;
(b1)基于目标结果图和预测结果图的各像素点的像素值,构建像素差损失函数;
(c1)基于各条训练样本以及对应的预测结果图,构建风格损失函数、全变分损失函数以及边界损失函数中的至少一种。
(d1)基于风格损失函数、全变分损失函数以及边界损失函数中的至少一种,并结合判别器损失函数和像素差损失函数,构建第一损失函数。
本实施例的风格转换模型,可以采用生成式对抗网络(Generative AdversarialNetworks;GAN)模型。训练数据属于成对(pair)出现的,每一pair包括内容图、风格图以及结果图。因此本实施例中,可以采用pix2pix的训练框架。在该pix2pix的原始框架中包含有两个损失函数:1)判别器损失函数;2)像素差损失函数。
其中,判别器损失函数用于分别判断目标结果图和预测结果图,属于目标结果图还是预测结果图,如果判断正确,则表示预测结果图和目标结果图之间差异大,需要继续训练;否则如果判断错误,则表示两者差异小,则表示训练的图像风格转换模型接近准确。训练的目的,便是要两者的差异足够小。
像素差损失函数表示的是生成的预测结果图和对应的目标结果图的图像的像素值差异,具体实现时,可以取预测结果图和目标结果图中所有像素点的像素值的差异的平均值。如果像素值差异较大,则还需要继续训练,否则,如果像素值差异小,则表示训练的风格转换模型接近准确。同理,训练的目的也是要像素值差异足够小。
进一步地,本实施例中,在上述两个损失函数的基础上,为了进一步提高风格转换模型的效果,还可以增加下面3个损失函数中的至少一个,来进一步保证生成的风格图的质量。
A)风格损失函数,该损失函数用于判断预测结果图和目标结果图,在风格上是否一致。借鉴风格转换领域的思路,这里采用了格拉姆矩阵(Gram Matrix)作为风格的度量。Gram Matrix定义为特征之间的偏心协方差矩阵(即没有减去均值的协方差矩阵),在特征图中,每个数字就代表一个特征的强度,而Gram Matrix计算的实际上是两两特征之间的相关性,哪两个特征是同时出现的,哪两个是此消彼长的等等。同时,Gram Matrix的对角线元素,还体现了每个特征在图像中出现的量,因此,Gram Matrix有助于把握整个图像的大体风格。有了表示风格的Gram Matrix,要度量两个图像风格的差异,只需比较它们GramMatrix的差异即可。
具体地,可以分别提取两张图像的特征矩阵,例如图像的特征矩阵可以采用N*M的矩阵来表示,即图像中N个像素点,每个像素点采用M维向量表示。然后采用(N*M)*(M*N),得到N*N的Gram Matrix矩阵,即两两特征之间的相关性。然后计算两个图像的N*N矩阵中每个位置的差值,再取平均作为风格损失函数。
同理,如果风格损失函数所表示的差值较大,则还需要继续训练,否则,如果差值较小,则表示训练的图像风格转换模型接近准确。同理,训练的目的也是要使得该差值较小足够小。
B)全变分损失(Total Variation loss)函数,该函数表示将预测结果图中各像素右移一个像素或者下移一个像素后,得到的新的预测结果图与目标结果图中原位置的像素差异。具体地,可以取新的预测结果图中各像素点与目标结果图中未移动时对应的原位置的像素点的像素的差异,并取所有像素点的差异的平均值。该loss函数反应了图像的平滑程度,图像中相邻像素值的差异可以通过降低该loss函数,在一定程度上解决。比如降噪,对抗checkerboard等等。同理,训练的目的也是要使得该全变分损失函数所表示的差值足够小。
C)边界损失(edge loss)函数,该损失函数用于表示生成的预测结果图的边缘,与内容图的边缘的差异尽可能小。该loss函数可以起到保边效果,即可以保留原始的内容图的强烈边缘,不会生成一整块纯色的色块。例如,该方案可以通过一个网络模型,筛选预测结果图的边缘和内容图的边缘,然后取边缘的所有像素点的像素值的差异的平均值。同理,训练的目的也是要使得该边界损失函数所表示的差值足够小。
通过上述方式,构建基于风格损失函数、全变分损失函数以及边界损失函数中的至少一种之后,可以基于风格损失函数、全变分损失函数以及边界损失函数中的至少一种,并结合判别器损失函数和像素差损失函数,构建第一损失函数。例如,可以将包括的所有损失函数求和,作为第一损失函数,也可以为各种损失函数配置一定的权重,然后按照权重求和,作为第一损失函数。其中第一损失函数中,可以仅包括风格损失函数、全变分损失函数以及边界损失函数中的任意一种或者两种,或者也可以同时包括三种,当然,包括的损失函数的类型越多,训练的图像风格转换模型进行风格转换的准确性越高。
可选地,风格转换模型为图像风格转换模型时,在步骤S301之前,还可以包括:基于优化方法得到的目标结果图的过程,具体可以包括如下步骤:对于各条训练样本中各内容图和风格图,采用第一优化风格转换模型获取对应的结果图;基于结果图,并参考内容图和/或风格图,构建第二损失函数;若第二损失函数不收敛时,调整第一优化风格转换模型的参数,使得第二损失函数趋于收敛,获取第二损失函数收敛后第一优化风格转换模型输出的结果图,作为对应的目标结果图。
例如,具体实现过程,可以通过如下步骤来实现:
(a2)对于任一条训练样本中内容图和风格图,采用第一优化风格转换模型获取对应的结果图;
(b2)基于内容图、结果图与风格图,构建第二损失函数;
(c2)判断第二损失函数是否收敛,若不收敛时,执行步骤(d2);若收敛时,执行步骤(e2);
(d2)调整第一优化风格转换模型的参数,使得第二损失函数趋于收敛的方向,并返回步骤(a2)继续基于调整参数后的第一优化风格转换模型获取对应的结果图;
(e2)判断迭代次数是否达到预设的迭代次数阈值、或者第二损失函数是否在连续预设轮数的训练中始终收敛,若是,将得到的结果图,作为对应的内容图的目标结果图;否则返回(a2)继续基于调整参数后的优化风格转换模型获取对应的结果图。
该步骤(a2)-(e2)即表示采用优化的方法获取每条训练样本中的目标结果图。具体训练过程中,对于任一条训练样本,将该训练样本中的内容图和风格图,输入至优化风格转换模型中。该优化风格转换模型可以输出对应的结果图。该结果图即为风格转换后的内容图,其中包括内容图中的内容,同时携带风格图中的风格,以满足用户对风格图的艺术追求。
本实施例中,还需要构建第二损失函数,可选地,该第二损失函数可以从内容损失函数和风格损失函数两方面来实现,当然实际应用中,也可以仅选择其中一种来实现。其中风格损失函数基于结果图与风格图构建,用于检测结果图与风格图的风格是否一致,内容损失函数基于内容图与结果图构建,用于检测结果图与内容图的内容是否一致。当第二损失函数同时包括内容损失函数和风格损失函数时,即对应步骤(b1)的情况,可以直接取两个损失函数的和,或者对两个损失函数加权求和。若损失函数不收敛,可以调整第二优化风格转换模型的参数,使得损失函数趋于收敛,即结果图与风格图的风格趋于一致,且结果图与内容图的内容趋于一致。并继续将该训练样本中的内容图和风格图,输入至调整参数后的第优化风格转换模型中,重复上述过程,直至满足步骤(e2)的迭代终止条件,将最终得到的结果图,作为对应的目标结果图。步骤(e2)中是以两个可选的迭代终止条件为例,其中连续的预设轮数可以为连续50、80、100或者其他整数,在此不做限定。
需要说明的是,上述步骤(b2)构建的第二损失函数中包括的风格损失函数也可以参考上实施例涉及到的A)中的风格损失函数来构建。而内容损失函数可以基于内容图和结果图,计算两个图中每个像素点的特征的差的平均值来构建。
上述基于优化方法得到的目标结果图的方案,能够有效地保证最终得到的目标结果图的风格与风格图一致,内容与内容图一致,得到的目标结果图的准确性非常高,能够有效地提高图像风格转换模型的训练样本的质量,进而能够有效地提高训练的图像风格转换模型的准确性。
进一步可选地,风格转换模型为人脸风格转换模型时,为了与上述图像风格转换模型有区分,此时内容图即为对应的人脸图,目标结果图即可以为对应的目标人脸结果图。此时,本实施例的步骤S301之前,还可以包括基于优化方法得到的目标人脸结果图的获取过程:对于各条人脸训练样本中人脸图和风格图,采用优化风格转换模型获取对应的初始结果图;基于各人脸图,保留初始结果图中的颜色信息,去除初始结果图中的纹理信息,得到更新后的人脸结果图;基于更新后的人脸结果图,并参考人脸图和/或风格图,构建第三损失函数;若第三损失函数不收敛时,调整第二优化风格转换模型的参数,使得第三损失函数趋于收敛,直至获取到第三损失函数收敛后第二优化风格转换模型输出的更新后的人脸结果图,作为对应的所述目标结果图。
例如,具体实现过程,可以通过如下步骤来实现:
(a3)对于任一条人脸训练样本中的人脸图和风格图,采用第二优化风格转换模型获取对应的初始结果图;
(b3)保留初始结果图中的颜色信息,去除初始结果图中的纹理信息,得到更新后的人脸结果图;
(c3)基于人脸图、更新后的人脸结果图与风格图,构建第三损失函数;
(d3)判断第三损失函数是否收敛,若不收敛时,执行步骤(e3);若收敛时,执行步骤(f3);
(e3)调整第二优化风格转换模型的参数,使得第三损失函数趋于收敛的方向,并返回步骤(a3)继续基于调整参数后的优化风格转换模型获取对应的结果图;
(f3)判断迭代次数是否达到预设的迭代次数阈值、或者第三损失函数是否在连续预设轮数的训练中始终收敛,若是,将得到的更新后的人脸结果图,作为对应的内容图的目标结果图;否则返回(a3)继续基于调整参数后的第二优化风格转换模型获取对应的初始结果图。
本实施例的该步骤(a3)-(f3)相对于上述步骤(a2)-(e2),增加了其中的步骤(b3)。很显然,基于优化方法得到的目标人脸结果图的获取过程,与基于优化方法得到的普通图像的目标结果图的过程不同的是,目标人脸结果图中不需要携带风格图中的纹理信息。所以在训练优化风格转换模型的过程中,每一次得到初始结果图之后,都仅保留初始结果图中的颜色信息,去除初始结果图中的纹理信息,作为更新后的结果图。相当于仅迁移风格图中的颜色信息,而不再在人脸区域中生成纹理信息,相当于仅基于风格图的颜色对人脸区域的颜色做了一个映射变化,使得生成后的人脸更加清晰。其余步骤的实现过程与上述步骤(a2)-(e2)的实现相同,详细可以参考上述实施例的相关记载,在此不再赘述。
上述基于优化方法得到的目标人脸结果图的方案,能够有效地保证得到的目标人脸结果图的准确性,能够有效地提高人脸风格转换模型的训练样本的质量,进而能够有效地提高训练的人脸风格转换模型的准确性。
本实施例的风格转换模型的训练方法,在训练图像风格转换模型时,训练样本中的目标结果图基于优化方法得到,可以提高训练样本的质量。然后进一步采用采集的数条训练样本训练该图像风格转换模型,可以保证图像风格转换模型能够充分学习到目标结果图中的纹理信息。即本实施例的训练方法,将基于优化方法和基于前馈的方法有效地结合,使得图像风格转换模型不仅可以充分学习到风格图的纹理,而且也可以在进行图像风格转换时,直接使用训练好的图像风格转换模型,有效地节省图像风格转换的时长,提高图像风格转换的效率。
本实施例的风格转换模型的训练方法,在训练人脸风格转换模型时,训练样本中的目标人脸结果图基于优化方法得到,可以提高训练样本的质量。然后进一步采用采集的数条训练样本训练该人脸风格转换模型,可以保证人脸风格转换模型能够充分学习到目标结果图中的颜色转换信息。即本实施例的训练方法,将基于优化方法和基于前馈的方法有效地结合,使得人脸风格转换模型不仅可以充分学习到风格图的颜色,而且也可以在进行图像风格转换时,直接使用训练好的人脸风格转换模型,有效地节省图像风格转换的时长,提高图像风格转换的效率;而且可以保证在对人脸区域进行风格转换时,仅迁移风格图中的颜色,而不会对人脸区域迁移风格图中的纹理,能够提高风格转换后的人脸的清晰度,提高对人脸的风格转换的质量。
进一步地,本实施例中,可以基于风格损失函数、全变分损失函数以及边界损失函数中的至少一种,并结合判别器损失函数和像素差损失函数,构建第一损失函数,进一步保证了图像风格转换模型进行风格转换后的结果图的风格与风格图的风格一致,进而进一步提高了风格转换后的结果图的质量。
图4是根据本申请第四实施例的示意图;如图4所示,本实施例提供一种图像的风格转换装置400,其中,包括:
检测模块401,用于检测待处理的图像中是否包括人脸;
人脸风格转换模块402,用于若包括,采用预训练的人脸风格转换模型和预设的风格图,对待处理的图像中的人脸区域进行风格转换,使得风格转换后的人脸区域仅携带风格图中的颜色信息,而不包括风格图中的纹理信息;
图像风格转换模块403,用于采用预训练的图像风格转换模型和预设的风格图,对待处理的图像中的人脸区域之外的其他区域进行风格转换。
本实施例的图像的风格转换装置400,通过采用上述模块实现图像的风格转换的实现原理以及技术效果,与上述相关方法实施例相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
进一步可选地,检测模块401,用于:
采用预训练的人脸检测模型检测待处理的图像中是否包括人脸;若包括,输出人脸区域的位置信息。
进一步可选地,图像风格转换模块403,还用于:
若待处理的图像中未包括人脸时,采用预训练的图像风格转换模型和预设的风格图,对待处理的图像进行风格转换。
图5是根据本申请第五实施例的示意图;如图5所示,本实施例提供一种风格转换模型的训练装置500,其中,包括:
采集模块501,用于采集数条训练样本,各条训练样本中包括内容图、风格图以及基于优化方法得到的目标结果图;
训练模块502,用于采用各条训练样本,训练风格转换模型。
本实施例的风格转换模型的训练装置500,通过采用上述模块实现风格转换模型的训练的实现原理以及技术效果,与上述相关方法实施例相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图6是根据本申请第六实施例的示意图;如图6所示,本实施例的风格转换模型的训练装置500,在上述图5所示实施例的基础上,进一步更加详细地介绍本申请的技术方案。
训练模块502,包括:
获取单元5021,用于对于各条训练样本,获取对应的风格转换模型输出的预测结果图;
构建单元5022,用于基于对应的训练样本以及对应的预测结果图,构建相应的第一损失函数;
调整单元5023,用于在第一损失函数不收敛时,调整图像风格转换模型的参数,使得第一损失函数趋向于收敛;
进一步可选地,参考上述图3所示实施例的记载,在训练过程中,对于各条训练样本,需要重复启动上述获取单元5021、构建单元5022、调整单元5023上面三个单元,因此,还需要一个训练终止的检测单元,可以用于判断第一损失函数在连续的预设轮数的训练中是否始终收敛,若是,确定风格转换模型的参数,进而确定风格转换模型,训练结束;否则,出触发获取单元5021启动,继续采用下一条训练样本继续训练。
进一步地,构建单元5022,用于:
对于训练样本,基于目标结果图和预测结果图,构建判别器损失函数;
基于目标结果图和预测结果图的各像素点的像素值,构建像素差损失函数;
基于训练样本以及对应的预测结果图,构建风格损失函数、全变分损失函数以及边界损失函数中的至少一种;
基于风格损失函数、全变分损失函数以及边界损失函数中的至少一种,并结合判别器损失函数和像素差损失函数,构建第一损失函数。
进一步可选地,风格转换模型为图像风格转换模型时,本实施例的风格转换模型的训练装置500还包括:
获取模块503,用于对于各条训练样本中的内容图和风格图,采用第一优化风格转换模型获取对应的结果图;
构建模块504,用于基于结果图,并参考内容图和/或风格图,构建第二损失函数;
调整模块505,用于若第二损失函数不收敛时,调整第一优化风格转换模型的参数,使得第二损失函数趋于收敛,直至获取第二损失函数收敛后第一优化风格转换模型输出的结果图,作为对应的目标结果图。
同理进一步可选地,参考上述图3所示实施例的相关记载,在训练过程中,对于各条训练样本,需要重复启动上述获取模块503、构建模块504、调整模块505上面三个模块,因此,还需要一个训练终止的检测模块,可以用于判断迭代次数是否达到预设的迭代次数阈值、或者第二损失函数是否在连续预设轮数的训练中始终收敛,若是,将得到的结果图,作为对应的内容图的目标结果图;否则触发获取模块503启动,继续基于调整参数后的优化风格转换模型获取对应的结果图。
进一步可选地,风格转换模型为人脸风格转换模型,内容图对应为人脸图时,本实施例的风格转换模型的训练装置500还包括更新模块506;
获取模块503,还用于对于各条人脸训练样本中对应的人脸图和风格图,采用第二优化风格转换模型获取对应的初始结果图;
更新模块506,用于保留初始结果图中的颜色信息,去除初始结果图中的纹理信息,得到更新后的人脸结果图;
构建模块504,还用于基于更新后的人脸结果图,并参考人脸图和/或风格图,构建第三损失函数;
调整模块505,还用于若第三损失函数不收敛时,调整第二优化风格转换模型的参数,使得第三损失函数趋于收敛,直至获取到第三损失函数收敛后第二优化风格转换模型输出的更新后的人脸结果图,作为对应的目标结果图。
同理进一步可选地,训练终止的检测模块,可以用于判断迭代次数是否达到预设的迭代次数阈值、或者第三损失函数是否在连续预设轮数的训练中始终收敛,若是,将得到的更新后的人脸结果图,作为对应的内容图的目标结果图;否则触发获取模块503启动,继续基于调整参数后的优化风格转换模型获取对应的初始结果图。
本实施例的风格转换模型的训练装置500,通过采用上述模块实现风格转换模型的训练的实现原理以及技术效果,与上述相关方法实施例相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图7所示,是本申请实施例的实现上述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的上述图像的风格转换方法或者风格转换模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的图像的风格转换方法或者风格转换模型的训练方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的图像的风格转换方法或者风格转换模型的训练方法对应的程序指令/模块(例如,附图4、附图5、以及附图6所示的相关模块)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的图像的风格转换方法或者风格转换模型的训练方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据实现图像的风格转换方法的电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至实现图像的风格转换方法或者风格转换模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现图像的风格转换方法或者风格转换模型的训练方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与实现图像的风格转换方法或者风格转换模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,先检测待处理的图像中是否包括人脸,若包括时,采用预训练的人脸风格转换模型和预设的风格图,对待处理的图像中的人脸区域进行风格转换,使得风格转换后的人脸区域仅携带风格图中的颜色信息,而不包括风格图中的纹理信息,进而可以使得风格转换后的人脸区域非常清晰;并采用预训练的图像风格转换模型和预设的风格图,对待处理的图像中的人脸区域之外的其他区域进行风格转换;且在若未包括人脸时,直接采用预训练的图像风格转换模型和预设的风格图,对待处理的图像进行风格转换,能够有效地提高风格转换后的图像的清晰度,提高图像风格转换的质量。
根据本申请实施例的技术方案,训练样本中的目标结果图基于优化方法得到,可以提高训练样本的质量。然后进一步采用采集的数条训练样本训练该风格转换模型,可以保证风格转换模型能够充分学习到目标结果图中的纹理信息和颜色信息。即本申请的训练方法,将基于优化方法和基于前馈的方法有效地结合,使得风格转换模型不仅可以充分学习到目标结果图中的纹理信息和颜色信息,而且也可以在进行风格转换时,直接使用训练好的风格转换模型,有效地节省风格转换的时长,提高风格转换的效率。
根据本申请实施例的技术方案,在训练的图像风格转换模型时,训练样本中的目标结果图基于优化方法得到,可以提高训练样本的质量。然后进一步采用采集的数条训练样本训练该图像风格转换模型,可以保证图像风格转换模型能够充分学习到目标结果图中的纹理信息。即本申请的训练方法,将基于优化方法和基于前馈的方法有效地结合,使得图像风格转换模型不仅可以充分学习到风格图的纹理,而且也可以在进行图像风格转换时,直接使用训练好的图像风格转换模型,有效地节省图像风格转换的时长,提高图像风格转换的效率。
根据本申请实施例的技术方案,在训练人脸风格转换模型时,训练样本中的目标人脸结果图基于优化方法得到,可以提高训练样本的质量。然后进一步采用采集的数条训练样本训练该人脸风格转换模型,可以保证人脸风格转换模型能够充分学习到目标结果图中的颜色转换信息。即本申请的训练方法,将基于优化方法和基于前馈的方法有效地结合,使得人脸风格转换模型不仅可以充分学习到风格图的颜色,而且也可以在进行图像风格转换时,直接使用训练好的人脸风格转换模型,有效地节省图像风格转换的时长,提高图像风格转换的效率;而且可以保证在对人脸区域进行风格转换时,仅迁移风格图中的颜色,而不会对人脸区域迁移风格图中的纹理,能够提高风格转换后的人脸的清晰度,提高对人脸的风格转换的质量。
根据本申请实施例的技术方案,可以基于风格损失函数、全变分损失函数以及边界损失函数中的至少一种,并结合判别器损失函数和像素差损失函数,构建第一损失函数,进一步保证了图像风格转换模型进行风格转换后的结果图的风格与风格图的风格一致,进而进一步提高了风格转换后的结果图的质量。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (18)
1.一种图像的风格转换方法,其中,所述方法包括:
检测待处理的图像中是否包括人脸;
若包括,采用预训练的人脸风格转换模型和预设的风格图,对所述待处理的图像中的人脸区域进行风格转换,使得风格转换后的所述人脸区域仅携带所述风格图中的颜色信息,而不包括所述风格图中的纹理信息;
采用预训练的图像风格转换模型和预设的所述风格图,对所述待处理的图像中的所述人脸区域之外的其他区域进行风格转换。
2.根据权利要求1所述的方法,其中,检测待处理的图像中是否包括人脸,包括:
采用预训练的人脸检测模型检测所述待处理的图像中是否包括人脸;若包括,输出人脸区域的位置信息。
3.根据权利要求1所述的方法,其中,所述方法还包括:
若所述待处理的图像中未包括人脸时,采用预训练的所述图像风格转换模型和预设的所述风格图,对所述待处理的图像进行风格转换。
4.一种风格转换模型的训练方法,其中,所述方法包括:
采集数条训练样本,各条所述训练样本中包括内容图、风格图以及基于优化方法得到的目标结果图;
采用各条所述训练样本,训练所述风格转换模型。
5.根据权利要求4所述的方法,其中,采用各条所述训练样本,训练所述风格转换模型,包括:
对于各条所述训练样本,获取对应的风格转换模型输出的预测结果图;
基于对应的所述训练样本以及对应的预测结果图,构建相应的第一损失函数;
在所述第一损失函数不收敛时,调整所述图像风格转换模型的参数,使得所述第一损失函数趋向于收敛。
6.根据权利要求5所述的方法,其中,基于对应的所述训练样本以及对应的预测结果图,构建相应的第一损失函数,包括:
对于所述训练样本,基于所述目标结果图和所述预测结果图,构建判别器损失函数;
基于所述目标结果图和所述预测结果图的各像素点的像素值,构建像素差损失函数;
基于所述训练样本以及对应的预测结果图,构建风格损失函数、全变分损失函数以及边界损失函数中的至少一种;
基于所述风格损失函数、所述全变分损失函数以及所述边界损失函数中的至少一种,并结合所述判别器损失函数和所述像素差损失函数,构建所述第一损失函数。
7.根据权利要求4-6任一所述的方法,其中,所述风格转换模型为图像风格转换模型时,采集数条训练样本,各条所述训练样本中包括内容图、风格图以及基于优化方法得到的目标结果图之前,所述方法还包括:
对于各条所述训练样本中的所述内容图和风格图,采用第一优化风格转换模型获取对应的结果图;
基于所述结果图,并参考所述内容图和/或所述风格图,构建第二损失函数;
若所述第二损失函数不收敛时,调整所述第一优化风格转换模型的参数,使得所述第二损失函数趋于收敛,直至获取所述第二损失函数收敛后所述第一优化风格转换模型输出的所述结果图,作为对应的所述目标结果图。
8.根据权利要求4-6任一所述的方法,其中,所述风格转换模型为人脸风格转换模型时,所述内容图为人脸图,采集数条训练样本,各条所述训练样本中包括内容图、风格图以及基于优化方法得到的目标结果图之前,所述方法还包括:
对于各条所述人脸训练样本中对应的所述人脸图和所述风格图,采用第二优化风格转换模型获取对应的初始结果图;
保留所述初始结果图中的颜色信息,去除所述初始结果图中的纹理信息,得到更新后的人脸结果图;
基于所述更新后的人脸结果图,并参考所述人脸图和/或所述风格图,构建第三损失函数;
若所述第三损失函数不收敛时,调整所述第二优化风格转换模型的参数,使得所述第三损失函数趋于收敛,直至获取到所述第三损失函数收敛后所述第二优化风格转换模型输出的所述更新后的人脸结果图,作为对应的所述目标结果图。
9.一种图像的风格转换装置,其中,所述装置包括:
检测模块,用于检测待处理的图像中是否包括人脸;
人脸风格转换模块,用于若包括,采用预训练的人脸风格转换模型和预设的风格图,对所述待处理的图像中的人脸区域进行风格转换,使得风格转换后的所述人脸区域仅携带所述风格图中的颜色信息,而不包括所述风格图中的纹理信息;
图像风格转换模块,用于采用预训练的图像风格转换模型和预设的所述风格图,对所述待处理的图像中的所述人脸区域之外的其他区域进行风格转换。
10.根据权利要求9所述的装置,其中,所述检测模块,用于:
采用预训练的人脸检测模型检测所述待处理的图像中是否包括人脸;若包括,输出人脸区域的位置信息。
11.根据权利要求9所述的装置,其中,所述图像风格转换模块,还用于:
若所述待处理的图像中未包括人脸时,采用预训练的所述图像风格转换模型和预设的所述风格图,对所述待处理的图像进行风格转换。
12.一种风格转换模型的训练装置,其中,所述装置包括:
采集模块,用于采集数条训练样本,各条所述训练样本中包括内容图、风格图以及基于优化方法得到的目标结果图;
训练模块,用于采用各条所述训练样本,训练所述风格转换模型。
13.根据权利要求12所述的装置,其中,所述训练模块,包括:
获取单元,用于对于各条所述训练样本,获取对应的风格转换模型输出的预测结果图;
构建单元,用于基于对应的所述训练样本以及对应的预测结果图,构建相应的第一损失函数;
调整单元,用于在所述第一损失函数不收敛时,调整所述图像风格转换模型的参数,使得所述第一损失函数趋向于收敛。
14.根据权利要求13所述的装置,其中,所述构建单元,用于:
对于所述训练样本,基于所述目标结果图和所述预测结果图,构建判别器损失函数;
基于所述目标结果图和所述预测结果图的各像素点的像素值,构建像素差损失函数;
基于所述训练样本以及对应的预测结果图,构建风格损失函数、全变分损失函数以及边界损失函数中的至少一种;
基于所述风格损失函数、所述全变分损失函数以及所述边界损失函数中的至少一种,并结合所述判别器损失函数和所述像素差损失函数,构建所述第一损失函数。
15.根据权利要求12-14任一所述的装置,其中,所述风格转换模型为图像风格转换模型时,所述装置还包括:
获取模块,用于对于各条所述训练样本中的所述内容图和风格图,采用第一优化风格转换模型获取对应的结果图;
构建模块,用于基于所述结果图,并参考所述内容图和/或所述风格图,构建第二损失函数;
调整模块,用于若所述第二损失函数不收敛时,调整所述第一优化风格转换模型的参数,使得所述第二损失函数趋于收敛,直至获取所述第二损失函数收敛后所述第一优化风格转换模型输出的所述结果图,作为对应的所述目标结果图。
16.根据权利要求12-14任一所述的装置,其中,所述风格转换模型为人脸风格转换模型,所述内容图对应为人脸图时,所述装置还包括更新模块;
所述获取模块,还用于对于各条所述人脸训练样本中对应的所述人脸图和所述风格图,采用第二优化风格转换模型获取对应的初始结果图;
所述更新模块,用于保留所述初始结果图中的颜色信息,去除所述初始结果图中的纹理信息,得到更新后的人脸结果图;
所述构建模块,还用于基于所述更新后的人脸结果图,并参考所述人脸图和/或所述风格图,构建第三损失函数;
所述调整模块,还用于若所述第三损失函数不收敛时,调整所述第二优化风格转换模型的参数,使得所述第三损失函数趋于收敛,直至获取到所述第三损失函数收敛后所述第二优化风格转换模型输出的所述更新后的人脸结果图,作为对应的所述目标结果图。
17.一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3、或者4-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-3、或者4-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011023355.4A CN112150489A (zh) | 2020-09-25 | 2020-09-25 | 图像的风格转换方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011023355.4A CN112150489A (zh) | 2020-09-25 | 2020-09-25 | 图像的风格转换方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112150489A true CN112150489A (zh) | 2020-12-29 |
Family
ID=73897132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011023355.4A Pending CN112150489A (zh) | 2020-09-25 | 2020-09-25 | 图像的风格转换方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112150489A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112862669A (zh) * | 2021-02-02 | 2021-05-28 | 百果园技术(新加坡)有限公司 | 图像生成模型的训练方法、生成方法、装置及设备 |
CN113657397A (zh) * | 2021-08-17 | 2021-11-16 | 北京百度网讯科技有限公司 | 循环生成网络模型的训练方法、建立字库的方法和装置 |
CN113901997A (zh) * | 2021-09-29 | 2022-01-07 | 北京百度网讯科技有限公司 | 图像风格转换方法、装置、设备、存储介质及程序产品 |
WO2023138498A1 (zh) * | 2022-01-20 | 2023-07-27 | 北京字跳网络技术有限公司 | 生成风格化图像的方法、装置、电子设备及存储介质 |
WO2023241375A1 (en) * | 2022-06-17 | 2023-12-21 | Lemon Inc. | Agilegan-based stylization method to enlarge style region |
CN117576245A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 一种图像的风格转换方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128508A1 (zh) * | 2017-12-28 | 2019-07-04 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN111340905A (zh) * | 2020-02-13 | 2020-06-26 | 北京百度网讯科技有限公司 | 图像风格化方法、装置、设备和介质 |
-
2020
- 2020-09-25 CN CN202011023355.4A patent/CN112150489A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128508A1 (zh) * | 2017-12-28 | 2019-07-04 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN111340905A (zh) * | 2020-02-13 | 2020-06-26 | 北京百度网讯科技有限公司 | 图像风格化方法、装置、设备和介质 |
Non-Patent Citations (2)
Title |
---|
GANTUGS ATARSAIKHAN: "Neural Font Style Transfer", IEEE, 29 January 2018 (2018-01-29) * |
朱海峰;邵清;: "基于深度学习的图像风格转换研究", 软件, no. 03, 15 March 2020 (2020-03-15) * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112862669A (zh) * | 2021-02-02 | 2021-05-28 | 百果园技术(新加坡)有限公司 | 图像生成模型的训练方法、生成方法、装置及设备 |
CN112862669B (zh) * | 2021-02-02 | 2024-02-09 | 百果园技术(新加坡)有限公司 | 图像生成模型的训练方法、生成方法、装置及设备 |
CN113657397A (zh) * | 2021-08-17 | 2021-11-16 | 北京百度网讯科技有限公司 | 循环生成网络模型的训练方法、建立字库的方法和装置 |
CN113657397B (zh) * | 2021-08-17 | 2023-07-11 | 北京百度网讯科技有限公司 | 循环生成网络模型的训练方法、建立字库的方法和装置 |
CN113901997A (zh) * | 2021-09-29 | 2022-01-07 | 北京百度网讯科技有限公司 | 图像风格转换方法、装置、设备、存储介质及程序产品 |
WO2023138498A1 (zh) * | 2022-01-20 | 2023-07-27 | 北京字跳网络技术有限公司 | 生成风格化图像的方法、装置、电子设备及存储介质 |
WO2023241375A1 (en) * | 2022-06-17 | 2023-12-21 | Lemon Inc. | Agilegan-based stylization method to enlarge style region |
CN117576245A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 一种图像的风格转换方法、装置、电子设备及存储介质 |
CN117576245B (zh) * | 2024-01-15 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 一种图像的风格转换方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112150489A (zh) | 图像的风格转换方法、装置、电子设备及存储介质 | |
Molchanov et al. | Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural network | |
CN107808131B (zh) | 基于双通路深度卷积神经网络的动态手势识别方法 | |
CN109685037B (zh) | 一种实时动作识别方法、装置及电子设备 | |
JP2018535491A (ja) | 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体 | |
CN109815881A (zh) | 行为识别模型的训练方法、行为识别方法、装置及设备 | |
KR102310490B1 (ko) | 재귀적 신경망에서 시계열 데이터의 데이터 누락 및 노이즈에 강건한 gru 기반의 셀 구조 설계 | |
CN113240778B (zh) | 虚拟形象的生成方法、装置、电子设备和存储介质 | |
CN110795569B (zh) | 知识图谱的向量表示生成方法、装置及设备 | |
CN111968203B (zh) | 动画驱动方法、装置、电子设备及存储介质 | |
CN112102153B (zh) | 图像的卡通化处理方法、装置、电子设备和存储介质 | |
JP2021119535A (ja) | 画像処理方法、装置、電子機器及び記憶媒体 | |
Xu et al. | Reinforcement learning for learning rate control | |
CN116228867B (zh) | 位姿确定方法、装置、电子设备、介质 | |
CN112634282A (zh) | 图像处理方法、装置以及电子设备 | |
CN110555404A (zh) | 基于人体姿态识别的飞翼无人机地面站交互装置及方法 | |
CN108615241A (zh) | 一种基于光流的快速人体姿态估计方法 | |
CN112001248A (zh) | 主动交互的方法、装置、电子设备和可读存储介质 | |
CN111523467B (zh) | 人脸跟踪方法和装置 | |
CN113553909A (zh) | 用于皮肤检测的模型训练方法、皮肤检测方法 | |
CN107240100B (zh) | 一种基于遗传算法的图像分割方法和系统 | |
CN106778576B (zh) | 一种基于sehm特征图序列的动作识别方法 | |
CN116721460A (zh) | 手势识别方法、装置、电子设备以及存储介质 | |
CN111710008A (zh) | 人流密度的生成方法、装置、电子设备以及存储介质 | |
CN111160170B (zh) | 一种自学习的人体行为识别与异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |