CN113111791A

CN113111791A - 图像滤镜转换网络训练方法、计算机可读存储介质

Info

Publication number: CN113111791A
Application number: CN202110409133.4A
Authority: CN
Inventors: 张清源; 王昊然; 尹露露; 张华�; 于波
Original assignee: Shenzhen Geling Institute Of Artificial Intelligence And Robotics; Shenzhen Geling Institute Of Artificial Intelligence And Robotics Co ltd
Current assignee: Shenzhen Geling Institute Of Artificial Intelligence And Robotics; Shenzhen Geling Institute Of Artificial Intelligence And Robotics Co ltd
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-07-13
Anticipated expiration: 2041-04-16
Also published as: CN113111791B

Abstract

本申请公开了一种图像滤镜转换网络训练方法、计算机可读存储介质。本申请的图像滤镜转换网络训练方法包括：获取第一预设神经网络、第二预设神经网络；对所述第一预设神经网络进行目标风格训练得到目标风格生成网络，对所述第二预设神经网络进行真人图像训练得到真人图像转换网络；将所述目标风格生成网络、所述真人图像转换网络进行插值混合，得到图像滤镜转换模型。本申请所提供的方法通过图像滤镜转换模型对真人图像进行图像滤镜转换，能够生成相应风格并保留人物个人特色的图像。

Description

图像滤镜转换网络训练方法、计算机可读存储介质

技术领域

本申请涉及计算机图像处理技术领域，尤其涉及一种图像滤镜转换网络训练方法、计算机可读存储介质。

背景技术

在相关技术中，通过对图像中的人脸关键点进行识别，根据人脸关键点的位置将风格贴纸图像贴附于对应的位置，以对图像进行风格转换。

例如，对图像进行卡通风格风格转换，一般通过将卡通图像对应的眼睛、鼻子、嘴唇贴附于真人图像中的对应五官上。然而，上述方法使得风格转换后的图像相似度较高。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种图像滤镜转换网络训练方法、计算机可读存储介质。本申请所提供的图像滤镜转换网络训练方法，可通过图像滤镜转换模型对真人图像进行图像滤镜转换，能够生成相应风格并保留人物个人特色的图像。

本申请实施例第一方面提供一种图像滤镜转换网络训练方法，包括：获取第一预设神经网络、第二预设神经网络；对所述第一预设神经网络进行目标风格训练得到目标风格生成网络，对所述第二预设神经网络进行真人图像训练得到真人图像转换网络；将所述目标风格生成网络、所述真人图像转换网络进行插值混合，得到图像滤镜转换模型。

本申请实施例中图像滤镜转换网络训练方法包括如下技术效果：根据上述方法所训练得到的图像滤镜转换模型将真人图像作为原始数据进行转换，在转换的过程中交错进行，以进行图像滤镜转换。通过图像滤镜转换模型对真人进行图像滤镜转换能够生成相应风格并保留人物个人特色的图像。

在一些实施例中，所述第一预设神经网络和\或所述第二预设神经网络，包括：解码网络；所述解码网络，包括：正则化系数生成网络，用于根据初始潜码生成正则化系数；噪声数据生成网络，用于根据与信道相对应的噪声系数、随机噪声生成噪声数据；综合网络，用于根据预设常量、所述正则化系数、所述噪声数据生成目标图像。

在一些实施例中，所述正则化系数生成网络，包括：归一化单元，用于对所述初始潜码进行归一化处理得到归一化潜码；全链接层，用于对所述归一化潜码进行非线性变换得到潜码系数；仿射变换单元，用于对所述潜码系数进行仿射变换得到所述正则化系数。

在一些实施例中，所述综合网络，包括：第一综合子网络、第二综合子网络；所述第一综合子网络，用于根据所述预设常量、所述噪声数据、所述正则化系数进行卷积处理及正则化处理，并输出目标子图像；所述第二综合子网络，用于根据所述目标子图像、所述噪声数据、所述正则化系数进行上采样处理、卷积处理及正则化处理，并输出所述目标图像。

在一些实施例中，所述第二预设神经网络，还包括：图像数据转化网络，用于初始图像进行数据多维度转化，并将得到的数据作为所述解码网络的输入；所述图像数据转化网络，包括：残差网络，用于对所述初始图像进行特征提取，以得到与不同维度对应的多维度图像；转化卷积层，用于将所述多维度图像转换潜码。

在一些实施例中，所述对所述第一预设神经网络进行目标风格训练得到目标风格生成网络，包括：将随机噪声输入至所述第一预设神经网络，并输出风格图像；根据第一辨别器对所述风格图像、与所述风格图像对应的参照图像进行辨别，得到第一辨别结果；根据所述第一辨别结果对所述第一预设神经网络进行参数迭代修正，得到所述目标风格生成网络。

在一些实施例中，所述对所述第二预设神经网络进行真人图像训练得到真人图像转换网络，包括：将所述初始图像输入至所述第二预设神经网络，并输出真人图像；根据第二辨别器对所述真人图像、与所述真人图像对应的参照图像进行辨别，得到第二辨别结果；根据所述第二辨别结果对所述第二预设神经网络进行参数迭代修正，得到所述真人图像转换网络。

在一些实施例中，所述图像滤镜转换网络训练方法，还包括：将所述初始图像输入至图像滤镜转换模型，并输出滤镜转换图像；根据第三辨别器对所述滤镜转换图像、与所述滤镜转换图像对应的参照图像进行辨别，得到第三辨别结果；根据所述第三辨别结果对所述图像滤镜转换模型进行参数迭代修正；其中，所述第三辨别器用于对与所述滤镜转换图像对应的五官图像进行对应辨别。

在一些实施例中，所述将所述目标风格生成网络、所述真人图像转换网络进行插值混合，得到图像滤镜转换模型，包括：所述图像滤镜转换模型表达为：αf(x)+βg(x)；其中，f(x)为所述目标风格生成网络，α为所述目标风格生成网络的系数；g(x)为所述真人图像转换网络，β为所述真人图像转换网络的系数，α介于0.5至0.7之间。

本申请实施例第二方面提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于：执行上述任一实施例中的图像滤镜转换网络训练方法。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显。

附图说明

下面结合附图和实施例对本申请做进一步的说明，其中：

图1为本申请一实施例一种图像滤镜转换网络训练方法的流程图；

图2为本申请又一实施例的解码网络的结构框图；

图3为本申请一实施例的图像滤镜转换网络训练方法的的流程图；

图4为本申请再一实施例的图像滤镜转换网络训练方法的的流程图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

在本申请的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

在本申请的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本申请的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在相关技术中，对图像进行卡通风格风格转换，一般通过将卡通图像对应的眼睛、鼻子、嘴唇贴附于真人图像中的对应五官上。然而，上述方法使得风格转换后的图像相似度较高。

请参照图1，基于上述问题本申请提供一种图像滤镜转换网络训练方法，通过所提供的方法本申请提供一种图像滤镜转换网络训练方法，包括：步骤S100、获取第一预设神经网络、第二预设神经网络；步骤S200、对第一预设神经网络进行目标风格训练得到目标风格生成网络，对第二预设神经网络进行真人图像训练得到真人图像转换网络；步骤S300、将目标风格生成网络、真人图像转换网络进行插值混合，得到图像滤镜转换模型。

根据对应的训练集对第一预设神经网络、第二预设神经网络进行训练，以得到目标风格生成网络、真人图像转换网络。通过对目标风格生成网络、真人图像转换网络进行插值混合，以得到图像滤镜转换模型。

其中，目标风格生成网络中目标风格包括卡通图像、日本动漫，通过对目标风格生成网络的训练数据集进行替换，以使得训练得到的目标风格生成网络更加贴合于目标风格。

通过上述方法所训练得到的图像滤镜转换模型在接收真人图像后，对真人图像进行目标风格图像生成、真人图像生成并得到对应的目标风格图像、二次真人图像。由于对目标风格生成网络、真人图像转换网络进行插值混合，使得所生成的目标风格图像、二次真人图像在生成过程中，目标风格图像、二次真人图像相互混合，以实现对应真人图像进行图像滤镜转换，并得到目标滤镜状态的真人图像。

由于根据上述方法所训练得到的图像滤镜转换模型将真人图像作为原始数据进行转换，在转换的过程中交错进行，以进行图像滤镜转换。通过图像滤镜转换模型对真人进行图像滤镜转换能够生成相应风格并保留人物个人特色的图像。

此外，上述图像滤镜转换模型不需要根据人脸关键点的位置将风格贴纸图像贴附于对应的位置，能够使得人物与风格最大程度融合的同时，降低不同真人图像进行图像滤镜转换后的相似度。

请参照图2，在一些实施例中，第一预设神经网络和\或第二预设神经网络，包括：解码网络；解码网络，包括：正则化系数生成网络，用于根据初始潜码生成正则化系数；噪声数据生成网络，用于根据与信道相对应的噪声系数、随机噪声生成噪声数据；综合网络，用于根据预设常量、正则化系数、噪声数据生成目标图像。

可以理解地，第一预设神经网络和\第二预设神经网络均包括有解码网络，即训练后生成的目标风格生成网络、真人图像转换网络均包括有解码网络。

正则化系数生成网络根据输入的真人图像中的所对应的潜码生成正则化系数，噪声数据生成网络根据真人图像中的所对应噪声、与信道相对应的噪声系数输出噪声数据，并输送至对应的信道中。

综合网络根据预设常量、正则化系数生成网络所生成的正则化系数、噪声数据生成网络所生成的噪声数据生成目标图像生成目标图像。

在第一预设神经网络中，综合网络生成的是目标风格图像；在第二预设神经网络中，综合网络生成的是二次真人图像。

在一些实施例中，正则化系数生成网络，包括：归一化单元，用于对初始潜码进行归一化处理得到归一化潜码；全链接层，用于对归一化潜码进行非线性变换得到潜码系数；仿射变换单元，用于对潜码系数进行仿射变换得到正则化系数。

在第一预设神经网络和\第二预设神经网络中，将初始潜码输出至归一化单元中，初始潜码被进行归一化处理后得到归一化潜码，并作为全链接层的输入。全链接层对输入的归一化潜码进行非线性变换得到潜码系数，并将得到的潜码系数作为仿射变换单元的输入。

仿射变换单元对潜码系数进行仿射变换得到正则化系数，并将正则化系数输入值中对应的信道中。其中，8个全链接层相互连接，以对归一化潜码进行非线性变换得到潜码系数。

在一些实施例中，综合网络，包括：第一综合子网络、第二综合子网络；第一综合子网络，用于根据预设常量、噪声数据、正则化系数进行卷积处理及正则化处理，并输出目标子图像；第二综合子网络，用于根据目标子图像、噪声系数、正则化系数进行上采样处理、卷积处理及正则化处理，并输出目标图像。

第一综合子网络包括一个预设常量单元、一个正则化系数单元、一个卷积单元、一个正则化系数单元交替连接。

预设常量单元将常量设定为4*4*512维的常量，卷积单元的卷积核大小为3*3。根据正则化系数对噪声系数进行处理后进行卷积处理，并根据对应据正则化系数对卷积处理的结果进行处理，将对应的结果输入至第二综合子网络。

第二综合子网络由一个上采样单元、一个卷积单元、一个正则化系数单元、一个卷积单元、一个正则化系数单元依次连接构成。上采样单元对第二综合子网络的输入进行上采样处理，并通过卷积单元对上采样处理得到的结果进行卷积处理。通过正则化系数单元、卷积单元、正则化系数单元对输出结果进行依次处理，并输出目标图像。

其中，每一个正则化系数单元的正则化系数由正则化系数生成网络根据初始潜码生成，每一个正则化系数单元均输入一个对应的噪声系数。且第一综合子网络的输出大小为4*4，第二综合子网络的输出大小为8*8。

在一些实施例中，第二预设神经网络，还包括：图像数据转化网络，用于初始图像进行数据多维度转化，并将得到的数据作为解码网络的输入；图像数据转化网络，包括：残差网络，用于对输入图像进行特征提取，以得到与不同维度对应的多维度图像；转化卷积层，用于将多维度图像转换潜码。

可以理解地，第二预设神经网络由编码网络、解码网络构成，编码网络包括图像数据转化网络，用于将初始图像进行数据多维度转化，并将得到的潜码，以作为解码网络的输入。

图像数据转化网络，包括：残差网络，用于对输入图像进行特征提取，以得到与不同维度对应的多维度图像；转化卷积层，用于将多维度图像转换潜码。转化卷积层的卷积核大小依次为8*8*512、4*4*512、2*2*512、1*1*512。

通过图像数据转化网络将输入的初始图像(真人图像)转换为潜码，并作为第二预设神经网络中解码网络的输入。

请参照图3，在一些实施例中，步骤S200中的对第一预设神经网络进行目标风格训练得到目标风格生成网络，包括：步骤S210、将随机噪声输入至第一预设神经网络，并输出风格图像；步骤S220、根据第一辨别器对风格图像、与风格图像对应的参照图像进行辨别，得到第一辨别结果；步骤S230、根据第一辨别结果对第一预设神经网络进行参数迭代修正，得到目标风格生成网络。

基于生成对抗网络的方式对第一预设神经网络进行训练，将随机噪声输入至第一预设神经网络，并输出风格图像。可以理解地，第一预设神经网络根据随机噪声生成的风格图像为模拟图像，而与风格图像对应的参照图像为真实图像。将风格图像、与风格图像对应的参照图像作为第一辨别器的输入，第一辨别器对输入的图像进行辨别，并输出该输入图像为真实卡通图像的概率。

在训练过程中，通过第一预设神经网络中调节参数，以提高输入图像为真实卡通图像的概率。即第一预设神经网络、第一辨别器构成了一个对抗网络(GAN)，即动态的“博弈过程”。

其中，对抗网络(GAN)函数原理如下：第一辨别器(辨别网络D)最大概率地将训练样本辨别到正确的标签(即最大化log(1-D(G(z)))和(log D(x))。第一预设神经网络最小化log(1–

D(G(z)))，可以理解地，第一预设神经网络最大化第一辨别器(辨别网络D)的损失，对参照图像的一方进行固定，并对第一预设神经网络络的参数进行交替迭代，以使得第一辨别器的损失或者错误最大化。

例如，输入一个512维的潜码至正则化系数生成网络中，并通过全链接层对归一化处理后得到的归一化潜码进行非线性变换，以得到参数w。通过仿射变换单元对参数w进行仿射变换，以得到综合网络中每层网络(AdaIN函数)所需要的正则化系数。

其中，正则化系数包括y_s,i、y_b,i。正则化系数的数量于每一层神经网络的信道相同。

AdaIN函数，具体为：

且噪声数据生成网络中包括有与每个信道相对应的噪声系数。由于第一预设网络的每一个卷积单元(卷积层)的数据均被归一化处理，并由正则化系数生成网络中正则化系数y_s,i、y_b,i控制，故第一预设网络所输出的图像仅由所输出的潜码决定。

请参照图4，在一些实施例中，步骤S200中的对第二预设神经网络进行真人图像训练得到真人图像转换网络，包括：步骤S240、将初始图像输入至第二预设神经网络，并输出真人图像；步骤S250、根据第二辨别器对真人图像、与真人图像对应的参照图像进行辨别，得到第二辨别结果；步骤S260、根据第二辨别结果对第二预设神经网络进行参数迭代修正，得到真人图像转换网络。

由于第二预设神经网络包括解码网络、编码网络，编码网络用于将输入的真人图像进行转换，以转换为相对应的潜码，并作为解码网络的输入。

其中，第二预设神经网络与第一预设神经网络的解码网络结构相同。通过将真人图像、与真人图像对应的参照图像作为第二辨别器的输入，根据第二辨别结果对第二预设神经网络进行参数迭代修正，以使得第二预设神经网络所输出图像被判断为非真人图像的概率最大化，并对最终的参数进行保存，以得到真人图像转换网络。

通过对目标风格生成网络中除了风格层(正则化系数生成网络)之外的部分与真人图像转换网络的相应部分进行插值混合，以构建图像滤镜转换模型。

其中，图像滤镜转换模型的数学表达式为：αf(x)+βg(x)，f(x)为目标风格生成网络，g(x)为真人图像转换网络；α为目标风格生成网络的系数，β为真人图像转换网络的系数。

通过设置目标风格生成网络的系数、真人图像转换网络的系数以对真人图像转换网络的图像转换效果进行调节，以得到不同的效果。

在一些实施例中，图像滤镜转换网络训练方法，还包括：将初始图像输入至图像滤镜转换模型，并输出滤镜转换图像；根据第三辨别器对滤镜转换图像、与滤镜转换图像对应的参照图像进行辨别，得到第三辨别结果；根据第三辨别结果对图像滤镜转换模型进行参数迭代修正；其中，第三辨别器用于对滤镜转换图像的五官进行对应辨别。

对图像滤镜转换模型所输出的滤镜转换图像中五官中不同部分的图像进行截取，并将截取到的不同部分的图像输入至第三辨别器中，以进行二次识别。其中，第三辨别结果用于指向滤镜转换图像与风格图像的相似度更高。根据第三辨别结果对图像滤镜转换模型进行参数迭代修正，以降低滤镜转换图像与初始图像的相似度，并提高初始图像与风格图像的相似度。

在一些实施例中，将目标风格生成网络、真人图像转换网络进行插值混合，得到图像滤镜转换模型，包括：图像滤镜转换模型表达为：αf(x)+βg(x)；其中，f(x)为目标风格生成网络，α为目标风格生成网络的系数；g(x)为真人图像转换网络，β为真人图像转换网络的系数，α介于0.5至0.7之间。

通过将目标风格生成网络、真人图像转换网络进行插值混合，并将目标风格生成网络的系数设置为介于0.5至0.7之间，以使得滤镜转换图像与风格图像的相似度达到预设要求的同时，避免图像整体色调不自然，滤镜转换图像人物五官与初始图像的五官不太一致。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于：执行上述任一实施例中的图像滤镜转换网络训练方法。

上面结合附图对本申请实施例作了详细说明，但是本申请不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本申请宗旨的前提下作出各种变化。此外，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

Claims

1.图像滤镜转换网络训练方法，其特征在于，包括：

获取第一预设神经网络、第二预设神经网络；

对所述第一预设神经网络进行目标风格训练得到目标风格生成网络，对所述第二预设神经网络进行真人图像训练得到真人图像转换网络；

将所述目标风格生成网络、所述真人图像转换网络进行插值混合，得到图像滤镜转换模型。

2.根据权利要求1所述的图像滤镜转换网络训练方法，其特征在于，所述第一预设神经网络和\或所述第二预设神经网络，包括：解码网络；

所述解码网络，包括：

正则化系数生成网络，用于根据初始潜码生成正则化系数；

噪声数据生成网络，用于根据与信道相对应的噪声系数、随机噪声生成噪声数据；

综合网络，用于根据预设常量、所述正则化系数、所述噪声数据生成目标图像。

3.根据权利要求2所述的图像滤镜转换网络训练方法，其特征在于，所述正则化系数生成网络，包括：

归一化单元，用于对所述初始潜码进行归一化处理得到归一化潜码；

全链接层，用于对所述归一化潜码进行非线性变换得到潜码系数；

仿射变换单元，用于对所述潜码系数进行仿射变换得到所述正则化系数。

4.根据权利要求3所述的图像滤镜转换网络训练方法，其特征在于，所述综合网络，包括：第一综合子网络、第二综合子网络；

所述第一综合子网络，用于根据所述预设常量、所述噪声数据、所述正则化系数进行卷积处理及正则化处理，并输出目标子图像；

所述第二综合子网络，用于根据所述目标子图像、所述噪声数据、所述正则化系数进行上采样处理、卷积处理及正则化处理，并输出所述目标图像。

5.根据权利要求2所述的图像滤镜转换网络训练方法，其特征在于，所述第二预设神经网络，还包括：

图像数据转化网络，用于初始图像进行数据多维度转化，并将得到的数据作为所述解码网络的输入；

所述图像数据转化网络，包括：残差网络，用于对所述初始图像进行特征提取，以得到与不同维度对应的多维度图像；

转化卷积层，用于将所述多维度图像转换潜码。

6.根据权利要求5所述的图像滤镜转换网络训练方法，其特征在于，所述对所述第一预设神经网络进行目标风格训练得到目标风格生成网络，包括：

将随机噪声输入至所述第一预设神经网络，并输出风格图像；

根据第一辨别器对所述风格图像、与所述风格图像对应的参照图像进行辨别，得到第一辨别结果；

根据所述第一辨别结果对所述第一预设神经网络进行参数迭代修正，得到所述目标风格生成网络。

7.根据权利要求6所述的图像滤镜转换网络训练方法，其特征在于，所述对所述第二预设神经网络进行真人图像训练得到真人图像转换网络，包括：

将所述初始图像输入至所述第二预设神经网络，并输出真人图像；

根据第二辨别器对所述真人图像、与所述真人图像对应的参照图像进行辨别，得到第二辨别结果；

根据所述第二辨别结果对所述第二预设神经网络进行参数迭代修正，得到所述真人图像转换网络。

8.根据权利要求7所述的图像滤镜转换网络训练方法，其特征在于，所述图像滤镜转换网络训练方法，还包括：

将所述初始图像输入至图像滤镜转换模型，并输出滤镜转换图像；

根据第三辨别器对所述滤镜转换图像、与所述滤镜转换图像对应的参照图像进行辨别，得到第三辨别结果；

根据所述第三辨别结果对所述图像滤镜转换模型进行参数迭代修正；

其中，所述第三辨别器用于对与所述滤镜转换图像对应的五官图像进行对应辨别。

9.根据权利要求1所述的图像滤镜转换网络训练方法，其特征在于，所述将所述目标风格生成网络、所述真人图像转换网络进行插值混合，得到图像滤镜转换模型，包括：

所述图像滤镜转换模型表达为：αf(x)+βg(x)；

其中，f(x)为所述目标风格生成网络，α为所述目标风格生成网络的系数；g(x)为所述真人图像转换网络，β为所述真人图像转换网络的系数，α介于0.5至0.7之间。

10.计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于：执行权利要求1至9中任一项所述的图像滤镜转换网络训练方法。