CN111626918B

CN111626918B - 一种基于语义分割网络技术对数字图像进行风格变化的方法及系统

Info

Publication number: CN111626918B
Application number: CN202010356041.XA
Authority: CN
Inventors: 郑进
Original assignee: Hangzhou Huoshaoyun Technology Co ltd
Current assignee: Hangzhou Huoshaoyun Technology Co ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2023-05-09
Anticipated expiration: 2040-04-29
Also published as: CN111626918A

Abstract

本发明公开了一种基于语义分割网络技术对数字图像进行风格变化的方法，包括步骤：A定义婚纱摄影场景下风格变换所需分割的语义类型，制作婚纱摄影场景下的语义分割样本集；B分割样本集训练语义分割模型；C获得应的语义分割图；D将图像合并得到一个带有语义信息的6维联合输入图像；E将带有语义信息的六通道联合图像输入到多分支高分辨率网络中，对图像进行语义先验信息约束下的风格变化特征提取，输出保持原始分辨率的64维特征图。本发明还公开了一种基于语义分割网络技术对数字图像进行风格变化的系统。本发明实现了将特定布局或场景的照片对应地变换到一个特定风格的功能，处理速度快，处理输出效果稳定，各语义区域的交界处过渡自然。

Description

一种基于语义分割网络技术对数字图像进行风格变化的方法及系统

技术领域

本发明属于对数码单反相机成像的风格迁移技术领域，特别是将通过数码单反相机获得的千万级像素图像，通过经由特定样本对(单反相机得到的原始图像和对应经修图师人工处理后的风格化图像)组成的风格化图像数据集训练得到的深度卷积神经网络，获得风格化图像，尤其是涉及一种基于语义分割网络技术对数字图像进行风格变化的方法及系统。

背景技术

本发明要解决的问题是需要将一些特定布局或场景的照片对应地变换到一个特定的风格，如森系风格/ins风格等。在目前计算机视觉的诸多领域中，超分辨率和神经风格迁移是较为相关的领域，超分辨任务是将低像素的图像放大到更大像素，使得仍能保持较高的图像清晰度，其要解决的问题和目的与本发明有本质上的区别，而神经风格迁移则是与该应用场景更为相关的技术领域，Gatys(Aneural algorithm of artistic style，2015)等人最早提出了利用卷积神经网络将自然照片转换为著名艺术家们的风格化图像，由此开启了基于深度学习进行风格迁移的新篇章。随后，Li(Universal Style Transfervia Feature Transforms，2017)和Artsiom(A Style-Aware Content Loss for Real-time HD Style Transfer，2018)等人陆续提出了新的方法来解决神经风格迁移问题，但是这些工作仍停留在产生更艺术化的图像，并不适用于解决现在所面临的问题。

Li等人(A Closed-form Solution to Photorealistic Image Stylization)于首次将神经风格迁移的思想引入解决相片级风格转换(Photorealistic imagestylization)，他们在Li(Universal Style Transfer via Feature Transforms，2017)中提出的whitening and coloring transform(WCT)技术的基础上，进一步提出了PhotoWCT方法，在网络的特征解码过程中帮助重构丢失的细节信息。Yoo等人(PhotorealisticStyle Transfer via Wavelet Transforms，2019)进一步优化了Li的工作，在WCT中引入了小波变换，并且剔除了Li工作中的Smoothing环节，但使得风格迁移的结果真实度更高。这些工作全都基于WCT这一技术来实现从内容图和风格图中提取风格化特征，其存在的问题如下：

1)WCT中需要使用矩阵奇异值分解(SVD分解)，这并不是一个高效的操作，而我们所要处理的照片通常都来自数码单反相机(DSLR设备)的千万级，甚至过亿级别的像素图像，SVD分解的存在使得构建好的网络对单张图片的推理时间难以在秒级内完成，这严重影响了客户的使用体验。

2)目前的相片级风格迁移同样需要语义分割来支持，自Li提出相片级风格转换以来，语义分割一直是一个并不必要的元素，其作用是独立于深度网络推理之外的，仅作为一个掩码，将不同语义区域的风格特征映射独立开来，使得WCT能在不同语义区域能够完成各自独立的风格特征提取。这样的方式使得内容图的不同语义区域经过各自的风格变换后再融合到一张图像上时，不可避免地会在各语义区域的交界处有明显的拼接痕迹，严重影响图像的整体质量。从另一方面来说，风格迁移所建立的数据基础仍是具有类似结构布局的内容图和风格图(即如下图所示，如图1-1内容图和图1-2风格图均是上方为天花板，中间为墙壁，下方为地面)，

语义分割信息这样的使用方式也是一种并无他法的选择。

在婚纱摄影行业，对客人的婚纱照导入到电脑上由专业的修图师借助Photoshop等工具进行后期修图是必不可少的环节。传统的人工修图方式存在诸多缺陷，如人工成本逐渐攀升、人工修图效率低下、市场需求的快速变化使得修图风格多种多样，修图师往往难以快速反应来调整自身固有的修图手法等，此外，不同修图师的修图习惯和手法不同，导致修图效果难以保证和前期销售环节所展示的样片完全一致，由此招来客诉也是难以解决的问题。随着人工智能的快速发展，特别是在数字图像处理领域，深度卷积神经网络在各种图像处理任务中逐渐崭露头角，目前并没有与我们需求完全一致的研究领域，比较相关的风格迁移领域的技术手段存在某些固有缺陷，因此也并不足以解决我们所面临的问题，由此，我们基于深度卷积神经网络这一技术设计并构建了婚纱摄影场景下的风格变换模型和一整套的基于深度学习的商业修图系统，以解决目前传统修图方式的缺陷。

发明内容

为了克服现有技术的不足，本发明提供一种利用可插拔的、轻量级的语义先验信息补充网络，为对称图像的风格学习提供显著的语义先验信息支持，避免不同语义区域风格化后合成的图像会出现明显边界的问题，消除边界问题的基于语义分割网络技术对数字图像进行风格变化的方法及系统。

本发明解决其技术问题所采用的技术方案是：一种基于语义分割网络技术对数字图像进行风格变化的方法，包括以下步骤：

A、定义婚纱摄影场景下进行风格变换所需要分割的语义类型，制作婚纱摄影场景下的语义分割样本集；

B、基于步骤A构建的语义分割样本集训练语义分割模型；

C、基于步骤B训练完成的语义分割模型获得待风格变换原图(Image Input)对应的语义分割图(Segment Input)；

D、将原始待变换RGB三通道图像(Image Input)和对应的三通道RGB语义分割图(Segment Input)合并得到一个带有语义信息的6维联合输入图像(Concat Input)；

E、将带有语义信息的六通道联合图像输入到所构建的多分支高分辨率网络中，对图像进行语义先验信息约束下的风格变化特征提取，输出保持原始分辨率的64维特征图。

作为优选，所述步骤E中的64维特征图和三维输入图像在原始网络经过第一个网络卷积层所得到的64维度早期特征进行通道层面的融合，得到128维特征图，通过一个卷积层将压缩回至64维特征，由此完成语义信息支持下的风格变换特征提取过程，并进入后续网络主体结构。

作为优选，所述的婚纱摄影场景包括人物或动物或建筑或天空或树木或山体或草坪或陆地或海水或湖水。

本发明还公开了一种基于语义分割网络技术对数字图像进行风格变化的系统，依次包括有：

婚纱摄影场景下的语义分割样本集，定义婚纱摄影场景下所需要分割的语义类型；

语义分割模型，基于婚纱摄影场景下的语义分割样本集构建的语义分割样本集训练；

语义信息编码模型网络，将原始待变换RGB三通道图像原图(Image Input)和对应的三通道RGB语义分割图(Segment Image)合并得到一个带有语义信息的6维联合输入图像(Concat Input)；

将带有语义信息的六通道联合图像输入到所构建的多分支高分辨率网络中，对图像进行语义先验信息约束下的风格变化特征提取，输出保持原始分辨率的64维特征图。

进一步的，所述语义信息编码模型网络中的64维特征图和三维输入图像在原始网络经过第一个网络卷积层所得到的64维度早期特征进行通道层面的融合，得到128维特征图，通过一个卷积层将压缩回至64维特征，由此完成语义信息支持下的风格变换特征提取过程，并进入后续网络主体结构。

本发明的有益效果是：实现了将特定布局或场景的照片对应地变换到一个特定风格的功能，处理速度快，处理输出效果稳定，各语义区域的交界处不存在明显的拼接痕迹，过渡自然，不会影响图像的整体质量。

附图说明

图1-1为目前风格迁移所建立的数据基础的内容图。

图1-2为目前风格迁移所建立的数据基础的内容图。

图2为本发明的HRNet状高分辨率网络结构图。

图3-1为未处理的原图。

图3-2为原图叠加语义分割图。

图3-3为人工修图。

图3-4为不使用本发明方法情况下的风格变换模型结果示例图。

图3-5为使用WCT方法结果示例图。

图3-6为本发明图像处理效果示例图。

图4-1为WCT和本发明方法效果对比示例图一。

图4-2为WCT和本发明方法效果对比示例图二。

图4-3为WCT和本发明方法效果对比示例图三。

图5为本发明所提的语义信息处理方法系统结构示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明方案，下面将结合本发明实施例中的附图，对发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

一种基于语义分割网络技术对数字图像进行风格变化的方法，包括以下步骤：

A、定义婚纱摄影场景下进行风格变换所需要分割的所有语义类型，具体包括人物/动物、建筑、天空、树木/山体、草坪、陆地、海水/湖水，制定化地制作婚纱摄影场景下的语义分割样本集；

B、基于步骤A构建好的语义分割样本集训练语义分割模型；

C、基于步骤B训练完成的语义分割模型获得待风格变换原图Image Input对应的语义分割图Segment Image；

D、将原始待变换RGB三通道图像Image Input和对应的三通道RGB语义分割图Segment Image合并得到一个带有语义信息的6维联合输入图像ConcatInput；

E、将带有语义信息的六通道联合图像输入到所构建的多分支高分辨率网络中，对图像进行语义先验信息约束下的风格变化特征提取，输出保持原始分辨率的64维特征图；

1)多分支即表示对输入进行多尺度的特征提取，如1000*1000分辨率的图像会下采样到500*500和250*250进行特征提取，即图2中的“2X”和“4X”支线；

2)高分辨率即表示在模型进行特征提取的过程中，会始终保持原始分辨率的主线，即图2中的“1X”主线，在早期的UNet，甚至更早的编解码结构，都会将图像下采样后再进行特征的提取，没有高分辨率的特性，使得会有一定的信息损失。

F、将步骤E中的64维特征图和三维输入图像在原始网络经过第一个网络卷积层所得到的64维度早期特征进行通道层面的融合，得到128维特征图，通过一个卷积层将压缩回至64维特征，由此完成语义信息支持下的风格变换特征提取过程，并进入后续网络主体结构。

一种基于语义分割网络技术对数字图像进行风格变化的系统，依次包括有：

语义信息编码模型网络，将原始待变换RGB三通道图像(Image Input)和对应的三通道RGB语义分割图(Segment Image)合并得到一个带有语义信息的6维联合输入图像(Concat Input)；将带有语义信息的六通道联合图像(Concat Input)输入到所构建的多分支高分辨率网络中，对图像进行语义先验信息约束下的风格变化特征提取，输出保持原始分辨率的64维特征图。最后，将该64维特征图和三维输入图像在原始网络经过第一个网络卷积层所得到的64维度早期特征进行通道层面的融合，得到128维特征图，通过一个卷积层将压缩回至64维特征，由此完成语义信息支持下的风格变换特征提取过程，并进入后续网络主体结构。

不同于风格迁移的非对称图像学习，婚纱摄影场景下的风格变化更适合做如超分辨率、图像增强等任务那样保持图像内容不变的对称学习，这样对称的学习更能保证稳定的风格效果输出，而类似的对称图像学习主流方法几乎也不使用语义分割结果，而在我们的网络结构设计之初也并未考虑引入语义分割信息，后期的实际应用过程中，出现了网络难以辨别不同语义区域的问题，使得出现所谓的“染色”问题。出现这种现象的原因在于我们的风格变换解决方案为纯粹端对端的X-Y图像块学习网络，并通过一个常识VGG网络的多层次图像特征计算损失，来导向网络参数的变化，最终获得一个合理的高阶映射函数。这种方法需要保证训练好的网络能对输入的图像块在色彩和纹理上可分，即对具有相似色彩和纹理的区域作出语义上的识别，比如同样是类白色的婚纱和天空，理应有不同的变换规律，这也解释了各种染色和人景难以区分等问题的成因。因此，在损失上是否拥有诸如此类的可分性就显得尤为重要，构建一个针对我们的场景的损失特征提取网络是可能可行的方法，此外，在现有的网络上加入一个强约束的语义分割信息可能是另一种解决方式。特别是在风格迁移和衣着生成问题中，语义分割被大量地使用，使得网络能针对不同的语义区域产生不同的变换参数，在我们这一场景中，语义分割可以明确地告诉所训练的网络这块类白色的区域到底是婚纱还是天空，使得我们要解决的问题从直接的端对端学习问题转变为一个在给定先验信息下的条件推理问题。由此，本发明提出了一个可插拔的、轻量级的语义先验信息补充网络。

该网络利用语义分割技术获得待处理图像的语义分割图，将待输入网络的原始图像和对应的语义分割图像合并，并经过多分支的高分辨率网络进行编码，该网络简化自HRNet(Deep High-Resolution Representation Learning for Human Pose Estimation，2019)，网络结构如图2所示，获得包含图像块语义信息的特征图，再将该特征图输入到主干网络中，这个网络能够对对称图像对风格学习中提供显著的语义先验信息支持，同时能帮助网络进行风格特征提取，避免了目前风格迁移中所常规使用的WCT技术中将语义分割结果独立于模型训练之外，仅作为掩码用作不同语义区域的选择，使得最终不同语义区域风格化后合成的图像会出现明显边界的问题，该网络的嵌入在我们的使用场景中达到了较好的帮助不同语义区域做差异化的特征学习的效果，同时也完全消除了WCT中语义分割使用方式带来的非常严重的边界问题，此外也不会带来很大的额外计算开销。

图3-1为未经处理的原图，图3-2为原图叠加语义分割图，图3-3为人工修图，图3-4为不使用本发明方法情况下的风格变换模型结果，图3-5为使用WCT方法结果，图3-6为本发明图像处理效果示例图；通过比较图3-4、图3-5和图3-6，可发现语义分割信息的引入显著解决了模型难以区分不同语义区域的变换，出现了“染色”问题，而图3-4和图3-5均未出现“染色”。在实际生产情况下，语义分割模型难以做到对各种场景的图片进行像素级精确的分割，大多数情况下，语义分割模型只能得到一个整体上准确的分割结果。

图4-1-图4-3为图3-1中三处语义区域局部交界处的WCT方法和本发明方法的对比图。WCT方法对语义分割模型有极高的精度要求，其在分割不准确的部位出现了明显的不自然过渡，WCT方法婚纱和湖水交界处存在明显边界，本发明方法过度自然。

图4-1展示了WCT和本发明方法效果对比图，WCT方法婚纱和湖水交界处存在明显边界，本发明方法过度自然。

图4-2展示了WCT和本发明方法效果对比图，WCT方法塔和天空交界处存在明显边界，本专利方法过度自然。

图4-3展示了WCT和本发明方法效果对比图，WCT方法树木和天空交界处存在明显边界，本专利方法过度自然。

上述具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于语义分割网络技术对数字图像进行风格变化的方法，其特征在于包括以下步骤：

B、基于步骤A构建的语义分割样本集训练语义分割模型；

C、基于步骤B训练完成的语义分割模型获得待风格变换原图对应的语义分割图；

D、将原始待变换RGB三通道图像和对应的三通道RGB语义分割图合并得到一个带有语义信息的6维联合输入图像；

2.根据权利要求1所述的基于语义分割网络技术对数字图像进行风格变化的方法，其特征在于：所述步骤E中的64维特征图和三维输入图像在原始网络经过第一个网络卷积层所得到的64维度早期特征进行通道层面的融合，得到128维特征图，通过一个卷积层将压缩回至64维特征，由此完成语义信息支持下的风格变换特征提取过程，并进入后续网络主体结构。

3.根据权利要求1所述的基于语义分割网络技术对数字图像进行风格变化的方法，其特征在于：所述的婚纱摄影场景包括人物或动物或建筑或天空或树木或山体或草坪或陆地或海水或湖水。

4.一种基于语义分割网络技术对数字图像进行风格变化的系统，依次包括有：

语义分割模型，基于婚纱摄影场景下的语义分割样本集构建的语义分割样本集训练；语义信息编码模型网络，将原始待变换RGB三通道图像原图和对应的三通道RGB语义分割图合并得到一个带有语义信息的6维联合输入图像；

5.根据权利要求4所述的基于语义分割网络技术对数字图像进行风格变化的系统，其特征在于：所述语义信息编码模型网络中的64维特征图和三维输入图像在原始网络经过第一个网络卷积层所得到的64维度早期特征进行通道层面的融合，得到128维特征图，通过一个卷积层将压缩回至64维特征，由此完成语义信息支持下的风格变换特征提取过程，并进入后续网络主体结构。