CN108961349A

CN108961349A - 一种风格化图像的生成方法、装置、设备及存储介质

Info

Publication number: CN108961349A
Application number: CN201810700444.4A
Authority: CN
Inventors: 叶武剑; 蔡若君; 刘怡俊; 翁韶伟; 张子文
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-12-07

Abstract

本申请公开了一种风格化图像的生成方法、装置、设备及存储介质，该方法包括：对原始图像分别用不同风格的选定图像进行风格转化，得到风格化原始图像；根据所述原始图像所需的风格化目标，通过多任务级联网络从所述风格化原始图像中分割出目标区域；通过MRF模型将分割出的所述目标区域融合到所述原始图像中，生成具有所述目标区域的风格化图像。本申请采用多任务级联网络可以准确地分类出目标区域，在目标区域与原始图像融合的时候采用了MRF模型，可以使得目标区域与原始图像的背景图过渡得更平滑，使风格化图像既以内容为轮廓又含有所需风格，保证了图像风格化的效果，最终可以实现图像的特定区域风格化或者多区域风格化。

Description

一种风格化图像的生成方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种风格化图像的生成方法、装置、设备及存储介质。

背景技术

目前，现有的基于深度学习的图片风格化处理方法中，一般通过训练神经网络对分割出的每个超像素进行分析标注，然后对图片进行目标物体的提取预测，根据风格要求对图片作增强或弱化处理，从而得到对图片风格化。

上述方法虽然可以对整幅图片作各种整体风格化处理，但是有些情况仅需对图片中某个区域作风格转化而其他不变，或者对多区域要求不同的风格时，上述方法则无法满足。

因此，如何对图片实现特定区域风格化或者多区域风格化，是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种风格化图像的生成方法、装置、设备及存储介质，可以对图片特定区域风格化或者多区域风格化。其具体方案如下：

一种风格化图像的生成方法，包括：

对原始图像分别用不同风格的选定图像进行风格转化，得到风格化原始图像；

根据所述原始图像所需的风格化目标，通过多任务级联网络从所述风格化原始图像中分割出目标区域；

通过MRF模型将分割出的所述目标区域融合到所述原始图像中，生成具有所述目标区域的风格化图像。

优选地，在本发明实施例提供的上述风格化图像的生成方法中，对原始图像分别用不同风格的选定图像进行风格转化，得到风格化原始图像，具体包括：

构建卷积神经网络并进行训练；

随机初始化一个噪声图像，将原始图像和所述噪声图像输入至所述卷积神经网络，提取出所述原始图像中的内容；

将不同风格的选定图像和所述噪声图像输入至所述卷积神经网络，提取出所述选定图像中的风格；

将提取出的所述内容和所述风格进行线性合成，输出风格化原始图像。

优选地，在本发明实施例提供的上述风格化图像的生成方法中，根据所述原始图像所需的风格化目标，通过多任务级联网络从所述风格化原始图像中分割出目标区域，具体包括：

将所述风格化原始图像输入至RPN网络，输出边界框；

通过ROI池化将所述边界块提取为相同维度的特征，并输入到第一全连接层和第二连接层；

将带有ReLu激活函数的所述第一全连接层降维到256，以及通过所述第二全连接层得到掩码的特征；

用Softmax分类法得到所述原始图像中的例子类和一个背景；

根据所述原始图像所需的风格化目标，从所述例子类中选择感兴趣的目标区域。

优选地，在本发明实施例提供的上述风格化图像的生成方法中，通过MRF模型将分割出的所述目标区域融合到所述原始图像中，生成具有所述目标区域的风格化图像，具体包括：

在所述原始图像中找到所述目标区域；

在所述目标区域的边界定义一个模糊像素的窄带；

使用MRF模型通过所述窄带将所述目标区域融入所述原始图像的背景图中；

通过所述MRF模型的能量函数的最优解平滑所述目标区域和所述背景图的过渡边缘，生成具有所述目标区域的风格化图像。

本发明实施例还提供了一种风格化图像的生成装置，包括：

图像转化模块，用于对原始图像分别用不同风格的选定图像进行风格转化，得到风格化原始图像；

区域分割模块，用于根据所述原始图像所需的风格化目标，通过多任务级联网络从所述风格化原始图像中分割出目标区域；

区域融合模块，用于通过MRF模型将分割出的所述目标区域融合到所述原始图像中，生成具有所述目标区域的风格化图像。

本发明实施例还提供了一种风格化图像的生成设备，包括处理器和存储器，其中，所述处理器执行所述存储器中保存的计算机程序时实现如本发明实施例提供的上述风格化图像的生成方法。

本发明实施例还提供了一种计算机可读存储介质，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如本发明实施例提供的上述风格化图像的生成方法。

本发明所提供的一种风格化图像的生成方法、装置、设备及存储介质，该方法包括：对原始图像分别用不同风格的选定图像进行风格转化，得到风格化原始图像；根据所述原始图像所需的风格化目标，通过多任务级联网络从所述风格化原始图像中分割出目标区域；通过MRF模型将分割出的所述目标区域融合到所述原始图像中，生成具有所述目标区域的风格化图像。本发明采用多任务级联网络可以准确地分类出目标区域，在目标区域与原始图像融合的时候采用了MRF模型，可以使得目标区域与原始图像的背景图过渡得更平滑，使风格化图像既以内容为轮廓又含有所需风格，保证了图像风格化的效果，最终可以实现图像的特定区域风格化或者多区域风格化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的风格化图像的生成方法的流程图；

图2为本发明实施例提供的风格化图像的生成方法中每一步骤对应的效果图；

图3为本发明实施例提供的风格化图像的生成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种风格化图像的生成方法，如图1所示，包括以下步骤：

S101、对原始图像分别用不同风格的选定图像进行风格转化，得到风格化原始图像；

S102、根据所述原始图像所需的风格化目标，通过多任务级联网络从所述风格化原始图像中分割出目标区域；

S103、通过MRF模型将分割出的所述目标区域融合到所述原始图像中，生成具有所述目标区域的风格化图像。

在本发明实施例提供的上述风格化图像的生成方法中，首先对原始图像分别用不同风格的选定图像进行风格转化，得到风格化原始图像；然后根据所述原始图像所需的风格化目标，通过多任务级联网络从所述风格化原始图像中分割出目标区域；最后通过马尔科夫随机场(Markov Random Field，MRF)模型将所述目标区域融合到所述原始图像中，生成具有所述目标区域的风格化图像。这样采用多任务级联网络可以准确地分类出目标区域，采用MRF模型将目标区域融合到原始图像，可以使得目标区域与原始图像的背景图过渡得更平滑，使生成的风格化图像既以内容为轮廓又含有所需风格，保证了图像风格化的效果，可以实现图像的特定区域风格化或者多区域风格化，即对图像的特定区域或者多区域中的内容信息和纹理信息进行了重构。

在实际应用中，以图2为例，原始图像中有两只鸟，需要将这两只鸟所在区域进行不同风格化，首先选择两幅不同风格的选定图像，对原始图像分别用这两幅选定图像进行整体风格转化，得到两幅风格化原始图像；然后为了得到对两个目标区域(两只鸟所在区域)的风格化，需要采用多任务级联网络对风格化原始图像作目标检测和图像分割；此外，将风格化后目标区域融入原始图像中的背景图，需要结合MRF模型，使二者边缘过渡平滑。

进一步地，在具体实施时，在本发明实施例提供的上述风格化图像的生成方法中，步骤S101对原始图像分别用不同风格的选定图像进行风格转化，得到风格化原始图像，具体可以包括：构建卷积神经网络并进行训练；随机初始化一个噪声图像，将原始图像和所述噪声图像输入至所述卷积神经网络，提取出所述原始图像中的内容；将不同风格的选定图像和所述噪声图像输入至所述卷积神经网络，提取出所述选定图像中的风格；将提取出的所述内容和所述风格进行线性合成，输出风格化原始图像。

具体地，以Gatys所提出的风格转化算法为基础，采用VGG-19来为图像风格转化：

第一步、使用训练好的卷积神经网络(CNN)，随机初始化一个输入图片大小的噪声图像x，然后保持CNN参数不变，将原始图像p和x输入进网络，然后对x求导，使x在内容上越来越趋近于p，即可提取出原始图像中的内容；

设内容的损失函数为：

其中，p为原始图像，x为噪声图像，为第l层第i个滤波器(filter)上位置j处的激活值；为原始图片在CNN中第l层的表示；

第二步、设单层的损失函数为：

设风格提取的各层综合损失函数为：

其中，M₁为第l层的feature map的大小；N₁为第l层的filter的数目；为l层第i个feature map和第j个feature map的内积；为选定图像某一层的风格特征表示；a为不同风格的选定图像；ω₁为各层对总损失贡献的权重因子；

与第一步相似，用随机初始化的噪声图像x，保持CNN参数不变，将选定图像a和噪声图像x输入进网络，然后对x求导，x就会在风格上趋近于a，即提取出图像中的风格；

第三步、将上述两者的损失函数加权可得风格转化的损失函数：

其中α和β分别为内容提取部分和风格提取部分的权重；

同时将三张图片(a,p,x)输入进三个相同的网络，对a求出风格特征，对p求出内容特征，然后对x求导，这样，得到的x就有a的风格和p的内容，即可对我们所需图像作风格化处理；

这样步骤S101基于VGG-19网络来训练风格化处理，使重建的图像(即风格化原始图像)既以内容为轮廓又含有所需风格，保证了整体图像风格化的效果；为了得到更好的风格化，在CNN中可以将内容和风格很好地分离提取处理，从而可以生成更符合我们所需的风格化原始图像。

进一步地，在具体实施时，在本发明实施例提供的上述风格化图像的生成方法中，上述多任务级联网络由RPN网络(Region Proposal Network)、目标提取网络和目标分类网络三部分组成，三个网络共享它们各自提取的特征，前一层网络的损失决定后一层网络的损失。步骤S102根据所述原始图像所需的风格化目标，通过多任务级联网络从所述风格化原始图像中分割出目标区域，具体可以包括：将所述风格化原始图像输入至RPN网络，输出边界框；通过ROI池化将所述边界块提取为相同维度的特征，并输入到第一全连接层和第二连接层；通过带有ReLu激活函数的第一全连接层降维到256，以及通过第二全连接层得到掩码的特征；用Softmax分类法得到所述原始图像中的例子类和一个背景；根据所述原始图像所需的风格化目标，从所述例子类中选择感兴趣的目标区域。

具体地，第一步、采用RPN网络，其损失函数为

L₁＝L₁(B(Θ))

其中，Θ为所有待优化的网络参数；B为输出，代表边界框(box)的信息；

在这个网络输入上述步骤S101得到的风格化原始图像，通过一个3×3的卷积层来降低图像的维度，再通过2个1×1的卷积层给图像中的目标区域加上box表示检测到的目标区域；

第二步、将经过3×3的卷积层后的特征映射和用box标记好的目标区域的图像输入到目标提取网络中，通过RoI(Region of Interest)池化来提取特征，使生成box中固定大小的特征，连接到两个全连接层(fc)，先送入带有ReLU的第一全连接层来降维到256，然后通过第二全连接层来返回像素级的掩码，输出将目标边缘勾勒出来的语义图；这里的损失函数是：

L₂＝L₂(M(Θ)|B(Θ))

其中，M为输出，包含了一个掩码的集合M＝{Mi}，Mi是一个m2维的逻辑回归输出。

第三步、将经过3×3的卷积层后的特征映射、RPN网络和目标提取网络输出的图像一同输入到目标分类网络中，再次用RoI池化来提取特征，并通过两层4096维的全连接层得到特征；将上述得到的特征串联，用Softmax分类法可以得到N个例子类和1个背景类；这里的损失函数是：

L₃＝L₃(C(Θ)|B(Θ),M(Θ))

其中，C＝{C_i}为所有实例的预测类别。

从而，通过分类后的N个例子，可以从中选择我们感兴趣的区域，作下一步操作。

这样步骤S102采用RPN网络可以同时找出原始图像中各个物体的边界框和物体的分类，节省了代价，同时提供了更精确的不同物体类的掩码，更准确地分类出不同物体的区域。

进一步地，在具体实施时，在本发明实施例提供的上述风格化图像的生成方法中，步骤S103通过MRF模型将分割出的所述目标区域(前景图)融合到所述原始图像(背景图)中，生成具有所述目标区域的风格化图像，具体可以包括：在所述原始图像中找到所述目标区域；在所述目标区域的边界定义一个模糊像素的窄带；使用MRF模型通过所述窄带将所述目标区域融入所述原始图像的背景图中；通过所述MRF模型的能量函数的最优解平滑所述目标区域和所述背景图的过渡边缘，生成具有所述目标区域的风格化图像。

具体地，第一步、在原始图像中找到目标区域所在的对应区域；

第二步、定义目标区域的边界(可以理解为前景图与背景图之间的像素模糊的地方)的一个窄带，只有在窄带里面的像素点才能被处理，才可以融入有一个平滑的效果；

第三步、通过采用MRF模型来最优化我们建立的一个可以将风格化后的目标区域和原始图像的背景图边界过渡平滑、融合看不出痕迹的函数，其具体包括以下步骤：

首先，定义一个一元方程：

U(p,l)＝||p-c^l||

其中，p为窄带里面的某一像素点的坐标；l为图像的前景图或背景图；c^l为l区域里离p最近的非模糊像素点；这帮助模型选择位于背景和模糊像素之间的边界附近的像素的背景标签，以及位于前景附近的像素的前景标签；

然后，定义一个二元方程：

B(p₁,l₁,p₂,l₂)＝|I_l1(p_l)-I_l2(p_l)|²+|I_l2(p₂)-I_l1(p₂)|²

其中，I₁₁为表示图片的像素点p的前景或者背景强度。给定2个像素点p₁、p₂，通过这个函数，取2个背景图或前景图的绝对平方差和，得出背景图和前景图之间最平滑的过渡；

最后，得到所需优化的能量函数：

其中，N是相邻像素p和q的集合；通过优化这个能量函数来获得标签l；根据标签l将风格化后像素对应到步骤S102中所识别掩码对应位置的像素覆盖，同时以最优解来平滑过渡边缘。

这样步骤S103通过将风格化的目标区域分割后融合入原始图像的对应区域，充分利用MRF模型，通过求其能量函数的最优解，得到目标区域与背景的边缘过渡平滑，而不像现有的图像合成技术在两者之间得到粗糙的边界。使得本发明可以生成一个更好将风格化目标嵌入背景的图像，从而可以使对特定区域的风格化处理在实际中更有利用性。

基于同一发明构思，本发明实施例还提供了一种风格化图像的生成装置，由于该风格化图像的生成装置解决问题的原理与前述一种风格化图像的生成方法相似，因此该风格化图像的生成装置的实施可以参见风格化图像的生成方法的实施，重复之处不再赘述。

在具体实施时，本发明实施例提供的风格化图像的生成装置，如图3所示，具体包括：

图像转化模块11，用于对原始图像分别用不同风格的选定图像进行风格转化，得到风格化原始图像；

区域分割模块12，用于根据所述原始图像所需的风格化目标，通过多任务级联网络从所述风格化原始图像中分割出目标区域；

区域融合模块13，用于通过MRF模型将分割出的所述目标区域融合到所述原始图像中，生成具有所述目标区域的风格化图像。

在本发明实施例提供的上述风格化图像的生成装置中，可以通过上述三个模块的相互作用，可以准确地分类出目标区域，在目标区域与原始图像融合时可以使目标区域与原始图像的背景图过渡得更平滑，使风格化图像既以内容为轮廓又含有所需风格，保证了图像风格化的效果，最终可以实现图像的特定区域风格化或者多区域风格化。

关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

相应的，本发明实施例还公开了一种风格化图像的生成设备，包括处理器和存储器；其中，处理器执行存储器中保存的计算机程序时实现前述实施例公开的风格化图像的生成方法。

关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

进一步的，本发明还公开了一种计算机可读存储介质，用于存储计算机程序；计算机程序被处理器执行时实现前述公开的风格化图像的生成方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备、存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本发明实施例提供的一种风格化图像的生成方法、装置、设备及存储介质，该方法包括：对原始图像分别用不同风格的选定图像进行风格转化，得到风格化原始图像；根据所述原始图像所需的风格化目标，通过多任务级联网络从所述风格化原始图像中分割出目标区域；通过MRF模型将分割出的所述目标区域融合到所述原始图像中，生成具有所述目标区域的风格化图像。本发明采用多任务级联网络可以准确地分类出目标区域，在目标区域与原始图像融合的时候采用了MRF模型，可以使得目标区域与原始图像的背景图过渡得更平滑，使风格化图像既以内容为轮廓又含有所需风格，保证了图像风格化的效果，最终可以实现图像的特定区域风格化或者多区域风格化。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的风格化图像的生成方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种风格化图像的生成方法，其特征在于，包括：

2.根据权利要求1所述的风格化图像的生成方法，其特征在于，对原始图像分别用不同风格的选定图像进行风格转化，得到风格化原始图像，具体包括：

构建卷积神经网络并进行训练；

3.根据权利要求2所述的风格化图像的生成方法，其特征在于，根据所述原始图像所需的风格化目标，通过多任务级联网络从所述风格化原始图像中分割出目标区域，具体包括：

将所述风格化原始图像输入至RPN网络，输出边界框；

用Softmax分类法得到所述原始图像中的例子类和一个背景；

4.根据权利要求3所述的风格化图像的生成方法，其特征在于，通过MRF模型将分割出的所述目标区域融合到所述原始图像中，生成具有所述目标区域的风格化图像，具体包括：

在所述原始图像中找到所述目标区域；

在所述目标区域的边界定义一个模糊像素的窄带；

5.一种风格化图像的生成装置，其特征在于，包括：

6.一种风格化图像的生成设备，其特征在于，包括处理器和存储器，其中，所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至4任一项所述的风格化图像的生成方法。

7.一种计算机可读存储介质，其特征在于，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的风格化图像的生成方法。