CN111553837A

CN111553837A - 一种基于神经风格迁移的艺术文本图像生成方法

Info

Publication number: CN111553837A
Application number: CN202010351906.3A
Authority: CN
Inventors: 朱安娜; 刘浩然
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-18
Anticipated expiration: 2040-04-28
Also published as: CN111553837B

Abstract

本发明提供了一种基于神经风格迁移的艺术文本图像生成方法，包括：(1)基于孪生网络的图文风格匹配。通过一种基于孪生网络的匹配度推荐算法，利用风格匹配算法挑选出最适合背景图的风格图。(2)基于形状主色匹配的文字风格迁移。本发明通过将图像的结构和纹理进行分成两个阶段，指导两组生成器和判别器进行参数更新，并引入文本图像预上色的模块，解决了风格迁移中出现的背景和前景迁移效果差的问题，将视觉效果大大提升；(3)文字尺度与方位自适应嵌入，利用基于距离变换的文字图像分割算法来处理迁移后的艺术文本图像，然后用位置优化算法进行文字图像和背景图像的自适应匹配，提高了艺术文本图像的生成效率。

Description

一种基于神经风格迁移的艺术文本图像生成方法

技术领域

本发明图像的风格迁移领域，具体涉及一种基于神经风格迁移的艺术文本图像生成方法

背景技术

图像的风格迁移是将一种风格从一个图像迁移到另一个图像，以合成一种新的艺术图像的任务，在视觉设计中有着广泛的用途，比如：绘画合成、摄影后处理、艺术图像的制作等。文字作为一种重要语义信息添加在图像中，其风格、位置等信息影响着图像整体的艺术视觉效果。人工生成特定样式的艺术文本图像需要大量的时间和精力。

近年来，有许多方法利用卷积神经网络提取图像的风格特征进行迁移，在图像的风格迁移上取得了很好的效果。但是，对于文字的风格迁移，直接利用神经网络的方法会使得文字的形状和颜色与实际的风格图像有较大差异。其次，风格化的文字及其摆放的方位与被嵌入的图像之间在视觉上是否匹配，也是在文本图像自动合成中需要考虑的重要因素。

因此需要一种新的神经风格迁移方法来对艺术文本图像生成以实现对文字的主色和形状做调整，以及最终在背景图片上位置的嵌入和摆放做优化。

发明内容

为了克服上述背景技术的缺陷，本发明提供一种基于神经风格迁移的艺术文本图像生成方法。

为了解决上述技术问题，本发明的技术方案如下：

步骤1，构建基于孪生网络的图文风格匹配模型，获取与背景图匹配度最高的风格图；

针对背景图和风格图，分别以图片的中心，以及中心到对角的中点，一共五个点选取一定大小的patch，将背景图和风格图对应位置上的五个patch组合成patch对输入到于孪生网络的图文风格匹配模块；所述基于孪生网络的图文风格匹配模型是对基本的孪生神经网络的改进，采用五组卷积网络，分别对应5个patch对，然后再通过全连接层输出相应的匹配度；

步骤2，首先获取风格图的主颜色，然后将风格图和文本图像送入基于形状主色匹配的文字风格迁移模型，完成对文本图像的风格迁移，获得迁移后的艺术文本图像；

所述基于形状主色匹配的文字风格迁移模型包括对风格图进行预处理的草图模块，用于获得风格图的结构掩膜和草图；实现文本图像迁移结构信息的结构生成器模块G_S和相对应的判别器D_s，用于获得具有风格图结构信息的文本图像I^X，以及实现文本图像迁移纹理信息的神经风格迁移模块N_T，用于获得迁移上了结构和纹理信息的艺术文本图像I^Y；所述结构生成器模块G_S采用VGG19网络，神经风格迁移模块N_T包括若干个卷积层和池化层；

步骤3，将得到的艺术文本图像和背景图进行融合，得到最终的生成结果。

进一步的，步骤1中所述基于孪生网络的图文风格匹配模型使用铰链损失函数和L2-范数正则化，得出以下学习目标函数：

公式第一部分采用L2正则项，ω是网络的权重，λ是权重衰减参数，第二部分

是第i个训练样本的输出，y_i∈{-1，1}，其中-1和1分别表示不匹配图片对和匹配图片对，分别代表正样本和负样本，N是训练样本的总数。

进一步的，步骤2中获取风格图的主颜色的具体实现方式如下，

首先将风格图颜色转为HSV色彩空间，根据HSV的范围进行筛选，将风格图分为不同色域的图像；

使用cv2.inRange()函数进行背景颜色过滤，将过滤后的颜色进行二值化处理，然后使用cv2.dilate()函数进行形态学腐蚀膨胀；

最后统计图像中的一个最大连通域，即为风格图的主颜色。

进一步的，所述草图模块的具体处理过程包括，对挑选出的风格图进行二值化处理，得到结构掩膜，然后进行中值滤波处理，生成结构掩膜的草图。

进一步的，步骤2中，对于结构生成器模块G_S而言，它的目标是利用L1距离来接近ground truth x，以混淆判别器D_s；

其中G_S(x)表示的是生成器，x是输入，即风格图的结构掩膜，取两者的重构误差；

而判别器D_s的对抗误差如下，

其中D_s(x)表示的是判别器，D_s(G_s(x))表示的是经过生成器产生的结果再输入到判别器中；

最后需要最大化D_s，最小化G_S来指导损失函数更新；

对于某些形变很大样式图，文本图像I可能会变形得太严重而无法识别，因此，提出了一个可选的字形易读性损失，以规制结构迁移结果G_S(I)维持I的主要笔划部分，

其中

是逐元素乘法运算符，而M(I)是基于距离场的加权图；

所以，最终结构生成器模块的损失函数为，

λ^rec，λ^adv，λ^gly均为超参数，初始化是0-1的随机值。

进一步的，步骤2中，所述神经风格迁移模块的总的损失函数目标定义为，

L_total＝αL_content+βL_style (3-12)

其中α，β是超参数；

其中内容损失函数的公式为，

其中，

表示第l层第i个卷积核在输入图像I^X上位置j上激活结果，

表示第l层第i个卷积核在生成图像

上位置j上激活结果；

对于风格重建的损失函数L_style，

其中，

是最终输出的艺术文本图像，y是风格图；l表示神经风格迁移模块N_t的第l层，C_l表示第l层的特征图的通道数，H_l表示第l层的特征图的高度，W_l表示第l层特征图的宽度；(c，c′)是Gram矩阵中的一个位置；φ_l(x)_h，w，c是指输入图片在神经风格迁移模块N_t第l层输出的特征图，h和w是特征图的宽高，c是通道数。

进一步的，步骤3中先对艺术文本图像的位置进行优化，然后再与背景图像进行融合，位置优化的具体实现方式如下，

通过在四个方面考虑背景图B中的每个像素x的成本进行估算，使式(4-1)最小化；

其中，R是一个和艺术文本图像S相同大小的矩形区域，x是背景图B中的像素；L_v指的是以x为中心的patch的局部方差L_v＝var(x)，L_c表示的是B和S的一致性，计算方式如下所示，

L_c＝||P_I(x)-P_S(y)||² (4-2)

其中，P_I(x)代表背景图B中以x为中心的patch，同理，P_S(y)代表艺术文本图像S中以y为中心的patch，目的是为了寻找在背景图B中和S最相接近的patch块；

L_s代表整体的显著性区域，计算方式如下，

L_s＝||I_μ-I_whc(x)|| (4-3)

其中，I_whc(x)代表背景图B进行高斯滤波之后，取其像素点的LAB值，I_μ表示背景图B在LAB空间的每个像素点的均值；

L_a代表图片的边缘，计算方式如下所示，

其中，dist(x)表示像素x到图片中心的偏移量，σ₂表示背景图B短边的长度；上式中，权重λ^v、λ^c、λ^s和λ^c都是权重。

进一步的，为了背景图相匹配，对艺术文本图像进行多尺度的放缩来匹配背景图，具体实现方式如下，

以0.1的步长在[0.8，1.2]的范围内枚举比例因子S’，然后根据S’放大或缩小矩形区域R，以获得最佳的S’值；

式中

表示艺术文本图像最终放置的位置，

表示最优的比例因子，|S(R)|代表经过比例因子放缩后的艺术文本图像的模。

进一步的，为了背景图相匹配，对艺术文本图像进行旋转来匹配背景图，具体实现方式如下，

以π/60的步长在[-π/6，π/6]的范围内枚举旋转角

并在整个空间和角度中找到全局最小惩罚点，使用盒过滤器进行快速求解，通过

乘以成本函数L＝L_v(x)+L_s(x)+L_c(x)+L_a(x)来对盒过滤器进行旋转，然后进行最小点检测。

进一步的，步骤3中采用基于距离变换的图像分割，将艺术文本图像的前景和背景部分分割开来，然后再舍弃背景像素，仅将前景部分与背景图融合，具体实现方式如下，

(1)先对艺术文本图像进行二值化，然后对二值化的艺术文本图像进行距离变换，字符区域内的像素均为前景，记为0，其它像素为背景，离字符区域越远的像素越靠近255；(2)在艺术文本图像的背景中，对每个像素点以距离变换之后的图像为参考，找到距离该像素点最近的0像素点。(3)以找到最近的0像素点为中心取一个13×13大小的patch1，将patch1块中的所有为0的像素点在艺术文本图像中的均值和该中心像素点的值做比较，如果差值大于某个阈值，就认为该中心像素点与字符像素不是同一类，若小于该阈值，则认为是同一类。

本发明的有益效果在于：针对艺术文本图像生成中产生的问题，使用了图文风格匹配模块选出了适合的风格图，添加了文本主色迁移的模块，解决了传统神经风格迁移产生的迁移颜色错误的问题，计算文本图像在背景图像中最优的文字尺度与方位自适应嵌入位置，有助于提高风格化文本的艺术美感，改善用户体验。

附图说明

图1为本发明实施例的patch的选取；

图2为本发明实施例的基于孪生网络的图文风格匹配模型；

图3为本发明实施例的风格图主颜色生成；

图4为本发明实施例的基于形状主色匹配的神经风格迁移网络的整体架构；

图5为本发明实施例的神经风格迁移模块；

图6为本发明实施例的艺术文本图像放缩过程；

图7为本发明实施例的艺术文本图像旋转过程；

图8为本发明实施例的艺术文本图像多种布局过程；

图9为本发明实施例的基于距离变换的图像分割流程图；

图10为本发明实施例的位置优化和图像分割的效果。

具体实施方式

下面结合附图表和实例对本发明进行详细的描述，本实施例的一种基于神经风格迁移的艺术文本图像生成方法的具体步骤包括：

步骤1，构建基于孪生网络的图文风格匹配模型，获取与背景图匹配度最高的风格图。

由于背景图(由用户提供)和风格图(在视觉上与背景图相似，从图库中获得)的大小各不相同，所以需要考虑如何在尽可能多的保留图像特征的情况下来提取图片的patch。在矩形图片的中心，以及中心到对角的中点，一共五个点选取64×64大小的patch，背景图片和风格图片采取相同的操作，Patch的选取如图1所示。

本发明将基本孪生网络进行改进，卷积网络部分采用五组，分别对应五个点所产生的patch，各自提取相应的特征，最后输入到顶层的决策网络中产生相应的匹配度，网络结构如图2所示。

根据以上对图片对的处理分析可知，一张图片所产生的patch块有五块，所以相应的把卷积神经网络的部分增加为五组，分别对应着图像中心的patch、图像中心到左上角中点的patch、图像中心到右上角中点的patch、图像中心到左下角中点的patch和图像中心到右下角中点的patch。基于孪生网络模型对其做出了改进，将背景图片和风格图片对应位置上的五个patch组合成patch对输入到各自的卷积网络中，然后再通过顶层的决策网络层(即全连接层)输出相应的匹配分数，这样一来就能够得到一组背景图和风格图的匹配度。

本发明以严格监督的方式训练基于孪生网络的图文风格匹配模型，使用铰链损失函数(hinge-based loss)和平方的L2-范数正则化，得出以下学习目标函数：

公式第一部分采用L2正则项，ω是网络的权重，λ是权重衰减参数。第二部分

是第i个训练样本的输出，y_i∈{-1，1}(其中-1和1分别表示不匹配图片对和匹配图片对，分别代表正样本和负样本)。N是训练样本的总数。其中，ASGD是用来对训练参数进行更新的算法，将其动量参数设定为0.8，学习率设定为1.0，训练的min-batch设定为64，然后权重衰减参数λ设定为0.0004，权重设定为随机初始化。

步骤2，将步骤1中挑选出的风格图送入基于形状主色匹配的文字风格迁移模型中对文本图像进行风格迁移，获得迁移后的艺术文本图像。

(2.1)获取风格图的主颜色

如图3所示，使用的是OpenCV的视觉库，主颜色提取可以分为以下几个步骤：

·将图像颜色转为HSV色彩空间，根据HSV的范围进行筛选，将图片分为不同的色域的图像；

·使用cv2.inRange()函数进行背景颜色过滤，将过滤后的颜色进行二值化处理，进行形态学腐蚀膨胀，使用cv2.dilate()函数；

·统计图像中的一个最大连通域，这个区域就为图像的主色的颜色；

(2.2)基于形状主色匹配的神经风格迁移模型将该主颜色附加到具有风格图结构字符上。

首先，对挑选出的风格图y进行二值化处理，得到结构掩膜X，然后进行中值滤波处理，生成结构掩膜X的草图

用于提取风格图的形状特征，这一步可以使得迁移后的艺术文本图像学习到风格图的形状特征。然后需要将风格图的主色彩迁移到二值化的文本图像上，以此来指导神经网络将风格图的纹理正确的迁移到字符或者背景中。

经过上述的步骤之后就生成了带有主颜色艺术文本图像，这样比直接进行神经网络迁移会产生更好的效果。因为神经风格迁移时，总是将颜色相近或者类似的部分进行迁移，先把主色调迁移到字符上就能指导神经网络把风格图主要物体的颜色和纹理等信息附加在文本图片的合理的区域上。

基于形状主色匹配的神经风格迁移网络结构如4图所示。其中x，

和y分别代表风格图的结构掩膜(structure mask)、裁剪后的风格图草图、和裁剪后的风格图。此外，I代表文本图像，I^X代表得到风格图结构信息的文本图像，最后I^Y表示迁移上了结构和纹理信息的艺术文本图像。接下来，我们将逐个介绍网络中的各个模块，包括对风格图像预处理的草图模块，迁移结构信息的结构生成器模块G_S和相对应的判别器D_s，以及迁移纹理信息的神经风格迁移模块N_t。

假设Y和I分别表示用户提供的背景图像和文本图像。将该网络结构分解为两个部分：结构迁移和纹理迁移。分别将风格图的结构性信息和纹理表示迁移到文本图像上，以控制字符的字形和纹理，分别由生成器G_S和风格迁移网络N_t建模。这种分解的优点在于可以消除纹理的影响，并首先关注关键形状变形问题。生成器带有相应的鉴别器D_s，以通过对抗性学习提高结果的质量。将其表示为

并将程式化过程表述为：

I^Y＝N_t(G_S(I))，I^Y～p(I^Y|I，Y)

其中，样式化图像I^Y的目标统计p(I^Y)由文字图片I表征。

(1)进行结构迁移，获得风格图结构信息的文本图像I^X；

获得风格图的草图之后，就可以训练结构网络G_S将其映射到Y的结构掩膜图像(structure map)X，以便G_S表征X的形状特征并将这些特征传递到目标文本。先使用数据增强(随机裁剪)对X进行预处理，以获得G_S的训练对

其中

是具有控制字符形变特征的x的草图，在前向结构转换阶段，G_S从

学习以各种变形程度对字形进行样式化。

基于StyleNet的体系结构构建G_S，并提出了一个非常简单但有效的ResBlock来替换StyleNet中间层中的原始模块。

ResNet网络是参考了VGG19网络，在其基础上进行了修改，并通过短路机制加入了残差单元。变化主要体现在ResNet直接使用步长(stride)等于2的卷积做下采样，并且用全局平均池化(global average pool)层替换了全连接层。它的一个重要设计原则是：当特征图大小降低一半时，特征图的数量增加一倍，这保持了网络层的复杂度。接下来从数学的角度分析残差更容易学习特征的原因，残差单元可以表示为公式(3-2)：

y_l＝h(x_l)+F(x_l，W_l) (3-2)

x_l+1＝f(y_l) (3-3)

其中x_l和x_l+1分别表示的是第l个残差单元的输入和输出，每个残差单元一般包含多层结构。F是残差函数，表示学习到的残差，而h(x_l)＝x_l表示恒等映射，f是ReLU激活函数。基于上式，我们求得从浅层l到深层l+1的学习特征如式(3-4)。

x_l+1＝f(x_l+F(x_l，W_l)) (3-4)

Loss＝loss(x_l+1) (3-5)

利用链式规则，可以求得反向过程的梯度：

损失函数传播的梯度由等式(3-6)中的左边的因子来表示，式子的第一个因子表示的损失函数到达L的梯度，小括号中的1表明短路机制可以无损地传播梯度，而另外一项残差梯度则需要经过带有权重(weights)的层，梯度不是直接传递过来的。残差梯度在通常情况下不会全为-1，当遇到残差梯度比较小的时候，也不会导致梯度的消失，这是因为在公式中有1这一项。因为梯度消失问题主要是发生在浅层，这种将深层梯度直接传递给浅层的做法，有效缓解了深度神经网络梯度消失的问题。

这个模块在训练过程中将

的变形程度映射到X。在测试阶段中，它将X的形状样式转移到文本图像I上，从而产生结构转移结果I^X。

对于G_S而言，它的目标是利用L1距离来接近ground truth x，以混淆判别器D_s；

其中G_S(x)表示的是生成器，x是输入，即风格图的结构掩膜，取两者的重构误差。

而判别器的对抗误差如下

其中D_s(x)表示的是判别器，D_s(G_s(x))表示的是经过生成器产生的结果再输入到判别器中。

最后需要最大化D_s，最小化G_S来指导上述的损失函数更新；

对于某些形变很大样式图，文本图像I可能会变形得太严重而无法识别。因此，我们提出了一个可选的字形易读性损失，以规制结构迁移结果G_S(I)维持I的主要笔划部分，

其中

是逐元素乘法运算符，而M(I)是基于距离场的加权图，该距离场的像素值随着其距最近的文本图像I的距离而增加；

所以，最终对结构生成器模块的损失函数为，

λ^rec，λ^adv，λ^gly均为超参数，初始化是0-1的随机值，根据实验效果来人为调整；超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。

(2)进行神经风格迁移，获得迁移上结构和纹理信息的艺术文本图像I^Y；

现有的文本图像均为未经过处理的黑色背景白色前景的二值化图像，直接输入到网络中有可能造成网络无法正确识别前景和背景，导致风格图的纹理不能很好的迁移到各自的区域(前景和背景)。例如，有可能造成文字背景学习到风格图的前景的纹理和颜色。因此，考虑对二值化文本先进行预上色，这将对文本字符渲染上风格图的主体样式，包括主色调和一些细节纹理。如图5所示，左边为风格图，中间为迭代生成的结果图，右边为迁移了主色的文本图。

网络模型的细节如下表所示，网络模型的低层的激活函数值表示图片的一些全局信息，包括轮廓以及颜色信息，高层网络的激活值包括一些细节的抽象特征信息。我们主要从block1conv1，block2conv1，block3conv1中提取特征值。并把第一层的权重设大，这将更有利于基于文本的样式迁移。对于基于文本的图像，迁移最重要的是大纲信息和颜色信息，高级纹理信息对于文本来说并不明显。

表3-1神经风格迁移网络的组成

在纹理迁移中，通过神经样式迁移中提出的损失L_total，可以进一步提高文本图像I上的整体样式的渲染性能和效果。模型总的损失函数目标可以定义为

L_total＝αL_content+βL_style (3-12)

其中α，β是超参数；输入的图像在不同的卷积网络层上，使用激活函数可以得到不同空间的分解。因此，模型期望通过在网络中的上层的表示来捕获更多全局和抽象图像内容。内容损失函数L_content的计算方法是目标图片与已经生成的图片在相当神经层网络上激活值的L2范数。通过这个函数我们可以保证生成的图像看起来与原始目标图像在内容上保持相似性。因此风格迁移的内容损失函数的公式为；

其中，

表示第l层第i个卷积核在输入图像(即I^X)上位置j上激活结果，

表示第l层第i个卷积核在生成图像

上位置j上激活结果；

对于风格重建的损失函数L_style，首先要计算Gram矩阵，产生的feature map的大小为C_lH_lW_l，可以看成是C_l个特征，这些特征两两之间的内积的计算方式如下，

其中，l表示神经风格迁移模块N_t的第l层，C_l表示第l层的特征图的通道数，H_l表示第l层的特征图的高度，W_l表示第l层特征图的宽度；(c，c′)是Gram矩阵中的一个位置；φ_l(x)_h，w，c是指输入图片在神经风格迁移模块N_t第l层输出的特征图，h和w是特征图的宽高，c是通道数；

两张图片，在预先训练好且参数不变的神经风格迁移模块N_t的每一层都求出Gram矩阵，然后对应层之间计算欧式距离，最后将不同层的欧氏距离相加，得到最后的风格迁移损失如下，其中

是最终输出的艺术文本图像，即迁移上结构和纹理信息的艺术文本图像，y是风格图。

步骤3，将步骤2得到的迁移上结构和纹理信息的艺术文本图像和背景图像进行融合，以得到最终的生成结果。

3.1，艺术文本图像的位置优化

为了将艺术文本图像无缝地合成到背景图像中，应先正确确定图像布局。具体来说，我们为上下文感知制定了成本最小化问题，通过在四个方面考虑背景图B中的每个像素x的成本进行估算，

其中，R是一个和艺术文本图像S相同大小的矩形区域，x是背景图B中的像素，并且所有项都被归一化。L_v指的是以x为中心的patch的局部方差L_v＝var(x)，L_s代表整体的显著性区域，L_c表示的是B和S的一致性，L_a代表图片的边缘，如下所示

L_c＝||P_I(x)-P_S(y)||² (4-2)

其中，P_I(x)代表背景图B中以x为中心的patch，同理，P_S(y)代表艺术文本图像S中以y为中心的patch。目的是为了寻找在背景图B中和S最相接近的patch块。

L_s＝||I_μ-I_whc(x)|| (4-3)

其中，I_whc(x)代表背景图B进行高斯滤波之后，取其像素点的LAB值，I_μ表示背景图B在LAB空间的每个像素点的均值。

经过上面三个损失函数的建模，已经能够使得艺术文本图像避免放置在背景图片的显著性区域上，并且能够尽可能找到和背景最相似的区域patch。但是，在某些情况下，艺术文本图像还是会被定位在一些不重要的角落(comer)中，所以，我们考虑对图像中的不重要的corner建模，以避免发生上述的情况。我们采取了一种美学损失(aesthetics loss)，如下所示

其中，dist(x)表示像素x到图片中心的偏移量(offset)，σ₂表示背景图短边的长度；

这样做的含义是：在背景图B上找到一个矩形区域的坐标，使得这个区域的代价和为最小，前两项使用相等的权重λ^v、λ^c和λ^s都为1，最后一项使用较低的权重λ^c为0.5。

3.2，艺术文本图像放缩

对于某些场景下，迁移后的艺术文本图片的大小难以和背景图片搭配，所以考虑将图片进行多尺度的放缩来匹配背景图片。因而采取以下的方法：枚举一个尺度系数，然后在整个空间和尺度空间中找到全局最小惩罚点。具体来说，以0.1的步长在尺度空间[0.8，1.2]的范围内枚举比例因子S。然后，根据S放大或缩小文本框R，以获得最佳的S值。

式中

表示艺术字体最终放置的位置，

表示最优的比例因子，|S(R)|代表经过比例因子放缩后的图像的模。

图6显示了一个示例，可以看出一开始生成的艺术文本图像T太大，之后通过所提出的方法自动调整，从而可以无缝地嵌入到背景中。

3.3，艺术文本图像旋转

与艺术文本图像放缩类似，以π/60的步长在[-π/6，π/6]的范围内枚举旋转角

并在整个空间和角度中找到全局最小惩罚点，使用box filter进行快速求解，选择通过

乘以成本函数L＝L_v(x)+L_s(x)+L_c(x)+L_a(x)来对盒过滤器(box filter)进行旋转，然后进行最小点检测。图7展现了一个示例，其中目标图像T能够找到合适的旋转角度和大小以贴和枫叶所生长的位置。

3.3，艺术文本图像的多种布局

为了处理多个字符文本的位置，我们首先将它们视为一个整体来优化公式(4-1)以搜索初始位置，然后再分别对每个字符优化其布局。在优化过程中，每个字符都将根据相邻的最小代价来找到其最优的位置。经过几个步骤，所有形状都收敛到其各自的最佳位置。为了防止形状重叠，限制了搜索空间以确保相邻形状图8显示出了布局改进后，左侧之间的距离不小于其初始距离。和右侧的字符在垂直方向上被调整到了更中心的位置，从而使整个文本布局更好地与摩天轮的形状匹配。

3.4，基于距离变换的图像分割，将迁移后的艺术文本图像的前景和背景部分分割开来，然后再舍弃背景像素，仅将前景部分与背景图融合；

接下来我们通过将迁移后的艺术文本图像和对应的二值图像结合起来做图像分割。我们需要知道艺术文本图像的每个像素点到底是代表背景区域还是字符区域，所以我们需要对图像中的每一个像素点进行遍历，以确定他们的所代表的区域。对于每个点，我们找到距离它最近的字符区域中的点。

由于迁移后的字符的边缘也会带有一些纹理，所以我们不能单纯的直接把所有的0像素归为一类标签，非零像素归为一类标签。我们还需要针对非零像素做一个特殊处理。

在opencv中，提供了用于计算图像中不同像素之间距离distanceTransform()的距离变换函数。对于迁移之后的艺术文本图像的每一个像素值，我们需要考虑它为背景像素还是前景像素。具体判断算法如下：(1)先对艺术文本图像进行二值化，然后对二值化的艺术文本图像进行距离变换，字符区域的像素为前景，记为0，其余像素为背景，离字符越远的像素越靠近255。(2)在迁移后的艺术文本图像的背景中，对每个像素点以距离变换之后的图为参考，找到距离它最近的0像素点。(3)以该像素点为中心取一个13×13大小的patch，将patch块中的所有为0的像素在艺术图像中的均值和该中心像素点的值做比较，如果差值大于某个阈值(二值化图像所确定的背景和前景之间像素均值差的1/3)就认为该中心像素点与字符像素不是同一类，若小于该阈值，则认为是同一类，达到如图9所示的效果。

图9中可以清楚的看到，在背景的某处选取一个像素点，然后找到离它最近的字符上的像素点，以这个字符上的像素点为中心选取一个13×13大小的patch(黑色方框)，统计方框内所有像素值为0的像素点在艺术文本图像中的均值(灰色区域)，最后将这个均值和背景与前景像素均值差的1/3比较，如果大于这个阈值，就认为背景像素中标记的像素点不是和字符像素同一类，反之就是同一类。因为经过风格迁移之后原本属于背景的像素有可能迁移上枫叶的纹理就变成了前景的像素了，所以选取patch来统计均值就可以避免将前景像素归类为背景像素了。

图10为本发明实施例的位置优化和图像分割的效果，其中四张图片分别是未经过文本放缩、未经过文本旋转、未经过图像分割以及最终效果的图片。可以清楚的看出通过艺术文本图像位置优化和基于距离变换的图像分割处理以后，生成的艺术文本图像能够很好的和背景图像结合在一起。文本放缩和文本旋转能够使得文字大小和方向和背景图中的主要物体达成一致，而图像风格能够使得调整位置后的文本图像不遮挡住背景中的物体。