CN111553837A - 一种基于神经风格迁移的艺术文本图像生成方法 - Google Patents
一种基于神经风格迁移的艺术文本图像生成方法 Download PDFInfo
- Publication number
- CN111553837A CN111553837A CN202010351906.3A CN202010351906A CN111553837A CN 111553837 A CN111553837 A CN 111553837A CN 202010351906 A CN202010351906 A CN 202010351906A CN 111553837 A CN111553837 A CN 111553837A
- Authority
- CN
- China
- Prior art keywords
- image
- style
- text image
- artistic
- background
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005012 migration Effects 0.000 title claims abstract description 78
- 238000013508 migration Methods 0.000 title claims abstract description 78
- 230000001537 neural effect Effects 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000003709 image segmentation Methods 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 40
- 238000010586 diagram Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000004576 sand Substances 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000003628 erosive effect Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 230000000007 visual effect Effects 0.000 abstract description 4
- 238000004040 coloring Methods 0.000 abstract description 2
- 239000003086 colorant Substances 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 241000208140 Acer Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 208000026753 anterior segment dysgenesis Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
Abstract
本发明提供了一种基于神经风格迁移的艺术文本图像生成方法,包括:(1)基于孪生网络的图文风格匹配。通过一种基于孪生网络的匹配度推荐算法,利用风格匹配算法挑选出最适合背景图的风格图。(2)基于形状主色匹配的文字风格迁移。本发明通过将图像的结构和纹理进行分成两个阶段,指导两组生成器和判别器进行参数更新,并引入文本图像预上色的模块,解决了风格迁移中出现的背景和前景迁移效果差的问题,将视觉效果大大提升;(3)文字尺度与方位自适应嵌入,利用基于距离变换的文字图像分割算法来处理迁移后的艺术文本图像,然后用位置优化算法进行文字图像和背景图像的自适应匹配,提高了艺术文本图像的生成效率。
Description
技术领域
本发明图像的风格迁移领域,具体涉及一种基于神经风格迁移的艺术文本图像生成方法
背景技术
图像的风格迁移是将一种风格从一个图像迁移到另一个图像,以合成一种新的艺术图像的任务,在视觉设计中有着广泛的用途,比如:绘画合成、摄影后处理、艺术图像的制作等。文字作为一种重要语义信息添加在图像中,其风格、位置等信息影响着图像整体的艺术视觉效果。人工生成特定样式的艺术文本图像需要大量的时间和精力。
近年来,有许多方法利用卷积神经网络提取图像的风格特征进行迁移,在图像的风格迁移上取得了很好的效果。但是,对于文字的风格迁移,直接利用神经网络的方法会使得文字的形状和颜色与实际的风格图像有较大差异。其次,风格化的文字及其摆放的方位与被嵌入的图像之间在视觉上是否匹配,也是在文本图像自动合成中需要考虑的重要因素。
因此需要一种新的神经风格迁移方法来对艺术文本图像生成以实现对文字的主色和形状做调整,以及最终在背景图片上位置的嵌入和摆放做优化。
发明内容
为了克服上述背景技术的缺陷,本发明提供一种基于神经风格迁移的艺术文本图像生成方法。
为了解决上述技术问题,本发明的技术方案如下:
步骤1,构建基于孪生网络的图文风格匹配模型,获取与背景图匹配度最高的风格图;
针对背景图和风格图,分别以图片的中心,以及中心到对角的中点,一共五个点选取一定大小的patch,将背景图和风格图对应位置上的五个patch组合成patch对输入到于孪生网络的图文风格匹配模块;所述基于孪生网络的图文风格匹配模型是对基本的孪生神经网络的改进,采用五组卷积网络,分别对应5个patch对,然后再通过全连接层输出相应的匹配度;
步骤2,首先获取风格图的主颜色,然后将风格图和文本图像送入基于形状主色匹配的文字风格迁移模型,完成对文本图像的风格迁移,获得迁移后的艺术文本图像;
所述基于形状主色匹配的文字风格迁移模型包括对风格图进行预处理的草图模块,用于获得风格图的结构掩膜和草图;实现文本图像迁移结构信息的结构生成器模块GS和相对应的判别器Ds,用于获得具有风格图结构信息的文本图像IX,以及实现文本图像迁移纹理信息的神经风格迁移模块NT,用于获得迁移上了结构和纹理信息的艺术文本图像IY;所述结构生成器模块GS采用VGG19网络,神经风格迁移模块NT包括若干个卷积层和池化层;
步骤3,将得到的艺术文本图像和背景图进行融合,得到最终的生成结果。
进一步的,步骤1中所述基于孪生网络的图文风格匹配模型使用铰链损失函数和L2-范数正则化,得出以下学习目标函数:
公式第一部分采用L2正则项,ω是网络的权重,λ是权重衰减参数,第二部分是第i个训练样本的输出,yi∈{-1,1},其中-1和1分别表示不匹配图片对和匹配图片对,分别代表正样本和负样本,N是训练样本的总数。
进一步的,步骤2中获取风格图的主颜色的具体实现方式如下,
首先将风格图颜色转为HSV色彩空间,根据HSV的范围进行筛选,将风格图分为不同色域的图像;
使用cv2.inRange()函数进行背景颜色过滤,将过滤后的颜色进行二值化处理,然后使用cv2.dilate()函数进行形态学腐蚀膨胀;
最后统计图像中的一个最大连通域,即为风格图的主颜色。
进一步的,所述草图模块的具体处理过程包括,对挑选出的风格图进行二值化处理,得到结构掩膜,然后进行中值滤波处理,生成结构掩膜的草图。
进一步的,步骤2中,对于结构生成器模块GS而言,它的目标是利用L1距离来接近ground truth x,以混淆判别器Ds;
其中GS(x)表示的是生成器,x是输入,即风格图的结构掩膜,取两者的重构误差;
而判别器Ds的对抗误差如下,
其中Ds(x)表示的是判别器,Ds(Gs(x))表示的是经过生成器产生的结果再输入到判别器中;
最后需要最大化Ds,最小化GS来指导损失函数更新;
对于某些形变很大样式图,文本图像I可能会变形得太严重而无法识别,因此,提出了一个可选的字形易读性损失,以规制结构迁移结果GS(I)维持I的主要笔划部分,
所以,最终结构生成器模块的损失函数为,
λrec,λadv,λgly均为超参数,初始化是0-1的随机值。
进一步的,步骤2中,所述神经风格迁移模块的总的损失函数目标定义为,
Ltotal=αLcontent+βLstyle (3-12)
其中α,β是超参数;
其中内容损失函数的公式为,
对于风格重建的损失函数Lstyle,
其中,是最终输出的艺术文本图像,y是风格图;l表示神经风格迁移模块Nt的第l层,Cl表示第l层的特征图的通道数,Hl表示第l层的特征图的高度,Wl表示第l层特征图的宽度;(c,c′)是Gram矩阵中的一个位置;φl(x)h,w,c是指输入图片在神经风格迁移模块Nt第l层输出的特征图,h和w是特征图的宽高,c是通道数。
进一步的,步骤3中先对艺术文本图像的位置进行优化,然后再与背景图像进行融合,位置优化的具体实现方式如下,
通过在四个方面考虑背景图B中的每个像素x的成本进行估算,使式(4-1)最小化;
其中,R是一个和艺术文本图像S相同大小的矩形区域,x是背景图B中的像素;Lv指的是以x为中心的patch的局部方差Lv=var(x),Lc表示的是B和S的一致性,计算方式如下所示,
Lc=||PI(x)-PS(y)||2 (4-2)
其中,PI(x)代表背景图B中以x为中心的patch,同理,PS(y)代表艺术文本图像S中以y为中心的patch,目的是为了寻找在背景图B中和S最相接近的patch块;
Ls代表整体的显著性区域,计算方式如下,
Ls=||Iμ-Iwhc(x)|| (4-3)
其中,Iwhc(x)代表背景图B进行高斯滤波之后,取其像素点的LAB值,Iμ表示背景图B在LAB空间的每个像素点的均值;
La代表图片的边缘,计算方式如下所示,
其中,dist(x)表示像素x到图片中心的偏移量,σ2表示背景图B短边的长度;上式中,权重λv、λc、λs和λc都是权重。
进一步的,为了背景图相匹配,对艺术文本图像进行多尺度的放缩来匹配背景图,具体实现方式如下,
以0.1的步长在[0.8,1.2]的范围内枚举比例因子S’,然后根据S’放大或缩小矩形区域R,以获得最佳的S’值;
进一步的,为了背景图相匹配,对艺术文本图像进行旋转来匹配背景图,具体实现方式如下,
以π/60的步长在[-π/6,π/6]的范围内枚举旋转角并在整个空间和角度中找到全局最小惩罚点,使用盒过滤器进行快速求解,通过乘以成本函数L=Lv(x)+Ls(x)+Lc(x)+La(x)来对盒过滤器进行旋转,然后进行最小点检测。
进一步的,步骤3中采用基于距离变换的图像分割,将艺术文本图像的前景和背景部分分割开来,然后再舍弃背景像素,仅将前景部分与背景图融合,具体实现方式如下,
(1)先对艺术文本图像进行二值化,然后对二值化的艺术文本图像进行距离变换,字符区域内的像素均为前景,记为0,其它像素为背景,离字符区域越远的像素越靠近255;(2)在艺术文本图像的背景中,对每个像素点以距离变换之后的图像为参考,找到距离该像素点最近的0像素点。(3)以找到最近的0像素点为中心取一个13×13大小的patch1,将patch1块中的所有为0的像素点在艺术文本图像中的均值和该中心像素点的值做比较,如果差值大于某个阈值,就认为该中心像素点与字符像素不是同一类,若小于该阈值,则认为是同一类。
本发明的有益效果在于:针对艺术文本图像生成中产生的问题,使用了图文风格匹配模块选出了适合的风格图,添加了文本主色迁移的模块,解决了传统神经风格迁移产生的迁移颜色错误的问题,计算文本图像在背景图像中最优的文字尺度与方位自适应嵌入位置,有助于提高风格化文本的艺术美感,改善用户体验。
附图说明
图1为本发明实施例的patch的选取;
图2为本发明实施例的基于孪生网络的图文风格匹配模型;
图3为本发明实施例的风格图主颜色生成;
图4为本发明实施例的基于形状主色匹配的神经风格迁移网络的整体架构;
图5为本发明实施例的神经风格迁移模块;
图6为本发明实施例的艺术文本图像放缩过程;
图7为本发明实施例的艺术文本图像旋转过程;
图8为本发明实施例的艺术文本图像多种布局过程;
图9为本发明实施例的基于距离变换的图像分割流程图;
图10为本发明实施例的位置优化和图像分割的效果。
具体实施方式
下面结合附图表和实例对本发明进行详细的描述,本实施例的一种基于神经风格迁移的艺术文本图像生成方法的具体步骤包括:
步骤1,构建基于孪生网络的图文风格匹配模型,获取与背景图匹配度最高的风格图。
由于背景图(由用户提供)和风格图(在视觉上与背景图相似,从图库中获得)的大小各不相同,所以需要考虑如何在尽可能多的保留图像特征的情况下来提取图片的patch。在矩形图片的中心,以及中心到对角的中点,一共五个点选取64×64大小的patch,背景图片和风格图片采取相同的操作,Patch的选取如图1所示。
本发明将基本孪生网络进行改进,卷积网络部分采用五组,分别对应五个点所产生的patch,各自提取相应的特征,最后输入到顶层的决策网络中产生相应的匹配度,网络结构如图2所示。
根据以上对图片对的处理分析可知,一张图片所产生的patch块有五块,所以相应的把卷积神经网络的部分增加为五组,分别对应着图像中心的patch、图像中心到左上角中点的patch、图像中心到右上角中点的patch、图像中心到左下角中点的patch和图像中心到右下角中点的patch。基于孪生网络模型对其做出了改进,将背景图片和风格图片对应位置上的五个patch组合成patch对输入到各自的卷积网络中,然后再通过顶层的决策网络层(即全连接层)输出相应的匹配分数,这样一来就能够得到一组背景图和风格图的匹配度。
本发明以严格监督的方式训练基于孪生网络的图文风格匹配模型,使用铰链损失函数(hinge-based loss)和平方的L2-范数正则化,得出以下学习目标函数:
公式第一部分采用L2正则项,ω是网络的权重,λ是权重衰减参数。第二部分是第i个训练样本的输出,yi∈{-1,1}(其中-1和1分别表示不匹配图片对和匹配图片对,分别代表正样本和负样本)。N是训练样本的总数。其中,ASGD是用来对训练参数进行更新的算法,将其动量参数设定为0.8,学习率设定为1.0,训练的min-batch设定为64,然后权重衰减参数λ设定为0.0004,权重设定为随机初始化。
步骤2,将步骤1中挑选出的风格图送入基于形状主色匹配的文字风格迁移模型中对文本图像进行风格迁移,获得迁移后的艺术文本图像。
(2.1)获取风格图的主颜色
如图3所示,使用的是OpenCV的视觉库,主颜色提取可以分为以下几个步骤:
·将图像颜色转为HSV色彩空间,根据HSV的范围进行筛选,将图片分为不同的色域的图像;
·使用cv2.inRange()函数进行背景颜色过滤,将过滤后的颜色进行二值化处理,进行形态学腐蚀膨胀,使用cv2.dilate()函数;
·统计图像中的一个最大连通域,这个区域就为图像的主色的颜色;
(2.2)基于形状主色匹配的神经风格迁移模型将该主颜色附加到具有风格图结构字符上。
首先,对挑选出的风格图y进行二值化处理,得到结构掩膜X,然后进行中值滤波处理,生成结构掩膜X的草图用于提取风格图的形状特征,这一步可以使得迁移后的艺术文本图像学习到风格图的形状特征。然后需要将风格图的主色彩迁移到二值化的文本图像上,以此来指导神经网络将风格图的纹理正确的迁移到字符或者背景中。
经过上述的步骤之后就生成了带有主颜色艺术文本图像,这样比直接进行神经网络迁移会产生更好的效果。因为神经风格迁移时,总是将颜色相近或者类似的部分进行迁移,先把主色调迁移到字符上就能指导神经网络把风格图主要物体的颜色和纹理等信息附加在文本图片的合理的区域上。
基于形状主色匹配的神经风格迁移网络结构如4图所示。其中x,和y分别代表风格图的结构掩膜(structure mask)、裁剪后的风格图草图、和裁剪后的风格图。此外,I代表文本图像,IX代表得到风格图结构信息的文本图像,最后IY表示迁移上了结构和纹理信息的艺术文本图像。接下来,我们将逐个介绍网络中的各个模块,包括对风格图像预处理的草图模块,迁移结构信息的结构生成器模块GS和相对应的判别器Ds,以及迁移纹理信息的神经风格迁移模块Nt。
假设Y和I分别表示用户提供的背景图像和文本图像。将该网络结构分解为两个部分:结构迁移和纹理迁移。分别将风格图的结构性信息和纹理表示迁移到文本图像上,以控制字符的字形和纹理,分别由生成器GS和风格迁移网络Nt建模。这种分解的优点在于可以消除纹理的影响,并首先关注关键形状变形问题。生成器带有相应的鉴别器Ds,以通过对抗性学习提高结果的质量。将其表示为并将程式化过程表述为:
IY=Nt(GS(I)),IY~p(IY|I,Y)
其中,样式化图像IY的目标统计p(IY)由文字图片I表征。
(1)进行结构迁移,获得风格图结构信息的文本图像IX;
获得风格图的草图之后,就可以训练结构网络GS将其映射到Y的结构掩膜图像(structure map)X,以便GS表征X的形状特征并将这些特征传递到目标文本。先使用数据增强(随机裁剪)对X进行预处理,以获得GS的训练对其中是具有控制字符形变特征的x的草图,在前向结构转换阶段,GS从学习以各种变形程度对字形进行样式化。
基于StyleNet的体系结构构建GS,并提出了一个非常简单但有效的ResBlock来替换StyleNet中间层中的原始模块。
ResNet网络是参考了VGG19网络,在其基础上进行了修改,并通过短路机制加入了残差单元。变化主要体现在ResNet直接使用步长(stride)等于2的卷积做下采样,并且用全局平均池化(global average pool)层替换了全连接层。它的一个重要设计原则是:当特征图大小降低一半时,特征图的数量增加一倍,这保持了网络层的复杂度。接下来从数学的角度分析残差更容易学习特征的原因,残差单元可以表示为公式(3-2):
yl=h(xl)+F(xl,Wl) (3-2)
xl+1=f(yl) (3-3)
其中xl和xl+1分别表示的是第l个残差单元的输入和输出,每个残差单元一般包含多层结构。F是残差函数,表示学习到的残差,而h(xl)=xl表示恒等映射,f是ReLU激活函数。基于上式,我们求得从浅层l到深层l+1的学习特征如式(3-4)。
xl+1=f(xl+F(xl,Wl)) (3-4)
Loss=loss(xl+1) (3-5)
利用链式规则,可以求得反向过程的梯度:
损失函数传播的梯度由等式(3-6)中的左边的因子来表示,式子的第一个因子表示的损失函数到达L的梯度,小括号中的1表明短路机制可以无损地传播梯度,而另外一项残差梯度则需要经过带有权重(weights)的层,梯度不是直接传递过来的。残差梯度在通常情况下不会全为-1,当遇到残差梯度比较小的时候,也不会导致梯度的消失,这是因为在公式中有1这一项。因为梯度消失问题主要是发生在浅层,这种将深层梯度直接传递给浅层的做法,有效缓解了深度神经网络梯度消失的问题。
对于GS而言,它的目标是利用L1距离来接近ground truth x,以混淆判别器Ds;
其中GS(x)表示的是生成器,x是输入,即风格图的结构掩膜,取两者的重构误差。
而判别器的对抗误差如下
其中Ds(x)表示的是判别器,Ds(Gs(x))表示的是经过生成器产生的结果再输入到判别器中。
最后需要最大化Ds,最小化GS来指导上述的损失函数更新;
对于某些形变很大样式图,文本图像I可能会变形得太严重而无法识别。因此,我们提出了一个可选的字形易读性损失,以规制结构迁移结果GS(I)维持I的主要笔划部分,
所以,最终对结构生成器模块的损失函数为,
λrec,λadv,λgly均为超参数,初始化是0-1的随机值,根据实验效果来人为调整;超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。
(2)进行神经风格迁移,获得迁移上结构和纹理信息的艺术文本图像IY;
现有的文本图像均为未经过处理的黑色背景白色前景的二值化图像,直接输入到网络中有可能造成网络无法正确识别前景和背景,导致风格图的纹理不能很好的迁移到各自的区域(前景和背景)。例如,有可能造成文字背景学习到风格图的前景的纹理和颜色。因此,考虑对二值化文本先进行预上色,这将对文本字符渲染上风格图的主体样式,包括主色调和一些细节纹理。如图5所示,左边为风格图,中间为迭代生成的结果图,右边为迁移了主色的文本图。
网络模型的细节如下表所示,网络模型的低层的激活函数值表示图片的一些全局信息,包括轮廓以及颜色信息,高层网络的激活值包括一些细节的抽象特征信息。我们主要从block1conv1,block2conv1,block3conv1中提取特征值。并把第一层的权重设大,这将更有利于基于文本的样式迁移。对于基于文本的图像,迁移最重要的是大纲信息和颜色信息,高级纹理信息对于文本来说并不明显。
表3-1神经风格迁移网络的组成
在纹理迁移中,通过神经样式迁移中提出的损失Ltotal,可以进一步提高文本图像I上的整体样式的渲染性能和效果。模型总的损失函数目标可以定义为
Ltotal=αLcontent+βLstyle (3-12)
其中α,β是超参数;输入的图像在不同的卷积网络层上,使用激活函数可以得到不同空间的分解。因此,模型期望通过在网络中的上层的表示来捕获更多全局和抽象图像内容。内容损失函数Lcontent的计算方法是目标图片与已经生成的图片在相当神经层网络上激活值的L2范数。通过这个函数我们可以保证生成的图像看起来与原始目标图像在内容上保持相似性。因此风格迁移的内容损失函数的公式为;
对于风格重建的损失函数Lstyle,首先要计算Gram矩阵,产生的feature map的大小为ClHlWl,可以看成是Cl个特征,这些特征两两之间的内积的计算方式如下,
其中,l表示神经风格迁移模块Nt的第l层,Cl表示第l层的特征图的通道数,Hl表示第l层的特征图的高度,Wl表示第l层特征图的宽度;(c,c′)是Gram矩阵中的一个位置;φl(x)h,w,c是指输入图片在神经风格迁移模块Nt第l层输出的特征图,h和w是特征图的宽高,c是通道数;
两张图片,在预先训练好且参数不变的神经风格迁移模块Nt的每一层都求出Gram矩阵,然后对应层之间计算欧式距离,最后将不同层的欧氏距离相加,得到最后的风格迁移损失如下,其中是最终输出的艺术文本图像,即迁移上结构和纹理信息的艺术文本图像,y是风格图。
步骤3,将步骤2得到的迁移上结构和纹理信息的艺术文本图像和背景图像进行融合,以得到最终的生成结果。
3.1,艺术文本图像的位置优化
为了将艺术文本图像无缝地合成到背景图像中,应先正确确定图像布局。具体来说,我们为上下文感知制定了成本最小化问题,通过在四个方面考虑背景图B中的每个像素x的成本进行估算,
其中,R是一个和艺术文本图像S相同大小的矩形区域,x是背景图B中的像素,并且所有项都被归一化。Lv指的是以x为中心的patch的局部方差Lv=var(x),Ls代表整体的显著性区域,Lc表示的是B和S的一致性,La代表图片的边缘,如下所示
Lc=||PI(x)-PS(y)||2 (4-2)
其中,PI(x)代表背景图B中以x为中心的patch,同理,PS(y)代表艺术文本图像S中以y为中心的patch。目的是为了寻找在背景图B中和S最相接近的patch块。
Ls=||Iμ-Iwhc(x)|| (4-3)
其中,Iwhc(x)代表背景图B进行高斯滤波之后,取其像素点的LAB值,Iμ表示背景图B在LAB空间的每个像素点的均值。
经过上面三个损失函数的建模,已经能够使得艺术文本图像避免放置在背景图片的显著性区域上,并且能够尽可能找到和背景最相似的区域patch。但是,在某些情况下,艺术文本图像还是会被定位在一些不重要的角落(comer)中,所以,我们考虑对图像中的不重要的corner建模,以避免发生上述的情况。我们采取了一种美学损失(aesthetics loss),如下所示
其中,dist(x)表示像素x到图片中心的偏移量(offset),σ2表示背景图短边的长度;
这样做的含义是:在背景图B上找到一个矩形区域的坐标,使得这个区域的代价和为最小,前两项使用相等的权重λv、λc和λs都为1,最后一项使用较低的权重λc为0.5。
3.2,艺术文本图像放缩
对于某些场景下,迁移后的艺术文本图片的大小难以和背景图片搭配,所以考虑将图片进行多尺度的放缩来匹配背景图片。因而采取以下的方法:枚举一个尺度系数,然后在整个空间和尺度空间中找到全局最小惩罚点。具体来说,以0.1的步长在尺度空间[0.8,1.2]的范围内枚举比例因子S。然后,根据S放大或缩小文本框R,以获得最佳的S值。
图6显示了一个示例,可以看出一开始生成的艺术文本图像T太大,之后通过所提出的方法自动调整,从而可以无缝地嵌入到背景中。
3.3,艺术文本图像旋转
与艺术文本图像放缩类似,以π/60的步长在[-π/6,π/6]的范围内枚举旋转角并在整个空间和角度中找到全局最小惩罚点,使用box filter进行快速求解,选择通过乘以成本函数L=Lv(x)+Ls(x)+Lc(x)+La(x)来对盒过滤器(box filter)进行旋转,然后进行最小点检测。图7展现了一个示例,其中目标图像T能够找到合适的旋转角度和大小以贴和枫叶所生长的位置。
3.3,艺术文本图像的多种布局
为了处理多个字符文本的位置,我们首先将它们视为一个整体来优化公式(4-1)以搜索初始位置,然后再分别对每个字符优化其布局。在优化过程中,每个字符都将根据相邻的最小代价来找到其最优的位置。经过几个步骤,所有形状都收敛到其各自的最佳位置。为了防止形状重叠,限制了搜索空间以确保相邻形状图8显示出了布局改进后,左侧之间的距离不小于其初始距离。和右侧的字符在垂直方向上被调整到了更中心的位置,从而使整个文本布局更好地与摩天轮的形状匹配。
3.4,基于距离变换的图像分割,将迁移后的艺术文本图像的前景和背景部分分割开来,然后再舍弃背景像素,仅将前景部分与背景图融合;
接下来我们通过将迁移后的艺术文本图像和对应的二值图像结合起来做图像分割。我们需要知道艺术文本图像的每个像素点到底是代表背景区域还是字符区域,所以我们需要对图像中的每一个像素点进行遍历,以确定他们的所代表的区域。对于每个点,我们找到距离它最近的字符区域中的点。
由于迁移后的字符的边缘也会带有一些纹理,所以我们不能单纯的直接把所有的0像素归为一类标签,非零像素归为一类标签。我们还需要针对非零像素做一个特殊处理。
在opencv中,提供了用于计算图像中不同像素之间距离distanceTransform()的距离变换函数。对于迁移之后的艺术文本图像的每一个像素值,我们需要考虑它为背景像素还是前景像素。具体判断算法如下:(1)先对艺术文本图像进行二值化,然后对二值化的艺术文本图像进行距离变换,字符区域的像素为前景,记为0,其余像素为背景,离字符越远的像素越靠近255。(2)在迁移后的艺术文本图像的背景中,对每个像素点以距离变换之后的图为参考,找到距离它最近的0像素点。(3)以该像素点为中心取一个13×13大小的patch,将patch块中的所有为0的像素在艺术图像中的均值和该中心像素点的值做比较,如果差值大于某个阈值(二值化图像所确定的背景和前景之间像素均值差的1/3)就认为该中心像素点与字符像素不是同一类,若小于该阈值,则认为是同一类,达到如图9所示的效果。
图9中可以清楚的看到,在背景的某处选取一个像素点,然后找到离它最近的字符上的像素点,以这个字符上的像素点为中心选取一个13×13大小的patch(黑色方框),统计方框内所有像素值为0的像素点在艺术文本图像中的均值(灰色区域),最后将这个均值和背景与前景像素均值差的1/3比较,如果大于这个阈值,就认为背景像素中标记的像素点不是和字符像素同一类,反之就是同一类。因为经过风格迁移之后原本属于背景的像素有可能迁移上枫叶的纹理就变成了前景的像素了,所以选取patch来统计均值就可以避免将前景像素归类为背景像素了。
图10为本发明实施例的位置优化和图像分割的效果,其中四张图片分别是未经过文本放缩、未经过文本旋转、未经过图像分割以及最终效果的图片。可以清楚的看出通过艺术文本图像位置优化和基于距离变换的图像分割处理以后,生成的艺术文本图像能够很好的和背景图像结合在一起。文本放缩和文本旋转能够使得文字大小和方向和背景图中的主要物体达成一致,而图像风格能够使得调整位置后的文本图像不遮挡住背景中的物体。
Claims (10)
1.一种基于神经风格迁移的艺术文本图像生成方法,其特征在于,包括如下步骤:
步骤1,构建基于孪生网络的图文风格匹配模型,获取与背景图匹配度最高的风格图;
针对背景图和风格图,分别以图片的中心,以及中心到对角的中点,一共五个点选取一定大小的patch,将背景图和风格图对应位置上的五个patch组合成patch对输入到于孪生网络的图文风格匹配模块;所述基于孪生网络的图文风格匹配模型是对基本的孪生神经网络的改进,采用五组卷积网络,分别对应5个patch对,然后再通过全连接层输出相应的匹配度;
步骤2,首先获取风格图的主颜色,然后将风格图和文本图像送入基于形状主色匹配的文字风格迁移模型,完成对文本图像的风格迁移,获得迁移后的艺术文本图像;
所述基于形状主色匹配的文字风格迁移模型包括对风格图进行预处理的草图模块,用于获得风格图的结构掩膜和草图;实现文本图像迁移结构信息的结构生成器模块GS和相对应的判别器Ds,用于获得具有风格图结构信息的文本图像IX,以及实现文本图像迁移纹理信息的神经风格迁移模块NT,用于获得迁移上了结构和纹理信息的艺术文本图像IY;所述结构生成器模块Gs采用VGG19网络,神经风格迁移模块NT包括若干个卷积层和池化层;
步骤3,将得到的艺术文本图像和背景图进行融合,得到最终的生成结果。
3.根据权利要求1所述一种基于神经风格迁移的艺术文本图像生成方法,其特征在于:步骤2中获取风格图的主颜色的具体实现方式如下,
首先将风格图颜色转为HSV色彩空间,根据HSV的范围进行筛选,将风格图分为不同色域的图像;
使用cv2.inRange()函数进行背景颜色过滤,将过滤后的颜色进行二值化处理,然后使用cv2.dilate()函数进行形态学腐蚀膨胀;
最后统计图像中的一个最大连通域,即为风格图的主颜色。
4.根据权利要求1所述一种基于神经风格迁移的艺术文本图像生成方法,其特征在于:所述草图模块的具体处理过程包括,对挑选出的风格图进行二值化处理,得到结构掩膜,然后进行中值滤波处理,生成结构掩膜的草图。
5.根据权利要求1所述一种基于神经风格迁移的艺术文本图像生成方法,其特征在于:步骤2中,对于结构生成器模块GS而言,它的目标是利用L1距离来接近ground truth x,以混淆判别器Ds;
其中GS(x)表示的是生成器,x是输入,即风格图的结构掩膜,取两者的重构误差;
而判别器Ds的对抗误差如下,
其中Ds(x)表示的是判别器,Ds(Gs(x))表示的是经过生成器产生的结果再输入到判别器中;
最后需要最大化Ds,最小化GS来指导损失函数更新;
对于某些形变很大样式图,文本图像I可能会变形得太严重而无法识别,因此,提出了一个可选的字形易读性损失,以规制结构迁移结果GS(I)维持I的主要笔划部分,
所以,最终结构生成器模块的损失函数为,
λrec,λadv,λgly均为超参数,初始化是0-1的随机值。
6.根据权利要求1所述一种基于神经风格迁移的艺术文本图像生成方法,其特征在于:步骤2中,所述神经风格迁移模块的总的损失函数目标定义为,
Ltotal=αLcontent+βLstyle (3-12)
其中α,β是超参数;
其中内容损失函数的公式为,
对于风格重建的损失函数Lstyle,
7.根据权利要求1所述一种基于神经风格迁移的艺术文本图像生成方法,其特征在于:步骤3中先对艺术文本图像的位置进行优化,然后再与背景图像进行融合,位置优化的具体实现方式如下,
通过在四个方面考虑背景图B中的每个像素x的成本进行估算,使式(4-1)最小化;
其中,R是一个和艺术文本图像S相同大小的矩形区域,x是背景图B中的像素;Lv指的是以x为中心的patch的局部方差Lv=var(x),Lc表示的是B和S的一致性,计算方式如下所示,
Lc=||PI(x)-PS(y)||2 (4-2)
其中,PI(x)代表背景图B中以x为中心的patch,同理,PS(y)代表艺术文本图像S中以y为中心的patch,目的是为了寻找在背景图B中和S最相接近的patch块;
Ls代表整体的显著性区域,计算方式如下,
Ls=||Iμ-Iwhc(x)|| (4-3)
其中,Iwhc(x)代表背景图B进行高斯滤波之后,取其像素点的LAB值,Iμ表示背景图B在LAB空间的每个像素点的均值;
La代表图片的边缘,计算方式如下所示,
其中,dist(x)表示像素x到图片中心的偏移量,σ2表示背景图B短边的长度;上式中,权重λv、λc、λs和λc都是权重。
10.根据权利要求1所述一种基于神经风格迁移的艺术文本图像生成方法,其特征在于:步骤3中采用基于距离变换的图像分割,将艺术文本图像的前景和背景部分分割开来,然后再舍弃背景像素,仅将前景部分与背景图融合,具体实现方式如下,
(1)先对艺术文本图像进行二值化,然后对二值化的艺术文本图像进行距离变换,字符区域内的像素均为前景,记为0,其它像素为背景,离字符区域越远的像素越靠近255;(2)在艺术文本图像的背景中,对每个像素点以距离变换之后的图像为参考,找到距离该像素点最近的0像素点。(3)以找到最近的0像素点为中心取一个13×13大小的patch1,将patch1块中的所有为0的像素点在艺术文本图像中的均值和该中心像素点的值做比较,如果差值大于某个阈值,就认为该中心像素点与字符像素不是同一类,若小于该阈值,则认为是同一类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010351906.3A CN111553837B (zh) | 2020-04-28 | 2020-04-28 | 一种基于神经风格迁移的艺术文本图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010351906.3A CN111553837B (zh) | 2020-04-28 | 2020-04-28 | 一种基于神经风格迁移的艺术文本图像生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111553837A true CN111553837A (zh) | 2020-08-18 |
CN111553837B CN111553837B (zh) | 2022-04-29 |
Family
ID=72004072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010351906.3A Active CN111553837B (zh) | 2020-04-28 | 2020-04-28 | 一种基于神经风格迁移的艺术文本图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111553837B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580623A (zh) * | 2020-12-25 | 2021-03-30 | 北京百度网讯科技有限公司 | 图像生成方法、模型训练方法、相关装置及电子设备 |
CN112667115A (zh) * | 2020-12-22 | 2021-04-16 | 科大讯飞股份有限公司 | 文字显示方法以及电子设备、存储装置 |
CN112949476A (zh) * | 2021-03-01 | 2021-06-11 | 苏州美能华智能科技有限公司 | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 |
CN112966685A (zh) * | 2021-03-23 | 2021-06-15 | 平安国际智慧城市科技股份有限公司 | 用于场景文本识别的攻击网络训练方法、装置及相关设备 |
CN113205574A (zh) * | 2021-04-30 | 2021-08-03 | 武汉大学 | 一种基于注意力机制的艺术字风格迁移系统 |
CN113420647A (zh) * | 2021-06-22 | 2021-09-21 | 南开大学 | 一种由汉字重心点向外扩张变形创造新风格字体的方法 |
CN113569453A (zh) * | 2021-07-30 | 2021-10-29 | 东华大学 | 一种面向加工的数字孪生产品模型的迁移方法 |
CN114882442A (zh) * | 2022-05-31 | 2022-08-09 | 广州信诚信息科技有限公司 | 一种基于电力作业现场的人员装备态势识别方法 |
CN116433825A (zh) * | 2023-05-24 | 2023-07-14 | 北京百度网讯科技有限公司 | 图像生成方法、装置、计算机设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651766A (zh) * | 2016-12-30 | 2017-05-10 | 深圳市唯特视科技有限公司 | 一种基于深度卷积神经网络的图像风格迁移方法 |
CN107644006A (zh) * | 2017-09-29 | 2018-01-30 | 北京大学 | 一种基于深度神经网络的手写体中文字库自动生成方法 |
CN108492248A (zh) * | 2018-01-30 | 2018-09-04 | 天津大学 | 基于深度学习的深度图超分辨率方法 |
CN109712068A (zh) * | 2018-12-21 | 2019-05-03 | 云南大学 | 用于葫芦烙画的图像风格迁移与模拟方法 |
CN109949214A (zh) * | 2019-03-26 | 2019-06-28 | 湖北工业大学 | 一种图像风格迁移方法及系统 |
CN110570377A (zh) * | 2019-09-11 | 2019-12-13 | 辽宁工程技术大学 | 一种基于组归一化的快速图像风格迁移方法 |
CN110738057A (zh) * | 2019-09-05 | 2020-01-31 | 中山大学 | 一种基于语法约束和语言模型的文本风格迁移方法 |
CN111046915A (zh) * | 2019-11-20 | 2020-04-21 | 武汉理工大学 | 一种风格字符生成的方法 |
-
2020
- 2020-04-28 CN CN202010351906.3A patent/CN111553837B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651766A (zh) * | 2016-12-30 | 2017-05-10 | 深圳市唯特视科技有限公司 | 一种基于深度卷积神经网络的图像风格迁移方法 |
CN107644006A (zh) * | 2017-09-29 | 2018-01-30 | 北京大学 | 一种基于深度神经网络的手写体中文字库自动生成方法 |
CN108492248A (zh) * | 2018-01-30 | 2018-09-04 | 天津大学 | 基于深度学习的深度图超分辨率方法 |
CN109712068A (zh) * | 2018-12-21 | 2019-05-03 | 云南大学 | 用于葫芦烙画的图像风格迁移与模拟方法 |
CN109949214A (zh) * | 2019-03-26 | 2019-06-28 | 湖北工业大学 | 一种图像风格迁移方法及系统 |
CN110738057A (zh) * | 2019-09-05 | 2020-01-31 | 中山大学 | 一种基于语法约束和语言模型的文本风格迁移方法 |
CN110570377A (zh) * | 2019-09-11 | 2019-12-13 | 辽宁工程技术大学 | 一种基于组归一化的快速图像风格迁移方法 |
CN111046915A (zh) * | 2019-11-20 | 2020-04-21 | 武汉理工大学 | 一种风格字符生成的方法 |
Non-Patent Citations (1)
Title |
---|
ZHU ANNA: "Character Images Synthsis Based on Selected Content and Referenced Style Embedding", 《ICME》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667115A (zh) * | 2020-12-22 | 2021-04-16 | 科大讯飞股份有限公司 | 文字显示方法以及电子设备、存储装置 |
CN112667115B (zh) * | 2020-12-22 | 2023-07-25 | 科大讯飞股份有限公司 | 文字显示方法以及电子设备、存储装置 |
CN112580623B (zh) * | 2020-12-25 | 2023-07-25 | 北京百度网讯科技有限公司 | 图像生成方法、模型训练方法、相关装置及电子设备 |
CN112580623A (zh) * | 2020-12-25 | 2021-03-30 | 北京百度网讯科技有限公司 | 图像生成方法、模型训练方法、相关装置及电子设备 |
CN112949476A (zh) * | 2021-03-01 | 2021-06-11 | 苏州美能华智能科技有限公司 | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 |
CN112949476B (zh) * | 2021-03-01 | 2023-09-29 | 苏州美能华智能科技有限公司 | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 |
CN112966685A (zh) * | 2021-03-23 | 2021-06-15 | 平安国际智慧城市科技股份有限公司 | 用于场景文本识别的攻击网络训练方法、装置及相关设备 |
CN112966685B (zh) * | 2021-03-23 | 2024-04-19 | 深圳赛安特技术服务有限公司 | 用于场景文本识别的攻击网络训练方法、装置及相关设备 |
CN113205574A (zh) * | 2021-04-30 | 2021-08-03 | 武汉大学 | 一种基于注意力机制的艺术字风格迁移系统 |
CN113205574B (zh) * | 2021-04-30 | 2023-04-21 | 武汉大学 | 一种基于注意力机制的艺术字风格迁移系统 |
CN113420647B (zh) * | 2021-06-22 | 2022-05-20 | 南开大学 | 一种由汉字重心点向外扩张变形创造新风格字体的方法 |
CN113420647A (zh) * | 2021-06-22 | 2021-09-21 | 南开大学 | 一种由汉字重心点向外扩张变形创造新风格字体的方法 |
CN113569453A (zh) * | 2021-07-30 | 2021-10-29 | 东华大学 | 一种面向加工的数字孪生产品模型的迁移方法 |
CN113569453B (zh) * | 2021-07-30 | 2023-10-10 | 东华大学 | 一种面向加工的数字孪生产品模型的迁移方法 |
CN114882442A (zh) * | 2022-05-31 | 2022-08-09 | 广州信诚信息科技有限公司 | 一种基于电力作业现场的人员装备态势识别方法 |
CN116433825A (zh) * | 2023-05-24 | 2023-07-14 | 北京百度网讯科技有限公司 | 图像生成方法、装置、计算机设备及存储介质 |
CN116433825B (zh) * | 2023-05-24 | 2024-03-26 | 北京百度网讯科技有限公司 | 图像生成方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111553837B (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111553837B (zh) | 一种基于神经风格迁移的艺术文本图像生成方法 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN110717896B (zh) | 基于显著性标签信息传播模型的板带钢表面缺陷检测方法 | |
CN109583425A (zh) | 一种基于深度学习的遥感图像船只集成识别方法 | |
CN111340824B (zh) | 一种基于数据挖掘的图像特征分割方法 | |
CN111310760B (zh) | 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法 | |
CN109711268B (zh) | 一种人脸图像筛选方法及设备 | |
CN110443257B (zh) | 一种基于主动学习的显著性检测方法 | |
CN111046868B (zh) | 基于矩阵低秩稀疏分解的目标显著性检测方法 | |
CN106778768A (zh) | 基于多特征融合的图像场景分类方法 | |
CN111986125A (zh) | 一种用于多目标任务实例分割的方法 | |
CN112733614B (zh) | 一种带有相似尺寸强化识别的害虫图像检测方法 | |
CN111179193B (zh) | 基于DCNNs和GANs的皮肤镜图像增强和分类方法 | |
CN114694038A (zh) | 基于深度学习的高分辨率遥感影像分类方法及系统 | |
CN113627472A (zh) | 基于分层深度学习模型的智慧园林食叶害虫识别方法 | |
CN115170805A (zh) | 一种结合超像素和多尺度分层特征识别的图像分割方法 | |
CN111401380A (zh) | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 | |
CN111986126A (zh) | 一种基于改进vgg16网络的多目标检测方法 | |
CN113870157A (zh) | 一种基于CycleGAN的SAR图像合成方法 | |
CN109902692A (zh) | 一种基于局部区域深度特征编码的图像分类方法 | |
CN113705579A (zh) | 一种视觉显著性驱动的图像自动标注方法 | |
CN113392854A (zh) | 一种图像纹理特征提取分类方法 | |
CN112101283A (zh) | 一种交通标志智能识别方法及系统 | |
CN111612802A (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 | |
CN108765384B (zh) | 一种联合流形排序和改进凸包的显著性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |