CN114581356B - 基于风格迁移数据增广的图像增强模型泛化方法 - Google Patents

基于风格迁移数据增广的图像增强模型泛化方法 Download PDF

Info

Publication number
CN114581356B
CN114581356B CN202210496594.4A CN202210496594A CN114581356B CN 114581356 B CN114581356 B CN 114581356B CN 202210496594 A CN202210496594 A CN 202210496594A CN 114581356 B CN114581356 B CN 114581356B
Authority
CN
China
Prior art keywords
style
data
style migration
image
vein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210496594.4A
Other languages
English (en)
Other versions
CN114581356A (zh
Inventor
韩静
张乃川
柏连发
张毅
郭恩来
陈霄宇
赵壮
于浩天
陆骏
白雪飞
周宇
徐鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202210496594.4A priority Critical patent/CN114581356B/zh
Publication of CN114581356A publication Critical patent/CN114581356A/zh
Application granted granted Critical
Publication of CN114581356B publication Critical patent/CN114581356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于风格迁移数据增广的图像增强模型泛化方法,属于图像增强模型的泛化技术领域。具体为通过风格迁移算法对原始模拟类静脉数据进行风格迁移处理;将风格迁移处理后的数据集与原始模拟类静脉数据集进行合成,得到风格迁移增广数据集;将风格迁移增广数据集作为图像增强网络的训练集进行训练,得到图像增强网络的泛化模型;将泛化模型在测试集上进行测试,并分析模型泛化效果。本发明基于类静脉风格迁移和随机化风格迁移2种数据增广手段,对图像增强模型实现泛化,以提升模型在真实手背浅表静脉数据测试集上的增强效果,特别是对于“误增强”问题的改善。

Description

基于风格迁移数据增广的图像增强模型泛化方法
技术领域
本发明涉及一种基于风格迁移数据增广的图像增强模型泛化方法,属于图像增强模型的泛化技术领域。
背景技术
在手背浅表静脉图像增强的任务中,基于神经网络的算法取得了优异的成果。然而,现有的神经网络算法仅依赖于模拟类静脉数据训练集,其和真实手背浅表静脉数据相比,在结构分布、模糊程度、光照情况等方面仍有一定的差距。并且模拟类静脉数据仅通过亚克力板来模拟图像退化的方式会使图像风格样式单一。上述2个模拟类静脉数据集的缺陷使得通过其训练得到的增强网络模型的泛化能力较差,在和训练集不同分布的真实手背浅表静脉数据上往往会出现“误增强”等情况,即模型对类静脉结构的识别和增强不够准确。同时,由于数据集制作过程较为繁琐,因此其采集量总是有限的,容易产生训练集数量不足带来的模型效果不佳等问题。
发明内容
为了解决上述技术问题,本发明提供一种基于风格迁移数据增广的图像增强模型泛化方法,基于类静脉风格迁移和随机化风格迁移2种数据增广手段,对图像增强模型实现泛化,以提升模型在真实手背浅表静脉数据测试集上的增强效果,特别是对于“误增强”问题的改善,其具体技术方案如下:
一种基于风格迁移数据增广的图像增强模型泛化方法,包括以下步骤:
步骤一:通过风格迁移算法对原始模拟类静脉数据进行风格迁移处理;
步骤二:将风格迁移处理后的数据集与原始模拟类静脉数据集进行合成,得到风格迁移增广数据集;
步骤三:将风格迁移增广数据集作为图像增强网络的训练集进行训练,得到图像增强网络的泛化模型;
步骤四:将泛化模型在测试集上进行测试,并分析模型泛化效果。
进一步的,所述步骤一中的风格迁移处理采用基于类静脉风格迁移数据增广的模型泛化方案,采用2种风格迁移算法获得两种不同的类静脉风格迁移数据,而两种算法分别为基于逐像素计算的像素级的视觉属性迁移算法,和基于感知损失函数的快速方法Perceptual Losses for Real-Time Style Transfer and Super-Resolution。
进一步的,所述步骤一中的风格迁移处理采用基于随机化风格迁移数据增广的模型泛化方案,采用基于感知损失函数的快速方法获得10种不同的随机化风格迁移数据。
进一步的,设基于逐像素计算的像素级的视觉属性迁移算法获得的类静脉风格迁移数据为A1,基于感知损失函数的快速方法获得的类静脉风格迁移数据为A2,
所述步骤二中的将风格迁移处理后的数据集与原始模拟类静脉数据集进行合成具体为:类静脉风格迁移数据为A1与原始模拟类静脉数据合成,类静脉风格迁移数据为A2与原始模拟类静脉数据合成,或者类静脉风格迁移数据为A1和类静脉风格迁移数据为A2同时与原始模拟类静脉数据合成。
进一步的,选取所述10种不同的随机化风格迁移数据中的3、5、7、10种随机化风格数据与原始模拟类静脉数据合成。
进一步的,所述像素级的视觉属性迁移算法为:给定的一组图像对
Figure 600781DEST_PATH_IMAGE002
Figure 229208DEST_PATH_IMAGE004
Figure 327614DEST_PATH_IMAGE006
提供语义和内容信息,
Figure 219347DEST_PATH_IMAGE008
则提供外观(如颜色、光照、风格等)和细节(纹理等)信息,首先将
Figure 668783DEST_PATH_IMAGE010
Figure 304164DEST_PATH_IMAGE004
的特征图划分为固定大小的特征块patch,然后把特征块从
Figure 525585DEST_PATH_IMAGE012
映射到
Figure 650536DEST_PATH_IMAGE014
中与这个特征块最接近的位置进行替换,当每一个特征块patch足够小的时候,配合在替换操作后进行图像平滑操作,即相当于用
Figure 524951DEST_PATH_IMAGE016
的风格来表现
Figure 760760DEST_PATH_IMAGE018
,生成图像
Figure 833759DEST_PATH_IMAGE020
,完成风格迁移;实际在算法处理时,其过程为双向风格迁移,即将
Figure 67294DEST_PATH_IMAGE022
Figure 491322DEST_PATH_IMAGE012
作为输入,得到
Figure 468505DEST_PATH_IMAGE024
Figure 927168DEST_PATH_IMAGE026
,其中
Figure 331605DEST_PATH_IMAGE028
是以
Figure 980280DEST_PATH_IMAGE030
为内容图,
Figure 557891DEST_PATH_IMAGE032
为风格图的风格迁移结果,而
Figure 808744DEST_PATH_IMAGE026
是以
Figure 446399DEST_PATH_IMAGE034
为内容图,
Figure 313861DEST_PATH_IMAGE036
为风格图的风格迁移结果,具体处理过程为:
首先对VGG19网络进行预训练,并将每个卷积块中第一个卷积层后面的ReLU激活层输出,也就是
Figure 632847DEST_PATH_IMAGE038
Figure 800523DEST_PATH_IMAGE040
(共5个,
Figure 546762DEST_PATH_IMAGE042
),以作为不同层级的特征,根据上述假设
Figure 167099DEST_PATH_IMAGE030
Figure 86514DEST_PATH_IMAGE020
Figure 314888DEST_PATH_IMAGE026
Figure 28766DEST_PATH_IMAGE034
的最高层特征相等,即:
Figure 136400DEST_PATH_IMAGE044
(1)
然后在通过反卷积来重建和
Figure 797188DEST_PATH_IMAGE026
的过程中,为了融入
Figure 939456DEST_PATH_IMAGE046
Figure 293077DEST_PATH_IMAGE048
的特征,即风格图特征,当前层特征图不直接通过更高层特征图反卷积求得,而是通过设置权重参数
Figure 622428DEST_PATH_IMAGE050
来控制
Figure 883645DEST_PATH_IMAGE052
Figure 818103DEST_PATH_IMAGE054
以及
Figure 139362DEST_PATH_IMAGE056
Figure 150482DEST_PATH_IMAGE026
的相似程度并逐步进行重建计算,其中
Figure 480969DEST_PATH_IMAGE050
的初始值是手动设定的,而且在每一次计算当前层特征图时都会根据层数对
Figure 269934DEST_PATH_IMAGE050
做出修正,使
Figure 496516DEST_PATH_IMAGE058
随着L的下降而下降,进而在高层抽象特征上更多地参考风格图,在像素细节上更多地参考内容图,以
Figure 66037DEST_PATH_IMAGE060
的重建为例,计算数学表达式为:
Figure 669057DEST_PATH_IMAGE062
(2)
其中,
Figure 312528DEST_PATH_IMAGE064
Figure 975590DEST_PATH_IMAGE066
反卷积的结果,
Figure 297987DEST_PATH_IMAGE066
Figure 238786DEST_PATH_IMAGE068
为了在结构上匹配
Figure 799080DEST_PATH_IMAGE070
进行变形的结果,
Figure 429782DEST_PATH_IMAGE068
变形的依据是对
Figure 177158DEST_PATH_IMAGE070
Figure 121980DEST_PATH_IMAGE068
在双重约束条件下执行最近邻区域(NearestNeighbor Field,NNF)搜索后,根据搜索结果进行的匹配;
而在式(2)中,
Figure 67939DEST_PATH_IMAGE072
越大则会使
Figure 403630DEST_PATH_IMAGE074
具有更多
Figure 169461DEST_PATH_IMAGE070
的内容结构和更少
Figure 449133DEST_PATH_IMAGE068
的细节特征,其数学表达式为:
Figure 718440DEST_PATH_IMAGE076
(3)
其中,
Figure 159786DEST_PATH_IMAGE078
就是
Figure 616175DEST_PATH_IMAGE080
归一化后经过Sigmoid函数计算得到,其数学表达式为:
Figure 106062DEST_PATH_IMAGE082
(4)
其中,
Figure 763964DEST_PATH_IMAGE084
因此,
Figure 48315DEST_PATH_IMAGE086
Figure 523158DEST_PATH_IMAGE026
的重建包含3个过程:首先将最高层的特征进行映射,然后通过反卷积得到下一层的特征,最后进行引入权重参数的特征融合重建。
进一步的,所述基于感知损失函数的快速方法包括一个图片转换网络
Figure 879053DEST_PATH_IMAGE088
和一个用于定义一系列损失函数
Figure 122953DEST_PATH_IMAGE090
的损失网络
Figure 843784DEST_PATH_IMAGE092
,具体运算过程为:
图片转换网络是一个深度残差网络,参数权重为
Figure 540345DEST_PATH_IMAGE094
,能够将输入的图片
Figure 434351DEST_PATH_IMAGE096
通过
Figure 1599DEST_PATH_IMAGE098
的映射转换成输出图片
Figure 970297DEST_PATH_IMAGE100
,每个损失函数计算一个标量值
Figure 154154DEST_PATH_IMAGE102
以衡量输出的
Figure 789534DEST_PATH_IMAGE104
和目标图像
Figure 273605DEST_PATH_IMAGE106
之间的差距,图片转换网络通过随机梯度下降的方式最小化加权损失函数,其数学表达式为:
Figure 336239DEST_PATH_IMAGE108
(5)
图片转换网络使用步幅卷积或微步幅卷积进行上采样或者下采样操作,以替换常规的池化层结构,图片转换网络由5个残差块组成,其中除了最后的输出层,所有非残差卷积层都与批归一化层和RELU激活函数层相连,而输出层则通过Tanh激活函数层来确保输出图像的像素在
Figure 272971DEST_PATH_IMAGE110
之间,图片转换网络第1层和最后的输出层使用
Figure 446464DEST_PATH_IMAGE112
的卷积核,而其他的卷积层都使用
Figure 785041DEST_PATH_IMAGE114
的卷积核;
损失网络
Figure 815314DEST_PATH_IMAGE116
用于定义特征重建损失
Figure 177025DEST_PATH_IMAGE118
和风格重建损失
Figure 953876DEST_PATH_IMAGE120
,以衡量内容和风格上的差距,对于每一张输入的图片
Figure 412539DEST_PATH_IMAGE096
,都有内容目标
Figure 676030DEST_PATH_IMAGE122
和风格目标
Figure 649671DEST_PATH_IMAGE124
,对于风格迁移任务而言,理想的输出图像应该满足内容的一致性,即
Figure 227283DEST_PATH_IMAGE126
,同时将风格目标
Figure 743715DEST_PATH_IMAGE128
融合进来;
该算法定义了特征重建损失和风格重建损失2个感知损失函数,用于衡量两张图片之间高层特征的感知和语义的差别,其中,特征重建损失不采用逐像素计算的方式,而是使用VGG网络来计算来高层特征的表示,其数学表达式为:
Figure 181037DEST_PATH_IMAGE130
(6)
式(6)中,
Figure 110816DEST_PATH_IMAGE132
表示以
Figure 960960DEST_PATH_IMAGE096
为输入的损失网络
Figure 394216DEST_PATH_IMAGE116
中第
Figure 937192DEST_PATH_IMAGE133
个激活层,
Figure 26371DEST_PATH_IMAGE135
为输入图像
Figure 683136DEST_PATH_IMAGE096
的尺寸。通过高层特征感知来重建图像,其内容和全局结构会被较好保留,但 是颜色和纹理等风格特征将不复存在,即仅用特征重建损失监督风格迁移过程并不能做到 与目标图像的完全匹配,因此,该算法还定义了风格重建损失,以对图像的颜色、纹理等风 格进行约束,
定义格拉姆矩阵
Figure 705319DEST_PATH_IMAGE137
Figure 888038DEST_PATH_IMAGE139
的矩阵,其数学表达式为:
Figure 995672DEST_PATH_IMAGE141
(7)
其中,
Figure 656460DEST_PATH_IMAGE132
Figure 798728DEST_PATH_IMAGE143
尺寸的
Figure 886770DEST_PATH_IMAGE145
维度的特征,而
Figure 216120DEST_PATH_IMAGE137
则与
Figure 742917DEST_PATH_IMAGE145
维度的特征非中心协方差成比例,而风格重建损失是输出图像和目标图像的格拉姆矩阵之差的平方Frobenius范数,其数学表达式为:
Figure 677375DEST_PATH_IMAGE147
(8)
当目标图像
Figure 724266DEST_PATH_IMAGE149
与输出图像
Figure 806492DEST_PATH_IMAGE151
大小不同时,仍然能够很好地进行风格重建损失约束,因为其格拉姆矩阵值是不随图像尺寸变化的,同时,当需要从一组层,而非单一层中实现风格重建时,定义
Figure 809083DEST_PATH_IMAGE153
Figure 660364DEST_PATH_IMAGE155
的每一层损失之和;
除了上述2个感知损失函数,该算法还通过像素损失和全变差正则化损失对像素信息进行约束,像素损失是输出图和目标图之间标准化之差,对于
Figure 355788DEST_PATH_IMAGE157
尺寸的输出图和目标图,其像素损失数学表达式为:
Figure 925309DEST_PATH_IMAGE159
(9)
全变差正则化损失目的是为了使输出图像更为平滑,其数学表达式为:
Figure DEST_PATH_IMAGE161
(10)
式中,
Figure DEST_PATH_IMAGE163
是一阶梯度算子;
Figure DEST_PATH_IMAGE165
为全变差正则系数;
Figure DEST_PATH_IMAGE167
Figure DEST_PATH_IMAGE169
分别为复原图像、模糊图像;
Figure DEST_PATH_IMAGE171
为复原核;
Figure DEST_PATH_IMAGE173
为数据保真项。
本发明的有益效果是:
本发明在真实手背浅表静脉测试集上的泛化能力有明显提升,能够避免对非静脉结构“误增强”的同时对细小静脉结构和较为复杂的静脉分布区域实现良好的增强效果。
附图说明
图1是本发明的成对模拟类静脉图像,
图2是本发明的单向风格迁移的输入/输出示意图,
图3是本发明的像素级的视觉属性迁移算法处理过程示意图,
图4是本发明的重建过程示意图,
图5是本发明的基于感知损失函数的快速算法流程图,
图6是本发明的基于逐像素计算的类静脉风格迁移结果图,
图7是本发明的基于逐像素计算的类静脉风格迁移细节区域对比图,
图8是本发明的基于感知损失函数的类静脉风格迁移结果图,
图9是本发明的基于感知损失函数的类静脉风格迁移细节区域对比图,
图10是本发明的随机化风格迁移结果图,
图11是本发明的各组模型的增强结果图,
图12是本发明的模型泛化能力提升效果示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
本发明的执行过程为:
步骤一:通过风格迁移算法对原始模拟类静脉数据进行风格迁移处理;
步骤二:将风格迁移后的数据集与原始模拟类静脉数据集进行合成,得到风格迁移增广数据集;
步骤三:将增广数据集作为图像增强网络的训练集进行训练,得到图像增强网络的泛化模型;
步骤四:将泛化模型在测试集上进行测试,并分析模型泛化效果。
本技术基于上述实现步骤,提出两种实现方案,即基于类静脉和随机化风格迁移数据增广的模型泛化方案。
在步骤一中,方案1(即基于类静脉风格迁移数据增广的模型泛化方案)采用2种风格迁移算法获得2种不同的类静脉风格迁移数据,而2种算法分别为基于逐像素计算的DeepImage Analogy方法,和基于感知损失函数的快速方法Perceptual Losses for Real-TimeStyle Transfer and Super-Resolution。而方案2(即基于随机化风格迁移数据增广的模型泛化方案)出于算法计算速度的考虑,采用基于感知损失函数的快速方法PerceptualLosses for Real-Time Style Transfer and Super-Resolution获得10种不同的随机化风格迁移数据。
在步骤二中,方案1和方案2的数据集合成方式不同,但都基于风格种类数量。其中,方案1主要考虑2种类静脉风格数据单独和混合进行数据增广对模型泛化的不同影响,而方案2则考虑3、5、7、10种随机化风格数据增广对模型泛化的不同影响。
技术手段及效果
本技术基于类静脉风格迁移和随机化风格迁移2种数据增广手段,对图像增强模型实现泛化,以提升模型在真实手背浅表静脉数据测试集上的增强效果(特别是对于“误增强”问题的改善)。
方案一:类静脉风格迁移数据增广的模型泛化。针对模拟类静脉数据与真实手背浅表静脉数据在分布上相似性有限,同时难以大批量制作获取的问题,本技术拟通过类静脉风格迁移的方式使图像的视觉效果更接近真实手背浅表静脉,并将不同风格的合成数据集用于图像增强网络模型训练。该方案类静脉风格迁移的实现基于2种风格迁移算法,以获得2种风格的类静脉风格数据集。
方案二:随机化风格迁移数据增广的模型泛化。针对类静脉风格迁移方法对风格图较为依赖,同时生成的图像细节纹理和光照分布等风格也都较为单一的问题,该方案提出以随机化风格迁移的方式进行数据集增广,并将不同风格的合成数据集用于图像增强网络模型训练。其采用基于感知损失函数的快速方法,以获得10种风格的随机化风格数据集。
通过两种方案得到的泛化后的图像增强模型在真实手背浅表静脉测试集上的泛化能力有明显提升,能够避免对非静脉结构“误增强”的同时对细小静脉结构和较为复杂的静脉分布区域实现良好的增强效果。
本技术以2种不同的风格迁移算法得到2种风格的类静脉风格迁移增广数据集,再以其中的基于感知损失函数的快速算法得到10种风格的随机化风格迁移增广数据集。然后将两种风格迁移增广数据集分别以不同的风格数量进行混合,同时保证混合后的各组数据集总数量一致。最后将各组数据集作为基于神经网络的增强模型的训练集进行训练,并通过真实手背浅表静脉数据测试集进行实验。
通过定性定量分析大量实验结果,成功验证该方法能够对模型泛化能力有效提升,并评估出其中泛化能力较好的数据增广方式。
原始数据集介绍
原始模拟类静脉数据集为成对的退化和非退化数据集,其通过将粗细不同的黑色导线随机排布于白色背景板上,以使之呈现不同层次、不同分布的类静脉结构形态;并通过在白色背景板前放置亚克力板以模拟不同的退化程度。原始模拟类静脉数据集如图1所示。
其中,第一行为退化的模拟类静脉数据,第二行为清晰参考模拟类静脉数据。其数据集共有900组退化程度不同(不同的散射程度、光照等)的图像和对应的清晰参考图像。将其中的700组图像用于增强网络的训练得到原模型,而剩余的200组图像则作为测试集。
本发明实施过程
模拟类静脉数据集使手背浅表静脉增强这类需要对应清晰参考图像的训练任务成为可能。然而,一方面,其与真实手背浅表静脉数据在图像的光照特性、散射特性等方面仍有一定的差距,并且模拟类静脉数据仅通过亚克力板来模拟图像退化的方式会使图像风格样式单一,这可能会使增强网络学习到的图像特征参数在处理真实手背浅表静脉时的有效性降低,使模型暴露出泛化能力缺陷的问题,限制其增强效果。另一方面,由于数据集制作过程的繁琐,对于模拟类静脉数据集的采集量总是有限的,并且耗费较多人力,给研究任务带来了很多额外的工作量。而常规的数据增广方式还是基于原始图像的信息,并未从根本上解决上述问题。
风格迁移是指通过某些手段,将图像从原风格转换到目标风格,同时保证图像内容没有变化的图像处理方式。受到风格迁移技术的启发,本技术以合成的目标风格数据集来弥补采集的模拟类静脉数据集覆盖场景和采集数量不足的问题,将成为一种创新性的模型泛化方案。
视觉属性迁移算法
视觉属性迁移算法利用高层抽象特征建立起图像对中内容和语义的对应关系,并且将拼图匹配(PatchMatch)和重建(reconstruction)的方法从图像领域扩展到了特征领域,即提出图像类比(Image Analogy)的方法,以有效指导语义级的视觉属性迁移,使之能够在结构上基本保留内容图的内容及结构特征的同时,融入风格图的视觉属性。
视觉属性迁移算法的核心为图像类比,即对于给定的一组图像对
Figure DEST_PATH_IMAGE175
Figure DEST_PATH_IMAGE177
Figure DEST_PATH_IMAGE179
提供语义和内容信息,
Figure 357690DEST_PATH_IMAGE177
则提供外观(如颜色、光照、风格等)和细节(纹理等)信息。不同于图像领域的拼图匹配(PatchMatch)方法,图像类比将其迁移到特征领域。首先将
Figure 128724DEST_PATH_IMAGE179
Figure 260628DEST_PATH_IMAGE177
的特征图划分为固定大小的特征块patch,然后把特征块从
Figure 583025DEST_PATH_IMAGE177
映射到
Figure DEST_PATH_IMAGE181
中与这个特征块最接近的位置进行替换。当每一个特征块patch足够小的时候,配合在替换操作后进行图像平滑smooth等操作,即相当于用
Figure 645528DEST_PATH_IMAGE177
的风格来表现
Figure DEST_PATH_IMAGE183
,生成图像
Figure DEST_PATH_IMAGE185
,完成风格迁移。
而上述图像类比过程基于单向风格迁移,即将
Figure DEST_PATH_IMAGE187
Figure 926861DEST_PATH_IMAGE177
作为输入,得到
Figure 964087DEST_PATH_IMAGE185
。实际在算法处理时,其过程为双向风格迁移,即将
Figure DEST_PATH_IMAGE189
Figure 773780DEST_PATH_IMAGE177
作为输入,得到
Figure 718603DEST_PATH_IMAGE185
Figure DEST_PATH_IMAGE191
。其中
Figure 664562DEST_PATH_IMAGE185
是以
Figure 684075DEST_PATH_IMAGE183
为内容图,
Figure 387589DEST_PATH_IMAGE177
为风格图的风格迁移结果;而
Figure DEST_PATH_IMAGE193
是以
Figure 198419DEST_PATH_IMAGE177
为内容图,
Figure 936568DEST_PATH_IMAGE183
为风格图的风格迁移结果。如图2所示。
在觉属性迁移算法中,对于重建过程提出一个重要假设:即如果
Figure DEST_PATH_IMAGE195
Figure 643493DEST_PATH_IMAGE185
Figure DEST_PATH_IMAGE197
Figure 162199DEST_PATH_IMAGE177
是对齐的,只有细节不同(局部纹理,颜色等),那么
Figure DEST_PATH_IMAGE199
Figure 982912DEST_PATH_IMAGE185
Figure 106726DEST_PATH_IMAGE193
Figure 718973DEST_PATH_IMAGE177
在高层特征上是极其相似的。因此假设在最高层特征空间中,
Figure DEST_PATH_IMAGE201
Figure 724975DEST_PATH_IMAGE185
Figure DEST_PATH_IMAGE203
Figure 80870DEST_PATH_IMAGE177
相等。
视觉属性迁移算法处理过程如图3所示。首先对VGG19网络进行预训练,并将每个卷积块中第一个卷积层后面的ReLU激活层输出,也就是
Figure DEST_PATH_IMAGE205
Figure DEST_PATH_IMAGE207
(共5个,
Figure DEST_PATH_IMAGE209
),以作为不同层级的特征。根据上述假设
Figure DEST_PATH_IMAGE211
Figure 498338DEST_PATH_IMAGE185
Figure DEST_PATH_IMAGE213
Figure 874962DEST_PATH_IMAGE177
的最高层特征相等,即:
Figure DEST_PATH_IMAGE215
(1)
然后在通过反卷积来重建
Figure 495823DEST_PATH_IMAGE185
Figure 655409DEST_PATH_IMAGE203
的过程中,为了融入
Figure DEST_PATH_IMAGE217
Figure 284974DEST_PATH_IMAGE177
的特征,即风格图特征,当前层特征图不直接通过更高层特征图反卷积求得,而是通过设置权重参数
Figure DEST_PATH_IMAGE219
来控制
Figure 239023DEST_PATH_IMAGE185
Figure DEST_PATH_IMAGE221
以及
Figure 476408DEST_PATH_IMAGE177
Figure 111789DEST_PATH_IMAGE213
的相似程度并逐步进行重建计算。其中
Figure DEST_PATH_IMAGE223
的初始值是手动设定的,而且在每一次计算当前层特征图时都会根据层数对
Figure DEST_PATH_IMAGE225
做出修正,使
Figure DEST_PATH_IMAGE227
随着
Figure DEST_PATH_IMAGE229
的下降而下降。进而在高层抽象特征上更多地参考风格图,在像素细节上更多地参考内容图。以
Figure 251652DEST_PATH_IMAGE185
的重建为例,计算数学表达式为:
Figure DEST_PATH_IMAGE231
(2)
其中,
Figure DEST_PATH_IMAGE233
Figure DEST_PATH_IMAGE235
反卷积的结果,
Figure 504166DEST_PATH_IMAGE235
Figure DEST_PATH_IMAGE237
为了在结构上匹配
Figure DEST_PATH_IMAGE239
进行变形的结果,
Figure 972056DEST_PATH_IMAGE237
变形的依据是对
Figure 207866DEST_PATH_IMAGE239
Figure 546443DEST_PATH_IMAGE237
在双重约束条件下执行最近邻区域(NearestNeighbor Field,NNF)搜索后,根据搜索结果进行的匹配。
而在式(2)中,
Figure DEST_PATH_IMAGE241
越大则会使
Figure DEST_PATH_IMAGE243
具有更多
Figure 170191DEST_PATH_IMAGE239
的内容结构和更少
Figure 531903DEST_PATH_IMAGE237
的细节特征,其数学表达式为:
Figure DEST_PATH_IMAGE245
(3)
其中,
Figure DEST_PATH_IMAGE247
就是
Figure DEST_PATH_IMAGE249
归一化后经过Sigmoid函数计算得到,其数学表达式为:
Figure DEST_PATH_IMAGE251
(4)
其中,
Figure DEST_PATH_IMAGE253
因此,
Figure 151496DEST_PATH_IMAGE185
(或
Figure 144247DEST_PATH_IMAGE203
)的重建包含3个过程:首先将最高层的特征进行映射,然后通过反卷积得到下一层的特征,最后进行引入权重参数的特征融合重建。其过程如图4所示。
基于感知损失函数的快速算法
基于感知损失函数的快速算法采用感知损失函数训练前馈网络,以更好地提取高级特征,同时比逐像素差计算的损失函数更适合用来衡量图像之间的相似程度。最终,在风格迁移生成图像质量相当的情况下,显著提升了计算速度。这使得大批量进行风格迁移的数据处理任务得以高效实现。
算法流程如图5所示。其由两部分组成:一个图片转换网络
Figure DEST_PATH_IMAGE255
和一个用于定义一系列损失函数
Figure DEST_PATH_IMAGE257
的损失网络
Figure 860268DEST_PATH_IMAGE116
图片转换网络是一个深度残差网络,参数权重为
Figure 37172DEST_PATH_IMAGE225
,能够将输入的图片
Figure DEST_PATH_IMAGE259
通过
Figure DEST_PATH_IMAGE261
的映射转换成输出图片
Figure DEST_PATH_IMAGE263
。每个损失函数计算一个标量值
Figure DEST_PATH_IMAGE265
以衡量输出的
Figure 425621DEST_PATH_IMAGE263
和目标图像
Figure DEST_PATH_IMAGE267
之间的差距。图片转换网络通过随机梯度下降(StochasticGradient Descent,SGD)的方式最小化加权损失函数,其数学表达式为:
Figure DEST_PATH_IMAGE269
(5)
图片转换网络使用步幅卷积或微步幅卷积进行上采样或者下采样操作,以替换常规的池化层结构。该网络由5个残差块组成,其中除了最后的输出层,所有非残差卷积层都与批归一化层(Batch Normalization)和RELU激活函数层相连。而输出层则通过Tanh激活函数层来确保输出图像的像素在
Figure DEST_PATH_IMAGE271
之间。该网络第1层和最后的输出层使用
Figure DEST_PATH_IMAGE273
的卷积核,而其他的卷积层都使用
Figure DEST_PATH_IMAGE275
的卷积核。
损失网络
Figure 725408DEST_PATH_IMAGE116
用于定义特征重建损失
Figure DEST_PATH_IMAGE277
和风格重建损失
Figure DEST_PATH_IMAGE279
,以衡量内容和风格上的差距。对于每一张输入的图片
Figure 894221DEST_PATH_IMAGE259
,都有内容目标
Figure DEST_PATH_IMAGE281
和风格目标
Figure DEST_PATH_IMAGE283
。对于风格迁移任务而言,理想的输出图像应该满足内容的一致性,即
Figure DEST_PATH_IMAGE285
,同时将风格目标
Figure DEST_PATH_IMAGE287
融合进来。
基于感知损失函数的快速算法定义了特征重建损失和风格重建损失2个感知损失函数,用于衡量两张图片之间高层特征的感知和语义的差别。其中,特征重建损失不采用逐像素计算的方式,而是使用VGG网络来计算来高层特征的表示,其数学表达式为:
Figure DEST_PATH_IMAGE289
(6)
式6中,
Figure DEST_PATH_IMAGE291
表示以
Figure 810618DEST_PATH_IMAGE259
为输入的损失网络
Figure 191921DEST_PATH_IMAGE116
中第
Figure DEST_PATH_IMAGE293
个激活层,
Figure DEST_PATH_IMAGE295
为输入图像
Figure 890756DEST_PATH_IMAGE259
的尺寸。通过高层特征感知来重建图像,其内容和全局结构会被较好保留,但是颜色和纹理等风格特征将不复存在,即仅用特征重建损失监督风格迁移过程并不能做到与目标图像的完全匹配。因此,该算法还定义了风格重建损失,以对图像的颜色、纹理等风格进行约束。
定义格拉姆矩阵(Gram Matrix)
Figure DEST_PATH_IMAGE297
Figure DEST_PATH_IMAGE299
的矩阵,其数学表达式为:
Figure DEST_PATH_IMAGE301
(7)
其中,
Figure 886262DEST_PATH_IMAGE291
Figure DEST_PATH_IMAGE303
尺寸的
Figure DEST_PATH_IMAGE305
维度的特征,而
Figure 227638DEST_PATH_IMAGE297
则与
Figure 678211DEST_PATH_IMAGE305
维度的特征非中心协方差成比例。而风格重建损失是输出图像和目标图像的格拉姆矩阵之差的平方Frobenius范数,其数学表达式为:
Figure DEST_PATH_IMAGE307
(8)
可以看出,当目标图像
Figure DEST_PATH_IMAGE309
与输出图像
Figure DEST_PATH_IMAGE311
大小不同时,仍然能够很好地进行风格重建损失约束,因为其格拉姆矩阵值是不随图像尺寸变化的。同时,当需要从一组层,而非单一层中实现风格重建时,定义
Figure DEST_PATH_IMAGE313
Figure DEST_PATH_IMAGE315
的每一层损失之和。
除了上述2个感知损失函数,该算法还通过像素损失和全变差正则化损失对像素信息进行约束。像素损失是输出图和目标图之间标准化之差,对于
Figure DEST_PATH_IMAGE317
尺寸的输出图和目标图,其像素损失数学表达式为:
Figure DEST_PATH_IMAGE319
(9)
全变差正则化损失目的是为了使输出图像更为平滑,其数学表达式为:
Figure DEST_PATH_IMAGE321
(10)
式中,
Figure DEST_PATH_IMAGE323
是一阶梯度算子;
Figure DEST_PATH_IMAGE325
为全变差正则系数;
Figure 35813DEST_PATH_IMAGE259
Figure DEST_PATH_IMAGE327
分别为复原图像、模糊图像;
Figure DEST_PATH_IMAGE329
为复原核;
Figure DEST_PATH_IMAGE331
为数据保真项。
类静脉风格迁移实验
针对模拟类静脉数据与真实手背浅表静脉数据在分布上相似性有限,同时难以大批量制作获取的问题,拟通过类静脉风格迁移的方式使图像的视觉效果更接近真实手背浅表静脉。同时由于风格迁移对内容图中内容结构特征的不变性,使迁移后的数据同样具有对应的清晰参考图像,以能够被用于增强网络的训练。类静脉风格迁移即以真实手背浅表静脉图像为风格图,以模拟类静脉图像为内容图,通过风格迁移网络学习源域(模拟类静脉数据)和目标域(真手背浅表静脉数据)之间的特征映射关系的方法。
模拟类静脉数据集为退化和未退化的成对数据集,其中退化数据在采集时通过亚克力板以模拟一定程度的散射,而未退化数据为清晰的参考图像。在实验中应选择退化的模拟类静脉图像作为内容图,以实现在一定程度的散射等退化基础上进一步提高和真实手背浅表静脉数据的相似性。
本技术基于逐像素计算的Deep Image Analogy方法,和基于感知损失函数的快速方法Perceptual Losses for Real-Time Style Transfer and Super-Resolution,分别以退化的模拟类静脉数据为内容图,以纹理较为清晰、风格比较有代表性的真实手背浅表静脉数据为风格图进行实验。
基于逐像素计算的方法得到的风格迁移结果图在模拟类静脉图像的基础上,其边缘结构更加接近真实手背浅表静脉结构。真实手背浅表静脉由于凸起带来的静脉结构边缘的灰度渐变在风格迁移结果图上也有较为明显的表征。风格迁移整体的视觉效果比模拟类静脉图像更贴近目标图像,但生成图像的背景灰度值比较平均,没有真实手背浅表静脉图像的光照变化,显得略为生硬。
风格迁移结果图对于与风格图相似性的提升效果更为显著。真实手背浅表静脉图像的纹理细节和背景灰度变化都在风格迁移结果上得到很好的表征,同时真实手背浅表静脉由于凸起带来的静脉结构边缘的灰度渐变在该算法风格迁移结果图上也得到了更好的表现。
在计算速度上,逐像素计算的方法耗时较长,对一张结果图的生成平均耗时14分钟。而基于感知损失函数的快速方法对一批700张的内容图进行风格迁移仅需要12分钟,平均一张图的处理耗时在1s左右,速度大大提升。
随机化风格迁移实验
虽然类静脉风格迁移的方法可以较好地模拟真实手背浅表静脉,但是对风格图较为依赖,生成的图像细节纹理和光照分布等风格也都较为单一。受到Xiangyu Yue等人关于域随机化相关研究的启发,结合本文的增强网络模型泛化任务,提出重要猜想,即如果网络模型经过足够多样的风格迁移合成数据训练,将拥有和通过现实场景数据(真实手背浅表静脉数据)训练更为接近的泛化能力。这种随机化风格迁移的方式,能够充分利用风格迁移对不同场景的模拟潜力,通过混合多种随机化风格数据以摆脱网络模型对单一风格的模拟类静脉数据集以及类静脉风格迁移数据集的依赖。
域随机化(Domain Randomization,DR)是由托宾等人首次提出的,用于数据域适应的一类技术。该方法随机改变图像的纹理、背景的颜色、光照分布等情况,通过生成多种具有不同风格的合成数据来减小原始数据和多样化的真实场景之间的差异。
对于随机化风格迁移实验,以退化的模拟类静脉数据为内容图,以随机自然图像为风格图进行实验。由于基于感知损失函数的快速方法同时具有优秀的迁移效果和计算速度,因此对于需要多种风格和大批量数据处理的随机化风格迁移实验将继续选择该方法。
随机化风格迁移后的图像较好地引入了不同风格图的纹理、背景颜色等风格,同时保留了模拟类静脉图像的内容结构特征,有效生成了足够多样的合成数据。
将上述实验得到的类静脉风格迁移数据集和随机化风格迁移数据集作为增强网络模型的增广数据集用于网络训练。其数据总量由模拟类静脉数据训练集原有的700对提升至数万对,并且理论上没有数据量上限,这很好地解决了由于模拟类静脉数据采集的繁琐导致的模型训练集数据量缺少的问题。
模型泛化实验与分析
针对原图像增强网络模型在真实手背浅表静脉数据测试集上,容易对原本没有静脉结构的区域进行“误增强”的情况,本技术提出通过将类静脉风格迁移增广数据集和随机化风格迁移增广数据集作为训练集进行训练的方法,来实现增强网络模型的泛化能力提升,并通过实验和分析进行验证。
模型泛化实验方案
为了验证数据风格种类数量对模型泛化能力的影响,本技术采用类静脉风格迁移数据集和随机化风格迁移数据集,并在保持数据集数量一致的基础上,按照表1和表2所示,将两种风格迁移数据集以及原始模拟类静脉数据集进行分组合成。为了方便表达,本节将基于逐像素计算的风格迁移方法Deep Image Analogy简称为“迁移算法D”,将对应类静脉风格迁移数据简称为“D类静脉迁移数据”;将基于感知损失函数的快速风格迁移方法Perceptual Losses for Real-Time Style Transfer and Super-Resolution简称为“迁移算法P”,将对应类静脉风格迁移数据和随机化风格迁移数据分别简称为“P类静脉迁移数据”和“P随机化迁移数据”。
表1 类静脉风格迁移合成数据集
Figure DEST_PATH_IMAGE333
表2 随机化风格迁移合成数据集
Figure DEST_PATH_IMAGE335
实验结果与分析
为了验证通过风格迁移进行数据增广来提升模型泛化能力的方法有效性,实验中将通过不同组的风格迁移增广数据集训练的模型和原模型在测试集上进行测试,并对比分析。将各组模型在不同照度的测试集图像上得到的增强结果进行展示,并与测试原图、传统算法增强结果图和原模型增强结果图进行对比,如图11所示。
图11中,
Figure DEST_PATH_IMAGE337
为测试原图,
Figure DEST_PATH_IMAGE339
为第3章算法结果图,
Figure DEST_PATH_IMAGE341
为以原模拟类静脉数据训练的模型增强结果图,
Figure DEST_PATH_IMAGE343
为以数据集A训练的模型增强结果图,
Figure DEST_PATH_IMAGE345
为以数据集B训练的模型增强结果图,
Figure DEST_PATH_IMAGE347
为以数据集C训练的模型增强结果图,
Figure DEST_PATH_IMAGE349
为以数据集D训练的模型增强结果图,
Figure DEST_PATH_IMAGE351
为以数据集E训练的模型增强结果图,
Figure DEST_PATH_IMAGE353
为以数据集F训练的模型增强结果图,
Figure DEST_PATH_IMAGE355
为以数据集G训练的模型增强结果图。
定性评估:在类静脉风格迁移增广数据集对模型的泛化效果上,从上图中可以清晰地看出,通过2种类静脉风格迁移数据混合后增广的合成数据集进行训练的网络增强结果
Figure DEST_PATH_IMAGE357
明显优于通过单一类静脉风格迁移增广数据集进行训练的网络增强结果
Figure 921596DEST_PATH_IMAGE343
Figure 32159DEST_PATH_IMAGE345
。相比于通过原模拟类静脉数据集进行训练的网络增强结果
Figure 692948DEST_PATH_IMAGE341
,其对于原模型“误增强”静脉结构的情况在一定程度上进行了改善,但对于部分细小静脉和不同静脉相交的区域并未实现良好的增强效果。
这说明通过类静脉风格迁移进行数据增广的方式能够在一定程度上缓解模型对于原少量训练数据的过拟合问题,以避免出现对非静脉结构的错误增强。同时,类静脉风格迁移增广数据集的风格数量增加会带来模型泛化能力的提升。但由于类静脉风格迁移生成的图像细节纹理和光照分布等风格都较为单一,导致模型在一些细节区域未能实现有效增强,因此该方法对于模型泛化能力提升的效果是有限的。
而在随机化风格迁移增广数据集对模型的泛化效果上,不难发现,以5种随机化风 格迁移数据混合后增广的合成数据集进行训练的网络增强结果
Figure DEST_PATH_IMAGE359
对于模型的泛化效果相 当惊艳。其不仅避免了对非静脉结构的错误增强,同时还能对细小静脉结构和较为复杂的 静脉分布区域实现良好的增强效果。至于另外3种合成数据集,整体来看,通过7种随机化风 格迁移增广数据集训练的增强结果
Figure 631954DEST_PATH_IMAGE353
略优于通过10种随机化风格迁移增广数据集训练的 增强结果
Figure 782312DEST_PATH_IMAGE355
,而明显优于通过3种随机化风格迁移增广数据集训练的增强结果
Figure DEST_PATH_IMAGE361
。同时, 横向对比来看,
Figure DEST_PATH_IMAGE363
的增强效果介于
Figure 439559DEST_PATH_IMAGE353
Figure 966355DEST_PATH_IMAGE355
之间,
Figure DEST_PATH_IMAGE365
的增强效果则和
Figure DEST_PATH_IMAGE366
接近。
这说明在随机化风格迁移增广数据集中,风格数量的提升在前期对于模型泛化能力的提升是较为明显的。而在数据达到了一定风格多样性之后,在实验中为5种不同的随机风格,风格数量的提升反而会逐渐使模型出现一定程度的过拟合。并且随着风格数量的增加,其负向影响也随之逐渐增加。推测数据集在达到一定风格多样性之后,新引入的风格数据反倒会产生某种程度的语义相似性,而“相似数据”的增加会在一定程度上给网络带来对数据特征的过拟合问题。
定量评估:将上述各组模型得到的增强结果图基于信息熵、平均梯度和NIQE这3项无参考图像评价指标进行定量比较,结果如表3所示。
表3 各组模型增强结果图定量评估表
Figure DEST_PATH_IMAGE368
可以从表中看出,虽然各组增广数据集泛化模型的增强结果在信息熵和平均梯度两项指标上均低于原数据集,但NIQE指标有显著提升。结合图中的增强效果以及指标计算原理,推测一方面由于各组泛化模型均对“误增强”情况实现了改善,因此增强结果上这部分区域信息的减少会使信息熵和平均梯度值降低;另一方面,对于除了数据集E的其他增广数据集得到的模型增强结果,均出现未能对一些细节区域进行有效增强的情况,这也会使信息熵和平均梯度值降低。而数据集E对应的信息熵和平均梯度值在所有增广数据集中最高,结合图12中其泛化模型的优异增强效果,也可以在一定程度上论证上述推测。
总而言之,增强效果最优的增广数据集E得到的泛化模型,其增强结果对比原数据集,在信息熵和平均梯度上虽然略有下降,但反而在一定程度上说明了其对“误增强”情况的有效改善。同时其在NIQE指标上提升13%,说明该泛化模型得到的增强图像视觉效果更为自然。
最后,为了更好地展示风格迁移数据增广方式对模型泛化能力的提升,特别将上 述结果图中的原图(
Figure DEST_PATH_IMAGE370
组结果图)、传统增强算法结果图(
Figure DEST_PATH_IMAGE371
组结果图)、原模型增强结果图(
Figure DEST_PATH_IMAGE372
组结果图)以及视觉效果最好的以数据集
Figure DEST_PATH_IMAGE374
训练的增强结果图(
Figure DEST_PATH_IMAGE375
组结果图)进行对比展 示,并对重点关注的能够体现模型泛化能力提升的细节区域进行标示。如图12所示。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (4)

1.一种基于风格迁移数据增广的图像增强模型泛化方法,其特征在于:包括以下步骤:
步骤一:通过风格迁移算法对原始模拟类静脉数据进行风格迁移处理;
风格迁移处理采用基于类静脉风格迁移数据增广的模型泛化方案,采用2种风格迁移算法获得两种不同的类静脉风格迁移数据,而两种算法分别为基于逐像素计算的像素级的视觉属性迁移算法,和基于感知损失函数的快速方法;
或者风格迁移处理采用基于随机化风格迁移数据增广的模型泛化方案,采用基于感知损失函数的快速方法获得10种不同的随机化风格迁移数据;
所述像素级的视觉属性迁移算法为:给定的一组图像对
Figure 732189DEST_PATH_IMAGE001
Figure 383751DEST_PATH_IMAGE002
Figure 897909DEST_PATH_IMAGE001
提供语义和内容信息,
Figure 886593DEST_PATH_IMAGE002
则提供外观和细节信息,首先将
Figure 435386DEST_PATH_IMAGE001
Figure 992269DEST_PATH_IMAGE002
的特征图划分为固定大小的特征块,然后把特征块从
Figure 869090DEST_PATH_IMAGE002
映射到
Figure 536831DEST_PATH_IMAGE001
中与这个特征块最接近的位置进行替换,当每一个特征块足够小的时候,配合在替换操作后进行图像平滑操作,即相当于用
Figure 268027DEST_PATH_IMAGE002
的风格来表现
Figure 995812DEST_PATH_IMAGE001
,生成图像
Figure 359928DEST_PATH_IMAGE003
,完成风格迁移;实际在算法处理时,其过程为双向风格迁移,即将
Figure 565781DEST_PATH_IMAGE001
Figure 823587DEST_PATH_IMAGE002
作为输入,得到
Figure 846907DEST_PATH_IMAGE003
Figure 822953DEST_PATH_IMAGE004
,其中
Figure 832498DEST_PATH_IMAGE003
是以
Figure 85756DEST_PATH_IMAGE001
为内容图,
Figure 889763DEST_PATH_IMAGE002
为风格图的风格迁移结果,而
Figure 353106DEST_PATH_IMAGE004
是以
Figure 290975DEST_PATH_IMAGE002
为内容图,
Figure 523373DEST_PATH_IMAGE001
为风格图的风格迁移结果,具体处理过程为:
首先对VGG19网络进行预训练,并将每个卷积块中第一个卷积层后面的ReLU激活层输出,也就是ReLU-
Figure 763862DEST_PATH_IMAGE005
,ReLU-
Figure 338935DEST_PATH_IMAGE006
Figure 690282DEST_PATH_IMAGE007
,ReLU-
Figure 777187DEST_PATH_IMAGE008
Figure 578790DEST_PATH_IMAGE009
,以作为不同层级的特征,根据上述假设
Figure 751145DEST_PATH_IMAGE001
Figure 640604DEST_PATH_IMAGE003
Figure 722960DEST_PATH_IMAGE004
Figure 570831DEST_PATH_IMAGE002
的最高层特征相等,即:
Figure 230482DEST_PATH_IMAGE010
(1)
然后在通过反卷积来重建
Figure 48265DEST_PATH_IMAGE003
Figure 844183DEST_PATH_IMAGE004
的过程中,为了融入
Figure 862955DEST_PATH_IMAGE001
Figure 619689DEST_PATH_IMAGE002
的特征,即风格图特征,当前层特征图不直接通过更高层特征图反卷积求得,而是通过设置权重参数
Figure 382109DEST_PATH_IMAGE011
来控制
Figure 298112DEST_PATH_IMAGE003
Figure 81261DEST_PATH_IMAGE001
以及
Figure 715504DEST_PATH_IMAGE002
Figure 16036DEST_PATH_IMAGE004
的相似程度并逐步进行重建计算,其中
Figure 661912DEST_PATH_IMAGE012
的初始值是手动设定的,而且在每一次计算当前层特征图时都会根据层数对
Figure 491327DEST_PATH_IMAGE012
做出修正,使
Figure 612867DEST_PATH_IMAGE013
随着
Figure 841723DEST_PATH_IMAGE014
的下降而下降,进而在高层抽象特征上更多地参考风格图,在像素细节上更多地参考内容图,以
Figure 201160DEST_PATH_IMAGE003
的重建为例,计算数学表达式为:
Figure 732636DEST_PATH_IMAGE015
(2)
其中,
Figure 948329DEST_PATH_IMAGE016
Figure 590663DEST_PATH_IMAGE017
反卷积的结果,
Figure 335765DEST_PATH_IMAGE018
Figure 162776DEST_PATH_IMAGE019
为了在结构上匹配
Figure 727749DEST_PATH_IMAGE020
进行变形的结果,
Figure 173774DEST_PATH_IMAGE019
变形的依据是对
Figure 648749DEST_PATH_IMAGE020
Figure 256448DEST_PATH_IMAGE019
在双重约束条件下执行最近邻区域搜索后,根据搜索结果进行的匹配;
而在式(2)中,
Figure 574297DEST_PATH_IMAGE021
越大则会使
Figure 683067DEST_PATH_IMAGE022
具有更多
Figure 137182DEST_PATH_IMAGE020
的内容结构和更少
Figure 181361DEST_PATH_IMAGE019
的细节特征,其数学表达式为:
Figure 596293DEST_PATH_IMAGE023
(3)
其中,
Figure 384121DEST_PATH_IMAGE024
就是
Figure 817376DEST_PATH_IMAGE025
归一化后经过Sigmoid函数计算得到,其数学表达式为:
Figure 32457DEST_PATH_IMAGE026
(4)
其中,
Figure 793739DEST_PATH_IMAGE027
因此,
Figure 260624DEST_PATH_IMAGE003
Figure 689331DEST_PATH_IMAGE004
的重建包含3个过程:首先将最高层的特征进行映射,然后通过反卷积得到下一层的特征,最后进行引入权重参数的特征融合重建;
步骤二:将风格迁移处理后的数据集与原始模拟类静脉数据集进行合成,得到风格迁移增广数据集;
步骤三:将风格迁移增广数据集作为图像增强网络的训练集进行训练,得到图像增强网络的泛化模型;
步骤四:将泛化模型在测试集上进行测试,并分析模型泛化效果。
2.根据权利要求1所述的基于风格迁移数据增广的图像增强模型泛化方法,其特征在于:设基于逐像素计算的像素级的视觉属性迁移算法获得的类静脉风格迁移数据为A1,基于感知损失函数的快速方法获得的类静脉风格迁移数据为A2,
所述步骤二中的将风格迁移处理后的数据集与原始模拟类静脉数据集进行合成具体为:类静脉风格迁移数据为A1与原始模拟类静脉数据合成,类静脉风格迁移数据为A2与原始模拟类静脉数据合成,或者类静脉风格迁移数据为A1和类静脉风格迁移数据为A2同时与原始模拟类静脉数据合成。
3.根据权利要求1所述的基于风格迁移数据增广的图像增强模型泛化方法,其特征在于:选取所述10种不同的随机化风格迁移数据中的3、5、7、10种随机化风格数据与原始模拟类静脉数据合成。
4.根据权利要求1所述的基于风格迁移数据增广的图像增强模型泛化方法,其特征在于:所述基于感知损失函数的快速方法包括一个图片转换网络
Figure 809734DEST_PATH_IMAGE028
和一个用于定义一系列损失函数
Figure 714105DEST_PATH_IMAGE029
的损失网络
Figure 843735DEST_PATH_IMAGE030
,具体运算过程为:
图片转换网络是一个深度残差网络,参数权重为
Figure 126949DEST_PATH_IMAGE012
,能够将输入的图片
Figure 562128DEST_PATH_IMAGE031
通过
Figure 563582DEST_PATH_IMAGE032
的映射转换成输出图片
Figure 231324DEST_PATH_IMAGE033
,每个损失函数计算一个标量值
Figure 493678DEST_PATH_IMAGE034
以衡量输出的
Figure 487042DEST_PATH_IMAGE033
和目标图像
Figure 710213DEST_PATH_IMAGE035
之间的差距,图片转换网络通过随机梯度下降的方式最小化加权损失函数,其数学表达式为:
Figure 57011DEST_PATH_IMAGE036
(5)
图片转换网络使用步幅卷积或微步幅卷积进行上采样或者下采样操作,以替换常规的池化层结构,图片转换网络由5个残差块组成,其中除了最后的输出层,所有非残差卷积层都与批归一化层和RELU激活函数层相连,而输出层则通过Tanh激活函数层来确保输出图像的像素在
Figure 314817DEST_PATH_IMAGE037
之间,图片转换网络第1层和最后的输出层使用
Figure 213503DEST_PATH_IMAGE038
的卷积核,而其他的卷积层都使用
Figure 48604DEST_PATH_IMAGE039
的卷积核;
损失网络
Figure 58148DEST_PATH_IMAGE030
用于定义特征重建损失
Figure 436040DEST_PATH_IMAGE040
和风格重建损失
Figure 380993DEST_PATH_IMAGE041
,以衡量内容和风格上的差距,对于每一张输入的图片
Figure 844336DEST_PATH_IMAGE031
,都有内容目标
Figure 391992DEST_PATH_IMAGE042
和风格目标
Figure 749024DEST_PATH_IMAGE043
,对于风格迁移任务而言,理想的输出图像应该满足内容的一致性,即
Figure 723933DEST_PATH_IMAGE044
,同时将风格目标
Figure 674572DEST_PATH_IMAGE043
融合进来;
该算法定义了特征重建损失和风格重建损失2个感知损失函数,用于衡量两张图片之间高层特征的感知和语义的差别,其中,特征重建损失不采用逐像素计算的方式,而是使用VGG网络来计算来高层特征的表示,其数学表达式为:
Figure 166864DEST_PATH_IMAGE045
(6)
式(6)中,
Figure 253769DEST_PATH_IMAGE046
表示以
Figure 665158DEST_PATH_IMAGE031
为输入的损失网络
Figure 962148DEST_PATH_IMAGE030
中第
Figure 851606DEST_PATH_IMAGE047
个激活层,
Figure 58597DEST_PATH_IMAGE048
为输入图像
Figure 513324DEST_PATH_IMAGE031
的尺寸;
通过高层特征感知来重建图像,其内容和全局结构会被较好保留,但是颜色和纹理等风格特征将不复存在,即仅用特征重建损失监督风格迁移过程并不能做到与目标图像的完全匹配,因此,该算法还定义了风格重建损失,以对图像的颜色、纹理等风格进行约束,
定义格拉姆矩阵
Figure 907396DEST_PATH_IMAGE049
Figure 866125DEST_PATH_IMAGE050
的矩阵,其数学表达式为:
Figure 52256DEST_PATH_IMAGE051
(7)
其中,
Figure 805448DEST_PATH_IMAGE046
Figure 952396DEST_PATH_IMAGE052
尺寸的
Figure 59023DEST_PATH_IMAGE053
维度的特征,而
Figure 975027DEST_PATH_IMAGE049
则与
Figure 164699DEST_PATH_IMAGE053
维度的特征非中心协方差成比例,而风格重建损失是输出图像和目标图像的格拉姆矩阵之差的平方Frobenius范数,其数学表达式为:
Figure 657998DEST_PATH_IMAGE054
(8)
当目标图像
Figure 958529DEST_PATH_IMAGE055
与输出图像
Figure 729039DEST_PATH_IMAGE056
大小不同时,仍然能够很好地进行风格重建损失约束,因为其格拉姆矩阵值是不随图像尺寸变化的,同时,当需要从一组层,而非单一层中实现风格重建时,定义
Figure 699400DEST_PATH_IMAGE057
Figure 820940DEST_PATH_IMAGE058
的每一层损失之和;
除了上述2个感知损失函数,该算法还通过像素损失和全变差正则化损失对像素信息进行约束,像素损失是输出图和目标图之间标准化之差,对于
Figure 659583DEST_PATH_IMAGE059
尺寸的输出图和目标图,其像素损失数学表达式为:
Figure 409233DEST_PATH_IMAGE060
(9)
全变差正则化损失目的是为了使输出图像更为平滑,其数学表达式为:
Figure 940709DEST_PATH_IMAGE061
(10)
式中,
Figure 893752DEST_PATH_IMAGE062
是一阶梯度算子;
Figure 801665DEST_PATH_IMAGE063
为全变差正则系数;
Figure 546767DEST_PATH_IMAGE031
Figure 249144DEST_PATH_IMAGE064
分别为复原图像、模糊图像;
Figure 938752DEST_PATH_IMAGE066
为复原核;
Figure DEST_PATH_IMAGE067
为数据保真项。
CN202210496594.4A 2022-05-09 2022-05-09 基于风格迁移数据增广的图像增强模型泛化方法 Active CN114581356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210496594.4A CN114581356B (zh) 2022-05-09 2022-05-09 基于风格迁移数据增广的图像增强模型泛化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210496594.4A CN114581356B (zh) 2022-05-09 2022-05-09 基于风格迁移数据增广的图像增强模型泛化方法

Publications (2)

Publication Number Publication Date
CN114581356A CN114581356A (zh) 2022-06-03
CN114581356B true CN114581356B (zh) 2022-10-11

Family

ID=81769133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210496594.4A Active CN114581356B (zh) 2022-05-09 2022-05-09 基于风格迁移数据增广的图像增强模型泛化方法

Country Status (1)

Country Link
CN (1) CN114581356B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187591B (zh) * 2022-09-08 2023-04-18 深圳市资福医疗技术有限公司 一种病灶检测方法、系统、设备及存储介质
CN115511700B (zh) * 2022-09-15 2024-03-05 南京栢拓视觉科技有限公司 一种精细化高质量效果的材质风格迁移系统
CN115641253B (zh) * 2022-09-27 2024-02-20 南京栢拓视觉科技有限公司 一种面向内容美学质量提升的材料神经风格迁移方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470187A (zh) * 2018-02-26 2018-08-31 华南理工大学 一种基于扩充训练数据集的类别不平衡问题分类方法
CN110675335B (zh) * 2019-08-31 2022-09-06 南京理工大学 基于多分辨率残差融合网络的浅表静脉增强方法

Also Published As

Publication number Publication date
CN114581356A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN114581356B (zh) 基于风格迁移数据增广的图像增强模型泛化方法
Wang et al. UIEC^ 2-Net: CNN-based underwater image enhancement using two color space
CN110378985B (zh) 一种基于gan的动漫绘画辅助创作方法
CN111242841B (zh) 一种基于语义分割和深度学习的图片背景风格迁移方法
CN108875935B (zh) 基于生成对抗网络的自然图像目标材质视觉特征映射方法
CN110097609B (zh) 一种基于样本域的精细化绣花纹理迁移方法
Žeger et al. Grayscale image colorization methods: Overview and evaluation
Fu et al. DSAGAN: A generative adversarial network based on dual-stream attention mechanism for anatomical and functional image fusion
CN112163401B (zh) 基于压缩与激励的gan网络的汉字字体生成方法
CN110852935A (zh) 一种人脸图像随年龄变化的图像处理方法
CN113724354B (zh) 基于参考图颜色风格的灰度图像着色方法
Jiang et al. A novel super-resolution CT image reconstruction via semi-supervised generative adversarial network
Huang et al. A fully-automatic image colorization scheme using improved CycleGAN with skip connections
CN115761791A (zh) 基于2d图像的人体语义预测模块、虚拟换衣模型及方法
Qu et al. UMLE: unsupervised multi-discriminator network for low light enhancement
Xu et al. Fully automatic image colorization based on semantic segmentation technology
Han et al. Normalization of face illumination with photorealistic texture via deep image prior synthesis
Kania et al. Blendfields: Few-shot example-driven facial modeling
CN115018729B (zh) 一种面向内容的白盒图像增强方法
Chiu et al. Real-time monocular depth estimation with extremely light-weight neural network
CN113111906B (zh) 一种基于单对图像训练的条件生成对抗网络模型的方法
Liu et al. Learning with Constraint Learning: New Perspective, Solution Strategy and Various Applications
Huang et al. DeeptransMap: a considerably deep transmission estimation network for single image dehazing
Zhang et al. Supplementary meta-learning: Towards a dynamic model for deep neural networks
KT et al. A flexible neural renderer for material visualization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant