CN114757819A - 一种结构引导的风格偏差校正型风格迁移方法及系统 - Google Patents

一种结构引导的风格偏差校正型风格迁移方法及系统 Download PDF

Info

Publication number
CN114757819A
CN114757819A CN202210403483.4A CN202210403483A CN114757819A CN 114757819 A CN114757819 A CN 114757819A CN 202210403483 A CN202210403483 A CN 202210403483A CN 114757819 A CN114757819 A CN 114757819A
Authority
CN
China
Prior art keywords
style
dimensional feature
feature vector
characteristic
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210403483.4A
Other languages
English (en)
Inventor
毛琳
王萌
杨大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Minzu University filed Critical Dalian Minzu University
Priority to CN202210403483.4A priority Critical patent/CN114757819A/zh
Publication of CN114757819A publication Critical patent/CN114757819A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种结构引导的风格偏差校正型风格迁移方法及系统,属于深度学习风格迁移领域。为实现风格特征精确映射,本发明提出结构引导模块,包含特征优化单元和风格校正单元。特征优化单元利用网络深度提取能力保证单特征通道风格特征完整传递和精确分类,风格校正单元为语义形式的风格特征增添空间结构位置信息,借助注意力分组交互方式将风格语义与内容结构重新匹配,为后续寻找合适的风格和内容表达提供帮助。将赋予了空间结构信息的风格特征与特征优化单元处理的风格特征相乘,校准风格特征映射偏差。本发明适用于自动驾驶、安防监控等领域。

Description

一种结构引导的风格偏差校正型风格迁移方法及系统
技术领域
本发明涉及深度学习风格迁移技术领域,具体涉及一种结构引导的风格偏差校正型风格迁移方法及系统。
背景技术
随着自动驾驶和工业、服务机器人领域迅速发展,作为自动驾驶和路径规划感知系统必不可少的风格迁移技术成为当前研究热点之一。硬件方面,自动驾驶系统大多依靠雷达、红外相机等设备提升系统行车周边环境感知能力,但其成本较高,且小目标及高速运动目标定位和预测不精确;软件方面,现有风格迁移方法大多通过加深加宽网络或改进损失函数来提升其性能,但在训练过程难以保证风格精确变换,容易产生风格映射偏差,影响自动驾驶系统判断道路信息的准确性,诱发交通事故。
现有风格迁移方法大多基于生成对抗网络并结合编解码结构实现,利用编码器同步提取内容特征和风格特征,将两种特征直接输入解码器进行解码,同时从颜色、内容、平滑度等角度设计相关损失函数以监督网络获得风格化结果。具体来说,风格迁移网络的目标分为两类:保证内容特征传递一致性和风格特征精确变换。
内容特征一致传递方面,公开号为CN107705242B的发明专利中集合深度感知网络在目标损失函数中添加景深损失,对原图与生成的风格图像的景深进行估计。在风格迁移的过程中,生成图像不仅融合了相应的风格和内容,还保持原图的远近结构信息。名称为基于均值标准差的图像迁移方法,公开号为CN13837926A的发明专利申请中构造了特征空间来存储不同滤波器的特征信息,从而更好地获得多尺度和稳定的特征,不需要对真实数据进行训练,能够灵活进行风格变换。
风格特征精确变换方面,名称为一种基于潜变量特征生成的图像多风格转化方法,公开号为CN11099225A的发明专利申请在多模态无监督图像转换网络基础上,设计风格编码生成器对图像的风格编码进行拟合,同时在内容编码和风格编码之间引入跳跃连接,在风格编码中引入注意力机制,提高了图像多风格转换的质量和多样性。名称为“训练GAN来解释风格空间中的分类器”的文章发现图像分类模型可以依赖于图像的多个不同的语义属性,它通过训练生成模型来决策风格特征的特定属性生成,能够完成细节纹理及边缘轮廓信息的精确传递。名称为“多领域图像翻译的统一框架生成对抗网络”的文章提出一种掩码向量方法,使其能够控制所有可用的域标签,从而指导内容和风格特征的精确传递。在其基础上,名称为“多领域多种图像合成网络”的文章,将域标签用特定域的风格特征代替,实现风格的多样性和可扩展性。
上述风格迁移方法大多在封闭环境下依据网络自身性能进行训练,或为特征赋予独立标签,在训练过程中难以避免不同目标属性、外部标签等各种混淆因子的影响,导致网络实际输出与理论输出存在偏差。因此,如何有效利用图像中提取出的深度特征,保证风格迁移过程内容一致、风格精确变换,并将其更好的应用于交通场景及工业场景成为一个亟待解决的问题。
发明内容
本发明的目的在于,提供一种结构引导的风格偏差校正型风格迁移方法及系统,通过空间注意力方式将风格特征生成的带噪属性分为多个组别,在不同组和同一组之间分别进行信息交换,弱化噪声,并为风格特征添加与内容特征相似的空间结构属性,指导风格特征精确变换,降低特征传递过程中的映射偏差,能够有效实现图像内容一致的风格迁移。
为实现上述目的,本发明的技术方案为:一种结构引导的风格偏差校正型风格迁移方法,包括:
准备训练风格迁移网络的数据集;
获取特征通道为c的目标域输入图像
Figure BDA0003601291420000021
和源域输入图像
Figure BDA0003601291420000022
分别对其进行包含卷积和非线性激活函数处理的下采样操作,得到四维特征向量
Figure BDA0003601291420000023
Figure BDA0003601291420000024
使用多层残差单元和双金字塔网络处理源域输入图像
Figure BDA0003601291420000025
的下采样结果
Figure BDA0003601291420000026
得到内容特征向量
Figure BDA0003601291420000027
对目标域输入图像
Figure BDA0003601291420000028
的下采样结果
Figure BDA0003601291420000029
采用全局平均池化函数处理,得到四维特征向量
Figure BDA00036012914200000210
对所述四维特征向量
Figure BDA00036012914200000211
使用全连接函数处理,得到四维特征向量
Figure BDA00036012914200000212
所述四维特征向量
Figure BDA00036012914200000213
依次经过残差金字塔、深度卷积神经网络、信息交换、点卷积神经网络处理,得到四维特征向量
Figure BDA00036012914200000214
将所述四维特征向量
Figure BDA00036012914200000215
和四维特征向量
Figure BDA00036012914200000216
相乘,生成四维特征向量Y1 c ×h×w,实现风格特征中目标属性的重新分配,校正特征映射偏差;
对所述四维特征向量Y1 c×h×w进行结构正弦归一化处理,得到风格特征向量
Figure BDA00036012914200000217
将所述内容特征向量
Figure BDA00036012914200000218
和风格特征向量
Figure BDA00036012914200000219
相加融合得到四维特征向量
Figure BDA00036012914200000220
然后进行上采样输出风格迁移结果Yc×2h×2w
进一步的,对目标域输入图像
Figure BDA00036012914200000221
和源域输入图像
Figure BDA00036012914200000222
进行下采样操作,具体为:
使用卷积核Mc×3×3提取所述目标域输入图像
Figure BDA00036012914200000223
中的风格特征
Figure BDA00036012914200000224
和所述源域输入图像
Figure BDA00036012914200000225
中的内容特征
Figure BDA00036012914200000226
公式为:
Figure BDA00036012914200000227
Figure BDA0003601291420000031
其中
Figure BDA0003601291420000032
为卷积过程,每个矩阵表示一个3×3大小的特征向量;
将输出的特征向量
Figure BDA0003601291420000033
Figure BDA0003601291420000034
使用非线性激活函数处理,当激活处理的特征值小于或等于0时,激活函数输出值为0,如公式(3);反之,激活函数输出值与输入值相同时,如式(4)所示:
Figure BDA0003601291420000035
Figure BDA0003601291420000036
其中,函数A(·)为激活函数。
进一步的,使用多层残差单元和双金字塔网络处理源域输入图像
Figure BDA0003601291420000037
的下采样结果
Figure BDA0003601291420000038
具体为:
使用多层残差单元处理四维特征向量
Figure BDA0003601291420000039
并输出四维特征向量
Figure BDA00036012914200000310
公式为:
Figure BDA00036012914200000311
Figure BDA00036012914200000312
其中,F(·)为单层残差单元过程函数,ω3为权值矩阵;
使用双金字塔网络处理四维特征向量
Figure BDA00036012914200000313
并输出内容特征向量
Figure BDA00036012914200000314
公式为:
Figure BDA00036012914200000315
其中,Fh(·)为双金字塔网络过程函数。
进一步的,对目标域输入图像
Figure BDA00036012914200000316
的下采样结果
Figure BDA00036012914200000317
采用全局平均池化函数处理,得到四维特征向量
Figure BDA00036012914200000318
对所述四维特征向量
Figure BDA00036012914200000319
使用全连接函数处理,得到四维特征向量
Figure BDA00036012914200000320
具体为:
使用全局平均池化对每一单位特征均值化处理,获得四维特征向量
Figure BDA00036012914200000321
公式为:
Figure BDA0003601291420000041
其中,Paverage(·)为全局平均池化函数,Mc×2×2为滤波器k=2的卷积核对特征逐像素操作,选取平均值并输出;
对四维特征向量
Figure BDA0003601291420000042
使用全连接函数逐个特征通道进行处理,得到四维特征向量
Figure BDA0003601291420000043
公式为:
Figure BDA0003601291420000044
其中,Cfully(·)为全连接函数,选用Mc×1×1即滤波器k=1的卷积核进行操作。
进一步的,所述四维特征向量
Figure BDA0003601291420000045
依次经过残差金字塔、深度卷积神经网络、信息交换、点卷积神经网络处理,得到四维特征向量
Figure BDA0003601291420000046
具体为:
通过残差金字塔处理四维特征向量
Figure BDA0003601291420000047
并得到四维特征向量
Figure BDA0003601291420000048
公式为:
Figure BDA0003601291420000049
Figure BDA00036012914200000410
其中,Frp(·)为残差金字塔过程函数,ω4为权值矩阵;
使用深度卷积神经网络将四维特征向量
Figure BDA00036012914200000411
按照特征通道均匀分为p条支路(p≤c),得到每一特征通道的特征分量
Figure BDA00036012914200000412
公式如下:
Figure BDA00036012914200000413
其中,Fdeep(·)为深度卷积神经网络过程函数;
在每一支路上分为q组进行随机信息交换,打乱不同通道间信息的固有顺序,输出特征分量
Figure BDA00036012914200000414
公式如下:
Figure BDA00036012914200000415
其中,Shuffle(·)为信息交换函数;
使用点卷积神经网络对分组交换后的特征向量进行合并,得到四维特征向量
Figure BDA00036012914200000416
所述点卷积神经网络在合并过程中会随机删除部分神经元,公式如下:
Figure BDA0003601291420000051
其中,Dran为随机删除函数,m为随机删除神经元比例;
Figure BDA0003601291420000052
其中,Fpoi(·)为点卷积神经网络过程函数,使用Mc×1×1形式的点卷积神经网络处理特征向量。
更进一步的,将所述四维特征向量
Figure BDA0003601291420000053
和四维特征向量
Figure BDA0003601291420000054
相乘,生成四维特征向量Y1 c×h×w,具体为:
Figure BDA0003601291420000055
其中,
Figure BDA0003601291420000056
Figure BDA0003601291420000057
为权值矩阵,×表示特征矩阵相乘。
更进一步的,对所述四维特征向量Y1 c×h×w进行结构正弦归一化处理,得到风格特征向量
Figure BDA0003601291420000058
公式为:
Figure BDA0003601291420000059
其中,sinIN(·)为结构正弦归一化过程函数,μ(x)和μ(y)分别为特征向量长和宽维度上的均值,σ(x)和σ(y)分别为四维特征向量长和宽维度上的标准差。
本发明还提供一种结构引导的风格偏差校正型风格迁移系统,包括编码模块、结构引导模块和解码模块;
所述编码模块包括风格编码模块和内容编码模块,所述风格编码模块对目标域输入图像
Figure BDA00036012914200000510
执行下采样操作,得到四维特征向量
Figure BDA00036012914200000511
所述内容编码模块依次使用下采样、残差单元、双金字塔网络处理源域输入图像
Figure BDA00036012914200000512
得到内容特征向量
Figure BDA00036012914200000513
所述结构引导模块包括特征优化单元和风格校正单元,所述特征优化单元对四维特征向量
Figure BDA00036012914200000514
采用全局平均池化函数处理,得到四维特征向量
Figure BDA00036012914200000515
再对所述四维特征向量
Figure BDA00036012914200000516
使用全连接函数处理,得到四维特征向量
Figure BDA00036012914200000517
所述风格校正单元对四维特征向量
Figure BDA00036012914200000518
依次经过残差金字塔、深度卷积神经网络、信息交换、点卷积神经网络处理,得到四维特征向量
Figure BDA00036012914200000519
将所述四维特征向量
Figure BDA00036012914200000520
和四维特征向量
Figure BDA00036012914200000521
按固定的比例ω1和ω2相乘,得到四维特征向量Y1 c×h×w,对所述四维特征向量Y1 c×h×w进行结构正弦归一化处理,得到风格特征向量
Figure BDA0003601291420000061
所述解码模块将内容特征向量
Figure BDA0003601291420000062
和风格特征向量
Figure BDA0003601291420000063
相加融合得到四维特征向量
Figure BDA0003601291420000064
然后进行上采样输出风格迁移结果Yc×2h×2w
进一步的,所述结构引导模块表达为:
Figure BDA0003601291420000065
其中Fopt(x)为特征优化单元过程函数,Fs(x)为风格校正单元过程。
本发明由于采用以上技术方案,能够取得如下有益效果:可应用于自动驾驶、工业及服务型机器人等现实场景中,实现任意天气及环境场景的风格变换,并为精确识别小目标及模糊目标提供帮助。下面对本发明的有益效果分点列举介绍:
(1)适用于小目标特征情况
本发明中的风格校正单元能够精确分离出图像中的任意风格及天气信息,充分挖掘深度特征,在无监督情况下保证任意天气、任意场景风格的精确变换,大大提高小目标特征的识别精度,为行车安全提供保障。
(2)适用于高速运动目标特征情况
本发明使用特征优化单元和风格校正单元分别提取输入图像中的内容特征和目标属性,依据提取出的风格属性校正风格映射偏差,有效改善因目标高速运动产生的模糊现象,实现高速运动目标的提取工作。
(3)适用于公共安防监控系统
本发明针对安防监控摄像头获取的任意光照强度图像在保证内容特征一致的情况下,能够从全局和局部两个层面实现风格特征精确变换。极大程度地提升安防监控对于复杂场景的适应能力,为生产生活提供有效的安全保障。
(4)适用于自主驾驶技术
本发明为计算机视觉环境感知技术,适用于自动驾驶领域,能够对行车环境周围的行人、车辆、建筑、交通标识等目标特征和位置进行提取,为风格迁移模型提供全面的特征信息,为行车安全提供有力保障。
(5)适用于视觉不清晰情况
本发明适用于不同复杂场景风格迁移情况,对不同曝光度和清晰度的相机镜头获取的基于红外和可见光条件下视觉不清晰目标特征进行恢复,提升图像清晰度后对其进行风格迁移。
附图说明
图1是结构引导的风格偏差校正型风格迁移方法流程框图;
图2是结构引导模块结构示意图;
图3是实施例1中安防监控风格迁移情况示意图;
图4是实施例2中自主驾驶风格迁移情况示意图;
图5是实施例3中视觉模糊场景风格迁移情况示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请,即所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
本发明提出一种结构引导的风格偏差校正型风格迁移方法及系统,并设计了结构引导模块:一是通过加深网络增强对于深度特征提取能力,保证风格迁移过程中图像风格特征完整性,降低特征冗余;二是将风格语义特征扩充为空间信息表达,主通道分批次进行多次交互,增强不同通道特征关联,为每一风格特征增添一个正确的内容表达属性,改善特征传递过程中目标属性与风格填充不匹配的现象,保证风格特征精确变换。如图1所示,具体迁移方法实施步骤如下:
第1步:准备训练风格迁移网络的数据集,所述数据集尺寸可以为2h×2w;
第2步:获取特征通道为c的目标域输入图像
Figure BDA0003601291420000071
和源域输入图像
Figure BDA0003601291420000072
分别对其进行包含卷积和非线性激活函数处理的下采样操作,输出四维特征向量
Figure BDA0003601291420000073
Figure BDA0003601291420000074
具体为:
(1)使用步长s=2,滤波器k=3的卷积核Mc×3×3提取所述目标域输入图像
Figure BDA0003601291420000075
中的风格特征
Figure BDA0003601291420000076
和所述源域输入图像
Figure BDA0003601291420000077
中的内容特征
Figure BDA0003601291420000078
公式为:
Figure BDA0003601291420000079
Figure BDA00036012914200000710
其中
Figure BDA00036012914200000711
为卷积过程,每个矩阵表示一个3×3大小的特征向量;
(2)将输出的特征向量
Figure BDA00036012914200000712
Figure BDA00036012914200000713
使用非线性激活函数处理,当激活处理的特征值小于或等于0时,激活函数输出值为0,如式(3)所示;反之,激活函数输出值与输入值相同时,如式(4)所示:
Figure BDA00036012914200000714
Figure BDA00036012914200000715
其中,函数A(·)为激活函数,采用激活函数对特征向量进行非线性处理可以提升特征向量的有效性并降低特征冗余,为实现风格精确的风格迁移提供帮助。
第3步:为降低内容特征冗余性,使用多层(可以优选为4层)残差单元和双金字塔网络处理所述四维特征向量
Figure BDA0003601291420000081
保证风格迁移过程中图像内容完整,具体为:
(1)使用多层残差单元处理
Figure BDA0003601291420000082
并输出四维特征向量
Figure BDA0003601291420000083
公式为:
Figure BDA0003601291420000084
Figure BDA0003601291420000085
其中,F(·)为单层残差单元过程函数,ω3为权值矩阵;
(2)使用双金字塔网络处理四维特征向量
Figure BDA0003601291420000086
并输出四维特征向量
Figure BDA0003601291420000087
增强对多尺度目标的提取和感知能力,公式为:
Figure BDA0003601291420000088
其中,Fh(·)为双金字塔网络过程函数;
第4步:特征优化单元输入为目标域输入图像
Figure BDA0003601291420000089
的下采样结果
Figure BDA00036012914200000810
采用全局平均池化和全连接函数依次处理,保证风格特征完整传递,具体为:
(1)使用全局平均池化对每一单位特征均值化处理,获得四维特征向量
Figure BDA00036012914200000811
公式为:
Figure BDA00036012914200000812
其中,Paverage(·)为全局平均池化函数,Mc×2×2为k=2的卷积核对特征逐像素操作,选取平均值并输出;
(2)对
Figure BDA00036012914200000813
使用全连接函数逐个特征通道进行处理,降低像素和特征位置对特征分类的影响,输出四维特征向量
Figure BDA00036012914200000814
公式为:
Figure BDA00036012914200000815
其中,Cfully(·)为全连接函数,选用Mc×1×1即滤波器k=1的卷积核进行操作;
第5步:风格校正单元输入为
Figure BDA00036012914200000816
经过下采样和全局平均池化输出的四维特征向量
Figure BDA00036012914200000817
所述四维特征向量
Figure BDA00036012914200000818
依次经过残差金字塔、深度卷积神经网络、信息交换、点卷积神经网络处理,输出四维特征向量
Figure BDA0003601291420000091
在网络训练过程中介入反思机制,为语义形式的风格特征提供空间信息,增强其对三维目标的空间感知能力,具体为:
(1)为增强风格特征对于多尺度目标属性的读取,本发明设计残差金字塔处理四维特征向量
Figure BDA0003601291420000092
并输出四维特征向量
Figure BDA0003601291420000093
公式为:
Figure BDA0003601291420000094
Figure BDA0003601291420000095
其中,Frp(·)为残差金字塔过程函数,ω4为权值矩阵。;
(2)使用深度卷积神经网络将
Figure BDA0003601291420000096
按照特征通道均匀分为p条支路(p≤c),得到每一特征通道的特征分量
Figure BDA0003601291420000097
公式如下:
Figure BDA0003601291420000098
其中,Fdeep(·)为深度卷积神经网络过程函数;
(3)在每一支路上分为q组进行随机信息交换,打乱不同通道间信息的固有顺序,输出特征分量
Figure BDA0003601291420000099
公式如下:
Figure BDA00036012914200000910
其中,Shuffle(·)为信息交换函数,将每一支路上的通道特征分为q组,在每一组之间和不同组之间随机打乱顺序,以谋求新的风格与属性匹配关系;
(4)使用点卷积神经网络对分组交换后的特征向量进行合并,输出风格校正单元结果
Figure BDA00036012914200000911
不同特征通道间特征重组融合,为内容特征精确传递提供更大可能。点卷积神经网络在合并过程中会随机删除部分神经元,公式如下:
Figure BDA00036012914200000912
其中,Dran为随机删除函数,m为随机删除神经元比例,该操作可防止网络出现过拟合现象;
Figure BDA00036012914200000913
其中,Fpoi(·)为点卷积神经网络过程函数,使用Mc×1×1形式的点卷积神经网络处理特征向量;
第6步:将第4步输出
Figure BDA00036012914200000914
和第5步输出
Figure BDA00036012914200000915
相乘,生成四维特征向量Y1 c×h×w,实现风格特征中目标属性的重新分配,校正特征映射偏差,公式为:
Figure BDA0003601291420000101
其中,
Figure BDA0003601291420000102
Figure BDA0003601291420000103
为权值矩阵,×表示特征矩阵相乘;
第7步:为改变风格特征数据分布,实现精确的风格特征传递。本发明对特征向量Y1 c×h×w进行结构正弦归一化处理,抑制与风格无关的特征信息,输出四维特征向量
Figure BDA0003601291420000104
为与内容特征融合做准备,公式为:
Figure BDA0003601291420000105
其中,sinIN(·)为结构正弦归一化过程函数,μ(x)和μ(y)分别为特征向量长和宽维度上的均值,σ(x)和σ(y)分别为四维特征向量长和宽维度上的标准差。
第8步:将第3步输出的内容特征
Figure BDA0003601291420000106
和第7步输出的风格特征
Figure BDA0003601291420000107
相加融合得到四维特征向量
Figure BDA0003601291420000108
在解码模块中进行上采样输出风格迁移结果Yc×2h×2w
本实施例还提供一种实施上述方法的系统,其包括编码模块、结构引导模块和解码模块;下面对每一部分进行详细阐述:
编码模块包括风格编码模块和内容编码模块,所述风格编码模块对目标域输入图像
Figure BDA0003601291420000109
执行下采样操作,得到四维特征向量
Figure BDA00036012914200001010
所述内容编码模块依次使用下采样、残差单元、双金字塔网络处理源域输入图像
Figure BDA00036012914200001011
得到内容特征向量
Figure BDA00036012914200001012
增强内容特征对于空间结构的感知能力。
结构引导模块包括特征优化单元和风格校正单元,其将目标域输入图像经过下采样输出的四维特征向量作为输入,并使用全局平均池化将风格特征抽象为一维语义信息,保证风格特征精确提取。具体的,将单特征通道的四维特征向量输入到特征优化单元中,利用全连接函数优质的分类性能和萃取深度特征的优势,提升风格特征多样性,降低特征冗余;风格校正单元完成低维度风格特征的空间扩充工作,为其增添与源域中内容特征相似结构的空间信息并赋予结构属性,通过多特征通道、分批次的训练为每个风格特征赋予源域相似的表达,增强风格特征的空间结构感知能力,从而实现一维语义和二维空间像素的精确对应。不同单元输出结果以注意力形式相乘,校正仅有一维语义时风格特征映射偏差,实现风格特征的精准分类,贯彻图像内容、风格传递一致性。下面对结构引导模块中的特征优化单元和风格校正单元进行详细说明:风格校正单元输入为经过特征优化单元中全局平均池化处理后,包含c个特征通道,尺寸为1×1的四维特征向量
Figure BDA0003601291420000111
其中,特征优化单元过程函数为Fopt(x);风格校正单元过程函数为Fs(x);设两个单元输出特征融合后输入给下一阶段的是包含c个特征通道,尺寸为h×w的四维特征向量Y1 c×h×w。结构引导模块表达为:
Figure BDA0003601291420000112
特征优化单元使用全连接函数作用于
Figure BDA0003601291420000113
专注于风格特征的属性分类,降低目标结构及位置为风格特征深度萃取带来的影响,输出四维特征向量
Figure BDA0003601291420000114
为后续结构信息与语义风格信息融合提供帮助。
风格校正单元使用残差金字塔对
Figure BDA0003601291420000115
进行维度扩充处理的同时降低特征冗余,增添细节纹理及轮廓等结构信息,输出四维特征向量
Figure BDA0003601291420000116
为增强不同特征通道间的关联性,充分提取目标域输入图像中隐藏的结构特征,利用卷积核为3×3的深度卷积将
Figure BDA0003601291420000117
分为p条支路,分别提取每一特征通道上的风格特征信息,不同支路之间互相学习监督,实现跨特征通道的参考。同时,每一支路中将特征通道分为q组,在每一组内和不同组间分别打乱通道顺序,增加隐藏风格属性的随机性,提高网络泛化能力,为每一风格特征赋予不同类别的目标分类及结构属性,降低特征映射偏差。为获取精确的风格属性,对每一支路的特征滤波得到
Figure BDA0003601291420000118
使用1×1的点卷积神经网络完成p条支路特征信息的整合工作,输出四维特征向量
Figure BDA0003601291420000119
为每一风格特征赋予增强的特征表达,指导风格特征中结构信息的精确填充。将
Figure BDA00036012914200001110
Figure BDA00036012914200001111
按固定的比例ω1和ω2相乘,输出四维特征向量Y1 c×h×w,隐藏属性和固有风格特征进行对抗筛选,修复风格特征分配错误的问题,降低风格特征映射偏差,为实现内容一致、风格精确的风格迁移提供帮助。
解码模块执行源域和目标域特征向量融合操作:将四维特征向量
Figure BDA00036012914200001112
Figure BDA00036012914200001113
相加融合得到四维特征向量
Figure BDA00036012914200001114
然后进行上采样输出风格迁移结果Yc×2h×2w
本实施例中特征参数约束条件可以为:
(1)下采样输入尺寸为256×256的RGB三通道图像,并将输入图像尺寸缩小至128×128、特征通道n∈{4,8,16,64,256,512},可输出{1,128,128,4}、{1,128,128,8}、{1,128,128,16}、{1,128,128,64}、{1,128,128,256}、{1,128,128,512}中任意一种包含图像内容特征的四维特征向量。
(2)结构引导模块依据目标域输入图像内容不同,选取不同特征通道的四维特征向量作为输入:输入图像中色彩较为复杂且包含大量小目标及模糊目标时,选取特征通道为c=256的四维特征向量作为内容校准模块输入;输入图像中色彩平和且无小目标或模糊目标时,选取特征通道为c=8的四维特征向量作为内容校准模块输入。
(3)风格校正单元中传递特征通道为c∈{4,8,16,64,256,512}的四维特征向量。
(4)特征优化单元中传递特征通道c=1的四维特征向量。
结构单元约束条件可以为:
(1)风格校正单元中包含p条支路,且p∈{0,1,2,3,4}。当p=0时,结构引导模块仅包含特征优化单元。
(2)风格校正单元中每一支路包含q个分组,其中q={q|10≤q≤512,q∈Z+}。
(3)风格校正单元依据输入图像风格复杂度不同,选取不同的分组数目:输入图像中色彩较为复杂且包含小目标或模糊目标时,选取q={q|128≤q≤512,q∈Z+}的分组数目;输入图像中色彩平和且无小目标或模糊目标时,选取q={q|10≤q≤128,q∈Z+}的分组数目。
实施例1:安防监控风格迁移情况
本实例针对学校、十字路口等无人防范和事故多发地进行监控。将本发明用于室外安全监控中,可以有效提升复杂光照下目标的识别能力。安防监控图像风格迁移情况如图3所示。
实施例2:自主驾驶风格迁移情况
本实例针对自主驾驶系统进行风格迁移,将本发明应用于车载摄像头,对行车周围环境进行感知,提供驾驶辅助手段,降低交通事故率,提高车辆的安全驾驶能力,自主驾驶风格迁移情况如图4所示。
实施例3:视觉模糊场景风格迁移情况
本实例针对因光照不均或自然天气等情况导致的视觉模糊场景的风格迁移,可提升复杂场景情况风格迁移的图像质量,为下一步目标检测或图像分割做准备,视觉模糊场景风格迁移情况如图5所示。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为发明的保护范围并不局限于这样的特别陈述和实施例。凡是根据上述描述做出各种可能的等同替换或改变,均被认为属于本发明的权利要求的保护范围。

Claims (9)

1.一种结构引导的风格偏差校正型风格迁移方法,其特征在于,包括:
准备训练风格迁移网络的数据集;
获取特征通道为c的目标域输入图像
Figure FDA0003601291410000011
和源域输入图像
Figure FDA0003601291410000012
分别对其进行包含卷积和非线性激活函数处理的下采样操作,得到四维特征向量
Figure FDA0003601291410000013
Figure FDA0003601291410000014
使用多层残差单元和双金字塔网络处理源域输入图像
Figure FDA0003601291410000015
的下采样结果
Figure FDA0003601291410000016
得到内容特征向量
Figure FDA0003601291410000017
对目标域输入图像
Figure FDA0003601291410000018
的下采样结果
Figure FDA0003601291410000019
采用全局平均池化函数处理,得到四维特征向量
Figure FDA00036012914100000110
对所述四维特征向量
Figure FDA00036012914100000111
使用全连接函数处理,得到四维特征向量
Figure FDA00036012914100000112
所述四维特征向量
Figure FDA00036012914100000113
依次经过残差金字塔、深度卷积神经网络、信息交换、点卷积神经网络处理,得到四维特征向量
Figure FDA00036012914100000114
将所述四维特征向量
Figure FDA00036012914100000115
和四维特征向量
Figure FDA00036012914100000116
相乘,生成四维特征向量Y1 c×h×w,实现风格特征中目标属性的重新分配,校正特征映射偏差;
对所述四维特征向量Y1 c×h×w进行结构正弦归一化处理,得到风格特征向量
Figure FDA00036012914100000117
将所述内容特征向量
Figure FDA00036012914100000118
和风格特征向量
Figure FDA00036012914100000119
相加融合得到四维特征向量
Figure FDA00036012914100000120
然后进行上采样输出风格迁移结果Yc×2h×2w
2.根据权利要求1所述一种结构引导的风格偏差校正型风格迁移方法,其特征在于,对目标域输入图像
Figure FDA00036012914100000121
和源域输入图像
Figure FDA00036012914100000122
进行下采样操作,具体为:
使用卷积核Mc×3×3提取所述目标域输入图像
Figure FDA00036012914100000123
中的风格特征
Figure FDA00036012914100000124
和所述源域输入图像
Figure FDA00036012914100000125
中的内容特征
Figure FDA00036012914100000126
公式为:
Figure FDA00036012914100000127
Figure FDA00036012914100000128
其中
Figure FDA00036012914100000129
为卷积过程,每个矩阵表示一个3×3大小的特征向量;
将输出的特征向量
Figure FDA00036012914100000130
Figure FDA00036012914100000131
使用非线性激活函数处理,当激活处理的特征值小于或等于0时,激活函数输出值为0,如公式(3);反之,激活函数输出值与输入值相同时,如式(4)所示:
Figure FDA00036012914100000132
Figure FDA00036012914100000133
其中,函数A(·)为激活函数。
3.根据权利要求1所述一种结构引导的风格偏差校正型风格迁移方法,其特征在于,使用多层残差单元和双金字塔网络处理源域输入图像
Figure FDA0003601291410000021
的下采样结果
Figure FDA0003601291410000022
具体为:
使用多层残差单元处理四维特征向量
Figure FDA0003601291410000023
并输出四维特征向量
Figure FDA0003601291410000024
公式为:
Figure FDA0003601291410000025
Figure FDA0003601291410000026
其中,F(·)为单层残差单元过程函数,ω3为权值矩阵;
使用双金字塔网络处理四维特征向量
Figure FDA0003601291410000027
并输出内容特征向量
Figure FDA0003601291410000028
公式为:
Figure FDA0003601291410000029
其中,Fh(·)为双金字塔网络过程函数。
4.根据权利要求1所述一种结构引导的风格偏差校正型风格迁移方法,其特征在于,对目标域输入图像
Figure FDA00036012914100000210
的下采样结果
Figure FDA00036012914100000211
采用全局平均池化函数处理,得到四维特征向量
Figure FDA00036012914100000212
对所述四维特征向量
Figure FDA00036012914100000213
使用全连接函数处理,得到四维特征向量
Figure FDA00036012914100000214
具体为:
使用全局平均池化对每一单位特征均值化处理,获得四维特征向量
Figure FDA00036012914100000215
公式为:
Figure FDA00036012914100000216
其中,Paverage(·)为全局平均池化函数,Mc×2×2为滤波器k=2的卷积核对特征逐像素操作,选取平均值并输出;
对四维特征向量
Figure FDA00036012914100000217
使用全连接函数逐个特征通道进行处理,得到四维特征向量
Figure FDA00036012914100000218
公式为:
Figure FDA00036012914100000219
其中,Cfully(·)为全连接函数,选用Mc×1×1即滤波器k=1的卷积核进行操作。
5.根据权利要求1所述一种结构引导的风格偏差校正型风格迁移方法,其特征在于,所述四维特征向量
Figure FDA00036012914100000220
依次经过残差金字塔、深度卷积神经网络、信息交换、点卷积神经网络处理,得到四维特征向量
Figure FDA00036012914100000221
具体为:
通过残差金字塔处理四维特征向量
Figure FDA0003601291410000031
并得到四维特征向量
Figure FDA0003601291410000032
公式为:
Figure FDA0003601291410000033
Figure FDA0003601291410000034
其中,Frp(·)为残差金字塔过程函数,ω4为权值矩阵;
使用深度卷积神经网络将四维特征向量
Figure FDA0003601291410000035
按照特征通道均匀分为p条支路(p≤c),得到每一特征通道的特征分量
Figure FDA0003601291410000036
公式如下:
Figure FDA0003601291410000037
其中,Fdeep(·)为深度卷积神经网络过程函数;
在每一支路上分为q组进行随机信息交换,打乱不同通道间信息的固有顺序,输出特征分量
Figure FDA0003601291410000038
公式如下:
Figure FDA0003601291410000039
其中,Shuffle(·)为信息交换函数;
使用点卷积神经网络对分组交换后的特征向量进行合并,得到四维特征向量
Figure FDA00036012914100000310
所述点卷积神经网络在合并过程中会随机删除部分神经元,公式如下:
Figure FDA00036012914100000311
其中,Dran为随机删除函数,m为随机删除神经元比例;
Figure FDA00036012914100000312
其中,Fpoi(·)为点卷积神经网络过程函数,使用Mc×1×1形式的点卷积神经网络处理特征向量。
6.根据权利要求1所述一种结构引导的风格偏差校正型风格迁移方法,其特征在于,将所述四维特征向量
Figure FDA00036012914100000313
和四维特征向量
Figure FDA00036012914100000314
相乘,生成四维特征向量
Figure FDA00036012914100000315
具体为:
Figure FDA00036012914100000316
其中,
Figure FDA00036012914100000421
Figure FDA00036012914100000422
为权值矩阵,×表示特征矩阵相乘。
7.根据权利要求1所述一种结构引导的风格偏差校正型风格迁移方法,其特征在于,对所述四维特征向量Y1 c×h×w进行结构正弦归一化处理,得到风格特征向量
Figure FDA0003601291410000042
公式为:
Figure FDA0003601291410000043
其中,sinIN(·)为结构正弦归一化过程函数,μ(x)和μ(y)分别为特征向量长和宽维度上的均值,σ(x)和σ(y)分别为四维特征向量长和宽维度上的标准差。
8.一种结构引导的风格偏差校正型风格迁移系统,其特征在于,包括编码模块、结构引导模块和解码模块;
所述编码模块包括风格编码模块和内容编码模块,所述风格编码模块对目标域输入图像
Figure FDA0003601291410000044
执行下采样操作,得到四维特征向量
Figure FDA0003601291410000045
所述内容编码模块依次使用下采样、残差单元、双金字塔网络处理源域输入图像
Figure FDA0003601291410000046
得到内容特征向量
Figure FDA0003601291410000047
所述结构引导模块包括特征优化单元和风格校正单元,所述特征优化单元对四维特征向量
Figure FDA0003601291410000048
采用全局平均池化函数处理,得到四维特征向量
Figure FDA0003601291410000049
再对所述四维特征向量
Figure FDA00036012914100000410
使用全连接函数处理,得到四维特征向量
Figure FDA00036012914100000411
所述风格校正单元对四维特征向量
Figure FDA00036012914100000412
依次经过残差金字塔、深度卷积神经网络、信息交换、点卷积神经网络处理,得到四维特征向量
Figure FDA00036012914100000413
将所述四维特征向量
Figure FDA00036012914100000414
和四维特征向量
Figure FDA00036012914100000415
按固定的比例ω1和ω2相乘,得到四维特征向量Y1 c×h×w,对所述四维特征向量Y1 c×h×w进行结构正弦归一化处理,得到风格特征向量
Figure FDA00036012914100000416
所述解码模块将内容特征向量
Figure FDA00036012914100000417
和风格特征向量
Figure FDA00036012914100000418
相加融合得到四维特征向量
Figure FDA00036012914100000419
然后进行上采样输出风格迁移结果Yc×2h×2w
9.根据权利要求8所述一种结构引导的风格偏差校正型风格迁移系统,其特征在于,所述结构引导模块表达为:
Figure FDA00036012914100000420
其中Fopt(x)为特征优化单元过程函数,Fs(x)为风格校正单元过程。
CN202210403483.4A 2022-04-18 2022-04-18 一种结构引导的风格偏差校正型风格迁移方法及系统 Pending CN114757819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210403483.4A CN114757819A (zh) 2022-04-18 2022-04-18 一种结构引导的风格偏差校正型风格迁移方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210403483.4A CN114757819A (zh) 2022-04-18 2022-04-18 一种结构引导的风格偏差校正型风格迁移方法及系统

Publications (1)

Publication Number Publication Date
CN114757819A true CN114757819A (zh) 2022-07-15

Family

ID=82331261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210403483.4A Pending CN114757819A (zh) 2022-04-18 2022-04-18 一种结构引导的风格偏差校正型风格迁移方法及系统

Country Status (1)

Country Link
CN (1) CN114757819A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115330590A (zh) * 2022-08-24 2022-11-11 苏州大学 一种图像风格迁移方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115330590A (zh) * 2022-08-24 2022-11-11 苏州大学 一种图像风格迁移方法及系统
CN115330590B (zh) * 2022-08-24 2023-07-11 苏州大学 一种图像风格迁移方法及系统

Similar Documents

Publication Publication Date Title
Alonso et al. 3d-mininet: Learning a 2d representation from point clouds for fast and efficient 3d lidar semantic segmentation
CN107239730B (zh) 智能汽车交通标志识别的四元数深度神经网络模型方法
Biasutti et al. Lu-net: An efficient network for 3d lidar point cloud semantic segmentation based on end-to-end-learned 3d features and u-net
CN112651423A (zh) 一种智能视觉系统
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
CN111696110A (zh) 场景分割方法及系统
CN115359372A (zh) 一种基于光流网络的无人机视频运动目标检测方法
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
Zhang et al. Exploring event-driven dynamic context for accident scene segmentation
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN112651881A (zh) 图像合成方法、装置、设备、存储介质以及程序产品
Manssor et al. Real-time human detection in thermal infrared imaging at night using enhanced Tiny-yolov3 network
CN114037640A (zh) 图像生成方法及装置
Xu et al. Dual-space graph-based interaction network for RGB-thermal semantic segmentation in electric power scene
Jiang et al. Unsupervised monocular depth perception: Focusing on moving objects
CN116402851A (zh) 一种复杂背景下的红外弱小目标跟踪方法
Sun et al. IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes
CN114757819A (zh) 一种结构引导的风格偏差校正型风格迁移方法及系统
CN114155165A (zh) 一种基于半监督的图像去雾方法
CN113284042B (zh) 一种多路并行图像内容特征优化风格迁移方法及系统
CN113191944B (zh) 一种多通道图像内容特征融合风格迁移方法及系统
CN116630917A (zh) 一种车道线检测方法
Gupta et al. Robust Object Detection in Challenging Weather Conditions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination