CN113284042A

CN113284042A - 一种多路并行图像内容特征优化风格迁移方法及系统

Info

Publication number: CN113284042A
Application number: CN202110601532.0A
Authority: CN
Inventors: 毛琳; 王萌; 杨大伟; 张汝波
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-20
Anticipated expiration: 2041-05-31
Also published as: CN113284042B

Abstract

本发明公开了一种多路并行图像内容特征优化风格迁移方法及系统，属于深度学习风格迁移领域。为实现风格可变、内容特征一致的风格迁移，其系统提出一种特征优化模块，包含深度特征优化单元和特征增强单元。深度特征融合单元可将多条支路的单一特征通道的图像内容特征进行融合，提取深度内容特征信息，特征增强单元可保持多通道特征完整性。将两个单元输出的四维特征向量进行融合，能够加强深度特征表达能力，保证迁移前后图像内容一致。本发明适用于自主驾驶、安防监控等领域。

Description

一种多路并行图像内容特征优化风格迁移方法及系统

技术领域

本发明涉及深度学习风格迁移技术领域，具体涉及一种多路并行图像内容特征优化风格迁移方法及系统。

背景技术

目前自动驾驶系统大多依靠雷达、红外设备感知行车周边环境，其对小目标、模糊目标和高速运动目标定位不精确。随着自动驾驶和智能机器人应用领域迅速发展，作为自动驾驶系统必不可少的风格迁移技术，是当前研究的热点之一。

现有风格迁移算法可分为基于神经网络和基于生成对抗网络的风格迁移。名称为一种图片风格迁移方法，公开号为CN112330535A的发明专利申请中公开了一种基于神经网络构建风格迁移模型，对风格迁移模型进行参数更新和归一化处理，通过优化生成器和判别器，重新构建损失函数，有效减少了模型震荡并加快模型收敛速度。名称为基于神经网络的图像风格迁移方法及系统，公开号为CN112288621A的发明专利申请，借助分类神经网络，得到内容图像和风格样本图像的深度特征图，以风格特征为样本，内容特征为约束，实现图像风格迁移。充分利用了深度特征表达力强的优点，使目标图像更符合内容特征和风格纹理的语义特征，更完整的保持纹理信息。基于神经网络的风格迁移大多使用卷积神经网络提取图像内容特征和风格特征，产生的风格迁移效果在细节表现上存在交叉，不能很好的应用于交通场景自动驾驶领域的风格迁移。

生成对抗网络的提出加速了深度学习风格迁移的进步，基于生成对抗网络的风格迁移大多以编解码形式实现。名称为一种基于潜变量特征生成的图像多风格转化方法，公开号为CN110992252A的发明专利申请，在多模态无监督图像转换网络MUNIT基础上，设计风格编码生成器对图像的风格编码进行拟合，同时在内容编码和多风格编码之间引入跳跃连接，在风格编码中引入注意力机制，提高了图像多风格转换的质量和多样性。名称为一种跨域变分对抗自编码方法，公开号为CN110210549A的发明专利申请，利用编码器解耦跨域数据的内容编码和风格编码，利用对抗操作和变分操作分别拟合图像的内容编码和风格编码，通过交叉将不同域的内容编码和风格编码实现跨域图像的一对多变换。可在不使用配对数据集时实现跨域图像的一对多风格迁移。

现有基于卷积神经网络的风格迁移方法无法从图像表征中分离出深度特征，也不能对纹理结构进行显示干预。这种不可控因素会导致模糊的语义表达，并降低生成图片质量。基于生成对抗网络的风格迁移网络训练难以收敛，且风格映射自由，难以应用于自主驾驶领域。如何有效利用深度特征，保证风格迁移前后图像内容一致，更好的应用于交通场景，成为一个亟待解决的问题。

发明内容

本发明提出一种多路并行图像内容特征优化风格迁移方法及系统，其使用多路并行方式分离出单一特征通道和多个特征通道的图像内容特征，提升了小目标和模糊目标的分离提取能力以及图像细节纹理信息的迁移能力。能够有效实现图像内容特征一致的风格迁移，可很好的应用于自主驾驶、安防监控等领域。

为实现上述目的，本发明的技术方案为：一种多路并行图像内容特征优化风格迁移方法，包括：

准备训练风格迁移网络模型的数据集，所述数据集包括特征通道为c的源域输入图像pic1^c×h×w和目标域输入图像pic2^c×h×w，两种图像尺寸均为h×w；

读取所述源域输入图像I₁ ^c～h×w和所述目标域输入图像I₂ ^c～h×w，分别对其进行双倍下采样操作，输出特征向量

和

对所述特征向量

使用全局平均池化和全连接函数处理，依次输出特征向量

和特征向量

对所述特征向量

依次进行深度卷积处理、双线性插值、点卷积处理，得到特征向量

使用卷积核为M^c×3×3的卷积神经网络、多层残差单元、卷积核为M^c×3×3的反卷积神经网络依次处理所述特征向量

得到特征向量

将所述特征向量

与所述特征向量

进行融合，得到特征向量

将所述特征向量

送到残差单元中，获得内容编码的特征向量Y₂ ^c×h×w；

将所述特征向量X₉ ^c×1×1与所述特征向量Y₂ ^c×h×w合并，通过解码器输出风格迁移结果Y₃ ^c～h×w。

本发明还提供一种多路并行图像内容特征优化风格迁移系统，包括特征优化模块，其源域输入图像pic1∈R^c×h×w经过双倍下采样输出的特征向量

作为输入，实现单特征通道图像内容特征分离和深度内容特征提取；所述特征优化模块包括深度特征优化单元和特征增强单元。

本发明可提取多场景图像中任意形状和尺度的目标特征，实现图像内容一致的精确风格变换，能够很好的应用于自动驾驶、移动机器人等领域，能够更好的为人类服务。本发明在各方面的有益效果具体如下：

(1)适用于远处小目标特征情况

本发明实现了不同特征通道大小的特征向量分离和合并工作，充分利用深度特征信息表达能力，能够准确清晰的识别和提取远处或小目标特征信息。

(2)适用于高速运动目标特征情况

本发明将单个特征通道和多个特征通道的图像内容特征并行处理，两者形成参考和特征补足，通过读取并行支路的复合特征信息，有效改善因高速运动而产生的目标模糊，实现高速运动目标的提取工作。

(3)适用于公共安防监控系统

本发明可应用于人流量大、存在模糊和遮挡的安防监控，可针对不同自然场景和外观的监控视频进行风格迁移。依据本发明可适应全天候任何复杂场景、针对多尺度特征有效提取，为下一步检测识别工作提供有力条件，改善公共系统工作效率。

(4)适用于自主驾驶技术

本发明为计算机视觉环境感知技术，适用于自动驾驶领域，能够对行车环境周围的行人、车辆、建筑、交通标识等目标特征和位置进行提取，为风格迁移模型提供全面的特征信息，为行车安全提供有力保障。

(5)适用于视觉不清晰情况

本发明适用于不同复杂场景风格迁移情况，可使用不同曝光度和清晰度的相机镜头对基于红外和可见光条件下视觉不清晰目标特征进行恢复，提升图像清晰度后对其进行风格迁移。

附图说明

图1是多路并行图像内容特征优化风格迁移方法原理框架；

图2是特征优化模块示意图；

图3是实施实例1中安防监控风格迁移情况示意图；

图4是实施实例2中自主驾驶风格迁移情况示意图；

图5是实施实例3中视觉模糊场景风格迁移情况示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施方式，对本发明进行进一步详细说明。下面的实施例可以使本专业的技术人员更全面地理解本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提出一种多路并行图像内容特征优化风格迁移方法，如图1所示，具体实施步骤如下：

第1步：准备训练风格迁移网络模型的数据集，所述数据集分为尺寸为h×w、特征通道为c的源域输入图像pic1^c×h×w和目标域输入图像pic2^c×h×w。

第2步：读取源域输入图像pic1^c×h×w和目标域输入图像pic2^c×h×w，分别对其进行双倍下采样操作，下采样过程包括卷积操作和非线性激活处理两部分。

(1)使用步长s＝2、k＝3×3的卷积核M^c×3×3对源域输入图像pic1^c×h×w中的内容特征、目标域输入图像pic2^c×h×w风格特征进行粗提取得到特征向量

和

公式为：

其中

为卷积过程，每个矩阵表示一个3×3的特征块。

(2)将得到的特征向量

和

进行非线性激活处理，当激活处理的特征值小于或等于0时，激活函数输出值为0，如公式(3)，反之激活函数输出与输入相同，如公式(4)所示。

其中，函数A为激活函数，采用激活函数对特征向量进行非线性处理可以提升特征向量的有效性并降低特征冗余性，为实现图像内容特征一致性风格迁移提供帮助。

第3步：为减小特征位置对于风格特征的影响，将第2步提取到的特征向量

使用全局平均池化和全连接函数处理，减小特征位置对风格特征分类的影响，输出特征向量

(1)使用全局平均池化对每一单位特征进行均值化，获得每一单位的特征向量

公式如下：

其中，P_average为全局平均池化函数，M^c×2×2为k＝2×2的卷积核对所有特征像素值进行操作，选出平均值并输出。

(2)对特征向量

使用全连接函数逐一特征通道进行特征处理，降低像素和特征位置对于特征分类的影响，输出特征向量

公式如下：

其中，C_fully为全连接函数，选用M^c×1×1即k＝1×1大小的卷积核进行操作，

为卷积操作。

第4步：深度特征优化单元输入为内容编码中下采样结果

依次进行深度卷积处理、双线性插值、点卷积处理，能够有效消除特征分离和融合过程的映射偏差。

(1)使用深度卷积神经网络将特征优化单元的输入特征分量按照特征通道均匀分为c份，得到每一特征通道的特征分量

其中，

为每一特征通道的特征向量集合，C_deep为深度卷积函数，M^c×3×3为k＝3×3的深度卷积核，

为卷积操作。

(2)对每一特征通道的特征分量

进行双线性插值，对特征分量的每一空间维度进行扩展和进一步提纯，公式如下：

其中，M^i×3×1为特征通道数i∈{1,2,...,c}、k＝3×1的卷积核，M^i×1×3为特征通道数i∈{1,2,...,c}、k＝1×3的卷积核。

(3)使用点卷积神经网络对双线性插值输出的分离特征

进行处理，输出深度特征优化单元的结果

进一步消除特征映射偏差。点卷积

会随机删除部分神经元操作，公式如下：

其中，D_ran为随机删除函数，q为随机删除神经元的比例，该操作可防止网络出现过拟合现象。

其中，公式(10)中C_poi为点卷积函数，使用M^c×1×1形式的点卷积对特征向量进行点卷积操作，

为卷积操作。

第5步：特征增强单元将特征向量

作为输入，使用卷积核为M^c×3×3的卷积神经网络、多层(可以优选为4层)残差单元、卷积核为M^c×3×3的反卷积神经网络依次处理下采样输出的特征向量，降低特征冗余性，保证风格迁移过程图像内容一致。

(1)使用卷积核为M^c×3×3、步长s＝1的卷积神经网络对特征增强单元的输入特征向量进行处理，公式如下：

其中，C_con为卷积操作，

表示卷积计算过程。

(2)使用多层残差单元降低特征冗余性，公式为：

其中，C_con为卷积操作，M^c×3×3为k＝3×3的深度卷积核，

表示卷积计算过程。

(3)为输出相同维度的特征向量，进一步提升特征表达能力，使用反卷积神经网络作用于残差单元输出结果，公式为：

其中，C_dec为反卷积函数，M^c×3×3为k＝3×3的深度卷积核，

表示卷积计算过程。

第6步：融合第4步和第5步输出的特征向量

和

得到

将融合结果送到残差单元中，从而降低特征冗余性，获得内容编码的输出结果Y₂ ^c×h×w。

第7步：将第3步和第6步输出的特征向量

与

合并，通过解码器输出风格迁移结果

本实施例提出种多路并行图像内容特征优化风格迁移方法，一是使用多个深度卷积核提取特征向量中每一特征通道的图像内容特征，增强深度特征表达能力，加强不同特征通道对于特征信息提取能力。二是使用多条支路校准原始内容特征，保证迁移过程中图像内容特征一致性和完整性。

定义pic1,pic2∈R^c×h×w分别为内容编码器和风格编码器的输入图像，X,Y∈R^c×h×w为卷积层输入输出特征向量，M^c×k×k为k×k大小的卷积核，s为步长，其中h和w表示特征向量尺寸，c表示特征通道数，k∈{1,2,3,4}表示不同大小的卷积核。

本实施例还提供一种多路并行图像内容特征优化风格迁移系统，包括特征优化模块，如图2所示，特征优化模块包括深度特征优化单元和特征增强单元，将输入图像pic1∈R^c×h×w经过双倍下采样输出的特征向量

作为输入。深度特征优化单元可实现单特征通道图像内容特征分离和深度内容特征提取工作；特征增强单元在保持多特征通道图像内容特征的同时能够学习更多的细节纹理信息，减小图像内容映射偏差。深度特征优化单元和特征增强单元的输出特征向量合到一起，加强了内容特征的丰富性，可实现图像内容一致的风格变换。

所述深度特征优化单元将针对单特征通道特征向量进行处理，包括p条支路，每一条支路单独提取每一特征通道的图像内容特征，包括深度卷积处理阶段和点卷积处理阶段。深度卷积可实现特征分离-合并工作，使用M^c×3×3大小卷积核的深度卷积分离出

每一特征通道上的内容特征向量

扩大感受野，将每一支路对应的图像区域变大，增强深度特征提取能力。使用双线性插值对每一特征通道的特征向量进行滤波并融合为多特征通道特征向量

不同支路之间互相学习监督，加强语义特征表达，增强对深度特征提取能力。使用M^c×1×1大小卷积核的点卷积对p条支路融合后的特征向量

进一步整合，输出特征向量

实现并行多支路提取图像内容深度特征。

所述特征增强单元输入为双倍下采样输出结果

使用卷积核为M^c×3×3的卷积对其进行处理，得到特征向量

使用多层残差单元提取具有c个特征通道的图像内容深度特征

降低特征冗余性，保持原始图像纹理细节和轮廓特征信息。为方便特征融合，使用卷积核为M^c×3×3的反卷积作用于残差单元输出结果，得到出特征向量

将

和

融合到同一分支，得到特征优化模块的输出

传递给下一阶段弥补单一类别特征的局限性，增强深度特征表达能力，保证风格迁移过程图像内容特征完整性和一致性。

其中，下采样为双倍下采样，输入尺寸可以为256×256的RGB三通道图像，并将输入图像尺寸缩小至128×128、特征通道c∈{4,8,64,128,256,512}，可输出(1,128,128,4)、(1,128,128,8)、(1,128,128,64)、(1,128,128,128)、(1,128,128,256)、(1,128,128,512)中任意一种包含图像内容特征的特征向量。

需要说明的是：所述特征优化模块依据输入图像内容不同，选取不同特征通道的特征向量作为输入：输入图像中包括小目标或模糊目标时，可以选取特征通道c＝256的特征向量作为特征优化模块输入；输入图像中无小目标或模糊目标时，可以选取特征通道c＝4的特征向量作为特征优化模块输入。所述深度特征优化单元中可以传递特征通道c＝1的特征向量。所述特征增强单元中可以传递特征通道c∈{4,8,64,128,256,512}的特征向量。输入图像包括小目标或模糊目标时，输入为特征通道c＝256的特征向量；不包括小目标时，输入为特征通道c＝4的特征向量。深度特征优化单元包括p条支路，且深度特征优化单元的支路数与特征通道数相同，即p＝c。特征增强单元中优选使用4层残差单元提取深度内容特征。

实施例1：

安防监控风格迁移情况

本实例针对学校、十字路口等无人防范和事故多发地进行监控。将本发明用于室外安全监控中，可以有效提升复杂光照下目标的识别能力。安防监控图像风格迁移情况如图3。

实施例2：

自主驾驶风格迁移情况

本实例针对自主驾驶系统风格迁移。将本发明应用于在车载摄像头，对行车周围环境进行感知，对驾驶者提供驾驶辅助手段，降低交通事故率，提高车辆的安全驾驶能力，自主驾驶风格迁移情况如图4。

实施例3：

视觉模糊场景风格迁移情况

本实例针对因光照不均或自然天气等情况导致的视觉模糊场景的风格迁移，可提升复杂场景情况风格迁移生成图像质量，为下一步目标检测或图像分割做准备，视觉模糊场景风格迁移情况如图5。

本发明的实施例有较佳的实施性，并非是对本发明任何形式的限定。本发明实施例中描述的技术特征或技术特征的组合不应当被认为是孤立的，它们可以被互相组合从而达到更好的技术效果。本发明优选实施方式的范围也可以包括另外的实现，且这应被发明实施例所属技术领域的技术人员所理解。

Claims

1.一种多路并行图像内容特征优化风格迁移方法，其特征在于，包括：

和

对所述特征向量

使用全局平均池化和全连接函数处理，依次输出特征向量

和特征向量

对所述特征向量

得到特征向量

将所述特征向量

与所述特征向量

进行融合，得到特征向量Y₁ ^c～h×w，将所述特征向量Y₁ ^c～h×w送到残差单元中，获得内容编码的特征向量Y₂ ^c×h×w；

将所述特征向量

与所述特征向量Y₂ ^c×h×w合并，通过解码器输出风格迁移结果Y₃ ^c ^～h×w。

2.根据权利要求1所述一种多路并行图像内容特征优化风格迁移方法，其特征在于，所述下采样过程包括：使用步长s＝2、k＝3×3的卷积核M^c×3×3对源域输入图像pic1^c×h×w中的内容特征、目标域输入图像pic2^c×h×w风格特征进行粗提取得到特征向量

和

公式为：

其中

为卷积过程，每个矩阵表示一个3×3的特征块。

3.根据权利要求2所述一种多路并行图像内容特征优化风格迁移方法，其特征在于，所述下采样过程还包括：对特征向量

和

其中，函数A为激活函数。

4.根据权利要求1所述一种多路并行图像内容特征优化风格迁移方法，其特征在于，使用全局平均池化对每一单位特征进行均值化，获得每一单位的特征向量

公式如下：

其中，P_average为全局平均池化函数，M^c×2×2为k＝2×2的卷积核；

对所述特征向量

使用全连接函数逐一特征通道进行特征处理，输出特征向量

公式如下：

其中，C_fully为全连接函数，选用k＝1×1大小的卷积核M^c×1×1进行操作，

为卷积操作。

5.根据权利要求1所述一种多路并行图像内容特征优化风格迁移方法，其特征在于，使用深度卷积神经网络将所述特征向量

按照特征通道均匀分为c份，得到每一特征通道的特征分量

公式如下：

其中，

为卷积操作；

对每一特征通道的特征分量

进行双线性插值，公式如下：

其中，M^i×3×1为特征通道数i∈{1,2,...,c}、k＝3×1的卷积核，M^i×1×3为特征通道数i∈{1,2,...,c}、k＝1×3的卷积核；

使用点卷积神经网络对分离特征

进行处理，得到特征向量

所述点卷积神经网络会随机删除部分神经元，公式如下

其中，D_ran为随机删除函数，q为随机删除神经元的比例；

其中，C_poi为点卷积函数，M^c×1×1为卷积核，

为卷积操作。

6.根据权利要求1所述一种多路并行图像内容特征优化风格迁移方法，其特征在于，使用卷积核为M^c×3×3、步长s＝1的卷积神经网络对所述特征向量

进行处理，公式如下：

其中，C_con为卷积操作，

表示卷积计算过程；

使用多层残差单元降低特征冗余性，公式为：

其中，C_con为卷积操作，M^c×3×3为k＝3×3的深度卷积核，

表示卷积计算过程；

使用反卷积神经网络作用于多层残差单元，公式为：

其中，C_dec为反卷积函数，M^c×3×3为k＝3×3的深度卷积核，

表示卷积计算过程。

7.一种多路并行图像内容特征优化风格迁移系统，其特征在于，包括特征优化模块，其源域输入图像pic1∈R^c×h×w经过双倍下采样输出的特征向量

8.根据权利要求7所述一种多路并行图像内容特征优化风格迁移系统，其特征在于，所述深度特征优化单元包含p条支路，每一条支路单独提取每一特征通道的图像内容特征，该单元包括深度卷积处理阶段和点卷积处理阶段。

9.根据权利要求8所述一种多路并行图像内容特征优化风格迁移系统，其特征在于，使用M^c×3×3大小卷积核的深度卷积神经网络分离出特征向量

每一特征通道上的内容特征向量

使用双线性插值对每一特征通道的特征向量进行滤波并融合为多特征通道特征向量

不同支路之间互相学习监督，使用M^c×1×1大小卷积核的点卷积神经网络对p条支路融合后的特征向量

进一步整合，输出特征向量

实现并行多支路提取图像内容深度特征。

10.根据权利要求7所述一种多路并行图像内容特征优化风格迁移系统，其特征在于，使用卷积核为M^c×3×3的卷积神经网络对特征向量

进行处理，得到特征向量

使用多层残差单元提取具有c个特征通道的图像内容深度特征

使用卷积核为M^c×3×3的反卷积神经网络作用于残差单元输出结果，得到特征向量

将特征向量

和

融合到同一分支，得到特征优化模块的输出