CN116596753B

CN116596753B - 一种基于风格迁移网络的声学图像数据集扩充方法和系统

Info

Publication number: CN116596753B
Application number: CN202310889248.7A
Authority: CN
Inventors: 张铁栋; 郎硕; 李仁哲; 樊家占; 刘继智; 贾辉; 常文田
Original assignee: Harbin Engineering University Sanya Nanhai Innovation And Development Base; Harbin Engineering University
Current assignee: Harbin Engineering University Sanya Nanhai Innovation And Development Base; Harbin Engineering University
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2024-02-02
Anticipated expiration: 2043-07-20
Also published as: CN116596753A

Abstract

一种基于风格迁移网络的声学图像数据集扩充方法和系统，涉及声呐图像技术领域。解决了现有的生成对抗网络在生成声呐图像时会遇到成像分辨率低，成像质量较差等问题。本发明的技术方案为：所述方法包括：构建沉船及飞机的声呐图像数据集；预处理所述数据集中的声呐图像；采用沙盘实验采集飞机及轮船光学图像；模糊处理所述飞机及轮船光学图像；构建风格迁移网络模型；根据所述风格迁移网络训练所述处理后的声呐图像和光学图像，获取仿真声呐图像。本发明所述的一种基于风格迁移网络的声学图像数据集扩充方法应用于水下目标识别领域。

Description

一种基于风格迁移网络的声学图像数据集扩充方法和系统

技术领域

本发明涉及声呐图像技术领域，尤其涉及一种基于风格迁移网络的声学图像数据集扩充方法。

背景技术

近年来，随着国内科技兴海等一系列重大工程的实施，水下目标识别成为海洋开发研究的热点。目前，海洋作业日益频繁，精准的水下目标检测和识别是海上许多经济和军事活动的基础，对于建设成海洋强国具有重大战略意义。传统的光学成像方法受到光线在水下衰减严重的限制，光学相机在水下能见度差，一般只适用于水下短距离的目标识别。而声呐系统的水下测量具有远距离、高效率的显著特点，在海底地貌绘制、水下沉积物搜查、海底矿产勘探等方面均有较好的成效。

但是由于高分辨率的水下成像声呐设备造价昂贵，且许多需要在水下搜寻的目标数量较少，难以做到大规模拍摄获取足够的声呐图像数据集，因此难以利用传统深度学习算法对水下声呐图像中的目标进行检测识别，水下声呐图像数据缺乏已经成为影响对水下声呐图像进行目标检测识别的首要阻碍。

目前常见的数据集扩充方法主要分为基于原始数据集几何变换的传统扩充和基于生成对抗网络生成仿真图像的扩充两种方法，传统扩充包括图像镜像、旋转、亮度和对比度调整、仿射变换和裁剪等方法，传统扩充方法是在原数据集的基础上进行处理，在一定程度上缺乏多样性，训练出的结果输入到检测网络泛化能力会较差。基于生成对抗网络的数据扩充方法，可以在原数据集的基础上生成新的数据，从而可以使训练出来的目标检测模型泛化能力增强，但目前现有的生成对抗网络在生成声呐图像时会遇到成像分辨率低，成像质量较差等问题，应用在扩充声呐图像应用中还会遇到目标边缘细节问题和背景噪声难以生成等问题。

发明内容

本发明解决了现有的生成对抗网络在生成声呐图像时会遇到成像分辨率低，成像质量较差等问题。

本发明的技术方案为：

本发明提供一种基于风格迁移网络的声学图像数据集扩充方法，所述方法包括：

采集沉船及飞机的声呐图像，并根据所述沉船及飞机的声呐图像构建沉船及飞机的声呐图像数据集；

预处理所述声呐图像数据集；

采用沙盘实验采集飞机及轮船光学图像；

采用模糊网络对所述飞机及轮船光学图像进行处理，获取模糊处理后的光学图像信息；

构建风格迁移网络模型；

根据所述风格迁移网络模型训练所述预处理后的声呐图像和模糊处理后的光学图像，获取仿真声呐图像。

进一步的，还提供一种优选方式，所述预处理所述声呐图像数据集包括：

对所述数据集中的声呐图像进行裁剪、缩放、旋转、尺寸归一化和色调渲染处理。

进一步的，还提供一种优选方式，所述采用沙盘实验采集飞机及轮船光学图像，包括：

采用沙盘实验还原海底地形地貌、还原飞机和轮船沉没和坠落姿态；

根据沙盘实验还原的信息，采集飞机及轮船光学图像。

进一步的，还提供一种优选方式，所述采用模糊网络对所述飞机及轮船光学图像进行处理，具体为：

采用高斯模糊网络对所有采集的光学图像进行模糊处理；

所述高斯模糊网络采用二维高斯分布做为滤波函数，所述二维高斯分布的概率密度函数为：

，

其中，x为变量，y为变量x出现的概率，为描述正态分布资料数据分布的离散程度。

进一步的，还提供一种优选方式，所述构建风格迁移网络模型，具体为：

根据CycleGAN循环生成对抗网络构建风格迁移网络；

所述风格迁移网络为双判别器，分别为生成器和判别器：

所述生成器包括采用ELU激活函数的CIL模块和增加了BN层的ReLU激活函数的CTIR模块；

所述判别器用于将输出结构为N×N的矩阵展平为一维数据直接进行判别；

所述风格迁移网络的损失函数为：

，

其中，为加权因子，G为实现X风格转化为Y风格的生成器，Dx为判断样本是否属于X空间的判别器，F为实现Y风格转化为X风格的生成器，Dy为判断样本是否属于Y空间的判别器，/>为循环一致性损失。

基于同一发明构思，一种基于风格迁移网络的声学图像数据集扩充系统，所述系统包括：

数据集构建单元，用于采集沉船及飞机的声呐图像，并根据所述沉船及飞机的声呐图像构建沉船及飞机的声呐图像数据集；

预处理单元，用于预处理所述声呐图像数据集；

光学图像采集单元，用于采用沙盘实验采集飞机及轮船光学图像；

模糊处理单元，用于采用模糊网络对所述飞机及轮船光学图像进行处理，获取模糊处理后的光学图像信息；

风格迁移网络构建单元，用于构建风格迁移网络模型；

仿真声呐图像获取单元，根据所述风格迁移网络模型训练所述预处理后的声呐图像和模糊处理后的光学图像，获取仿真声呐图像。

进一步的，还提供一种优选方式，所述预处理单元包括：

进一步的，还提供一种优选方式，所述光学图像采集单元，包括：

根据沙盘实验还原的信息，采集飞机及轮船光学图像。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行上述任一项所述的一种基于风格迁移网络的声学图像数据集扩充方法。

本发明还提供一种计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据上述中任一项中所述的一种基于风格迁移网络的声学图像数据集扩充方法。

本发明的有益之处在于：

本发明所述的一种基于风格迁移网络的声学图像数据集扩充方法，建立了风格迁移网络，实现光学领域图像到声学领域图像的转换。现有光学图像是通过光传播成像，成像直观，目标细节特征多，符合视觉习惯，但探测距离近，对水质要求高，对水下较远的目标成像质量差；现有声学图像利用声波传播成像，在水下声波衰减远比光波慢，探测距离元，对水质不敏感，但成像受到各种噪声影响，可能会丢失目标细节，图像质量差。本发明所述的扩充方法，将现有的光学图像进行处理，获得声呐图像，扩充了声学图像数据集；本发明所述的一种基于风格迁移网络的声学图像数据集扩充方法，还利用已有的声呐图像生成高质量声呐仿真图像，不但增加了扩充效率还提高了声呐图像质量，一举多得。

本发明所述的一种基于风格迁移网络的声学图像数据集扩充方法应用于水下目标识别领域。

附图说明

图1为实施方式一所述的一种基于风格迁移网络的声学图像数据集扩充方法流程图；

图2为实施方式二所述的预处理流程示意图；

图3为实施方式二所述的图像裁剪前的示意图；

图4为实施方式二所述的图像剪裁后的示意图；

图5为实施方式三所述的沙盘实验布置场景图；

图6为实施方式三所述的沙盘实验效果图；

图7为实施方式四所述的一维高斯分布函数图；

图8为实施方式四所述的模糊半径r=10时的模糊图；

图9为实施方式五所述的改进后的生成器结构示意图；

图10为实施方式五所述的CycleGAN的生成器结构示意图；

图11为实施方式五所述的仿真图像示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其它情况下，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解，在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是本申请还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施例的限制。

实施方式一、参见图1说明本实施方式。本实施方式所述的一种基于风格迁移网络的声学图像数据集扩充方法，所述方法包括：

预处理所述声呐图像数据集；

采用沙盘实验采集飞机及轮船光学图像；

构建风格迁移网络模型；

本实施方式所述的一种基于风格迁移网络的声学图像数据集扩充方法，建立了风格迁移网络，实现光学领域图像到声学领域图像的转换。现有光学图像是通过光传播成像，成像直观，目标细节特征多，符合视觉习惯，但探测距离近，对水质要求高，对水下较远的目标成像质量差；现有声学图像利用声波传播成像，在水下声波衰减远比光波慢，探测距离元，对水质不敏感，但成像受到各种噪声影响，可能会丢失目标细节，图像质量差。本发明所述的扩充方法，将现有的光学图像进行处理，获得声呐图像，扩充了声学图像数据集；本发明所述的一种基于风格迁移网络的声学图像数据集扩充方法，还利用已有的声呐图像生成高质量声呐仿真图像，不但增加了扩充效率还提高了声呐图像质量，一举多得。

实施方式二、参见图2、图3和图4说明本实施方式。本实施方式是对实施方式一所述的一种基于风格迁移网络的声学图像数据集扩充方法的进一步限定，所述预处理所述声呐图像数据集，包括：

具体的，如图2所示，预处理所述数据集中的声呐图像包括：

(1)图像裁剪：将收集的数据图片中影响目标检测的部分进行简单的裁剪，更多保留需要的图片内容；如图3和图4所示，保留了目标主体，裁掉了可能影响风格迁移网络学习的声图水柱区黑色区域。

(2)图像缩放：所述收集的声呐图像尺寸不一，其中存在许多尺寸较小或较大的图片，需要对其进行适当的缩放处理，以便后面尺寸归一化处理不会影响图像中的目标信息；

(3)图像旋转：对数据集中声呐图像目标主体姿态翻转的图像进行旋转处理；

(4)尺寸归一化：对图像旋转处理后的图像进行尺寸归一化处理，因为部分图像尺寸差距较大，因此大致分为三组进行尺寸归一化处理；

(5)色调渲染处理：由于收集得到的声呐图像的颜色差距较大，在后续进行风格转化过程中可能导致学习偏差，所以要对数据集中的所有图片进行同种色调渲染处理。

实施方式三、参见图5和图6说明本实施方式。本实施方式是对实施方式一所述的一种基于风格迁移网络的声学图像数据集扩充方法的进一步限定，所述采用沙盘实验采集飞机及轮船光学图像，包括：

根据沙盘实验还原的信息，采集飞机及轮船光学图像。

具体的，为了保证采集光学图像的准确性，采用沙盘实验还原海底地形地貌、还原飞机和轮船沉没和坠落姿态，具体的沙盘布置场景和效果图如图5和图6所示，图5为沙盘实验布置场景图，其还原了海底地形地貌、飞机和轮船沉没和坠落姿态。

实施方式四、参见图7和图8说明本实施方式。本实施方式是对实施方式一所述的一种基于风格迁移网络的声学图像数据集扩充方法的进一步限定，所述采用模糊网络对所述飞机及轮船光学图像进行处理，具体为：

采用高斯模糊网络对所有采集的光学图像进行模糊处理；

，

其中，x为变量，y为变量x出现的概率，为描述正态分布资料数据分布的离散程度，/>越大，数据分布越分散，/>越小，数据分布越集中。

具体的，本实施方式采用高斯模糊网络对飞机及轮船光学图像，高斯模糊使用高斯分布做为滤波函数，高斯分布的概率密度函数为：

。

图7为一维高斯分布函数图像，从图中可以看出离中心点越近，/>的值就越大，并且越接近峰值，对应到二维图像中，距离某像素/>越近的像素，它对/>的影响越大，应当越重要，因此应该有越高的权重，这与高斯分布的函数图像相吻合，由于图像是二维的，因此本实施方式采用了二维的高斯分布，二维高斯分布的概率密度函数为：

。

通过概率密度函数可以得到像素点周围像素点的权重值，周围像素点的灰度值乘以各自的权重值取和便得到中心点的高斯模糊值，然后重复这个过程对所有的像素点进行高斯模糊取值，便可以得到高斯模糊后的图像。

高斯模糊半径是指计算权重范围内距离中心像素点最远距离的像素点的个数，通过调整高斯模糊半径可以控制图像的模糊程度，高斯模糊半径越大，图像模糊程度越高，对采集到的光学图像进行不同模糊半径的高斯模糊后，本实施方式选取了模糊半径r=10时的模糊图像，模糊图像如图8所示。

现有高斯模糊处理通常用于减少光学图像的图像噪声和降低细节层次感，用来进行平滑处理，本实施方式将高斯模糊处理与风格迁移网络结合，生成声呐了图像，获取了意想不到的清晰噪声。

实施方式五、参见图9、图10和图11说明本实施方式。本实施方式是对实施方式一所述的一种基于风格迁移网络的声学图像数据集扩充方法的进一步限定，所述构建风格迁移网络模型，具体为：

根据CycleGAN循环生成对抗网络构建风格迁移网络；

所述风格迁移网络为双判别器，分别为生成器和判别器：

所述风格迁移网络的损失函数为：

，

其中，为加权因子，用于控制循环一致性损失在全部损失中的权重，G为实现X风格转化为Y风格的生成器，Dx为判断样本是否属于X空间的判别器，F为现Y风格转化为X风格的生成器,Dy为判断样本是否属于Y空间的判别器，/>为循环一致性损失。

具体的，本实施方式以CycleGAN循环生成对抗网络（Cycle GenerativeAdversarial Networks）为基础搭建风格迁移网络，所述风格迁移网络采用双判别器，在网络框架不变的基础上对CycleGAN网络里面的生成器和判别器结构做出优化改进，图9为改进后的生成器结构，图10为CycleGAN的生成器结构示意图，可以清晰的看出，相比CycleGAN循环生成对抗网络生成器中采用LeakyReLU激活函数的CIL模块和采用ReLU激活函数的CTIR模块，本实施方式生成器采用ELU激活函数的CIL模块可以达到更好的收敛效果，且ELU激活函数相比与具有Relu的大多数优点，不存在Dead Relu问题，输出的均值也接近为0值；该函数通过减少偏置偏移的影响，使正常梯度更接近于单位自然梯度，从而使均值向0加速学习；该函数在负数域存在饱和区域，从而对噪声具有一定的鲁棒性。本实施方式还增加了BN层的ReLU激活函数的CTIR模块，即保障了风格迁移网络的训练速度，又能取得更好的收敛效果。

且，CycleGAN循环生成对抗网络的判别器为patchiness判别器，输出结构为N×N的矩阵进行全局比较；本实施方式构建的风格迁移网络的判别器省略了原判别器最后输出的矩阵全局比较，不考虑全局感受野信息的差别，将输出结构为N×N的矩阵展平为一维数据直接进行判别，提高了训练效率，本实施方式的判别器所述风格迁移网络的损失函数为：

，

在实际应用中，将预处理后的声呐图像和模糊处理后的光学图像分别放入两个文件夹tainA和trainB中，然后导入改进后的风格迁移网络中进行训练，利用训练出的权重批量将光学图像转化为水下声呐仿真图像，生成的仿真图像示例如图11所示。

表1

本实施方式还进行了对比没有扩充的数据集和扩充的数据集进行的相同目标检测网络训练，从表1的训练结果可以看出，扩充后的数据集mAP有所提升，证明本实施方式所述的扩充方法是有效的，其中，所述目标检测网络为YOLOv5网络。

实施方式六、本实施方式所述的一种基于风格迁移网络的声学图像数据集扩充系统，所述系统包括：

预处理单元，用于预处理所述声呐图像数据集；

风格迁移网络构建单元，用于构建风格迁移网络模型；

实施方式七、本实施方式是对实施方式六所述的一种基于风格迁移网络的声学图像数据集扩充系统的进一步限定，所述预处理单元包括：

实施方式八、本实施方式是对实施方式六所述的一种基于风格迁移网络的声学图像数据集扩充系统的进一步限定，所述光学图像采集单元，包括：

根据沙盘实验还原的信息，采集飞机及轮船光学图像。

实施方式九、本实施方式所述的一种计算机可读存储介质，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行实施方式一至实施方式五任一项所述的一种基于风格迁移网络的声学图像数据集扩充方法。

实施方式十、一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据实施方式一至实施方式五中任一项中所述的一种基于风格迁移网络的声学图像数据集扩充方法。

要说明的是，上述实施例所提供的方法及其细节举例可结合至实施例提供的装置和设备中，相互参照，不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其他的方式实现。例如，以上所描述的装置/设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。上述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于风格迁移网络的声学图像数据集扩充方法,其特征在于，所述方法包括：

预处理所述声呐图像数据集；

采用沙盘实验采集飞机及轮船光学图像；

构建风格迁移网络模型；

根据所述风格迁移网络模型训练所述预处理后的声呐图像和模糊处理后的光学图像，获取仿真声呐图像；

所述构建风格迁移网络模型，具体为：

根据CycleGAN循环生成对抗网络构建风格迁移网络；

所述风格迁移网络为双网络结构，包括两个生成器和两个判别器：

所述风格迁移网络的损失函数为：

，

其中，为加权因子，G为实现X风格转化为Y风格的生成器，Dx为判断样本是否属于X空间的判别器，F为实现Y风格转化为X风格的生成器，Dy为判断样本是否属于Y空间的判别器，为循环一致性损失；

所述采用模糊网络对所述飞机及轮船光学图像进行处理，具体为：

采用高斯模糊网络对所有采集的光学图像进行模糊处理；

，

2.根据权利要求1所述的一种基于风格迁移网络的声学图像数据集扩充方法,其特征在于，所述预处理所述声呐图像数据集，包括：

3.根据权利要求1所述的一种基于风格迁移网络的声学图像数据集扩充方法,其特征在于，所述采用沙盘实验采集飞机及轮船光学图像，包括：

根据沙盘实验还原的信息，采集飞机及轮船光学图像。

4.一种基于风格迁移网络的声学图像数据集扩充系统,其特征在于，所述系统包括：

预处理单元，用于预处理所述声呐图像数据集；

风格迁移网络构建单元，用于构建风格迁移网络模型；

仿真声呐图像获取单元，根据所述风格迁移网络模型训练所述预处理后的声呐图像和模糊处理后的光学图像，获取仿真声呐图像；

所述构建风格迁移网络模型，具体为：

根据CycleGAN循环生成对抗网络构建风格迁移网络；

所述风格迁移网络的损失函数为：

，

采用高斯模糊网络对所有采集的光学图像进行模糊处理；

，

5.根据权利要求4所述的一种基于风格迁移网络的声学图像数据集扩充系统,其特征在于，所述预处理单元包括：

6.根据权利要求4所述的一种基于风格迁移网络的声学图像数据集扩充系统,其特征在于，所述光学图像采集单元，包括：

根据沙盘实验还原的信息，采集飞机及轮船光学图像。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行权利要求1-3任一项所述的一种基于风格迁移网络的声学图像数据集扩充方法。

8.一种计算机设备，其特征在于：包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据权利要求1-3中任一项中所述的一种基于风格迁移网络的声学图像数据集扩充方法。