CN117079117A

CN117079117A - 水下图像处理及目标识别的方法及装置、存储介质及电子设备

Info

Publication number: CN117079117A
Application number: CN202311176761.8A
Authority: CN
Inventors: 张晓伟; 董文涛; 周未; 肖涵; 崔伟; 林媛媛; 张雪鑫; 张士太; 孔紫宁; 陈桐; 栾新瑞; 董玉才; 尹张铭佳; 李震宇
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-11-17
Anticipated expiration: 2043-09-13
Also published as: CN117079117B

Abstract

本发明公开了一种水下图像处理及目标识别的方法及装置、存储介质及电子设备，其中方法包括：基于针对同一水下目标获取的各类传感器数据，生成对应的点云图、声呐图像及光学图像；对所述点云图进行三维重建，生成第二点云图；对所述声呐图像及光学图像分别进行图像增强，生成第二声呐图像及第二光学图像；进行图像特征融合，得到融合图像特征；基于所述声呐图像特征及所述光学图像特征进行目标识别，得到第一识别结果；基于所述融合图像特征及所述点云图特征进行目标识别，得到第二识别结果，基于所述第一识别结果及所述第二识别结果进行决策级融合，得到识别结果。本方法有效缓解了信息源单一导致的检测的不完整性、局限性和不确定性的问题。

Description

水下图像处理及目标识别的方法及装置、存储介质及电子设备

技术领域

本发明涉及图像处理领域，尤其是一种水下图像处理及目标识别的方法及装置、存储介质及电子设备。

背景技术

可见光稳定成像与精准感知的研究具有以下潜在的前景和作用，稳定成像和精准感知技术可以获取涉水场景中的关键情报，包括确定目标位置、活动、设施等信息。基于可见光稳定成像技术对水下图像进行处理，通过人工智能的目标检测和识别算法，能够对水下目标进行识别与跟踪。这对于目标定位、目标追踪等具有重要意义。

现有技术“李明杰,刘小飞.高斯滤波在水下声呐图像去噪中的应用[J].黑龙江科技信息,2015(19):29.”应用单尺度Ridgelet处理方式,将目标分割成多组包含不同信息的图像块,在边缘区进行有限Ridgelet去噪,对非边缘区采取小波去噪，从而得到清晰图像。文献“温伟清. 基于颜色补偿的水下图像增强[D].南昌航空大学,2018.”使用衰减相对较弱且衰减接近于红色通道的绿色通道来补偿红色通道,然后通过灰度世界白平衡与自动色阶获得最终颜色矫正。

现有技术仅单独针对声呐图像或光学图像或点云信息的一种信息源进行水下目标检测与识别，信息源单一，对待检测目标的特性观测存在不完整性、局限性和不确定性的问题，无法充分利用图像的外观信息和激光点云的距离信息来提高目标检测质量。

发明内容

本发明提出一种水下图像处理及目标识别的方法及装置，能够解决水下图像无法充分利用图像的外观信息和激光点云的距离信息来提高目标检测质量的技术问题。

在本发明中提供一种水下图像处理及目标识别的方法，包括：

步骤S1：基于针对同一水下目标获取的各类传感器数据，解析激光雷达信号、声呐信号及光电视频信号，生成对应的点云图、声呐图像及光学图像；

步骤S2：对所述点云图进行三维重建，生成第二点云图；对所述声呐图像及光学图像分别进行图像增强，生成第二声呐图像及第二光学图像；

步骤S3：从所述第二点云图、第二声呐图像及第二光学图像分别提取点云图特征、声呐图像特征、光学图像特征，进行图像特征融合，得到融合图像特征；基于所述声呐图像特征及所述光学图像特征进行目标识别，得到第一识别结果；

步骤S4：基于所述融合图像特征及所述点云图特征进行目标识别，得到第二识别结果，基于所述第一识别结果及所述第二识别结果进行决策级融合，得到识别结果。

可选地，所述对所述声呐图像进行图像增强包括：

步骤S211：构建细节分析因子和信号分析因子，所述细节分析因子对应于高通滤波器，用于处理所述声呐图像的高频信号；所述信号分析因子对应于低通滤波器，用于处理所述声呐图像的低频信号；高频信号与低频信号的判断依据是信号与预定频率的比较结果；基于所述细节分析因子和信号分析因子，使用形态小波变换对所述声呐图像去噪；其中，所述信号分析因子配置有中值滤波器，所述中值滤波器设置有动态滤波窗，所述动态滤波窗根据所述声呐图像的不同区域的噪声情况动态调整所述动态滤波窗的尺寸；并在所述动态滤波窗对应的声呐图像的区域的中心的像素是噪声时，将该像素的像素值用所述声呐图像所有像素值的和进行替换；

步骤S212：使用平稳小波变换对去噪后的声呐图像进行图像增强，生成第二声呐图像。

可选地，对所述光学图像进行图像增强，包括：

步骤S221：复制所述光学图像，得到第一备份光学图像及第二备份光学图像，所述第一备份光学图像与所述第二备份光学图像相同；

步骤S222：使用灰度世界算法对所述第一备份光学图像进行带有颜色补偿的白平衡处理，对白平衡处理后的第一备份图像的亮部区域和暗部区域，进行区域直方图增强，得到处理后的第一备份图像；其中，亮部区域和暗部区域基于图像的预定亮度来确定，亮度高于所述预定亮度的区域为亮部区域，其余的区域为暗部区域；

步骤S223：基于预先设置的区域图像方差阈值及信息熵阈值，将所述第二备份图像分为信息区和非信息区，对所述信息区使用双边滤波去噪，对所述非信息区使用非下采样轮廓波变换去噪，得到处理后的第二备份图像；

步骤S224：对所述处理后的第一备份图像及所述处理后的第二备份图像使用显著图算法和滤波操作，得到所述第一备份图像及第二备份图像各自对应的融合权重；

步骤S225：基于所述第一备份图像及第二备份图像各自对应的融合权重，对所述第一备份图像及第二备份图像进行多尺度融合，融合为一个融合图像；

步骤S226：将所述融合图像输入图像分辨率逐级提升网络，生成第二光学图像；

所述图像分辨率逐级提升网络包括依次相连的局部特征关联模块、多倍分辨率图像生成模块及图像分辨率逐级提升模块，所述局部特征关联模块由Transformer编码器构成，所述多倍分辨率图像生成模块由GAN网络构成，所述图像分辨率逐级提升模块由采样层、像素重组和卷积层构成。

可选地，对所述点云图进行三维重建来生成第二点云图包括：

步骤S231：对拍摄光学图像的相机进行相机内参矩阵标定，将所述相机的图像坐标系进行多重转换，转换为世界坐标系，实现所述点云图、光学图像的空间配准；

步骤S232：将所述点云图投影到二维RGB图像、深度图像和标签图像，使用卷积神经网络对所述二维RGB图像进行语义分割；将分割后的二维RGB图像投影为三维点云，实现所述点云图的语义分割；

步骤S233：利用3D点云语义分割对不同的待标注对象中的目标进行上色、分割并赋予语义标签；

步骤S234：将语义分割后的点云图作为三维重建的结果，即第二点云图。

可选地，所述步骤S3中的从所述第二点云图、第二声呐图像及第二光学图像分别提取点云图特征、声呐图像特征、光学图像特征，进行图像特征融合，得到融合图像特征，包括：

步骤S311：获取所述第二点云图、第二声呐图像及第二光学图像，统一所述第二点云图、第二声呐图像及第二光学图像的时间、坐标后，得到对准后的第二点云图、第二声呐图像及第二光学图像；

步骤S312：从对准后的第二点云图、第二声呐图像及第二光学图像中分别提取图像特征，并将提取到的图像特征由前视图（FV）投影到俯视图（BEV）；

步骤S313：将俯视图（BEV）与第二点云图对应的俯视图特征进行融合作为融合图像特征。

可选地，所述步骤S3中的基于所述声呐图像特征及所述光学图像特征进行目标识别，得到第一识别结果，包括：

步骤S321：将所述声呐图像特征及所述光学图像特征输入YOLO v5神经网络模型，所述YOLO v5神经网络模型的损失函数中计算目标框和预测框的宽高的差异值；

步骤S322：所述YOLO v5神经网络模型输出所述目标的位置和所属类别，作为第一识别结果，所述目标的位置通过边界框表征。

可选地，所述步骤S4包括：

步骤S41：将所述融合图像特征及所述点云图特征输入PointPillars模型，输出所述目标的位置和所属类别，作为第二识别结果，所述目标的位置通过边界框表征；

步骤S42：获取所述第一识别结果及所述第二识别结果的目标特征，所述目标特征包括各个目标所属类别、各个目标对应的边界框位置；分别基于所述YOLO v5神经网络模型和所述PointPillars模型输出各目标所属类别的概率和各目标对应的边界框的得分来确定各个目标的置信度；

步骤S43：将全部目标按置信度按由高到低的顺序进行排列，形成目标列表；

步骤S44：对目标列表中的每个目标，均通过空间一致性检查以检查所述目标与第一目标是否存在空间关系，所述第一目标为所述第一识别结果中与所述目标对应的目标，若存在空间关系，则将所述目标与所述第一识别结果中识别到的、与所述目标存在空间关系的目标进行融合，并用融合后的目标更新所述目标列表；若不存在空间关系，则该目标保持不变；

步骤S45：将更新后的所述目标列表中的排序第一的目标作为识别结果。

所述空间一致性检查为：确定所述第一识别结果中与所述第二识别结果中的目标对应的第一目标，获取所述第一目标与所述目标的目标特征，确定所述第一目标与所述目标之间的重叠度，若重叠度大于预设阈值，则认为存在空间关系；否则，认为不存在空间关系。

在本发明中提供一种水下图像处理及目标识别的装置，包括：

数据获取模块：配置为基于针对同一水下目标获取的各类传感器数据，解析激光雷达信号、声呐信号及光电视频信号，生成对应的点云图、声呐图像及光学图像；

增强模块：配置为对所述点云图进行三维重建，生成第二点云图；对所述声呐图像及光学图像分别进行图像增强，生成第二声呐图像及第二光学图像；

第一识别模块：配置为从所述第二点云图、第二声呐图像及第二光学图像分别提取点云图特征、声呐图像特征、光学图像特征，进行图像特征融合，得到融合图像特征；基于所述声呐图像特征及所述光学图像特征进行目标识别，得到第一识别结果；

第二识别模块：配置为基于所述融合图像特征及所述点云图特征进行目标识别，得到第二识别结果，基于所述第一识别结果及所述第二识别结果进行决策级融合，得到识别结果。

在本发明中提供一种计算机可读存储介质，所述存储介质中存储有多条指令，所述多条指令用于由处理器加载并执行如前所述的方法。

在本发明中提供一种电子设备，所述电子设备，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令用于由所述存储器存储，并由所述处理器加载并执行如前所述的方法。

本发明采用基于图像去噪和增强的图像质量提升算法对水下失真的声呐和光学图像进行复原，建立水下图像成像模型，提取2D的平面图像特征，并结合激光雷达采集到的点云信息，对水下环境进行三维重建形成BEV map。构建包含目标声呐图像、热图、激光雷达信息的多源异构数据库，对采集的多模态数据利用目标识别网络YOLO v5和3D目标检测网络PointPillars进行决策级融合，充分利用了声呐图像和光学图像的二维特征和激光点云的三维特征，准确检测并识别水下目标，实现对环境的感知。

本发明能够在涉水场景中对图像进行处理，提高了图像的质量，能够有效获取关键信息，能够对目标进行准确识别和跟踪，基于高质量的图像和关键信息，提供实时的决策支持，改善自主导航和目标识别能力、涉水场景的可视化能力，帮助更好地理解和应对复杂的涉水环境，提高作业效能和生存能力。

本发明具有以下优点：

1、本发明结合声呐图像、光学图像和激光点云对水下目标进行检测，充分利用了图像的外观信息和激光点云的距离信息来提高水下目标检测与识别的质量。本发明能够充分利用图像的外观信息和激光点云的距离信息来提高水下目标检测与识别的质量，有效缓解了信息源单一导致的检测的不完整性、局限性和不确定性的问题。

2、本发明的声呐图像去噪方面使用自适应改进算法将自适应中值滤波器作为形态小波变换的低通滤波器，这样能把更高或更低像素点的噪声逐一过滤，在有效去除噪声的基础上更多的保留图像细节特征。

3、本发明的光学图像去噪方面使用改进的水下图像融合算法进行处理。在白平衡后利用局域直方图增强可以有效消除水下红色伪影的影响并改善图像的颜色和对比度；设置适当的区域图像方差和信息熵阈值来对图进行分块，避免了依赖单一特征的片面性；对图像去噪后进行分辨率提升来得到清晰图像，有效减少噪声对分辨率提升带来的影响，更好的保留图像的有效特征点。

4、本发明的基于激光点云的三维重建，在对图像进行语义分类过程中引入了注意力机制，注意力机制能够给含有信息量更大的像素点分配更大的权重分数，从而更好的捕捉有效特征点并得到更好的分类效果。

5、本发明的特征融合，将基于contfuse的多源异构信息融合算法应用于水下图像与点云的融合，有效结合了水下图像的外观信息和点云的距离信息，从而提升水下目标检测和识别的质量。

6、本发明的目标检测与识别，结合深度学习目标识别网络YOLO v5网络和3D目标检测网络Pointpillars进行决策级融合，能够综合利用它们在目标识别和3D目标检测方面的优点，提高水下目标识别与检测的准确性和全面性，并保证系统的实时性能。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为本发明水下图像处理及目标识别的方法流程示意图；

图2为本发明水下图像处理及目标识别的方法架构示意图；

图3为本发明水下声呐图像去噪及增强示意图；

图4 为本发明水下光学图像去噪及清晰化示意图；

图5 为本发明激光点云图像的三维重建过程示意图；

图6 为本发明多源信息异构数据融合示意图；

图7 为本发明基于深度学习的目标检测和识别示意图；

图8为本发明水下图像处理及目标识别的装置结构示意图；

图9为本发明水下图像处理及目标识别的电子设备结构示意图。

具体实施方式

下面，将参考附图详细地描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”、S1、S2等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本发明实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本发明实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本发明中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本发明对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性方法

图1是本发明一示例性实施例提供的水下图像处理及目标识别的方法的流程示意图。如图1-图2所示，包括以下步骤：

本发明对涉水环境的图像进行图像质量提升，并对水下物体进行目标识别与检测，以确定水下目标的位置及类别。以往技术只使用单信源进行处理，因此，针对单信源对目标特性观测存在不完整性、局限性和不确定性的问题，本发明将多源异构信息融合技术应用于涉水环境感算一体的水下视觉感知系统，从而提高水下目标检测及识别的质量。

本发明在水下光照度低、噪声干扰严重的环境下，采用基于图像去噪和增强的图像质量提升算法对水下失真的声呐和光学图像进行复原，建立水下图像成像模型，并结合激光雷达采集到的点云信息，对水下环境进行三维重建形成BEV map。构建包含目标声呐图像、光学图像、激光雷达信息的多源异构数据库，并对上述采集到的数据利用深度学习方法进行特征级与决策级融合，从而准确检测并识别水下目标，实现对水下环境的感知。

本发明主要通过基于图像去噪和增强的图像质量提升、水下环境三维重建、多源异构信息融合、基于深度学习的目标检测等关键技术，实现水下目标的检测和识别。

所述步骤S1：基于针对同一水下目标获取的各类传感器数据，解析激光雷达信号、声呐信号及光电视频信号，生成对应的点云图、声呐图像及光学图像。

本实施例中，在水下探测平台地面站，通过无线电通讯获取水下探测平台的激光雷达、声呐信号和光电视频等传感器数据，该传感器数据是针对同一水下目标生成的。

步骤S2：对所述点云图进行三维重建，生成第二点云图；对所述声呐图像及光学图像分别进行图像增强，生成第二声呐图像及第二光学图像。

所述对所述声呐图像进行图像增强，包括：

进一步地，使用平稳小波变换并结合非线性增强算法对去噪后的声呐图像进行图像增强，将声呐图像分解成高频子带和低频子带图像。

如图3所示，对水下声呐图像进行去噪及图像增强。

在图像去噪方面，大量的研究发现声呐图像中常见噪声类型主要包括高斯噪声、椒盐噪声、斑点噪声等，且声呐图像存在背景复杂、对比度差、边缘恶化、不易判读图像边缘等问题，传统的图像滤波算法，主要是通过锐化和滤波的形式进行的，难以有效保留图像细节特征。

因此，本发明着眼于根据噪声的分布特点选用合适的方法，为改善声呐图像去噪效果，在传统算法的基础上进行适应性的改进。

本发明结合以上声呐图像常见噪声的特点，提出一种基于形态小波变换的自适应图像去噪方法，如此，通过采用形态小波变换，不仅降低计算复杂度，还能够利用其非线性特性在去除图像噪声的同时保留图像边缘。

形态小波变换包含信号分析因子和细节分析因子，其中，信号分析因子（亦称算子）对应于低通滤波器，细节分析因子对应于高通滤波器。信号经过低通滤波器产生信号信息，保存了图像基本信息和几何信息，达到“保边”效果；通过高通滤波器产生细节信息，包含图像大部分噪声，可直接阈值“去噪”，整个过程满足“保边去噪”要求。

细节分析因子保持不变，采取改进的信号分析因子，使用自适应中值滤波器作为形态小波的低通滤波器，这样能把更高或更低像素点的噪声逐一过滤，更好地保留图像细节。自适应中值滤波器使用一个矩形区域的窗口，在滤波过程中，自适应中值滤波器会根据一定的设定条件改变滤波窗的大小，同时当判断滤波窗中心的像素是噪声时，将该像素值用中值代替，否则不改变其当前像素值，这样用滤波器的输出来替代像素(x,y)处(即目前滤波窗中心的坐标)的值。

自适应中值滤波总体上可以分为三步：

第一步：对图像各区域进行噪声检测；

第二步：根据各区域受噪声污染的状况确定滤波窗口的尺寸；

第三步：对检测出的噪声点进行滤波。

最后，引入平滑指数（FI）、峰值信噪比（PSNR）和边缘保持指数（EPI）作定量评价分析和主观视觉效果相结合的方法，对不同尺度、不同亮度、不同形态的目标图像去噪效果进行综合对比和分析。

在图像增强方面，本发明基于平稳小波变换并结合非线性增强算法对声呐图像进行增强，充分利用平稳小波变换多分辨率分析的特性将声呐图像分解成各子带图像。简单易行的非线性增强函数可以根据不同子带图像的特点灵活改变，从而更有针对性地增强不同子带图像。另外，平稳小波变换的平移不变性可在重构时减少图像失真。

通过对传感器采集到的声呐图像进行图像去噪和图像增强，有效改善原始图像噪点多、质量低、色彩失真的问题，获得包含更多纹理信息的高质量声呐图像，以便后续信息融合有更好的效果。

综上，对于水下声呐图像去噪和增强，步骤如下：

1）首先使用形态小波变换对实海采集声呐图像进行去噪处理，细节分析因子保持不变，对于信号分析因子进行适应性算法改进，使用自适应的中值滤波器作为形态小波的低通滤波器，从而得到去噪后的图像。

2）利用平稳小波变换并结合非线性增强算法对去噪后的声呐图像进行图像增强，利用平稳小波变换多分辨分析的特性将声呐图像分解成高频子带和低频子带图像。

3）利用去噪并增强后的图像得到重构图像。

所述对所述光学图像进行图像增强，包括：

步骤S226：将所述融合图像输入图像分辨率逐级提升网络，生成第二光学图像。

进一步地，所述图像分辨率逐级提升网络包括依次相连的局部特征关联模块、多倍分辨率图像生成模块及图像分辨率逐级提升模块，所述局部特征关联模块由Transformer编码器构成，所述多倍分辨率图像生成模块由GAN网络构成，所述图像分辨率逐级提升模块由采样层、像素重组和卷积层构成。

本实施例中，将融合图像通过下采样得到不同倍率的图像作为模型的真实的值，设置阈值来从所述不同倍率的图像中确定低分辨率图像。将低分辨率图像进行分割得到低分辨率图像序列，输入到所述局部特征关联模块，得到图像块之间的特征关联度，继而通过跳跃连接结构的GAN网络生成不同倍率的高分辨率的图像。不同倍率的图像间通过互相融合，进行分辨率逐级提升，最终得到高分辨率图像作为第二光学图像。

如图4所示，对水下光学图像进行图像增强。

水下光学图像成像容易因受到环境干扰而导致成像质量下降，水下图像的主要问题包括色偏和模糊以及低对比度。其中，色偏是由于水体对不同波长的光照吸收所造成的，前向散射光造成模糊，后向散射造成对比度下降。

本发明通过针对水下图像的退化进行水下图像的增强方法研究，来提高水下图像的质量，这也将会对后续的目标检测和特征点的提取产生重要影响。

为了提高图像的信息丰富程度，将原始光学图像复制为2份：图c1和图c2，首先利用灰度世界算法对图c1进行带有颜色补偿的白平衡处理，然后进行局域直方图增强，改善颜色和对比度，得到图c1_1；对图c2进行分块去噪，设置适当的区域图像方差和信息熵阈值，避免了依赖单一特征的片面性，将图像分为信息区和非信息区，对信息区使用双边滤波去噪，对非信息区进行非下采样轮廓波变换去噪，得到图c2_1。对图c1_1和c2_1使用显著图算法和1p1s滤波，计算得到融合权重，根据权重进行多尺度融合，得到结果图像。

对图像去噪后通过提升分辨率来获取清晰图像，避免将噪声数据作为特征点。本发明将利用基于图像局部特征关联的图像分辨率逐级提升网络进行图像高倍率提升。该网络主要由三部分组成，一个由Transformer编码器组成的图像局部特征关联模块，一个由GAN网络组成的多倍分辨率图像生成模块，以及图像分辨率逐级提升模块。将高分辨率图像通过下采样得到不同倍率的图像作为模型的Ground-truth，将低分辨率图像进行分割得到低分辨率图像序列，输入到局部特征关联模块，得到图像块之间的特征关联度，继而通过跳跃连接结构的GAN网络生成不同倍率的高分辨率的图像。不同倍率的图像间通过互相融合，进行分辨率逐级提升，最终得到高分辨率图像。

综上，水下图像去噪及清晰化的步骤如下：

1）将原始光学图像复制为两份，分别为图c1和c2；

2）利用灰度世界算法对图c1进行带有颜色补偿的白平衡处理，然后进行区域直方图增强，得到图c1_1；

3）对图c2，通过设置适当的区域图像方差和信息熵阈值将图像分为信息区和非信息区，对信息区使用双边滤波去噪，对非信息区使用进行非下采样轮廓波变换去噪，得到图c2_1；

4）对图c1_1和c2_1使用显著图算法和1p1s滤波，计算得到融合权重；

5）根据权重进行多尺度融合，得到结果图像；

6）将结果图像输入图像分辨率逐级提升网络，最后输出清晰图像。

本发明对水下光学图像进行颜色补偿、去噪和分辨率逐级提升后，解决色彩丢失、色彩失真和图像模糊的问题，获得高分辨率的光学图像，有助于增加后续特征点的提取精度以及整体目标检测识别的准确率。

本发明中，水下声呐图像由于受噪声和水下背景干扰而会引起图像质量低的问题，水下光学图像则由于光在海水中传播时衰减非常严重，会引起图像色彩丢失和色彩失真的问题。针对上述情况分别对声呐和光学图像进行图像去噪和增强算法研究，对图像中丢失的纹理以及边缘锐化等信息进行修复。本发明选择改进的形态小波变换算法对声呐图像进行去噪，同时采用平稳小波变换结合非线性增强算法对声呐图像进行增强。通过基于颜色补偿的白平衡与图像分块去噪的方法对水下光学图像进行预处理，并利用基于图像局部特征关联的图像分辨率逐级提升网络进行图像高倍率提升，最终获得高质量的水下声呐及光学图像。

如图5所示，所述对所述点云图进行三维重建，生成第二点云图，包括：

本发明中，图像有丰富的外观信息，如颜色，但是没有距离信息；点云有几何信息，但是对于远处的目标点云比较稀疏，目标识别困难，图像检测到的远处目标则没有影响。本发明利用相机内参矩阵标定、图像坐标系到相机坐标系转换矩阵标定、相机坐标系到Lidar坐标系转换矩阵标定、Lidar坐标系到世界坐标系标定、GPS / IMU定位、通过图像目标和点云目标融合，在3D点云图以外，在点云图相对应的2D图像中进行融合标注，3D点云图中的标注对象与2D图像中的标注对象一一对应，充分利用图像的外观信息和Lidar的距离信息来提高目标检测质量。

通过对Lidar点云的可视化，进行点云点级别的目标分割，本发明利用卷积神经网络进行点云的语义分割。首先将点云投影到2D RGB图像中，然后使用预训练的二维卷积神经网络对图像进行语义分类，分类的结果会按每个类而给语义图像中各像素一个分数，表示其属于各个类别的可能性。随后将分类得到的图像分割结果投影到点云图中评估标记的点云。在分类过程中引入了注意力机制，注意力机制能够给包含更大信息量的像素点分配更大的权重分数，从而更好的捕捉特征点并得到更好的分类效果。训练完成后，利用3D点云语义分割对不同的待标注对象进行上色分割、赋予语义标签，在3维立体点云中为每一个点云点添加外观信息和类别标签，实现三维重建技术。

对水下待测目标环境进行三维重建可以获得更多的未知信息，更好地还原水下三维环境和物体轮廓的深度信息，凸显目标物体的轮廓结构，以利于后续多传感器信息数据更好的融合。

所述步骤S3：从所述第二点云图、第二声呐图像及第二光学图像分别提取点云图特征、声呐图像特征、光学图像特征，进行图像特征融合，得到融合图像特征，包括：

步骤S313：将俯视图（BEV）与第二点云图所对应的俯视图特征进行融合来作为融合图像特征。

如图6所示，本发明采用基于ContFuse的多源异构信息融合算法获得融合图像特征。

本发明采用声呐图像、光学图像和激光点云对水下目标进行检测，这些数据包含了二维和三维的空间信息，但是其空间坐标不统一，采集时间不同。为了更好地利用这些信息，本发明首先在数据方面对不同传感器采集到的信息进行统一化处理，统一各传感器采集信息的时间、坐标信息，实现数据级的融合。然后利用双流网络结构在多尺度、多传感器下对激光雷达点云图和2D图像进行深度连续融合。激光雷达点云图可以还原水下三维环境和物体轮廓深度信息，可见光图像数据可用来排除无效的图像匹配，加强方案的可靠性。首先分别在图像流和点云流（BEV）使用ResNet提取特征，然后将图像特征进行多尺度融合并利用PCCN将其“投影”到BEV map上（类似于插值过程），融合图像特征以及空间位置信息，获得多方位、多尺度、多源的数据来用于后续对目标的监测和定位，为提升目标识别和检测的精度奠定基础。

综上，多源信息异构数据融合算法的步骤如下：

1）首先在水下探测平台通过无线电通讯得到声学图像、光学图像和激光点云图；

2）将声学图像、光学图像和激光点云图统一时间、坐标后进行数据级融合；

3）在图像流和点云流（BEV）上使用ResNet提取特征，并将图像特征进行多尺度融合后利用PCCN将其“投影”到BEV map上；

4）得到融合特征。

本发明中，通过ResNet和PCNN网络实现多源信息的特征融合，得到融合图像特征。

如图7所示，所述步骤S3，基于所述声呐图像特征及所述光学图像特征进行目标识别，得到第一识别结果，包括：

进一步地，所述YOLO v5神经网络模型包括依次相连的Backbone层、Neck层和Head层，所述Backbone层使用CSPDarknet53作为骨架部分，所述Backbone层用于提取所述声呐图像特征及所述光学图像特征各自对应的图像的高级特征。所述Neck层使用PANet模型，Head层包括依次相连的三个不同尺度的检测层，每个检测层用于检测不同尺寸的目标。

Backbone层包括大量的卷积层和残差层，它能够提取图像的高级特征，Neck层使用PANet作为Neck部分。PANet是一种特征金字塔网络结构，它通过上下文信息的传递来增强特征表示能力。PANet将来自不同层级的特征进行融合，以便在不同尺度上进行目标检测。Head层由三个不同尺度的检测层组成，分别称为S、M和L层。每个检测层都负责检测不同尺寸的目标。

本发明将深度特征应用到声学图像目标识别中来，与人工特征进行结合，以此提高目标识别准确率。本发明通过选用识别精度高、速度快的YOLO v5深度学习网络模型，以满足水下机器人目标识别对准确率和实时性的要求。

为了提升网络对小目标和遮挡目标的检测效果，本发明将在网络中增加更大的检测层的特征图，以使得声呐图像中的弱小目标有着很好的检测效果，加入注意力机制以提升对遮挡重叠弱小目标识别的准确率。同时引入EIoU loss损失函数，替代原有联合损失函数中的CIoU loss。EIOU loss在CIOU loss的基础上分别计算宽高的差异值来取代了纵横比，从而达到更快的收敛速度，同时引入Focal Loss解决难易样本不平衡的问题，提升回归精度。

通过提升网络对小目标和遮挡目标的检测效果，可以实现对不同尺寸、形状的水下目标都有很好的检测精度，基于YOLO v5网络与3D目标检测算法的决策级融合，达到预期的检测率与识别率的性能指标。

所述步骤S4：基于所述融合图像特征及所述点云图特征进行目标识别，得到第二识别结果，基于所述第一识别结果及所述第二识别结果进行决策级融合，得到所述目标的识别结果，包括：

步骤S45：将更新后的所述目标列表中的排序第一的目标作为所述目标的识别结果。

进一步地，所述空间一致性检查为：确定所述第一识别结果中与所述第二识别结果中的目标对应的第一目标，获取所述第一目标与所述目标的目标特征，确定所述第一目标与所述目标之间的重叠度，若重叠度大于预设阈值，则认为存在空间关系；否则，认为不存在空间关系。

本发明中，所述PointPillars模型包括依次相连的Pillar特征网络层、Backbone层及检测头层。其中，Pillar特征网络层使用非线性MLP和MaxPool运算来提取特征以构建伪Pillar特征网大小为(H，W，C)的图像，其中C表示特征尺寸；Backbone层以所述Pillar特征网络层生成的伪图像作为输入，使用堆叠的CNN层来产生最终的特征表示，其聚集了来自多个阶段的特征；所述检测头层用于对Backbone层生成的特征进行类别、边界框和方向的预测，并将它们聚合在一起以生成最终预测。

本发明的深度学习目标识别网络YOLO v5主要通过提取2D图像的二维平面特征来检测水下目标物体的类别，而3D目标检测网络Pointpillars则通过对3D点云图构建有效的三维特征来获取水下目标物体的空间位置，通过结合两个网络，可以获取多样化的特征表示，有助于更准确的获取目标位置和类别信息。此外，由于YOLOv5和PointPillars采用了不同的输入数据类型（图像和点云），将它们进行融合可以提高对不同场景和光照条件下的水下目标检测的鲁棒性。

置信度计算：对于YOLOv5和PointPillars检测到的目标，首先分别计算它们的置信度。置信度可以根据网络输出的目标概率和边界框的得分等信息进行计算。

空间一致性计算：在进行特征融合之前，需要考虑目标在空间上的一致性。可以通过计算目标之间的距离、重叠度等几何特征来评估它们的空间一致性。使用IoU（Intersection over Union）来计算目标之间的重叠度，根据计算得到的重叠度，设置一个阈值，当重叠度大于阈值时，认为两个预测目标之间存在空间关系。

根据两个网络处理得到的预测结果进行决策级融合，以确定最终的目标位置和类别。本发明综合考虑置信度和空间一致性的计算结果来进行决策级融合。决策级融合过程如下：

1）对于每个目标，根据置信度进行排序，将置信度高的目标排在前面。

2）从置信度高的目标开始，遍历目标列表。

3）对于当前目标，检查它与之前已经处理过的目标之间的空间关系。如果存在空间关系，则将当前目标与之前的目标进行融合。

4）根据融合的结果，更新目标列表。

5）继续遍历目标列表，直到所有目标都被处理。

通过将空间一致性和置信度结合，能够提高水下目标检测的准确性和鲁棒性。

进一步地，置信度计算过程如下：

1）获取YOLOv5和PointPillars检测到的目标特征；

2）可以根据网络输出的目标概率和边界框的得分等信息进行置信度计算。

进一步地，空间一致性计算过程如下：

1）获取YOLOv5和PointPillars检测到的目标特征；

2）使用IoU（Intersection over Union）来计算目标之间的重叠度；

3）根据计算得到的重叠度，设置一个阈值，当重叠度大于阈值时，认为两个预测目标之间存在空间关系。

示例性装置

图8是本发明一示例性实施例提供的水下图像处理及目标识别的装置的结构示意图。如图8所示，本实施例包括：

示例性电子设备

图9是本发明一示例性实施例提供的电子设备90的结构。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。图9图示了根据本公开实施例的电子设备的框图。如图9所示，电子设备包括一个或多个处理器91和存储器92。

处理器91可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器92可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器91可以运行所述程序指令，以实现上文所述的本公开的各个实施例的软件程序的水下图像处理及目标识别的方法以及/或者其他期望的功能。在一个示例中，电子设备还可以包括：输入装置93和输出装置94，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

此外，该输入装置93还可以包括例如键盘、鼠标等等。

该输出装置94可以向外部输出各种信息。该输出装置94可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的水下图像处理及目标识别的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的水下图像处理及目标识别的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种水下图像处理及目标识别的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，对所述声呐图像进行图像增强包括：

3.如权利要求1所述的方法，其特征在于，对所述光学图像进行图像增强包括：

所述图像分辨率逐级提升网络包括依次相连的局部特征关联模块、多倍分辨率图像生成模块及图像分辨率逐级提升模块，所述局部特征关联模块由Transformer编码器构成，所述多倍分辨率图像生成模块由GAN网络构成，所述图像分辨率逐级提升模块由采样层、用于像素重组的神经网络层和卷积层构成。

4.如权利要求1所述的方法，其特征在于，对所述点云图进行三维重建来生成第二点云图包括：

5.如权利要求1所述的方法，其特征在于，所述步骤S3中的从所述第二点云图、第二声呐图像及第二光学图像分别提取点云图特征、声呐图像特征、光学图像特征，进行图像特征融合，得到融合图像特征，包括：

步骤S312：从对准后的第二点云图、第二声呐图像及第二光学图像中分别提取图像特征，并将提取到的图像特征由前视图投影到俯视图；

步骤S313：将俯视图与第二点云图对应的俯视图特征进行融合作为融合图像特征。

6.如权利要求1所述的方法，其特征在于，所述步骤S3中的基于所述声呐图像特征及所述光学图像特征进行目标识别，得到第一识别结果，包括：

7.如权利要求1所述的方法，其特征在于，所述步骤S4包括：

步骤S45：将更新后的所述目标列表中的排序第一的目标作为识别结果；

8.一种水下图像处理及目标识别的装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条指令，所述多条指令用于由处理器加载并执行如权利要求1-7中任一项所述的方法。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令用于由所述存储器存储，并由所述处理器加载并执行如权利要求1-7中任一项所述的方法。