CN115019132A

CN115019132A - 一种用于复杂背景船舶的多目标识别方法

Info

Publication number: CN115019132A
Application number: CN202210671911.1A
Authority: CN
Inventors: 孟浩; 凌越; 田洋; 袁宁泽; 高放
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-09-06
Anticipated expiration: 2042-06-14
Also published as: CN115019132B

Abstract

本发明属于深度学习及目标识别技术领域，具体涉及一种用于复杂背景船舶的多目标识别方法。本发明利用环形注意力引导的CNN输出高级特征，以增加对复杂背景图像上目标所在区域的空间信息的获取，特别是具有不同尺度大小的复杂空间位置的船舶目标；通过低级特征通过层间相关反卷积对目标区域中局部特征的关键像素值进行加权，得到复杂背景下详细特征分布的图像；通过循环注意力引导低层特征和高层特征进行联合学习，增强了高层目标区域表达局部细节特征的能力。本发明能够在真实海况、复杂多场景海况、目标类别样本量不均衡的情况下实现船舶多目标识别，在船舶工业与海事管理等领域有较好的使用前景。

Description

一种用于复杂背景船舶的多目标识别方法

技术领域

本发明属于深度学习及目标识别技术领域，具体涉及一种用于复杂背景船舶的多目标识别方法。

背景技术

随着深度学习网络的成功发展，越来越多的研究人员将深度学习技术应用到海上和港口安防领域中，作为船舶监视的重要任务之一，具有重要的实用价值。现有的船舶分类方法多为二分类，只能对一张图像中目标进行二分类判别。而在自然场景实际应用时，往往获取的一张图像中会出现多个不同类型船只，现有的二分类船舶识别方法将会漏掉大部分船舶目标，同时降低了船舶识别的准确度。与二分类识别方法不同，多目标识别需要在给定图像中预测一组已有的目标感兴趣区域或属性。这些目标或属性通常具有复杂的空间位置、不同的尺度大小、与背景的相似颜色和遮挡等变化，这些变化条件使得识别成为一项具有实际应用价值和挑战性的任务。现有的处理多标签识别任务的深度学习方法大致分为三个方向：空间信息定位目标区域、视觉注意力机制和标签的依赖性。深度学习网络提出之前，处理多标签识别任务的最原始方法是将多标签任务视为多个单标签二分类任务单独训练。但这种方法忽略了标签和特征之间的空间相关性。随着深度学习的发展，越来越多人员提出了充分利用空间信息定位目标区域的研究方法。然而空间信息定位目标区域的方法虽然对模型的性能起到正相关作用，但引入了注释的人工成本，带来了巨大的计算量。人工注释的高昂成本使得越来越多的研究致力于直接关注并定位图像目标区域，但是视觉注意力旨在提取更多目标区域，对于复杂背景的图像容易提取与目标相似的背景信息作为高级特征输出。在标签的依赖性方面，最近很多研究工作通过图神经网络探索标签的语义信息，对标签建模可以帮助捕获与标签共存的图像特征，通过对标签的依赖和提取，提高多目标识别模型的性能。但目标具有复杂的空间位置时，模型将出现部分目标区域定位错误，降低了模型的性能。

发明内容

本发明的目的在于提供一种低层次和高层次特征联合学习，用于复杂背景船舶的多目标识别方法。

一种用于复杂背景船舶的多目标识别方法，包括以下步骤：

步骤1：获取待识别的具有复杂背景的船舶图像数据集，将其输入至添加有循环注意力模块的特征提取网络中进行特征提取；

步骤2：采用联合的高层次反卷积特征模型，融合层内自相关特征信息和层间互相关特征信息；

将具有复杂背景的船舶图像输入至添加有循环注意力模块的特征提取网络后，特征提取网络的上采样输出为M，下采样输出为H，H，M∈R^W×H×C，W，H，C分别代表特征图的宽度、高度和通道数；HH^T表示用于增强各目标区域空间信息的层内自相关，HH^TM^T表示给局部特征的关键像素值加权，计算它们的总和来构造多层次特征关联：

其中，

表示层内特征自相关和层间特征互相关捕获的局部细节特征的关键像素权重；

将关键细节特征的像素信息

与上采样的输出M相乘得到

使得关键细节特征信息

叠加在上采样的低层次输出M中：

其中，

表示包含目标区域精细局部特征的低级特征；

步骤3：搭建并训练次层次特征和高层次特征联合学习模型；

步骤3.1：将反卷积后的低层次特征输出X作为次层次特征和高层次特征联合学习模型的输入，X∈R^W×H×C；

步骤3.2：将X的张量重塑为特征矩阵，该特征矩阵由n＝W*H，C组成；

样本协方差矩阵计算为：

其中，I和1分别为n×n单位矩阵和全1矩阵；∑是一个具有唯一平方根的对称正半定协方差矩阵，∑＝Udiag(λ_i)U^T，U是正交矩阵，diag(λ_i)是对角矩阵，λ_i为特征值；

步骤3.3：计算∑的矩阵平方根Y，给定输入Y₀＝∑，Z₀＝I，耦合迭代过程如下：

其中，k＝1，....K，代表计算出矩阵唯一平方根的迭代次数，Y_k和Z_k分别逐渐向Y和Y^-1收敛；

步骤3.4：通过迹或者Frobenius范数，在后补偿中乘以协方差矩阵的平方根的迹或者使用Frobenius范数来抵消预归一化后数据幅度变化大造成的不利影响，具体计算如下：

其中，λ_i是∑的特征值；Y_N是关联的高层次反卷积特征至低层次256通道输出

的特征图；

步骤3.5：多层次特征关联输出

经过协方差池化和后补偿后输出

然后经过两个1×1卷积层，输出特征为k，k∈R^59×1×1；将k反向更新到ResNet50的高层次特征P中，P∈R^59×8×8，整个过程计算如下：

V＝Pdiag(k)+P

其中，diag(k)是维度为8×8，对角线值为k的矩阵；

步骤3.6：采用复合损失函数，包含二元交叉熵损失函数和多标签分类损失函数，其中二元交叉熵损失函数用于测量模型的最终预测图像和对应的真实图像，多标签分类损失函数用测量从上采样中恢复的图像和相应的下采样真实图像；

对于给定一个训练的数据集

I_i代表第i张图像，

代表第i张图片上相应的真实标签，复合损失函数为二元交叉熵损失函数和多标签分类损失函数的加权和：

其中

和

分别代表二元交叉熵损失函数和多标签分类损失函数，α是平衡这两项损失函数的权重参数，

和

的计算公式为：

其中，

代表第i个图像中的第j个类别预测的分数；

代表上采样恢复的第i个图像中第j个类别的分数；

步骤4：将待识别的具有复杂背景的船舶图像经过步骤1、步骤2提取得到的反卷积后的低层次特征输入至训练好的次层次特征和高层次特征联合学习模型中，完成复杂背景船舶的多目标识别。

进一步地，所述步骤1中添加有循环注意力模块的特征提取网络ResNet50有四个阶段，每个阶段都有一个特征提取模块包含一系列卷积层、ReLu和批标准化，特征提取从一个7×7卷积层和一个最大池化层将输入的具有复杂背景的船舶图像转换为256个特征图，然后从这些特征图按照ResNet50的四个阶段来获取不同层次的特征；

所述循环注意力模块通过三个卷积核为1×1的滤波器生成三个特征图Q、K、W，将Q和K进行矩阵相乘的混合运算生成特征的注意力图E，E经过softmax生成一个特征向量R；将特征向量R与特征图W相乘后进行混合运算，生成特征的注意力图T；在获得的注意力图T上，与特征图W进行矩阵相乘的混合运算，循环更新特征图W上的关键特征像素值，生成特征注意力图O，最后将生成的特征注意力图O叠加到给定输入特征图X上，得到相比于给定输入X包含更多的关键特征像素信息特征注意力图S；

所述循环注意力模块引导特征提取网络ResNet50的四个阶段进行学习，特征提取网络ResNet50的每个阶段的输出特征图作为循环注意力模块的给定输入特征图X，在给定输入特征图X上插入循环注意力模块后输出一级注意力特征图H；将一级注意力特征图H作为给定输入X，插入循环注意力模块输出二级注意力特征图H，并将二级注意力特征图H叠加到CNN的每个阶段输出的特征图X上。

本发明的有益效果在于：

本发明利用环形注意力引导的CNN输出高级特征，以增加对复杂背景图像上目标所在区域的空间信息的获取，特别是具有不同尺度大小的复杂空间位置的船舶目标；通过低级特征通过层间相关反卷积对目标区域中局部特征的关键像素值进行加权，可以得到复杂背景下详细特征分布的图像；通过循环注意力引导低层特征和高层特征进行联合学习，增强了高层目标区域表达局部细节特征的能力；通过使用训练优化方法对网络进行训练，加快网络训练速度，避免网络出现过拟合现象。本发明能够在真实海况、复杂多场景海况、目标类别样本量不均衡的情况下实现船舶多目标识别，在船舶工业与海事管理等领域有较好的使用前景。

附图说明

图1为本发明的整体网络结构图。

图2为环形注意力模型(CAG)的详细结构图。

图3为关联的高层次反卷积特征(AHDF)的详细结构图。

图4为高层次特征更新的详细概述图。

图5为CIB-ships数据集的一些样本图。

图6为Seaships数据集的一些样本图。

图7为CIB-ships测试数据集上一些目标区域和特征提取结果的示例图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明涉及一种深度学习及目标识别技术，特别涉及一种低层次和高层次特征联合学习，用于复杂背景船舶的多目标识别方法，该方法属于深度学习与计算机视觉领域的方法。

如图1所示，为本发明的网络结构图。本发明提出的多目标船舶识别模型LHJL的架构包括CAG、AHDF和高级特征对角加权k。AHDF融合了层内自相关特征信息和层间互相关特征信息，旨在提取和锁定目标区域内更详细的特征。CAG引导CNN获取更多的上下文信息，更加关注目标区域，减少背景干扰。最后，对角加权k联合学习高层特征和低层特征来预测目标类别。

一种低层次和高层次特征联合学习用于复杂背景船舶的多目标识别方法，包括以下步骤：

S1:采用ResNet50网络进行特征提取，并在网络各层中添加循环注意力机制(CAG)：

为了在没有偏移的情况下获得复杂背景中多个目标的每个目标区域的空间信息，我们提出了一种轻量级循环注意模块，逐步引导主干网络的四个级别(256、512、1024、2048)收集空间信息并产生高级特征。

所述的步骤S1包括以下子步骤

S11:特征提取网络ResNet50有四个阶段，每个阶段都有一个特征提取模块包含一系列卷积层、ReLu和BatchNormalization。特征提取从一个7×7卷积层和一个最大池化层将给定的复杂背景船舶图像转换为256个特征图。然后从这些特征图按照ResNet50的四个阶段来获取不同层次的特征；

S12:采用一个轻量级的循环注意力模块，通过三个卷积核为1×1的滤波器生成三个特征图Q、K、W，将Q和K进行矩阵相乘的混合运算生成特征的注意力图E，E经过softmax生成一个特征向量R；

S13:将生成的特征向量R与特征图W相乘后进行混合运算，生成特征的注意力图T，在获得的注意力图T上，与特征图W进行矩阵相乘的混合运算，循环更新特征图W上的关键特征像素值，生成特征注意力图O，最后将生成的特征注意力图O叠加到给定输入特征图X上，得到相比于给定输入X包含更多的关键特征像素信息特征注意力图S；

S14:采用循环注意力模块(CAG)引导CNN的四个阶段进行学习，CNN每个阶段的输出特征图作为循环注意力模块的给定输入特征图X，在给定输入特征图X上插入循环注意力模块后输出一级注意力特征图H；

S15:将一级注意力特征图H作为给定输入X，插入循环注意力模块输出二级注意力特征图H，并将二级注意力特征图H叠加到CNN的每个阶段输出的特征图X上。

S2:采用联合的高层次反卷积特征(AHDF)，融合层内自相关特征信息和层间互相关特征信息；

层间关联的高层次反卷积特征通过四层(256,512,1024,2048)层内自相关和四层(2048,1024,512,256)层间互相关，探索每个目标区域的局部精细特征，旨在提取和锁定目标区域更详细的特征，如图2所示；

所述的步骤S2包括以下子步骤：

S21:复杂背景的船舶图像作为特征提取网络ResNet50的给定输入，分别使用H和M代表ResNet50网络的下采样输出和上采样的输出，其中H,M∈R^W×H×C，W,H,C分别代表特征图的宽度、高度和通道数；

S22：H_m代表特征提取下采样四个层次的输出，其中m＝1，2，3，4分别代表ResNet50的256，512，1024，2048四个层次。M_n代表上采样四个层次的输出，其中n＝1，2，3，4分别代表上采样的2048，1024，512，256四个层次；

S23：HH^T表示用于增强各目标区域空间信息的层内自相关，HH^TM^T表示给局部特征的关键像素值加权，计算它们的总和来构造多层次特征关联：

S24：将关键细节特征的像素信息

与上采样的输出M相乘得到

使得关键细节特征信息

叠加在上采样的低层次输出M中：

表示包含目标区域精细局部特征的低级特征。

S3：搭建次层次特征和高层次特征联合学习(LHJL)模型，预测目标类别；

在协方差池化和后补偿之后，低层特征产生目标区域的关键细节特征权重k。主对角线权重k与循环注意力产生的高层特征相乘再相加，将增强局部细节特征的表达能力，提升复杂背景下船舶多目标识别的准确率。

所述步骤S3包括以下子步骤：

S31：输入X表示为反卷积后的低层次特征输出，其中X∈R^W×H×C，W，H，C分别代表特征图的宽度，高度和通道数。将输入X的张量重塑为特征矩阵，该特征矩阵由n＝W*H，C组成；

S32：样本协方差矩阵可以计算为：

其中I和1分别为n×n单位矩阵和全1矩阵。∑是一个具有唯一平方根的对称正半定协方差矩阵，它可以由奇异值分解和特征值分解计算如下：∑＝Udiag(λ_i)U^T，其中U是正交矩阵，diag(λ_i)是对角矩阵，λ_i为特征值；

S33：采用了牛顿迭代计算矩阵平方根的方法计算∑的矩阵平方根Y，给定输入Y₀＝∑，Z₀＝I，耦合迭代过程如下：

其中k＝1，....K，代表计算出矩阵唯一平方根的迭代次数，Y_k和Z_k分别逐渐向Y和Y^-1收敛；

S34：通过迹或者Frobenius范数，在后补偿中乘以协方差矩阵的平方根的迹或者使用Frobenius范数来抵消预归一化后数据幅度变化大造成的不利影响，具体计算如下：

其中λ_i是∑的特征值。Y_N是关联的高层次反卷积特征(AHDF)至低层次256通道输出

的特征图；

S35：多层次特征关联输出

经过协方差池化和后补偿后输出

然后经过两个1×1卷积层，输出特征为k，k∈R^59×1×1；

S36：将k反向更新到ResNet50的高层次特征P中，P∈R^59×8×8，整个过程计算如下：

V＝Pdiag(k)+P

其中diag(k)是维度为8×8，对角线值为k的矩阵。

S4：在搭建的LHJL网络中采用复合损失函数；

为了训练LHJL网络，采用复合损失函数，其中包含二元交叉熵损失函数(BCEloss)和多标签分类损失函数(MLSMloss)，其中BCEloss用于测量模型的最终预测图像和对应的真实图像，MLSMloss测量从上采样中恢复的图像和相应的下采样真实图像；

所述步骤S4包括以下子步骤：

S41：给定一个训练的数据集

其中I_i代表第i张图像，

代表第i张图片上相应的真实标签；

S42：采用复合损失函数，整体损失函数为二元交叉熵损失函数(BCEloss)和多标签分类损失函数(MLSMloss)的加权和：

其中

和

分别代表BCEloss和MLSMloss，α是平衡这两项损失函数的权重参数，

和

的计算公式为：

其中

代表第i个图像中的第j个类别预测的分数，

代表上采样恢复的第i个图像中第j个类别的分数。

S5：使用创建的CIB-ships数据集和公共的Seaships数据集对LHJL网络进行训练；

训练使用两个数据集，CIB-ships数据集和Seaships数据集。CIB-ships数据集是由我们收集到的图片建立的，包含59种类型的船只，超过1万张图片，其中训练集、验证集和测试集的比例为5:1:4，该数据集的实例图如图5所示；Seaships数据集由6种类型的船舶，公开可用的7000多张图片组成，其中训练集、验证集和测试集的比例为4:1:5，该数据集的示例图如图5所示；

所述步骤S5包括以下子步骤：

S51:使用0.9的动量和权重衰减为0.0001的随机梯度下降(SGD)优化器；

S52:所有层的初始学习率设置为0.001，对于1×1卷积学习率设置为0.01；

S53:在第30个和第50个epoch的动态衰减因子为10，网络总共训练了50个epoch；

S54:在网络训练期间，输入图像调整为固定的大小(即256×256)，将设为0.2。

本发明可应用于船舶数量统计、船型分类及精细识别领域。本发明利用环形注意力引导的CNN输出高级特征，以增加对复杂背景图像上目标所在区域的空间信息的获取，特别是具有不同尺度大小的复杂空间位置的船舶目标；通过低级特征通过层间相关反卷积对目标区域中局部特征的关键像素值进行加权，可以得到复杂背景下详细特征分布的图像；通过循环注意力引导低层特征和高层特征进行联合学习，增强了高层目标区域表达局部细节特征的能力；使用训练优化方法对网络进行训练，加快网络训练速度，避免网络出现过拟合现象。本发明能够在真实海况、复杂多场景海况、目标类别样本量不均衡的情况下实现船舶多目标识别，在船舶工业与海事管理等领域有较好的使用前景。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于复杂背景船舶的多目标识别方法，其特征在于，包括以下步骤：

将具有复杂背景的船舶图像输入至添加有循环注意力模块的特征提取网络后，特征提取网络的上采样输出为M，下采样输出为H，H,M∈R^W×H×C，W,H,C分别代表特征图的宽度、高度和通道数；HH^T表示用于增强各目标区域空间信息的层内自相关，HH^TM^T表示给局部特征的关键像素值加权，计算它们的总和来构造多层次特征关联：

其中，

将关键细节特征的像素信息

与上采样的输出M相乘得到

使得关键细节特征信息

叠加在上采样的低层次输出M中：

其中，

表示包含目标区域精细局部特征的低级特征；

步骤3：搭建并训练次层次特征和高层次特征联合学习模型；

步骤3.2：将X的张量重塑为特征矩阵，该特征矩阵由n＝W*H,C组成；

样本协方差矩阵计算为：

其中，k＝1,…K，代表计算出矩阵唯一平方根的迭代次数，Y_k和Z_k分别逐渐向Y和Y^-1收敛；

的特征图；

步骤3.5：多层次特征关联输出

经过协方差池化和后补偿后输出

然后经过两个1×1卷积层，输出特征为k,k∈R^59×1×1；将k反向更新到ResNet50的高层次特征P中，P∈R^59×8×8，整个过程计算如下：

V＝Pdiag(k)+P

其中，diag(k)是维度为8×8，对角线值为k的矩阵；

对于给定一个训练的数据集

I_i代表第i张图像，

其中

和

和

的计算公式为：

其中，

代表第i个图像中的第j个类别预测的分数；

代表上采样恢复的第i个图像中第j个类别的分数；

2.根据权利要求1所述的一种用于复杂背景船舶的多目标识别方法，其特征在于：所述步骤1中添加有循环注意力模块的特征提取网络ResNet50有四个阶段，每个阶段都有一个特征提取模块包含一系列卷积层、ReLu和批标准化，特征提取从一个7×7卷积层和一个最大池化层将输入的具有复杂背景的船舶图像转换为256个特征图，然后从这些特征图按照ResNet50的四个阶段来获取不同层次的特征；