CN109766938A

CN109766938A - 基于场景标签约束深度网络的遥感影像多类目标检测方法

Info

Publication number: CN109766938A
Application number: CN201811621987.3A
Authority: CN
Inventors: 李彦胜; 李鑫伟; 张永军
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-17

Abstract

本发明公开了一种基于场景标签约束深度网络的遥感影像多类目标检测方法，目的是为了现有方法仅适用于自然场景图象，不能有效地推广到遥感图像目标检测中，同时解决现有方法不能简单的由单一类别推广到多类目标识别等问题。本发明提出的弱监督深度网络，利用了场景对之间的相似性，仅仅使用场景标签进行网络的训练，大大降低了训练目标识别网络的标记成本。同时利用重采样和滑动窗口，使本发明更加适用于遥感图像的目标识别。

Description

基于场景标签约束深度网络的遥感影像多类目标检测方法

技术领域

本发明属于图像数据处理方法，具体涉及一种基于场景标签约束深度网络的遥感影像多类目标检测方法。

背景技术

近年来在多种应用需求的推动下，多类目标检测引起了越来越多的研究兴趣。如何准确高效的检测目标是非常重要的。由于深度学习的巨大成功，基于深度网络的目标检测被广泛应用于遥感影像的目标检测中。

早期基于深度学习的目标检测方法，高度依赖于大规模目标边框的标记来训练深度网络。众所周知，边框的标记十分耗时，并且当目标的数量非常大时边框标记几乎是不可能的。为了回避边框标记耗时的问题，基于场景标签约束的深度学习方法被应用于图像目标检测消除目标边框标记的依赖，仅需场景级的标记作为监督信息，但是已有方法只适用于自然场景图象。由于遥感图像中除了待检测的目标外，还存在大量的复杂背景，同时遥感图像中的目标的方向及尺度变化较大。这些原因都导致了前面的方法不能有效地推广到遥感图像目标检测中。近年来也有方法在遥感图像目标检测领域做出了尝试，但是方法不能简单的由单一类别(即一幅影像中只包含一种类别的对象)推广到多类目标识别。

发明内容

本发明提出一种基于场景标签约束深度网络的遥感影像多类目标检测方法，用来解决遥感影像多类目标检测问题。

本发明所采用的技术方案是：基于场景标签约束深度网络的遥感影像多类目标检测方法，包括以下步骤：

步骤1，首先设遥感影像数据集为{(I_i,y_i)|i＝1,2,...,N}，其中I_i表示遥感影像，y_i表示影像包含的对象类别标记，计算影像数据集中的相似性矩阵Θ¹∈R^N×N，其中如果两幅影像标签相同反之则

步骤2，在训练阶段的阶段一，构建学习网络Ψ＝{C,Γ)，其中C表示卷积权值，Γ表示阶段一中全连接层的参数，全连接层输入是卷积层最后一层的特征经过分解得到的向量；

步骤3，根据相似性计算函数，计算属于同一类别的影像经过学习网络Ψ＝{C,Γ)后两两之间的相似性；

步骤4，选取合适的阶段一损失函数，利用后向传播更新全部学习网络参数Ψ＝{C,Γ)

步骤5，重复步骤3-4直到达到迭代次数；

步骤6，在训练阶段的阶段二，构建另一个学习网络P＝{C,W}，固定阶段一中学习的卷积权值C，将其作为卷积层的参数，即P网络与Ψ网络的卷积权值是一致的，卷积层的输出为其中k表示通道数，i表示是第i幅影像，(x,y)表示影像的行列数；对进行全局池化操作，得到T_i，T_i是一个向量，是向量第k维的值；

步骤7，网络P中的是一层新的全连接层，即阶段二中的类激活权值，其中c表示权值连接的类别，k表示输入向量的通道数，全连接层W的输入是步骤6中的T_i；

步骤8，选取合适的阶段二损失函数，利用后向传播更新全部网络参数P＝{C,W}；

步骤9，在测试阶段，构建新的网络Ω＝{C,W}，该网络通过去掉学习网络P＝{C,W}中的全局池化操作得到，经过对每一幅影像I_i重采样建立影像金字塔

步骤10，设置一个窗口在影像上滑动作为网络Ω＝{C,W}的输入，经过镶嵌和重采样得到不同分辨率影像的CAM和包含目标的类别概率对各个分辨率影像的CAM和概率进行融合，得到每幅影像的和类别概率p(y＝c|I_i)，其中CAM即类激活响应图像(class-specific activation maps)；

步骤11，在步骤10得到的CAM和类别概率基础上，进行影像分割，得到目标的位置和边框。

进一步的，步骤3中的相似性计算函数定义为：

其中表示影像经过Ψ＝{C,Γ)计算得到的特征向量，l表示的维数，ρ为相似因子。

进一步的，步骤4中的阶段一损失函数采用交叉熵函数与L2约束项定义为：

其中λ为正则化系数，表示步骤1中的相似性矩阵，

整个梯度下降公式表示为：

其中m是向量f_i的通道数。

进一步的，步骤8中的阶段二损失函数定义为，

其中表示训练阶段中阶段二的全连接层的偏移参数。

进一步的，步骤9建立影像金字塔具体方法为，对影像进行内插和重采样操作，降低和提高其分辨率，内插和重采样后影像尺寸与原影像尺寸的比值为{0.25，0.50，1.0，1.5}。

进一步的，步骤10的具体实现包括以下子步骤：

步骤10.1，对于一幅遥感影像I_i，经过步骤9产生了的多分辨率影像集，设置一个256*256的滑动窗口，滑动步长设为128，对于影像窗口在其上滑动，取得多幅子影像其中i表示遥感影像的序号，m表示遥感影像I_i产生的多分辨率影像序号，n表示影像产生的子影像的序号；

步骤10.2，将影像作为网络Ω＝{C,W}的输入得到输出图像

步骤10.3，对前一步骤得到的进行镶嵌操作，得到多分辨率影像集中影像的

步骤10.4，对中每一幅影像进行内插重采样，使这些影像尺寸与原始影像I_i一致；

步骤10.5，融合取每个像素的最大值作为融合影像的灰度值，得到影像I_i的CAM

步骤10.6，将步骤10.1得到的子影像作为网络P＝{C,W}的输入，得到子影像包含目标类别的概率

步骤10.7，取概率的最大值，得到影像包含目标类的概率，则多分辨率影像集的概率为

步骤10.8，取的最大值作为影像I_i包含目标类的概率，即

进一步的，步骤11中图像分割的具体步骤如下，

步骤11.1，对一幅CAM，取thFactor·maxVal作为阈值，其中maxVal是CAM中最大灰度值，thFactor是一个常数；

步骤11.2，使用上一步骤的阈值对CAM中的每一灰度值进行判断，大于该阈值则为目标像素。

与现有技术相比，本发明的优点和有益效果：本发明提出的弱监督深度网络，利用了场景对之间的相似性，仅仅使用场景标签进行网络的训练，大大降低了目标识别网络的训练成本。同时利用重采样和滑动窗口，使本发明更加适用于遥感图像的目标识别。

附图说明

图1为本发明实施例的训练阶段流程图；

图2为本发明实施例的测试阶段流程图；提出的方法包括训练阶段和测试阶段。训练阶段用于学习整个网络参数，测试阶段基于训练好的网络进行特征计算和对象检测。

图3为用于得到图像包含任意一类目标概率的网络结构；

图4为一种简单的图像分割方法的实例；

图5为一些图像的CAM实例。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1、图2流程图，本发明提供的一种基于场景标签约束深度网络的遥感影像多类目标检测方法，包括以下步骤：

步骤1：首先设遥感影像数据集为{(I_i,y_i)|i＝1,2,...,N}，其中I_i表示遥感影像，y_i表示影像包含的对象类别标记。计算影像数据集中的相似性矩阵Θ¹∈R^N×N，其中如果两幅影像标签相同反之则

步骤2：在训练阶段的阶段一，构建学习网络Ψ＝{C,Γ)，其中C表示卷积权值，Γ表示阶段一中全连接层的参数，该全连接层输入是卷积层最后一层的特征经过分解得到的向量。

步骤3：根据相似性计算函数，计算属于同一类别的影像经过学习网络后两两之间的相似性。

相似性计算函数可定义为：

其中表示影像经过Ψ＝{C,Γ)计算得到的特征向量，l表示的维数，ρ为相似因子，设为0.5。

步骤4：选取合适的阶段一损失函数，利用后向传播更新全部学习网络参数Ψ＝{C,Γ)。

阶段一损失函数采用交叉熵函数与L2约束项可以定义为：

其中λ为正则化系数，设置为10。表示步骤1中的相似性矩阵，f_i与步骤3中一致。

整个梯度下降公式可以表示为：

其中m是向量f_i的通道数。

步骤5：重复步骤3-4直到达到迭代次数，其中迭代次数根据具体任务选取。

步骤6：在训练阶段的阶段二，构建另一个学习网络P＝{C,W}，如图3所示，固定阶段一中学习的卷积权值C，将其作为卷积层的参数，即P网络与Ψ网络的卷积权值是一致的。卷积层的输出为其中k表示通道数，i表示是第i幅影像，(x,y)表示影像的行列数。对进行全局池化操作，得到T_i，T_i是一个向量，是向量第k维的值。

步骤7：网络P中的是一层新的全连接层，即图1阶段二中的类激活权值，其中c表示权值连接的类别，k表示输入向量的通道数。全连接层W的输入是步骤6中的T_i。

步骤8：选取合适的阶段二损失函数，利用后向传播更新全部网络参数P＝{C,W}。

阶段二损失函数可定义为：

其中表示训练阶段中阶段二的全连接层的偏移参数。

步骤9：在测试阶段，构建新的网络Ω＝{C,W}，如图2所示，该网络与网络P＝{C,W}参数一致，不同在于去掉了网络P中的全局池化操作。经过对每一幅影像I_i重采样建立影像金字塔

步骤9建立影像金字塔具体方法为，对影像进行内插和重采样操作，降低和提高其分辨率，内插和重采样后影像尺寸与原影像尺寸的比值为{0.25，0.50，1.0，1.5}。

步骤10：设置一个窗口在影像上滑动作为网络Ω＝{C,W}的输入，经过镶嵌和重采样得到不同分辨率影像的CAM和包含目标的类别概率其中c含义与步骤7中一致。对各个分辨率影像的CAM和概率进行融合，得到每幅影像的和类别概率p(y＝c|I_i)，其中CAM即类激活响应图像(class-specific activation maps)。

步骤10的具体实现包括以下子步骤：

步骤10.1：对于一幅遥感影像I_i，经过步骤9产生了的多分辨率影像集。设置一个256*256的滑动窗口，滑动步长设为128。对于影像窗口在其上滑动，取得多幅子影像其中i表示遥感影像的序号，m表示遥感影像I_i产生的多分辨率影像序号，n表示影像产生的子影像的序号。

步骤10.2：将影像作为网络Ω＝{C,W}的输入得到输出图像

步骤10.3：对前一步骤得到的进行镶嵌操作，得到多分辨率影像集中影像的

步骤10.4：对中每一幅影像进行内插重采样，使这些图像尺寸与原始图像I_i一致。

步骤10.5：融合取每个像素的最大值作为融合图像的灰度值，得到影像I_i的CAM

步骤10.6：将步骤10.1得到的子影像作为网络P＝{C,W}的输入，可以得到子影像包含目标类别的概率

步骤10.7：取概率的最大值，得到影像包含目标类的概率，则多分辨率影像集的概率为

步骤10.8：取的最大值作为影像I_i包含目标类的概率，即

步骤11：在步骤10得到的CAM和类别概率基础上，进行影像分割，得到目标的位置和边框。

步骤11中的图像分割方法有多种，可以根据具体情况选择适合的方法。这里仅以一种较为简单的分割方法作为说明，具体步骤如下：

步骤11.1：对一幅CAM，取thFactor·maxVal作为阈值，其中maxVal是CAM中最大灰度值，thFactor是一个常数。

步骤11.2：使用上一步骤的阈值对CAM中的每一灰度值进行判断，大于该阈值则为目标像素。图4为一个分割的具体例子，左图是一幅包含棒球场的遥感影像，右图是得到的CAM，使用该方法即可从右图中得到棒球场位置。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于场景标签约束深度网络的遥感影像多类目标检测方法，其特征在于，包括以下步骤：

步骤5，重复步骤3-4直到达到迭代次数；

2.根据权利要求1所述的基于场景标签约束深度网络的遥感影像多类目标检测方法，其特征在于：步骤3中的相似性计算函数定义为：

其中Υ_i,j＝(f_i ^Tf_j)/(ρ·l)，表示影像经过Ψ＝{C,Γ)计算得到的特征向量，l表示的维数，ρ为相似因子。

3.根据权利要求2所述的基于场景标签约束深度网络的遥感影像多类目标检测方法，其特征在于：步骤4中的阶段一损失函数采用交叉熵函数与L2约束项定义为：

其中λ为正则化系数，表示步骤1中的相似性矩阵，

整个梯度下降公式表示为：

其中m是向量f_i的通道数。

4.根据权利要求1所述的基于场景标签约束深度网络的遥感影像多类目标检测方法，其特征在于：步骤8中的阶段二损失函数定义为，

其中表示训练阶段中阶段二的全连接层的偏移参数。

5.根据权利要求1所述的基于场景标签约束深度网络的遥感影像多类目标检测方法，其特征在于：步骤9建立影像金字塔具体方法为，对影像进行内插和重采样操作，降低和提高其分辨率，内插和重采样后影像尺寸与原影像尺寸的比值为{0.25，0.50，1.0，1.5}。

6.根据权利要求1所述的基于场景标签约束深度网络的遥感影像多类目标检测方法，其特征在于：步骤10的具体实现包括以下子步骤：

步骤10.2，将影像作为网络Ω＝{C,W}的输入得到输出图像

步骤10.8，取的最大值作为影像I_i包含目标类的概率，即

7.根据权利要求1所述的基于场景标签约束深度网络的遥感影像多类目标检测方法，其特征在于：步骤11中图像分割的具体步骤如下，