CN116343050A

CN116343050A - 基于自适应权重的遥感图像噪声标注的目标检测方法

Info

Publication number: CN116343050A
Application number: CN202310603585.5A
Authority: CN
Inventors: 姚光乐; 龚海军; 王洪辉; 王子煜; 周皓然; 叶绍泽; 曾维; 彭鹏; 杨冬营
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-06-27
Anticipated expiration: 2043-05-26
Also published as: CN116343050B

Abstract

本发明公开了一种基于自适应权重的遥感图像噪声标注的目标检测方法，包括：大量获取遥感图像标注数据构成数据集D，从中选取无噪声样本构成无噪声数据集D _C；冻结基础检测模型m1的权重参数，用无噪声数据集D _C结合m1，训练自适应权重网络，得到其最优权重参数θ ^*；用数据集D对m1进行微调得到m2。微调中使用自适应权重网络计算预测目标框的置信度作为预测框的训练权重。本发明能有效地抑制不精确边界框标注对目标检测模型的不良影响，同时高效矫正不精确边界框标注，提高目标检测精度。

Description

基于自适应权重的遥感图像噪声标注的目标检测方法

技术领域

本发明涉及一种遥感图像中目标检测方法，尤其涉及一种基于自适应权重的遥感图像噪声标注的目标检测方法。

背景技术

遥感图像目标检测模型的检测精度依赖于大量精确标注的训练数据。然而由于人工标注的成本昂贵，同时数据标注对于遥感领域知识要求较高，遥感图像目标检测模型的训练数据集往往充斥着许多不精确标注数据，极大降低了遥感图像目标检测模型的检测精度。

针对目标检测模型训练不精确边界框标注数据带来的检测难题，一些计算机领域内的抗噪声学习策略与算法被提出。例如，有人提出了一个允许网络修改标注的分类与边界框交替细化的方案。有人提出的MRNet通过元学习方法动态学习分类标签和边界框标注，并在MRNet构建中利用分类信息指导边界框优化，最后通过元模型联合分类与定位信息来更新基线模型。有人使用分类loss的排序来决定预测框的可靠度，利用中心匹配机制来比较区域建议框与边界框的相似度，模型使用加权融合后的分类标签与边界框标注训练。有人提出了一种基于图像级监督的弱监督对象定位方法(WSOL)，将缺失的对象定位作为潜变量进行建模，并提出了一种新的自导向优化策略来推导缺失对象定位。利用该策略的自定向定位网络(SD-LocNet)能够对初始位置偏移较大的目标实例进行定位。还有人提出一个两步的噪声标注校正方法，建立双检测头与双分类头，首先对双回归头产生的边界框进行平均融合，其次对双分类头生成的预测类别分数进行平均选择。

但这些方法大多都是在解决分类任务的噪声标签问题的同时对不精确边界框问题进行一定的探索，没有独立地探讨在目标检测任务下解决数据集中带有大量不精确边界框标注数据的解决方案。所述边界框为针对目标进行标记的目标框。

本方法关注于遥感图像目标检测领域内噪声边界框标注数据集的学习，与噪声标注数据目标检测的方法的本质不同在于：一、遥感图像在目标分布、尺度和背景等多个方面不同于通用数据集图像，噪声边界框标注对于遥感目标检测的影响更为严重。二、上述方法在针对噪声边界框标注改进中大多依赖于样本的分类信息，包括图像级标签、对象级标签，忽略了分类类信息本身存在的不可靠性。

综上，本发明注重解决由昂贵人工成本和专家知识需要带来的遥感图像目标检测领域内数据集存在大量不精确边界框标注问题。

发明内容

本发明的目的就在于提供一种解决昂贵人工成本和专家知识需要带来的遥感图像目标检测领域内数据集存在大量不精确边界框标注问题，导致检测性能下降的问题的，基于自适应权重的遥感图像噪声标注的目标检测方法。

为了实现上述目的，本发明采用的技术方案是这样的：一种基于自适应权重的遥感图像噪声标注的目标检测方法，包括以下步骤；

（1）大量获取遥感图像标注数据构成数据集D，所述遥感图像标注数据为标注了目标类别c和目标框b的遥感图像切片，每个切片仅包含一目标，对每个切片，判断其目标是否完全被目标框包含，若是，则将该切片作为无噪声样本，将所有无噪声样本构成无噪声数据集D _C；

（2）构建一Faster R-CNN网络和一自适应权重网络；

所述Faster R-CNN网络用于对切片提取图片特征，对图片特征中的目标生成区域建议框d，并根据区域建议框d内的特征r输出目标的预测类别和预测目标框；所述自适应权重网络用于输入区域建议框d内的特征r，并输出区域建议框d的置信度；

（3）训练Faster R-CNN网络得到基础检测模型m1；

将数据集D中的切片作为输入，该切片的标注为期望输出，训练Faster R-CNN网络，得到基础检测模型m1，其网络权重为ω^* ₁；

（4）训练自适应权重网络得到其最优权重系数θ ^*；

将无噪声数据集D _C中的切片输入m1，获取m1中区域建议框d内的特征r，输入自适应权重网络中，输出d的置信度，并通过下式优化自适应权重网络，得到其最优权重参数θ ^*；

式中，θ为每次训练得到的自适应权重网络的权重参数，/>

是输入特征为r、权重参数为θ时自适应权重网络的输出，fit(d,b)为区域建议框d的置信度标签，L _confidence为计算

和fit(d,b)间的损失函数；

（5）调整基础检测模型m1，得到目标检测模型m2；

自适应权重网络采用最优权重系数θ ^*，将数据集D中切片送入基础检测模型m1，获取m1中区域建议框d内的特征r，输入自适应权重网络中得到该切片对应的置信度z，并将z作为m1中预测目标框的训练权重，训练m1，得到目标检测模型m2。

作为优选：还包括步骤（6）用m2对遥感图像切片内的目标进行识别，并输出目标的预测类别和预测目标框。

作为优选：数据集D中的切片，除无噪声样本，其余均为噪声样本，构成噪声数据集D_N，D_N中切片多于D_C。

作为优选：步骤（3）中，所述基础检测模型m1的网络权重ω^* ₁通过下式获得；

其中，x为输入的切片，ω ₁为m1的网络参数，y为目标的标注，包含类别c和目标框b，Φ(x;ω ₁)为m1的输出，L _obj是训练Faster R-CNN网络的损失函数，通过下式计算：

其中，c ^*、b ^*分别为m1对x中目标输出的预测类别和预测目标框，L _cls为交叉熵损失，L _reg为smooth_L1损失，c ^*=0时表示对预测的背景框不进行回归，c ^*∈(0,1]时表示对预测目标框进行回归，λ ₁ 为L _obj的超参数。

作为优选：所述自适应权重网络包括依次连接的展平层、第一全连接层、ReLU激活函数、第二全连接层、Sigmoid激活函数、第三全连接层；

区域建议框d内的特征r经展平层得到展平层的第一输出z1、z1经第一全连接层、ReLU激活函数得到第二输出z2，z2经第二全连接层、Sigmoid激活函数得到第三输出z3，z3再经第三全连接层得到区域建议框d的置信度z，其中，z1、z2、z3、z分别通过下式得到；

式中，flatten( )为展平层，fc( )全连接操作。

作为优选：步骤（4）中，区域建议框d的置信度标签fit(d,b)采用下式计算；

式中，D(d,b)为区域建议框d与目标框b间的中心距离，C(d,b)为区域建议框d的中心度，ρ为fit(d,b)的超参数；

、/>

、/>

分别为区域建议框d的中心点横坐标、中心点纵坐标、宽度；

、/>

、/>

分别为目标框b的中心点横坐标、中心点纵坐标、宽度；l、p、m、q分别为区域建议框d左、右、上、下四条边到目标框b中心点的距离，min（·）、max（·）分别为计算最小值、最大值。

作为优选：步骤（5）中，将d作为m1中预测目标框的训练权重，训练m1，得到目标检测模型m2，具体为，m2的网络权重ω ^* ₂通过下式获得；

式中，x为输入的切片，Ψ(x;θ ^*)是输入为x经m1得到的特征、权重参数采用θ ^*时自适应权重网络的输出，ω ₂为m2的网络参数，Φ(Ψ(x;θ ^*);ω ₂)为训练得到m2过程中的输出，y为目标的标注，包含类别c和目标框b，L _multi为训练得到m2过程中的损失函数，通过下式计算：

式中，c ^*、b ^*分别为m1对x中目标输出的预测类别和预测目标框，c ^*=0时表示对预测的背景框不进行回归，c ^*∈(0,1]时表示对预测目标框进行回归，λ ₂ 为L _multi的超参数，α为自适应权重网络输出的学习权重，x∈D _C时，α=z，否则α=1。

作为优选：所述步骤（4）中，ρ=0.1，用其控制自适应权重网络平衡。

本发明共构建两个网络，一个为Faster R-CNN网络，一个为自适应权重网络，Faster R-CNN网络用于对切片提取图片特征，对图片特征中的目标生成区域建议框d，并根据区域建议框d内的特征r输出目标的预测类别和预测目标框；自适应权重网络用于输入区域建议框d内的特征r，并输出区域建议框d的置信度。

本发明的训练整体分为三个阶段：

第一阶段，用包含噪声数据集D _N和无噪声数据集D _C的数据集D中的样本训练Faster R-CNN网络得到基础检测模型m1。

第二阶段，冻结基础检测模型m1的权重参数，用无噪声数据集D _C结合m1，训练自适应权重网络，得到其最优权重参数θ ^*。

第三阶段，冻结自适应权重网络的最优权重参数θ ^*，用数据集D结合自适应权重网络，去微调m1，具体是将数据集D的样本依次经m1和自适应权重网络后得到置信度d，再返回来将d作为m1中预测目标框的训练权重，训练m1对其进行微调，得到目标检测模型m2。

与现有技术相比，本发明的优点在于：本发明的训练包括三个阶段。第一阶段，使基础检测模型m1具有能对切片中目标输出预测类别和预测目标框的能力。第二阶段，使自适应权重网络（AWNet）学习区域建议框在特征图上裁剪的特征与真实目标边界之间的差异，具有对不精确边界框标注对象给予不同学习权重的能力。优点在于充分利用遥感图像标注数据中的无噪声标注数据，构建参数少、高效学习、可用的自适应权重网络。第三阶段，利用第二阶段中的自适应权重网络对噪声标注数据给予学习权重，指导模型学习，最后改进模型预测框。优点是将自适应权重网络融入检测模型，实现端到端的弱监督目标检测方法。

综上，本发明可以有效地抑制不精确边界框标注对目标检测模型的不良影响，同时高效矫正不精确边界框标注，提高目标检测精度。

附图说明

图1为本发明流程图；

图2a为无噪声样本的示意图；

图2b为和噪声样本的示意图；

图3a为本发明步骤（3）训练基础检测模型m1的架构图；

图3b为本发明步骤（4）训练自适应权重网络的架构图；

图3c为本发明步骤（5）调整m1得到目标检测模型m2的架构图；

图4为自适应权重网络的结构图；

图5为计算区域建议框d的中心度的示意图。

实施方式

下面将结合附图对本发明作进一步说明。

实施例1：参见图1到图5，一种基于自适应权重的遥感图像噪声标注的目标检测方法，包括以下步骤；

（2）构建一Faster R-CNN网络和一自适应权重网络；

（3）训练Faster R-CNN网络得到基础检测模型m1；

（4）训练自适应权重网络得到其最优权重系数θ ^*；

式中，θ为每次训练得到的自适应权重网络的权重参数，/>

和fit(d,b)间的损失函数；

（5）调整基础检测模型m1，得到目标检测模型m2；

数据集D中的切片，除无噪声样本，其余均为噪声样本，构成噪声数据集D_N，D_N中切片多于D_C。

步骤（3）中，所述基础检测模型m1的网络权重ω^* ₁通过下式获得；

所述自适应权重网络包括依次连接的展平层、第一全连接层、ReLU激活函数、第二全连接层、Sigmoid激活函数、第三全连接层；

式中，flatten( )为展平层，fc( )为全连接操作。

步骤（4）中，区域建议框d的置信度标签fit(d,b)采用下式计算；

从公式中可以看出，fit(d, b)与D(d,b)和C(d,b)有关；D(d,b)为区域建议框d与目标框b间的中心距离，虽然区域建议框d相对于目标框b所在位置存在一定误差，但是其中心仍靠近目标，通过计算D(d,b)，可得到d和b之间的适配程度。C(d,b)为区域建议框d的中心度，以区域建议框d的边界与目标框b的中心的归一化距离。区域建议框d越接近b中心点，其中心度越大，由此来评估区域建议框的可靠程度。ρ为fit(d,b)的超参数；/>

、/>

、/>

分别为区域建议框d的中心点横坐标、中心点纵坐标、宽度；/>

、/>

、/>

步骤（5）中，将d作为m1中预测目标框的训练权重，训练m1，得到目标检测模型m2，具体为，m2的网络权重ω ^* ₂通过下式获得；

所述步骤（4）中，ρ=0.1，用其控制自适应权重网络平衡。

实施例2：参见图1到图5，在实施例1的基础上，还包括步骤（6）用m2对遥感图像切片内的目标进行识别，并输出目标的预测类别和预测目标框。

关于无噪声样本和噪声样本，如图2a和图2b所示，展示了两张遥感图像切片，切片中的目标均为飞机，方框为目标框，其中图2a中飞机完全被目标框包含，为无噪声样本，图2b中飞机未完全被目标框包含，为噪声样本。

关于步骤（4）：D(d,b)、C(d,b)的计算公式中提到了l、p、m、q。l、p、m、q分别为区域建议框d左、右、上、下四个方向到目标框b中心点的距离，标注可参见图5，结合图5，我们可以给出l、p、m、q的计算公式如下：

实施例3：参见图1到图5，为了说明本发明效果，对于数据集D的数据来源，我们选用DOTA公共数据集，该数据集是用于目标检测的公共可用航空遥感数据集。DOTA中的物体有不同的尺度、方向和形状，每个图像的分辨率范围从800×800像素到4000×4000像素，包含了15个类别数据，共188282个实例。本方法为统一图像尺寸，将DOTA数据集图像裁剪为800×800像素。最后，提取了2400张用于训练的图像和600张用于评估的图像，构成数据集D。

为了模拟真实遥感场景中的不精确边界框标注，对遥感图像数据集大部分目标框标注添加均匀噪声偏移，同时对少量目标框不添加噪声偏移，我们在训练集图像中随机抽取95%的图像对目标框标注添加均匀分布的噪声偏移，其余5%图像的目标框标注不作噪声偏移。

为了更好的添加噪声偏移，我们设置了一个偏移量σ控制生成的噪声范围，目标框的左下点坐标（x _min ，y _min）、右上点坐标（x _max ，y _max）均由σ控制偏移，以得到新的目标框坐标，左下点坐标为（x ^* _min ，y ^* _min）、右上点坐标为（x ^* _min ，y ^* _min）。为了更精确地模拟真实遥感噪声，我们设置噪声偏移γ为偏移量σ的取值范围因子，即σ在[1-γ,1+γ]中均匀选取，γ={0.5,0.7,0.9}。添加噪声偏移的公式如下：

然后，我们将添加了噪声偏移的大量数据放在一起，构成噪声数据集D _N、不添加噪声偏移的少量数据放在一起，构成无噪声数据集D _C，D _N和D _C构成数据集D。

本发明的m1是采用在ImageNet上预训练的ResNet50，作为Baseline。我们使用SGD优化器训练网络，首先m1，设置Batch_size为10，初始学习率大小为0.01，动量衰减系数和权值衰减系数分别为0.9和0.0005。其次冻结m1，利用相同实验设置在5%无噪声标注数据上训练AWNet，最后解冻基础模型，将AWNet加入基础模型以相同实验设置继续实验。

我们还通过以下几种方法对上述数据集D进行目标检测，分别得到检测结果的mAP指标，所述mAP指标为mean Average Precision，即平均精确度。本方法的实验中采取的mAP为mAP@.5。

（1）Clean方法：将不作任何噪声偏移的DOTA遥感数据集，用Baseline方法进行测试，该测试结果作为实验效果上界。

（2）Baseline方法：将经过噪声偏移得到的数据集D，用Baseline方法进行测试，该测试结果作为实验效果下界。

（3）Finetuning方法：在得到模型m1的基础上，用95%噪声标注数据对应的5%无噪声标注数据直接微调模型m1。

（4）SSD方法：采用SSD检测器对数据集D进行目标检测；

（5）Yolov3方法：采用Yolov3算法对数据集D进行目标检测；

（6）本发明方法，对数据集D进行目标检测。

对比结果如下表1

表1：不同方法得到的mAP指标对比结果

从表1可以看出：

（1）本方法在当前噪声标注问题设置下优于遥感图像目标检测领域其他常用高效目标检测器和Baseline，且在该问题设置下的大多数情况明显优于Finetuning，这表明了本方法有效抑制了大量不精确边界框标注数据对遥感图像目标检测造成的性能弱化。

（2）本发明方法，在噪声偏移0.9时效果最为明显，相比Baseline超出7.7%，相比于Finetuning超出3.9%。这表明了本方法在不精确边界框标注数据更多、边界框标注精确程度更差的情况下相比于其他方法更具优势。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自适应权重的遥感图像噪声标注的目标检测方法，其特征在于：包括以下步骤；

（2）构建一Faster R-CNN网络和一自适应权重网络；

（3）训练Faster R-CNN网络得到基础检测模型m1；

（4）训练自适应权重网络得到其最优权重系数θ ^*；

式中，θ为每次训练得到的自适应权重网络的权重参数，/>

和fit(d,b)间的损失函数；

（5）调整基础检测模型m1，得到目标检测模型m2；

2.根据权利要求1所述的基于自适应权重的遥感图像噪声标注的目标检测方法，其特征在于：还包括步骤（6）用m2对遥感图像切片内的目标进行识别，并输出目标的预测类别和预测目标框。

3.根据权利要求1所述的基于自适应权重的遥感图像噪声标注的目标检测方法，其特征在于：数据集D中的切片，除无噪声样本，其余均为噪声样本，构成噪声数据集D_N，D_N中切片多于D_C。

4.根据权利要求1所述的基于自适应权重的遥感图像噪声标注的目标检测方法，其特征在于：步骤（3）中，所述基础检测模型m1的网络权重ω^* ₁通过下式获得；

5.根据权利要求1所述的基于自适应权重的遥感图像噪声标注的目标检测方法，其特征在于：所述自适应权重网络包括依次连接的展平层、第一全连接层、ReLU激活函数、第二全连接层、Sigmoid激活函数、第三全连接层；

式中，flatten( )为展平层，fc( )全连接操作。

6.根据权利要求1所述的基于自适应权重的遥感图像噪声标注的目标检测方法，其特征在于：步骤（4）中，区域建议框d的置信度标签fit(d,b)采用下式计算；

、/>

、/>

分别为区域建议框d的中心点横坐标、中心点纵坐标、宽度；

、/>

、/>

7.根据权利要求1所述的基于自适应权重的遥感图像噪声标注的目标检测方法，其特征在于：步骤（5）中，将d作为m1中预测目标框的训练权重，训练m1，得到目标检测模型m2，具体为，m2的网络权重ω ^* ₂通过下式获得；

式中，c ^*、b ^*分别为m1对x中目标输出的预测类别和预测目标框，c ^*=0时表示对预测的背景框不进行回归，c ^*∈(0,1]时表示对预测目标框进行回归，λ ₂ 为L _multi的超参数，α为自适应权重网络输出的学习权重，x∈D _C时，α =z，否则α=1。

8.根据权利要求1所述的基于自适应权重的遥感图像噪声标注的目标检测方法，其特征在于：所述步骤（4）中，ρ=0.1，用其控制自适应权重网络平衡。