CN114201632B

CN114201632B - 一种面向多标记目标检测任务的标签带噪数据集扩增方法

Info

Publication number: CN114201632B
Application number: CN202210149500.6A
Authority: CN
Inventors: 丰硕; 汪剑超; 李绍园
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-05-06
Anticipated expiration: 2042-02-18
Also published as: CN114201632A

Abstract

本发明属于计算机图像生成技术领域，公开了一种面向多标记目标检测任务的标签带噪数据集扩增方法，该方法针对深度神经网络容易过拟合噪声标签的问题，引入干净标签估计矩阵，以空间变换网络作为骨干网络的条件生成对抗网络，从标签带噪的目标检测数据集中学习到干净的标签条件生成分布，在指定目标边界框位置生成指定类别的目标的图像，在测试阶段基于给定的类别标签和边界框信息生成目标检测数据集。本发明通过引入考虑标签噪声的用于图像真假分类的损失函数，可使模型条件生成对抗网络模型从标签带噪且类别不平衡的多目标检测数据集中，生成高质量标注的多目标检测图像，扩增了目标检测数据集，缓解了对带有准确标注信息的数据日益增大的需求。

Description

一种面向多标记目标检测任务的标签带噪数据集扩增方法

技术领域

本发明属于计算机图像生成技术领域，具体涉及一种面向多标记目标检测任务的标签带噪数据集扩增方法。

背景技术

目标检测数据集是一种多标记图像数据集，目标类别标签组合形式多样。若图像中存在多个目标，标注时相较于单标记数据集更加困难，且类别标签的取值是离散值，因此，类别标签容易含有大量噪声。由于图像边界框集中的标签取值为连续型，虽然每张图像边界框标记有些许误差，但从整个数据集上来看误差可以忽略不计。

条件生成对抗网络的训练需要带准确标注信息的数据集，但是实际中可获得的目标检测数据集的类别标签往往包含大量噪声，而条件生成对抗网络有强大的拟合能力，容易对噪声数据过拟合，这会影响生成数据的质量以及类别准确性。

发明内容

本发明的目的在于提出一种面向多标记目标检测任务的标签带噪数据集扩增方法，以便从标签带噪的目标检测数据集中生成新的标注正确的目标检测数据，从而缓解对带有准确标注信息的数据日益增大的需求问题，节省标注成本。

本发明为了实现上述目的，采用如下技术方案：

一种面向多标记目标检测任务的标签带噪数据集扩增方法，包括如下步骤：

步骤1. 获取图像集X、带噪类别标签集

和目标边界框集Y_b，组成目标检测数据集D；

其中，数据集D的表达形式为D=(X,

,Y_b)；

步骤2. 基于数据集D学习深度卷积神经网络分类器f，并基于深度卷积神经网络分类器f对数据集D中各个目标的分类结果，得到干净标签估计矩阵T；

步骤3. 构建基于空间变换网络的条件生成对抗网络模型；

条件生成对抗网络模型包括用于在指定目标边界框位置生成指定类别的目标的图像的生成器G，以及用于判断图像为真实训练数据还是生成器G产生的数据的判别器D；

步骤4.构建考虑标签噪声的用于图像真假分类的损失函数L；

步骤5. 基于随机梯度下降交替更新生成器G与判别器D的参数，重复迭代过程至最大迭代次数M，完成条件生成对抗网络模型的训练，并保留生成器G的模型参数φ；

步骤6. 导出保留的生成器G的模型参数φ，基于给定的类别标签和边界框位置，利用生成器G生成用于目标检测的带标注信息的图像；

其中，生成器G生成的图像、给定的类别标签以及边界框位置，组成扩增的数据集。

本发明具有如下优点：

如上所述，本发明述及了一种面向多标记目标检测任务的标签带噪数据集扩增方法，该方法针对深度神经网络容易过拟合噪声标签的问题，通过引入干净标签估计矩阵，以空间变换网络作为骨干网络的条件生成对抗网络，从标签带噪的目标检测数据集中学习到干净的标签条件生成分布，在指定目标边界框位置生成指定类别的目标的图像，在测试阶段基于给定的类别标签和边界框信息，生成目标检测数据集。本发明方法通过引入考虑标签噪声的用于图像真假分类的损失函数，可使模型条件生成对抗网络模型从标签带噪且类别不平衡的多目标检测数据集中，生成高质量标注的多目标检测图像，扩增了目标检测数据集，从而缓解了对带有准确标注信息的数据日益增大的需求问题，节省了标注成本。

附图说明

图1为本发明中面向多标记目标检测任务的标签带噪数据集扩增方法的流程示意图。

图2为本发明中由噪声标签估计干净标签的示意图。

图3为本发明条件生成对抗网络模型中生成器的结构示意图。

图4为本发明条件生成对抗网络模型中判别器的结构示意图。

图5为本发明中用于提取目标的空间变换网络的示意图。

图6为本发明中用于生成目标的空间变换网络的示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

本实施例述及了一种面向多标记目标检测任务的标签带噪数据集扩增方法，以缓解对带有准确标注信息的数据日益增大的需求问题，节省标注成本。

如图1所示，面向多标记目标检测任务的标签带噪数据集扩增方法，包括如下步骤：

步骤1. 获取图像集X、带噪类别标签集

和目标边界框集Y_b，组成目标检测数据集D。

其中，数据集D的表达形式为D=(X,

,Y_b)。

图像集X的目标类别标签可通过人工标记的方式获取，比如询问专家或者众包等方式，当然也可通过自动收集的方式获取，比如爬虫。

然而这些方式实际收集到的标记

中包含着大量错误标签。

如果直接在这些采集到的数据集上学习一个条件生成对抗网络模型，它将会对数据的噪声类别标签过拟合，从而导致生成数据的质量和类别准确性下降。

已有的学习理论表明：通过引入干净标签估计矩阵模型，条件生成对抗网络可以从标签带噪的目标检测数据集中学习到干净的标签条件生成分布。

干净标签估计矩阵是一类常用的噪声模型，它刻画了图像中各个类别之间的翻转概率，以此来实现噪声标签和干净标签概率分布之间的映射。

而干净标签估计矩阵可以通过对模型训练早停，在模型过拟合噪声标记之前挑选置信度高的预测作为对应样本的真实类别标记，使用这部分样本得到干净标签估计矩阵。

图像集X的目标边界框集Y_b一般可通过人工标记的方式获取，其中一张图像x对应多个目标，每个目标对应一个带噪类别标签

和一个边界框标签即目标边界框y_b。

目标边界框y_b含有四个参数x’、y’、w’和h’，其中，(x’, y’)表示目标的中心位置的坐标，w’和h’分别表示目标的宽和高，四个参数取值范围均为(0,1)。

由于目标边界框集Y_b中的标签取值为连续型，虽然每张图像边界框标记有些许误差，但从整个数据集上来说误差可以忽略不计。

目标是指目标检测图像中的物体，目标检测图像中通常含有多个物体，即含有多个目标。

步骤2. 基于数据集D学习深度卷积神经网络分类器f，基于深度卷积神经网络分类器f对数据集D中各个目标的分类结果，得到干净标签估计矩阵T。

干净标签估计矩阵T的表达形式如下：T_i，j=P(

=j|

=i)。

其中,

表示干净标签，

表示噪声标签，T_i，j是干净标签估计矩阵T第i行、第j列的元素，T_i，j表示噪声标签为类别i的样本其干净类别为j的概率。

干净标签估计矩阵T是一个N×N的矩阵，的每一行元素之和均为1，其具体形式为：

∑^N _j=1T_i,j=1；

其中，i=1,2...N，j=1,2...N，N表示类别的总数。

对于图像x中的每个目标x ₀，定义噪声标签概率分布P(

=i|x ₀)表示目标x ₀的噪声标签为类别i的概率，定义干净标签概率分布P(

=j|x ₀)表示目标x ₀的干净标签为类别j的概率。

干净标签估计矩阵T将P(

=i|x ₀)映射为P(

=j|x ₀)，其具体形式为：

P(

=j|x ₀) = ∑^N _i=1T_i,jP(

=i|x ₀)。

结合图2所示，步骤2的具体过程如下：

步骤2.1. 提取数据集D=(X,

,Y_b)的所有目标区域以及对应的带噪类别标签，将每个目标区域缩放到统一的宽度和高度，构成分类数据集D ₁=(X₁,

)。

其中，X₁表示单目标图像集，

表示噪声标签集。

步骤2.2. 按照分层采样准则将分类数据集D ₁划分为训练集D ₂=(X₂,

)和验证集D ₃=(X₃,

))；其中，训练集D ₂与验证集D ₃中的样本量之比为9：1。

其中，X₂表示单目标图像训练集，

表示噪声标签训练集；X₃表示单目标图像验证集，

表示噪声标签验证集。

步骤2.3. 为训练集D ₂构建深度卷积神经网络分类器f，在训练噪声标签集

上构建交叉熵损失函数L^’ ₁,在验证噪声标签集

上构建交叉熵损失L _v。

其中，L _v表示第v轮训练后深度卷积神经网络分类器f在噪声标签验证集

的交叉熵损失。v=1,2,…,n-1，n为深度卷积神经网络分类器f刚好过拟合时的轮数。

步骤2.4. 在训练集D ₂上基于随机梯度下降对交叉熵损失函数L^’ ₁进行最小化，更新深度卷积神经网络分类器f的参数，记录在训练集D ₂上每一轮训练结束后深度卷积神经网络分类器f在验证集D ₃上的交叉熵损失L _v。

保存每一轮训练结束后深度卷积神经网络分类器f的参数O_v。

如果L _v+1＞L _v，说明深度卷积神经网络分类器f在训练集D ₂已经过拟合，停止训练，并将上一轮训练得到的参数O_v作为深度卷积神经网络分类器f的最终参数O。

其中，L _v+1表示第v+1轮训练后深度卷积神经网络分类器f在噪声标签验证集

的交叉熵损失。

步骤2.5. 将参数O导入到深度卷积神经网络分类器f中。

对于每一种类别，从深度卷积神经网络分类器f的所有预测结果为该类别的图像中按照预测概率由大到小的顺序挑选出前k张图像，组成图像集X₀’。

步骤2.6. 以深度卷积神经网络分类器f的预测类别作为图像集X₀’的干净标签Y₀’，将图像集X₀’及其干净标签Y₀’组成数据集D₀’，D₀’=（X₀’,Y₀’）。

步骤2.7. 基于数据集D₀’得到干净标签估计矩阵T，具体过程如下：

统计数据集D₀’中各类噪声标签对应的干净标签分布，对于噪声标签为i的目标，统计该目标的各类干净标签为j的数量s_i,j。

则干净标签估计矩阵T的计算公式为：T_i,j=s_i,j/(∑^N _j=1s_i,j)。

其中，s_i,j表示抽取目标中噪声类别标签为i的目标，其干净类别标签为j数量。

步骤3. 构建基于空间变换网络的条件生成对抗网络，包括生成器G和判别器D。

生成器G以噪声随机向量、类别以及目标边界框位置为输入信息，在指定目标边界框位置生成指定类别的目标的图像；判别器D以带标注的目标检测图像为输入，即包括图像、图像的类别标签以及目标边界框位置，区分图像为真实训练数据还是生成器G产生的数据。

首先构建条件如图3和图4所示的生成对抗网络，包括生成器G和判别器D，其中，其中生成器G和判别器D均含有空间变换网络 (Spatial Transformer Network，简称STN)。

空间变换网络可以对输入的特征图及图像进行几何变换，引入目标边界框位置监督信息后，可以使生成对抗网络模型在指定的边界框位置生成目标。

空间变换网络包含网格生成器和采样器两个模块。

网格生成器建立输出特征图的像素坐标与输入特征图的像素坐标之间的仿射映射关系。

采样器根据输出特征图的像素坐标与输入特征图的像素坐标之间的仿射映射关系，提取目标特征信息并保留到目标边界框位置，以处理单个图像上多个目标。

假设输入图像的每个像素的坐标为(x_a ^s,y_a ^s)，输出图像的每个像素的坐标为(x_a ^t,y_a ^t)，那么坐标(x_a ^s,y_a ^s)和坐标(x_a ^t,y_a ^t)存在仿射变换函数A_θ，表示为：

；

其中，θ_ef为空间变换参数，e=1,2,3，f=1,2,3；a=1,2,…,H*W，H为输出特征图的高，W为输出特征图的宽。

在网格生成器得到仿射变换函数A_θ后，采样器根据仿射变换函数A_θ对输入特征图进行采样，提取输入特征图不同坐标的像素值，再经过双线性插值并保留到输出特征图中对应的目标边界框位置，其中，双线性插值的具体形式为：

。

其中，c=1,2,…,C，C表示特征图的通道数，V_a ^c表示输出特征图第c个通道上第a个像素值，其中，u=1,2,…,H，m=1,2,…,W；U_um ^c表示位于输入特征图中第c个通道中坐标为(m,u)的像素值。如果x_a ^s或者y_a ^s为小数值，输出特征图上每一个的像素值V_a ^c则由其经仿射变换函数A_θ得到的输入特征图中(x_a ^s,y_a ^s)距离最近的四个像素值按照双线性插值法加权求和得到；如果x_a ^s和y_a ^s均为整数，则像素值V_a ^c等于输入特征图中第c个通道的(x_a ^s,y_a ^s)的像素值。

本发明中STN有两个功能：

功能1：提取图像的目标特征；功能2：生成目标边界框位置的目标特征。

功能1：如图5所示，在判别器D中，空间变换网络提取多目标图像中的目标，以便于后续与相应的类别标签进行拼接，空间变换网络的网格生成器的参数情况为：

θ₁₁= w’，θ₁₂=0，θ₁₃=2x’+ w’-1,θ₂₁=0，θ₂₂= h’，θ₂₃=2y’+ h’-1。

功能2：如图6所示，在生成器G和判别器D中，空间变换网络需要提取输入特征图中不同坐标的像素值并保留到输出特征图对应的目标边界框位置。

空间变换网络的网格生成器的参数情况为：θ₁₁= 1/w’，θ₁₂=0，θ₁₃=(1-2x’- w’)/w’,θ₂₁=0，θ₂₂= 1/h’，θ₂₃=(1-2y’- h’) /h’。

PyTorch中含有STN需要的网格生成器包和采样器包。

通过设置以上参数，条件生成对抗网络模型对输入特征图以及多目标图像中的特征进行裁剪、平移和缩放，以达到提取目标特征和生成目标对象的目的。

如果网络需要提取目标特征，将目标从图像中分离，则对应的是STN的功能1；如果网络要生成目标特征，将目标嵌入到图像中，则对应的是STN的功能2。

步骤4. 构建考虑标签噪声的用于图像真假分类的损失函数L。

构建步骤3中条件生成对抗网络的损失函数L，损失函数L的具体形式如下：

L=

～

[logD

]

+z～p(z),(

,

)～p(

,y_b),

～p(

|

)[log(1-D(G(z,

,

),

,

))]。

其中，

表示从数据集D中采样出的图像以及与图像对应的类别标签和边界框位置，x表示图像集X中的图像，

表示带噪类别标签集

中的类别标签，y_b表示目标边界框集Y_b中的边界框位置，

表示干净类别标签；z表示从标准正态分布中采样的噪声随机向量，(

,

)表示从数据集D中采样出的带噪类别标签和对应的边界框位置，

表示由

估计得到的干净类别标签；

表示数据集D中图像、类别标签和目标边界框的联合分布，p(z)表示标准正态分布，p(

,y_b)表示数据集D中类别标签和目标边界框的联合分布，p(

|

)表示噪声标签

的干净类别标签

的分布；D

表示判别器D对真实数据的真假置信程度，G(z,

,

)表示生成器G生成的伪造数据，D(G(z,

,

),

,

))表示判别器D对伪造数据的真假置信程度。

生成器G以噪声随机向量z、干净类别标签

、目标边界框

为输入，在目标边界框

位置生成噪声标签为

的目标；其中，干净类别标签

是噪声标签

经过干净标签估计矩阵T运算得到，即首先通过步骤2估计出的干净标签估计矩阵T，得到噪声标签

的干净类别标签

的分布p(

|

), 然后从p(

|

)中采样得到干净类别标签

，干净类别标签

与噪声随机向量z和目标边界框

一起作为生成器G的实际输入；

训练过程中，判别器D通过最大化损失函数L，在以带噪类别标签

、目标边界框

为条件的真实数据和生成器G基于干净类别标签

、目标边界框

生成的数据间找到最佳的决策边界，而生成器G通过最小化损失函数L，生成使判别器D难以区分的数据

步骤5. 基于随机梯度下降交替更新生成器G与判别器D的参数，重复迭代过程至最大迭代次数M，完成生成对抗网络的训练，并保留生成器G的模型参数φ。

其中，模型参数φ的文件格式采用ckpt格式、pth格式或weight格式。

步骤6. 导出生成器G的模型参数φ，基于给定的标签以及和目标边界框信息模型参数φ，利用生成器G生成用于目标检测的带标注信息的图像。

其中，生成器G生成的图像、给定的类别标签和边界框位置组成扩增的数据集。

测试阶段生成器G的输入为从标准正态分布中采样的噪声随机向量、多个干净类别标签集合{y}及对应的目标边界框位置集合{(x₀,y₀,w₀,h₀)}。其中，x₀、y₀、w₀、h₀为边界框位置，四个参数的取值范围均为（0，1），y为干净类别标签。

测试阶段，干净标签估计矩阵T被置为单位矩阵，最终生成的图像的格式采用png格式或者jpg格式，目标类别标签和目标边界框文件格式为txt或者pickle格式。

其中，文件中的每行依次为干净类别标签y、x₀、y₀、w₀、h₀。

本发明方法通过引入干净标签估计矩阵，基于空间变换网络的条件生成对抗网络模型，可以从标签带噪的目标检测数据集中学习到干净的条件生成表示，以生成标注正确的目标检测数据集，从而缓解深度神经网络的训练对大量带有准确标注信息的数据的需求问题，在节省标注成本的同时更好地服务于多标记目标检测任务。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种面向多标记目标检测任务的标签带噪数据集扩增方法，其特征在于，

包括如下步骤：

步骤1.获取图像集X、带噪类别标签集

和目标边界框集Y_b，组成目标检测数据集D；

其中，数据集D的表达形式为

所述步骤1中，定义图像x为图像集X中的一张图像；

设定图像x中存在多个目标，每个目标具有一个带噪类别标签

以及一个目标边界框y_b，目标边界框y_b中包含四个参数，即x’、y’、w’和h’；

其中，(x’,y’)表示目标的中心位置的坐标，w’和h’分别表示目标的宽和高；

步骤2.基于数据集D学习深度卷积神经网络分类器f，并基于深度卷积神经网络分类器f对数据集D中各个目标的分类结果，得到干净标签估计矩阵T；

所述步骤2中，干净标签估计矩阵T的表达形式如下：

其中，

表示干净标签，

表示噪声标签，T_i，j是干净标签估计矩阵T第i行、第j列的元素，T_i，j表示噪声标签为类别i的样本其干净类别为j的概率；

干净标签估计矩阵T是一个N×N的矩阵，每一行元素之和均为1，其具体形式为：

∑^N _j＝1T_i,j＝1；

其中，i＝1,2...N，j＝1,2...N，N表示类别的总数；

对于图像x中的每个目标x ₀，定义噪声标签概率分布

表示目标x ₀的噪声标签为类别i的概率，干净标签概率分布

表示目标x ₀的干净标签为类别j的概率；

干净标签估计矩阵T将

映射为

其具体形式为：

所述步骤2具体为：

步骤2.1.提取数据集

的所有目标区域以及对应的带噪类别标签，将每个目标区域缩放到统一的宽度和高度，构成分类数据集

其中，X₁表示单目标图像集，

表示噪声标签集；

步骤2.2.按照分层采样准则将D ₁划分为训练集

和验证集

其中，X₂表示单目标图像训练集，

表示噪声标签训练集；

X₃表示单目标图像验证集，

表示噪声标签验证集；

步骤2.3.为训练集D ₂构建深度卷积神经网络分类器f，在训练噪声标签集

上构建交叉熵损失函数L^’ ₁,在验证噪声标签集

上构建交叉熵损失L _v；

的交叉熵损失，v＝1,2,…,n-1，n为深度卷积神经网络分类器f刚好过拟合时的轮数；

步骤2.4.在训练集D ₂上基于随机梯度下降对交叉熵损失函数L^’ ₁进行最小化，更新深度卷积神经网络分类器f的参数，记录在训练集D ₂上每一轮训练结束后深度卷积神经网络分类器f在验证集D ₃上的交叉熵损失L _v；

保存每一轮训练结束后深度卷积神经网络分类器f的参数O_v；

如果L _v+1＞L _v，说明深度卷积神经网络分类器f在训练集D ₂已经过拟合，停止训练，并将上一轮训练得到的参数O_v作为深度卷积神经网络分类器f的最终参数O；

的交叉熵损失；

步骤2.5.将参数O导入到深度卷积神经网络分类器f中；

对于每一种类别，从深度卷积神经网络分类器f的所有预测结果为该类别的图像中按照预测概率由大到小的顺序挑选出前k张图像，组成图像集X₀’；

步骤2.6.以深度卷积神经网络分类器f的预测类别作为图像集X₀’的干净标签Y₀’，将图像集X₀’及其干净标签Y₀’组成数据集D₀’，D₀’＝(X₀’,Y₀’)；

步骤2.7.统计数据集D₀’中各类噪声标签对应的干净标签分布；

对于噪声标签为i的目标，统计该目标的各类干净标签为j的数量s_i,j；

则干净标签估计矩阵T的计算公式如下：T_i,j＝s_i,j/(∑^N _j＝1s_i,j)；

步骤3.构建基于空间变换网络的条件生成对抗网络模型；

步骤4.构建考虑标签噪声的用于图像真假分类的损失函数L；

步骤5.基于随机梯度下降交替更新生成器G与判别器D的参数，重复迭代过程至最大迭代次数M，完成条件生成对抗网络模型的训练，并保留生成器G的模型参数φ；

步骤6.导出保留的生成器G的模型参数φ，基于给定的类别标签和边界框位置，利用生成器G生成用于目标检测的带标注信息的图像；

2.根据权利要求1所述的标签带噪数据集扩增方法，其特征在于，

所述步骤3中生成器G和判别器D均以空间变换网络作为骨干网络，空间变换网络用于提取图像的目标特征以及生成目标边界框位置的目标特征；

空间变换网络包括网格生成器和采样器两个模块；其中：

网格生成器建立输出特征图的像素坐标与输入特征图的像素坐标之间的仿射映射关系；

采样器根据建立的输出特征图的像素坐标与输入特征图的像素坐标之间的仿射映射关系，提取目标特征信息并保留到目标边界框位置，以处理单个图像上多个目标。

3.根据权利要求2所述的标签带噪数据集扩增方法，其特征在于，

所述步骤3中，处理单个图像上多个目标的具体过程如下：

其中，θ_ef为空间变换参数，e＝1,2,3，f＝1,2,3；

a＝1,2,…,H*W，H为输出特征图的高，W为输出特征图的宽；

V_a ^c＝∑_u ^H∑_m ^WU_um ^cmax(0，1-|x_a ^s-m|)max(0，1-|y_a ^s-u|)；

其中，c＝1,2,…,C，C表示特征图的通道数；

V_a ^c表示输出特征图第c个通道上第a个像素值，其中，u＝1,2,…,H，m＝1,2,…,W；

U_um ^c表示位于输入特征图中第c个通道中坐标为(m,u)的像素值；

如果x_a ^s或者y_a ^s为小数值，输出特征图上每一个的像素值V_a ^c则由其经仿射变换函数A_θ得到的输入特征图中(x_a ^s,y_a ^s)距离最近的四个像素值按照双线性插值法加权求和得到；

如果x_a ^s和y_a ^s均为整数，则像素值V_a ^c等于输入特征图中第c个通道的(x_a ^s,y_a ^s)的像素值；

在判别器D中，空间变换网络用于提取多目标图像中的目标，以便于后续与相应的类别标签进行拼接，空间变换网络的网格生成器的参数情况为：

θ₁₁＝w’，θ₁₂＝0，θ₁₃＝2x’+w’-1,θ₂₁＝0，θ₂₂＝h’，θ₂₃＝2y’+h’-1；

在生成器G和判别器D中，空间变换网络需要提取输入特征图中不同坐标的像素值并保留到输出特征图对应的目标边界框位置；

空间变换网络的网格生成器的参数情况为：θ₁₁＝1/w’，θ₁₂＝0，θ₁₃＝(1-2x’-w’)/w’,θ₂₁＝0，θ₂₂＝1/h’，θ₂₃＝(1-2y’-h’)/h’；

通过设置以上参数，条件生成对抗网络模型能够对输入特征图以及多目标图像中的特征进行裁剪、平移和缩放，以达到提取目标特征和生成目标对象的目的。

4.根据权利要求3所述的标签带噪数据集扩增方法，其特征在于，

所述步骤4中，考虑标签噪声的用于图像真假分类的损失函数L的具体形式如下：

其中，

表示带噪类别标签集

中的类别标签，y_b表示目标边界框集Y_b中的边界框位置，

表示干净类别标签；z表示从标准正态分布中采样的噪声随机向量，

表示从数据集D中采样出的带噪类别标签和对应的边界框位置，

表示由

估计得到的干净类别标签；

表示数据集D中图像、类别标签和目标边界框的联合分布，p(z)表示标准正态分布，

表示数据集D中类别标签和目标边界框的联合分布，

表示噪声标签

的干净类别标签

的分布；

表示判别器D对真实数据的真假置信程度，

表示生成器G生成的伪造数据，

表示判别器D对伪造数据的真假置信程度；

生成器G以噪声随机向量z、干净类别标签

目标边界框

为输入，在目标边界框

位置生成噪声标签为

的目标；其中，干净类别标签

是噪声标签

的干净类别标签

的分布

然后从

中采样得到干净类别标签

干净类别标签

与噪声随机向量z和目标边界框

一起作为生成器G的实际输入；

目标边界框

为条件的真实数据和生成器G基于干净类别标签

目标边界框

生成的数据间找到最佳的决策边界，而生成器G通过最小化损失函数L，生成使判别器D难以区分的数据。

5.根据权利要求4所述的标签带噪数据集扩增方法，其特征在于，

所述步骤6中，测试阶段生成器G的输入为从标准正态分布中采样的噪声随机向量、多个干净类别标签集合{y}及对应的目标边界框位置集合{(x₀,y₀,w₀,h₀)}；其中，x₀、y₀、w₀、h₀为边界框位置，四个参数的取值范围均为(0，1)；y为干净类别标签；

测试阶段，干净标签估计矩阵T被置为单位矩阵；

最终生成的图像的格式采用png格式或者jpg格式，目标类别标签和目标边界框文件格式为txt或者pickle格式，文件中每行依次为干净类别标签y、x₀、y₀、w₀、h₀。