CN114201632B - 一种面向多标记目标检测任务的标签带噪数据集扩增方法 - Google Patents

一种面向多标记目标检测任务的标签带噪数据集扩增方法 Download PDF

Info

Publication number
CN114201632B
CN114201632B CN202210149500.6A CN202210149500A CN114201632B CN 114201632 B CN114201632 B CN 114201632B CN 202210149500 A CN202210149500 A CN 202210149500A CN 114201632 B CN114201632 B CN 114201632B
Authority
CN
China
Prior art keywords
label
target
clean
image
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210149500.6A
Other languages
English (en)
Other versions
CN114201632A (zh
Inventor
丰硕
汪剑超
李绍园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210149500.6A priority Critical patent/CN114201632B/zh
Publication of CN114201632A publication Critical patent/CN114201632A/zh
Application granted granted Critical
Publication of CN114201632B publication Critical patent/CN114201632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机图像生成技术领域,公开了一种面向多标记目标检测任务的标签带噪数据集扩增方法,该方法针对深度神经网络容易过拟合噪声标签的问题,引入干净标签估计矩阵,以空间变换网络作为骨干网络的条件生成对抗网络,从标签带噪的目标检测数据集中学习到干净的标签条件生成分布,在指定目标边界框位置生成指定类别的目标的图像,在测试阶段基于给定的类别标签和边界框信息生成目标检测数据集。本发明通过引入考虑标签噪声的用于图像真假分类的损失函数,可使模型条件生成对抗网络模型从标签带噪且类别不平衡的多目标检测数据集中,生成高质量标注的多目标检测图像,扩增了目标检测数据集,缓解了对带有准确标注信息的数据日益增大的需求。

Description

一种面向多标记目标检测任务的标签带噪数据集扩增方法
技术领域
本发明属于计算机图像生成技术领域,具体涉及一种面向多标记目标检测任务的标签带噪数据集扩增方法。
背景技术
目标检测数据集是一种多标记图像数据集,目标类别标签组合形式多样。若图像中存在多个目标,标注时相较于单标记数据集更加困难,且类别标签的取值是离散值,因此,类别标签容易含有大量噪声。由于图像边界框集中的标签取值为连续型,虽然每张图像边界框标记有些许误差,但从整个数据集上来看误差可以忽略不计。
条件生成对抗网络的训练需要带准确标注信息的数据集,但是实际中可获得的目标检测数据集的类别标签往往包含大量噪声,而条件生成对抗网络有强大的拟合能力,容易对噪声数据过拟合,这会影响生成数据的质量以及类别准确性。
发明内容
本发明的目的在于提出一种面向多标记目标检测任务的标签带噪数据集扩增方法,以便从标签带噪的目标检测数据集中生成新的标注正确的目标检测数据,从而缓解对带有准确标注信息的数据日益增大的需求问题,节省标注成本。
本发明为了实现上述目的,采用如下技术方案:
一种面向多标记目标检测任务的标签带噪数据集扩增方法,包括如下步骤:
步骤1. 获取图像集X、带噪类别标签集
Figure DEST_PATH_IMAGE001
和目标边界框集Yb,组成目标检测数据集D
其中,数据集D的表达形式为D=(X,
Figure 733725DEST_PATH_IMAGE002
,Yb);
步骤2. 基于数据集D学习深度卷积神经网络分类器f,并基于深度卷积神经网络分类器f对数据集D中各个目标的分类结果,得到干净标签估计矩阵T;
步骤3. 构建基于空间变换网络的条件生成对抗网络模型;
条件生成对抗网络模型包括用于在指定目标边界框位置生成指定类别的目标的图像的生成器G,以及用于判断图像为真实训练数据还是生成器G产生的数据的判别器D;
步骤4.构建考虑标签噪声的用于图像真假分类的损失函数L;
步骤5. 基于随机梯度下降交替更新生成器G与判别器D的参数,重复迭代过程至最大迭代次数M,完成条件生成对抗网络模型的训练,并保留生成器G的模型参数φ;
步骤6. 导出保留的生成器G的模型参数φ,基于给定的类别标签和边界框位置,利用生成器G生成用于目标检测的带标注信息的图像;
其中,生成器G生成的图像、给定的类别标签以及边界框位置,组成扩增的数据集。
本发明具有如下优点:
如上所述,本发明述及了一种面向多标记目标检测任务的标签带噪数据集扩增方法,该方法针对深度神经网络容易过拟合噪声标签的问题,通过引入干净标签估计矩阵,以空间变换网络作为骨干网络的条件生成对抗网络,从标签带噪的目标检测数据集中学习到干净的标签条件生成分布,在指定目标边界框位置生成指定类别的目标的图像,在测试阶段基于给定的类别标签和边界框信息,生成目标检测数据集。本发明方法通过引入考虑标签噪声的用于图像真假分类的损失函数,可使模型条件生成对抗网络模型从标签带噪且类别不平衡的多目标检测数据集中,生成高质量标注的多目标检测图像,扩增了目标检测数据集,从而缓解了对带有准确标注信息的数据日益增大的需求问题,节省了标注成本。
附图说明
图1为本发明中面向多标记目标检测任务的标签带噪数据集扩增方法的流程示意图。
图2为本发明中由噪声标签估计干净标签的示意图。
图3为本发明条件生成对抗网络模型中生成器的结构示意图。
图4为本发明条件生成对抗网络模型中判别器的结构示意图。
图5为本发明中用于提取目标的空间变换网络的示意图。
图6为本发明中用于生成目标的空间变换网络的示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
本实施例述及了一种面向多标记目标检测任务的标签带噪数据集扩增方法,以缓解对带有准确标注信息的数据日益增大的需求问题,节省标注成本。
如图1所示,面向多标记目标检测任务的标签带噪数据集扩增方法,包括如下步骤:
步骤1. 获取图像集X、带噪类别标签集
Figure 958033DEST_PATH_IMAGE003
和目标边界框集Yb,组成目标检测数据集D
其中,数据集D的表达形式为D=(X,
Figure 409743DEST_PATH_IMAGE002
,Yb)。
图像集X的目标类别标签可通过人工标记的方式获取,比如询问专家或者众包等方式,当然也可通过自动收集的方式获取,比如爬虫。
然而这些方式实际收集到的标记
Figure DEST_PATH_IMAGE004
中包含着大量错误标签。
如果直接在这些采集到的数据集上学习一个条件生成对抗网络模型,它将会对数据的噪声类别标签过拟合,从而导致生成数据的质量和类别准确性下降。
已有的学习理论表明:通过引入干净标签估计矩阵模型,条件生成对抗网络可以从标签带噪的目标检测数据集中学习到干净的标签条件生成分布。
干净标签估计矩阵是一类常用的噪声模型,它刻画了图像中各个类别之间的翻转概率,以此来实现噪声标签和干净标签概率分布之间的映射。
而干净标签估计矩阵可以通过对模型训练早停,在模型过拟合噪声标记之前挑选置信度高的预测作为对应样本的真实类别标记,使用这部分样本得到干净标签估计矩阵。
图像集X的目标边界框集Yb一般可通过人工标记的方式获取,其中一张图像x对应多个目标,每个目标对应一个带噪类别标签
Figure 881044DEST_PATH_IMAGE005
和一个边界框标签即目标边界框yb
目标边界框yb含有四个参数x’、y’、w’和h’,其中,(x’, y’)表示目标的中心位置的坐标,w’和h’分别表示目标的宽和高,四个参数取值范围均为(0,1)。
由于目标边界框集Yb中的标签取值为连续型,虽然每张图像边界框标记有些许误差,但从整个数据集上来说误差可以忽略不计。
目标是指目标检测图像中的物体,目标检测图像中通常含有多个物体,即含有多个目标。
步骤2. 基于数据集D学习深度卷积神经网络分类器f,基于深度卷积神经网络分类器f对数据集D中各个目标的分类结果,得到干净标签估计矩阵T。
干净标签估计矩阵T的表达形式如下:Ti,j=P(
Figure DEST_PATH_IMAGE006
=j|
Figure 965675DEST_PATH_IMAGE007
=i)。
其中,
Figure 118307DEST_PATH_IMAGE006
表示干净标签,
Figure DEST_PATH_IMAGE008
表示噪声标签,Ti,j是干净标签估计矩阵T第i行、第j列的元素,Ti,j表示噪声标签为类别i的样本其干净类别为j的概率。
干净标签估计矩阵T是一个N×N的矩阵,的每一行元素之和均为1,其具体形式为:
N j=1Ti,j=1;
其中,i=1,2...N,j=1,2...N,N表示类别的总数。
对于图像x中的每个目标x 0,定义噪声标签概率分布P(
Figure 614404DEST_PATH_IMAGE009
=i|x 0)表示目标x 0的噪声标签为类别i的概率,定义干净标签概率分布P(
Figure DEST_PATH_IMAGE010
=j|x 0)表示目标x 0的干净标签为类别j的概率。
干净标签估计矩阵T将P(
Figure 194290DEST_PATH_IMAGE011
=i|x 0)映射为P(
Figure 94113DEST_PATH_IMAGE012
=j|x 0),其具体形式为:
P(
Figure 597907DEST_PATH_IMAGE006
=j|x 0) = ∑N i=1Ti,jP(
Figure 758630DEST_PATH_IMAGE013
=i|x 0)。
结合图2所示,步骤2的具体过程如下:
步骤2.1. 提取数据集D=(X,
Figure 384783DEST_PATH_IMAGE014
,Yb)的所有目标区域以及对应的带噪类别标签,将每个目标区域缩放到统一的宽度和高度,构成分类数据集D 1=(X1,
Figure 696203DEST_PATH_IMAGE015
)。
其中,X1表示单目标图像集,
Figure 3688DEST_PATH_IMAGE015
表示噪声标签集。
步骤2.2. 按照分层采样准则将分类数据集D 1划分为训练集D 2=(X2,
Figure 346813DEST_PATH_IMAGE016
)和验证集D 3=(X3,
Figure DEST_PATH_IMAGE017
));其中,训练集D 2与验证集D 3中的样本量之比为9:1。
其中,X2表示单目标图像训练集,
Figure 206185DEST_PATH_IMAGE018
表示噪声标签训练集;X3表示单目标图像验证集,
Figure 815021DEST_PATH_IMAGE017
表示噪声标签验证集。
步骤2.3. 为训练集D 2构建深度卷积神经网络分类器f,在训练噪声标签集
Figure 909884DEST_PATH_IMAGE016
上构建交叉熵损失函数L 1,在验证噪声标签集
Figure 858249DEST_PATH_IMAGE017
上构建交叉熵损失L v
其中,L v表示第v轮训练后深度卷积神经网络分类器f在噪声标签验证集
Figure 16085DEST_PATH_IMAGE017
的交叉熵损失。v=1,2,…,n-1,n为深度卷积神经网络分类器f刚好过拟合时的轮数。
步骤2.4. 在训练集D 2上基于随机梯度下降对交叉熵损失函数L 1进行最小化,更新深度卷积神经网络分类器f的参数,记录在训练集D 2上每一轮训练结束后深度卷积神经网络分类器f在验证集D 3上的交叉熵损失L v
保存每一轮训练结束后深度卷积神经网络分类器f的参数Ov
如果L v+1L v,说明深度卷积神经网络分类器f在训练集D 2已经过拟合,停止训练,并将上一轮训练得到的参数Ov作为深度卷积神经网络分类器f的最终参数O。
其中,L v+1表示第v+1轮训练后深度卷积神经网络分类器f在噪声标签验证集
Figure 49900DEST_PATH_IMAGE017
的交叉熵损失。
步骤2.5. 将参数O导入到深度卷积神经网络分类器f中。
对于每一种类别,从深度卷积神经网络分类器f的所有预测结果为该类别的图像中按照预测概率由大到小的顺序挑选出前k张图像,组成图像集X0’。
步骤2.6. 以深度卷积神经网络分类器f的预测类别作为图像集X0’的干净标签Y0’,将图像集X0’及其干净标签Y0’组成数据集D0’,D0’=(X0’,Y0’)。
步骤2.7. 基于数据集D0’得到干净标签估计矩阵T,具体过程如下:
统计数据集D0’中各类噪声标签对应的干净标签分布,对于噪声标签为i的目标,统计该目标的各类干净标签为j的数量si,j
则干净标签估计矩阵T的计算公式为:Ti,j=si,j/(∑N j=1si,j)。
其中,si,j表示抽取目标中噪声类别标签为i的目标,其干净类别标签为j数量。
步骤3. 构建基于空间变换网络的条件生成对抗网络,包括生成器G和判别器D。
生成器G以噪声随机向量、类别以及目标边界框位置为输入信息,在指定目标边界框位置生成指定类别的目标的图像;判别器D以带标注的目标检测图像为输入,即包括图像、图像的类别标签以及目标边界框位置,区分图像为真实训练数据还是生成器G产生的数据。
首先构建条件如图3和图4所示的生成对抗网络,包括生成器G和判别器D,其中,其中生成器G和判别器D均含有空间变换网络 (Spatial Transformer Network,简称STN)。
空间变换网络可以对输入的特征图及图像进行几何变换,引入目标边界框位置监督信息后,可以使生成对抗网络模型在指定的边界框位置生成目标。
空间变换网络包含网格生成器和采样器两个模块。
网格生成器建立输出特征图的像素坐标与输入特征图的像素坐标之间的仿射映射关系。
采样器根据输出特征图的像素坐标与输入特征图的像素坐标之间的仿射映射关系,提取目标特征信息并保留到目标边界框位置,以处理单个图像上多个目标。
假设输入图像的每个像素的坐标为(xa s,ya s),输出图像的每个像素的坐标为(xa t,ya t),那么坐标(xa s,ya s)和坐标(xa t,ya t)存在仿射变换函数Aθ,表示为:
Figure DEST_PATH_IMAGE019
其中,θef为空间变换参数,e=1,2,3,f=1,2,3;a=1,2,…,H*W,H为输出特征图的高,W为输出特征图的宽。
在网格生成器得到仿射变换函数Aθ后,采样器根据仿射变换函数Aθ对输入特征图进行采样,提取输入特征图不同坐标的像素值,再经过双线性插值并保留到输出特征图中对应的目标边界框位置,其中,双线性插值的具体形式为:
Figure 948455DEST_PATH_IMAGE020
其中,c=1,2,…,C,C表示特征图的通道数,Va c表示输出特征图第c个通道上第a个像素值,其中,u=1,2,…,H,m=1,2,…,W;Uum c表示位于输入特征图中第c个通道中坐标为(m,u)的像素值。如果xa s或者ya s为小数值,输出特征图上每一个的像素值Va c则由其经仿射变换函数Aθ得到的输入特征图中(xa s,ya s)距离最近的四个像素值按照双线性插值法加权求和得到;如果xa s和ya s均为整数,则像素值Va c等于输入特征图中第c个通道的(xa s,ya s)的像素值。
本发明中STN有两个功能:
功能1:提取图像的目标特征;功能2:生成目标边界框位置的目标特征。
功能1:如图5所示,在判别器D中,空间变换网络提取多目标图像中的目标,以便于后续与相应的类别标签进行拼接,空间变换网络的网格生成器的参数情况为:
θ11= w’,θ12=0,θ13=2x’+ w’-1,θ21=0,θ22= h’,θ23=2y’+ h’-1。
功能2:如图6所示,在生成器G和判别器D中,空间变换网络需要提取输入特征图中不同坐标的像素值并保留到输出特征图对应的目标边界框位置。
空间变换网络的网格生成器的参数情况为:θ11= 1/w’,θ12=0,θ13=(1-2x’- w’)/w’,θ21=0,θ22= 1/h’,θ23=(1-2y’- h’) /h’。
PyTorch中含有STN需要的网格生成器包和采样器包。
通过设置以上参数,条件生成对抗网络模型对输入特征图以及多目标图像中的特征进行裁剪、平移和缩放,以达到提取目标特征和生成目标对象的目的。
如果网络需要提取目标特征,将目标从图像中分离,则对应的是STN的功能1;如果网络要生成目标特征,将目标嵌入到图像中,则对应的是STN的功能2。
步骤4. 构建考虑标签噪声的用于图像真假分类的损失函数L。
构建步骤3中条件生成对抗网络的损失函数L,损失函数L的具体形式如下:
L=
Figure DEST_PATH_IMAGE021
Figure 16905DEST_PATH_IMAGE022
[logD
Figure DEST_PATH_IMAGE023
]
+z~p(z),(
Figure DEST_PATH_IMAGE024
,
Figure 405030DEST_PATH_IMAGE025
)~p(
Figure DEST_PATH_IMAGE026
,yb),
Figure DEST_PATH_IMAGE027
~p(
Figure DEST_PATH_IMAGE028
|
Figure 150308DEST_PATH_IMAGE029
)[log(1-D(G(z,
Figure DEST_PATH_IMAGE030
,
Figure DEST_PATH_IMAGE031
),
Figure DEST_PATH_IMAGE032
,
Figure 917800DEST_PATH_IMAGE033
))]。
其中,
Figure 903074DEST_PATH_IMAGE034
表示从数据集D中采样出的图像以及与图像对应的类别标签和边界框位置,x表示图像集X中的图像,
Figure DEST_PATH_IMAGE035
表示带噪类别标签集
Figure 337466DEST_PATH_IMAGE036
中的类别标签,yb表示目标边界框集Yb中的边界框位置,
Figure DEST_PATH_IMAGE037
表示干净类别标签;z表示从标准正态分布中采样的噪声随机向量,(
Figure 267245DEST_PATH_IMAGE032
,
Figure 445286DEST_PATH_IMAGE033
)表示从数据集D中采样出的带噪类别标签和对应的边界框位置,
Figure 222749DEST_PATH_IMAGE038
表示由
Figure 830972DEST_PATH_IMAGE024
估计得到的干净类别标签;
Figure 575943DEST_PATH_IMAGE039
表示数据集D中图像、类别标签和目标边界框的联合分布,p(z)表示标准正态分布,p(
Figure DEST_PATH_IMAGE040
,yb)表示数据集D中类别标签和目标边界框的联合分布,p(
Figure 292095DEST_PATH_IMAGE041
|
Figure 251961DEST_PATH_IMAGE024
)表示噪声标签
Figure DEST_PATH_IMAGE042
的干净类别标签
Figure DEST_PATH_IMAGE043
的分布;D
Figure 965839DEST_PATH_IMAGE044
表示判别器D对真实数据的真假置信程度,G(z,
Figure DEST_PATH_IMAGE045
,
Figure 60090DEST_PATH_IMAGE031
)表示生成器G生成的伪造数据,D(G(z,
Figure 392983DEST_PATH_IMAGE038
,
Figure 394306DEST_PATH_IMAGE046
),
Figure 154451DEST_PATH_IMAGE047
,
Figure DEST_PATH_IMAGE048
))表示判别器D对伪造数据的真假置信程度。
生成器G以噪声随机向量z、干净类别标签
Figure 747717DEST_PATH_IMAGE049
、目标边界框
Figure 946618DEST_PATH_IMAGE050
为输入,在目标边界框
Figure 553179DEST_PATH_IMAGE051
位置生成噪声标签为
Figure 733494DEST_PATH_IMAGE047
的目标;其中,干净类别标签
Figure DEST_PATH_IMAGE052
是噪声标签
Figure 425506DEST_PATH_IMAGE053
经过干净标签估计矩阵T运算得到,即首先通过步骤2估计出的干净标签估计矩阵T,得到噪声标签
Figure DEST_PATH_IMAGE054
的干净类别标签
Figure 677365DEST_PATH_IMAGE055
的分布p(
Figure 328314DEST_PATH_IMAGE056
|
Figure 617213DEST_PATH_IMAGE047
), 然后从p(
Figure 45789DEST_PATH_IMAGE057
|
Figure 586492DEST_PATH_IMAGE047
)中采样得到干净类别标签
Figure 902066DEST_PATH_IMAGE058
,干净类别标签
Figure 502812DEST_PATH_IMAGE058
与噪声随机向量z和目标边界框
Figure 153105DEST_PATH_IMAGE050
一起作为生成器G的实际输入;
训练过程中,判别器D通过最大化损失函数L,在以带噪类别标签
Figure 497499DEST_PATH_IMAGE059
、目标边界框
Figure 667580DEST_PATH_IMAGE060
为条件的真实数据和生成器G基于干净类别标签
Figure 629107DEST_PATH_IMAGE055
、目标边界框
Figure 642063DEST_PATH_IMAGE050
生成的数据间找到最佳的决策边界,而生成器G通过最小化损失函数L,生成使判别器D难以区分的数据
步骤5. 基于随机梯度下降交替更新生成器G与判别器D的参数,重复迭代过程至最大迭代次数M,完成生成对抗网络的训练,并保留生成器G的模型参数φ。
其中,模型参数φ的文件格式采用ckpt格式、pth格式或weight格式。
步骤6. 导出生成器G的模型参数φ,基于给定的标签以及和目标边界框信息模型参数φ,利用生成器G生成用于目标检测的带标注信息的图像。
其中,生成器G生成的图像、给定的类别标签和边界框位置组成扩增的数据集。
测试阶段生成器G的输入为从标准正态分布中采样的噪声随机向量、多个干净类别标签集合{y}及对应的目标边界框位置集合{(x0,y0,w0,h0)}。其中,x0、y0、w0、h0为边界框位置,四个参数的取值范围均为(0,1),y为干净类别标签。
测试阶段,干净标签估计矩阵T被置为单位矩阵,最终生成的图像的格式采用png格式或者jpg格式,目标类别标签和目标边界框文件格式为txt或者pickle格式。
其中,文件中的每行依次为干净类别标签y、x0、y0、w0、h0
本发明方法通过引入干净标签估计矩阵,基于空间变换网络的条件生成对抗网络模型,可以从标签带噪的目标检测数据集中学习到干净的条件生成表示,以生成标注正确的目标检测数据集,从而缓解深度神经网络的训练对大量带有准确标注信息的数据的需求问题,在节省标注成本的同时更好地服务于多标记目标检测任务。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。

Claims (5)

1.一种面向多标记目标检测任务的标签带噪数据集扩增方法,其特征在于,
包括如下步骤:
步骤1.获取图像集X、带噪类别标签集
Figure FDA0003575490280000011
和目标边界框集Yb,组成目标检测数据集D
其中,数据集D的表达形式为
Figure FDA0003575490280000012
所述步骤1中,定义图像x为图像集X中的一张图像;
设定图像x中存在多个目标,每个目标具有一个带噪类别标签
Figure FDA0003575490280000013
以及一个目标边界框yb,目标边界框yb中包含四个参数,即x’、y’、w’和h’;
其中,(x’,y’)表示目标的中心位置的坐标,w’和h’分别表示目标的宽和高;
步骤2.基于数据集D学习深度卷积神经网络分类器f,并基于深度卷积神经网络分类器f对数据集D中各个目标的分类结果,得到干净标签估计矩阵T;
所述步骤2中,干净标签估计矩阵T的表达形式如下:
Figure FDA0003575490280000014
其中,
Figure FDA0003575490280000015
表示干净标签,
Figure FDA0003575490280000016
表示噪声标签,Ti,j是干净标签估计矩阵T第i行、第j列的元素,Ti,j表示噪声标签为类别i的样本其干净类别为j的概率;
干净标签估计矩阵T是一个N×N的矩阵,每一行元素之和均为1,其具体形式为:
N j=1Ti,j=1;
其中,i=1,2...N,j=1,2...N,N表示类别的总数;
对于图像x中的每个目标x 0,定义噪声标签概率分布
Figure FDA0003575490280000017
表示目标x 0的噪声标签为类别i的概率,干净标签概率分布
Figure FDA0003575490280000018
表示目标x 0的干净标签为类别j的概率;
干净标签估计矩阵T将
Figure FDA0003575490280000019
映射为
Figure FDA00035754902800000110
其具体形式为:
Figure FDA00035754902800000111
所述步骤2具体为:
步骤2.1.提取数据集
Figure FDA00035754902800000112
的所有目标区域以及对应的带噪类别标签,将每个目标区域缩放到统一的宽度和高度,构成分类数据集
Figure FDA00035754902800000113
其中,X1表示单目标图像集,
Figure FDA00035754902800000114
表示噪声标签集;
步骤2.2.按照分层采样准则将D 1划分为训练集
Figure FDA00035754902800000115
和验证集
Figure FDA00035754902800000116
其中,X2表示单目标图像训练集,
Figure FDA00035754902800000117
表示噪声标签训练集;
X3表示单目标图像验证集,
Figure FDA00035754902800000118
表示噪声标签验证集;
步骤2.3.为训练集D 2构建深度卷积神经网络分类器f,在训练噪声标签集
Figure FDA00035754902800000119
上构建交叉熵损失函数L 1,在验证噪声标签集
Figure FDA0003575490280000021
上构建交叉熵损失L v
其中,L v表示第v轮训练后深度卷积神经网络分类器f在噪声标签验证集
Figure FDA0003575490280000022
的交叉熵损失,v=1,2,…,n-1,n为深度卷积神经网络分类器f刚好过拟合时的轮数;
步骤2.4.在训练集D 2上基于随机梯度下降对交叉熵损失函数L 1进行最小化,更新深度卷积神经网络分类器f的参数,记录在训练集D 2上每一轮训练结束后深度卷积神经网络分类器f在验证集D 3上的交叉熵损失L v
保存每一轮训练结束后深度卷积神经网络分类器f的参数Ov
如果L v+1L v,说明深度卷积神经网络分类器f在训练集D 2已经过拟合,停止训练,并将上一轮训练得到的参数Ov作为深度卷积神经网络分类器f的最终参数O;
其中,L v+1表示第v+1轮训练后深度卷积神经网络分类器f在噪声标签验证集
Figure FDA0003575490280000023
的交叉熵损失;
步骤2.5.将参数O导入到深度卷积神经网络分类器f中;
对于每一种类别,从深度卷积神经网络分类器f的所有预测结果为该类别的图像中按照预测概率由大到小的顺序挑选出前k张图像,组成图像集X0’;
步骤2.6.以深度卷积神经网络分类器f的预测类别作为图像集X0’的干净标签Y0’,将图像集X0’及其干净标签Y0’组成数据集D0’,D0’=(X0’,Y0’);
步骤2.7.统计数据集D0’中各类噪声标签对应的干净标签分布;
对于噪声标签为i的目标,统计该目标的各类干净标签为j的数量si,j
则干净标签估计矩阵T的计算公式如下:Ti,j=si,j/(∑N j=1si,j);
步骤3.构建基于空间变换网络的条件生成对抗网络模型;
条件生成对抗网络模型包括用于在指定目标边界框位置生成指定类别的目标的图像的生成器G,以及用于判断图像为真实训练数据还是生成器G产生的数据的判别器D;
步骤4.构建考虑标签噪声的用于图像真假分类的损失函数L;
步骤5.基于随机梯度下降交替更新生成器G与判别器D的参数,重复迭代过程至最大迭代次数M,完成条件生成对抗网络模型的训练,并保留生成器G的模型参数φ;
步骤6.导出保留的生成器G的模型参数φ,基于给定的类别标签和边界框位置,利用生成器G生成用于目标检测的带标注信息的图像;
其中,生成器G生成的图像、给定的类别标签以及边界框位置,组成扩增的数据集。
2.根据权利要求1所述的标签带噪数据集扩增方法,其特征在于,
所述步骤3中生成器G和判别器D均以空间变换网络作为骨干网络,空间变换网络用于提取图像的目标特征以及生成目标边界框位置的目标特征;
空间变换网络包括网格生成器和采样器两个模块;其中:
网格生成器建立输出特征图的像素坐标与输入特征图的像素坐标之间的仿射映射关系;
采样器根据建立的输出特征图的像素坐标与输入特征图的像素坐标之间的仿射映射关系,提取目标特征信息并保留到目标边界框位置,以处理单个图像上多个目标。
3.根据权利要求2所述的标签带噪数据集扩增方法,其特征在于,
所述步骤3中,处理单个图像上多个目标的具体过程如下:
假设输入图像的每个像素的坐标为(xa s,ya s),输出图像的每个像素的坐标为(xa t,ya t),那么坐标(xa s,ya s)和坐标(xa t,ya t)存在仿射变换函数Aθ,表示为:
Figure FDA0003575490280000031
其中,θef为空间变换参数,e=1,2,3,f=1,2,3;
a=1,2,…,H*W,H为输出特征图的高,W为输出特征图的宽;
在网格生成器得到仿射变换函数Aθ后,采样器根据仿射变换函数Aθ对输入特征图进行采样,提取输入特征图不同坐标的像素值,再经过双线性插值并保留到输出特征图中对应的目标边界框位置,其中,双线性插值的具体形式为:
Va c=∑u Hm WUum cmax(0,1-|xa s-m|)max(0,1-|ya s-u|);
其中,c=1,2,…,C,C表示特征图的通道数;
Va c表示输出特征图第c个通道上第a个像素值,其中,u=1,2,…,H,m=1,2,…,W;
Uum c表示位于输入特征图中第c个通道中坐标为(m,u)的像素值;
如果xa s或者ya s为小数值,输出特征图上每一个的像素值Va c则由其经仿射变换函数Aθ得到的输入特征图中(xa s,ya s)距离最近的四个像素值按照双线性插值法加权求和得到;
如果xa s和ya s均为整数,则像素值Va c等于输入特征图中第c个通道的(xa s,ya s)的像素值;
在判别器D中,空间变换网络用于提取多目标图像中的目标,以便于后续与相应的类别标签进行拼接,空间变换网络的网格生成器的参数情况为:
θ11=w’,θ12=0,θ13=2x’+w’-1,θ21=0,θ22=h’,θ23=2y’+h’-1;
在生成器G和判别器D中,空间变换网络需要提取输入特征图中不同坐标的像素值并保留到输出特征图对应的目标边界框位置;
空间变换网络的网格生成器的参数情况为:θ11=1/w’,θ12=0,θ13=(1-2x’-w’)/w’,θ21=0,θ22=1/h’,θ23=(1-2y’-h’)/h’;
通过设置以上参数,条件生成对抗网络模型能够对输入特征图以及多目标图像中的特征进行裁剪、平移和缩放,以达到提取目标特征和生成目标对象的目的。
4.根据权利要求3所述的标签带噪数据集扩增方法,其特征在于,
所述步骤4中,考虑标签噪声的用于图像真假分类的损失函数L的具体形式如下:
Figure FDA0003575490280000041
其中,
Figure FDA0003575490280000042
表示从数据集D中采样出的图像以及与图像对应的类别标签和边界框位置,x表示图像集X中的图像,
Figure FDA0003575490280000043
表示带噪类别标签集
Figure FDA0003575490280000044
中的类别标签,yb表示目标边界框集Yb中的边界框位置,
Figure FDA0003575490280000045
表示干净类别标签;z表示从标准正态分布中采样的噪声随机向量,
Figure FDA0003575490280000046
表示从数据集D中采样出的带噪类别标签和对应的边界框位置,
Figure FDA0003575490280000047
表示由
Figure FDA0003575490280000048
估计得到的干净类别标签;
Figure FDA0003575490280000049
表示数据集D中图像、类别标签和目标边界框的联合分布,p(z)表示标准正态分布,
Figure FDA00035754902800000410
表示数据集D中类别标签和目标边界框的联合分布,
Figure FDA00035754902800000411
Figure FDA00035754902800000412
表示噪声标签
Figure FDA00035754902800000413
的干净类别标签
Figure FDA00035754902800000414
的分布;
Figure FDA00035754902800000415
表示判别器D对真实数据的真假置信程度,
Figure FDA00035754902800000416
表示生成器G生成的伪造数据,
Figure FDA00035754902800000417
表示判别器D对伪造数据的真假置信程度;
生成器G以噪声随机向量z、干净类别标签
Figure FDA00035754902800000418
目标边界框
Figure FDA00035754902800000419
为输入,在目标边界框
Figure FDA00035754902800000420
位置生成噪声标签为
Figure FDA00035754902800000421
的目标;其中,干净类别标签
Figure FDA00035754902800000422
是噪声标签
Figure FDA00035754902800000423
经过干净标签估计矩阵T运算得到,即首先通过步骤2估计出的干净标签估计矩阵T,得到噪声标签
Figure FDA00035754902800000424
的干净类别标签
Figure FDA00035754902800000425
的分布
Figure FDA00035754902800000426
然后从
Figure FDA00035754902800000427
中采样得到干净类别标签
Figure FDA00035754902800000428
干净类别标签
Figure FDA00035754902800000429
与噪声随机向量z和目标边界框
Figure FDA00035754902800000430
一起作为生成器G的实际输入;
训练过程中,判别器D通过最大化损失函数L,在以带噪类别标签
Figure FDA00035754902800000431
目标边界框
Figure FDA00035754902800000432
为条件的真实数据和生成器G基于干净类别标签
Figure FDA00035754902800000433
目标边界框
Figure FDA00035754902800000434
生成的数据间找到最佳的决策边界,而生成器G通过最小化损失函数L,生成使判别器D难以区分的数据。
5.根据权利要求4所述的标签带噪数据集扩增方法,其特征在于,
所述步骤6中,测试阶段生成器G的输入为从标准正态分布中采样的噪声随机向量、多个干净类别标签集合{y}及对应的目标边界框位置集合{(x0,y0,w0,h0)};其中,x0、y0、w0、h0为边界框位置,四个参数的取值范围均为(0,1);y为干净类别标签;
测试阶段,干净标签估计矩阵T被置为单位矩阵;
最终生成的图像的格式采用png格式或者jpg格式,目标类别标签和目标边界框文件格式为txt或者pickle格式,文件中每行依次为干净类别标签y、x0、y0、w0、h0
CN202210149500.6A 2022-02-18 2022-02-18 一种面向多标记目标检测任务的标签带噪数据集扩增方法 Active CN114201632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210149500.6A CN114201632B (zh) 2022-02-18 2022-02-18 一种面向多标记目标检测任务的标签带噪数据集扩增方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210149500.6A CN114201632B (zh) 2022-02-18 2022-02-18 一种面向多标记目标检测任务的标签带噪数据集扩增方法

Publications (2)

Publication Number Publication Date
CN114201632A CN114201632A (zh) 2022-03-18
CN114201632B true CN114201632B (zh) 2022-05-06

Family

ID=80645509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210149500.6A Active CN114201632B (zh) 2022-02-18 2022-02-18 一种面向多标记目标检测任务的标签带噪数据集扩增方法

Country Status (1)

Country Link
CN (1) CN114201632B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618935B (zh) * 2022-12-21 2023-05-05 北京航空航天大学 面向分类任务标签噪声的鲁棒性损失函数搜索方法及系统
CN116993893B (zh) * 2023-09-26 2024-01-12 南京信息工程大学 一种抵御ai自瞄作弊的对抗贴图生成方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608471B (zh) * 2015-12-28 2020-01-14 苏州大学 一种鲁棒直推式标签估计及数据分类方法和系统
CN111325236B (zh) * 2020-01-21 2023-04-18 南京大学 一种基于卷积神经网络的超声图像分类方法
CA3167402A1 (en) * 2020-02-13 2021-08-19 Yudong CAO Hybrid quantum-classical adversarial generator
CN113255849B (zh) * 2021-07-14 2021-10-01 南京航空航天大学 一种基于双重主动查询的标签带噪图像学习方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097103A (zh) * 2019-04-22 2019-08-06 西安电子科技大学 基于生成对抗网络的半监督图像分类方法

Also Published As

Publication number Publication date
CN114201632A (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN114201632B (zh) 一种面向多标记目标检测任务的标签带噪数据集扩增方法
CN111222434A (zh) 基于局部二值模式和深度学习的合成人脸图像取证方法
US7783581B2 (en) Data learning system for identifying, learning apparatus, identifying apparatus and learning method
CN112800876B (zh) 一种用于重识别的超球面特征嵌入方法及系统
CN110705565A (zh) 淋巴结肿瘤区域识别方法与装置
CN111325750A (zh) 一种基于多尺度融合u型链神经网络的医学图像分割方法
CN111553348A (zh) 一种基于centernet的anchor-based目标检测方法
CN112396619A (zh) 一种基于语义分割的内部复杂组成的小型颗粒分割方法
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN113420669A (zh) 基于多尺度训练和级联检测的文档版面分析方法和系统
CN111310719B (zh) 一种未知辐射源个体识别及检测的方法
CN116258874A (zh) 基于深度条件扩散网络的sar识别数据库样本姿态扩充方法
CN115311449A (zh) 基于类重激活映射图的弱监督图像目标定位分析系统
CN110768864B (zh) 一种网络流量批量生成图像的方法及装置
CN115019175B (zh) 一种基于迁移元学习的害虫识别方法
CN113177602B (zh) 图像分类方法、装置、电子设备和存储介质
CN115082713A (zh) 引入空间对比信息的目标检测框提取方法、系统及设备
CN113409351B (zh) 基于最优传输的无监督领域自适应遥感图像分割方法
CN114220082A (zh) 一种车道线识别方法、装置和计算机可读存储介质
CN115424250A (zh) 一种车牌识别方法及装置
CN112199984A (zh) 一种大尺度遥感图像的目标快速检测方法
CN113723508B (zh) 票据图像分类方法、装置、计算设备和存储介质
CN113139569B (zh) 目标分类检测方法、装置与系统
CN113343787B (zh) 一种基于深度学习的适用于图谱对比场景中等级评定方法
CN115115885B (zh) 一种保留重要极值点的格拉姆角场转换的用地分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant