CN114201632B - 一种面向多标记目标检测任务的标签带噪数据集扩增方法 - Google Patents
一种面向多标记目标检测任务的标签带噪数据集扩增方法 Download PDFInfo
- Publication number
- CN114201632B CN114201632B CN202210149500.6A CN202210149500A CN114201632B CN 114201632 B CN114201632 B CN 114201632B CN 202210149500 A CN202210149500 A CN 202210149500A CN 114201632 B CN114201632 B CN 114201632B
- Authority
- CN
- China
- Prior art keywords
- label
- target
- clean
- image
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000003321 amplification Effects 0.000 title claims abstract description 9
- 238000003199 nucleic acid amplification method Methods 0.000 title claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 230000009466 transformation Effects 0.000 claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 37
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 20
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 101100460710 Aspergillus sp. (strain MF297-2) notL gene Proteins 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 20
- 238000002372 labelling Methods 0.000 description 7
- 230000015556 catabolic process Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000021110 pickles Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机图像生成技术领域,公开了一种面向多标记目标检测任务的标签带噪数据集扩增方法,该方法针对深度神经网络容易过拟合噪声标签的问题,引入干净标签估计矩阵,以空间变换网络作为骨干网络的条件生成对抗网络,从标签带噪的目标检测数据集中学习到干净的标签条件生成分布,在指定目标边界框位置生成指定类别的目标的图像,在测试阶段基于给定的类别标签和边界框信息生成目标检测数据集。本发明通过引入考虑标签噪声的用于图像真假分类的损失函数,可使模型条件生成对抗网络模型从标签带噪且类别不平衡的多目标检测数据集中,生成高质量标注的多目标检测图像,扩增了目标检测数据集,缓解了对带有准确标注信息的数据日益增大的需求。
Description
技术领域
本发明属于计算机图像生成技术领域,具体涉及一种面向多标记目标检测任务的标签带噪数据集扩增方法。
背景技术
目标检测数据集是一种多标记图像数据集,目标类别标签组合形式多样。若图像中存在多个目标,标注时相较于单标记数据集更加困难,且类别标签的取值是离散值,因此,类别标签容易含有大量噪声。由于图像边界框集中的标签取值为连续型,虽然每张图像边界框标记有些许误差,但从整个数据集上来看误差可以忽略不计。
条件生成对抗网络的训练需要带准确标注信息的数据集,但是实际中可获得的目标检测数据集的类别标签往往包含大量噪声,而条件生成对抗网络有强大的拟合能力,容易对噪声数据过拟合,这会影响生成数据的质量以及类别准确性。
发明内容
本发明的目的在于提出一种面向多标记目标检测任务的标签带噪数据集扩增方法,以便从标签带噪的目标检测数据集中生成新的标注正确的目标检测数据,从而缓解对带有准确标注信息的数据日益增大的需求问题,节省标注成本。
本发明为了实现上述目的,采用如下技术方案:
一种面向多标记目标检测任务的标签带噪数据集扩增方法,包括如下步骤:
步骤2. 基于数据集D学习深度卷积神经网络分类器f,并基于深度卷积神经网络分类器f对数据集D中各个目标的分类结果,得到干净标签估计矩阵T;
步骤3. 构建基于空间变换网络的条件生成对抗网络模型;
条件生成对抗网络模型包括用于在指定目标边界框位置生成指定类别的目标的图像的生成器G,以及用于判断图像为真实训练数据还是生成器G产生的数据的判别器D;
步骤4.构建考虑标签噪声的用于图像真假分类的损失函数L;
步骤5. 基于随机梯度下降交替更新生成器G与判别器D的参数,重复迭代过程至最大迭代次数M,完成条件生成对抗网络模型的训练,并保留生成器G的模型参数φ;
步骤6. 导出保留的生成器G的模型参数φ,基于给定的类别标签和边界框位置,利用生成器G生成用于目标检测的带标注信息的图像;
其中,生成器G生成的图像、给定的类别标签以及边界框位置,组成扩增的数据集。
本发明具有如下优点:
如上所述,本发明述及了一种面向多标记目标检测任务的标签带噪数据集扩增方法,该方法针对深度神经网络容易过拟合噪声标签的问题,通过引入干净标签估计矩阵,以空间变换网络作为骨干网络的条件生成对抗网络,从标签带噪的目标检测数据集中学习到干净的标签条件生成分布,在指定目标边界框位置生成指定类别的目标的图像,在测试阶段基于给定的类别标签和边界框信息,生成目标检测数据集。本发明方法通过引入考虑标签噪声的用于图像真假分类的损失函数,可使模型条件生成对抗网络模型从标签带噪且类别不平衡的多目标检测数据集中,生成高质量标注的多目标检测图像,扩增了目标检测数据集,从而缓解了对带有准确标注信息的数据日益增大的需求问题,节省了标注成本。
附图说明
图1为本发明中面向多标记目标检测任务的标签带噪数据集扩增方法的流程示意图。
图2为本发明中由噪声标签估计干净标签的示意图。
图3为本发明条件生成对抗网络模型中生成器的结构示意图。
图4为本发明条件生成对抗网络模型中判别器的结构示意图。
图5为本发明中用于提取目标的空间变换网络的示意图。
图6为本发明中用于生成目标的空间变换网络的示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
本实施例述及了一种面向多标记目标检测任务的标签带噪数据集扩增方法,以缓解对带有准确标注信息的数据日益增大的需求问题,节省标注成本。
如图1所示,面向多标记目标检测任务的标签带噪数据集扩增方法,包括如下步骤:
图像集X的目标类别标签可通过人工标记的方式获取,比如询问专家或者众包等方式,当然也可通过自动收集的方式获取,比如爬虫。
如果直接在这些采集到的数据集上学习一个条件生成对抗网络模型,它将会对数据的噪声类别标签过拟合,从而导致生成数据的质量和类别准确性下降。
已有的学习理论表明:通过引入干净标签估计矩阵模型,条件生成对抗网络可以从标签带噪的目标检测数据集中学习到干净的标签条件生成分布。
干净标签估计矩阵是一类常用的噪声模型,它刻画了图像中各个类别之间的翻转概率,以此来实现噪声标签和干净标签概率分布之间的映射。
而干净标签估计矩阵可以通过对模型训练早停,在模型过拟合噪声标记之前挑选置信度高的预测作为对应样本的真实类别标记,使用这部分样本得到干净标签估计矩阵。
目标边界框yb含有四个参数x’、y’、w’和h’,其中,(x’, y’)表示目标的中心位置的坐标,w’和h’分别表示目标的宽和高,四个参数取值范围均为(0,1)。
由于目标边界框集Yb中的标签取值为连续型,虽然每张图像边界框标记有些许误差,但从整个数据集上来说误差可以忽略不计。
目标是指目标检测图像中的物体,目标检测图像中通常含有多个物体,即含有多个目标。
步骤2. 基于数据集D学习深度卷积神经网络分类器f,基于深度卷积神经网络分类器f对数据集D中各个目标的分类结果,得到干净标签估计矩阵T。
干净标签估计矩阵T是一个N×N的矩阵,的每一行元素之和均为1,其具体形式为:
∑N j=1Ti,j=1;
其中,i=1,2...N,j=1,2...N,N表示类别的总数。
结合图2所示,步骤2的具体过程如下:
步骤2.4. 在训练集D 2上基于随机梯度下降对交叉熵损失函数L’ 1进行最小化,更新深度卷积神经网络分类器f的参数,记录在训练集D 2上每一轮训练结束后深度卷积神经网络分类器f在验证集D 3上的交叉熵损失L v。
保存每一轮训练结束后深度卷积神经网络分类器f的参数Ov。
如果L v+1>L v,说明深度卷积神经网络分类器f在训练集D 2已经过拟合,停止训练,并将上一轮训练得到的参数Ov作为深度卷积神经网络分类器f的最终参数O。
步骤2.5. 将参数O导入到深度卷积神经网络分类器f中。
对于每一种类别,从深度卷积神经网络分类器f的所有预测结果为该类别的图像中按照预测概率由大到小的顺序挑选出前k张图像,组成图像集X0’。
步骤2.6. 以深度卷积神经网络分类器f的预测类别作为图像集X0’的干净标签Y0’,将图像集X0’及其干净标签Y0’组成数据集D0’,D0’=(X0’,Y0’)。
步骤2.7. 基于数据集D0’得到干净标签估计矩阵T,具体过程如下:
统计数据集D0’中各类噪声标签对应的干净标签分布,对于噪声标签为i的目标,统计该目标的各类干净标签为j的数量si,j。
则干净标签估计矩阵T的计算公式为:Ti,j=si,j/(∑N j=1si,j)。
其中,si,j表示抽取目标中噪声类别标签为i的目标,其干净类别标签为j数量。
步骤3. 构建基于空间变换网络的条件生成对抗网络,包括生成器G和判别器D。
生成器G以噪声随机向量、类别以及目标边界框位置为输入信息,在指定目标边界框位置生成指定类别的目标的图像;判别器D以带标注的目标检测图像为输入,即包括图像、图像的类别标签以及目标边界框位置,区分图像为真实训练数据还是生成器G产生的数据。
首先构建条件如图3和图4所示的生成对抗网络,包括生成器G和判别器D,其中,其中生成器G和判别器D均含有空间变换网络 (Spatial Transformer Network,简称STN)。
空间变换网络可以对输入的特征图及图像进行几何变换,引入目标边界框位置监督信息后,可以使生成对抗网络模型在指定的边界框位置生成目标。
空间变换网络包含网格生成器和采样器两个模块。
网格生成器建立输出特征图的像素坐标与输入特征图的像素坐标之间的仿射映射关系。
采样器根据输出特征图的像素坐标与输入特征图的像素坐标之间的仿射映射关系,提取目标特征信息并保留到目标边界框位置,以处理单个图像上多个目标。
假设输入图像的每个像素的坐标为(xa s,ya s),输出图像的每个像素的坐标为(xa t,ya t),那么坐标(xa s,ya s)和坐标(xa t,ya t)存在仿射变换函数Aθ,表示为:
其中,θef为空间变换参数,e=1,2,3,f=1,2,3;a=1,2,…,H*W,H为输出特征图的高,W为输出特征图的宽。
在网格生成器得到仿射变换函数Aθ后,采样器根据仿射变换函数Aθ对输入特征图进行采样,提取输入特征图不同坐标的像素值,再经过双线性插值并保留到输出特征图中对应的目标边界框位置,其中,双线性插值的具体形式为:
其中,c=1,2,…,C,C表示特征图的通道数,Va c表示输出特征图第c个通道上第a个像素值,其中,u=1,2,…,H,m=1,2,…,W;Uum c表示位于输入特征图中第c个通道中坐标为(m,u)的像素值。如果xa s或者ya s为小数值,输出特征图上每一个的像素值Va c则由其经仿射变换函数Aθ得到的输入特征图中(xa s,ya s)距离最近的四个像素值按照双线性插值法加权求和得到;如果xa s和ya s均为整数,则像素值Va c等于输入特征图中第c个通道的(xa s,ya s)的像素值。
本发明中STN有两个功能:
功能1:提取图像的目标特征;功能2:生成目标边界框位置的目标特征。
功能1:如图5所示,在判别器D中,空间变换网络提取多目标图像中的目标,以便于后续与相应的类别标签进行拼接,空间变换网络的网格生成器的参数情况为:
θ11= w’,θ12=0,θ13=2x’+ w’-1,θ21=0,θ22= h’,θ23=2y’+ h’-1。
功能2:如图6所示,在生成器G和判别器D中,空间变换网络需要提取输入特征图中不同坐标的像素值并保留到输出特征图对应的目标边界框位置。
空间变换网络的网格生成器的参数情况为:θ11= 1/w’,θ12=0,θ13=(1-2x’- w’)/w’,θ21=0,θ22= 1/h’,θ23=(1-2y’- h’) /h’。
PyTorch中含有STN需要的网格生成器包和采样器包。
通过设置以上参数,条件生成对抗网络模型对输入特征图以及多目标图像中的特征进行裁剪、平移和缩放,以达到提取目标特征和生成目标对象的目的。
如果网络需要提取目标特征,将目标从图像中分离,则对应的是STN的功能1;如果网络要生成目标特征,将目标嵌入到图像中,则对应的是STN的功能2。
步骤4. 构建考虑标签噪声的用于图像真假分类的损失函数L。
构建步骤3中条件生成对抗网络的损失函数L,损失函数L的具体形式如下:
其中,表示从数据集D中采样出的图像以及与图像对应的类别标签和边界框位置,x表示图像集X中的图像,表示带噪类别标签集中的类别标签,yb表示目标边界框集Yb中的边界框位置,表示干净类别标签;z表示从标准正态分布中采样的噪声随机向量,(,)表示从数据集D中采样出的带噪类别标签和对应的边界框位置,表示由估计得到的干净类别标签;表示数据集D中图像、类别标签和目标边界框的联合分布,p(z)表示标准正态分布,p(,yb)表示数据集D中类别标签和目标边界框的联合分布,p(|)表示噪声标签的干净类别标签的分布;D表示判别器D对真实数据的真假置信程度,G(z,,)表示生成器G生成的伪造数据,D(G(z, ,),,))表示判别器D对伪造数据的真假置信程度。
生成器G以噪声随机向量z、干净类别标签、目标边界框为输入,在目标边界框位置生成噪声标签为的目标;其中,干净类别标签是噪声标签经过干净标签估计矩阵T运算得到,即首先通过步骤2估计出的干净标签估计矩阵T,得到噪声标签的干净类别标签的分布p(|), 然后从p(|)中采样得到干净类别标签,干净类别标签与噪声随机向量z和目标边界框一起作为生成器G的实际输入;
训练过程中,判别器D通过最大化损失函数L,在以带噪类别标签、目标边界框为条件的真实数据和生成器G基于干净类别标签、目标边界框生成的数据间找到最佳的决策边界,而生成器G通过最小化损失函数L,生成使判别器D难以区分的数据
步骤5. 基于随机梯度下降交替更新生成器G与判别器D的参数,重复迭代过程至最大迭代次数M,完成生成对抗网络的训练,并保留生成器G的模型参数φ。
其中,模型参数φ的文件格式采用ckpt格式、pth格式或weight格式。
步骤6. 导出生成器G的模型参数φ,基于给定的标签以及和目标边界框信息模型参数φ,利用生成器G生成用于目标检测的带标注信息的图像。
其中,生成器G生成的图像、给定的类别标签和边界框位置组成扩增的数据集。
测试阶段生成器G的输入为从标准正态分布中采样的噪声随机向量、多个干净类别标签集合{y}及对应的目标边界框位置集合{(x0,y0,w0,h0)}。其中,x0、y0、w0、h0为边界框位置,四个参数的取值范围均为(0,1),y为干净类别标签。
测试阶段,干净标签估计矩阵T被置为单位矩阵,最终生成的图像的格式采用png格式或者jpg格式,目标类别标签和目标边界框文件格式为txt或者pickle格式。
其中,文件中的每行依次为干净类别标签y、x0、y0、w0、h0。
本发明方法通过引入干净标签估计矩阵,基于空间变换网络的条件生成对抗网络模型,可以从标签带噪的目标检测数据集中学习到干净的条件生成表示,以生成标注正确的目标检测数据集,从而缓解深度神经网络的训练对大量带有准确标注信息的数据的需求问题,在节省标注成本的同时更好地服务于多标记目标检测任务。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (5)
1.一种面向多标记目标检测任务的标签带噪数据集扩增方法,其特征在于,
包括如下步骤:
所述步骤1中,定义图像x为图像集X中的一张图像;
其中,(x’,y’)表示目标的中心位置的坐标,w’和h’分别表示目标的宽和高;
步骤2.基于数据集D学习深度卷积神经网络分类器f,并基于深度卷积神经网络分类器f对数据集D中各个目标的分类结果,得到干净标签估计矩阵T;
所述步骤2中,干净标签估计矩阵T的表达形式如下:
干净标签估计矩阵T是一个N×N的矩阵,每一行元素之和均为1,其具体形式为:
∑N j=1Ti,j=1;
其中,i=1,2...N,j=1,2...N,N表示类别的总数;
所述步骤2具体为:
步骤2.4.在训练集D 2上基于随机梯度下降对交叉熵损失函数L’ 1进行最小化,更新深度卷积神经网络分类器f的参数,记录在训练集D 2上每一轮训练结束后深度卷积神经网络分类器f在验证集D 3上的交叉熵损失L v;
保存每一轮训练结束后深度卷积神经网络分类器f的参数Ov;
如果L v+1>L v,说明深度卷积神经网络分类器f在训练集D 2已经过拟合,停止训练,并将上一轮训练得到的参数Ov作为深度卷积神经网络分类器f的最终参数O;
步骤2.5.将参数O导入到深度卷积神经网络分类器f中;
对于每一种类别,从深度卷积神经网络分类器f的所有预测结果为该类别的图像中按照预测概率由大到小的顺序挑选出前k张图像,组成图像集X0’;
步骤2.6.以深度卷积神经网络分类器f的预测类别作为图像集X0’的干净标签Y0’,将图像集X0’及其干净标签Y0’组成数据集D0’,D0’=(X0’,Y0’);
步骤2.7.统计数据集D0’中各类噪声标签对应的干净标签分布;
对于噪声标签为i的目标,统计该目标的各类干净标签为j的数量si,j;
则干净标签估计矩阵T的计算公式如下:Ti,j=si,j/(∑N j=1si,j);
步骤3.构建基于空间变换网络的条件生成对抗网络模型;
条件生成对抗网络模型包括用于在指定目标边界框位置生成指定类别的目标的图像的生成器G,以及用于判断图像为真实训练数据还是生成器G产生的数据的判别器D;
步骤4.构建考虑标签噪声的用于图像真假分类的损失函数L;
步骤5.基于随机梯度下降交替更新生成器G与判别器D的参数,重复迭代过程至最大迭代次数M,完成条件生成对抗网络模型的训练,并保留生成器G的模型参数φ;
步骤6.导出保留的生成器G的模型参数φ,基于给定的类别标签和边界框位置,利用生成器G生成用于目标检测的带标注信息的图像;
其中,生成器G生成的图像、给定的类别标签以及边界框位置,组成扩增的数据集。
2.根据权利要求1所述的标签带噪数据集扩增方法,其特征在于,
所述步骤3中生成器G和判别器D均以空间变换网络作为骨干网络,空间变换网络用于提取图像的目标特征以及生成目标边界框位置的目标特征;
空间变换网络包括网格生成器和采样器两个模块;其中:
网格生成器建立输出特征图的像素坐标与输入特征图的像素坐标之间的仿射映射关系;
采样器根据建立的输出特征图的像素坐标与输入特征图的像素坐标之间的仿射映射关系,提取目标特征信息并保留到目标边界框位置,以处理单个图像上多个目标。
3.根据权利要求2所述的标签带噪数据集扩增方法,其特征在于,
所述步骤3中,处理单个图像上多个目标的具体过程如下:
假设输入图像的每个像素的坐标为(xa s,ya s),输出图像的每个像素的坐标为(xa t,ya t),那么坐标(xa s,ya s)和坐标(xa t,ya t)存在仿射变换函数Aθ,表示为:
其中,θef为空间变换参数,e=1,2,3,f=1,2,3;
a=1,2,…,H*W,H为输出特征图的高,W为输出特征图的宽;
在网格生成器得到仿射变换函数Aθ后,采样器根据仿射变换函数Aθ对输入特征图进行采样,提取输入特征图不同坐标的像素值,再经过双线性插值并保留到输出特征图中对应的目标边界框位置,其中,双线性插值的具体形式为:
Va c=∑u H∑m WUum cmax(0,1-|xa s-m|)max(0,1-|ya s-u|);
其中,c=1,2,…,C,C表示特征图的通道数;
Va c表示输出特征图第c个通道上第a个像素值,其中,u=1,2,…,H,m=1,2,…,W;
Uum c表示位于输入特征图中第c个通道中坐标为(m,u)的像素值;
如果xa s或者ya s为小数值,输出特征图上每一个的像素值Va c则由其经仿射变换函数Aθ得到的输入特征图中(xa s,ya s)距离最近的四个像素值按照双线性插值法加权求和得到;
如果xa s和ya s均为整数,则像素值Va c等于输入特征图中第c个通道的(xa s,ya s)的像素值;
在判别器D中,空间变换网络用于提取多目标图像中的目标,以便于后续与相应的类别标签进行拼接,空间变换网络的网格生成器的参数情况为:
θ11=w’,θ12=0,θ13=2x’+w’-1,θ21=0,θ22=h’,θ23=2y’+h’-1;
在生成器G和判别器D中,空间变换网络需要提取输入特征图中不同坐标的像素值并保留到输出特征图对应的目标边界框位置;
空间变换网络的网格生成器的参数情况为:θ11=1/w’,θ12=0,θ13=(1-2x’-w’)/w’,θ21=0,θ22=1/h’,θ23=(1-2y’-h’)/h’;
通过设置以上参数,条件生成对抗网络模型能够对输入特征图以及多目标图像中的特征进行裁剪、平移和缩放,以达到提取目标特征和生成目标对象的目的。
4.根据权利要求3所述的标签带噪数据集扩增方法,其特征在于,
所述步骤4中,考虑标签噪声的用于图像真假分类的损失函数L的具体形式如下:
其中,表示从数据集D中采样出的图像以及与图像对应的类别标签和边界框位置,x表示图像集X中的图像,表示带噪类别标签集中的类别标签,yb表示目标边界框集Yb中的边界框位置,表示干净类别标签;z表示从标准正态分布中采样的噪声随机向量,表示从数据集D中采样出的带噪类别标签和对应的边界框位置,表示由估计得到的干净类别标签;表示数据集D中图像、类别标签和目标边界框的联合分布,p(z)表示标准正态分布,表示数据集D中类别标签和目标边界框的联合分布, 表示噪声标签的干净类别标签的分布;表示判别器D对真实数据的真假置信程度,表示生成器G生成的伪造数据,表示判别器D对伪造数据的真假置信程度;
生成器G以噪声随机向量z、干净类别标签目标边界框为输入,在目标边界框位置生成噪声标签为的目标;其中,干净类别标签是噪声标签经过干净标签估计矩阵T运算得到,即首先通过步骤2估计出的干净标签估计矩阵T,得到噪声标签的干净类别标签的分布然后从中采样得到干净类别标签干净类别标签与噪声随机向量z和目标边界框一起作为生成器G的实际输入;
5.根据权利要求4所述的标签带噪数据集扩增方法,其特征在于,
所述步骤6中,测试阶段生成器G的输入为从标准正态分布中采样的噪声随机向量、多个干净类别标签集合{y}及对应的目标边界框位置集合{(x0,y0,w0,h0)};其中,x0、y0、w0、h0为边界框位置,四个参数的取值范围均为(0,1);y为干净类别标签;
测试阶段,干净标签估计矩阵T被置为单位矩阵;
最终生成的图像的格式采用png格式或者jpg格式,目标类别标签和目标边界框文件格式为txt或者pickle格式,文件中每行依次为干净类别标签y、x0、y0、w0、h0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210149500.6A CN114201632B (zh) | 2022-02-18 | 2022-02-18 | 一种面向多标记目标检测任务的标签带噪数据集扩增方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210149500.6A CN114201632B (zh) | 2022-02-18 | 2022-02-18 | 一种面向多标记目标检测任务的标签带噪数据集扩增方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114201632A CN114201632A (zh) | 2022-03-18 |
CN114201632B true CN114201632B (zh) | 2022-05-06 |
Family
ID=80645509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210149500.6A Active CN114201632B (zh) | 2022-02-18 | 2022-02-18 | 一种面向多标记目标检测任务的标签带噪数据集扩增方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114201632B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618935B (zh) * | 2022-12-21 | 2023-05-05 | 北京航空航天大学 | 面向分类任务标签噪声的鲁棒性损失函数搜索方法及系统 |
CN116993893B (zh) * | 2023-09-26 | 2024-01-12 | 南京信息工程大学 | 一种抵御ai自瞄作弊的对抗贴图生成方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097103A (zh) * | 2019-04-22 | 2019-08-06 | 西安电子科技大学 | 基于生成对抗网络的半监督图像分类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608471B (zh) * | 2015-12-28 | 2020-01-14 | 苏州大学 | 一种鲁棒直推式标签估计及数据分类方法和系统 |
CN111325236B (zh) * | 2020-01-21 | 2023-04-18 | 南京大学 | 一种基于卷积神经网络的超声图像分类方法 |
WO2021163487A1 (en) * | 2020-02-13 | 2021-08-19 | Zapata Computing, Inc. | Hybrid quantum-classical adversarial generator |
CN113255849B (zh) * | 2021-07-14 | 2021-10-01 | 南京航空航天大学 | 一种基于双重主动查询的标签带噪图像学习方法 |
-
2022
- 2022-02-18 CN CN202210149500.6A patent/CN114201632B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097103A (zh) * | 2019-04-22 | 2019-08-06 | 西安电子科技大学 | 基于生成对抗网络的半监督图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114201632A (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114201632B (zh) | 一种面向多标记目标检测任务的标签带噪数据集扩增方法 | |
CN106228185B (zh) | 一种基于神经网络的通用图像分类识别系统及方法 | |
CN111222434A (zh) | 基于局部二值模式和深度学习的合成人脸图像取证方法 | |
CN112800876B (zh) | 一种用于重识别的超球面特征嵌入方法及系统 | |
CN108764312B (zh) | 基于ds优化多指标大坝缺陷图像检测方法 | |
CN110705565A (zh) | 淋巴结肿瘤区域识别方法与装置 | |
JP6892606B2 (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
CN112396619A (zh) | 一种基于语义分割的内部复杂组成的小型颗粒分割方法 | |
CN111553348A (zh) | 一种基于centernet的anchor-based目标检测方法 | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN111488911A (zh) | 基于Mask R-CNN与GAN的图像实体抽取方法 | |
CN115311449A (zh) | 基于类重激活映射图的弱监督图像目标定位分析系统 | |
CN114882204A (zh) | 船名自动识别方法 | |
CN113221853A (zh) | 一种基于Yolov4的养鸡场饲养鸡识别算法 | |
CN112464966B (zh) | 鲁棒性估计方法、数据处理方法和信息处理设备 | |
CN109886320B (zh) | 一种人体股骨x光片智能识读方法及系统 | |
CN115082713B (zh) | 引入空间对比信息的目标检测框提取方法、系统及设备 | |
CN110768864A (zh) | 一种网络流量批量生成图像的方法及装置 | |
CN113177602B (zh) | 图像分类方法、装置、电子设备和存储介质 | |
CN115223033A (zh) | 一种合成孔径声呐图像目标分类方法及系统 | |
CN115424250A (zh) | 一种车牌识别方法及装置 | |
CN113409351A (zh) | 基于最优传输的无监督领域自适应遥感图像分割方法 | |
CN112950553A (zh) | 一种多尺度肺叶分割方法、系统、存储介质及电子设备 | |
CN112199984A (zh) | 一种大尺度遥感图像的目标快速检测方法 | |
CN118097197B (zh) | 一种图像识别神经网络模型的匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |