CN111767962B - 基于生成对抗式网络的一阶段目标检测方法、系统及装置 - Google Patents
基于生成对抗式网络的一阶段目标检测方法、系统及装置 Download PDFInfo
- Publication number
- CN111767962B CN111767962B CN202010636203.5A CN202010636203A CN111767962B CN 111767962 B CN111767962 B CN 111767962B CN 202010636203 A CN202010636203 A CN 202010636203A CN 111767962 B CN111767962 B CN 111767962B
- Authority
- CN
- China
- Prior art keywords
- network
- target detection
- training
- image
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 160
- 238000012549 training Methods 0.000 claims abstract description 96
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims description 48
- 238000009826 distribution Methods 0.000 claims description 47
- 238000010586 diagram Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000003042 antagnostic effect Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101150040772 CALY gene Proteins 0.000 description 1
- 101100194362 Schizosaccharomyces pombe (strain 972 / ATCC 24843) res1 gene Proteins 0.000 description 1
- 101100194363 Schizosaccharomyces pombe (strain 972 / ATCC 24843) res2 gene Proteins 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于人工智能计算机视觉领域,具体涉及了一种基于生成对抗式网络的一阶段目标检测方法、系统及装置,旨在解决速度快、实时性强的一阶段目标检测器对小物体、扭曲变形物体以及遮挡物体的识别精度低的问题。本发明包括:基于获取的输入图像,通过训练好的目标检测网络获取输入图像中各目标对应的目标图像;基于Darknet‑53网络框架结合生成对抗式网络构建目标检测网络;基于Wasserstein距离函数构建损失函数;训练过程中通过扭曲变形特征网络、遮挡特征网络和超分辨特征网络扩大样本数量。本发明在保证检测效率的前提下,大大提升了对于扭曲变形物体、不同遮挡程度下的物体以及小物体的物体识别精度。
Description
技术领域
本发明属于人工智能计算机视觉领域,具体涉及一种基于生成对抗式网络的一阶段目标检测方法、系统及装置。
背景技术
随着硬件计算能力的不断提升,计算机视觉发展迅速。计算机视觉与计算机智能处理已经成为一个重要的研究领域。目标检测作为计算机视觉的一个重要方向,得到了快速的发展。目标检测算法在生活场景中的应用也越来越多,用途比较广泛的领域有:无人驾驶领域、安防领域、物流分拣、视频分析等领域。目前目标检测领域的深度学习方法主要分为两大类:二阶段的目标检测算法和一阶段目标检测算法。其中,二阶段目标检测器使用基于区域提名的网络,在区域提名网络中根据每个锚框(anchor)的得分区分前景区域和背景区域。二阶段目标检测算法检测精度较高,但是速度较慢。一阶段目标检测器使用的是直接回归目标框的操作。一阶段目标检测网络的检测速度快,但是检测精度相比于二阶段稍有不足。
目前主流的一阶段目标检测算法有:YOLO系列(包括:YOLO-v1、YOLO-v2、YOLO-v3),RetinaNet,SSD系列(DSSD、FSSD)等。YOLO系列采用DarkNet作为提取特征的骨干网络,由于使用C语言编写所以速度快。SSD系列网络结合了YOLO-v1网络的思想,但是SSD系列网络没有完全丢弃二阶段目标检测网络的思想,在精度上稍高于YOLO-v1,速度上慢于YOLO-v1。DSSD和FSSD都是对特征进行改进的,DSSD使用了反卷积网络提升对小目标物体的检测精度。FSSD使用特征融合的技术提升对小目标物体的检测精度。YOLO-v3则是采用多尺度预测手法对不同尺度的物体进行预测,对小物体的检测效果提升明显。二阶段检测器以Faster-RCNN为代表,在速度和精度上相对于之前的RCNN网络有了明显提升,但是对小物体识别、扭曲变形物体识别以及遮挡物体的识别精度上有待进一步提升。
总的来说,现有的二阶段目标检测方法速度较慢、实时性较差;而一阶段目标检测方法精度较差,无法满足实际应用对于小物体、扭曲变形物体、部分遮挡物体的检测要求。
发明内容
为了解决现有技术的上述问题,即速度快、实时性强的一阶段目标检测器对小物体、扭曲变形物体以及遮挡物体的识别精度低的问题,本发明提供了一种基于生成对抗式网络的一阶段目标检测方法,该目标检测方法包括:
基于获取的输入图像,通过训练好的目标检测网络获取所述输入图像中各目标对应的目标图像;
其中,所述目标检测网络基于Darknet-53网络框架构建,并基于Wasserstein距离函数构建损失函数,其训练方法为:
步骤A10,获取训练图像集以及所述训练图像集中每一个图像的真实目标图像作为样本标签;
步骤A20,通过目标检测网络的特征提取模块提取所述训练图像集中每一个图像的特征,获得训练特征图集;
步骤A30,随机选取一个训练特征图,通过目标检测网络获取所述训练图像的预测目标图像;
步骤A40,基于所述训练图像的预测目标图像及对应的样本标签,通过基于Wasserstein距离构建的损失函数计算目标检测损失值;
步骤A50,若所述目标检测损失值大于设定阈值,则更新所述目标检测网络的权重因子;
步骤A60,重复执行步骤A30-步骤A50直至所述目标检测损失值小于设定阈值或达到预设训练次数,获得训练好的目标检测网络。
在一些优选的实施例中,步骤A30之前还设置有样本扩充的步骤,其方法为:
步骤B10,对于所述训练特征图集中的每一个训练特征图:
通过空间扭曲变形特征网络进行训练特征图的拉伸、扭曲、旋转,生成不同程度的扭曲变形特征图集;
通过空间遮挡特征网络采用掩膜Mask机制进行训练特征图遮挡,生成不同遮挡程度的遮挡特征图集;
通过超分辨特征网络对训练特征图中小分辨率物体进行上采样,将所述训练特征图变大为原图的设定整数倍,获得大尺度特征图集;
步骤B20,将所述不同程度的扭曲变形特征图集、不同遮挡程度的遮挡特征图集、大尺度特征图集合并入训练特征图集,获得扩充后的训练特征图集。
在一些优选的实施例中,所述超分辨特征网络基于生成对抗网络构建,并通过生成对抗式方法进行训练。
在一些优选的实施例中,所述Wasserstein距离函数为:
Wasserstein(P1,P2)=inf(r∈Π(P1,P2))E(x,y)~r[||x-y||]
其中,Wasserstein(P1,P2)代表P1和P2之间的Wasserstein距离,P1代表真值框的分布,P2代表预测框的分布,r∈Π(P1,P2)代表r属于P1,P2的联合分布,E(x,y)~r[||x-y||]代表在联合分布r下样本对距离的期望值,inf代表对(r∈Π(P1,P2))取下界值。
在一些优选的实施例中,所述Wasserstein距离函数通过辅助函数对(r∈Π(P1,P2))取下界值;所述辅助函数为:
所述辅助函数满足利普希茨约束,所述利普希茨约束为:
|f(x1)|-|f(x2)|≤k*|x1-x2|。
在一些优选的实施例中,“基于Wasserstein距离函数构建损失函数”,其方法为:
在一些优选的实施例中,步骤A50中“更新所述目标检测网络的权重因子”之前还设置有权重因子归一化的步骤,其方法为:
其中,w为归一化后的目标检测网络的权重因子,W为归一化前的目标检测网络的权重因子,C代表训练集类别数,λ为值域在(0,0.1)之间的随机数,||W||L2代表求W的L2范数。
本发明的另一方面,提出了一种基于生成对抗式网络的一阶段目标检测系统,基于上述的基于生成对抗式网络的一阶段目标检测方法,该目标检测系统包括输入模块、目标检测模块、输出模块;
所述输入模块,配置为获取待检测图像并输入;
所述目标检测模块,配置为基于获取的输入图像,通过训练好的目标检测网络获取所述输入图像中各目标对应的目标图像;
所述输出模块,配置为输出输入图像中各目标对应的目标图像;
其中,所述目标检测模块包括样本获取模块、特征提取模块、预测目标图像获取模块、损失计算及权重因子更新模块、循环模块;
所述样本获取模块,配置为获取训练图像集以及所述训练图像集中每一个图像的真实目标图像作为样本标签;
所述特征提取模块,配置为提取所述训练图像集中每一个图像的特征,获得训练特征图集;
所述预测目标图像获取模块,配置为随机选取一个训练特征图,通过目标检测网络获取所述训练图像的预测目标图像;
所述损失计算及权重因子更新模块,配置为基于所述训练图像的预测目标图像及对应的样本标签,通过基于Wasserstein距离构建的损失函数计算目标检测损失值,并在所述目标检测损失值大于设定阈值时更新所述目标检测网络的权重因子;
所述循环模块,配置为循环通过预测目标图像获取模块、损失计算及权重因子更新模块进行目标检测网络的训练,直至所述目标检测损失值小于设定阈值或达到预设训练次数,获得训练好的目标检测网络。
本发明的第三方面,提出了一种储存装置,其中存储有多条程序,所述程序适用于由处理器加载并执行以实现上述的基于生成对抗式网络的一阶段目标检测方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置,所述处理器,适用于执行各条程序;所述存储装置,适用于存储多条程序;所述程序适于由处理器加载并执行以实现上述基于生成对抗式网络的一阶段目标检测方法。
本发明的有益效果:
(1)本发明基于生成对抗式网络的一阶段目标检测方法,采用生成对抗式网络的生成器,使用真实的小物体生成超分辨率物体,而不是使用跟真实数据分布相同的随机噪声进行图片生成。生成的图片更加逼真,纹理更加清晰,进而能够更精确有效的检测小物体。另外,本发明使用空间注意力机制更好的定位小物体的位置,使生成的小物体的图片更接近真实图片,纹理细节更加逼真,同时不会遗漏图像中的细小目标,检测全面。
(2)本发明基于生成对抗式网络的一阶段目标检测方法,生成式对抗式网络的生成器中的超分辨率网络使用6个Dense Block来提取图像特征。每一次特征融合时都采用平衡因子α,将小目标信息增强,抑制部分背景噪音,得到增强的图像语义信息进行检测,显著提高了小目标检测的准确率。
(3)本发明基于生成对抗式网络的一阶段目标检测方法,在残差网络中提取特征时,加入扭曲网络特征和遮挡网络特征,生成扭曲变形的特征图和不同遮挡程度下的特征图再送入生成对抗网络中,对训练样本达到了增广的效果,有效提升了对扭曲变形物体,遮挡物体的识别精度。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显:
图1为本发明基于生成对抗式网络的一阶段目标检测方法的流程示意图;
图2为本发明基于生成对抗式网络的一阶段目标检测方法一种实施例的目标检测模型的网络结构示意图;
图3为本发明基于生成对抗式网络的一阶段目标检测方法一种实施例的目标检测模型的网络模块细节图;
图4为本发明基于生成对抗式网络的一阶段目标检测方法一种实施例的两个不同分布的Wasserstein距离描述图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅出示了与有关发明的相关部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施中的特征可以相互结合。下面将参考附图并结合实施例来详细说明本申请。
本发明提出了一种基于生成对抗式网络的一阶段目标检测方法,本方法对原始的一阶段目标检测算法YOLO-v3网络中存在的不足之处进行改进,解决了速度快、实时性强的一阶段目标检测器对小物体识别、扭曲变形物体识别和遮挡物体识别精度低的问题。
本发明一种实施例的基于生成对抗式网络的一阶段目标检测方法,该目标检测方法包括:
基于获取的输入图像,通过训练好的目标检测网络获取所述输入图像中各目标对应的目标图像;
其中,所述目标检测网络基于Darknet-53网络框架构建,并基于Wasserstein距离函数构建损失函数,其训练方法为:
步骤A10,获取训练图像集以及所述训练图像集中每一个图像的真实目标图像作为样本标签;
步骤A20,通过目标检测网络的特征提取模块提取所述训练图像集中每一个图像的特征,获得训练特征图集;
步骤A30,随机选取一个训练特征图,通过目标检测网络获取所述训练图像的预测目标图像;
步骤A40,基于所述训练图像的预测目标图像及对应的样本标签,通过基于Wasserstein距离构建的损失函数计算目标检测损失值;
步骤A50,若所述目标检测损失值大于设定阙值,则更新所述目标检测网络的权重因子;
步骤A60,重复执行步骤A30-步骤A50直至所述目标检测损失值小于设定阙值或达到预设训练次数,获得检测好的目标检测网络。
为了更清晰地对本发明进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明一种实施例的基于生成对抗式网络的一阶段目标检测方法,各步骤详细描述如下:
基于获取的输入图像,通过训练好的目标检测网络获取所述输入图像中各目标对应的目标图像;
其中,所述目标检测网络基于Darknet-53网络框架构建,并基于Wasserstein距离函数构建损失函数。
本发明一个实施例中,选取Darknet-53网络框架作为本发明目标检测网络的网络主框架,该框架是一种轻量级的网络架构,包含53层卷积层,但是在检测效果上与ResNet-101、ResNet-152等网络基本一致,在效果相差无几的情况下,大大减少了网络的参数,提升了检测速度。
步骤A10,获取训练图像集以及所述训练图像集中每一个图像的真实目标图像作为样本标签。
本发明一个实施例中,将训练图集中每一个图像的宽、高、通道数reshape成416×416×3尺寸,通道数为3,即送入网络的图像是彩色图。
步骤A20,通过目标检测网络的特征提取模块提取所述训练图像集中每一个图像的特征,获得训练特征图集。
如图2所示,本发明基于生成对抗式网络的一阶段目标检测方法一种实施例的目标检测模型的网络结构示意图,本发明的一个实施例中,将图像送入目标检测网络的特征提取模块DBL模块提取特征,将得到的特征图通过两个通道进行传送。
如图3所示,本发明基于生成对抗式网络的一阶段目标检测方法一种实施例的目标检测模型的网络模块细节图,DBL模块包括:卷积块(conv)、批归一化(BN)、激活函数(Leaky Relu)。批归一化(BN)指的是在神经网络开始训练之前,都要对输入数据做一个归一化处理。一方面,网络学习过程的本质就是为了学习数据分布,如果训练数据和测试数据的分布不同,那么网络的泛化能力也大大降低;另一方面,一旦每批训练数据的分布各不相同,那么网络就要在每次迭代都去学习不同的分布,这样会大大降低网络的训练速度,所以要对数据做一个归一化处理。激活函数Leaky ReLU是给所有负值赋予一个非零斜率。对于YOLO-v3网络来说,BN和leaky relu已经是和卷积层不可分离的部分了(最后一层卷积除外),共同构成了最小组件。res_unit模块为两个DBL模块相加所得,加和操作来源于ResNet思想,将输入特征图与输出特征图的对应维度进行相加。resn模块由Zero_padding模块、DBL模块以及res_unit模块三部分构成,其中n代表数字,有res1,res2,…,res8等等,表示这个res_block里含有多少个res_unit,这是yolo_v3的大组件。
步骤A30之前还设置有样本扩充的步骤,其方法为:
步骤B10,对于所述训练特征图集中的每一个训练特征图:
通过空间扭曲变形特征网络(Spatial Distortion Network)进行训练特征图的拉伸、扭曲、旋转,生成不同程度的扭曲变形特征图集。
本发明一个实施例中,通过空间扭曲变形特征(SDF)网络对特征图(feature-map)进行拉伸、扭曲,目的是让生成的特征图扭曲变形。在训练时网络可以学习该种条件下的扭曲变形特征,以便在真实场景下能够更好的检测物体,提升物体的检测精度。
通过空间遮挡特征网络(Spatial Occlusion Network)采用掩膜Mask机制进行训练特征图遮挡,生成不同遮挡程度的遮挡特征图集。
本发明一个实施例中,通过空间遮挡特征网络使用掩膜Mask机制在特征图(feature-map)上进行遮挡。针对不同遮挡程度条件下的识别,使用概率的形式对特征图进行选择性遮挡,并且在此过程中遮挡的程度的大小也是采用概率的方式随机改变遮挡范围大小。将Mask遮挡下的特征值置为0,提升对不同遮挡程度下的物体的识别精度。
通过超分辨特征网络对训练特征图中小分辨率物体进行上采样,将所述训练特征图变大为原图的设定整数倍,获得大尺度特征图集。
超分辨特征网络基于生成对抗网络构建,并通过生成对抗式进行训练。
使用超分辨率网络主要是使用生成对抗网络(GAN)提升对小物体的识别精度,将小物体的尺寸放大设定的整数倍。本发明一个实施例中,将小物体的尺寸放大4倍。该部分网络的优势如下:
第一,生成对抗式网络的生成器使用真实的小物体进行生成超分辨率物体,而不是使用跟真实数据分布相同的随机噪声进行图片生成,使生成的图片更加逼真,纹理更加清晰。
第二,生成器中的超分辨率网络使用6个Dense Block来提取图像特征。每一次都采用平衡因子α进行特征融合。
第三,Dense Block中不使用批归一化(BN)操作,因为该操作会使特征变得离散,而使用加深网络可以达到更好的效果。
第四,在特征传入下一个Dense Block之前,添加一个1×1的卷积操作进行过渡。
第五,使用空间注意力机制更好的定位小物体的位置,使生成的小物体的图片更接近真实图片,纹理细节更加逼真。
步骤B20,将所述不同程度的扭曲变形特征图集、不同遮挡程度的遮挡特征图集、大尺度特征图集合并入训练特征图集,获得扩充后的训练特征图集。
在残差网络中提取特征时,加入扭曲变形特征(SDF)、遮挡特征(SOF),生成扭曲变形的特征图和不同遮挡程度下的特征图,用于提升对扭曲变形物体,遮挡物体的识别精度。同时,还生成了更接近真实图片、纹理细节更加逼真的小物体的图片。采用扩充后的训练样本集训练的目标检测网络,对于扭曲变形物体、不同遮挡程度下的物体以及小物体的物体识别精度都有很大的提升。
在生成对抗网络(GAN)中,不采用BN操作,因为此操作会让特征空间变得稀疏离散,对图像生成效果不明显,可以使用多个Dense Block替换BN操作。在做超分辨率时,本发明采用了×2、×4倍放大操作,目的就是进行多尺度预测。此外,放大之后的物体可能会出现模糊,失真的情况,可以使用Deblur操作进行去模糊。
步骤A30,随机选取一个训练特征图,通过目标检测网络获取所述训练图像的预测目标图像。
如图2所示,本发明基于生成对抗式网络的一阶段目标检测方法一种实施例的目标检测模型的网络结构示意图,在本发明的一个实施例中,延续使用YOLO-v3算法在Darknet-53特征提取框架后面的网络结构,将融合的特征图被当作两部分使用,第一部分为经过5个DBL基本单元模块、1×1卷积层之后生成的特征图一;第二部分为经过1个DBL基本单元模块加上采样层,与修改后的Darnet-53特征提取网络的中间层输出结果进行拼接,再通过5个DBL基本单元模块、1个DBL基本单元模块、1×1卷积层之后产生的特征图二。同样的循环之后产生特征图三。由此生成13×13×255、26×26×255、52×52×255三种输出维度。
根据输出的尺度大小,调整相应的放大倍数。三种输出尺度:对于13×13×255和26×26×255这两个尺度预测,使用放大倍数×4,因为它们的尺寸属于小物体。对于52×52×255使用放大倍数×2,该尺度属于中等尺度。
本发明基于生成对抗式网络的一阶段目标检测方法GA-YONET的网络结构中借鉴了金字塔特征图思想,小尺寸特征图用于检测大尺寸物体,而大尺寸特征图检测小尺寸物体。特征图的输出维度为N×N×[3×(4+1+80)],N×N为输出特征图格点数,一共三个Anchor框,每个框有4维预测框数值,1维预测框置信度,80维物体类别数。所以第一层的输出维度为13×13×255。
本发明基于生成对抗式网络的一阶段目标检测方法GA-YONET的网络结构总共输出3个特征图,第一个特征图通过基于生成对抗式网络的上采样模块(GAN-Upsample)上采样4倍,第二个特征图上采样4倍,第三个特征图上采样2倍。
步骤A40,基于所述训练图像的预测目标图像及对应的样本标签,通过基于Wasserstein距离构建的损失函数计算目标检测损失值。
步骤A50,若所述目标检测损失值大于设定阙值,则更新所述目标检测网络的权重因子。
为了使网络训练更加稳定,权重因子每次更新时都需要做归一化操作,如式(1)所示:
其中,w为归一化后的目标检测网络的权重因子,W为归一化前的目标检测网络的权重因子,C代表训练集类别数,λ代表值域为(0,0.1)之间的随机数,||W||L2代表求W的L2范数。
步骤A60,重复执行步骤A30-步骤A50直至所述目标检测损失值小于设定阙值或达到预设训练次数,获得检测好的目标检测网络。
本发明基于生成式对抗网络的一阶段目标检测方法GA-YONET,对于框的回归使用Wasserstein距离作为损失函数,如图4所示,为本发明基于生成对抗式网络的一阶段目标检测方法一种实施例的两个不同分布的Wasserstein距离描述图,δ代表P1分布和P2分布的Wasserstein距离,该距离的好处在于可以真实的刻画空间中两个分布的距离,不论空间中两个分布之间的距离有多大都不会出现损失函数难以收敛的现象。对于分类回归使用逻辑回归(LR),目的就是为了不会误删除重叠框,减少漏检现象的发生。
通过与KL散度,JS散度进行比较,Wasserstein距离在两个分布之间不重叠或者重叠很小的情况下都可以真实刻画两个分布的距离大小。KL散度在两个分布重叠较小,或者不重合的情况下,数值是无穷大,这是毫无意义的,会导致loss难收敛的情况。此外KL散度并不是真正意义上的距离公式,它既不满足对称性质,也不满足三角不等式性质,所以不能很好的刻画两个分布之间的距离。JS散度满足对称性和三角不等式的性质,但在两个分布重叠较小可忽略,或者不重合的情况下数值是常数,就会导致梯度消失的状况。式(2)从上到下分别描述的是离散/连续型KL散度:
其中,P(X)表示样本的真实分布,Q(X)表示模型所预测的分布。
由KL散度的公式可知:当P=1,Q=0时,真值框和预测框不重叠,公式无意义;当P=1,Q≈0时,值为无穷大,如式(3)和式(4)所示:
由KL散度可知:当P=0,Q=1时,如式(5)所示的KL散度公式无意义:
JS散度公式如式(6)所示:
其中,P1表示真值框的分布,P2代表预测框的分布。
将公式(2)代入公式(6)可以得到式(7):
为了证明JS散度在取极端值时不会出现KL散度存在的无意义的值,进一步推导如下:取极端值,令P1=1,P2=0,此时真值框和预测框不重叠,如式(8)所示:
同理当P1=0,P2=1时:再由公式(6)可知:JS(P||Q)=JS(Q||P),满足对称性。对于JS散度来说:当两个分布相距甚远,或者重叠区域大小可忽略时就会导致JS散度的值为一个常数这在梯度回传时极易导致梯度消失的情况。但是JS散度相比于KL散度在数学理论上有了进一步提升,同时满足对称性和三角不等式性质,是真正意义上的距离公式。因此本发明针对KL散度,JS散度存在的缺陷进行了改进,使用的损失函数是Wasserstein距离函数。
如图4所示,本发明基于生成对抗式网络的一阶段目标检测方法一种实施例的两个不同分布的Wasserstein距离描述图,Wasserstein距离函数不论两个分布是否重叠,都可以用δ刻画距离,弥补了JS,KL散度不足。
Wasserstein距离函数如式(9)所示:
Wasserstein(P1,P2)=inf(r∈Π(P1,P2))E(x,y)~r[||x-y||] 式(9)
其中,Wasserstein(P1,P2)代表P1和P2之间的Wasserstein距离,P1代表真值框的分布,P2代表预测框的分布,r∈Π(P1,P2)代表r属于P1,P2的联合分布,E(x,y)~r[||x-y||]代表在联合分布r下样本对距离的期望值,inf代表对(r∈Π(P1,P2))取下界值。
inf(r∈Π(P1,P2))取下界值这个操作是不能直接求解的,必须借助一个辅助函数,并且需要满足利普希茨约束(L约束),辅助函数和利普希茨约束分别如式(10)、式(11)所示:
|f(x1)|-|f(x2)|≤k*|x1-x2| 式(11)
Loss函数定义如式(12)所示:
最终的Loss函数采用高斯梯度惩罚的方式进行训练,其函数如式(13)所示:
本发明第二实施例的基于生成对抗式网络的一阶段目标检测系统,该目标检测系统包括输入模块、目标检测模块、输出模块;
所述输入模块,配置为获取待检测图像并输入;
所述目标检测模块,配置为基于获取的输入图像,通过训练好的目标检测网络获取所述输入图像中各目标对应的目标图像;
所述输出模块,配置为输出输入图像中各目标对应的目标图像;
其中,所述目标检测模块包括样本获取模块、特征提取模块、预测目标图像获取模块、损失计算及权重因子更新模块、循环模块;
所述样本获取模块,配置为获取训练图像集以及所述训练图像集中每一个图像的真实目标图像作为样本标签;
所述特征提取模块,配置为提取所述训练图像集中每一个图像的特征,获得训练特征图集;
所述预测目标图像获取模块,配置为随机选取一个训练特征图,通过目标检测网络获取所述训练图像的预测目标图像;
所述损失计算及权重因子更新模块,配置为基于所述训练图像的预测目标图像及对应的样本标签,通过基于Wasserstein距离构建的损失函数计算目标检测损失值,并在所述目标检测损失值大于设定阈值时更新所述目标检测网络的权重因子;
所述循环模块,配置为循环通过预测目标图像获取模块、损失计算及权重因子更新模块进行目标检测网络的训练,直至所述目标检测损失值小于设定阈值或达到预设训练次数,获得训练好的目标检测网络。
所属技术领域的技术人员可以清楚地了解到,为描述方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于生成对抗式网络的一阶段目标检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于生成对抗式网络的一阶段目标检测方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于生成对抗式网络的一阶段目标检测方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种基于生成对抗式网络的一阶段目标检测方法,其特征在于:该目标检测方法包括:
基于获取的输入图像,通过训练好的目标检测网络获取所述输入图像中各目标对应的目标图像:
其中,所述目标检测网络基于Darknet-53网络框架构建,并基于Wasserstein距离函数构建损失函数,其训练方法为:
步骤A10,获取训练图像集以及所述训练图像集中每一个图像的真实目标图像作为样本标签;
步骤A20,通过目标检测网络的特征提取模块提取所述训练图像集中每一个图像的特征,获得训练特征图集;
步骤A30,随机选取一个训练特征图,通过目标检测网络获取所述训练图像的预测目标图像;
步骤A40,基于所述训练图像的预测目标图像及对应的样本标签,通过基于Wasserstein距离构建的损失函数计算目标检测损失值;
步骤A50,若所述目标检测损失值大于设定阙值,则更新所述目标检测网络的权重因子;
步骤A60,重复执行步骤A30-步骤A50直至所述目标检测损失值小于设定阙值或达到预设训练次数,获得检测好的目标检测网络;
步骤A30之前还设置有样本扩充的步骤,其方法为:
步骤B10,对于所述训练特征图集中的每一个训练特征图:
通过空间扭曲变形特征网络进行训练特征图的拉伸、扭曲、旋转,生成不同程度的扭曲变形特征图集;
通过空间遮挡特征网络采用掩膜Mask机制进行训练特征图遮挡,生成不同遮挡程度的遮挡特征图集;
通过超分辨特征网络对训练特征图中小分辨率物体进行上采样,将所述训练特征图变大为原图的设定整数倍,获得大尺度特征图集;
步骤B20,将所述不同程度的扭曲变形特征图集、不同遮挡程度的遮挡特征图集、大尺度特征图集合并入训练特征图集,获得扩充后的训练特征图集。
2.根据权利要求1所述的基于生成对抗式网络的一阶段目标检测方法,其特征在于,所述超分辨特征网络基于生成对抗网络构建,并通过生成对抗式方法进行训练。
3.根据权利要求1所述的基于生成对抗式网络的一阶段目标检测方法,其特征在于,所述Wasserstein距离函数为:
Wasserstein(P1,P2)=inf(r∈Π(P1,P2))E(x,y)~r[||x-y||]
其中,Wasserstein(P1,P2)代表P1和P2之间的Wasserstein距离,P1代表真值框的分布,P2代表预测框的分布,r∈Π(P1,P2)代表r属于P1,P2的联合分布,E(x,y)~r[||x-y||]代表在联合分布r下样本对距离的期望值,inf代表对(r∈Π(P1,P2))取下界值。
7.一种基于生成对抗式网络的一阶段目标检测系统,其特征在于,基于权利要求1-6任一项所述的基于生成对抗式网络的一阶段目标检测方法,该目标检测系统包括输入模块、目标检测模块、输出模块;
所述输入模块,配置为获取待检测图像并输入;
所述目标检测模块,配置为基于获取的输入图像,通过训练好的目标检测网络获取所述输入图像中各目标对应的目标图像;
所述输出模块,配置为输出输入图像中各目标对应的目标图像;
其中,所述目标检测模块包括样本获取模块、特征提取模块、预测目标图像获取模块、损失计算及权重因子更新模块、循环模块;
所述样本获取模块,配置为获取训练图像集以及所述训练图像集中每一个图像的真实目标图像作为样本标签;
所述特征提取模块,配置为提取所述训练图像集中每一个图像的特征,获得训练特征图集;
所述预测目标图像获取模块,配置为随机选取一个训练特征图,通过目标检测网络获取所述训练图像的预测目标图像;
所述损失计算及权重因子更新模块,配置为基于所述训练图像的预测目标图像及对应的样本标签,通过基于Wasserstein距离构建的损失函数计算目标检测损失值,并在所述目标检测损失值大于设定阈值时更新所述目标检测网络的权重因子;
所述循环模块,配置为循环通过预测目标图像获取模块、损失计算及权重因子更新模块进行目标检测网络的训练,直至所述目标检测损失值小于设定阈值或达到预设训练次数,获得训练好的目标检测网络。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-6任一项所述的基于生成对抗式网络的一阶段目标检测方法。
9.一种处理装置,包括处理器,适于执行各条程序;以及存储装置,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行以实现:权利要求1-6任一项所述的基于生成对抗式网络的一阶段目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010636203.5A CN111767962B (zh) | 2020-07-03 | 2020-07-03 | 基于生成对抗式网络的一阶段目标检测方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010636203.5A CN111767962B (zh) | 2020-07-03 | 2020-07-03 | 基于生成对抗式网络的一阶段目标检测方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767962A CN111767962A (zh) | 2020-10-13 |
CN111767962B true CN111767962B (zh) | 2022-11-08 |
Family
ID=72723750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010636203.5A Active CN111767962B (zh) | 2020-07-03 | 2020-07-03 | 基于生成对抗式网络的一阶段目标检测方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767962B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378905B (zh) * | 2021-06-04 | 2022-06-03 | 武汉大学 | 一种基于分布距离的小目标检测方法 |
CN113486949B (zh) * | 2021-07-02 | 2023-03-24 | 江苏罗思韦尔电气有限公司 | 基于YOLO v4渐进定位的遮挡目标检测方法及装置 |
CN113554872B (zh) * | 2021-07-19 | 2022-09-20 | 昭通亮风台信息科技有限公司 | 一种位于交通路口及弯道的检测预警方法及系统 |
CN117437395A (zh) * | 2022-07-15 | 2024-01-23 | 马上消费金融股份有限公司 | 目标检测模型训练方法、目标检测方法及装置 |
CN115860067B (zh) * | 2023-02-16 | 2023-09-05 | 深圳华声医疗技术股份有限公司 | 生成对抗网络训练方法、装置、计算机设备及存储介质 |
CN117541883B (zh) * | 2024-01-09 | 2024-04-09 | 四川见山科技有限责任公司 | 图像生成模型训练、图像生成方法、系统以及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409365A (zh) * | 2018-10-25 | 2019-03-01 | 江苏德劭信息科技有限公司 | 一种基于深度目标检测的待采摘水果识别和定位方法 |
CN110503112A (zh) * | 2019-08-27 | 2019-11-26 | 电子科技大学 | 一种增强特征学习的小目标检测及识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778867B (zh) * | 2016-12-15 | 2020-07-07 | 北京旷视科技有限公司 | 目标检测方法和装置、神经网络训练方法和装置 |
-
2020
- 2020-07-03 CN CN202010636203.5A patent/CN111767962B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409365A (zh) * | 2018-10-25 | 2019-03-01 | 江苏德劭信息科技有限公司 | 一种基于深度目标检测的待采摘水果识别和定位方法 |
CN110503112A (zh) * | 2019-08-27 | 2019-11-26 | 电子科技大学 | 一种增强特征学习的小目标检测及识别方法 |
Non-Patent Citations (2)
Title |
---|
基于Mask R-CNN(FFM)的城市交通场景多目标检测与分割技术;林椿眄;《中国优秀硕士学位论文全文数据库》;20190401;全文 * |
融合多尺度特征的目标检测模型;刘万军等;《激光与光电子学进展》(第23期);123-133 * |
Also Published As
Publication number | Publication date |
---|---|
CN111767962A (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767962B (zh) | 基于生成对抗式网络的一阶段目标检测方法、系统及装置 | |
Maeda et al. | Generative adversarial network for road damage detection | |
CN108830285B (zh) | 一种基于Faster-RCNN的加强学习的目标检测方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
JP2020508531A (ja) | 画像品質の評価方法及び画像品質の評価システム | |
CN111274981B (zh) | 目标检测网络构建方法及装置、目标检测方法 | |
US20200065664A1 (en) | System and method of measuring the robustness of a deep neural network | |
CN114612835A (zh) | 一种基于YOLOv5网络的无人机目标检测模型 | |
CN111738055A (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
CN113591795A (zh) | 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统 | |
CN113033516A (zh) | 对象识别统计方法及装置、电子设备、存储介质 | |
Kumar et al. | Performance analysis of object detection algorithm for intelligent traffic surveillance system | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
Wang et al. | Small vehicle classification in the wild using generative adversarial network | |
CN116311004B (zh) | 基于稀疏光流提取的视频运动目标检测方法 | |
Zhang et al. | Small target detection based on squared cross entropy and dense feature pyramid networks | |
CN112614108A (zh) | 基于深度学习检测甲状腺超声图像中结节的方法和装置 | |
CN110852255B (zh) | 一种基于u型特征金字塔的交通目标检测方法 | |
CN112434730A (zh) | 一种基于GoogleNet的视频图像质量异常分类方法 | |
CN111444816A (zh) | 一种基于Faster RCNN的多尺度密集行人检测方法 | |
CN116597275A (zh) | 一种基于数据增强的高速移动目标识别方法 | |
CN110659724A (zh) | 一种基于目标尺度范围的目标检测卷积神经网络构建方法 | |
CN114463300A (zh) | 钢材表面缺陷检测方法、电子设备、存储介质 | |
Kucuk et al. | Multi-wavelength solar event detection using faster R-CNN | |
CN110489584B (zh) | 基于密集连接的MobileNets模型的图像分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |