CN114399655A - 目标检测方法、系统及存储介质 - Google Patents
目标检测方法、系统及存储介质 Download PDFInfo
- Publication number
- CN114399655A CN114399655A CN202111464389.1A CN202111464389A CN114399655A CN 114399655 A CN114399655 A CN 114399655A CN 202111464389 A CN202111464389 A CN 202111464389A CN 114399655 A CN114399655 A CN 114399655A
- Authority
- CN
- China
- Prior art keywords
- target detection
- data set
- network
- small
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种目标检测方法、系统及计算机介质,具体的,通过图像采集获取目标检测数据集,对目标检测数据集进行图像预处理,得到增强目标检测数据集;增强目标检测数据集包括标注的真实标签;将增强目标检测数据集输入小目标检测网络,得到预测标签;构建损失函数使预测标签与真实标签之间的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络;将待检测图像输入训练后的小目标检测网络,得到目标分类以及目标定位结果。本申请通过增强小目标检测数据集,实现了对小目标物体的有效检测及分类;实现了对小目标物体检测准确定位、准确分类以及缩短检测时间的效果。
Description
技术领域
本申请属于人工智能技术领域,具体地,涉及一种目标检测方法、系统及存储介质。
背景技术
目前,随着人工智能技术的快速发展,神经网络(例如,深度神经网络)近年来在图像、视频以及语音等多种媒体信号的处理与分析中取得了很大的成就。一个性能优良的神经网络往往拥有精妙的网络结构,而这需要具有高超技能和丰富经验的人类专家花费大量精力进行构建。为了更好地构建神经网络,人们提出了通过神经网络结构搜索(neuralarchitecturesearch,NAS)的方法来搭建神经网络,通过自动化地搜索神经网络结构,从而得到性能优异的神经网络结构。
目标检测技术是计算机视觉技术的基础,目标检测技术可以检测出图像中包含的诸如人像、动物或物品等多种目标对象。在实际应用中目标检测技术可应用于诸多场景目标检测一般是在图像中定位目标物体并赋予目标物体相应的标签。
当前目标检测数据集通常使用Microsoft COCO(Microsoft Common Object inContext)等大型数据集,Microsoft COCO数据集是微软与2014年出资标注的数据集。其包含了20万个图像,80个类别中超过50万个目标标注,平均每个图像的目标数为7.2个,标注的物体尺寸通常较大,小尺寸标注物体较少。目前Microsoft COCO数据集有3种标注类型:目标检测、目标关键点检测和看图说话,以json文件形式存储。使用Microsoft COCO等大型数据集,其物体通常比较大,小目标物体较少;且缺乏有效的数据分析及增强方法。
因此,目前的目标检测算法通常具有对小目标物体检测定位不准确、分类错误以及检测耗时较长的问题。
发明内容
本发明提出了一种目标检测方法系统及存储介质,旨在解决目前的目标检测算法通常具有对小目标物体检测定位不准确、分类错误以及检测耗时较长的问题。
根据本申请实施例的第一个方面,提供了一种目标检测方法,具体包括以下步骤:
通过图像采集获取目标检测数据集,对目标检测数据集进行图像预处理,得到增强目标检测数据集;增强目标检测数据集包括标注的真实标签;
将增强目标检测数据集输入小目标检测网络,得到预测标签;构建损失函数使预测标签与真实标签之间的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络;
将待检测图像输入训练后的小目标检测网络,得到目标分类以及目标定位结果。
在本申请一些实施方式中,通过图像采集获取目标检测数据集,对目标检测数据集进行图像预处理,得到增强目标检测数据集中,图像预处理包括通过数据增强算法和/或网络参数增强算法增强目标检测数据集,数据增强算法包括:
通过随机旋转、多尺度裁剪以及均匀切分依次对目标检测数据集中的源图像进行变换和切分,得到切分后的目标检测数据集;
将切分后的目标检测数据集进行归一化处理,得到归一化目标检测数据集;
将归一化目标检测数据集的图像进行尺寸缩放、旋转增强和/或亮度对比度调整,得到增强目标检测数据集。
在本申请一些实施方式中,将切分后的目标检测数据集进行归一化处理,得到归一化目标检测数据集,归一化公式为:
其中,x表示输入数据,x*表示归一化后的输出数据。
在本申请一些实施方式中,将归一化目标检测数据集的图像进行尺寸缩放、旋转增强和/或亮度对比度调整,得到增强目标检测数据集,具体包括:
尺寸缩放的公式为:
其中,fx和fy分别表示x轴和y轴的缩放因子;x和y分别表示缩放前输入图像的宽和高;x′和y′表示缩放后输出图像的宽和高;
旋转增强的公式为:
其中,θ是旋转的角度;x和y分别表示缩放前输入图像的宽和高,x′和y′表示缩放后的宽和高;x′和y′表示缩放后输出图像的宽和高;
亮度对比度调整的公式为:
Out=Average+(In-Average)*(1+percent);
其中,In表示原始像素点亮度;Average表示整张图片的平均亮度;Out表示调整后的亮度;percent∈[-1,1]表示调整范围。
在本申请一些实施方式中,将增强目标检测数据集输入小目标检测网络,得到预测标签之前,还包括构建小目标检测网络;小目标检测网络采用目标检测网络作为小目标检测网络的框架,并使用Swin Transformer Tiny网络作为小目标检测网络的复合主干网络。
在本申请一些实施方式中,将增强目标检测数据集输入小目标检测网络,得到预测标签之前,还包括构建小目标检测网络;小目标检测网络采用复合主干网络,复合主干网络由一个编码块PE和多个阶段组成,一个阶段包括一个融合块PM和多个转化块TB组成;
其中,编码块PE、融合块PM以及转化块TB的表示公式如下:
PE(x,ksize,outchannel)=LayerNorm(Conv2D(x,inchannel,outchannel,ksize,ksize));
PM(f)=Linear(LayerNorm(Downsample(f,2)),inchannel,outchannel);
其中Conv2D(x,inchannel,outchannel,ksize,ksize)表示2D卷积操作;x表示多尺度小目标数据集输入,inchannel表示输入通道数;outchannel表示输出通道数;ksize表示卷积尺寸大小;Conv2D表示2D卷积;LayerNorm(x)表示归一化层;Downsample(f,2)表示对特征f进行步长为2的下采样,Linear(x,inchannel,outputchannel)表示全连接层;
TB(f)=SWMSABlock(WMSABlock(f));
其中,SWMSABlock(f)=MLP(LayerNorm(GSWMSA(f)))+GSWMSA(f);
WMSABlock(f)=MLP(LayerNorm(GWMSA(f)))+GWMSA(f);
GWMSA(f)=WMSA((LayerNorm(f)))+f;
GsWMSA(f)=SWMSA((LayerNorm(f)))+f;
其中,MLP(x)表示带激活函数以及Dropout的全连接层;WMSA为窗口多头自注意力模块;SWMSA为移动窗口多头自注意力模块。
在本申请一些实施方式中,真实标签包括目标类别真实标签以及目标定位框真实标签;预测标签包括目标类别预测标签以及定位预测框标签。
在本申请一些实施方式中,构建损失函数使预测标签与真实标签之间的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络;具体包括:
根据交叉熵损失函数计算目标类别预测标签与目标类别真实标签之间的第一损失值;
根据平滑L1损失函数计算目标定位框真实标签与定位预测框标签之间的第二损失值;
将交叉熵损失函数与平滑L1损失函数的计算结果相加得到总损失函数,使总损失函数得到的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络;
其中,交叉熵损失函数定义公式为:
平滑L1损失函数定义公式为:
总损失函数定义公式为:
Ltotal=LcrossEntropy+LsmoothL1;
其中,LcrossEntropy表示交叉熵损失函数;p(x)表示目标类别真实标签的真实概率分布;q(x)表示目标类别预测标签的预测概率分布;LsmoothL1表示平滑L1损失函数;box_true-box_pred表示定位预测框标签;Ltotal表示总损失函数。
根据本申请实施例的第二个方面,提供了一种目标检测系统,具体包括:
增强数据集模块:用于通过图像采集获取目标检测数据集,对目标检测数据集进行图像预处理,得到增强目标检测数据集;增强目标检测数据集包括标注的真实标签;
网络训练模块:用于将增强目标检测数据集输入小目标检测网络,得到预测标签;构建损失函数使预测标签与真实标签之间的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络;
目标检测模块:用于将待检测图像输入训练后的小目标检测网络,得到目标分类以及目标定位结果。
根据本申请实施例的第三个方面,提供了一种目标检测设备,包括:
存储器:用于存储可执行指令;以及
处理器:用于与存储器连接以执行可执行指令从而完成目标检测方法。
根据本申请实施例的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;计算机程序被处理器执行以实现目标检测方法。
采用本申请实施例中的目标检测方法、系统及计算机介质,具体的,通过图像采集获取目标检测数据集,对目标检测数据集进行图像预处理,得到增强目标检测数据集;增强目标检测数据集包括标注的真实标签;将增强目标检测数据集输入小目标检测网络,得到预测标签;构建损失函数使预测标签与真实标签之间的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络;将待检测图像输入训练后的小目标检测网络,得到目标分类以及目标定位结果。本申请通过增强小目标检测数据集,实现了对小目标物体的有效检测及分类;并提出适用于小目标物体检测的损失函数计算方式,优化了训练过程,实现了对小目标物体检测准确定位、准确分类以及缩短检测时间的效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1中示出了根据本申请实施例的目标检测方法的步骤示意图;
图2中示出了根据本申请另一实施例的目标检测方法的步骤示意图;
图3中示出了根据本申请实施例的目标检测系统的结构示意图;
图4中示出了根据本申请实施例的目标检测设备的结构示意图。
具体实施方式
在实现本申请的过程中,发明人发现当前目标检测数据集通常使用MicrosoftCOCO(Microsoft Common Object in Context)等大型数据集,使用Microsoft COCO等大型数据集,其物体通常比较大,小目标物体较少;且缺乏有效的数据分析及增强方法。
另一方面,目前的目标检测算法有单阶段和双阶段两种,双阶段指的是检测算法需要分两步完成,首先需要获取候选区域,通常采用选择性搜索,其算法原理为:首先将每个像素作为一组;然后,计算每一组的纹理,并将两个最接近的组结合起来。为了避免单个区域吞噬其他区域,首先对较小的组进行分组;然后继续合并区域,直到所有区域都结合在一起;最后使用SVM对区域进行分类,使用线性回归损失来校正边界框,以实现目标分类并得到检测框。
单阶段检测算法仅需一步完成,不需要单独寻找候选区域,直接通过神经网络产生物体的类别概率和位置坐标值,经过单次检测即可直接得到最终的检测结果,因此有着更快的检测速度,其中神经网络包含三个部分:卷积层用于提取图片特征,目标检测层根据提取的图片特征使用RPNhead生成检测框,NMS非极大值抑制层用于去除冗余的检测框。
因此,发明人发现目前存在以下技术问题:
1)目前目标检测数据集通常使用COCO等大型数据集,但其物体通常比较大,小目标物体较少,且缺乏有效的数据分析及增强方法;
2)目前缺乏一个能有效检测小目标物体的网络结构,用以对小目标物体进行准确定位;
3)目前的目标检测算法对小目标物体检测不准确且分类错误,并且耗时较长,小目标物体检测不准确且分类错误通常由于训练数据集中通常物体目标较大,卷积层未学习到有效的小目标物体特征,因此在根据提取的图片特征使用RPNhead生成检测框时会出现检测框生成不准确且分类错误的问题。
其中,耗时较长通常出现在双阶段目标检测方法中,寻找候选区域需要花费很长的时间,单阶段方法中卷积层通常设计得很复杂,推理耗时较长。
针对以上问题,本申请收集并整理相关的小目标检测数据集,并采用根据数据集进行设计的数据分析及增强方法,形成增强后的小目标检测数据集,从而更好的训练网络检测小目标物体。
并设计出复合主干网络识别图片中的小目标物体,对其定位并输出相应的类别。尤其创新的使用Cascade RCNN作为目标检测框架,使用Swin Transformer Tiny作为骨干模型,并在基础网络上分别对Neck、Head,Loss函数以及训练技巧进行改进,从而有效提升网络对小目标物体的检测和泛化能力。
本申请采用单阶段目标检测方法中的Cascade RCNN作为目标检测方法并设计出轻量级复合网络识别图片中的小目标物体,并通过将每个分类器的预测输出标签(cls_pred)和相应的真实标签(cls_true)根据交叉熵损失函数(CrossEntropyLoss)计算损失,再根据每个预测框分类器的预测输出标签(box_pred)和相应的真实标签(box_true)通过平滑L1损失函数(Smooth L1Loss)计算损失然后相加进行反向传播,从而优化训练过程,使得网络分类更准确且耗时更短。
具体的,本申请为一种目标检测方法、系统及计算机介质,通过图像采集获取目标检测数据集,对目标检测数据集进行图像预处理,得到增强目标检测数据集;增强目标检测数据集包括标注的真实标签;将增强目标检测数据集输入小目标检测网络,得到预测标签;构建损失函数使预测标签与真实标签之间的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络;将待检测图像输入训练后的小目标检测网络,得到目标分类以及目标定位结果。
本申请通过增强小目标检测数据集,实现了对小目标物体的有效检测及分类;设计出复合主干网络进而识别图片中的小目标物体,对其定位并输出相应的类别;并提出适用于小目标物体检测的损失函数计算方式,优化了训练过程,实现了对小目标物体检测准确定位、准确分类以及缩短检测时间的效果。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1
图1中示出了根据本申请实施例的目标检测方法的步骤示意图。
如图1所示,本申请实施例的目标检测方法,具体包括以下步骤:
S101:通过图像采集获取目标检测数据集,对目标检测数据集进行图像预处理,得到增强目标检测数据集;增强目标检测数据集包括标注的真实标签。
首先收集并整理相关的小目标检测数据集,采用根据数据集进行设计的数据分析及增强方法,形成增强后的小目标检测数据集然后对其进行相应标注,注释每个图像中不同类别对象的边界框及其类别,最后整理成原始小目标检测数据集。
本实施例对目标检测数据集进行图像预处理,得到增强目标检测数据集中,将原始小目标检测数据集进行数据分析并通过一系列数据及网络参数增强算法对原始数据集及相关训练网络进行优化增强,增大数据集的规模并提高模型的鲁棒性和多样性。
数据分析具体包括:首先,对数据集内每张图片的宽度除以高度得到相应的宽高比,对数据集内所有图片的宽高比进行汇总分类,得到宽高比分析图,x轴表示宽高比值,y轴表示其相应的数量;然后,对数据集内每张图片的宽度乘以高度得到相应的面积,对数据集内所有图片的面积进行汇总分类,得到面积分析数据。
进一步描述的,图像预处理包括通过数据增强算法和/或网络参数增强算法增强目标检测数据集。
其中,数据增强算法包括:
一)通过随机旋转、多尺度裁剪以及均匀切分依次对目标检测数据集中的源图像进行变换和切分,得到切分后的目标检测数据集。
本实施例将每张源图像均匀切分为四份,从而得到四倍数量的训练集图片。
二)将切分后的目标检测数据集进行归一化处理,得到归一化目标检测数据集。
归一化公式为:
其中,x表示输入数据,x*表示归一化后的输出数据。
三)将归一化目标检测数据集的图像进行尺寸缩放、旋转增强和/或亮度对比度调整,得到增强目标检测数据集。
具体的,在将归一化目标检测数据集的图像进行尺寸缩放时,采用了多尺度训练策略,对数据集缩放为不同尺度进行输入,以提高网络对不同大小目标检测的适应能力。
根据小目标检测数据集分析可知宽占多数,高的变化比较大;所以本实施例在进行数据多尺度训练时,对训练和测试输入图片尺寸利用wrapAffine缩放为六种尺度进行输入。分别为(640,1333),(672,1333),(704,1333),(736,1333),(768,1333),(800,1333),以避免丢失过多的源图像信息。
利用wrapAffine进行尺寸缩放的具体公式为:
其中,fx和fy分别表示x轴和y轴的缩放因子;x和y分别表示缩放前输入图像的宽和高;x′和y′表示缩放后输出图像的宽和高。
其中,利用wrapAffine对数据集进行旋转增强,具体公式为:
其中,θ是旋转的角度;x和y分别表示缩放前输入图像的宽和高,x′和y′表示缩放后的宽和高;x′和y′表示缩放后输出图像的宽和高。
具体的,在将归一化目标检测数据集的图像进行亮度对比度调整时,考虑到训练集及测试集中亮度、对比度变化较大,而差别太大会对模型训练造成影响。因此,本实施例中对训练测试集进行亮度对比度增强,以避免亮度、对比度变化对模型训练及预测过程的影响。
调整对比度是在保证平均亮度不变的情况下,扩大或缩小亮的点和暗的点的差异。使每个点的调整比例作用在该值和平均亮度的差值之上,从而保证计算后的平均亮度不变。
因此,亮度对比度调整的公式为:
Out=Average+(In-Average)*(1+percent);
其中,In表示原始像素点亮度;Average表示整张图片的平均亮度;Out表示调整后的亮度;percent∈[-1,1]表示调整范围。
数据增强算法同时,网络参数增强算法具体包括:首先,分析训练集、验证集中目标的高宽比例,即生成框的高宽比例;然后,分析训练集中目标的面积,将生成的框大小比例根据目标面积调整,目标面积尺寸较大则生成框大小比例应设置越大,生成的框的调整范围为1至10。
S102:将增强目标检测数据集输入小目标检测网络,得到预测标签;构建损失函数使预测标签与真实标签之间的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络。
图2中示出了根据本申请另一实施例的目标检测方法的步骤示意图。
具体的,如图2所示,将增强目标检测数据集输入小目标检测网络,得到预测标签之前,还包括构建小目标检测网络。
小目标检测网络采用目标检测网络作为小目标检测网络的框架,并使用SwinTransformer Tiny网络作为小目标检测网络的复合主干网络。
其中,小目标检测网络采用复合主干网络,复合主干网络由一个编码块PE和多个阶段组成,一个阶段包括一个融合块PM和多个转化块TB组成;
编码块PE、融合块PM以及转化块TB的表示公式如下:
PE(x,ksize,outchannel)=LayerNorm(Conv2D(x,inchannel,outchannel,ksize,ksize));
PM(f)=Linear(LayerNorm(Downsample(f,2)),inchannel,outchannel);
其中Conv2D(x,inchannel,outchannel,ksize,ksize)表示2D卷积操作;x表示多尺度小目标数据集输入,inchannel表示输入通道数;outchannel表示输出通道数;ksize表示卷积尺寸大小;Conv2D表示2D卷积;LayerNorm(x)表示归一化层;Downsample(f,2)表示对特征f进行步长为2的下采样,Linear(x,inchannel,outputchannel)表示全连接层;
TB(f)=SWMSABlock(WMSABlock(f));
其中,SWMSABlock(f)=MLP(LayerNorm(GsWMSA(f)))+GSWMSA(f);
WMSABlock(f)=MLP(LayerNorm(GWMSA(f)))+GWMSA(f);
GWMSA(f)=WMSA((LayerNorm(f)))+f;
GsWMSA(f)=SWMSA((LayerNorm(f)))+f;
其中,MLP(x)表示带激活函数以及Dropout的全连接层;WMSA为窗口多头自注意力模块;SWMSA为移动窗口多头自注意力模块。
S103:将待检测图像输入训练后的小目标检测网络,得到目标分类以及目标定位结果。
具体的,在复合主干网络基础网络上分别对Neck、Head、损失函数,Loss、训练技巧进行改进。
在Neck上采用经典的FPN。
考虑到由于深层特征图尺寸较小,经过层层卷积后使得小物体的信息严重丢失,所以深层不利于小物体检测,因此需要将小物体检测交给浅层来做,由于深层特征图具有非常丰富的语义信息,因此FPN中将深层特征进行最邻近上采样并传入浅层特征,以增加浅层语义信息,以进行多级head预测。
例如,采用一系列特征{F2,F3,F4,F5}作为输入,并输出聚合的特征{P2,P3,P4,P5},具体公式为:
P5=f5(F5),
Pl=fl(Fl)+R(Pl+1),l=2,3,4,
其中,l代表金字塔的层级;R表示调整大小操作以生成分别具有相同空间大小的特征;横向连接fl(·)通常是一个1×1的卷积层;Fl表示输入特征;Pl+1表示聚合的特征。
进一步的,在从许多重叠边界框中筛选出一个合理的边界框的过程中,本申请使用Soft NMS替代NMS以增强小目标的识别,具体的公式为:
其中,S={s1,..,si,..,sn}代表对应的检测分数;bi代表对应的检测框;Nt代表NMS的阈值;M为检测分数集合S中数值最大的数对应的检测框。
进一步的,在网络训练阶段时,首先,真实标签包括目标类别真实标签(cls_true)以及目标定位框真实标签(box_true);预测标签包括目标类别预测标签(cls_pred)以及定位预测框标签(box_pred)。
在构建损失函数使预测标签与真实标签之间的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络;具体包括:
根据交叉熵损失函数计算目标类别预测标签与目标类别真实标签之间的第一损失值;根据平滑L1损失函数计算目标定位框真实标签与定位预测框标签之间的第二损失值;将交叉熵损失函数与平滑L1损失函数的计算结果相加得到总损失函数,使总损失函数得到的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络。
其中,交叉熵损失函数定义公式为:
平滑L1损失函数定义公式为:
总损失函数定义公式为:
Ltotal=LcrossEntropy+LsmoothL1;
其中,LcrossEntropy表示交叉熵损失函数;p(x)表示目标类别真实标签的真实概率分布;q(x)表示目标类别预测标签的预测概率分布;LsmoothL1表示平滑L1损失函数;box_true-box_pred表示定位预测框标签;Ltotal表示总损失函数。
本申请为一种目标检测方法,通过图像采集获取目标检测数据集,对目标检测数据集进行图像预处理,得到增强目标检测数据集;增强目标检测数据集包括标注的真实标签;将增强目标检测数据集输入小目标检测网络,得到预测标签;构建损失函数使预测标签与真实标签之间的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络;将待检测图像输入训练后的小目标检测网络,得到目标分类以及目标定位结果。
本申请通过增强小目标检测数据集,实现了对小目标物体的有效检测及分类;设计出复合主干网络进而识别图片中的小目标物体,对其定位并输出相应的类别;并提出适用于小目标物体检测的损失函数计算方式,优化了训练过程,实现了对小目标物体检测准确定位、准确分类以及缩短检测时间的效果。
实施例2
本实施例提供了一种目标检测系统,对于本实施例的目标检测系统中未披露的细节,请参照其它实施例中的目标检测方法的具体实施内容。
图3中示出了根据本申请实施例的目标检测系统的结构示意图。
如图3所示,本申请实施例的目标检测系统,具体包括增强数据集模块10、网络训练模块20以及目标检测模块30。
具体的,
增强数据集模块10:用于通过图像采集获取目标检测数据集,对目标检测数据集进行图像预处理,得到增强目标检测数据集;增强目标检测数据集包括标注的真实标签。
其中,数据增强算法包括:
一)通过随机旋转、多尺度裁剪以及均匀切分依次对目标检测数据集中的源图像进行变换和切分,得到切分后的目标检测数据集。
本实施例将每张源图像均匀切分为四份,从而得到四倍数量的训练集图片。
二)将切分后的目标检测数据集进行归一化处理,得到归一化目标检测数据集。
归一化公式为:
其中,x表示输入数据,x*表示归一化后的输出数据。
三)将归一化目标检测数据集的图像进行尺寸缩放、旋转增强和/或亮度对比度调整,得到增强目标检测数据集。
具体的,在将归一化目标检测数据集的图像进行尺寸缩放时,采用了多尺度训练策略,对数据集缩放为不同尺度进行输入,以提高网络对不同大小目标检测的适应能力。
根据小目标检测数据集分析可知宽占多数,高的变化比较大;所以本实施例在进行数据多尺度训练时,对训练和测试输入图片尺寸利用wrapAffine缩放为六种尺度进行输入。分别为(640,1333),(672,1333),(704,1333),(736,1333),(768,1333),(800,1333),以避免丢失过多的源图像信息。
利用wrapAffine进行尺寸缩放的具体公式为:
其中,fx和fy分别表示x轴和y轴的缩放因子;x和y分别表示缩放前输入图像的宽和高;x′和y′表示缩放后输出图像的宽和高。
其中,利用wrapAffine对数据集进行旋转增强,具体公式为:
其中,θ是旋转的角度;x和y分别表示缩放前输入图像的宽和高,x′和y′表示缩放后的宽和高;x′和y′表示缩放后输出图像的宽和高。
具体的,在将归一化目标检测数据集的图像进行亮度对比度调整时,考虑到训练集及测试集中亮度、对比度变化较大,而差别太大会对模型训练造成影响。因此,本实施例中对训练测试集进行亮度对比度增强,以避免亮度、对比度变化对模型训练及预测过程的影响。
调整对比度是在保证平均亮度不变的情况下,扩大或缩小亮的点和暗的点的差异。使每个点的调整比例作用在该值和平均亮度的差值之上,从而保证计算后的平均亮度不变。
因此,亮度对比度调整的公式为:
Out=Average+(In-Average)*(1+percent);
其中,In表示原始像素点亮度;Average表示整张图片的平均亮度;Out表示调整后的亮度;percent∈[-1,1]表示调整范围。
数据增强算法同时,网络参数增强算法具体包括:首先,分析训练集、验证集中目标的高宽比例,即生成框的高宽比例;然后,分析训练集中目标的面积,将生成的框大小比例根据目标面积调整,目标面积尺寸较大则生成框大小比例应设置越大,生成的框的调整范围为1至10。
网络训练模块20:用于将增强目标检测数据集输入小目标检测网络,得到预测标签;构建损失函数使预测标签与真实标签之间的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络。
将增强目标检测数据集输入小目标检测网络,得到预测标签之前,还包括构建小目标检测网络。
小目标检测网络采用目标检测网络作为小目标检测网络的框架,并使用SwinTransformer Tiny网络作为小目标检测网络的复合主干网络。
其中,小目标检测网络采用复合主干网络,复合主干网络由一个编码块PE和多个阶段组成,一个阶段包括一个融合块PM和多个转化块TB组成;
编码块PE、融合块PM以及转化块TB的表示公式如下:
PE(x,ksize,outchannel)=LayerNorm(Conv2D(x,inchannel,outchannel,ksize,ksize));
PM(f)=Linear(LayerNorm(Downsample(f,2)),inchannel,outchannel);
其中Conv2D(x,inchannel,outchannel,ksize,ksize)表示2D卷积操作;x表示多尺度小目标数据集输入,inchannel表示输入通道数;outchannel表示输出通道数;ksize表示卷积尺寸大小;Conv2D表示2D卷积;LayerNorm(x)表示归一化层;Downsample(f,2)表示对特征f进行步长为2的下采样,Linear(x,inchannel,outputchannel)表示全连接层;
TB(f)=SWMSABlock(WMSABlock(f));
其中,SWMSABlock(f)=MLP(LayerNorm(GSWMSA(f)))+GSWMSA(f);
WMSABlock(f)=MLP(LayerNorm(GWMSA(f)))+GWMSA(f);
GWMSA(f)=WMSA((LayerNorm(f)))+f;
GSWMSA(f)=SWMSA((LayerNorm(f)))+f;
其中,MLP(x)表示带激活函数以及Dropout的全连接层;WMSA为窗口多头自注意力模块;SWMSA为移动窗口多头自注意力模块。
目标检测模块30:用于将待检测图像输入训练后的小目标检测网络,得到目标分类以及目标定位结果。
在网络训练阶段时,首先,真实标签包括目标类别真实标签(cls_true)以及目标定位框真实标签(box_true);预测标签包括目标类别预测标签(cls_pred)以及定位预测框标签(box_pred)。
在构建损失函数使预测标签与真实标签之间的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络;具体包括:
根据交叉熵损失函数计算目标类别预测标签与目标类别真实标签之间的第一损失值;根据平滑L1损失函数计算目标定位框真实标签与定位预测框标签之间的第二损失值;将交叉熵损失函数与平滑L1损失函数的计算结果相加得到总损失函数,使总损失函数得到的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络。
其中,交叉熵损失函数定义公式为:
平滑L1损失函数定义公式为:
总损失函数定义公式为:
Ltotal=LcrossEntropy+LsmoothL1;
其中,LcrossEntropy表示交叉熵损失函数;p(x)表示目标类别真实标签的真实概率分布;q(x)表示目标类别预测标签的预测概率分布;LsmoothL1表示平滑L1损失函数;box_true-box_pred表示定位预测框标签;Ltotal表示总损失函数。
本申请为一种目标检测系统,增强数据集模块10通过图像采集获取目标检测数据集,对目标检测数据集进行图像预处理,得到增强目标检测数据集;增强目标检测数据集包括标注的真实标签;网络训练模块20将增强目标检测数据集输入小目标检测网络,得到预测标签;构建损失函数使预测标签与真实标签之间的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络;目标检测模块30将待检测图像输入训练后的小目标检测网络,得到目标分类以及目标定位结果。
本申请通过增强小目标检测数据集,实现了对小目标物体的有效检测及分类;设计出复合主干网络进而识别图片中的小目标物体,对其定位并输出相应的类别;并提出适用于小目标物体检测的损失函数计算方式,优化了训练过程,实现了对小目标物体检测准确定位、准确分类以及缩短检测时间的效果。
实施例3
本实施例提供了一种目标检测设备,对于本实施例的目标检测设备中未披露的细节,请参照其它实施例中的目标检测方法或系统具体的实施内容。
图4中示出了根据本申请实施例的目标检测设备400的结构示意图。
如图4所示,目标检测设备400,包括:
存储器402:用于存储可执行指令;以及
处理器401:用于与存储器402连接以执行可执行指令从而完成运动矢量预测方法。
本领域技术人员可以理解,示意图4仅仅是目标检测设备400的示例,并不构成对目标检测设备400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如目标检测设备400还可以包括输入输出设备、网络接入设备、总线等。
所称处理器401(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器401也可以是任何常规的处理器等,处理器401是目标检测设备400的控制中心,利用各种接口和线路连接整个目标检测设备400的各个部分。
存储器402可用于存储计算机可读指令,处理器401通过运行或执行存储在存储器402内的计算机可读指令或模块,以及调用存储在存储器402内的数据,实现目标检测设备400的各种功能。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据目标检测设备400使用所创建的数据等。此外,存储器402可以包括硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)或其他非易失性/易失性存储器件。
目标检测设备400集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序;计算机程序被处理器执行以实现其他实施例中的目标检测方法。
本申请实施例中的目标检测设备及计算机存储介质,通过图像采集获取目标检测数据集,对目标检测数据集进行图像预处理,得到增强目标检测数据集;增强目标检测数据集包括标注的真实标签;将增强目标检测数据集输入小目标检测网络,得到预测标签;构建损失函数使预测标签与真实标签之间的损失值达到最小值,进而训练小目标检测网络,得到训练后的小目标检测网络;将待检测图像输入训练后的小目标检测网络,得到目标分类以及目标定位结果。
本申请通过增强小目标检测数据集,实现了对小目标物体的有效检测及分类;设计出复合主干网络进而识别图片中的小目标物体,对其定位并输出相应的类别;并提出适用于小目标物体检测的损失函数计算方式,优化了训练过程,实现了对小目标物体检测准确定位、准确分类以及缩短检测时间的效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种目标检测方法,其特征在于,包括以下步骤:
通过图像采集获取目标检测数据集,对所述目标检测数据集进行图像预处理,得到增强目标检测数据集;所述增强目标检测数据集包括标注的真实标签;
将所述增强目标检测数据集输入小目标检测网络,得到预测标签;构建损失函数使所述预测标签与真实标签之间的损失值达到最小值,进而训练所述小目标检测网络,得到训练后的小目标检测网络;
将待检测图像输入所述训练后的小目标检测网络,得到目标分类以及目标定位结果。
2.根据权利要求1所述的目标检测方法,其特征在于,所述图像预处理包括通过数据增强算法和/或网络参数增强算法增强所述目标检测数据集,所述数据增强算法包括:
通过随机旋转、多尺度裁剪以及均匀切分依次对所述目标检测数据集中的源图像进行变换和切分,得到切分后的目标检测数据集;
将所述切分后的目标检测数据集进行归一化处理,得到归一化目标检测数据集;
将所述归一化目标检测数据集的图像进行尺寸缩放、旋转增强和/或亮度对比度调整,得到增强目标检测数据集。
5.根据权利要求1所述的目标检测方法,其特征在于,所述将所述增强目标检测数据集输入小目标检测网络,得到预测标签之前,还包括构建小目标检测网络;所述小目标检测网络采用目标检测网络作为小目标检测网络的框架,并使用Swin Transformer Tiny网络作为小目标检测网络的复合主干网络。
6.根据权利要求1所述的目标检测方法,其特征在于,所述将所述增强目标检测数据集输入小目标检测网络,得到预测标签之前,还包括构建小目标检测网络;所述小目标检测网络采用复合主干网络,所述复合主干网络由一个编码块PE和多个阶段组成,一个所述阶段包括一个融合块PM和多个转化块TB组成。
7.根据权利要求1所述的目标检测方法,其特征在于,所述真实标签包括目标类别真实标签以及目标定位框真实标签;所述预测标签包括目标类别预测标签以及定位预测框标签。
8.根据权利要求7所述的目标检测方法,其特征在于,所述构建损失函数使所述预测标签与真实标签之间的损失值达到最小值,进而训练所述小目标检测网络,得到训练后的小目标检测网络;具体包括:
根据交叉熵损失函数计算所述目标类别预测标签与目标类别真实标签之间的第一损失值;
根据平滑L1损失函数计算所述目标定位框真实标签与定位预测框标签之间的第二损失值;
将所述第一损失值和第二损失值相加得到总损失函数,使所述总损失函数得到的损失值达到最小值,进而训练所述小目标检测网络,得到训练后的小目标检测网络。
9.一种目标检测系统,其特征在于,具体包括:
增强数据集模块:用于通过图像采集获取目标检测数据集,对所述目标检测数据集进行图像预处理,得到增强目标检测数据集;所述增强目标检测数据集包括标注的真实标签;
网络训练模块:用于将所述增强目标检测数据集输入小目标检测网络,得到预测标签;构建损失函数使所述预测标签与真实标签之间的损失值达到最小值,进而训练所述小目标检测网络,得到训练后的小目标检测网络;
目标检测模块:用于将待检测图像输入所述训练后的小目标检测网络,得到目标分类以及目标定位结果。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;计算机程序被处理器执行以实现如权利要求1-8任一项所述的目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111464389.1A CN114399655A (zh) | 2021-12-02 | 2021-12-02 | 目标检测方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111464389.1A CN114399655A (zh) | 2021-12-02 | 2021-12-02 | 目标检测方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114399655A true CN114399655A (zh) | 2022-04-26 |
Family
ID=81225534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111464389.1A Pending CN114399655A (zh) | 2021-12-02 | 2021-12-02 | 目标检测方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114399655A (zh) |
-
2021
- 2021-12-02 CN CN202111464389.1A patent/CN114399655A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kamal et al. | Automatic traffic sign detection and recognition using SegU-Net and a modified Tversky loss function with L1-constraint | |
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
US10318848B2 (en) | Methods for object localization and image classification | |
Nguyen et al. | Yolo based real-time human detection for smart video surveillance at the edge | |
CN111652317B (zh) | 基于贝叶斯深度学习的超参数图像分割方法 | |
CN107273832B (zh) | 基于积分通道特征与卷积神经网络的车牌识别方法及系统 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN111274981B (zh) | 目标检测网络构建方法及装置、目标检测方法 | |
CN111461212A (zh) | 一种用于点云目标检测模型的压缩方法 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN114648665A (zh) | 一种弱监督目标检测方法及系统 | |
CN110349167A (zh) | 一种图像实例分割方法及装置 | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
CN113516146A (zh) | 一种数据分类方法、计算机及可读存储介质 | |
CN111931572B (zh) | 一种遥感影像的目标检测方法 | |
CN111368634A (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN114898290A (zh) | 一种海上船舶实时检测方法及系统 | |
CN113743389A (zh) | 一种面部表情识别的方法、装置和电子设备 | |
CN108446602B (zh) | 一种用于人脸检测的装置和方法 | |
Zhao et al. | Forward vehicle detection based on deep convolution neural network | |
Das et al. | Object Detection on Scene Images: A Novel Approach | |
CN115512207A (zh) | 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法 | |
CN114863199A (zh) | 一种基于优化锚框机制的目标检测方法 | |
CN115063831A (zh) | 一种高性能行人检索与重识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |