CN113705583B - 一种基于卷积神经网络模型的目标检测识别方法 - Google Patents

一种基于卷积神经网络模型的目标检测识别方法 Download PDF

Info

Publication number
CN113705583B
CN113705583B CN202110935817.8A CN202110935817A CN113705583B CN 113705583 B CN113705583 B CN 113705583B CN 202110935817 A CN202110935817 A CN 202110935817A CN 113705583 B CN113705583 B CN 113705583B
Authority
CN
China
Prior art keywords
dense
spp
coordinate
target
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110935817.8A
Other languages
English (en)
Other versions
CN113705583A (zh
Inventor
朱伟
张胜男
刘羽
吉咸阳
蒋立飞
张典
辛付豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Laisi Electronic Equipment Co ltd
Original Assignee
Nanjing Laisi Electronic Equipment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Laisi Electronic Equipment Co ltd filed Critical Nanjing Laisi Electronic Equipment Co ltd
Priority to CN202110935817.8A priority Critical patent/CN113705583B/zh
Publication of CN113705583A publication Critical patent/CN113705583A/zh
Application granted granted Critical
Publication of CN113705583B publication Critical patent/CN113705583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于卷积神经网络模型的目标检测识别方法,首先构建Dense‑Spp‑Gaussion网络模型,以密集连接DenseNet网络为骨干网络,引入空间金字塔池化结构和多尺度检测,并采用Gaussian模型对网络输出进行建模,可以得到每个预测框的可靠性,提升检测精度,然后预测值与真实值之间的误差构建损失函数,迭代更新模型参数使得损失函数收敛,最后获得训练好的模型用于目标检测识别。本发明采用4种尺度检测,提高了对小目标的检出率,并用Gaussian模型对位置信息进行建模,得到定位准确度信息,提升了总的检测准确率。

Description

一种基于卷积神经网络模型的目标检测识别方法
技术领域
本发明涉及一种基于卷积神经网络模型的目标检测识别方法。
背景技术
近年来随着计算机视觉以及人工智能技术的发展,目标检测识别的神经网络模型越来越多。在计算机视觉领域,目标检测是很基础也很重要的任务,行人检测、自动驾驶、人体姿态估计等技术都需要依赖于底层的目标检测。但是由于待检测的目标大小和姿态通常都不相同,并且目标经常伴随着遮挡和光照条件不同等因素,导致目标检测识别算法极具挑战性。
从理论上讲,加深网络结构模型会取得很好的识别效果。然而,大量实验结果表明,深层的网络结构存在退化问题,后面的卷积层并未完全获取到前面卷积层提取到的特征信息。当图像中存在不同尺度的目标时,检测效果较差。特别是小目标,由于目标本身像素数量较少,经过网络的多倍采样,会导致目标信息量大幅下降甚至丢失,造成目标漏检。而且网络输出的预测框坐标通常是确定性坐标值,预测框的置信度未知,因此预测的准确性很难评估。
综上所述,需要一种能够解决深层的网络结构存在退化问题,并且对多尺度目标检测有较好效果,而且可以得出预测框置信度信息的卷计神经网络模型。而实现该手段,则需要解决以下关键问题:(1)深层网络结构存在退化问题。(2)小尺度目标检测问题。(3)获取预测框置信度信息。
发明内容
发明目的:针对当前卷积神经网络算法对小目标的检测准确率不高,存在误检、漏检的问题,本发明提供一种基于卷积神经网络模型的目标检测识别方法,可提升对小目标的检出率,降低漏检率,并采用Gaussion建模,输出检测框的不确定性信息。
技术方案:
本发明设计了一种基于卷积神经网络模型的目标检测识别方法。可以提高目标检测识别的准确率。
本发明技术方案的实施步骤包括:
步骤1,构建Dense-Spp-Gaussion目标检测网络模型,
步骤2,损失函数中置信度和类别得分预测分支采用最小平方和误差,预测框采用负对数似然损失,利用训练数据集和目标边界框先验信息,训练步骤一所构建的Dense-Spp-Gaussion目标检测模型直至损失函数收敛。
步骤3,输入被测目标图像,利用训练好的Dense-Spp-Gaussion模型检测图像中的目标,输出图像中每个目标的边界框位置、尺寸以及目标类别。
步骤1中,所述Dense-Spp-Gaussion目标检测网络模型,包括密集连接DenseNet网络、空间金字塔池化结构SPP(Spatial Pyramid Pooling)、目标检测层和高斯模型(Gaussion),空间金字塔池化结构SPP用于融合多尺度图像局部区域特征,目标检测层对顶层特征图两次上采样,并与底层特征图进行融合。
采用密集连接DenseNet网络为骨干网络,在DenseNet网络与目标检测层之间引入空间金字塔池化结构(Spatial Pyramid Pooling),融合多尺度图像局部区域特征。
通过进行32倍、16倍、8和4倍降采样获取四种尺度下的特征图,用以适应不同尺度目标的检测输出,对顶层特征图两次上采样,并与底层特征图进行融合。
增加Gaussian模型对网络输出进行建模,能够输出每个预测框的可靠性,从而提升目标框和算法识别的精度。
步骤1中,所述DenseNet网络包括两个以上密集卷积块DenseBlock,单个密集卷积块DenseBlock中包括1个1×1的卷积核和4个3×3卷积核,每个3×3卷积核后还加入BatchNormalization批归一化层和Relu激活函数。
密集卷积块DenseBlock的密集连接方式第L层的输出xl为:
xl=Hl([x0,x1,…,xl-1])
其中,Hl表示非线性变换,随着层数增加,就会将大量线性函数进行复合。[x0,x1,…,xl-1]表示第0到L-1层输出的特征做通道合并。
步骤1中,所述DenseNet网络中共有4个密集卷积块集合,4个密集卷积块集合中密集卷积块的数量分别为6、12、24、16,密集卷积块集合之间由转移层连接,转移层为大小为2×2、步长为2的卷积核进行均值池化;
将4个密集卷积块集合产生的32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图,分别为(13,13)、(26,26)、(52,52)、(104,104),在(13,13)特征图上引入空间金字塔池化结构(SPP),融合多尺度图像局部区域特征,池化窗口尺寸Spool×Spool为:
其中,Smap表示输入特征图尺寸,Spool表示池化操作后特征图尺寸,ni为缩小倍数,池化步长都为1,采用边界填充保证池化后特征图尺寸不变,然后将不同池化输出结果进行特征合并。
经过32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图输入4个不同的通道(y1,y2,y3,y4),其中经过空间金字塔池化结构SPP的(13,13)特征图输入y1通道;(13,13)特征图经过2倍上采样后与(26,26)特征图特征合并输入y2通道,同样合并后的(26,26)特征图经过2倍上采样后与(52,52)特征图特征合并输入y3通道,合并后的(52,52)特征图经过2倍上采样后与(104,104)特征图特征合并输入y4通道;
增加高斯模型对4个通道的输出结果进行建模,模型输出为:
S×S×(K*(9+N))
S表示特征图尺寸,分别为104、52、26和13,K为该尺寸特征图下先验框数量。9+N为每个网格预测的结果:
表示预测框的位置信息,分别为中心点的x坐标、y坐标、宽和高,/>分别为x坐标的标准差信息、y坐标的标准差信息、宽的标准差信息和高的标准差信息,用来估计坐标信息的可靠性。Pobj表示是否是目标的可靠性信息,Pn表示第n个种类的可靠性信息;
进行以下变换:
通过sigmod函数将值限定在(0,1)范围内,μtx、μty、μtw、μth分别表示预测框回归的x坐标、y坐标、宽和高,Σtx、Σty、Σtw、Σth分别表示x坐标的可靠性、y坐标的可靠性、宽的可靠性和高的可靠性,0表示非常可靠,1表示不可靠。
步骤2包括:
Dense-Spp-Gaussion网络输出的预测框的坐标和宽、高均满足高斯分布,以中心点x坐标为例,满足均值为μtx,方差为Σtx的高斯分布,采用负对数似然损失,中心点x坐标损失函数计算公式如下:
其中,W和H分别为特征图每列和每行的网格数,K为Anchor(锚框)数。
表示了对于真实框的每一个值在均值为μtx、方差为Σtx的高斯分布下的值,xijk表示中心点x坐标预测值,ε表示偏移量;其中,高斯分布的密度函数f(x)为:
其中,x为输入值,μ为平均值、σ为方差;γijk为损失函数的权重惩罚系数,表示当前Anchor是否负责预测目标,若负责预测取1,否则取0,wG和hG分别表示真实框的宽和高,Wscale是根据长宽计算出的权重值。计算公式如下:
Wscale=2-wG×hG
同样,中心点y坐标和预测框宽高的损失函数如下:
置信度损失为:
其中,为真实框的置信度信息,/>为预测框的置信度信息,λnoobj为权重系数。
分类损失为:
其中,为真实框的种类信息,/>为预测框的种类信息,λclass为权重系数。
Dense-Spp-Gaussion网络输出结果总的损失函数Loss为:
Loss=Lx+Ly+Lw+Lh+Lobj+Lclass
训练Dense-Spp-Gaussion目标检测模型直至损失函数收敛。
步骤3包括:
输入被检测目标图像,利用所训练的Dense-Spp-Gaussion模型检测图像中的目标,输出图像中每个目标的边界框位置、尺寸以及目标类别。计算每个输出框的得分计算每个输出框的得分Cr
Cr=σ(Obj)+σ(Class)+(1-Uaver)
其中,σ(Obj)为Dense-Spp-Gaussion网络输出的目标置信度得分;σ(Class)为Dense-Spp-Gaussion网络输出的类别得分;Uaver为定位不确定性得分,表示Σtx、Σty、Σtw、Σth的平均值。在检测过程对预测结果中Cr较低的bbox进行过滤,提高检测准确性。
有益效果:本发明具有如下显著优点:
1、采用密集连接作为骨干网络,改善了层与层之间的信息交流,使得浅层网络提取到的特征信息在深层网络中得到了利用,提高特征的利用率。
2、通过引入图像金字塔模块,实现局部特征和全局特征的融合,丰富最终特征图的表达能力,从而提高检测准确率。
3、采用多尺度特征输出的方式,包含(13,13)、(26,26)、(52,52)、(104,104)四种尺度,提升网络对不同尺寸目标的检测能力。
4、采用Gaussion模型对检测框位置信息建模,得出定位不确定性信息,提高了检测准确性并解决了定位错误的问题。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明Dense-Spp-Gaussion网络模型示意图。
图2是本发明识别可见光车辆效果图。
图3是本发明识别红外车辆效果图。
具体实施方式
本发明提供了一种基于卷积神经网络模型的目标检测识别方法,包括:
(1)如图1所示,构建Dense-Spp-Gaussion目标检测网络模型,采用DenseNet网络为骨干网络,在DenseNet与目标检测层之间引入空间金字塔池化结构(SPP),融合多尺度图像局部区域特征。通过进行32倍、16倍、8和4倍降采样获取四种尺度下的特征图,用以适应不同尺度目标的检测输出,同时为了减少底层目标特征的损失,通过对顶层特征图的两次上采样并与底层特征图进行融合,增强了对不同尺度目标的适应性。增加Gaussian模型对网络输出进行建模,能够输出每个预测框的可靠性,从而提升目标框和算法识别的精度。
DenseNet网络由多个DenseBlock密集卷积块集合组成,单个DenseBlock中包括1个1×1的卷积核和4个3×3卷积核,每个3×3卷积核后还加入BatchNormalization层和Relu激活函数。DenseBlock的密集连接方式第L层的输出为:
xl=Hl([x0,x1,…,xl-1])
其中,Hl表示非线性变换,随着层数增加,就会将大量线性函数进行复合。[x0,x1,…,xl-1]表示第0到L-1层输出的特征做通道合并。
DenseNet网络中共有4个密集卷积块集合,其中密集卷积块的数量分别为6、12、24、16,密集卷积块集合之间由转移层连接,转移层为大小为2×2、步长为2的卷积核进行均值池化;
将4个密集卷积块集合产生的32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图,分别为(13,13)、(26,26)、(52,52)、(104,104),在(13,13)特征图上引入空间金字塔池化结构(SPP),融合多尺度图像局部区域特征,池化窗口尺寸Spool×Spool为:
其中,Smap×Smap表示输入特征图尺寸,ni为缩小倍数,池化步长都为1,采用边界填充保证池化后特征图尺寸不变,然后将不同池化输出结果进行特征合并。
经过SPP的(13,13)特征图输入y1通道。(13,13)特征图经过2倍上采样后与(26,26)特征图特征合并输入y2通道,同样合并后的(26,26)特征图经过2倍上采样后与(52,52)特征图特征合并输入y3通道,合并后的(52,52)特征图经过2倍上采样后与(104,104)特征图特征合并输入y4通道。
增加Gaussian模型对网络输出进行建模,模型输出为:
S×S×(K*(9+N))
S表示特征图尺寸,分别为104、52、26和13,K为该尺寸特征图下先验框数量。9+N为每个网格预测的结果:
表示预测框的位置信息,分别为中心点的x,y坐标和宽高,为标准差信息,用来估计坐标信息的可靠性。Pobj表示是否是目标的可靠性信息,P1…Pn表示每个种类的可靠性信息。
得到以上信息后还需做以下变换:
通过sigmod函数将值限定在(0,1)范围内,μtx、μty、μtw、μth表示预测框回归的坐标,Σtx、Σty、Σtw、Σth表示坐标的可靠性,0表示非常可靠,1表示不可靠。
(2)损失函数中置信度和类别得分预测分支采用最小平方和误差,预测框采用负对数似然损失,利用训练数据集和目标边界框先验信息,训练步骤(1)所构建的Dense-Spp-Gaussion目标检测模型直至损失函数收敛。
网络输出的预测框的坐标和宽、高均满足高斯分布,以中心点x坐标为例,满足均值为μtx,方差为Σtx的高斯分布,采用负对数似然损失,中心点x坐标损失函数计算公式如下:
其中,W和H分别为特征图每列和每行的网格数,K为Anchor(锚框)数。
这个式子表示了对于真实框的每一个值在均值为μtx,方差为Σtx的高斯分布下的值其中,高斯分布的密度函数为:
γijk为损失函数的权重惩罚系数,表示当前Anchor是否负责预测目标,若负责预测取1,否则取0,wG和hG分别表示真实框的宽和高,计算公式如下:
Wscale=2-wG×hG
同样,中心点y坐标和预测框宽高的损失函数如下:
置信度损失为:
其中,为真实框的置信度信息,/>为预测框的置信度信息,λnoobj为权重系数。
分类损失为:
其中,为真实框的种类信息,/>为预测框的种类信息,λclass为权重系数。
所以网络输出结果总的损失函数为:
Loss=Lx+Ly+Lw+Lh+Lobj+Lclass
训练Dense-Spp-Gaussion目标检测模型直至损失函数收敛。
(3)输入被测目标图像,利用所训练的Dense-Spp-Gaussion模型检测图像中的目标,输出图像中每个目标的边界框位置、尺寸以及目标类别。
输入被检测目标图像,利用所训练的Dense-Spp-Gaussion模型检测图像中的目标,输出图像中每个目标的边界框位置、尺寸以及目标类别。计算每个输出框Cr的得分,计算公式为:
Cr=σ(Obj)×σ(Class)×(1-Uaver)
其中,σ(Obj)为目标置信度得分,值在[0,1]范围之间。σ(Class)为类别得分,值在[0,1]范围之间。Uaver为定位不确定性得分,表示Σtx、Σty、Σtw、Σth的平均值,值在[0,1]范围之间。Cr的值在[0,1]范围之间,在检测过程对预测结果中Cr较低的bbox进行过滤,提高检测准确性。图1中DenseNet表示密集连接网络,Conv表示卷积计算,Max pool表示最大池化,Transistion layer表示过度层,Dense block表示密集连接块,SPP表示空间金字塔池化结构,Upsampling表示上采样,concat表示张量拼接,class表示识别种类数量,K表示先验框数量,box表示预测框,μtx、μty、μtw、μth分别表示预测框回归的x坐标、y坐标、宽和高,Σtx、Σty、Σtw、Σth分别表示x坐标的可靠性,Pobj表示是否是目标的可靠性信息,Pn表示第n个种类的可靠性信息,Input和Output分别表示输入和输出。
图2、图3中的car表示识别出来的车辆,图中的数字即为Cr的值,如Cr=1.00表示当前目标判定是车辆的概率为100%,Cr=0.93表示当前目标判定是车辆的概率为93%。
本发明提供了一种基于卷积神经网络模型的目标检测识别方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (3)

1.一种基于卷积神经网络模型的目标检测识别方法,其特征在于,包括如下步骤:
步骤1,构建Dense-Spp-Gaussion目标检测网络模型;
步骤2,训练Dense-Spp-Gaussion目标检测网络模型直至损失函数收敛;
步骤3,输入被检测目标图像,利用训练好的Dense-Spp-Gaussion目标检测网络模型检测图像中的目标,输出图像中每个目标的边界框位置、尺寸以及目标类别;
步骤1中,所述Dense-Spp-Gaussion目标检测网络模型,包括密集连接DenseNet网络、空间金字塔池化结构SPP、目标检测层和高斯模型,空间金字塔池化结构SPP用于融合多尺度图像局部区域特征,目标检测层对顶层特征图两次上采样,并与底层特征图进行融合;
步骤1中,所述DenseNet网络包括两个以上密集卷积块DenseBlock,单个密集卷积块DenseBlock中包括1个1×1的卷积核和4个3×3卷积核,每个3×3卷积核后还加入BatchNormalization批归一化层和Relu激活函数;
密集卷积块DenseBlock的密集连接方式第L层的输出xL为:
xL=HL([x0,x1,…,xL-1])
其中,HL表示非线性变换,[x0,x1,…,xL-1]表示第0到L-1层输出的特征做通道合并;
步骤1中,所述DenseNet网络中共有4个密集卷积块集合,4个密集卷积块集合中密集卷积块的数量分别为6、12、24、16,密集卷积块集合之间由转移层连接,转移层为大小为2×2、步长为2的卷积核进行均值池化;
对4个密集卷积块集合进行32倍、16倍、8和4倍降采样,得到4个不同尺度的特征图,分别为(13,13)、(26,26)、(52,52)、(104,104)特征图,在(13,13)特征图上引入空间金字塔池化结构SPP,融合多尺度图像局部区域特征,池化窗口尺寸Spool×Spool为:
其中,Smap表示输入特征图尺寸,Spool表示池化操作后特征图尺寸,ni为缩小倍数,池化步长都为1,采用边界填充保证池化后特征图尺寸不变,然后将不同池化输出结果进行特征合并;
经过32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图输入4个不同的通道(y1,y2,y3,y4),其中经过空间金字塔池化结构SPP的(13,13)特征图输入y1通道;(13,13)特征图经过2倍上采样后与(26,26)特征图特征合并输入y2通道,同样合并后的(26,26)特征图经过2倍上采样后与(52,52)特征图特征合并输入y3通道,合并后的(52,52)特征图经过2倍上采样后与(104,104)特征图特征合并输入y4通道;
增加高斯模型对4个通道的输出结果进行建模,模型输出为:
S×S×(K*(9+N))
S表示特征图尺寸,分别为104、52、26和13,K为4个不同尺寸特征图对应的先验框数量;9+N为每个网格预测的结果,具体如下所示:
表示预测框的位置信息,分别为中心点的x坐标、y坐标、宽和高,分别为x坐标的标准差信息、y坐标的标准差信息、宽的标准差信息和高的标准差信息,用来估计坐标信息的可靠性;Pobj表示是否是目标的可靠性信息,Pn表示第n个种类的可靠性信息;
进行以下变换:
通过sigmod函数将值限定在(0,1)范围内,μtx、μty、μtw、μth分别表示预测框回归的x坐标、y坐标、宽和高,Σtx、Σty、Σtw、Σth分别表示x坐标的可靠性、y坐标的可靠性、宽的可靠性和高的可靠性,0表示非常可靠,1表示不可靠。
2.根据权利要求1所述的方法,其特征在于,步骤2包括:
Dense-Spp-Gaussion网络输出的预测框的坐标和宽、高均满足高斯分布,中心点x坐标满足均值为μtx、方差为Σtx的高斯分布,采用负对数似然损失,中心点x坐标损失函数Lx计算公式如下:
其中,W和H分别为特征图每列的网格数和每行的网格数,K为Anchor锚框数;
表示了对于真实框的每一个值在均值为μtx、方差为Σtx的高斯分布下的值,xijk表示中心点x坐标预测值,ε表示偏移量;其中,高斯分布的密度函数f(x)为:
其中,x为输入值,μ为平均值、σ为方差;
γijk为损失函数的权重惩罚系数,表示当前Anchor锚框数是否负责预测目标,如果负责取1,否则取0;wG和hG分别表示真实框的宽和高,Wscale是根据长宽计算出的权重值,计算公式如下:
Wscale=2-wG×hG
中心点y坐标的损失函数Ly、预测框的宽的损失函数Lw、预测框的高的损失函数Lh如下:
置信度损失Lobj为:
其中,为真实框的置信度信息,/>为预测框的置信度信息,λnoobj为权重系数;
分类损失Lclass为:
其中,为真实框的种类信息,/>为预测框的种类信息,λclass为权重系数;
Dense-Spp-Gaussion网络输出结果总的损失函数Loss为:
Loss=Lx+Ly+Lw+Lh+Lobj+Lclass
训练Dense-Spp-Gaussion目标检测网络模型直至损失函数收敛。
3.根据权利要求2所述的方法,其特征在于,步骤3包括:
计算每个输出框的得分Cr
Cr=σ(Obj)+σ(Class)+(1-Uaver)
其中,σ(Obj)为Dense-Spp-Gaussion网络输出的目标置信度得分;σ(Class)为Dense-Spp-Gaussion网络输出的类别得分;Uaver为定位不确定性得分,表示Σtx、Σty、Σtw、Σth的平均值。
CN202110935817.8A 2021-08-16 2021-08-16 一种基于卷积神经网络模型的目标检测识别方法 Active CN113705583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110935817.8A CN113705583B (zh) 2021-08-16 2021-08-16 一种基于卷积神经网络模型的目标检测识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110935817.8A CN113705583B (zh) 2021-08-16 2021-08-16 一种基于卷积神经网络模型的目标检测识别方法

Publications (2)

Publication Number Publication Date
CN113705583A CN113705583A (zh) 2021-11-26
CN113705583B true CN113705583B (zh) 2024-03-22

Family

ID=78653150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110935817.8A Active CN113705583B (zh) 2021-08-16 2021-08-16 一种基于卷积神经网络模型的目标检测识别方法

Country Status (1)

Country Link
CN (1) CN113705583B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021704B (zh) * 2022-01-04 2022-03-22 深圳精智达技术股份有限公司 一种ai神经网络模型的训练方法及相关装置
CN115147642A (zh) * 2022-06-02 2022-10-04 盛视科技股份有限公司 基于视觉的渣土车检测方法、装置、计算机及存储介质
CN116106899B (zh) * 2023-04-14 2023-06-23 青岛杰瑞工控技术有限公司 一种基于机器学习的港口航道小目标识别方法
CN116630751B (zh) * 2023-07-24 2023-10-31 中国电子科技集团公司第二十八研究所 一种融合信息瓶颈和不确定性感知的可信目标检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108751A (zh) * 2017-12-08 2018-06-01 浙江师范大学 一种基于卷积多特征和深度随机森林的场景识别方法
CN109145920A (zh) * 2018-08-21 2019-01-04 电子科技大学 一种基于深度神经网络的图像语义分割方法
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法
CN109636905A (zh) * 2018-12-07 2019-04-16 东北大学 基于深度卷积神经网络的环境语义建图方法
CN109685152A (zh) * 2018-12-29 2019-04-26 北京化工大学 一种基于dc-spp-yolo的图像目标检测方法
WO2019232836A1 (zh) * 2018-06-04 2019-12-12 江南大学 基于改进全卷积网络的多尺度感知行人检测方法
CN110991311A (zh) * 2019-11-28 2020-04-10 江南大学 一种基于密集连接深度网络的目标检测方法
CN112785603A (zh) * 2021-01-15 2021-05-11 沈阳建筑大学 一种基于Unet和超像素的脑组织分割方法
CN112801183A (zh) * 2021-01-28 2021-05-14 哈尔滨理工大学 一种基于YOLO v3的多尺度目标检测方法
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11393088B2 (en) * 2019-06-27 2022-07-19 Nutech Ventures Animal detection based on detection and association of parts

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108751A (zh) * 2017-12-08 2018-06-01 浙江师范大学 一种基于卷积多特征和深度随机森林的场景识别方法
WO2019232836A1 (zh) * 2018-06-04 2019-12-12 江南大学 基于改进全卷积网络的多尺度感知行人检测方法
CN109145920A (zh) * 2018-08-21 2019-01-04 电子科技大学 一种基于深度神经网络的图像语义分割方法
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法
CN109636905A (zh) * 2018-12-07 2019-04-16 东北大学 基于深度卷积神经网络的环境语义建图方法
CN109685152A (zh) * 2018-12-29 2019-04-26 北京化工大学 一种基于dc-spp-yolo的图像目标检测方法
CN110991311A (zh) * 2019-11-28 2020-04-10 江南大学 一种基于密集连接深度网络的目标检测方法
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN112785603A (zh) * 2021-01-15 2021-05-11 沈阳建筑大学 一种基于Unet和超像素的脑组织分割方法
CN112801183A (zh) * 2021-01-28 2021-05-14 哈尔滨理工大学 一种基于YOLO v3的多尺度目标检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Automated tree crown detection and size estimation using multi-scale analysis of high-resolution satellite imagery;Skurikhin等;REMOTE SENSING LETTERS;全文 *
Multi-Target Defect Identification for Railway Track Line Based on Image Processing and Improved YOLOv3 Model;Xiukun Wei等;IEEE Access;全文 *
基于Dense-YOLOv3的车型检测模型;陈立潮等;计算机系统应用;全文 *
多类型合作目标检测及其位姿估计方法研究;王建林;万方知识数据服务平台;全文 *
改进YOLOv2卷积神经网络的多类型合作目标检测;王建林等;光学精密工程;全文 *

Also Published As

Publication number Publication date
CN113705583A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN113705583B (zh) 一种基于卷积神经网络模型的目标检测识别方法
CN109934115B (zh) 人脸识别模型的构建方法、人脸识别方法及电子设备
WO2022036777A1 (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN111401144B (zh) 一种基于视频监控的手扶电梯乘客行为识别方法
CN109919245B (zh) 深度学习模型训练方法及装置、训练设备及存储介质
CN109948526B (zh) 图像处理方法及装置、检测设备及存储介质
CN110458061B (zh) 一种识别老年人跌倒的方法及陪伴机器人
CN110427937A (zh) 一种基于深度学习的倾斜车牌矫正和不定长车牌识别方法
CN106991388B (zh) 关键点定位方法
CN108460403A (zh) 一种图像中多尺度特征融合的目标检测方法与系统
CN111368673A (zh) 一种基于神经网络的人体关键点快速提取方法
CN115661943B (zh) 一种基于轻量级姿态评估网络的跌倒检测方法
CN108647663B (zh) 基于深度学习和多层次图结构模型的人体姿态估计方法
CN110363817B (zh) 目标位姿估计方法、电子设备和介质
CN110569719B (zh) 一种动物头部姿态估计方法及系统
CN111984817B (zh) 一种基于自注意力机制加权的细粒度图像检索方法
WO2023151237A1 (zh) 人脸位姿估计方法、装置、电子设备及存储介质
CN110879982A (zh) 一种人群计数系统及方法
CN112001859A (zh) 一种人脸图像的修复方法及系统
CN112597814A (zh) 一种基于改进的Openpose课堂多人异常行为及口罩佩戴检测方法
CN111507184B (zh) 基于并联空洞卷积和身体结构约束的人体姿态检测方法
CN106845456A (zh) 一种视频监控系统中人体摔倒监测的方法
CN111626134A (zh) 一种基于隐密度分布的密集人群计数方法、系统及终端
CN116883588A (zh) 一种大场景下的三维点云快速稠密重建方法及系统
CN111626379A (zh) 肺炎x光图像检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant