CN113705583B - 一种基于卷积神经网络模型的目标检测识别方法 - Google Patents
一种基于卷积神经网络模型的目标检测识别方法 Download PDFInfo
- Publication number
- CN113705583B CN113705583B CN202110935817.8A CN202110935817A CN113705583B CN 113705583 B CN113705583 B CN 113705583B CN 202110935817 A CN202110935817 A CN 202110935817A CN 113705583 B CN113705583 B CN 113705583B
- Authority
- CN
- China
- Prior art keywords
- dense
- spp
- coordinate
- target
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 10
- 238000011176 pooling Methods 0.000 claims abstract description 33
- 238000010586 diagram Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005251 gamma ray Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于卷积神经网络模型的目标检测识别方法,首先构建Dense‑Spp‑Gaussion网络模型,以密集连接DenseNet网络为骨干网络,引入空间金字塔池化结构和多尺度检测,并采用Gaussian模型对网络输出进行建模,可以得到每个预测框的可靠性,提升检测精度,然后预测值与真实值之间的误差构建损失函数,迭代更新模型参数使得损失函数收敛,最后获得训练好的模型用于目标检测识别。本发明采用4种尺度检测,提高了对小目标的检出率,并用Gaussian模型对位置信息进行建模,得到定位准确度信息,提升了总的检测准确率。
Description
技术领域
本发明涉及一种基于卷积神经网络模型的目标检测识别方法。
背景技术
近年来随着计算机视觉以及人工智能技术的发展,目标检测识别的神经网络模型越来越多。在计算机视觉领域,目标检测是很基础也很重要的任务,行人检测、自动驾驶、人体姿态估计等技术都需要依赖于底层的目标检测。但是由于待检测的目标大小和姿态通常都不相同,并且目标经常伴随着遮挡和光照条件不同等因素,导致目标检测识别算法极具挑战性。
从理论上讲,加深网络结构模型会取得很好的识别效果。然而,大量实验结果表明,深层的网络结构存在退化问题,后面的卷积层并未完全获取到前面卷积层提取到的特征信息。当图像中存在不同尺度的目标时,检测效果较差。特别是小目标,由于目标本身像素数量较少,经过网络的多倍采样,会导致目标信息量大幅下降甚至丢失,造成目标漏检。而且网络输出的预测框坐标通常是确定性坐标值,预测框的置信度未知,因此预测的准确性很难评估。
综上所述,需要一种能够解决深层的网络结构存在退化问题,并且对多尺度目标检测有较好效果,而且可以得出预测框置信度信息的卷计神经网络模型。而实现该手段,则需要解决以下关键问题:(1)深层网络结构存在退化问题。(2)小尺度目标检测问题。(3)获取预测框置信度信息。
发明内容
发明目的:针对当前卷积神经网络算法对小目标的检测准确率不高,存在误检、漏检的问题,本发明提供一种基于卷积神经网络模型的目标检测识别方法,可提升对小目标的检出率,降低漏检率,并采用Gaussion建模,输出检测框的不确定性信息。
技术方案:
本发明设计了一种基于卷积神经网络模型的目标检测识别方法。可以提高目标检测识别的准确率。
本发明技术方案的实施步骤包括:
步骤1,构建Dense-Spp-Gaussion目标检测网络模型,
步骤2,损失函数中置信度和类别得分预测分支采用最小平方和误差,预测框采用负对数似然损失,利用训练数据集和目标边界框先验信息,训练步骤一所构建的Dense-Spp-Gaussion目标检测模型直至损失函数收敛。
步骤3,输入被测目标图像,利用训练好的Dense-Spp-Gaussion模型检测图像中的目标,输出图像中每个目标的边界框位置、尺寸以及目标类别。
步骤1中,所述Dense-Spp-Gaussion目标检测网络模型,包括密集连接DenseNet网络、空间金字塔池化结构SPP(Spatial Pyramid Pooling)、目标检测层和高斯模型(Gaussion),空间金字塔池化结构SPP用于融合多尺度图像局部区域特征,目标检测层对顶层特征图两次上采样,并与底层特征图进行融合。
采用密集连接DenseNet网络为骨干网络,在DenseNet网络与目标检测层之间引入空间金字塔池化结构(Spatial Pyramid Pooling),融合多尺度图像局部区域特征。
通过进行32倍、16倍、8和4倍降采样获取四种尺度下的特征图,用以适应不同尺度目标的检测输出,对顶层特征图两次上采样,并与底层特征图进行融合。
增加Gaussian模型对网络输出进行建模,能够输出每个预测框的可靠性,从而提升目标框和算法识别的精度。
步骤1中,所述DenseNet网络包括两个以上密集卷积块DenseBlock,单个密集卷积块DenseBlock中包括1个1×1的卷积核和4个3×3卷积核,每个3×3卷积核后还加入BatchNormalization批归一化层和Relu激活函数。
密集卷积块DenseBlock的密集连接方式第L层的输出xl为:
xl=Hl([x0,x1,…,xl-1])
其中,Hl表示非线性变换,随着层数增加,就会将大量线性函数进行复合。[x0,x1,…,xl-1]表示第0到L-1层输出的特征做通道合并。
步骤1中,所述DenseNet网络中共有4个密集卷积块集合,4个密集卷积块集合中密集卷积块的数量分别为6、12、24、16,密集卷积块集合之间由转移层连接,转移层为大小为2×2、步长为2的卷积核进行均值池化;
将4个密集卷积块集合产生的32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图,分别为(13,13)、(26,26)、(52,52)、(104,104),在(13,13)特征图上引入空间金字塔池化结构(SPP),融合多尺度图像局部区域特征,池化窗口尺寸Spool×Spool为:
其中,Smap表示输入特征图尺寸,Spool表示池化操作后特征图尺寸,ni为缩小倍数,池化步长都为1,采用边界填充保证池化后特征图尺寸不变,然后将不同池化输出结果进行特征合并。
经过32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图输入4个不同的通道(y1,y2,y3,y4),其中经过空间金字塔池化结构SPP的(13,13)特征图输入y1通道;(13,13)特征图经过2倍上采样后与(26,26)特征图特征合并输入y2通道,同样合并后的(26,26)特征图经过2倍上采样后与(52,52)特征图特征合并输入y3通道,合并后的(52,52)特征图经过2倍上采样后与(104,104)特征图特征合并输入y4通道;
增加高斯模型对4个通道的输出结果进行建模,模型输出为:
S×S×(K*(9+N))
S表示特征图尺寸,分别为104、52、26和13,K为该尺寸特征图下先验框数量。9+N为每个网格预测的结果:
表示预测框的位置信息,分别为中心点的x坐标、y坐标、宽和高,/>分别为x坐标的标准差信息、y坐标的标准差信息、宽的标准差信息和高的标准差信息,用来估计坐标信息的可靠性。Pobj表示是否是目标的可靠性信息,Pn表示第n个种类的可靠性信息;
进行以下变换:
通过sigmod函数将值限定在(0,1)范围内,μtx、μty、μtw、μth分别表示预测框回归的x坐标、y坐标、宽和高,Σtx、Σty、Σtw、Σth分别表示x坐标的可靠性、y坐标的可靠性、宽的可靠性和高的可靠性,0表示非常可靠,1表示不可靠。
步骤2包括:
Dense-Spp-Gaussion网络输出的预测框的坐标和宽、高均满足高斯分布,以中心点x坐标为例,满足均值为μtx,方差为Σtx的高斯分布,采用负对数似然损失,中心点x坐标损失函数计算公式如下:
其中,W和H分别为特征图每列和每行的网格数,K为Anchor(锚框)数。
表示了对于真实框的每一个值在均值为μtx、方差为Σtx的高斯分布下的值,xijk表示中心点x坐标预测值,ε表示偏移量;其中,高斯分布的密度函数f(x)为:
其中,x为输入值,μ为平均值、σ为方差;γijk为损失函数的权重惩罚系数,表示当前Anchor是否负责预测目标,若负责预测取1,否则取0,wG和hG分别表示真实框的宽和高,Wscale是根据长宽计算出的权重值。计算公式如下:
Wscale=2-wG×hG
同样,中心点y坐标和预测框宽高的损失函数如下:
置信度损失为:
其中,为真实框的置信度信息,/>为预测框的置信度信息,λnoobj为权重系数。
分类损失为:
其中,为真实框的种类信息,/>为预测框的种类信息,λclass为权重系数。
Dense-Spp-Gaussion网络输出结果总的损失函数Loss为:
Loss=Lx+Ly+Lw+Lh+Lobj+Lclass
训练Dense-Spp-Gaussion目标检测模型直至损失函数收敛。
步骤3包括:
输入被检测目标图像,利用所训练的Dense-Spp-Gaussion模型检测图像中的目标,输出图像中每个目标的边界框位置、尺寸以及目标类别。计算每个输出框的得分计算每个输出框的得分Cr:
Cr=σ(Obj)+σ(Class)+(1-Uaver)
其中,σ(Obj)为Dense-Spp-Gaussion网络输出的目标置信度得分;σ(Class)为Dense-Spp-Gaussion网络输出的类别得分;Uaver为定位不确定性得分,表示Σtx、Σty、Σtw、Σth的平均值。在检测过程对预测结果中Cr较低的bbox进行过滤,提高检测准确性。
有益效果:本发明具有如下显著优点:
1、采用密集连接作为骨干网络,改善了层与层之间的信息交流,使得浅层网络提取到的特征信息在深层网络中得到了利用,提高特征的利用率。
2、通过引入图像金字塔模块,实现局部特征和全局特征的融合,丰富最终特征图的表达能力,从而提高检测准确率。
3、采用多尺度特征输出的方式,包含(13,13)、(26,26)、(52,52)、(104,104)四种尺度,提升网络对不同尺寸目标的检测能力。
4、采用Gaussion模型对检测框位置信息建模,得出定位不确定性信息,提高了检测准确性并解决了定位错误的问题。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明Dense-Spp-Gaussion网络模型示意图。
图2是本发明识别可见光车辆效果图。
图3是本发明识别红外车辆效果图。
具体实施方式
本发明提供了一种基于卷积神经网络模型的目标检测识别方法,包括:
(1)如图1所示,构建Dense-Spp-Gaussion目标检测网络模型,采用DenseNet网络为骨干网络,在DenseNet与目标检测层之间引入空间金字塔池化结构(SPP),融合多尺度图像局部区域特征。通过进行32倍、16倍、8和4倍降采样获取四种尺度下的特征图,用以适应不同尺度目标的检测输出,同时为了减少底层目标特征的损失,通过对顶层特征图的两次上采样并与底层特征图进行融合,增强了对不同尺度目标的适应性。增加Gaussian模型对网络输出进行建模,能够输出每个预测框的可靠性,从而提升目标框和算法识别的精度。
DenseNet网络由多个DenseBlock密集卷积块集合组成,单个DenseBlock中包括1个1×1的卷积核和4个3×3卷积核,每个3×3卷积核后还加入BatchNormalization层和Relu激活函数。DenseBlock的密集连接方式第L层的输出为:
xl=Hl([x0,x1,…,xl-1])
其中,Hl表示非线性变换,随着层数增加,就会将大量线性函数进行复合。[x0,x1,…,xl-1]表示第0到L-1层输出的特征做通道合并。
DenseNet网络中共有4个密集卷积块集合,其中密集卷积块的数量分别为6、12、24、16,密集卷积块集合之间由转移层连接,转移层为大小为2×2、步长为2的卷积核进行均值池化;
将4个密集卷积块集合产生的32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图,分别为(13,13)、(26,26)、(52,52)、(104,104),在(13,13)特征图上引入空间金字塔池化结构(SPP),融合多尺度图像局部区域特征,池化窗口尺寸Spool×Spool为:
其中,Smap×Smap表示输入特征图尺寸,ni为缩小倍数,池化步长都为1,采用边界填充保证池化后特征图尺寸不变,然后将不同池化输出结果进行特征合并。
经过SPP的(13,13)特征图输入y1通道。(13,13)特征图经过2倍上采样后与(26,26)特征图特征合并输入y2通道,同样合并后的(26,26)特征图经过2倍上采样后与(52,52)特征图特征合并输入y3通道,合并后的(52,52)特征图经过2倍上采样后与(104,104)特征图特征合并输入y4通道。
增加Gaussian模型对网络输出进行建模,模型输出为:
S×S×(K*(9+N))
S表示特征图尺寸,分别为104、52、26和13,K为该尺寸特征图下先验框数量。9+N为每个网格预测的结果:
表示预测框的位置信息,分别为中心点的x,y坐标和宽高,为标准差信息,用来估计坐标信息的可靠性。Pobj表示是否是目标的可靠性信息,P1…Pn表示每个种类的可靠性信息。
得到以上信息后还需做以下变换:
通过sigmod函数将值限定在(0,1)范围内,μtx、μty、μtw、μth表示预测框回归的坐标,Σtx、Σty、Σtw、Σth表示坐标的可靠性,0表示非常可靠,1表示不可靠。
(2)损失函数中置信度和类别得分预测分支采用最小平方和误差,预测框采用负对数似然损失,利用训练数据集和目标边界框先验信息,训练步骤(1)所构建的Dense-Spp-Gaussion目标检测模型直至损失函数收敛。
网络输出的预测框的坐标和宽、高均满足高斯分布,以中心点x坐标为例,满足均值为μtx,方差为Σtx的高斯分布,采用负对数似然损失,中心点x坐标损失函数计算公式如下:
其中,W和H分别为特征图每列和每行的网格数,K为Anchor(锚框)数。
这个式子表示了对于真实框的每一个值在均值为μtx,方差为Σtx的高斯分布下的值其中,高斯分布的密度函数为:
γijk为损失函数的权重惩罚系数,表示当前Anchor是否负责预测目标,若负责预测取1,否则取0,wG和hG分别表示真实框的宽和高,计算公式如下:
Wscale=2-wG×hG
同样,中心点y坐标和预测框宽高的损失函数如下:
置信度损失为:
其中,为真实框的置信度信息,/>为预测框的置信度信息,λnoobj为权重系数。
分类损失为:
其中,为真实框的种类信息,/>为预测框的种类信息,λclass为权重系数。
所以网络输出结果总的损失函数为:
Loss=Lx+Ly+Lw+Lh+Lobj+Lclass
训练Dense-Spp-Gaussion目标检测模型直至损失函数收敛。
(3)输入被测目标图像,利用所训练的Dense-Spp-Gaussion模型检测图像中的目标,输出图像中每个目标的边界框位置、尺寸以及目标类别。
输入被检测目标图像,利用所训练的Dense-Spp-Gaussion模型检测图像中的目标,输出图像中每个目标的边界框位置、尺寸以及目标类别。计算每个输出框Cr的得分,计算公式为:
Cr=σ(Obj)×σ(Class)×(1-Uaver)
其中,σ(Obj)为目标置信度得分,值在[0,1]范围之间。σ(Class)为类别得分,值在[0,1]范围之间。Uaver为定位不确定性得分,表示Σtx、Σty、Σtw、Σth的平均值,值在[0,1]范围之间。Cr的值在[0,1]范围之间,在检测过程对预测结果中Cr较低的bbox进行过滤,提高检测准确性。图1中DenseNet表示密集连接网络,Conv表示卷积计算,Max pool表示最大池化,Transistion layer表示过度层,Dense block表示密集连接块,SPP表示空间金字塔池化结构,Upsampling表示上采样,concat表示张量拼接,class表示识别种类数量,K表示先验框数量,box表示预测框,μtx、μty、μtw、μth分别表示预测框回归的x坐标、y坐标、宽和高,Σtx、Σty、Σtw、Σth分别表示x坐标的可靠性,Pobj表示是否是目标的可靠性信息,Pn表示第n个种类的可靠性信息,Input和Output分别表示输入和输出。
图2、图3中的car表示识别出来的车辆,图中的数字即为Cr的值,如Cr=1.00表示当前目标判定是车辆的概率为100%,Cr=0.93表示当前目标判定是车辆的概率为93%。
本发明提供了一种基于卷积神经网络模型的目标检测识别方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (3)
1.一种基于卷积神经网络模型的目标检测识别方法,其特征在于,包括如下步骤:
步骤1,构建Dense-Spp-Gaussion目标检测网络模型;
步骤2,训练Dense-Spp-Gaussion目标检测网络模型直至损失函数收敛;
步骤3,输入被检测目标图像,利用训练好的Dense-Spp-Gaussion目标检测网络模型检测图像中的目标,输出图像中每个目标的边界框位置、尺寸以及目标类别;
步骤1中,所述Dense-Spp-Gaussion目标检测网络模型,包括密集连接DenseNet网络、空间金字塔池化结构SPP、目标检测层和高斯模型,空间金字塔池化结构SPP用于融合多尺度图像局部区域特征,目标检测层对顶层特征图两次上采样,并与底层特征图进行融合;
步骤1中,所述DenseNet网络包括两个以上密集卷积块DenseBlock,单个密集卷积块DenseBlock中包括1个1×1的卷积核和4个3×3卷积核,每个3×3卷积核后还加入BatchNormalization批归一化层和Relu激活函数;
密集卷积块DenseBlock的密集连接方式第L层的输出xL为:
xL=HL([x0,x1,…,xL-1])
其中,HL表示非线性变换,[x0,x1,…,xL-1]表示第0到L-1层输出的特征做通道合并;
步骤1中,所述DenseNet网络中共有4个密集卷积块集合,4个密集卷积块集合中密集卷积块的数量分别为6、12、24、16,密集卷积块集合之间由转移层连接,转移层为大小为2×2、步长为2的卷积核进行均值池化;
对4个密集卷积块集合进行32倍、16倍、8和4倍降采样,得到4个不同尺度的特征图,分别为(13,13)、(26,26)、(52,52)、(104,104)特征图,在(13,13)特征图上引入空间金字塔池化结构SPP,融合多尺度图像局部区域特征,池化窗口尺寸Spool×Spool为:
其中,Smap表示输入特征图尺寸,Spool表示池化操作后特征图尺寸,ni为缩小倍数,池化步长都为1,采用边界填充保证池化后特征图尺寸不变,然后将不同池化输出结果进行特征合并;
经过32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图输入4个不同的通道(y1,y2,y3,y4),其中经过空间金字塔池化结构SPP的(13,13)特征图输入y1通道;(13,13)特征图经过2倍上采样后与(26,26)特征图特征合并输入y2通道,同样合并后的(26,26)特征图经过2倍上采样后与(52,52)特征图特征合并输入y3通道,合并后的(52,52)特征图经过2倍上采样后与(104,104)特征图特征合并输入y4通道;
增加高斯模型对4个通道的输出结果进行建模,模型输出为:
S×S×(K*(9+N))
S表示特征图尺寸,分别为104、52、26和13,K为4个不同尺寸特征图对应的先验框数量;9+N为每个网格预测的结果,具体如下所示:
表示预测框的位置信息,分别为中心点的x坐标、y坐标、宽和高,分别为x坐标的标准差信息、y坐标的标准差信息、宽的标准差信息和高的标准差信息,用来估计坐标信息的可靠性;Pobj表示是否是目标的可靠性信息,Pn表示第n个种类的可靠性信息;
进行以下变换:
通过sigmod函数将值限定在(0,1)范围内,μtx、μty、μtw、μth分别表示预测框回归的x坐标、y坐标、宽和高,Σtx、Σty、Σtw、Σth分别表示x坐标的可靠性、y坐标的可靠性、宽的可靠性和高的可靠性,0表示非常可靠,1表示不可靠。
2.根据权利要求1所述的方法,其特征在于,步骤2包括:
Dense-Spp-Gaussion网络输出的预测框的坐标和宽、高均满足高斯分布,中心点x坐标满足均值为μtx、方差为Σtx的高斯分布,采用负对数似然损失,中心点x坐标损失函数Lx计算公式如下:
其中,W和H分别为特征图每列的网格数和每行的网格数,K为Anchor锚框数;
表示了对于真实框的每一个值在均值为μtx、方差为Σtx的高斯分布下的值,xijk表示中心点x坐标预测值,ε表示偏移量;其中,高斯分布的密度函数f(x)为:
其中,x为输入值,μ为平均值、σ为方差;
γijk为损失函数的权重惩罚系数,表示当前Anchor锚框数是否负责预测目标,如果负责取1,否则取0;wG和hG分别表示真实框的宽和高,Wscale是根据长宽计算出的权重值,计算公式如下:
Wscale=2-wG×hG
中心点y坐标的损失函数Ly、预测框的宽的损失函数Lw、预测框的高的损失函数Lh如下:
置信度损失Lobj为:
其中,为真实框的置信度信息,/>为预测框的置信度信息,λnoobj为权重系数;
分类损失Lclass为:
其中,为真实框的种类信息,/>为预测框的种类信息,λclass为权重系数;
Dense-Spp-Gaussion网络输出结果总的损失函数Loss为:
Loss=Lx+Ly+Lw+Lh+Lobj+Lclass
训练Dense-Spp-Gaussion目标检测网络模型直至损失函数收敛。
3.根据权利要求2所述的方法,其特征在于,步骤3包括:
计算每个输出框的得分Cr:
Cr=σ(Obj)+σ(Class)+(1-Uaver)
其中,σ(Obj)为Dense-Spp-Gaussion网络输出的目标置信度得分;σ(Class)为Dense-Spp-Gaussion网络输出的类别得分;Uaver为定位不确定性得分,表示Σtx、Σty、Σtw、Σth的平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110935817.8A CN113705583B (zh) | 2021-08-16 | 2021-08-16 | 一种基于卷积神经网络模型的目标检测识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110935817.8A CN113705583B (zh) | 2021-08-16 | 2021-08-16 | 一种基于卷积神经网络模型的目标检测识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113705583A CN113705583A (zh) | 2021-11-26 |
CN113705583B true CN113705583B (zh) | 2024-03-22 |
Family
ID=78653150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110935817.8A Active CN113705583B (zh) | 2021-08-16 | 2021-08-16 | 一种基于卷积神经网络模型的目标检测识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705583B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021704B (zh) * | 2022-01-04 | 2022-03-22 | 深圳精智达技术股份有限公司 | 一种ai神经网络模型的训练方法及相关装置 |
CN115147642A (zh) * | 2022-06-02 | 2022-10-04 | 盛视科技股份有限公司 | 基于视觉的渣土车检测方法、装置、计算机及存储介质 |
CN116106899B (zh) * | 2023-04-14 | 2023-06-23 | 青岛杰瑞工控技术有限公司 | 一种基于机器学习的港口航道小目标识别方法 |
CN116630751B (zh) * | 2023-07-24 | 2023-10-31 | 中国电子科技集团公司第二十八研究所 | 一种融合信息瓶颈和不确定性感知的可信目标检测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108751A (zh) * | 2017-12-08 | 2018-06-01 | 浙江师范大学 | 一种基于卷积多特征和深度随机森林的场景识别方法 |
CN109145920A (zh) * | 2018-08-21 | 2019-01-04 | 电子科技大学 | 一种基于深度神经网络的图像语义分割方法 |
CN109325534A (zh) * | 2018-09-22 | 2019-02-12 | 天津大学 | 一种基于双向多尺度金字塔的语义分割方法 |
CN109636905A (zh) * | 2018-12-07 | 2019-04-16 | 东北大学 | 基于深度卷积神经网络的环境语义建图方法 |
CN109685152A (zh) * | 2018-12-29 | 2019-04-26 | 北京化工大学 | 一种基于dc-spp-yolo的图像目标检测方法 |
WO2019232836A1 (zh) * | 2018-06-04 | 2019-12-12 | 江南大学 | 基于改进全卷积网络的多尺度感知行人检测方法 |
CN110991311A (zh) * | 2019-11-28 | 2020-04-10 | 江南大学 | 一种基于密集连接深度网络的目标检测方法 |
CN112785603A (zh) * | 2021-01-15 | 2021-05-11 | 沈阳建筑大学 | 一种基于Unet和超像素的脑组织分割方法 |
CN112801183A (zh) * | 2021-01-28 | 2021-05-14 | 哈尔滨理工大学 | 一种基于YOLO v3的多尺度目标检测方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11393088B2 (en) * | 2019-06-27 | 2022-07-19 | Nutech Ventures | Animal detection based on detection and association of parts |
-
2021
- 2021-08-16 CN CN202110935817.8A patent/CN113705583B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108751A (zh) * | 2017-12-08 | 2018-06-01 | 浙江师范大学 | 一种基于卷积多特征和深度随机森林的场景识别方法 |
WO2019232836A1 (zh) * | 2018-06-04 | 2019-12-12 | 江南大学 | 基于改进全卷积网络的多尺度感知行人检测方法 |
CN109145920A (zh) * | 2018-08-21 | 2019-01-04 | 电子科技大学 | 一种基于深度神经网络的图像语义分割方法 |
CN109325534A (zh) * | 2018-09-22 | 2019-02-12 | 天津大学 | 一种基于双向多尺度金字塔的语义分割方法 |
CN109636905A (zh) * | 2018-12-07 | 2019-04-16 | 东北大学 | 基于深度卷积神经网络的环境语义建图方法 |
CN109685152A (zh) * | 2018-12-29 | 2019-04-26 | 北京化工大学 | 一种基于dc-spp-yolo的图像目标检测方法 |
CN110991311A (zh) * | 2019-11-28 | 2020-04-10 | 江南大学 | 一种基于密集连接深度网络的目标检测方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN112785603A (zh) * | 2021-01-15 | 2021-05-11 | 沈阳建筑大学 | 一种基于Unet和超像素的脑组织分割方法 |
CN112801183A (zh) * | 2021-01-28 | 2021-05-14 | 哈尔滨理工大学 | 一种基于YOLO v3的多尺度目标检测方法 |
Non-Patent Citations (5)
Title |
---|
Automated tree crown detection and size estimation using multi-scale analysis of high-resolution satellite imagery;Skurikhin等;REMOTE SENSING LETTERS;全文 * |
Multi-Target Defect Identification for Railway Track Line Based on Image Processing and Improved YOLOv3 Model;Xiukun Wei等;IEEE Access;全文 * |
基于Dense-YOLOv3的车型检测模型;陈立潮等;计算机系统应用;全文 * |
多类型合作目标检测及其位姿估计方法研究;王建林;万方知识数据服务平台;全文 * |
改进YOLOv2卷积神经网络的多类型合作目标检测;王建林等;光学精密工程;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113705583A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113705583B (zh) | 一种基于卷积神经网络模型的目标检测识别方法 | |
CN109934115B (zh) | 人脸识别模型的构建方法、人脸识别方法及电子设备 | |
WO2022036777A1 (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN111401144B (zh) | 一种基于视频监控的手扶电梯乘客行为识别方法 | |
CN109919245B (zh) | 深度学习模型训练方法及装置、训练设备及存储介质 | |
CN109948526B (zh) | 图像处理方法及装置、检测设备及存储介质 | |
CN110458061B (zh) | 一种识别老年人跌倒的方法及陪伴机器人 | |
CN110427937A (zh) | 一种基于深度学习的倾斜车牌矫正和不定长车牌识别方法 | |
CN106991388B (zh) | 关键点定位方法 | |
CN108460403A (zh) | 一种图像中多尺度特征融合的目标检测方法与系统 | |
CN111368673A (zh) | 一种基于神经网络的人体关键点快速提取方法 | |
CN115661943B (zh) | 一种基于轻量级姿态评估网络的跌倒检测方法 | |
CN108647663B (zh) | 基于深度学习和多层次图结构模型的人体姿态估计方法 | |
CN110363817B (zh) | 目标位姿估计方法、电子设备和介质 | |
CN110569719B (zh) | 一种动物头部姿态估计方法及系统 | |
CN111984817B (zh) | 一种基于自注意力机制加权的细粒度图像检索方法 | |
WO2023151237A1 (zh) | 人脸位姿估计方法、装置、电子设备及存储介质 | |
CN110879982A (zh) | 一种人群计数系统及方法 | |
CN112001859A (zh) | 一种人脸图像的修复方法及系统 | |
CN112597814A (zh) | 一种基于改进的Openpose课堂多人异常行为及口罩佩戴检测方法 | |
CN111507184B (zh) | 基于并联空洞卷积和身体结构约束的人体姿态检测方法 | |
CN106845456A (zh) | 一种视频监控系统中人体摔倒监测的方法 | |
CN111626134A (zh) | 一种基于隐密度分布的密集人群计数方法、系统及终端 | |
CN116883588A (zh) | 一种大场景下的三维点云快速稠密重建方法及系统 | |
CN111626379A (zh) | 肺炎x光图像检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |