CN115410030A - 目标检测方法、装置、计算机设备及存储介质 - Google Patents

目标检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115410030A
CN115410030A CN202210875967.9A CN202210875967A CN115410030A CN 115410030 A CN115410030 A CN 115410030A CN 202210875967 A CN202210875967 A CN 202210875967A CN 115410030 A CN115410030 A CN 115410030A
Authority
CN
China
Prior art keywords
network
target detection
target
feature
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210875967.9A
Other languages
English (en)
Inventor
秦兴
胡尊政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210875967.9A priority Critical patent/CN115410030A/zh
Publication of CN115410030A publication Critical patent/CN115410030A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了目标检测方法、装置、计算机设备及存储介质。所述方法包括:获取指定位置的待检测图像;将所述待检测图像输入至目标检测模型内进行目标检测,以得到检测结果;输出所述检测结果;其中,所述目标检测模型是通过在CenterNet网络的编码网络中加入可变形卷积且在解码网络中加入多特征融合模块形成的。通过实施本发明实施例的方法可实现适应在工厂环境下因为摄像头布置而引发的被检测对象形变能力,做到减少网络结构的计算量和网络参数的同时保证网络结构的鲁棒性。

Description

目标检测方法、装置、计算机设备及存储介质
技术领域
本发明涉及目标检测方法,更具体地说是指目标检测方法、装置、计算机设备及存储介质。
背景技术
目标检测是计算机视觉技术中重要研究方向之一。在现代工业生产中,目标检测技术有着非常广阔的应用前景。实际的生产生活中,工业目标检测目前大部分依靠人眼识别,也有许多通过模板匹配的方法来进行检测,但是人工检测成本和误检率高,模板匹配难于适应复杂照明和多分类小目标的任务场景,比如猪场的死猪事件检测。
现有技术采用CenterNet进行死猪目标检测,相比于YOLO、SSD等依靠Anchor来进行检测的网络,CenterNet是一种Anchor Free的网络,与R-CNN等网络相比,CenterNet不需要区域建议以及ROI等组件,所以CenterNet在速度和精度上都有提升。CenterNet网络分别是由编码网络、解码网络和检测网络三个编码网络组成,CenterNet对图像特征的提取依靠编码网络进行实现,它将生成的高语义特征图从编码网络中送入到解码网络,在解码网络中使用高斯核算法生成含有目标中心点数据信息的热力图,然后根据中心点的数据信息对目标的长宽高属性进行回归,最后通过检测网络进行预测;但是现有的目标检测方法并不能适应在工厂环境下因为摄像头布置而引发的被检测对象形变能力,也无法做到减少网络结构的计算量和网络参数的同时保证网络结构的鲁棒性。
因此,有必要设计一种新的方法,实现适应在工厂环境下因为摄像头布置而引发的被检测对象形变能力,做到减少网络结构的计算量和网络参数的同时保证网络结构的鲁棒性。
发明内容
本发明的目的在于克服现有技术的缺陷,提供目标检测方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:目标检测方法,包括:
获取指定位置的待检测图像;
将所述待检测图像输入至目标检测模型内进行目标检测,以得到检测结果;
输出所述检测结果;
其中,所述目标检测模型是通过在CenterNet网络的编码网络中加入可变形卷积且在解码网络中加入多特征融合模块形成的。
其进一步技术方案为:所述目标检测模型包括依序连接的编码网络、解码网络以及预测网络,其中,所述编码网络包括卷积层、可变形卷积层和/或DCN模块;所述解码网络包括上采样网络,所述上采样网络包括若干个依序连接的反卷积层;所述预测网络包括用于获取目标中心点的热力图的中心预测自网络、用于获取中心点的偏移量的偏移预测子网络以及获取中心点的宽与高的边框预测子网络。
其进一步技术方案为:所述DCN模块包括带可学习参数的卷积层,通过双线性插值来进行反向传播对DCN模块进行优化。
其进一步技术方案为:所述多特征融合模块用于采用反卷积将高层特征的尺度上采至与低层特征尺度相同的尺寸,并分别按照通道进行连接。
其进一步技术方案为:所述多特征融合模块用于融合底层特征以及高层特征。
其进一步技术方案为:所述多特征融合模块关注每一个通道的特征数据信息,把关注到的特征信息采用全局平均池化生成一个特征向量,且通过学习的方式得出权重向量,与初步融合的特征数据信息进行加权计算,以得出一个融合全局特征图。
其进一步技术方案为:所述编码网络包括ResNet50网络。
本发明还提供了目标检测装置,包括:
图像获取单元,用于获取指定位置的待检测图像;
检测单元,用于将所述待检测图像输入至目标检测模型内进行目标检测,以得到检测结果;其中,所述目标检测模型是通过在CenterNet网络的编码网络中加入可变形卷积且在解码网络中加入多特征融合模块形成的;
输出单元,用于输出所述检测结果。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过将待检测图像输入目标检测模型内进行目标检测,并输出检测结果,其中,目标检测模型的编码网络部分卷积层使用可变形卷积进行替换,以更好地适应工厂下被检测对象发生形变的能力,在解码网络中,引入多特征融合模块,对底层特征和高层特征进行融合,实现适应在工厂环境下因为摄像头布置而引发的被检测对象形变能力,做到减少网络结构的计算量和网络参数的同时保证网络结构的鲁棒性。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的目标检测方法的应用场景示意图;
图2为本发明实施例提供的目标检测方法的流程示意图;
图3为本发明实施例提供的目标中心点的热力图的示意图;
图4为本发明实施例提供的目标检测模型的结构示意图;
图5为本发明实施例提供的多特征融合模块的结构示意图;
图6为本发明实施例提供的ResNet50加入可变形卷积层的结构示意图;
图7为本发明实施例提供的CenterNet模型训练集和验证集的Loss与Accuracy结果示意图;
图8为本发明实施例提供的目标检测模型训练集和验证集的Loss与Accuracy结果示意图;
图9为本发明实施例提供的工厂环境下的猪只检测示意图;
图10为本发明实施例提供的目标检测装置的示意性框图;
图11为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的目标检测方法的应用场景示意图。图2为本发明实施例提供的目标检测方法的示意性流程图。该目标检测方法应用于服务器中。该服务器与摄像头以及终端进行数据交互,其中,摄像头安装在猪场等指定位置,摄像头拍摄待检测图像,采用改进后的CenterNet网络形成的目标检测模型进行目标检测,即死猪或者指定情况的目标检测,并将检测所得的结果输出至终端,以在终端进行展示。
图2是本发明实施例提供的目标检测方法的流程示意图。如图2所示,该方法包括以下步骤S110至S130。
S110、获取指定位置的待检测图像。
在本实施例中,待检测图像包括指定位置的图像,比如猪场的图像等。加载系统本地缓存过的视频、通过调用本地摄像头的方式进行拍摄,以确定待检测图像,视频获取主要采用外接摄像头的方式,来获取工厂更高清的视频素材,从而不仅可以获取场景应用数据集,也可以为目标检测与追踪提供高清图像。
视频流推送模块即摄像头将视频获取模块获取的视频以流媒体协议编码之后交给服务器进行多目标检测,该模块将检测与追踪之后的视频储存在云端或发送到本地端进行解码和播放工作。
视频流编码协议采取H.265协议,H.265协议从编码率和算法优化等方面进行改进,改进之后的视频占用的储存空间变小。
S120、将所述待检测图像输入至目标检测模型内进行目标检测,以得到检测结果。
在本实施例中,检测结果是指目标所在的位置即目标所在的矩形框。
其中,所述目标检测模型是通过在CenterNet网络的编码网络中加入可变形卷积且在解码网络中加入多特征融合模块形成的。
在本实施例中,所述目标检测模型包括依序连接的编码网络、解码网络以及预测网络,其中,所述编码网络包括卷积层、可变形卷积层和/或DCN模块;所述解码网络包括上采样网络,所述上采样网络包括若干个依序连接的反卷积层;所述预测网络包括用于获取目标中心点的热力图的中心预测自网络、用于获取中心点的偏移量的偏移预测子网络以及获取中心点的宽与高的边框预测子网络。
具体地,编码网络为但不局限于ResNet,解码网络为但不局限于DLA(特征聚合体系,Deep Layer Aggregation),预测单元为但不局限于Hourglass。
上述的所述编码网络包括ResNet50网络。
编码网络最常使用的算法是ResNet系列算法,采用上采样网络作为解码网络,解码网络由多个反卷积层组成。在预测网络中通过三个分支输出不同的预测值:在中心预测子网络中获取目标中心点的热力图(Heatmap);在偏移预测子网络中获取到中心点的偏移量(Offset);边框预测子网络中获取中心点的宽与高(Height&Width)。
将目标作为一个点来检测,利用检测物体目标框的中心点来表示被检测物体,预测被检测物体的中心点的偏移量与宽高来得到被检测目标的实际目标框。目标中心点的热力图主要用于分类信息,不同类别都会有一张Heatmap。在Heatmap上,会在被检测目标的中心点坐标位置生成一个Keypoint,Keypoint经常用高斯圆来表示,如图3所示,假设输入的图片是512×512,网络预测最后生成的Heatmap是128×128,产生Heatmap的步骤可以分为三步:首先将被检测目标的Box缩放成128×128的大小,求得其中心点的坐标位置并设为中心点;其次根据被检测目标的Box大小来计算Keypoint处的高斯圆半径;最后在Heatmap图上根据求得的中心点和高斯圆半径填充高斯函数计算值。
在本实施例中,目标检测模型的损失函数包括热力图的损失函数、被检测目标长宽的损失函数、被检测中心点偏移值损失函数。为了计算三个损失函数公式,可以做出以下假设。
假设输入的图像大小是X×Y×3,则其生成的Heatmap图H大小为X/4×Y/4×C,其中C是预测类别数。CenterNet使用的关键点是目标的中心点,由于卷积降维的原因中心点在Heatmap上不会很精确,它会将中心点的坐标进行一个调整。设Heatmap中点x、y、z为关键点,则得出其置信度为
Figure BDA0003762184450000061
否则
Figure BDA0003762184450000062
另外设待检测目标的位置的中心点在原图中的位置为p,则在Heatmap图中的坐标为
Figure BDA0003762184450000063
对于Heatmap损失函数的计算公式如下:
Figure BDA0003762184450000064
其中α和β是超参数,α=2,
Figure BDA0003762184450000065
为预测值,Yxyc为实际值。
因为降维导致的中心偏移问题,需要对样本的偏移损失进行计算。假设被检测目标的实际中心点p是(125,63),图片的大小为512×512,生成的Heatmap缩放尺度R=4,则Heatmap上的中心点坐标应该是p/R(31.25,15.75)。假设在实际的Heatmap图上其中心点为
Figure BDA0003762184450000066
可得其偏移损失量为(0.25,0.75)。
由此计算中心点的偏移值损失计算公式如下:
Figure BDA0003762184450000067
目标检测模型在预测每个被检测目标的长和宽的时候,是通过Heatmap图中的中心点以及中心点的偏移量来组成检测生成的检测框。假设待检测目标的左上和右下的坐标是
Figure BDA0003762184450000068
可得待检测目标的中心点为
Figure BDA0003762184450000069
待检测目标的长宽为
Figure BDA00037621844500000610
Figure BDA00037621844500000611
即sk为目标的真实尺寸,设
Figure BDA00037621844500000612
为预测的尺寸。
可以得到长宽预测损失值的计算公式如下:
Figure BDA00037621844500000613
通过分析可以得到目标检测模型的总体损失计算方式,注意的是目标检测模型不对长宽进行归一化处理,而是在计算的时候进行加权计算。本次实验中所有的输出共享大部分的参数,所以将λsize的值初始化0.1,λoff的值初始化为1,最终模型会在输出5个值以此来的带目标框的位置和大小数据,目标检测模型的总损失值计算方式如下:Ldet=LksizeLsizeoffLoff
在本实施例中,上述的编码网络使用轻量级网络,可以选取MobileNet和ResNet18等,为了让目标检测模型更好适应在工厂环境下因为摄像头布置而引发的被检测对象形变能力,对编码网络引入可变形卷积,在上采路径即解码网络中引入多特征融合模块,使网络结构的计算量和网络参数实现减少的同时保证其鲁棒性。当编码网络选择ResNet50时,目标检测模型的结构示意图如图4所示。
在一实施例中,所述多特征融合模块用于融合底层特征以及高层特征。
具体地,所述多特征融合模块关注每一个通道的特征数据信息,把关注到的特征信息采用全局平均池化生成一个特征向量,且通过学习的方式得出权重向量,与初步融合的特征数据信息进行加权计算,以得出一个融合全局特征图。
通过反卷积将高层特征的尺度上采至与低层特征尺度相同的大小并分别按照通道进行连接。为了有效减少上采样网络中卷积的参数量,在多特征融合模块中使用深度可分离卷积对分组进行单独卷积,学习分组中每一层的表示。通常得到一个Feature Map每个通道的权重是同样重要的,如图5所示,引进类似SENet的通道注意力机制,关注每一个通道的特征数据信息,把关注到的特征信息采用全局平均池化生成一个特征向量。SENet通过学习的方式得出权重向量,与初步融合的特征数据信息进行加权计算,最后得出一个融合全局特征图,减少了特征融合过程中带来的噪声影响。
选取ResNet网络模型来展示对编码网络的设计,因为ResNet网络层数的不同,其残差模块的卷积也会有不同的设计。以ResNet50为参考样例,需要对ResNet50的网络层进行选取然后进行特征融合。
ResNet50包含两个模块,Conv Block用来改变网络学习中的网络维度,IdentityBlock用来加深网络中的网络结构。ResNet50在经过第一层的卷积层之后,会经过四组stage的卷积操作,每组stage含有的block数目不同,conv2_x含有2个block,conv3_x含有4个block,conv4_x含有6个block,conv5_x含有3个block,每个block含有相同数目的三个卷积,经过四个stage的卷积操作之后,最后用全局平均池化方法输出,与1000个神经元做全连接,对输出的1000个值进行softmax。
在ResNet50中选取第二层到第四层网络来分别进行特征融合,特征融合之后将通过上采样路径和3个卷积神经网络,最后得到特征图预测热力图、中心坐标和宽高度。
在一实施例中,所述DCN模块包括带可学习参数的卷积层,通过双线性插值来进行反向传播对DCN模块进行优化。
在复杂场景下对复杂物体的特征提取往往比较困难,DCN模块可以解决在图像处理中多种形式目标变换的几何变换问题,可以更好地自适应学习感受野,与普通的卷积相比DCN的感受野的形状是可变换的,可以更好地得到融合的特征信息。
在DCN模块中,因为Offset Field所拥有的值是输入特征层的偏移量,分别是x方向和y方向的偏移,所以通道数是原始特征层的2倍。
在普通的卷积中,假如是3×3卷积,中心点是x,输出是y,那么关于每个y,都要以x为中心位置上采样9个位置,得到的9个位置将会围绕x变成gird形状。普通卷积公式为
Figure BDA0003762184450000083
在可变形卷积DCN模块中基于普通卷积的基础操作,在卷积操作的基础作用区域之上,加入了一个可学习参数Δpn。这就使上采样的9个位置在向四周进行扩散的时候会扩散成非gird形状。可变形卷积的公式为:
Figure BDA0003762184450000082
在DCN模块中,Offesetfiled经过卷积得到的偏移量可能会是浮点数,那么对小目标物体的会产生较大的误差,可通过双线性插值来进行反向传播对DCN模块进行优化。大量引入可变形卷积很增加模型的复杂度,考虑到有效提升检测速度,本文在CenterNet编码网络中使用DCN替代部分卷积。以ResNet50为例,在第四层中对其部分3×3卷积进行替换,如图6所示。
在本实施例中,分别采用公共数据集和工厂中采集的数据集进行实验。公共数据集采用INRIA行人数据集,该数据集是在图像和视频中收集的直立人样本,工厂数据集来源于视频抓取的4200张猪只图片,并使用labelme对图片进行标注,工厂数据集使用按照8:1:1的比例分配,其中训练集3360张,验证集420张,测试集420张,实验采用COCO格式的数据集进行训练。训练前将制作的数据集分别转换成*.json格式的文件,对公共数据集和自制数据集训练过程中的初始学习率设置为1×10-3,batchsize设置为8。
采用不同的IoU阈值计算平均精度,IoU是深度学习检测物体准确性的一个标准,IoU的取值选择分别使用0.5~0.95(AP)、0.5(AP50)和0.75(AP75),并且引入了FPS计算检测算法的实时性。
首先采用INRIA行人数据集对原有模型和改进的Improved-CenterNet进行实验对比,以ResNet50作为编码网络,其中CenterNet和Improved-CenterNet在训练集和验证集上的损失值和精度值变化如图7和图8所示。
在对目标检测模型的训练过程中,由于学习率较高,CenterNet和目标检测模型的Loss曲线收敛速度较快。CenterNet在迭代次数为40左右学习率逐渐达到饱和,在验证集上的准确度在0.9左右。目标检测模型在迭代次数为30附近学习率逐渐达到饱和,在验证集上的准确度在0.95左右。实验结果证明Improved-CenterNet相比于CenterNet在准确度上不仅有了明显的提升,而且其模型的泛化能力也有提升。依次引入ResNet18、ResNet101与MobileNetV2进行实验结果比较,各个结果如表1至表2。
表1.CenterNet网络实验结果
编码网络 AP AP50 AP75 FPS(帧/s)
ResNet18 32.8 76.2 25.4 120.0
ResNet50 38.2 77.1 28.5 57.3
ResNet101 37.7 80.5 27.6 30.0
MobileNetV2 30.0 68.2 20.5 160.3
表2.Improved-CenterNet网络实验结果
Figure BDA0003762184450000081
Figure BDA0003762184450000091
通过在INRIA行人数据集上的实验,得出目标检测模型在使用ResNet50作为编码网络准确度提升最高,在AP50上有3.2%的提升,在AP准确度上有2.0%的提升,在AP75上有6.7%的提升,其中实时性较原先的CenterNet提高了20.5frame/s。
为了验证算法在真实场景中的实用性,对自制数据集进行实验。实验结果如表3和表4所示。
表3.CenterNet网络的实验结果
编码网络 AP AP50 AP75 FPS(帧/s)
ResNet18 32.1 85.7 16.3 133.6
ResNet50 36.0 86.0 18.5 84.3
ResNet101 35.6 88.5 19.7 45.0
MobileNetV2 31.3 80.2 16.6 169.3
表4.目标检测模型的实验结果
编码网络 AP AP50 AP75 FPS(帧/s)
ResNet18 37.2 87.7 32.9 147.6
ResNet50 41.7 89.0 30.2 95.5
ResNet101 42.6 89.6 33.7 52.7
MobileNetV2 34.6 82.6 28.6 200.8
通过在自制数据集上的实验,得出目标检测模型在使用ResNet50作为编码网络准确度提升最高,在AP50上有3.0%的提升,在AP准确度上有5.7%的提升,在AP75上有11.7%的提升,其中实时性较原先的CenterNet提高了10.2frame/s。
目标检测模型以ResNet50为编码网络在测试数据集上取得的效果图如图9所示,图片表明检测算法在广角摄像头下针对畸变和折叠现象依旧可以很好地识别出目标,所以本文的检测算法满足现场场景需求。在四个编码网络中使用ResNet50的时候准确度提升最大,所以使用目标检测模型时一律采用ResNet50为编码网络。
S130、输出所述检测结果。
在本实施例中,将检测结果输出至终端,以在终端显示该检测结果。
上述的目标检测方法,通过将待检测图像输入目标检测模型内进行目标检测,并输出检测结果,其中,目标检测模型的编码网络部分卷积层使用可变形卷积进行替换,以更好地适应工厂下被检测对象发生形变的能力,在解码网络中,引入多特征融合模块,对底层特征和高层特征进行融合,实现适应在工厂环境下因为摄像头布置而引发的被检测对象形变能力,做到减少网络结构的计算量和网络参数的同时保证网络结构的鲁棒性。
图10是本发明实施例提供的一种目标检测装置300的示意性框图。如图10所示,对应于以上目标检测方法,本发明还提供一种目标检测装置300。该目标检测装置300包括用于执行上述目标检测方法的单元,该装置可以被配置于服务器中。具体地,请参阅图10,该目标检测装置300包括图像获取单元301、检测单元302以及输出单元303。
图像获取单元301,用于获取指定位置的待检测图像;检测单元302,用于将所述待检测图像输入至目标检测模型内进行目标检测,以得到检测结果;其中,所述目标检测模型是通过在CenterNet网络的编码网络中加入可变形卷积且在解码网络中加入多特征融合模块形成的;输出单元303,用于输出所述检测结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述目标检测装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述目标检测装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图11,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种目标检测方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种目标检测方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取指定位置的待检测图像;将所述待检测图像输入至目标检测模型内进行目标检测,以得到检测结果;输出所述检测结果;
其中,所述目标检测模型是通过在CenterNet网络的编码网络中加入可变形卷积且在解码网络中加入多特征融合模块形成的。
所述目标检测模型包括依序连接的编码网络、解码网络以及预测网络,其中,所述编码网络包括卷积层、可变形卷积层和/或DCN模块;所述解码网络包括上采样网络,所述上采样网络包括若干个依序连接的反卷积层;所述预测网络包括用于获取目标中心点的热力图的中心预测自网络、用于获取中心点的偏移量的偏移预测子网络以及获取中心点的宽与高的边框预测子网络。
所述DCN模块包括带可学习参数的卷积层,通过双线性插值来进行反向传播对DCN模块进行优化。
所述多特征融合模块用于采用反卷积将高层特征的尺度上采至与低层特征尺度相同的尺寸,并分别按照通道进行连接。
所述多特征融合模块用于融合底层特征以及高层特征。
所述多特征融合模块关注每一个通道的特征数据信息,把关注到的特征信息采用全局平均池化生成一个特征向量,且通过学习的方式得出权重向量,与初步融合的特征数据信息进行加权计算,以得出一个融合全局特征图。
所述编码网络包括ResNet50网络。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取指定位置的待检测图像;将所述待检测图像输入至目标检测模型内进行目标检测,以得到检测结果;输出所述检测结果;
其中,所述目标检测模型是通过在CenterNet网络的编码网络中加入可变形卷积且在解码网络中加入多特征融合模块形成的。
所述目标检测模型包括依序连接的编码网络、解码网络以及预测网络,其中,所述编码网络包括卷积层、可变形卷积层和/或DCN模块;所述解码网络包括上采样网络,所述上采样网络包括若干个依序连接的反卷积层;所述预测网络包括用于获取目标中心点的热力图的中心预测自网络、用于获取中心点的偏移量的偏移预测子网络以及获取中心点的宽与高的边框预测子网络。
所述DCN模块包括带可学习参数的卷积层,通过双线性插值来进行反向传播对DCN模块进行优化。
所述多特征融合模块用于采用反卷积将高层特征的尺度上采至与低层特征尺度相同的尺寸,并分别按照通道进行连接。
所述多特征融合模块用于融合底层特征以及高层特征。
所述多特征融合模块关注每一个通道的特征数据信息,把关注到的特征信息采用全局平均池化生成一个特征向量,且通过学习的方式得出权重向量,与初步融合的特征数据信息进行加权计算,以得出一个融合全局特征图。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.目标检测方法,其特征在于,包括:
获取指定位置的待检测图像;
将所述待检测图像输入至目标检测模型内进行目标检测,以得到检测结果;
输出所述检测结果;
其中,所述目标检测模型是通过在CenterNet网络的编码网络中加入可变形卷积且在解码网络中加入多特征融合模块形成的。
2.根据权利要求1所述的目标检测方法,其特征在于,所述目标检测模型包括依序连接的编码网络、解码网络以及预测网络,其中,所述编码网络包括卷积层、可变形卷积层和/或DCN模块;所述解码网络包括上采样网络,所述上采样网络包括若干个依序连接的反卷积层;所述预测网络包括用于获取目标中心点的热力图的中心预测自网络、用于获取中心点的偏移量的偏移预测子网络以及获取中心点的宽与高的边框预测子网络。
3.根据权利要求2所述的目标检测方法,其特征在于,所述DCN模块包括带可学习参数的卷积层,通过双线性插值来进行反向传播对DCN模块进行优化。
4.根据权利要求2所述的目标检测方法,其特征在于,所述多特征融合模块用于采用反卷积将高层特征的尺度上采至与低层特征尺度相同的尺寸,并分别按照通道进行连接。
5.根据权利要求4所述的目标检测方法,其特征在于,所述多特征融合模块用于融合底层特征以及高层特征。
6.根据权利要求5所述的目标检测方法,其特征在于,所述多特征融合模块关注每一个通道的特征数据信息,把关注到的特征信息采用全局平均池化生成一个特征向量,且通过学习的方式得出权重向量,与初步融合的特征数据信息进行加权计算,以得出一个融合全局特征图。
7.根据权利要求1所述的目标检测方法,其特征在于,所述编码网络包括ResNet50网络。
8.目标检测装置,其特征在于,包括:
图像获取单元,用于获取指定位置的待检测图像;
检测单元,用于将所述待检测图像输入至目标检测模型内进行目标检测,以得到检测结果;其中,所述目标检测模型是通过在CenterNet网络的编码网络中加入可变形卷积且在解码网络中加入多特征融合模块形成的;
输出单元,用于输出所述检测结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202210875967.9A 2022-07-25 2022-07-25 目标检测方法、装置、计算机设备及存储介质 Pending CN115410030A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210875967.9A CN115410030A (zh) 2022-07-25 2022-07-25 目标检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210875967.9A CN115410030A (zh) 2022-07-25 2022-07-25 目标检测方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN115410030A true CN115410030A (zh) 2022-11-29

Family

ID=84157568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210875967.9A Pending CN115410030A (zh) 2022-07-25 2022-07-25 目标检测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115410030A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309586A (zh) * 2023-05-22 2023-06-23 杭州百子尖科技股份有限公司 基于卷积神经网络的瑕疵检测方法、装置、设备及介质
CN117132767A (zh) * 2023-10-23 2023-11-28 中国铁塔股份有限公司湖北省分公司 一种小目标检测方法、装置、设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309586A (zh) * 2023-05-22 2023-06-23 杭州百子尖科技股份有限公司 基于卷积神经网络的瑕疵检测方法、装置、设备及介质
CN117132767A (zh) * 2023-10-23 2023-11-28 中国铁塔股份有限公司湖北省分公司 一种小目标检测方法、装置、设备及可读存储介质
CN117132767B (zh) * 2023-10-23 2024-03-19 中国铁塔股份有限公司湖北省分公司 一种小目标检测方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
US11176381B2 (en) Video object segmentation by reference-guided mask propagation
WO2020177651A1 (zh) 图像分割方法和图像处理装置
US20200311871A1 (en) Image reconstruction method and device
WO2020238560A1 (zh) 视频目标跟踪方法、装置、计算机设备及存储介质
WO2021043168A1 (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
US11741581B2 (en) Training method for image processing model, image processing method, network device, and storage medium
CN111369442B (zh) 基于模糊核分类与注意力机制的遥感图像超分辨重建方法
CN115410030A (zh) 目标检测方法、装置、计算机设备及存储介质
CN113066017B (zh) 一种图像增强方法、模型训练方法及设备
CN109815931B (zh) 一种视频物体识别的方法、装置、设备以及存储介质
CN111476719A (zh) 图像处理方法、装置、计算机设备及存储介质
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN111768415A (zh) 一种无量化池化的图像实例分割方法
WO2023082453A1 (zh) 一种图像处理方法及装置
WO2019227294A1 (zh) 图像处理方法、相关设备及计算机存储介质
CN114037640A (zh) 图像生成方法及装置
CN111414910B (zh) 基于双重卷积神经网络的小目标增强检测方法和装置
García-González et al. Background subtraction by probabilistic modeling of patch features learned by deep autoencoders
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN111192279B (zh) 基于边缘检测的物体分割方法、电子终端及存储介质
CN110516731B (zh) 一种基于深度学习的视觉里程计特征点检测方法及系统
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination