CN117315238A - 一种车辆目标检测的方法与终端 - Google Patents
一种车辆目标检测的方法与终端 Download PDFInfo
- Publication number
- CN117315238A CN117315238A CN202311611350.7A CN202311611350A CN117315238A CN 117315238 A CN117315238 A CN 117315238A CN 202311611350 A CN202311611350 A CN 202311611350A CN 117315238 A CN117315238 A CN 117315238A
- Authority
- CN
- China
- Prior art keywords
- target detection
- stream
- segmentation
- feature map
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000010586 diagram Methods 0.000 claims abstract description 62
- 230000011218 segmentation Effects 0.000 claims abstract description 61
- 230000007246 mechanism Effects 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000011064 split stream procedure Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 238000005549 size reduction Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 description 19
- 238000000605 extraction Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- LYAVXWPXKIFHBU-UHFFFAOYSA-N N-{2-[(1,2-diphenylhydrazinyl)carbonyl]-2-hydroxyhexanoyl}-6-aminohexanoic acid Chemical compound C=1C=CC=CC=1N(C(=O)C(O)(C(=O)NCCCCCC(O)=O)CCCC)NC1=CC=CC=C1 LYAVXWPXKIFHBU-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012913 prioritisation Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000003778 catagen phase Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及CenterNet模型的改进应用技术领域,特别涉及一种车辆目标检测的方法与终端,获取待检测的图像数据集,输入预先训练的改进CenterNet模型;由所述改进CenterNet模型的主干网络对所述图像数据集进行处理,生成特征图;将所述特征图同时输入目标检测流和以注意力机制模块作为全局特征提取器的分割流进行处理,分别生成分割流特征图和热力点图;对所述分割流特征图与所述热力点图进行融合,生成目标检测结果;利用分割任务与目标检测任务的相似性,引入平行于目标检测流的分割流,在分割流中插入了注意力机制模块,从而改善CenterNet模型召回率不足的局限性,增强热力点图包含的目标特征信息,使车辆目标检测的性能更佳。
Description
技术领域
本发明涉及CenterNet模型的改进应用技术领域,特别涉及一种车辆目标检测的方法与终端。
背景技术
在车辆目标检测问题上,寻找精度与速度的平衡,一直是研究中的开放话题。例如,以两阶段模型Faster R-CNN为基准的方法偏向于精度优先。他们分别通过级联策略、神经网络结构搜索、几何约束的方法来优化候选框,达到提高检测精度的目的。而基于一阶段SSD的方法和各YOLO版本的方法,则偏向于速度优先。出于实时性和准确性的双重要求,YOLO类方法是目前解决运动车辆检测问题的首选。
然而,一阶段检测方法,此类一阶段的目标检测方法大大提高了车辆检测速度,但其检测精度往往较低,无法对目标实现精确的位置检测。而二阶段检测方法通常分为两个阶段:(1)候选框生成阶段和(2)候选框分类与回归阶段。此类二阶段的目标检测方法虽然提高了检测的准确性,却往往忽视了检测速度,无法做到实时检测。
一阶段检测和二阶段检测方法都是针对单张(帧)图片的处理,而另一种策略则是基于循环神经网络(RNN)直接处理视频数据。这些方法通过在时间维度上建立连接来跟踪和检测目标,往往通过使用长短时记忆网络(LSTM)或门控循环单元(GRU)等循环神经网络来实现。
即基于视频连续帧的时序特征进行目标检测,此类方法过分依赖连续帧之间的时序信息,只局限于检测视频中存在大量冗余信息的连续帧图片,而无法对时间跨度较大、时间步长不等的多张图片并发检测,因此效率较低且应用极不灵活。
此外,上述锚框的检测方法,需要锚框尺寸和比例等先验知识,同时会产生大量无用的候选预测框,虽然可通过非极大值抑制等方法去除,但会带来计算开销的增加,同时非极大值抑制方法极其不利于检测大量重叠的车辆目标。
相较前文基于锚框的方法而言,无锚框的方法更加简单和高效。无锚框方法的典型代表是和CenterNet,前期工作表明,CenterNet模型在处理小目标和密集检测任务时,较YOLO等基于锚框的目标检测方法效果更优,CenterNet也因其优势常用于小尺寸的目标检测。
但由于不需要手动设置锚框参数,也不需要进行密集采样,此类方法地计算量和训练时间虽然可以得到有效控制,但也因此而存在因目标漏检而造成的召回率(Recall)不足的劣势。
发明内容
本发明所要解决的技术问题是:提供一种车辆目标检测的方法与终端,提供一种性能更佳的车辆目标检测方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种车辆目标检测的方法,包括步骤:
S1、获取待检测的图像数据集,输入预先训练的改进CenterNet模型;
S2、由所述改进CenterNet模型的主干网络对所述图像数据集进行处理,生成特征图;
S3、将所述特征图同时输入目标检测流和以注意力机制模块作为全局特征提取器的分割流进行处理,分别生成分割流特征图和热力点图;
S4、对所述分割流特征图与所述热力点图进行融合,生成目标检测结果。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种车辆目标检测的终端,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以上所述的一种车辆目标检测的方法中的步骤。
本发明的有益效果在于:本发明的一种车辆目标检测的方法与终端,利用分割任务与目标检测任务的相似性,引入平行于目标检测流的分割流,并在分割流中插入了注意力机制模块,将CA注意力机制模块看作全局感受野的卷积模块,完成空间信息的提取作用,更有利于将模型注意力集中到感兴趣的目标区域,从而改善CenterNet模型召回率不足的局限性,并通过对目标检测流和分割流的结果进行特征融合,增强热力点图包含的目标特征信息。
附图说明
图1为本发明实施例的一种车辆目标检测的方法的流程图;
图2为本发明实施例的一种车辆目标检测的终端的结构图;
图3为本发明实施例的一种车辆目标检测的方法的架构示例图;
图4为本发明实施例的一种车辆目标检测的方法的分割流结构图;
图5为本发明实施例的一种车辆目标检测的方法的流程示例图;
图6为本发明实施例的一种车辆目标检测的方法的主干网络示例图;
图7为本发明实施例的一种车辆目标检测的方法的注意力机制的具体实现示例图;
标号说明:
1、一种车辆目标检测的终端;2、处理器;3、存储器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1以及图3至图7,一种车辆目标检测的方法,包括步骤:
S1、获取待检测的图像数据集,输入预先训练的改进CenterNet模型;
S2、由所述改进CenterNet模型的主干网络对所述图像数据集进行处理,生成特征图;
S3、将所述特征图同时输入目标检测流和以注意力机制模块作为全局特征提取器的分割流进行处理,分别生成分割流特征图和热力点图;
S4、对所述分割流特征图与所述热力点图进行融合,生成融合后的单通道特征图。
从上述描述可知,本发明的有益效果在于:本发明的一种车辆目标检测的方法与终端,利用分割任务与目标检测任务的相似性,引入平行于目标检测流的分割流,并在分割流中插入了注意力机制模块,将CA注意力机制模块看作全局感受野的卷积模块,完成空间信息的提取作用,更有利于将模型注意力集中到感兴趣的目标区域,从而改善CenterNet模型召回率不足的局限性,并通过对目标检测流和分割流的结果进行特征融合,增强热力点图包含的目标特征信息。
进一步地,所述主干网络采用DLA网络,并在所述DLA网络中插入注意力机制模块。
进一步地,在所述DLA网络中插入注意力机制模块具体为:
在DLA网络中,对当前Stage节点生成聚合节点时,根据当前Stage结点生成坐标注意力图,并与当前Stage节点相乘,而后与下一级Stage节点的上采样结果进行通道拼接得到聚合结点。
由上述描述可知,通过在主干网络插入注意力机制模块,增强了CenterNet主干网络的特征提取能力,使模型能够更加关注有效信息,增强模型的上下文学习能力。
进一步地,步骤S3中在将所述特征图输入以注意力机制模块作为全局特征提取器的分割流进行处理包括步骤:
对输入的所述特征图进行尺寸还原:
对尺寸还原后的所述特征图进行第一次上采样前,选择3×3卷积模块进行处理,并在第二次上采样前,使用注意力机制模块替代卷积模块进行空间信息的提取,并将通道数降为1;
得到所述分割流特征图。
由上述描述可知,主干网络输出的特征图,其经过主干网络的处理,其尺寸已缩小为原来的1/4,为了使用原尺寸标注进行监督,需要将其还原至原始大小。第一次上采样之前,使用3×3卷积作为过渡,防止上采样丢失过多特征信息;第二次上采样前,使用坐标注意力(coordinate attention,CA)模块代替普通卷积操作,并将通道数降为1。这是因为CA注意力模块本身就具有一定的空间信息提取能力,它不仅可以获取到通道之间的关联信息,还可以获取方向感知和位置敏感信息。因此,可将CA注意力模块看作全局感受野的卷积模块,完成空间信息的提取作用。这样更有利于将模型注意力集中到感兴趣的目标区域,改善CenterNet模型召回率不足的局限性。
进一步地,所述改进CenterNet模型的训练采用的训练数据中,目标检测流标签为公共数据集原有标签,分割流标签基于视频数据集得到,包括步骤:
针对所述视频数据集,基于背景差分法生成分割标签;
根据预设间隔所述视频数据集中抽取图像帧,并进行顺序打乱,生成所述训练数据。
由上述描述可知,基于视频数据的相邻帧之间的强关联性,且在同一视频场景下,前景移动,背景不变,因此可以很容易地通过背景差分法区分图片中的背景和目标前景。
进一步地,针对所述视频数据集,基于背景差分法生成分割标签还包括步骤:
将生成的分割流标签与所述目标检测流生成的目标检测包围盒标签做相交处理,将所述目标检测包围盒外的前景标签修改为背景标签。
由上述描述可知,将分割流标签与目标检测包围盒标签做相交处理,消除包围盒外的假阳性数据(即分割结果是前景,但没有在包围盒范围内,故实际为背景),以提升分割结果的准确性。
进一步地,步骤S3中将所述特征图输入以注意力机制模块作为全局特征提取器的分割流进行处理还包括步骤:
对生成的所述分割流特征图进行监督学习:
令N表示图像点个数,x i和y i分别表示第i个点的分割预测结果和真实值,则分割流的损失函数L seg为:
;
1≤i≤N。
由上述描述可知,分割流的损失函数如上所示。
进一步地,对所述分割流特征图与所述热力点图进行融合之前还包括步骤:
对所述分割流特征图进行双线性插值下采样,恢复所述分割流特征图的尺寸至所述主干网络所得到的所述特征图的尺寸大小。
由上述描述可知,由于分割流中对数据进行上采样,其输出尺寸相比于输入产生了变化,而特征融合需要两者尺寸一致,因此对分割输出结果进行下采样,使其恢复至与所述热力图一般的大小,即所述主干网络所得到的所述特征图的尺寸大小。
进一步地,所述下采样通过双线性插值的方式实现。
由上述描述可知,为了提升特征融合中分割任务的贡献度,在进行下采样时,选择双线性插值的方式来实现。
进一步地,所述目标检测流所输出的热力点图包括中心点热力图O ct、宽高热力图O wh以及中心点偏移量热力图O os;
步骤S4包括步骤:
对恢复尺寸大小后的所述分割流特征图O seg与中心点热力图O ct进行拼接,并对拼接后的中间特征图进行1×1卷积处理,得到融合后的单通道特征图O fs;
根据单通道特征图O fs、宽高热力图O wh以及中心点偏移量热力图O os,生成目标检测结果;
总的损失函数L tot为:
。
其中,、/>和/>分别为中心点损失、宽高损失、以及中心点偏移量损失,/>为分割流的损失。
由上述描述可知,目标检测流有三个热力图输出,分别为O ct、O wh和O os,O ct与O seg的特征融合在逻辑上是可行的,但O wh与O seg或O os与O seg的结合均缺乏逻辑上的支撑。因此,仅在O ct与O seg之间进行特征融合。深度学习中常见的特征融合方式包括逐像素点融合和通道拼接。前者常见于注意力机制中,在这种情况下,O seg将被视为O ct的特征权重。然而,O seg中可能存在趋近于0的假阴性数据(即分割结果是背景,但实际为目标前景),将这些数据与O ct逐点相乘将会造成错误的学习引导。相比之下,通道拼接的方式则能有效实现多任务特征融合的目标。
请参照图2,一种车辆目标检测的终端,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以上所述的一种车辆目标检测的方法中的步骤。
本发明的一种车辆目标检测的方法与终端,适用于需要进行车辆目标检测的场景。
请参照图1、图3和图4,本发明的实施例一为:
一种车辆目标检测的方法,包括步骤:
S1、获取待检测的图像数据集,输入预先训练的改进CenterNet模型。
本实施例中,选择无锚框的目标检测方法CenterNet作为基准网络,并基于任务需求对基准网络做出改进。
S2、由所述改进CenterNet模型的主干网络对所述图像数据集进行处理,生成特征图。
所述CenterNet模型的主干网络Backbone可选包括Hourglass、Resnet以及DLA。其中:
Hourglass:主要用于关键点检测,效果好,缺点是权重多。
Resnet:速度快,但效果不好。
DLA:Hourglass和Resnet之间的一种相对折中的方案。
本实施例中,选用DLA作为主干网络,在其他等同实施例中可根据实际需求选择主干网络。
S3、将所述特征图同时输入目标检测流和以注意力机制模块作为全局特征提取器的分割流进行处理,分别生成分割流特征图和热力点图。
本实施例中,可参照图3,利用分割任务与目标检测任务的相似性,增加平行于目标检测流的分割流。
步骤S3中在将所述特征图输入以注意力机制模块作为全局特征提取器的分割流进行处理包括步骤:
对输入的所述特征图进行尺寸还原:
对尺寸还原后的所述特征图进行第一次上采样前,选择3×3卷积模块进行处理,并在第二次上采样前,使用注意力机制模块替代卷积模块进行空间信息的提取,并将通道数降为1;
得到所述分割流特征图。
本实施例中,首先,对输入数据进行上采样。这是因为输入特征图经主干网络处理,其尺寸已缩小为原来的1/4,为了使用原尺寸标注进行监督,需要将其还原至原始大小。
值得注意的是,上述尺寸还原是分2次完成的:第一次上采样之前,选择3×3卷积(Conv)作为过渡;第二次上采样前,使用注意力机制模块(coordinate attention,CA)代替普通卷积操作,并将通道数降为1。这是因为CA注意力机制模块本身就具有一定的空间信息提取能力,它不仅可以获取到通道之间的关联信息,还可以获取方向感知和位置敏感信息。因此,可将CA注意力模块看作全局感受野的卷积模块,完成空间信息的提取作用。这样更有利于将模型注意力集中到感兴趣的目标区域,改善CenterNet模型召回率不足的局限性。
步骤S3中将所述特征图输入以注意力机制模块作为全局特征提取器的分割流进行处理还包括步骤:
对生成的所述分割流特征图进行监督学习:
令N表示图像点个数,x i和y i分别表示第i个点的分割预测结果和真实值,则分割流的损失函数L seg为:
;
1≤i≤N。
本实施例中,最后,对输出结果O seg进行监督学习,损失函数如上所示。
S4、对所述分割流特征图与所述热力点图进行融合,生成目标检测结果。
本实施例中,利用分割图与热力点图的相似性,将分割流特征图与目标检测流的热力点图特征融合,以生成目标检测结果:特征信息被增强的关键点热力图。即分割流特征图通过与关键点的热力点图相融合,增强热力点图包含的特征信息。
使用分割任务来辅助目标检测任务是本文方法的核心思想,双流融合即实现该思想的关键之一。在进行特征融合时需要考虑以下几个问题:(1)特征尺寸问题;(2)结合对象问题;(3)融合方式问题。
对所述分割流特征图与所述热力点图进行融合之前还包括步骤:
对所述分割流特征图进行双线性插值下采样,恢复所述分割流特征图的尺寸至所述主干网络所得到的所述特征图的尺寸大小。
本实施例中,首先,由于分割流中对数据进行上采样,其输入和输出尺寸产生了变化,而特征融合需要两者尺寸一致。因此对分割输出结果进行下采样,使其恢复主干网络所得到的所述特征图的尺寸大小,本实施中为128×128。值得一提的是,为了提升特征融合中分割任务的贡献度,在进行下采样时,选择双线性插值的方式来实现。
所述目标检测流所输出的热力点图包括中心点热力图O ct、宽高热力图O wh以及中心点偏移量热力图O os。
本实施例中,目标检测流的三个热力图输出,分别为O ct、O wh以及O os,正如前文所述,O ct与O seg的特征融合在逻辑上是可行的,但O wh与O seg或O os与O seg的结合均缺乏逻辑上的支撑。因此,仅在O ct与O seg之间进行特征融合。
步骤S4包括步骤:
对恢复尺寸大小后的所述分割流特征图O seg与中心点热力图O ct进行拼接,并对拼接后的中间特征图进行1×1卷积处理,得到融合后的单通道特征图O fs;
根据单通道特征图O fs、宽高热力图O wh以及中心点偏移量热力图O os,生成目标检测结果。
本实施例中,深度学习中常见的特征融合方式包括逐像素点融合和通道拼接。前者常见于注意力机制中,在这种情况下,O seg将被视为O ct的特征权重。然而,O seg中可能存在趋近于0的假阴性数据(即分割结果是背景,但实际为目标前景),将这些数据与O ct逐点相乘将会造成错误的学习引导。相比之下,通道拼接的方式则能有效实现多任务特征融合的目标。
拼接后的特征图将通过1×1卷积处理,得到融合后的单通道特征图O fs。
总的损失函数L tot为:
;
其中,、/>和/>分别为中心点损失、宽高损失、以及中心点偏移量损失,/>为分割流的损失。
此外,本实施例中,所述改进CenterNet模型的训练采用的训练数据中,目标检测流标签为公共数据集原有标签,分割流标签基于视频数据集得到,包括步骤:
针对所述视频数据集,基于背景差分法生成分割标签;
将生成的分割流标签与所述目标检测流生成的目标检测包围盒标签做相交处理,将所述目标检测包围盒外的前景标签修改为背景标签。
根据预设间隔所述视频数据集中抽取图像帧,并进行顺序打乱,生成所述训练数据。
本实施例中,训练集是对视频数据集的截取,例如每隔10帧抽取一张图片加入训练集;而且Dataloader的参数shuffle为true,即训练数据集的输入是打乱顺序的、不连续的。
本实施例中,基于背景差分算法来生成模型的训练数据。由于本文的任务是检测运动中的车辆,因此可以采用背景差分法获取分割结果。进一步地,将上述结果与目标检测包围盒标签做相交处理,消除包围盒外的假阳性数据(即分割结果是前景,但没有在包围盒范围内,故实际为背景),以提升分割结果的准确性。
请参照图1以及图3-7,本发明的实施例二为:
一种车辆目标检测的方法,与实施例一的区别在于,所述主干网络采用DLA网络,并在所述DLA网络中插入注意力机制模块。
本实施例中,为了增强CenterNet的特征提取能力,在主干网络DLA中插入坐标注意力模块。
在所述DLA网络中插入注意力机制模块具体为:
在DLA网络中,对当前Stage节点生成聚合节点时,根据当前Stage结点生成坐标注意力图,并与当前Stage节点相乘,而后与下一级Stage节点的上采样结果进行通道拼接得到聚合结点。
本实施例中,可参照图6和图7,对DLA的改进在Stage节点生成聚合节点的位置,即根据Stage结点生成坐标注意力图(CA Map)之后与自身相乘(见图7),然后与其下一级Stage的上采样结果进行通道拼接得到聚合结点。注意力的引入使模型能够更加关注有效信息,增强模型的上下文学习能力。
本发明的实施例三为:
一种车辆目标检测的方法,本实施例中通过下标对实验效果进行展示:
表1对比方法列表
表2本方法与通用目标检测主流方法对比结果
请参照图2,本发明的实施例四为:
一种车辆目标检测的终端1,包括处理器2、存储器3以及存储在所述存储器3中并可在所述处理器2上运行的计算机程序,所述处理器2执行所述计算机程序时实现以上实施例一或二任一所述的一种车辆目标检测的方法中的步骤。
综上所述,本发明提供的一种车辆目标检测的方法与终端,利用分割任务与目标检测任务的相似性,引入平行于目标检测流的分割流,并在分割流中插入了注意力机制模块,将CA注意力机制模块看作全局感受野的卷积模块,完成空间信息的提取作用,更有利于将模型注意力集中到感兴趣的目标区域,从而改善CenterNet模型召回率不足的局限性,并通过对目标检测流和分割流的结果进行特征融合,增强热力点图包含的目标特征信息。
(1)选择基于包围盒中心点的无锚框方法CenterNet作为基准,由于不需要手动设置锚框参数,也不需要进行密集采样,因此无锚框算法的计算量和训练时间都可以得到有效控制。此外,由于无锚框算法不会生成过多的负样本,因此有助于准确性的提升。
(2)注意力的引入使模型能够更加关注有效信息,增强模型的上下文学习能力。
(3)传统目标检测任务与分割任务具有一定相似性。两者的相同点都是针对特定目标进行处理;不同之处在于前者只需要对目标进行框定并分类标记,而后者则需要对目标进行逐像素分类标记。这也是Mask R-CNN等传统方法能将这两类任务纳入同一框架内,但又无法协同合作的原因。
(4)本发明基于视频数据的相邻帧之间有很强的关联性,且在同一视频场景下,前景移动,背景不变,很容易通过背景差分法区分图片中的目标前景和背景。
(5)基于热力图的目标检测能够与分割任务协同合作。CenterNet的输出数据中包含用于标识目标中心点的热力图,其每个像素点表示属于目标中心点的概率,这与用每个像素点来表示分割前景概率的分割问题具有一致性,因此将两者进行逐像素融合在逻辑上是行得通的。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种车辆目标检测的方法,其特征在于,包括步骤:
S1、获取待检测的图像数据集,输入预先训练的改进CenterNet模型;
S2、由所述改进CenterNet模型的主干网络对所述图像数据集进行处理,生成特征图;
S3、将所述特征图同时输入目标检测流和以注意力机制模块作为全局特征提取器的分割流进行处理,分别生成分割流特征图和热力点图;
S4、对所述分割流特征图与所述热力点图进行融合,生成目标检测结果;
所述改进CenterNet模型的训练采用的训练数据中,目标检测流标签为公共数据集原有标签,分割流标签基于视频数据集得到,包括步骤:
针对所述视频数据集,基于分割算法生成分割流标签;
根据预设间隔所述视频数据集中抽取图像帧,并进行顺序打乱,生成所述训练数据;
针对所述视频数据集,基于分割算法生成分割流标签还包括步骤:
将生成的分割流标签与所述目标检测流生成的目标检测包围盒标签做相交处理,将所述目标检测包围盒外的前景标签修改为背景标签。
2.根据权利要求1所述的一种车辆目标检测的方法,其特征在于,所述主干网络采用DLA网络,并在所述DLA网络中插入注意力机制模块。
3.根据权利要求2所述的一种车辆目标检测的方法,其特征在于,在所述DLA网络中插入注意力机制模块具体为:
在DLA网络中,对当前Stage节点生成聚合节点时,根据当前Stage结点生成坐标注意力图,并与当前Stage节点相乘,而后与下一级Stage节点的上采样结果进行通道拼接得到聚合结点。
4.根据权利要求1所述的一种车辆目标检测的方法,其特征在于,步骤S3中在将所述特征图输入以注意力机制模块作为全局特征提取器的分割流进行处理包括步骤:
对输入的所述特征图进行尺寸还原:
对尺寸还原后的所述特征图进行第一次上采样前,选择3×3卷积模块进行处理,并在第二次上采样前,使用注意力机制模块替代卷积模块进行空间信息的提取,并将通道数降为1;
得到所述分割流特征图。
5.根据权利要求1所述的一种车辆目标检测的方法,其特征在于,步骤S3中将所述特征图输入以注意力机制模块作为全局特征提取器的分割流进行处理还包括步骤:
对生成的所述分割流特征图进行监督学习:
令N表示图像点个数,x i和y i分别表示第i个点的分割预测结果和真实值,则分割流的损失函数L seg为:
;
1≤i≤N。
6.根据权利要求1所述的一种车辆目标检测的方法,其特征在于,对所述分割流特征图与所述热力点图进行融合之前还包括步骤:
对所述分割流特征图进行双线性插值下采样,恢复所述分割流特征图的尺寸至所述主干网络所得到的所述特征图的尺寸大小。
7.根据权利要求1所述的一种车辆目标检测的方法,其特征在于,所述目标检测流所输出的热力点图包括中心点热力图O ct、宽高热力图O wh以及中心点偏移量热力图O os;
步骤S4包括步骤:
对恢复尺寸大小后的所述分割流特征图O seg与中心点热力图O ct进行拼接,并对拼接后的中间特征图进行1×1卷积处理,得到融合后的单通道特征图O fs;
根据单通道特征图O fs、宽高热力图O wh以及中心点偏移量热力图O os,生成目标检测结果;
总的损失函数L tot为:
;
其中,、/>和/>分别为中心点损失、宽高损失、以及中心点偏移量损失,/>为分割流的损失。
8.一种车辆目标检测的终端,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以上权利要求1-7任一所述的一种车辆目标检测的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311611350.7A CN117315238B (zh) | 2023-11-29 | 2023-11-29 | 一种车辆目标检测的方法与终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311611350.7A CN117315238B (zh) | 2023-11-29 | 2023-11-29 | 一种车辆目标检测的方法与终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117315238A true CN117315238A (zh) | 2023-12-29 |
CN117315238B CN117315238B (zh) | 2024-03-15 |
Family
ID=89285198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311611350.7A Active CN117315238B (zh) | 2023-11-29 | 2023-11-29 | 一种车辆目标检测的方法与终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117315238B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110399995A (zh) * | 2018-04-20 | 2019-11-01 | 顺丰科技有限公司 | 运单投诉处理方法、装置、设备及其存储介质 |
CN111275688A (zh) * | 2020-01-19 | 2020-06-12 | 合肥工业大学 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
CN111462140A (zh) * | 2020-04-30 | 2020-07-28 | 同济大学 | 一种基于区块拼接的实时图像实例分割方法 |
CN111985286A (zh) * | 2019-05-21 | 2020-11-24 | 天津科技大学 | 一种基于高斯热力图注意力机制与语义弱监督的无锚箱的目标检测算法 |
CN112232721A (zh) * | 2020-12-14 | 2021-01-15 | 上海洋漪信息技术有限公司 | 跨境个人进口申报风险的识别并处理方法 |
CN112613434A (zh) * | 2020-12-28 | 2021-04-06 | 南京佑驾科技有限公司 | 道路目标检测方法、装置及存储介质 |
CN114488194A (zh) * | 2022-01-21 | 2022-05-13 | 常州大学 | 一种智能驾驶车辆结构化道路下目标检测识别方法 |
CN114639042A (zh) * | 2022-03-17 | 2022-06-17 | 哈尔滨理工大学 | 基于改进CenterNet骨干网络的视频目标检测算法 |
CN115294355A (zh) * | 2022-07-22 | 2022-11-04 | 江苏大学 | 一种空间感知增强的单阶段无锚框三维目标检测方法及系统 |
WO2022252348A1 (zh) * | 2021-06-01 | 2022-12-08 | 浙江工商大学 | 基于旋转目标和改进注意力机制的薄膜划痕瑕疵检测方法 |
CN115564785A (zh) * | 2022-09-05 | 2023-01-03 | 吉林大学 | 一种基于Snake方法的肝脏肿瘤图像分割方法及系统 |
CN116052124A (zh) * | 2023-02-02 | 2023-05-02 | 清华大学 | 多相机生成局部地图模板理解加强目标检测方法及系统 |
CN116228659A (zh) * | 2022-12-28 | 2023-06-06 | 浙江中烟工业有限责任公司 | 一种ems小车漏油的视觉检测方法 |
US20230274531A1 (en) * | 2022-02-09 | 2023-08-31 | Soochow University | Global and local feature reconstruction network-based medical image segmentation method |
CN117058646A (zh) * | 2023-10-11 | 2023-11-14 | 南京工业大学 | 基于多模态融合鸟瞰图的复杂道路目标检测方法 |
-
2023
- 2023-11-29 CN CN202311611350.7A patent/CN117315238B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110399995A (zh) * | 2018-04-20 | 2019-11-01 | 顺丰科技有限公司 | 运单投诉处理方法、装置、设备及其存储介质 |
CN111985286A (zh) * | 2019-05-21 | 2020-11-24 | 天津科技大学 | 一种基于高斯热力图注意力机制与语义弱监督的无锚箱的目标检测算法 |
CN111275688A (zh) * | 2020-01-19 | 2020-06-12 | 合肥工业大学 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
CN111462140A (zh) * | 2020-04-30 | 2020-07-28 | 同济大学 | 一种基于区块拼接的实时图像实例分割方法 |
CN112232721A (zh) * | 2020-12-14 | 2021-01-15 | 上海洋漪信息技术有限公司 | 跨境个人进口申报风险的识别并处理方法 |
CN112613434A (zh) * | 2020-12-28 | 2021-04-06 | 南京佑驾科技有限公司 | 道路目标检测方法、装置及存储介质 |
WO2022252348A1 (zh) * | 2021-06-01 | 2022-12-08 | 浙江工商大学 | 基于旋转目标和改进注意力机制的薄膜划痕瑕疵检测方法 |
CN114488194A (zh) * | 2022-01-21 | 2022-05-13 | 常州大学 | 一种智能驾驶车辆结构化道路下目标检测识别方法 |
US20230274531A1 (en) * | 2022-02-09 | 2023-08-31 | Soochow University | Global and local feature reconstruction network-based medical image segmentation method |
CN114639042A (zh) * | 2022-03-17 | 2022-06-17 | 哈尔滨理工大学 | 基于改进CenterNet骨干网络的视频目标检测算法 |
CN115294355A (zh) * | 2022-07-22 | 2022-11-04 | 江苏大学 | 一种空间感知增强的单阶段无锚框三维目标检测方法及系统 |
CN115564785A (zh) * | 2022-09-05 | 2023-01-03 | 吉林大学 | 一种基于Snake方法的肝脏肿瘤图像分割方法及系统 |
CN116228659A (zh) * | 2022-12-28 | 2023-06-06 | 浙江中烟工业有限责任公司 | 一种ems小车漏油的视觉检测方法 |
CN116052124A (zh) * | 2023-02-02 | 2023-05-02 | 清华大学 | 多相机生成局部地图模板理解加强目标检测方法及系统 |
CN117058646A (zh) * | 2023-10-11 | 2023-11-14 | 南京工业大学 | 基于多模态融合鸟瞰图的复杂道路目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117315238B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560999B (zh) | 一种目标检测模型训练方法、装置、电子设备及存储介质 | |
CN109255352B (zh) | 目标检测方法、装置及系统 | |
CN109284670B (zh) | 一种基于多尺度注意力机制的行人检测方法及装置 | |
US20210248718A1 (en) | Image processing method and apparatus, electronic device and storage medium | |
CN111126379A (zh) | 一种目标检测方法与装置 | |
US11113507B2 (en) | System and method for fast object detection | |
CN112132156A (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
TWI772757B (zh) | 目標檢測方法、電子設備和電腦可讀儲存媒介 | |
CN110781744A (zh) | 一种基于多层次特征融合的小尺度行人检测方法 | |
CN116863342B (zh) | 一种基于大尺度遥感影像的松材线虫病死木提取方法 | |
CN114639042A (zh) | 基于改进CenterNet骨干网络的视频目标检测算法 | |
Perreault et al. | FFAVOD: Feature fusion architecture for video object detection | |
CN114612872A (zh) | 目标检测方法、装置、电子设备及计算机可读存储介质 | |
CN113297959A (zh) | 一种基于角点注意力孪生网络的目标跟踪方法及系统 | |
CN108229281B (zh) | 神经网络的生成方法和人脸检测方法、装置及电子设备 | |
CN113610034A (zh) | 识别视频中人物实体的方法、装置、存储介质及电子设备 | |
WO2024082602A1 (zh) | 一种端到端视觉里程计方法及装置 | |
CN117315238B (zh) | 一种车辆目标检测的方法与终端 | |
CN111767919A (zh) | 一种多层双向特征提取与融合的目标检测方法 | |
CN112825116A (zh) | 监控视频图像人脸检测和追踪方法、装置、介质及设备 | |
CN115841672A (zh) | 文字检测识别方法、装置及设备 | |
CN117237386A (zh) | 对目标对象进行结构化处理的方法、装置和计算机设备 | |
CN111797761B (zh) | 一种三阶段烟雾检测系统、方法及可读介质 | |
CN109492755B (zh) | 图像处理方法、图像处理装置和计算机可读存储介质 | |
CN114596580B (zh) | 一种多人体目标识别方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |