CN117455955A - 一种基于无人机视角下的行人多目标跟踪方法 - Google Patents
一种基于无人机视角下的行人多目标跟踪方法 Download PDFInfo
- Publication number
- CN117455955A CN117455955A CN202311732901.5A CN202311732901A CN117455955A CN 117455955 A CN117455955 A CN 117455955A CN 202311732901 A CN202311732901 A CN 202311732901A CN 117455955 A CN117455955 A CN 117455955A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- tracking
- target
- network
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000000007 visual effect Effects 0.000 title claims abstract description 34
- 238000001514 detection method Methods 0.000 claims abstract description 156
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000012544 monitoring process Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000010485 coping Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000004321 preservation Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Remote Sensing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于无人机视角下的行人多目标跟踪方法,包括以下步骤:采集包含行人的无人机视角图像数据集,并对数据集进行预处理;设计并优化基于无人机视角下的行人检测与跟踪网络的损失函数;设计并优化基于无人机视角下的行人检测与跟踪网络;使用预处理之后的数据集训练设计好的行人检测与跟踪网络,得到行人检测与跟踪模型;利用训练好的行人检测与跟踪模型,实时检测新的无人机视角图像序列。本发明通过设计并优化基于无人机视角下的行人检测与跟踪网络与其损失函数,利用行人检测与跟踪模型实现了对行人的准确检测和连续跟踪,并输出行人的位置信息以及运动轨迹,为无人机视角下的智能监控、交通管理和安全防护等领域提供有力支持。
Description
技术领域
本发明涉及目标检测、目标跟踪领域,并且更具体地,涉及一种基于无人机视角下的行人多目标跟踪方法。
背景技术
随着无人机的迅速发展和广泛应用,无人机视角下的多目标跟踪技术逐渐成为研究热点。行人多目标跟踪作为计算机视觉领域的重要问题,对于实现智能监控、交通管理和安全防护等领域具有重要意义。然而,由于无人机视角下的行人多目标跟踪面临着目标分辨率低、尺度小等挑战,传统方法往往难以同时满足实时性、准确性和鲁棒性的要求。
目前,已有一些针对行人多目标跟踪的方法,然而,这些方法在处理无人机视角下的行人多目标跟踪时仍存在一些问题。首先,传统的目标检测算法往往受限于目标尺度变化和视角变化,在无人机视角下的行人多目标跟踪中容易失效。其次,传统的特征提取与分类方法对于行人目标的复杂背景和遮挡情况较为敏感,容易造成行人目标的误检和漏检。
公开号为CN114820702A的中国专利公开了“一种基于yolov5的Deepsort无人机视角行人多目标跟踪方法”,使用目标检测yolov5网络,其可以对特征信息明显的正常尺度目标进行检测且有较好的效果,但是如果在高空视角、低分辨率、小尺度目标的复杂场景下,仅使用目标检测yolov5网络进行检测其检测精度是不够的。
因此,针对无人机视角下的行人多目标跟踪问题,需要提出一种新的方法来克服上述现有技术存在的问题。
发明内容
有鉴于此,本发明提供了一种基于无人机视角下的行人多目标跟踪方法,其目的在于通过设计和优化基于无人机视角的行人检测与跟踪网络和其损失函数,提高无人机视角下行人跟踪的准确性和鲁棒性。
为实现上述目的,本发明采用了如下技术方案:
一种基于无人机视角下的行人多目标跟踪方法,包括以下步骤:
S1.采集包含行人的无人机视角图像数据集,并对数据集进行预处理;
S2.设计并优化基于无人机视角下的行人检测与跟踪网络的损失函数;
所述损失函数公式如下:
;
其中,表示目标检测损失函数,/>表示目标跟踪损失函数,/>是一个自适应权重参数,用于平衡目标检测损失和目标跟踪损失的重要性;
S3.设计并优化基于无人机视角下的行人检测与跟踪网络;
所述行人检测与跟踪网络包括行人检测网络和行人追踪网络;所述行人检测网络包括多个特征提取模块、多个特征增强模块,还有特征融合模块以及多个注意力机制模块和多个检测头模块,通过一系列模块的组合,使行人检测网络能够准确地定位和识别图像中的行人目标;所述行人跟踪网络通过级联匹配模块、IoU匹配模块以及卡尔曼滤波实现对行人目标的连续跟踪和轨迹估计;
S4.使用预处理之后的数据集训练设计好的行人检测与跟踪网络,得到行人检测与跟踪模型;
S5.利用训练好的行人检测与跟踪模型,实时检测新的无人机视角图像序列。
进一步的,所述步骤S1采集包含行人的无人机视角图像数据集,并对数据集进行预处理,具体如下:
S1-1.利用无人机采集不同场景下包含行人的视频和图像;
S1-2.将采集到的视频逐帧保存为图像,并与采集到的图像整合起来进行人工筛选;
S1-3.将筛选后的数据集进行人工标注,得到数据集中行人目标的真实位置信息和类别信息,所述真实位置信息为行人目标真实框的坐标信息;
S1-4.将标注之后的数据集采用数据增强技术进行进一步扩充;
S1-5.将采用数据增强技术处理之后的数据集按照8:2的比例划分为训练集和验证集。
进一步的,所述目标检测损失函数公式如下:
;
其中,N为行人目标的数量,表示图像中存在的行人目标个数,为检测目标的索引,表示第/>个行人目标,/>是平衡因子,用于平衡正负样本之间的权重,/>为预测框属于行人类别的概率,表示模型对第/>个行人目标的预测结果,/>表示行人预测框/>和行人真实框/>之间的交并比,交并比用于衡量行人预测框与行人真实框的匹配程度。
进一步的,所述目标跟踪损失函数公式如下:
;
其中为时间步,用于表示目标在不同时间点的状态,/>为跟踪目标的索引,用于区分不同的跟踪目标,T为总的时间步数,/>表示在时间步/>下的行人目标数量,/>为跟踪轨迹预测框,表示目标/>在时间步/>下的位置预测,/>为跟踪轨迹真实框,表示目标/>在时间步下的真实位置,/>表示跟踪轨迹预测框/>和跟踪轨迹真实框/>之间的交并比,/>表示跟踪轨迹预测框/>在时刻/>的速度向量,/>表示跟踪轨迹真实框/>在时刻/>的速度向量。
进一步的,所述行人检测网络细分为主干网络、颈部网络和头部网络;
所述主干网络是行人检测网络的核心部分,它由特征提取模块、特征增强模块、注意力机制模块和特征融合模块组成;
首先,输入的图像经过两个特征提取模块,获取行人的局部特征,所述局部特征包括形状、纹理以及姿态信息;
随后,使用特征增强模块进一步提升网络对行人特征的感知能力;
接下来,一系列的特征提取模块和特征增强模块被应用,使网络更好地捕捉和表示图像中的行人特征;
然后,注意力机制模块被引入,根据行人在图像中的重要性来自适应地调整特征的权重分配,使网络更加关注行人区域;
最后,特征融合模块将来自不同尺度和层级的特征有效地组合,得到更丰富和全面的特征表示。
进一步的,所述颈部网络位于主干网络和头部网络之间,其作用是进一步处理和压缩特征表示,颈部网络通过上采样、特征拼接、特征增强、特征提取和注意力机制操作,对主干网络提取的特征进行降维和抽象,提取更高级的语义特征。
进一步的,所述头部网络是行人检测网络的最后一部分,用于生成行人检测框和相关的检测信息,所述头部网络包括微小目标检测头模块、小目标检测头模块、中目标检测头模块和大目标检测头模块,头部网络通过不同尺寸的检测头模块,预测行人的位置、边界框和置信度得分。
进一步的,所述行人跟踪网络具体如下:
首先将当前帧的行人检测框与上一帧中预测的轨迹进行级联匹配;如果匹配成功,即找到了对应的轨迹,根据当前帧的行人检测框使用卡尔曼滤波进行轨迹的融合更新;对于不匹配的检测框,级联匹配模块将其与不匹配的轨迹进行IoU匹配;如果不匹配的轨迹说明当前行人与上一帧的行人不是同一个目标,那么创建相应的新轨迹;对于IoU匹配到的轨迹,同样使用卡尔曼滤波进行轨迹的融合更新;
使用卡尔曼滤波进行行人轨迹的预测,从而得到确定的轨迹,然后将确定的轨迹与下一帧的行人检测框进行级联匹配。
进一步的,所述步骤S4使用预处理之后的数据集训练设计好的行人检测与跟踪网络,得到行人检测与跟踪模型,具体如下:
S4-1.模型训练:使用训练集中的图像数据,通过反向传播算法,迭代优化行人检测与跟踪网络的参数,使其能够准确地检测到无人机视角下的行人位置信息,得到初始的行人检测与跟踪模型;
S4-2.模型验证与调优:利用验证集对训练得到的模型进行验证,根据验证结果进行模型参数的调优,以提高模型在未见过的数据上的泛化能力,得到训练好的行人检测与跟踪模型;
S4-3.模型保存与部署: 将训练好的行人检测与跟踪模型保存,并准备部署到实际系统中,以用于实时的无人机视角下的行人检测。
进一步的,所述步骤S5利用训练好的行人检测与跟踪模型,实时检测新的无人机视角图像序列,具体如下:
S5-1.行人检测:使用训练好的行人检测与跟踪模型,准确地检测到无人机视角下的行人位置信息;
S5-2.行人跟踪:在检测到的行人目标上实施实时跟踪,获取其运动轨迹信息,以确保连续跟踪;
S5-3.实时更新与输出:持续更新行人目标的状态信息,将跟踪结果实时输出,以便在需要时,提供及时的监测与应对信息。
与现有技术相比,本发明的有益效果是:
(1)通过将目标检测函数和目标跟踪函数结合起来,使得网络能够同时学习到准确的目标定位和分类以及连续的目标跟踪能力,在结合过程中,引入一个自适应权重参数,动态平衡目标检测和目标跟踪的训练过程,根据训练的进展逐渐提高目标跟踪的权重,这样可以确保网络在学习过程中兼顾目标检测和目标跟踪的优化目标,从而获得更好的综合性能并促使网络学习到更有效的特征表示和目标状态预测。
(2)通过设计包括行人检测网络和行人追踪网络的行人检测与跟踪网络,利用行人检测网络实现自动识别图像或视频中的行人区域,并给出其边界框的位置信息,确保即使在高空视角、低分辨率、小尺度目标的情况下,行人仍能被准确地检测出来;再通过行人跟踪网络来准确地跟踪行人的移动路径,实现目标的时空连续性,保证行人跟踪的准确性和稳定性。
(3)基于无人机视角下的行人多目标跟踪方法结合深度学习的目标检测和跟踪技术,利用强大的特征提取能力和上下文信息,在目标尺度变化和视角变化的情况下保证有效的行人多目标跟踪,在行人目标的背景复杂或被遮挡的情况下依然能够通过级联匹配和卡尔曼滤波锁定行人目标,实现对行人目标的准确检测和跟踪。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1 示出了本发明实施例基于无人机视角下的行人多目标跟踪方法的流程图;
图2示出了本发明实施例基于无人机视角下的行人多目标跟踪方法的行人检测网络结构图;
图3示出了本发明实施例基于无人机视角下的行人多目标跟踪方法的行人跟踪网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的一种基于无人机视角下的行人多目标跟踪方法,如附图1所示,一种基于无人机视角下的行人多目标跟踪方法,包括以下步骤:
S1.采集包含行人的无人机视角图像数据集,并对数据集进行预处理;
S2.设计并优化基于无人机视角下的行人检测与跟踪网络的损失函数;
S3.设计并优化基于无人机视角下的行人检测与跟踪网络;
S4.使用预处理之后的数据集训练设计好的行人检测与跟踪网络,得到行人检测与跟踪模型;
S5.利用训练好的行人检测与跟踪模型,实时检测新的无人机视角图像序列。
所述步骤S1采集包含行人的无人机视角图像数据集,并对数据集进行预处理,具体如下:
S1-1.利用无人机采集不同场景下包含行人的视频和图像;
S1-2.将采集到的视频逐帧保存为图像,并与采集到的图像整合起来进行人工筛选;
S1-3.将筛选后的数据集进行人工标注,得到数据集中行人目标的真实位置信息和类别信息,所述真实位置信息为行人目标真实框的坐标信息;
S1-4.将标注之后的数据集采用数据增强技术进行进一步扩充;
S1-5.将采用数据增强技术处理之后的数据集按照8:2的比例划分为训练集和验证集。
所述步骤S2中的损失函数公式如下:
;
其中,表示目标检测损失函数,/>表示目标跟踪损失函数,/>是一个自适应权重参数,用于平衡目标检测损失和目标跟踪损失的重要性。
目标检测和目标跟踪是两个相关但独立的任务,目标检测任务侧重于在图像或视频中准确地定位和分类目标,而目标跟踪任务则关注目标在时间序列中的连续追踪和位置预测,为了同时训练和优化这两个任务,需要将它们的损失函数结合起来。
结合过程中引入一个自适应权重参数,自适应权重参数/>初始值为0,随着训练轮数每轮增加0.005,增加到/>为1时,自适应权重参数不再变化。通过这种方式,可以动态平衡目标检测和目标跟踪的训练过程,根据训练的进展逐渐提高目标跟踪的权重,这样可以确保网络在学习过程中兼顾目标检测和目标跟踪的优化目标,从而获得更好的综合性能。
这样设计的损失函数使得网络能够同时学习到准确的目标定位和分类以及连续的目标跟踪能力。提高整体的检测和跟踪性能,并促使网络学习到更有效的特征表示和目标状态预测。
所述目标检测损失函数公式如下:
;
其中,N为行人目标的数量,表示图像中存在的行人目标个数,为检测目标的索引,表示第/>个行人目标,/>是平衡因子,用于平衡正负样本之间的权重,/>为预测框属于行人类别的概率,表示模型对第/>个行人目标的预测结果,/>表示行人预测框/>和行人真实框/>之间的交并比,交并比用于衡量行人预测框与行人真实框的匹配程度。
交并比取值在0到1之间,值越大表示匹配度越高。
目标检测损失函数通过平衡正负样本权重、考虑分类和定位的损失以及交并比的损失项,可以解决了在无人机视角下行人目标检测中样本不平衡、小目标定位困难和准确性要求高的问题,这样的设计有助于提高行人目标检测的性能和精度,使其在无人机行人检测任务中更加有效和可靠。
所述目标跟踪损失函数公式如下:
;
其中为时间步,用于表示目标在不同时间点的状态,/>为跟踪目标的索引,用于区分不同的跟踪目标,T为总的时间步数,/>表示在时间步/>下的行人目标数量,/>为跟踪轨迹预测框,表示目标/>在时间步/>下的位置预测,/>为跟踪轨迹真实框,表示目标/>在时间步下的真实位置,/>表示跟踪轨迹预测框/>和跟踪轨迹真实框/>之间的交并比,/>表示跟踪轨迹预测框/>在时刻/>的速度向量,/>表示跟踪轨迹真实框/>在时刻/>的速度向量。
预测轨迹的速度向量与真实轨迹的速度向量差异越小,说明匹配度越高。
目标跟踪损失函数通过考虑目标位置准确性的损失以及运动轨迹的一致性,可以解决了在无人机视角下行人目标跟踪中遮挡或视角变化以及运动轨迹的连续性和一致性的问题。这样的设计有助于更好地应对遮挡、视角变化和目标运动的挑战,提高跟踪的准确性和稳定性。
所述步骤S3中的行人检测与跟踪网络包括行人检测网络和行人追踪网络;所述行人检测网络包括多个特征提取模块、多个特征增强模块,还有特征融合模块以及多个注意力机制模块和多个检测头模块,通过一系列模块的组合,使行人检测网络能够准确地定位和识别图像中的行人目标;所述行人跟踪网络通过级联匹配模块、IoU匹配模块以及卡尔曼滤波实现对行人目标的连续跟踪和轨迹估计。
如图2所示,所述行人检测网络细分为主干网络、颈部网络和头部网络;
所述主干网络是行人检测网络的核心部分,它由特征提取模块、特征增强模块、注意力机制模块和特征融合模块组成;
首先,输入的图像经过两个特征提取模块,获取行人的局部特征,所述局部特征包括形状、纹理以及姿态信息。通过这些局部特征,网络可以更好地理解行人目标的外观和结构;
随后,使用特征增强模块进一步提升网络对行人特征的感知能力;
接下来,一系列的特征提取模块和特征增强模块被应用,使网络更好地捕捉和表示图像中的行人特征;
然后,注意力机制模块被引入,其根据行人在图像中的重要性来自适应地调整特征的权重分配,使网络更加关注行人区域。这有助于减少对背景干扰的敏感性,提高行人检测和跟踪的鲁棒性;
最后,特征融合模块将来自不同尺度和层级的特征有效地组合,得到更丰富和全面的特征表示,从而提高对行人特征的表示和区分能力,能够更准确地检测和辨别行人目标。
所述颈部网络位于主干网络和头部网络之间,其作用是进一步处理和压缩特征表示。在行人检测网络中,颈部网络通过上采样、特征拼接、特征增强、特征提取和注意力机制操作,对主干网络提取的特征进行降维和抽象,提取更高级的语义特征。颈部网络的设计可以帮助行人检测网络更好地传递特征信息,并提供更紧凑和高层次的特征表示。这有助于减少特征的冗余性,提高行人检测的效率和准确性。
所述头部网络是行人检测网络的最后一部分,用于生成行人检测框和相关的检测信息,所述头部网络包括微小目标检测头模块、小目标检测头模块、中目标检测头模块和大目标检测头模块。在行人检测网络中,头部网络可以通过不同尺寸的检测头模块,预测行人的位置、边界框和置信度得分。在头部网络的设计中,为解决无人机视角下小尺度行人目标难以检测的问题,新增了一个微小目标检测头模块,以增强网络对小尺寸行人目标的检测能力。这样可以实现对行人目标的准确定位和跟踪,为后续的行人跟踪网络提供基础。
如图3所示,所述行人跟踪网络具体如下:
首先将当前帧的行人检测框与上一帧中预测的轨迹进行级联匹配;如果匹配成功,即找到了对应的轨迹,根据当前帧的行人检测框使用卡尔曼滤波进行轨迹的融合更新;对于不匹配的检测框,级联匹配模块会将其与不匹配的轨迹进行IoU匹配;如果不匹配的轨迹说明当前行人与上一帧的行人不是同一个目标,那么会创建相应的新轨迹;对于IoU匹配到的轨迹,同样会使用卡尔曼滤波进行轨迹的融合更新。通过级联匹配模块和IoU匹配模块,实现了对当前帧行人检测框与上一帧轨迹的匹配和更新。这样可以保持轨迹的连续性,并处理场景中出现的新行人目标。
使用卡尔曼滤波进行行人轨迹的预测,从而得到确定的轨迹,然后将确定的轨迹与下一帧的行人检测框进行级联匹配。卡尔曼滤波是一种常用的状态估计滤波器,可以根据当前观测值和系统模型对轨迹进行预测和修正。通过卡尔曼滤波,可以根据历史轨迹和观测信息,对行人目标的位置和速度进行预测,从而实现对轨迹的连续性和稳定性的维护,进一步提高行人跟踪的准确性和稳定性。
所述步骤S4使用预处理之后的数据集训练设计好的行人检测与跟踪网络,得到行人检测与跟踪模型,具体如下:
S4-1.模型训练:使用训练集中的图像数据,通过反向传播算法,迭代优化行人检测与跟踪网络的参数,使其能够准确地检测到无人机视角下的行人位置信息,得到初始的行人检测与跟踪模型;
S4-2.模型验证与调优:利用验证集对训练得到的模型进行验证,根据验证结果进行模型参数的调优,以提高模型在未见过的数据上的泛化能力,得到训练好的行人检测与跟踪模型;
S4-3.模型保存与部署: 将训练好的行人检测与跟踪模型保存,并准备部署到实际系统中,以用于实时的无人机视角下的行人检测。
所述步骤S5利用训练好的行人检测与跟踪模型,实时检测新的无人机视角图像序列,具体如下:
S5-1.行人检测:使用训练好的行人检测与跟踪模型,准确地检测到无人机视角下的行人位置信息;
S5-2.行人跟踪:在检测到的行人目标上实施实时跟踪,获取其运动轨迹信息,以确保连续跟踪;
S5-3.实时更新与输出:持续更新行人目标的状态信息,将跟踪结果实时输出,以便在需要时,提供及时的监测与应对信息。
本发明通过设计并优化适用于基于无人机视角的行人检测与跟踪模型,可以实现对行人的准确检测和连续跟踪,并输出行人的位置信息以及运动轨迹,为无人机视角下的智能监控、交通管理和安全防护等领域提供有力支持。
本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种基于无人机视角下的行人多目标跟踪方法,其特征在于,包括以下步骤:
S1.采集包含行人的无人机视角图像数据集,并对数据集进行预处理;
S2.设计并优化基于无人机视角下的行人检测与跟踪网络的损失函数;
所述损失函数公式如下:
;
其中,表示目标检测损失函数,/>表示目标跟踪损失函数,/>是一个自适应权重参数,用于平衡目标检测损失和目标跟踪损失的重要性;
S3.设计并优化基于无人机视角下的行人检测与跟踪网络;
所述行人检测与跟踪网络包括行人检测网络和行人追踪网络;所述行人检测网络包括多个特征提取模块、多个特征增强模块,还有特征融合模块以及多个注意力机制模块和多个检测头模块,通过一系列模块的组合,使行人检测网络能够准确地定位和识别图像中的行人目标;所述行人跟踪网络通过级联匹配模块、IoU匹配模块以及卡尔曼滤波实现对行人目标的连续跟踪和轨迹估计;
S4.使用预处理之后的数据集训练设计好的行人检测与跟踪网络,得到行人检测与跟踪模型;
S5.利用训练好的行人检测与跟踪模型,实时检测新的无人机视角图像序列。
2.如权利要求1所述的基于无人机视角下的行人多目标跟踪方法,其特征在于,所述步骤S1采集包含行人的无人机视角图像数据集,并对数据集进行预处理,具体如下:
S1-1.利用无人机采集不同场景下包含行人的视频和图像;
S1-2.将采集到的视频逐帧保存为图像,并与采集到的图像整合起来进行人工筛选;
S1-3.将筛选后的数据集进行人工标注,得到数据集中行人目标的真实位置信息和类别信息,所述真实位置信息为行人目标真实框的坐标信息;
S1-4.将标注之后的数据集采用数据增强技术进行进一步扩充;
S1-5.将采用数据增强技术处理之后的数据集按照8:2的比例划分为训练集和验证集。
3.如权利要求1所述的基于无人机视角下的行人多目标跟踪方法,其特征在于,所述目标检测损失函数公式如下:
;
其中,N为行人目标的数量,表示图像中存在的行人目标个数,为检测目标的索引,表示第/>个行人目标,/>是平衡因子,用于平衡正负样本之间的权重,/>为预测框属于行人类别的概率,表示模型对第/>个行人目标的预测结果,/>表示行人预测框/>和行人真实框之间的交并比,交并比用于衡量行人预测框与行人真实框的匹配程度。
4.如权利要求3所述的基于无人机视角下的行人多目标跟踪方法,其特征在于,所述目标跟踪损失函数公式如下:
;
其中为时间步,用于表示目标在不同时间点的状态,/>为跟踪目标的索引,用于区分不同的跟踪目标,T为总的时间步数,/>表示在时间步/>下的行人目标数量,/>为跟踪轨迹预测框,表示目标/>在时间步 />下的位置预测,/>为跟踪轨迹真实框,表示目标/>在时间步 />下的真实位置,/>表示跟踪轨迹预测框 /> 和跟踪轨迹真实框 /> 之间的交并比,/>表示跟踪轨迹预测框 />在时刻/>的速度向量,/>表示跟踪轨迹真实框 />在时刻/>的速度向量。
5.如权利要求1所述的基于无人机视角下的行人多目标跟踪方法,其特征在于,所述行人检测网络细分为主干网络、颈部网络和头部网络;
所述主干网络是行人检测网络的核心部分,它由特征提取模块、特征增强模块、注意力机制模块和特征融合模块组成;
首先,输入的图像经过两个特征提取模块,获取行人的局部特征,所述局部特征包括形状、纹理以及姿态信息;
随后,使用特征增强模块进一步提升网络对行人特征的感知能力;
接下来,一系列的特征提取模块和特征增强模块被应用,使网络更好地捕捉和表示图像中的行人特征;
然后,注意力机制模块被引入,根据行人在图像中的重要性来自适应地调整特征的权重分配,使网络更加关注行人区域;
最后,特征融合模块将来自不同尺度和层级的特征有效地组合,得到更丰富和全面的特征表示。
6.如权利要求5所述的基于无人机视角下的行人多目标跟踪方法,其特征在于,所述颈部网络位于主干网络和头部网络之间,其作用是进一步处理和压缩特征表示,颈部网络通过上采样、特征拼接、特征增强、特征提取和注意力机制操作,对主干网络提取的特征进行降维和抽象,提取更高级的语义特征。
7.如权利要求6所述的基于无人机视角下的行人多目标跟踪方法,其特征在于,所述头部网络是行人检测网络的最后一部分,用于生成行人检测框和相关的检测信息,所述头部网络包括微小目标检测头模块、小目标检测头模块、中目标检测头模块和大目标检测头模块,头部网络通过不同尺寸的检测头模块,预测行人的位置、边界框和置信度得分。
8.如权利要求7所述的基于无人机视角下的行人多目标跟踪方法,其特征在于,所述行人跟踪网络具体如下:
首先将当前帧的行人检测框与上一帧中预测的轨迹进行级联匹配;如果匹配成功,即找到了对应的轨迹,根据当前帧的行人检测框使用卡尔曼滤波进行轨迹的融合更新;对于不匹配的检测框,级联匹配模块将其与不匹配的轨迹进行IoU匹配;如果不匹配的轨迹说明当前行人与上一帧的行人不是同一个目标,那么创建相应的新轨迹;对于IoU匹配到的轨迹,同样使用卡尔曼滤波进行轨迹的融合更新;
使用卡尔曼滤波进行行人轨迹的预测,从而得到确定的轨迹,然后将确定的轨迹与下一帧的行人检测框进行级联匹配。
9.如权利要求2所述的基于无人机视角下的行人多目标跟踪方法,其特征在于,所述步骤S4使用预处理之后的数据集训练设计好的行人检测与跟踪网络,得到行人检测与跟踪模型,具体如下:
S4-1.模型训练:使用训练集中的图像数据,通过反向传播算法,迭代优化行人检测与跟踪网络的参数,使其能够准确地检测到无人机视角下的行人位置信息,得到初始的行人检测与跟踪模型;
S4-2.模型验证与调优:利用验证集对训练得到的模型进行验证,根据验证结果进行模型参数的调优,以提高模型在未见过的数据上的泛化能力,得到训练好的行人检测与跟踪模型;
S4-3.模型保存与部署: 将训练好的行人检测与跟踪模型保存,并准备部署到实际系统中,以用于实时的无人机视角下的行人检测。
10.如权利要求9所述的基于无人机视角下的行人多目标跟踪方法,其特征在于,所述步骤S5利用训练好的行人检测与跟踪模型,实时检测新的无人机视角图像序列,具体如下:
S5-1.行人检测:使用训练好的行人检测与跟踪模型,准确地检测到无人机视角下的行人位置信息;
S5-2.行人跟踪:在检测到的行人目标上实施实时跟踪,获取其运动轨迹信息,以确保连续跟踪;
S5-3.实时更新与输出:持续更新行人目标的状态信息,将跟踪结果实时输出,以便在需要时,提供及时的监测与应对信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311732901.5A CN117455955B (zh) | 2023-12-14 | 2023-12-14 | 一种基于无人机视角下的行人多目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311732901.5A CN117455955B (zh) | 2023-12-14 | 2023-12-14 | 一种基于无人机视角下的行人多目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117455955A true CN117455955A (zh) | 2024-01-26 |
CN117455955B CN117455955B (zh) | 2024-03-08 |
Family
ID=89595088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311732901.5A Active CN117455955B (zh) | 2023-12-14 | 2023-12-14 | 一种基于无人机视角下的行人多目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117455955B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004029659A2 (en) * | 2002-06-14 | 2004-04-08 | Honda Giken Kogyo Kabushiki Kaisha | Pedestrian detection and tracking with night vision |
WO2017185688A1 (zh) * | 2016-04-26 | 2017-11-02 | 深圳大学 | 一种在线目标跟踪方法及装置 |
CN110210304A (zh) * | 2019-04-29 | 2019-09-06 | 北京百度网讯科技有限公司 | 用于目标检测和跟踪的方法及系统 |
CN111126152A (zh) * | 2019-11-25 | 2020-05-08 | 国网信通亿力科技有限责任公司 | 一种基于视频的多目标行人检测与跟踪的方法 |
CN111460968A (zh) * | 2020-03-27 | 2020-07-28 | 上海大学 | 基于视频的无人机识别与跟踪方法及装置 |
WO2020155873A1 (zh) * | 2019-02-02 | 2020-08-06 | 福州大学 | 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法 |
CN112288770A (zh) * | 2020-09-25 | 2021-01-29 | 航天科工深圳(集团)有限公司 | 基于深度学习的视频实时多目标检测与跟踪方法和装置 |
CN113807187A (zh) * | 2021-08-20 | 2021-12-17 | 北京工业大学 | 基于注意力特征融合的无人机视频多目标跟踪方法 |
CN114387265A (zh) * | 2022-01-19 | 2022-04-22 | 中国民航大学 | 一种基于添加注意力模块的无锚框检测、跟踪统一方法 |
CN114820702A (zh) * | 2022-04-14 | 2022-07-29 | 大连理工大学 | 一种基于yolov5的Deepsort无人机视角行人多目标跟踪方法 |
WO2022217840A1 (zh) * | 2021-04-15 | 2022-10-20 | 南京莱斯电子设备有限公司 | 一种复杂背景下高精度多目标跟踪方法 |
CN115761534A (zh) * | 2022-11-08 | 2023-03-07 | 长春理工大学 | 一种空中背景下红外无人机小目标检测及跟踪方法 |
CN115984969A (zh) * | 2023-02-10 | 2023-04-18 | 沈阳大学 | 一种复杂场景下轻量级行人跟踪方法 |
-
2023
- 2023-12-14 CN CN202311732901.5A patent/CN117455955B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004029659A2 (en) * | 2002-06-14 | 2004-04-08 | Honda Giken Kogyo Kabushiki Kaisha | Pedestrian detection and tracking with night vision |
WO2017185688A1 (zh) * | 2016-04-26 | 2017-11-02 | 深圳大学 | 一种在线目标跟踪方法及装置 |
WO2020155873A1 (zh) * | 2019-02-02 | 2020-08-06 | 福州大学 | 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法 |
CN110210304A (zh) * | 2019-04-29 | 2019-09-06 | 北京百度网讯科技有限公司 | 用于目标检测和跟踪的方法及系统 |
CN111126152A (zh) * | 2019-11-25 | 2020-05-08 | 国网信通亿力科技有限责任公司 | 一种基于视频的多目标行人检测与跟踪的方法 |
CN111460968A (zh) * | 2020-03-27 | 2020-07-28 | 上海大学 | 基于视频的无人机识别与跟踪方法及装置 |
CN112288770A (zh) * | 2020-09-25 | 2021-01-29 | 航天科工深圳(集团)有限公司 | 基于深度学习的视频实时多目标检测与跟踪方法和装置 |
WO2022217840A1 (zh) * | 2021-04-15 | 2022-10-20 | 南京莱斯电子设备有限公司 | 一种复杂背景下高精度多目标跟踪方法 |
CN113807187A (zh) * | 2021-08-20 | 2021-12-17 | 北京工业大学 | 基于注意力特征融合的无人机视频多目标跟踪方法 |
CN114387265A (zh) * | 2022-01-19 | 2022-04-22 | 中国民航大学 | 一种基于添加注意力模块的无锚框检测、跟踪统一方法 |
CN114820702A (zh) * | 2022-04-14 | 2022-07-29 | 大连理工大学 | 一种基于yolov5的Deepsort无人机视角行人多目标跟踪方法 |
CN115761534A (zh) * | 2022-11-08 | 2023-03-07 | 长春理工大学 | 一种空中背景下红外无人机小目标检测及跟踪方法 |
CN115984969A (zh) * | 2023-02-10 | 2023-04-18 | 沈阳大学 | 一种复杂场景下轻量级行人跟踪方法 |
Non-Patent Citations (3)
Title |
---|
FENG YU ET AL: "CAPN: a Combine Attention Partial Network for glove detection", 《PEERJ COMPUTER SCIENCE》, 30 September 2023 (2023-09-30) * |
YANQING ZHANG ET AL: "Near-Instantaneously Adaptive Multi-Set Space-Time Shift Keying for UAV-Aided Video Surveillance", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》, 31 July 2020 (2020-07-31) * |
彭涛等: "基于多头软注意力图卷积网络的行人轨迹预测", 《计算机应用》, vol. 43, no. 03, 31 March 2023 (2023-03-31) * |
Also Published As
Publication number | Publication date |
---|---|
CN117455955B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112733749B (zh) | 融合注意力机制的实时行人检测方法 | |
CN112418117B (zh) | 一种基于无人机图像的小目标检测方法 | |
CN110084165A (zh) | 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法 | |
CN113486764B (zh) | 一种基于改进的YOLOv3的坑洼检测方法 | |
CN112434723B (zh) | 一种基于注意力网络的日/夜间图像分类及物体检测方法 | |
Zheng et al. | A review of remote sensing image object detection algorithms based on deep learning | |
CN111460881A (zh) | 基于近邻判别的交通标志对抗样本检测方法和分类装置 | |
CN115346177A (zh) | 一种新的路侧视角下目标检测系统及方法 | |
CN113408584A (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
CN114049572A (zh) | 识别小目标的检测方法 | |
CN113128476A (zh) | 一种基于计算机视觉目标检测的低功耗实时头盔检测方法 | |
CN117853955A (zh) | 一种基于改进YOLOv5的无人机小目标检测方法 | |
CN117197676A (zh) | 一种基于特征融合的目标检测识别方法 | |
CN116597411A (zh) | 极端天气下无人驾驶车辆识别交通标志的方法及系统 | |
CN115272882A (zh) | 一种基于遥感影像的离散建筑物检测方法及系统 | |
CN111275733A (zh) | 基于深度学习目标检测技术实现多艘船舶快速跟踪处理的方法 | |
CN117495825A (zh) | 一种变电站塔杆异物检测方法 | |
CN115731517B (zh) | 一种基于Crowd-RetinaNet网络的拥挤人群检测方法 | |
CN117455955B (zh) | 一种基于无人机视角下的行人多目标跟踪方法 | |
CN116453192A (zh) | 一种基于分块的自注意力遮挡人脸识别方法 | |
CN115457420A (zh) | 一种基于无人机拍摄夜间低对比度的车辆重检测方法 | |
Namdev et al. | Object Detection Techniques based on Deep Learning: A Review | |
Yan et al. | MobileNetV3-YOLOv5-based network model for pedestrian detection | |
CN118429389B (zh) | 基于多尺度聚合注意力特征提取网络的目标跟踪方法与系统 | |
Tan et al. | Boosting Vehicle Classification with Augmentation Techniques across Multiple YOLO Versions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |