CN114937239A - 行人多目标跟踪识别方法及跟踪识别装置 - Google Patents
行人多目标跟踪识别方法及跟踪识别装置 Download PDFInfo
- Publication number
- CN114937239A CN114937239A CN202210581127.1A CN202210581127A CN114937239A CN 114937239 A CN114937239 A CN 114937239A CN 202210581127 A CN202210581127 A CN 202210581127A CN 114937239 A CN114937239 A CN 114937239A
- Authority
- CN
- China
- Prior art keywords
- data set
- network
- target
- pedestrian
- target tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种行人多目标跟踪识别方法和跟踪识别装置,解决现有技术存在的精确度低和稳定性差的问题。所述方法包括采用训练数据集训练网络并获取行人多目标跟踪识别模型的过程:获取包含行人多目标的训练数据集;将所述训练数据集输入基于FairMOT架构、由GAConv和CLFPN构建的Encoder‑Decoder网络,获得多尺度融合特征图;将所述多尺度融合特征图输入目标检测网络和重识别网络,获得目标和检测结果;将所述目标和检测结果输入跟踪网络进行跟踪,获得训练后的行人多目标跟踪识别模型;在采用所述训练数据集训练网络时,采用自适应loss衰减的学习率更改策略和AdamW相结合的方法执行网络参数优化。
Description
技术领域
本发明属于计算机视觉技术领域,具体地说,涉及行人跟踪识别技术,更具体地说,是涉及行人多目标跟踪识别方法及跟踪识别装置。
背景技术
依托于不断深入的深度神经网络研究,计算机视觉领域内的各项任务也取得了长足的发展,其中,对于视频内运动的多目标的跟踪是研究的重要方向之一。其中,行人多目标跟踪识别在视频监控、计算机动画、虚拟现实、人机交互、智能交通等方面均获得了广泛的应用。因此,对行人跟踪技术进行相关研究与分析是十分有意义的。
现有技术中,通过深度神经网络实现视频内运动多目标跟踪为常用的方法,其过程一般被分为两个子任务来解决:首先,对视频帧中感兴趣的一类或多类目标的检测结果进行定量分析,判断目标在连续时序中的位置;然后对目标本身进行重识别特征信息提取,获取目标的完整运动轨迹。
自FairMOT(Fair Multi-Object Tracking,合理的多目标跟踪架构)出现之后,在多目标跟踪领域被广泛应用。公开号为CN113034545A的中国专利申请公开了一种基于CenterNet多目标跟踪算法的车辆跟踪方法,基于FairMOT框架,采用HRnet网络作为目标检测的主干网络,引入注意力机制构建FairMOT的目标检测和重识别网络,实现对目标车辆的跟踪。
而在行人多目标跟踪识别领域,行人作为视频中的活动主体时,在移动时相较于车辆更具灵活性,并且行人是非刚体,轮廓特征在不断变化,不易提取,因此,上述应用于车辆跟踪的方法在行人跟踪识别时,存在着模型跟踪识别精度低、模型收敛性差、跟踪识别稳定性弱等问题。
鉴于此,亟需一种跟踪识别精度高、模型收敛性强的行人多目标跟踪识别技术。
发明内容
本发明的目的在于提供一种行人多目标跟踪识别方法及跟踪识别装置,解决现有行人多目标跟踪识别技术存在的精确度低和稳定性差的技术问题。
为解决上述技术问题,本发明提供的行人多目标跟踪识别方法采用下述技术方案予以实现:
一种行人多目标跟踪识别方法,其特征在于,所述方法包括采用训练数据集训练网络并获取行人多目标跟踪识别模型的过程;
所述训练网络的过程包括:
获取包含行人多目标的训练数据集;
将所述训练数据集输入基于FairMOT架构的Encoder-Decoder网络进行特征提取,获得多尺度融合特征图;所述Encoder-Decoder网络中,采用全局注意卷积模块GAConv作为主干网络,引入跨层特征金字塔结构CLFPN对所述主干网络进行改进;
将所述多尺度融合特征图输入所述FairMOT架构的目标检测网络和重识别网络,获得目标和检测结果;
将所述目标和检测结果输入所述FairMOT架构的跟踪网络进行跟踪,获得训练后的行人多目标跟踪识别模型;
在采用所述训练数据集训练网络时,采用自适应loss衰减的学习率更改策略和AdamW相结合的方法执行网络参数优化,网络参数收敛后的模型确定为所述训练后的行人多目标跟踪识别模型。
本申请的一些实施例中,所述方法还包括:
获取所述训练后的行人多目标跟踪识别模型各层的初始权重;
采用层次聚类算法对所述初始权重进行聚类,获取聚类后的有效权重;
采用kmeans++对所述有效权重进行聚类压缩,获得量化压缩的轻量化跟踪识别模型。
本申请的一些实施例中,所述方法还包括采用测试数据集对模型进行评估的过程;
所述评估的过程包括:
获取包含行人多目标的原始测试数据集;
对所述原始测试数据集进行图像增强,获得增强后测试数据集;
采用所述增强后测试数据集评估所述训练后的行人多目标跟踪识别模型和/或所述轻量化跟踪识别模型,获得最终跟踪结果。
本申请的一些实施例中,对所述原始测试数据集进行图像增强,获得增强后测试数据集,包括:
对所述原始测试数据集采用自适应直方图均衡化方式进行图像增强,获得所述增强后测试数据集。
本申请的一些实施例中,所述训练数据集和所述原始测试数据集采用下述方法获取:
获取包含行人多目标的多帧图片,在每帧图片上标注行人id、图片左上角坐标和图片下角点坐标,获得标注后行人数据集;
将所述标注后行人数据集进行格式转换,获得包含行人id、目标中心点坐标、目标长宽的数据文档;
将所述数据文档和所述标注后行人数据集确定为组合数据集;
将所述组合数据集按照设定比例划分为所述训练数据集和所述原始测试数据集。
本申请的一些实施例中,将所述训练数据集输入基于FairMOT架构的Encoder-Decoder网络进行特征提取,获得多尺度融合特征图,包括:
将所述全局注意卷积模块GAConv与标准卷积模块结合,提取输入的数据集的原始特征图;
利用所述全局注意卷积模块GAConv对所述原始特征图进行两方向的序列编码,通过注意力机制对两编码序列进行扩充还原,将扩充还原后的两序列拼接,获得拼接后序列;
将所述拼接后序列与所述原始特征图进行叠加,获取全局注意力权重;
在所述主干网络后连接所述跨层特征金字塔结构CLFPN,通过可学习的所述全局注意力权重学习不同输入特征的重要性,并通过跨层连接,反复应用自顶向下和自底向上的多尺度特征融合,获得所述多尺度融合特征图。
本申请的一些实施例中,所述自适应loss衰减的学习率更改策略包括:
采用下述更新函数更新学习率:
其中,lr为学习率;和分别为学习率的最大值和最小值,为设定值;Ti为当前训练轮次,为变化值;Tcur为到达最大学习率的轮次,为设定值,为以e为底的指数,表示loss变化率,Closs为相邻两训练轮次的loss差值,为计算值;T为训练总轮次,为设定值。
为解决前述技术问题,本发明提供的行人多目标跟踪识别装置采用下述技术方案予以实现:
一种行人多目标跟踪识别装置,所述装置包括:
训练数据集获取模块,用于获取包含行人多目标的训练数据集;
特征提取模块,用于将所述训练数据集输入基于FairMOT架构的Encoder-Decoder网络进行特征提取,获得多尺度融合特征图;所述Encoder-Decoder网络中,采用全局注意卷积模块GAConv作为主干网络,引入跨层特征金字塔结构CLFPN对所述主干网络进行改进;
目标和检测结果获取模块,用于将所述多尺度融合特征图输入所述FairMOT架构的目标检测网络和重识别网络,获得目标和检测结果;
训练后行人多目标跟踪识别模型获取模块,用于将所述目标和检测结果输入所述FairMOT架构的跟踪网络进行跟踪,获得训练后的行人多目标跟踪识别模型;
网络参数优化模块,用于在采用所述训练数据集训练网络时,采用自适应loss衰减的学习率更改策略和AdamW相结合的方法执行网络参数优化,网络参数收敛后的模型确定为所述训练后的行人多目标跟踪识别模型。
本申请的一些实施例中,所述装置还包括:
模型量化压缩模块,用于获取所述训练后的行人多目标跟踪识别模型各层的初始权重;采用层次聚类算法对所述初始权重进行聚类,获取聚类后的有效权重;采用kmeans++对所述有效权重进行聚类压缩,获得量化压缩的轻量化跟踪识别模型。
本申请的一些实施例中,所述装置还包括:
原始测试数据集模块,用于获取包含行人多目标的原始测试数据集;
图像增强处理模块,用于对所述原始测试数据集进行图像增强,获得增强后测试数据集;
模型评估模块,用于采用所述增强后测试数据集评估所述训练后的行人多目标跟踪识别模型和/或所述轻量化跟踪识别模型,获得最终跟踪结果。
与现有技术相比,本发明的优点和积极效果是:
本发明提供的行人多目标跟踪识别方法及跟踪识别装置,采用全局注意卷积模块GAConv作为基于FairMOT架构的Encoder-Decoder网络的主干网络,并引入跨层特征金字塔结构CLFPN对主干网络进行改进,将主干网络提取的多层级特征进行融合,获得高分辨率的特征图,有效地解决检测多尺度问题,进而能够提高跟踪识别模型的精度;在训练网络时,采用自适应loss衰减的学习率更改策略和AdamW相结合的方法执行网络参数优化,缓解模型初期的过拟合现象,提高模型深层的稳定性和收敛效果;从而,实现行人多目标跟踪的高精确度和强稳定性能。
结合附图阅读本发明的具体实施方式后,本发明的其他特点和优点将变得更加清楚。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明行人多目标跟踪识别方法一个实施例的流程示意图;
图2是本发明行人多目标跟踪识别方法另一个实施例的原理框图;
图3是图2中GAConv网络的结构图;
图4是图2中CLFPN的结构图;
图5是本发明行人多目标跟踪识别方法再一个实施例的流程示意图;
图6是本发明行人多目标跟踪识别装置一个实施例的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下将结合附图和实施例,对本发明作进一步详细说明。
需要说明的是,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
为解决现有行人多目标跟踪识别技术存在的精确度低和稳定性差的技术问题,本发明创造性地提出一种适用于行人多目标跟踪的跟踪识别技术,通过全局注意卷积模块GAConv和跨层特征金字塔结构CLFPN构成的网络提取多尺度融合特征图,通过自适应loss衰减的学习率更改策略和AdamW(亚当W优化器)相结合的方法执行网络参数优化,从而提高了行人多目标跟踪识别模型的精度和稳定性。
图1所示为本发明行人多目标跟踪识别方法一个实施例的流程示意图。在行人多目标跟踪识别方法中,包括采用训练数据集训练网络并获取行人多目标跟踪识别模型的过程。该实施例即为实现该过程的方法流程。
如图1所示,该实施例采用下述过程实现利用训练数据集训练网络并获取行人多目标跟踪识别模型。
步骤11:获取包含行人多目标的训练数据集。
该实施例的跟踪识别网络模型基于FairMOT架构,相应的,训练数据集采用MOT(Multi-Object Tracking,多目标跟踪)数据集格式。获取训练数据集,可为从已有的行人多目标MOT数据样本库中直接调用的获取方式,还可为采集包含行人多目标的视频和/或图片后进行处理制作数据集的获取方式。该实施例对训练数据集的获取方式不作具体限定。
步骤12:将训练数据集输入Encoder-Decoder(编解码器)网络进行特征提取,获得多尺度融合特征图。
Encoder-Decoder网络为基于FairMOT架构的Encoder-Decoder网络,而且在Encoder-Decoder网络中,采用全局注意卷积模块GAConv作为主干网络,获取图像特征图;并引入跨层特征金字塔结构CLFPN对主干网络进行改进,将主干网络获取的多层级特征进行融合,获得高分辨率的多尺度融合特征图,有效地解决检测多尺度问题。
步骤13:将多尺度融合特征图输入目标检测网络和重识别网络,获得目标和检测结果。
具体的,是将步骤12获取的多尺度融合特征图输入到基于FairMOT架构的目标检测网络和重识别网络进行目标的检测及重识别,获得包含目标位置和重识别类别信息的目标和检测结果。
步骤14:将目标和检测结果输入跟踪网络进行跟踪,获得训练后的行人多目标跟踪识别模型。
具体的,将步骤13获得的目标和检测结果输入基于FairMOT架构的跟踪网络进行跟踪,从而获得经过训练数据集训练后的行人多目标跟踪识别模型。
在采用训练数据集训练基于FairMOT架构的网络时,采用自适应loss(损失)衰减的学习率更改策略和AdamW相结合的方法执行网络参数优化,网络参数收敛后的模型确定为训练后的行人多目标跟踪识别模型。采用自适应loss衰减的学习率更改策略,根据loss变化,先以较小的学习率上升到初始学习率,然后对比loss无较大变化时,再衰减到小的学习率上,缓解模型在初期对mini-batch(最小批次)过拟合的现象,保持模型深层的稳定性。再结合AdamW的方法进行网络参数优化,迭代地更新优化器权重,选择搜索方法,以进一步提升学习稳定性和模型收敛效果。
在其他一些实施例中,自适应loss衰减的学习率更改策略包括:
采用下述更新函数更新学习率:
其中,lr为学习率;和分别为学习率的最大值和最小值,为设定值;Ti为当前训练轮次,为变化值;Tcur为到达最大学习率的轮次,为设定值,为以e为底的指数,表示loss变化率,Closs为相邻两训练轮次的loss差值,为计算值;T为训练总轮次,为设定值。在设置了初始学习率之后,在网络训练过程中,采用上述更新函数更新学习率,避免陷入局部最优,提高模型深层的稳定性和收敛效果。
图2示出了本发明行人多目标跟踪识别方法另一个实施例的原理框图,具体的,为采用训练数据集训练网络并获取行人多目标跟踪识别模型的一个实施例的原理框图。
在该实施例中,数据集21作为训练数据集,采用MOT数据集格式。
Encoder-Decoder网络22基于FairMOT架构,由全局注意卷积模块GAConv构成主干网络,例如,采用GA-DLA34(Global attention-Deep Layer Aggregation,全局注意力深度聚合网络)、GA-ResNet50(Global attention-ResNet50,全局注意力残差网络)等作为主干网络。
GAConv网络的结构图如图3所示。在由全局注意卷积模块GAConv构成的主干网络中,利用标准卷积模块提取输入的数据集21的原始特征图。然后,利用GAConv获取全局的注意力权重:第一步(step1),对原始特征图进行宽、高两个方向的序列编码。第二步(step2),通过注意力机制对两编码序列进行扩充还原,实现权重合理分配;然后将扩充还原后的两序列拼接,获得拼接后序列;最后将拼接后序列再与原始特征图进行叠加,最终获取全局注意力权重。图3中,N表示特征图个数,M表示特征图通道数,H表示特征图高度,W表示特征图宽度。
Encoder-Decoder网络22中还引入跨层特征金字塔结构CLFPN对主干网络进行改进。CLFPN的结构如图4所示。在图4中,P3-P7表示主干网络输出的不同尺度特征图,Repeated Blocks表示可重复的模块,表示CLFPN可以后接多个Repeated Blocks。为缓解上采样和下采样造成的局部偏置,提高特征融合的效率,基于下述优化,获得图4示出的CLFPN网络:第一,在PANet(Path Aggregation Network,路径聚合网络)的基础上,加入BiFPN(Bidirectional Feature Pyramid Network,加权双向特征金字塔网络)的同层级的跨层连接,以及将每个双向路径作为一个可重复模块(Repeated Blocks),实现更高级的特征融合。第二,在每个可重复模块中,加入不同层级间的跨层连接,包含自上而下和自下而上的连接。
从而,通过在主干网络后连接跨层特征金字塔结构CLFPN,通过可学习的全局注意力权重学习不同输入特征的重要性,同时通过跨层连接,反复应用自顶向下和自底向上的多尺度特征融合,以解决检测多尺度问题,最终获得多尺度融合特征图。
经Encoder-Decoder网络22提取的多尺度融合特征图分为四个分支,其中三个分支输入目标检测网络231,用于目标检测;另外一个分支输入重识别网络232,用于重识别。
其中,目标检测网络231包括热力图heatmap、中心点偏移量center offset和检测框bbox size。检测过程、每个模块采用的损失函数等,采用现有技术来实现。重识别网络232的识别过程及采用的损失函数,也采用现有技术来实现。
经目标检测网络231和重识别网络232的联合训练,获得包含目标的位置和重识别类别信息的目标和检测结果后,输入由卡尔曼滤波模块241和匈牙利匹配模块242构成的跟踪网络。利用卡尔曼滤波模块241求解代价矩阵,预测跟踪器下一时刻的位置,然后基于检测结果更新预测位置。最后再利用匈牙利算法将检测结果与跟踪预测结果信息匹配,实现目标的跟踪。跟踪的其他具体实现过程,采用现有技术来实现。
为便于行人多目标跟踪识别模型的端侧部署,通常将训练后获得的行人多目标跟踪识别模型进行压缩,以获得轻量化跟踪识别模型。
图5示出了本发明行人多目标跟踪识别方法再一个实施例的流程示意图,具体来说,是将训练后的行人多目标跟踪识别模型进行压缩而获得轻量化跟踪识别模型的一个实施例的流程示意图。
如图5所示,该实施例采用下述过程获得轻量化跟踪识别模型:
步骤31:获取训练后的行人多目标跟踪识别模型各层的初始权重。
步骤32:采用层次聚类算法对初始权重进行聚类,获取聚类后的有效权重。
由于模型各层的初始权重过多无效化,首先采用层次聚类算法对初始权重进行聚类,筛选出较大的有效权重。层次聚类算法的具体实现原理和聚类实现过程,采用现有技术来实现。
步骤33:采用kmeans++(k均值算法)对有效权重进行聚类压缩,获得量化压缩的轻量化跟踪识别模型。
通过kmeans++对有效权重进行聚类压缩,实现模型在存储空间上的压缩机,所获得的压缩后的轻量化跟踪识别模型计算速率显著提升,便于在端侧部署,提高了采用行人多目标跟踪识别模型跟踪识别行人目标的实时性和有效性。
在其他一些实施例中,行人多目标跟踪识别方法还包括采用测试数据集对模型进行评估的过程。对模型进行评估,既可包括对训练后的行人多目标跟踪识别模型进行评估,也可包括对轻量化跟踪识别模型进行性能评估。
具体评估过程包括:
获取包含行人多目标的原始测试数据集。与训练数据集类似的,原始测试数据集采用MOT数据集格式。原始测试数据集的获取方式,可为从已有的行人多目标MOT数据样本库中直接调用的获取方式,还可为采集包含行人多目标的视频和/或图片后进行处理制作数据集的获取方式。
对原始测试数据集进行图像增强,获得增强后测试数据集。通过对原始测试数据集进行图像增强的前处理,缓解数据获取时因光照、形变等因素对数据造成的扰动,提高模型在恶劣环境下的鲁棒性。在一些实施例中,对原始测试数据集采用自适应直方图均衡化方式进行图像增强,获得增强后测试数据集,缓解光照对图像造成的影响,提高检测精度。自适应直方图均衡化方式进行图像增强的具体方法,采用现有技术实现。
采用增强后测试数据集评估训练后的行人多目标跟踪识别模型和/或轻量化跟踪识别模型,获得最终跟踪结果。
在其他一些实施例中,训练数据集和原始测试数据集,采用采集包含行人多目标的视频和/或图片后进行处理而获取的方式。具体获取过程如下:
获取包含行人多目标的多帧图片,在每帧图片上标注行人id、图片左上角坐标和图片下角点坐标,获得标注后行人数据集。获取包含行人多目标的多帧图片,具体可通过摄像头拍摄各类场景、各种角度下的行人视频,将视频裁剪为连续的单帧图片的方式进行。考虑到目标跟踪的精准度与数据集质量息息相关,因此在拍摄时,充分考虑各类场景及角度下的行人视频,以提高模型的鲁棒性。
根据MOT数据集格式,将标注后行人数据集进行格式转换,获得包含行人id、目标中心点坐标、目标长宽的数据文档。
将数据文档和标注后行人数据集确定为组合数据集。
将组合数据集按照设定比例划分为训练数据集和原始测试数据集。在一些实施例中,设定比例为8:2,按照8:2的比例,将组合数据集划分为训练数据集和原始测试数据集,分别用于后续模型的训练和性能评估。
图6示出了本发明行人多目标跟踪识别装置一个实施例的结构示意图。
如图6所示意,该实施例的跟踪识别装置包括的结构单元、结构单元的功能及相互之间的关系,具体如下:
跟踪识别装置包括:
训练数据集获取模块41,用于获取包含行人多目标的训练数据集。
特征提取模块42,用于将训练数据集获取模块41获取的训练数据集输入基于FairMOT架构的Encoder-Decoder网络进行特征提取,获得多尺度融合特征图。其中,Encoder-Decoder网络中,采用全局注意卷积模块GAConv作为主干网络,引入跨层特征金字塔结构CLFPN对所述主干网络进行改进。
目标和检测结果获取模块43,用于将特征提取模块42获取的多尺度融合特征图输入FairMOT架构的目标检测网络和重识别网络,获得目标和检测结果。
训练后行人多目标跟踪识别模型获取模块44,用于将目标和检测结果获取模块43获取的目标和检测结果输入FairMOT架构的跟踪网络进行跟踪,获得训练后的行人多目标跟踪识别模型。
网络参数优化模块45,用于在采用训练数据集训练基于FairMOT架构的网络时,采用自适应loss衰减的学习率更改策略和AdamW相结合的方法执行网络参数优化,网络参数收敛后的模型确定为训练后的行人多目标跟踪识别模型。
上述结构的行人多目标跟踪识别装置,运行相应的软件程序,执行相应的功能,按照图1行人多目标跟踪识别方法实施例及其实施例的过程进行行人多目标跟踪识别模型的获取,达到与图1实施例及其他实施例的相应技术效果。
在其他一些实施例中,行人多目标跟踪识别装置还可包括:
模型量化压缩模块,用于获取训练后的行人多目标跟踪识别模型各层的初始权重;采用层次聚类算法对所述初始权重进行聚类,获取聚类后的有效权重;采用kmeans++对所述有效权重进行聚类压缩,获得量化压缩的轻量化跟踪识别模型。从而,获得便于在端侧部署的轻量化跟踪识别模型,提高跟踪识别行人目标的实时性和有效性。
在其他一些实施例中,行人多目标跟踪识别装置还可包括实现模型性能评估的如下结构单元:
原始测试数据集模块,用于获取包含行人多目标的原始测试数据集。
图像增强处理模块,用于对原始测试数据集进行图像增强,获得增强后测试数据集。
模型评估模块,用于采用增强后测试数据集评估训练后的行人多目标跟踪识别模型和/或轻量化跟踪识别模型,获得最终跟踪结果。
上述各结构的行人多目标跟踪识别装置,运行相应的软件程序,执行相应的功能,按照上述行人多目标跟踪识别方法相应的实施例执行行人多目标跟踪识别的性能优化,达到与方法实施例的相应技术效果。
以上实施例仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施例对本发明进行了详细的说明,对于本领域的普通技术人员来说,依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。
Claims (10)
1.一种行人多目标跟踪识别方法,其特征在于,所述方法包括采用训练数据集训练网络并获取行人多目标跟踪识别模型的过程;
所述训练网络的过程包括:
获取包含行人多目标的训练数据集;
将所述训练数据集输入基于FairMOT架构的Encoder-Decoder网络进行特征提取,获得多尺度融合特征图;所述Encoder-Decoder网络中,采用全局注意卷积模块GAConv作为主干网络,引入跨层特征金字塔结构CLFPN对所述主干网络进行改进;
将所述多尺度融合特征图输入所述FairMOT架构的目标检测网络和重识别网络,获得目标和检测结果;
将所述目标和检测结果输入所述FairMOT架构的跟踪网络进行跟踪,获得训练后的行人多目标跟踪识别模型;
在采用所述训练数据集训练网络时,采用自适应loss衰减的学习率更改策略和AdamW相结合的方法执行网络参数优化,网络参数收敛后的模型确定为所述训练后的行人多目标跟踪识别模型。
2.根据权利要求1所述的行人多目标跟踪识别方法,其特征在于,所述方法还包括:
获取所述训练后的行人多目标跟踪识别模型各层的初始权重;
采用层次聚类算法对所述初始权重进行聚类,获取聚类后的有效权重;
采用kmeans++对所述有效权重进行聚类压缩,获得量化压缩的轻量化跟踪识别模型。
3.根据权利要求2所述的行人多目标跟踪识别方法,其特征在于,所述方法还包括采用测试数据集对模型进行评估的过程;
所述评估的过程包括:
获取包含行人多目标的原始测试数据集;
对所述原始测试数据集进行图像增强,获得增强后测试数据集;
采用所述增强后测试数据集评估所述训练后的行人多目标跟踪识别模型和/或所述轻量化跟踪识别模型,获得最终跟踪结果。
4.根据权利要求3所述的行人多目标跟踪识别方法,其特征在于,对所述原始测试数据集进行图像增强,获得增强后测试数据集,包括:
对所述原始测试数据集采用自适应直方图均衡化方式进行图像增强,获得所述增强后测试数据集。
5.根据权利要求3所述的行人多目标跟踪识别方法,其特征在于,所述训练数据集和所述原始测试数据集采用下述方法获取:
获取包含行人多目标的多帧图片,在每帧图片上标注行人id、图片左上角坐标和图片下角点坐标,获得标注后行人数据集;
将所述标注后行人数据集进行格式转换,获得包含行人id、目标中心点坐标、目标长宽的数据文档;
将所述数据文档和所述标注后行人数据集确定为组合数据集;
将所述组合数据集按照设定比例划分为所述训练数据集和所述原始测试数据集。
6.根据权利要求1所述的行人多目标跟踪识别方法,其特征在于,将所述训练数据集输入基于FairMOT架构的Encoder-Decoder网络进行特征提取,获得多尺度融合特征图,包括:
将所述全局注意卷积模块GAConv与标准卷积模块结合,提取输入的数据集的原始特征图;
利用所述全局注意卷积模块GAConv对所述原始特征图进行两方向的序列编码,通过注意力机制对两编码序列进行扩充还原,将扩充还原后的两序列拼接,获得拼接后序列;
将所述拼接后序列与所述原始特征图进行叠加,获取全局注意力权重;
在所述主干网络后连接所述跨层特征金字塔结构CLFPN,通过可学习的所述全局注意力权重学习不同输入特征的重要性,并通过跨层连接,反复应用自顶向下和自底向上的多尺度特征融合,获得所述多尺度融合特征图。
8.一种行人多目标跟踪识别装置,其特征在于,所述装置包括:
训练数据集获取模块,用于获取包含行人多目标的训练数据集;
特征提取模块,用于将所述训练数据集输入基于FairMOT架构的Encoder-Decoder网络进行特征提取,获得多尺度融合特征图;所述Encoder-Decoder网络中,采用全局注意卷积模块GAConv作为主干网络,引入跨层特征金字塔结构CLFPN对所述主干网络进行改进;
目标和检测结果获取模块,用于将所述多尺度融合特征图输入所述FairMOT架构的目标检测网络和重识别网络,获得目标和检测结果;
训练后行人多目标跟踪识别模型获取模块,用于将所述目标和检测结果输入所述FairMOT架构的跟踪网络进行跟踪,获得训练后的行人多目标跟踪识别模型;
网络参数优化模块,用于在采用所述训练数据集训练网络时,采用自适应loss衰减的学习率更改策略和AdamW相结合的方法执行网络参数优化,网络参数收敛后的模型确定为所述训练后的行人多目标跟踪识别模型。
9.根据权利要求8所述的行人多目标跟踪识别装置,其特征在于,所述装置还包括:
模型量化压缩模块,用于获取所述训练后的行人多目标跟踪识别模型各层的初始权重;采用层次聚类算法对所述初始权重进行聚类,获取聚类后的有效权重;采用kmeans++对所述有效权重进行聚类压缩,获得量化压缩的轻量化跟踪识别模型。
10.根据权利要求9所述的行人多目标跟踪识别装置,其特征在于,所述装置还包括:
原始测试数据集模块,用于获取包含行人多目标的原始测试数据集;
图像增强处理模块,用于对所述原始测试数据集进行图像增强,获得增强后测试数据集;
模型评估模块,用于采用所述增强后测试数据集评估所述训练后的行人多目标跟踪识别模型和/或所述轻量化跟踪识别模型,获得最终跟踪结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210581127.1A CN114937239A (zh) | 2022-05-25 | 2022-05-25 | 行人多目标跟踪识别方法及跟踪识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210581127.1A CN114937239A (zh) | 2022-05-25 | 2022-05-25 | 行人多目标跟踪识别方法及跟踪识别装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114937239A true CN114937239A (zh) | 2022-08-23 |
Family
ID=82864022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210581127.1A Pending CN114937239A (zh) | 2022-05-25 | 2022-05-25 | 行人多目标跟踪识别方法及跟踪识别装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114937239A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188528A (zh) * | 2023-01-10 | 2023-05-30 | 中国人民解放军军事科学院国防科技创新研究院 | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 |
-
2022
- 2022-05-25 CN CN202210581127.1A patent/CN114937239A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188528A (zh) * | 2023-01-10 | 2023-05-30 | 中国人民解放军军事科学院国防科技创新研究院 | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 |
CN116188528B (zh) * | 2023-01-10 | 2024-03-15 | 中国人民解放军军事科学院国防科技创新研究院 | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111899227A (zh) | 基于无人机作业的铁路扣件缺陷自动采集辨识方法 | |
CN111460968B (zh) | 基于视频的无人机识别与跟踪方法及装置 | |
CN111951212A (zh) | 对铁路的接触网图像进行缺陷识别的方法 | |
CN111368690B (zh) | 基于深度学习的海浪影响下视频图像船只检测方法及系统 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN109919223B (zh) | 基于深度神经网络的目标检测方法及装置 | |
CN112784756B (zh) | 人体识别跟踪方法 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN117496384B (zh) | 一种无人机图像物体检测方法 | |
CN114049572A (zh) | 识别小目标的检测方法 | |
CN113160283A (zh) | 一种基于sift的多摄像头场景下的目标跟踪方法 | |
CN113139896A (zh) | 基于超分辨重建的目标检测系统及方法 | |
CN115909280A (zh) | 基于多头注意力机制的交通标志识别算法 | |
CN114758255A (zh) | 一种基于yolov5算法的无人机检测方法 | |
CN115147383A (zh) | 一种基于轻量化YOLOv5模型的绝缘子状态快速检测方法 | |
CN117152443A (zh) | 一种基于语义前导指引的图像实例分割方法及系统 | |
CN112700476A (zh) | 一种基于卷积神经网络的红外船视频跟踪方法 | |
Manzari et al. | Pyramid transformer for traffic sign detection | |
CN116645577A (zh) | 一种面向复杂场景基于浅层特征增强的小目标检测方法 | |
CN116597326A (zh) | 一种基于改进YOLOv7算法的无人机航拍小目标检测方法 | |
CN116469020A (zh) | 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法 | |
CN114937239A (zh) | 行人多目标跟踪识别方法及跟踪识别装置 | |
CN110688512A (zh) | 基于ptgan区域差距与深度神经网络的行人图像搜索算法 | |
CN114723944A (zh) | 图像分析方法、存储介质和电子设备 | |
CN113177956A (zh) | 一种面向无人机遥感影像的语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |