CN116740145A - 一种多目标跟踪方法、装置、车辆及存储介质 - Google Patents
一种多目标跟踪方法、装置、车辆及存储介质 Download PDFInfo
- Publication number
- CN116740145A CN116740145A CN202310933452.4A CN202310933452A CN116740145A CN 116740145 A CN116740145 A CN 116740145A CN 202310933452 A CN202310933452 A CN 202310933452A CN 116740145 A CN116740145 A CN 116740145A
- Authority
- CN
- China
- Prior art keywords
- target
- tracking
- convolution kernel
- image
- target tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims description 58
- 238000001514 detection method Methods 0.000 claims description 15
- 230000008901 benefit Effects 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及目标跟踪技术领域,具体是涉及一种多目标跟踪方法、装置、车辆及存储介质。通过将待检测图像输入多目标跟踪模型,得到若干目标的识别信息;多目标跟踪模型中的骨干网络包括尺寸大于或者等于第一尺寸阈值的目标卷积核,且目标卷积核是基于尺寸不同的两个卷积核融合得到;将各目标的识别信息和各跟踪目标的识别信息进行匹配,得到各目标的身份标识。本发明的多目标跟踪模型使用的目标卷积核为大卷积核,具有有效感受野较大的优点。此外,由于目标卷积核是使用尺寸不同的两个卷积核融合得到的,能有效改善大卷积核计算量、参数量较大的缺点,提高多目标跟踪模型的模型效率,快速获得准确的多目标跟踪结果。
Description
技术领域
本申请涉及目标跟踪技术领域,具体是涉及一种多目标跟踪方法、装置、车辆及存储介质。
背景技术
多目标跟踪指的是对视频中的每一个目标赋值一个ID,并得到每个ID的行动轨迹。多目标跟踪作为重要的计算机视觉任务之一,如今的发展已经深度依赖于卷积神经网络。
随着深度学习的发展,大卷积核逐渐被淘汰,因为使用大卷积核效率差(卷积的参数量和计算量与kernel size的平方成正比),加大kernel size反而精度变差。使用小卷积核意味着神经网络可以往更深度发展,ResNet解决了深层小卷积核的优化问题,能使得理论上得到的模型最大感受野很大。但是ResNet的残差网络结构实际上的有效深度并不深,所以有效感受野并不大,从而造成基于该架构的模型在ImageNet上性能很好,但在检测、分割等下游任务上性能并不好。
综上所述,现有技术中使用大卷积核的跟踪模型存在计算量大和参数量大的缺点,导致模型效率差;使用小卷积核的跟踪模型存在有效感受野小的缺点,导致模型性能差。
因此,现有技术还有待改进和提高。
发明内容
本申请提供了一种多目标跟踪方法、装置、车辆及存储介质,以解决相关技术中使用大卷积核的跟踪模型效率低,使用小卷积核的跟踪模型有效感受野小,现有的跟踪模型无法兼顾模型效率和有效感受野的问题。
为实现上述目的,本申请采用了以下技术方案:
一种多目标跟踪方法,包括以下步骤:
获取待检测图像,其中,所述待检测图像为连续帧图像中的非首帧图像;
将所述待检测图像输入已训练的多目标跟踪模型,得到所述待检测图像中若干目标分别对应的识别信息,其中,所述多目标跟踪模型中的骨干网络包括目标卷积核,所述目标卷积核的尺寸大于或者等于第一尺寸阈值,且所述目标卷积核是基于尺寸不同的两个卷积核融合得到;
获取若干跟踪目标分别对应的识别信息,将各所述目标的识别信息和各所述跟踪目标的识别信息进行匹配,根据匹配结果确定各所述目标分别对应的身份标识。
根据上述技术手段,本申请实施例的多目标跟踪模型使用的目标卷积核为大卷积核,具有有效感受野较大的优点;此外,由于目标卷积核是使用尺寸不同的两个卷积核融合得到的,因此能有效改善大卷积核计算量、参数量较大的缺点,提高多目标跟踪模型的模型效率,快速获得准确的多目标跟踪结果。
可选地,在本申请的一个实施例中,两个所述卷积核中一个所述卷积核的尺寸大于或者等于所述第一尺寸阈值,另一个所述卷积核的尺寸小于或者等于第二尺寸阈值,所述第一尺寸阈值大于所述第二尺寸阈值。
根据上述技术手段,本申请实施例预先设定了两个卷积核的尺寸要求,从而保障目标卷积核可以同时具有小卷积核的计算量、参数量小的优点和大卷积核的有效感受野大的优点。
可选地,在本申请的一个实施例中,所述骨干网络在训练阶段包括两个所述卷积核;所述骨干网络用于基于每一训练样本输出所述训练样本对应的特征图像,所述基于每一训练样本输出所述训练样本对应的特征图像包括:
获取两个所述卷积核分别基于所述训练样本输出的特征图像;
对两个所述卷积核输出的特征图像进行融合,得到所述训练样本对应的特征图像。
根据上述技术手段,本申请实施例在网络训练阶段使用两个尺寸不同的卷积核进行训练,可以有效捕捉到不同尺度的特征,从而得到更好的网络训练效果。
可选地,在本申请的一个实施例中,所述目标卷积核的获取方法包括:
获取已训练的两个所述卷积核;
将尺寸最小的所述卷积核调整至与尺寸最大的所述卷积核相同尺寸;
将相同尺寸的两个所述卷积核相加,得到所述目标卷积核。
根据上述技术手段,本申请实施例在推理阶段将已训练的两个卷积核融合为一个卷积核,可以减少卷积核的参数量,从而有效提高推理速度。
可选地,在本申请的一个实施例中每一所述目标的识别信息包括所述目标的位置信息、类别信息以及特征信息;所述多目标跟踪模型还包括分别与所述骨干网络连接的检测模块、分类模块以及特征模块;
所述骨干网络,用于根据所述待检测图像输出目标特征图像;
所述检测模块,用于根据所述目标特征图像,输出各所述目标分别对应的所述位置信息;
所述分类模块,用于根据所述目标特征图像,输出各所述目标分别对应的所述类别信息;
所述特征模块,用于根据所述目标特征图像,输出各所述目标分别对应的所述特征信息。
根据上述技术手段,本申请实施例通过骨干网络、检测模块、分类模块以及特征模块搭建出完整的多目标跟踪模型,可以对待检测图像中各目标进行精准识别,提高多目标跟踪任务的执行效率。
可选地,在本申请的一个实施例中,所述多目标跟踪模型的训练方法包括:
获取预训练后的所述骨干网络的网络参数,将所述网络参数导入未训练的所述多目标跟踪模型;
对导入后的所述多目标跟踪模型进行训练。
根据上述技术手段,本申请实施例使用迁移学习技术,可以减少多目标跟踪模型的训练时间,使多目标跟踪模型快速达到最优的训练效果。
可选地,在本申请的一个实施例中,所述根据匹配结果确定各所述目标分别对应的身份标识包括:
针对每一所述目标,若所述目标与任一一个所述跟踪目标匹配成功,根据匹配成功的所述跟踪目标确定所述目标对应的身份标识;
若所述目标与各所述跟踪目标均匹配失败,根据所述目标确定新增跟踪目标和新增身份标识。
根据上述技术手段,本申请实施例会根据待检测图像中各目标与各跟踪目标之间的匹配关系确定各目标的身份,并动态调整跟踪目标的数量,可以更好地实现多目标跟踪。
本申请第二方面实施例提供一种多目标跟踪装置,包括:
获取模块,用于获取待检测图像,其中,所述待检测图像为连续帧图像中的非首帧图像;
输入模块,用于将所述待检测图像输入已训练的多目标跟踪模型,得到所述待检测图像中若干目标分别对应的识别信息,其中,所述多目标跟踪模型中的骨干网络包括目标卷积核,所述目标卷积核的尺寸大于或者等于第一尺寸阈值,且所述目标卷积核是基于尺寸不同的两个卷积核融合得到;
匹配模块,用于获取若干跟踪目标分别对应的识别信息,将各所述目标的识别信息和各所述跟踪目标的识别信息进行匹配,根据匹配结果确定各所述目标分别对应的身份标识。
本申请第三方面实施例提供一种车辆,所述车辆包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的多目标跟踪程序,所述处理器执行所述多目标跟踪程序时,实现如上述任一项所述的多目标跟踪方法的步骤。
本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有多目标跟踪程序,所述多目标跟踪程序被处理器执行时,实现如上述任一项所述的多目标跟踪方法的步骤。
本申请的有益效果:
本申请的多目标跟踪模型使用的目标卷积核为大卷积核,具有有效感受野较大的优点;此外,由于目标卷积核是使用尺寸不同的两个卷积核融合得到的,因此能有效改善大卷积核计算量、参数量较大的缺点,提高多目标跟踪模型的模型效率,快速获得准确的多目标跟踪结果。
本申请在网络训练阶段使用两个尺寸不同的卷积核进行训练,可以有效捕捉到不同尺度的特征,从而得到更好的网络训练效果。在推理阶段,将已训练的两个卷积核融合为一个卷积核,可以减少卷积核的参数量,从而有效提高推理速度。
本申请通过骨干网络、检测模块、分类模块以及特征模块搭建出完整的多目标跟踪模型,并使用迁移学习技术减少多目标跟踪模型的训练时间,使多目标跟踪模型快速达到最优的训练效果,更好地执行多目标跟踪任务。
本申请会根据待检测图像中各目标与各跟踪目标之间的匹配关系确定各目标的身份,并动态调整跟踪目标的数量,可以更好地实现多目标跟踪。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的多目标跟踪方法的流程示意图;
图2为本申请实施例的超大卷积核示意图;
图3为本申请实施例的残差块(identity shortcut)示意图;
图4为本申请实施例在多目标跟踪模型的训练中使用迁移学习技术的流程示意图;
图5为本申请实施例的多目标跟踪装置的结构示意图;
图6为本申请实施例提供的车辆的内部结构原理框图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的一种多目标跟踪方法、装置、车辆及存储介质。针对上述背景技术中心提到的使用大卷积核的跟踪模型效率低,使用小卷积核的跟踪模型有效感受野小,现有的跟踪模型无法兼顾模型效率和有效感受野的问题,本申请提供了一种多目标跟踪方法,在该方法中,通过获取待检测图像,其中,待检测图像为连续帧图像中的非首帧图像;将待检测图像输入已训练的多目标跟踪模型,得到待检测图像中若干目标分别对应的识别信息,其中,多目标跟踪模型中的骨干网络包括目标卷积核,目标卷积核的尺寸大于或者等于第一尺寸阈值,且目标卷积核是基于尺寸不同的两个卷积核融合得到;获取若干跟踪目标分别对应的识别信息,将各目标的识别信息和各跟踪目标的识别信息进行匹配,根据匹配结果确定各目标分别对应的身份标识。本发明的多目标跟踪模型使用的目标卷积核为大卷积核,具有有效感受野较大的优点。此外,由于目标卷积核是使用尺寸不同的两个卷积核融合得到的,因此能有效改善大卷积核计算量、参数量较大的缺点,提高多目标跟踪模型的模型效率,快速获得准确的多目标跟踪结果。
举例说明,预先将已训练的小卷积核(5x5)和超大卷积核(31x31)进行融合,得到目标卷积核,通过目标卷积核组成骨干网络,并在骨干网络的基础上搭建多目标跟踪模型。在实际应用场景中,假设要对一个摄像头采集的视频数据进行多目标跟踪,预先基于该视频数据的首帧视频帧确定跟踪目标A、B、C,并确定跟踪目标A、B、C分别对应的识别信息,识别信息可以包括跟踪目标的位置信息、类别信息以及多种特征信息中的一种或者多种信息。除首帧视频帧之外的每一视频帧均可作为待检测图像,将待检测图像输入预先经过训练的多目标跟踪模型,多目标跟踪模型输出待检测图像中的目标a、b、c和目标a、b、c分别对应的识别信息。以目标a为例,将目标a的识别信息分别与跟踪目标A、B、C的识别进行匹配,根据匹配结果确定跟踪目标A为目标a的匹配对象,则根据跟踪目标A确定目标a的身份标识,从而实现对跟踪目标A的跟踪。
具体而言,图1为本申请实施例所提供的一种多目标跟踪方法的流程示意图。
如图1所示,该多目标跟踪方法包括以下的步骤:
步骤S100、获取待检测图像,其中,待检测图像为连续帧图像中的非首帧图像。
具体地,多目标跟踪是指在连续的若干帧图像中识别与跟踪多个目标,可以应用于安防监控和自动驾驶等领域。在实际应用场景中,本实施例首先要获取用于执行多目标跟踪任务的连续帧图像,例如公共场所的摄像头的采集视频,或者自动驾驶的车载摄像头的采集视频,或者导航机器人的摄像头的采集视频。连续帧图像中除首帧图像之外的任一一帧图像均可作为待检测图像,用于分析各跟踪目标的运动轨迹。
步骤S200、将待检测图像输入已训练的多目标跟踪模型,得到待检测图像中若干目标分别对应的识别信息,其中,多目标跟踪模型中的骨干网络包括目标卷积核,目标卷积核的尺寸大于或者等于第一尺寸阈值,且目标卷积核是基于尺寸不同的两个卷积核融合得到。
具体地,本实施例预先构建了多目标跟踪模型用于执行多目标跟踪任务,多目标跟踪模型预先经过训练,已经学习了复杂的输入输出之间的映射关系。多目标跟踪模型的组成包括骨干网络,即backbone。骨干网络的组成包括用于提取特征的目标卷积核,目标卷积核与传统卷积核的不同之处在于,目标卷积核的尺寸大于或者等于第一尺寸阈值,属于大卷积核,并且目标卷积核是由尺寸不同的两个卷积核融合得到的,因此目标卷积核可以同时具有较大的有效感受野和较少的计算量、参数量的优点,从而提高多目标跟踪模型的性能,获得更准确的目标跟踪结果。在实际应用场景中,将待检测图像输入已训练的多目标跟踪模型以后,多目标跟踪模型即可识别出待检测图像中的多个目标和各目标的识别信息,例如各目标的位置信息、类别信息以及多种特征信息。
在一种实施例中,两个卷积核中一个卷积核的尺寸大于或者等于第一尺寸阈值,另一个卷积核的尺寸小于或者等于第二尺寸阈值,第一尺寸阈值大于第二尺寸阈值。
具体地,本实施例预先设定了两个卷积核的尺寸要求,两个卷积核中尺寸小的卷积核需要在第一尺寸阈值以下,尺寸大的卷积核需要在第二尺寸阈值以上,从而保障目标卷积核可以同时具有小卷积核的计算量、参数量小的优点和大卷积核的有效感受野大的优点。
举例说明,两个卷积核中尺寸大的卷积核可以使用超大卷积核,例如depth-wise大卷积核,尺寸为31x31,depth-wise卷积指的是通过逐通道卷积,即一个卷积核负责一个通道,一个通道只被一个卷积核卷积。尺寸小的卷积核可以使用小卷积,尺寸为3x3或者5x5。
在一种实施例中,骨干网络的网络结构还包括残差块,用于提高网络深度。具体地,残差块(identity shortcut)的结构如图2所示,它可以实现数据处理前后的维度一致(图中为64维)。因此使用大卷积核时,残差块有助于涨点。
在一种实施例中,骨干网络在训练阶段包括两个卷积核;骨干网络用于基于每一训练样本输出训练样本对应的特征图像,基于每一训练样本输出训练样本对应的特征图像包括:
获取两个卷积核分别基于训练样本输出的特征图像;
对两个卷积核输出的特征图像进行融合,得到训练样本对应的特征图像。
概括地讲,在网络训练阶段,骨干网络中尺寸不同的两个卷积核并未融合,各自可以独自提取特征;只有当骨干网络训练完成以后,才将两个卷积核融合为一个卷积核,即得到目标卷积核。将训练样本输入骨干网络以后,该训练样本会分别输入两个卷积核,两个卷积核分别对训练样本进行特征提取并输出特征图像。最后将两个特征图像的融合图像作为训练样本的特征图像。例如,如图3所示,在训练时小卷积核(5x5)和超大卷积核(31x31)的输入数据相同,输出数据会进行合并。本实施例在网络训练阶段使用两个尺寸不同的卷积核进行训练,可以有效捕捉到不同尺度的特征,从而得到更好的网络训练效果。
在一种实施例中,目标卷积核的获取方法包括:
获取已训练的两个卷积核;
将尺寸最小的卷积核调整至与尺寸最大的卷积核相同尺寸;
将相同尺寸的两个卷积核相加,得到目标卷积核。
具体地,当骨干网络训练完成时,不同尺寸的两个卷积核也训练完毕。此时,根据尺寸大的卷积核的尺寸调整尺寸小的卷积核的尺寸,使两个卷积核的尺寸相同。然后对相同尺寸的两个卷积核进行相加得到一个卷积核,即目标卷积核。本实施例在推理阶段将已训练的两个卷积核融合为目标卷积核,可以有效减少卷积核的参数量,从而有效提高推理速度。
举例说明,获取已训练的小卷积核(3x3或5x5)和超大卷积核(31x31),根据超大卷积核的尺寸对小卷积核进行边缘补零(padding),使其与超大卷积核尺寸相同。然后将相同尺寸的两个卷积核相加得到目标卷积核(31x31)。
在一种实施例中,每一目标的识别信息包括目标的位置信息、类别信息以及特征信息;多目标跟踪模型还包括分别与骨干网络连接的检测模块、分类模块以及特征模块;
骨干网络,用于根据待检测图像输出目标特征图像;
检测模块,用于根据目标特征图像,输出各目标分别对应的位置信息;
分类模块,用于根据目标特征图像,输出各目标分别对应的类别信息;
特征模块,用于根据目标特征图像,输出各目标分别对应的特征信息。
具体地,在搭建好的骨干网络的基础上,在骨干网络的输出处各通过一个不同的卷积层连接检测模块(detect head)、分类模块(class head)以及特征模块,从而构建出多目标跟踪模型。其中,检测模块用于输出待检测图像中各目标的位置信息,例如可以使用矩形框呈现目标的位置信息;分类模块用于输出待检测图像中识别各目标的类别,例如可以使用识别号(ID)来呈现目标的类别;特征模块用于输出各目标的特征信息,例如特征模块为ReID特征模块,可以使用ReID特征来呈现目标的多维特征。本实施例通过骨干网络、检测模块、分类模块以及特征模块搭建出完整的多目标跟踪模型,可以对待检测图像中各目标进行精准识别,提高多目标跟踪任务的执行效率。
在一种实施例中,多目标跟踪模型的训练方法包括:
获取预训练后的骨干网络的网络参数,将网络参数导入未训练的多目标跟踪模型;
对导入后的多目标跟踪模型进行训练。
具体地,如图4所示,本实施例使用迁移学习技术,先对骨干网络进行预训练,然后将预训练后得到的网络参数导入未训练的多目标跟踪模型,再对导入后的多目标跟踪模型进行训练,从而减少多目标跟踪模型的训练时间,使多目标跟踪模型快速达到最优的训练效果。
举例说明,可以使用ImageNet数据集对骨干网络进行预训练,再将训练好的权重导入多目标跟踪模型中。然后获取预先准备好的多目标跟踪数据,对多目标跟踪数据进行数据标注,通过多目标跟踪数据和标注数据对多目标跟踪模型进行训练。
在一种实施例中,在多目标跟踪模型的训练阶段,多目标跟踪模型的损失函数值基于检测模块、分类模块以及特征模块分别对应的损失函数值确定。
具体地,多目标跟踪数据的标注数据可以包括目标的标注框、标注类别以及ID号。通过标注框确定检测模块的损失函数值;通过标注类别确定分类模块的损失函数值;由于具有相同ID号的目标输入多目标跟踪网络所提取的特征应该是相近的,因此可以通过ID号确定特征模块的损失函数值。最后通过三个模块分别对应的损失函数值综合确定多目标跟踪模型的损失函数值,以实现更好的模型训练效果。
步骤S300、获取若干跟踪目标分别对应的识别信息,将各目标的识别信息和各跟踪目标的识别信息进行匹配,根据匹配结果确定各目标分别对应的身份标识。
具体地,针对待检测图像中的每一目标,将该目标的识别信息分别与各跟踪目标的识别信息进行匹配,若匹配成功,则可以根据匹配成功的跟踪目标确定该目标的身份标识,从而推断出匹配成功的这个跟踪目标的运动轨迹,实现目标跟踪。
在一种实施例中,获取若干跟踪目标分别对应的识别信息包括:
获取连续帧图像中的首帧图像,将首帧图像输入多目标跟踪模型,得到若干跟踪目标和各跟踪目标分别对应的识别信息。
具体地,在实际应用场景中,各跟踪目标和其对应的识别信息是通过将首帧图像输入已训练的多目标跟踪模型得到的。然后为各跟踪目标分配ID号,根据各跟踪目标的ID号可以构建跟踪目标池,用于执行多目标跟踪任务。
在一种实施例中,目标的识别信息包括预测框和ReID特征,跟踪目标的识别信息包括标注框和标注ReID特征,每一目标与各跟踪目标的匹配结果的获取方法包括:
获取目标的预测框分别与各跟踪目标的标注框之间的交并比;
获取目标的ReID特征分别与各跟踪目标的标注ReID特征之间的余弦距离;
根据各跟踪目标分别对应的交并比和余弦距离,确定目标与各跟踪目标的匹配结果。
具体地,针对待检测图像中的任一一个目标,将该目标的预测框与跟踪目标的标注框利用IOU进行匹配,并将该目标的ReID特征与跟踪目标的标注ReID特征利用余弦距离进行匹配,其中,预测框可以使用卡尔曼滤波得到,匹配算法可以使用匈牙利算法。通过这种级联匹配的方式可以准确得到该目标与各跟踪目标的匹配结果。
在一种实施例中,根据匹配结果确定各目标分别对应的身份标识包括:
针对每一目标,若目标与任一一个跟踪目标匹配成功,根据匹配成功的跟踪目标确定目标对应的身份标识;
若目标与各跟踪目标均匹配失败,根据目标确定新增跟踪目标和新增身份标识。
具体地,对于待检测图像中匹配成功的目标,根据其匹配成功的跟踪目标确定该目标的身份标识;对于待检测图像中未匹配成功的目标,则将其视为新出现的目标,赋予其新的身份标识,然后可以将其加入跟踪目标池。本实施例会根据待检测图像中各目标与各跟踪目标之间的匹配关系确定各目标的身份,并动态调整跟踪目标的数量,更好地实现多目标跟踪。
在一种实施例中,多目标跟踪方法还包括:
针对每一跟踪目标,当跟踪目标与各目标均匹配失败时,将跟踪目标剔除。
具体地,对于跟踪目标池中未与待检测图像中各目标匹配上的跟踪目标,本实施例将该跟踪目标视为目标丢失,将其从跟踪目标池中剔除,以避免后续进行无效匹配,耗费系统资源。
综上,本申请中的多目标跟踪模型使用的目标卷积核为大卷积核,具有有效感受野较大的优点;此外,由于目标卷积核是使用尺寸不同的两个卷积核融合得到的,因此能有效改善大卷积核计算量、参数量较大的缺点,提高多目标跟踪模型的模型效率,快速获得准确的多目标跟踪结果。其次,本申请在网络训练阶段使用两个尺寸不同的卷积核进行训练,可以有效捕捉到不同尺度的特征,从而得到更好的网络训练效果。在推理阶段,将已训练的两个卷积核融合为一个卷积核,可以减少卷积核的参数量,从而有效提高推理速度。此外,本申请通过骨干网络、检测模块、分类模块以及特征模块搭建完整的多目标跟踪模型,并使用迁移学习技术减少多目标跟踪模型的训练时间,使多目标跟踪模型快速达到最优的训练效果,更好地执行多目标跟踪任务。另外,本申请会根据待检测图像中各目标与各跟踪目标之间的匹配关系确定各目标的身份,并动态调整跟踪目标的数量,可以更好地实现多目标跟踪。
其次参照附图描述根据本申请实施例提出的多目标跟踪装置。
如图5所示,该多目标跟踪装置10包括:获取模块100、输入模块200以及匹配模块300。
具体地,获取模块100,用于获取待检测图像,其中,待检测图像为连续帧图像中的非首帧图像;
输入模块200,用于将待检测图像输入已训练的多目标跟踪模型,得到待检测图像中若干目标分别对应的识别信息,其中,多目标跟踪模型中的骨干网络包括目标卷积核,目标卷积核的尺寸大于或者等于第一尺寸阈值,且目标卷积核是基于尺寸不同的两个卷积核融合得到;
匹配模块300,用于获取若干跟踪目标分别对应的识别信息,将各目标的识别信息和各跟踪目标的识别信息进行匹配,根据匹配结果确定各目标分别对应的身份标识
需要说明的是,前述对多目标跟踪方法实施例的解释说明也适用于该实施例的多目标跟踪装置,此处不再赘述。
图6为本申请实施例提供的车辆的结构示意图。该车辆可以包括:
存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机程序。
处理器602执行程序时实现上述实施例中提供的多目标跟踪方法。
进一步地,车辆还包括:
通信接口603,用于存储器601和处理器602之间的通信。
存储器601,用于存放可在处理器602上运行的计算机程序。
存储器601可能包含高速RAM存储器,也可能还包括非易失性存储器 (non -volatile memory),例如至少一个磁盘存储器。
如果存储器601、处理器602和通信接口603独立实现,则通信接口603、存储器601和处理器602可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连 (Periphera lComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,在具体实现上,如果存储器601、处理器602及通信接口603,集成在一块芯片上实现,则存储器601、处理器602及通信接口603可以通过内部接口完成相互间的通信。
处理器602可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的多目标跟踪方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备读取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM), 可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器 (CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介 质,因为可以通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种多目标跟踪方法,其特征在于,包括以下步骤:
获取待检测图像,其中,所述待检测图像为连续帧图像中的非首帧图像;
将所述待检测图像输入已训练的多目标跟踪模型,得到所述待检测图像中若干目标分别对应的识别信息,其中,所述多目标跟踪模型中的骨干网络包括目标卷积核,所述目标卷积核的尺寸大于或者等于第一尺寸阈值,且所述目标卷积核是基于尺寸不同的两个卷积核融合得到;
获取若干跟踪目标分别对应的识别信息,将各所述目标的识别信息和各所述跟踪目标的识别信息进行匹配,根据匹配结果确定各所述目标分别对应的身份标识。
2.如权利要求1所述的多目标跟踪方法,其特征在于,两个所述卷积核中一个所述卷积核的尺寸大于或者等于所述第一尺寸阈值,另一个所述卷积核的尺寸小于或者等于第二尺寸阈值,所述第一尺寸阈值大于所述第二尺寸阈值。
3.如权利要求1所述的多目标跟踪方法,其特征在于,所述骨干网络在训练阶段包括两个所述卷积核;所述骨干网络用于基于每一训练样本输出所述训练样本对应的特征图像,所述基于每一训练样本输出所述训练样本对应的特征图像包括:
获取两个所述卷积核分别基于所述训练样本输出的特征图像;
对两个所述卷积核输出的特征图像进行融合,得到所述训练样本对应的特征图像。
4.如权利要求1所述的多目标跟踪方法,其特征在于,所述目标卷积核的获取方法包括:
获取已训练的两个所述卷积核;
将尺寸最小的所述卷积核调整至与尺寸最大的所述卷积核相同尺寸;
将相同尺寸的两个所述卷积核相加,得到所述目标卷积核。
5.如权利要求1所述的多目标跟踪方法,其特征在于,每一所述目标的识别信息包括所述目标的位置信息、类别信息以及特征信息;所述多目标跟踪模型还包括分别与所述骨干网络连接的检测模块、分类模块以及特征模块;
所述骨干网络,用于根据所述待检测图像输出目标特征图像;
所述检测模块,用于根据所述目标特征图像,输出各所述目标分别对应的所述位置信息;
所述分类模块,用于根据所述目标特征图像,输出各所述目标分别对应的所述类别信息;
所述特征模块,用于根据所述目标特征图像,输出各所述目标分别对应的所述特征信息。
6.如权利要求1或5所述的多目标跟踪方法,其特征在于,所述多目标跟踪模型的训练方法包括:
获取预训练后的所述骨干网络的网络参数,将所述网络参数导入未训练的所述多目标跟踪模型;
对导入后的所述多目标跟踪模型进行训练。
7.如权利要求1所述的多目标跟踪方法,其特征在于,所述根据匹配结果确定各所述目标分别对应的身份标识包括:
针对每一所述目标,若所述目标与任一一个所述跟踪目标匹配成功,根据匹配成功的所述跟踪目标确定所述目标对应的身份标识;
若所述目标与各所述跟踪目标均匹配失败,根据所述目标确定新增跟踪目标和新增身份标识。
8.一种多目标跟踪装置,其特征在于,包括:
获取模块,用于获取待检测图像,其中,所述待检测图像为连续帧图像中的非首帧图像;
输入模块,用于将所述待检测图像输入已训练的多目标跟踪模型,得到所述待检测图像中若干目标分别对应的识别信息,其中,所述多目标跟踪模型中的骨干网络包括目标卷积核,所述目标卷积核的尺寸大于或者等于第一尺寸阈值,且所述目标卷积核是基于尺寸不同的两个卷积核融合得到;
匹配模块,用于获取若干跟踪目标分别对应的识别信息,将各所述目标的识别信息和各所述跟踪目标的识别信息进行匹配,根据匹配结果确定各所述目标分别对应的身份标识。
9.一种车辆,其特征在于,所述车辆包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的多目标跟踪程序,所述处理器执行所述多目标跟踪程序时,实现如权利要求1-7任一项所述的多目标跟踪方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有多目标跟踪程序,所述多目标跟踪程序被处理器执行时,实现如权利要求1-7任一项所述的多目标跟踪方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310933452.4A CN116740145A (zh) | 2023-07-27 | 2023-07-27 | 一种多目标跟踪方法、装置、车辆及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310933452.4A CN116740145A (zh) | 2023-07-27 | 2023-07-27 | 一种多目标跟踪方法、装置、车辆及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116740145A true CN116740145A (zh) | 2023-09-12 |
Family
ID=87918823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310933452.4A Pending CN116740145A (zh) | 2023-07-27 | 2023-07-27 | 一种多目标跟踪方法、装置、车辆及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740145A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808848A (zh) * | 2024-03-01 | 2024-04-02 | 杭州穿石物联科技有限责任公司 | 一种识别跟踪方法、装置、电子设备及存储介质 |
-
2023
- 2023-07-27 CN CN202310933452.4A patent/CN116740145A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808848A (zh) * | 2024-03-01 | 2024-04-02 | 杭州穿石物联科技有限责任公司 | 一种识别跟踪方法、装置、电子设备及存储介质 |
CN117808848B (zh) * | 2024-03-01 | 2024-05-17 | 杭州穿石物联科技有限责任公司 | 一种识别跟踪方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528878B (zh) | 检测车道线的方法、装置、终端设备及可读存储介质 | |
CN111401201B (zh) | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 | |
WO2022126377A1 (zh) | 检测车道线的方法、装置、终端设备及可读存储介质 | |
JP6802331B2 (ja) | 車線処理方法及び装置 | |
CN109087510A (zh) | 交通监测方法及装置 | |
CN109086811A (zh) | 多标签图像分类方法、装置及电子设备 | |
CN110659545B (zh) | 车辆识别模型的训练方法、车辆识别方法、装置和车辆 | |
CN112904359A (zh) | 基于远程激光探测与测量的速度估计 | |
CN115546705B (zh) | 目标识别方法、终端设备及存储介质 | |
CN111461145A (zh) | 一种基于卷积神经网络进行目标检测的方法 | |
US20230401691A1 (en) | Image defect detection method, electronic device and readable storage medium | |
CN116740145A (zh) | 一种多目标跟踪方法、装置、车辆及存储介质 | |
CN115345905A (zh) | 目标对象跟踪方法、装置、终端及存储介质 | |
CN110310305A (zh) | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 | |
CN116107591A (zh) | 基于corner cases的部署模型构建方法 | |
CN114139564B (zh) | 二维码检测方法、装置、终端设备及检测网络的训练方法 | |
CN115661767A (zh) | 一种基于卷积神经网络的图像前方车辆目标识别方法 | |
CN117079265A (zh) | 单目3d目标检测的开放集领域泛化的方法、装置及设备 | |
CN111126271B (zh) | 卡口抓拍图像车辆检测方法、计算机存储介质及电子设备 | |
CN114972492A (zh) | 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质 | |
CN116861262A (zh) | 一种感知模型训练方法、装置及电子设备和存储介质 | |
CN116434156A (zh) | 目标检测方法、存储介质、路侧设备及自动驾驶系统 | |
CN114663812B (zh) | 基于多维注意力机制的联合检测与跟踪方法、装置及设备 | |
CN115761699A (zh) | 交通信号灯的分类方法、装置及电子设备 | |
CN116309628A (zh) | 车道线识别方法和装置、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |