CN113034543B - 一种基于局部注意力机制的3D-ReID多目标追踪方法 - Google Patents
一种基于局部注意力机制的3D-ReID多目标追踪方法 Download PDFInfo
- Publication number
- CN113034543B CN113034543B CN202110292094.4A CN202110292094A CN113034543B CN 113034543 B CN113034543 B CN 113034543B CN 202110292094 A CN202110292094 A CN 202110292094A CN 113034543 B CN113034543 B CN 113034543B
- Authority
- CN
- China
- Prior art keywords
- reid
- point cloud
- feature extraction
- local
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/292—Multi-camera tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
一种基于局部注意力机制的3D‑ReID多目标追踪方法,所述该方法包括如下步骤:1)点云预处理、2)点云主干网络特征提取、3)局部ReID特征提取分支、4)多任务学习、5)数据关联和运动预测,本发明使用了点云局部的ReID特征进行3D多目标追踪,在物体运动不确定性较大的情况和遮挡场景下仍能进行跨帧的多目标追踪,具有很强的鲁棒性。
Description
技术领域
本发明涉及多目标检测与追踪,主要涉及一种基于局部注意力机制的3D-ReID多目标追踪方法,属于深度学习方法领域。
背景技术
跨境追踪技术(Person Re-Identification简称ReID),主要解决跨摄像头跨场景下行人的识别与检索,最早起源于人脸识别技术。多目标跟踪(MOT)是在一段视频中同时跟踪多个目标,主要应用于安防监控和自动驾驶等场景。由于MOT需要进行前后帧物体的数据关联任务,引入ReID技术进行数据关联可以在遮挡或者物体运动不确定性很大的情况下仍能较好地进行多目标追踪,现有的多目标追踪技术大多基于视觉进行,因为图像具有很多强区分力的特征:如2D形状,颜色以及纹理特征等,视觉的ReID技术已经非常成熟。当前视觉MOT主要遵循“先检测后跟踪”的范式,某些工作采用基于多任务学习的方式将ReID分支嵌入到检测器中同时进行位置回归,物体分类及ReID特征提取任务,之后基于位置和特征相似性进行数据关联。而当前大多数3D多目标追踪工作主要基于视觉或者融合多模态信息进行3D多目标追踪,而基于点云ReID做多目标追踪的工作现阶段仍比较少,相比视觉,点云具有更多的3D形状信息,点云的空间分布以及丰富的距离信息,利用点云特有的性质做ReID可以在3D空间下实现更鲁棒的多目标追踪。
发明内容
为解决现有技术的不足,本发明旨在提出一种基于局部注意力机制的点云ReID多目标追踪的方法,通过对点云预处理后输入到神经网络中进行特征提取,之后基于物体回归的位置进行局部ReID特征提取,数据关联时采用多种相似性矩阵进行关联,实现对复杂场景下目标物体的精准识别与追踪。
为实现上述目的,本发明采用以下技术方案:一种基于局部注意力机制的3D-ReID多目标追踪方法,所述方法包括如下步骤:
1)点云预处理:由于点云具有无序的性质,无法直接输到卷积网络里进行处理,所以需要对点云进行预处理,本方法采用了体素或pillar的预处理方式,经体素或pillar编码后,点云具有了规整的结构,可以输入到卷积神经网络中进行特征提取。其中体素化方式是在点云的3D空间中划分网格对点进行量化,pillar方式是将点云划分成柱状体形式。
2)点云主干网络特征提取:经过预处理后的点云可以使用标准的3D卷积或point方式的网络进行处理,得到相应形式的featuremap,将3D形式的featuremap经变换得到2D形式的featuremap,之后使用2D卷积网络进行不同层次特征的处理和拼接,送入后面的多分支任务head中。
3)局部ReID特征提取分支:ReID特征提取分支基于detection预测得到物体BEV形式的Bbox生成l×l大小的采样网格点,之后基于采样网格点在C×C×W ReID特征图上进行双线性插值采样,得到物体的局部ReID特征:
其中γ是双线性插值采样的系数,f(i.j)是BEV形式的ReID特征图的具体特征值。在局部采样得到的特征图上应用通道注意力和空间注意力机制后得到每个物体的局部关键ReID特征值,之后经全连接层得到最终物体的ReID特征。因物体的ReID特征和物体自身的局部邻域特征最相关,经局部ReID特征采样后,ReID特征和物体自身的位置大小关联性更强,由于点云具有分布不均的特性,所以采样得到的特征值经过注意力机制后,会得到关键特征值点,这样某些有效的特征值对于重识别能力的贡献更高,最终输出的ReID特征将具有更强的判别能力。
4)多任务学习:经过主干网络对点云的处理后,便得到不同层次的特征图,对于多目标追踪任务,需要进行物体的定位,分类和ReID特征提取,所以需要进行多分支head的构建,对于定位和分类采用常规的卷积方法进行位置回归和二分类。对于局部点云ReID特征提取分支,可以采用表征学习和度量学习的方法进行训练,对于表征学习,通常直接利用CNN网络进行特征的自动提取,代替手动提取特征,所以在MOT任务中,可以将ReID特征提取视作分类任务,将不同的车或者行人视作不同的类别,直接根据id标号进行网络的约束,本方法采用了softmaxloss进行点云ReID特征提取;而度量学习是直接从网络提取的同一物体的ReID特征在高维空间中的向量距离经训练变近,不同物体间的向量距离变远,本方法采用了Npairloss进行点云ReID特征提取:
其中K是anchor的数目,是特征间的余弦距离,是anchor特征,是负样本的特征,是正样本的特征。由于ReID特征在高维空间中可以根据相似性距离进行区分,所以本发明也使用了ReID特征进行增强分类任务,将与中心ReID特征相似距离较远的物体进行了滤除。
5)数据关联和运动预测:数据关联根据多种相似性矩阵:IOU相似性矩阵,特征相似性矩阵和分类矩阵进行前后帧物体的数据关联,通过分类矩阵约束仅同类物体可以被关联,经过特征相似性和IOU矩阵实进行权值分配,使用匈牙利算法进行准确的前后帧预测框和检测框的数据关联,实现了对同一物体的跨帧追踪,运动预测则根据过去帧物体的运动状态对当前帧物体的运动状态进行预测。
本发明使用了点云局部的ReID特征进行3D多目标追踪,在物体运动不确定性较大的情况和遮挡场景下仍能进行跨帧的多目标追踪,具有很强的鲁棒性。本发明提出的方法优势体现在基于物体位置进行实例级别的ReID特征提取,所提取的特征和物体自身更相关,同时使用了不同的方法对ReID特征提取分支进行训练,并使用该特征进行分类任务的增强。本发明可以适用于各种需要目标识别与追踪的应用场景,特别是使用多激光雷达检测的场景,例如公共区域,十字路口,自动驾驶等。
附图说明
图1为本发明整体流程图;
图2为本发明ReID特征T-SNE降维可视化比对图。
图3为本发明KITTI数据集的测试性能采集数据表。
具体实施方式
下面将结合附图对本发明作详细的介绍:图1-3所示,一种基于局部注意力机制的点云ReID多目标追踪的方法,通过对点云预处理后输入到神经网络中进行特征提取,之后基于物体回归的位置进行局部ReID特征提取,数据关联时采用多种相似性矩阵进行关联,实现对复杂场景下目标物体的精准识别与追踪。为实现上述目的,本发明采用以下技术方案:一种基于局部注意力机制的3D-ReID多目标追踪方法,所述方法包括如下步骤:
1)点云预处理:由于点云具有无序的性质,无法直接输到卷积网络里进行处理,所以需要对点云进行预处理,本方法采用了体素或pillar的预处理方式,经体素或pillar编码后,点云具有了规整的结构,可以输入到卷积神经网络中进行特征提取。其中体素化方式是在点云的3D空间中划分网格对点进行量化,pillar方式是将点云划分成柱状体形式。
2)点云主干网络特征提取:经过预处理后的点云可以使用标准的3D卷积或point方式的网络进行处理,得到相应形式的featuremap,将3D形式的featuremap经变换得到2D形式的featuremap,之后使用2D卷积网络进行不同层次特征的处理和拼接,送入后面的多分支任务head中。
3)局部ReID特征提取分支:ReID特征提取分支基于detection预测得到物体BEV形式的Bbox生成l×l大小的采样网格点,之后基于采样网格点在C×C×W ReID特征图上进行双线性插值采样,得到物体的局部ReID特征:
其中γ是双线性插值采样的系数,f(i.j)是BEV形式的ReID特征图的具体特征值。在局部采样得到的特征图上应用通道注意力和空间注意力机制后得到每个物体的局部关键ReID特征值,之后经全连接层得到最终物体的ReID特征。因物体的ReID特征和物体自身的局部邻域特征最相关,经局部ReID特征采样后,ReID特征和物体自身的位置大小关联性更强,由于点云具有分布不均的特性,所以采样得到的特征值经过注意力机制后,会得到关键特征值点,这样某些有效的特征值对于重识别能力的贡献更高,最终输出的ReID特征将具有更强的判别能力。
4)多任务学习:经过主干网络对点云的处理后,便得到不同层次的特征图,对于多目标追踪任务,需要进行物体的定位,分类和ReID特征提取,所以需要进行多分支head的构建,对于定位和分类采用常规的卷积方法进行位置回归和二分类。对于局部点云ReID特征提取分支,可以采用表征学习和度量学习的方法进行训练,对于表征学习,通常直接利用CNN网络进行特征的自动提取,代替手动提取特征,所以在MOT任务中,可以将ReID特征提取视作分类任务,将不同的车或者行人视作不同的类别,直接根据id标号进行网络的约束,本方法采用了softmaxloss进行点云ReID特征提取;而度量学习是直接从网络提取的同一物体的ReID特征在高维空间中的向量距离经训练变近,不同物体间的向量距离变远,本方法采用了Npairloss进行点云ReID特征提取:
其中K是anchor的数目,是特征间的余弦距离,是anchor特征,是负样本的特征,是正样本的特征。由于ReID特征在高维空间中可以根据相似性距离进行区分,所以本发明也使用了ReID特征进行增强分类任务,将与中心ReID特征相似距离较远的物体进行了滤除。
5)数据关联和运动预测:数据关联根据多种相似性矩阵:IOU相似性矩阵,特征相似性矩阵和分类矩阵进行前后帧物体的数据关联,通过分类矩阵约束仅同类物体可以被关联,经过特征相似性和IOU矩阵实进行权值分配,使用匈牙利算法进行准确的前后帧预测框和检测框的数据关联,实现了对同一物体的跨帧追踪,运动预测则根据过去帧物体的运动状态对当前帧物体的运动状态进行预测。
从图1中我们可以看出主体分为4个步骤:点云的预处理,点云特征提取,多分支任务构建,数据关联与运动预测,其中ReID特征提取分支使用了物体BEV形式的Bbox进行局部特征的采样,并基于注意力机制进行关键特征点的提取。
图2中的两幅图是对采用度量学习法提取的多帧点云ReID特征的降维可视化,其中相同数字代表的是同一个物体,不同数字代表不同物体,数字间的位置越接近代表特征间的相似性程度越高,可以看出相同物体间ReID特征的相似性比较高,不同物体间特征的相似性比较低。
图2是使用KITTI数据集的测试性能比较,其中MOTA是最重要的多目标追踪的评价指标。
具体实施方式举例
1.可以使用多种点云的预处理编码方式。比如采用pillar的方式速度比较快,采用体素的方式具有可以处理大量点云的优点。
2.可以使用多种点云的特征提取方式。比如采用基于point的方式或者3D稀疏卷积的方式。
3.可以采取多种点云ReID特征训练方法,比如表征学习和度量学习的方法,在点云中使用度量学习的方法具有更强的重识别能力。
4.使用物体BEV形式的Bbox进行局部特征点采样时可以生成不同密度或者不同邻域大小的采样网格点,不同密度和不同的邻域大小对性能均有重要的影响。
5.使用点云ReID特征进行数据关联可以在3D空间下进行更准确的多目标追踪,在物体运动较大和遮挡场景下具有很强的实用性。
Claims (1)
1.一种基于局部注意力机制的3D-ReID多目标追踪方法,其特征在于所述方法包括如下步骤:
1)点云预处理:由于点云具有无序的性质,无法直接输到卷积网络里进行处理,需要对点云进行预处理,采用了体素或pillar的预处理方式,经体素或pillar编码后,点云具有了规整的结构,输入到卷积神经网络中进行特征提取,其中体素化方式是在点云的3D空间中划分网格对点进行量化,pillar方式是将点云划分成柱状体形式;
2)点云主干网络特征提取:经过预处理后的点云使用标准的3D卷积或point方式的网络进行处理,得到相应形式的featuremap,将3D形式的featuremap经变换得到2D形式的featuremap,之后使用2D卷积网络进行不同层次特征的处理和拼接,送入后面的多分支任务head中;
3)局部ReID特征提取分支:ReID特征提取分支基于detection预测得到物体BEV形式的Bbox生成l×l大小的采样网格点,之后基于采样网格点在C×C×WReID特征图上进行双线性插值采样,得到物体的局部ReID特征:
其中γ是双线性插值采样的系数,f(i.j)是BEV形式的ReID特征图的具体特征值,在局部采样得到的特征图上应用通道注意力和空间注意力机制后得到每个物体的局部关键ReID特征值,之后经全连接层得到最终物体的ReID特征;
4)多任务学习:经过主干网络对点云的处理后,便得到不同层次的特征图,对于多目标追踪任务,需要进行物体的定位,分类和ReID特征提取,需要进行多分支head的构建,对于定位和分类采用常规的卷积方法进行位置回归和二分类,对于局部点云ReID特征提取分支,采用表征学习和度量学习的方法进行训练,对于表征学习,直接利用CNN网络进行特征的自动提取,代替手动提取特征,在MOT任务中,将ReID特征提取视作分类任务,将不同的车或者行人视作不同的类别,直接根据id标号进行网络的约束,采用了softmaxloss进行点云ReID特征提取;而度量学习是直接从网络提取的同一物体的ReID特征在高维空间中的向量距离经训练变近,不同物体间的向量距离变远,采用了Npairloss进行点云ReID特征提取:
其中K是anchor的数目,是特征间的余弦距离,是anchor特征,是负样本的特征,是正样本的特征,由于ReID特征在高维空间中根据相似性距离进行区分,使用了ReID特征进行增强分类任务,将与中心ReID特征相似距离较远的物体进行了滤除;
5)数据关联和运动预测:数据关联根据多种相似性矩阵:IOU相似性矩阵,特征相似性矩阵和分类矩阵进行前后帧物体的数据关联,通过分类矩阵约束仅同类物体可以被关联,经过特征相似性和IOU矩阵实进行权值分配,使用匈牙利算法进行准确的前后帧预测框和检测框的数据关联,实现了对同一物体的跨帧追踪,运动预测则根据过去帧物体的运动状态对当前帧物体的运动状态进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110292094.4A CN113034543B (zh) | 2021-03-18 | 2021-03-18 | 一种基于局部注意力机制的3D-ReID多目标追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110292094.4A CN113034543B (zh) | 2021-03-18 | 2021-03-18 | 一种基于局部注意力机制的3D-ReID多目标追踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113034543A CN113034543A (zh) | 2021-06-25 |
CN113034543B true CN113034543B (zh) | 2022-05-03 |
Family
ID=76471532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110292094.4A Active CN113034543B (zh) | 2021-03-18 | 2021-03-18 | 一种基于局部注意力机制的3D-ReID多目标追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113034543B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762231B (zh) * | 2021-11-10 | 2022-03-22 | 中电科新型智慧城市研究院有限公司 | 端对端的多行人姿态跟踪方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748869A (zh) * | 2017-10-26 | 2018-03-02 | 深圳奥比中光科技有限公司 | 3d人脸身份认证方法与装置 |
CN109949347A (zh) * | 2019-03-15 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 人体跟踪方法、装置、系统、电子设备和存储介质 |
CN112017231A (zh) * | 2020-08-27 | 2020-12-01 | 中国平安财产保险股份有限公司 | 基于单目摄像头的人体体重识别方法、装置及存储介质 |
CN112389443A (zh) * | 2019-08-19 | 2021-02-23 | 辉达公司 | 使用一个或更多个神经网络进行视线检测 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012083982A1 (en) * | 2010-12-21 | 2012-06-28 | Metaio Gmbh | Method for determining a parameter set designed for determining the pose of a camera and/or for determining a three-dimensional structure of the at least one real object |
US9652896B1 (en) * | 2015-10-30 | 2017-05-16 | Snap Inc. | Image based tracking in augmented reality systems |
US11062469B2 (en) * | 2018-03-09 | 2021-07-13 | Microsoft Technology Licensing, Llc | 4D tracking utilizing depth data from multiple 3D cameras |
-
2021
- 2021-03-18 CN CN202110292094.4A patent/CN113034543B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748869A (zh) * | 2017-10-26 | 2018-03-02 | 深圳奥比中光科技有限公司 | 3d人脸身份认证方法与装置 |
CN109949347A (zh) * | 2019-03-15 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 人体跟踪方法、装置、系统、电子设备和存储介质 |
CN112389443A (zh) * | 2019-08-19 | 2021-02-23 | 辉达公司 | 使用一个或更多个神经网络进行视线检测 |
CN112017231A (zh) * | 2020-08-27 | 2020-12-01 | 中国平安财产保险股份有限公司 | 基于单目摄像头的人体体重识别方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113034543A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119728B (zh) | 基于多尺度融合语义分割网络的遥感图像云检测方法 | |
CN107564025B (zh) | 一种基于深度神经网络的电力设备红外图像语义分割方法 | |
CN111931684B (zh) | 一种基于视频卫星数据鉴别特征的弱小目标检测方法 | |
CN106778595B (zh) | 基于高斯混合模型的人群中异常行为的检测方法 | |
CN110956094A (zh) | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 | |
CN109151501A (zh) | 一种视频关键帧提取方法、装置、终端设备及存储介质 | |
CN111723693B (zh) | 一种基于小样本学习的人群计数方法 | |
CN111339883A (zh) | 复杂场景下基于人工智能的变电站内异常行为识别与检测方法 | |
CN106960176B (zh) | 一种基于超限学习机和颜色特征融合的行人性别识别方法 | |
CN108829711B (zh) | 一种基于多特征融合的图像检索方法 | |
CN109977968B (zh) | 一种深度学习分类后比较的sar变化检测方法 | |
CN113139489B (zh) | 基于背景提取和多尺度融合网络的人群计数方法及系统 | |
CN111611861B (zh) | 一种基于多尺度特征关联的图像变化检测方法 | |
CN110415260B (zh) | 基于字典与bp神经网络的烟雾图像分割与识别方法 | |
CN113011357A (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN113313031B (zh) | 一种基于深度学习的车道线检测和车辆横向定位方法 | |
Sasirekha et al. | Enhanced techniques for PDF image segmentation and text extraction | |
CN113034543B (zh) | 一种基于局部注意力机制的3D-ReID多目标追踪方法 | |
CN112785610B (zh) | 一种融合低层特征的车道线语义分割方法 | |
Shit et al. | An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection | |
CN114612456B (zh) | 一种基于深度学习的钢坯自动语义分割识别方法 | |
CN115953736A (zh) | 一种基于视频监控与深度神经网络的人群密度估计方法 | |
Chen et al. | An image restoration and detection method for picking robot based on convolutional auto-encoder | |
CN115984568A (zh) | 一种基于YOLOv3网络的雾霾环境下目标检测方法 | |
CN114612315A (zh) | 一种基于多任务学习的高分辨率影像缺失区域重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |