CN117011343A - 一种面向拥挤场景的光流引导多目标跟踪方法 - Google Patents
一种面向拥挤场景的光流引导多目标跟踪方法 Download PDFInfo
- Publication number
- CN117011343A CN117011343A CN202311002146.5A CN202311002146A CN117011343A CN 117011343 A CN117011343 A CN 117011343A CN 202311002146 A CN202311002146 A CN 202311002146A CN 117011343 A CN117011343 A CN 117011343A
- Authority
- CN
- China
- Prior art keywords
- optical flow
- convolution
- module
- tracking
- target tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003287 optical effect Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000001514 detection method Methods 0.000 claims description 36
- 238000010586 diagram Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 238000012546 transfer Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种面向拥挤场景的光流引导多目标跟踪方法,针对现有的多目标跟踪算法进行优化设计,提出了光流引导分支,利用光流信息引导多帧目标特征转移,一方面利用了时序信息,将上下文特征以光流形式引入多目标跟踪当中,本发明提升了模型的跟踪精度,另一方面光流分支设计简单,可保证整体模型实时运行。
Description
技术领域
本发明涉及视频处理、目标跟踪技术领域,具体涉及一种面向拥挤场景的光流引导多目标跟踪方法。
背景技术
多目标跟踪作为计算机视觉领域中一个十分重要的任务,近年来引起业内人士的广泛关注。多目标跟踪的目的是在视频流中识别所有感兴趣的目标,并接下来的数帧中,跟踪器可以自动跟踪所有的目标,并实时发现新出现的目标,从而满足实际中的各种需求。多目标跟踪在军事打击、视频监控、视觉导航、人机交互以及增强现实等方面都有着大量应用。
目前,面向拥挤场景的多目标跟踪仍然存在许多困难。现有的多目标跟踪方法大多分为两类,一类是单帧多目标跟踪方法,如FairMOT。该类方法使用目标检测网络对视频中的每一帧进行目标的检测,并将检测结果与之前帧的结果进行匹配,从而获得当前检测结果的对应身份识别信息。然而,该类方法在面对拥挤场景时,由于大量依赖检测,导致在拥挤场景时精度不高,无法利用时序信息来提升跟踪精度。另一类是时序多目标跟踪方法,如SiamMOT等,该类方法利用视频帧间的运动和时序信息,将多帧或整个视频作为输入进行检测。但由于输入为多帧或视频,实时性难以保证,无法满足多目标跟踪实时的实际需求。
总而言之,现有技术在面对拥挤场景时,难以做到高精度,高速度的多目标跟踪。
发明内容
本发明针对现有技术对拥挤场景的精度低,速度慢等问题,提出了一种面向拥挤场景的光流引导多目标跟踪方法针,对现有的多目标跟踪算法进行优化设计,提出了光流引导分支,利用光流信息引导多帧目标特征转移,一方面利用了时序信息,将上下文特征以光流形式引入多目标跟踪当中,提升了模型的跟踪精度,另一方面光流分支设计简单,可保证整体模型实时运行。本发明快速有效的处理视频上下文信息,实现高精度,高速度的多目标跟踪。
为达到上述目的,本发明采用如下技术方案:
一种面向拥挤场景的光流引导多目标跟踪方法,包括以下步骤:
步骤(1)将标注好的拥挤场景多目标跟踪数据集划分为训练集和测试集,并对训练集和测试集进行预处理;其中训练集与测试集中的每份数据包含两张图片,即当前帧图片与之前帧图片;
步骤(2)利用深度卷积神经网络实现对当前帧图片与之前帧图片的特征提取,得到当前帧特征图与之前帧特征图;
步骤(3)将当前帧图片与之前帧图片一起送入光流网络,得到两帧光流图,随后将之前帧特征图与两帧光流图送入光流引导模块,生成引导特征图;
步骤(4)将引导特征图与当前帧特征图进行并联,之后使用单阶段检测头FCOS对深度卷积神经网络提取后特征进行目标类别与位置信息的预测,然后进行位置信息的解码,得到检测结果;
步骤(5)将当前帧检测结果与之前帧跟踪结果输入到运动学跟踪中,得到跟踪结果;
进一步地,所述步骤(2)中,深度卷积神经网络包含13个深度可分离模块。深度可分离模块由一个卷积核大小为K,卷积核层数为Ci的分组卷积,一个卷积核大小为1,卷积核输入层数为Ci,卷积层输出层数为Co的卷积,两个批归一化层,两个激活层组成。
进一步地,所述步骤(3)中,深度卷积网络中每一个模块都由自注意力模块构成;自注意力模块包含注意力模块,批归一化模块,FFN模块,其参数为通道数C;光流网络包含8个自注意力模块;其中,第一个与第二个的通道数为32,第三个与第四个的通道数为64,第五个与第六个的通道数为128,第七个与第八个的通道数为256;光流引导模块由可变形卷积组成,可变形卷积的输入为偏置与特征图;将光流图作为偏置,之前帧特征图作为特征图进行输入;可变形卷积的通道数为256。
进一步地,所述步骤(4)中,单阶段检测头FCOS包含两个卷积分支:分支一包含两个卷积层,用于预测检测框的置信度,其输出张量的维度为目标类别数;分支二包含两个卷积层,用于预测包围框的相关参数。
进一步地,所述步骤(5)中,运动学跟踪采用IOU跟踪方法,将之前帧跟踪结果与当前帧检测结果计算交并比,得到IOU矩阵;在IOU矩阵中进行匈牙利二分图匹配,得到最优IOU匹配结果,即为当前帧跟踪结果。
与现有技术相比,本发明的有益效果在于:
(1)本发明提出了基于深度光流网络的光流引导模块,将光流信息引入到多目标跟踪当中,在同样利用时序信息的前提下,大量减少了计算量与计算成本,使得计算设备在算力不足条件下也能有效对目标进行跟踪,其实时性得以保证,同时提高了方法的跟踪精度。
(2)本发明在整体网络框架设计合理,采用双流分支并行处理多张图片输入,最大化硬件性能,提升算力资源利用率。同时最后跟踪方法采用运动学跟踪,减少跟踪部分的算力开销,提升整体跟踪效率。
(3)本发明在检测头设计中,通过采用包含两个卷积分支的FCOS检测头,对位置信息及类别信息进行预测时进行直接预测。相较于两阶段的检测网络,能够显著提升检测网络的运算速度,适宜于对实时处理有需求的场景。
附图说明
图1是本发明的一种面向拥挤场景的光流引导多目标跟踪方法的整体流程图;
图2是特征提取网络的详细结构图;其中,图2中的(1)为深度卷积神经网络结构图,其为图1中的特征提取网络的具体结构;图2中的(2)为深度可分离卷积结构图,为图2中的(1)的每一层的具体结构。
图3是光流网络的详细结构图;
图4是本发明实施时输入的原始图像案例;
图5是采用本发明方法获得的跟踪结果,行人为跟踪目标;
图6是采用本发明方法与其他常用方法的对比结果。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
如图1所示,本发明的一种面向拥挤场景的光流引导多目标跟踪方法,包括以下步骤:
步骤(1)将标注好的多目标跟踪数据集划分为训练集和测试集,并对训练集和测试集进行预处理;其中训练集与测试集中的每份数据包含两张图片,即当前帧图片与之前帧图片。
步骤(2)利用深度卷积神经网络实现对当前帧图片与之前帧图片的特征提取,得到当前帧特征图与之前帧特征图。
所述步骤(2)中所述深度卷积神经网络结构如图2的(1)所示,深度卷积网络中每一个模块都由深度可分离模块构成。深度可分离模块由一个卷积核大小为K,卷积核层数为Ci的分组卷积,一个卷积核大小为1,卷积核输入层数为Ci,卷积层输出层数为Co的卷积,两个批归一化层,两个RELU激活层组成。深度可分离模块的具体结构如图2的(2)所示,其中RELU指RELU激活函数,BN为批归一化层,CONV指一个卷积核大小为1,卷积核输入层数为Ci,卷积层输出层数为Co的卷积,DWCONV指一个卷积核大小为K,卷积核层数为Ci的分组卷积。深度卷积神经网络包含13个深度可分离模块,具体参数如表1所示。
表1
卷积序号 | K | Ci | Co |
1 | 3 | 16 | 32 |
2 | 3 | 32 | 64 |
3 | 3 | 64 | 64 |
4 | 3 | 64 | 128 |
5 | 3 | 128 | 128 |
6 | 3 | 128 | 256 |
7 | 5 | 256 | 256 |
8 | 5 | 256 | 256 |
9 | 5 | 256 | 256 |
10 | 5 | 256 | 256 |
11 | 5 | 256 | 256 |
12 | 5 | 256 | 512 |
13 | 5 | 512 | 512 |
步骤(3)将当前帧图片与之前帧图片一起送入光流网络,得到两帧光流图,随后将之前帧特征图与两帧光流图送入光流引导模块,生成引导特征图。
所述步骤(3)中所述光流网络结构如图3所示。深度卷积网络中每一个模块都由自注意力模块构成。自注意力模块包含注意力模块,批归一化模块,FFN模块等,其参数为通道数C。光流网络包含8个自注意力模块,具体参数如表2所示。
表2
光流引导模块由可变形卷积组成,其输入为偏置与特征图。本发明将光流图作为偏置,之前帧特征图作为特征图进行输入。在实验中,可变形卷积的通道数为256。
步骤(4)将引导特征图与当前帧特征图进行并联,之后使用单阶段检测头FCOS对深度卷积神经网络提取后特征进行目标类别与位置信息的预测,然后进行位置信息的解码,得到检测结果;
步骤(5)将当前帧检测结果与之前帧跟踪结果输入到运动学跟踪中,得到跟踪结果;
所述步骤(5)中运动学跟踪采用IOU跟踪方法。将之前帧跟踪结果与当前帧检测结果计算交并比(IOU),得到IOU矩阵。在IOU矩阵中进行匈牙利二分图匹配,得到最优IOU匹配结果,即为当前帧跟踪结果。
实施例
实验环境配置如下,以GPU(型号为gtx3090)作为计算平台,采用GPU并行计算框架,选取Pytorch作为卷积网络框架进行训练,并在gtx3090上进行模型速率验证,本发明具体步骤包括:
步骤(1)将标注好的多目标跟踪数据集划分为训练集和测试集,并对训练集和测试集进行预处理;其中训练集与测试集中的每份数据包含两张图片,当前帧图片与之前帧图片;
步骤(2)依照图1中的网络架构图,图2的深度卷积网络架构图,图3的光流网络结构图构建神经网络;
步骤(3)在训练过程中,将训练集中的图片输入到神经网络结构中,得到检测模块的损失loss;
步骤(4)通过自适应学习率调整算法、利用Pytorch框架中的自动求导机制对网络整体进行训练,得到训练好的模型参数并保存网络模型;
步骤(5)调用网络模型对实际的测试集中数据进行推理计算,得到对应的置信度预测结果、中心点偏移量、包围框参数,然后通过参数解码及NMS得到最终应当保留的跟踪,计算出模型精度;
(6)在RTX3090上部署模型并测试模型速度,在gtx3090上使用TensorRT作为部署框架。
结合上述步骤,本发明包括如下计算方式:
(1)检测模块的损失loss的计算方法为:
在检测过程中,使用一个5维的向量[t,r,b,l,p]来表征物体的包围框。其中t,r,b,l均为向量,表示四个边界的中点相较于检测框中心点的偏移向量;P为置信度预测结果,如图3所示。
基于此,检测模块的损失函数包含以下几个部分:
(1)分类损失Lh:
其中,和p分别代表类别的真值图和预测图,i表示图上的第i个像素,α和β为超参数,用于控制两种情况下的权重比,N是前景目标的数量,pi为第i个像素的预测分类,/>为第i个像素的真实分类,Lh为分类损失。
(2)位置回归损失:
位置回归损失主要包括包围框中心点的偏移损失L0、包围框形状参数的偏移损失Lb、包围框偏转角度的偏移损失Lα,它们的定义依次为:
其中,和ok分别为第k个包围框的中心点的真值和预测值;/>和bk分别为第k个包围框的形状参数的真值和预测值;αi和/>分别为第k个包围框的偏转角度的真值和预测值,N是前景目标的数量,/>表示损失函数。
K为包围框的标号,假设包围框共有N个,K的标号从1开始到N结束。
(2)运动学跟踪计算方法
在该过程中,使用一个4维的向量[x,y,w,h]来表征物体的包围框。其中x,y,w,h均为向量,表示该包围框的左上角X轴坐标,左上角Y轴坐标,包围框的X轴长度与包围框的Y轴长度。
对于所有的检测框Di,计算其对任一跟踪框Tj的交并比IOU(i,j):
其中,是检测框Di左上角X轴坐标,左上角Y轴坐标,包围框的X轴长度与包围框的Y轴长度,/>是检测框Di左上角X轴坐标,左上角Y轴坐标,包围框的X轴长度与包围框的Y轴长度。如果该交并比大于阈值,则认为该检测框与跟踪框重复,删去该检测框。如果小于阈值,则认为该检测框为新出现的物体,给与新的身份标号。该阈值一般根据场景设置,默认阈值为0.5。∩表示交集,∪表示并集。
与现有技术相比,本发明利用光流信息引导多帧目标特征转移,一方面利用了时序信息,将上下文特征以光流形式引入多目标跟踪当中,提升了模型的跟踪精度,另一方面光流分支设计简单,可保证整体模型实时运行。跟踪结果如图5所示,与其他方法的对比如图6所示。
需要强调的是:以上仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (5)
1.一种面向拥挤场景的光流引导多目标跟踪方法,其特征在于,包括以下步骤:
步骤(1)将标注好的拥挤场景多目标跟踪数据集划分为训练集和测试集,并对训练集和测试集进行预处理;其中训练集与测试集中的每份数据包含两张图片,即当前帧图片与之前帧图片;
步骤(2)利用深度卷积神经网络实现对当前帧图片与之前帧图片的特征提取,得到当前帧特征图与之前帧特征图;
步骤(3)将当前帧图片与之前帧图片一起送入光流网络,得到两帧光流图,随后将之前帧特征图与两帧光流图送入光流引导模块,生成引导特征图;
步骤(4)将引导特征图与当前帧特征图进行并联,之后使用单阶段检测头FCOS对深度卷积神经网络提取后特征进行目标类别与位置信息的预测,然后进行位置信息的解码,得到检测结果;
步骤(5)将当前帧检测结果与之前帧跟踪结果输入到运动学跟踪中,得到跟踪结果。
2.根据权利要求1所述的一种面向拥挤场景的光流引导多目标跟踪方法,其特征在于:所述步骤(2)中,深度卷积神经网络包含13个深度可分离模块;深度可分离模块由一个卷积核大小为K,卷积核层数为Ci的分组卷积,一个卷积核大小为1,卷积核输入层数为Ci,卷积层输出层数为Co的卷积,两个批归一化层,两个激活层组成。
3.根据权利要求1所述的一种面向拥挤场景的光流引导多目标跟踪方法,其特征在于:所述步骤(3)中,深度卷积网络中每一个模块都由自注意力模块构成;自注意力模块包含注意力模块,批归一化模块,FFN模块,其参数为通道数C;光流网络包含8个自注意力模块;其中,第一个与第二个的通道数为32,第三个与第四个的通道数为64,第五个与第六个的通道数为128,第七个与第八个的通道数为256;光流引导模块由可变形卷积组成,可变形卷积的输入为偏置与特征图;将光流图作为偏置,之前帧特征图作为特征图进行输入;可变形卷积的通道数为256。
4.根据权利要求1所述的面向拥挤场景的光流引导多目标跟踪方法,其特征在于:所述步骤(4)中,单阶段检测头FCOS包含两个卷积分支:分支一包含两个卷积层,用于预测检测框的置信度,其输出张量的维度为目标类别数;分支二包含两个卷积层,用于预测包围框的相关参数。
5.根据权利要求1所述的面向拥挤场景的光流引导多目标跟踪方法,其特征在于:所述步骤(5)中,运动学跟踪采用IOU跟踪方法,将之前帧跟踪结果与当前帧检测结果计算交并比,得到IOU矩阵;在IOU矩阵中进行匈牙利二分图匹配,得到最优IOU匹配结果,即为当前帧跟踪结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311002146.5A CN117011343B (zh) | 2023-08-09 | 2023-08-09 | 一种面向拥挤场景的光流引导多目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311002146.5A CN117011343B (zh) | 2023-08-09 | 2023-08-09 | 一种面向拥挤场景的光流引导多目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117011343A true CN117011343A (zh) | 2023-11-07 |
CN117011343B CN117011343B (zh) | 2024-04-05 |
Family
ID=88561530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311002146.5A Active CN117011343B (zh) | 2023-08-09 | 2023-08-09 | 一种面向拥挤场景的光流引导多目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011343B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140334668A1 (en) * | 2013-05-10 | 2014-11-13 | Palo Alto Research Center Incorporated | System and method for visual motion based object segmentation and tracking |
CN109902667A (zh) * | 2019-04-02 | 2019-06-18 | 电子科技大学 | 基于光流引导特征块和卷积gru的人脸活体检测方法 |
CN110619655A (zh) * | 2019-08-23 | 2019-12-27 | 深圳大学 | 一种融合光流信息和Siamese框架的目标跟踪方法及装置 |
US20210295534A1 (en) * | 2020-03-18 | 2021-09-23 | Samsung Electronics Co., Ltd. | Method and apparatus for tracking target |
CN115035159A (zh) * | 2022-06-06 | 2022-09-09 | 浙江大学 | 一种基于深度学习和时序特征增强的视频多目标跟踪方法 |
CN115713650A (zh) * | 2022-11-07 | 2023-02-24 | 石云东 | 一种基于目标检测和追踪的检身方法及系统 |
CN116311353A (zh) * | 2023-02-09 | 2023-06-23 | 哈尔滨工业大学 | 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质 |
-
2023
- 2023-08-09 CN CN202311002146.5A patent/CN117011343B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140334668A1 (en) * | 2013-05-10 | 2014-11-13 | Palo Alto Research Center Incorporated | System and method for visual motion based object segmentation and tracking |
CN109902667A (zh) * | 2019-04-02 | 2019-06-18 | 电子科技大学 | 基于光流引导特征块和卷积gru的人脸活体检测方法 |
CN110619655A (zh) * | 2019-08-23 | 2019-12-27 | 深圳大学 | 一种融合光流信息和Siamese框架的目标跟踪方法及装置 |
US20210295534A1 (en) * | 2020-03-18 | 2021-09-23 | Samsung Electronics Co., Ltd. | Method and apparatus for tracking target |
CN115035159A (zh) * | 2022-06-06 | 2022-09-09 | 浙江大学 | 一种基于深度学习和时序特征增强的视频多目标跟踪方法 |
CN115713650A (zh) * | 2022-11-07 | 2023-02-24 | 石云东 | 一种基于目标检测和追踪的检身方法及系统 |
CN116311353A (zh) * | 2023-02-09 | 2023-06-23 | 哈尔滨工业大学 | 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
李鑫泽 等: "高效检测复杂场景的快速金字塔网络SPNet", 《中国图象图形学报》, 31 May 2020 (2020-05-31), pages 977 * |
Also Published As
Publication number | Publication date |
---|---|
CN117011343B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN108520203B (zh) | 基于融合自适应多外围框与十字池化特征的多目标特征提取方法 | |
CN113591978B (zh) | 一种基于置信惩罚正则化的自我知识蒸馏的图像分类方法、设备及存储介质 | |
CN110334584B (zh) | 一种基于区域全卷积网络的手势识别方法 | |
CN112115879B (zh) | 一种遮挡敏感的自监督行人重识别方法及系统 | |
CN113313703A (zh) | 基于深度学习图像识别的无人机输电线巡检方法 | |
CN112712052A (zh) | 一种机场全景视频中微弱目标的检测识别方法 | |
CN112487981A (zh) | 基于双路分割的ma-yolo动态手势快速识别方法 | |
CN113192124A (zh) | 一种基于孪生网络的图像目标定位方法 | |
Yu et al. | Deep object detector with attentional spatiotemporal LSTM for space human–robot interaction | |
CN114373194A (zh) | 基于关键帧与注意力机制的人体行为识别方法 | |
CN111898418A (zh) | 一种基于t-tiny-yolo网络的人体异常行为检测方法 | |
US20240161461A1 (en) | Object detection method, object detection apparatus, and object detection system | |
WO2023246921A1 (zh) | 目标属性识别方法、模型训练方法和装置 | |
CN117011343B (zh) | 一种面向拥挤场景的光流引导多目标跟踪方法 | |
CN110020688B (zh) | 基于深度学习的遮挡行人检测方法 | |
Wang et al. | Summary of object detection based on convolutional neural network | |
CN116824333A (zh) | 一种基于深度学习模型的鼻咽癌检测系统 | |
CN112487927B (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 | |
CN111950586B (zh) | 一种引入双向注意力的目标检测方法 | |
CN112380970B (zh) | 基于局部区域搜索的视频目标检测方法 | |
CN115588217A (zh) | 一种基于深度自注意网络的人脸属性检测方法 | |
CN114359786A (zh) | 一种基于改进时空卷积网络的唇语识别方法 | |
CN114170625A (zh) | 一种上下文感知、噪声鲁棒的行人搜索方法 | |
Wang et al. | YOLOMask: Real-time Instance Segmentation With Integrating YOLOv5 and OrienMask |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |