CN114565637A - 一种基于特征增强和视频历史帧的单目标跟踪方法 - Google Patents

一种基于特征增强和视频历史帧的单目标跟踪方法 Download PDF

Info

Publication number
CN114565637A
CN114565637A CN202210041658.1A CN202210041658A CN114565637A CN 114565637 A CN114565637 A CN 114565637A CN 202210041658 A CN202210041658 A CN 202210041658A CN 114565637 A CN114565637 A CN 114565637A
Authority
CN
China
Prior art keywords
frame
historical
network
features
historical frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210041658.1A
Other languages
English (en)
Other versions
CN114565637B (zh
Inventor
庄艳辉
洪朝群
郭泽添
范一庆
周卉芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University of Technology
Original Assignee
Xiamen University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University of Technology filed Critical Xiamen University of Technology
Priority to CN202210041658.1A priority Critical patent/CN114565637B/zh
Publication of CN114565637A publication Critical patent/CN114565637A/zh
Application granted granted Critical
Publication of CN114565637B publication Critical patent/CN114565637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于特征增强和视频历史帧的单目标跟踪方法,首先从查询帧之前的视频序列中作为历史帧集合,然后加入标签图进行掩膜处理;随后,与当前查询帧一起送入特征提取网络提取目标特征,对历史帧特征进行拼接后送入历史帧读取和特征增强网络;通过离线训练模型EnhanceNet提供的卷积参数对历史帧特征进行增强,并使用softmax函数计算与查询帧特征的相似度矩阵。最后,将相似度矩阵与查询帧特征拼接送入头部网络,进行分类和回归,从而预测目标位置。本发明方法提高了目标跟踪算法在复杂场景下的鲁棒性和准确率并保持跟踪的实时性要求。

Description

一种基于特征增强和视频历史帧的单目标跟踪方法
技术领域
本发明涉及目标跟踪领域,特别是指一种基于特征增强和视频历史帧的单目标跟踪方法。
背景技术
目标跟踪作为计算机视觉的一部分,在现实生活中得到了广泛的应用,如人机交互、视频监控、无人驾驶等。为了将目标跟踪技术应用到日常生活中,我们做了很多努力。尽管近年来目标跟踪得到了快速发展,取得了许多重要的成果,但在复杂背景、相似目标干扰、变形等复杂跟踪环境下,跟踪器的性能仍难以满足实际需要。
对于目标跟踪算法的实现,目前主流的思路是利用Siamese网络的思想,分别提取模版图像和查询图像的特征,然后进行互相关计算获得互相关响应图,送入分类回归网络预测目标位置。然而,目前基于Siamese的跟踪方法充分利用了跟踪序列第一帧的信息,但跟踪器仅依赖于第一帧的信息,无法应对后续帧中被跟踪目标的变化。这使得基于Siamese网络的跟踪器面临变形、光照变化和遮挡等诸多挑战时,表现不佳。由于目前的跟踪器并没有很好的利用历史帧信息,导致目标在后续帧出现较大变化的情况时,模型没有很好的识别能力,并且现有基于模板更新机制的跟踪器采用复杂的计算策略和耗时的优化来获得良好的跟踪性能,但不能满足实时跟踪的要求。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于特征增强和视频历史帧的单目标跟踪方法,通过Siamese网络的思想,分别提取视频历史帧和当前帧的特征,对历史帧特征进行在线特征增强后与当前帧特征计算相似性矩阵,最后将相似性矩阵送入分类回归网络预测目标位置,能够实现目标跟踪在复杂场景下的鲁棒性和准确率并保持跟踪的实时性要求。
本发明采用如下技术方案:
一种基于特征增强和视频历史帧的单目标跟踪方法,包括以下处理步骤:
步骤1:从视频序列中,选取设定数量帧作为历史帧集合,加入二值掩膜mask标签图;
步骤2:将含标签历史帧集合和当前帧,输入特征提取骨干网络进行历史帧特征提取和当前帧特征提取;将历史帧集合和二值掩膜mask标签图输入第一特征提取骨干网络进行历史帧特征提取,将当前帧输入第二特征提取骨干网络进行当前帧特征提取;
步骤3:将提取的历史帧特征沿通道拼接,得到拼接后的历史帧特征;
步骤4:根据自设计的EnhanceNet模块提供的离线训练阶段输出的卷积参数,对拼接后的历史帧特征进行在线特征增强;
步骤5:通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵,并将相似性矩阵与当前帧特征矩阵沿通道拼接,得到相似性响应图;
步骤6:将相似性响应图输入头部网络中,所述头部网络由分类网络和回归网络组成,分类网络预测相似性响应图每个像素点的目标得分,在得分最高的像素点处,通过回归网络预测该像素点对应原图的目标框位置,实现单目标跟踪。
具体地,从视频序列中,选取设定数量帧作为历史帧集合,具体包括:
跟踪过程中,需要每间隔20帧通过随机仿射变换的采样方法重新选择一次历史帧集合,并且将最大帧索引间隙设置为100帧以内。
具体地,所述步骤2,具体为:
采用GoogleNet作为特征提取骨干网络;其中,第一特征提取骨干网络和第二特征提取骨干网络结构相同但参数不同;将历史帧集合和二值掩膜mask标签图输入第一特征提取骨干网络进行历史帧特征提取,其公式如下:
Figure BDA0003470496150000031
对标签图和历史帧图像中第i个位置进行操作,其中g为额外的卷积层,其作用是与骨干网络
Figure BDA0003470496150000032
的第一层网络将历史帧m与标签图c重塑为相同尺寸,线性网络层m将特征降维,
Figure BDA0003470496150000033
表示历史帧特征提取网络的第一层,
Figure BDA0003470496150000034
表示除第一层外的历史帧特征提取网络。
具体地,步骤4中根据自设计的EnhanceNet模块提供的离线训练阶段输出的卷积参数,对拼接后的历史帧特征进行在线特征增强,具体为:
EnhanceNet模块根据掩膜标签图分别训练用于目标和背景增强的卷积参数,其公式如下:
Figure BDA0003470496150000035
其中,Xt为对拼接后的历史帧原始特征,
Figure BDA0003470496150000036
为对拼接后的历史帧增强特征,Mo是目标二值掩膜标签图,Wo是目标区域特征增强卷积参数,Wb是背景区域特征增强卷积参数,这两个卷积参数都由离线网络EnhanceNet训练获得;
将原始特征与增强特征进行混合,混合公式如下:
Figure BDA0003470496150000037
其中α1和α2分别设置为0.1和0.7。
具体地,步骤5通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵,具体为:
利用softmax函数计算像素级的相似度,其公式如下:
Figure BDA0003470496150000041
其中缩放因子s用于防止exp函数溢出,其值设为
Figure BDA0003470496150000042
n为图像经过骨干网络输出的特征图通道数;m表示历史帧图像,q表示查询帧图像,i表示图历史帧图像的横坐标,j表示查询帧图像的纵坐标,k表示历史帧图像的横坐标,公式中分母为求和运算。
具体地,步骤6中,所述头部网络中的分类网络和回归网络,都包含7个卷积层,每个卷积层后都采用ReLU作为激活函数。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明提供一种基于特征增强和视频历史帧的单目标跟踪方法,包括以下处理步骤:首先从视频序列中,选取设定数量帧作为历史帧集合,加入二值掩膜mask标签图;将含标签历史帧集合和当前帧,输入特征提取骨干网络进行历史帧特征提取和当前帧特征提取;将历史帧集合和二值掩膜mask标签图输入第一特征提取骨干网络进行历史帧特征提取,将当前帧输入第二特征提取骨干网络进行当前帧特征提取;将提取的历史帧特征沿通道拼接,得到拼接后的历史帧特征;根据自设计的EnhanceNet模块提供的离线训练阶段输出的卷积参数,对拼接后的历史帧特征进行在线特征增强;通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵,并将相似性矩阵与当前帧特征矩阵沿通道拼接,得到相似性响应图;将相似性响应图输入头部网络中,所述头部网络由分类网络和回归网络组成,分类网络预测相似性响应图每个像素点的目标得分,在得分最高的像素点处,通过回归网络预测该像素点对应原图的目标框位置,实现单目标跟踪;本发明提供的方法通过Siamese网络的思想,分别提取视频历史帧和当前帧的特征,对历史帧特征进行在线特征增强后与当前帧特征计算相似性矩阵,最后将相似性矩阵送入分类回归网络预测目标位置,能够实现目标跟踪在复杂场景下的鲁棒性和准确率并保持跟踪的实时性要求。
附图说明
图1为本发明实施例提供的基于特征增强和视频历史帧的单目标跟踪方法流程图;
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
本发明提供的一种基于特征增强和视频历史帧的单目标跟踪方法,通过Siamese网络的思想,分别提取视频历史帧和当前帧的特征,对历史帧特征进行在线特征增强后与当前帧特征计算相似性矩阵,最后将相似性矩阵送入分类回归网络预测目标位置,能够实现目标跟踪在复杂场景下的鲁棒性和准确率并保持跟踪的实时性要求。
如图1为本发明实施例提供的一种基于特征增强和视频历史帧的单目标跟踪方法流程图,具体包括:
S101:从视频序列中,选取设定数量帧作为历史帧集合,加入二值掩膜mask标签图;
在初始跟踪阶段,采用传统Siamese的方式提取视频初始帧和当前帧的特征,计算其相似性。在历史帧不足五帧的情况下,选择第一帧作为历史帧,并按照等间隔复制的方式选取剩余的四帧作为历史帧,然后加入二值掩膜mask标签图作为历史帧集合。二值掩膜标签图是一个根据目标框位置而设定的0-1值图像,其作用是突出历史帧的目标区域。在剩余的跟踪任务过程中,需要每间隔20帧通过随机仿射变换的取样方式重新选择一次历史帧集合,并且将最大帧索引间隙设置为100帧以内,采样公式如下:
Figure BDA0003470496150000061
其中Δi是帧在第i段的偏移量。跟踪开始阶段,历史帧序列不足五帧的情况下,通过随机复制的方式补齐历史帧的数量。
S102:将含标签历史帧集合和当前帧,输入特征提取骨干网络进行历史帧特征提取和当前帧特征提取;将历史帧集合和二值掩膜mask标签图输入第一特征提取骨干网络进行历史帧特征提取,将当前帧输入第二特征提取骨干网络进行当前帧特征提取;
分别对历史帧和当前帧用GoogleNet骨干网络进行特征提取,并使用额外的线性卷积层进行特征降维。为了使网络提升目标特征的提取性能,历史帧和当前帧的两个分支使用的是相同架构但不同参数的骨干网络,以适应不同背景特征提取能力。其特征提取公式如下:
Figure BDA0003470496150000062
对标签图和历史帧图像中第i个位置进行操作,其中g为额外的卷积层,其作用是与骨干网络
Figure BDA0003470496150000063
的第一层网络将历史帧m与标签图c重塑为相同尺寸。
Figure BDA0003470496150000064
表示历史帧特征提取网络的第一层,
Figure BDA0003470496150000065
表示除第一层外的历史帧特征提取网络。然后利用剩余的骨干网络进行特征提取,最后利用线性卷积层m将特征降维。最后,将历史帧特征沿通道拼接。对于跟踪任务,后续每一帧都要返回步骤一进行历史帧选取。
S103:将提取的历史帧特征沿通道拼接,得到拼接后的历史帧特征;
S104:根据自设计的EnhanceNet模块提供的离线训练阶段输出的卷积参数,对拼接后的历史帧特征进行在线特征增强;
具体地,步骤4中根据自设计的EnhanceNet模块提供的离线训练阶段输出的卷积参数,对拼接后的历史帧特征进行在线特征增强,具体为:
EnhanceNet模块根据掩膜标签图分别训练用于目标和背景增强的卷积参数,其公式如下:
Figure BDA0003470496150000071
其中,Xt为对拼接后的历史帧原始特征,
Figure BDA0003470496150000072
为对拼接后的历史帧增强特征,Mo是目标二值掩膜标签图,Wo是目标区域特征增强卷积参数,Wb是背景区域特征增强卷积参数,这两个卷积参数都由离线网络EnhanceNet训练获得,用以提供给线跟踪时特征增强阶段使用,这两个卷积参数都由离线网络EnhanceNet训练获得;
将原始特征与增强特征进行混合,混合公式如下:
Figure BDA0003470496150000073
其中α1和α2分别设置为0.1和0.7。
S105:通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵,并将相似性矩阵与当前帧特征矩阵沿通道拼接,得到相似性响应图;
与基于Siamese跟踪算法中的互相关计算不同,本发明方法将相似度计算应用于高斯函数以优化结果,利用softmax函数通过计算历史帧特征和当前帧特征每个像素之间的相似度。
具体地,通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵,具体为:
利用softmax函数计算像素级的相似度,其公式如下:
Figure BDA0003470496150000074
其中缩放因子s用于防止exp函数溢出,其值设为
Figure BDA0003470496150000075
n为图像经过骨干网络输出的特征图通道数;m表示历史帧图像,q表示查询帧图像,i表示图历史帧图像的横坐标,j表示查询帧图像的纵坐标,k表示历史帧图像的横坐标,公式中分母为求和运算。
S106:将相似性响应图输入头部网络中,所述头部网络由分类网络和回归网络组成,分类网络预测相似性响应图每个像素点的目标得分,在得分最高的像素点处,通过回归网络预测该像素点对应原图的目标框位置,实现单目标跟踪。
回归网络输出一个四维向量,分别表示像素点到目标框四条边的距离。
具体地,步骤6中,所述头部网络中的分类网络和回归网络,都包含7个卷积层,每个卷积层后都采用ReLU作为激活函数。
本发明提供一种基于特征增强和视频历史帧的单目标跟踪方法,包括以下处理步骤:首先从视频序列中,选取设定数量帧作为历史帧集合,加入二值掩膜mask标签图;将含标签历史帧集合和当前帧,输入特征提取骨干网络进行历史帧特征提取和当前帧特征提取;将历史帧集合和二值掩膜mask标签图输入第一特征提取骨干网络进行历史帧特征提取,将当前帧输入第二特征提取骨干网络进行当前帧特征提取;将提取的历史帧特征沿通道拼接,得到拼接后的历史帧特征;根据自设计的EnhanceNet模块提供的离线训练阶段输出的卷积参数,对拼接后的历史帧特征进行在线特征增强;通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵,并将相似性矩阵与当前帧特征矩阵沿通道拼接,得到相似性响应图;将相似性响应图输入头部网络中,所述头部网络由分类网络和回归网络组成,分类网络预测相似性响应图每个像素点的目标得分,在得分最高的像素点处,通过回归网络预测该像素点对应原图的目标框位置,实现单目标跟踪;本发明提供的方法通过Siamese网络的思想,分别提取视频历史帧和当前帧的特征,对历史帧特征进行在线特征增强后与当前帧特征计算相似性矩阵,最后将相似性矩阵送入分类回归网络预测目标位置,能够实现目标跟踪在复杂场景下的鲁棒性和准确率并保持跟踪的实时性要求。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (6)

1.一种基于特征增强和视频历史帧的单目标跟踪方法,其特征在于,包括以下处理步骤:
步骤1:从视频序列中,选取设定数量帧作为历史帧集合,加入二值掩膜mask标签图;
步骤2:将含标签历史帧集合和当前帧,输入特征提取骨干网络进行历史帧特征提取和当前帧特征提取;将历史帧集合和二值掩膜mask标签图输入第一特征提取骨干网络进行历史帧特征提取,将当前帧输入第二特征提取骨干网络进行当前帧特征提取;
步骤3:将提取的历史帧特征沿通道拼接,得到拼接后的历史帧特征;
步骤4:根据自设计的EnhanceNet模块提供的离线训练阶段输出的卷积参数,对拼接后的历史帧特征进行在线特征增强;
步骤5:通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵,并将相似性矩阵与当前帧特征矩阵沿通道拼接,得到相似性响应图;
步骤6:将相似性响应图输入头部网络中,所述头部网络由分类网络和回归网络组成,分类网络预测相似性响应图每个像素点的目标得分,在得分最高的像素点处,通过回归网络预测该像素点对应原图的目标框位置,实现单目标跟踪。
2.如权利要求1所述的基于特征增强和视频历史帧的单目标跟踪方法,其特征在于,从视频序列中,选取设定数量帧作为历史帧集合,具体包括:
跟踪过程中,需要每间隔20帧通过随机仿射变换的采样方法重新选择一次历史帧集合,并且将最大帧索引间隙设置为100帧以内。
3.如权利要求1所述的基于特征增强和视频历史帧的单目标跟踪方法,其特征在于,所述步骤2,具体为:
采用GoogleNet作为特征提取骨干网络;其中,第一特征提取骨干网络和第二特征提取骨干网络结构相同但参数不同;将历史帧集合和二值掩膜mask标签图输入第一特征提取骨干网络进行历史帧特征提取,其公式如下:
Figure FDA0003470496140000021
对标签图和历史帧图像中第i个位置进行操作,其中g为额外的卷积层,其作用是与骨干网络
Figure FDA0003470496140000022
的第一层网络将历史帧m与标签图c重塑为相同尺寸,线性网络层m将特征降维,
Figure FDA0003470496140000023
表示历史帧特征提取网络的第一层,
Figure FDA0003470496140000024
表示除第一层外的历史帧特征提取网络。
4.如权利要求1所述的基于特征增强和视频历史帧的单目标跟踪方法,其特征在于,步骤4中根据自设计的EnhanceNet模块提供的离线训练阶段输出的卷积参数,对拼接后的历史帧特征进行在线特征增强,具体为:
EnhanceNet模块根据掩膜标签图分别训练用于目标和背景增强的卷积参数,其公式如下:
Figure FDA0003470496140000025
其中,Xt为对拼接后的历史帧原始特征,
Figure FDA0003470496140000026
为对拼接后的历史帧增强特征,Mo是目标二值掩膜标签图,Wo是目标区域特征增强卷积参数,Wb是背景区域特征增强卷积参数,这两个卷积参数都由离线网络EnhanceNet训练获得;
将原始特征与增强特征进行混合,混合公式如下:
Figure FDA0003470496140000027
其中α1和α2分别设置为0.1和0.7。
5.如权利要求1所述的基于特征增强和视频历史帧的单目标跟踪方法,其特征在于,步骤5通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵,具体为:
利用softmax函数计算像素级的相似度,其公式如下:
Figure FDA0003470496140000031
其中缩放因子s用于防止exp函数溢出,其值设为
Figure FDA0003470496140000032
n为图像经过骨干网络输出的特征图通道数;m表示历史帧图像,q表示查询帧图像,i表示图历史帧图像的横坐标,j表示查询帧图像的纵坐标,k表示历史帧图像的横坐标,公式中分母为求和运算。
6.如权利要求1所述的基于特征增强和视频历史帧的单目标跟踪方法,其特征在于,步骤6中,所述头部网络中的分类网络和回归网络,都包含7个卷积层,每个卷积层后都采用ReLU作为激活函数。
CN202210041658.1A 2022-01-14 2022-01-14 一种基于特征增强和视频历史帧的单目标跟踪方法 Active CN114565637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210041658.1A CN114565637B (zh) 2022-01-14 2022-01-14 一种基于特征增强和视频历史帧的单目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210041658.1A CN114565637B (zh) 2022-01-14 2022-01-14 一种基于特征增强和视频历史帧的单目标跟踪方法

Publications (2)

Publication Number Publication Date
CN114565637A true CN114565637A (zh) 2022-05-31
CN114565637B CN114565637B (zh) 2024-05-14

Family

ID=81712234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210041658.1A Active CN114565637B (zh) 2022-01-14 2022-01-14 一种基于特征增强和视频历史帧的单目标跟踪方法

Country Status (1)

Country Link
CN (1) CN114565637B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020232909A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 行人视觉跟踪方法、模型训练方法、装置、设备及存储介质
CN113506317A (zh) * 2021-06-07 2021-10-15 北京百卓网络技术有限公司 一种基于Mask R-CNN和表观特征融合的多目标跟踪方法
CN113506316A (zh) * 2021-05-27 2021-10-15 北京迈格威科技有限公司 分割视频物体的方法、装置以及网络模型训练方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020232909A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 行人视觉跟踪方法、模型训练方法、装置、设备及存储介质
CN113506316A (zh) * 2021-05-27 2021-10-15 北京迈格威科技有限公司 分割视频物体的方法、装置以及网络模型训练方法
CN113506317A (zh) * 2021-06-07 2021-10-15 北京百卓网络技术有限公司 一种基于Mask R-CNN和表观特征融合的多目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈志旺;张忠新;宋娟;罗红福;彭勇;: "基于目标感知特征筛选的孪生网络跟踪算法", 光学学报, no. 09, 10 May 2020 (2020-05-10) *

Also Published As

Publication number Publication date
CN114565637B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN112435282B (zh) 一种基于自适应候选视差预测网络的实时双目立体匹配方法
CN112818951B (zh) 一种票证识别的方法
CN112560656A (zh) 一种联合注意力机制端到端训练的行人多目标跟踪方法
CN111008639B (zh) 一种基于注意力机制的车牌字符识别方法
CN113255837A (zh) 工业环境下基于改进的CenterNet网络目标检测方法
CN116229465A (zh) 一种船舶弱监督语义分割方法
CN113902991A (zh) 一种基于级联特征融合的孪生网络目标跟踪方法
CN115578574B (zh) 一种基于深度学习和拓扑感知的三维点云补全方法
CN117197192B (zh) 一种卫星视频单目标追踪方法及装置
CN112183675A (zh) 一种基于孪生网络的针对低分辨率目标的跟踪方法
CN114596338B (zh) 一种考虑时序关系的孪生网络目标跟踪方法
CN116434241A (zh) 基于注意力机制的自然场景图像中文本识别方法及系统
CN112767440A (zh) 一种基于siam-fc网络的目标跟踪方法
CN113393496A (zh) 一种基于时空注意力机制的目标跟踪方法
CN114219790B (zh) 一种基于边缘信息的钢铁表面缺陷显著性检测方法
CN117115474A (zh) 一种基于多阶段特征提取的端到端单目标跟踪方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN114565637B (zh) 一种基于特征增强和视频历史帧的单目标跟踪方法
CN116797799A (zh) 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统
CN115953570A (zh) 结合模板更新与轨迹预测的孪生网络目标跟踪方法
CN113379794B (zh) 基于注意力-关键点预测模型的单目标跟踪系统及方法
Vaquero et al. SiamMT: Real-time arbitrary multi-object tracking
CN113888590A (zh) 一种基于数据增强和孪生网络的视频目标跟踪方法
CN113223006A (zh) 一种基于深度学习的轻量级目标语义分割方法
CN113255493A (zh) 一种融合视觉词和自注意力机制的视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant