CN112069896B - 一种基于孪生网络融合多模板特征的视频目标跟踪方法 - Google Patents

一种基于孪生网络融合多模板特征的视频目标跟踪方法 Download PDF

Info

Publication number
CN112069896B
CN112069896B CN202010771725.6A CN202010771725A CN112069896B CN 112069896 B CN112069896 B CN 112069896B CN 202010771725 A CN202010771725 A CN 202010771725A CN 112069896 B CN112069896 B CN 112069896B
Authority
CN
China
Prior art keywords
template
phi
target
response
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010771725.6A
Other languages
English (en)
Other versions
CN112069896A (zh
Inventor
孙力帆
杨哲
俞皓芳
张金锦
常家顺
王旭栋
陶发展
司鹏举
付主木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Science and Technology
Original Assignee
Henan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Science and Technology filed Critical Henan University of Science and Technology
Priority to CN202010771725.6A priority Critical patent/CN112069896B/zh
Publication of CN112069896A publication Critical patent/CN112069896A/zh
Application granted granted Critical
Publication of CN112069896B publication Critical patent/CN112069896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于孪生网络融合多模板特征的视频目标跟踪方法,提出了一种半监督模板在线更新策略,当视频序列中待跟踪目标出现遮挡、形变和光照变化等复杂情况,通过计算APCE值和模板相似度评估目标变化和被遮挡情况,目标外观产生巨大变化时,利用上一帧图片提取的特征与原始模板特征进行特征融合,得到表达能力更强的新模板,有助于适应多种复杂情况;为提高模型的泛化能力,适应多类目标,训练过程中采用正则化技术防止模型过拟合;为进一步提升算法速度,对于非复杂情形只采用原始模板进行跟踪,大大降低了计算量,使本发明的方法在获得更好跟踪性能的条件下取得了较其他方法更快的运行速度。

Description

一种基于孪生网络融合多模板特征的视频目标跟踪方法
技术领域
本发明涉及视频目标跟踪领域,具体的说是一种基于孪生网络融合多模 板特征的视频目标跟踪方法。
背景技术
视频目标跟踪技术是根据视频序列在第一帧给出的任意待跟踪物体边界 框信息,对后续帧中同一目标的边界框进行位置和尺度预测,被广泛应用于自 动驾驶、视频监控和人机交互等领域。传统的基于相关滤波的方法使用手工特 征建立滤波模板并在线更新,如方向梯度直方图(Histogram Of Oriented Gradient, HOG)、Haar-like特征和局部二值特征(Local Binary Pattern,LBP)等,其先给出 一系列候选框,然后将所有的候选框与滤波模板作相关运算,得到每个候选框 的置信度,置信度最高的候选框即为目标位置。近年来,随着计算机性能飞速 提升,深度学习技术快速发展,深度特征被应用到目标跟踪领域中,虽然在跟 踪精度上有所提升,但深度网络的反向传播过程计算量巨大,导致计算量剧增, 无法满足实时性要求。孪生网络的出现很好的平衡了跟踪精度和速度,基于孪 生网络(Siamese Network)的目标跟踪算法已成为视频目标跟踪领域的一个重 要研究方向。
孪生网络拥有模板和检测两个分支呈Y型结构,基于孪生网络的目标 跟踪方法将视频目标跟踪作为模板匹配问题来处理,先采用卷积神经网络提取 两个分支的深度特征,浅层特征主要集中在低层信息上,如颜色、形状等,对 定位至关重要;深层特征具有丰富的语义信息,对复杂情况有很强的鲁棒性, 比如运动模糊、巨大形变等,但高级别的特征图分辨率很低,丢失了有用的空 间细节。在目标跟踪的任务中只给出了第一帧的目标边界框信息,当目标发生 遮挡、光照变化、形变、尺度变化等情况时,第一帧提供的原始模板已经无法 满足后续帧的跟踪需求,所以适时的进行模板更新是必要的。而在当前基于孪 生网络的目标跟踪算法却没有模板更新过程,或者只是把模板进行简单的替换, 造成跟踪器不能很好的适应目标外观的变化。要想进一步提升模板的可靠性,
半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域 研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学 习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当 使用半监督学习时,可以有效解决小样本问题,同时,又能够带来比较高的准 确性,因此,半监督学习正越来越受到人们的重视。
目前需要本领域技术人员迫切解决的一个技术问题是:在出现遮挡、形 变和光照变化等复杂情况下,如何快速且准确的对视频序列中出现的任意目标 进行跟踪,提高跟踪的准确性、快速性和鲁棒性。
发明内容
针对现有技术的缺陷,本发明提供一种基于孪生网络融合多模板特征的 视频目标跟踪方法(A Visual Tracking Algorithm Based on Siamese Network Fusion withMultiple Template Features,SiamFMT),当视频序列中待跟踪目标出现遮挡、 形变和光照变化等复杂情况,目标外观产生巨大变化时,原始模板已经难以适 应当下情况,利用上一帧图片提取的特征作为弱模板与原始模板特征进行特征 融合,得到表达能力更强的新模板,有助于适应多种复杂情况;为进一步提升 算法速度,对于非复杂情形只采用原始模板进行跟踪,大大降低了计算量,使 本发明的方法在获得更好跟踪性能的条件下取得了较其他方法更快的运行速度。
为了达到上述目的,本发明所采用的技术方案是:一种基于孪生网络融 合多模板特征的视频目标跟踪方法,包括如下步骤:
S1、根据视频序列第一帧输入图片I1和边界框信息B1裁剪出原始模板 Z1,根据后续帧输入图片Ii裁剪出目标区域Xi,i∈[2,n];
S2、将Z1和Xi送入离线预训练好的孪生网络提取特征,得到特征φ(Z1) 和φ(Xi);
S3、对特征φ(Z1)和φ(Xi)进行多尺度的卷积运算,得到响应图S;
S4、对响应图S添加余弦窗限制较大位移并进行上采样到原始图片大 小,取最大响应值处为预测框中心点,最大响应值对应的尺度为预测框的新尺 度;
S5、根据响应图S计算APCE(平均峰值相关能量)和模板相似度,如 果二者均符合阈值要求,则先在最大响应值处裁剪新的模板Zi并提取特征φ(Zi), 然后对φ(Z1)和φ(Zi)进行特征融合,得到新的模板特征φ(Z),否则不做融合;
S6、若步骤S5计算的APCE值和模板相似度均在一定阈值范围内,则 采用步骤S5得到的新的模板特征φ(Z)替换步骤S2得到的φ(Z1),否则继续采用 上一次融合得到的特征φ(Z),若φ(Z)不存在,则采用步骤S2得到的φ(Z1)。
进一步地,步骤S2中所述的孪生网络拥有模板分支和检测分支两大分 支,两大分支网络结构均采用修改后的AlexNet,并且网络参数共享,其具体 训练步骤为:
S2.1、对ILSRVC2015数据集进行预处理,在同一视频序列中取出间隔 为T的两帧,T介于1~5之间;根据标注信息,以目标为中心分别裁剪两帧图 片到127×127和255×255尺寸,记为Z和X,作为模板分支和搜索分支的输入;
S2.2、将从S2.1得到的处理后的两帧图片Z和X送入孪生网络中进行 特征提取,得到两个特征向量A和特征向量B,将A作为卷积核与B进行卷积 操作,得到大小为17*17的响应图S;
S2.3、根据输入图片的标记信息生成大小为17*17的矩阵作为样本标签 S1,矩阵中的每个元素为{+1,-1},代表正负样本,距离目标中心小于一定距 离的被设定为正样本,反之为负样本,将步骤S2.2得到的响应图S归一化为S', 将S1和S'作为二进制交叉熵损失函数(Binary Cross Entropy)的两个输入,其 中损失函数定义如下:
Figure BDA0002616895380000031
其中,y为样本标签,是大小为17*17的标签矩阵S1中的一个元素,取 值为{+1,-1};
x表示响应图S'中的一个元素;
D表示归一化后的响应图S'所包含的整体样本空间;
u表示x在S'中的位置索引;
l(y,x)表示对于单个样本的损失函数,在这里指的是交叉熵损失函数;
L(S,S’)表示总体样本的损失函数,在这里指的是单个样本损失的平均值, 同时采用L2正则化来防止过拟合,其中w为各层网络权重,λ为正则化系数, 取值为0.01;
S2.4、对网络参数进行符合正态分布的随机初始化,设置批处理大小为 32,学习率为0.01,使用随机梯度下降算法(Stochastic Gradient Descent,SGD) 迭代训练30次优化网络参数并保存每次迭代的结果;
S2.5、对迭代10~30次的结果在OTB数据集上进行测试,选取最优参 数作为最终训练结果。
进一步地,步骤S3中的多尺度卷积共分为三个尺度,分别为0.5、1、 1.5,这里的尺度指的是处理后的图片与标准尺寸之间的比值,具体实施步骤为:
S3.1、将模板分支的输入图像Z1按照以目标为中心裁剪出127×127大小 的图像,将裁剪出的图像复制三次并按照第0维度方向拼接成3×3×127×127的 矩阵,其经过模板分支特征提取得到φ(Z1);
S3.2、将检测分支的输入图像Xi按照以目标为中心分别以127×127, 255×255,382×382三个尺寸进行裁剪,再通过线性插值的方法统一缩放调整 到255×255大小,将三张图片按照第0维度方向拼接成3×3×255×255的矩阵, 其经过检测分支特征提取得到φ(Xi)。
S3.3、将φ(Z1)作为卷积核与φ(Xi)进行卷积运算,得到响应图S。
进一步地,步骤S5中APCE值可以表示响应图的波动程度,当目标发 生遮挡时,响应图会出现多峰状态,反之则是单峰状态,APCE的具体计算公 式为:
Figure BDA0002616895380000041
其中,(w,h)代表当前元素在响应图中的 二维位置索引,其中w代表横坐标,h代表纵坐标,Fmax、Fmin和Fw,h是响应 图中的最大值、最小值和(w,h)处的值,APCE计算公式中分子反应的是当前响 应图的可靠程度,分母反映的是响应图的平均波动程度,APCE值越小就表明 响应图最大峰值越小或者响应图波峰越多,即目标被遮挡的程度越高。
进一步地,步骤S5中对φ(Z1)和φ(Zi)进行特征融合,融合方式为线性 加权融合,具体公式为
Figure BDA0002616895380000051
其中α为加权系数,根 据实验确定为0.7。
进一步地,步骤S5中的阈值要求具体为,APCE不小于9,模板相似 度位于区间(3000,5000)内。
有益效果:本发明提供的视频目标跟踪方法,基于孪生网络融合多模板 特征,为了更适应跟踪过程中目标外观的变化,提出了一种半监督模板在线更 新策略,通过计算APCE值和模板相似度,综合评估目标外观发生变化,符合 阈值要求时,进行特征融合和模板更新,利用上一帧图片提取的特征作为弱模 板与原始模板特征进行特征融合(弱模板是通过模型预测得到,原始模板是根 据第一帧标签裁剪得到,模板特征融合时同时使用了有标签样本和无标签样本, 构成了半监督学习过程),得到表达能力更强的新模板,有助于适应多种复杂情 况;为提高模型的泛化能力,适应多类目标,训练过程中采用正则化技术防止 模型过拟合;对于非复杂情形只采用原始模板进行跟踪,不仅提高了模板跟踪 精度,还提升了运行速度,使用本发明的方法能够快速且准确的对视频序列中 出现的任意目标进行跟踪,提高跟踪的准确性、快速性和鲁棒性。
附图说明
图1是本发明中的跟踪算法网络结构示意图;
图2是孪生网络中各层参数说明;
图3是在OTB50数据集仿真实验中,本发明方法(SiamFMT)与OTB官
方提供部分方法的精度和成功率对比图;
图4是在OTB100数据集仿真实验中本发明方法(SiamFMT)与OTB官
方提供部分方法的精度和成功率对比图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
一种基于孪生网络融合多模板特征的视频目标跟踪方法,具体包括以下 步骤S1至S6。
S1、根据视频序列第一帧输入图片I1和边界框信息B1裁剪出原始模板 Z1,根据后续帧输入图片Ii裁剪出目标区域Xi,i∈[2,n]。
S2、将Z1和Xi送入离线预训练好的孪生网络提取特征,得到特征φ(Z1) 和φ(Xi),具体离线预训练方法为S2.1至S2.5。
步骤S2中孪生网络拥有模板分支和检测分支两大分支,两大分支网络 结构均采用修改后的AlexNet(Alex网络是由Alex Krizhevsky等人在2012年 提出的一种卷积神经网络结构,我们在此基础上进行修改,移除原始网络结构 中的全连接层和padding操作,调整网络步长为8以获取较大的感受野,使其 符合本方法的需求),并且网络参数共享,网络结构见图1,网络参数可参考图 2。其具体训练步骤为:
S2.1、对ILSRVC2015数据集进行预处理,在同一视频序列中取出间隔 为T的两帧,T介于1~5之间;根据标注信息,以目标为中心分别裁剪两帧图 片到127×127和255×255尺寸,记为Z和X,作为模板分支和搜索分支的输入。
S2.2、将从S2.1得到的处理后的两帧图片Z和X送入孪生网络中进行 特征提取,得到两个特征向量A和特征向量B,将A作为卷积核与B进行卷积 操作,得到大小为17*17的响应图S。
S2.3、根据输入图片的标记信息生成大小为17*17的矩阵作为样本标签S1,矩 阵中的每个元素为{+1,-1},代表正负样本,距离目标中心小于一定距离的被 设定为正样本,反之为负样本,将步骤S2.2得到的响应图S归一化为S',将S1和S'作为二进制交叉熵损失(Binary Cross Entropy)函数的两个输入,其中损 失函数定义如下:
l(y,x)=log(1+exp(-yx))
Figure BDA0002616895380000061
在上述公式中,y为样本标签,为矩阵标签S1中的一个元素,取值为{+1,-1},以待跟踪目标为中心,在待跟踪图像中距离此中心一定半径范围内 的候选框为正样本取值为+1,超出此半径距离范围的候选框为负样本取值为-1, 在原始图像上我们选取的半径为16,将其映射到响应图上半径变为2;
x代表响应图S'中的一个元素;
D代表响应图S'所包含的整体样本空间;
u代表x在S'中的索引位置;
l(y,x)代表对于单个样本的损失函数;
L(S,S’)代表总体样本的损失函数,其中w为各层网络权重,λ为正则 化系数,取值为0.01。
S2.4、对网络参数进行符合正态分布的随机初始化,设置批处理大小 (batchsize)为32,学习率(learning rate)为0.01,使用随机梯度下降算法 (StochasticGradient Descent,SGD)迭代30次优化网络参数并保存每次迭代的 结果。
S2.5、对迭代10~30次的结果在OTB数据集上进行测试,选取最优参 数作为最终训练结果。
S3、对特征φ(Z1)和φ(Xi)进行多尺度的卷积运算,得到响应图S。
步骤S3中的多尺度卷积共分为三个尺度分别为0.5、1、1.5,这里的尺 度指的是处理后的图片与标准尺寸(127×127和255×255)之间比值,具体实 施步骤为S3.1至S3.3:
S3.1、将模板分支的输入图像Z1按照以目标为中心裁剪出127×127大小 的图像,将裁剪出的图像复制三次并按照第0维度方向拼接成3×3×127×127的 矩阵,其经过模板分支特征提取得到φ(Z1);
S3.2、将检测分支的输入图像Xi按照以目标为中心分别以127×127, 255×255,382×382三个尺寸进行裁剪,再通过线性插值的方法统一缩放调整 到255×255大小,将三张图片按照第0维度方向拼接成3×3×255×255的矩阵, 其经过检测分支特征提取得到φ(Xi)。
S3.3、将φ(Z1)作为卷积核与φ(Xi)进行卷积运算,得到响应图S;
S3.2、将检测分支的输入图像X按照以目标为中心分别以127.5×127.5,255×255,382.5×382.5三个尺寸进行裁剪,再进行插值后统一缩放调整到 255×255大小,将三张图片按照通道方向拼接成255×255×9的矩阵。
S4、对响应图S添加余弦窗限制较大位移并进行上采样到原始图片大 小,取最大响应值处为预测框中心点,最大响应值对应的尺度为预测框的新尺 度。
S5、根据响应图S计算平均峰值相关能量APCE值和模板相似度,如 果两者均符合阈值要求,则先在最大响应值处裁剪新的模板Zi并提取特征 φ(Zi),然后对φ(Z1)和φ(Zi)进行特征融合,得到新的模板特征φ(Z),否则不做 融合;其中,对φ(Z1)和φ(Zi)进行特征融合,融合方式为线性加权融合,具体 公式为
Figure BDA0002616895380000081
其中α为加权系数,根据实验确定为 0.7。
模板相似度指的是两个模板的相似程度,具体计算方式为对从模板Z1提取的特征向量φ(Z1)和从模板Zi提取的特征向量φ(Zi)进行互相关运算,得到 一个相似度响应值,响应值越高就证明模板Z1和模板Zi的相似程度越高,本发 明中模板相似度的阈值要求为在区间(3000,5000)内。
APCE值(Average Peak-to Correlation Energy,平均峰值相关能量)可 以表示响应图的波动程度,其可以反映物体发生遮挡的情况。当目标发生遮挡 时,响应值会出现多峰状态,反之则是单峰状态,具体计算公式为:
Figure RE-GDA0002724286720000011
其中Fmax、Fmin和Fw,h是响应图中 的最大值、最小值和(w,h)处的值,(w,h)代表当前元素在响应图中的二维位置 索引,其中w代表横坐标,h代表纵坐标;该计算公式中分子反应的是当前响 应图的可靠程度,分母反映的是响应图的平均波动程度。
在目标发生遮挡时,搜索区域内匹配不到目标,响应图S会出现多而低 的波峰,呈现出多峰状态;而目标未发生遮挡时,搜索区域内可以匹配到目标, 目标处的响应值会明显高于其他位置,所以响应图呈现单峰状态;APCE值越 小就证明最大峰值越小或者响应图波峰越多,即目标被遮挡的程度越高。为避 免被遮挡的目标成为模板,所以我们为APCE值指定一个下限9,即,步骤S5 中APCE的阈值要求为≥9。
APCE和模板相似度是两个独立的指标,APCE反映的是目标被遮挡程 度,模板相似度反映的是两个模板的相似程度,只有这两个指标均符合阈值要 求才会进行特征融合和模板更新,如果没有新的模板特征则继续采用上一次融 合所得到的模板特征。
S6、若步骤S5计算的APCE值和模板相似度均在一定阈值范围内,则 采用步骤S5得到的新模板特征φ(Z)替换步骤S2得到的φ(Z1),否则,采用上 一次融合得到的特征φ(Z),若φ(Z)不存在,则采用步骤S2得到的φ(Z1)。
上述S1-S4为目标跟踪过程,S5-S6为模板更新过程,二者合并在一起 构成完整的目标跟踪过程,在实际的目标跟踪过程中,通过重复步骤S1-S6, 完成整个目标跟踪,目标跟踪的边界框信息由其中的步骤S4得到。
以下通过仿真实验对本发明的效果进行验证,仿真实验采用OTB50和 OTB100数据集,与OTB官方提供的部分开源方法进行对比。
其中,SiamFMT即本发明的方法,本发明仿真实验中用到的OTB官方 提供的方法包括以下9种:
1.MUSTer(基于长短期记忆的多集合视频目标跟踪方法),参见文献 [1].ZhibinH,Chen Z,Wang C,et al.MUlti-Store Tracker(MUSTer):a Cognitive PsychologyInspired Approach to Object Tracking[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEE,2015;
2.SiamFC(基于孪生网络的全卷积视频目标跟踪方法),参见文献[2] BertinettoL,Valmadre J,Henriques J F,et al.Fully-Convolutional Siamese Networks forObject Tracking[J].2016;
3.MEEM(基于熵最小化的多专家视频目标跟踪方法),参见文献[3]. Zhang J,MaS,Sclaroff S.MEEM:Robust Tracking via Multiple Experts Using EntropyMinimization[C]//European Conference on Computer Vision.Springer, Cham,2014;
4.STRUCK(基于结构化输出预测的自适应视觉目标跟踪算法),参见 文献[4].Hare S,Golodetz S,Saffari A,et al.Struck:Structured Output Tracking withKernels[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015:2096-2109;
5.SCM(基于稀疏协作模型的视频目标跟踪方法),参见文献[5].Zhong W,Lu H,Yang M H.Robust object tracking via sparsity-based collaborative model[C]//Computer Vision&Pattern Recognition.IEEE,2012;
6.TLD(基于检测的在线学习视频目标跟踪方法),参见文献[6].Kalal Z,Mikolajczyk K,Matas J.Tracking-learning-detection[J].IEEE Transactions onSoftware Engineering,2011,34(7):1409-1422;
7.ASLA(基于自适应结构局部稀疏外观模型的视频目标跟踪方法),参 见文献[7].Jia X,Lu H,Yang M H.Visual tracking via adaptive structural local sparseappearance model[C]//IEEE Conference on Computer Vision&PatternRecognition.IEEE,2012;
8.CXT(基于上下文信息的视频目标跟踪方法),参见文献[8].Dinh T B,Vo N,Gérard G.Medioni.Context tracker:Exploring supporters and distracters inunconstrained environments[C]//The 24th IEEE Conference on Computer Visionand Pattern Recognition,CVPR 2011,Colorado Springs,CO,USA,20-25June 2011.IEEE,2011;
9.CSK(基于循环结构和相关滤波的视频目标跟踪方法),参见文献[9].Henriques J F,Caseiro R,Martins P,et al.Exploiting the Circulant Structure ofTracking-by-Detection with Kernels[C]//Proceedings of the 12th Europeanconference on Computer Vision-Volume Part IV.Springer,Berlin,Heidelberg,2012;
仿真实验结果参考附图3和附图4,图3为本方法和部分OTB数据集 提供算法在OTB50数据集上的预测精度和成功率对比图,图3中左图横坐标表 示算法估计的目标边界框面积与人工标注(ground truth)的目标的边界框的重 合率阈值,纵轴表示大于此阈值的帧数所占总帧数比例,即成功率;图3中右 图横坐标表示算法估计的目标位置(boundingbox)的中心点与人工标注 (ground truth)的目标的中心点距离阈值,纵轴表示小于此阈值的帧数所占总 帧数百分比,即预测精度。图4中横纵坐标物理意义与图3描述相同,结合图 3和图4可以看出,在OTB50和OTB100数据集上,本发明方法(SiamFMT)的 预测精度和成功率均优于参与性能对比的其他几种算法。另外本发明对模板更 新策略进行了严格限制,跟踪速度最高可达到70FPS,远超实时性要求。综上, 本发明在保证跟踪速度下提高了目标的跟踪精度。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上 的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任 何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭 示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本 发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、 等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (6)

1.一种基于孪生网络融合多模板特征的视频目标跟踪方法,其特征在于,包括如下步骤:
S1、根据视频序列第一帧输入图片I1和边界框信息B1裁剪出原始模板Z1,根据后续帧输入图片Ii裁剪出目标区域Xi,i∈[2,n];
S2、将Z1和Xi送入离线预训练好的孪生网络提取特征,得到特征φ(Z1)和φ(Xi);
S3、对特征φ(Z1)和φ(Xi)进行多尺度的卷积运算,得到响应图S,具体实施步骤为:
S3.1、将模板分支的输入图像Z1按照以目标为中心裁剪出127×127大小的图像,将裁剪出的图像复制三次并按照第0维度方向拼接成3×3×127×127的矩阵,其经过模板分支特征提取得到φ(Z1);
S3.2、将检测分支的输入图像Xi按照以目标为中心分别以127×127,255×255,382×382三个尺寸进行裁剪,再采用线性插值的方法统一缩放调整到255×255大小,将三张图片按照第0维度方向拼接成3×3×255×255的矩阵,其经过检测分支特征提取得到φ(Xi);
S3.3、将φ(Z1)作为卷积核与φ(Xi)进行卷积运算,得到响应图S;
S4、对响应图S添加余弦窗限制较大位移并进行上采样到原始图片大小,取最大响应值处为预测框中心点,最大响应值对应的尺度为预测框的新尺度;
S5、根据响应图S计算平均峰值相关能量APCE和模板相似度,如果二者均符合阈值要求,则先在最大响应值处裁剪新的模板Zi并提取特征φ(Zi),然后对φ(Z1)和φ(Zi)进行特征融合,得到新的模板特征φ(Z),否则不做融合;
其中模板相似度指的是两个模板的相似程度,具体计算方式为对从模板Z1提取的特征向量φ(Z1)和从模板Zi提取的特征向量φ(Zi)进行互相关运算,得到一个相似度响应值,响应值越高就证明模板Z1和模板Zi的相似程度越高;
S6、若步骤S5计算的APCE值和模板相似度均在一定阈值范围内,则采用步骤S5得到的新的模板特征φ(Z)替换步骤S2得到的φ(Z1),否则继续采用上一次融合得到的特征φ(Z),若φ(Z)不存在,则采用步骤S2得到的φ(Z1)。
2.如权利要求1所述的一种基于孪生网络融合多模板特征的视频目标跟踪方法,其特征在于,步骤S2中所述的孪生网络拥有模板分支和检测分支两大分支,两大分支网络结构均采用修改后的AlexNet,并且网络参数共享,其具体训练步骤为:
S2.1、对ILSRVC2015数据集进行预处理,在同一视频序列中取出间隔为T的两帧,T介于1~5之间;根据标注信息,以目标为中心分别裁剪两帧图片到127×127和255×255尺寸,记为Z和X,作为模板分支和搜索分支的输入;
S2.2、将从S2.1得到的处理后的两帧图片Z和X送入孪生网络中进行特征提取,得到两个特征向量A和特征向量B,将A作为卷积核与B进行卷积操作,得到大小为17*17的响应图S;
S2.3、根据输入图片的标记信息生成大小为17*17的矩阵作为样本标签S1,矩阵中的每个元素为{+1,-1},代表正负样本,距离目标中心小于一定距离的被设定为正样本,反之为负样本,将步骤S2.2得到的响应图S归一化为S',将S1和S'作为二进制交叉熵损失函数(Binary Cross Entropy)的两个输入,其中损失函数定义如下:
Figure FDA0003852693270000021
其中,y为样本标签,是大小为17*17的标签矩阵S1中的一个元素,取值为{+1,-1};
x示响应图S'中的一个元素;
D表示归一化后的响应图S'所包含的整体样本空间;
u表示x在S'中的位置索引;
l(y,x)表示对于单个样本的损失函数,在这里指的是交叉熵损失函数;
L(S,S’)表示总体样本的损失函数,在这里指的是单个样本损失的平均值,同时采用L2正则化来防止过拟合,其中w为各层网络权重,λ为正则化系数,取值为0.01;
S2.4、对网络参数进行符合正态分布的随机初始化,设置批处理大小为32,学习率为0.01,使用随机梯度下降算法(Stochastic Gradient Descent,SGD)迭代训练30次优化网络参数并保存每次迭代的结果;
S2.5、对迭代10~30次的结果在OTB数据集上进行测试,选取最优参数作为最终训练结果。
3.如权利要求2所述的一种基于孪生网络融合多模板特征的视频目标跟踪方法,其特征在于,步骤S3中的多尺度卷积共分为三个尺度,分别为0.5、1、1.5,这里的尺度指的是处理后的图片与标准尺寸之间的比值。
4.如权利要求1所述的一种基于孪生网络融合多模板特征的视频目标跟踪方法,其特征在于,步骤S5中APCE值可以表示响应图的波动程度,当目标发生遮挡时,响应图会出现多峰状态,反之则是单峰状态,APCE的具体计算公式为:
Figure FDA0003852693270000022
其中,(w,h)代表当前元素在响应图中的二维位置索引,其中w代表横坐标,h代表纵坐标,Fmax、Fmin和Fw,h是响应图中的最大值、最小值和(w,h)处的值,APCE计算公式中分子反应的是当前响应图的可靠程度,分母反映的是响应图的平均波动程度,APCE值越小就表明响应图最大峰值越小或者响应图波峰越多,即目标被遮挡的程度越高。
5.如权利要求1所述的一种基于孪生网络融合多模板特征的视频目标跟踪方法,其特征在于,步骤S5中对φ(Z1)和φ(Zi)进行特征融合,融合方式为线性加权融合,具体公式为
Figure FDA0003852693270000031
其中α为加权系数,根据实验确定为0.7。
6.如权利要求1所述的一种基于孪生网络融合多模板特征的视频目标跟踪方法,其特征在于,步骤S5中的阈值要求具体为,APCE不小于9,模板相似度位于区间(3000,5000)内。
CN202010771725.6A 2020-08-04 2020-08-04 一种基于孪生网络融合多模板特征的视频目标跟踪方法 Active CN112069896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010771725.6A CN112069896B (zh) 2020-08-04 2020-08-04 一种基于孪生网络融合多模板特征的视频目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010771725.6A CN112069896B (zh) 2020-08-04 2020-08-04 一种基于孪生网络融合多模板特征的视频目标跟踪方法

Publications (2)

Publication Number Publication Date
CN112069896A CN112069896A (zh) 2020-12-11
CN112069896B true CN112069896B (zh) 2022-12-02

Family

ID=73657328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010771725.6A Active CN112069896B (zh) 2020-08-04 2020-08-04 一种基于孪生网络融合多模板特征的视频目标跟踪方法

Country Status (1)

Country Link
CN (1) CN112069896B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541468B (zh) * 2020-12-22 2022-09-06 中国人民解放军国防科技大学 一种基于双模板响应融合的目标跟踪方法
CN112884037B (zh) * 2021-02-09 2022-10-21 中国科学院光电技术研究所 一种基于模板更新和无锚框方式的目标跟踪方法
CN113129335B (zh) * 2021-03-25 2023-03-14 西安电子科技大学 一种基于孪生网络的视觉跟踪算法及多模板更新策略
CN112990050B (zh) * 2021-03-26 2021-10-08 清华大学 一种基于轻量级特征金字塔结构的单目3d目标检测方法
CN113160247B (zh) * 2021-04-22 2022-07-05 福州大学 基于频率分离的抗噪孪生网络目标跟踪方法
CN113362372B (zh) * 2021-05-25 2023-05-02 同济大学 一种单目标追踪方法及计算机可读介质
CN113240716B (zh) * 2021-05-31 2023-04-18 西安电子科技大学 一种多特征融合的孪生网络目标跟踪方法及系统
CN113379787B (zh) * 2021-06-11 2023-04-07 西安理工大学 基于3d卷积孪生神经网络和模板更新的目标跟踪方法
CN113628246B (zh) * 2021-07-28 2024-04-12 西安理工大学 一种基于3d卷积模板更新的孪生网络目标跟踪方法
CN113643327B (zh) * 2021-08-18 2023-10-20 江西理工大学 一种响应置信度多特征融合的核相关滤波目标跟踪方法
CN113920159B (zh) * 2021-09-15 2024-05-10 河南科技大学 一种基于全卷积孪生网络的红外空中小目标跟踪方法
CN113870254B (zh) * 2021-11-30 2022-03-15 中国科学院自动化研究所 目标对象的检测方法、装置、电子设备及存储介质
CN115330876B (zh) * 2022-09-15 2023-04-07 中国人民解放军国防科技大学 基于孪生网络和中心位置估计的目标模板图匹配定位方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846358A (zh) * 2018-06-13 2018-11-20 浙江工业大学 一种基于孪生网络进行特征融合的目标跟踪方法
CN109410247A (zh) * 2018-10-16 2019-03-01 中国石油大学(华东) 一种多模板和自适应特征选择的视频跟踪算法
CN109816689A (zh) * 2018-12-18 2019-05-28 昆明理工大学 一种多层卷积特征自适应融合的运动目标跟踪方法
CN111462175A (zh) * 2020-03-11 2020-07-28 华南理工大学 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153713B (zh) * 2017-05-27 2018-02-23 合肥工业大学 社交网络中基于节点间相似性的重叠社区检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846358A (zh) * 2018-06-13 2018-11-20 浙江工业大学 一种基于孪生网络进行特征融合的目标跟踪方法
CN109410247A (zh) * 2018-10-16 2019-03-01 中国石油大学(华东) 一种多模板和自适应特征选择的视频跟踪算法
CN109816689A (zh) * 2018-12-18 2019-05-28 昆明理工大学 一种多层卷积特征自适应融合的运动目标跟踪方法
CN111462175A (zh) * 2020-03-11 2020-07-28 华南理工大学 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Object tracking framework with Siamese network and re-detection mechanism;Daqun Li,and etc;《EURASIP Journal on Wireless Communications and Networking》;20191129;第1-14页 *
引入再检测机制的孪生神经网络目标跟踪;梁浩等;《光学 精密工程》;20190731;第27卷(第7期);第1621-1631页 *

Also Published As

Publication number Publication date
CN112069896A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN112069896B (zh) 一种基于孪生网络融合多模板特征的视频目标跟踪方法
Chen et al. Underwater object detection using Invert Multi-Class Adaboost with deep learning
CN106599836B (zh) 多人脸跟踪方法及跟踪系统
Zou et al. Ship detection in spaceborne optical image with SVD networks
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
CN109711366B (zh) 一种基于群组信息损失函数的行人重识别方法
Li et al. Adaptive deep convolutional neural networks for scene-specific object detection
Sedai et al. A Gaussian process guided particle filter for tracking 3D human pose in video
CN110942471A (zh) 一种基于时空约束的长时目标跟踪方法
CN111931953A (zh) 一种废旧手机多尺度特征深度森林识别方法
CN107798329B (zh) 基于cnn的自适应粒子滤波目标跟踪方法
Mo et al. PVDet: Towards pedestrian and vehicle detection on gigapixel-level images
Zhou et al. Retrieval and localization with observation constraints
Cai et al. Vehicle detection based on visual saliency and deep sparse convolution hierarchical model
Liu Probabilistic Siamese networks for learning representations
Wei et al. AFTD-Net: real-time anchor-free detection network of threat objects for X-ray baggage screening
Joshi et al. Meta-Learning, Fast Adaptation, and Latent Representation for Head Pose Estimation
Dalara et al. Entity Recognition in Indian Sculpture using CLAHE and machine learning
Li Edge aware learning for 3d point cloud
Huang et al. Baggage image retrieval with attention-based network for security checks
Jun et al. Two-view correspondence learning via complex information extraction
Xu et al. Unsupervised classification based on deep adaptation network for sonar images
Badiger et al. Deep learning based south indian sign language recognition by stacked autoencoder model and ensemble classifier on still images and videos
Donadi et al. Improving Generalization of Synthetically Trained Sonar Image Descriptors for Underwater Place Recognition
Kumar et al. Robust object tracking based on adaptive multicue feature fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant