CN113255611B - 基于动态标签分配的孪生网络目标跟踪方法及移动设备 - Google Patents

基于动态标签分配的孪生网络目标跟踪方法及移动设备 Download PDF

Info

Publication number
CN113255611B
CN113255611B CN202110754387.XA CN202110754387A CN113255611B CN 113255611 B CN113255611 B CN 113255611B CN 202110754387 A CN202110754387 A CN 202110754387A CN 113255611 B CN113255611 B CN 113255611B
Authority
CN
China
Prior art keywords
tracking
sample feature
twin network
feature points
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110754387.XA
Other languages
English (en)
Other versions
CN113255611A (zh
Inventor
郑忠龙
张大伟
何小卫
林飞龙
贾日恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202110754387.XA priority Critical patent/CN113255611B/zh
Publication of CN113255611A publication Critical patent/CN113255611A/zh
Application granted granted Critical
Publication of CN113255611B publication Critical patent/CN113255611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Abstract

本发明公开了基于动态标签分配的孪生网络目标跟踪方法及移动设备。其中涉及的基于动态标签分配的孪生网络目标跟踪方法,包括:S1.获取与视频相关的视频数据集,并对获取的视频数据集进行处理,得到模板图像和待搜索区域图像;S2.基于孪生网络提取模板图像和待搜索区域图像的深度特征,并计算提取的深度特征的特征响应图;S3.根据计算得到的特征响应图,获得特征响应图所对应的分类得分和预测框坐标;S4.根据获得的分类得分和预测框坐标,采用动态标签分配策略定义目标跟踪的正负样本特征点,并根据特征响应图与目标、背景的匹配对孪生网络进行优化,得到跟踪网络模型;S5.将视频数据输入跟踪网络模型中,跟踪网络模型输出视频当前帧的跟踪结果。

Description

基于动态标签分配的孪生网络目标跟踪方法及移动设备
技术领域
本发明涉及计算机视觉技术领域,尤其涉及基于动态标签分配的孪生网络目标跟踪方法及移动设备。
背景技术
近些年来,深度卷积神经网络在计算机视觉各项任务中展现了强大的性能。视觉目标跟踪技术作为计算机视觉中最重要的研究课题之一,有着非常广泛的应用场景,比如智能视频监控、自动驾驶、机器人/无人机导航、人机交互等。由于在准确性和速度方面的良好平衡,基于孪生网络的跟踪器逐渐成为目标跟踪社区的主流框架。这类方法将跟踪问题分解为用于目标定位的前景-背景分类子任务和用于物体状态估计的目标框回归子任务。为了表示不同外观形状的物体,许多基于孪生网络的视觉跟踪器通过区域提议网络(RPN)引入了不同长宽比的锚框来估计准确的目标边界框。随着无锚框物体检测的现代趋势,无锚框孪生跟踪器将特征点当作目标定位的参考点,用来预测物体边界框边界的相对偏移量,并获得了与基于锚框孪生网络的跟踪器相近的性能。
预定义的锚框设置严重依赖于数据分布的启发式先验知识,并且仅通过IoU分数选择正负样本会引入歧义的低质量训练样本,从而可能影响算法的鲁棒性。而无锚框的跟踪方法通过真实目标框中心区域分配正负训练样本,忽略了不同目标的外观和几何结构,也可能造成特征优化的歧义性。此外,孪生网络跟踪方法忽略了分类和边界框回归之间的内在关系,并试图独立优化两个子任务,这从而会导致任务的不一致,即跟踪器可能预测正确的分类但不精确地回归边界框,或生成精确的定位但错误的分类分数。如果能够在训练过程中选择合适的正负样本,显然更有利于优化网络模型参数和特征表示。
因此,如何在孪生网络目标跟踪模型中分配正负训练样本具有很重要的实际意义。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有的基于锚框的跟踪方法,通常需要启发式先验知识,并且固定的IoU阈值不适用于形状不规则的物体(例如细长的)会引入歧义的低质量训练样本。
(2)现有的基于无锚框的视觉跟踪算法,仅利用真实目标框中心点距离分配正负训练样本,忽略了不同目标的外观和几何结构。
(3)大部分现有的孪生网络跟踪方法忽略了分类任务和边界框回归之间的内在关系,并独立优化这两个子任务,这会导致任务的不一致性。
解决以上问题及缺陷的难度为:如何有效地在不过多的引入超参数情况下下进行正负训练样本选择,以应对不同形状、长宽比的物体场景。
发明内容
本发明的目的是针对现有技术的缺陷,提供了基于动态标签分配的孪生网络目标跟踪方法及移动设备。
为了实现以上目的,本发明采用以下技术方案:
基于动态标签分配的孪生网络目标跟踪方法,包括步骤:
S1.获取与视频相关的视频数据集,并对获取的视频数据集进行处理,得到模板图像和待搜索区域图像;
S2.基于孪生网络提取模板图像和待搜索区域图像的深度特征,并计算提取的深度特征的特征响应图;
S3.根据计算得到的特征响应图,获得特征响应图所对应的分类得分和预测框坐标;
S4.根据获得的分类得分和预测框坐标,采用动态标签分配策略定义目标跟踪的正负样本特征点,并根据特征响应图与目标、背景的匹配对孪生网络进行优化,得到跟踪网络模型;
S5.将视频数据输入跟踪网络模型中,跟踪网络模型输出视频当前帧的跟踪结果。
进一步的,所述步骤S1中对获取的视频数据集进行处理具体为:
选择若干个公共视频数据集,对于每一个视频数据相对应的视频序列中的每一帧图像,以真实目标框中心点为中心,按照预设值对图像进行裁剪,得到模板图像和待搜索区域图像。
进一步的,所述步骤S2具体包括:
S21.将得到的模板图像和待搜索区域图像输入孪生网络中的特征提取网络中,并通过特征提取网络提取模板图像和待搜索区域图像的深度特征;
S22.利用深度互相关层计算模板图像和待搜索区域图像不同尺度下的特征响应图。
进一步的,所述步骤S4具体包括:
S41.构造视频跟踪数据的正负样本特征点集合;
S42.通过动态标签分配策略构建置信度函数,并基于构建的置信度函数计算每个样本特征点的置信度分数;
S43.根据计算得到的置信度分数,基于动态标签分配策略从特征点集合中挑选出高质量的正样本特征点;
S44.基于挑选的正样本特征点,对孪生网络的参数和视频跟踪数据的特征表示进行优化,得到跟踪网络模型。
进一步的,所述步骤S41正负样本特征点集合的构造具体为:
判断视频跟踪数据的特征点是否处于真实目标框内,若是,则表示当前特征点需要预测相对应的目标框,即当前特征点为正样本特征点;若否,则表示当前特征点需要预测相对应的背景,即当前特征点为负样本特征点。
进一步的,所述步骤S42中计算每个样本特征点的置信度分数,表示为:
Figure 204083DEST_PATH_IMAGE001
其中,b表示一个样本特征点;P和N分别表示正负样本特征点集合;S(b)表示特征点所对应的分类得分;IoU(R(b),g)表示特征点所预测的目标框与真实目标框之间的交并比;α表示平衡分类和回归误差的正则化因子。
进一步的,所述步骤S43中从特征点集合中挑选出高质量的正样本特征点具体包括:
以正样本特征点置信度分数的中位数为阈值,将正样本特征点的置信度分数大于等于阈值的认定为高质量的正样本特征点;将正样本特征点的置信度分数小于阈值的认定为低质量正样本特征点。
进一步的,包括:步骤S43中的动态标签分配策略,表示为:
Figure 88600DEST_PATH_IMAGE002
其中,Label表示动态标签分配策略;Threshold表示阈值;Confidence表示置信度分数;1表示正样本特征点的置信度分数大于阈值的标记;0表示负样本特征点的标记;-1表示正样本特征点的置信度分数小于阈值的标记。
进一步的,所述步骤S44中对孪生网络的参数和视频跟踪数据的特征表示进行优化,其中优化的损失函数L(θ),表示为:
Figure 337179DEST_PATH_IMAGE003
其中,
Figure 201229DEST_PATH_IMAGE004
表示用于分类的交叉熵损失函数;
Figure 484443DEST_PATH_IMAGE005
表示用于回归的损失函数;
Figure 41326DEST_PATH_IMAGE006
Figure 777201DEST_PATH_IMAGE007
分别表示分类损失和回归损失的权重参数。
相应的,还提供一种执行基于动态标签分配的孪生网络目标跟踪方法的移动设备。
与现有技术相比,本发明的有益效果是:
(1)基于动态标签分配的孪生网络目标跟踪方法,将孪生跟踪器中的正负样本选择从静态设计提升为动态分配模式,并实现分类和回归任务的联合优化;
(2)本发明提供的动态标签分配策略是基于分类得分、距离和回归得分自动学习的,它几乎没有超参数,对于基于锚框和基于无锚框的孪生网络跟踪模型均具有重要意义;
(3)本发明提供的基于动态标签分配的孪生网络目标跟踪方法,显著改善了目标跟踪中遮挡、不规则物体的跟踪效果,提高了目标跟踪器的性能;
(4)本发明在多个目标跟踪数据集进行实验,从多个跟踪性能指标对比本发明提出的跟踪器与其它模型。实验结果表明,本发明提出的目标跟踪方法在不引入额外开销的情况下提高了目标跟踪的精度和成功率。
附图说明
图1是实施例一提供的基于动态标签分配的孪生网络目标跟踪方法流程图;
图2是实施例一提供的基于动态标签分配的孪生网络目标跟踪的网络架构示意图;
图3是实施例一提供的构造正样本特征点集合的说明性示例图;
图4是实施例一提供的动态标签分配与其他静态分配方式的对比示意图;
图5是实施例二提供的在VOT-2019数据集上的EAO指标对比图;
图6是实施例二提供的跟踪结果可视化图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有的基于锚框的目标跟踪方法,通常需要启发式先验知识,并且固定的IoU阈值不适用于形状不规则的物体(例如细长的)会引入歧义的低质量训练样本。而现有的基于无锚框的视觉跟踪算法,仅利用真实目标框中心点距离分配正负训练样本,也忽略了不同目标的外观和几何结构。同时,大部分现有的孪生网络跟踪方法忽略了分类任务和边界框回归之间的内在关系,并独立优化这两个子任务,这会导致分类与回归的不一致性。因此提供了基于动态标签分配的孪生网络目标跟踪方法及移动设备。
实施例一
本实施例提供基于动态标签分配的孪生网络目标跟踪方法,如图1-图2所示,包括步骤:
S1.获取与视频相关的视频数据集,并对获取的视频数据集进行处理,得到模板图像和待搜索区域图像;
S2.基于孪生网络提取模板图像和待搜索区域图像的深度特征,并计算提取的深度特征的特征响应图;
S3.根据计算得到的特征响应图,获得特征响应图所对应的分类得分和预测框坐标;
S4.根据获得的分类得分和预测框坐标,采用动态标签分配策略定义目标跟踪的正负样本特征点,并根据特征响应图与目标、背景的匹配对孪生网络进行优化,得到跟踪网络模型;
S5.将视频数据输入跟踪网络模型中,跟踪网络模型输出视频当前帧的跟踪结果。
在步骤S1中,获取与视频相关的视频数据集,并对获取的视频数据集进行处理,得到模板图像和待搜索区域图像。
选择若干个公共视频数据集,对于每一个视频数据相对应的视频序列中的每一帧图像,根据标注好的目标框信息(x,y,w,h),以物体目标框中心点为中心、(w+(w+h/2))为宽、(h+(w+h/2))为高对图像进行裁剪,并将裁剪后的图像缩至固定大小127×127,从而获得模板图像。
对于待搜索区域,在与模板图像同等缩放比例下裁剪出255×255大小的图像块,得到待搜索区域的图像。
在步骤S2中,基于孪生网络提取模板图像和待搜索区域图像的深度特征,并计算提取的深度特征的特征响应图。
具体包括:
S21.将得到的模板图像和待搜索区域图像输入孪生网络中的特征提取网络中,并通过特征提取网络提取模板图像和待搜索区域图像的深度特征;
S22.利用深度互相关层计算模板图像和待搜索区域图像不同尺度下的特征响应图。
在本实施例中,特征提取网络为卷积神经网络,包括但不限于AlexNet网络和ResNet-50网络。
当特征提取网络为AlexNet时,特征提取网络仅输出最后一个卷积层的单尺度深度特征图,特征提取网络输出的模板图像特征和待搜索区域图像特征的尺度分别为6×6×256、22×22×256,深度互相关(DepthwiseXCorr)之后的特征响应图为17×17×256;
当特征提取网络为ResNet-50时,特征提取网络输出最后三个block的同尺度但不同感受野的深度特征图,模板图像特征和待搜索区域图像特征输出的特征图分别为7×7×256、31×31×256,深度互相关(DepthwiseXCorr)之后的特征响应图为25×25×256。
在步骤S3中,根据计算得到的特征响应图,获得特征响应图所对应的分类得分和预测框坐标。
将深度互相关后得到的特征响应图输入孪生网络中的分类头网络(Cls Head)和回归头网络(Reg Head)中,得到特征点对应的分类得分和预测框偏移量。
具体为:将深度互相关得到的用于分类头网络的特征响应图进行两次卷积,得到所有特征点的预测的分类得分;当采用锚框机制时,预测的为每个特征点所对应锚框的分类得分;而采用无锚框机制,预测的则为每个特征点本身对应的分类得分。
将深度互相关得到的用于回归头网络的特征响应图进行两次卷积,得到所有特征点的预测框偏移量。当采用锚框机制时,预测的为每个特征点所对应锚框的偏移值;而采用无锚框机制,预测的则为每个特征点本身对应的上下左右四个边界值。
在步骤S4中,根据获得的分类得分和预测框坐标,采用动态标签分配策略定义目标跟踪的正负样本特征点,并根据特征响应图与目标、背景的匹配对孪生网络进行优化,得到跟踪网络模型。
具体包括:
S41.构造视频跟踪数据的正负样本特征点集合;
正负样本特征点集合的构造是根据特征点是否位于所跟踪物体的目标框内,确定该特征点是否属于需要预测对应目标框的正样本。
具体为:判断视频跟踪数据的特征点是否处于真实目标框内,若是,则表示当前特征点需要预测相对应的目标框,即当前特征点为正样本特征点;若否,则表示当前特征点需要预测相对应的背景,即当前特征点为负样本特征点。
如图3所示,根据每个特征点与真实目标框中心的距离,对每个特征点放缩至原图层,挑选位于真实目标框框内的特征点,确定该点是否为正样本特征。
S42.通过动态标签分配策略构建置信度函数,并基于构建的置信度函数计算每个样本特征点的置信度分数;
现有的大多数目标跟踪器通过手工分配方式进行特征匹配优化,并没有考虑特征的动态分配问题。为了解决上述限制,本实施例提供了一种简单而有效的动态标签分配(DyLA) 策略,以自动学习方式定义用于视觉对象跟踪的正负样本。具体来说,DyLA构建了由分类和回归预测值联合引导的置信度函数,以确定每个锚框或特征点的置信度分数,即每个样本特征点的置信度分数,表示为:
Figure 444943DEST_PATH_IMAGE008
其中,b表示一个样本特征点;P和N分别表示正负样本特征点集合;S(b)表示特征点所对应的分类得分;IoU(R(b),g)表示特征点所预测的目标框与真实目标框之间的交并比;α表示平衡分类和回归误差的正则化因子。
在本实施例中,分类和回归预测越好的特征点的置信度越大。
S43.根据计算得到的置信度分数,基于动态标签分配策略从特征点集合中挑选出高质量的正样本特征点;
根据置信度分数的统计分析,本实施例以一种动态的方式挑选出高质量的正样本特征点,具体包括:
以该目标中所有正样本特征点置信度分数的中位数Median(Confidence)为阈值Threshold,将正样本特征点的置信度分数大于等于阈值Threshold的认定为高质量的正样本特征点,并标记为1;将正样本特征点的置信度分数小于阈值Threshold的认定为低质量正样本特征点,并标记为-1,且在训练过程中忽略该特征点。
动态标签分配策略,表示为:
Figure 582663DEST_PATH_IMAGE009
其中,Label表示动态标签分配策略;Threshold表示阈值;Confidence表示置信度分数;1表示正样本特征点的置信度分数大于阈值的标记;0表示负样本特征点的标记;-1表示正样本特征点的置信度分数小于阈值的标记。
如图4所示,本实施例可以针对不同形状外观的物体分配特定的合适的高质量正样本特征点,从而优化了特征匹配过程。
S44.基于挑选的正样本特征点,对孪生网络的参数和视频跟踪数据的特征表示进行优化,得到跟踪网络模型。
基于上述的动态标签分配策略,本实施例可以通过对正负样本特征点集合的优化实现对网络模型的参数优化,并有利于选择适合不同目标表示的特定特征。本实施例通过自动选择定位良好且分类良好的正样本特征点避免了任务错位问题,并从两个方面优化了孪生跟踪器的训练过程:
首先,为了保证稳健的跟踪性能,孪生网络需要在训练过程中忽略定位较差(边界框回归误差大)的正样本特征点;其次,本实施例以相互学习的方式联合优化孪生网络的分类头网络和回归头网络,在泛化能力方面有着更大的潜力。
本实施例采用以下公式对孪生网络的参数和物体的特征表示进行优化,其中优化的损失函数L(θ),表示为:
Figure 543404DEST_PATH_IMAGE010
其中,
Figure 32154DEST_PATH_IMAGE011
表示用于分类的交叉熵损失函数;
Figure 238007DEST_PATH_IMAGE012
表示用于回归的损失函数;
Figure 230234DEST_PATH_IMAGE013
Figure 128920DEST_PATH_IMAGE014
分别表示分类损失和回归损失的权重参数。
在本实施例中,基于上述损失函数作为孪生网络训练的目标函数,采用随机梯度下降(SGD)方法获得目标函数的梯度,同时优化孪生网络参数和特征匹配,得到最终跟踪网络模型。
对训练好的跟踪网络模型进行保存,以便用于后续视觉目标跟踪任务。
需要说明的是,在步骤S1-S4中均是训练和优化跟踪网络模型的过程。
S5.将视频数据输入跟踪网络模型中,跟踪网络模型输出视频当前帧的跟踪结果。
获得训练好的跟踪网络模型后,按照包括以下方法进行跟踪:
对测试数据预处理,获取模板帧图像和待搜索区域图像;将获取的模板帧图像和待搜索区域图像输入至跟踪网络模型后,输出模板图像和搜索区域图像的深度特征,并计算特征响应图;获得所有特征点所对应的分类得分和预测框偏移量;根据分类得分最高的特征点,确定当前帧的跟踪结果。
本实施例中分类与回归预测结果的表现更加一致,即置信度高的正样本特征点所预测的分类得分和回归的目标框预测值越准确。
本实施例的有益效果是:
(1)基于动态标签分配的孪生网络目标跟踪方法,将孪生跟踪器中的正负样本选择从静态设计提升为动态分配模式,并实现分类和回归任务的联合优化;
(2)本发明提供的动态标签分配策略是基于分类得分、距离和回归得分自动学习的,它几乎没有超参数,对于基于锚框和基于无锚框的孪生网络跟踪模型均具有重要意义;
(3)本发明提供的基于动态标签分配的孪生网络目标跟踪方法,显著改善了目标跟踪中遮挡、不规则物体的跟踪效果,提高了目标跟踪器的性能。
相应的,本实施例还提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施基于动态标签分配的孪生网络目标跟踪方法。有利于动态地选择高质量的正样本特征点,显著改善了目标跟踪中遮挡、不规则物体的跟踪效果,提高了目标跟踪器的性能。
相应的,本实施例还提供一种执行基于动态标签分配的孪生网络目标跟踪方法的移动设备。有利于动态地选择高质量的正样本特征点,显著改善了目标跟踪中遮挡、不规则物体的跟踪效果,提高了目标跟踪器的性能。
实施例二
本实施例提供的基于动态标签分配的孪生网络目标跟踪方法与实施例一的不同之处在于:
本实施例结合实验评估对本方法作进一步描述。
本实施例相比于其它基于孪生网络的目标跟踪技术,从跟踪模型的分配规则、算法准确率性能两方面,与已有的工作SiamFC、SiamRPN++、SiamFC++、SiamCAR和SiamBAN在大规模LaSOT数据集上进行实验比较。从表1中可以看出,本实施例提出的基于动态标签分配的孪生网络目标跟踪方法在成功率AUC指标方面获得了很好的性能。DyLA-RPN和DyLA-BAN分别都在SiamRPN++和SiamBAN的基准上有了稳定的性能提升。因为本实施例在模型测试阶段没有引入任何网络架构或参数,DyLA跟踪器不会影响基准跟踪模型的跟踪速度。这证明了本实施例所提出动态标签分配策略的有效性。
表1基于孪生网络的目标跟踪方法的性能比较
Figure 104966DEST_PATH_IMAGE015
此外,本实施例的跟踪方法还和其他先进的跟踪算法进行实验比较。如表2所示。在OTB-2015数据集上,与其它算法相比,DyLA获得了相当的精度和AUC分数;在LaSOT数据集上,DyLA-PRN和DyLA-BAN在基准模型上分别获得了3.3%和5.4%的性能提升。进一步,在VOT-2019和GOT-10K数据集上,通过表3、表4和图5,可以发现本实施例提出基于动态标签分配的目标跟踪方法DyLA与所对比的其它方法在各项性能指标上都取得了最好的结果。
表2在OTB-100和LaSOT数据集上的AUC性能比较
Figure 848931DEST_PATH_IMAGE017
表3在VOT-2019数据集上的性能比较
Figure 961244DEST_PATH_IMAGE019
表4在GOT-10K数据集上的性能比较
Figure 765252DEST_PATH_IMAGE021
最后,本实施例进一步对跟踪结果进行可视化。在OTB-2015的三个挑战性的视频(Walking2,Bird2和Bolt),对DyLA、SiamBAN、SiamRPN、ACT、CREST的跟踪效果进行对比。从图6中可以发现,本实施例的跟踪方法可以在部分遮挡,不同形状物体的尺度变化等复杂场景下准确地跟踪到特定目标,这证明了本发明所提出动态标签分配策略训练方法对于特征匹配优化的有效性。
本实施例在多个目标跟踪数据集进行实验,从多个跟踪性能指标对比本发明提出的跟踪器与其它模型。实验结果表明,本发明提出的目标跟踪方法在不引入额外开销的情况下提高了目标跟踪的精度和成功率。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例, 而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.基于动态标签分配的孪生网络目标跟踪方法,其特征在于,包括步骤:
S1.获取与视频相关的视频数据集,并对获取的视频数据集进行处理,得到模板图像和待搜索区域图像;
S2.基于孪生网络提取模板图像和待搜索区域图像的深度特征,并计算提取的深度特征的特征响应图;
S3.根据计算得到的特征响应图,获得特征响应图所对应的分类得分和预测框坐标;
S4.根据获得的分类得分和预测框坐标,采用动态标签分配策略定义目标跟踪的正负样本特征点,并根据特征响应图与目标、背景的匹配对孪生网络进行优化,得到跟踪网络模型;
S5.将视频数据输入跟踪网络模型中,跟踪网络模型输出视频当前帧的跟踪结果;
所述步骤S4具体包括:
S41.构造视频跟踪数据的正负样本特征点集合;
S42.通过动态标签分配策略构建置信度函数,并基于构建的置信度函数计算每个样本特征点的置信度分数;
S43.根据计算得到的置信度分数,基于动态标签分配策略从特征点集合中挑选出高质量的正样本特征点;
S44.基于挑选的正样本特征点,对孪生网络的参数和视频跟踪数据的特征表示进行优化,得到跟踪网络模型;
所述步骤S42中计算每个样本特征点的置信度分数,表示为:
Figure FDA0003233512850000011
其中,b表示一个样本特征点;P和N分别表示正负样本特征点集合;S(b)表示特征点所对应的分类得分;IoU(R(b),g)表示特征点所预测的目标框与真实目标框之间的交并比;α表示平衡分类和回归误差的正则化因子。
2.根据权利要求1所述的基于动态标签分配的孪生网络目标跟踪方法,其特征在于,所述步骤S1中对获取的视频数据集进行处理具体为:
选择若干个公共视频数据集,对于每一个视频数据相对应的视频序列中的每一帧图像,以真实目标框中心点为中心,按照预设值对图像进行裁剪,得到模板图像和待搜索区域图像。
3.根据权利要求1所述的基于动态标签分配的孪生网络目标跟踪方法,其特征在于,所述步骤S2具体包括:
S21.将得到的模板图像和待搜索区域图像输入孪生网络中的特征提取网络中,并通过特征提取网络提取模板图像和待搜索区域图像的深度特征;
S22.利用深度互相关层计算模板图像和待搜索区域图像不同尺度下的特征响应图。
4.根据权利要求3所述的基于动态标签分配的孪生网络目标跟踪方法,其特征在于,所述步骤S41正负样本特征点集合的构造具体为:
判断视频跟踪数据的特征点是否处于真实目标框内,若是,则表示当前特征点需要预测相对应的目标框,即当前特征点为正样本特征点;若否,则表示当前特征点需要预测相对应的背景,即当前特征点为负样本特征点。
5.根据权利要求4所述的基于动态标签分配的孪生网络目标跟踪方法,其特征在于,所述步骤S43中从特征点集合中挑选出高质量的正样本特征点具体包括:
以正样本特征点置信度分数的中位数为阈值,将正样本特征点的置信度分数大于等于阈值的认定为高质量的正样本特征点;将正样本特征点的置信度分数小于阈值的认定为低质量正样本特征点。
6.根据权利要求5所述的基于动态标签分配的孪生网络目标跟踪方法,其特征在于,包括:步骤S43中的动态标签分配策略,表示为:
Figure FDA0003233512850000021
其中,Label表示动态标签分配策略;Threshold表示阈值;Confidence表示置信度分数;1表示正样本特征点的置信度分数大于阈值的标记;0表示负样本特征点的标记;-1表示正样本特征点的置信度分数小于阈值的标记。
7.根据权利要求6所述的基于动态标签分配的孪生网络目标跟踪方法,其特征在于,所述步骤S44中对孪生网络的参数和视频跟踪数据的特征表示进行优化,其中优化的损失函数L(θ),表示为:
L(θ)=λcls·Lcls(θ)+λreg·Lreg(θ)
其中,Lcls(θ)表示用于分类的交叉熵损失函数;Lreg(θ)表示用于回归的损失函数;λcls和λreg分别表示分类损失和回归损失的权重参数。
8.一种执行权利要求1-7任意一项所述基于动态标签分配的孪生网络目标跟踪方法的移动设备。
CN202110754387.XA 2021-07-05 2021-07-05 基于动态标签分配的孪生网络目标跟踪方法及移动设备 Active CN113255611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110754387.XA CN113255611B (zh) 2021-07-05 2021-07-05 基于动态标签分配的孪生网络目标跟踪方法及移动设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110754387.XA CN113255611B (zh) 2021-07-05 2021-07-05 基于动态标签分配的孪生网络目标跟踪方法及移动设备

Publications (2)

Publication Number Publication Date
CN113255611A CN113255611A (zh) 2021-08-13
CN113255611B true CN113255611B (zh) 2021-10-01

Family

ID=77190696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110754387.XA Active CN113255611B (zh) 2021-07-05 2021-07-05 基于动态标签分配的孪生网络目标跟踪方法及移动设备

Country Status (1)

Country Link
CN (1) CN113255611B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113870330B (zh) * 2021-09-30 2023-05-12 四川大学 基于特定标签和损失函数的孪生视觉跟踪方法
CN113838099A (zh) * 2021-10-20 2021-12-24 浙江大立科技股份有限公司 一种基于孪生神经网络的单目标跟踪方法
CN114299113A (zh) * 2021-12-27 2022-04-08 北京航空航天大学 一种基于孪生网络的目标跟踪方法及装置
CN114529583B (zh) * 2022-02-10 2024-03-19 国网河南省电力公司电力科学研究院 基于残差回归网络的电力设备跟踪方法及跟踪系统
CN114821421A (zh) * 2022-04-28 2022-07-29 南京理工大学 一种交通异常行为检测方法与系统
CN114820712B (zh) * 2022-05-16 2024-04-02 太原科技大学 一种自适应目标框优化的无人机跟踪方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN112966553A (zh) * 2021-02-02 2021-06-15 同济大学 基于孪生网络的强耦合目标跟踪方法、装置、介质及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733755B2 (en) * 2017-07-18 2020-08-04 Qualcomm Incorporated Learning geometric differentials for matching 3D models to objects in a 2D image
CN110222792A (zh) * 2019-06-20 2019-09-10 杭州电子科技大学 一种基于孪生网络的标签缺陷检测算法
CN111627050B (zh) * 2020-07-27 2020-12-01 杭州雄迈集成电路技术股份有限公司 一种目标跟踪模型的训练方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN112966553A (zh) * 2021-02-02 2021-06-15 同济大学 基于孪生网络的强耦合目标跟踪方法、装置、介质及设备

Also Published As

Publication number Publication date
CN113255611A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113255611B (zh) 基于动态标签分配的孪生网络目标跟踪方法及移动设备
CN108921873B (zh) 基于核相关滤波优化的马尔科夫决策在线多目标跟踪方法
CN110991272B (zh) 一种基于视频跟踪的多目标车辆轨迹识别方法
CN107194408B (zh) 一种混合块稀疏协作模型的目标跟踪方法
CN109146912B (zh) 一种基于目标性分析的视觉目标跟踪方法
CN106981071B (zh) 一种基于无人艇应用的目标跟踪方法
CN112836639A (zh) 基于改进YOLOv3模型的行人多目标跟踪视频识别方法
CN110766723B (zh) 一种基于颜色直方图相似性的无人机目标跟踪方法及系统
CN111582349B (zh) 一种基于YOLOv3和核相关滤波改进的目标跟踪算法
CN107067410B (zh) 一种基于增广样本的流形正则化相关滤波目标跟踪方法
CN110610165A (zh) 一种基于yolo模型的船舶行为分析方法
CN111008991B (zh) 一种背景感知的相关滤波目标跟踪方法
CN111523463B (zh) 基于匹配-回归网络的目标跟踪方法及训练方法
TWI701608B (zh) 用於圖片匹配定位的神經網路系統、方法及裝置
CN113240716B (zh) 一种多特征融合的孪生网络目标跟踪方法及系统
CN112749673A (zh) 一种基于遥感影像智能提取储油罐库存的方法及装置
CN113706581A (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN111091101A (zh) 基于一步法的高精度行人检测方法、系统、装置
CN111598928A (zh) 一种基于具有语义评估和区域建议的突变运动目标跟踪方法
CN114898403A (zh) 一种基于Attention-JDE网络的行人多目标跟踪方法
Jiang et al. High speed long-term visual object tracking algorithm for real robot systems
Zhang et al. Structural pixel-wise target attention for robust object tracking
CN111914832A (zh) 一种rgb-d相机在动态场景下的slam方法
CN116381672A (zh) 基于孪生网络雷达x波段多扩展目标自适应跟踪方法
CN112053384A (zh) 基于边界框回归模型的目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210813

Assignee: Zhejiang Fengshou e-commerce Co.,Ltd.

Assignor: ZHEJIANG NORMAL University

Contract record no.: X2022980008844

Denomination of invention: Twin network target tracking method and mobile device based on dynamic label assignment

Granted publication date: 20211001

License type: Common License

Record date: 20220701

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210813

Assignee: Zhejiang yikangpu Medical Technology Co.,Ltd.

Assignor: ZHEJIANG NORMAL University

Contract record no.: X2023980045426

Denomination of invention: Twin Network Target Tracking Method and Mobile Device Based on Dynamic Label Allocation

Granted publication date: 20211001

License type: Common License

Record date: 20231101

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210813

Assignee: Xujing Chacang (Ningbo) Network Technology Co.,Ltd.

Assignor: ZHEJIANG NORMAL University

Contract record no.: X2024980000686

Denomination of invention: Twin Network Target Tracking Method Based on Dynamic Label Allocation and Mobile Devices

Granted publication date: 20211001

License type: Common License

Record date: 20240115

EE01 Entry into force of recordation of patent licensing contract