CN112712546A - 一种基于孪生神经网络的目标跟踪方法 - Google Patents

一种基于孪生神经网络的目标跟踪方法 Download PDF

Info

Publication number
CN112712546A
CN112712546A CN202011521652.1A CN202011521652A CN112712546A CN 112712546 A CN112712546 A CN 112712546A CN 202011521652 A CN202011521652 A CN 202011521652A CN 112712546 A CN112712546 A CN 112712546A
Authority
CN
China
Prior art keywords
image
target
subnet
neural network
twin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011521652.1A
Other languages
English (en)
Inventor
王勇
刘红旗
李新潮
谢文洁
金琳淇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202011521652.1A priority Critical patent/CN112712546A/zh
Publication of CN112712546A publication Critical patent/CN112712546A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明实施例公开一种基于孪生神经网络的目标跟踪方法及系统。属于计算机视觉领域,包括:通过获取待跟踪目标图像和待搜索图像;将获取的待跟踪目标图像和待搜索图像分别输入到孪生神经网络模型中,孪生神经网络模型输出待跟踪目标图像在待搜索图像中的位置。本发明基于孪生神经网络实现目标跟踪,减少了计算复杂度,提高了目标跟踪的实时性。将残差单元引入孪生神经网络中的孪生网络的两个子网中,解决卷积神经网络深度加深所带来的性能退化问题,使得所构建的孪生神经网络模型在层次较多时也有稳定分支可进行网络梯度回传,利用分支并行定位分割网络在提高目标跟踪精度的同时也兼顾了目标跟踪的速度。

Description

一种基于孪生神经网络的目标跟踪方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于孪生神经网络的目标 跟踪方法。
背景技术
图像信息是人类感知世界并获取外界信息的一个重要来源,其中,目标跟 踪是图像信息理解中一个十分常见又重要的视觉任务,是计算机视觉的一个重 要分支。目标跟踪是通过在第一帧选定标注目标,实现在后续视频序列中连续 跟踪变化的目标,对后续帧进行目标定位。近年来,由于无人驾驶、机器人及 视频监控等领域的发展及技术需求,目标跟踪技术受到越来越多的研究人员的 重视。
近年来,国内外学者提出了很多跟踪算法,主要可以分为两大类:一类是 基于生成式模型的目标跟踪算法,另一类是基于判别式模型的目标跟踪算法。 其中,生成式模型着重于对目标本身进行描述和进一步刻画从而建立目标外观 模型的表征,利用建立的目标模型的表征在后续帧图像中定位目标位置,优点 在于在具有挑战性的跟踪问题中有较好表现,但会增加计算复杂度;判别式模 型实质上是将目标跟踪问题转换成目标和背景的二分类问题,通过利用机器学 习技术来区分图像中的前景目标及背景,进而确定目标的位置,该类方法在判 断目标及背景前需要进行特征的提取来提高判断的准确度,但是会由于大量候 选样本需要进行特征提取使得算法无法实现实时性。
通过近几年计算机视觉方面的顶会中表现较好的目标跟踪算法可以看出, 其中主要是通过相关滤波方法及深度学习方法实现目标跟踪。2014年, Henriques提出了CSK的改进算法KCF,该算法成为相关滤波算法中的经典之 作。作者在KCF中使用循环位移矩阵生成样本,解决了传统算法中正负样本不 均衡的问题,利用循环矩阵在傅里叶空间可对角化的性质大大降低了运算量。 并且利用核函数,将线性空间的脊回归通过核函数映射到非线性空间来求解非 线性问题。近几年,随着深度学习技术的发展,科研人员开始尝试将深度学习 方法应用于数字图像处理领域,其中,基于深度学习的目标跟踪算法相比传统 算法取得了更好的效果。2016年,牛津大学的Bertinetto等人提出了一种基 于全卷机孪生神经网络的目标跟踪算法框架SiamFC。SiamFC是孪生神经网络的 代表性算法之一。SiamFC训练了一个较大的搜索区域搜索模板图片孪生网络, 通过计算两个输入的交叉相关再进行插值最终得到对目标位置的估计。SiamFC 算法利用两个相同或相似的网络结构分别提取目标图像及搜索图像特征,有效 的减少了神经网络的参数训练量,进而减少计算量。但仍存在针对遮挡等干扰 会产生性能下降的情况,同时随着需求的增加,对于目标跟踪的精度及速度也 有了更高的要求。
大多数现代的目标跟踪方法使用的都是矩形边界框来初始化目标并估计其 在后续帧中的位置。使用矩形边界框进行目标位置的框定十分方便,但简单的 矩形边界框通常不能准确的表示目标对象,故此,促使我们提出能够产生二进 制分割掩码的跟踪方法。与目标跟踪类似,视频目标分割任务需在后续帧中估 计在视频第一帧中指定的任意目标的位置,这种情况下的目标表示是由二进制 分割掩码组成,该掩码用于表示某像素是否属于目标。这种像素级的目标估计, 其准确度会有所提高,对于目标位置的确定会更加准确,但像素级的数据无论 是在网络训练过程还是实际视频目标跟踪过程中都比矩形边界框估计需要更多 的计算资源,其目标跟踪速度会较慢。
综上所述,如何克服目标在视频中的遮挡、快速移动以及尺寸变化等因素 影响,从而较好的实现目标跟踪,目前仍是科研人员急需解决的问题。
发明内容
为了解决现有技术存在目标在视频中的遮挡、快速移动以及尺寸变化等因 素影响,影响目标跟踪问题,本发明实施例提供以下技术方案:
一方面,一种基于孪生神经网络的目标跟踪方法,包括:
获取待跟踪目标图像和待搜索图像;
将获取的待跟踪目标图像和待搜索图像分别输入到孪生神经网络模型中, 孪生神经网络模型输出待跟踪目标图像在待搜索图像中的位置。
进一步地,孪生神经网络模型包括孪生网络和分支并行定位分割网络,
所述孪生网络使用两个卷积神经网络分别对待跟踪目标图像和待搜索图像 进行特征提取,将提取到的目标图像和搜索图像的特征进行深度可分离卷积, 获得初始响应图;
所述分支并行定位分割网络根据所述初始响应图,输出所述待跟踪目标图 像在待搜索图像中的位置。
进一步地,所述分支并行定位分割网络包括:
分类器子网,所述分类器子网包括两个卷积层,每个卷积层由1个卷积单 元构成;
定位回归子网,所述定位回归子网包括两个卷积层,每个卷积层由1个卷 积单元构成;
分割掩码子网,所述分割掩码子网有两个卷积层,每个卷积层由1个卷积 单元构成。
进一步地,所述分类器子网根据所述初始响应图,得到得分矩阵结果,用 于区分待跟踪目标图像和背景;
所述定位回归子网根据所述初始响应图,得到位置信息矩阵,用于估计待 跟踪目标图像的矩形边界框的具体位置和长宽;
所述分割掩码子网根据所述初始响应图,二进制分割掩码用于获取估计的 目标掩码。
进一步地,所述两个卷积神经网络构成的子网为目标图像子网和搜索图像 子网;
所述目标图像子网和所述搜索图像子网均是由五层卷积层构成,五层卷积 层分别是:第一层卷积层由1个卷积单元构成,该卷积单元卷积核大小为7×7, 第二层卷积层由3个残差单元构成,每个残差单元分别由大小为1×1的卷积核和 3×3的卷积核交叠组成,第三个卷积层由1个残差单元构成,每个残差单元分 别由大小为1×1的卷积核和3×3的卷积核交叠组成,第四层卷积层3个残差单元 构成,每个残差单元分别由大小为1×1的卷积核和3×3的卷积核交叠组成,第五 层卷积层由1个卷积单元构成,该卷积单元卷积核大小为1×1。
进一步地,所述孪生神经网络模型的训练方法,包括:
获取目标视频序列数据集;
对目标视频序列数据集中的图像帧进行图像预处理,得到目标图像训练集 和搜索图像训练集;
基于目标图像训练集和搜索图像训练集,训练孪生神经网络模型;
利用损失函数作为目标函数计算输出结果与标签真实值之间的误差,对孪 生神经网络模型中的参数进行调整;
直至目标函数误差值收敛于最小值或达到迭代次数,得到训练好的孪生神 经网络模型。
进一步地,所述基于目标图像训练集和搜索图像训练集,训练孪生神经网 络模型,包括:
从目标视频序列数据集中随机抽取一帧作为目标图像子网的输入;
将目标视频序列数据集中随机抽取一帧的下一帧作为搜索图像子网的输 入。
进一步地,所述将提取到的目标图像和搜索图像的特征进行深度可分离卷 积,获得初始响应图,计算过程为
gθ(z,x)=fθ(z)*fθ(x);
其中,fθ(z)为目标图像特征,fθ(x)为搜索图像特征,z为目标图像,x为搜索 图像,θ为孪生网络子网参数,*为深度可分离卷积用符号,gθ(z,x)为初始 响应图。
进一步地,所述损失函数包括分类器子网的损失函数、定位回归子网的损 失函数和分割掩码子网的损失函数,计算公式为:
L3B=λ1Lmask2Lseoce3Lbox (1)
其中,损失函数L3B公式中λ1、λ2和λ3为网络自设定参数;
上述(1)式中分割掩码分支的损失函数为Lmask,Lmask公式如(2)式所示:
Figure RE-GDA0002981731860000051
其中,θ表示孪生网络子网参数,φ表示分割掩码分支网络参数,, yn表示分割掩码分支网络获取的候选窗口的真实二进制标签,且 yn∈{±1},w和h表示候选窗口的宽和高,cn表示像素级真值,而
Figure RE-GDA0002981731860000052
则 表示第n个候选窗口中的目标掩码在像素(i,j)位置处的标签真实值,
Figure RE-GDA0002981731860000061
表示第n个候选窗口中的预测目标掩码在像素(i,j)位置处的预测 真实值;
上述(1)式中分类器分支的损失函数为Lscore,Lscore公式如(3) 式所示:
Figure RE-GDA0002981731860000062
其中,D表示分类器分支网络得到的得分矩阵,u表示得分矩阵 中的位置,y表示在u位置处的真值,且y∈{±1},v表示分类器分支 网络得到的预测结果的实际得分值;
l(y,v)=log(1+exp(-yv)) (4)
上述(1)式中定位回归分支的损失函数为Lbox,Lbox公式如(5) 式所示:
Figure RE-GDA0002981731860000063
其中,
Figure RE-GDA0002981731860000064
Figure RE-GDA0002981731860000065
其中,Ax,Ay,Aw,Ab分别表示定位回归分支网络所获取的锚 点框的中心点坐标和宽高值,Tx,Ty,Tw,Tb分别表示目标真实边 界框的中心点坐标和宽高值,σ为网络可自选参数。
另一方面,一种基于孪生神经网络的目标跟踪装置,包括:
图像获取单元,用于获取待跟踪目标图像和待搜索图像;
目标跟踪单元,用于将获取的待跟踪目标图像和待搜索图像分别输入到孪 生神经网络模型中,孪生神经网络模型输出待跟踪目标图像在待搜索图像中的 位置。
采用上述技术方案后,本发明具有如下优点:通过获取待跟踪目标图像和 待搜索图像;将获取的待跟踪目标图像和待搜索图像分别输入到孪生神经网络 模型中,孪生神经网络模型输出待跟踪目标图像在待搜索图像中的位置。本发 明基于孪生神经网络实现目标跟踪,所构建的网络模型具有权值共享和并行特 征提取的特点,减少了计算复杂度,提高了目标跟踪的实时性。将残差单元引 入孪生神经网络中的孪生网络的两个子网中,能够有利于解决卷积神经网络深 度加深所带来的性能退化问题,使得所构建的孪生神经网络模型在层次较多时 也有稳定分支可进行网络梯度回传,利用分支并行定位分割网络,该网络分别 生成得分矩阵、候选框和二进制分割掩码,由于该网络的3个子网是并行执行, 因此在提高目标跟踪精度的同时也兼顾了目标跟踪的速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例中一种基于孪生神经网络的目标跟踪方法步骤 图。
图2为本发明另一个实施例中的一种基于孪生神经网络的目标跟踪方法步 骤图。
图3为本发明一个实施例中的目标跟踪算法工作流程图。
图4为本发明一个实施例中的孪生神经网络网络结构示意图。
图5为本发明一个实施例中的孪生神经网络中使用的残差单元结构示意 图。
图6为本发明一个实施例中的孪生神经网络模型的训练方法。
图7为本发明一个实施中的一种基于孪生神经网络的目标跟踪装置。
图中:
1、图像获取单元;2、目标跟踪单元。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方 案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不 是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创 造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
实施例1,
如图1所示为本发明提供的一个实施例一种基于孪生神经网络的目标跟踪 方法步骤图,包括:
步骤101、获取待跟踪目标图像和待搜索图像;
步骤102、将获取的待跟踪目标图像和待搜索图像分别输入到孪生神经网 络模型中,孪生神经网络模型输出待跟踪目标图像在待搜索图像中的位置。
可以理解为,本发明所提供的实施例通过获取待跟踪目标图像和待搜索图 像;将获取的待跟踪目标图像和待搜索图像分别输入到孪生神经网络模型中, 孪生神经网络模型输出待跟踪目标图像在待搜索图像中的位置。本发明基于孪 生神经网络实现目标跟踪,所构建的网络模型具有权值共享和并行特征提取的 特点,减少了计算复杂度,提高了目标跟踪的实时性。
实施例2
作为上述实施例的进一步改进,如图2所示,为本申请另一个实施例所提 供的一种基于孪生神经网络的目标跟踪方法步骤图,
需要说明的是,孪生神经网络模型包括孪生网络和分支并行定位分割网络。
步骤201、获取待跟踪目标图像和待搜索图像;
步骤202、孪生网络使用两个卷积神经网络分别对待跟踪目标图像和待搜 索图像进行特征提取,将提取到的目标图像和搜索图像的特征进行深度可分离 卷积,获得初始响应图。
其中,两个卷积神经网络构成的子网为目标图像子网和搜索图像子网;
目标图像子网和所述搜索图像子网均是由五层卷积层构成,五层卷积层分 别是:第一层卷积层由1个卷积单元构成,该卷积单元卷积核大小为7×7,第 二层卷积层由3个残差单元构成,每个残差单元分别由大小为1×1的卷积核和 3×3的卷积核交叠组成,第三个卷积层由1个残差单元构成,每个残差单元分 别由大小为1×1的卷积核和3×3的卷积核交叠组成,第四层卷积层3个残差单元 构成,每个残差单元分别由大小为1×1的卷积核和3×3的卷积核交叠组成,第五 层卷积层由1个卷积单元构成,该卷积单元卷积核大小为1×1。具体孪生网络的 参数如表1所示:
表1
Figure BDA0002849170220000081
将提取到的目标图像和搜索图像的特征进行深度可分离卷积,获得初始响 应图,计算过程为
gθ(z,x)=fθ(z)*fθ(x);
其中,fθ(z)为目标图像特征,fθ(x)为搜索图像特征,z为目标图像,x为搜索 图像,θ为孪生网络子网参数,*为深度可分离卷积用符号,gθ(z,x)为初始 响应图。
步骤203、分支并行定位分割网络根据所述初始响应图,输出所述待跟踪 目标图像在待搜索图像中的位置。
具体地,其中分支并行定位分割网络包括:
分类器子网,所述分类器子网包括两个卷积层,每个卷积层由1个卷积单 元构成,卷积核大小均为1×1;分类器子网根据所述初始响应图,得到得分矩阵 结果,用于区分待跟踪目标图像和背景;
定位回归子网,所述定位回归子网包括两个卷积层,每个卷积层由1个卷 积单元构成,卷积核大小均为1×1;;定位回归子网根据所述初始响应图,得到 位置信息矩阵,用于估计待跟踪目标图像的矩形边界框的具体位置和长宽;
分割掩码子网,所述分割掩码子网有两个卷积层,每个卷积层由1个卷积 单元构成,卷积核大小均为1×1;。所述分割掩码子网根据所述初始响应图,二 进制分割掩码用于获取估计的目标掩码。
具体分支并行定位分割网络的参数如表2所示:
表2
分类器子网 定位回归子网 分割掩码子网
conv6 1×1,256 1×1,256 1×1,256
conv7 1×1,2k 1×1,4k 1×1,(63×63)
为了便于理解,如图3所示为本申请一个实施例提供的目标跟踪算法工作 流程图。
如图4所示为本申请一个实施例提供的孪生神经网络网络结构示意图。
如图5所示为本申请一个实施例提供的的孪生神经网络中使用的残差单元 结构示意图。
可以理解为,本发明构建的孪生神经网络模型主要由两部分构成,分别是 孪生网络和分支并行定位分割网络,如图2所示。其中,孪生网络由两个卷积 神经网络构成的子网组成,两个子网共享相同的参数,两个卷积神经网络构成 的子网用于分别对目标图像和搜索图像进行特征提取,且两个子网的特征提取 操作是并行执行的,因此有效地减少了计算量,提高了目标跟踪的速度。
首先,孪生网络完成对目标图像和搜索图像的特征提取工作后,将提取到 的目标图像和搜索图像的特征两者进行深度可分离卷积,获得初始响应图,本 发明使用了深度可分离卷积对两个子网提取特征进行操作,因此可达到在损失 精度不多的情况下大幅度降低参数量和计算量。
其次,经深度可分离卷积获得初始响应图后,将其输入到分支并行定位分 割网络中,进而实现对目标的位置的确定和跟踪。其中,分支并行定位分割网 络由分类器子网、定位回归子网和分割掩码子网三个分支网络构成,且分类器 子网、定位回归子网和分割掩码子网三个分支网络并行执行,从而进一步节省 了算法的计算时间,提高了目标跟踪算法的执行速度。最后,通过上述三个字 网的输出结果获得了对目标位置信息的估计,实现了对目标的定位和跟踪。
实施例3
在一个实施例中,如图6所示,为本申请所提供的孪生神经网络模型的训 练方法,包括:
步骤301、获取目标视频序列数据集;
步骤302、对目标视频序列数据集中的图像帧进行图像预处理,得到目标 图像训练集和搜索图像训练集;
步骤303、基于目标图像训练集和搜索图像训练集,训练孪生神经网络模 型;
需要说明的是,基于目标图像训练集和搜索图像训练集,训练孪生神经网 络模型,包括:
从目标视频序列数据集中随机抽取一帧作为目标图像子网的输入;
将目标视频序列数据集中随机抽取一帧的下一帧作为搜索图像子网的输 入。
需要说明的是,针对同一张图像,在不同的训练过程中,针对不同的卷积 层参数,最终得到的图像特征是不一样的,所以基于孪生神经网络的目标跟踪 算法所提取的特征信息会随着训练过程而发生变化,这里提取的特征是作为网 络训练的一个中间变量使用,不同于基于相关滤波器的目标跟踪算法。
基于相关滤波器的目标跟踪算法一般将提取的特征作为相关滤波器训练的 输入,而基于孪生神经网络的目标跟踪算法是直接将图像作为孪生神经网络模 型训练的输入。
步骤304、利用损失函数作为目标函数计算输出结果与标签真实值之间的 误差,对孪生神经网络模型中的参数进行调整;
步骤305、直至目标函数误差值收敛于最小值或达到迭代次数,得到训练 好的孪生神经网络模型。
以上步骤可以理解为:
1)从ImageNet-VID的视频数据集中获取原始视频序列,并对视频序列中 的图像进行图像处理,获取目标图像训练集和搜索图像训练集,其中目标图像 训练集中的图像大小127×127×3,搜索图像训练集中的图像大小255×255×3。
2)完成训练集图像处理工作后,将成对的目标图像训练集和搜索图像训练 集图片分别输入到孪生网络对应的子网中,获得目标图像特征和搜索图像特征。
3)将提取到的目标图像特征和搜索图像特征两者进行深度可分离卷积,获 得初始响应图,将初始响应图输入到分支并行定位分割网络分别获取分类器子 网、定位回归子网和分割掩码子网输出结果。
4)利用损失函数作为目标函数计算输出结果与标签真实值之间的误差,并 将该误差通过反向传播方式逐层传输至输入层,同时,采用随机梯度下降方法 优化目标函数,进而对孪生神经网络模型中的参数进行调整,完成一次网络模 型的训练。
5)重复上述步骤,直至目标函数误差值收敛于最小值或达到迭代次数,最 终获得训练好的孪生神经网络模型。
其中,损失函数包括分类器子网的损失函数、定位回归子网的损失函数和 分割掩码子网的损失函数,计算公式为:
L3B=λ1Lmask2Lseoce3Lbox (1)
其中,损失函数L3B公式中λ1、λ2和λ3为网络自设定参数;
上述(1)式中分割掩码分支的损失函数为Lmask,Lmask公式如(2) 式所示:
Figure RE-GDA0002981731860000141
其中,θ表示孪生网络子网参数,φ表示分割掩码分支网络参数, yn表示分割掩码分支网络获取的候选窗口的真实二进制标签,且 yn∈{±1},w和h表示候选窗口的宽和高,cn表示像素级真值,而
Figure RE-GDA0002981731860000142
则 表示第n个候选窗口中的目标掩码在像素(i,j)位置处的标签真实值,
Figure RE-GDA0002981731860000143
表示第n个候选窗口中的预测目标掩码在像素(i,j)位置处的预测 真实值;
上述(1)式中分类器分支的损失函数为Lscore,Lscore公式如(3) 式所示:
Figure RE-GDA0002981731860000144
其中,D表示分类器分支网络得到的得分矩阵,u表示得分矩阵 中的位置,y表示在u位置处的真值,且y∈{±1},v表示分类器分支 网络得到的预测结果的实际得分值;
l(y,v)=log(1+exp(-yv)) (4)
上述(1)式中定位回归分支的损失函数为Lbox,Lbox公式如(5) 式所示:
Figure RE-GDA0002981731860000145
其中,
Figure RE-GDA0002981731860000146
Figure RE-GDA0002981731860000147
其中,Ax,Ay,Aw,Ab分别表示定位回归分支网络所获取的锚 点框的中心点坐标和宽高值,Tx,Ty,Tw,Tb分别表示目标真实边 界框的中心点坐标和宽高值,σ为网络可自选参数。
其中,随机梯度下降方法是对孪生神经网络模型的损失函数进行优化的一 种方法,公式如(6)式所示:
arg minθE(z,x,y)l(y,fθ(z,x)) (6)
其中,θ表示孪生神经网络模型的参数,z表示目标图像,x表示搜索图像, y表示图像对应真实值,fθ(z,x)表示经过孪生神经网络模型对输入的目标图像 和搜索图像进行处理后获得的预测值。
为便于理解,以下为利用上述训练好的孪生神经网络模型进行目标跟踪测 试步骤,具体流程如下:
(1)将VOT-2018中所选测试视频数据的第一帧和第二帧分别作为目标图 像和搜索图像输入本发明已训练好的网络模型的孪生网络中的目标图像子网和 搜索图像子网中;
(2)获取上述两个子网的输出结果,将二者进行深度可分离卷积,以获取 初始响应图;
(3)将上述获取的初始响应图输入到分支并行定位分割网络中,获取测试 结果,即:第一帧中框选目标在第二帧中的估计位置及分割掩码;
(4)将测试结果输入到孪生网络的目标图像子图中,所选测试视频数据的 下一帧输入到孪生网络的搜索图像子图中;
(5)重复上述步骤(2)到(4),实现对视频中每一帧图像的目标定位和 跟踪。
实施例4,
作为上述方法的进一步改进,如图7所示,为本发明一个实施例提供的一 种基于孪生神经网络的目标跟踪装置,
包括:
图像获取单元1,用于获取待跟踪目标图像和待搜索图像;
目标跟踪单元2,用于将获取的待跟踪目标图像和待搜索图像分别输入到 孪生神经网络模型中,孪生神经网络模型输出待跟踪目标图像在待搜索图像中 的位置。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实 施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描 述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除 非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表 示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码 的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其 中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或 按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员 所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。 在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执 行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方 式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有 用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合 逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA) 等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部 分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计 算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块 中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的 形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品 销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示 例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述 的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。 在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。 而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例 或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例 是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的 范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于孪生神经网络的目标跟踪方法,其特征在于,包括:
获取待跟踪目标图像和待搜索图像;
将获取的待跟踪目标图像和待搜索图像分别输入到孪生神经网络模型中,孪生神经网络模型输出待跟踪目标图像在待搜索图像中的位置。
2.根据权利要求1所述的方法,其特征在于,孪生神经网络模型包括孪生网络和分支并行定位分割网络,
所述孪生网络使用两个卷积神经网络分别对待跟踪目标图像和待搜索图像进行特征提取,将提取到的目标图像和搜索图像的特征进行深度可分离卷积,获得初始响应图;
所述分支并行定位分割网络根据所述初始响应图,输出所述待跟踪目标图像在待搜索图像中的位置。
3.根据权利要求2所述的方法,其特征在于,所述分支并行定位分割网络包括:
分类器子网,所述分类器子网包括两个卷积层,每个卷积层由1个卷积单元构成;
定位回归子网,所述定位回归子网包括两个卷积层,每个卷积层由1个卷积单元构成;
分割掩码子网,所述分割掩码子网有两个卷积层,每个卷积层由1个卷积单元构成。
4.根据权利要求3所述的方法,其特征在于,
所述分类器子网根据所述初始响应图,得到得分矩阵结果,用于区分待跟踪目标图像和背景;
所述定位回归子网根据所述初始响应图,得到位置信息矩阵,用于估计待跟踪目标图像的矩形边界框的具体位置和长宽;
所述分割掩码子网根据所述初始响应图,得到二进制分割掩码,用于获取估计的目标掩码。
5.根据权利要求2所述方法,其特征在于,所述两个卷积神经网络构成的子网为目标图像子网和搜索图像子网;
所述目标图像子网和所述搜索图像子网均是由五层卷积层构成,五层卷积层分别是:第一层卷积层由1个卷积单元构成,该卷积单元卷积核大小为7×7,第二层卷积层由3个残差单元构成,每个残差单元分别由大小为1×1的卷积核和3×3的卷积核交叠组成,第三个卷积层由1个残差单元构成,每个残差单元分别由大小为1×1的卷积核和3×3的卷积核交叠组成,第四层卷积层3个残差单元构成,每个残差单元分别由大小为1×1的卷积核和3×3的卷积核交叠组成,第五层卷积层由1个卷积单元构成,该卷积单元卷积核大小为1×1。
6.根据权利要求2所述的方法,其特征在于,所述孪生神经网络模型的训练方法,包括:
获取目标视频序列数据集;
对目标视频序列数据集中的图像帧进行图像预处理,得到目标图像训练集和搜索图像训练集;
基于目标图像训练集和搜索图像训练集,训练孪生神经网络模型;
利用损失函数作为目标函数计算输出结果与标签真实值之间的误差,对孪生神经网络模型中的参数进行调整;
直至目标函数误差值收敛于最小值或达到迭代次数,得到训练好的孪生神经网络模型。
7.根据权利要求5所述的方法,其特征在于,所述基于目标图像训练集和搜索图像训练集,训练孪生神经网络模型,包括:
从目标视频序列数据集中随机抽取一帧作为目标图像子网的输入;
将目标视频序列数据集中随机抽取一帧的下一帧作为搜索图像子网的输入。
8.根据权利要求2所述的方法,其特征在于,所述将提取到的目标图像和搜索图像的特征进行深度可分离卷积,获得初始响应图,计算过程为
gθ(z,x)=fθ(z)*fθ(x);
其中,fθ(z)为目标图像特征,fθ(x)为搜索图像特征,z为目标图像,x为搜索图像,θ为孪生网络子网参数,*为深度可分离卷积用符号,gθ(z,x)为初始响应图。
9.根据权利要求6所述的方法,其特征在于,所述损失函数包括分类器子网的损失函数、定位回归子网的损失函数和分割掩码子网的损失函数,计算公式为:
L2B=λ1Lmask2Lscore3Lbox(1)
其中,损失函数L3B公式中λ1、λ2和λ3为网络自设定参数;
上述(1)式中分割掩码分支的损失函数为Lmask,Lmask公式如(2)式所示:
Figure RE-FDA0002981731850000031
其中,θ表示孪生网络子网参数,φ表示分割掩码分支网络参数,yn表示分割掩码分支网络获取的候选窗口的真实二进制标签,且yn∈{±1},w和h表示候选窗口的宽和高,cn表示像素级真值,而
Figure RE-FDA0002981731850000032
则表示第n个候选窗口中的目标掩码在像素(i,j)位置处的标签真实值,
Figure RE-FDA0002981731850000033
表示第n个候选窗口中的预测目标掩码在像素(i,j)位置处的预测真实值;
上述(1)式中分类器分支的损失函数为Lscore,Lscore公式如(3)式所示:
Figure RE-FDA0002981731850000041
其中,D表示分类器分支网络得到的得分矩阵,u表示得分矩阵中的位置,y表示在u位置处的真值,且y∈{±1},v表示分类器分支网络得到的预测结果的实际得分值;
l(y,v)=log(1+exp(-yv)) (4)
上述(1)式中定位回归分支的损失函数为Lbox,Lbox公式如(5)式所示:
Figure RE-FDA0002981731850000042
其中,
Figure RE-FDA0002981731850000043
Figure RE-FDA0002981731850000044
其中,Ax,Ay,Aw,Ah分别表示定位回归分支网络所获取的锚点框的中心点坐标和宽高值,Tx,Ty,Tw,Tn分别表示目标真实边界框的中心点坐标和宽高值,σ为网络可自选参数。
10.一种基于孪生神经网络的目标跟踪装置,其特征在于,包括:
图像获取单元,用于获取待跟踪目标图像和待搜索图像;
目标跟踪单元,用于将获取的待跟踪目标图像和待搜索图像分别输入到孪生神经网络模型中,孪生神经网络模型输出待跟踪目标图像在待搜索图像中的位置。
CN202011521652.1A 2020-12-21 2020-12-21 一种基于孪生神经网络的目标跟踪方法 Pending CN112712546A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011521652.1A CN112712546A (zh) 2020-12-21 2020-12-21 一种基于孪生神经网络的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011521652.1A CN112712546A (zh) 2020-12-21 2020-12-21 一种基于孪生神经网络的目标跟踪方法

Publications (1)

Publication Number Publication Date
CN112712546A true CN112712546A (zh) 2021-04-27

Family

ID=75544910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011521652.1A Pending CN112712546A (zh) 2020-12-21 2020-12-21 一种基于孪生神经网络的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN112712546A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298136A (zh) * 2021-05-21 2021-08-24 南京邮电大学 一种基于alpha散度的孪生网络跟踪方法
CN113781518A (zh) * 2021-09-10 2021-12-10 商汤集团有限公司 神经网络结构搜索方法及装置、电子设备和存储介质
CN113807224A (zh) * 2021-09-07 2021-12-17 金华市浙工大创新联合研究院 一种工厂违规行为检测跟踪方法
CN113838099A (zh) * 2021-10-20 2021-12-24 浙江大立科技股份有限公司 一种基于孪生神经网络的单目标跟踪方法
CN113870330A (zh) * 2021-09-30 2021-12-31 四川大学 基于特定标签和损失函数的孪生视觉跟踪方法
CN115588030A (zh) * 2022-09-27 2023-01-10 湖北工业大学 基于孪生网络的视觉目标跟踪方法及设备
CN116128798A (zh) * 2022-11-17 2023-05-16 台州金泰精锻科技股份有限公司 钟形壳锻面齿的精锻工艺

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685776A (zh) * 2018-12-12 2019-04-26 华中科技大学 一种基于ct图像的肺结节检测方法及系统
CN109741364A (zh) * 2018-11-19 2019-05-10 北京陌上花科技有限公司 目标跟踪方法及装置
CN110021033A (zh) * 2019-02-22 2019-07-16 广西师范大学 一种基于金字塔孪生网络的目标跟踪方法
CN110210551A (zh) * 2019-05-28 2019-09-06 北京工业大学 一种基于自适应主体敏感的视觉目标跟踪方法
CN110335290A (zh) * 2019-06-04 2019-10-15 大连理工大学 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN111161218A (zh) * 2019-12-10 2020-05-15 核工业北京地质研究院 一种基于孪生卷积神经网络的高分遥感影像变化检测方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN111739035A (zh) * 2020-06-30 2020-10-02 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置、设备及存储介质
CN111915650A (zh) * 2020-07-30 2020-11-10 齐鲁工业大学 基于改进孪生网络的目标跟踪方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741364A (zh) * 2018-11-19 2019-05-10 北京陌上花科技有限公司 目标跟踪方法及装置
CN109685776A (zh) * 2018-12-12 2019-04-26 华中科技大学 一种基于ct图像的肺结节检测方法及系统
CN110021033A (zh) * 2019-02-22 2019-07-16 广西师范大学 一种基于金字塔孪生网络的目标跟踪方法
CN110210551A (zh) * 2019-05-28 2019-09-06 北京工业大学 一种基于自适应主体敏感的视觉目标跟踪方法
CN110335290A (zh) * 2019-06-04 2019-10-15 大连理工大学 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN111161218A (zh) * 2019-12-10 2020-05-15 核工业北京地质研究院 一种基于孪生卷积神经网络的高分遥感影像变化检测方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN111739035A (zh) * 2020-06-30 2020-10-02 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置、设备及存储介质
CN111915650A (zh) * 2020-07-30 2020-11-10 齐鲁工业大学 基于改进孪生网络的目标跟踪方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BO LI 等: "High Performance Visual Tracking with Siamese Region Proposal Network", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
QIANG WANG等: "Fast Online Object Tracking and Segmentation: A Unifying Approach", 《COMPUTER SCIENCE – COMPUTER VISION AND PATTERN RECOGNITION》 *
第61-65页: "结合掩膜与孪生网络的目标跟踪方法研究", 《计算机技术与发展》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298136A (zh) * 2021-05-21 2021-08-24 南京邮电大学 一种基于alpha散度的孪生网络跟踪方法
CN113298136B (zh) * 2021-05-21 2022-08-05 南京邮电大学 一种基于alpha散度的孪生网络跟踪方法
CN113807224A (zh) * 2021-09-07 2021-12-17 金华市浙工大创新联合研究院 一种工厂违规行为检测跟踪方法
CN113807224B (zh) * 2021-09-07 2023-11-21 金华市浙工大创新联合研究院 一种工厂违规行为检测跟踪方法
CN113781518A (zh) * 2021-09-10 2021-12-10 商汤集团有限公司 神经网络结构搜索方法及装置、电子设备和存储介质
CN113870330A (zh) * 2021-09-30 2021-12-31 四川大学 基于特定标签和损失函数的孪生视觉跟踪方法
CN113870330B (zh) * 2021-09-30 2023-05-12 四川大学 基于特定标签和损失函数的孪生视觉跟踪方法
CN113838099A (zh) * 2021-10-20 2021-12-24 浙江大立科技股份有限公司 一种基于孪生神经网络的单目标跟踪方法
CN115588030A (zh) * 2022-09-27 2023-01-10 湖北工业大学 基于孪生网络的视觉目标跟踪方法及设备
CN115588030B (zh) * 2022-09-27 2023-09-12 湖北工业大学 基于孪生网络的视觉目标跟踪方法及设备
CN116128798A (zh) * 2022-11-17 2023-05-16 台州金泰精锻科技股份有限公司 钟形壳锻面齿的精锻工艺
CN116128798B (zh) * 2022-11-17 2024-02-27 台州金泰精锻科技股份有限公司 钟形壳锻面齿的精锻方法

Similar Documents

Publication Publication Date Title
CN112712546A (zh) 一种基于孪生神经网络的目标跟踪方法
Demir et al. Patch-based image inpainting with generative adversarial networks
CN108319972B (zh) 一种针对图像语义分割的端到端差异网络学习方法
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
Wang et al. Detect globally, refine locally: A novel approach to saliency detection
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN111179307A (zh) 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN109493346A (zh) 一种基于多损失的胃癌病理切片图像分割方法和装置
CN111291739A (zh) 面部检测、图像检测神经网络训练方法、装置和设备
CN111626184B (zh) 一种人群密度估计方法及系统
CN111079685A (zh) 一种3d目标检测方法
CN108846404B (zh) 一种基于相关约束图排序的图像显著性检测方法及装置
CN109934826A (zh) 一种基于图卷积网络的图像特征分割方法
CN109543662A (zh) 基于区域提议的目标检测方法、系统、装置和存储介质
CN113706581B (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN109858487A (zh) 基于分水岭算法和图像类别标签的弱监督语义分割方法
CN111523463B (zh) 基于匹配-回归网络的目标跟踪方法及训练方法
CN111160225B (zh) 基于深度学习的人体解析方法和装置
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN114092487A (zh) 目标果实实例分割方法及系统
CN110008900A (zh) 一种由区域到目标的可见光遥感图像候选目标提取方法
CN106504219B (zh) 有约束的路径形态学高分辨率遥感影像道路增强方法
CN111951283A (zh) 一种基于深度学习的医学图像识别方法及系统
CN114743273A (zh) 基于多尺度残差图卷积网络的人体骨骼行为识别方法及系统
CN111914809A (zh) 目标对象定位方法、图像处理方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination