CN112509008A - 一种基于交并比引导孪生网络的目标跟踪方法 - Google Patents

一种基于交并比引导孪生网络的目标跟踪方法 Download PDF

Info

Publication number
CN112509008A
CN112509008A CN202011476028.4A CN202011476028A CN112509008A CN 112509008 A CN112509008 A CN 112509008A CN 202011476028 A CN202011476028 A CN 202011476028A CN 112509008 A CN112509008 A CN 112509008A
Authority
CN
China
Prior art keywords
target
anchor
iou
image
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011476028.4A
Other languages
English (en)
Other versions
CN112509008B (zh
Inventor
周丽芳
何宇
李伟生
熊超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hongyue Information Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011476028.4A priority Critical patent/CN112509008B/zh
Publication of CN112509008A publication Critical patent/CN112509008A/zh
Application granted granted Critical
Publication of CN112509008B publication Critical patent/CN112509008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明请求保护一种基于交并比(Intersection‑over‑Union,IoU)引导孪生网络的目标跟踪方法,属于目标跟踪领域。其中所述方法包括以下步骤:将数据进行预处理并作为训练数据集;以SiamRPN目标跟踪方法为基础模型,为了增强跟踪模型的鲁棒性,本发明设计了一个预测IoU的孪生网络跟踪框架,从而提升了模型的分类分支与回归分支的相关性;为了提高跟踪的定位精度,本发明提出了一个IoU引导定位的跟踪算法;然后通过随机梯度下降优化算法迭代训练;最后使用训练好的IoU引导孪生网络进行目标跟踪。在增加少量的参数及计算量的情况下,本发明有效的预测了回归后的锚框(Anchor)与目标的交并比,从而增强了模型的定位精度,并提升了模型跟踪的鲁棒性。

Description

一种基于交并比引导孪生网络的目标跟踪方法
技术领域
本发明属于图像处理技术领域,涉及基于孪生网络的目标跟踪方法。
背景技术
目标跟踪技术是计算机视觉领域最基本的技术之一,它旨在给定一个视频或者一个图像序列,然后在该视频或图像序列中连续地预测一个指定的目标位置与大小。近年来由于目标跟踪技术的不断发展,该技术已经成功应用于诸如监控安防,无人驾驶,智能医疗等领域。尽管如此,在面对复杂多变的真实环境,想要精确对任意目标进行跟踪仍然是一个极具挑战的任务,所以目标跟踪技术具有极大的实用价值和迫切的社会需求。
目前,目标跟踪的方法主要分为两类:基于相关滤波的跟踪方法和基于孪生网络的跟踪方法。基于相关滤波的方法以KCF(High-speed tracking with kernelizedcorrelation filters)为代表,得意于循环矩阵的特性,卷积运算可以从时域转化到频域,所以KCF能轻松在CPU上以每秒上百帧运行。但是,深度卷积特征相比于手工提取的特征更具判别性,所以后续的大多基于相关滤波的方法通过联合手工特征与深度卷积特征来进行跟踪。尽管联合手工特征与深度卷积特征能提升跟踪器的性能,但由于基于相关滤波的跟踪方法需要在线跟踪时对模型进行微调,更新模板图像的特征,这样会导致跟踪速度大大降低。然而基于孪生网络的跟踪方法,经过深度神经网络提取到具有强判别性的语义特征,对视频中目标变化具有较强的鲁棒性,并且,基于孪生网络的跟踪方法始终以初始模板图像作为模板,在整个跟踪过程中保持不变,不需要在线对模型进行微调,所以基于孪生网络的跟踪方法具有较强的鲁棒性与较高的实时性。然而在基于孪生区域建议网络的跟踪方法中,仍然存在如下问题:1)在训练时,分类分数与回归精度之间的相关性较低,在跟踪时依赖分类得分选择相应的Anchor,这将对跟踪性能造成一定的影响;2)在训练回归分支时,每一个Anchor对回归损失的权重都是一样的,即每一个Anchor都倾向于精准的对目标大小进行回归。但是对于目标跟踪任务来说,仅需要一个Anchor对目标进行定位。所以这损害了跟踪器对目标的定位精度。为了解决以上问题,本发明提供了一种基于IoU引导的孪生网络目标跟踪方法。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于交并比引导孪生网络的目标跟踪方法。本发明的技术方案如下:
一种基于交并比引导孪生网络的目标跟踪方法,其包括以下步骤:
步骤1:分别对模板图像与搜索图像进行预处理;
步骤2:将模板图像与搜索图像分别输入到孪生网络的模板分支与搜索分支,经过AlexNet提取到模板图像的特征与搜索图像的特征,然后以模板图像特征与搜索图像特征为输入分别经过两个互相关卷积后得到的两类特征,这两类特征一类输入到分类头对目标进行分类,一类输入到回归头对目标大小进行回归;还设计了一个交并比IoU预测器,该IoU预测器平行于回归头,预测所有正样本的Anchor与目标之间的IoU分数,然后将IoU分数与分类分数共同作为选取最终的Anchor的依据;
步骤3:采用为每一个Anchor对回归损失的贡献分配一个权重,这个权重正比于Anchor与目标之间的IoU,即当某个框与目标之间的IoU越大,那么相应的权重也越大,它对回归损失的贡献也越大;
步骤4:分别计算分类标签、回归标签与IoU预测器标签,然后将网络预测到的分类分数、回归坐标与IoU分数分别与对应的标签通过损失函数计算得到损失,然后通过随机梯度下降优化算法迭代训练得到最终的网络模型;
步骤5:在线跟踪阶段将网络预测到的每个Anchor的分类得分与预测到的每个Anchor的IoU得分相乘,在回归分支选择与得分最高的Anchor相对应的框,作为最后的预测结果。
进一步的,所述步骤1对模板图像与搜索图像进行预处理具体包括以下步骤:
1.1模板图像处理:在一个图像中,目标区域以目标区域以矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超出图像边界,超出部分用图像像素均值填充,最后将裁剪的目标图像块尺寸缩放至127×127像素大小;
1.2搜索图像处理:在一个图像中,目标区域以目标区域以矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超出图像边界,超出部分用图像像素均值填充,最后将裁剪的目标图像块尺寸缩放至255×255像素大小。
进一步的,所述步骤2具体包括以下步骤:
2.1特征提取以5层结构的AlexNet为基础框架,其改动为:1)去掉整个AlexNet的padding和全连接层;2)网络的第一层、第二层内的LRN层用BatchNorm批归一化层替换;3)第三层与第四层中添加BatchNorm批归一化层;4)第五层中去掉ReLu修正线性单元层与MaxPooling最大池化层,并添加BatchNorm批归一化层;
2.2将预处理好的模板图像与搜索图像输入到该AlexNet网络分别得到模板图像特征与搜索图像特征;
2.3将模板图像特征经过一个3×3卷积运算得到的特征与搜索图像特征经过3×3卷积运算得到的特征进行一个深度互相关卷积,深度互相关卷积后的特征经过两个1×1的卷积后得到的结果用于最后的目标分类;
2.4将模板图像特征经过一个3×3卷积运算得到的特征与搜索图像特征经过3×3卷积运算得到的特征进行一个深度互相关卷积,深度互相关卷积后的特征分别经过两个1×1的卷积得到两类特征,一类用于IoU预测,另一类用于目标坐标预测。
进一步的,所述步骤3采用为每一个Anchor对回归损失的贡献分配一个权重具体包括以下步骤:
3.1根据IoU预测器得到的每一个Anchor与跟踪目标之间的IoU,作为回归分支中每一个Anchor对于回归损失权重的依据。考虑到整个回归损失不变,所有Anchor的权重被归一化到1;
3.2将得到的权重作用到每一个Anchor中,具体体现在权重w为每一个Anchor对回归损失的贡献进行重新加权。
进一步的,所述步骤3.1将所有Anchor的权重被归一化到1,具体公式为:
Figure BDA0002837356500000041
其中,w为Anchor对于回归损失的权重,i*为IoU预测器输出的一个Anchor与目标之间的IoU,Npos为正样本个数,I*表示IoU预测器预测到的所有Anchor与目标之间的IoU的集合,sum()表示预测到的所有IoU之和。
进一步的,所述步骤3.2权重w为每一个Anchor对回归损失的贡献进行重新加权,具体公式为:
Figure BDA0002837356500000042
其中,Lr为回归分支的总损失,wi为第i个Anchor的权重,Li为第i个Anchor的回归损失。
进一步的,所述步骤4具体包括以下步骤:
4.1计算分类标签:分类标签通过计算每一个Anchor与目标之间的IoU得到,当一个Anchor与目标之间的IoU大于0.6,则这个Anchor属于正样本,标签为1;当一个Anchor与目标之间的IoU小于0.3,则这个Anchor属于负样本,标签为0;当一个Anchor与目标之间的IoU在0.3到0.6之间,则在训练分类时,忽略掉这个Anchor,标签为-1;
4.2计算坐标标签:回归分支不直接输出目标的坐标,而是得到通过如下公式换算后的坐标(δ[0],δ[1],δ[2],δ[3]):
δ[0]=(Tx-Ax)/Aw
δ[1]=(Ty-Ay)/Ah
Figure BDA0002837356500000051
Figure BDA0002837356500000052
其中,Tx是目标矩形框的左上角x坐标,Ty目标矩形框的左上角y坐标,Tw是目标矩形框的宽,Th是目标矩形框的高,Ax是Anchor左上角x坐标,Ay是Anchor左上角y坐标,Aw是Anchor的宽,Ah是Anchor的高;
4.3计算IoU标签:IoU标签是用已回归后的Anchor与目标框计算IoU得到,首先把预测到的(δ[0],δ[1],δ[2],δ[3])还原成预测的目标坐标(Bx,By,Bw,Bh),还原公式为:
Bx=δ[0]×Aw+Ax
By=δ[1]×Ah+Ay
Bw=exp(δ[2])×Aw
Bh=exp(δ[3])×Ah
利用还原后的预测坐标与Anchor计算得到的IoU即为IoU标签;
4.4根据步骤2的网络预测输出:分类分数、位置坐标、IoU分数,以及步骤3中的权重因子,计算整个模型训练的损失,采用随机梯度下降优化算法对模型进行迭代训练,分类损失采用交叉熵损失函数,回归损失采用smooth L1损失函数,IoU损失采用BCE损失函数;
4.5判断深度神经网络模型是否达到收敛条件,如果不是,回到步骤2;如果是,结束训练,获得训练好的深度神经网络模型。
进一步的,所述步骤5具体包括以下步骤:
5.1在线跟踪时,图像视频或者图像序列的第一帧目标被选择作为模板图像,在整个跟踪期间,孪生网络模板分支通过模板图像预先计算并固定,后续帧输入搜索图像到孪生网络的搜索分支,然后网络预测每个Anchor的三个输出:分类分数cls、交并比分数iou与目标坐标loc;
5.2将分类分数与IoU分数相乘得到每一个Anchor最后的得分:score=cls×iou,选择最后score中得分最高的Anchor的坐标作为最后的跟踪结果。
本发明的优点及有益效果如下:
1.一个性能优秀的跟踪器对于实际应用非常重要。现在大多数跟踪器(SiamRPN、C-RPN、SiamRPN++等)把一个跟踪任务分解成一次性检测任务,分类分支用于目标的分类,回归分支用于目标大小的回归。这些跟踪器在训练时,分类分支与回归分支相互独立,却在跟踪时,由分类分数直接选择相应的回归框,这是极度不合理的。由于分类分支与回归分支相互独立地进行训练,所以分类分数高,不能说明对应的Anchor回归状态好,即:分类分数高可能对应的Anchor与目标之间的IoU较低。所以本发明提出了一个IoU预测分支,该分支预测回归后的Anchor与目标之间的IoU,然后将预测到的IoU分数与分类得分分数相乘作为选择最终的回归框的依据。这样一来,提高了分类分支与回归分支的相关性,也就提高了跟踪器的鲁棒性。
2.对于跟踪任务来说,仅仅只有一个跟踪目标。现在的把跟踪任务看成一次性检测任务的跟踪器都倾向于使每一个正样本的Anchor都精准的预测出目标的大小,即:每一个正样本对于回归损失的贡献都被同等对待。然而,对于众多正样本来说,IoU较小的样本远比IoU较大的样本多,一旦所有样本被同等对待,那么回归损失将被IoU较小的那些样本主导,训练出来的跟踪模型也比较关注IoU较小的回归框,这将严重损害跟踪的定位精度。本发明采用为每一个Anchor对回归损失的贡献分配一个权重,这个权重正比于Anchor与目标之间的IoU,即当某个Anchor与目标之间的IoU越大,那么相应的权重也越大,这个Anchor对回归损失的贡献也越大。这将使训练出的跟踪模型将更加关注与目标之间IoU高的那些框。
附图说明
图1是本发明提供优选实施例的IoU引导孪生网络的目标跟踪模型结构示意图;
图2为本发明的在OTB100数据集中MotorRolling视频上的跟踪效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明实施例基于SiamRPN目标跟踪框架为基本框架,详见文献Bo Li,JunjieYan,Wei Wu,Zheng Zhu,and Xiaolin Hu.High performance visual tracking withsiamese region proposal network.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,pages 8971–8980,2018.。首先利用SiamRPN为基础搭建跟踪框架,然后构建一个IoU预测器,最后为每一个Anchor对回归损失的贡献进行加权。在跟踪过程中,将分类得分与IoU分数相乘得到的最终分数作为选择最后的回归框的依据。
图1是本发明实施例提供的IoU引导的孪生网络模型结构示意图,包括如下步骤:
步骤一:对模板图像与搜索图像进行预处理,具体如下
1.1模板图像处理:在一个图像中,目标区域以目标区域以矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超出图像边界,超出部分用图像像素均值填充,最后将裁剪的目标图像块尺寸缩放至127×127像素大小。
1.2搜索图像处理:在一个图像中,目标区域以目标区域以矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超出图像边界,超出部分用图像像素均值填充,最后将裁剪的目标图像块尺寸缩放至255×255像素大小。
步骤二:将模板图像与搜索图像分别输入到孪生网络的模板分支与搜索分支,经过AlexNet提取到模板图像的特征与搜索图像的特征,然后以模板图像特征与搜索图像特征为输入分别经过两个互相关卷积后得到的两类特征,这两类特征一类输入到分类头对目标进行分类,一类输入到回归头对目标大小进行回归。为了增加分类分数与回归定位的相关性,设计了一个IoU预测器,该IoU预测器平行于回归头,预测所有正样本的Anchor与目标之间的IoU分数。然后将IoU分数与分类分数共同作为选取最终的Anchor的依据。具体如下:
2.1特征提取以5层结构的AlexNet为基础框架,其改动为:1)去掉整个AlexNet的padding和全连接层;2)网络的第一层、第二层内的LRN层用BatchNorm(批归一化)层替换;3)第三层与第四层中添加BatchNorm(批归一化)层;4)第五层中去掉ReLu(修正线性单元)层与MaxPooling(最大池化)层,并添加BatchNorm(批归一化)层;
2.2将预处理好的模板图像与搜索图像输入到该AlexNet网络分别得到模板图像特征与搜索图像特征。
2.3将模板图像特征经过一个3×3卷积运算得到的特征与搜索图像特征经过3×3卷积运算得到的特征进行一个深度互相关卷积。深度互相关卷积后的特征经过两个1×1的卷积后得到的结果用于最后的目标分类。
2.4将模板图像特征经过一个3×3卷积运算得到的特征与搜索图像特征经过3×3卷积运算得到的特征进行一个深度互相关卷积。深度互相关卷积后的特征分别经过两个1×1的卷积后得到两类特征,一类用于IoU预测,另一类用于目标坐标预测。
步骤3:计算每一个Anchor对回归损失的权重,然后对回归损失进行加权,具体如下:
3.1根据IoU预测器得到的每一个Anchor与跟踪目标之间的IoU,作为回归分支中每一个Anchor对于回归损失权重的依据。考虑到整个回归损失不变,所有Anchor的权重被归一化到1,具体公式为:
Figure BDA0002837356500000081
其中,w为Anchor对于回归损失的权重,i*为IoU预测器输出的一个Anchor与目标之间的IoU,Npos为正样本个数,I*表示IoU预测器预测到的所有Anchor与目标之间的IoU的集合。sum()表示预测到的所有IoU之和。
3.2将得到的权重作用到每一个Anchor中,具体体现在权重w为每一个Anchor对回归损失的贡献进行重新加权,具体公式为:
Figure BDA0002837356500000091
其中,Lr为回归分支的总损失,wi为第i个Anchor的权重,Li为第i个Anchor的回归损失。
步骤4:分别计算分类标签、回归标签与IoU预测器标签。然后将网络预测到的分类分数、回归坐标与IoU分数分别与对应的标签通过损失函数计算得到损失,然后通过随机梯度下降优化算法迭代训练得到最终的网络模型。具体如下:
4.1计算分类标签:分类标签通过计算每一个Anchor与目标之间的IoU得到,当一个Anchor与目标之间的IoU大于0.6,则这个Anchor属于正样本,标签为1;当一个Anchor与目标之间的IoU小于0.3,则这个Anchor属于负样本,标签为0;当一个Anchor与目标之间的IoU在0.3到0.6之间,则在训练分类时,忽略掉这个Anchor,标签为-1。
4.2计算坐标标签:回归分支不直接输出目标的坐标,而是得到通过如下公式换算后的坐标(δ[0],δ[1],δ[2],δ[3]):
δ[0]=(Tx-Ax)/Aw
δ[1]=(Ty-Ay)/Ah
Figure BDA0002837356500000092
Figure BDA0002837356500000093
其中,Tx是目标矩形框的左上角x坐标,Ty目标矩形框的左上角y坐标,Tw是目标矩形框的宽,Th是目标矩形框的高,Ax是Anchor左上角x坐标,Ay是Anchor左上角y坐标,Aw是Anchor的宽,Ah是Anchor的高。
4.3计算IoU标签:IoU标签是用已回归后的Anchor与目标框计算IoU得到。首先把预测到的(δ[0],δ[1],δ[2],δ[3])还原成预测的目标坐标(Bx,By,Bw,Bh),还原公式为:
Bx=δ[0]×Aw+Ax
By=δ[1]×Ah+Ay
Bw=exp(δ[2])×Aw
Bh=exp(δ[3])×Ah
利用还原后的预测坐标与Anchor计算得到的IoU即为IoU标签。
4.4根据步骤2的网络预测输出:分类分数、位置坐标、IoU分数,以及步骤3中的权重因子,计算整个模型训练的损失,采用随机梯度下降优化算法对模型进行迭代训练。分类损失采用交叉熵损失函数,回归损失采用smooth L1损失函数,IoU损失采用BCE损失函数。
4.5判断深度神经网络模型是否达到收敛条件,如果不是,回到步骤2;如果是,结束训练,获得训练好的深度神经网络模型。
步骤5:在线跟踪:将网络预测到的每个Anchor分类得分与预测到的每个Anchor的IoU得分相乘,在回归分支选择与得分最高的Anchor相对应的框,作为最后的预测结果。具体如下:
5.1在线跟踪时,图像视频或者图像序列的第一帧目标被选择作为模板图像,在整个跟踪期间,孪生网络模板分支通过模板图像预先计算并固定。后续帧输入搜索图像到孪生网络的搜索分支,然后网络预测每个Anchor的三个输出:分类分数cls、IoU分数iou与目标坐标loc。
5.2将分类分数与IoU分数相乘得到每一个Anchor最后的得分:score=cls×iou,选择最后score中得分最高的Anchor的坐标作为最后的跟踪结果。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (8)

1.一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,包括以下步骤:
步骤1:分别对模板图像与搜索图像进行预处理;
步骤2:将模板图像与搜索图像分别输入到孪生网络的模板分支与搜索分支,经过AlexNet提取到模板图像的特征与搜索图像的特征,然后以模板图像特征与搜索图像特征为输入分别经过两个互相关卷积后得到的两类特征,这两类特征一类输入到分类头对目标进行分类,一类输入到回归头对目标大小进行回归;还设计了一个交并比IoU预测器,该IoU预测器平行于回归头,预测所有正样本的Anchor与目标之间的IoU分数,然后将IoU分数与分类分数共同作为选取最终的Anchor的依据;
步骤3:采用为每一个Anchor对回归损失的贡献分配一个权重,这个权重正比于Anchor与目标之间的IoU,即当某个框与目标之间的IoU越大,那么相应的权重也越大,它对回归损失的贡献也越大;
步骤4:分别计算分类标签、回归标签与IoU预测器标签,然后将网络预测到的分类分数、回归坐标与IoU分数分别与对应的标签通过损失函数计算得到损失,然后通过随机梯度下降优化算法迭代训练得到最终的网络模型;
步骤5:在线跟踪阶段将网络预测到的每个Anchor的分类得分与预测到的每个Anchor的IoU得分相乘,在回归分支选择与得分最高的Anchor相对应的框,作为最后的预测结果。
2.根据权利要求1所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤1对模板图像与搜索图像进行预处理具体包括以下步骤:
1.1模板图像处理:在一个图像中,目标区域以目标区域以矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超出图像边界,超出部分用图像像素均值填充,最后将裁剪的目标图像块尺寸缩放至127×127像素大小;
1.2搜索图像处理:在一个图像中,目标区域以目标区域以矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超出图像边界,超出部分用图像像素均值填充,最后将裁剪的目标图像块尺寸缩放至255×255像素大小。
3.根据权利要求1或2所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤2具体包括以下步骤:
2.1特征提取以5层结构的AlexNet为基础框架,其改动为:1)去掉整个AlexNet的padding和全连接层;2)网络的第一层、第二层内的LRN层用BatchNorm批归一化层替换;3)第三层与第四层中添加BatchNorm批归一化层;4)第五层中去掉ReLu修正线性单元层与MaxPooling最大池化层,并添加BatchNorm批归一化层;
2.2将预处理好的模板图像与搜索图像输入到该AlexNet网络分别得到模板图像特征与搜索图像特征;
2.3将模板图像特征经过一个3×3卷积运算得到的特征与搜索图像特征经过3×3卷积运算得到的特征进行一个深度互相关卷积,深度互相关卷积后的特征经过两个1×1的卷积后得到的结果用于最后的目标分类;
2.4将模板图像特征经过一个3×3卷积运算得到的特征与搜索图像特征经过3×3卷积运算得到的特征进行一个深度互相关卷积,深度互相关卷积后的特征分别经过两个1×1的卷积得到两类特征,一类用于IoU预测,另一类用于目标坐标预测。
4.根据权利要求3所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤3采用为每一个Anchor对回归损失的贡献分配一个权重具体包括以下步骤:
3.1根据IoU预测器得到的每一个Anchor与跟踪目标之间的IoU,作为回归分支中每一个Anchor对于回归损失权重的依据。考虑到整个回归损失不变,所有Anchor的权重被归一化到1;
3.2将得到的权重作用到每一个Anchor中,具体体现在权重w为每一个Anchor对回归损失的贡献进行重新加权。
5.根据权利要求4所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤3.1将所有Anchor的权重被归一化到1,具体公式为:
Figure FDA0002837356490000031
其中,w为Anchor对于回归损失的权重,i*为IoU预测器输出的一个Anchor与目标之间的IoU,Npos为正样本个数,I*表示IoU预测器预测到的所有Anchor与目标之间的IoU的集合,sum()表示预测到的所有IoU之和。
6.根据权利要求5所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤3.2权重w为每一个Anchor对回归损失的贡献进行重新加权,具体公式为:
Figure FDA0002837356490000032
其中,Lr为回归分支的总损失,wi为第i个Anchor的权重,Li为第i个Anchor的回归损失。
7.根据权利要求5所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤4具体包括以下步骤:
4.1计算分类标签:分类标签通过计算每一个Anchor与目标之间的IoU得到,当一个Anchor与目标之间的IoU大于0.6,则这个Anchor属于正样本,标签为1;当一个Anchor与目标之间的IoU小于0.3,则这个Anchor属于负样本,标签为0;当一个Anchor与目标之间的IoU在0.3到0.6之间,则在训练分类时,忽略掉这个Anchor,标签为-1;
4.2计算坐标标签:回归分支不直接输出目标的坐标,而是得到通过如下公式换算后的坐标(δ[0],δ[1],δ[2],δ[3]):
δ[0]=(Tx-Ax)/Aw
δ[1]=(Ty-Ay)/Ah
Figure FDA0002837356490000041
Figure FDA0002837356490000042
其中,Tx是目标矩形框的左上角x坐标,Ty目标矩形框的左上角y坐标,Tw是目标矩形框的宽,Th是目标矩形框的高,Ax是Anchor左上角x坐标,Ay是Anchor左上角y坐标,Aw是Anchor的宽,Ah是Anchor的高;
4.3计算IoU标签:IoU标签是用已回归后的Anchor与目标框计算IoU得到,首先把预测到的(δ[0],δ[1],δ[2],δ[3])还原成预测的目标坐标(Bx,By,Bw,Bh),还原公式为:
Bx=δ[0]×Aw+Ax
By=δ[1]×Ah+Ay
Bw=exp(δ[2])×Aw
Bh=exp(δ[3])×Ah
利用还原后的预测坐标与Anchor计算得到的IoU即为IoU标签;
4.4根据步骤2的网络预测输出:分类分数、位置坐标、IoU分数,以及步骤3中的权重因子,计算整个模型训练的损失,采用随机梯度下降优化算法对模型进行迭代训练,分类损失采用交叉熵损失函数,回归损失采用smooth L1损失函数,IoU损失采用BCE损失函数;
4.5判断深度神经网络模型是否达到收敛条件,如果不是,回到步骤2;如果是,结束训练,获得训练好的深度神经网络模型。
8.根据权利要求7所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤5具体包括以下步骤:
5.1在线跟踪时,图像视频或者图像序列的第一帧目标被选择作为模板图像,在整个跟踪期间,孪生网络模板分支通过模板图像预先计算并固定,后续帧输入搜索图像到孪生网络的搜索分支,然后网络预测每个Anchor的三个输出:分类分数cls、交并比分数iou与目标坐标loc;
5.2将分类分数与IoU分数相乘得到每一个Anchor最后的得分:score=cls×iou,选择最后score中得分最高的Anchor的坐标作为最后的跟踪结果。
CN202011476028.4A 2020-12-15 2020-12-15 一种基于交并比引导孪生网络的目标跟踪方法 Active CN112509008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011476028.4A CN112509008B (zh) 2020-12-15 2020-12-15 一种基于交并比引导孪生网络的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011476028.4A CN112509008B (zh) 2020-12-15 2020-12-15 一种基于交并比引导孪生网络的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN112509008A true CN112509008A (zh) 2021-03-16
CN112509008B CN112509008B (zh) 2022-05-03

Family

ID=74973584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011476028.4A Active CN112509008B (zh) 2020-12-15 2020-12-15 一种基于交并比引导孪生网络的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN112509008B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991395A (zh) * 2021-04-28 2021-06-18 山东工商学院 一种基于前景条件概率优化尺度和角度的视觉跟踪方法
CN113221769A (zh) * 2021-05-18 2021-08-06 北京百度网讯科技有限公司 识别模型训练方法、识别方法、装置、设备及存储介质
CN113609904A (zh) * 2021-06-30 2021-11-05 杭州电子科技大学 一种基于动态全局信息建模和孪生网络的单目标跟踪算法
CN113628244A (zh) * 2021-07-05 2021-11-09 上海交通大学 基于无标注视频训练的目标跟踪方法、系统、终端及介质
CN113870330A (zh) * 2021-09-30 2021-12-31 四川大学 基于特定标签和损失函数的孪生视觉跟踪方法
CN113888590A (zh) * 2021-09-13 2022-01-04 华南理工大学 一种基于数据增强和孪生网络的视频目标跟踪方法
CN115100249A (zh) * 2022-06-24 2022-09-23 江西沃尔肯智能装备科技有限公司 一种基于目标跟踪算法的智慧工厂监控系统
CN116385651A (zh) * 2023-04-10 2023-07-04 北京百度网讯科技有限公司 图像处理方法、神经网络模型的训练方法、装置和设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190066313A1 (en) * 2016-08-08 2019-02-28 Panasonic Intellectual Property Management Co., Ltd. Object tracking method, object tracking apparatus, and recording medium
CN110400304A (zh) * 2019-07-25 2019-11-01 腾讯科技(深圳)有限公司 基于深度学习的物体检测方法、装置、设备及存储介质
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
US10699563B1 (en) * 2019-07-12 2020-06-30 GM Global Technology Operations LLC Multi-sensor multi-object tracking
CN111401410A (zh) * 2020-02-27 2020-07-10 江苏大学 一种基于改进级联神经网络的交通标志检测方法
CN111429482A (zh) * 2020-03-19 2020-07-17 上海眼控科技股份有限公司 目标跟踪方法、装置、计算机设备和存储介质
CN111444973A (zh) * 2020-03-31 2020-07-24 西安交通大学 一种无人零售购物台商品检测方法
CN111797716A (zh) * 2020-06-16 2020-10-20 电子科技大学 一种基于Siamese网络的单目标跟踪方法
CN111881764A (zh) * 2020-07-01 2020-11-03 深圳力维智联技术有限公司 一种目标检测方法、装置、电子设备及存储介质
CN111914944A (zh) * 2020-08-18 2020-11-10 中国科学院自动化研究所 基于动态样本选择和损失一致性的物体检测方法和系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190066313A1 (en) * 2016-08-08 2019-02-28 Panasonic Intellectual Property Management Co., Ltd. Object tracking method, object tracking apparatus, and recording medium
US10699563B1 (en) * 2019-07-12 2020-06-30 GM Global Technology Operations LLC Multi-sensor multi-object tracking
CN110400304A (zh) * 2019-07-25 2019-11-01 腾讯科技(深圳)有限公司 基于深度学习的物体检测方法、装置、设备及存储介质
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN111401410A (zh) * 2020-02-27 2020-07-10 江苏大学 一种基于改进级联神经网络的交通标志检测方法
CN111429482A (zh) * 2020-03-19 2020-07-17 上海眼控科技股份有限公司 目标跟踪方法、装置、计算机设备和存储介质
CN111444973A (zh) * 2020-03-31 2020-07-24 西安交通大学 一种无人零售购物台商品检测方法
CN111797716A (zh) * 2020-06-16 2020-10-20 电子科技大学 一种基于Siamese网络的单目标跟踪方法
CN111881764A (zh) * 2020-07-01 2020-11-03 深圳力维智联技术有限公司 一种目标检测方法、装置、电子设备及存储介质
CN111914944A (zh) * 2020-08-18 2020-11-10 中国科学院自动化研究所 基于动态样本选择和损失一致性的物体检测方法和系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ZEKUI QIN等: "Advanced Intersection over Union Loss for Visual Tracking", 《2019 CHINESE AUTOMATION CONGRESS(CAC)》 *
ZHANG S等: "Bridging the gap between anchor -based and anchor-free detection via adaptive training sample", 《IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 *
周丽芳等: "基于IoU约束的孪生网络目标跟踪方法", 《北京航空航天大学学报》 *
张洁鑫等: "一种快速的深度检测网络", 《信息技术与信息化》 *
段志伟等: "一种基于改进区域建议网络的目标检测方法", 《计算机应用与软件》 *
石国强等: "基于联合优化的强耦合孪生区域推荐网络的目标跟踪算法", 《计算机应用》 *
袁沛涵: "基于孪生深度网络与元学习的视觉目标跟踪算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991395B (zh) * 2021-04-28 2022-04-15 山东工商学院 一种基于前景条件概率优化尺度和角度的视觉跟踪方法
CN112991395A (zh) * 2021-04-28 2021-06-18 山东工商学院 一种基于前景条件概率优化尺度和角度的视觉跟踪方法
CN113221769B (zh) * 2021-05-18 2023-06-27 北京百度网讯科技有限公司 识别模型训练方法、识别方法、装置、设备及存储介质
CN113221769A (zh) * 2021-05-18 2021-08-06 北京百度网讯科技有限公司 识别模型训练方法、识别方法、装置、设备及存储介质
CN113609904A (zh) * 2021-06-30 2021-11-05 杭州电子科技大学 一种基于动态全局信息建模和孪生网络的单目标跟踪算法
CN113609904B (zh) * 2021-06-30 2024-03-29 杭州电子科技大学 一种基于动态全局信息建模和孪生网络的单目标跟踪算法
CN113628244A (zh) * 2021-07-05 2021-11-09 上海交通大学 基于无标注视频训练的目标跟踪方法、系统、终端及介质
CN113628244B (zh) * 2021-07-05 2023-11-28 上海交通大学 基于无标注视频训练的目标跟踪方法、系统、终端及介质
CN113888590A (zh) * 2021-09-13 2022-01-04 华南理工大学 一种基于数据增强和孪生网络的视频目标跟踪方法
CN113888590B (zh) * 2021-09-13 2024-04-16 华南理工大学 一种基于数据增强和孪生网络的视频目标跟踪方法
CN113870330A (zh) * 2021-09-30 2021-12-31 四川大学 基于特定标签和损失函数的孪生视觉跟踪方法
CN113870330B (zh) * 2021-09-30 2023-05-12 四川大学 基于特定标签和损失函数的孪生视觉跟踪方法
CN115100249A (zh) * 2022-06-24 2022-09-23 江西沃尔肯智能装备科技有限公司 一种基于目标跟踪算法的智慧工厂监控系统
CN116385651A (zh) * 2023-04-10 2023-07-04 北京百度网讯科技有限公司 图像处理方法、神经网络模型的训练方法、装置和设备

Also Published As

Publication number Publication date
CN112509008B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN112509008B (zh) 一种基于交并比引导孪生网络的目标跟踪方法
CN112329680B (zh) 基于类激活图的半监督遥感影像目标检测和分割方法
Li et al. Face recognition based on HOG and fast PCA algorithm
CN112330682A (zh) 一种基于深度卷积神经网络的工业ct图像分割方法
Danisman et al. Intelligent pixels of interest selection with application to facial expression recognition using multilayer perceptron
CN111325190B (zh) 一种表情识别方法、装置、计算机设备及可读存储介质
Zhang et al. Real-time object detection algorithm based on improved YOLOv3
CN112200031A (zh) 一种用于生成图像对应文字说明的网络模型训练方法与设备
Liu et al. Fabric defect detection based on lightweight neural network
Wang et al. An efficient sparse pruning method for human pose estimation
CN112149664A (zh) 一种优化分类与定位任务的目标检测方法
Zeqiang et al. Improved Yolov5 algorithm for surface defect detection of strip steel
Gautam et al. Discrimination and detection of face and non-face using multilayer feedforward perceptron
Afiahayati et al. Comet assay classification for buccal Mucosa’s DNA damage measurement with super tiny dataset using transfer learning
Shi et al. RAOD: refined oriented detector with augmented feature in remote sensing images object detection
CN114332112A (zh) 一种细胞图像分割方法、装置、电子设备及存储介质
Channayanamath et al. Dynamic hand gesture recognition using 3d-convolutional neural network
Huang et al. Efficient Small-Object Detection in Airport Surface Based on Maintain Feature High Resolution
Liu et al. An improved method for small target recognition based on faster RCNN
Liu et al. A new face detection framework based on adaptive cascaded network
Zhang et al. Event recognition of crowd video using corner optical flow and convolutional neural network
Bi et al. Multiscale anti-deformation network for target tracking in UAV aerial videos
Tambi et al. Person-dependent face recognition using histogram of oriented gradients (HOG) and convolution neural network (CNN)
Kobets et al. Method of Recognition and Indexing of People’s Faces in Videos Using Model of Machine Learning
Zhang et al. Adaptively learning background-aware correlation filter for visual tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240503

Address after: 518000 1104, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Patentee after: Shenzhen Hongyue Information Technology Co.,Ltd.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China