CN111681263B - 基于三值量化的多尺度对抗性目标跟踪算法 - Google Patents

基于三值量化的多尺度对抗性目标跟踪算法 Download PDF

Info

Publication number
CN111681263B
CN111681263B CN202010451026.3A CN202010451026A CN111681263B CN 111681263 B CN111681263 B CN 111681263B CN 202010451026 A CN202010451026 A CN 202010451026A CN 111681263 B CN111681263 B CN 111681263B
Authority
CN
China
Prior art keywords
tracking
scale
target
quantization
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010451026.3A
Other languages
English (en)
Other versions
CN111681263A (zh
Inventor
曲延云
张玉鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202010451026.3A priority Critical patent/CN111681263B/zh
Publication of CN111681263A publication Critical patent/CN111681263A/zh
Application granted granted Critical
Publication of CN111681263B publication Critical patent/CN111681263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

基于三值量化的多尺度对抗性目标跟踪算法,涉及图像处理。通过对对抗性目标跟踪算法VITAL进行改进,对预训练的卷积神经网络进行修改,增加其深度的同时对其进行三值量化处理,通过反向传播训练进行微调,在跟踪过程中,采用多尺度投票方式,将多尺度跟踪结果进行融合,进而实现在保证跟踪精度的同时极大压缩模型大小并加快跟踪速度的新型高效跟踪框架;在保证跟踪效果的同时,极大压缩了追踪器模型大小与计算速度,解决了目标追踪不能较好的迁移到移动设备上的痛点;有效解决了目标跟踪任务中的尺度变换问题,使得追踪结果更具有鲁棒性与准确性;在达到与现有的其他目标跟踪方法相当的跟踪性能的基础上,可以达到移动设备的负载要求。

Description

基于三值量化的多尺度对抗性目标跟踪算法
技术领域
本发明涉及图像处理,尤其是涉及可用于智能监控系统、无人机系统、虚拟现实应用、机器人视觉、增强现实等的基于三值量化的多尺度对抗性目标跟踪算法;
背景技术
视觉目标跟踪是计算机视觉领域一个极具挑战性的任务,旨在视频帧序列中逐帧确定运动目标的位置,具有非常广泛的应用领域,例如智慧城市、无人机系统、机器视觉、增强现实等;
目标跟踪是一个极具挑战性的任务,对于运动目标而言,目标本身的形变、尺度变换,以及由于背景变化造成的遮挡、背景杂斑、光照因素等,使得在复杂场景中跟踪变换目标成为一个挑战性的任务;
近年来,目标跟踪的主要工作一般被分为相关滤波和深度学习两类,相关滤波方法基于信号处理领域,旨在通过训练一个滤波模板,对下一帧的图片,与该滤波模板进行卷积操作,生成的特征图中响应最大的区域就是目标位置,相关滤波方法的优点在于速度快,模型小,但是在实际跟踪环境中,相关滤波方法在面临尺度变换、遮挡等问题时会出现跟丢等现象,无法达到鲁棒性和准确性的要求;
基于深度学习的目标跟踪方法近年来逐渐超越了传统算法,深度学习对目标具有强大的表征能力,在计算机视觉的多个领域都占据着主导地位,在目标跟踪方向,研究人员一般选择将在图像分类中预训练的模型迁移到目标跟踪上,近几年,应用深度学习的目标跟踪主流算法,包括基于端到端神经网络的目标跟踪以及基于CNN特征与相关滤波的目标跟踪;通过使用卷积神经网络来建立端到端的跟踪框架,以达到对视频中目标状态预测的目的,其中对抗性目标跟踪(VITAL)的方法,在跟踪速率不降低的前提下鲁棒性更优、准确率更高,使其以优于DCF方法的准确率和端到端训练的优势,成为了当前目标跟踪新的研究方向;VITAL 作为基于MDnet跟踪器和GAN思想的目标跟踪算法,通过生成器来增强正样本,从而解决目标跟踪任务中正负样本严重不平衡的问题,但VITAL存在模型大,速度慢等问题,且因为提取的是同一层的图像特征,在面临尺度变换的问题时,也无法达到相应的鲁棒性和准确性要求;
上述方法虽然能够在目标跟踪领域取得一定的成果,但在准确度,实时性,鲁棒性等指标上或多或少都仍有一定的提升空间,且卷积层的高度复杂的浮点运算以及高内存存储严重阻碍深度学习模型迁移到小型移动设备例如无人机上;
神经网络量化是新兴的一种神经网络加速与压缩算法,主要的核心思想是用较低的位 (bit)代替初始全精度的权值,以达到大幅度加速和压缩卷积神经网络的目的,从BNN、XNOR 等量化权值和激活值为+1、-1的基本方法,到BWN、XNOR-net等引入尺度因子的方法,网络量化方法在速度和模型压缩上得到了巨大的提升,但在压缩和加速深度网络如Resnet,VGG 时,分类精度还是会大大降低,为了减少精度的损失,三元权重网络(ternaryweight networks, TWN)引入基于统计得到的的三元权值(W,0,-W)来对网络进行量化,在达到较大压缩和加速比率的情况下同时仅带来较小的误差下降;
发明内容
本发明的目的在于针对现有跟踪方法存在的上述不足,提供一种基于三值量化的多尺度对抗性目标跟踪算法,用于在复杂的背景下准确实时地对运动目标进行追踪。
本发明包括如下步骤:
1)模型量化阶段,对VITAL跟踪器的卷积部分进行修改,增加卷积神经网络深度,然后进行三值量化;
2)模型训练阶段,基于量化后的卷积神经网络,通过反向传播对量化模型进行训练,通过对抗性训练得到最终的跟踪模型;
3)目标跟踪阶段,将待检测的视频帧序列以及第一帧中目标的实际位置输入上述跟踪模型,即得到跟踪结果;
在步骤1)中,所述对VITAL跟踪器的卷积部分进行修改,增加卷积神经网络深度,然后进行三值量化的具体步骤可为:
(1a)修改VITAL跟踪器的特征提取卷积神经网络,增加网络深度到五层,即使用VGG-M 中的所有卷积层,得到FAST_VITAL的网络结构;
(1b)引入三元权重网络(TWN)来对跟踪器前部分卷积神经网络和对抗特征生成器进行量化,将权重限制为三值:+1,0和-1,并最小化初始的权重与三值化的权重的欧式距离。
在步骤(1b)中,对对抗特征生成器进行量化的具体步骤可为:
(1b1)记卷积层中的全精度权重为W,量化目标为三值权重Wt∈{-1,0,1},对每一层的权重进行如下量化处理:
Figure RE-GDA0002588849520000031
其中,i=1,2,...,n,n是第i层卷积核的向量大小,Δ是一个大于0的阈值,为了最小化全精度权重与三值化权重的二阶欧氏距离,Δ的值被设置为:
Figure RE-GDA0002588849520000032
其中IΔ={i||Wi|>Δ},|IΔ|是IΔ的一范式,表示IΔ中的元素数量;
(1b2)在进行三值量化后,计算一个缩放因子α乘到量化的三值上,以进一步增加网络的表现力:
Figure RE-GDA0002588849520000033
(1b3)在实际运算时,记Z为某一层的输出,通过以下运算变形将α的缩放移到卷积前面,以减少运算量,达到通过XNOR和Bitcount运算进行卷积,极大加速神经网络运行速度的目的:
Figure RE-GDA0002588849520000034
其中,X代表输入,W代表卷积核向量,
Figure RE-GDA0002588849520000035
代表内积或无乘法的卷积运算。
在步骤2)中,所述基于量化后的卷积神经网络,通过反向传播对量化模型进行训练,通过对抗性训练得到最终的跟踪模型的具体步骤可为:
(2a)从网络上下载VOT2014、VOT2015、OTB等数据集并进行预处理得到相同格式的数据;
(2b)基于多尺度的特征图投票,使用随机梯度下降(SGD)优化算法对量化后的神经网络进行训练;
(2c)在梯度更新阶段,仍然使用全精度的权重,只在前向传播和反向传播时使用三值权重;
(2d)模型训练结束后,只保留量化后的精度以实现加速目的。
在步骤(2b)中,所述基于多尺度的特征图投票的具体步骤可为:
(2b1)对VGG-M的第1、3、5层分别提取输出,输入到全连接层中;
(2b2)将三个输出即置信分数记为score1、score2、score3,最终得到的置信分数为:
score=max(score1,score2,score3)
可提取不同尺度的特征图信息,用于让跟踪器能够自适应地跟踪不同大小的目标。
在步骤(2c)中,所述前向传播和反向传播的具体步骤可为:
(2c1)使用随机梯度下降方法(SGD)对参数进行更新,其中只有在前向传播和反向梯度更新的时候使用三值权重,而在权重更新的时候使用全精度的权重;
(2c2)在反向传播梯度计算时,由于量化函数的梯度几乎处处为0,采用直通估计器 (straight-through-estimator)的方法来模拟梯度,具体的实现方法为:
已知三值化操作为:
Figure RE-GDA0002588849520000041
在反向传播过程中,对该函数进行松弛处理,求导过程如下:
Figure RE-GDA0002588849520000042
其中,1|r|≤1的计算公式为Htanh:
H tanh(x)=clip(x,-1,1)=max(-1,min(1,x))。
在步骤3)中,所述将待检测的视频帧序列以及第一帧中目标的实际位置输入上述跟踪模型的具体方法可为:
(3a)输入一组包含需要跟踪的目标的视频帧序列以及第一帧;
(3b)对于第二帧图片,在第一帧的目标周围进行采样,将采样出的图片区域输入卷积神经网络,基于多尺度特征图投票结果,得到分类结果,得到的具有最大分数的采样就是跟踪结果;
(3c)对不同采样区得出的分数进行反向传播,在线更新网络;
(3d)基于上一帧的跟踪结果,继续进行接下来的视频帧序列的跟踪。
与现有的目标跟踪技术相比,本发明具有以下突出优点:
1.本发明利用三值量化方法,对原有VITAL追踪器的卷积层神经网络进行量化处理,在保证跟踪效果的同时,极大压缩了追踪器模型大小与计算速度,解决了目标追踪不能较好的迁移到移动设备上的痛点;
2.本发明采用多尺度输出投票得出候选框最高分数的方式,利用神经网络中不同深度的卷积层输出具有不同感受野的特性,有效解决了目标跟踪任务中的尺度变换问题,使得追踪结果更具有鲁棒性与准确性;
3.本发明与现有的其他目标跟踪方法相比,在VOT2016数据集上的准确率较高,与原始的VITAL追踪器相比,准确率虽下降,但跟踪速度理论可以达到FPS,模型大小理论压缩10倍;在达到与现有的其他目标跟踪方法相当的跟踪性能的基础上,可以达到移动设备的负载要求,具有非常好的应用前景。
附图说明
图1是本发明实施例的总体流程图;
图2是本发明实施例在VOT2015上的部分跟踪效果图;
图3是本发明实施例在OTB100上的部分跟踪效果图。
具体实施方式
以下结合附图对本发明的实施示例及效果做详细描述。
参见图1,本发明的实施步骤如下:
步骤1,修改VITAL跟踪器的网络结构,得到适合不同尺度以及尺度变换的FAST_VITAL 网络结构,具体而言,增加网络深度到五层,即使用VGG-M中的所有卷积层,以提取更深层次的特征,增加神经网络的表征能力;
步骤2,引入三元权重网络(TWN)来对跟踪器前部分卷积神经网络和对抗特征生成器进行量化,如图1下半部分,具体过程为:
(2a)记卷积层中的全精度权重为W,量化目标为三值权重Wt∈{-1,0,1},对每一层的权重进行如下量化处理:
Figure RE-GDA0002588849520000051
其中,i=1,2,...,n,n是第i层卷积核的向量大小,Δ是一个大于0的阈值,为了最小化全精度权重与三值化权重的二阶欧氏距离,Δ的值被设置为:
Figure RE-GDA0002588849520000061
其中IΔ={i||Wi|>Δ},|IΔ|是IΔ的一范式,表示IΔ中的元素数量;
(2b)在进行三值量化后,计算一个缩放因子α乘到量化的三值上,以进一步增加网络的表现力:
Figure RE-GDA0002588849520000062
(2c)在实际运算时,记Z为某一层的输出,通过以下运算变形将α的缩放移到卷积前面,以减少运算量,达到通过XNOR和Bitcount运算进行卷积,极大加速神经网络运行速度的目的:
Figure RE-GDA0002588849520000063
其中,X代表输入,W代表卷积核向量,
Figure RE-GDA0002588849520000064
代表内积或无乘法的卷积运算;
步骤3,对模型进行训练,具体过程为:
(3a)从网上下载VOT、OTB等数据集,本发明可以使用这些数据集的组合或手工制作的数据集;
(3b)基于多尺度的特征图投票,对跟踪器神经网络进行前向传播,对VGG-M的第1、3、5层分别提取输出,输入到全连接层中,将三个输出即置信分数记为score1、score2、score3,最终得到的置信分数为:score=max(score1,score2,score3),如图1上半部分;
(3c)使用随机梯度下降方法(SGD)对参数进行更新,其中只有在前向传播和反向梯度更新的时候使用三值权重,而在权重更新的时候使用全精度的权重;在反向传播梯度计算时,由于量化函数的梯度几乎处处为0,采用直通估计器(straight-through-estimator)的方法来模拟梯度,具体的实现方法为:
已知三值化操作为:
Figure RE-GDA0002588849520000065
在反向传播过程中,对该函数进行松弛处理,求导过程如下:
Figure RE-GDA0002588849520000071
其中,1|r|≤1的计算公式为Htanh:
H tanh(x)=clip(x,-1,1)=max(-1,min(1,x))
步骤4,获得一组需要跟踪目标的视频帧序列,可以从网络上下载或者生活中拍摄得到,给出需要跟踪的目标在第一帧序列中的位置;
步骤5,对于第二帧图片,在第一帧的目标周围进行采样,将采样出的图片区域输入卷积神经网络,基于多尺度特征图投票结果,得到分类结果,得到的具有最大分数的采样就是跟踪结果;
步骤6,对不同采样区得出的分数进行反向传播,在线更新网络;
步骤7,基于上一帧的跟踪结果,继续进行接下来的视频帧序列的跟踪。
本发明的效果可通过以下实验进行优点和有效性的证明;
(1)仿真条件
本发明的实验是在CPU为Intel(R)Core(TM)i7-6800K CPU@3.40GHz,GPU为GeForce GTX 1080,内核为4.4.0-71-generic,操作系统为Ubuntu 16.04,深度学习框架为Pytorch上进行,编程语言是Python;
仿真实验中,将本发明的方法与现有最新的跟踪器VITAL、MDNet、ECO、CCOT的方法在VOT2016数据集上进行对比分析,其中:
VITAL的对应参考文献为Song,Yibing,et al.Vital:Visual tracking viaadversarial learning.Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition.2018.
Staple对应的参考文献为L.Bertinetto,J.Valmadre,S.Golodetz,O.Miksik,andP.H.Torr.Staple: Complementary learners for real-time tracking.In IEEEConference on Computer Vision and Pattern Recognition,2016.
MDNet的对应参考文献为H.Nam and B.Han.Learning multi-domainconvolutional neural networks for visual tracking.In IEEE Conference onComputer Vision and Pattern Recognition, 2016.
ECO的对应参考文献为M.Danelljan,G.Bhat,F.S.Khan,and M.Felsberg.Eco:Efficient convolution operators for tracking.In IEEE Conference on ComputerVision and Pattern Recognition,2017.
CCOT的对应参考文献为M.Danelljan,A.Robinson,F.S.Khan,andM.Felsberg.Beyond correlation filters:Learning continuous convolutionoperators for visual tracking.In European Conference on Computer Vision,2016.
(2)仿真内容
用本发明的方法与上述目前最新最好的方法在VOT2016数据集上进行对比,表1是对比结果;
表1
ECO CCOT Staple MDNet VITAL 本发明
EAO 0.374 0.331 0.295 0.257 0.323 0.315
Ar 1.55 1.63 1.65 1.63 1.63 1.65
Rr 1.57 1.70 2.67 2.4 2.17 2.20
从表1可以看出,本发明的方法的准确率与目前的主流跟踪方法相当,甚至能超过Staple、 MDNet等方法,但是本发明的模型大小得到了极大的压缩,可以很好地部署到移动设备上,所以综合来说,本发明的方法与现有方法相比,性能最好,且具有非常好的应用前景。
图2给出本发明实施例在VOT2015上的部分跟踪效果图,从图2中可以看出,本发明实施的跟踪器可以在有遮挡物的场景下有效追踪行人,在实现加速的同时保证了模型的性能;图3给出本发明实施例在OTB100上的部分跟踪效果图。从图3中可以看出,本发明实施的跟踪器同样在检测大型运动目标时表现出了良好的鲁棒性。
综上,本发明提出一种基于VITAL的目标跟踪框架,旨在通过对跟踪器进行增加深度和低bit量化来在保证跟踪效果的基础上压缩模型并引入多尺度跟踪,以加速跟踪速度,解决原有跟踪模型速度慢、模型大、无法迁移到移动设备例如无人机、手机上的问题;该方法通过对VITAL跟踪器中的卷积神经网络部分进行修改,增加网络深度,并引入三个不同尺度的输出层,然后对神经网络低比特量化后得到权重值,通过反向传播训练神经网络,得到量化后的跟踪器,使得跟踪任务在保持鲁棒性的基础下实现较大加速,并能较方便的迁移到移动设备上;其主要实现步骤为:1)获取网络上开源的目标跟踪数据集如OBT、VOT等,并对数据集进行预处理;2)对VITAL跟踪器的卷积部分进行修改,增加神经网络深度,然后进行三值量化,得到压缩后的跟踪模型;3)进行基于量化神经网络设计的反向传播,对量化模型进行训练;5)将待检测的视频帧序列以及第一帧中目标的实际位置输入上述模型,得到跟踪结果;本发明可用于智能监控系统、无人机系统、虚拟现实应用、机器人视觉等。

Claims (5)

1.基于三值量化的多尺度对抗性目标跟踪算法,其特征在于包括如下步骤:
1)模型量化阶段,对VITAL跟踪器的卷积部分进行修改,增加卷积神经网络深度,然后进行三值量化,具体步骤为:
(1a)修改VITAL跟踪器的特征提取卷积神经网络,增加网络深度到五层,即使用VGG-M中的所有卷积层,得到FAST_VITAL的网络结构;
(1b)引入三元权重网络来对跟踪器前部分卷积神经网络和对抗特征生成器进行量化,将权重限制为三值:+1,0和-1,并最小化初始的权重与三值化的权重的欧式距离;
2)模型训练阶段,基于量化后的卷积神经网络,通过反向传播对量化模型进行训练,通过对抗性训练得到最终的跟踪模型,具体步骤为:
(2a)从网络上下载VOT2014、VOT2015、OTB数据集并进行预处理得到相同格式的数据;
(2b)基于多尺度的特征图投票,使用随机梯度下降优化算法对量化后的神经网络进行训练;
(2c)在梯度更新阶段,仍然使用全精度的权重,只在前向传播和反向传播时使用三值权重;
(2d)模型训练结束后,只保留量化后的精度以实现加速目的;
3)目标跟踪阶段,将待检测的视频帧序列以及第一帧中目标的实际位置输入上述跟踪模型,即得到跟踪结果。
2.如权利要求1所述基于三值量化的多尺度对抗性目标跟踪算法,其特征在于在步骤1)第(1b)部分中,所述对抗特征生成器进行量化的具体步骤为:
(1b1)记卷积层中的全精度权重为W,量化目标为三值权重Wt∈{-1,0,1},对每一层的权重进行如下量化处理:
Figure FDA0003559966650000011
其中,i=1,2,...,n,n是第i层卷积核的向量大小,Δ是一个大于0的阈值,为了最小化全精度权重与三值化权重的二阶欧氏距离,Δ的值被设置为:
Figure FDA0003559966650000012
其中,IΔ={i||Wi|>Δ},|IΔ|是IΔ的一范式,表示IΔ中的元素数量;
(1b2)在进行三值量化后,计算一个缩放因子α乘到量化的三值上,以进一步增加网络的表现力:
Figure FDA0003559966650000021
(1b3)在实际运算时,记Z为某一层的输出,通过以下运算变形将α的缩放移到卷积前面,以减少运算量,达到通过XNOR和Bitcount运算进行卷积,极大加速神经网络运行速度的目的:
Figure FDA0003559966650000022
其中,X代表输入,W代表卷积核向量,
Figure FDA0003559966650000023
代表内积或无乘法的卷积运算。
3.如权利要求1所述基于三值量化的多尺度对抗性目标跟踪算法,其特征在于在步骤2)第(2b)部分中,所述基于多尺度的特征图投票的具体步骤为:
(2b1)对VGG-M的第1、3、5层分别提取输出,输入到全连接层中;
(2b2)将三个输出即置信分数记为score1、score2、score3,最终得到的置信分数为:
score=max(score1,score2,score3)
提取不同尺度的特征图信息,用于让跟踪器能够自适应地跟踪不同大小的目标。
4.如权利要求1所述基于三值量化的多尺度对抗性目标跟踪算法,其特征在于在步骤2)第(2c)部分中,所述前向传播和反向传播的具体步骤为:
(2c1)使用随机梯度下降方法对参数进行更新,其中只有在前向传播和反向梯度更新的时候使用三值权重,而在权重更新的时候使用全精度的权重;
(2c2)在反向传播梯度计算时,由于量化函数的梯度几乎处处为0,采用直通估计器的方法来模拟梯度,具体的实现方法为:
已知三值化操作为:
Figure FDA0003559966650000024
在反向传播过程中,对该函数进行松弛处理,求导过程如下:
Figure FDA0003559966650000025
其中,1|r|≤1的计算公式为Htanh:
H tanh(x)=clip(x,-1,1)=max(-1,min(1,x))。
5.如权利要求1所述基于三值量化的多尺度对抗性目标跟踪算法,其特征在于在步骤3)中,所述将待检测的视频帧序列以及第一帧中目标的实际位置输入上述跟踪模型的具体方法为:
(3a)输入一组包含需要跟踪的目标的视频帧序列以及第一帧;
(3b)对于第二帧图片,在第一帧的目标周围进行采样,将采样出的图片区域输入卷积神经网络,基于多尺度特征图投票结果,得到分类结果,得到的具有最大分数的采样就是跟踪结果;
(3c)对不同采样区得出的分数进行反向传播,在线更新网络;
(3d)基于上一帧的跟踪结果,继续进行接下来的视频帧序列的跟踪。
CN202010451026.3A 2020-05-25 2020-05-25 基于三值量化的多尺度对抗性目标跟踪算法 Active CN111681263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010451026.3A CN111681263B (zh) 2020-05-25 2020-05-25 基于三值量化的多尺度对抗性目标跟踪算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010451026.3A CN111681263B (zh) 2020-05-25 2020-05-25 基于三值量化的多尺度对抗性目标跟踪算法

Publications (2)

Publication Number Publication Date
CN111681263A CN111681263A (zh) 2020-09-18
CN111681263B true CN111681263B (zh) 2022-05-03

Family

ID=72434373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010451026.3A Active CN111681263B (zh) 2020-05-25 2020-05-25 基于三值量化的多尺度对抗性目标跟踪算法

Country Status (1)

Country Link
CN (1) CN111681263B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233037B (zh) * 2020-10-23 2021-06-11 新相微电子(上海)有限公司 基于图像分割的图像增强系统及方法
CN113222107A (zh) * 2021-03-09 2021-08-06 北京大学 数据处理方法、装置、设备及存储介质
CN114565801A (zh) * 2021-10-22 2022-05-31 上海航天控制技术研究所 一种卷积神经网络的红外图像目标检测fpga加速器设计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651915A (zh) * 2016-12-23 2017-05-10 大连理工大学 基于卷积神经网络的多尺度表达的目标跟踪方法
CN108985453A (zh) * 2018-06-27 2018-12-11 中国科学技术大学苏州研究院 基于非对称三元权重量化的深度神经网络模型压缩方法
CN109934846A (zh) * 2019-03-18 2019-06-25 南京信息工程大学 基于时间和空间网络的深度集成目标跟踪方法
CN110189362A (zh) * 2019-05-28 2019-08-30 厦门大学 基于多分支自编码对抗网络的高效目标跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6921079B2 (ja) * 2016-07-21 2021-08-18 株式会社デンソーアイティーラボラトリ ニューラルネットワーク装置、車両制御システム、分解処理装置、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651915A (zh) * 2016-12-23 2017-05-10 大连理工大学 基于卷积神经网络的多尺度表达的目标跟踪方法
CN108985453A (zh) * 2018-06-27 2018-12-11 中国科学技术大学苏州研究院 基于非对称三元权重量化的深度神经网络模型压缩方法
CN109934846A (zh) * 2019-03-18 2019-06-25 南京信息工程大学 基于时间和空间网络的深度集成目标跟踪方法
CN110189362A (zh) * 2019-05-28 2019-08-30 厦门大学 基于多分支自编码对抗网络的高效目标跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Ternary weight networks;Fangfu Li et al.;《arXiv》;20161119;第1-5页 *
VITAL: VIsual Tracking via Adversarial Learning;Yibing Song et al.;《arXiv》;20180412;第1-10页 *
基于压缩卷积神经网络的交通标志分类算法;张建明 等;《华中科技大学学报(自然科学版)》;20190110;第47卷(第1期);第103-108页 *

Also Published As

Publication number Publication date
CN111681263A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN111681263B (zh) 基于三值量化的多尺度对抗性目标跟踪算法
US11908244B2 (en) Human posture detection utilizing posture reference maps
CN111340814B (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN107229757B (zh) 基于深度学习和哈希编码的视频检索方法
CN108665485B (zh) 一种基于相关滤波与孪生卷积网络融合的目标跟踪方法
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN108986168B (zh) 一种基于深度度量学习结合词袋树模型的机器人回环检测方法和装置
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN108647577A (zh) 一种自适应难例挖掘的行人重识别模型、方法与系统
CN109325440B (zh) 人体动作识别方法及系统
CN114463677B (zh) 一种基于全局注意力的安全帽配戴检测方法
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN106650617A (zh) 一种基于概率潜在语义分析的行人异常识别方法
CN109871749B (zh) 一种基于深度哈希的行人重识别方法和装置、计算机系统
CN110688940A (zh) 一种快速的基于人脸检测的人脸追踪方法
CN114972753B (zh) 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统
CN109655815A (zh) 基于ssd的声呐目标检测方法
CN111507215A (zh) 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN111709911B (zh) 一种基于神经网络的卵巢卵泡自动计数的方法
CN111104855B (zh) 一种基于时序行为检测的工作流识别方法
CN109345559A (zh) 基于样本扩充和深度分类网络的运动目标跟踪方法
CN111144497B (zh) 基于美学分析的多任务深度网络下的图像显著性预测方法
CN110633787A (zh) 基于多比特神经网络非线性量化的深度神经网络压缩方法
CN115019115A (zh) 基于改进yolov4的烟叶烟梗部位的识别定位系统
CN115223026A (zh) 轻量化红外弱小目标实时检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant