CN112330719A - 基于特征图分割和自适应融合的深度学习目标跟踪方法 - Google Patents
基于特征图分割和自适应融合的深度学习目标跟踪方法 Download PDFInfo
- Publication number
- CN112330719A CN112330719A CN202011392635.2A CN202011392635A CN112330719A CN 112330719 A CN112330719 A CN 112330719A CN 202011392635 A CN202011392635 A CN 202011392635A CN 112330719 A CN112330719 A CN 112330719A
- Authority
- CN
- China
- Prior art keywords
- frame
- feature map
- image
- target
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 142
- 230000004927 fusion Effects 0.000 title claims abstract description 129
- 238000013135 deep learning Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 58
- 230000004044 response Effects 0.000 claims abstract description 159
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 60
- 238000011176 pooling Methods 0.000 claims description 36
- 238000006073 displacement reaction Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 230000008685 targeting Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
基于特征图分割和自适应融合的深度学习目标跟踪方法,包括:(1)对训练集中的视频进行预处理,生成由模板图像和搜索区域图像构成的训练样本对;生成响应图标签;(2)构建基于特征图分割和自适应融合的深度学习网络模型;(3)对深度学习网络模型进行训练,将模型的结构和训练好的模型参数进行磁盘存储,获得目标跟踪模型;(4)对于待跟踪的视频进行处理,得到第1帧对应的模板图像和后续的待跟踪的每一帧对应的与3个尺度相应的搜索区域图像;(5)加载目标跟踪模型,形成由模板图像和搜索区域图像构成的3对样本,输入到目标跟踪模型中,得到对待跟踪视频后续每一帧跟踪的目标位置。
Description
技术领域
本发明属于人工智能领域,具体涉及一种基于特征图分割和自适应融合的深度学习目标跟踪方法。
背景技术
目标跟踪是指对于给定的视频和其第1帧中的跟踪目标,在后续帧中连续地定位出该目标位置。目标跟踪在安防视频监控、无人机侦察、军事目标跟踪、军事打击、病人监管、智能交通等很多领域具有广泛的应用。传统的目标跟踪方法包括基于均值漂移的目标跟踪方法、基于粒子滤波的目标跟踪方法、基于稀疏编码的目标跟踪方法和基于相关滤波的目标跟踪方法。随着人工智能技术的不断发展,以及深度学习技术在图像处理、语音识别、自然语言处理等一系列应用中取得成功,深度学习逐步引起目标跟踪研究者的关注和重视,出现了基于深度学习的目标跟踪方法。与传统跟踪方法相比,基于深度学习的方法在跟踪准确性上具有较大的优势,但是,当目标被遮挡或发生形变时,容易导致跟踪目标丢失,从而导致整体跟踪性能下降。因此,如何有效地处理遮挡和形变问题,是基于深度学习的目标跟踪中的一项重要挑战。
发明内容
针对现有技术存在的问题,本发明提供一种基于特征图分割和自适应融合的深度学习目标跟踪方法,其目的在于利用深度学习技术以及特征图分割和自适应融合方法,提高对于被遮挡和发生形变的目标进行跟踪的准确性,从而提高目标跟踪的整体性能。
为实现上述目的,本发明采用以下技术方案:
一种基于特征图分割和自适应融合的深度学习目标跟踪方法,包括以下步骤:
(1)对训练集中的视频进行预处理,生成由模板图像和搜索区域图像构成的训练样本对;生成响应图标签;
(2)构建基于特征图分割和自适应融合的深度学习网络模型,用于实现目标跟踪;其中,所述模型的结构包括孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器;
(3)基于步骤(1)获得的训练样本对和响应图标签,对步骤(2)所构建的深度学习网络模型进行训练,得到训练好的模型参数;将所述的深度学习网络模型的结构和训练好的参数在磁盘上进行存储,获得目标跟踪模型;
(4)对于待跟踪的视频,在确定其第1帧中跟踪目标的基础上,处理出模板图像(对于第1帧)和与3个尺度相应的搜索区域图像(对于后续的待跟踪的每一帧);
(5)加载由步骤(3)获得的目标跟踪模型,并将步骤(4)获得的模板图像的3个拷贝和后续的待跟踪的每一帧对应的与所述3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本,输入到目标跟踪模型中,得到对待跟踪视频中后续每一帧跟踪的目标位置。
所述的一种基于特征图分割和自适应融合的深度学习目标跟踪方法,其中:
所述步骤(1),对训练集中的视频进行预处理,生成由模板图像和搜索区域图像构成的训练样本对;生成响应图标签;具体步骤包括:
(1.1)生成由模板图像和搜索区域图像构成的训练样本对;
首先,对每个训练视频进行预处理,对于其每一帧中的每个目标,生成以目标位置为中心的模板图像z和搜索区域图像x;
然后,由来自同一视频中的不同帧且包含同一目标的模板图像和搜索区域图像形成训练样本对,作为用于目标跟踪的深度学习网络模型的输入;
生成模板图像z和搜索区域图像x的具体过程为:
(1.1.1)根据视频帧图像中给定的目标框左上角的坐标(xo,yo)及目标框的宽wb和高hb,按下式计算目标的中心点坐标(xb,yb),并将该坐标作为目标位置,其中,所涉及的坐标以目标所在的视频帧图像的左上角为坐标原点,以水平向右,即视频帧图像宽的方向为横轴正方向,以垂直向下,即视频帧图像高的方向为纵轴正方向;
(1.1.2)设定模板图像的宽-高尺寸wz×hz和搜索区域图像的宽-高尺寸wx×hx,其中,wz和wx分别表示模板图像和搜索区域图像的宽,hz和hx分别表示模板图像和搜索区域图像的高,并且wz=hz,wx=hx;以步骤(1.1.1)中得到的目标位置为中心,从视频帧图像中裁剪出与模板图像相对应的正方形目标区域Az和与搜索区域图像相对应的正方形目标区域Ax,并按照下列公式计算Az的边长qz、Ax的边长qx以及缩放因子s:
s=wz/qz=wx/qx
式中,wb和hb分别为目标框的宽和高,p为目标框周围的背景信息大小,按照下式得出:
若目标区域Az或Ax超出了视频帧图像的边界,则使用视频帧图像的RGB均值对超出的部分进行填充;
(1.1.3)将目标区域Az和Ax按照缩放因子s分别缩放至尺寸wz×hz和wx×hx,分别形成模板图像和搜索区域图像,其宽-高尺寸分别为wz×hz和wx×hx;如果考虑模板图像和搜索区域图像的RGB通道数量分别为cz=3和cx=3,则得到的模板图像和搜索区域图像的尺寸分别为wz×hz×cz和wx×hx×cx;
(1.2)生成响应图标签;
响应图是用于目标跟踪的深度学习网络模型的输出;为了进行有监督的训练,需要设置每对训练样本所对应的响应图标签;对于响应图中的任一位置r,按照下式生成其标签值y[r]:
式中,cen为响应图的中心位置,||r-cen||为r与cen之间的偏移距离,T为设定的偏移距离阈值。
所述步骤(2),构建基于特征图分割和自适应融合的深度学习网络模型,用于实现目标跟踪;具体包括:
(2.1)构建孪生的模板和搜索区域特征提取器;
孪生的模板和搜索区域特征提取器包括上下两条分支,这两条分支是共享参数的孪生卷积神经网络,均由顺序连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层构成;两条分支分别接受模板图像z和搜索区域图像x作为输入,分别输出模板特征图和搜索区域特征图;
(2.2)构建模板特征图分割器;
将模板特征图在宽-高维度上进行分割,将模板特征图分割为上左、上中,上右、中左、中心、中右、下左、下中和下右9个尺寸相同、相互重叠的特征图分割单元,除中心特征图分割单元外,其余8个特征图分割单元均称为边缘特征图分割单元;进行分割时应遵循以下原则:
①每个特征图分割单元的尺寸与分割前原模板特征图尺寸的奇偶性相同;
②对于宽-高尺寸为wz×hz的模板图像,分割出的9个特征图分割单元的感受野wc r×hc r应同时满足以下两个不等式:
遵循上述两个原则,确定出每个特征图分割单元的尺寸,表示为wc×hc×cc,其中,wc和hc分别为每个特征图分割单元的宽和高,cc为每个特征图分割单元的通道数,亦即分割前模板特征图的通道数;
(2.3)构建中心特征图分割单元重构器
本发明通过对中心特征图分割单元添加通道注意力对其进行重构,生成重构后的中心特征图分割单元,以提高中心特征图分割单元对目标的表达能力;
中心特征图分割单元重构器由顺序连接的第一编码层、第二编码层、第一解码层、第二解码层、激活层和重构层构成;每层的具体操作步骤为:
(2.3.1)第一编码层:对于尺寸为wc×hc×cc的中心特征图分割单元,第一编码层首先执行全局最大池化,生成一个1×1×cc的向量;然后,设置一个正整数m,满足cc mod m2=0,以该向量中每相邻的m个元素拼接成一个1×1×m的向量,共形成cc/m个这样的向量;最后,以cc/m个尺寸为1×1×m的卷积核分别在每个1×1×m的向量上进行卷积操作,生成cc/m个1×1的标量,将这cc/m个1×1的标量进行拼接,形成一个1×1×(cc/m)的向量;
(2.3.2)第二编码层:第二编码层与第一编码层类似;首先,对于第一编码层生成的1×1×(cc/m)的向量,每相邻的m个元素拼接成一个1×1×m的向量,共形成cc/m2个这样的向量;然后,以cc/m2个尺寸为1×1×m的卷积核分别在每个1×1×m的向量上进行卷积操作,生成cc/m2个1×1的标量,将这cc/m2个1×1的标量进行拼接,形成一个1×1×(cc/m2)的向量;
(2.3.3)第一解码层:第一解码层以cc/m个尺寸为1×1×(cc/m2)的卷积核在第二编码层形成的1×1×(cc/m2)的向量上进行卷积操作,生成一个1×1×(cc/m)的向量;
(2.3.4)第二解码层:第二解码层以cc个尺寸为1×1×(cc/m)的卷积核在第一解码层生成的1×1×(cc/m)的向量上进行卷积操作,生成一个1×1×cc的向量;
(2.3.5)激活层:激活层对第二解码层生成的1×1×cc向量的每个元素进行Sigmoid激活,生成每个元素值介于0与1之间的1×1×cc的向量,即中心特征图分割单元的通道注意力;
(2.3.6)重构层:重构层按照下式在中心特征图分割单元上添加通道注意力,生成重构后的中心特征图分割单元;
fc'(i,j,k)=fc(i,j,k)×C(k)
式中,1≤i≤hc,1≤j≤wc,1≤k≤cc;fc(i,j,k)为重构前的中心特征图分割单元中第i行、第j列、第k个通道上的元素;C(k)为激活层生成的中心特征图分割单元的通道注意力中的第k个元素;fc'(i,j,k)为重构后的中心特征图分割单元中第i行、第j列、第k个通道上的元素;
(2.4)构建连接响应图生成器;
连接响应图生成器由顺序连接的互相关层和通道连接层构成;首先由互相关层生成与每个边缘特征图分割单元以及重构后的中心特征图分割单元相对应的响应图单元,然后通过通道连接层生成连接响应图;具体操作步骤包括:
(2.4.1)在互相关层中,首先在步骤(2.1)中得到的搜索区域特征图中,按照特征图分割单元的尺寸进行宽-高维度上的移位采样,得到若干与特征图分割单元尺寸相同的区域,在此称为候选区域;然后,对于步骤(2.2)中得到的8个边缘特征图分割单元以及步骤(2.3)中得到的重构后的中心特征图分割单元,使其分别在搜索区域特征图上滑动,与所有候选区域进行互相关操作,从而得到与每个特征图分割单元相对应的响应图单元,即对于9个特征图分割单元,互相关层共得到9个响应图单元;
(2.4.2)在通道连接层中,将步骤(2.4.1)中得到的9个响应图单元按照上左、上中、上右、中左、中心、中右、下左、下中、下右的顺序进行通道连接,形成一个具有9个通道的连接响应图;
(2.5)构建自适应融合权重生成器;
自适应融合权重生成器由顺序连接的池化层、卷积层、自适应融合权重生成层构成;固定中心特征图分割单元的融合权重为1,这里,中心特征图分割单元的融合权重亦即重构后的中心特征图分割单元的融合权重;自适应融合权重生成器只对边缘特征图分割单元的融合权重进行学习,针对不同的跟踪目标和不同的边缘特征图分割单元,通过顺序连接的池化层、卷积层、自适应融合权重生成层,自适应地生成不同的融合权重,形成自适应融合权重矩阵;具体步骤包括:
(2.5.1)池化层中,针对每个边缘特征图分割单元,分别执行全局最大池化和全局平均池化,提取其典型的特征和整体的特征;对于每个尺寸为wc×hc×cc的边缘特征图分割单元,全局最大池化和全局平均池化分别生成一个1×1×cc的向量;将这两个向量在通道维度上进行拼接,形成一个1×1×2cc的向量;
(2.5.2)卷积层中,对于每个边缘特征图分割单元所对应的由步骤(2.5.1)生成的1×1×2cc的向量,以一个尺寸为1×1×2cc的卷积核执行卷积操作,生成一个1×1的标量;
(2.5.3)自适应融合权重生成层中,首先在每个边缘特征图分割单元所对应的由步骤(2.5.2)得到的1×1标量上作用Sigmoid激活函数,生成相应边缘特征图分割单元所对应的介于0与1之间的融合权重;然后,8个边缘特征图分割单元所对应的融合权重连同中心特征图分割单元的融合权重1,按照上左、上中、上右、中左、中心、中右、下左、下中、下右的顺序进行拼接,得到一个3×3的自适应融合权重矩阵;
(2.6)构建自适应融合器;
自适应融合器包括融合卷积核生成层和自适应融合层,分别生成融合卷积核和融合后的响应图;具体步骤包括:
(2.6.1)在融合卷积核生成层中,基于步骤(2.5.3)得到的3×3自适应融合权重矩阵,生成具有9个通道的融合卷积核,每个通道只有一个位置被激活为3×3自适应融合权重矩阵中的权重,其余位置均赋值为0;
(2.6.2)在自适应融合层中,利用融合卷积核在步骤(2.4)生成的连接响应图上进行卷积操作,得到融合后的响应图。
所述步骤(3),训练步骤(2)中构建的深度学习网络模型,获得目标跟踪模型的步骤具体包括:
(3.1)对深度学习网络模型中的参数θ进行初始化,其中,θ为所述深度学习网络模型中需要训练的所有权值和偏置的集合;
(3.2)给定每一批样本的数量,对于每一批训练样本,即由步骤(1.1)生成的由模板图像和搜索区域图像构成的每一批样本对,将其输入到深度学习网络模型,分别通过孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器进行前向传播,计算深度学习网络模型输出的响应图;
(3.3)基于logistic损失函数计算深度学习网络模型输出的响应图相比于步骤(1.2)获得的响应图标签的代价J(θ):
(3.4)执行反向传播过程,按下式对深度学习网络模型的参数θ进行更新和优化:
式中,η为学习率;
(3.5)上述步骤(3.2)~(3.4)过程不断重复执行,直至达到设定的epoch数量;
(3.6)将深度学习网络模型的结构和训练好的参数进行磁盘存储,得到目标跟踪模型。
所述步骤(4),对于待跟踪的视频,在确定其第1帧中跟踪目标的基础上,处理出模板图像(对于第1帧)和与3个尺度相应的搜索区域图像(对于后续的待跟踪的每一帧);具体包括:
(4.1)对于第1帧,按照步骤(1.1.1)~(1.1.3)处理出模板图像,其中,“视频帧图像”为第1帧图像;
(4.2)对于后续的待跟踪的每一帧,从中处理出与3个尺度相应的搜索区域图像;
具体地,对于后续的待跟踪的第t帧(t>1),从中处理出与3个尺度相应的搜索区域图像的具体过程为:
(4.2.1)设定模板图像的宽-高尺寸wz×hz和搜索区域图像的宽-高尺寸wx×hx,其中,wz=hz,wx=hx;按下式计算第t帧图像中与搜索区域图像相对应的正方形目标区域的边长qx_t:
式中,qz_t按下式计算得出:
式中,当t=2时,wt-1和ht-1分别为第1帧中目标框的宽和高;当t>2时,wt-1和ht-1分别为第(t-1)帧跟踪得到的目标框的宽和高;所述两种情况下,p'均为目标框周围的背景信息大小,按照下式得出:
(4.2.2)设置3个尺度1/scale、1和scale,其中scale为设定的实数,用这3个尺度分别与步骤(4.2.1)中得到的边长qx_t相乘,得到与3个尺度相应的目标区域的边长,分别表示为qx_t_1、qx_t_2和qx_t_3;
(4.2.3)在第t帧图像中裁剪出与3个尺度相应的目标区域;具体包括:
当t=2时,首先按照步骤(1.1.1)在第1帧中计算目标位置,其中,“视频帧图像”为第1帧图像;然后,在第t帧图像中,以该目标位置为中心,以步骤(4.2.2)中得到的qx_t_1、qx_t_2和qx_t_3为边长,裁剪出与3个尺度相应的正方形目标区域,分别表示为Ax_t_1、Ax_t_2和Ax_t_3;
当t>2时,则在第t帧图像中,以第(t-1)帧跟踪得到的目标位置为中心,以步骤(4.2.2)中得到的qx_t_1、qx_t_2和qx_t_3为边长,裁剪出与3个尺度相应的正方形目标区域,分别表示为Ax_t_1、Ax_t_2和Ax_t_3;
上述两种情况下,若目标区域Ax_t_1、Ax_t_2或Ax_t_3超出了第t帧图像的边界,则使用第t帧图像的RGB均值对超出的部分进行填充;
(4.2.4)将目标区域Ax_t_1、Ax_t_2和Ax_t_3分别缩放至宽-高尺寸wx×hx,形成第t帧所对应的与3个尺度相应的搜索区域图像,其宽-高尺寸均为wx×hx;如果考虑其RGB通道数量cx=3,则与3个尺度相应的3个搜索区域图像的尺寸均为wx×hx×cx。
所述步骤(5),加载由步骤(3)获得的目标跟踪模型,并将步骤(4)获得的模板图像的3个拷贝和后续的待跟踪的每一帧对应的与所述3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本,输入到目标跟踪模型中,得到对待跟踪视频中后续每一帧跟踪的目标位置;
具体地,加载由步骤(3)获得的目标跟踪模型,将模板图像的3个拷贝和待跟踪视频中第t帧(t>1)所对应的与3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本,输入到目标跟踪模型中,得到对第t帧(t>1)进行跟踪的目标位置,其具体过程为:
(5.1)加载由步骤(3)获得的目标跟踪模型,将步骤(4)获得的模板图像的3个拷贝和第t帧所对应的与3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本,输入到目标跟踪模型中,通过前向传播,得到融合后的与3个尺度相应的响应图;
(5.2)将步骤(5.1)得到的与3个尺度相应的响应图进行16倍的双三次插值,将其放大16倍,分别得到与3个尺度相应的尺寸均为nr×nr的响应图M1、M2和M3;按下式分别对这3个响应图进行归一化处理,得到响应图M′1、M'2和M′3;
式中,v=1,2,3,Mv(ir,jc)和M'v(ir,jc)分别是Mv和M'v中第ir行第jc列的元素;1≤ir,jc≤nr;
(5.3)按照下式,利用矩阵W对响应图M′1、M'2和M′3进行调整,分别得到响应图M″1、M″2和M″3;
M″v(ir,jc)=(1-γ)×M'v(ir,jc)+γ×W(ir,jc)
式中,v=1,2,3,M″v(ir,jc)是响应图M″v中第ir行第jc列的元素;γ为设定的平衡因子;W为按照下式计算的矩阵,W(ir,jc)是其第ir行第jc列的元素;1≤ir,jc≤nr;
W=HT·H
式中,H是一个1×nr的向量,其第ih个元素值H(ih)(1≤ih≤nr)按下式计算获得:
(5.4)遍历步骤(5.3)中得到的响应图M″1、M″2和M″3,找到具有最大元素值的响应图,将其作为第t帧的最佳响应图,其相应的尺度则为第t帧跟踪的最佳尺度,表示为bst;在第t帧的最佳响应图中计算该最大元素值的位置距离其中心位置的位移,表示为(disp_response_r,disp_response_c),其中,disp_response_r和disp_response_c分别为宽方向和高方向上的位移;
(5.5)按照下式将步骤(5.4)中获得的位移(disp_response_r,disp_response_c)转换为与最佳尺度相应的搜索区域图像中的位移(disp_search_r,disp_search_c):
disp_search_r=disp_response_r×stride/times
disp_search_c=disp_response_c×stride/times
式中,stride为孪生的模板和搜索区域特征提取器中的网络总步长,times为步骤(5.2)中响应图的放大倍数;
(5.6)按照下式将步骤(5.5)中获得的位移(disp_search_r,disp_search_c)进一步转换为第(t-1)帧图像中的位移(disp_frame_r,disp_frame_c):
disp_frame_r=disp_search_r/s
disp_frame_c=disp_search_c/s
式中,s为步骤(1.1.2)中所述的缩放因子;
(5.7)当t=2时,根据位移(disp_frame_r,disp_frame_c)和步骤(4.1)处理出模板图像的过程中计算得到的第1帧中的目标位置,即第1帧图像中目标的中心点坐标,计算第t帧跟踪得到的目标位置,即第t帧图像中目标的中心点坐标;当t>2时,根据位移(disp_frame_r,disp_frame_c)和第(t-1)帧跟踪得到的目标位置,计算第t帧跟踪得到的目标位置,即第t帧图像中目标的中心点坐标;上述两种情况下,所有视频帧图像,包括第1帧和第t帧(t>1)图像,其坐标系均为:以视频帧图像的左上角为坐标原点,以水平向右,即视频帧图像宽的方向为横轴正方向,以垂直向下,即视频帧图像高的方向为纵轴正方向;
(5.8)根据下式更新第t帧跟踪得到的目标框的宽wt和高ht
wt=(1-β)×wt-1+β×bst×wt-1
ht=(1-β)×ht-1+β×bst×ht-1
式中,当t>2时,wt-1和ht-1分别为第(t-1)帧跟踪得到的目标框的宽和高;当t=2时,wt-1和ht-1分别为第1帧中目标框的宽和高;β为设定的调整因子,bst为第t帧跟踪的最佳尺度。
本发明技术方案相比于现有技术,具有如下技术特征和优势:
本发明在模型框架中提供了孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器。通过模板特征图分割,增强了对遮挡和形变目标进行跟踪的鲁棒性,并且对于不同的跟踪目标和不同的特征图分割单元,可以自适应地学习到合适的融合权重,从而实现自适应融合,提高了目标跟踪的准确性。
附图说明
图1为本发明方法的整体流程图;
图2为基于特征图分割和自适应融合的目标跟踪模型结构;
图3为模板特征图分割示意图。
具体实施方式
为了使本发明的目的、技术方案及优势更加清楚,下面结合附图及实施例,对本发明的技术方案做进一步的详细说明。
如图1所示,本发明的基于特征图分割和自适应融合的深度学习目标跟踪方法,包括:
(1)对训练集中的视频进行预处理,生成由模板图像和搜索区域图像构成的训练样本对;生成响应图标签;
(2)构建基于特征图分割和自适应融合的深度学习网络模型,用于实现目标跟踪;模型由孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器组成,如图2所示;
(3)基于步骤(1)获得的训练样本对和响应图标签,对步骤(2)所构建的用于目标跟踪的深度学习网络模型进行训练,得到训练好的模型参数;将深度学习网络模型的结构和训练好的参数在磁盘上进行存储,获得目标跟踪模型;
(4)对于待跟踪的视频,在确定其第1帧中跟踪目标的基础上,从中处理出模板图像(对于第1帧)和与3个尺度相应的搜索区域图像(对于后续的待跟踪的每一帧);
(5)加载步骤(3)中获得的目标跟踪模型,并将步骤(4)获得的模板图像的3个拷贝和后续的待跟踪的每一帧对应的与所述3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本,输入到目标跟踪模型中,得到对待跟踪视频中后续每一帧跟踪的目标位置。
以下结合实施例,对本发明提供的基于特征图分割和自适应融合的深度学习目标跟踪方法进行详细的说明。
一种基于特征图分割和自适应融合的深度学习目标跟踪方法,具体步骤如下:
(1)以ImageNet大规模视觉识别竞赛公开的视频目标检测数据集ILSVRC2015-VID作为训练集,对训练集中的视频进行预处理,生成由模板图像和搜索区域图像构成的训练样本对;生成响应图标签;具体包括:
(1.1)生成由模板图像和搜索区域图像构成的训练样本对;
首先,对每个训练视频进行预处理,对于其每一帧中的每个目标,生成以目标位置为中心的模板图像z和搜索区域图像x;
然后,由来自同一视频中的不同帧且包含同一目标的模板图像和搜索区域图像形成训练样本对,作为用于目标跟踪的深度学习网络模型的输入;
其中,生成模板图像z和搜索区域图像x的具体过程为:
(1.1.1)根据视频帧图像中给定的目标框左上角的坐标(xo,yo)及目标框的宽wb和高hb,按下式计算目标的中心点坐标(xb,yb),并将其作为目标位置,其中,所涉及的坐标以目标所在的视频帧图像的左上角为坐标原点,以水平向右,即视频帧图像宽的方向为横轴正方向,以垂直向下,即视频帧图像高的方向为纵轴正方向;
(1.1.2)设定模板图像的宽-高尺寸wz×hz和搜索区域图像的宽-高尺寸wx×hx,其中,wz和wx分别表示为模板图像和搜索区域图像的宽,hz和hx分别表示为模板图像和搜索区域图像的高,在本实施例中,wz=hz=127,wx=hx=255;以步骤(1.1.1)中得到的目标位置为中心,从视频帧图像中裁剪出与模板图像相对应的正方形目标区域Az和与搜索区域图像相对应的正方形目标区域Ax,并按照下列公式计算Az的边长qz、Ax的边长qx以及缩放因子s:
s=wz/qz=wx/qx
式中,wb和hb分别为目标框的宽和高,p为目标框周围的背景信息大小,按照下式得出:
若目标区域Az或Ax超出了视频帧图像的边界,则使用视频帧图像的RGB均值对超出的部分进行填充;
(1.1.3)将目标区域Az和Ax按照缩放因子s分别缩放至尺寸127×127和255×255,分别形成模板图像和搜索区域图像,其宽-高尺寸分别为127×127和255×255;如果考虑模板图像和搜索区域图像的RGB通道数量cz=3和cx=3,则得到的模板图像和搜索区域图像的尺寸分别为127×127×3和255×255×3;
(1.2)生成响应图标签;
响应图是用于目标跟踪的深度学习网络模型的输出;为了进行有监督的训练,需要设置每对训练样本所对应的响应图标签;本实施例中,用于目标跟踪的深度学习网络模型输出的响应图尺寸是17×17,对于响应图中的任一位置r,按照下式生成其标签值y[r]:
式中,cen为响应图的中心位置,||r-cen||为r与cen之间的偏移距离,T为设定的偏移距离阈值,本实施例中,设置T=2;
(2)构建基于特征图分割和自适应融合的深度学习网络模型,用于实现目标跟踪;其中,所述模型结构包括孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器;具体步骤包括:
(2.1)构建孪生的模板和搜索区域特征提取器;
孪生的模板和搜索区域特征提取器包括两条分支,这两条分支是共享参数的孪生卷积神经网络,均由顺序连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层构成;两条分支分别接受模板图像z和搜索区域图像x作为输入,分别输出模板特征图和搜索区域特征图;
具体地,第一卷积层中,设置卷积核的尺寸为11×11×3,共设置96个卷积核,步长设置为2,采用valid卷积模式,对尺寸为127×127×3的模板图像和尺寸为255×255×3的搜索区域图像进行卷积操作,分别获得尺寸为59×59×96的模板特征图和尺寸为123×123×96的搜索区域特征图;
第一池化层中,设置卷积核的尺寸为3×3,步长为2,分别对尺寸为59×59×96的模板特征图和尺寸为123×123×96的搜索区域特征图进行池化操作,获得池化后尺寸为29×29×96的模板特征图和尺寸为61×61×96的搜索区域特征图;
第二卷积层中,设置卷积核的尺寸为5×5×96,共设置256个卷积核,步长设置为1,采用valid卷积模式,分别对尺寸为29×29×96的模板特征图和尺寸为61×61×96的搜索区域特征图进行卷积操作,进一步获得尺寸为25×25×256的模板特征图和尺寸为57×57×256的搜索区域特征图;
第二池化层中,设置卷积核的尺寸为3×3,步长为2,分别对尺寸为25×25×256的模板特征图和尺寸为57×57×256的搜索区域特征图进行池化操作,获得池化后尺寸为12×12×256的模板特征图和尺寸为28×28×256的搜索区域特征图;
第三卷积层中,设置卷积核的尺寸为3×3×256,共设置384个卷积核,步长设置为1,采用valid卷积模式,分别对尺寸为12×12×256的模板特征图和尺寸为28×28×256的搜索区域特征图进行卷积操作,进一步获得尺寸为10×10×384的模板特征图和尺寸为26×26×384的搜索区域特征图;
第四卷积层中,设置卷积核的尺寸为3×3×384,共设置384个卷积核,步长设置为1,采用valid卷积模式,分别对尺寸为10×10×384的模板特征图和尺寸为26×26×384的搜索区域特征图进行卷积操作,最终获得尺寸为8×8×384的模板特征图和尺寸为24×24×384的搜索区域特征图,其中384为两种特征图的通道数;
(2.2)构建模板特征图分割器;
模板特征图分割器对步骤(2.1)获得的尺寸为8×8×384的模板特征图在宽-高维度上进行分割,将宽-高尺寸为8×8(不考虑通道)的模板特征图分割为上左、上中,上右、中左、中心、中右、下左、下中和下右9个尺寸相同、相互重叠的特征图分割单元,除中心特征图分割单元外,其余特征图分割单元均称为边缘特征图分割单元,分割时应遵循以下原则:
①每个特征图分割单元的尺寸与分割前原模板特征图尺寸的奇偶性相同;
遵循上述两个原则,以步长2将步骤(2.1)获得的8×8(不考虑通道)的模板特征图分割为9个4×4的特征图分割单元,如图3所示;如果加上通道维度,则每个特征图分割单元的尺寸为4×4×384;
(2.3)构建中心特征图分割单元重构器
中心特征图分割单元重构器由顺序连接的第一编码层、第二编码层、第一解码层、第二解码层、激活层和重构层构成;每层的具体操作为:
(2.3.1)第一编码层:对于尺寸为4×4×384的中心特征图分割单元,第一编码层首先执行全局最大池化,生成一个1×1×384的向量;然后,设置一个正整数m,并使m=4,以该向量中每相邻的4个元素拼接成一个1×1×4的向量,共形成96个这样的向量;最后,以96个尺寸为1×1×4的卷积核分别在每个1×1×4的向量上进行卷积操作,生成96个1×1的标量,将这96个1×1的标量进行拼接,形成一个1×1×96的向量;
(2.3.2)第二编码层:第二编码层与第一编码层类似;首先,对于第一编码层生成的1×1×96的向量,每相邻的4个元素拼接成一个1×1×4的向量,共形成24个这样的向量;然后,以24个尺寸为1×1×4的卷积核分别在每个1×1×4的向量上进行卷积操作,生成24个1×1的标量,将这24个1×1的标量进行拼接,形成一个1×1×24的向量;
(2.3.3)第一解码层:第一解码层以96个尺寸为1×1×24的卷积核在第二编码层形成的1×1×24的向量上进行卷积操作,生成一个1×1×96的向量;
(2.3.4)第二解码层:第二解码层以384个尺寸为1×1×96的卷积核在第一解码层生成的1×1×96的向量上进行卷积操作,生成一个1×1×384的向量;
(2.3.5)激活层:激活层对第二解码层生成的1×1×384向量的每个元素进行Sigmoid激活,生成每个元素值介于0与1之间的1×1×384的向量,即中心特征图分割单元的通道注意力;
(2.3.6)重构层:重构层按照下式在中心特征图分割单元上添加通道注意力,生成重构后的中心特征图分割单元;
fc'(i,j,k)=fc(i,j,k)×C(k)
式中,1≤i≤4,1≤j≤4,1≤k≤384;fc(i,j,k)为重构前的中心特征图分割单元中第i行、第j列、第k个通道上的元素;C(k)为激活层生成的中心特征图分割单元的通道注意力中的第k个元素;fc'(i,j,k)为重构后的中心特征图分割单元中第i行、第j列、第k个通道上的元素;
(2.4)构建连接响应图生成器;
连接响应图生成器由顺序连接的互相关层和通道连接层构成;首先由互相关层生成与每个边缘特征图分割单元以及重构后的中心特征图分割单元相对应的响应图单元,然后通过通道连接层生成连接响应图;具体过程为:
(2.4.1)在互相关层中,首先在步骤(2.1)中得到的尺寸为24×24×384的搜索区域特征图上,按照步骤(2.2)获得的特征图分割单元的尺寸4×4×384,进行宽-高维度上的移位采样,移位采样的步长设置为1,得到21×21个与尺寸为4×4×384的特征图分割单元尺寸相同的候选区域;然后对于步骤(2.2)中得到的8个边缘特征图分割单元以及步骤(2.3)中得到的重构后的中心特征图分割单元,使其分别在搜索区域特征图上滑动,滑动步长设置为1,与所有候选区域进行互相关操作,从而得到与每个特征图分割单元相对应的响应图单元,其尺寸为21×21,即对于9个特征图分割单元,互相关层共得到9个尺寸为21×21的响应图单元;
(2.4.2)在通道连接层中,将步骤(2.4.1)中得到的9个尺寸为21×21的响应图单元按照上左、上中、上右、中左、中心、中右、下左、下中、下右的顺序进行通道连接,形成一个具有9个通道的连接响应图,其尺寸为21×21×9;
(2.5)构建自适应融合权重生成器;
自适应融合权重生成器由顺序连接的池化层、卷积层、自适应融合权重生成层构成;固定中心特征图分割单元的融合权重为1,自适应融合权重生成器只对边缘特征图分割单元的融合权重进行学习,针对不同的跟踪目标和不同的边缘特征图分割单元,通过顺序连接的池化层、卷积层、自适应融合权重生成层,自适应地生成不同的融合权重,形成相应的自适应融合权重矩阵;具体步骤包括:
(2.5.1)池化层中,针对每个边缘特征图分割单元,分别执行全局最大池化和全局平均池化,提取其典型的特征和整体的特征;对于每个尺寸为4×4×384的边缘特征图分割单元,全局最大池化和全局平均池化分别生成一个1×1×384的向量;将这两个向量在通道维度上进行拼接,形成一个1×1×768的向量;
(2.5.2)卷积层中,对于每个边缘特征图分割单元所对应的由步骤(2.5.1)生成的1×1×768的向量,以一个尺寸为1×1×768的卷积核执行卷积操作,生成一个1×1的标量;
(2.5.3)自适应融合权重生成层中,首先在每个边缘特征图分割单元所对应的由步骤(2.5.2)得到的1×1标量上作用Sigmoid激活函数,生成相应边缘特征图分割单元所对应的介于0与1之间的融合权重;然后,8个边缘特征图分割单元所对应的融合权重连同中心特征图分割单元的融合权重1,按照上左、上中、上右、中左、中心、中右、下左、下中、下右的顺序进行拼接,得到一个3×3的自适应融合权重矩阵;
(2.6)构建自适应融合器;
自适应融合器包括融合卷积核生成层和自适应融合层,分别生成融合卷积核和融合后的响应图;具体步骤包括:
(2.6.1)在融合卷积核生成层中,基于步骤(2.5)生成的3×3的自适应融合权重矩阵,生成尺寸为5×5×9的融合卷积核,其中,9为通道数,每个通道只有一个位置被激活为3×3自适应融合权重矩阵中的权重,其余位置均赋值为0;每个通道被激活的位置及权重如下述公式所示:
K(im',jm',km')=G(im,jm)
im'=2(im-1)+1
jm'=2(jm-1)+1
km'=3(im-1)+jm
式中,G是由步骤(2.5)生成的3×3的自适应融合权重矩阵,G(im,jm)表示其第im行第jm列的权重,其中,im,jm=1,2,3,K是本步骤要生成的融合卷积核,K(im’,jm’,km’)是其第km’个通道中第im’行第jm’列被激活的权重;
(2.6.2)在自适应融合层中,利用步骤(2.6.1)生成的尺寸为5×5×9的融合卷积核,在步骤(2.4)生成的尺寸为21×21×9的连接响应图上进行卷积操作,步长设置为1,采用valid卷积模式,得到融合后的响应图,其尺寸为17×17;
(3)基于步骤(1)获得的训练样本对和响应图标签,对步骤(2)所构建的深度学习网络模型进行训练,得到训练好的模型参数;将所述的深度学习网络模型的结构和训练好的参数在磁盘上进行存储,获得目标跟踪模型;具体步骤包括:
(3.1)对深度学习网络模型中的参数θ进行高斯分布初始化,其中,θ为所述的深度学习网络模型中需要训练的所有权值和偏置的集合;
(3.2)给定每一批样本的数量,在本实施例中,设置每一批样本的数量为8;对于每一批训练样本,即由步骤(1.1)生成的由模板图像和搜索区域图像构成的每一批样本对,将其输入到步骤(2)所构建的深度学习网络模型中,分别通过孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器进行前向传播,计算深度学习网络模型输出的响应图;
(3.3)基于logistic损失函数计算深度学习网络模型输出的响应图相比于步骤(1.2)获得的响应图标签的代价J(θ);
(3.4)执行反向传播过程,按下式对深度学习网络模型的参数θ进行更新和优化:
式中,η为学习率,本实施例中,设置初始的学习率为10-2,其大小随着epoch的增加呈指数衰减至10-5;
(3.5)上述步骤(3.2)~(3.4)的过程不断重复执行,直至达到设定的epoch数量,本实施例中,设置epoch=50;
(3.6)将深度学习网络模型的结构和训练好的参数进行磁盘存储,得到目标跟踪模型;
(4)对于待跟踪的视频,在确定其第1帧中跟踪目标的基础上,处理出模板图像(对于第1帧)和与3个尺度相应的搜索区域图像(对于后续的待跟踪的每一帧);具体步骤包括:
(4.1)对于第1帧,按照步骤(1.1.1)~(1.1.3)处理出模板图像,其中,“视频帧图像”为第1帧图像;
(4.2)对于后续的待跟踪的每一帧,从中处理出与3个尺度相应的搜索区域图像;
具体地,对于后续的待跟踪的第t帧(t>1),从中处理出与3个尺度相应的搜索区域图像的具体过程为:
(4.2.1)设定模板图像的宽-高尺寸wz×hz和搜索区域图像的宽-高尺寸wx×hx,本实施例中,wz=hz=127,wx=hx=255;按下式计算第t帧图像中与搜索区域图像相对应的正方形目标区域的边长qx_t:
式中,qz_t按下式计算得出:
式中,当t=2时,wt-1和ht-1分别为第1帧中目标框的宽和高;当t>2时,wt-1和ht-1分别为第(t-1)帧跟踪得到的目标框的宽和高;所述两种情况下,p'均为目标框周围的背景信息大小,按照下式得出:
(4.2.2)设置3个尺度1/scale、1和scale,本实施例中,设置scale=1.0375,用这3个尺度分别与步骤(4.2.1)中得到的边长qx_t相乘,得到与3个尺度相应的目标区域的边长,分别表示为qx_t_1、qx_t_2和qx_t_3;
(4.2.3)在第t帧图像中裁剪出与3个尺度相应的目标区域;具体包括:
当t=2时,首先按照步骤(1.1.1)在第1帧中计算目标位置,其中,“视频帧图像”为第1帧图像;然后,在第t帧图像中,以该目标位置为中心,以步骤(4.2.2)中得到的qx_t_1、qx_t_2和qx_t_3为边长,裁剪出与3个尺度相应的正方形目标区域,分别表示为Ax_t_1、Ax_t_2和Ax_t_3;
当t>2时,则在第t帧图像中,以第(t-1)帧跟踪得到的目标位置为中心,以步骤(4.2.2)中得到的qx_t_1、qx_t_2和qx_t_3为边长,裁剪出与3个尺度相应的正方形目标区域,分别表示为Ax_t_1、Ax_t_2和Ax_t_3;
上述两种情况下,若目标区域Ax_t_1、Ax_t_2或Ax_t_3超出了第t帧图像的边界,则使用第t帧图像的RGB均值对超出的部分进行填充;
(4.2.4)将目标区域Ax_t_1、Ax_t_2和Ax_t_3分别缩放至宽-高尺寸255×255,形成第t帧所对应的与3个尺度相应的搜索区域图像,其宽-高尺寸均为255×255;如果考虑其RGB通道数量3,则与3个尺度相应的3个搜索区域图像的尺寸均为255×255×3;
(5)加载由步骤(3)获得的目标跟踪模型,并将步骤(4)获得的模板图像的3个拷贝和后续的待跟踪的每一帧对应的与3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本,输入到目标跟踪模型中,得到对待跟踪视频中后续每一帧跟踪的目标位置;
具体地,加载由步骤(3)获得的目标跟踪模型,将模板图像的3个拷贝和待跟踪视频中第t帧(t>1)所对应的与3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本,输入到目标跟踪模型中,得到对第t帧(t>1)进行跟踪的目标位置,具体过程为:
(5.1)加载由步骤(3)获得的目标跟踪模型,将步骤(4)获得的模板图像的3个拷贝和第t帧对应的与3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本,输入到目标跟踪模型中,通过前向传播,得到融合后的与3个尺度相应的响应图;
(5.2)将步骤(5.1)得到的与3个尺度相应的响应图进行16倍的双三次插值,将其放大16倍,分别得到与3个尺度相应的尺寸均为nr×nr的响应图M1、M2和M3,本实施例中,nr=272;按下式分别对这3个响应图进行归一化处理,得到响应图M′1、M'2和M′3;
式中,v=1,2,3,Mv(ir,jc)和M'v(ir,jc)分别是Mv和M'v中第ir行第jc列的元素;1≤ir,jc≤nr;
(5.3)按照下式,利用矩阵W对响应图M′1、M'2和M′3进行调整,分别得到响应图M″1、M″2和M″3;
M″v(ir,jc)=(1-γ)×M'v(ir,jc)+γ×W(ir,jc)
式中,v=1,2,3,M″v(ir,jc)是响应图M″v中第ir行第jc列的元素;γ为设定的平衡因子,本实施例中,γ=0.176;W为按照下式计算的矩阵,W(ir,jc)是其第ir行第jc列的元素;1≤ir,jc≤nr;
W=HT·H
式中,H是一个1×nr的向量,其第ih个元素值H(ih)(1≤ih≤nr),按下式计算获得:
(5.4)遍历步骤(5.3)中得到的响应图M″1、M″2和M″3,找到具有最大元素值的响应图,将其作为第t帧的最佳响应图,其相应的尺度则为第t帧跟踪的最佳尺度,表示为bst;在第t帧的最佳响应图中计算该最大元素值的位置距离其中心位置的位移,表示为(disp_response_r,disp_response_c),其中,disp_response_r和disp_response_c分别为宽方向和高方向上的位移;
(5.5)按照下式将步骤(5.4)中获得的位移(disp_response_r,disp_response_c)转换为与最佳尺度相应的搜索区域图像中的位移(disp_search_r,disp_search_c):
disp_search_r=disp_response_r×stride/times
disp_search_c=disp_response_c×stride/times
式中,stride为孪生的模板和搜索区域特征提取器中的网络总步长,由步骤(2.1)所构建的孪生的模板和搜索区域特征提取器的结构知:stride=8;times=16为步骤(5.2)中响应图的放大倍数;
(5.6)按照下式将步骤(5.5)中获得的位移(disp_search_r,disp_search_c)进一步转换为第(t-1)帧图像中的位移(disp_frame_r,disp_frame_c):
disp_frame_r=disp_search_r/s
disp_frame_c=disp_search_c/s
式中,s为步骤(1.1.2)中所述的缩放因子;
(5.7)当t=2时,根据位移(disp_frame_r,disp_frame_c)和步骤(4.1)处理出模板图像的过程中计算得到的第1帧中的目标位置,即第1帧图像中目标的中心点坐标,计算第t帧跟踪得到的目标位置,即第t帧图像中目标的中心点坐标;当t>2时,根据位移(disp_frame_r,disp_frame_c)和第(t-1)帧跟踪得到的目标位置,计算第t帧跟踪得到的目标位置,即第t帧图像中目标的中心点坐标;上述两种情况下,所有视频帧图像,包括第1帧和第t帧(t>1)图像,其坐标系均为:以视频帧图像的左上角为坐标原点,以水平向右,即视频帧图像宽的方向为横轴正方向,以垂直向下,即视频帧图像高的方向为纵轴正方向;
(5.8)根据下式更新第t帧跟踪得到的目标框的宽wt和高ht
wt=(1-β)×wt-1+β×bst×wt-1
ht=(1-β)×ht-1+β×bst×ht-1
式中,当t>2时,wt-1和ht-1分别为第(t-1)帧跟踪得到的目标框的宽和高;当t=2时,wt-1和ht-1分别为第1帧中目标框的宽和高;β为设定的调整因子,本实施例中,设置β=0.59;bst为第t帧跟踪的最佳尺度;
本发明提供的基于特征图分割和自适应融合的目标跟踪方法,在2017年视觉目标跟踪竞赛中公开的数据集VOT 2017上进行了测试,跟踪速度为67fps,满足实时跟踪的要求。表1给出了VOT 2017上与目前先进的实时跟踪方法CSRDCF++、SiamFC、ECOhc、Staple(是VOT2017目标跟踪竞赛前四名的实时跟踪方法)的跟踪性能比较,其中,EAO(realtime)是综合体现目标跟踪方法的准确性、鲁棒性和实时性的性能指标。可以看出,本发明所提供的基于特征图分割和自适应融合的深度学习目标跟踪方法具有最佳的跟踪性能。
表1几种跟踪方法性能指标
Claims (6)
1.一种基于特征图分割和自适应融合的深度学习目标跟踪方法,其特征在于,包括以下步骤:
(1)对训练集中的视频进行预处理,生成由模板图像和搜索区域图像构成的训练样本对;生成响应图标签;
(2)构建基于特征图分割和自适应融合的深度学习网络模型,用于实现目标跟踪;其中,所述模型的结构包括孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器;
(3)基于步骤(1)获得的训练样本对和响应图标签,对步骤(2)所构建的深度学习网络模型进行训练,得到训练好的模型参数;将所述的深度学习网络模型的结构和训练好的参数在磁盘上进行存储,获得目标跟踪模型;
(4)对于待跟踪的视频,在确定其第1帧中跟踪目标的基础上,从其第1帧中处理出模板图像,从后续的待跟踪的每一帧中处理出与3个尺度相应的搜索区域图像;
(5)加载由步骤(3)获得的目标跟踪模型,并将步骤(4)获得的模板图像的3个拷贝和后续的待跟踪的每一帧对应的与所述3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本,输入到目标跟踪模型中,得到对待跟踪视频中后续每一帧跟踪的目标位置。
2.根据权利要求1所述的基于特征图分割和自适应融合的深度学习目标跟踪方法,其特征在于,所述步骤(1)对训练集中的视频进行预处理,生成由模板图像和搜索区域图像构成的训练样本对;生成响应图标签,具体包括:
(1.1)生成由模板图像和搜索区域图像构成的训练样本对;
首先,对每个训练视频进行预处理,对于其每一帧中的每个目标,生成以目标位置为中心的模板图像z和搜索区域图像x;
然后,由来自同一视频中的不同帧且包含同一目标的模板图像和搜索区域图像形成训练样本对,作为用于目标跟踪的深度学习网络模型的输入;
其中,生成模板图像z和搜索区域图像x的具体过程为:
(1.1.1)根据视频帧图像中给定的目标框左上角的坐标(xo,yo)及目标框的宽wb和高hb,按下式计算目标的中心点坐标(xb,yb),并将该坐标作为目标位置,其中,所涉及的坐标以目标所在的视频帧图像的左上角为坐标原点,以水平向右,即视频帧图像宽的方向为横轴正方向,以垂直向下,即视频帧图像高的方向为纵轴正方向;
(1.1.2)设定模板图像的宽-高尺寸wz×hz和搜索区域图像的宽-高尺寸wx×hx,其中,wz和wx分别表示模板图像和搜索区域图像的宽,hz和hx分别表示模板图像和搜索区域图像的高,并且wz=hz,wx=hx;以步骤(1.1.1)中得到的目标位置为中心,从视频帧图像中裁剪出与模板图像相对应的正方形目标区域Az和与搜索区域图像相对应的正方形目标区域Ax,并按照下列公式计算Az的边长qz、Ax的边长qx以及缩放因子s:
s=wz/qz=wx/qx
式中,wb和hb分别为目标框的宽和高,p为目标框周围的背景信息大小,按照下式得出:
若目标区域Az或Ax超出了视频帧图像的边界,则使用视频帧图像的RGB均值对超出的部分进行填充;
(1.1.3)将目标区域Az和Ax按照缩放因子s分别缩放至尺寸wz×hz和wx×hx,分别形成模板图像和搜索区域图像,其宽-高尺寸分别为wz×hz和wx×hx;如果考虑模板图像和搜索区域图像的RGB通道数量分别为cz=3和cx=3,则得到的模板图像和搜索区域图像的尺寸分别为wz×hz×cz和wx×hx×cx;
(1.2)生成响应图标签;
响应图是用于目标跟踪的深度学习网络模型的输出;为了进行有监督的训练,需要设置每对训练样本所对应的响应图标签;对于响应图中的任一位置r,按照下式生成其标签值y[r]:
式中,cen为响应图的中心位置,||r-cen||为r与cen之间的偏移距离,T为设定的偏移距离阈值。
3.根据权利要求1所述的基于特征图分割和自适应融合的深度学习目标跟踪方法,其特征在于,所述步骤(2)构建基于特征图分割和自适应融合的深度学习网络模型,具体包括:
(2.1)构建孪生的模板和搜索区域特征提取器;
孪生的模板和搜索区域特征提取器包括上下两条分支,这两条分支是共享参数的孪生卷积神经网络,均由顺序连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层构成;两条分支分别接受模板图像z和搜索区域图像x作为输入,分别输出模板特征图和搜索区域特征图;
(2.2)构建模板特征图分割器;
将模板特征图在宽-高维度上进行分割,将模板特征图分割为上左、上中,上右、中左、中心、中右、下左、下中和下右9个尺寸相同、相互重叠的特征图分割单元,除中心特征图分割单元外,其余8个特征图分割单元均称为边缘特征图分割单元;进行分割时应遵循以下原则:
①每个特征图分割单元的尺寸与分割前原模板特征图尺寸的奇偶性相同;
遵循上述两个原则,确定出每个特征图分割单元的尺寸,表示为wc×hc×cc,其中,wc和hc分别为每个特征图分割单元的宽和高,cc为每个特征图分割单元的通道数,亦即分割前模板特征图的通道数;
(2.3)构建中心特征图分割单元重构器
中心特征图分割单元重构器由顺序连接的第一编码层、第二编码层、第一解码层、第二解码层、激活层和重构层构成;每层的具体操作步骤为:
(2.3.1)第一编码层:对于尺寸为wc×hc×cc的中心特征图分割单元,第一编码层首先执行全局最大池化,生成一个1×1×cc的向量;然后,设置一个正整数m,满足ccmod m2=0,以该向量中每相邻的m个元素拼接成一个1×1×m的向量,共形成cc/m个这样的向量;最后,以cc/m个尺寸为1×1×m的卷积核分别在每个1×1×m的向量上进行卷积操作,生成cc/m个1×1的标量,将这cc/m个1×1的标量进行拼接,形成一个1×1×(cc/m)的向量;
(2.3.2)第二编码层:第二编码层与第一编码层类似;首先,对于第一编码层生成的1×1×(cc/m)的向量,每相邻的m个元素拼接成一个1×1×m的向量,共形成cc/m2个这样的向量;然后,以cc/m2个尺寸为1×1×m的卷积核分别在每个1×1×m的向量上进行卷积操作,生成cc/m2个1×1的标量,将这cc/m2个1×1的标量进行拼接,形成一个1×1×(cc/m2)的向量;
(2.3.3)第一解码层:第一解码层以cc/m个尺寸为1×1×(cc/m2)的卷积核在第二编码层形成的1×1×(cc/m2)的向量上进行卷积操作,生成一个1×1×(cc/m)的向量;
(2.3.4)第二解码层:第二解码层以cc个尺寸为1×1×(cc/m)的卷积核在第一解码层生成的1×1×(cc/m)的向量上进行卷积操作,生成一个1×1×cc的向量;
(2.3.5)激活层:激活层对第二解码层生成的1×1×cc向量的每个元素进行Sigmoid激活,生成每个元素值介于0与1之间的1×1×cc的向量,即中心特征图分割单元的通道注意力;
(2.3.6)重构层:重构层按照下式在中心特征图分割单元上添加通道注意力,生成重构后的中心特征图分割单元;
fc′(i,j,k)=fc(i,j,k)×C(k)
式中,1≤i≤hc,1≤j≤wc,1≤k≤cc;fc(i,j,k)为重构前的中心特征图分割单元中第i行、第j列、第k个通道上的元素;C(k)为激活层生成的中心特征图分割单元的通道注意力中的第k个元素;fc′(i,j,k)为重构后的中心特征图分割单元中第i行、第j列、第k个通道上的元素;
(2.4)构建连接响应图生成器;
连接响应图生成器由顺序连接的互相关层和通道连接层构成;首先由互相关层生成与每个边缘特征图分割单元以及重构后的中心特征图分割单元相对应的响应图单元,然后通过通道连接层生成连接响应图;具体操作步骤包括:
(2.4.1)在互相关层中,首先在步骤(2.1)中得到的搜索区域特征图中,按照特征图分割单元的尺寸进行宽-高维度上的移位采样,得到若干与特征图分割单元尺寸相同的区域,在此称为候选区域;然后,对于步骤(2.2)中得到的8个边缘特征图分割单元以及步骤(2.3)中得到的重构后的中心特征图分割单元,使其分别在搜索区域特征图上滑动,与所有候选区域进行互相关操作,从而得到与每个特征图分割单元相对应的响应图单元,即对于9个特征图分割单元,互相关层共得到9个响应图单元;
(2.4.2)在通道连接层中,将步骤(2.4.1)中得到的9个响应图单元按照上左、上中、上右、中左、中心、中右、下左、下中、下右的顺序进行通道连接,形成一个具有9个通道的连接响应图;
(2.5)构建自适应融合权重生成器;
自适应融合权重生成器由顺序连接的池化层、卷积层、自适应融合权重生成层构成;固定中心特征图分割单元的融合权重为1,这里,中心特征图分割单元的融合权重亦即重构后的中心特征图分割单元的融合权重;自适应融合权重生成器只对边缘特征图分割单元的融合权重进行学习,针对不同的跟踪目标和不同的边缘特征图分割单元,通过顺序连接的池化层、卷积层、自适应融合权重生成层,自适应地生成不同的融合权重,形成自适应融合权重矩阵;具体步骤包括:
(2.5.1)池化层中,针对每个边缘特征图分割单元,分别执行全局最大池化和全局平均池化,提取其典型的特征和整体的特征;对于每个尺寸为wc×hc×cc的边缘特征图分割单元,全局最大池化和全局平均池化分别生成一个1×1×cc的向量;将这两个向量在通道维度上进行拼接,形成一个1×1×2cc的向量;
(2.5.2)卷积层中,对于每个边缘特征图分割单元所对应的由步骤(2.5.1)生成的1×1×2cc的向量,以一个尺寸为1×1×2cc的卷积核执行卷积操作,生成一个1×1的标量;
(2.5.3)自适应融合权重生成层中,首先在每个边缘特征图分割单元所对应的由步骤(2.5.2)得到的1×1标量上作用Sigmoid激活函数,生成相应边缘特征图分割单元所对应的介于0与1之间的融合权重;然后,8个边缘特征图分割单元所对应的融合权重连同中心特征图分割单元的融合权重1,按照上左、上中、上右、中左、中心、中右、下左、下中、下右的顺序进行拼接,得到一个3×3的自适应融合权重矩阵;
(2.6)构建自适应融合器;
自适应融合器包括融合卷积核生成层和自适应融合层,分别生成融合卷积核和融合后的响应图;具体步骤包括:
(2.6.1)在融合卷积核生成层中,基于步骤(2.5.3)得到的3×3自适应融合权重矩阵,生成具有9个通道的融合卷积核,每个通道只有一个位置被激活为3×3自适应融合权重矩阵中的权重,其余位置均赋值为0;
(2.6.2)在自适应融合层中,利用融合卷积核在步骤(2.4)生成的连接响应图上进行卷积操作,得到融合后的响应图。
4.根据权利要求1所述的基于特征图分割和自适应融合的深度学习目标跟踪方法,其特征在于,所述步骤(3)训练深度学习网络模型,获得目标跟踪模型;具体步骤包括:
(3.1)对所述的深度学习网络模型中的参数θ进行初始化,其中,θ为所述深度学习网络模型中需要训练的所有权值和偏置的集合;
(3.2)给定每一批样本的数量,对于每一批训练样本,即由步骤(1.1)生成的由模板图像和搜索区域图像构成的每一批样本对,将其输入到深度学习网络模型,分别通过孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器进行前向传播,计算深度学习网络模型输出的响应图;
(3.3)基于logistic损失函数计算深度学习网络模型输出的响应图相比于步骤(1.2)获得的响应图标签的代价J(θ):
(3.4)执行反向传播过程,按下式对深度学习网络模型的参数θ进行更新和优化:
式中,η为学习率;
(3.5)上述步骤(3.2)~(3.4)过程不断重复执行,直至达到设定的epoch数量;
(3.6)将深度学习网络模型的结构和训练好的参数进行磁盘存储,得到目标跟踪模型。
5.根据权利要求1所述的基于特征图分割和自适应融合的深度学习目标跟踪方法,其特征在于,所述步骤(4)对于待跟踪的视频,在确定其第1帧中跟踪目标的基础上,从第1帧中处理出模板图像,从后续的待跟踪的每一帧中处理出与3个尺度相应的搜索区域图像;具体步骤包括:
(4.1)对于第1帧,按照步骤(1.1.1)~(1.1.3)处理出模板图像,其中,“视频帧图像”为第1帧图像;
(4.2)对于后续的待跟踪的每一帧,从中处理出与3个尺度相应的搜索区域图像;具体过程为:
(4.2.1)设定模板图像的宽-高尺寸wz×hz和搜索区域图像的宽-高尺寸wx×hx,其中,wz=hz,wx=hx;按下式计算第t帧(t>1)图像中与搜索区域图像相对应的正方形目标区域的边长qx_t:
式中,qz_t按下式计算得出:
式中,当t=2时,wt-1和ht-1分别为第1帧中目标框的宽和高;当t>2时,wt-1和ht-1分别为第(t-1)帧跟踪得到的目标框的宽和高;所述两种情况下,p′均为目标框周围的背景信息大小,按照下式得出:
(4.2.2)设置3个尺度1/scale、1和scale,其中scale为设定的实数,用这3个尺度分别与步骤(4.2.1)中得到的边长qx_t相乘,得到与3个尺度相应的目标区域的边长,分别表示为qx_t_1、qx_t_2和qx_t_3;
(4.2.3)在第t帧(t>1)图像中裁剪出与3个尺度相应的目标区域;具体包括:
当t=2时,首先按照步骤(1.1.1)在第1帧中计算目标位置,其中,“视频帧图像”为第1帧图像;然后,在第t帧图像中,以该目标位置为中心,以步骤(4.2.2)中得到的qx_t_1、qx_t_2和qx_t_3为边长,裁剪出与3个尺度相应的正方形目标区域,分别表示为Ax_t_1、Ax_t_2和Ax_t_3;
当t>2时,则在第t帧图像中,以第(t-1)帧跟踪得到的目标位置为中心,以步骤(4.2.2)中得到的qx_t_1、qx_t_2和qx_t_3为边长,裁剪出与3个尺度相应的正方形目标区域,分别表示为Ax_t_1、Ax_t_2和Ax_t_3;
上述两种情况下,若目标区域Ax_t_1、Ax_t_2或Ax_t_3超出了第t帧图像的边界,则使用第t帧图像的RGB均值对超出的部分进行填充;
(4.2.4)将目标区域Ax_t_1、Ax_t_2和Ax_t_3分别缩放至宽-高尺寸wx×hx,形成第t帧(t>1)所对应的与3个尺度相应的搜索区域图像,其宽-高尺寸均为wx×hx;如果考虑其RGB通道数量cx=3,则与3个尺度相应的3个搜索区域图像的尺寸均为wx×hx×cx。
6.根据权利要求1所述的基于特征图分割和自适应融合的深度学习目标跟踪方法,其特征在于,所述步骤(5)加载由步骤(3)获得的目标跟踪模型,将步骤(4)获得的模板图像的3个拷贝和待跟踪视频中第t帧(t>1)所对应的与3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本,输入到目标跟踪模型中,得到对第t帧(t>1)进行跟踪的目标位置,具体过程为:
(5.1)加载由步骤(3)获得的目标跟踪模型,将步骤(4)获得的模板图像的3个拷贝和第t帧所对应的与3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本,输入到目标跟踪模型中,通过前向传播,得到融合后的与3个尺度相应的响应图;
(5.2)将步骤(5.1)得到的与3个尺度相应的响应图进行16倍的双三次插值,将其放大16倍,分别得到与3个尺度相应的尺寸均为nr×nr的响应图M1、M2和M3;按下式分别对这3个响应图进行归一化处理,得到响应图M′1、M′2和M′3;
式中,v=1,2,3,Mv(ir,jc)和M′v(ir,jc)分别是Mv和M′v中第ir行第jc列的元素;1≤ir,jc≤nr;
(5.3)按照下式,利用矩阵W对响应图M′1、M′2和M′3进行调整,分别得到响应图M″1、M″2和M″3;
M″v(ir,jc)=(1-γ)×M′v(ir,jc)+γ×W(ir,jc)
式中,v=1,2,3,M″v(ir,jc)是响应图M″v中第ir行第jc列的元素;γ为设定的平衡因子;W为按照下式计算的矩阵,W(ir,jc)是其第ir行第jc列的元素;1≤ir,jc≤nr;
W=HT·H
式中,H是一个1×nr的向量,其第ih个元素值H(ih)(1≤ih≤nr)按下式计算获得:
(5.4)遍历步骤(5.3)中得到的响应图M″1、M″2和M″3,找到具有最大元素值的响应图,将其作为第t帧的最佳响应图,其相应的尺度则为第t帧跟踪的最佳尺度,表示为bst;在第t帧的最佳响应图中计算该最大元素值的位置距离其中心位置的位移,表示为(disp_response_r,disp_response_c),其中,disp_response_r和disp_response_c分别为宽方向和高方向上的位移;
(5.5)按照下式将步骤(5.4)中获得的位移(disp_response_r,disp_response_c)转换为与最佳尺度相应的搜索区域图像中的位移(disp_search_r,disp_search_c):
disp_search_r=disp_response_r×stride/times
disp_search_c=disp_response_c×stride/times
式中,stride为孪生的模板和搜索区域特征提取器中的网络总步长,times为步骤(5.2)中响应图的放大倍数;
(5.6)按照下式将步骤(5.5)中获得的位移(disp_search_r,disp_search_c)进一步转换为第(t-1)帧图像中的位移(disp_frame_r,disp_frame_c):
disp_frame_r=disp_search_r/s
disp_frame_c=disp_search_c/s
式中,s为步骤(1.1.2)中所述的缩放因子;
(5.7)当t=2时,根据位移(disp_frame_r,disp_frame_c)和步骤(4.1)处理出模板图像的过程中计算得到的第1帧中的目标位置,即第1帧图像中目标的中心点坐标,计算第t帧跟踪得到的目标位置,即第t帧图像中目标的中心点坐标;当t>2时,根据位移(disp_frame_r,disp_frame_c)和第(t-1)帧跟踪得到的目标位置,计算第t帧跟踪得到的目标位置,即第t帧图像中目标的中心点坐标;上述两种情况下,所有视频帧图像,包括第1帧和第t帧(t>1)图像,其坐标系均为:以视频帧图像的左上角为坐标原点,以水平向右,即视频帧图像宽的方向为横轴正方向,以垂直向下,即视频帧图像高的方向为纵轴正方向;
(5.8)根据下式更新第t帧跟踪得到的目标框的宽wt和高ht
wt=(1-β)×wt-1+β×bst×wt-1
ht=(1-β)×ht-1+β×bst×ht-1
式中,当t>2时,wt-1和ht-1分别为第(t-1)帧跟踪得到的目标框的宽和高;当t=2时,wt-1和ht-1分别为第1帧中目标框的宽和高;β为设定的调整因子,bst为第t帧跟踪的最佳尺度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011392635.2A CN112330719B (zh) | 2020-12-02 | 2020-12-02 | 基于特征图分割和自适应融合的深度学习目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011392635.2A CN112330719B (zh) | 2020-12-02 | 2020-12-02 | 基于特征图分割和自适应融合的深度学习目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112330719A true CN112330719A (zh) | 2021-02-05 |
CN112330719B CN112330719B (zh) | 2024-02-27 |
Family
ID=74301342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011392635.2A Active CN112330719B (zh) | 2020-12-02 | 2020-12-02 | 基于特征图分割和自适应融合的深度学习目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112330719B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113223055A (zh) * | 2021-05-31 | 2021-08-06 | 华中科技大学 | 图像目标跟踪模型建立方法及图像目标跟踪方法 |
CN113284165A (zh) * | 2021-04-06 | 2021-08-20 | 深圳元戎启行科技有限公司 | 目标跟踪方法、装置、计算机设备和存储介质 |
CN113344932A (zh) * | 2021-06-01 | 2021-09-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113361519A (zh) * | 2021-05-21 | 2021-09-07 | 北京百度网讯科技有限公司 | 目标处理方法、目标处理模型的训练方法及其装置 |
CN113469337A (zh) * | 2021-06-29 | 2021-10-01 | 上海寒武纪信息科技有限公司 | 用于优化神经网络模型的编译方法及其相关产品 |
CN113808166A (zh) * | 2021-09-15 | 2021-12-17 | 西安电子科技大学 | 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法 |
CN114170233A (zh) * | 2021-12-09 | 2022-03-11 | 北京字跳网络技术有限公司 | 图像分割标签的生成方法、装置、电子设备及存储介质 |
CN114611685A (zh) * | 2022-03-08 | 2022-06-10 | 安谋科技(中国)有限公司 | 神经网络模型中的特征处理方法、介质、设备和程序产品 |
CN118334364A (zh) * | 2024-06-14 | 2024-07-12 | 江南大学 | 一种红外图像特征提取方法、装置及红外小目标跟踪方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN110728694A (zh) * | 2019-10-10 | 2020-01-24 | 北京工业大学 | 一种基于持续学习的长时视觉目标跟踪方法 |
CN110929696A (zh) * | 2019-12-16 | 2020-03-27 | 中国矿业大学 | 一种基于多模态注意与自适应融合的遥感图像语义分割方法 |
CN111028265A (zh) * | 2019-11-11 | 2020-04-17 | 河南理工大学 | 一种基于迭代法构建相关滤波响应的目标跟踪方法 |
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
CN111598925A (zh) * | 2020-05-15 | 2020-08-28 | 武汉卓目科技有限公司 | 基于eco算法和区域生长分割的视觉目标跟踪方法及装置 |
-
2020
- 2020-12-02 CN CN202011392635.2A patent/CN112330719B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN110728694A (zh) * | 2019-10-10 | 2020-01-24 | 北京工业大学 | 一种基于持续学习的长时视觉目标跟踪方法 |
CN111028265A (zh) * | 2019-11-11 | 2020-04-17 | 河南理工大学 | 一种基于迭代法构建相关滤波响应的目标跟踪方法 |
CN110929696A (zh) * | 2019-12-16 | 2020-03-27 | 中国矿业大学 | 一种基于多模态注意与自适应融合的遥感图像语义分割方法 |
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
CN111598925A (zh) * | 2020-05-15 | 2020-08-28 | 武汉卓目科技有限公司 | 基于eco算法和区域生长分割的视觉目标跟踪方法及装置 |
Non-Patent Citations (4)
Title |
---|
CHUANHAO LI等: "Partial tracking method based on siamese network", 《VISUAL COMPUTER》, vol. 37, no. 3, pages 587, XP037403175, DOI: 10.1007/s00371-020-01825-5 * |
XIONG CHANGZHEN等: "Dynamic weighted siamese network tracking algorithm", 《JOURNAL OF COMPUTER APPLICATIONS》, vol. 40, no. 8, pages 2214 - 2218 * |
安珊等: "基于生成对抗网络学习被遮挡特征的目标检测方法", 《控制与决策》, vol. 36, no. 05, pages 1199 - 1205 * |
赵玮瑄: "基于孪生网络的自适应目标跟踪方法", 《CNKI中国优秀硕士毕业论文全文库(信息科技辑)》, no. 2, pages 138 - 1307 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284165A (zh) * | 2021-04-06 | 2021-08-20 | 深圳元戎启行科技有限公司 | 目标跟踪方法、装置、计算机设备和存储介质 |
CN113361519A (zh) * | 2021-05-21 | 2021-09-07 | 北京百度网讯科技有限公司 | 目标处理方法、目标处理模型的训练方法及其装置 |
CN113361519B (zh) * | 2021-05-21 | 2023-07-28 | 北京百度网讯科技有限公司 | 目标处理方法、目标处理模型的训练方法及其装置 |
CN113223055B (zh) * | 2021-05-31 | 2022-08-05 | 华中科技大学 | 图像目标跟踪模型建立方法及图像目标跟踪方法 |
CN113223055A (zh) * | 2021-05-31 | 2021-08-06 | 华中科技大学 | 图像目标跟踪模型建立方法及图像目标跟踪方法 |
CN113344932B (zh) * | 2021-06-01 | 2022-05-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113344932A (zh) * | 2021-06-01 | 2021-09-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113469337A (zh) * | 2021-06-29 | 2021-10-01 | 上海寒武纪信息科技有限公司 | 用于优化神经网络模型的编译方法及其相关产品 |
CN113469337B (zh) * | 2021-06-29 | 2024-04-05 | 上海寒武纪信息科技有限公司 | 用于优化神经网络模型的编译方法及其相关产品 |
CN113808166A (zh) * | 2021-09-15 | 2021-12-17 | 西安电子科技大学 | 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法 |
CN114170233A (zh) * | 2021-12-09 | 2022-03-11 | 北京字跳网络技术有限公司 | 图像分割标签的生成方法、装置、电子设备及存储介质 |
CN114170233B (zh) * | 2021-12-09 | 2024-02-09 | 北京字跳网络技术有限公司 | 图像分割标签的生成方法、装置、电子设备及存储介质 |
CN114611685A (zh) * | 2022-03-08 | 2022-06-10 | 安谋科技(中国)有限公司 | 神经网络模型中的特征处理方法、介质、设备和程序产品 |
CN118334364A (zh) * | 2024-06-14 | 2024-07-12 | 江南大学 | 一种红外图像特征提取方法、装置及红外小目标跟踪方法 |
CN118334364B (zh) * | 2024-06-14 | 2024-10-18 | 江南大学 | 一种红外图像特征提取方法、装置及红外小目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112330719B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112330719B (zh) | 基于特征图分割和自适应融合的深度学习目标跟踪方法 | |
CN111354017B (zh) | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 | |
CN113705769B (zh) | 一种神经网络训练方法以及装置 | |
CN111583263B (zh) | 一种基于联合动态图卷积的点云分割方法 | |
Yun et al. | Focal loss in 3d object detection | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN110032925B (zh) | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN108399435B (zh) | 一种基于动静特征的视频分类方法 | |
US10776691B1 (en) | System and method for optimizing indirect encodings in the learning of mappings | |
CN110309835B (zh) | 一种图像局部特征提取方法及装置 | |
WO2016119076A1 (en) | A method and a system for face recognition | |
WO2021218470A1 (zh) | 一种神经网络优化方法以及装置 | |
CN110263855B (zh) | 一种利用共基胶囊投影进行图像分类的方法 | |
CN109785409B (zh) | 一种基于注意力机制的图像-文本数据融合方法和系统 | |
US20220215617A1 (en) | Viewpoint image processing method and related device | |
CN113095254A (zh) | 一种人体部位关键点的定位方法及系统 | |
CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 | |
CN118279566B (zh) | 一种针对小型物体的自动驾驶目标检测系统 | |
CN116563355A (zh) | 一种基于时空交互注意力机制的目标跟踪方法 | |
CN114066844A (zh) | 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法 | |
Masaki et al. | Multi-domain semantic-segmentation using multi-head model | |
CN116452599A (zh) | 基于轮廓的图像实例分割方法及系统 | |
CN112116626B (zh) | 一种基于柔性卷积的单目标跟踪方法 | |
CN114140524A (zh) | 一种多尺度特征融合的闭环检测系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |