CN112183675B - 一种基于孪生网络的针对低分辨率目标的跟踪方法 - Google Patents

一种基于孪生网络的针对低分辨率目标的跟踪方法 Download PDF

Info

Publication number
CN112183675B
CN112183675B CN202011247293.5A CN202011247293A CN112183675B CN 112183675 B CN112183675 B CN 112183675B CN 202011247293 A CN202011247293 A CN 202011247293A CN 112183675 B CN112183675 B CN 112183675B
Authority
CN
China
Prior art keywords
image
target
network
training
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011247293.5A
Other languages
English (en)
Other versions
CN112183675A (zh
Inventor
李迅
崔恒
张彦铎
周覃
王重九
尹健南
王司恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN202011247293.5A priority Critical patent/CN112183675B/zh
Publication of CN112183675A publication Critical patent/CN112183675A/zh
Application granted granted Critical
Publication of CN112183675B publication Critical patent/CN112183675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于孪生网络的针对低分辨率目标的跟踪方法,首先直接对多个低分辨率输入视频帧进行特征提取,并进行多维特征通道融合,接着,为了避免网络中产生零梯度而丢失视频的重要信息,采用参数线性纠正单元作为激活函数,采用更小的滤波器尺寸调整网络结构以进行多层映射;最后,在网络末端添加反卷积层上采样得到重建视频帧。通过对多个标注好的视频帧序列进行预处理构建训练样本,构建跟踪孪生网络,定义损失函数并进行训练,得到训练后跟踪孪生网络;组合重建超分视频帧的精简卷积神经网络和跟踪孪生网络,对图像序列进行跟踪,得到相似度分数矩阵,通过矩阵中最大值计算出目标的位置坐标。本发明提高了在低分辨率环境下的跟踪精度。

Description

一种基于孪生网络的针对低分辨率目标的跟踪方法
技术领域
本发明涉及深度学习和计算机视觉技术,尤其涉及一种基于孪生网络的针对低分辨率目标的跟踪方法。
背景技术
随着科学技术的发展,基于视频帧的跟踪技术在现实社会中取得了广泛的运用,其在人机交互,智能监控,机器人视觉和辅助驾驶系统(ADSD)等领域取得了较好的成果。在计算机视觉领域,基于视频帧的目标跟踪技术一直都是研究的难点。目标跟踪就是在缺少目标先验知识的前提下,在视频序列的第一帧给定目标位置与目标尺寸,并在后续的视频帧中确定待跟踪目标的位置与尺寸,进一步应用在各个领域中,当前的目标跟踪算法主要分为两类:生成模型方法和判别模型方法:生成模型方法是在当前帧中对目标区域进行建模,在下一帧中寻找与模型最相似的区域,该区域就是预测位置。从而进行跟踪。此类方法经常使用卡尔曼滤波、粒子滤波、均值漂移等经典算法;判别模型方法是近年来的主流方法,把单目标跟踪问题转化为一个目标前景与背景环境的二分类问题,提取图像的特征来进行跟踪。此类方法又细分为传统相关滤波,结合了深度特征的相关滤波和仅依赖深度网络的跟踪方法。
传统相关滤波器的算法利用循环相互的特性在傅里叶域中进行运算,此类算法通过更新过滤器的权重从而实现在线跟踪;结合了深度特征的相关滤波跟踪算法将相关滤波算法与深度学习相结合,大幅度提升了跟踪算法的表现;基于深度学习的算法,可以利用强大的深层特性,并且离线训练,跟踪过程不更新模型,从而进行跟踪。如Bertinetto等人提出的SiamFC方法具有很高的实用性。该算法训练一个深度网络,以在初始离线阶段解决更一般的相似性学习问题,然后在跟踪阶段简单进行在线评估。在速度和精度方面都取得了显著的提高,但是由于用于孪生网络框架的特征提取网络都是比较浅层的网络,如AlexNet等。当目标发生剧烈高速运动时,产生的低分辨率视频帧使得被跟踪目标变得不易分辨,浅层网络难以提取到目标的有效特征,使模型极易发生漂移,导致跟踪效果变差,甚至跟踪失败。对于被跟踪目标物体因快速移动产生的低分辨率问题,SiamFC缺少行之有效的调节模块,导致模型的表征能力下降。
近年来,由于超分和跟踪技术在深度学习方向上的发展,将超分技术应用到跟踪领域变成可能。首先,卷积神经网络已经运用到超分重构算法上并取得良好的效果。而孪生网络由于其稳定性、准确性和速度快的优势,在跟踪领域应用很广泛。由于卷积神经网络和孪生网络的优势,我们将超分卷积网络应用到跟踪系统中用以提高对低分辨率目标跟踪的性能。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于孪生网络的针对低分辨率目标的跟踪方法,提高了跟踪器对低分辨率目标跟踪的性能,通过超分卷积重构网络和孪生网络有效结合,提高跟踪器对低分辨率目标跟踪时的精读及鲁棒性,从而有效解决现有技术中存在的问题。。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于孪生网络的针对低分辨率目标的跟踪方法,该方法包括以下步骤:
步骤1:建立网络结构,先将低分辨率视频的当前帧、当前帧的前两帧以及当前帧的后两帧,共五帧作为系统的输入量,表示为XT,索引T∈{t-2,t-1,t,t+1,t+2},其中的t表示当前时刻,并用Yt表示重建的当前视频帧;然后将输入量XT通过特征提取及通道融合法获取到融合输出量,记为H1,然后将H1通过特征映射法获取到映射后的输出量,记为H2,再将H2通过反卷积重建法得到网络结构中重建的当前视频帧Yt
步骤2:训练网络结构,将训练集记为{Xt (k),Zt (k)},其中Xt (k)表示t时刻第k个视频样本的低分辨率视频帧训练子图像,Zt (k)表示t时刻第k个视频样本的原始全分辨视频帧训练子图像,N表示训练样本个数,Xt (k),Zt (k)的缩放比例因子s=2,3,4;用Yt (k)表示重建得到的高分辨率视频帧子图像,采用均方差作为目标函数,最小化Yt (k)与Zt (k)之间的误差,并估计各网络结构中各层的网络参数θ,用随机梯度下降法对网络参数θ进行更新;为了快速得到不同缩放因子s下的重建模型,先从零开始训练s=3的模型A,再相应地微调网络末端的反卷积层的参数,而保持所有卷积层参数不变,分别得到s=2和s=4的模型B和模型C;
步骤3:利用训练得到的模型A、模型B以及模型C对相应缩放因子s下的低分辨率视频帧XT进行超分辨率重建,最终得到对应缩放因子s下的重建的当前视频帧Yt
步骤4:通过多个视频帧序列构建训练样本,通过人工标记法对序列中的图像帧标记目标矩形框;
步骤5:训练样本中每幅图像根据目标区域的图像尺寸进行截取得到目标区域样本,训练样本中每幅图像根据搜索区域的图像尺寸进行截取得到搜索区域样本,将搜索区域样本中每幅图像的像素点标记出是否为目标位置;
步骤6:通过目标区域分支以及搜索区域分支构建孪生网络,根据相似度分数矩阵构建孪生网络的损失函数,通过目标区域样本以及搜索区域样本进行训练得到训练后孪生网络;
步骤7:将待跟踪图像序列通过训练后的重建超分精简卷积神经网络以及训练后跟踪孪生网络进行图像跟踪,得到待跟踪图像序列的目标坐标位置。
进一步地,本发明的所述步骤1中,特征提取及通道融合法的具体步骤为:
(1):首先采用滤波器对输入量XT进行卷积提取特征,表示成高维向量,记为H1T,H1T=W1T*XT+b1T,并采用参数线性纠正单元函数对H1T进行非线性操作:H1T=max(H1T,0)+a1Tmin(0,H1T),其中*表示卷积操作,W1T表示对应索引T的大小为f1T*f1T*c1T*n1T的滤波器,f1T表示滤波器尺寸,c1T表示输入XT的通道数,n1T表示滤波器个数,b1T表示对应索引T的1*n1T的偏置项,a1T表示H1T的负数部分的系数,该层操作记为Conv(f1T*f1T*c1T*n1T)+PReLU,其中PReLU表示参数线性纠正单元函数;
(2):然后采用通道融合层对上述各个索引的H1T进行融合,融合后的输出记为H1,表示为:H1=[H1t-2,H1t-1,H1t,H1t+1,Ht+2],其中[]表示将H1t在通道维度上进行连接,即经过第一部分特征提取及通道融合层后得到的H1包含了所有输入的n1T维特征。
进一步地,本发明的所述步骤1中,特征映射法的具体步骤为:
(1):首先利用通道收缩模块对融合后的输出量H1进行降维,降维后的输出记为H2s,H2s=max(W2S*H1+b2s,0)+a2Smin(0,W2S*H1+b2s),其中,W2S表示大小为f2SX f2S X c2SX n2S的滤波器,b2s表示1Xn2S的偏置项,a2S表示W2S*H1+b2s的负数部分的系数,该层操作记为Conv(f2SX f2S X c2SX n2S)+PReLU,其中PReLU表示参数线性纠正单元函数;
(2):然后采用m个大小为f2MX f2MX c2MX n2M的滤波器W2M和1Xn2M的偏置项b2M对H2S进行多级映射,并通过PReLU函数进行非线性变换得到特征向量,得到的特征向量记为H2M,该层操作记为m*[Conv(f2MX f2MX c2MX n2M)+PReLU];
(3):接着采用通道扩展模块对H2M进行升维,升维后的输出记为H2,H2=max(W2E*H2M+b2E,0)+a2Emin(0,W2E*H2M+b2E),其中,W2E表示大小为f2EX f2E X c2EX n2E的滤波器,b2E表示1Xn2E的偏置项,a2E表示W2E*H2M+b2E的负数部分的系数,该层操作记为Conv(f2E*f2E*c2E*n2E)+PReLU,其中PReLU表示参数线性纠正单元函数。
进一步地,本发明的所述步骤1中,反卷积重建法的具体方法为:
对升维后的输出H2反卷积得到网络结构中重建的当前视频帧Yt,Yt=WD3 H2+bD3其中,/>表示反卷积操作,视为卷积操作的逆运算,WD3和bD3分别表示大小为fD3*fD3*cD3*nD3的反卷积滤波器和1XnD3维向量的偏置项,该层操作记为:Deconv(fD3*fD3*cD3*nD3)。
进一步地,本发明的所述步骤4中的具体方法为:
图像序列的数量为M,每个序列皆包含N幅图像,所以训练样本中图像帧的数量为:M*N幅;对第i个视频帧序列中第j幅图像人工标记其目标矩形框为:(xi,j,yi,j,wi,j,hi,j),其中(xi,j,yi,j)表示第i个视频帧序列中第j幅图像的目标矩形框左上角的坐标,(wi,j,hi,j)表示第i个图像序列中第j幅图像的目标矩形框的尺寸,(xi,j+wi,j/2,yi,j+hi,j/2)表示第i个图像序列中第j幅图像的目标矩形框的中心坐标。
进一步地,本发明的所述步骤5中的具体方法为:
目标区域的图像尺寸为图像的长、宽,且均为p1;
根据目标区域的图像尺寸进行截取的方法为:以训练样本中每幅图像的目标矩形框为中心,截取长、宽均为p1的图像作为目标区域样本的图像;
截取长、宽均为p1的图像的方法为:训练样本中每幅图像即第i个图像序列中第j幅图像,截取出来的图像矩形框的中心坐标为:(xi,j+wi,j/2,yi,j+hi,j/2),左上角坐标位置为:(xi,j+(wi,j-p1)/2,yi,j+(hi,j-p1)/2),图像矩形框的长、宽均为p1
目标区域样本的获取方法为:M个图像序列,每个图像序列有N幅长、宽均为p1的图像;所述目标区域样本定义为所述目标区域样本中第i个序列中第j幅图像为/>
搜索区域的图像尺寸为图像的长、宽,且均为p2,p2>p1
根据搜索区域的图像尺寸进行截取的方法为:以训练样本中每幅图像的目标矩形框为中心,截取长、宽均为p2的图像作为搜索区域样本的图像;所述截取长、宽均为p2的图像的具体方法为:训练样本中每幅图像即第i个图像序列中第j幅图像,截取出来的图像矩形框的中心坐标为:(xi,j+wi,j/2,yi,j+hi,j/2),左上角坐标位置为:(xi,j+(wi,j-p2)/2,yi,j+(hi,j-p2)/2),右下角坐标为:(xi,j+(wi,j+p2)/2,yi,j+(hi,j+p2)/2),图像矩形框的长,度均为p2;若有以下情况之一:(xi,j+(wi,j-p2)/2<0,yi,j+(hi,j-p2)/2<0,xi,j+(wi,j+p2)/2>=wi,j,yi,j+(hi,j+p2)/2>=hi,j;则图像矩形框超出训练样本中图像的边界,超出部分用图像均值像素;
搜索区域样本的方法为:M个图像序列,每个图像序列有N幅长、宽均为p2的图像;所述目标区域样本定义为所述目标区域样本中第i个序列中第j幅图像为/>对于搜索区域样本中每幅图像均有p2 2个像素点,将每个像素点标记出是否为目标位置,其计算公式为:
其中c表示搜索区域图像中目标的中心点,u表示每个要标记的位置;R表示以c为圆心画圆的半径;u与c的距离超过R,则标记为-1,u表示负样本,不是目标位置,否则标记为+1,u表示正样本,是目标位置。
进一步地,本发明的所述步骤6中的具体方法为:
所述目标区域分支由卷积层、最大池化层组成,所述目标区域分支的输出为目标区域图像的特征向量:所述搜索区域分支由卷积层、最大池化层组成,所述搜索区域分支的输出为搜索区域图像的特征向量;
搜索区域分支在网络结构上完全复制目标区域分支网络结构;在训练过程中,搜索区域分支网络每一层的weight值保持和目标区域分支网络相同层的weight值一样;
所述目标区域样本中第i图像序列为:
所述搜索区域样本中第i图像序列为:
训练第i图像序列时,依次将作为目标区域分支的输入;把/>作为目标区域分支的输入,得到尺寸为s2,通道数为c1的卷积核;再依次将作为搜索区域分支的输入进行训练,每个样本经过搜索区域分支后,得到尺寸为s2,通道数也为c1的卷积核;将两个卷积核进行互相关操作,得到尺寸为L1的相似度分数矩阵;即将每个/> 作为一个输入对,其中0<y≤N;都可以得到一个相似度分数矩阵;接着依次将/>作为目标区域分支的输入,每次更换目标区域分支输入时,重复上一步骤操作:即对于每个图像序列,得到N2个相似度分数矩阵,孪生网络用M个图像序列进行训练,得到M*N2个相似度分数矩阵;进一步通过相似度矩阵得到目标在原图像的坐标:若有一个相似度分数矩阵Matrix1,找到矩阵中值最大的点,将Matrix1经过插值操作扩展到尺寸为L2的矩阵Matrix2,这个点在Matrix2中对应的坐标即为目标的位置;训练过程中,损失函数使用log损失;
相似度分数矩阵上每个点单独的损失函数为:
l(v1,v2)=log(1+exp(-v1·v2))
其中,v2是Matrixi,x,y单个点的得分,如果计算出的这个点的v2越大,则说明这个点越可能是目标,而v1是该点位置对应的标签,且v1∈{+1,-1},如果是正样本,v1=+1,否则v1=-1;一个点如果标记为v1=+1,则这个点为目标,若该点训练时的得分v2比较大,损失函数的值l(v1,v2)也会变大,从而反向传播调整网络的weight值;求出矩阵单个点的损失函数后,则相似度分数矩阵Matrix1的整体损失函数用全部点损失的均值表示:
其中,D表示整个矩阵,u表示矩阵上的每个点;
由于公式会生成M*N2个相似度分数矩阵Matrix1,则会得到M*N2个L(y,v),经加和后,得到最终的损失函数Lall,通过梯度下降法最小化损失函数Lall来进行训练,最终得到跟踪孪生网络的weight。
进一步地,本发明的所述的步骤7中将待跟踪图像序列通过训练后的重建超分精简卷积神经网络以及训练后跟踪孪生网络进行图像跟踪的方法为:
所述待跟踪图像序列为:{η1,η2,η3...ηp};待跟踪图像序列中第1帧图像为η1,经过训练后重建超分精简卷积神经网络处理后,输入至训练后孪生网络中目标区域分支的输入图像;待跟踪图像序列中剩余图像用ηi表示,其中i'∈[2,p];
ηi’经过重建超分精简卷积神经网络处理后,进一步输入至训练后孪生网络中搜索区域分支的输入图像,ηi’通过训练后孪生网络得到ηi’的相似度分数矩阵,并搜索出ηi’的相似度分数矩阵中最大值,通过步骤6中的插值操作,得到待跟踪图像序列中目标坐标位置。
本发明产生的有益效果是:本发明提供了一种基于孪生网络的针对低分辨率目标的跟踪方法,通过结合卷积超分重构网络和孪生网络,提高了在低分辨率场景下的跟踪精度,并在实际的低分辨率场景中表现出良好的鲁棒性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例的基于孪生网络的针对低分辨率目标的跟踪方法,该方法包括以下步骤:
步骤1:建立网络结构,先将低分辨率视频的当前帧、当前帧的前两帧以及当前帧的后两帧,共五帧作为系统的输入量,表示为XT,索引T∈{t-2,t-1,t,t+1,t+2},其中的t表示当前时刻,并用Yt表示重建的当前视频帧;然后将输入量XT通过特征提取及通道融合法获取到融合输出量,记为H1,然后将H1通过特征映射法获取到映射后的输出量,记为H2,再将H2通过反卷积重建法得到网络结构中重建的当前视频帧Yt
所述步骤1中,特征提取及通道融合法的具体步骤为:
(1):首先采用滤波器对输入量XT进行卷积提取特征,表示成高维向量,记为H1T,H1T=W1T*XT+b1T,并采用参数线性纠正单元函数对H1T进行非线性操作:H1T=max(H1T,0)+a1Tmin(0,H1T),其中*表示卷积操作,W1T表示对应索引T的大小为f1T*f1T*c1T*n1T的滤波器,f1T表示滤波器尺寸,c1T表示输入XT的通道数,n1T表示滤波器个数,b1T表示对应索引T的1*n1T的偏置项,a1T表示H1T的负数部分的系数,该层操作记为Conv(f1T*f1T*c1T*n1T)+PReLU,其中PReLU表示参数线性纠正单元函数;
(2):然后采用通道融合层对上述各个索引的H1T进行融合,融合后的输出记为H1,表示为:H1=[H1t-2,H1t-1,H1t,H1t+1,Ht+2],其中[]表示将H1t在通道维度上进行连接,即经过第一部分特征提取及通道融合层后得到的H1包含了所有输入的n1T维特征。
所述步骤1中,特征映射法的具体步骤为:
(1):首先利用通道收缩模块对融合后的输出量H1进行降维,降维后的输出记为H2s,H2s=max(W2S*H1+b2s,0)+a2Smin(0,W2S*H1+b2s),其中,W2S表示大小为f2SX f2S X c2SX n2S的滤波器,b2s表示1Xn2S的偏置项,a2S表示W2S*H1+b2s的负数部分的系数,该层操作记为Conv(f2SX f2S X c2SX n2S)+PReLU,其中PReLU表示参数线性纠正单元函数;
(2):然后采用m个大小为f2MX f2MX c2MX n2M的滤波器W2M和1Xn2M的偏置项b2M对H2S进行多级映射,并通过PReLU函数进行非线性变换得到特征向量,得到的特征向量记为H2M,该层操作记为m*[Conv(f2MX f2MX c2MX n2M)+PReLU];
(3):接着采用通道扩展模块对H2M进行升维,升维后的输出记为H2,H2=max(W2E*H2M+b2E,0)+a2Emin(0,W2E*H2M+b2E),其中,W2E表示大小为f2EX f2E X c2EX n2E的滤波器,b2E表示1Xn2E的偏置项,a2E表示W2E*H2M+b2E的负数部分的系数,该层操作记为Conv(f2E*f2E*c2E*n2E)+PReLU,其中PReLU表示参数线性纠正单元函数。
所述步骤1中,反卷积重建法的具体方法为:
对升维后的输出H2反卷积得到网络结构中重建的当前视频帧Yt,Yt=WD3 H2+bD3其中,/>表示反卷积操作,视为卷积操作的逆运算,WD3和bD3分别表示大小为fD3*fD3*cD3*nD3的反卷积滤波器和1XnD3维向量的偏置项,该层操作记为:Deconv(fD3*fD3*cD3*nD3)。
步骤2:训练网络结构,将训练集记为{Xt (k),Zt (k)},其中Xt (k)表示t时刻第k个视频样本的低分辨率视频帧训练子图像,Zt (k)表示t时刻第k个视频样本的原始全分辨视频帧训练子图像,N表示训练样本个数,Xt (k),Zt (k)的缩放比例因子s=2,3,4;用Yt (k)表示重建得到的高分辨率视频帧子图像,采用均方差作为目标函数,最小化Yt (k)与Zt (k)之间的误差,并估计各网络结构中各层的网络参数θ,用随机梯度下降法对网络参数θ进行更新;为了快速得到不同缩放因子s下的重建模型,先从零开始训练s=3的模型A,再相应地微调网络末端的反卷积层的参数,而保持所有卷积层参数不变,分别得到s=2和s=4的模型B和模型C;
步骤3:利用训练得到的模型A、模型B以及模型C对相应缩放因子s下的低分辨率视频帧XT进行超分辨率重建,最终得到对应缩放因子s下的重建的当前视频帧Yt
步骤4:通过多个视频帧序列构建训练样本,通过人工标记法对序列中的图像帧标记目标矩形框;
所述步骤4中的具体方法为:
图像序列的数量为M,每个序列皆包含N幅图像,所以训练样本中图像帧的数量为:M*N幅;对第i个视频帧序列中第j幅图像人工标记其目标矩形框为:(xi,j,yi,j,wi,j,hi,j),其中(xi,j,yi,j)表示第i个视频帧序列中第j幅图像的目标矩形框左上角的坐标,(wi,j,hi,j)表示第i个图像序列中第j幅图像的目标矩形框的尺寸,(xi,j+wi,j/2,yi,j+hi,j/2)表示第i个图像序列中第j幅图像的目标矩形框的中心坐标。
步骤5:训练样本中每幅图像根据目标区域的图像尺寸进行截取得到目标区域样本,训练样本中每幅图像根据搜索区域的图像尺寸进行截取得到搜索区域样本,将搜索区域样本中每幅图像的像素点标记出是否为目标位置;
所述步骤5中的具体方法为:
目标区域的图像尺寸为图像的长、宽,且均为p1;
根据目标区域的图像尺寸进行截取的方法为:以训练样本中每幅图像的目标矩形框为中心,截取长、宽均为p1的图像作为目标区域样本的图像;
截取长、宽均为p1的图像的方法为:训练样本中每幅图像即第i个图像序列中第j幅图像,截取出来的图像矩形框的中心坐标为:(xi,j+wi,j/2,yi,j+hi,j/2),左上角坐标位置为:(xi,j+(wi,j-p1)/2,yi,j+(hi,j-p1)/2),图像矩形框的长、宽均为p1
目标区域样本的获取方法为:M个图像序列,每个图像序列有N幅长、宽均为p1的图像;所述目标区域样本定义为所述目标区域样本中第i个序列中第j幅图像为/>
搜索区域的图像尺寸为图像的长、宽,且均为p2,p2>p1
根据搜索区域的图像尺寸进行截取的方法为:以训练样本中每幅图像的目标矩形框为中心,截取长、宽均为p2的图像作为搜索区域样本的图像;所述截取长、宽均为p2的图像的具体方法为:训练样本中每幅图像即第i个图像序列中第j幅图像,截取出来的图像矩形框的中心坐标为:(xi,j+wi,j/2,yi,j+hi,j/2),左上角坐标位置为:(xi,j+(wi,j-p2)/2,yi,j+(hi,j-p2)/2),右下角坐标为:(xi,j+(wi,j+p2)/2,yi,j+(hi,j+p2)/2),图像矩形框的长,度均为p2;若有以下情况之一:(xi,j+(wi,j-p2)/2<0,yi,j+(hi,j-p2)/2<0,xi,j+(wi,j+p2)/2>=wi,j,yi,j+(hi,j+p2)/2>=hi,j;则图像矩形框超出训练样本中图像的边界,超出部分用图像均值像素;
搜索区域样本的方法为:M个图像序列,每个图像序列有N幅长、宽均为p2的图像;所述目标区域样本定义为所述目标区域样本中第i个序列中第j幅图像为/>对于搜索区域样本中每幅图像均有p2 2个像素点,将每个像素点标记出是否为目标位置,其计算公式为:
其中c表示搜索区域图像中目标的中心点,u表示每个要标记的位置;R表示以c为圆心画圆的半径;u与c的距离超过R,则标记为-1,u表示负样本,不是目标位置,否则标记为+1,u表示正样本,是目标位置。
步骤6:通过目标区域分支以及搜索区域分支构建孪生网络,根据相似度分数矩阵构建孪生网络的损失函数,通过目标区域样本以及搜索区域样本进行训练得到训练后孪生网络;
所述步骤6中的具体方法为:
所述目标区域分支由卷积层、最大池化层组成,所述目标区域分支的输出为目标区域图像的特征向量:所述搜索区域分支由卷积层、最大池化层组成,所述搜索区域分支的输出为搜索区域图像的特征向量;
搜索区域分支在网络结构上完全复制目标区域分支网络结构;在训练过程中,搜索区域分支网络每一层的weight值保持和目标区域分支网络相同层的weight值一样;
所述目标区域样本中第i图像序列为:
所述搜索区域样本中第i图像序列为:
训练第i图像序列时,依次将作为目标区域分支的输入;把/>作为目标区域分支的输入,得到尺寸为s2,通道数为c1的卷积核;再依次将作为搜索区域分支的输入进行训练,每个样本经过搜索区域分支后,得到尺寸为s2,通道数也为c1的卷积核;将两个卷积核进行互相关操作,得到尺寸为L1的相似度分数矩阵;即将每个/> 作为一个输入对,其中0<y≤N;都可以得到一个相似度分数矩阵;接着依次将/>作为目标区域分支的输入,每次更换目标区域分支输入时,重复上一步骤操作:即对于每个图像序列,得到N2个相似度分数矩阵,孪生网络用M个图像序列进行训练,得到M*N2个相似度分数矩阵;进一步通过相似度矩阵得到目标在原图像的坐标:若有一个相似度分数矩阵Matrix1,找到矩阵中值最大的点,将Matrix1经过插值操作扩展到尺寸为L2的矩阵Matrix2,这个点在Matrix2中对应的坐标即为目标的位置;训练过程中,损失函数使用log损失;
相似度分数矩阵上每个点单独的损失函数为:
l(v1,v2)=log(1+exp(-v1·v2))
其中,v2是Matrixi,x,y单个点的得分,如果计算出的这个点的v2越大,则说明这个点越可能是目标,而v1是该点位置对应的标签,且v1∈{+1,-1},如果是正样本,v1=+1,否则v1=-1;一个点如果标记为v1=+1,则这个点为目标,若该点训练时的得分v2比较大,损失函数的值l(v1,v2)也会变大,从而反向传播调整网络的weight值;求出矩阵单个点的损失函数后,则相似度分数矩阵Matrix1的整体损失函数用全部点损失的均值表示:
其中,D表示整个矩阵,u表示矩阵上的每个点;
由于公式会生成M*N2个相似度分数矩阵Matrix1,则会得到M*N2个L(y,v),经加和后,得到最终的损失函数Lall,通过梯度下降法最小化损失函数Lall来进行训练,最终得到跟踪孪生网络的weight。
步骤7:将待跟踪图像序列通过训练后的重建超分精简卷积神经网络以及训练后跟踪孪生网络进行图像跟踪,得到待跟踪图像序列的目标坐标位置。
所述的步骤7中将待跟踪图像序列通过训练后的重建超分精简卷积神经网络以及训练后跟踪孪生网络进行图像跟踪的方法为:
所述待跟踪图像序列为:{η1,η2,η3...ηp};待跟踪图像序列中第1帧图像为η1,经过训练后重建超分精简卷积神经网络处理后,输入至训练后孪生网络中目标区域分支的输入图像;待跟踪图像序列中剩余图像用ηi表示,其中i'∈[2,p];
ηi’经过重建超分精简卷积神经网络处理后,进一步输入至训练后孪生网络中搜索区域分支的输入图像,ηi’通过训练后孪生网络得到ηi’的相似度分数矩阵,并搜索出ηi’的相似度分数矩阵中最大值,通过步骤6中的插值操作,得到待跟踪图像序列中目标坐标位置。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (7)

1.一种基于孪生网络的针对低分辨率目标的跟踪方法,其特征在于,该方法包括以下步骤:
步骤1:建立网络结构,先将低分辨率视频的当前帧、当前帧的前两帧以及当前帧的后两帧,共五帧作为系统的输入量,表示为XT,索引T∈{t-2,t-1,t,t+1,t+2},其中的t表示当前时刻,并用Yt表示重建的当前视频帧;然后将输入量XT通过特征提取及通道融合法获取到融合输出量,记为H1,然后将H1通过特征映射法获取到映射后的输出量,记为H2,再将H2通过反卷积重建法得到网络结构中重建的当前视频帧Yt
步骤2:训练网络结构,将训练集记为{Xt (k),Zt (k)},其中Xt (k)表示t时刻第k个视频样本的低分辨率视频帧训练子图像,Zt (k)表示t时刻第k个视频样本的原始全分辨视频帧训练子图像,N表示训练样本个数,Xt (k),Zt (k)的缩放比例因子s=2,3,4;用Yt (k)表示重建得到的高分辨率视频帧子图像,采用均方差作为目标函数,最小化Yt (k)与Zt (k)之间的误差,并估计各网络结构中各层的网络参数θ,用随机梯度下降法对网络参数θ进行更新;为了快速得到不同缩放因子s下的重建模型,先从零开始训练s=3的模型A,再相应地微调网络末端的反卷积层的参数,而保持所有卷积层参数不变,分别得到s=2和s=4的模型B和模型C;
步骤3:利用训练得到的模型A、模型B以及模型C对相应缩放因子s下的低分辨率视频帧XT进行超分辨率重建,最终得到对应缩放因子s下的重建的当前视频帧Yt
步骤4:通过多个视频帧序列构建训练样本,通过人工标记法对序列中的图像帧标记目标矩形框;
步骤5:训练样本中每幅图像根据目标区域的图像尺寸进行截取得到目标区域样本,训练样本中每幅图像根据搜索区域的图像尺寸进行截取得到搜索区域样本,将搜索区域样本中每幅图像的像素点标记出是否为目标位置;
所述步骤5中的具体方法为:
目标区域的图像尺寸为图像的长、宽,且均为p1;
根据目标区域的图像尺寸进行截取的方法为:以训练样本中每幅图像的目标矩形框为中心,截取长、宽均为p1的图像作为目标区域样本的图像;
截取长、宽均为p1的图像的方法为:训练样本中每幅图像即第i个图像序列中第j幅图像,截取出来的图像矩形框的中心坐标为:(xi,j+wi,j/2,yi,j+hi,j/2),左上角坐标位置为:(xi,j+(wi,j-p1)/2,yi,j+(hi,j-p1)/2),图像矩形框的长、宽均为p1
目标区域样本的获取方法为:M个图像序列,每个图像序列有N幅长、宽均为p1的图像;所述目标区域样本定义为所述目标区域样本中第i个序列中第j幅图像为/>
搜索区域的图像尺寸为图像的长、宽,且均为p2,p2>p1
根据搜索区域的图像尺寸进行截取的方法为:以训练样本中每幅图像的目标矩形框为中心,截取长、宽均为p2的图像作为搜索区域样本的图像;所述截取长、宽均为p2的图像的具体方法为:训练样本中每幅图像即第i个图像序列中第j幅图像,截取出来的图像矩形框的中心坐标为:(xi,j+wi,j/2,yi,j+hi,j/2),左上角坐标位置为:(xi,j+(wi,j-p2)/2,yi,j+(hi,j-p2)/2),右下角坐标为:(xi,j+(wi,j+p2)/2,yi,j+(hi,j+p2)/2),图像矩形框的长、宽均为p2;若有以下情况之一:(xi,j+(wi,j-p2)/2<0,yi,j+(hi,j-p2)/2<0,xi,j+(wi,j+p2)/2>=wi,j,yi,j+(hi,j+p2)/2>=hi,j;则图像矩形框超出训练样本中图像的边界,超出部分用图像均值像素;
搜索区域样本的方法为:M个图像序列,每个图像序列有N幅长、宽均为p2的图像;所述目标区域样本定义为所述目标区域样本中第i个序列中第j幅图像为/>对于搜索区域样本中每幅图像均有p2 2个像素点,将每个像素点标记出是否为目标位置,其计算公式为:
其中c表示搜索区域图像中目标的中心点,u表示每个要标记的位置;R表示以c为圆心画圆的半径;u与c的距离超过R,则标记为-1,u表示负样本,不是目标位置,否则标记为+1,u表示正样本,是目标位置;
步骤6:通过目标区域分支以及搜索区域分支构建孪生网络,根据相似度分数矩阵构建孪生网络的损失函数,通过目标区域样本以及搜索区域样本进行训练得到训练后孪生网络;
步骤7:将待跟踪图像序列通过训练后的重建超分精简卷积神经网络以及训练后跟踪孪生网络进行图像跟踪,得到待跟踪图像序列的目标坐标位置。
2.根据权利要求1所述的基于孪生网络的针对低分辨率目标的跟踪方法,其特征在于,所述步骤1中,特征提取及通道融合法的具体步骤为:
(1):首先采用滤波器对输入量XT进行卷积提取特征,表示成高维向量,记为H1T,H1T=W1T*XT+b1T,并采用参数线性纠正单元函数对H1T进行非线性操作:H1T=max(H1T,0)+a1T min(0,H1T),其中*表示卷积操作,W1T表示对应索引T的大小为f1T*f1T*c1T*n1T的滤波器,f1T表示滤波器尺寸,c1T表示输入XT的通道数,n1T表示滤波器个数,b1T表示对应索引T的1*n1T的偏置项,a1T表示H1T的负数部分的系数,该层操作记为Conv(f1T*f1T*c1T*n1T)+PReLU,其中PReLU表示参数线性纠正单元函数;
(2):然后采用通道融合层对上述各个索引的H1T进行融合,融合后的输出记为H1,表示为:H1=[H1t-2,H1t-1,H1t,H1t+1,Ht+2],其中[]表示将H1t在通道维度上进行连接,即经过第一部分特征提取及通道融合层后得到的H1包含了所有输入的n1T维特征。
3.根据权利要求2所述的基于孪生网络的针对低分辨率目标的跟踪方法,其特征在于,所述步骤1中,特征映射法的具体步骤为:
(1):首先利用通道收缩模块对融合后的输出量H1进行降维,降维后的输出记为H2s,H2s=max(W2S*H1+b2s,0)+a2Smin(0,W2S*H1+b2s),其中,W2S表示大小为f2SX f2S X c2SX n2S的滤波器,b2s表示1Xn2S的偏置项,a2S表示W2S*H1+b2s的负数部分的系数,该层操作记为Conv(f2SXf2S X c2SX n2S)+PReLU,其中PReLU表示参数线性纠正单元函数;
(2):然后采用m个大小为f2MX f2MX c2MX n2M的滤波器W2M和1Xn2M的偏置项b2M对H2S进行多级映射,并通过PReLU函数进行非线性变换得到特征向量,得到的特征向量记为H2M,该层操作记为m*[Conv(f2MX f2MX c2MX n2M)+PReLU];
(3):接着采用通道扩展模块对H2M进行升维,升维后的输出记为H2,H2=max(W2E*H2M+b2E,0)+a2Emin(0,W2E*H2M+b2E),其中,W2E表示大小为f2EX f2E X c2EX n2E的滤波器,b2E表示1Xn2E的偏置项,a2E表示W2E*H2M+b2E的负数部分的系数,该层操作记为Conv(f2E*f2E*c2E*n2E)+PReLU,其中PReLU表示参数线性纠正单元函数。
4.根据权利要求3所述的基于孪生网络的针对低分辨率目标的跟踪方法,其特征在于,所述步骤1中,反卷积重建法的具体方法为:
对升维后的输出H2反卷积得到网络结构中重建的当前视频帧Yt 其中,/>表示反卷积操作,视为卷积操作的逆运算,WD3和bD3分别表示大小为fD3*fD3*cD3*nD3的反卷积滤波器和1XnD3维向量的偏置项,该层操作记为:Deconv(fD3*fD3*cD3*nD3)。
5.根据权利要求1所述的基于孪生网络的针对低分辨率目标的跟踪方法,其特征在于,所述步骤4中的具体方法为:
图像序列的数量为M,每个序列皆包含N幅图像,所以训练样本中图像帧的数量为:M*N幅;对第i个视频帧序列中第j幅图像人工标记其目标矩形框为:(xi,j,yi,j,wi,j,hi,j),其中(xi,j,yi,j)表示第i个视频帧序列中第j幅图像的目标矩形框左上角的坐标,(wi,j,hi,j)表示第i个图像序列中第j幅图像的目标矩形框的尺寸,(xi,j+wi,j/2,yi,j+hi,j/2)表示第i个图像序列中第j幅图像的目标矩形框的中心坐标。
6.根据权利要求1所述的基于孪生网络的针对低分辨率目标的跟踪方法,其特征在于,所述步骤6中的具体方法为:
所述目标区域分支由卷积层、最大池化层组成,所述目标区域分支的输出为目标区域图像的特征向量:所述搜索区域分支由卷积层、最大池化层组成,所述搜索区域分支的输出为搜索区域图像的特征向量;
搜索区域分支在网络结构上完全复制目标区域分支网络结构;在训练过程中,搜索区域分支网络每一层的weight值保持和目标区域分支网络相同层的weight值一样;
所述目标区域样本中第i图像序列为:
所述搜索区域样本中第i图像序列为:
训练第i图像序列时,依次将作为目标区域分支的输入;把/>作为目标区域分支的输入,得到尺寸为s2,通道数为c1的卷积核;再依次将作为搜索区域分支的输入进行训练,每个样本经过搜索区域分支后,得到尺寸为s2,通道数也为c1的卷积核;将两个卷积核进行互相关操作,得到尺寸为L1的相似度分数矩阵;即将每个/> 作为一个输入对,其中0<y≤N;都可以得到一个相似度分数矩阵;接着依次将/>作为目标区域分支的输入,每次更换目标区域分支输入时,重复上一步骤操作:即对于每个图像序列,得到N2个相似度分数矩阵,孪生网络用M个图像序列进行训练,得到M*N2个相似度分数矩阵;进一步通过相似度矩阵得到目标在原图像的坐标:若有一个相似度分数矩阵Matrix1,找到矩阵中值最大的点,将Matrix1经过插值操作扩展到尺寸为L2的矩阵Matrix2,这个点在Matrix2中对应的坐标即为目标的位置;训练过程中,损失函数使用log损失;
相似度分数矩阵上每个点单独的损失函数为:
l(v1,v2)=log(1+exp(-v1·v2))
其中,v2是Matrixi,x,y单个点的得分,如果计算出的这个点的v2越大,则说明这个点越可能是目标,而v1是该点位置对应的标签,且v1∈{+1,-1},如果是正样本,v1=+1,否则v1=-1;一个点如果标记为v1=+1,则这个点为目标,若该点训练时的得分v2比较大,损失函数的值l(v1,v2)也会变大,从而反向传播调整网络的weight值;求出矩阵单个点的损失函数后,则相似度分数矩阵Matrix1的整体损失函数用全部点损失的均值表示:
其中,D表示整个矩阵,u表示矩阵上的每个点;
由于公式会生成M*N2个相似度分数矩阵Matrix1,则会得到M*N2个L(y,v),经加和后,得到最终的损失函数Lall,通过梯度下降法最小化损失函数Lall来进行训练,最终得到跟踪孪生网络的weight。
7.根据权利要求1所述的基于孪生网络的针对低分辨率目标的跟踪方法,其特征在于,所述的步骤7中将待跟踪图像序列通过训练后的重建超分精简卷积神经网络以及训练后跟踪孪生网络进行图像跟踪的方法为:
所述待跟踪图像序列为:待跟踪图像序列中第1帧图像为/>经过训练后重建超分精简卷积神经网络处理后,输入至训练后孪生网络中目标区域分支的输入图像;待跟踪图像序列中剩余图像用/>表示,其中i'∈[2,p];
经过重建超分精简卷积神经网络处理后,进一步输入至训练后孪生网络中搜索区域分支的输入图像,/>通过训练后孪生网络得到/>的相似度分数矩阵,并搜索出/>的相似度分数矩阵中最大值,通过步骤6中的插值操作,得到待跟踪图像序列中目标坐标位置。
CN202011247293.5A 2020-11-10 2020-11-10 一种基于孪生网络的针对低分辨率目标的跟踪方法 Active CN112183675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011247293.5A CN112183675B (zh) 2020-11-10 2020-11-10 一种基于孪生网络的针对低分辨率目标的跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011247293.5A CN112183675B (zh) 2020-11-10 2020-11-10 一种基于孪生网络的针对低分辨率目标的跟踪方法

Publications (2)

Publication Number Publication Date
CN112183675A CN112183675A (zh) 2021-01-05
CN112183675B true CN112183675B (zh) 2023-09-26

Family

ID=73918139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011247293.5A Active CN112183675B (zh) 2020-11-10 2020-11-10 一种基于孪生网络的针对低分辨率目标的跟踪方法

Country Status (1)

Country Link
CN (1) CN112183675B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610016B (zh) * 2021-08-11 2024-04-23 人民中科(济南)智能技术有限公司 视频帧特征提取模型的训练方法、系统、设备及存储介质
CN115546030B (zh) * 2022-11-30 2023-04-07 武汉大学 基于孪生超分辨率网络的压缩视频超分辨率方法及系统
CN116052452B (zh) * 2023-04-03 2023-06-20 江西方兴科技股份有限公司 一种无线通信的数据处理方法及车道预警方法
CN117953015A (zh) * 2024-03-26 2024-04-30 武汉工程大学 基于视频超分辨率多行人跟踪方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875425A (zh) * 2017-01-22 2017-06-20 北京飞搜科技有限公司 一种基于深度学习的多目标追踪系统及实现方法
CN107992826A (zh) * 2017-12-01 2018-05-04 广州优亿信息科技有限公司 一种基于深度孪生网络的人流检测方法
CN108090918A (zh) * 2018-02-12 2018-05-29 天津天地伟业信息系统集成有限公司 一种基于深度全卷积孪生网络的实时人脸跟踪方法
CN108830790A (zh) * 2018-05-16 2018-11-16 宁波大学 一种基于精简卷积神经网络的快速视频超分辨率重建方法
CN109191491A (zh) * 2018-08-03 2019-01-11 华中科技大学 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统
CN111428575A (zh) * 2020-03-02 2020-07-17 武汉大学 一种基于孪生网络的针对模糊目标的跟踪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875425A (zh) * 2017-01-22 2017-06-20 北京飞搜科技有限公司 一种基于深度学习的多目标追踪系统及实现方法
CN107992826A (zh) * 2017-12-01 2018-05-04 广州优亿信息科技有限公司 一种基于深度孪生网络的人流检测方法
CN108090918A (zh) * 2018-02-12 2018-05-29 天津天地伟业信息系统集成有限公司 一种基于深度全卷积孪生网络的实时人脸跟踪方法
CN108830790A (zh) * 2018-05-16 2018-11-16 宁波大学 一种基于精简卷积神经网络的快速视频超分辨率重建方法
CN109191491A (zh) * 2018-08-03 2019-01-11 华中科技大学 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统
CN111428575A (zh) * 2020-03-02 2020-07-17 武汉大学 一种基于孪生网络的针对模糊目标的跟踪方法

Also Published As

Publication number Publication date
CN112183675A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112183675B (zh) 一种基于孪生网络的针对低分辨率目标的跟踪方法
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN108242079B (zh) 一种基于多特征视觉里程计和图优化模型的vslam方法
CN108734723B (zh) 一种基于自适应权重联合学习的相关滤波目标跟踪方法
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN110533691B (zh) 基于多分类器的目标跟踪方法、设备和存储介质
CN111260688A (zh) 一种孪生双路目标跟踪方法
CN114429491B (zh) 一种基于事件相机的脉冲神经网络目标跟踪方法和系统
CN110895820B (zh) 一种基于kcf的尺度自适应目标跟踪方法
CN111126385A (zh) 一种可变形活体小目标的深度学习智能识别方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN114429555A (zh) 由粗到细的图像稠密匹配方法、系统、设备及存储介质
CN110751271B (zh) 一种基于深度神经网络的图像溯源特征表征方法
Zhou et al. PADENet: An efficient and robust panoramic monocular depth estimation network for outdoor scenes
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN113627481A (zh) 一种面向智慧园林的多模型组合的无人机垃圾分类方法
CN111274901B (zh) 一种基于深度门控递归单元的手势深度图像连续检测方法
CN110689559B (zh) 一种基于密集卷积网络特征的视觉目标跟踪方法
WO2024082602A1 (zh) 一种端到端视觉里程计方法及装置
Wang et al. Face super-resolution via hierarchical multi-scale residual fusion network
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
CN113850189A (zh) 一种应用于机动平台的嵌入式孪生网络实时跟踪方法
CN113112522A (zh) 基于可变形卷积和模板更新的孪生网络目标跟踪的方法
Zhang et al. Depth Monocular Estimation with Attention-based Encoder-Decoder Network from Single Image
Sharma et al. Facial Image Super-Resolution with CNN,“A Review”

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant