CN113269808A - 视频小目标跟踪方法和装置 - Google Patents

视频小目标跟踪方法和装置 Download PDF

Info

Publication number
CN113269808A
CN113269808A CN202110478239.XA CN202110478239A CN113269808A CN 113269808 A CN113269808 A CN 113269808A CN 202110478239 A CN202110478239 A CN 202110478239A CN 113269808 A CN113269808 A CN 113269808A
Authority
CN
China
Prior art keywords
response
image
frame
model
appearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110478239.XA
Other languages
English (en)
Other versions
CN113269808B (zh
Inventor
陈震中
郭雨佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110478239.XA priority Critical patent/CN113269808B/zh
Publication of CN113269808A publication Critical patent/CN113269808A/zh
Application granted granted Critical
Publication of CN113269808B publication Critical patent/CN113269808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出的小目标跟踪方法和装置,包括模型训练阶段、目标跟踪阶段和模型更新阶段。模型训练阶段进行包含自我注意力模块在内的整个跟踪模型中卷积神经网络参数的确定;跟踪阶段依据训练好的模型进行目标位置的持续检测;模型更新阶段是在满足预设条件时,对跟踪模型不同模块的参数进行更新,以保证持续准确鲁棒的跟踪效果。本发明结合运动目标多重特征执行目标跟踪过程,具有更高的抗干扰能力和鲁棒性,并且通过卷积神经网络所构建的自我注意力模块,获取每一种特征响应图对应的权重图,将传统的单一融合系数拓展为与响应图大小一致的二维融合系数矩阵(称之为“注意力图”),使得特征融合更加精准,对不同场景下的跟踪具有更强的适应性。

Description

视频小目标跟踪方法和装置
技术领域
本发明涉及目标跟踪领域,特别涉及视频小目标跟踪方法和装置。
背景技术
视频目标跟踪是计算机视觉领域的重要研究问题之一,它主要使计算机通过模仿人类生理视觉系统的运动感知功能,利用视频序列时间和空间上的相关性,将视频中运动的目标分割出来,并对目标进行帧间关联,进而提取动态信息,自动获取运动目标在视频每一帧中的平面位置信息并计算目标的轨迹的过程。当前常用的目标跟踪方法一般分为三步:(1)提取当前帧目标及周围环境的某种图像学特征;(2)将所提取的特征与上一帧或第一帧中目标所在位置的特征进行匹配,得到一幅响应图;(3)寻找响应图峰值,作为当前帧目标所在的位置。从视频的第二帧开始,重复进行这三步,即可完成对一段视频中某个运动目标的跟踪。
小目标跟踪与一般目标跟踪相比具有较大的挑战,主要包括:(1)影像宽幅相对较大、目标与背景对比度低;(2)目标尺寸小,特征和纹理稀少;(3)固定范围内存在目标数量较多,目标与目标、目标与背景之间的可区分性差,彼此相似性较高、相互干扰严重的情况。
这些挑战使得小目标的特征提取较为困难,跟踪鲁棒性差,当目标运动至与背景相似的位置或与其他相似目标相遇时,常常容易出现“跟丢”而导致跟踪失败的情况。为了获得较高的跟踪准确性和鲁棒性,目前针对这一类型的目标跟踪方法较多都采用外观模型与运动模型相结合的方法,而两个模型的融合一般是使用固定的经验参数对其各自的跟踪响应图进行加权求和,或使用一些简单的数学指标作为加权依据。这类融合方法对于简单单一场景的目标跟踪具有较好的效果,而对于一些较为复杂的场景,经验参数难以确定,数学指标的自适应能力相对较差,在目标的外观模型或运动模型面临变化时,难以准确地给出合适的权重。除此之外,这两种融合方法对于每一次跟踪过程仅对应单一的融合系数,其融合仅在图像层面上,难以做到像素层面的加权融合。
发明内容
本发明针对现有技术的不足,提供一种基于多重特征和自我注意力机制的小目标跟踪方法和装置,对不同特征实现像素级自适应加权融合,从而更加稳定准确地实现小目标跟踪。本发明提出的小目标跟踪方法包括模型训练、目标跟踪和模型更新三个阶段,首先根据初始帧及其对应的响应图对跟踪模型进行参数训练,得到跟踪模型中各个参数的数值,再利用训练好的跟踪模型,逐帧提取目标的外观特征和运动特征进行目标跟踪,在跟踪过程中,满足一定条件时,对跟踪模型进行更新。
为了达到上述目的,本发明提供的技术方案是一种视频小目标跟踪方法,包括模型训练、目标跟踪、模型更新三个阶段,具体包括以下步骤:
1.所述模型训练阶段构建基于多重特征和自我注意力模块的深度学习网络模型,用于小目标运动场景下的目标跟踪,并通过训练模型确定网络参数,包含以下步骤:
步骤1.1,读入视频第1帧图像并进行预处理;
步骤1.2,对第1帧图像生成训练时需要的“真实”响应图标签中的二维高斯响应图;
步骤1.3,构建外观特征对应的网络模型(称为“外观模型”),并基于第1帧图像和对应的二维高斯响应图进行模型参数的训练;
步骤1.4,逐帧读入视频的第2~n帧图像并进行预处理,利用训练好的外观模型进行跟踪,得到第n帧目标的位置;
步骤1.5,对第n帧生成训练时需要的“真实”响应图标签,即二维高斯响应图和0-1掩膜响应图;
步骤1.6,通过第1帧图像和第n帧图像获取光流信息,并转化为能被可视化的RGB模式的3通道光流图像;
步骤1.7,构建运动特征对应的网络模型(称为“运动模型”),并基于步骤1.6获取的3通道光流和步骤1.5得到的第n帧图像对应的0-1掩膜响应图进行模型参数的训练;
步骤1.8,将第n帧图像输入步骤1.3中训练好的外观模型,获得第n帧图像对应的外观响应图;
步骤1.9,将步骤1.6中提取的3通道光流图像输入步骤1.7中训练好的运动模型,获得第n帧图像的运动响应图;
步骤1.10,构建自我注意力模块,以步骤1.8中获得的第n帧图像对应的外观响应图和步骤1.9中获得的运动响应图作为输入,第n帧图像对应的二维高斯响应图作为输出进行自我注意力模块的参数训练;
2.所述目标跟踪阶段进行目标位置的持续检测,由于步骤1.4中已完成第2~n帧的跟踪过程,因此本阶段的跟踪过程从第n+1帧开始,具体包含以下步骤:
步骤2.1,读入相隔为n-1的两帧图像(第一次读入第n+1帧和第2帧),并进行预处理;
步骤2.2,将步骤2.1中经过预处理的后一帧图像输入训练好的外观模型,得到外观响应图;
步骤2.3,将步骤2.1中经过预处理的两帧图像使用与步骤1.6相同的方法进行光流提取,得到3通道光流图像;
步骤2.4,将步骤2.3中得到的3通道光流图像输入训练好的运动模型,得到运动响应图;
步骤2.5,将步骤2.2和步骤2.4中获得的两幅响应图输入训练好的自我注意力模块,计算得到两幅对应的注意力图;
步骤2.6,将步骤2.2和步骤2.4中获得的两幅响应图与步骤2.5中获得的两幅注意力图分别相乘再相加,得到最终的响应图,响应图峰值对应的即为目标所在的位置;
3.所述模型更新阶段进行跟踪模型参数的更新,包含以下步骤:
步骤3.1,步骤2完成一帧图像的跟踪后,当满足一定条件时,以当前帧的图像和目标位置生成的二维高斯响应图作为真实标签对外观模型的参数进行微调;
步骤3.2,步骤2完成一帧图像的跟踪后,当满足一定条件时,以当前帧的图像和目标位置生成的掩膜响应图作为真实标签对运动模型的参数进行微调;
步骤3.3,步骤2完成一帧图像的跟踪后,当满足一定条件时,以当前帧的外观响应图,运动响应图和目标位置生成的最终响应图作为真实标签对自我注意力模块的参数进行微调。
而且,所述步骤1.1中预处理包括以当前帧目标的位置为中心进行图像裁剪和上采样。
而且,所述步骤1.2中二维高斯响应图的生成包括以下步骤:
步骤1.2.1,计算包含目标的搜索区域的尺寸:
[w,h]=[wobj,hobj]*padding (1)
其中,w,h分别为矩形搜索区域的宽和高,wobj,hobj分别为目标的宽和高,padding为固定系数。
步骤1.2.2,以目标位置为中心生成二维高斯响应图:
Figure BDA0003048097350000031
Figure BDA0003048097350000032
其中,σ是二维高斯分布的方差(x方向和y方向相等),也是二维高斯响应图的投影半径,其值由目标的大小和常量α决定。
而且,所述步骤1.3构建外观模型,并基于第1帧图像和对应的二维高斯响应图进行模型参数的训练。外观模型由特征提取模块和响应图回归模块组成,具体组成及训练步骤如下:
步骤1.3.1,特征提取模块选用公开数据集预训练好的分类网络模型,将经过预处理的第1帧图像输入该模块进行特征提取,输出外观特征向量;
步骤1.3.2,响应图回归模块由一个1×1×c1的卷积神经网络和hobj×wobj×1的卷积神经网络构成,将步骤1.3.1提取好的外观特征输入该模块进行外观响应图回归,输出外观响应图;
步骤1.3.3,结合步骤1.3.2中生成的第1帧对应的外观响应图和步骤1.2中生成的第1帧对应的二维高斯响应图,以二者的均方误差最小作为训练目标,保持特征提取部分的参数不变,对响应图回归模块的参数进行训练。
而且,所述步骤1.4对视频的第2~n帧利用训练好的外观模型进行跟踪,得到第n帧目标的位置。具体地,从第2帧开始读入图像,以前一帧中目标所在位置为中心进行裁剪和上采样操作,然后将经过处理的图像输入训练好的外观模型,计算外观响应图,目标的位置取外观响应图最大值对应的位置,然后进入下一帧的跟踪过程,直至获得第n帧中目标的位置。
而且,所述步骤1.5中高斯响应图的生成方式与步骤1.2保持一致,0-1掩膜图的生成方式为:以目标位置为中心生成0-1掩膜响应图,目标所在区域的值为1,其余区域值为0,这一过程可以表示为:
Figure BDA0003048097350000041
其中,Sobj代表目标所在的区域,(xobj,yobj)是目标中心点的位置。
而且,所述步骤1.6通过第1帧和第n帧图像获得3通道的光流图像,具体步骤如下:
步骤1.6.1,将第1帧和第n帧经过预处理的图像利用光流提取方法提取2通道光流信息;
步骤1.6.2,将2通道的光流信息进行颜色编码,转化为能被可视化的RGB模式的3通道光流图像。
而且,所述步骤1.7构建运动模型,并基于步骤1.6中获得的3通道光流图像和步骤1.5得到的第n帧图像对应的0-1掩膜响应图进行模型参数的训练。运动模型由特征提取模块和响应图回归模块组成,具体组成及训练步骤如下:
步骤1.7.1,特征提取模块的构成和步骤1.3.1中的一致,将步骤1.6中获得的3通道光流图像输入该模块进行运动特征提取,输出运动特征向量;
步骤1.7.2,与步骤1.3.2一样,将提取的运动特征输入卷积核尺寸分别为1×1×c1的卷积神经网络和hobj×wobj×1的两层卷积神经网络串联组成响应图回归模块,进行运动响应图回归,输出第n帧对应的运动响应图;
步骤1.7.3,利用步骤1.5得到第n帧对应的0-1掩膜响应图,结合步骤1.7.2中生成的第n帧的对应的运动响应图,以二者的均方误差最小作为训练目标,保持特征提取部分的参数不变,对响应图回归模块的参数进行训练。
而且,所述步骤1.10中自我注意力模块由3层卷积核尺寸分别为3×3×c2,3×3×c3,3×3×2的卷积神经网络与1层softmax激活函数构成,其训练的具体步骤如下:
步骤1.10.1,将步骤1.8中得到的第n帧图像对应的外观响应图和步骤1.9中得到的第1~n帧图像对应的运动响应图堆叠后一起输入自我注意力模块,得到外观注意力图Attention_A和运动注意力图Attention_M。该模块的初始参数采用服从0均值高斯分布的随机值;
步骤1.10.2,将步骤1.8中得到的外观响应图
Figure BDA0003048097350000051
和步骤1.9中得到的运动响应图
Figure BDA0003048097350000052
利用步骤1.10.1得到的两幅注意力图分别相乘再相加,得到最终响应图Response_final,该过程可以表示为:
Figure BDA0003048097350000053
步骤1.10.3,利用步骤1.5中生成的第n帧图像的二维高斯响应图,结合步骤1.10.2中生成的最终响应图,以二者的均方误差最小作为训练目标,对自我注意力模块的参数进行训练。
而且,所述步骤2.5中注意力图的生成过程与步骤1.10.1一致(参数不重新初始化)。
而且,所述步骤2.6中最终响应图的生成过程与步骤1.10.2一致,目标的位置取最终响应图最大值对应的位置。
而且,所述步骤3.1中外观模型更新需要同时满足两个条件,可以表达为:
t=kΔt,k∈N,k>1 (21)
max(Response_At)>thre_A (22)
即,从第1帧起,每Δt帧判断当前第t帧的外观响应图Response_At的最大值是否超过设定的阈值thre_A。如果是,则使用第t帧的外观响应图Response_At和二维高斯响应图Gaussian_mapt(生成过程参照步骤1.2),对外观模型中的回归模型的参数更新,更新的具体过程与步骤1.3一致。
而且,所述步骤3.2中运动模型更新需要同时满足两个条件,可以表达为:
t=kΔt,k∈N,k>1 (24)
max(Response_Mt)>thre_M (25)
即,从第1帧起,每Δt帧判断当前第t帧的运动响应图Response_Mt的最大值是否超过设定的阈值thre_M。如果是,则使第t帧的运动响应图Response_Mt和0-1掩膜响应图Mask_mapt(生成过程参照步骤1.5),对运动模型中的回归模型的参数更新,更新的具体过程与步骤1.7一致。
而且,所述步骤3.3中自我注意力模块的更新需要同时满足两个条件,可以表达为:
t=kΔt,k∈N,k>1 (27)
max(Reponse_finalt)>thre_final (28)
即,从第1帧起,每Δt帧判断当前第t帧的最终响应图Response_finalt的最大值是否超过设定的阈值thre_final。如果是,则使用第t帧的最终响应图Response_finalt和二维高斯响应图Gaussian_mapt(生成过程参照步骤1.2),对自我注意力模块的参数更新,更新的具体过程与步骤1.10一致。
本发明还提供一种基于多重特征和自我注意力模块的小目标跟踪装置,包括模型训练模块、目标跟踪模块和模型更新三个模块,具体子模块如下:
所述模型训练模块用于构建跟踪模型,并进行模型中卷积神经网络参数的训练,包含以下子模块:
图像预处理子模块,读入第1帧图像,并进行预处理;
二维高斯响应图生成子模块,用于生成外观模型训练过程中第1帧图像对应的“真实”响应图中的二维高斯响应图;
外观模型训练子模块,构建与外观特征对应的网络模型(称为“外观模型”),并基于第1帧图像和对应的二维高斯响应图进行外观模型参数的训练;
局部跟踪子模块,逐帧读入视频的第2~n帧图像并进行预处理,利用训练好的外观模型进行跟踪,得到第n帧目标的位置;
“真实”响应图生成子模块,用于生成模型训练过程中第n帧图像对应的“真实”响应图,即二维高斯响应图和0-1掩膜响应图;
光流提取子模块,对经过预处理的第1帧和第n帧图像提取光流信息,并转化为能被可视化的RGB模式的3通道光流图像;
运动模型训练子模块,构建与运动特征对应的网络模型(称为“运动模型”),对视频的第2~n帧利用训练好的外观模型进行跟踪,得到第n帧目标的位置,并基于光流提取子模块提取的3通道光流图像和“真实”响应图生成子模块得到的第n帧图像对应的0-1掩膜响应图进行运动模型参数的训练;
外观响应图计算子模块,将经过预处理的图像输入训练好的外观模型,计算第n帧图像对应的外观响应图;
运动响应图计算子模块,将3通道光流图像输入训练好的运动模型,计算第n帧图像的运动响应图;
自我注意力模块训练子模块,以获得的第n帧图像对应的外观响应图和运动响应图作为输入,第n帧图像对应的二维高斯响应图作为输出进行自我注意力模块的参数训练;
所述目标跟踪模块用于运动目标位置的持续检测,由于运动模型训练子模块中已完成第2~n帧的跟踪过程,因此本阶段的跟踪过程从第n+1帧开始,具体包含以下子模块:
图像预处理子模块,读入相隔为n-1的两帧图像(第一次读入第n+1帧和第2帧),并进行预处理;
外观响应图计算子模块,将经过预处理的后一帧图像输入训练好的外观模型,计算对应的外观响应图;
光流提取子模块,对经过预处理的两帧图像进行光流提取,得到3通道光流图像;
运动响应图计算子模块,将3通道光流图像输入训练好的运动模型,计算对应的运动响应图;
注意力图生成子模块,将外观响应图和运动响应图输入训练好的自我注意力模块,得到两幅对应的注意力图;
目标位置检测子模块,将两幅特征响应图与两幅注意力图分别相乘再相加,计算最终的响应图,响应图峰值对应的即为目标所在的位置;
所述模型更新模块用于跟踪模型参数的更新,包含以下子模块:
外观模型更新子模块,在目标跟踪模块完成一帧图像的跟踪后,当满足一定条件时,以当前帧的图像和目标位置生成的二维高斯响应图作为真实标签对外观模型的参数进行微调;
运动模型更新子模块,在目标跟踪模块完成一帧图像的跟踪后,当满足一定条件时,以当前帧的图像和目标位置生成的0-1掩膜响应图作为真实标签对运动模型的参数进行微调;
自我注意力模块更新子模块,在目标跟踪模块完成一帧图像的跟踪后,当满足一定条件时,以当前帧的外观响应图,运动响应图和目标位置生成的最终响应图作为真实标签对自我注意力模块的参数进行微调。
而且,所述二维高斯响应图生成子模块中高斯响应图的生成方式如下:
步骤1.2.1,计算包含目标的搜索区域的尺寸:
[w,h]=[wobj,hobj]*padding (1)
其中,w,h分别为矩形搜索区域的宽和高,wobj,hobj分别为目标的宽和高,padding为固定系数。
步骤1.2.2,以目标位置为中心生成二维高斯响应图:
Figure BDA0003048097350000081
Figure BDA0003048097350000082
其中,σ是二维高斯分布的方差(x方向和y方向相等),也是二维高斯响应图的投影半径,其值由目标的大小和常量α决定。
而且,所述外观模型训练子模块中构建外观模型,并通过提取外观特征回归外观响应图来进行外观模型参数的训练。外观模型由特征提取模块和响应图回归模块组成,具体组成及训练步骤如下:
步骤1.3.1,特征提取模块选用公开数据集预训练好的分类网络模型,将经过预处理的第1帧图像输入该模块进行特征提取,输出外观特征向量;
步骤1.3.2,响应图回归模块由一个1×1×c1的卷积神经网络和hobj×wobj×1的卷积神经网络构成,将提取好的外观特征输入该模块进行外观响应图回归,输出外观响应图;
步骤1.3.3,结合步骤1.3.2中生成的第1帧对应的外观响应图和“真实”响应图生成子模块中生成的第1帧对应的二维高斯响应图,以二者的均方误差最小作为训练目标,保持特征提取部分的参数不变,对响应图回归模块的参数进行训练。
而且,所述局部跟踪子模块中,对视频的第2~n帧利用训练好的外观模型进行跟踪,得到第n帧目标的位置。具体地,从第2帧开始读入图像,以前一帧中目标所在位置为中心进行裁剪和上采样操作,然后将经过处理的图像输入训练好的外观模型,计算外观响应图,目标的位置取外观响应图最大值对应的位置,然后进入下一帧的跟踪过程,直至获得第n帧中目标的位置。
而且,所述“真实”响应图生成子模块中,二维高斯响应图的生成方式与高斯响应图生成子模块保持一致,0-1掩膜图的生成方式为:以目标位置为中心生成0-1掩膜响应图,目标所在区域的值为1,其余区域值为0,这一过程可以表示为:
Figure BDA0003048097350000083
其中,Sobj代表目标所在的区域,(xobj,yobj)是目标中心点的位置。
而且,所述光流提取子模块中通过对相隔为n-1的两帧图像计算3通道光流图像,具体步骤如下:
步骤1.6.1,将相隔n-1的两帧经过预处理的图像利用光流提取方法提取2通道的光流信息;
步骤1.6.2,将2通道的光流信息进行颜色编码,转化为能被可视化的RGB模式的3通道光流图像。
而且,所述运动模型训练子模块构建运动模型,并通过对3通道光流提取运动特征回归运动响应图来进行运动模型参数的训练。运动模型由特征提取模块和响应图回归模块组成,具体组成及训练步骤如下:
步骤1.7.1,特征提取模块的构成和步骤1.3.1中的一致,将步骤1.6中获得的3通道光流图像输入该模块进行运动特征提取,输出运动特征向量;
步骤1.7.2,与步骤1.3.2一样,将提取的运动特征输入卷积核尺寸分别为1×1×c1和hobj×wobj×1的两层卷积神经网络串联组成响应图回归模块,进行运动响应图回归,输出第n帧对应的运动响应图;
步骤1.7.3,利用“真实”响应图生成子模块中得到的第n帧对应的0-1掩膜响应图,结合步骤1.7.2中生成的第n帧的对应的运动响应图,以二者的均方误差最小作为训练目标,保持特征提取部分的参数不变,对响应图回归模块的参数进行训练。
而且,所述自我注意力模块训练子模块中,自我注意力模块由3层卷积核尺寸分别为3×3×c2,3×3×c3,3×3×2的卷积神经网络与1层softmax激活函数构成,训练的具体步骤如下:
步骤1.10.1,将外观响应图生成子模块中得到的第n帧图像对应的外观响应图和运动响应图生成子模块中得到的第1帧和第n帧图像对应的运动响应图堆叠后一起输入自我注意力模块,得到外观注意力图Attention_A和运动注意力图Attention_M;
步骤1.10.2,将外观响应图生成子模块中得到的外观响应图
Figure BDA0003048097350000091
和运动响应图生成子模块中得到的运动响应图
Figure BDA0003048097350000092
利用步骤1.10.1得到的两幅注意力图分别相乘再相加,得到最终响应图Response_final,该过程可以表示为:
Figure BDA0003048097350000093
步骤1.10.3,对第n帧图像执行“真实”响应图生成子模块,生成对应的二维高斯响应图Gaussian_mapn,结合步骤1.10.2中生成的最终响应图,以二者的均方误差最小作为训练目标,对自我注意力模块的参数进行训练。
而且,所述注意力图生成子模块中注意力图的生成过程与步骤1.10.1一致。
而且,所述目标位置检测子模块中最终响应图的生成过程与步骤1.10.2一致,目标的位置取最终响应图最大值对应的位置。
而且,所述外观模型更新子模块中外观模型更新需要同时满足两个条件,可以表达为:
t=kΔt,k∈N,k>1 (21)
max(Reponse_At)>thre_A (22)
即,从第1帧起,每Δt帧判断当前第t帧的外观响应图Response_At的最大值是否超过设定的阈值thre_A。如果是,则使用第t帧的外观响应图Response_At和二维高斯响应图Gaussian_mapt(生成过程参照模型训练模块中二维高斯响应图生成子模块),对外观模型中的回归模型的参数更新,具体过程与模型训练模块中外观模型训练子模块一致。
而且,所述运动模型更新子模块中运动模型更新需要同时满足两个条件,可以表达为:
t=kΔt,k∈N,k>1 (24)
max(Reponse_Mt)>thre_M (25)
即,从第1帧起,每Δt帧判断当前第t帧的运动响应图Response_Mt的最大值是否超过设定的阈值thre_M。如果是,则使用第t帧的运动响应图Response_Mt和0-1掩膜响应图Mask_mapt(生成过程参照模型训练模块中“真实”响应图生成子模块),对运动模型中的回归模型的参数更新,具体过程与模型训练模块中运动模型训练子模块一致。
而且,所述自我注意力模块更新子模块中自我注意力模块的更新需要同时满足两个条件,可以表达为:
t=kΔt,k∈N,k>1 (27)
max(Reponse_finalt)>thre_final (28)
即,从第1帧起,每Δt帧判断当前第t帧的最终响应图Response_finalt的最大值是否超过设定的阈值thre_final。如果是,则使用第t帧的最终响应图Response_finalt和二维高斯响应图Gaussian_mapt(生成过程参照模型训练模块中二维高斯响应图生成子模块),对自我注意力模块的参数更新,具体过程与模型训练模块中自我注意力模块训练子模块一致。
本发明与现有技术相比具有以下优点:
1.本发明结合运动目标多重特征执行目标跟踪过程,避免单一特征在跟踪过程中遇到特殊情况可能跟踪失败的影响,具有更高的抗干扰能力和鲁棒性,更加符合小目标的运动特性;
2.本发明使用自我注意力模块对外观特征、运动特征两种特征进行像素级自适应加权融合,即通过卷积神经网络所构建的自我注意力模块,获取每一种特征响应图对应的权重图,将传统的单一融合系数拓展为与响应图大小一致的二维融合系数矩阵(称之为“注意力图”),使得特征融合更加精准,对不同场景下的跟踪具有更强的适应性。
附图说明
图1为本发明实施例的技术流程图。
图2为本发明实施例跟踪模型中目标跟踪阶段第n帧以后的流程图。
具体实施方式
本发明首先根据第1帧图像及其对应的响应图对跟踪模型进行参数训练,得到跟踪模型中各个参数的数值,再利用训练好的跟踪模型,逐帧提取目标的外观特征和运动特征进行目标跟踪,在跟踪过程中,满足一定条件时,对跟踪模型进行更新。
本发明技术方案可采用计算机软件方式支持自动运行流程。以下结合附图和实施例详细说明本发明技术方案。
实施例包含模型训练阶段、目标跟踪阶段和模型更新阶段:
1.所述模型训练阶段构建基于多重特征和自我注意力模块的深度学习网络模型,用于小目标运动场景下的目标跟踪,并通过训练模型确定网络参数,包含以下步骤:
步骤1.1,读入视频第1帧图像进行预处理,以待跟踪的目标为中心进行裁剪,并分别进行上采样,本实施例中,n=5,上采样倍数为4。
步骤1.2,对第1帧生成训练时需要的“真实”响应图标签的二维高斯响应图,生成具体步骤如下:
步骤1.2.1,计算包含目标的搜索区域的尺寸:
[w,h]=[wobj,hobj]*padding (1)
其中,w,h分别为矩形搜索区域的宽和高,wobj,hobj分别为目标的宽和高,padding为固定系数。本实施例中,wobj,hobj分别为15和10,padding取1.6,则w,h分别为24和16。
步骤1.2.2,以目标位置为中心生成二维高斯响应图:
Figure BDA0003048097350000111
Figure BDA0003048097350000112
其中,σ是二维高斯分布的方差(x方向和y方向相等),也是二维高斯响应图的投影半径,其值由目标的大小和常量α决定。
步骤1.3,构建外观特征对应的网络模型(称为“外观模型”),并基于第1帧图像和对应的二维高斯响应图进行模型参数的训练。
外观模型由特征提取模块和响应图回归模块组成,具体组成及训练步骤如下:
步骤1.3.1,特征提取模块选用公开数据集预训练好的分类网络模型,将经过预处理的第1帧图像img输入该模块进行特征提取,输出外观特征向量Feature_A,本实例中,采用预训练好的VGG16网络的Conv3-3之前的网络结构和参数进行特征提取,过程可以表示为:
Figure BDA0003048097350000121
步骤1.3.2,响应图回归模块由一个1×1×c1的卷积神经网络和hobj×wobj×1的卷积神经网络构成,将步骤1.3.1提取好的外观特征输入该模块进行外观响应图回归,输出外观响应图,本实例中,c1=12,回归过程可以表示为:
Figure BDA0003048097350000122
本实施例中,该模块的初始参数采用服从0均值高斯分布的随机值。
步骤1.3.3,结合步骤1.3.2中生成的第1帧对应的外观响应图和步骤1.2中生成的第1帧对应的二维高斯响应图,以二者的均方误差最小作为训练目标,保持特征提取部分的参数不变,对响应图回归模块的参数θA进行训练,这一过程可以表示为:
Figure BDA0003048097350000123
步骤1.4,逐帧读入视频的第2~n帧图像并进行预处理,利用步骤1.3训练好的外观模型进行跟踪,得到第n帧目标的位置。具体地,从第2帧开始读入图像,以前一帧中目标所在位置为中心进行裁剪和上采样操作,然后将经过处理的图像输入训练好的外观模型,计算外观响应图,目标的位置(r,c)取外观响应图最大值对应的位置,这一过程可表示为:
Figure BDA0003048097350000124
然后进入下一帧的跟踪过程,直至获取第n帧的目标位置。
步骤1.5,对第n帧生成训练时需要的“真实”响应图标签,即二维高斯响应图和0-1掩膜响应图。二维高斯响应图的生成过程与步骤1.2保持一致,0-1掩膜响应图的生成方式为:以目标位置为中心生成0-1掩膜响应图,目标所在区域的值为1,其余区域值为0,这一过程可以表示为:
Figure BDA0003048097350000125
其中,Sobj代表目标所在的区域,(xobj,yobj)是目标中心点的位置。
步骤1.6,输入第1帧和第n帧图像提取3通道光流图像,具体步骤如下:
步骤1.6.1,将第1帧和第n帧图像利用光流提取的方法提取2通道的光流信息。本实例中,采用Lucas-Kanade方法(LK)进行光流提取,这一过程可以表示为:
Figure BDA0003048097350000131
步骤1.6.2,将2通道的光流信息进行颜色编码,转化为能可视化的RGB模式的3通道光流图像。本实例中,先进行HSV转换,将每个通道的光流向量的值分别作为H,S分量,而V分量被设置为一个常数,再将HSV空间转换到RGB颜色空间,这一过程可以表示为:
Figure BDA0003048097350000132
步骤1.7,构建运动模型,基于步骤1.6获取的3通道光流图像和步骤1.5得到的第n帧图像对应的0-1掩膜响应图进行模型参数的训练。运动模型由特征提取模块和响应图回归模块组成,具体组成及训练步骤如下:
步骤1.7.1,特征提取模块的构成和步骤1.3.1中的一致,将步骤1.6中获得的3通道光流图像
Figure BDA0003048097350000133
输入该模块进行运动特征提取,输出运动特征向量Feature_Mn,其过程可以表示为:
Figure BDA0003048097350000134
步骤1.7.2,与步骤1.3.2一样,将提取的运动特征输入卷积核尺寸分别为1×1×c1和hobj×wobj×1的两层卷积神经网络串联组成响应图回归模块,进行运动响应图回归,输出第n帧对应的运动响应图Response_Mn。本实例中,c1=12,回归过程可以表示为:
Figure BDA0003048097350000135
本实施例中,该模块的初始参数采用服从0均值高斯分布的随机值。
步骤1.7.3,结合步骤1.7.2中生成的第n帧的对应的运动响应图和步骤1.5中生成的第n帧对应的0-1掩膜响应图,以二者的均方误差最小作为训练目标,保持特征提取部分的参数不变,对响应图回归模块的参数θM进行训练,这一过程可以表示为:
Figure BDA0003048097350000136
步骤1.8,通过将图像输入步骤1.3训练好的外观模型Model_A,计算输出第n帧图像对应的外观响应图
Figure BDA0003048097350000137
这一过程可以表示为:
Figure BDA0003048097350000138
步骤1.9,通过将步骤1.6中提取的3通道光流输入步骤1.7训练好的运动模型Model_M,计算输出第n帧图像对应的运动响应图
Figure BDA0003048097350000139
这一过程可以表示为:
Figure BDA0003048097350000141
步骤1.10,以步骤1.8中获得的第n帧图像对应的外观响应图和步骤1.9中获得的运动响应图作为输入,第n帧图像对应的二维高斯响应图作为输出进行自我注意力模块的参数训练。自我注意力模块由3层卷积核尺寸分别为3×3×c2,3×3×c3,3×3×2的卷积神经网络与1层softmax激活函数构成,本实例中,c1=12,c2=128,c3=32。训练的具体步骤如下:
步骤1.10.1,将步骤1.8中得到的第n帧图像对应的外观响应图和步骤1.9中得到的第1帧和第n帧图像对应的运动响应图堆叠后输入自我注意力模块,得到外观注意力图Attention_A和运动注意力图Attention_M,该过程可以表示为:
Figure BDA0003048097350000142
Figure BDA0003048097350000143
本实施例中,该模块的初始参数采用服从0均值高斯分布的随机值。
步骤1.10.2,将步骤1.8外观响应图生成子模块中得到的外观响应图和步骤1.9运动响应图生成子模块中得到的运动响应图与步骤1.10.1得到的两幅注意力图分别相乘再相加,得到最终响应图Response_final,该过程可以表示为:
Figure BDA0003048097350000144
此处Attention_A和Attention_M是由外观响应图和运动响应图输入自我注意力模块计算得到的,将其作为外观模型和运动模型融合的权重,可实现不同特征像素级自适应的加权融合,从而更加稳定准确地实现小目标跟踪。
步骤1.10.3,对第n帧图像执行步骤1.2,生成对应的二维高斯响应图Gaussian_mapn,结合步骤1.10.2中生成的最终响应图,以二者的均方误差最小作为训练目标,对自我注意力模块的参数θatten进行训练,这一过程可以表示为:
Figure BDA0003048097350000145
2.所述目标跟踪阶段进行目标位置的持续检测,由于步骤1.4中已完成第2~n帧的跟踪过程,因此本阶段的跟踪过程从第n+1帧开始(本实施例中,n=5),具体包含以下步骤:
步骤2.1,读入相隔为n-1的两帧图像(第一次读入第n+1帧和第2帧),以上一帧中目标所在位置为中心进行裁剪和上采样操作,本实施例中,上采样倍数为4;
步骤2.2,对步骤2.1中经过预处理的后一帧图像执行步骤1.8,得到外观响应图;
步骤2.3,将步骤2.1中经过预处理的两帧图像使用与步骤1.6相同的方法进行光流提取,得到3通道光流图像;
步骤2.4,将步骤2.3中得到的3通道光流图像输入训练好的运动模型,得到运动响应图;
步骤2.5,将步骤2.2和步骤2.4中获得的两幅响应图输入自我注意力模块,得到两幅对应的注意力图,注意力图的生成过程与步骤1.10.1一致(参数不重新初始化);
步骤2.6,将步骤2.2和步骤2.4中获得的两幅响应图与步骤2.5中获得的两幅注意力图对应地相乘相加,得到最终的响应图,响应图峰值对应的位置即为目标所在的位置。最终响应图的生成过程与步骤1.10.2一致,目标的位置(r,c)取最终响应图最大值对应的位置,这一过程可表示为:
Figure BDA0003048097350000151
本实施例中,某一帧响应图最大值为0.65,对应的位置为第56列,138行,则该位置为目标当前帧所在的位置。
3.所述模型更新阶段进行跟踪模型参数的更新,包含以下步骤:
步骤3.1,步骤2完成一帧图像的跟踪后,若同时满足以下2个条件时,以当前帧的图像和目标位置生成的二维高斯响应图作为真实标签对外观模型的参数进行微调;
t=kΔt,k∈N,k>1 (21)
max(Reponse_At)>thre_A (22)
即从第1帧起,每Δt帧判断当前第t帧的外观响应图Response_At的最大值是否超过设定的阈值thre_A,如果是,则使用第t帧的外观响应图Response_At-1和二维高斯响应图Gaussian_mapt-1(生成过程参照步骤1.2),对外观模型中的回归模型的参数θA进行更新,更新的具体过程与步骤1.3基本一致,可以表达为:
Figure BDA0003048097350000152
本实例中,Δt=5,thre_A=0.5,即在第10,15,20...帧时,只要外观响应图的最大值大于0.5,即进行参数更新;
步骤3.2,步骤2完成一帧图像的跟踪后,若同时当满足以下2个条件时,以当前帧的图像和目标位置生成的掩膜响应图作为真实标签对运动模型的参数进行微调;
t=kΔt,k∈N,k>1 (24)
max(Reponse_Mt)>thre_M (25)
即从第1帧起,每Δt帧判断当前第t帧的运动响应图Response_Mt的最大值是否超过设定的阈值thre_M,如果是,则使用第t帧的运动响应图Response_Mt-1和0-1掩膜响应图Mask_mapt-1(生成过程参照步骤1.5),对运动模型中的回归模型的参数θM更新,更新的具体过程与步骤1.7基本一致,可以表达为:
Figure BDA0003048097350000161
本实例中,Δt=5,thre_M=0.6,即在第10,15,20...帧时,只要运动响应图的最大值大于0.6,即进行参数更新;
步骤3.3,步骤2完成一帧图像的跟踪后,若同时当满足以下2个条件时,以当前帧的外观响应图、运动响应图和目标位置生成的最终响应图作为真实标签对自我注意力模块的参数进行微调;
t=kΔt,k∈N,k>1 (27)
max(Reponse_finalt)>thre_final (28)
即从第1帧起,每Δt帧判断当前第t帧的最终响应图Response_finalt的最大值是否超过设定的阈值thre_final,如果是,则使用第t帧的最终响应图Response_finalt-1和二维高斯响应图Gaussian_mapt-1(生成过程参照步骤1.2),对自我注意力模块的参数θatten更新,更新的具体过程与步骤1.10基本一致,可以表达为:
Figure BDA0003048097350000162
本实例中,Δt=5,thre_final=0.65,即在第10,15,20...帧时,只要最终响应图的最大值大于0.65,即进行参数更新。
本发明实施例还提供一种基于多重特征和自我注意力模块的小目标跟踪装置,包括模型训练模块、目标跟踪模块和模型更新模块。
所述模型训练模块用于构建跟踪模型,并进行模型中卷积神经网络参数的训练,包含以下子模块:
图像预处理子模块,读入第1帧图像,并进行预处理;
二维高斯响应图生成子模块,用于生成外观模型训练过程中第1帧图像对应的“真实”响应图的二维高斯响应图;
外观模型训练子模块,构建与外观特征对应的网络模型(称为“外观模型”),并基于第1帧图像和对应的二维高斯响应图进行外观模型参数的训练;
局部跟踪子模块,逐帧读入视频的第2~n帧图像并进行预处理,利用训练好的外观模型进行跟踪,得到第n帧目标的位置;
“真实”响应图生成子模块,用于生成模型训练过程中第n帧图像对应的“真实”响应图,即二维高斯响应图和0-1掩膜响应图;
光流提取子模块,对经过预处理的第1帧和第n帧图像提取光流信息,并转化为能被可视化的RGB模式的3通道光流图像;
运动模型训练子模块,构建与运动特征对应的网络模型(称为“运动模型”),对视频的第2~n帧利用训练好的外观模型进行跟踪,得到第n帧目标的位置,并基于光流提取子模块提取的3通道光流图像和“真实”响应图生成子模块得到的第n帧图像对应的0-1掩膜响应图进行运动模型参数的训练;
外观响应图计算子模块,将经过预处理的图像输入训练好的外观模型,计算第n帧图像对应的外观响应图;
运动响应图计算子模块,将3通道光流图像输入训练好的运动模型,计算第n帧图像的运动响应图;
自我注意力模块训练子模块,以获得的第n帧图像对应的外观响应图和运动响应图作为输入,第n帧图像对应的二维高斯响应图作为输出进行自我注意力模块的参数训练;
所述目标跟踪模块用于运动目标位置的持续检测,由于运动模型训练子模块中已完成第~n帧的跟踪过程,因此本阶段的跟踪过程从第n+1帧开始,具体包含以下子模块:
图像预处理子模块,读入相隔为n-1的两帧图像(第一次读入第n+1帧和第2帧),并进行预处理;
外观响应图计算子模块,将经过预处理的后一帧图像输入训练好的外观模型,计算对应的外观响应图;
光流提取子模块,对经过预处理的两帧图像进行光流提取,得到3通道光流图像;
运动响应图计算子模块,将3通道光流图像输入训练好的运动模型,计算对应的运动响应图;
注意力图生成子模块,将外观响应图和运动响应图输入训练好的自我注意力模块,得到两幅对应的注意力图;
目标位置检测子模块,将两幅特征响应图与两幅注意力图分别相乘再相加,计算最终的响应图,响应图峰值对应的即为目标所在的位置;
所述模型更新模块用于跟踪模型参数的更新,包含以下子模块:
外观模型更新子模块,在目标跟踪模块完成一帧图像的跟踪后,当满足一定条件时,以当前帧的图像和目标位置生成的二维高斯响应图作为真实标签对外观模型的参数进行微调;
运动模型更新子模块,在目标跟踪模块完成一帧图像的跟踪后,当满足一定条件时,以当前帧的图像和目标位置生成的0-1掩膜响应图作为真实标签对运动模型的参数进行微调;
自我注意力模块更新子模块,在目标跟踪模块完成一帧图像的跟踪后,当满足一定条件时,以当前帧的外观响应图,运动响应图和目标位置生成的最终响应图作为真实标签对自我注意力模块的参数进行微调。
各模块及子模块的具体实现方式和实施例各步骤相应,本发明不予撰述。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明,本发明所属技术领域的技术人员可对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但不会偏离本发明的精神或超越所附权利要求书所定义的范围。

Claims (10)

1.一种视频小目标跟踪方法,其特征在于,包括模型训练阶段、目标跟踪阶段和模型更新阶段;
所述模型训练阶段构建基于多重特征和自我注意力模块的深度学习网络模型,用于小目标运动场景下的目标跟踪,并通过训练模型确定网络参数,具体包含以下步骤:
步骤1.1,读入视频第1帧图像并进行预处理;
步骤1.2,对第1帧图像生成训练时需要的“真实”响应图标签中的二维高斯响应图;
步骤1.3,构建外观特征对应的网络模型,称为“外观模型”,并基于第1帧图像和对应的二维高斯响应图进行模型参数的训练;
步骤1.4,逐帧读入视频的第2~n帧图像并进行预处理,利用训练好的外观模型进行跟踪,得到第n帧目标的位置;
步骤1.5,对第n帧生成训练时需要的“真实”响应图标签,即二维高斯响应图和0-1掩膜响应图;
步骤1.6,通过第1帧图像和第n帧图像获取光流信息,并转化为能被可视化的RGB模式的3通道光流图像;
步骤1.7,构建运动特征对应的网络模型,称为“运动模型”,并基于步骤1.6获取的3通道光流和步骤1.5得到的第n帧图像对应的0-1掩膜响应图进行模型参数的训练;
步骤1.8,将第n帧图像输入步骤1.3中训练好的外观模型,获得第n帧图像对应的外观响应图;
步骤1.9,将步骤1.6中提取的3通道光流图像输入步骤1.7中训练好的运动模型,获得第n帧图像的运动响应图;
步骤1.10,构建自我注意力模块,以步骤1.8中获得的第n帧图像对应的外观响应图和步骤1.9中获得的运动响应图作为输入,第n帧图像对应的二维高斯响应图作为输出进行自我注意力模块的参数训练;
所述目标跟踪阶段进行目标位置的持续检测,由于步骤1.4中已完成第1~n帧的跟踪过程,因此本阶段的跟踪过程从第n+1帧开始,具体包含以下步骤:
步骤2.1,读入相隔为n-1的两帧图像,第一次读入第n+1帧和第2帧,并进行预处理;
步骤2.2,将步骤2.1中经过预处理的后一帧图像输入训练好的外观模型,得到外观响应图;
步骤2.3,将步骤2.1中经过预处理的两帧图像使用与步骤1.6相同的方法进行光流提取,得到3通道光流图像;
步骤2.4,将步骤2.3中得到的3通道光流图像输入训练好的运动模型,得到运动响应图;
步骤2.5,将步骤2.2和步骤2.4中获得的两幅响应图输入训练好的自我注意力模块,计算得到两幅对应的注意力图;
步骤2.6,将步骤2.2和步骤2.4中获得的两幅响应图与步骤2.5中获得的两幅注意力图分别相乘再相加,得到最终的响应图,响应图峰值对应的即为目标所在的位置;
所述模型更新阶段进行跟踪模型参数的更新,包含以下步骤:
步骤3.1,步骤2完成一帧图像的跟踪后,当满足一定条件时,以当前帧的图像和目标位置生成的二维高斯响应图作为真实标签对外观模型的参数进行微调;
步骤3.2,步骤2完成一帧图像的跟踪后,当满足一定条件时,以当前帧的图像和目标位置生成的掩膜响应图作为真实标签对运动模型的参数进行微调;
步骤3.3,步骤2完成一帧图像的跟踪后,当满足一定条件时,以当前帧的外观响应图,运动响应图和目标位置生成的最终响应图作为真实标签对自我注意力模块的参数进行微调。
2.如权利要求1所述的一种视频小目标跟踪方法,其特征在于:步骤1.2中生成高斯响应图具体步骤如下:
步骤1.2.1,计算包含目标的搜索区域的尺寸:
[w,h]=[wobj,hobj]*padding (1)
其中,w,h分别为矩形搜索区域的宽和高,wobj,hobj分别为目标的宽和高,padding为固定系数;
步骤1.2.2,以目标位置为中心生成二维高斯响应图:
Figure FDA0003048097340000021
Figure FDA0003048097340000022
其中,σ是二维高斯分布的方差,x方向和y方向相等,也是二维高斯响应图的投影半径,其值由目标的大小和常量α相关。
3.如权利要求2所述的一种视频小目标跟踪方法,其特征在于:步骤1.3构建外观模型,通过提取外观特征,回归外观响应图来进行外观模型参数的训练,外观模型由特征提取模块和响应图回归模块组成,具体组成及训练步骤如下:
步骤1.3.1,特征提取模块选用公开数据集预训练好的分类网络模型,将经过预处理的第1帧图像输入该模块进行特征提取,输出外观特征向量;
步骤1.3.2,响应图回归模块由一个1×1×c1的卷积神经网络和hobj×wobj×1的卷积神经网络构成,将步骤1.3.1提取好的外观特征输入该模块进行外观响应图回归,输出外观响应图;
步骤1.3.3,结合步骤1.3.2中生成的第1帧对应的外观响应图和步骤1.2中生成的第1帧对应的二维高斯响应图,以二者的均方误差最小作为训练目标,保持特征提取部分的参数不变,对响应图回归模块的参数进行训练。
4.如权利要求1所述的一种视频小目标跟踪方法,其特征在于:步骤1.4对视频的第2~n帧利用训练好的外观模型进行跟踪,得到第n帧目标的位置,是从第2帧开始读入图像,以前一帧中目标所在位置为中心进行裁剪和上采样操作,然后将经过处理的图像输入训练好的外观模型,计算外观响应图,目标的位置取外观响应图最大值对应的位置,然后进入下一帧的跟踪过程,直至获得第n帧中目标的位置。
5.如权利要求3所述的一种视频小目标跟踪方法,其特征在于:所述步骤1.5中高斯响应图的生成方式与步骤1.2保持一致,0-1掩膜图的生成方式为:以目标位置为中心生成0-1掩膜响应图,目标所在区域的值为1,其余区域值为0,这一过程可以表示为:
Figure FDA0003048097340000031
其中,Sobj代表目标所在的区域,(xobj,yobj)是目标中心点的位置。
6.如权利要求5所述的一种视频小目标跟踪方法,其特征在于:步骤1.6通过第1帧和第n帧图像获得3通道的光流图像,具体步骤如下:
步骤1.6.1,将第1帧和第n帧经过预处理的图像利用光流提取方法提取2通道光流信息;步骤1.6.2,将2通道的光流信息进行颜色编码,转化为能被可视化的RGB模式的3通道光流图像。
7.如权利要求6所述的一种视频小目标跟踪方法,其特征在于:步骤1.7构建运动模型,并基于步骤1.6获取的3通道光流和步骤1.5得到的第n帧图像对应的0-1掩膜响应图进行模型参数的训练;运动模型由特征提取模块和响应图回归模块组成,具体组成及训练步骤如下:
步骤1.7.1,特征提取模块的构成和步骤1.3.1中的一致,将步骤1.6中获得的3通道光流图像输入该模块进行运动特征提取,输出运动特征向量;
步骤1.7.2,与步骤1.3.2一样,将提取的运动特征输入卷积核尺寸分别为1×1×c1的卷积神经网络和hobj×wobj×1的两层卷积神经网络串联组成响应图回归模块,进行运动响应图回归,输出第n帧对应的运动响应图;
步骤1.7.3,利用步骤1.5得到第n帧对应的0-1掩膜响应图,结合步骤1.7.2中生成的第n帧的对应的运动响应图,以二者的均方误差最小作为训练目标,保持特征提取部分的参数不变,对响应图回归模块的参数进行训练。
8.如权利要求7所述的一种视频小目标跟踪方法,其特征在于:所述步骤1.10中自我注意力模块由3层卷积核尺寸分别为3×3×c2,3×3×c3,3×3×2的卷积神经网络与1层softmax激活函数构成,其训练的具体步骤如下:
步骤1.10.1,将步骤1.8中得到的第n帧图像对应的外观响应图和步骤1.9中得到的第1~n帧图像对应的运动响应图堆叠后一起输入自我注意力模块,得到外观注意力图Attention_A和运动注意力图Attention_M,该模块的初始参数采用服从0均值高斯分布的随机值;
步骤1.10.2,将步骤1.8中得到的外观响应图
Figure FDA0003048097340000041
和步骤1.9中得到的运动响应图
Figure FDA0003048097340000042
利用步骤1.10.1得到的两幅注意力图分别相乘再相加,得到最终响应图Response_final,该过程可以表示为:
Figure FDA0003048097340000043
步骤1.10.3,利用步骤1.5中生成的第n帧图像的二维高斯响应图,结合步骤1.10.2中生成的最终响应图,以二者的均方误差最小作为训练目标,对自我注意力模块的参数进行训练。
9.如权利要求8所述的一种视频小目标跟踪方法,其特征在于:步骤3.1中外观模型更新需要同时满足两个条件,可以表达为:
t=kΔt,k∈N,k>1 (21)
max(Re s ponse_At)>thre_A (22)
即,从第1帧起,每Δt帧判断当前第t帧的外观响应图的最大值是否超过设定的阈值thre_A,如果是,则使用第t帧的外观响应图和二维高斯响应图,对外观模型中的回归模型的参数更新,更新的具体过程与步骤1.3一致;
步骤3.2中运动模型更新需要同时满足两个条件,可以表达为:
t=kΔt,k∈N,k>1 (24)
max(Re s ponse_Mt)>thre_M (25)
即,从第1帧起,每Δt帧判断当前第t帧的运动响应图的最大值是否超过设定的阈值thre_M,如果是,则使用第t帧的运动响应图和0-1掩膜响应图,对运动模型中的回归模型的参数更新,更新的具体过程与步骤1.7一致;
步骤3.3中自我注意力模块的更新需要同时满足两个条件,可以表达为:
t=kΔt,k∈N,k>1 (27)
max(Re p onse_finalt)>thre_final (28)
即,从第1帧起,每Δt帧判断当前第t帧的最终响应图的最大值是否超过设定的阈值thre_final,如果是,则使用第t帧的最终响应图和二维高斯响应图,对自我注意力模块的参数更新,更新的具体过程与步骤1.10一致。
10.一种视频小目标跟踪装置,其特征在于:包括模型训练模块,目标跟踪模块和模型更新模块;
所述模型训练模块用于构建跟踪模型,并进行模型中卷积神经网络参数的训练,包含以下子模块:
图像预处理子模块,读入第1帧图像,并进行预处理;
二维高斯响应图生成子模块,用于生成外观模型训练过程中第1帧图像对应的“真实”响应图的二维高斯响应图;
外观模型训练子模块,构建与外观特征对应的网络模型,称为“外观模型”,并基于第1帧图像和对应的二维高斯响应图进行外观模型参数的训练;
局部跟踪子模块,逐帧读入视频的第2~n帧图像并进行预处理,利用训练好的外观模型进行跟踪,得到第n帧目标的位置;
“真实”响应图生成子模块,用于生成模型训练过程中第n帧图像对应的“真实”响应图,即二维高斯响应图和0-1掩膜响应图;
光流提取子模块,对经过预处理的第1帧和第n帧图像提取光流信息,并转化为能被可视化的RGB模式的3通道光流图像;
运动模型训练子模块,构建与运动特征对应的网络模型,称为“运动模型”,对视频的第2~n帧利用训练好的外观模型进行跟踪,得到第n帧目标的位置,并基于光流提取子模块提取的3通道光流图像和“真实”响应图生成子模块得到的第n帧图像对应的0-1掩膜响应图进行运动模型参数的训练;
外观响应图计算子模块,将经过预处理的图像输入训练好的外观模型,计算第n帧图像对应的外观响应图;
运动响应图计算子模块,将3通道光流图像输入训练好的运动模型,计算第n帧图像的运动响应图;
自我注意力模块训练子模块,以获得的第n帧图像对应的外观响应图和运动响应图作为输入,第n帧图像对应的二维高斯响应图作为输出进行自我注意力模块的参数训练;
所述目标跟踪模块用于运动目标位置的持续检测,由于运动模型训练子模块中已完成第2~n帧的跟踪过程,因此本阶段的跟踪过程从第n+1帧开始,具体包含以下子模块:
图像预处理子模块,读入相隔为n-1的两帧图像,第一次读入第n+1帧和第2帧,并进行预处理;
外观响应图计算子模块,将经过预处理的后一帧图像输入训练好的外观模型,计算对应的外观响应图;
光流提取子模块,对经过预处理的两帧图像进行光流提取,得到3通道光流图像;
运动响应图计算子模块,将3通道光流图像输入训练好的运动模型,计算对应的运动响应图;
注意力图生成子模块,将外观响应图和运动响应图输入训练好的自我注意力模块,得到两幅对应的注意力图;
目标位置检测子模块,将两幅特征响应图与两幅注意力图分别相乘再相加,计算最终的响应图,响应图峰值对应的即为目标所在的位置;
所述模型更新模块用于跟踪模型参数的更新,包含以下子模块:
外观模型更新子模块,在目标跟踪模块完成一帧图像的跟踪后,当满足一定条件时,以当前帧的图像和目标位置生成的二维高斯响应图作为真实标签对外观模型的参数进行微调;
运动模型更新子模块,在目标跟踪模块完成一帧图像的跟踪后,当满足一定条件时,以当前帧的图像和目标位置生成的0-1掩膜响应图作为真实标签对运动模型的参数进行微调;
自我注意力模块更新子模块,在目标跟踪模块完成一帧图像的跟踪后,当满足一定条件时,以当前帧的外观响应图,运动响应图和目标位置生成的最终响应图作为真实标签对自我注意力模块的参数进行微调。
CN202110478239.XA 2021-04-30 2021-04-30 视频小目标跟踪方法和装置 Active CN113269808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110478239.XA CN113269808B (zh) 2021-04-30 2021-04-30 视频小目标跟踪方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110478239.XA CN113269808B (zh) 2021-04-30 2021-04-30 视频小目标跟踪方法和装置

Publications (2)

Publication Number Publication Date
CN113269808A true CN113269808A (zh) 2021-08-17
CN113269808B CN113269808B (zh) 2022-04-15

Family

ID=77229700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110478239.XA Active CN113269808B (zh) 2021-04-30 2021-04-30 视频小目标跟踪方法和装置

Country Status (1)

Country Link
CN (1) CN113269808B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114245206A (zh) * 2022-02-23 2022-03-25 阿里巴巴达摩院(杭州)科技有限公司 视频处理方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014016839A (ja) * 2012-07-09 2014-01-30 Nippon Telegr & Teleph Corp <Ntt> 移動物体追跡装置
CN106203428A (zh) * 2016-07-05 2016-12-07 武汉大学 基于模糊估计融合的图像显著性检测方法
CN109493364A (zh) * 2018-09-26 2019-03-19 重庆邮电大学 一种结合残差注意力和上下文信息的目标跟踪算法
CN110827318A (zh) * 2019-10-18 2020-02-21 天津大学 一种基于多层语义特征与多响应图融合的目标跟踪方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
US20200265249A1 (en) * 2018-02-27 2020-08-20 Tusimple, Inc. System and method for online real-time multi-object tracking
CN112233147A (zh) * 2020-12-21 2021-01-15 江苏移动信息系统集成有限公司 一种基于双路孪生网络的视频运动目标跟踪方法及装置
CN112651998A (zh) * 2021-01-18 2021-04-13 沈阳航空航天大学 基于注意力机制和双流多域卷积神经网络的人体跟踪算法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014016839A (ja) * 2012-07-09 2014-01-30 Nippon Telegr & Teleph Corp <Ntt> 移動物体追跡装置
CN106203428A (zh) * 2016-07-05 2016-12-07 武汉大学 基于模糊估计融合的图像显著性检测方法
US20200265249A1 (en) * 2018-02-27 2020-08-20 Tusimple, Inc. System and method for online real-time multi-object tracking
CN109493364A (zh) * 2018-09-26 2019-03-19 重庆邮电大学 一种结合残差注意力和上下文信息的目标跟踪算法
CN110827318A (zh) * 2019-10-18 2020-02-21 天津大学 一种基于多层语义特征与多响应图融合的目标跟踪方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN112233147A (zh) * 2020-12-21 2021-01-15 江苏移动信息系统集成有限公司 一种基于双路孪生网络的视频运动目标跟踪方法及装置
CN112651998A (zh) * 2021-01-18 2021-04-13 沈阳航空航天大学 基于注意力机制和双流多域卷积神经网络的人体跟踪算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HASAN SARIBAS 等: "TRAT: Tracking by Attention Using Spatio-Temporal Features", 《ARXIV》 *
YUJIA GUO 等: "Object Tracking on Satellite Videos: A Correlation Filter-Based Tracking Method With Trajectory Correction by Kalman Filter", 《IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING》 *
李生武 等: "基于自注意力机制的多域卷积神经网络的视觉追踪", 《计算机应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114245206A (zh) * 2022-02-23 2022-03-25 阿里巴巴达摩院(杭州)科技有限公司 视频处理方法及装置

Also Published As

Publication number Publication date
CN113269808B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
EP3979200A1 (en) Video target tracking method and apparatus, computer device and storage medium
CN111797716B (zh) 一种基于Siamese网络的单目标跟踪方法
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
CN110069985B (zh) 基于图像的目标点位置检测方法、装置、电子设备
US20230134967A1 (en) Method for recognizing activities using separate spatial and temporal attention weights
US20230042187A1 (en) Behavior recognition method and system, electronic device and computer-readable storage medium
CN112347861A (zh) 一种基于运动特征约束的人体姿态估计方法
CN113706581B (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN112464912B (zh) 基于YOLO-RGGNet的机器人端人脸检测方法
CN114220061B (zh) 一种基于深度学习的多目标跟踪方法
CN113724379B (zh) 融合图像与激光点云的三维重建方法及装置
CN109657538B (zh) 基于上下文信息指导的场景分割方法和系统
WO2023102223A1 (en) Cross-coupled multi-task learning for depth mapping and semantic segmentation
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
CN111784624A (zh) 目标检测方法、装置、设备及计算机可读存储介质
CN112396036A (zh) 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
CN113269808B (zh) 视频小目标跟踪方法和装置
CN114708615A (zh) 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质
CN113487530B (zh) 一种基于深度学习的红外与可见光融合成像方法
CN113763417B (zh) 一种基于孪生网络和残差结构的目标跟踪方法
CN112101113B (zh) 一种轻量化的无人机图像小目标检测方法
CN114219757B (zh) 一种基于改进Mask R-CNN的车辆智能定损方法
CN114820723A (zh) 一种基于联合检测和关联的在线多目标跟踪方法
CN111832508B (zh) 基于die_ga的低照度目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant