CN112288776B - 一种基于多时间步金字塔编解码器的目标跟踪方法 - Google Patents

一种基于多时间步金字塔编解码器的目标跟踪方法 Download PDF

Info

Publication number
CN112288776B
CN112288776B CN202011154966.2A CN202011154966A CN112288776B CN 112288776 B CN112288776 B CN 112288776B CN 202011154966 A CN202011154966 A CN 202011154966A CN 112288776 B CN112288776 B CN 112288776B
Authority
CN
China
Prior art keywords
convolution
target
time
term
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011154966.2A
Other languages
English (en)
Other versions
CN112288776A (zh
Inventor
李平
张宇
蒋天翼
徐向华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011154966.2A priority Critical patent/CN112288776B/zh
Publication of CN112288776A publication Critical patent/CN112288776A/zh
Application granted granted Critical
Publication of CN112288776B publication Critical patent/CN112288776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于多时间步金字塔编解码器的目标跟踪方法。本发明方法首先对含有模板帧的视频帧序列通过编码器获取时序编码特征,并对时序编码特征进行卷积与池化操作获得时序卷积核;然后构建全局卷积模块获得帧序列的长短期特征,并将时序编码特征与长短期特征输入构建的多尺度特征生成模型以捕获多尺度特征;最后通过分类支路与回归支路获得目标中心点及其所在区域信息,并据此获得最终的目标边界框。本发明方法利用多时间步编码器并行地快速处理连续的多个视频帧,通过全卷积模块刻画视频帧间的长短期时序关系,并充分融合不同尺度下的目标特征,能够有效捕捉跨度时间长、尺度变化大的目标,提高了目标跟踪的准确率和效率。

Description

一种基于多时间步金字塔编解码器的目标跟踪方法
技术领域
本发明属于视频理解中的目标跟踪技术领域,涉及一种基于多时间步金字塔编解码器的目标跟踪方法。
背景技术
随着公共安全日益在人们的社会生产活动中占据重要的地位,遍布街头巷道、商场车站的视频采集设备构成了智慧城市的眼睛,对视频中的特定目标如人或物体的追踪是诸如嫌犯追踪、失踪人群定位等任务的基础需求。由此,高效地追踪目标重要目标成为视频处理中的重要研究任务。目标跟踪旨在对视频中的任意给定目标,确定其在视频帧序列中准确位置,一般用边界矩形框标识目标,在自动驾驶、增强现实、体育比赛、医学影像、海洋探索等领域有着广泛的应用。例如,在无人驾驶环境中,目标跟踪能够对周围环境中存在的主要目标进行追踪从而有效地确保车辆安全行驶,从而保障乘客人员的安全。目标跟踪主要遇到的困难包括视频的某个目标外观随着时间和拍摄光照发生变化、目标快速运动造成运动模糊、视频背景中存在相似物体干扰等,这些问题给目标跟踪带来很大挑战。
传统方法中基于相关滤波的目标跟踪算法由于其快速高效的特性成为目标跟踪早期算法的主流方向,但当视频的目标随着如形状、光照等发生变化且变化过于剧烈时,这类算法则无法有效地表征目标,从而导致跟踪失败。近年来兴起的深层神经网络为视频数据提供了强大的表征能力,如研究人员提出了基于相关滤波和卷积神经网络的判别相关滤波算法,即利用物体的外观特征在深层特征空间训练一个具有判别能力的相关滤波器,获得更加优越的是否为目标区域的判别性能。另外,基于孪生网络的目标匹配方法被广泛运用到目标跟踪领域,主要思想是通过构建孪生神经网络(即两个结构与参数相同的神经网络)分别将目标的模板图像(即通过给定目标边界框裁剪的帧图像)与视频帧图像投影至特征空间并计算两者的相似度,外观相似的像素点具有高得分,不相似的像素点具有低得分;最后基于相似度的得分确定目标在视频帧图像上的位置区域。
现有的目标跟踪方法存在许多缺点,例如基于相关滤波的算法能够很好地捕捉目标的运动变化但缺乏对目标尺度变化的适应能力,当目标的尺度变化较大时,这类算法无法准确估计目标的尺度;基于孪生网络的算法仅利用了目标的外观信息构建模型,未考虑目标的运动信息,难以适应背景中相似物体的干扰;基于运动模型的方法仅利用预测边界框在时序上的移动方向信息,但由于运动方向的不确定性导致仅能预测下一时刻的较大目标区域且区域范围较为模糊,而非自适应的学习目标运动信息。同时,基于孪生网络的目标跟踪算法一般预先离线训练卷积神经网络模型,在部署时不涉及模型的在线更新,所以难以有效利用线上产生的大量历史预测目标边界框以及神经网络的中间层特征。为了解决目标大小形状的剧烈变化以及难以确定目标区域位置等问题,迫切需要一种充分利用长短期时序信息且能有效捕捉目标尺度变化的方法,从而提升目标边界框的预测精度。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于多时间步金字塔编解码器的目标跟踪方法,利用时序上下文信息自适应地学习目标的运动模式,同时捕捉目标的不同尺度变化,以获得更优的相似物体判别能力,从而准确地跟踪视频中的给定目标。
本发明方法首先获取包含模板帧的视频数据集合,然后进行如下操作:
步骤(1).构建多时间步编码器,输入为视频帧序列与模板帧,输出为一组时序编码特征;
步骤(2).对时序编码特征进行卷积与池化操作,获得时序卷积核;
步骤(3).构建全局卷积模块,输入为成对的时序编码特征与时序卷积核,利用视频帧之间的不同跨度时序信息输出帧序列对应的长短期特征;
步骤(4).构建多尺度特征生成模型,输入为时序编码特征和长短期特征,利用金字塔解码器、全局卷积模块、多时间步编码器,获得帧序列的多尺度特征;
步骤(5).将帧序列的多尺度特征输入分类支路,获得多个目标前背景及候选中心点的预测概率,输入回归支路获得目标区域边界框的顶点预测位置,据此获得最终的目标边界框。
进一步,步骤(1)具体是:
(1-1).构建多时间步编码器,其中编码器由全卷积神经网络ResNet组成,编码器的数量为K+1个,对应视频连续的K帧和视频的模板帧,模板帧是指含目标边界框的视频首帧,K+1个编码器组成了多时间步编码器;
(1-2).将高为H、宽为W的RGB视频帧I∈R3×H×W输入编码器,获得时序编码特征
Figure BDA0002742422130000021
H1>H2>…>HS,W1>W2>…>WS,时序编码特征为多个神经网络中间层特征,根据神经网络中间层特征张量的Hi维度与Wi维度的不同分为S个阶段的时序编码特征,Hi×Wi表示分辨率,第i个阶段是指全卷积神经网络ResNet中由多个卷积层组成的模块;
(1-3).将视频的模板帧与连续的K个视频帧{I(1),I(T-K+1),...,I(T)}输入多时间步编码器,获得K+1组时序编码特征
Figure BDA0002742422130000031
其中j对应视频帧编号,这里除了j=1表示视频首帧外,其余的j=T-K+1到j=T为连续的K个视频帧,T表示单个视频的总帧数。
再进一步,步骤(2)具体是:
(2-1).时序编码特征
Figure BDA0002742422130000032
通过两个结构相同但参数不共享的卷积层,获得两个中间特征表示
Figure BDA0002742422130000033
其中下标h表示对高度Hi进行操作,下标w表示对宽度Wi进行操作;
(2-2).对两个中间特征表示
Figure BDA0002742422130000034
Figure BDA0002742422130000035
分别进行高度Hi维度上和宽度Wi维度上的平均池化,获得高度卷积核
Figure BDA0002742422130000036
和宽度卷积核
Figure BDA0002742422130000037
即为时序卷积核。
更进一步,步骤(3)具体是:
(3-1).构建全局卷积模块,全局卷积模块由多个自定义逐层卷积操作组成;
(3-2).自定义逐层卷积的具体操作如下:当输入为成对的时序编码特征
Figure BDA0002742422130000038
与时序卷积核
Figure BDA0002742422130000039
时,某一通道的逐层卷积操作表示为
Figure BDA00027424221300000310
其中,上标o表示输出(Output),
Figure BDA00027424221300000311
表示输出的长短期特征在Ci维度中的第l层特征矩阵,长短期特征是指长期特征和短期特征;fl表示时序编码特征在Ci维度的第l层特征矩阵,
Figure BDA00027424221300000312
Figure BDA00027424221300000313
分别表示时序卷积核中的高度卷积核
Figure BDA00027424221300000314
与宽度卷积核
Figure BDA00027424221300000315
在Ci维度中的第l层特征矩阵,符号“*”表示普通卷积操作;将特征矩阵沿着Ci维度叠加获得短期特征
Figure BDA00027424221300000316
当输入为当前帧的时序编码特征
Figure BDA00027424221300000317
与视频首帧(即j=1)的时序卷积核
Figure BDA00027424221300000318
时,通过相同的上述操作,获得长期特征
Figure BDA00027424221300000319
(3-3).不同跨度时序信息包括当前帧的时序编码特征
Figure BDA00027424221300000320
与前一帧的时序卷积核
Figure BDA00027424221300000321
通过自定义逐层卷积构建的短期时序信息,以及当前帧的时序编码特征
Figure BDA00027424221300000322
与视频首帧的时序卷积核
Figure BDA00027424221300000323
通过自定义逐层卷积构建的长期时序信息。
又进一步,步骤(4)具体是:
(4-1).多尺度特征生成模型包括金字塔解码器、全局卷积模块、多时间步编码器等模块;
(4-2).金字塔解码器由S个上采样优化子模块顺序组成,即
Figure BDA0002742422130000041
这里refine(j)(·)函数映射包含多个卷积层与上采样层并称之为上采样优化子模块,对应(1-1)的多时间步编码器的S个阶段;
(4-3).利用(3-2)的全局卷积模块获得短期特征
Figure BDA0002742422130000042
并输入上采样优化子模块,获得短期响应特征
Figure BDA0002742422130000043
即若存在前一个上采样优化子模块输出的特征表示
Figure BDA0002742422130000044
则将短期特征
Figure BDA0002742422130000045
与特征表示
Figure BDA0002742422130000046
相加并输入上采样优化子模块,得到短期响应特征:
Figure BDA0002742422130000047
(4-4).将短期响应特征
Figure BDA0002742422130000048
输入(1-1)的多时间步编码器,并与初始的时序编码特征
Figure BDA0002742422130000049
相加后输入(1-1)的编码器,获得优化后的短期响应特征
Figure BDA00027424221300000410
(4-5).将优化后的短期响应特征
Figure BDA00027424221300000411
作为时序编码特征经过(3-2)的全局卷积模块获得长期特征
Figure BDA00027424221300000412
(4-6).将长期特征
Figure BDA00027424221300000413
输入至金字塔解码器,获得视频帧序列的多尺度特征
Figure BDA00027424221300000414
继续进一步,步骤(5)具体是:
(5-1).构建分类支路,分类支路由分类卷积模块与中心卷积模块组成,这两个卷积模块均由两个全卷积层组成,并且每一个分辨率的多尺度特征对应一个分类支路,共计S个分类支路,对应(1-1)中编码器的S个阶段;其中,分类卷积模块用于区分输入的帧序列像素点属于前景或背景的概率,中心卷积模块用于区分输入的帧序列像素点属于目标候选中心点的概率;
①将多尺度特征
Figure BDA00027424221300000415
输入至分类卷积模块,获得目标分类预测张量
Figure BDA00027424221300000416
由两个维度为hi×wi矩阵组成,第一个矩阵元素表示属于前景目标的概率,第二个矩阵元素表示属于背景的概率;
②将多尺度特征
Figure BDA00027424221300000417
输入至中心卷积模块,获得目标候选中心点预测矩阵
Figure BDA00027424221300000418
矩阵的每个元素表示属于目标中心点的概率;
(5-2).构建S个由回归卷积模块组成的回归支路,对应编码器的S个阶段,其中回归卷积模块均为全卷积层且每种分辨率的多尺度特征对应一个回归支路;将多尺度特征
Figure BDA0002742422130000051
输入回归卷积模块获得目标顶点的预测张量
Figure BDA0002742422130000052
该张量由四个大小为hi×wi的矩阵堆叠组成,这四个矩阵对应位置元素依次表示目标边界框左上顶点的横坐标、纵坐标以及右下顶点的横坐标、纵坐标,也即相对于当前位置的四个偏移量;
(5-3).将S组预测结果
Figure BDA0002742422130000053
通过双线性插值将后两个维度hi×wi缩放至H×W,利用均值策略加权求和获得最终的预测张量集合
Figure BDA0002742422130000054
Figure BDA0002742422130000055
其中{λiii}>0为可学习的神经网络参数;
(5-4).根据目标分类预测张量P(j)中前景目标的概率高低选取前N个目标向量
Figure BDA0002742422130000056
(5-5).根据选取的前N个目标向量从目标候选中心点预测矩阵Q(j)选取对应位置的N个中心向量
Figure BDA0002742422130000057
从目标候选中心点预测矩阵Q(j)选取属于目标中心点概率最高的向量二维坐标(x,y);
(5-6).根据目标中心点的二维坐标(x,y)获得目标顶点预测张量R(j)对应的位置元素向量r(j)∈R4,即目标左上顶点和右下顶点的位移偏置向量[xlu,ylu,xrd,yrd],从而求得左上顶点坐标(x+xlu,y+ylu)和右下顶点坐标(x+xrd,y+yrd),据此坐标值确定一个矩形区域,即目标的最终边界框。
本发明方法利用多时间步编码器和以金字塔解码器核心的全局卷积模块对视频中的目标进行跟踪,该方法具有以下几个特点:1)不同于已有方法逐帧顺序处理视频帧,所设计的方法使用多时间步编码器同时对多个连续视频帧进行特征提取;2)利用多时间步编码器提取的时序编码特征以及通过全局卷积模块捕获视频帧序列的长期与短期时序关系,而传统方法仅利用长期时序关系忽略相邻帧间的短期时序关系;3)现有的方法一般依赖预设边界框缺乏对目标尺度变化的学习,本方法利用金字塔结构对目标多尺度变化进行学习。
本发明方法适用于在跨度时间长且目标尺度变化大的场景跟踪视频目标,有益效果包括:1)利用多时间步编码能够并行处理多个连续视频帧,能够提高处理效率;2)通过全局卷积模块构建视频首帧与当前视频帧的长期关系以及当前视频帧与其相邻帧的短期关系,充分考虑目标的时序关系以获得根据准确的目标位置区域;3)通过构建金字塔解码器对目标的多尺度变化进行学习,充分融合不同尺度下的目标特征,获得更加准确的边界框尺度。本发明所具有的长短期时序学习能力与捕获多尺度变化能力,可应用于无人驾驶、智慧安防、嫌犯的定位与追踪等。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1,一种基于多时间步金字塔编解码器的目标跟踪方法,首先将给定的视频帧序列与模板帧输入多时间步编码器得到一组时序编码特征,并对其进行卷积与池化操作获得时序卷积核;然后利用视频帧间的不同跨度时序信息得到长短期特征,将长短期特征与时序编码特征输入金字塔解码器、全局卷积模块、多时间步编码器等获得多尺度特征;最后利用多尺度特征确定目标区域的中心点及顶点预测位置,据此获得目标的边界框。该方法利用多时间步编码器并行处理多个连续帧提高效率,设计的全局卷积模块能够刻画视频首帧与当前帧间的长期关系以及当前帧与相邻帧间的短期关系,并通过金字塔模型捕获多尺度特征,从而更好地跟踪视频中的目标。
该方法首先获取包含模板帧的视频数据集合,然后进行以下操作:
步骤(1).构建多时间步编码器,输入为视频帧序列与模板帧,输出为一组时序编码特征;具体是:
(1-1).构建多时间步编码器,其中编码器由全卷积神经网络ResNet组成,编码器共计K+1个,分别对应视频连续的K帧与视频的模板帧,K+1个编码器组成了多时间步编码器,其中模板帧是指含目标边界框的视频首帧;
(1-2).将高为H宽为W的RGB视频帧I∈R3×H×W输入编码器,获得的多个神经网络中间层特征称为时序编码特征
Figure BDA0002742422130000061
其中H1>H2>...>HS,W1>W2>...>WS,根据神经网络中间层特征张量的Hi维度与Wi维度的不同分为S个阶段的时序编码特征,其中i表示时序编码特征阶段下标,Hi×Wi表示分辨率,这里的第i个阶段是指全卷积神经网络ResNet中由多个卷积层组成的模块;
(1-3).将视频的模板帧与连续的K个视频帧{I(1),I(T-K+1),...,I(T)}输入多时间步编码器,获得K+1组时序编码特征
Figure BDA0002742422130000071
其中j对应视频帧编号,这里除了j=1表示视频首帧外,其余的j=T-K+1到j=T是指连续的K个视频帧。
步骤(2).对时序编码特征进行卷积与池化操作,获得时序卷积核;具体是:
(2-1).时序编码特征
Figure BDA0002742422130000072
通过两个结构相同但参数不共享的卷积层,获得两个中间特征表示
Figure BDA0002742422130000073
其中下标h表示对高度Hi进行操作,下标w表示对宽度Wi进行操作;
(2-2).对两个中间特征表示
Figure BDA0002742422130000074
Figure BDA0002742422130000075
分别进行高度Hi维度上与宽度Wi维度上的平均池化,获得高度卷积核
Figure BDA0002742422130000076
与宽度卷积核
Figure BDA0002742422130000077
两者合并统称为时序卷积核。
步骤(3).构建全局卷积模块,输入为成对的时序编码特征与时序卷积核,利用视频帧之间的不同跨度时序信息输出帧序列对应的长短期特征;具体是:
(3-1).构建全局卷积模块,全局卷积模块由多个自定义逐层卷积操作组成;
(3-2).自定义逐层卷积的具体操作如下:当输入为成对的时序编码特征
Figure BDA0002742422130000078
与时序卷积核
Figure BDA0002742422130000079
时,某一通道的逐层卷积操作表示为
Figure BDA00027424221300000710
其中上标o表示输出(Output),fl表示时序编码特征在Ci维度的第l层特征矩阵;类似地,
Figure BDA00027424221300000711
Figure BDA00027424221300000712
分别表示时序卷积核中的高度卷积核
Figure BDA00027424221300000713
与宽度卷积核
Figure BDA00027424221300000714
在Ci维度中的第l层特征矩阵,符号“*”表示普通卷积操作,
Figure BDA00027424221300000715
表示输出的长短期特征在Ci维度中的第l层特征矩阵,将特征矩阵沿着Ci维度叠加获得短期特征
Figure BDA00027424221300000716
当输入为时序编码特征
Figure BDA00027424221300000717
与时序卷积核
Figure BDA00027424221300000718
时,通过类似操作可获得长期特征
Figure BDA00027424221300000719
长短期特征是指长期特征与短期特征;
(3-3).不同跨度时序信息指当前帧的时序编码特征
Figure BDA00027424221300000720
与前一帧的时序卷积核
Figure BDA00027424221300000721
通过自定义逐层卷积构建的短期时序信息,以及当前帧的时序编码特征
Figure BDA00027424221300000722
与视频首帧的时序卷积核
Figure BDA00027424221300000723
通过自定义逐层卷积构建的长期时序信息。
步骤(4).构建多尺度特征生成模型,输入为时序编码特征和长短期特征,利用金字塔解码器、全局卷积模块、多时间步编码器等模块获得帧序列的多尺度特征;具体是:
(4-1).多尺度特征生成模型包括金字塔解码器、全局卷积模块、多时间步编码器等模块;
(4-2).金字塔解码器由S个上采样优化子模块顺序组成,即
Figure BDA00027424221300000724
这里refine(j)(·)函数映射包含多个卷积层与上采样层并称之为上采样优化子模块,对应(1-1)的多时间步编码器的S个阶段;
(4-3).利用(3-2)的全局卷积模块获得短期特征
Figure BDA0002742422130000081
并输入上采样优化子模块,获得短期响应特征
Figure BDA0002742422130000082
即若存在前一个上采样优化子模块输出的特征表示
Figure BDA0002742422130000083
则将短期特征
Figure BDA0002742422130000084
与特征表示
Figure BDA0002742422130000085
相加并输入上采样优化子模块,得到短期响应特征:
Figure BDA0002742422130000086
(4-4).将短期响应特征
Figure BDA0002742422130000087
输入(1-1)的多时间步编码器,并与初始的时序编码特征
Figure BDA0002742422130000088
相加后输入(1-1)的编码器,获得优化后的短期响应特征
Figure BDA0002742422130000089
(4-5).将优化后的短期响应特征
Figure BDA00027424221300000810
作为时序编码特征经过(3-3)的全局卷积模块获得长期特征
Figure BDA00027424221300000811
(4-6).将长期特征
Figure BDA00027424221300000812
输入至金字塔解码器,获得视频帧序列的多尺度特征
Figure BDA00027424221300000813
步骤(5).将帧序列的多尺度特征输入分类支路获得多个目标前背景及候选中心点的预测概率,输入回归支路获得目标区域边界框的顶点预测位置,据此获得最终的目标边界框;具体是:
(5-1).构建分类支路,分类支路由分类卷积模块与中心卷积模块组成,这两个卷积模块均由两个全卷积层组成,并且每一个分辨率的多尺度特征对应一个分类支路,共计S个分类支路,对应(1-1)中编码器的S个阶段;其中,分类卷积模块用于区分输入的帧序列像素点属于前景或背景的概率,中心卷积模块用于区分输入的帧序列像素点属于目标候选中心点的概率;
①将多尺度特征
Figure BDA00027424221300000814
输入至分类卷积模块,获得目标分类预测张量
Figure BDA00027424221300000815
实际上由两个维度为hi×wi矩阵组成,第一个矩阵元素表示属于前景目标的概率,第二个矩阵元素表示属于背景的概率;
②将多尺度特征
Figure BDA00027424221300000816
输入至中心卷积模块,获得目标候选中心点预测矩阵
Figure BDA00027424221300000817
矩阵的每个元素表示属于目标中心点的概率;
(5-2).构建S个由回归卷积模块组成的回归支路,对应编码器的S个阶段,其中回归卷积模块均为全卷积层且每种分辨率的多尺度特征对应一个回归支路;将多尺度特征
Figure BDA0002742422130000091
输入回归卷积模块获得目标顶点的预测张量
Figure BDA0002742422130000092
该张量由四个大小为hi×wi的矩阵堆叠组成,这四个矩阵对应位置元素依次表示目标边界框左上顶点的横坐标、纵坐标以及右下顶点的横坐标、纵坐标,也即相对于当前位置的四个偏移量;
(5-3).将S组预测结果
Figure BDA0002742422130000093
通过双线性插值将后两个维度hi×wi缩放至H×W,利用均值策略加权求和获得最终的预测张量集合
Figure BDA0002742422130000094
Figure BDA0002742422130000095
其中,{λiii}>0为可学习的神经网络参数;
(5-4).根据目标分类预测张量P(j)中前景目标的概率高低选取前N个目标向量
Figure BDA0002742422130000096
(5-5).根据选取的前N个目标向量从目标候选中心点预测矩阵Q(j)选取对应位置的N个中心向量
Figure BDA0002742422130000097
从目标候选中心点预测矩阵Q(j)选取属于目标中心点概率最高的向量二维坐标(x,y);
(5-6).根据目标中心点的二维坐标(x,y)获得目标顶点预测张量R(j)对应的位置元素向量r(j)∈R4,即目标左上顶点和右下顶点的位移偏置向量[xlu,ylu,xrd,yrd],从而求得左上顶点坐标(x+xlu,y+ylu)和右下顶点坐标(x+xrd,y+yrd),据此坐标值确定一个矩形区域,即目标的最终边界框。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (3)

1.一种基于多时间步金字塔编解码器的目标跟踪方法,其特征在于,该方法首先获取包含模板帧的视频数据集合,然后进行如下操作:
步骤(1).构建多时间步编码器,输入为视频帧序列与模板帧,输出为一组时序编码特征;
具体是:
(1-1).构建由多个编码器组成的多时间步编码器,每个编码器由全卷积神经网络ResNet组成,编码器的数量为K+1个,对应视频连续的K帧和视频的模板帧,模板帧是指含目标边界框的视频首帧;
(1-2).将高为H、宽为W的RGB视频帧
Figure FDA0003589237140000011
输入编码器,获得时序编码特征
Figure FDA0003589237140000012
H1>H2>…>HS,W1>W2>…>WS,时序编码特征为多个神经网络中间层特征,根据神经网络中间层特征张量的高度Hi维度与宽度Wi维度的不同分为S个阶段的时序编码特征,Hi×Wi表示分辨率,第i个阶段是指全卷积神经网络ResNet中由多个卷积层组成的模块;
(1-3).将视频的模板帧与连续的K个视频帧{I(1),I(T-K+1),...,I(T)}输入多时间步编码器,获得K+1组时序编码特征
Figure FDA0003589237140000013
其中j对应视频帧编号,这里除了j=1表示视频首帧外,其余的j=T-K+1到j=T为连续的K个视频帧,T表示单个视频的总帧数;
步骤(2).对时序编码特征进行卷积与池化操作,获得时序卷积核;
步骤(3).构建全局卷积模块,输入为成对的时序编码特征与时序卷积核,利用视频帧之间的不同跨度时序信息输出帧序列对应的长短期特征;
步骤(4).构建多尺度特征生成模型,输入为时序编码特征和长短期特征,利用金字塔解码器、全局卷积模块、多时间步编码器,获得帧序列的多尺度特征;具体是:
(4-1).多尺度特征生成模型包括金字塔解码器、全局卷积模块、多时间步编码器;
(4-2).金字塔解码器由S个上采样优化子模块顺序组成,即
Figure FDA0003589237140000021
这里refine(j)(·)函数映射包含多个卷积层与上采样层并称之为上采样优化子模块,对应(1-1)的多时间步编码器的S个阶段;
(4-3).利用(3-2)的全局卷积模块获得短期特征
Figure FDA0003589237140000022
并输入上采样优化子模块,获得短期响应特征
Figure FDA0003589237140000023
即若存在前一个上采样优化子模块输出的特征表示
Figure FDA0003589237140000024
则将短期特征
Figure FDA0003589237140000025
与特征表示
Figure FDA0003589237140000026
相加并输入上采样优化子模块,得到短期响应特征:
Figure FDA0003589237140000027
(4-4).将短期响应特征
Figure FDA0003589237140000028
输入(1-1)的多时间步编码器,并与初始的时序编码特征
Figure FDA0003589237140000029
相加后输入(1-1)的编码器,获得优化后的短期响应特征
Figure FDA00035892371400000210
(4-5).将优化后的短期响应特征
Figure FDA00035892371400000211
作为时序编码特征经过(3-2)的全局卷积模块获得长期特征
Figure FDA00035892371400000212
(4-6).将长期特征
Figure FDA00035892371400000213
输入至金字塔解码器,获得视频帧序列的多尺度特征
Figure FDA00035892371400000214
步骤(5).将帧序列的多尺度特征输入分类支路,获得多个目标前背景及候选中心点的预测概率,输入回归支路获得目标边界框的顶点预测位置,获得最终的目标边界框;具体是:
(5-1).构建分类支路,分类支路由分类卷积模块与中心卷积模块组成,这两个卷积模块均由两个全卷积层组成,并且每一个分辨率的多尺度特征对应一个分类支路,共计S个分类支路,对应(1-1)中编码器的S个阶段;分类卷积模块用于区分输入的帧序列像素点属于前景或背景的概率,中心卷积模块用于区分输入的帧序列像素点属于目标候选中心点的概率;
①将多尺度特征
Figure FDA00035892371400000215
输入至分类卷积模块,获得目标分类预测张量
Figure FDA00035892371400000216
由两个维度为hi×wi矩阵组成,第一个矩阵元素表示属于前景目标的概率,第二个矩阵元素表示属于背景的概率;
②将多尺度特征
Figure FDA00035892371400000217
输入至中心卷积模块,获得目标候选中心点预测矩阵
Figure FDA00035892371400000218
矩阵的每个元素表示属于目标中心点的概率;
(5-2).构建S个由回归卷积模块组成的回归支路,对应编码器的S个阶段,其中回归卷积模块均为全卷积层且每种分辨率的多尺度特征对应一个回归支路;将多尺度特征
Figure FDA0003589237140000031
输入回归卷积模块获得目标顶点的预测张量
Figure FDA0003589237140000032
该张量由四个大小为hi×wi的矩阵堆叠组成,这四个矩阵对应位置元素依次表示目标边界框左上顶点的横坐标、纵坐标以及右下顶点的横坐标、纵坐标,也即相对于当前位置的四个偏移量;
(5-3).将S组预测结果
Figure FDA0003589237140000033
通过双线性插值将后两个维度hi×wi缩放至H×W,利用均值策略加权求和获得最终的预测张量集合
Figure FDA0003589237140000034
Figure FDA0003589237140000035
iii}>0,为可学习的神经网络参数;
(5-4).根据目标分类预测张量P(j)中前景目标的概率高低选取前N个目标向量
Figure FDA0003589237140000036
(5-5).根据选取的前N个目标向量从目标候选中心点预测矩阵Q(j)选取对应位置的N个中心向量
Figure FDA0003589237140000037
从目标候选中心点预测矩阵Q(j)选取属于目标中心点概率最高的向量二维坐标(x,y);
(5-6).根据目标中心点的二维坐标(x,y)获得目标顶点预测张量R(j)对应的位置元素向量
Figure FDA0003589237140000038
即目标左上顶点和右下顶点的位移偏置向量[xlu,ylu,xrd,yrd],从而求得左上顶点坐标(x+xlu,y+ylu)和右下顶点坐标(x+xrd,y+yrd),据此坐标值确定一个矩形区域,即最终的目标边界框。
2.如权利要求1所述的一种基于多时间步金字塔编解码器的目标跟踪方法,其特征在于,步骤(2)具体方法是:
(2-1).时序编码特征
Figure FDA0003589237140000039
通过两个结构相同但参数不共享的卷积层,获得两个中间特征表示
Figure FDA00035892371400000310
其中下标h表示对高度Hi进行操作,下标w表示对宽度Wi进行操作;
(2-2).对两个中间特征表示
Figure FDA0003589237140000041
Figure FDA0003589237140000042
分别进行高度Hi维度上和宽度Wi维度上的平均池化,获得高度卷积核
Figure FDA0003589237140000043
和宽度卷积核
Figure FDA0003589237140000044
即为时序卷积核。
3.如权利要求1所述的一种基于多时间步金字塔编解码器的目标跟踪方法,其特征在于,步骤(3)具体方法是:
(3-1).构建全局卷积模块,全局卷积模块由多个自定义逐层卷积操作组成;
(3-2).自定义逐层卷积的具体操作如下:当输入为成对的时序编码特征
Figure FDA0003589237140000045
与时序卷积核
Figure FDA0003589237140000046
时,某一通道的逐层卷积操作表示为
Figure FDA0003589237140000047
其中,上标o表示输出(Output),
Figure FDA0003589237140000048
表示输出的长短期特征在Ci维度中的第l层特征矩阵,长短期特征是指长期特征和短期特征;fl表示时序编码特征在Ci维度的第l层特征矩阵,
Figure FDA0003589237140000049
Figure FDA00035892371400000410
分别表示时序卷积核中的高度卷积核
Figure FDA00035892371400000411
与宽度卷积核
Figure FDA00035892371400000412
在Ci维度中的第l层特征矩阵,符号“*”表示普通卷积操作;将特征矩阵沿着Ci维度叠加获得短期特征
Figure FDA00035892371400000413
当输入为当前帧的时序编码特征
Figure FDA00035892371400000414
与视频首帧的时序卷积核
Figure FDA00035892371400000415
时,通过相同的上述操作,获得长期特征
Figure FDA00035892371400000416
(3-3).不同跨度时序信息包括当前帧的时序编码特征
Figure FDA00035892371400000417
与前一帧的时序卷积核
Figure FDA00035892371400000418
通过自定义逐层卷积构建的短期时序信息,以及当前帧的时序编码特征
Figure FDA00035892371400000419
与视频首帧的时序卷积核
Figure FDA00035892371400000420
通过自定义逐层卷积构建的长期时序信息。
CN202011154966.2A 2020-10-26 2020-10-26 一种基于多时间步金字塔编解码器的目标跟踪方法 Active CN112288776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011154966.2A CN112288776B (zh) 2020-10-26 2020-10-26 一种基于多时间步金字塔编解码器的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011154966.2A CN112288776B (zh) 2020-10-26 2020-10-26 一种基于多时间步金字塔编解码器的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN112288776A CN112288776A (zh) 2021-01-29
CN112288776B true CN112288776B (zh) 2022-06-24

Family

ID=74372234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011154966.2A Active CN112288776B (zh) 2020-10-26 2020-10-26 一种基于多时间步金字塔编解码器的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN112288776B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139484B (zh) * 2021-04-28 2023-07-11 上海商汤科技开发有限公司 人群定位方法及装置、电子设备和存储介质
CN113422952B (zh) * 2021-05-17 2022-05-31 杭州电子科技大学 基于时空传播层次编解码器的视频预测方法
CN114333070A (zh) * 2022-03-10 2022-04-12 山东山大鸥玛软件股份有限公司 一种基于深度学习的考生异常行为检测方法
CN114758304B (zh) * 2022-06-13 2022-09-02 江苏中腾石英材料科技股份有限公司 一种高纯圆角石英粉的过筛设备及其过筛控制方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476133A (zh) * 2020-03-30 2020-07-31 杭州电子科技大学 面向无人驾驶的前背景编解码器网络目标提取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671102B (zh) * 2018-12-03 2021-02-05 华中科技大学 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法
CN110378288B (zh) * 2019-07-19 2021-03-26 合肥工业大学 一种基于深度学习的多级时空运动目标检测方法
CN110889865B (zh) * 2019-10-31 2023-08-25 广东技术师范大学 一种基于局部加权稀疏特征选择的视频目标跟踪方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476133A (zh) * 2020-03-30 2020-07-31 杭州电子科技大学 面向无人驾驶的前背景编解码器网络目标提取方法

Also Published As

Publication number Publication date
CN112288776A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112288776B (zh) 一种基于多时间步金字塔编解码器的目标跟踪方法
CN111797716B (zh) 一种基于Siamese网络的单目标跟踪方法
CN110781838B (zh) 一种复杂场景下行人的多模态轨迹预测方法
CN107967451B (zh) 一种对静止图像进行人群计数的方法
CN110147743A (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN113469094A (zh) 一种基于多模态遥感数据深度融合的地表覆盖分类方法
Zhang et al. Asymmetric cross-attention hierarchical network based on CNN and transformer for bitemporal remote sensing images change detection
CN109241913A (zh) 结合显著性检测和深度学习的船只检测方法及系统
CN112733656B (zh) 基于多流空间注意力图卷积sru网络的骨架动作识别方法
CN111047548A (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
CN110889844B (zh) 一种基于深度聚类分析的珊瑚分布及健康状况评估方法
CN112784736B (zh) 一种多模态特征融合的人物交互行为识别方法
CN112560865B (zh) 一种室外大场景下点云的语义分割方法
CN112837344B (zh) 一种基于条件对抗生成孪生网络的目标跟踪方法
CN113283525B (zh) 一种基于深度学习的图像匹配方法
CN113870160B (zh) 一种基于变换器神经网络的点云数据处理方法
CN108491763A (zh) 三维场景识别网络的无监督训练方法、装置及存储介质
CN115359372A (zh) 一种基于光流网络的无人机视频运动目标检测方法
CN111797841A (zh) 一种基于深度残差网络的视觉显著性检测方法
CN112560624A (zh) 基于模型深度集成的高分遥感影像语义分割方法
CN110909625A (zh) 一种计算机视觉基础网络训练识别构建方法及装置
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
CN112597956A (zh) 基于人体锚点集合与感知增强网络的多人姿态估计方法
CN114419729A (zh) 一种基于轻量双流网络的行为识别方法
CN114565764A (zh) 基于舰船实例分割的港口全景感知系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant