CN114758282B - 基于时序校正卷积的视频预测方法 - Google Patents

基于时序校正卷积的视频预测方法 Download PDF

Info

Publication number
CN114758282B
CN114758282B CN202210463423.1A CN202210463423A CN114758282B CN 114758282 B CN114758282 B CN 114758282B CN 202210463423 A CN202210463423 A CN 202210463423A CN 114758282 B CN114758282 B CN 114758282B
Authority
CN
China
Prior art keywords
convolution
time
space
video
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210463423.1A
Other languages
English (en)
Other versions
CN114758282A (zh
Inventor
李平
张陈翰
王涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210463423.1A priority Critical patent/CN114758282B/zh
Publication of CN114758282A publication Critical patent/CN114758282A/zh
Application granted granted Critical
Publication of CN114758282B publication Critical patent/CN114758282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了基于时序校正卷积的视频预测方法。本发明方法对给定的原始视频进行采样预处理获得视频帧序列,并将该序列输入时序上下文融合模块,得到融合外观特征图和融合时空编码特征图,同时将该序列输入时序卷积校正模块得到卷积校正张量;然后,将得到的融合外观特征图、融合时空编码特征图和卷积校正张量通过自适应卷积时空编码器生成预测时空编码特征图;最后将预测时空编码特征图通过时空记忆解码器进行解码,输出预测视频帧序列。本发明方法不仅能够依据不同时刻的视频帧对卷积核参数进行校正,还能通过时序上下文融合策略对当前视频帧和历史帧时空编码特征的内在关系进行建模,从而生成更高视觉质量的预测视频帧序列。

Description

基于时序校正卷积的视频预测方法
技术领域
本发明属于计算机视觉技术领域,尤其是视频理解中的视频预测领域,涉及一种基于时序校正卷积的视频预测方法。
背景技术
近几年,随着移动互联网的飞速发展和视频感知设备的广泛普及,海量的视频数据源源不断从各类终端产生。如何通过历史视频数据预测未来成为研究者们关心的问题,即视频预测(Video Prediction)任务。该任务旨在给定过去时刻视频帧的情况下,生成未来时刻的视频帧,可以广泛应用于气象预测、城市交通状况预测、机器人动作规划以及无人驾驶等领域。例如,雷达回波图像能反映当地的降雨情况,视频预测方法通过刻画雷达回波历史图像的潜在变化规律,生成能准确反映短期气象变化趋势的视频,提升灾害天气的短期预报精度。此外,根据城市交通GPS数据,视频预测能够对城市的高峰期交通状况进行预判,从而帮助用户规划更合理的驾驶路线。
传统视频预测方法主要有基于浅层模型的手工提取特征方法、高斯过程模型、状态空间模型等,但这些方法难以表示真实复杂场景视频的潜在结构。近几年来,深度学习在计算机视觉领域获得巨大的成功,特别是在视频理解领域较大地提升了任务性能,其已被应用于视频预测模型的研发。例如,为了对视频中的时空特征进行建模,研究人员利用卷积神经网络与循环神经网络分别刻画空间特征与时间特征的特点,提出基于长短时记忆单元的卷积长短时记忆网络(ConvLSTM:Convolutional Long Short-Term Memory),以增强视频数据的表征与预测能力。进一步,为了刻画预测视频帧的底层细节特征(如纹理、边缘),现有工作在ConvLSTM的基础上增加时空记忆单元,实现更有效的时空特征建模。但是,这些方法容易出现梯度消失问题,难以捕捉距离较远的历史视频帧与当前视频帧之间的长时外观特征依赖关系。为此,后续工作重用历史时空特征,即利用当前帧的外观特征和历史帧的时空特征对当前时空特征进行更新,以缓解梯度消失现象,从而增强模型对长时依赖关系捕捉的能力。
上述方法存在的不足点主要表现在三个方面:1)均使用相同的卷积核作用于对不同时刻视频帧的每个区域,然而视频序列中的空间特征随时间而变化,不同时刻采用相同参数的卷积核将妨碍模型对空间特征的刻画;2)为应对不同的视频帧采用的自适应调整卷积核参数方法(称为动态卷积),需要较大的计算开销以校正高维特征表示使之适应当前视频帧;3)若当前视频帧包含上下文无关的目标(如新物体)时,使得该帧的外观特征和历史帧的时空特征不相似,导致难以有效利用历史时空特征。因此,为了缓解现有方法对空间特征刻画不充分、难以有效利用历史时空特征和计算开销大的问题,迫切需要一种能够根据不同时刻的输入视频帧自适应地学习卷积核参数并能更有效利用历史时空特征的方法,从而提高预测视频的清晰度。
发明内容
本发明针对现有技术的不足,提供一种基于时序校正卷积的视频预测方法,一方面能根据不同时刻输入的视频帧自适应地学习卷积核参数,另一方面能利用时序上下文融合机制加强对历史时空特征的利用,并使当前视频帧和历史时空特征进行充分交互,以挖掘上下文无关帧图像和历史时空特征之间的潜在关系,从而生成画面更清晰的预测视频帧。
本发明方法首先获取原始视频数据集合,依次进行如下操作:
步骤(1)对原始视频进行采样,获得视频帧序列,将视频帧序列输入至时序上下文融合模块,输出对应的融合外观特征图和融合时空编码特征图;
步骤(2)构建时序卷积校正模块,输入为同一视频帧序列内两个长短不同的片段,输出卷积校正张量;
步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器,输入为融合外观特征图、融合时空编码特征图、卷积校正张量,输出为预测时空编码特征图;
步骤(4)构建时空记忆解码器,输入为融合时空编码特征图和预测时空编码特征图,输出为预测视频帧;
步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型,对新的视频序列依次通过步骤(1)~(4)得到后续预测视频序列。
进一步,步骤(1)具体是:
(1-1)对原始视频以采样率为每秒5~10帧进行采样,得到数量为N的视频帧序列
Figure BDA0003621227310000021
其中,
Figure BDA0003621227310000022
表示实数域,Xt表示第t帧,t=1,2,…,N,H表示视频帧高度,W表示视频帧宽度,3表示RGB通道数量;
(1-2)构建由两个二维卷积层组成的时序上下文融合模块,卷积核尺寸为5×5,填充为2,步长为1,两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征;
(1-3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列
Figure BDA0003621227310000031
C表示通道维度,当不足3帧时,该序列的元素均由全0初始化补全;将Xt和第t-3个时空编码特征图Ht-3经过卷积和逐元素相乘操作融合,得到强化外观特征图
Figure BDA0003621227310000032
X′t=2σ(Conv1(Ht-3))⊙Xt,符号⊙表示逐元素乘积,σ(·)表示Sigmoid激活函数;再将第t-1个时空编码特征图Ht-1和强化外观特征图X′t经过卷积和逐元素相乘操作融合,得到强化时空编码特征图
Figure BDA0003621227310000033
H′t-1=2σ(Conv2(X′t))⊙Ht-1,Conv1(·)、Conv2(·)表示卷积核大小为5×5的二维卷积层;
(1-4)将强化外观特征图X′t和第t-2个时空编码特征图Ht-2经过卷积和逐元素相乘操作融合,得到融合外观特征图
Figure BDA0003621227310000034
X″t=2σ(Conv1(Ht-2))⊙X′t;再将融合外观特征图X″t与强化时空编码特征图H′t-1经过卷积和逐元素相乘操作融合,得到融合时空编码特征图
Figure BDA0003621227310000035
H″t-1=2σ(Conv2(X″t))⊙H′t-1
更进一步,步骤(2)所述时序卷积校正模块由两个三维卷积层构成,分别用于提取短期和长期历史视频帧序列中的时空特征,根据短期历史视频帧序列
Figure BDA0003621227310000036
和长期历史视频帧序列
Figure BDA0003621227310000037
生成卷积校正张量,具体是:
(2-1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列
Figure BDA0003621227310000038
和长期历史视频帧序列
Figure BDA0003621227310000039
当不足5帧时,长短期视频帧序列元素由全0初始化补全;
(2-2)将短期历史视频帧序列
Figure BDA00036212273100000310
在空间维度上进行全局平均池化后,通过三维卷积得到短期上下文时空特征
Figure BDA00036212273100000311
Pooling(·)为空间维度上的全局平均池化,Conv3D1(·)表示输入通道为3、输出通道为C、卷积核尺寸为3×1×1的三维卷积层;
(2-3)将长期历史视频帧序列
Figure BDA00036212273100000312
在时序、空间维度上进行全局平均池化后,通过三维卷积得到长期上下文时空特征
Figure BDA00036212273100000313
GAP(·)为在时序、空间维度上的全局平均池化操作,Conv3D2(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层;
(2-4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt=δ(At+Bt)得到卷积校正张量
Figure BDA0003621227310000041
其中δ(·)为ReLU激活函数,Rt的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数。
再进一步,步骤(3)具体是:
(3-1)利用卷积长短时记忆模块构建自适应卷积时空编码器,所述的卷积长短时记忆模块(ConvLSTM)是将长短时记忆单元LSTM中的全连接层替换成卷积层后得到的模块;
(3-2)将融合外观特征图X″t、融合时空编码特征图H″t-1和卷积校正张量Rt输入自适应卷积时空编码器,获得卷积长短时记忆模块的第t个输入门
Figure BDA0003621227310000042
It=σ((Broadcast(Rt)⊙W1)*X″t+(Broadcast(Rt)⊙W2)*H″t-1);其中,
Figure BDA0003621227310000043
Figure BDA0003621227310000044
为二维卷积对应的卷积核,上标表示四个维度,分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数,Broadcast(·)用于对Rt的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等,*表示卷积操作;
(3-3)将融合外观特征图X″t、融合时空编码特征图H″t-1和卷积校正张量Rt作为输入,获得卷积长短时记忆模块的第t个遗忘门
Figure BDA0003621227310000045
和第t个输入调制门
Figure BDA0003621227310000046
Ft=σ((Broadcast(Rt)⊙W3)*X″t+(Broadcast(Rt)⊙W4)*H″t-1);其中,
Figure BDA0003621227310000047
Figure BDA0003621227310000048
为二维卷积对应的卷积核;
Gt=tanh((Broadcast(Rt)⊙W5)*X″t+(Broadcast(Rt)⊙W6)*H″t-1);其中,tanh(·)为双曲正切函数,
Figure BDA0003621227310000049
Figure BDA00036212273100000410
为二维卷积对应的卷积核;
(3-4)计算得到时空记忆状态
Figure BDA00036212273100000411
Mt=It⊙Gt+Ft⊙Mt-1;当t=1时,M0由全0初始化得到;
(3-5)将融合外观特征图X″t、融合时空编码特征图H″t-1和卷积校正张量Rt作为输入,获得卷积长短时记忆模块的第t个输出门
Figure BDA00036212273100000412
Ot=σ((Brodcast(Rt)⊙W7)*X″t+(Brodcast(Rt)⊙W8)*H″t-1);其中,
Figure BDA0003621227310000051
Figure BDA0003621227310000052
为二维卷积对应的卷积核;
(3-6)获得预测时空编码特征图
Figure BDA0003621227310000053
Ht=Ot⊙tanh(Mt)。
又进一步,步骤(4)具体是:利用一个二维卷积层构建时空记忆解码器,将融合时空编码特征图H″t-1和预测时空编码特征图Ht输入时空记忆解码器,由卷积操作得到预测视频帧
Figure BDA00036212273100000511
其中Conv3(·)表示卷积核尺寸为1×1二维卷积层,[·,·]表示在通道维度上的拼接操作。
还进一步,步骤(5)具体是:
(5-1)构建由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型;
(5-2)将视频帧序列的前t′帧依次输入视频预测模型,t′=1,2,…,M,M<N,其中M作为上下文视频帧数量,获得预测视频帧
Figure BDA0003621227310000055
再将
Figure BDA0003621227310000056
依次输入视频预测模型,t″=M,…,(N-1),得到预测视频帧
Figure BDA0003621227310000057
(5-3)将均方损失作为视频帧
Figure BDA0003621227310000058
和预测视频帧
Figure BDA0003621227310000059
之间的损失函数,均方误差损失
Figure BDA00036212273100000510
t″′为取值范围为2≤t″′≤N的视频帧时刻;
(5-4)利用随机梯度下降算法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的视频预测模型;
(5-5)对于新的视频通过采样得到M个视频帧,输入上述优化的视频预测模型,依照(5-2)依次输出指定数量的预测视频帧序列作为最终结果。
本发明提出了基于时序校正卷积的视频预测方法,该方法具有以下几个特点:1)利用时序卷积校正模块对不同时刻的卷积核进行校正,针对不同的输入视频帧模型采用不同的卷积参数提取特征,以适应视频帧序列中空间特征不断变化的特点;2)相比现有的动态卷积方法校正高维特征,本发明直接对卷积核进行校正,降低了模型的计算开销;3)通过时序上下文融合模块将历史视频编码特征分别与当前视频帧及其时空编码特征进行融合,使得输入自适应卷积时空编码器中的视频帧包含更多的历史时空特征,增强模型对长时依赖关系捕捉的能力。
本发明适用于预测多个未来视频帧的情况,有益效果包括:1)自适应卷积时空编码器根据校正后的卷积核对视频帧进行特征提取,增强模型对空间特征的刻画能力,以提高预测视频帧的清晰度;2)时序卷积校正模块直接对卷积核本身进行校正而非对高维特征进行校正,极大地减少动态卷积带来的计算开销;3)时序上下文融合模块通过将历史时空编码特征分别与当前视频帧及对应时空编码特征进行融合,增强模型挖掘上下文无关图像和历史时空编码特征之间关系的能力,有助于加强模型对长时依赖捕捉的能力,从而指导模型生成更加清晰的预测结果。本发明所具有的自适应校正卷积机制和时序上下文融合机制,可显著提高视频预测模型的性能,有期望被应用于雷达回波预测、城市交通情况预测等实际任务中。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1,基于时序校正卷积的视频预测方法,首先获取原始视频数据集合,然后依次进行如下操作:首先对原始视频进行均匀采样得到视频帧序列;构建时序上下文融合模块得到融合外观特征和融合时空编码特征图;再构建时序卷积校正模块,输出卷积校正张量;然后将融合外观特征、融合时空编码特征图和卷积校正张量输入自适应卷积时空编码器,得到预测时空编码特征图;最后,使用时空记忆解码器将预测时空编码特征图解码为预测视频帧;该方法利用时序卷积校正模块提取不同时刻的不同空间特征,并通过融合时序上下文时空编码特征加强对长时间的时空依赖关系捕捉的能力,从而生成更加清晰的预测视频。具体如下:
步骤(1)对原始视频进行采样,获得视频帧序列,将视频帧序列输入至时序上下文融合模块,输出对应的融合外观特征图和融合时空编码特征图;具体是:
(1-1)对原始视频以采样率为每秒5~10帧进行采样,得到数量为N的视频帧序列
Figure BDA0003621227310000061
其中,
Figure BDA0003621227310000062
表示实数域,Xt表示第t帧,t=1,2,…,N,H表示视频帧高度,W表示视频帧宽度,3表示RGB通道数量;
(1-2)构建由两个二维卷积层组成的时序上下文融合模块,卷积核尺寸为5×5,填充为2,步长为1,两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征;
(1-3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列
Figure BDA0003621227310000063
C表示通道维度,当不足3帧时,该序列的元素均由全0初始化补全;将Xt和第t-3个时空编码特征图Ht-3经过卷积和逐元素相乘操作融合,得到强化外观特征图
Figure BDA0003621227310000071
X′t=2σ(Conv1(Ht-3))⊙Xt,符号⊙表示逐元素乘积,σ(·)表示Sigmoid激活函数;再将第t-1个时空编码特征图Ht-1和强化外观特征图X′t经过卷积和逐元素相乘操作融合,得到强化时空编码特征图
Figure BDA0003621227310000072
H′t-1=2σ(Conv2(X′t))⊙Ht-1,Conv1(·)、Conv2(·)表示卷积核大小为5×5的二维卷积层;
(1-4)将强化外观特征图X′t和第t-2个时空编码特征图Ht-2经过卷积和逐元素相乘操作融合,得到融合外观特征图
Figure BDA0003621227310000073
X″t=2σ(Conv1(Ht-2))⊙X′t;再将融合外观特征图X″t与强化时空编码特征图H′t-1经过卷积和逐元素相乘操作融合,得到融合时空编码特征图
Figure BDA0003621227310000074
H″t-1=2σ(Conv2(X″t))⊙H′t-1
步骤(2)构建时序卷积校正模块,输入为同一视频帧序列内两个长短不同的片段,输出卷积校正张量;所述时序卷积校正模块由两个三维卷积层构成,分别用于提取短期和长期历史视频帧序列中的时空特征,根据短期历史视频帧序列
Figure BDA0003621227310000075
和长期历史视频帧序列
Figure BDA0003621227310000076
生成卷积校正张量,具体是:
(2-1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列
Figure BDA0003621227310000077
和长期历史视频帧序列
Figure BDA0003621227310000078
当不足5帧时,长短期视频帧序列元素由全0初始化补全;
(2-2)将短期历史视频帧序列
Figure BDA0003621227310000079
在空间维度上进行全局平均池化后,通过三维卷积得到短期上下文时空特征
Figure BDA00036212273100000710
Pooling(·)为空间维度上的全局平均池化,Conv3D1(·)表示输入通道为3、输出通道为C、卷积核尺寸为3×1×1的三维卷积层;
(2-3)将长期历史视频帧序列
Figure BDA00036212273100000711
在时序、空间维度上进行全局平均池化后,通过三维卷积得到长期上下文时空特征
Figure BDA00036212273100000712
GAP(·)为在时序、空间维度上的全局平均池化操作,Conv3D2(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层;
(2-4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt=δ(At+Bt)得到卷积校正张量
Figure BDA0003621227310000081
其中δ(·)为ReLU激活函数,Rt的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数。
步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器,输入为融合外观特征图、融合时空编码特征图、卷积校正张量,输出为预测时空编码特征图;具体是:
(3-1)利用卷积长短时记忆模块构建自适应卷积时空编码器,所述的卷积长短时记忆模块(ConvLSTM)是将长短时记忆单元LSTM中的全连接层替换成卷积层后得到的模块;
(3-2)将融合外观特征图X″t、融合时空编码特征图H″t-1和卷积校正张量Rt输入自适应卷积时空编码器,获得卷积长短时记忆模块的第t个输入门
Figure BDA0003621227310000082
It=σ((Broadcast(Rt)⊙W1)*X″t+(Broadcast(Rt)⊙W2)*H″t-1);其中,
Figure BDA0003621227310000083
Figure BDA0003621227310000084
为二维卷积对应的卷积核,上标表示四个维度,分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数(卷积核W1和W2的长和宽相同,卷积核W2的输入通道数和输出通道数相同),Broadcast(·)用于对Rt的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等,*表示卷积操作;
(3-3)将融合外观特征图X″t、融合时空编码特征图H″t-1和卷积校正张量Rt作为输入,获得卷积长短时记忆模块的第t个遗忘门
Figure BDA0003621227310000085
和第t个输入调制门
Figure BDA0003621227310000086
Ft=σ((Broadcast(Rt)⊙W3)*X″t+(Broadcast(Rt)⊙W4)*H″t-1);其中,
Figure BDA0003621227310000087
Figure BDA0003621227310000088
为二维卷积对应的卷积核;
Gt=tanh((Broadcast(Rt)⊙W5)*X″t+(Broadcast(Rt)⊙W6)*H″t-1);其中,tanh(·)为双曲正切函数,
Figure BDA0003621227310000089
Figure BDA00036212273100000810
为二维卷积对应的卷积核;
(3-4)计算得到时空记忆状态
Figure BDA00036212273100000811
Mt=It⊙Gt+Ft⊙Mt-1;当t=1时,M0由全0初始化得到;
(3-5)将融合外观特征图X″t、融合时空编码特征图H″t-1和卷积校正张量Rt作为输入,获得卷积长短时记忆模块的第t个输出门
Figure BDA00036212273100000812
Ot=σ((Brodcast(Rt)⊙W7)*X″t+(Brodcast(Rt)⊙W8)*H″t-1);其中,
Figure BDA0003621227310000091
Figure BDA0003621227310000092
为二维卷积对应的卷积核;
(3-6)获得预测时空编码特征图
Figure BDA0003621227310000093
Ht=Ot⊙tanh(Mt)。
步骤(4)构建时空记忆解码器,输入为融合时空编码特征图和预测时空编码特征图,输出为预测视频帧;具体是:利用一个二维卷积层构建时空记忆解码器,将融合时空编码特征图H″t-1和预测时空编码特征图Ht输入时空记忆解码器,由卷积操作得到预测视频帧
Figure BDA0003621227310000094
Figure BDA0003621227310000095
其中Conv3(·)表示卷积核尺寸为1×1二维卷积层,[·,·]表示在通道维度上的拼接操作。
步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型,对新的视频序列依次通过步骤(1)~(4)得到后续预测视频序列;具体是:
(5-1)构建由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型;
(5-2)将视频帧序列的前t′帧依次输入视频预测模型,t′=1,2,…,M,M<N,其中M作为上下文视频帧(用于为后续视频预测提供参考)数量,获得预测视频帧
Figure BDA0003621227310000096
再将
Figure BDA0003621227310000097
依次输入视频预测模型,t″=M,…,(N-1),得到预测视频帧
Figure BDA0003621227310000098
(5-3)将均方损失作为视频帧
Figure BDA0003621227310000099
和预测视频帧
Figure BDA00036212273100000910
之间的损失函数,均方误差损失
Figure BDA00036212273100000911
t″′为取值范围为2≤t″′≤N的视频帧时刻;
(5-4)利用随机梯度下降算法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的视频预测模型;
(5-5)对于新的视频通过采样得到M个视频帧,输入上述优化的视频预测模型,依照(5-2)依次输出指定数量的预测视频帧序列作为最终结果。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (5)

1.基于时序校正卷积的视频预测方法,其特征在于,首先获取原始视频数据集合,然后依次进行如下操作:
步骤(1)对原始视频进行采样,获得视频帧序列,将视频帧序列输入至时序上下文融合模块,输出对应的融合外观特征图和融合时空编码特征图;
步骤(2)构建时序卷积校正模块,输入为同一视频帧序列内两个长短不同的片段,输出卷积校正张量;
所述的时序卷积校正模块由两个三维卷积层构成,分别用于提取短期和长期历史视频帧序列中的时空特征,根据短期历史视频帧序列
Figure FDA0003914938130000011
和长期历史视频帧序列
Figure FDA0003914938130000012
生成卷积校正张量,具体是:
(2-1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列
Figure FDA0003914938130000013
和长期历史视频帧序列
Figure FDA0003914938130000014
当不足5帧时,长短期视频帧序列元素由全0初始化补全;
(2-2)将短期历史视频帧序列
Figure FDA0003914938130000015
在空间维度上进行全局平均池化后,通过三维卷积得到短期上下文时空特征
Figure FDA0003914938130000016
Pooling(·)为空间维度上的全局平均池化,Conv3D1(·)表示输入通道为3、输出通道为C、卷积核尺寸为3×1×1的三维卷积层;
(2-3)将长期历史视频帧序列
Figure FDA0003914938130000017
在时序、空间维度上进行全局平均池化后,通过三维卷积得到长期上下文时空特征
Figure FDA0003914938130000018
GAP(·)为在时序、空间维度上的全局平均池化操作,Conv3D2(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层;
(2-4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt=δ(At+Bt)得到卷积校正张量
Figure FDA0003914938130000019
其中δ(·)为ReLU激活函数,Rt的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数;
步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器,输入为融合外观特征图、融合时空编码特征图、卷积校正张量,输出为预测时空编码特征图;
步骤(4)构建时空记忆解码器,输入为融合时空编码特征图和预测时空编码特征图,输出为预测视频帧;
步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型,对新的视频序列依次通过步骤(1)~(4)得到后续预测视频序列。
2.如权利要求1所述基于时序校正卷积的视频预测方法,其特征在于,步骤(1)具体是:
(1-1)对原始视频以采样率为每秒5~10帧进行采样,得到数量为N的视频帧序列
Figure FDA0003914938130000021
其中,
Figure FDA0003914938130000022
表示实数域,Xt表示第t帧,t=1,2,…,N,H表示视频帧高度,W表示视频帧宽度,3表示RGB通道数量;
(1-2)构建由两个二维卷积层组成的时序上下文融合模块,卷积核尺寸为5×5,填充为2,步长为1,两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征;
(1-3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列
Figure FDA0003914938130000023
C表示通道维度,当不足3帧时,该序列的元素均由全0初始化补全;将Xt和第t-3个时空编码特征图Ht-3经过卷积和逐元素相乘操作融合,得到强化外观特征图
Figure FDA0003914938130000024
X′t=2σ(Conv1(Ht-3))⊙Xt,符号⊙表示逐元素乘积,σ(·)表示Sigmoid激活函数;再将第t-1个时空编码特征图Ht-1和强化外观特征图X′t经过卷积和逐元素相乘操作融合,得到强化时空编码特征图
Figure FDA0003914938130000025
H′t-1=2σ(Conv2(X′t))⊙Ht-1,Conv1(·)、Conv2(·)表示卷积核大小为5×5的二维卷积层;
(1-4)将强化外观特征图X′t和第t-2个时空编码特征图Ht-2经过卷积和逐元素相乘操作融合,得到融合外观特征图
Figure FDA0003914938130000026
X″t=2σ(Conv1(Ht-2))⊙X′t;再将融合外观特征图X″t与强化时空编码特征图H′t-1经过卷积和逐元素相乘操作融合,得到融合时空编码特征图
Figure FDA0003914938130000027
H″t-1=2σ(Conv2(X″t))⊙H′t-1
3.如权利要求2所述基于时序校正卷积的视频预测方法,其特征在于,步骤(3)具体是:
(3-1)利用卷积长短时记忆模块构建自适应卷积时空编码器,所述的卷积长短时记忆模块是将长短时记忆单元LSTM中的全连接层替换成卷积层后得到的模块;
(3-2)将融合外观特征图X″t、融合时空编码特征图H″t-1和卷积校正张量Rt输入自适应卷积时空编码器,获得卷积长短时记忆模块的第t个输入门
Figure FDA0003914938130000031
It=σ((Broadcast(Rt)⊙W1)*X″t+(Broadcast(Rt)⊙W2)*H″t-1);其中,
Figure FDA0003914938130000032
Figure FDA0003914938130000033
为二维卷积对应的卷积核,上标表示四个维度,分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数,Broadcast(·)用于对Rt的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等,*表示卷积操作;
(3-3)将融合外观特征图X″t、融合时空编码特征图Ht-1和卷积校正张量Rt作为输入,获得卷积长短时记忆模块的第t个遗忘门
Figure FDA0003914938130000034
和第t个输入调制门
Figure FDA0003914938130000035
Ft=σ((Broadcast(Rt)⊙W3)*X″t+(Broadcast(Rt)⊙W4)*H″t-1);其中,
Figure FDA0003914938130000036
Figure FDA0003914938130000037
为二维卷积对应的卷积核;
Gt=tanh((Broadcast(Rt)⊙W5)*X″t+(Broadcast(Rt)⊙W6)*H″t-1);其中,tanh(·)为双曲正切函数,
Figure FDA0003914938130000038
Figure FDA0003914938130000039
为二维卷积对应的卷积核;
(3-4)计算得到时空记忆状态
Figure FDA00039149381300000310
Mt=It⊙Gt+Ft⊙Mt-1;当t=1时,M0由全0初始化得到;
(3-5)将融合外观特征图X″t、融合时空编码特征图H″t-1和卷积校正张量Rt作为输入,获得卷积长短时记忆模块的第t个输出门
Figure FDA00039149381300000311
Ot=σ((Brodcast(Rt)⊙W7)*X″t+(Brodcast(Rt)⊙W8)*H″t-1);其中,
Figure FDA00039149381300000312
Figure FDA00039149381300000313
为二维卷积对应的卷积核;
(3-6)获得预测时空编码特征图
Figure FDA00039149381300000314
Ht=Ot⊙tanh(Mt)。
4.如权利要求3所述基于时序校正卷积的视频预测方法,其特征在于,步骤(4)具体是:利用一个二维卷积层构建时空记忆解码器,将融合时空编码特征图
Figure FDA00039149381300000315
和预测时空编码特征图Ht输入时空记忆解码器,由卷积操作得到预测视频帧
Figure FDA00039149381300000316
Figure FDA0003914938130000041
其中Conv3(·)表示卷积核尺寸为1×1二维卷积层,[·,·]表示在通道维度上的拼接操作。
5.如权利要求4所述基于时序校正卷积的视频预测方法,其特征在于,步骤(5)具体是:
(5-1)构建由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型;
(5-2)将视频帧序列的前t′帧依次输入视频预测模型,t′=1,2,…,M,M<N,其中M作为上下文视频帧数量,获得预测视频帧
Figure FDA0003914938130000042
Figure FDA0003914938130000043
再依次输入视频预测模型,得到预测视频帧
Figure FDA0003914938130000044
t″=M,…,(N-1);
(5-3)将均方损失作为视频帧
Figure FDA0003914938130000045
和预测视频帧
Figure FDA0003914938130000046
之间的损失函数,均方误差损失
Figure FDA0003914938130000047
t″′为取值范围为2≤t″′≤N的视频帧时刻;
(5-4)利用随机梯度下降算法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的视频预测模型;
(5-5)对于新的视频通过采样得到M个视频帧,输入上述优化的视频预测模型,依照(5-2)依次输出指定数量的预测视频帧序列作为最终结果。
CN202210463423.1A 2022-04-28 2022-04-28 基于时序校正卷积的视频预测方法 Active CN114758282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210463423.1A CN114758282B (zh) 2022-04-28 2022-04-28 基于时序校正卷积的视频预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210463423.1A CN114758282B (zh) 2022-04-28 2022-04-28 基于时序校正卷积的视频预测方法

Publications (2)

Publication Number Publication Date
CN114758282A CN114758282A (zh) 2022-07-15
CN114758282B true CN114758282B (zh) 2022-12-06

Family

ID=82332613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210463423.1A Active CN114758282B (zh) 2022-04-28 2022-04-28 基于时序校正卷积的视频预测方法

Country Status (1)

Country Link
CN (1) CN114758282B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115049969B (zh) * 2022-08-15 2022-12-13 山东百盟信息技术有限公司 一种改进YOLOv3和BiConvLSTM的不良视频检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700475A (zh) * 2020-12-31 2021-04-23 荆门汇易佳信息科技有限公司 不同场景下自适应的多目标视频追踪系统
CN113422952A (zh) * 2021-05-17 2021-09-21 杭州电子科技大学 基于时空传播层次编解码器的视频预测方法
CN114067251A (zh) * 2021-11-18 2022-02-18 西安交通大学 一种无监督监控视频预测帧异常检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074802B2 (en) * 2017-02-02 2021-07-27 Hill-Rom Services, Inc. Method and apparatus for automatic event prediction
US10482572B2 (en) * 2017-10-06 2019-11-19 Ford Global Technologies, Llc Fusion of motion and appearance features for object detection and trajectory prediction
CN108769674B (zh) * 2018-06-27 2019-11-12 北京大学深圳研究生院 一种基于自适应层次化运动建模的视频预测方法
CN111598059A (zh) * 2020-06-28 2020-08-28 中国人民公安大学 犯罪预测模型的训练方法、装置及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700475A (zh) * 2020-12-31 2021-04-23 荆门汇易佳信息科技有限公司 不同场景下自适应的多目标视频追踪系统
CN113422952A (zh) * 2021-05-17 2021-09-21 杭州电子科技大学 基于时空传播层次编解码器的视频预测方法
CN114067251A (zh) * 2021-11-18 2022-02-18 西安交通大学 一种无监督监控视频预测帧异常检测方法

Also Published As

Publication number Publication date
CN114758282A (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN110782490B (zh) 一种具有时空一致性的视频深度图估计方法及装置
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
US11870947B2 (en) Generating images using neural networks
CN110533721B (zh) 一种基于增强自编码器的室内目标物体6d姿态估计方法
CN110059772B (zh) 基于多尺度解码网络的遥感图像语义分割方法
CN110309732B (zh) 基于骨架视频的行为识别方法
CN113837938B (zh) 基于动态视觉传感器重建潜在图像的超分辨率方法
CN110443883B (zh) 一种基于dropblock的单张彩色图片平面三维重建方法
CN113066017B (zh) 一种图像增强方法、模型训练方法及设备
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN111787187B (zh) 利用深度卷积神经网络进行视频修复的方法、系统、终端
CN113077505B (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN117499658A (zh) 使用神经网络生成视频帧
CN112258436A (zh) 图像处理模型的训练方法、装置、图像处理方法及模型
CN115002379B (zh) 视频插帧方法、训练方法、装置、电子设备和存储介质
CN115345866B (zh) 一种遥感影像中建筑物提取方法、电子设备及存储介质
KR102543690B1 (ko) 사전 정보 학습 기반 영상 업스케일링 장치 및 방법
CN114758282B (zh) 基于时序校正卷积的视频预测方法
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN111242999B (zh) 基于上采样及精确重匹配的视差估计优化方法
CN114638768B (zh) 一种基于动态关联学习网络的图像去雨方法、系统及设备
CN114170438A (zh) 神经网络训练的方法、电子设备及计算机存储介质
CN113947538A (zh) 一种多尺度高效卷积自注意力单幅图像除雨方法
CN113256519A (zh) 图像的恢复方法、设备、存储介质及程序产品
CN110532868B (zh) 一种预测自由空间语义边界的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant