CN113422952B - 基于时空传播层次编解码器的视频预测方法 - Google Patents

基于时空传播层次编解码器的视频预测方法 Download PDF

Info

Publication number
CN113422952B
CN113422952B CN202110534056.5A CN202110534056A CN113422952B CN 113422952 B CN113422952 B CN 113422952B CN 202110534056 A CN202110534056 A CN 202110534056A CN 113422952 B CN113422952 B CN 113422952B
Authority
CN
China
Prior art keywords
video
low
level
layer
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110534056.5A
Other languages
English (en)
Other versions
CN113422952A (zh
Inventor
李平
张陈翰
王然
徐向华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110534056.5A priority Critical patent/CN113422952B/zh
Publication of CN113422952A publication Critical patent/CN113422952A/zh
Application granted granted Critical
Publication of CN113422952B publication Critical patent/CN113422952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了基于时空传播层次编解码器的视频预测方法。本发明方法首先对给定的原始视频进行采样获得帧序列并输入至低层视觉记忆编码器,得到低层视觉编码特征和低层记忆状态特征;然后分别利用时空传播模块从低层视觉编码表示中提取时空编码特征,以及通过高层语义编码器提取高层语义特征;再将得到的低层视觉编码特征、低层记忆状态特征和高层语义编码特征通过层次特征解码器进行信息融合,输出预测视频帧。本发明方法不仅能够将低层视觉记忆特征和高层语义特征相融合,并通过时空传播模块使得低层视觉信息沿时序方向传播,还能利用视频首帧的先验知识一定程度上解决视频帧模糊问题,从整体上提高预测视频帧的清晰度和视觉质量。

Description

基于时空传播层次编解码器的视频预测方法
技术领域
本发明属于计算机视觉领域,尤其是视频感知中的视频预测技术领域,涉及一种基于时空传播层次编解码器的视频预测方法。
背景技术
在互联网+时代,每天都有成千上万的视频在各类终端设备上产生,视频感知受到了学界和业界的广泛关注,而视频预测则是其中一个充满挑战而又具有较高应用价值的视觉任务。该任务其旨在给定部分视频段的情况下,生成后续时刻的视频段。视频预测在雷达气象图预测、交通流预测、机器人物体交互预测、无人驾驶等实际场景有着广泛的应用。例如,在无人驾驶环境中,传统的雷达测距只能对近距离车辆交互情况进行判断,而视频预测能够利用视觉信息对道路上的行人与车辆进行预测,辅助自动驾驶系统的驾驶操作,规避行人车辆,从而保障驾驶员和乘客的安全。视频预测主要遇到的困难包括视频中物体的外观随着时间和拍摄光照发生变化,长期预测造成的图像模糊等等。
传统视频预测方法都是基于神经元模型,研究者们通过改变神经元间的连接方式和权重变化规则获取更好的性能。但这类方法只能应用于简单符号组成的画面,无法对真实视频进行预测。近年来,以神经网络为主要研究对象的深度学习被广泛应用于计算机视觉的各个领域,促使许多研究者开始使用深度学习技术来解决视频预测问题。比如研究者提出采用堆叠多个卷积长短期神经网络(ConvLSTM:Convolutional Long-Short TimeMemory)的方法,以此增强对时间和空间信息的学习能力,从而得到更清晰的预测结果,也有研究者通过往ConvLSTM中增加更多的模块来提高视频预测性能。另外,基于双流的网络架构被广泛地运用到视频预测领域,其主要思想是将视频分为内容和动作两个部分分别进行预测,再将两部分融合得到最终预测视频。同时,为了预测多个未来视频帧,自递归方法被广泛运用到视频预测领域,将网络生成的视频帧作为输入再次送入网络当中,得到下一时刻的视频帧,反复进行如上操作,以此实现多视频帧预测。
上述方法的不足点主要表现在以下几个方面:第一,堆叠多个ConvLSTM的方法没有将学习到的低层视觉特征和高层语义特征很好地融合,没有充分利用学习到的特征,导致预测结果仍然存在模糊的情况;第二,基于双流架构的视频预测方法没有将视频的低层视觉特征在时序上进行有效的传播,导致预测视频中对象轮廓的位置不够准确;第三,自递归方法通过将网络生成的视频帧再次送入网络来实现多视频帧的视频预测,但网络生成的视频帧中存在误差,它们会由于这种形式不断累积,导致在多视频帧预测后期出现模糊的情况。因此,为了缓解不同层次特征融合不够充分、视频对象轮廓位置不够准确以及预测后期出现模糊等问题,迫切需要一种能融合不同层次特征,并提供更准确轮廓位置信息同时能缓解误差累积的方法,从而提高视频预测的准确性。
发明内容
本发明的目的就是针对现有技术的不足,提供基于时空传播层次编解码器的视频预测方法,不仅将低层视觉编码特征与高层语义特征相融合,还能通过时空传播机制对低层视觉信息的时空特性进行刻画,同时利用视频首帧为后续帧的预测提供先验知识,从而获得视觉内容更加清晰的视频预测帧。
本发明方法首先获取原始视频数据集合,然后依次进行如下操作:
步骤(1)对每个视频进行采样,获得视频帧序列,并将其输入至低层视觉记忆编码器中,输出对应的低层视觉编码特征和低层记忆状态特征;
步骤(2)将低层视觉编码特征输入至时空传播模块,输出时空编码特征;
步骤(3)构建高层语义编码器,输入为时空编码特征,输出高层语义编码特征;
步骤(4)构建层次特征解码器,输入为低层视觉编码特征、低层记忆状态特征和高层语义编码特征,输出预测视频帧;
步骤(5)建立由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型,先迭代训练该模型直至收敛,然后将新视频采样后的视频帧序列输入至该模型,得到最终的预测帧序列。
进一步,步骤(1)具体是:
(1-1)对原始视频数据集合每隔d帧进行采样,得到数量为N的视频帧序列
Figure BDA0003069055330000021
d=5~10;其中,
Figure BDA0003069055330000024
表示实数域,Xk表示第k个视频帧,H表示视频帧高度,W表示视频帧宽度,3表示RGB通道数量;
(1-2)构建由一个二维卷积层和一个卷积长短期记忆模块组成的低层视觉记忆编码器,所谓的卷积长短期记忆模块,是指将长短期记忆单元LSTM(Long-Short TimeMemory)的全连接操作替换成卷积操作后的模块;
(1-3)将视频帧序列的前M帧
Figure BDA0003069055330000022
输入二维卷积层,M<N-2,1≤t≤M,获得低层初始特征表示
Figure BDA0003069055330000023
H1表示低层初始特征高度,W1表示低层初始特征宽度,C1表示通道维度;
(1-4)将低层初始特征表示ft输入卷积长短期记忆模块,输出第t帧的低层视觉编码特征
Figure BDA0003069055330000031
和低层记忆状态特征
Figure BDA0003069055330000032
其中,H2=H1<H,表示对应特征高度,W2=W1<W,表示对应特征宽度,C2表示通道维度。
更进一步,步骤(2)具体是:
(2-1)构建由三个结构相同但参数不共享的二维卷积层,以及逐元素相乘操作和逐元素相加操作组成的时空传播模块;
(2-2)时空传播模块的输入为第t帧的低层视觉编码特征ht和第t-1帧的时空编码特征
Figure BDA0003069055330000033
拼接得到的拼接时空编码特征
Figure BDA0003069055330000034
[·,·]表示拼接操作,其中z0由随机初始化得到;
(2-3)对拼接时序编码特征
Figure BDA0003069055330000035
进行三次卷积操作,得到时空编码特征
Figure BDA0003069055330000036
Figure BDA0003069055330000037
其中,符号
Figure BDA0003069055330000038
表示逐元素相乘,
Figure BDA0003069055330000039
表示逐元素相加,σ(·)表示sigmoid激活函数,Convi(·),i=1,2,3表示结构相同但参数不共享的卷积操作;输出时空编码特征
Figure BDA00030690553300000310
又进一步,步骤(3)具体是:
(3-1)构建由一个卷积层和一个卷积长短期记忆模块组成的高层语义编码器;
(3-2)将时空编码特征zt输入卷积层,得到高层初始特征表示
Figure BDA00030690553300000311
H4表示特征高度,W4表示特征宽度,其中C4表示通道维度;
(3-3)将高层初始特征表示f′t输入卷积长短期记忆模块,得到高层语义编码特征
Figure BDA00030690553300000312
并输出。
又进一步,步骤(4)具体是:
(4-1)构建由一个卷积长短期记忆模块和两个逆卷积层组成的层次特征解码器,逆卷积层对输入特征图用0填充,再对其进行卷积操作,从而扩大特征图的尺寸,可以将因卷积操作缩小的特征图还原至原视频帧尺寸大小;
(4-2)将高层语义编码特征h′t输入第一个逆卷积层,得到扩张特征表示
Figure BDA00030690553300000313
(4-3)将扩张特征表示qt,以及(1-4)中的低层视觉编码特征ht和低层记忆状态特征ct(4-2)输入卷积长短期记忆模块进行特征混合,输出层次解码特征
Figure BDA0003069055330000041
(4-4)将层次解码特征h″t输入第二个逆卷积层,得到t+1时刻预测视频帧
Figure BDA0003069055330000042
并输出。
再进一步,步骤(5)具体是:
(5-1)构建由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型;
(5-2)将视频帧序列的前M+t′帧输入视频预测模型,t′=0,…,(N-M-2),得到预测视频帧q′M+t′+1;将预测视频帧q′M+t′+1与首帧X1融合,获得初始输入张量
Figure BDA0003069055330000043
其中,融合操作表示为
Figure BDA0003069055330000044
Conv(·)表示卷积操作;再次输入视频预测模型,得到M+t′+2时刻的预测视频帧q′M+t′+2
(5-3)将真实视频帧
Figure BDA0003069055330000045
和预测视频帧
Figure BDA0003069055330000046
之间的损失函数定义为
Figure BDA0003069055330000047
其中||·||1表示L1范数,t″表示视频帧时刻,其取值范围为2≤t″≤N;
(5-4)利用随机梯度下降法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的预测模型;
(5-5)对于新的视频通过采样得到M个视频帧,并输入上述优化的预测模型,依照(5-2)依次输出指定数量的预测视频帧作为视频预测结果。
本发明方法利用低层视觉特征与高层语义特征融合机制、低层视觉信息时序传播和首帧复用策略对视频的后续帧进行预测,具有以下几个特点:1)不同于已有方法通过高层语义编码特征得到视频帧,所设计的网络架构将低层视觉编码特征和高层语义编码特征两个不同层次的特征进行融合,使网络能学习到更有效的特征表示;2)通过构建时空传播模块,将低层视觉编码特征在时序上进行传播,而传统方法忽略了低层视觉编码特征在时序上对最终预测视频帧的作用;3)现有的方法一般依赖自回归而导致误差累积,本发明方法通过在预测后期将视频首帧作为先验信息加入网络,从真实视频帧获得准确的先验知识。
本发明方法适用于预测多个未来视频帧的情况,有益效果包括:1)利用时空传播层次编解码器,将多种不同层次的特征融合起来,从而获得更高的预测质量;2)通过构建时空传播模块,将低层视觉编码特征沿时序进行传播,使预测视频中的对象具有更准确的轮廓位置;3)通过对视频首帧的再次利用,充分捕捉真实视频帧的先验知识,指导模型生成物体外观更加清晰的预测视频帧。本发明所具有的多层次特征融合能力和低层视觉特征时序传播机制,大大提高了视频预测模型的性能,可应用于雷达天气气象图预测、交通流预测等实际领域。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
基于时空传播层次编解码器的视频预测方法,首先对给定的视频进行采样并输入低层视觉记忆编码器得到低层视觉编码特征和低层记忆状态特征;然后利用时空传播模块从低层视觉编码特征中提取时空编码特征;再利用由一个二维卷积层和一个卷积长短期记忆模块构成的高层语义编码器提取高层语义编码特征;最后,将得到的低层视觉编码特征、低层记忆状态特征和高层语义编码特征通过层次特征解码器进行信息融合,得到预测视频帧。该方法利用层次编解码器将低层视觉和高层语义的特征相融合,并利用时空传播模块将低层视觉编码信息沿时序方向进行传播,同时通过首帧复用缓解视频预测后期视频帧模糊的现象,从而得到更加清晰的视频预测结果。
如图1,该方法首先获取原始视频数据集合,然后进行如下操作:
步骤(1)对每个视频进行采样,获得视频帧序列,并将其输入至低层视觉记忆编码器中,输出对应的低层视觉编码特征和低层记忆状态特征;具体是:
(1-1)对原始视频数据集合每隔d帧进行采样,得到数量为N的视频帧序列
Figure BDA0003069055330000051
d=5~10;其中,
Figure BDA0003069055330000052
表示实数域,Xk表示第k个视频帧,H表示视频帧高度,W表示视频帧宽度,3表示RGB通道数量;
(1-2)构建由一个二维卷积层和一个卷积长短期记忆模块组成的低层视觉记忆编码器,所谓的卷积长短期记忆模块,是指将长短期记忆单元LSTM(Long-Short TimeMemory)的全连接操作替换成卷积操作后的模块;
(1-3)将视频帧序列的前M帧
Figure BDA0003069055330000053
输入二维卷积层,M<N-2,1≤t≤M,获得低层初始特征表示
Figure BDA0003069055330000054
H1表示低层初始特征高度,W1表示低层初始特征宽度,C1表示通道维度;
(1-4)将低层初始特征表示ft输入卷积长短期记忆模块,输出第t帧的低层视觉编码特征
Figure BDA0003069055330000055
和低层记忆状态特征
Figure BDA0003069055330000056
其中,H2=H1<H,表示对应特征高度,W2=W1<W,表示对应特征宽度,C2表示通道维度。
步骤(2)将低层视觉编码特征输入至时空传播模块,输出时空编码特征;具体是:
(2-1)构建由三个结构相同但参数不共享的二维卷积层,以及逐元素相乘操作和逐元素相加操作组成的时空传播模块;
(2-2)时空传播模块的输入为第t帧的低层视觉编码特征ht和第t-1帧的时空编码特征
Figure BDA0003069055330000061
拼接得到的拼接时空编码特征
Figure BDA0003069055330000062
[·,·]表示拼接操作,其中z0由随机初始化得到;
(2-3)对拼接时序编码特征
Figure BDA0003069055330000063
进行三次卷积操作,得到时空编码特征
Figure BDA0003069055330000064
Figure BDA0003069055330000065
其中,符号
Figure BDA0003069055330000066
表示逐元素相乘,
Figure BDA0003069055330000067
表示逐元素相加,σ(·)表示sigmoid激活函数,Convi(·),i=1,2,3表示结构相同但参数不共享的卷积操作;输出时空编码特征
Figure BDA0003069055330000068
步骤(3)构建高层语义编码器,输入为时空编码特征,输出高层语义编码特征;具体是:
(3-1)构建由一个卷积层和一个卷积长短期记忆模块组成的高层语义编码器;
(3-2)将时空编码特征zt输入卷积层,得到高层初始特征表示
Figure BDA0003069055330000069
H4表示特征高度,W4表示特征宽度,其中C4表示通道维度;
(3-3)将高层初始特征表示f′t输入卷积长短期记忆模块,得到高层语义编码特征
Figure BDA00030690553300000610
并输出。
步骤(4)构建层次特征解码器,输入为低层视觉编码特征、低层记忆状态特征和高层语义编码特征,输出预测视频帧;具体是:
(4-1)构建由一个卷积长短期记忆模块和两个逆卷积层组成的层次特征解码器,逆卷积层对输入特征图用0填充,再对其进行卷积操作,从而扩大特征图的尺寸,可以将因卷积操作缩小的特征图还原至原视频帧尺寸大小;
(4-2)将高层语义编码特征h′t输入第一个逆卷积层,得到扩张特征表示
Figure BDA00030690553300000611
(4-3)将扩张特征表示qt,以及(1-4)中的低层视觉编码特征ht和低层记忆状态特征ct(4-2)输入卷积长短期记忆模块进行特征混合,输出层次解码特征
Figure BDA00030690553300000612
(4-4)将层次解码特征h″t输入第二个逆卷积层,得到t+1时刻预测视频帧
Figure BDA0003069055330000071
并输出。
步骤(5)建立由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型,先迭代训练该模型直至收敛,然后将新视频采样后的视频帧序列输入至该模型,得到最终的预测帧序列;具体是:
(5-1)构建由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型;
(5-2)将视频帧序列的前M+t′帧输入视频预测模型,t′=0,…,(N-M-2),得到预测视频帧q′M+t′+1;将预测视频帧q′M+t′+1与首帧X1融合,获得初始输入张量
Figure BDA0003069055330000072
其中,融合操作表示为
Figure BDA0003069055330000073
Conv(·)表示卷积操作;再次输入视频预测模型,得到M+t′+2时刻的预测视频帧q′M+t′+2
(5-3)将真实视频帧
Figure BDA0003069055330000074
和预测视频帧
Figure BDA0003069055330000075
之间的损失函数定义为
Figure BDA0003069055330000076
其中||·||1表示L1范数,t″表示视频帧时刻,其取值范围为2≤t″≤N;
(5-4)利用随机梯度下降法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的预测模型;
(5-5)对于新的视频通过采样得到M个视频帧,并输入上述优化的预测模型,依照(5-2)依次输出指定数量的预测视频帧作为视频预测结果。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (4)

1.基于时空传播层次编解码器的视频预测方法,其特征在于,该方法首先原始视频数据集合,然后进行以下操作:
步骤(1)对每个视频进行采样,获得视频帧序列,并将其输入至低层视觉记忆编码器中,输出对应的低层视觉编码特征和低层记忆状态特征;具体是:
(1-1)对原始视频数据集合每隔d帧进行采样,得到数量为N的视频帧序列
Figure FDA0003590170880000011
d=5~10;其中,
Figure FDA0003590170880000012
表示实数域,Xk表示第k个视频帧,H表示视频帧高度,W表示视频帧宽度,3表示RGB通道数量;
(1-2)构建由一个二维卷积层和一个卷积长短期记忆模块组成的低层视觉记忆编码器,所述的卷积长短期记忆模块是将长短期记忆单元LSTM的全连接操作替换成卷积操作后的模块;
(1-3)将视频帧序列的前M帧
Figure FDA0003590170880000013
输入二维卷积层,M<N-2,1≤t≤M,获得低层初始特征表示
Figure FDA0003590170880000014
H1表示低层初始特征高度,W1表示低层初始特征宽度,C1表示低层初始通道维度;
(1-4)将低层初始特征表示ft输入卷积长短期记忆模块,输出第t帧的低层视觉编码特征
Figure FDA0003590170880000015
和低层记忆状态特征
Figure FDA0003590170880000016
其中,H2=H1<H,表示对应特征高度,W2=W1<W,表示对应特征宽度,C2表示对应通道维度;
步骤(2)将低层视觉编码特征输入至时空传播模块,输出时空编码特征;具体是:
(2-1)构建由三个结构相同但参数不共享的二维卷积层,以及逐元素相乘操作和逐元素相加操作组成的时空传播模块;
(2-2)时空传播模块的输入为第t帧的低层视觉编码特征ht和第t-1帧的时空编码特征
Figure FDA0003590170880000017
拼接得到的拼接时空编码特征
Figure FDA0003590170880000018
[·,·]表示拼接操作,其中z0由随机初始化得到;
(2-3)对拼接时序编码特征
Figure FDA0003590170880000019
进行三次卷积操作,得到时空编码特征
Figure FDA00035901708800000110
Figure FDA00035901708800000111
其中,符号
Figure FDA00035901708800000112
表示逐元素相乘,
Figure FDA00035901708800000113
表示逐元素相加,σ(·)表示sigmoid激活函数,Convi(·),i=1,2,3表示结构相同但参数不共享的卷积操作;输出时空编码特征
Figure FDA0003590170880000021
步骤(3)构建高层语义编码器,输入为时空编码特征,输出高层语义编码特征;
步骤(4)构建层次特征解码器,输入为低层视觉编码特征、低层记忆状态特征和高层语义编码特征,输出预测视频帧;
步骤(5)建立由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型,先迭代训练该模型直至收敛,然后将新视频采样后的视频帧序列输入至该模型,得到最终的预测帧序列。
2.如权利要求1所述的基于时空传播层次编解码器的视频预测方法,其特征在于,步骤(3)具体是:
(3-1)构建由一个卷积层和一个卷积长短期记忆模块组成的高层语义编码器;
(3-2)将时空编码特征zt输入卷积层,得到高层初始特征表示
Figure FDA0003590170880000022
H4表示高层初始特征高度,W4表示高层初始特征宽度,其中C4表示高层初始通道维度;
(3-3)将高层初始特征表示f′t输入卷积长短期记忆模块,得到高层语义编码特征
Figure FDA0003590170880000023
并输出。
3.如权利要求2所述的基于时空传播层次编解码器的视频预测方法,其特征在于,步骤(4)具体是:
(4-1)构建由一个卷积长短期记忆模块和两个逆卷积层组成的层次特征解码器,逆卷积层对输入特征图用0填充,再对其进行卷积操作,将因卷积操作缩小的特征图还原至原视频帧尺寸大小;
(4-2)将高层语义编码特征h′t输入第一个逆卷积层,得到扩张特征表示
Figure FDA0003590170880000024
(4-3)将扩张特征表示qt,以及(1-4)中的低层视觉编码特征ht和低层记忆状态特征ct(4-2)输入卷积长短期记忆模块进行特征混合,输出层次解码特征
Figure FDA0003590170880000025
(4-4)将层次解码特征h″t输入第二个逆卷积层,得到t+1时刻预测视频帧
Figure FDA0003590170880000026
并输出。
4.如权利要求3所述的基于时空传播层次编解码器的视频预测方法,其特征在于,步骤(5)具体是:
(5-1)构建由低层视觉编码器、时空传播模块、高层语义编码器、层次特征解码器组成的视频预测模型;
(5-2)将视频帧序列的前M+t′帧输入视频预测模型,t′=0,…,(N-M-2),得到预测视频帧q′M+t′+1;将预测视频帧q′M+t′+1与首帧X1融合,获得初始输入张量
Figure FDA0003590170880000031
其中,融合操作表示为
Figure FDA0003590170880000032
Conv(·)表示卷积操作;再次输入视频预测模型,得到M+t′+2时刻的预测视频帧q′M+t′+2
(5-3)将真实视频帧
Figure FDA0003590170880000033
和预测视频帧
Figure FDA0003590170880000034
之间的损失函数定义为
Figure FDA0003590170880000035
其中||·||1表示L1范数,t″表示视频帧时刻,其取值范围为2≤t″≤N;
(5-4)利用随机梯度下降法优化上述视频预测模型,迭代训练该模型直至收敛,获得优化的预测模型;
(5-5)对于新的视频通过采样得到M个视频帧,并输入上述优化的预测模型,依照(5-2)依次输出指定数量的预测视频帧作为视频预测结果。
CN202110534056.5A 2021-05-17 2021-05-17 基于时空传播层次编解码器的视频预测方法 Active CN113422952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110534056.5A CN113422952B (zh) 2021-05-17 2021-05-17 基于时空传播层次编解码器的视频预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110534056.5A CN113422952B (zh) 2021-05-17 2021-05-17 基于时空传播层次编解码器的视频预测方法

Publications (2)

Publication Number Publication Date
CN113422952A CN113422952A (zh) 2021-09-21
CN113422952B true CN113422952B (zh) 2022-05-31

Family

ID=77712450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110534056.5A Active CN113422952B (zh) 2021-05-17 2021-05-17 基于时空传播层次编解码器的视频预测方法

Country Status (1)

Country Link
CN (1) CN113422952B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463218B (zh) * 2022-02-10 2023-10-24 中国科学技术大学 一种基于事件数据驱动的视频去模糊方法
CN114758282B (zh) * 2022-04-28 2022-12-06 杭州电子科技大学 基于时序校正卷积的视频预测方法
CN116723333B (zh) * 2023-08-02 2023-10-31 清华大学 基于语义信息的可分层视频编码方法、装置及产品

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388900B (zh) * 2018-02-05 2021-06-08 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
TWI709107B (zh) * 2018-05-21 2020-11-01 國立清華大學 影像特徵提取方法及包含其顯著物體預測方法
CN110929587B (zh) * 2019-10-30 2021-04-20 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法
CN111860162B (zh) * 2020-06-17 2023-10-31 上海交通大学 一种视频人群计数系统及方法
CN112040222B (zh) * 2020-08-07 2022-08-19 深圳大学 一种视觉显著性预测方法及设备
CN112004085B (zh) * 2020-08-14 2023-07-07 北京航空航天大学 一种场景语义分割结果指导下的视频编码方法
CN112288776B (zh) * 2020-10-26 2022-06-24 杭州电子科技大学 一种基于多时间步金字塔编解码器的目标跟踪方法

Also Published As

Publication number Publication date
CN113422952A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN113422952B (zh) 基于时空传播层次编解码器的视频预测方法
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN112634276A (zh) 一种基于多尺度视觉特征提取的轻量级语义分割方法
CN111563909B (zh) 一种复杂街景图像语义分割方法
CN111275711B (zh) 基于轻量级卷积神经网络模型的实时图像语义分割方法
CN110781776B (zh) 一种基于预测和残差细化网络的道路提取方法
CN112733768B (zh) 基于双向特征语言模型的自然场景文本识别方法及装置
CN111062395B (zh) 一种实时的视频语义分割方法
CN113139446B (zh) 一种端到端自动驾驶行为决策方法、系统及终端设备
CN113657388A (zh) 一种融合图像超分辨率重建的图像语义分割方法
CN110675329A (zh) 基于视觉语义引导的图像去模糊方法
CN114913493A (zh) 一种基于深度学习的车道线检测方法
CN112417973A (zh) 一种基于车联网的无人驾驶系统
CN114463545A (zh) 一种基于多通道深度加权聚合的图像语义分割算法及系统
CN115527096A (zh) 一种基于改进YOLOv5的小目标检测方法
CN115861635A (zh) 抗透射畸变的无人机倾斜影像语义信息提取方法及设备
Van Quyen et al. Feature pyramid network with multi-scale prediction fusion for real-time semantic segmentation
CN115995002B (zh) 一种网络构建方法及城市场景实时语义分割方法
CN116993987A (zh) 一种基于轻量级神经网络模型的图像语义分割方法及系统
Khan et al. Latent space reinforcement learning for steering angle prediction
CN115331460A (zh) 一种基于深度强化学习的大规模交通信号控制方法及装置
CN113255459A (zh) 一种基于图像序列的车道线检测方法
CN112149496A (zh) 一种基于卷积神经网络的实时道路场景分割方法
Manjunatha et al. Improving Autonomous Driving Policy Generalization via Auxiliary Tasks and Latent Modeling
CN117974497A (zh) 一种雾霾场景驾驶视觉增强及目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant