CN114821086A - 一种视频预测方法和系统 - Google Patents

一种视频预测方法和系统 Download PDF

Info

Publication number
CN114821086A
CN114821086A CN202210359238.8A CN202210359238A CN114821086A CN 114821086 A CN114821086 A CN 114821086A CN 202210359238 A CN202210359238 A CN 202210359238A CN 114821086 A CN114821086 A CN 114821086A
Authority
CN
China
Prior art keywords
feature map
frame
video
inputting
semantic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210359238.8A
Other languages
English (en)
Inventor
秦力坤
王云
刘建
裘是寅
王师峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Microelectronics of CAS
Original Assignee
Institute of Microelectronics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Microelectronics of CAS filed Critical Institute of Microelectronics of CAS
Priority to CN202210359238.8A priority Critical patent/CN114821086A/zh
Publication of CN114821086A publication Critical patent/CN114821086A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种视频预测方法和系统,所述方法包括:将视频中的已知帧输入编码器网络,得到已知帧的语义特征图;利用循环神经网络对所述语义特征图进行时空域建模,在特征空间预测出下一时刻视频帧对应的语义特征图;将预测出的语义特征图输入解码器网络,得到在像素空间的下一时刻视频帧图像。显著提高了视频预测的准确性和清晰度。

Description

一种视频预测方法和系统
技术领域
本申请实施例涉及机器视觉技术领域,具体涉及一种视频预测方法和系统。
背景技术
近年来,随着计算机视觉领域的快速发展,基于单个图像的分析技术日趋成熟,越来越多的目光转移到视频的分析和理解上。视频预测是指视频分析中以前几帧为已知条件来预测后续帧。视频预测在实际生活中有广泛的应用,例如在自动驾驶上,视频预测方法可以帮助车辆预测下一个时刻的路面状况,以便提前采取不同的策略。另外,视频预测也可以被用于更广义的时空域预测手段,比方说天气预测、城市道路状况的预测等等。
视频预测的问题有其独特性,不同于图像生成的问题,视频预测需要在时域上建模,综合过去所有的已知信息来做出预测;也不同于视频分类或者动作识别,视频预测需要同时考虑预测帧的空间分布,这极大的增加了难度。一方面,视频中像素点的运动信息是至关重要的。但是现有技术没有考虑这样的运动信息,或者采用光流作为运动信息的补充。前者不利于算法对时域信息精确建模,而后者则需要消耗极大的计算资源。另一方面,对于视频预测来说,相邻的上下文与预测帧关联更紧密。但是现有技术往往没有强化上下文信息的这种关联,使得算法对于一些时域上突然的变化不够敏感。
现有技术中的视频预测方法存在的一系列缺陷,导致视频预测因为其效果欠佳而无法大规模的应用于生产生活,因此还需要一种开销小同时效果好的方法来对运动信息进行建模,提高视频预测的准确性。
发明内容
为此,本申请实施例提供一种视频预测方法和系统,显著提高视频预测的准确性和清晰度。
为了实现上述目的,本申请实施例提供如下技术方案:
根据本申请实施例的第一方面,提供了一种视频预测方法,所述方法包括:
将视频中的已知帧输入编码器网络,得到已知帧的语义特征图;
利用循环神经网络对所述语义特征图进行时空域建模,在特征空间预测出下一时刻视频帧对应的语义特征图;
将预测出的语义特征图输入解码器网络,得到在像素空间的下一时刻视频帧图像。
可选地,所述方法还包括:
将视频帧序列中的已知帧逐个输入到所述编码器网络、所述循环神经网络、所述解码器网络来预测下一时刻的视频帧图像,将预测出的视频帧图像和预测帧图像对应时刻的真实图像的差的平方作为损失函数来训练所述编码器网络、所述循环神经网络、所述解码器网络直到收敛。
可选地,所述利用循环神经网络对所述语义特征图进行时空域建模,在特征空间预测出下一时刻视频帧对应的语义特征图,包括:
将所述语义特征图同时输入运动信息增强模块和上下文信息增强模块;
所述运动信息增强模块对所述语义特征图的前后帧之间的运动信息进行放大处理,得到与原始输入尺寸一致的运动信息增强特征图;
所述上下文信息增强模块对所述语义特征图的包括当前帧与之前的设定范围帧的上下文信息进行特征提取,得到上下文信息增强特征图;
将所述运动信息增强特征图和所述上下文信息增强特征图在通道维度拼接;
将拼接后的特征图输入时域信息建模模块进行时域上的建模,并利用时域信息预测下一时刻视频帧的语义信息,以预测出下一时刻视频帧对应的语义特征图。
可选地,所述运动信息增强模块对所述语义特征图的前后帧之间的运动信息进行放大处理,得到与原始输入尺寸一致的运动信息增强特征图,包括:
将当前时刻和前一时刻的视频帧的语义特征图做差处理,得到与原始输入尺寸一致的差值特征图;
将所述差值特征图输入卷积层以降低通道数;
对降低通道数后的差值特征图中的每一个通道进行全局的均值池化处理,得到长度为通道数的特征向量;
将所述特征向量输入全连层和激活层,以使特征向量长度与原始输入的通道数匹配;
将输出的特征向量与当前时刻的原始语义特征图相乘,得到增强特征图;
将原始语义特征图和增强特征图相加,得到运动信息增强特征图。
可选地,所述上下文信息增强模块对所述语义特征图的包括当前帧与之前的设定范围帧的上下文信息进行特征提取,得到上下文信息增强特征图,包括:
对所述语义特征图的当前帧与之前的设定范围帧的特征图在目标时间维度进行拼接;
将拼接后的特征图输入第一行为识别模型,以在通道、宽和高三个维度上进行空间卷积,再输入第二行为识别模型,以在时间维度上对不同特征图进行组合,得到组合特征图;
将不同时间的组合特征图与各自权值的乘积相加,得到所述上下文信息增强特征图。
可选地,所述将视频中的已知帧输入编码器网络,得到已知帧的语义特征图,包括:
所述编码器网络将视频中的已知帧转化为设定边长和设定通道数的特征图;
将所述特征图输入第一数目层的卷积层、归一层和激活层,得到已知帧的语义特征图。
可选地,所述将预测出的语义特征图输入解码器网络,得到在像素空间的下一时刻视频帧图像,包括:
所述解码器网络将预测出的语义特征图的通道数恢复至设定通道数;
将恢复通道数后的预测出的语义特征图输入第一数目层的卷积层、归一层和激活层,得到在像素空间的下一时刻视频帧图像。
根据本申请实施例的第二方面,提供了一种视频预测系统,所述系统包括:
编码模块,用于将视频中的已知帧输入编码器网络,得到已知帧的语义特征图;
预测模块,用于利用循环神经网络对所述语义特征图进行时空域建模,在特征空间预测出下一时刻视频帧对应的语义特征图;
解码模块,用于将预测出的语义特征图输入解码器网络,得到在像素空间的下一时刻视频帧图像。
根据本申请实施例的第三方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现上述第一方面所述的方法。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述第一方面所述的方法。
综上所述,本申请实施例提供了一种视频预测方法和系统,通过将视频中的已知帧输入编码器网络,得到已知帧的语义特征图;利用循环神经网络对所述语义特征图进行时空域建模,在特征空间预测出下一时刻视频帧对应的语义特征图;将预测出的语义特征图输入解码器网络,得到在像素空间的下一时刻视频帧图像。显著提高了视频预测的准确性和清晰度。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本申请实施例提供的一种视频预测方法流程示意图;
图2为本申请实施例提供的编码器网络结构示意图;
图3为本申请实施例提供的循环神经网络的架构示意图;
图4为本申请实施例提供的解码器网络结构示意图;
图5为本申请实施例提供的一种视频预测系统框图;
图6示出了本申请实施例提供的一种电子设备的结构示意图;
图7示出了本申请实施例提供的一种计算机可读存储介质的示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本申请实施例提供的视频预测方法,基于循环神经网络和激励机制对视频对运动信息和上下文信息进行强化,显著提高了视频预测的准确性和清晰度。具体包括以下步骤:
步骤101:将视频中的已知帧输入编码器网络,得到已知帧的语义特征图;
步骤102:利用循环神经网络对所述语义特征图进行时空域建模,在特征空间预测出下一时刻视频帧对应的语义特征图;
步骤103:将预测出的语义特征图输入解码器网络,得到在像素空间的下一时刻视频帧图像。
在一种可能的实施方式中,所述方法还包括:将视频帧序列中的已知帧逐个输入到所述编码器网络、所述循环神经网络、所述解码器网络来预测下一时刻的视频帧图像,将预测出的视频帧图像和预测帧图像对应时刻的真实图像的差的平方作为损失函数来训练所述编码器网络、所述循环神经网络、所述解码器网络直到收敛。
在一种可能的实施方式中,在步骤102中,所述利用循环神经网络对所述语义特征图进行时空域建模,在特征空间预测出下一时刻视频帧对应的语义特征图,包括:
将所述语义特征图同时输入运动信息增强模块和上下文信息增强模块;所述运动信息增强模块对所述语义特征图的前后帧之间的运动信息进行放大处理,得到与原始输入尺寸一致的运动信息增强特征图;所述上下文信息增强模块对所述语义特征图的包括当前帧与之前的设定范围帧的上下文信息进行特征提取,得到上下文信息增强特征图;将所述运动信息增强特征图和所述上下文信息增强特征图在通道维度拼接;将拼接后的特征图输入时域信息建模模块进行时域上的建模,并利用时域信息预测下一时刻视频帧的语义信息,以预测出下一时刻视频帧对应的语义特征图。
在一种可能的实施方式中,所述运动信息增强模块对所述语义特征图的前后帧之间的运动信息进行放大处理,得到与原始输入尺寸一致的运动信息增强特征图,包括:
将当前时刻和前一时刻的视频帧的语义特征图做差处理,得到与原始输入尺寸一致的差值特征图;将所述差值特征图输入卷积层以降低通道数;对降低通道数后的差值特征图中的每一个通道进行全局的均值池化处理,得到长度为通道数的特征向量;将所述特征向量输入全连层和激活层,以使特征向量长度与原始输入的通道数匹配;将输出的特征向量与当前时刻的原始语义特征图相乘,得到增强特征图;将原始语义特征图和增强特征图相加,得到运动信息增强特征图。
在一种可能的实施方式中,所述上下文信息增强模块对所述语义特征图的包括当前帧与之前的设定范围帧的上下文信息进行特征提取,得到上下文信息增强特征图,包括:
对所述语义特征图的当前帧与之前的设定范围帧的特征图在目标时间维度进行拼接;将拼接后的特征图输入第一行为识别模型,以在通道、宽和高三个维度上进行空间卷积,再输入第二行为识别模型,以在时间维度上对不同特征图进行组合,得到组合特征图;将不同时间的组合特征图与各自权值的乘积相加,得到所述上下文信息增强特征图。
在一种可能的实施方式中,所述将视频中的已知帧输入编码器网络,得到已知帧的语义特征图,包括:
所述编码器网络将视频中的已知帧转化为设定边长和设定通道数的特征图;将所述特征图输入第一数目层的卷积层、归一层和激活层,得到已知帧的语义特征图。
在一种可能的实施方式中,所述将预测出的语义特征图输入解码器网络,得到在像素空间的下一时刻视频帧图像,包括:
所述解码器网络将预测出的语义特征图的通道数恢复至设定通道数;将恢复通道数后的预测出的语义特征图输入第一数目层的卷积层、归一层和激活层,得到在像素空间的下一时刻视频帧图像。
可以看出,所述基于循环神经网络和激励机制的视频预测方法,首先将视频逐帧输入到编码器网络用来提取空间上的语义信息,得到每一帧的特征图;然后在将每一帧特征图输入到结合了激励机制的循环神经网络对时空域上的信息进行综合建模,同时在这个特征空间预测出下一时刻的特征图;最后通过解码器网络将预测的特征图从特征空间映射回像素空间,得到预测帧。能够有效地解决时域建模中对运动信息欠考虑,以及对突发性的变化不敏感的问题,显著提高视频预测的准确性,提高了生成图像地质量。一方面,考虑前后帧的变化关系,有效捕捉视频帧前后的发展趋势,对视频帧变化的规律把握更加精准。另一方面,着重强调了相邻帧与所预测帧的关系,使得模型更有利于捕获视频帧中的物体外形和运动规律,预测出来的图像也更加清晰。
下面结合附图对本申请实施例提供的视频预测方法进行详细说明。
首先,需要构建视频预测网络,所述视频预测网络包括编码器网络、循环神经网络和解码器网络。
编码器网络旨在将图片从像素空间投影到一个高维特征空间,并且在这个高维特征空间中视频的时域变化能够更加简单高效。
在一种可能的实施方式中,图2示出了本申请实施例提供的编码器网络结构示意图,所述编码器网络由5层3x3卷积构成,其中2层步长为2,另外3层步长为1。具体结构如下:
(1)2D卷积,其中卷积核大小为3x3,步长为2,输入通道数为1,输出通道数为32。
(2)2D卷积,其中卷积核大小为3x3,步长为1,输入通道数为32,输出通道数为32。
(3)2D卷积,其中卷积核大小为3x3,步长为2,输入通道数为32,输出通道数为64。
(4)2D卷积,其中卷积核大小为3x3,步长为1,输入通道数为64,输出通道数为64。
(5)2D卷积,其中卷积核大小为3x3,步长为1,输入通道数为64,输出通道数为64。
其中每个2D卷积之后都会紧跟一层的归一层GroupNorm和激活层LeakyRelu。
所述编码器网络将原始灰度图片转化为边长仅为原始图片1/4大小,通道数为64的特征图。图片在经过所述的5层2D卷积以及后续的归一层和激活层之后,空间的尺度由原先的64x64变成了16x16,缩小了4倍;同时其通道数从1增加到了64。由此得到了每个位置的覆盖全图的抽象语义特征图。
在一种可能的实施方式中,循环神经网络部分的每一层包括三个模块:运动信息增强Motion Excitation模块,上下文信息增强Context Excitation模块,和时域信息建模RNN模块。特征图先同时进入Motion Excitation模块和Context Excitation模块,两个模块的输出拼接之后作为RNN模块的输入,由RNN模块输出最后的结果。
Motion Excitation模块,用于对视频帧与帧之间体现的运动信息进行强化;Context Excitation模块,用于对当前帧的上下文信息进行强化与提取;RNN模块,结合之前两个模块的输出对视频的时域信息建模。
图3示出了所述循环神经网络部分中每一层的构建流程,具体步骤如下:
步骤1:利用Motion Excitation模块处理输入该层的特征图,对前后帧之间的运动信息进行放大,得到与原始输入尺寸一致,但是运动信息增强的特征图;
步骤2:利用Context Excitation模块处理输入该层的原始输入,对包括当前帧与之前5帧的上下文进行特征提取,得到上下文信息增强的特征图;
步骤3:将先前步骤得到的两种特征图在通道维度拼接;
步骤4:将拼接后的特征图输入RNN模块进行时域上的建模,同时利用这些时域信息去推断下一时刻帧的高级语义信息,以便对帧进行预测。
在循环神经网络部分的Motion Excitation模块内部,采用了一种激励的形式,具体步骤如下:
步骤1:对于当前时刻特征图Xt∈Rc×h×w以及前一时刻特征图Xt-1∈Rc×h×w,将其两者做差得到Xt-1∈Rc×h×w;即将当前时刻和前一时刻两帧的特征图做差,得到一个与输入尺寸相当的特征图,作为运动信息的载体。
步骤2:将得到的差D送入1x1卷积,减少通道数到原来的1/4,得到S=Conv1x1(D),S∈Re/4×h×w。以便简化后续的计算,同时保证更好的泛化性。
步骤3:对S进行2D的全局池化,把其在空间的宽和高两个维度化为1,也就是说对每个通道上的2D特征图取均值,得到一个向量E∈Rc/4×1×1。也就是对差的每一个通道做全局的均值池化操作,将空间维度上的长和宽化为1,从而得到长度为通道数的一个向量。
步骤4:把向量E放入全连层,生成一组长度为c的权重W∈Rc×1×1;也就是将向量输入一层全连层和激活层来增大向量长度到4倍,以此来使向量长度与原始输入的通道数匹配。
步骤5:权重W乘回到Xt用来对Xt中的不同通道进行增强,其中与运动相关的通道对应权重较大;最后再将乘积与原来的Xt相加,防止信息丢失得到最后的结果Yt=Xt×E+Xt,Yt∈Rc×h×w。也就是将向量与当前时刻的原始特征图相乘得到增强的特征图;最后将原始特征图和增强的特征图相加。
在Context Excitation模块中,先将当前时刻输入的特征图和前5个时刻输入的特征图在新的维度拼接成一个4D张量,然后将该张量输入到结构相同的2层R(2+1)D模块中。Context Excitation模块由2个行为识别模型R(2+1)D模块构成,其中每个R(2+1)D模块中有2层3x3的空间卷积,步长为1,以及2层卷积核大小为3的时间域卷积,步长同样为1。
Context Excitation模块采用了2D空间域卷积和1D时间域卷积结合的方式,具体步骤如下:
步骤1:将当前时刻以及之前5帧的特征图Xt,Xt-1,…,Xt-5∈Rc×h×w在新的时间维度拼接起来,得到U∈R6×c×h×w
步骤2:将U接连送入两个R(2+1)D模块,在每一个R(2+1)D模块中先是一个3x3的空间卷积,在通道,宽和高三个维度上进行运算,并不改变任何一个维度的大小;接着是一个卷积核为3的时间卷积,在时间维度上对不同特征图进行组合,也不改变时间维度的大小。经过两个R(2+1)D模块之后得到的特征图为v∈R6×c×h×w
步骤3:把V送入一个卷积核大小为6的空间卷积,将其时间尺度6减小为1,也就是降维成3D张量Z∈Rc×h×w。该操作也可理解为给予不同时间的特征图不同权值,将它们乘上权值之后相加,得到降维之后的结果。
在送入RNN结构之前,本申请实施例提出运动激励Motion Excitation和上下文激励Context Excitation两者输出的结合方式为通道维度上的拼接,也就是T=[Yt,Zl,T∈R2c×h×w
本申请实施例采用的RNN结构为ConvLSTM网络,其能够对2D特征图同时进行空间和时间的建模。
图4示出了本申请实施例提供的所述解码器网络结构示意图,具体由5层3x3解卷积构成,其中2层步长为2,另外3层步长为1。解码器网络构成如下:
(1)2D解卷积,其中卷积核大小为3x3,步长为1,输入通道数为64,输出通道数为64。
(2)2D解卷积,其中卷积核大小为3x3,步长为1,输入通道数为64,输出通道数为64。
(3)2D解卷积,其中卷积核大小为3x3,步长为2,输入通道数为64,输出通道数为32。
(4)2D解卷积,其中卷积核大小为3x3,步长为1,输入通道数为32,输出通道数为32。
(5)2D解卷积,其中卷积核大小为3x3,步长为2,输入通道数为32,输出通道数为1。
其中每个2D卷积之后都会紧跟一层的归一层GroupNorm和激活层LeakyRelu。
所述解码器网络将通道数为64的特征图恢复为通道数为1的灰度图片。图片在经过所述的5层2D解卷积以及后续的归一层和激活层之后,空间的尺度由原先的16x16变成了64x64,增大了4倍;同时其通道数从64增加到了1,得到了预测之后的视频帧。
本申请实施例采用的损失函数为MSE均方误差损失函数,具体来说对于预测得到的
Figure BDA0003584333580000121
与实际下一帧Xt+1,损失计算方式为
Figure BDA0003584333580000122
其中m为宽,n为高。
具体应用在视频预测时,将视频中的已知帧输入编码器网络,得到已知帧的高级语义特征;利用循环神经网络对得到的高级语义特征进行时空域上的建模,并预测下一时刻视频帧对应的特征图;进一步将特征图输入解码器网络得到预测出来的图像;将视频序列逐个输入到所述编码器网络、所述循环神经网络、所述解码器网络中来预测下一时刻的图像,用预测的图像和真实图像的差的平方作为损失函数来训练网络直到收敛,得到最终模型。
综上所述,本申请实施例提供了一种视频预测方法,通过将视频中的已知帧输入编码器网络,得到已知帧的语义特征图;利用循环神经网络对所述语义特征图进行时空域建模,在特征空间预测出下一时刻视频帧对应的语义特征图;将预测出的语义特征图输入解码器网络,得到在像素空间的下一时刻视频帧图像。显著提高了视频预测的准确性和清晰度。
基于相同的技术构思,本申请实施例还提供了一种视频预测系统,如图5所示,所述系统包括:
编码模块501,用于将视频中的已知帧输入编码器网络,得到已知帧的语义特征图;
预测模块502,用于利用循环神经网络对所述语义特征图进行时空域建模,在特征空间预测出下一时刻视频帧对应的语义特征图;
解码模块503,用于将预测出的语义特征图输入解码器网络,得到在像素空间的下一时刻视频帧图像。
本申请实施方式还提供一种与前述实施方式所提供的方法对应的电子设备。请参考图6,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。所述电子设备20可以包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个物理端口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读存储介质,请参考图7,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种视频预测方法,其特征在于,所述方法包括:
将视频中的已知帧输入编码器网络,得到已知帧的语义特征图;
利用循环神经网络对所述语义特征图进行时空域建模,在特征空间预测出下一时刻视频帧对应的语义特征图;
将预测出的语义特征图输入解码器网络,得到在像素空间的下一时刻视频帧图像。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
将视频帧序列中的已知帧逐个输入到所述编码器网络、所述循环神经网络、所述解码器网络来预测下一时刻的视频帧图像,将预测出的视频帧图像和预测帧图像对应时刻的真实图像的差的平方作为损失函数来训练所述编码器网络、所述循环神经网络、所述解码器网络直到收敛。
3.如权利要求1所述的方法,其特征在于,所述利用循环神经网络对所述语义特征图进行时空域建模,在特征空间预测出下一时刻视频帧对应的语义特征图,包括:
将所述语义特征图同时输入运动信息增强模块和上下文信息增强模块;
所述运动信息增强模块对所述语义特征图的前后帧之间的运动信息进行放大处理,得到与原始输入尺寸一致的运动信息增强特征图;
所述上下文信息增强模块对所述语义特征图的包括当前帧与之前的设定范围帧的上下文信息进行特征提取,得到上下文信息增强特征图;
将所述运动信息增强特征图和所述上下文信息增强特征图在通道维度拼接;
将拼接后的特征图输入时域信息建模模块进行时域上的建模,并利用时域信息预测下一时刻视频帧的语义信息,以预测出下一时刻视频帧对应的语义特征图。
4.如权利要求3所述的方法,其特征在于,所述运动信息增强模块对所述语义特征图的前后帧之间的运动信息进行放大处理,得到与原始输入尺寸一致的运动信息增强特征图,包括:
将当前时刻和前一时刻的视频帧的语义特征图做差处理,得到与原始输入尺寸一致的差值特征图;
将所述差值特征图输入卷积层以降低通道数;
对降低通道数后的差值特征图中的每一个通道进行全局的均值池化处理,得到长度为通道数的特征向量;
将所述特征向量输入全连层和激活层,以使特征向量长度与原始输入的通道数匹配;
将输出的特征向量与当前时刻的原始语义特征图相乘,得到增强特征图;
将原始语义特征图和增强特征图相加,得到运动信息增强特征图。
5.如权利要求3所述的方法,其特征在于,所述上下文信息增强模块对所述语义特征图的包括当前帧与之前的设定范围帧的上下文信息进行特征提取,得到上下文信息增强特征图,包括:
对所述语义特征图的当前帧与之前的设定范围帧的特征图在目标时间维度进行拼接;
将拼接后的特征图输入第一行为识别模型,以在通道、宽和高三个维度上进行空间卷积,再输入第二行为识别模型,以在时间维度上对不同特征图进行组合,得到组合特征图;
将不同时间的组合特征图与各自权值的乘积相加,得到所述上下文信息增强特征图。
6.如权利要求1所述的方法,其特征在于,所述将视频中的已知帧输入编码器网络,得到已知帧的语义特征图,包括:
所述编码器网络将视频中的已知帧转化为设定边长和设定通道数的特征图;
将所述特征图输入第一数目层的卷积层、归一层和激活层,得到已知帧的语义特征图。
7.如权利要求1所述的方法,其特征在于,所述将预测出的语义特征图输入解码器网络,得到在像素空间的下一时刻视频帧图像,包括:
所述解码器网络将预测出的语义特征图的通道数恢复至设定通道数;
将恢复通道数后的预测出的语义特征图输入第一数目层的卷积层、归一层和激活层,得到在像素空间的下一时刻视频帧图像。
8.一种视频预测系统,其特征在于,所述系统包括:
编码模块,用于将视频中的已知帧输入编码器网络,得到已知帧的语义特征图;
预测模块,用于利用循环神经网络对所述语义特征图进行时空域建模,在特征空间预测出下一时刻视频帧对应的语义特征图;
解码模块,用于将预测出的语义特征图输入解码器网络,得到在像素空间的下一时刻视频帧图像。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1-7任一项所述的方法。
CN202210359238.8A 2022-04-07 2022-04-07 一种视频预测方法和系统 Pending CN114821086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210359238.8A CN114821086A (zh) 2022-04-07 2022-04-07 一种视频预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210359238.8A CN114821086A (zh) 2022-04-07 2022-04-07 一种视频预测方法和系统

Publications (1)

Publication Number Publication Date
CN114821086A true CN114821086A (zh) 2022-07-29

Family

ID=82535078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210359238.8A Pending CN114821086A (zh) 2022-04-07 2022-04-07 一种视频预测方法和系统

Country Status (1)

Country Link
CN (1) CN114821086A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115633216A (zh) * 2022-09-05 2023-01-20 北京智源人工智能研究院 时域运动一致性视频生成模型的训练方法和视频生成方法
CN116168362A (zh) * 2023-02-27 2023-05-26 小米汽车科技有限公司 车辆感知模型的预训练方法、装置、电子设备及车辆

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115633216A (zh) * 2022-09-05 2023-01-20 北京智源人工智能研究院 时域运动一致性视频生成模型的训练方法和视频生成方法
CN115633216B (zh) * 2022-09-05 2024-05-28 北京智源人工智能研究院 时域运动一致性视频生成模型的训练方法和视频生成方法
CN116168362A (zh) * 2023-02-27 2023-05-26 小米汽车科技有限公司 车辆感知模型的预训练方法、装置、电子设备及车辆

Similar Documents

Publication Publication Date Title
US10510146B2 (en) Neural network for image processing
CN111402130B (zh) 数据处理方法和数据处理装置
CN110633661A (zh) 一种融合语义分割的遥感图像目标检测方法
CN114821086A (zh) 一种视频预测方法和系统
Ren et al. Deep Robust Single Image Depth Estimation Neural Network Using Scene Understanding.
US20210065379A1 (en) Hardware-based optical flow acceleration
WO2021218786A1 (zh) 一种数据处理系统、物体检测方法及其装置
Xie et al. A binocular vision application in IoT: Realtime trustworthy road condition detection system in passable area
US20200202542A1 (en) Systems and methods for determining depth information in two-dimensional images
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
JP7357176B1 (ja) 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置
CN112819858B (zh) 基于视频增强的目标跟踪方法、装置、设备及存储介质
CN114764856A (zh) 图像语义分割方法和图像语义分割装置
CN113066018A (zh) 一种图像增强方法及相关装置
CN114140672A (zh) 一种应用于雨雪天气场景下多传感器数据融合的目标检测网络系统及方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN114694005A (zh) 目标检测模型训练方法和装置、目标检测方法和装置
US10878592B2 (en) Video data processing
Lim et al. LAU-Net: A low light image enhancer with attention and resizing mechanisms
Zhou et al. Roadnet: An 80-mw hardware accelerator for road detection
CN114066958A (zh) 目标的深度信息预测方法和装置、电子设备和存储介质
CN115187768A (zh) 一种基于改进YOLOv5的鱼眼图像目标检测方法
Chan et al. Raw camera data object detectors: an optimisation for automotive processing and transmission
CN113239771A (zh) 一种姿态估计方法、系统及其应用
CN117372935B (zh) 一种视频目标检测方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination