CN111582254A - 视频预测方法、装置、计算机设备和可读存储介质 - Google Patents

视频预测方法、装置、计算机设备和可读存储介质 Download PDF

Info

Publication number
CN111582254A
CN111582254A CN202010564352.5A CN202010564352A CN111582254A CN 111582254 A CN111582254 A CN 111582254A CN 202010564352 A CN202010564352 A CN 202010564352A CN 111582254 A CN111582254 A CN 111582254A
Authority
CN
China
Prior art keywords
image
video data
prediction
predicted
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010564352.5A
Other languages
English (en)
Inventor
周康明
郜杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eye Control Technology Co Ltd
Original Assignee
Shanghai Eye Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eye Control Technology Co Ltd filed Critical Shanghai Eye Control Technology Co Ltd
Priority to CN202010564352.5A priority Critical patent/CN111582254A/zh
Publication of CN111582254A publication Critical patent/CN111582254A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种视频预测方法、装置、计算机设备和可读存储介质。该方法包括:将获取的视频数据输入移动场预测网络,得到预测移动场;预测移动场表征图像中像素点的位置变化预测情况;将预测移动场、视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像;异常矩阵表征参考预测图像中发生异常移动的像素点位置;将异常矩阵和参考预测图像输入图像生成网络,得到下一时刻的预测图像;将预测图像添加至视频数据的最后一帧图像位置之后,删除视频数据的第一帧图像,形成新的视频数据,并返回执行将视频数据输入移动场预测网络的步骤,直至得到预测视频数据。该方法可大大提高得到的预测视频数据的准确性。

Description

视频预测方法、装置、计算机设备和可读存储介质
技术领域
本申请涉及图像处理技术领域,特别是涉及一种视频预测方法、装置、计算机设备和可读存储介质。
背景技术
视频预测可以应用于很多场景,如拍摄行人、自动驾驶汽车等进行移动轨迹预测,气象要素(温度,湿度,风速等)的未来场预测,雷达回波的临近预测等,通过对行人和汽车未来运动轨迹的预测,实现自动驾驶汽车提前预判制动等操作。或者通过对当前地区的气象要素进行外推预测,预防恶劣天气等带来的影响等。
传统技术中,通常将已获得的视频数据输入训练完成的深度学习网络中,经过网络的卷积等操作,对视频数据中的每帧图像特征进行分析,得到未来时间段的视频数据。
然而,传统技术仅通过每帧图像特征进行直接的分析处理,其准确性不高。
发明内容
本申请针对传统技术中进行视频预测的准确性不高的问题,提供一种视频预测方法、装置、计算机设备和可读存储介质。
一种视频预测方法,该方法包括:
将获取的视频数据输入移动场预测网络,得到预测移动场;该视频数据包括多帧具有相同时间间隔的图像,预测移动场表征图像中像素点的位置变化预测情况;
将预测移动场、视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像;预设矩阵与视频数据中的图像具有相同维度,异常矩阵表征参考预测图像中发生异常移动的像素点位置;
将异常矩阵和参考预测图像输入图像生成网络,得到下一时刻的预测图像;将预测图像添加至视频数据的最后一帧图像位置之后,删除视频数据的第一帧图像,形成新的视频数据,并返回执行将视频数据输入移动场预测网络的步骤,直至得到预设帧数的预测图像,作为预测视频数据。
在其中一个实施例中,将预测移动场、视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像,包括:
通过形变网络对预测移动场和视频数据的最后一帧图像进行预测处理,得到下一时刻的参考预测图像;
通过形变网络对预测移动场和预设矩阵进行变换处理,得到异常矩阵。
在其中一个实施例中,通过形变网络对预测移动场和预设矩阵进行变换处理,得到异常矩阵,包括:
将预测移动场和预设矩阵输入形变网络,输出变换矩阵;
根据变换矩阵中各位置的值,确定异常矩阵。
在其中一个实施例中,将异常矩阵和参考预测图像输入图像生成网络,得到下一时刻的预测图像,包括:
将异常矩阵和参考预测图像进行通道连接后输入图像生成网络,得到下一时刻的预测图像。
在其中一个实施例中,上述方法还包括:
获取样本视频数据;
将样本视频数据输入初始移动场预测网络,得到样本移动场;
将样本移动场、样本视频数据的最后一帧图像和预设矩阵输入初始形变网络,得到样本异常矩阵和下一时刻的参考样本预测图像;
将样本异常矩阵和参考样本预测图像输入初始图像生成网络,得到下一时刻的样本预测图像;
根据样本异常矩阵、样本视频数据对应的下一时刻真实图像、样本预测图像和样本移动场计算损失函数,根据该损失函数对初始移动场预测网络、初始形变网络和初始图像生成网络进行训练。
在其中一个实施例中,根据样本异常矩阵、样本视频数据对应的下一时刻真实图像、样本预测图像和样本移动场计算损失函数,包括:
根据包含:
Figure BDA0002547259570000031
的关系式计算损失函数;
其中,M为样本异常矩阵,T为下一时刻真实图像,
Figure BDA0002547259570000032
为样本预测图像,wt(x)为样本移动场,MSE为均方误差函数,α、λ1、λ2、λ3为权重因子。
在其中一个实施例中,图像生成网络为包括跳跃连接的卷积神经网络。
一种视频预测装置,该装置包括:
第一预测模块,用于将获取的视频数据输入移动场预测网络,得到预测移动场;该视频数据包括多帧具有相同时间间隔的图像,预测移动场表征图像中像素点的位置变化预测情况;
第二预测模块,用于将预测移动场、视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像;预设矩阵与视频数据中的图像具有相同维度,异常矩阵表征参考预测图像中发生异常移动的像素点位置;
生成模块,用于将异常矩阵和参考预测图像输入图像生成网络,得到下一时刻的预测图像;将预测图像添加至视频数据的最后一帧图像位置之后,删除视频数据的第一帧图像,形成新的视频数据,并指示第一预测模块执行将视频数据输入移动场预测网络的步骤,直至得到预设帧数的预测图像,作为预测视频数据。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行该计算机程序时实现以下步骤:
将获取的视频数据输入移动场预测网络,得到预测移动场;该视频数据包括多帧具有相同时间间隔的图像,预测移动场表征图像中像素点的位置变化预测情况;
将预测移动场、视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像;预设矩阵与视频数据的图像具有相同维度,异常矩阵表征参考预测图像中发生异常移动的像素点位置;
将异常矩阵和参考预测图像输入图像生成网络,得到下一时刻的预测图像;将预测图像添加至视频数据的最后一帧图像位置之后,删除视频数据的第一帧图像,形成新的视频数据,并返回执行将视频数据输入移动场预测网络的步骤,直至得到预设帧数的预测图像,作为预测视频数据。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
将获取的视频数据输入移动场预测网络,得到预测移动场;该视频数据包括多帧具有相同时间间隔的图像,预测移动场表征图像中像素点的位置变化预测情况;
将预测移动场、视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像;预设矩阵与视频数据的图像具有相同维度,异常矩阵表征参考预测图像中发生异常移动的像素点位置;
将异常矩阵和参考预测图像输入图像生成网络,得到下一时刻的预测图像;将预测图像添加至视频数据的最后一帧图像位置之后,删除视频数据的第一帧图像,形成新的视频数据,并返回执行将视频数据输入移动场预测网络的步骤,直至得到预设帧数的预测图像,作为预测视频数据。
上述视频预测方法、装置、计算机设备和可读存储介质,能够首先将视频数据输入移动场预测网络,得到预测移动场,由于该预测移动场表征了图像中像素点的位置变化预测情况,即考虑了图像中像素点的物理变化规律,可使得视频预测过程更加贴近实际场景;再将预测移动场、视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像;然后将异常矩阵和参考预测图像输入图像生成网络,得到下一时刻的预测图像;并将该下一时刻的预测图像加入原始视频数据中进行下一轮次的预测,最终得到预测视频数据。由于异常矩阵表征了参考预测图像中发生异常移动的像素点位置,则通过异常矩阵可以对参考预测图像进行修正,大大提高了得到的预测图像的准确性,进而提高了得到的预测视频数据的准确性。
附图说明
图1为一个实施例中计算机设备的内部结构图;
图2为一个实施例中视频预测方法的流程示意图;
图3为另一个实施例中视频预测方法的流程示意图;
图4为又一个实施例中视频预测方法的流程示意图;
图5为又一个实施例中视频预测方法的流程示意图;
图5a为一个实施例中视频预测方法的实现过程示意图;
图6为一个实施例中视频预测装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的视频预测方法,可以适用于如图1所示的计算机设备。该计算机设备包括通过系统总线连接的处理器、存储器,该存储器中存储有计算机程序,处理器执行该计算机程序时可以执行下述方法实施例的步骤。可选地,该计算机设备还可以包括通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端通过网络连接通信。可选地,该计算机设备可以是个人计算机(personal computer,简称PC),还可以是个人数字助理,还可以是其他的终端设备,例如平板电脑(portable android device,简称PAD)、手机等等,还可以是云端或者远程服务器,本申请实施例对计算机设备的具体形式并不做限定。
在一个实施例中,如图2所示,提供了一种视频预测方法,以该方法应用于图1中的计算机设备为例进行说明,本实施例涉及的是对历史视频数据进行预测,以得到预测视频数据的具体过程,该方法包括以下步骤:
S101,将获取的视频数据输入移动场预测网络,得到预测移动场;视频数据包括多帧具有相同时间间隔的图像,预测移动场表征图像中像素点的位置变化预测情况。
其中,计算机设备获取的视频数据可以包括自动驾驶场景中摄像头的拍摄数据,气象要素(温度、湿度、风速等)按空间位置分布的图像集等,可以得知,视频数据包括了多帧具有相同时间间隔的图像,即可以理解为视频数据是一系列连续的图像数据。
具体地,计算机设备可以将获取的视频数据输入移动场预测网络,该移动场预测网络可以为卷积-反卷积结构,通过对视频数据进行卷积-反卷积操作,得到预测移动场;该预测移动场用于表征图像中像素点的位置变化预测情况,即图像中各像素点的位置在下一时刻时可能会发生怎样的变化,其考虑了像素点位置的物理变化规律。可选地,移动场预测网路中的卷积通道数和卷积核尺寸可以依据输入的视频数据大小来匹配设置。
S102,将预测移动场、视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像;预设矩阵与视频数据中的图像具有相同维度,异常矩阵表征参考预测图像中发生异常移动的像素点位置。
具体地,计算机设备可以先初始化一个与视频数据中的图像具有相同维度的预设矩阵E1,该预设矩阵E1每个位置的值可以设为1。然后,计算机设备可以将上述预测移动场、视频数据的最后一帧图像以及该预设矩阵输入一形变网络,该形变网络可以为神经网络,通过一系列的卷积层、池化层、全连接层等处理,得到异常矩阵和下一时刻的参考预测图像。其中,异常矩阵用于表征参考预测图像中发生异常移动的像素点的位置,如参考预测图像中某个目标位置没有像素点移动过来导致该目标位置的值为空,或者某个像素点移动误差较大,或者多个点移动到一个目标位置上等等。
可选地,计算机设备通过分析视频数据的最后一帧图像和预测移动场,可以得知最后一帧图像中的各像素点的位置变化预测情况,即得知各像素点在下一时刻可能会移动到哪里,则得到下一时刻的参考预测图像。另外,计算机设备通过预测移动场还可以得知各像素点的移动幅度以及移动趋势,则可以对上述预设矩阵进行更新,标识出异常移动的像素点位置,得到异常矩阵。
S103,将异常矩阵和参考预测图像输入图像生成网络,得到下一时刻的预测图像;将预测图像添加至视频数据的最后一帧图像位置之后,删除视频数据的第一帧图像,形成新的视频数据,并返回执行S101的步骤,直至得到预设帧数的预测图像,作为预测视频数据。
具体地,计算机设备再将上述异常矩阵和参考预测图像输入图像生成网络,综合异常矩阵对参考预测图像中发生异常移动的像素点位置进行修正,得到较精确的下一时刻的预测图像。可选地,计算机设备可以将异常矩阵和参考预测图像进行通道连接(channel-wise)后,输入图像生成网络中,得到下一时刻的预测图像。可选地,该图像生成网络可以为包括跳跃连接的卷积神经网络,通过跳跃连接能够保存低维度的特征信息以及减少梯度消失等。
当得到下一时刻的预测图像后,计算机设备可以将其添加至上述视频数据的最后一帧图像位置之后,并删除该视频数据的第一帧图像,形成新的视频数据;例如,假设原视频数据中包括了(A、B、C、D、E)五帧图像,并得到了预测图像F,则计算机设备将(B、C、D、E、F)作为新的视频数据。然后将新的视频数据重新输入移动场预测网络中,再次执行S101的步骤,由此循环执行,直至得到预设帧数的预测图像,将预测得到的图像作为预测视频数据。
本实施例提供的视频预测方法,计算机设备首先将视频数据输入移动场预测网络,得到预测移动场,由于该预测移动场表征了图像中像素点的位置变化预测情况,即考虑了图像中像素点的物理变化规律,可使得视频预测过程更加贴近实际场景;再将预测移动场、视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像;然后将异常矩阵和参考预测图像输入图像生成网络,得到下一时刻的预测图像,并将该下一时刻的预测图像加入原始视频数据中进行下一轮次的预测,最终得到预测视频数据。由于异常矩阵表征了参考预测图像中发生异常移动的像素点位置,则通过异常矩阵可以对参考预测图像进行修正,大大提高了得到的预测图像的准确性,进而提高了得到的预测视频数据的准确性。
在一个实施例中,涉及了计算机设备将预测移动场、视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像的具体过程,可选地,如图3所示,上述S102可以包括:
S201,通过形变网络对预测移动场和视频数据的最后一帧图像进行预测处理,得到下一时刻的参考预测图像。
具体地,计算机设备通过形变网络对预测移动场和视频数据的最后一帧图像进行预测处理,可以根据最后一帧图像中各像素点的位置变化预测情况对最后一帧图像中的各像素点进行位置变换,得到下一时刻的参考预测图像。可选地,形变网络可以通过
Figure BDA0002547259570000091
的关系式得到下一时刻的参考预测图像,其中,I为预测要素(如气象温度、湿度等),
Figure BDA0002547259570000092
为预测移动场,k为核函数,
Figure BDA0002547259570000093
y为最后一帧图像中各像素点的位置坐标矢量,x为参考预测图像中各像素点的位置坐标矢量,D为扩散系数(可通过网络学习或先验知识所得),Δt为相邻帧图像的时间差。
S202,通过形变网络对预测移动场和预设矩阵进行变换处理,得到异常矩阵。
具体地,预设矩阵E1每个位置的值可以设为1,计算机设备可以通过形变网络从预测移动场中得知各像素点的移动幅度以及移动趋势,然后对该预设矩阵进行更新。可选地,计算机设备可以将预测移动场和预设矩阵输入形变网络,输出变换矩阵E2,该变换矩阵E2可以表征最后一帧图像中各像素点的移动幅度,然后,根据该变换矩阵E2中各位置的值,确定上述异常矩阵。可选地,对于E2中值为0或者大于1的像素点位置,标记M’=0,其余的像素点位置M’=1,则将确定的M’矩阵作为异常矩阵。
本实施例提供的视频预测方法,计算机设备首先通过形变网络对预测移动场和视频数据的最后一帧图像进行预测处理,得到下一时刻的参考预测图像,再通过形变网络对预测移动场和预设矩阵进行变换处理,得到异常矩阵,进而可以将参考预测图像和异常矩阵输入图像生成网络,得到下一时刻的预测图像。该方法中,通过由形变网络分别处理得到参考预测图像和异常矩阵,两个处理过程相互独立,可提高得到的参考预测图像和异常矩阵的准确性,进而提高得到的预测图像的准确性。
在一个实施例中,在使用上述移动场预测网络、形变网络及图像生成网络之前,计算机设备还可以对该多个网络进行训练,以提高网络精度,使得处理得到的预测图像精度更高。可选地,如图4所示,上述方法还包括:
S301,获取样本视频数据。
具体地,计算机设备获取的样本视频数据可以为从道路监控数据库、气象观测台数据库等获取的视频数据,则计算机设备可以将一段视频中的前部分作为样本视频数据,后部分作为使用该样本视频数据进行视频预测时可学习的数据,即真实图像。可选地,计算机设备还可以将获取的样本视频数据按照一定比例划分为训练集、测试集和验证集,训练集用于对上述网络进行训练,测试集用于对训练的网络进行精度测试,验证集用于对训练的网络做进一步验证。
S302,将样本视频数据输入初始移动场预测网络,得到样本移动场。
S303,将样本移动场、样本视频数据的最后一帧图像和预设矩阵输入初始形变网络,得到样本异常矩阵和下一时刻的参考样本预测图像。
S304,将样本异常矩阵和参考样本预测图像输入初始图像生成网络,得到下一时刻的样本预测图像。
其中,初始移动场预测网络、初始形变网络和初始图像生成网络的处理过程可以参见上述实施例中对移动场预测网络、形变网络和图像生成网络处理过程的描述,其实现方法类似,在此不再赘述;需要说明的时,各初始网络的网络参数此时还没调整到最优状态。
S305,根据样本异常矩阵、样本视频数据对应的下一时刻真实图像、样本预测图像和样本移动场计算损失函数,根据损失函数对初始移动场预测网络、初始形变网络和初始图像生成网络进行训练。
具体地,计算机设备可以根据上述得到的样本异常矩阵、样本视频数据对应的下一时刻真实图像、样本预测图像和样本移动场计算损失函数,并根据该损失函数的值调整初始移动场预测网络、初始形变网络和初始图像生成网络的网络参数。可选地,可以利用反向梯度传播方式调整初始移动场预测网络、初始形变网络和初始图像生成网络的网络参数,以及利用Adam优化器进行优化。由此进行迭代训练,直至损失函数的值小于预设阈值或者达到收敛时,初始移动场预测网络、初始形变网络和初始图像生成网络训练完成,则得到上述移动场预测网络、形变网络和图像生成网络。
可选地,计算机设备可以根据包含:
Figure BDA0002547259570000121
的关系式计算所述损失函数;其中,M为样本异常矩阵,T为下一时刻真实图像,
Figure BDA0002547259570000122
为样本预测图像,wt(x)为样本移动场,MSE为均方误差函数,α、λ1、λ2、λ3为权重因子;另外,
Figure BDA0002547259570000123
N为图像中像素点的个数,
Figure BDA0002547259570000124
Figure BDA0002547259570000125
表征的是移动场的平滑程度。
本实施例提供的视频预测方法,计算机设备首先根据样本视频数据对初始移动场预测网络、初始形变网络和初始图像生成网络进行训练得到训练收敛的移动场预测网络、形变网络和图像生成网络,由此提高了各网络的网络精度,进而提高了各网络的数据处理精度,即提高了得到的预测视频数据的准确性。
为更好的理解上述视频预测方法的实现过程,下面以另一个实施例对该方法进行描述,可选地,如图5所示,上述方法包括:
S401,将获取的视频数据输入移动场预测网络,得到预测移动场;
S402,通过形变网络对预测移动场和视频数据的最后一帧图像进行预测处理,得到下一时刻的参考预测图像;
S403,将预测移动场和预设矩阵输入所述形变网络,输出变换矩阵;
S404,根据变换矩阵中各位置的值,确定异常矩阵;
S405,将异常矩阵和参考预测图像进行通道连接后输入所述图像生成网络,得到下一时刻的预测图像;将该预测图像添加至视频数据的最后一帧图像位置之后,删除视频数据的第一帧图像,形成新的视频数据,并返回执行S401的步骤,直至得到预设帧数的预测图像,作为预测视频数据。
关于本实施例中各步骤的实现方法和实现原理,可以参见上述实施例的描述,在此不再赘述。而关于该方法的实现过程示意图还可参见图5a所示。
应该理解的是,虽然图2-图5的流程图中各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种视频预测装置,包括:第一预测模块11、第二预测模块12和生成模块13。
具体地,第一预测模块11,用于将获取的视频数据输入移动场预测网络,得到预测移动场;该视频数据包括多帧具有相同时间间隔的图像,预测移动场表征图像中像素点的位置变化预测情况。
第二预测模块12,用于将预测移动场、视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像;预设矩阵与视频数据中的图像具有相同维度,异常矩阵表征参考预测图像中发生异常移动的像素点位置。
生成模块13,用于将异常矩阵和参考预测图像输入图像生成网络,得到下一时刻的预测图像;将预测图像添加至视频数据的最后一帧图像位置之后,删除视频数据的第一帧图像,形成新的视频数据,并指示第一预测模块11执行将视频数据输入移动场预测网络的步骤,直至得到预设帧数的预测图像,作为预测视频数据。
本实施例提供的视频预测装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在一个实施例中,第二预测模块12,具体用于通过形变网络对预测移动场和视频数据的最后一帧图像进行预测处理,得到下一时刻的参考预测图像;通过形变网络对预测移动场和预设矩阵进行变换处理,得到异常矩阵。
在一个实施例中,第二预测模块12,具体用于将预测移动场和预设矩阵输入形变网络,输出变换矩阵;根据变换矩阵中各位置的值,确定异常矩阵。
在一个实施例中,生成模块13,具体用于将异常矩阵和参考预测图像进行通道连接后输入图像生成网络,得到下一时刻的预测图像。
在一个实施例中,上述装置还包括训练模块,用于获取样本视频数据;将样本视频数据输入初始移动场预测网络,得到样本移动场;将样本移动场、样本视频数据的最后一帧图像和预设矩阵输入初始形变网络,得到样本异常矩阵和下一时刻的参考样本预测图像;将样本异常矩阵和参考样本预测图像输入初始图像生成网络,得到下一时刻的样本预测图像;根据样本异常矩阵、样本视频数据对应的下一时刻真实图像、样本预测图像和样本移动场计算损失函数,根据该损失函数对初始移动场预测网络、初始形变网络和初始图像生成网络进行训练。
在一个实施例中,上述训练模块,具体用于根据包含:
Figure BDA0002547259570000141
的关系式计算损失函数;其中,M为样本异常矩阵,T为下一时刻真实图像,
Figure BDA0002547259570000142
为样本预测图像,wt(x)为样本移动场,MSE为均方误差函数,α、λ1、λ2、λ3为权重因子。
在一个实施例中,图像生成网络为包括跳跃连接的卷积神经网络。
关于视频预测装置的具体限定可以参见上文中对于视频预测方法的限定,在此不再赘述。上述视频预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
将获取的视频数据输入移动场预测网络,得到预测移动场;该视频数据包括多帧具有相同时间间隔的图像,预测移动场表征图像中像素点的位置变化预测情况;
将预测移动场、视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像;预设矩阵与视频数据中的图像具有相同维度,异常矩阵表征参考预测图像中发生异常移动的像素点位置;
将异常矩阵和参考预测图像输入图像生成网络,得到下一时刻的预测图像;将预测图像添加至视频数据的最后一帧图像位置之后,删除视频数据的第一帧图像,形成新的视频数据,并返回执行将视频数据输入移动场预测网络的步骤,直至得到预设帧数的预测图像,作为预测视频数据。
本实施例提供的计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
通过形变网络对预测移动场和视频数据的最后一帧图像进行预测处理,得到下一时刻的参考预测图像;
通过形变网络对预测移动场和预设矩阵进行变换处理,得到异常矩阵。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将预测移动场和预设矩阵输入形变网络,输出变换矩阵;
根据变换矩阵中各位置的值,确定异常矩阵。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将异常矩阵和参考预测图像进行通道连接后输入图像生成网络,得到下一时刻的预测图像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取样本视频数据;
将样本视频数据输入初始移动场预测网络,得到样本移动场;
将样本移动场、样本视频数据的最后一帧图像和预设矩阵输入初始形变网络,得到样本异常矩阵和下一时刻的参考样本预测图像;
将样本异常矩阵和参考样本预测图像输入初始图像生成网络,得到下一时刻的样本预测图像;
根据样本异常矩阵、样本视频数据对应的下一时刻真实图像、样本预测图像和样本移动场计算损失函数,根据该损失函数对初始移动场预测网络、初始形变网络和初始图像生成网络进行训练。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据包含:
Figure BDA0002547259570000171
的关系式计算损失函数;
其中,M为样本异常矩阵,T为下一时刻真实图像,
Figure BDA0002547259570000172
为样本预测图像,wt(x)为样本移动场,MSE为均方误差函数,α、λ1、λ2、λ3为权重因子。
在一个实施例中,图像生成网络为包括跳跃连接的卷积神经网络。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将获取的视频数据输入移动场预测网络,得到预测移动场;该视频数据包括多帧具有相同时间间隔的图像,预测移动场表征图像中像素点的位置变化预测情况;
将预测移动场、视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像;预设矩阵与视频数据中的图像具有相同维度,异常矩阵表征参考预测图像中发生异常移动的像素点位置;
将异常矩阵和参考预测图像输入图像生成网络,得到下一时刻的预测图像;将预测图像添加至视频数据的最后一帧图像位置之后,删除视频数据的第一帧图像,形成新的视频数据,并返回执行将视频数据输入移动场预测网络的步骤,直至得到预设帧数的预测图像,作为预测视频数据。
本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
通过形变网络对预测移动场和视频数据的最后一帧图像进行预测处理,得到下一时刻的参考预测图像;
通过形变网络对预测移动场和预设矩阵进行变换处理,得到异常矩阵。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将预测移动场和预设矩阵输入形变网络,输出变换矩阵;
根据变换矩阵中各位置的值,确定异常矩阵。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将异常矩阵和参考预测图像进行通道连接后输入图像生成网络,得到下一时刻的预测图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取样本视频数据;
将样本视频数据输入初始移动场预测网络,得到样本移动场;
将样本移动场、样本视频数据的最后一帧图像和预设矩阵输入初始形变网络,得到样本异常矩阵和下一时刻的参考样本预测图像;
将样本异常矩阵和参考样本预测图像输入初始图像生成网络,得到下一时刻的样本预测图像;
根据样本异常矩阵、样本视频数据对应的下一时刻真实图像、样本预测图像和样本移动场计算损失函数,根据该损失函数对初始移动场预测网络、初始形变网络和初始图像生成网络进行训练。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据包含:
Figure BDA0002547259570000191
的关系式计算损失函数;
其中,M为样本异常矩阵,T为下一时刻真实图像,
Figure BDA0002547259570000192
为样本预测图像,wt(x)为样本移动场,MSE为均方误差函数,α、λ1、λ2、λ3为权重因子。
在一个实施例中,图像生成网络为包括跳跃连接的卷积神经网络。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种视频预测方法,其特征在于,所述方法包括:
将获取的视频数据输入移动场预测网络,得到预测移动场;所述视频数据包括多帧具有相同时间间隔的图像,所述预测移动场表征图像中像素点的位置变化预测情况;
将所述预测移动场、所述视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像;所述预设矩阵与所述视频数据中的图像具有相同维度,所述异常矩阵表征参考预测图像中发生异常移动的像素点位置;
将所述异常矩阵和所述参考预测图像输入图像生成网络,得到下一时刻的预测图像;将所述预测图像添加至所述视频数据的最后一帧图像位置之后,删除所述视频数据的第一帧图像,形成新的视频数据,并返回执行将视频数据输入移动场预测网络的步骤,直至得到预设帧数的预测图像,作为预测视频数据。
2.根据权利要求1所述的方法,其特征在于,所述将所述预测移动场、所述视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像,包括:
通过所述形变网络对所述预测移动场和所述视频数据的最后一帧图像进行预测处理,得到下一时刻的参考预测图像;
通过所述形变网络对所述预测移动场和所述预设矩阵进行变换处理,得到所述异常矩阵。
3.根据权利要求2所述的方法,其特征在于,所述通过所述形变网络对所述预测移动场和所述预设矩阵进行变换处理,得到所述异常矩阵,包括:
将所述预测移动场和所述预设矩阵输入所述形变网络,输出变换矩阵;
根据所述变换矩阵中各位置的值,确定所述异常矩阵。
4.根据权利要求1所述的方法,其特征在于,所述将所述异常矩阵和所述参考预测图像输入图像生成网络,得到下一时刻的预测图像,包括:
将所述异常矩阵和所述参考预测图像进行通道连接后输入所述图像生成网络,得到下一时刻的预测图像。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获取样本视频数据;
将所述样本视频数据输入初始移动场预测网络,得到样本移动场;
将所述样本移动场、所述样本视频数据的最后一帧图像和预设矩阵输入初始形变网络,得到样本异常矩阵和下一时刻的参考样本预测图像;
将所述样本异常矩阵和所述参考样本预测图像输入初始图像生成网络,得到下一时刻的样本预测图像;
根据所述样本异常矩阵、所述样本视频数据对应的下一时刻真实图像、所述样本预测图像和所述样本移动场计算损失函数,根据所述损失函数对所述初始移动场预测网络、所述初始形变网络和所述初始图像生成网络进行训练。
6.根据权利要求5所述的方法,其特征在于,所述根据所述样本异常矩阵、所述样本视频数据对应的下一时刻真实图像、所述样本预测图像和所述样本移动场计算损失函数,包括:
根据包含:
Figure FDA0002547259560000021
的关系式计算所述损失函数;
其中,所述M为所述样本异常矩阵,所述T为所述下一时刻真实图像,所述
Figure FDA0002547259560000022
为所述样本预测图像,所述wt(x)为所述样本移动场,所述MSE为均方误差函数,所述α、λ1、λ2、λ3为权重因子。
7.根据权利要求1所述的方法,其特征在于,所述图像生成网络为包括跳跃连接的卷积神经网络。
8.一种视频预测装置,其特征在于,所述装置包括:
第一预测模块,用于将获取的视频数据输入移动场预测网络,得到预测移动场;所述视频数据包括多帧具有相同时间间隔的图像,所述预测移动场表征图像中像素点的位置变化预测情况;
第二预测模块,用于将所述预测移动场、所述视频数据的最后一帧图像和预设矩阵输入形变网络,得到异常矩阵和下一时刻的参考预测图像;所述预设矩阵与所述视频数据中的图像具有相同维度,所述异常矩阵表征参考预测图像中发生异常移动的像素点位置;
生成模块,用于将所述异常矩阵和所述参考预测图像输入图像生成网络,得到下一时刻的预测图像;将所述预测图像添加至所述视频数据的最后一帧图像位置之后,删除所述视频数据的第一帧图像,形成新的视频数据,并指示所述第一预测模块执行将视频数据输入移动场预测网络的步骤,直至得到预设帧数的预测图像,作为预测视频数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
CN202010564352.5A 2020-06-19 2020-06-19 视频预测方法、装置、计算机设备和可读存储介质 Pending CN111582254A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010564352.5A CN111582254A (zh) 2020-06-19 2020-06-19 视频预测方法、装置、计算机设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010564352.5A CN111582254A (zh) 2020-06-19 2020-06-19 视频预测方法、装置、计算机设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN111582254A true CN111582254A (zh) 2020-08-25

Family

ID=72114733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010564352.5A Pending CN111582254A (zh) 2020-06-19 2020-06-19 视频预测方法、装置、计算机设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN111582254A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137389A1 (en) * 2016-11-16 2018-05-17 Facebook, Inc. Deep Multi-Scale Video Prediction
CN108810551A (zh) * 2018-06-20 2018-11-13 Oppo(重庆)智能科技有限公司 一种视频帧预测方法、终端及计算机存储介质
CN110866909A (zh) * 2019-11-13 2020-03-06 上海联影智能医疗科技有限公司 图像生成网络的训练方法、图像预测方法和计算机设备
CN111047088A (zh) * 2019-12-09 2020-04-21 上海眼控科技股份有限公司 预测图像获取方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137389A1 (en) * 2016-11-16 2018-05-17 Facebook, Inc. Deep Multi-Scale Video Prediction
CN108810551A (zh) * 2018-06-20 2018-11-13 Oppo(重庆)智能科技有限公司 一种视频帧预测方法、终端及计算机存储介质
CN110866909A (zh) * 2019-11-13 2020-03-06 上海联影智能医疗科技有限公司 图像生成网络的训练方法、图像预测方法和计算机设备
CN111047088A (zh) * 2019-12-09 2020-04-21 上海眼控科技股份有限公司 预测图像获取方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李森;许宏科;: "基于时空建模的视频帧预测模型" *

Similar Documents

Publication Publication Date Title
JP7258400B2 (ja) ビデオデータ処理方法、ビデオデータ処理装置、コンピュータ機器、及びコンピュータプログラム
CN111708355A (zh) 基于强化学习的多无人机动作决策方法和装置
JP2022532460A (ja) モデル訓練方法、装置、端末及びプログラム
CN109493417B (zh) 三维物体重建方法、装置、设备和存储介质
CN109255351B (zh) 基于三维卷积神经网络的边界框回归方法、系统、设备及介质
CN112241976A (zh) 一种训练模型的方法及装置
CN110738687A (zh) 对象跟踪方法、装置、设备及存储介质
CN111666922A (zh) 视频匹配方法、装置、计算机设备和存储介质
CN112258512A (zh) 点云分割方法、装置、设备和存储介质
CN111292377B (zh) 目标检测方法、装置、计算机设备和存储介质
CN111931720B (zh) 跟踪图像特征点的方法、装置、计算机设备和存储介质
CN111047088A (zh) 预测图像获取方法、装置、计算机设备和存储介质
CN111950419A (zh) 图像信息预测方法、装置、计算机设备和存储介质
CN110824496B (zh) 运动估计方法、装置、计算机设备和存储介质
CN111898573A (zh) 图像预测方法、计算机设备和存储介质
CN111582254A (zh) 视频预测方法、装置、计算机设备和可读存储介质
CN116579460A (zh) 信息预测方法、装置、计算机设备和存储介质
CN113119119B (zh) 一种机器人动作的执行方法、装置和存储介质
CN111553324B (zh) 人体姿态预测值校正方法、装置,服务器及存储介质
KR102240403B1 (ko) 이미지 평활화 방법 및 이미지 평활화 장치
CN113609947A (zh) 运动轨迹预测方法、装置、计算机设备和存储介质
CN112862002A (zh) 多尺度目标检测模型的训练方法、目标检测方法和装置
CN112464989A (zh) 一种基于目标检测网络的闭环检测方法
CN113805587B (zh) 多无人车分布式编队控制方法、装置和设备
CN111898620A (zh) 识别模型的训练方法、字符识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination