CN111683256B - 视频帧预测方法、装置、计算机设备和存储介质 - Google Patents

视频帧预测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111683256B
CN111683256B CN202010799430.XA CN202010799430A CN111683256B CN 111683256 B CN111683256 B CN 111683256B CN 202010799430 A CN202010799430 A CN 202010799430A CN 111683256 B CN111683256 B CN 111683256B
Authority
CN
China
Prior art keywords
motion field
frame
superposition
value
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010799430.XA
Other languages
English (en)
Other versions
CN111683256A (zh
Inventor
郜杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kos Technology Shanghai Co ltd
Original Assignee
Kos Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kos Technology Shanghai Co ltd filed Critical Kos Technology Shanghai Co ltd
Priority to CN202010799430.XA priority Critical patent/CN111683256B/zh
Publication of CN111683256A publication Critical patent/CN111683256A/zh
Application granted granted Critical
Publication of CN111683256B publication Critical patent/CN111683256B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/583Motion compensation with overlapping blocks

Abstract

本申请涉及一种视频帧预测方法、装置、计算机设备和存储介质,通过N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场,得到至少一个间隔帧运动场,并根据至少一个间隔帧运动场,获取待预测未来帧的当前运动场叠加累计值,然后根据当前运动场叠加累计值和已知视频帧,预测待预测未来帧中序号与运动场叠加累计值的累计次数对应的视频帧。该方法可以避免了误差产生累积,使得预测的未来帧更加精确,从而提高了所有视频帧预测准确度。

Description

视频帧预测方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种频帧预测方法、装置、计算机设备和存储介质。
背景技术
随着信息技术的发展,由于视频能够提供丰富的视觉信息,各种信息都的展现都会采用视频的方式实现。
当前,视频生成已经成为计算机视觉领域中一个重要的研究课题,而视频预测是视频生成中最具挑战的任务之一。视频预测指的是给定一段视频,然后生成清晰合理的后续视频,以便可以根据预测的视频提前做出判断或决策。现有技术中进行视频预测的技术有多种,例如,基于运动场进行视频预测。一般地,在基于运动场的视频预测技术中,传统的方法主要是循环使用“预测下一帧”的技术来预测多帧,从而实现预测视频的效果。
但是,循环使用“预测下一帧”的技术是基于对前帧预测结果为真实值的假设完成,一帧一帧的误差会造成误差累加,导致后续视频的预测结果不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高视频帧预测准确度的视频帧预测方法、装置、计算机设备和存储介质。
第一方面,本申请实施例提供一种视频帧预测方法,该方法包括:
根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场,得到至少一个间隔帧运动场;其中N≥2;
根据至少一个间隔帧运动场,获取待预测未来帧的当前运动场叠加累计值;
根据当前运动场叠加累计值和已知视频帧,预测待预测未来帧中序号与当前运动场叠加累计值的累计次数对应的视频帧。
在其中一个实施例中,上述根据至少一个间隔帧运动场,获取当前运动场叠加累计值包括:
采用预设的叠加算法,对至少一个间隔帧运动场进行叠加处理,得到当前运动场叠加累计值;叠加算法为基于运动场时间的相关性信息设置的,且对不同时间步或者不同位置的间隔运动场进行了平滑处理。
在其中一个实施例中,上述采用预设的叠加算法,对至少一个间隔帧运动场进行叠加处理,得到当前运动场叠加累计值,包括:
获取最新缓存的间隔帧运动场和历史运动场叠加值,历史运动场叠加值为在预测最新缓存的间隔帧运动场之前的累计的运动场叠加值;
对最新缓存的间隔帧运动场和历史运动场叠加值进行加权求和,得到当前运动场叠加累计值。
在其中一个实施例中,上述采用预设的叠加算法,对至少一个间隔帧运动场进行叠加处理,得到当前运动场叠加累计值,包括:
获取最新缓存的间隔帧运动场、历史运动场叠加值、以及最新缓存的间隔帧运动场到当前运动场叠加累计值之间的像素点位移形变值;
获取最新缓存的间隔帧运动场和历史运动场叠加值的加权和;
根据加权和与像素点位移形变值,确定当前运动场叠加累计值。
在其中一个实施例中,上述当前运动场叠加累计值的累计次数为i;
根据当前运动场叠加累计值和已知视频帧,预测待预测未来帧中序号与当前运动场叠加累计值的累计次数对应的视频帧,包括:
获取已知视频帧中的第N帧视频帧;
将第N帧视频帧和当前运动场叠加累计值输入至预设的形变模型中,得到待预测未来帧中第N+i的视频帧。
在其中一个实施例中,在上述得到待预测未来帧中序号与当前运动场叠加累计值的累计次数对应的视频帧之后,该方法还包括:
视频帧预测步骤:
若当前运动场叠加累计值的累计次数i小于待预测的未来帧的总数量K,则执行根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场的步骤,以得到累计次数为i+1的运动场叠加累计值;
根据累计次数为i+1的运动场叠加累计值和已知视频帧,预测待预测未来帧中第N+i+1的视频帧;
重复执行视频帧预测步骤,直到i=K,得到待预测未来帧中所有的视频帧。
在其中一个实施例中,上述根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场,包括:将N帧已知视频帧和待预测未来帧的总数量输入至预设的运动场预测模型中,预测待预测未来帧中相邻帧间的运动场。
第二方面,本申请实施例提供一种视频帧预测装置,该装置包括:
第一预测模块,用于根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场,得到至少一个间隔帧运动场;其中N≥2;
获取模块,用于根据至少一个间隔帧运动场,获取待预测未来帧的当前运动场叠加累计值;
第二预测模块,用于根据当前运动场叠加累计值和已知视频帧,预测待预测未来帧中序号与当前运动场叠加累计值的累计次数对应的视频帧。
第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面提供的任一项方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面提供的任一项方法的步骤。
本申请实施例提供一种视频帧预测方法、装置、计算机设备和存储介质,通过N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场,得到至少一个间隔帧运动场,并根据至少一个间隔帧运动场,获取待预测未来帧的当前运动场叠加累计值,然后根据当前运动场叠加累计值和已知视频帧,预测待预测未来帧中序号与当前运动场叠加累计值的累计次数对应的视频帧。由于求取了已知视频帧与未来帧中某一帧之间的运动场叠加累计值,这样就可以基于已知视频帧预测未来帧中任何一帧的内容,相当于预测未来帧时,每一帧都是基于已知视频帧进行预测的,而已知视频帧是准确地真实值,避免了误差产生累积,使得预测的未来帧更加精确,从而提高了所有视频帧预测准确度。
附图说明
图1为一个实施例中提供的视频帧预测方法的应用环境图;
图2为一个实施例中提供的视频帧预测方法的流程示意图;
图3为另一个实施例中提供的视频帧预测方法的流程示意图;
图4为另一个实施例中提供的视频帧预测方法的流程示意图;
图5为另一个实施例中提供的视频帧预测方法的流程示意图;
图6为另一个实施例中提供的视频帧预测方法的流程示意图;
图7为一个实施例中提供的视频帧预测方法的流程图;
图8为一个实施例中提供的视频帧预测装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的视频帧预测方法,可以应用于如图1所示的应用环境中。其中,该视频帧预测方法应用在图1所示的计算机设备中,该计算机设备可以是服务器,其内部结构图请参见图1。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频帧预测的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频帧预测方法。
本申请实施例提供的一种视频帧预测方法、装置、计算机设备和存储介质,能够提高视频帧预测准确度。下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。需要说明的是,本申请提供的一种视频帧预测方法,图2-图7的执行主体为计算机设备,其中,图2-图7的执行主体还可以是视频帧预测装置,其中该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
在一个实施例中,如图2所示,提供了一种视频帧预测方法,以该方法应用于图1中的计算机设备为例进行说明,该实施例包括以下步骤:
S101,根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场,得到至少一个间隔帧运动场;其中N≥2。
视频预测是根据给定的一段视频,生成清晰合理的后续视频,该给定一段视频至少需要有两个以上视频帧,并以该给定了两个以上视频帧预测后续的视频帧。因此,已知视频帧指的就是预先提供的视频帧,且至少有两个以上已知视频帧。这里的已知视频帧可以是摄像头在距离当前时间点之前的预设时间段内采集的视频所包含的多个图像,也可以是计算机设备接收其他设备传输的视频所包含的多个图像,本申请实施例对已知视频帧的获取方式不作限定。
其中,待预测未来帧指的是需要预测的后续视频中的视频帧。根据已知视频帧,预测待预测未来帧中的相邻帧间的运动场就是预测后续视频帧中各相邻视频帧间的运动场,相邻视频帧间的运动场称为间隔帧运动场。后续在本申请实施例中,间隔帧运动场也可使用dW表示。该间隔运动场可以理解为是前一个视频帧中的各像素点到后一个视频帧时的位移矢量,即间隔运动场反映的是相邻视频帧中各像素点的变化关系。
示例地,在实际应用中,计算机设备预测待预测未来帧的中间隔帧运动场,可以是通过预设的神经网络模型(运动场预测模型)进行预测,可选地,将N帧已知视频帧和待预测未来帧的总数量输入至预设的运动场预测模型中,预测待预测未来帧中相邻帧间的运动场。其中,该运动场预测模型包括但不限于是跳跃链接的CNN结构模型、光流预测模型、基于物理假设的移动场预测模型等,本实施例对此不作限定。其中,该神经网络模型还可以是基于N帧已知视频帧中的空间特征、时间特征以及实体特征构建的,即依据N帧已知视频帧中的空间特征、时间特征以及实体特征预测出后续未来帧中的间隔运动场。另外,在预测未来帧中的间隔运动场时,可以一次只预测一个相邻帧的间隔运动场,也可以是已经预测了多个相邻帧的间隔运动场,对此不加以限定。
S102,根据至少一个间隔帧运动场,获取待预测未来帧的当前运动场叠加累计值。
在获取到未来帧中间隔帧运动场后,需要获取当前的运动场叠加累计值。其中,当前运动场叠加累计值指的是当前预测的间隔帧运动场的叠加值,例如,已知视频帧是帧1-5,待预测未来帧是6-15,当前已预测的间隔帧运动场是帧5-6之间的间隔帧运动场dW1,以及帧6-7、帧7-8之间的间隔帧运动场dW2和dW3,那么,当前运动场叠加累计值就指的是dW1、dW2、dW3的叠加值,需要说明的是,这里运动场叠加累计值不是单单对各间隔帧运动场进行叠加求和得到的,而是通过一定的算法求的累计值,其反映的是间隔帧之间运动场的综合变化关系。
在获取当前运动场叠加累计值时,是随着预测出的间隔帧运动场进行叠加累计的,也就是,每新预测得到一个间隔帧运动场,就需要在原先的运动场叠加累计值上叠加新预测得到的间隔帧运动场,所以获取当前运动场叠加累计值的累计次数与预测出的间隔帧运动场的数量是相互对应的。例如,第一次的时候预测的间隔帧运动场是帧5-6之间的间隔帧运动场dW1,对应的运动场叠加累计值W是dW1,累计次数为1;第二次的时候预测的间隔帧运动场是帧6-7之间的间隔帧运动场dW2,对应的是W(dW1,dW2),累计次数为2,...依次类推可得累计次数等于预测次数。
S103,根据当前运动场叠加累计值和已知视频帧,预测待预测未来帧中序号与当前运动场叠加累计值的累计次数对应的视频帧。
在得到当前的运动场叠加累计值后,结合已知视频帧,就可以预测出未来帧中序号与当前运动场叠加累计值的累计次数对应的视频帧。例如,已知视频帧是帧1-5,待预测未来帧是6-15,当前已预测的间隔帧运动场是帧5-6之间的间隔帧运动场dW1,以及帧6-7、帧7-8之间的间隔帧运动场dW2和dW3,当前的运动场叠加累计值是W(dW1,dW2,dW3),其累计次数是3,反映的是已知视频帧中的帧5到未来帧中帧8之间的运动场的值;
则未来帧中序号与当前运动场叠加累计值的累计次数对应的视频帧就是未来帧中第三帧,也就是未来帧中的帧8,那么根据已知视频帧的帧5、已知视频帧中的帧5到未来帧中帧8之间的运动场的值,就可以预测出未来帧中的帧8。
本实施例提供的视频帧预测方法,通过N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场,得到至少一个间隔帧运动场,并根据至少一个间隔帧运动场,获取待预测未来帧的当前运动场叠加累计值,然后根据当前运动场叠加累计值和已知视频帧,预测待预测未来帧中序号与当前运动场叠加累计值的累计次数对应的视频帧。由于求取了已知视频帧与未来帧中某一帧之间的运动场叠加累计值,这样就可以基于已知视频帧预测未来帧中任何一帧的内容,相当于预测未来帧时,每一帧都是基于已知视频帧进行预测的,而已知视频帧是准确地真实值,避免了误差产生累积,使得预测的未来帧更加精确,从而提高了所有视频帧预测准确度。
下面通过具体的实施例对上述获取运动场叠加累计值的过程进行详细说明。在一个实施例中,上述根据至少一个间隔帧运动场,获取运动场叠加累计值包括:采用预设的叠加算法,对至少一个间隔帧运动场进行叠加处理,得到当前运动场叠加累计值;叠加算法为基于运动场时间的相关性信息设置的,且对不同时间步或者不同位置的间隔运动场进行了平滑处理。
其中,预设的叠加算法是预先设定的用于获取多个间隔帧运动场的运动场叠加累计值的算法,该算法是基于运动场时间的相关性信息设置的,以对消除不同时间下像素点的移动对计算运动场带来的影响,提高运动场叠加累计值的准确度。具体地,在设置该算法时,可以对不同时间步的间隔帧运动场进行平滑处理,消除不同时间步时间隔帧运动场的差异,或者对不同位置的间隔帧运动场进行平滑处理,消除不同位置时间隔帧运动场的差异,从而保证了预测的运动场的连续一致性。
可选地,在其中一个实施例中,提供一种对不同位置的间隔运动场进行了平滑处理时的叠加算法,那么如图3所示,采用该叠加算法,对至少一个间隔帧运动场进行叠加处理,得到当前运动场叠加累计值的过程包括以下步骤:
S201,获取最新缓存的间隔帧运动场和历史运动场叠加值,历史运动场叠加值为在预测最新缓存的间隔帧运动场之前的累计的运动场叠加值。
其中,最新缓存的间隔帧运动场指的是已经预测出的间隔帧运动场,但还未计算到运动场叠加累计值中的运动场,历史运动场叠加值为在预测最新缓存的间隔帧运动场之前的累计的运动场叠加值,例如,已知视频帧是帧1-5,待预测未来帧是6-15,当前已预测的间隔帧运动场是帧5-6之间的间隔帧运动场dW1,以及帧6-7的间隔帧运动场dW2,对应的运动场叠加累计值是W(dW1,dW2),最新一次预测了未来帧中的帧7-8之间的间隔帧运动场dW3,那么最新缓存的间隔帧运动场就是dW3,而历史运动场叠加值就是W(dW1,dW2);当然,若最新预测的间隔帧运动场除了dW3以外,还有未来帧中的帧8-9之间的间隔帧运动场dW4,那么最新缓存的间隔帧运动场就是dW3和dW4了,依次类推可确定每一次的最新缓存的间隔帧运动场和历史运动场叠加值。
S202,对最新缓存的间隔帧运动场和历史运动场叠加值进行加权求和,得到当前运动场叠加累计值。
对获取的最新缓存的间隔帧运动场和历史运动场叠加值设置权值系数,该权值系数可以根据实际情况设定,本申请实施例对此不作限定。基于设定的权值系数,求取最新缓存的间隔帧运动场和历史运动场叠加值进行加权和,并将该加权和作为当前运动场叠加累计值。例如,对于某一像素位置坐标
Figure 276058DEST_PATH_IMAGE001
,假设历史运动场叠加值为
Figure 458778DEST_PATH_IMAGE002
,其权值系数为a,最新缓存的间隔帧运动场为
Figure 769674DEST_PATH_IMAGE003
,对应的取值系数为(1-a),则当前运动场叠加累计值
Figure 961621DEST_PATH_IMAGE004
本实施例提供的视频帧预测方法,获取最新缓存的间隔帧运动场和历史运动场叠加值,并对最新缓存的间隔帧运动场和历史运动场叠加值进行加权求和,得到当前运动场叠加累计值,通过设定不同的权值系数对缓存的间隔帧运动场和历史运动场叠加值的比重进行优化,使得得到的新的运动场叠加累计值更加客观,更加准确。
可选地,在另外一个实施例中,提供一种对不同时间步的间隔运动场进行了平滑处理时的叠加算法,则如图4所示,采用该叠加算法,对至少一个间隔帧运动场进行叠加处理,得到当前运动场叠加累计值的过程包括以下步骤:
S301,获取最新缓存的间隔帧运动场、历史运动场叠加值、以及最新缓存的间隔帧运动场到当前运动场叠加累计值之间的像素点位移形变值。
其中最新缓存的间隔帧运动场、历史运动场叠加值可参见上述实施例中的说明,在此不再赘述。本实施例中还需要获取最新缓存的间隔帧运动场到当前运动场叠加累计值之间的像素点位移形变值。本实施例是对不同时间步的间隔运动场进行了平滑处理时的叠加算法的说明,也即是对原始像素点运动向量的基于时间上加权的叠加的说明,所以获取像素点位移形变值是为补偿像素点的移动矢量在不同时间步时的差异,提高了各间隔运动场之间的连续一致性。
S302,获取最新缓存的间隔帧运动场和历史运动场叠加值的加权和。
同样,对最新缓存的间隔帧运动场和历史运动场叠加值设定权重系数后,得到两者的加权和,加权和表示当前时刻的运动场叠加值;例如:
Figure 618736DEST_PATH_IMAGE005
,其中,
Figure 972357DEST_PATH_IMAGE006
为历史运动场叠加值,例如,当前时刻的上一时刻之前的叠加的运动场,其权值系数为a;
Figure 521281DEST_PATH_IMAGE007
为最新缓存的间隔帧运动场,对应的取值系数为(1-a)。需要说明的是,当到了下一刻,下一刻的运动场叠加值就成为新的当前时刻运动场叠加值
Figure 985760DEST_PATH_IMAGE008
,而旧的当前时刻运动场叠加值
Figure 185797DEST_PATH_IMAGE008
就成为了新的历史运动场叠加值
Figure 710320DEST_PATH_IMAGE006
S303,根据加权和与像素点位移形变值,确定当前运动场叠加累计值。
得到最新缓存的间隔帧运动场和历史运动场叠加值的加权和后,将加权和与像素点位移形变值之和确定为当前运动场叠加累计值。
例如,以当前运动场叠加累计值表示为W,加权和表示为
Figure 245075DEST_PATH_IMAGE009
,则
Figure 513245DEST_PATH_IMAGE010
,其中,
Figure 567789DEST_PATH_IMAGE011
为最新缓存的间隔帧运动场,
Figure 528792DEST_PATH_IMAGE012
为历史运动场叠加值;
则当前运动场叠加累计值
Figure 52308DEST_PATH_IMAGE013
;即
Figure 858590DEST_PATH_IMAGE014
其中,
Figure 33220DEST_PATH_IMAGE015
为通过形变模型
Figure 899544DEST_PATH_IMAGE016
对上一帧进行形变得到当前帧的像素点位移形变值。
本实施例提供的视频帧预测方法,获取最新缓存的间隔帧运动场、历史运动场叠加值,以及像素点位移形变值,并将最新缓存的间隔帧运动场和历史运动场叠加值的加权和,与像素点位移形变值之和确定为当前运动场叠加累计值,该方法中,在计算当前运动场叠加累计值时,结合了最新缓存的间隔帧运动场到当前运动场叠加累计值之间的像素点位移形变值,补偿像素点的移动矢量在不同时间步时的差异,提高了各间隔运动场之间的连续一致性。
当然,除了上述两种获取当前运动场叠加累计值的叠加方法以外,还可以通过基于神经网络的模型或者基于马尔科夫随机场的概率模型获取当前运动场叠加累计值。例如,通过基于神经网络的模型获取当前运动场叠加累计值,该模型的可基于以下公式实现:
Figure 414751DEST_PATH_IMAGE017
;其中
Figure 24724DEST_PATH_IMAGE009
可通过卷积神经网络
Figure 53860DEST_PATH_IMAGE018
实现,或者,通过卷积长短时记忆神经网络
Figure 356665DEST_PATH_IMAGE019
实现,其中
Figure 589195DEST_PATH_IMAGE011
为最新缓存的间隔帧运动场,
Figure 2859DEST_PATH_IMAGE012
为历史运动场叠加值,
Figure 886501DEST_PATH_IMAGE020
为当前运动场叠加累计值。通过神经网络模型获取当前运动场叠加累计值,可以充分利用神经网络模型的优点,使获取的运动场叠加累计值更加精确。
经过上述实施例的说明可知,通过已知视频帧可以预测未来帧中任何一帧的内容,对于上述S103步骤中具体的过程请参见图5所示实施例,在图5中,上述S103的实现过程包括以下步骤:
S401,获取已知视频帧中的第N帧视频帧。
已知视频帧包括N个视频帧,获取第N帧视频帧就是获取已知视频帧中的最后一个视频帧,例如,若N=2,就是获取第二个视频帧,若N=5,则是获取第五个视频帧。可以理解的是,N个视频帧必须是连续的N帧视频帧。
S402,将第N帧视频帧和运动场叠加累计值输入至预设的形变模型中,得到待预测未来帧中第N+i的视频帧。
形变模型是预先训练好的用于对已知视频帧中第N帧视频帧进行形变的模型,形变的内容为第N帧视频帧中所有像素点的位移矢量。其中,该形变模型包括但不限于基于双线性插值的形变模型、基于高斯插值的形变模型等,本申请实施例对此不作限定。
假设上述运动场叠加累计值的累计次数为i,就相当于预测了i个相邻间隔帧运动场,那么述运动场叠加累计值反映的就是已知视频帧中第N帧视频帧到未来帧中第i帧之间的运动场,又因为已知视频帧和待预测未来帧组合起来是一个完成的视频序列,所以未来帧中第i帧可以表示为N+i帧;例如,已知视频帧是帧1-5,待预测未来帧是6-15,已知视频帧中第N帧视频帧就是帧5,若i=3,第N+i帧就是5+3=8,即可以预测出未来帧中的第8帧的内容。则将第N帧视频帧和运动场叠加累计值输入至预设的形变模型中即可得到待预测未来帧中第N+i的视频帧。就是将帧5、帧5与帧8之间的运动场叠加累计值,输入至形变模型中,输出的是帧8的内容,相当于,将帧5中各像素点的位置进行形变后得到帧8中的各像素点的位置。
基于此预测未来帧的方法,若需要预测出整个视频,就要将所有的未来帧都预测出来,可选地,如图6所示,该方法还包括:
S501,视频帧预测步骤:若运动场叠加累计值的累计次数i小于待预测的未来帧的总数量K,则执行根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场的步骤,以得到累计次数为i+1的运动场叠加累计值;根据累计次数为i+1的运动场叠加累计值和已知视频帧,预测待预测未来帧中第N+i+1的视频帧。
S502,重复执行视频帧预测步骤,直到i=K,得到待预测未来帧中所有的视频帧。
假设待预测的未来帧的总数量K,从已知视频帧的第N帧开始算,就需要预测K个间隔帧运动场,才能将未来帧全部预测完成。根据前面的说明可知运动场叠加累计值的累计次数等于预测间隔帧运动场的次数,也就是说需要i=K。
基于此,检测当前的运动场叠加累计值的累计次数i是否小于待预测的未来帧的总数量K,若小于,则继续执行预测步骤,i+1,重复执行视频帧预测步骤,直到i=K,就可得到待预测未来帧中所有的视频帧。
例如,请参见图7所示,结合上述叠加算法F,提供一种视频帧预测方法的实施例,包括以下步骤:
S1,获取输入数据:N帧已知视频帧
Figure 360208DEST_PATH_IMAGE021
、待预测未来帧数量K,初始化i=0;
S2,将上述输入数据输入运动场预测模型,预测未来帧中
Figure 578568DEST_PATH_IMAGE022
Figure 530344DEST_PATH_IMAGE023
帧的各相邻帧之间的间隔帧运动场
Figure 534072DEST_PATH_IMAGE011
;
S3,判断i是否等于0;若是,执行S5,若否,执行S4;
S4,通过预设的叠加算法计算当前运动场叠加累计值W;其中叠加算法可采用上述实施例中任意一个方法;
例如叠加算法包括表达式:
Figure 178680DEST_PATH_IMAGE024
Figure 385801DEST_PATH_IMAGE017
,其中,
Figure 141268DEST_PATH_IMAGE011
为最新缓存的间隔帧运动场,
Figure 733923DEST_PATH_IMAGE012
为历史运动场叠加值,
Figure 549432DEST_PATH_IMAGE009
为当前时刻的运动场叠加值,W为当前运动场叠加累计值。
S5,当前运动场叠加累计值W=缓存间隔帧运动场dW;当前时刻的运动场叠加值
Figure 742385DEST_PATH_IMAGE009
=缓存间隔帧运动场dW;
S6,通过形变模型对第N帧进行形变得到第N+i帧的预测结果
Figure 301543DEST_PATH_IMAGE025
S7,检测i是否等于k;若是,执行S9,若否,执行S8
S8,i=i+1后,执行S2;
S9,输出所有未来帧的预测结果
Figure 748704DEST_PATH_IMAGE026
上述实施例提供的视频帧预测方法中各步骤,其实现原理和技术效果与前面各视频帧预测方法实施例中类似,在此不再赘述。图7实施例中各步骤的实现方式只是一种举例,对各实现方式不作限定,各步骤的顺序在实际应用中可进行调整,只要可以实现各步骤的目的即可。
应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种视频帧预测装置,包括:第一预测模块10、获取模块11和第二预测模块12,其中:
第一预测模块10,用于根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场,得到至少一个间隔帧运动场;其中N≥2;
获取模块11,用于根据至少一个间隔帧运动场,获取待预测未来帧的当前运动场叠加累计值;
第二预测模块12,用于根据当前运动场叠加累计值和已知视频帧,预测待预测未来帧中序号与当前运动场叠加累计值的累计次数对应的视频帧。
在一个实施例中,上述获取模块11包括:获取单元,用于采用预设的叠加算法,对至少一个间隔帧运动场进行叠加处理,得到当前运动场叠加累计值;叠加算法为基于运动场时间的相关性信息设置的,且对不同时间步或者不同位置的间隔运动场进行了平滑处理。
在一个实施例中,上述获取单元,具体用于获取最新缓存的间隔帧运动场和历史运动场叠加值,历史运动场叠加值为在预测最新缓存的间隔帧运动场之前的累计的运动场叠加值;对最新缓存的间隔帧运动场和历史运动场叠加值进行加权求和,得到当前运动场叠加累计值。
在其中一个实施例中,上述获取单元,具体用于获取最新缓存的间隔帧运动场、历史运动场叠加值、以及最新缓存的间隔帧运动场到当前运动场叠加累计值之间的像素点位移形变值;获取最新缓存的间隔帧运动场和历史运动场叠加值的加权和;根据加权和与像素点位移形变值,确定当前运动场叠加累计值。
在一个实施例中,上述第二预测模块12包括:
视频帧单元,用于获取已知视频帧中的第N帧视频帧;
预测帧单元,用于将第N帧视频帧和运动场叠加累计值输入至预设的形变模型中,得到待预测未来帧中第N+i的视频帧。
在一个实施例中,该装置还包括:循环模块,用于执行视频帧预测步骤:
若运动场叠加累计值的累计次数i小于待预测的未来帧的总数量K,则执行根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场的步骤,以得到累计次数为i+1的运动场叠加累计值;根据累计次数为i+1的运动场叠加累计值和已知视频帧,预测待预测未来帧中第N+i+1的视频帧;重复执行视频帧预测步骤,直到i=K,得到待预测未来帧中所有的视频帧。
在一个实施例中,上述第一预测模块10,具体用于将N帧已知视频帧和待预测未来帧的总数量输入至预设的运动场预测模型中,预测待预测未来帧中相邻帧间的运动场。
上述实施例提供的所有视频帧预测装置,其实现原理和技术效果与上述视频帧预测方法实施例类似,在此不再赘述。
关于视频帧预测装置的具体限定可以参见上文中对于视频帧预测方法的限定,在此不再赘述。上述视频帧预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频帧预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场,得到至少一个间隔帧运动场;其中N≥2;
根据至少一个间隔帧运动场,获取待预测未来帧的当前运动场叠加累计值;
根据当前运动场叠加累计值和已知视频帧,预测待预测未来帧中序号与当前运动场叠加累计值的累计次数对应的视频帧。
上述实施例提供的一种计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场,得到至少一个间隔帧运动场;其中N≥2;
根据至少一个间隔帧运动场,获取待预测未来帧的当前运动场叠加累计值;
根据当前运动场叠加累计值和已知视频帧,预测待预测未来帧中序号与当前运动场叠加累计值的累计次数对应的视频帧。
上述实施例提供的一种计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种视频帧预测方法,其特征在于,所述方法包括:
根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场,得到至少一个间隔帧运动场;其中N≥2;
根据所述至少一个间隔帧运动场,获取所述待预测未来帧的当前运动场叠加累计值;所述根据所述至少一个间隔帧运动场,获取所述待预测未来帧的当前运动场叠加累计值,包括:获取最新缓存的间隔帧运动场和历史运动场叠加值,所述历史运动场叠加值为在预测所述最新缓存的间隔帧运动场之前的运动场叠加值;对所述最新缓存的间隔帧运动场和所述历史运动场叠加值进行加权求和,得到所述当前运动场叠加累计值;
根据所述当前运动场叠加累计值和所述已知视频帧,预测所述待预测未来帧中序号与所述当前运动场叠加累计值的累计次数对应的视频帧。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个间隔帧运动场,获取所述待预测未来帧的当前运动场叠加累计值,还包括:
获取最新缓存的间隔帧运动场、历史运动场叠加值、以及所述最新缓存的间隔帧运动场到所述当前运动场叠加累计值之间的像素点位移形变值;
获取所述最新缓存的间隔帧运动场和所述历史运动场叠加值的加权和;
根据所述加权和与所述像素点位移形变值,确定所述当前运动场叠加累计值。
3.根据权利要求1或2所述的方法,其特征在于,所述当前运动场叠加累计值的累计次数为i;
所述根据所述当前运动场叠加累计值和所述已知视频帧,预测所述待预测未来帧中序号与所述当前运动场叠加累计值的累计次数对应的视频帧,包括:
获取所述已知视频帧中的第N帧视频帧;
将所述第N帧视频帧和所述当前运动场叠加累计值输入至预设的形变模型中,得到所述待预测未来帧中第N+i的视频帧。
4.根据权利要求1或2所述的方法,其特征在于,在得到所述待预测未来帧中序号与所述当前运动场叠加累计值的累计次数对应的视频帧之后,所述方法还包括:
视频帧预测步骤:
若所述当前运动场叠加累计值的累计次数i小于所述待预测的未来帧的总数量K,则执行根据所述根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场的步骤,以得到累计次数为i+1的运动场叠加累计值;
根据所述累计次数为i+1的运动场叠加累计值和所述已知视频帧,预测所述待预测未来帧中第N+i+1的视频帧;
重复执行所述视频帧预测步骤,直到所述i=K,得到所述待预测未来帧中所有的视频帧。
5.根据权利要求1或2所述的方法,其特征在于,所述根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场,包括:
将所述N帧已知视频帧和所述待预测未来帧的总数量输入至预设的运动场预测模型中,预测所述待预测未来帧中相邻帧间的运动场。
6.一种视频帧预测装置,其特征在于,所述装置包括:
第一预测模块,用于根据N帧已知视频帧,预测待预测未来帧中相邻帧间的运动场,得到至少一个间隔帧运动场;其中N≥2;
获取模块,用于根据所述至少一个间隔帧运动场,获取所述待预测未来帧的当前运动场叠加累计值;
所述获取模块,具体用于获取最新缓存的间隔帧运动场和历史运动场叠加值,所述历史运动场叠加值为在预测所述最新缓存的间隔帧运动场之前的运动场叠加值;对所述最新缓存的间隔帧运动场和所述历史运动场叠加值进行加权求和,得到所述当前运动场叠加累计值;
第二预测模块,用于根据所述当前运动场叠加累计值和所述已知视频帧,预测所述待预测未来帧中序号与所述当前运动场叠加累计值的累计次数对应的视频帧。
7.根据权利要求6所述的装置,其特征在于,所述获取模块,还具体用于获取最新缓存的间隔帧运动场、历史运动场叠加值、以及所述最新缓存的间隔帧运动场到所述当前运动场叠加累计值之间的像素点位移形变值;获取所述最新缓存的间隔帧运动场和所述历史运动场叠加值的加权和;根据所述加权和与所述像素点位移形变值,确定所述当前运动场叠加累计值。
8.根据权利要求6或7所述的装置,其特征在于,所述第二预测模块包括视频帧单元和预测帧单元;其中,
所述视频帧单元,用于获取所述已知视频帧中的第N帧视频帧;
所述预测帧单元,用于将所述第N帧视频帧和所述当前运动场叠加累计值输入至预设的形变模型中,得到所述待预测未来帧中第N+i的视频帧;所述i为所述当前运动场叠加累计值的累计次数。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202010799430.XA 2020-08-11 2020-08-11 视频帧预测方法、装置、计算机设备和存储介质 Expired - Fee Related CN111683256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010799430.XA CN111683256B (zh) 2020-08-11 2020-08-11 视频帧预测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010799430.XA CN111683256B (zh) 2020-08-11 2020-08-11 视频帧预测方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111683256A CN111683256A (zh) 2020-09-18
CN111683256B true CN111683256B (zh) 2021-01-05

Family

ID=72458226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010799430.XA Expired - Fee Related CN111683256B (zh) 2020-08-11 2020-08-11 视频帧预测方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111683256B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661585B (zh) * 2022-12-07 2023-03-10 腾讯科技(深圳)有限公司 一种图像识别方法和相关装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160127380A1 (en) * 2011-04-01 2016-05-05 Rightscorp, Inc. System and method to verify predetermined actions by a computer on a network
US20140169444A1 (en) * 2012-12-14 2014-06-19 Microsoft Corporation Image sequence encoding/decoding using motion fields
CN104683802A (zh) * 2015-03-24 2015-06-03 江南大学 一种基于h.264/avc压缩域的运动目标跟踪的方法
CN109522828B (zh) * 2018-11-01 2021-09-28 上海科技大学 一种异常事件检测方法及系统、存储介质及终端
CN109919032B (zh) * 2019-01-31 2021-03-30 华南理工大学 一种基于动作预测的视频异常行为检测方法
CN110363794A (zh) * 2019-07-17 2019-10-22 青岛科技大学 视频连续帧之间的光流预测方法
CN110839156A (zh) * 2019-11-08 2020-02-25 北京邮电大学 一种基于视频图像的未来帧预测方法及模型

Also Published As

Publication number Publication date
CN111683256A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
JP6126121B2 (ja) 非局所的超解像再構成の方法及び装置
CN111890365B (zh) 目标跟踪方法、装置、计算机设备及存储介质
CN111386550A (zh) 图像深度和自我运动预测神经网络的无监督学习
CN112104830A (zh) 视频插帧方法、模型训练方法及对应装置
CN108830900B (zh) 关键点的抖动处理方法和装置
US20230401672A1 (en) Video processing method and apparatus, computer device, and storage medium
CN111491204B (zh) 视频修复方法、装置、电子设备和计算机可读存储介质
WO2013031424A1 (ja) 画像処理装置、および画像処理方法、並びにプログラム
CN111683256B (zh) 视频帧预测方法、装置、计算机设备和存储介质
US11822900B2 (en) Filter processing device and method of performing convolution operation at filter processing device
CN110555798A (zh) 图像变形方法、装置、电子设备及计算机可读存储介质
CN112700516A (zh) 基于深度学习的视频渲染方法、装置、计算机设备以及存储介质
CN113891027B (zh) 视频插帧模型训练方法、装置、计算机设备和存储介质
CN113793259B (zh) 图像变焦方法、计算机设备和存储介质
CN111898573A (zh) 图像预测方法、计算机设备和存储介质
EP2490172B1 (en) Image processing device, image processing method and image processing program
CN111583345B (zh) 一种相机参数的获取方法、装置、设备及存储介质
CN110824496B (zh) 运动估计方法、装置、计算机设备和存储介质
CN111915587A (zh) 视频处理方法、装置、存储介质和电子设备
WO2020121755A1 (ja) 推定装置、訓練装置、推定方法及び訓練方法
CN110830848B (zh) 图像插值方法、装置、计算机设备和存储介质
KR20100003176A (ko) 다수의 재귀 규칙을 이용한 디지털 비디오의 움직임 추정 방법 및 시스템
CN110751672B (zh) 利用稀释卷积实现多尺度光流像素变换的方法和装置
US20130148738A1 (en) Global Motion Vector Estimation
CN115914497A (zh) 视频处理方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210105