CN111901673B - 一种视频预测方法、装置、存储介质及终端 - Google Patents

一种视频预测方法、装置、存储介质及终端 Download PDF

Info

Publication number
CN111901673B
CN111901673B CN202010590741.5A CN202010590741A CN111901673B CN 111901673 B CN111901673 B CN 111901673B CN 202010590741 A CN202010590741 A CN 202010590741A CN 111901673 B CN111901673 B CN 111901673B
Authority
CN
China
Prior art keywords
video
information
predicted
output
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010590741.5A
Other languages
English (en)
Other versions
CN111901673A (zh
Inventor
王苫社
常峥
张新峰
马思伟
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202010590741.5A priority Critical patent/CN111901673B/zh
Publication of CN111901673A publication Critical patent/CN111901673A/zh
Application granted granted Critical
Publication of CN111901673B publication Critical patent/CN111901673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种视频预测方法、装置、存储介质及终端,所述方法包括:根据时空信息、时域信息和空域信息生成并输出第一视频当前时刻的第一输出信息;通过视频解码器对第一输出信息进行解码并预测出当前时刻的视频预测片段;对预测出的各个时刻的视频预测片段进行拼接,得到并输出具有第二预设帧数的第二视频,第二视频为第一视频的预测视频、且第一预设帧数小于第二预设帧数,因此,采用本申请实施例,由于能够根据获取的具有第一预设帧数的第一视频,预测出具有第二预设帧数的第二视频,这样,无需在内存中存储第一视频的完整视频,提升了视频的加载速度,加载视频无需等待,提高了用户体验度。

Description

一种视频预测方法、装置、存储介质及终端
技术领域
本发明涉及数字信号处理技术领域,特别涉及一种视频预测方法、装置、存储介质及终端。
背景技术
视频预测技术在多种领域都有很大的应用,如在视频编码领域中可以在很大程度上面节省码率,在视频分类领域中可以仅仅根据很短一段视频进行分类。视频预测问题同时又很复杂,因为视频数据不同于图片数据,除了每帧视频帧的空间特性外,视频帧之间还有很复杂的时域特性,近些年来,随着深度学习的迅猛发展,许多基于深度学习的视频预测方法被提出,大致可以被分成两类:基于卷积神经网络的方法,以及基于循环神经网络的方法。基于卷积神经网络的方法通过学习输入视频序列的内部特征来预测生成之后的少数视频帧,但是如果需要预测的视频帧比较长,这种方法的计算量会很大,并且卷积神经网络虽然对于视频空间特性的提取能力也比较弱,为了解决这些问题,基于循环神经网络的方法近些年来被广泛提出。
循环神经网络以特定记忆单元为基础(如LSTM,GRU等),可以高效地捕捉序列数据的时域信息,在自然语言处理领域已经得到了广泛的利用,视频可以看作是一种特殊的序列数据,因此,近些年来基于循环神经网络的视频预测方法已经被提出,通过将卷积核融合进记忆单元中,视频的时域信息和空域信息都可被很好地捕捉,然后当前的方法模型复杂性比较大,并且在预测长视频序列的任务中,仍然不能得到令人满意的结果。
现有的视频预测方法,无法做到仅仅根据当前视频的某一段视频就准确地预测出当前视频的其余视频片段。
发明内容
本申请实施例提供了一种视频预测方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本申请实施例提供了一种视频预测方法,所述方法包括:
获取具有第一预设帧数的第一视频;
对所述第一视频的各个视频片段同步进行时域处理和空域处理,得到并输出对应的时域信息和空域信息;
根据时空信息、所述时域信息和所述空域信息生成并输出所述第一视频当前时刻的第一输出信息;
通过视频解码器对所述第一输出信息进行解码并预测出当前时刻的视频预测片段;
对预测出的各个时刻的视频预测片段进行拼接,得到并输出具有第二预设帧数的第二视频,所述第二视频为所述第一视频的预测视频、且所述第一预设帧数小于所述第二预设帧数。
第二方面,本申请实施例提供了一种视频预测装置,所述装置包括:
视频获取模块,用于获取具有第一预设帧数的第一视频;
时域及空域同步处理模块,用于对所述视频获取模块获取的所述第一视频的各个视频片段同步进行时域处理和空域处理,得到并输出对应的时域信息和空域信息;
第一输出信息生成及输出模块,用于根据时空信息、所述时域及空域同步处理模块输出的所述时域信息和所述空域信息生成并输出所述第一视频当前时刻的第一输出信息;
视频解码及预测模块,用于通过视频解码器对所述第一输出信息进行解码并预测出当前时刻的视频预测片段;
第二视频得到及输出模块,用于对所述视频解码及预测模块预测出的各个时刻的视频预测片段进行拼接,得到并输出具有第二预设帧数的第二视频,所述第二视频为所述第一视频的预测视频、且所述第一预设帧数小于所述第二预设帧数。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,根据时空信息、时域信息和空域信息生成并输出第一视频当前时刻的第一输出信息;通过视频解码器对第一输出信息进行解码并预测出当前时刻的视频预测片段;对预测出的各个时刻的视频预测片段进行拼接,得到并输出具有第二预设帧数的第二视频,第二视频为第一视频的预测视频、且第一预设帧数小于第二预设帧数。由于本申请能够根据获取的具有第一预设帧数的第一视频,预测出具有第二预设帧数的第二视频,这样,无需在内存中存储第一视频的完整视频,提升了视频的加载速度,加载视频无需等待,提高了用户体验度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请实施例提供的一种视频预测方法的流程示意图;
图2是本申请实施例提供的一种视频预测方法的性能验证图;
图3是本申请实施例提供的一种视频预测方法的另一性能验证图;
图4是本申请实施例提供的一种视频预测装置的结构示意图;
图5是本申请实施例提供的一种终端的结构示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
到目前为止,目前现有的视频预测方法,无法做到仅仅根据当前视频的某一段视频就准确地预测出当前视频的其余视频片段。为此,本申请提供了一种视频预测方法、装置、存储介质及终端,以解决上述相关技术问题中存在的问题。本申请提供的技术方案中,根据时空信息、时域信息和空域信息生成并输出第一视频当前时刻的第一输出信息;通过视频解码器对第一输出信息进行解码并预测出当前时刻的视频预测片段;对预测出的各个时刻的视频预测片段进行拼接,得到并输出具有第二预设帧数的第二视频,第二视频为第一视频的预测视频、且第一预设帧数小于第二预设帧数,由于本申请能够根据获取的具有第一预设帧数的第一视频,预测出具有第二预设帧数的第二视频,这样,无需在内存中存储第一视频的完整视频,提升了视频的加载速度,加载视频无需等待,提高了用户体验度,下面采用示例性的实施例进行详细说明。
下面将结合附图1-附图3,对本申请实施例提供的视频预测方法进行详细介绍。该视频预测方法可依赖于计算机程序实现,可运行于视频预测装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。其中,本申请实施例中的视频预测装置可以为用户终端,包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的终端设备等。
本公开实施例提供的视频预测方法的构思为:基于循环神经网络模型,提出了一种基于时空注意力机制的三维记忆单元(ESTA3D-LSTM),首先将输入的视频在时域层面分割成多个视频片段,然后在每一个时刻连续地输入视频片段,模型的开始会有一个编码器来对视频片段进行特征提取,之后EAST3D-LSTM会对提取到的特征进行时空建模,最后根据提取到的时空信息,解码器会生成当前时刻输出的预测视频片段。
在本公开实施例提供的视频预测方法中,时空信息被联合利用,可以生成高质量的视频系列;另外,注意力机制的加入使本发明在预测长视频序列的过程中效果显著;最后,在生成高质量视频序列的同时,模型的复杂性比较低,算法高效性得到了保证。
请参见图1,为本申请实施例提供了一种视频预测方法的流程示意图。如图1所示,本申请实施例的视频预测方法可以包括以下步骤:
S101,获取具有第一预设帧数的第一视频;
在实际应用中,第一视频的第一预设帧数可以为0到10帧范围内。具体不同应用场景,可以对第一视频的第一预设帧数进行调整。
S102,对第一视频的各个视频片段同步进行时域处理和空域处理,得到并输出对应的时域信息和空域信息。
在本步骤中,对第一视频的各个视频片段进行时域处理,得到并输出对应的时域信息过程如下所述:
本公开实施例提供的视频预测方法中的时域处理是为了能够高效地捕捉到隐藏在视频序列中的长短期时域信息,即使在预测比较长的视频序列时,也不会出现比较大的失真。
时域状态信息转化情况如下所述:
Figure GDA0003178130620000061
Figure GDA0003178130620000062
Figure GDA0003178130620000063
Figure GDA0003178130620000064
Figure GDA0003178130620000065
对上述公式作出如下解释和说明:
It,Gt,Ft分别为时域输入门,输入调制门,遗忘门。
Xt为输入的视频片段的特征信息,
Figure GDA0003178130620000066
为前一个时刻的输出信息,W**为神经元的参数(初始化为高斯随机变量),b**为误差变量,经过不同神经元W**的处理,当前时刻视频信息Xt会被时域输入门,输入调制门和遗忘门分别进行处理;为了高效捕捉视频序列中的长期时域信息,本公开实施例提供的视频预测方法,提出了一种全新的基于注意力机制的高效时空门结构(ESTAG)来对视频时域信息进行高效建模,通过高效时空注意力门(ESTAG)、遗忘门信息Ft和之前多时刻的时域信息
Figure GDA0003178130620000067
也会被同时处理;输出长期时域信息Rt,然后输入门信息It,输入调制门信息Gt,遗忘门信息Ft,长期时域信息Rt,以及上一时刻的时域信息
Figure GDA0003178130620000068
也会被同时处理,最终输出当前时刻的时域信息
Figure GDA0003178130620000069
本公开实施例提供的视频预测方法中的空域处理是为了能够高效地学习到每一帧视频的多级空间信息,即从底层纹理信息到顶层语义信息,从而保证每一帧视频的质量。
空域状态信息转化情况如下所述:
Figure GDA00031781306200000610
Figure GDA00031781306200000611
Figure GDA00031781306200000612
Figure GDA00031781306200000613
Figure GDA00031781306200000614
对上述公式作出如下解释和说明:
it,gt,ft分别为空域输入门,输入调制门,遗忘门,Xt为输入的视频片段的特征信息,
Figure GDA0003178130620000071
为上一层的空域信息,w**为神经元的参数(初始化为高斯随机变量),b**为误差变量,经过不同神经元w**的处理,当前时刻视频信息Xt会被空域输入门,输入调制门和遗忘门分别进行处理;为了高效捕捉视频序列中的多级空域信息,本公开实施例提供的视频预测方法,提出了一种全新的基于注意力机制的高效时空门结构(ESTAG)来对视频空域信息进行高效建模,通过本方法设计的高效时空注意力门(ESTAG),遗忘门信息ft和多级空域信息
Figure GDA0003178130620000072
也会被同时处理,输出多级空域信息rt,然后输入门信息it,输入调制门信息gt,遗忘门信息ft,多级空域信息rt,以及上一层的空域信息
Figure GDA0003178130620000073
也会被同时处理,最终输出当前时刻的时域信息。
S103,根据时空信息、时域信息和空域信息生成并输出第一视频当前时刻的第一输出信息。
在此步骤中,根据时空信息、时域信息和空域信息生成并输出第一视频当前时刻的第一输出信息的过程,能够做到:高效融合时空信息,进行高质量视频预测。
在此步骤中,能够对上述S102中的时域信息对应的时域状态和空域信息对应的空域状态进行联合建模,具体如下所述:
Figure GDA0003178130620000074
Figure GDA0003178130620000075
根据上述公式能够得出的时域信息
Figure GDA0003178130620000076
和空域信息
Figure GDA0003178130620000077
以及当前视频特征信息Xt,上一时刻的输出信息
Figure GDA0003178130620000078
可以得到最终的时空信息Ot,然后时空信息Ot,时域信息
Figure GDA0003178130620000079
空域信息
Figure GDA00031781306200000710
会被同时利用,从而输出最终的输出信息
Figure GDA00031781306200000711
S104,通过视频解码器对第一输出信息进行解码并预测出当前时刻的视频预测片段。
在此步骤中,在视频解码器对第一输出信息进行解码,得到与第一输出信息对应的解码后的输出信息之后,根据解码后的输出信息以及视频预测模型,预测出当前时刻的视频预测片段。
需要说明的是,在此步骤中,所采用的视频预测模型为常规的模型,在此不再赘述。
S105,对预测出的各个时刻的视频预测片段进行拼接,得到并输出具有第二预设帧数的第二视频,第二视频为第一视频的预测视频、且第一预设帧数小于第二预设帧数。
在此步骤中,第二视频的第二预设帧数可以达到30帧至50帧的范围。因此,采用本公开实施例提供的视频预测方法,能够根据获取的具有第一预设帧数的第一视频,预测出具有第二预设帧数的第二视频,这样,无需在内存中存储第一视频的完整视频,提升了视频的加载速度,加载视频无需等待,提高了用户体验度。
在一种可能的实现方式中,在根据时空信息、时域信息和空域信息生成并输出第一视频当前时刻的输出信息之前,所述方法还包括以下步骤:
根据时域信息、空域信息、视频特征信息和当前时刻的上一时刻的第二输出信息,确定时空信息。
在一种可能的实现方式中,在根据时域信息、空域信息、视频特征信息和当前时刻对应的上一时刻的输出信息,确定时空信息之前,所述方法还包括以下步骤:
确定第一视频的各个视频片段的视频特征信息。
在一种可能的实现方式中,确定第一视频的各个视频片段的视频特征信息包括以下步骤:
将第一视频分割为多个视频片段,各个视频片段之间有重叠部分;
通过视频编码器对各个视频片段的特征进行特征提取,确定第一视频的各个视频片段的视频特征信息。
在一种可能的实现方式中,在得到并输出具有第二预设帧数的第二视频之后,所述方法还包括以下步骤:
获取与第一视频匹配的第三视频,第三视频为第一视频的完整视频;
将第二视频与第三视频进行比较,得到比较结果;
根据比较结果,验证第二视频是否能够作为符合预置条件的第一视频的预测视频,其中,预置条件为第二视频与第三视频之间的误差值小于或等于预设误差阈值。
在此步骤中,对预设误差阈值并不做具体限制,可以根据不同应用场景的需求,对预设误差阈值进行调整。
在一种可能的实现方式中,根据比较结果,验证第二视频是否能够作为符合预置条件的第一视频的预测视频包括以下步骤:
在比较结果为:第二视频与第三视频之间的误差值小于或等于预设误差阈值的情况下,则将第二视频作为第一视频的预测视频。
在一种可能的实现方式中,根据比较结果,验证第二视频是否能够作为符合预置条件的第一视频的预测视频还包括以下步骤:
在比较结果为:第二视频与第三视频之间的误差值大于预设误差阈值的情况下,则重新预测第一视频的预测视频,直至重新预测出的预测视频与第三视频之间的误差值小于或等于预设误差阈值。
在某一具体应用场景下,本公开实施例提供的视频预测方法的步骤可以如下所述:
步骤a1:输入为一段比较短的视频(10帧),输出为之后的比较长的一段视频(50帧);
步骤a2:输入的视频会被分为很多个视频片段,片段和片段之间会有重叠,在每一个时刻会输入一个视频片段,像素值为0到1之间;
步骤a3:每一个片段Vt都会被一个相同参数的编码器进行特征提取,得到特征Xt进行后续处理;
步骤a4:在每一个时刻t都会接收一个比较短的视频片段Vt作为输入,Vt会同时进入到时域模块和空域模块进行处理;
步骤a5:时域模块会输出Vt的时域信息Ct,空域模块会输出Vt的空域信息Mt
步骤a6:之后时域信息Ct和空域信息Mt会同时输入到输出模块中进行处理;
步骤a7:输出模块输出当前时刻的输出信息Ht
步骤a8:Ht会通过一个解码器进行解码,从而预测出视频片段
Figure GDA0003178130620000101
其他时刻同理;
步骤a9:将
Figure GDA0003178130620000102
和真实值Vt+1进行误差计算,在GPU平台上面进行反向传播优化。
图2是本申请实施例提供的一种视频预测方法的性能验证图;图3是本申请实施例提供的一种视频预测方法的另一性能验证图。
根据图2和图3可知,本公开实施例提供的视频预测方法预测出的视频均优于目前主流的视频预测方法,视觉质量明显提高,可以高效地对视频进行预测生成。需要说明的是,即使是面对复杂的真实场景,本公开实施例提供的视频预测方法仍然能够预测出高品质的视频。
在本申请实施例中,根据时空信息、时域信息和空域信息生成并输出第一视频当前时刻的第一输出信息;通过视频解码器对第一输出信息进行解码并预测出当前时刻的视频预测片段;对预测出的各个时刻的视频预测片段进行拼接,得到并输出具有第二预设帧数的第二视频,第二视频为第一视频的预测视频、且第一预设帧数小于第二预设帧数,因此,采用本申请实施例,由于能够根据获取的具有第一预设帧数的第一视频,预测出具有第二预设帧数的第二视频,这样,无需在内存中存储第一视频的完整视频,提升了视频的加载速度,加载视频无需等待,提高了用户体验度。
下述为本发明视频预测装置实施例,可以用于执行本发明视频预测方法实施例。对于本发明视频预测装置实施例中未披露的细节,请参照本发明视频预测方法实施例。
请参见图4,其示出了本发明一个示例性实施例提供的视频预测装置的结构示意图。该视频预测装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该视频预测装置包括视频获取模块10、时域及空域同步处理模块20、第一输出信息生成及输出模块30、视频解码及预测模块40和第二视频得到及输出模块50。
具体而言,视频获取模块,用于获取具有第一预设帧数的第一视频;
时域及空域同步处理模块,用于对视频获取模块获取的第一视频的各个视频片段同步进行时域处理,得到并输出对应的时域信息和空域信息;
第一输出信息生成及输出模块,用于根据时空信息、时域及空域同步处理模块输出的时域信息和空域信息生成并输出第一视频当前时刻的第一输出信息;
视频解码及预测模块,用于通过视频解码器对第一输出信息进行解码并预测出当前时刻的视频预测片段;
第二视频得到及输出模块,用于对视频解码及预测模块预测出的各个时刻的视频预测片段进行拼接,得到并输出具有第二预设帧数的第二视频,第二视频为第一视频的预测视频、且第一预设帧数小于第二预设帧数。
可选的,所述装置还包括:
确定模块(在图4中未示出),用于在第一输出信息生成及输出模块根据时空信息、时域信息和空域信息生成并输出第一视频当前时刻的输出信息之前,根据时域信息、空域信息、视频特征信息和当前时刻的上一时刻的第二输出信息,确定时空信息。
可选的,确定模块还用于:
在第一输出信息生成及输出模块根据时域信息、空域信息、视频特征信息和当前时刻对应的上一时刻的输出信息,确定时空信息之前,确定第一视频的各个视频片段的视频特征信息。
可选的,确定模块具体用于:
将第一视频分割为多个视频片段,各个视频片段之间有重叠部分;
通过视频编码器对各个视频片段的特征进行特征提取,确定第一视频的各个视频片段的视频特征信息。
可选的,所述装置还包括:
获取模块(在图4中未示出),用于在第二视频得到及输出模块得到并输出具有第二预设帧数的第二视频之后,获取与第一视频匹配的第三视频,第三视频为第一视频的完整视频;
比较模块(在图4中未示出),用于将获取模块获取到的第二视频与第三视频进行比较,得到比较结果;
验证模块(在图4中未示出),用于根据比较模块得到的比较结果,验证第二视频是否能够作为符合预置条件的第一视频的预测视频,其中,预置条件为第二视频与第三视频之间的误差值小于或等于预设误差阈值。
可选的,验证模块具体用于:
在比较结果为:第二视频与第三视频之间的误差值小于或等于预设误差阈值的情况下,则将第二视频作为第一视频的预测视频。
可选的,验证模块具体还用于:
在比较结果为:第二视频与第三视频之间的误差值大于预设误差阈值的情况下,则重新预测第一视频的预测视频,直至重新预测出的预测视频与第三视频之间的误差值小于或等于预设误差阈值。需要说明的是,上述实施例提供的视频预测装置在执行视频预测方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的视频预测装置与视频预测方法实施例属于同一构思,其体现实现过程详见视频预测方法实施例,这里不再赘述。
在本申请实施例中,第二视频得到及输出模块用于对预测出的各个时刻的视频预测片段进行拼接,得到并输出具有第二预设帧数的第二视频,第二视频为第一视频的预测视频、且第一预设帧数小于第二预设帧数。由于本申请能够根据获取的具有第一预设帧数的第一视频,预测出具有第二预设帧数的第二视频,这样,无需在内存中存储第一视频的完整视频,提升了视频的加载速度,加载视频无需等待,提高了用户体验度。
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的视频预测方法。
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例所述的视频预测方法。
请参见图5,为本申请实施例提供了一种终端的结构示意图。如图5所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频预测应用程序。
在图5所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的视频预测应用程序,并具体执行以下操作:
获取具有第一预设帧数的第一视频;
对第一视频的各个视频片段同步进行时域处理和空域处理,得到并输出对应的时域信息和空域信息;
根据时空信息、时域信息和空域信息生成并输出第一视频当前时刻的第一输出信息;
通过视频解码器对第一输出信息进行解码并预测出当前时刻的视频预测片段;
对预测出的各个时刻的视频预测片段进行拼接,得到并输出具有第二预设帧数的第二视频,第二视频为第一视频的预测视频、且第一预设帧数小于第二预设帧数。
在一个实施例中,处理器1001在执行在根据时空信息、时域信息和空域信息生成并输出第一视频当前时刻的输出信息之前,还执行以下操作:
根据时域信息、空域信息、视频特征信息和当前时刻的上一时刻的第二输出信息,确定时空信息。
在一个实施例中,处理器1001在执行在根据时域信息、空域信息、视频特征信息和当前时刻对应的上一时刻的输出信息,确定时空信息之前,还执行以下操作:
确定第一视频的各个视频片段的视频特征信息。
在一个实施例中,处理器1001在执行确定第一视频的各个视频片段的视频特征信息时,具体执行以下操作:
将第一视频分割为多个视频片段,各个视频片段之间有重叠部分;
通过视频编码器对各个视频片段的特征进行特征提取,确定第一视频的各个视频片段的视频特征信息。
在一个实施例中,处理器1001在执行在得到并输出具有第二预设帧数的第二视频之后,还执行以下操作:
获取与第一视频匹配的第三视频,第三视频为第一视频的完整视频;
将第二视频与第三视频进行比较,得到比较结果;
根据比较结果,验证第二视频是否能够作为符合预置条件的第一视频的预测视频,其中,预置条件为第二视频与第三视频之间的误差值小于或等于预设误差阈值。
在一个实施例中,处理器1001在执行根据比较结果,验证第二视频是否能够作为符合预置条件的第一视频的预测视频时,具体执行以下操作:
在比较结果为:第二视频与第三视频之间的误差值小于或等于预设误差阈值的情况下,则将第二视频作为第一视频的预测视频。
在一个实施例中,处理器1001在执行根据比较结果,验证第二视频是否能够作为符合预置条件的第一视频的预测视频时,还具体执行以下操作:
在比较结果为:第二视频与第三视频之间的误差值大于预设误差阈值的情况下,则重新预测第一视频的预测视频,直至重新预测出的预测视频与第三视频之间的误差值小于或等于预设误差阈值。
在本申请实施例中,根据时空信息、时域信息和空域信息生成并输出第一视频当前时刻的第一输出信息;通过视频解码器对第一输出信息进行解码并预测出当前时刻的视频预测片段;对预测出的各个时刻的视频预测片段进行拼接,得到并输出具有第二预设帧数的第二视频,第二视频为第一视频的预测视频、且第一预设帧数小于第二预设帧数。由于本申请能够根据获取的具有第一预设帧数的第一视频,预测出具有第二预设帧数的第二视频,这样,无需在内存中存储第一视频的完整视频,提升了视频的加载速度,加载视频无需等待,提高了用户体验度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (7)

1.一种视频预测方法,其特征在于,所述方法包括:
获取具有第一预设帧数的第一视频;
对所述第一视频的各个视频片段同步进行时域处理和空域处理,得到并输出对应的时域信息和空域信息;
确定所述第一视频的各个视频片段的视频特征信息;
所述确定所述第一视频的各个视频片段的视频特征信息包括:
将所述第一视频分割为多个视频片段,各个视频片段之间有重叠部分;
通过视频编码器对各个视频片段的特征进行特征提取,确定所述第一视频的各个视频片段的视频特征信息;
根据所述时域信息、所述空域信息、视频特征信息和当前时刻的上一时刻的第二输出信息,确定时空信息;
根据所述时空信息、所述时域信息和所述空域信息生成并输出所述第一视频当前时刻的第一输出信息;
通过视频解码器对所述第一输出信息进行解码并预测出当前时刻的视频预测片段;
对预测出的各个时刻的视频预测片段进行拼接,得到并输出具有第二预设帧数的第二视频,所述第二视频为所述第一视频的预测视频、且所述第一预设帧数小于所述第二预设帧数。
2.根据权利要求1所述的方法,其特征在于,在所述得到并输出具有第二预设帧数的第二视频之后,所述方法还包括:
获取与所述第一视频匹配的第三视频,所述第三视频为所述第一视频的完整视频;
将所述第二视频与所述第三视频进行比较,得到比较结果;
根据所述比较结果,验证所述第二视频是否能够作为符合预置条件的所述第一视频的预测视频,其中,所述预置条件为所述第二视频与所述第三视频之间的误差值小于或等于预设误差阈值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述比较结果,验证所述第二视频是否能够作为符合预置条件的所述第一视频的预测视频包括:
在所述比较结果为:所述第二视频与所述第三视频之间的误差值小于或等于预设误差阈值的情况下,则将所述第二视频作为所述第一视频的预测视频。
4.根据权利要求2所述的方法,其特征在于,所述根据所述比较结果,验证所述第二视频是否能够作为符合预置条件的所述第一视频的预测视频还包括:
在所述比较结果为:所述第二视频与所述第三视频之间的误差值大于预设误差阈值的情况下,则重新预测所述第一视频的预测视频,直至重新预测出的预测视频与所述第三视频之间的误差值小于或等于所述预设误差阈值。
5.一种视频预测装置,其特征在于,所述装置包括:
视频获取模块,用于获取具有第一预设帧数的第一视频;
时域及空域同步处理模块,用于对所述视频获取模块获取的所述第一视频的各个视频片段同步进行时域处理和空域处理,得到并输出对应的时域信息和空域信息;
确定模块,用于确定所述第一视频的各个视频片段的视频特征信息;
所述确定模块具体用于:
将所述第一视频分割为多个视频片段,各个视频片段之间有重叠部分;
通过视频编码器对各个视频片段的特征进行特征提取,确定所述第一视频的各个视频片段的视频特征信息;
所述确定模块,用于根据所述时域信息、所述空域信息、视频特征信息和当前时刻的上一时刻的第二输出信息,确定时空信息;
第一输出信息生成及输出模块,用于根据所述时空信息、所述时域及空域同步处理模块输出的所述时域信息和所述空域信息生成并输出所述第一视频当前时刻的第一输出信息;
视频解码及预测模块,用于通过视频解码器对所述第一输出信息进行解码并预测出当前时刻的视频预测片段;
第二视频得到及输出模块,用于对所述视频解码及预测模块预测出的各个时刻的视频预测片段进行拼接,得到并输出具有第二预设帧数的第二视频,所述第二视频为所述第一视频的预测视频、且所述第一预设帧数小于所述第二预设帧数。
6.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1至4任意一项的方法步骤。
7.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至4任意一项的方法步骤。
CN202010590741.5A 2020-06-24 2020-06-24 一种视频预测方法、装置、存储介质及终端 Active CN111901673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010590741.5A CN111901673B (zh) 2020-06-24 2020-06-24 一种视频预测方法、装置、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010590741.5A CN111901673B (zh) 2020-06-24 2020-06-24 一种视频预测方法、装置、存储介质及终端

Publications (2)

Publication Number Publication Date
CN111901673A CN111901673A (zh) 2020-11-06
CN111901673B true CN111901673B (zh) 2021-12-03

Family

ID=73207835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010590741.5A Active CN111901673B (zh) 2020-06-24 2020-06-24 一种视频预测方法、装置、存储介质及终端

Country Status (1)

Country Link
CN (1) CN111901673B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222899A (zh) * 2019-06-12 2019-09-10 哈尔滨工业大学 一种越野滑雪赛道风速场预测方法
CN110334654A (zh) * 2019-07-08 2019-10-15 北京地平线机器人技术研发有限公司 视频预测方法和装置、视频预测模型的训练方法及车辆
CN110602526A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN110839156A (zh) * 2019-11-08 2020-02-25 北京邮电大学 一种基于视频图像的未来帧预测方法及模型

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130091596A (ko) * 2012-02-08 2013-08-19 한국전자통신연구원 비디오 정보를 통한 인간 행동 예측 방법
CN109711380B (zh) * 2019-01-03 2022-09-16 电子科技大学 一种基于全局上下文信息的时序行为片段生成系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222899A (zh) * 2019-06-12 2019-09-10 哈尔滨工业大学 一种越野滑雪赛道风速场预测方法
CN110334654A (zh) * 2019-07-08 2019-10-15 北京地平线机器人技术研发有限公司 视频预测方法和装置、视频预测模型的训练方法及车辆
CN110602526A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN110839156A (zh) * 2019-11-08 2020-02-25 北京邮电大学 一种基于视频图像的未来帧预测方法及模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于时空采样的卷积长短时记忆网络模型及其应用研究》;毕世兰;《机电信息》;20181231(第552期);第61-63、65页 *

Also Published As

Publication number Publication date
CN111901673A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN111368685B (zh) 关键点的识别方法、装置、可读介质和电子设备
CN110189246B (zh) 图像风格化生成方法、装置及电子设备
CN112839223B (zh) 图像压缩方法、装置、存储介质及电子设备
CN114529574A (zh) 基于图像分割的图像抠图方法、装置、计算机设备及介质
CN110532983A (zh) 视频处理方法、装置、介质和设备
CN111967397A (zh) 人脸影像处理方法和装置、存储介质和电子设备
CN112818958B (zh) 动作识别方法、装置及存储介质
CN112785669B (zh) 一种虚拟形象合成方法、装置、设备及存储介质
CN113096055B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
WO2021057463A1 (zh) 图像风格化处理方法、装置、电子设备及可读介质
CN110619602B (zh) 一种图像生成方法、装置、电子设备及存储介质
CN110533020A (zh) 一种文字信息的识别方法、装置及存储介质
CN111901673B (zh) 一种视频预测方法、装置、存储介质及终端
CN110059739B (zh) 图像合成方法、装置、电子设备和计算机可读存储介质
CN115953597B (zh) 图像处理方法、装置、设备及介质
WO2022178975A1 (zh) 基于噪声场的图像降噪方法、装置、设备及存储介质
CN111383289A (zh) 图像处理方法、装置、终端设备及计算机可读存储介质
CN114429641A (zh) 一种时序动作检测方法、装置、存储介质及终端
CN113850716A (zh) 模型训练方法、图像处理方法、装置、电子设备及介质
CN114422698A (zh) 视频生成方法、装置、设备及存储介质
CN113905177A (zh) 视频生成方法、装置、设备及存储介质
WO2020155981A1 (zh) 表情图像效果生成方法、装置和电子设备
CN112258392A (zh) 一种超分辨图像训练方法、装置、介质及设备
CN116309274B (zh) 图像中小目标检测方法、装置、计算机设备及存储介质
CN115937338B (zh) 图像处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant