CN110572710B - 视频生成方法、装置、设备及存储介质 - Google Patents

视频生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110572710B
CN110572710B CN201910911460.2A CN201910911460A CN110572710B CN 110572710 B CN110572710 B CN 110572710B CN 201910911460 A CN201910911460 A CN 201910911460A CN 110572710 B CN110572710 B CN 110572710B
Authority
CN
China
Prior art keywords
video
adjacent
relationship information
video frame
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910911460.2A
Other languages
English (en)
Other versions
CN110572710A (zh
Inventor
张水发
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201910911460.2A priority Critical patent/CN110572710B/zh
Publication of CN110572710A publication Critical patent/CN110572710A/zh
Application granted granted Critical
Publication of CN110572710B publication Critical patent/CN110572710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于一种视频生成方法、装置、设备及存储介质,属于多媒体技术领域。本公开充分考虑了原始图像与相邻视频帧之间的关系,通过利用原始图像,预测出高质量视频中相邻视频帧之间的关系,基于相邻视频帧之间的关系,自动生成图像质量更高的一系列视频帧,将这些视频帧拼接为高质量视频。相对于直接将原始图像拼接为视频的方式而言,由于生成的视频帧的图像质量比原始图像的图像质量更高,因此根据生成的视频帧拼接得到的目标视频的质量也就比根据原始图像拼接得到的视频的质量更高,因此提高了生成的视频的质量。

Description

视频生成方法、装置、设备及存储介质
技术领域
本公开涉及多媒体技术领域,尤其涉及一种视频生成方法、装置、设备及存储介质。
背景技术
随着多媒体技术的发展,电子设备能够使用一些素材来自动生成视频,比如使用一系列的图像来合成出视频,使用文本来作为视频的字幕,使用音频来作为视频的背景音乐等,从而满足用户制作视频的需求。
目前,视频生成的过程为:用户准备好多个原始图像,该原始图像也称raw图(raw意为原始的),是一种由拍摄设备采集的、未经过处理、编辑或打印的图像格式。用户在电子设备上输入多个原始图像,并且在电子设备上执行设置操作,为该多个原始图像设置时间轴,该时间轴用于指示每个原始图像的播放时间点。电子设备根据多个原始图像以及时间轴,对多个原始图像按照时间的先后顺序进行拼接,从而将多个原始图像合成为一个视频。
采用该方法生成视频时,一旦原始图像的图像质量较差,比如原始图像的清晰度低,就会导致由原始图像拼接出的视频的质量较差。
发明内容
本公开提供一种视频生成方法、装置、设备及存储介质,以至少解决相关技术中生成的视频质量较差的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种视频生成方法,包括:
获取至少一个原始图像;
根据所述至少一个原始图像,获取所述至少一个原始图像对应的至少一个视频帧中相邻视频帧的关系信息,每个视频帧的图像质量高于对应的原始图像的图像质量,所述相邻视频帧的关系信息用于指示所述相邻视频帧之间的关联关系;
根据所述相邻视频帧的关系信息,生成所述至少一个视频帧;
对所述至少一个视频帧进行拼接,得到目标视频。
可选地,所述根据所述至少一个原始图像,获取所述至少一个原始图像对应的至少一个视频帧中相邻视频帧的关系信息,包括:
获取相邻原始图像的关系信息,所述相邻原始图像的关系信息用于指示所述相邻原始图像之间的关联关系;
将所述相邻原始图像的关系信息输入卷积神经网络,所述卷积神经网络用于根据相邻原始图像的关系信息预测相邻视频帧的关系信息;
通过所述卷积神经网络,对所述相邻原始图像的关系信息进行处理,输出所述相邻视频帧的关系信息。
可选地,所述获取至少一个原始图像之前,所述方法还包括:
获取样本视频以及所述样本视频的每帧对应的每个样本原始图像,所述样本视频的每帧的图像质量高于对应的样本原始图像的图像质量;
基于相邻样本原始图像的关系信息以及所述样本视频中相邻帧的关系信息进行模型训练,得到所述卷积神经网络。
可选地,所述获取相邻原始图像的关系信息之后,所述方法还包括:
将所述相邻原始图像的关系信息映射到对数空间;
所述将所述相邻原始图像的关系信息输入卷积神经网络,包括:
将对数空间的所述相邻原始图像的关系信息输入所述卷积神经网络。
可选地,所述相邻视频帧的关系信息包括所述相邻视频帧之间的差值图像;
所述根据所述相邻视频帧的关系信息,生成所述至少一个视频帧,包括:
对所述至少一个原始图像中的目标原始图像进行处理,得到所述至少一个视频帧中的目标视频帧;
对所述目标视频帧与所述差值图像进行叠加,得到所述至少一个视频帧中所述目标视频帧相邻的视频帧。
可选地,所述相邻视频帧的关系信息包括所述相邻视频帧之间的比值图像;
所述根据所述相邻视频帧的关系信息,生成所述至少一个视频帧,包括:
对所述至少一个原始图像中的目标原始图像进行处理,得到所述至少一个视频帧中的目标视频帧;
对所述目标视频帧与所述比值图像进行相乘,得到所述至少一个视频帧中所述目标视频帧相邻的视频帧。
可选地,所述获取至少一个原始图像,包括:
接收用户输入的待提高图像质量的视频;
提取所述视频的每个帧,作为所述至少一个原始图像。
根据本公开实施例的第二方面,提供一种视频生成装置,包括:
获取单元,被配置为执行获取至少一个原始图像;
所述获取单元,还被配置为执行根据所述至少一个原始图像,获取所述至少一个原始图像对应的至少一个视频帧中相邻视频帧的关系信息,每个视频帧的图像质量高于对应的原始图像的图像质量,所述相邻视频帧的关系信息用于指示所述相邻视频帧之间的关联关系;
生成单元,被配置为执行根据所述相邻视频帧的关系信息,生成所述至少一个视频帧;
拼接单元,被配置为执行对所述至少一个视频帧进行拼接,得到目标视频。
可选地,所述获取单元,包括:
获取子单元,被配置为执行获取相邻原始图像的关系信息,所述相邻原始图像的关系信息用于指示所述相邻原始图像之间的关联关系;
输入子单元,被配置为执行将所述相邻原始图像的关系信息输入卷积神经网络,所述卷积神经网络用于根据相邻原始图像的关系信息预测相邻视频帧的关系信息;
处理子单元,被配置为执行通过所述卷积神经网络,对所述相邻原始图像的关系信息进行处理,输出所述相邻视频帧的关系信息。
可选地,所述获取单元,还被配置为执行获取样本视频以及所述样本视频的每帧对应的每个样本原始图像,所述样本视频的每帧的图像质量高于对应的样本原始图像的图像质量;
所述视频生成装置还包括:模型训练单元,被配置为执行基于相邻样本原始图像的关系信息以及所述样本视频中相邻帧的关系信息进行模型训练,得到所述卷积神经网络。
可选地,所述装置还包括:
映射单元,被配置为执行将所述相邻原始图像的关系信息映射到对数空间;
所述输入子单元,被配置为执行将对数空间的所述相邻原始图像的关系信息输入所述卷积神经网络。
可选地,所述相邻视频帧的关系信息包括所述相邻视频帧之间的差值图像;
所述生成单元,包括:
处理子单元,被配置为执行对所述至少一个原始图像中的目标原始图像进行处理,得到所述至少一个视频帧中的目标视频帧;
叠加子单元,被配置为执行对所述目标视频帧与所述差值图像进行叠加,得到所述至少一个视频帧中所述目标视频帧相邻的视频帧。
可选地,所述相邻视频帧的关系信息包括所述相邻视频帧之间的比值图像;
所述生成单元,包括:
处理子单元,被配置为执行对所述至少一个原始图像中的目标原始图像进行处理,得到所述至少一个视频帧中的目标视频帧;
相乘子单元,被配置为执行对所述目标视频帧与所述比值图像进行相乘,得到所述至少一个视频帧中所述目标视频帧相邻的视频帧。
可选地,所述获取单元,包括:
接收子单元,被配置为执行接收用户输入的待提高图像质量的视频;
提取子单元,被配置为执行提取所述视频的每个帧,作为所述至少一个原始图像。
根据本公开实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
用于存储所述处理器可执行指令的一个或多个存储器;
其中,所述一个或多个处理器被配置为执行所述指令,以实现上述视频生成方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述视频生成方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括一条或多条指令,所述一条或多条指令由电子设备的处理器执行时,使得所述电子设备能够执行上述视频生成方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本实施例提供的方法,充分考虑了原始图像与相邻视频帧之间的关系,通过利用原始图像,预测出高质量视频中相邻视频帧之间的关系,基于相邻视频帧之间的关系,自动生成图像质量更高的一系列视频帧,将这些视频帧拼接为高质量视频。相对于直接将原始图像拼接为视频的方式而言,由于生成的视频帧的图像质量比原始图像的图像质量更高,因此根据生成的视频帧拼接得到的目标视频的质量也就比根据原始图像拼接得到的视频的质量更高,因此提高了生成的视频的质量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种视频生成系统的结构框图;
图2是根据一示例性实施例示出的一种视频生成方法的流程图;
图3是根据一示例性实施例示出的一种用于生成视频的卷积神经网络的训练方法的流程图;
图4是根据一示例性实施例示出的一种用于生成视频的卷积神经网络的结构示意图;
图5是根据一示例性实施例示出的一种视频生成方法的流程图;
图6是根据一示例性实施例示出的一种视频生成装置的框图;
图7是根据一示例性实施例示出的一种终端的框图;
图8是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开所涉及的原始图像可以为经用户授权或者经过各方充分授权后得到的图像。原始图像也称raw图,是一种图像格式,后缀名通常为.raw。原始图像由拍摄设备采集得到,是一种尚未被处理、编辑或打印的图像。
以下,对本公开实施例的使用场景进行示例性介绍。
可以将本公开实施例提供的技术方案,应用在将低质量视频转换为高质量视频的场景。例如,用户想要将某个模糊视频变成清晰视频,基于本公开实施例,用户可以将该模糊视频输入至终端,终端可以将模糊视频的每一帧作为一个原始图像,利用这些原始图像与高质量视频前后帧之间的关系,自动生成出和模糊视频的每一帧内容相同且图像质量更高的视频帧,将得到的视频帧进行拼接,从而得出高质量视频。
以下,对本公开实施例的系统架构进行介绍。
图1是根据一示例性实施例示出的一种视频生成系统的结构框图。该视频生成系统包括:终端101和视频生成平台110。
终端101通过无线网络或有线网络与视频生成平台110相连。终端101可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)播放器或MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。终端101安装和运行有支持视频生成的应用程序。该应用程序可以是直播应用、多媒体应用、短视频应用等。示例性的,终端101是用户使用的终端,终端101中运行的应用程序内登录有用户账号。
终端101通过无线网络或有线网络与视频生成平台110相连。
视频生成平台110包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。视频生成平台110用于为支持生成视频功能的应用程序提供后台服务。可选地,在生成视频的过程中,视频生成平台110和终端101可以协同工作。例如,视频生成平台110承担主要工作,终端101承担次要工作;或者,视频生成平台110承担次要工作,终端101承担主要工作;或者,视频生成平台110或终端101分别可以单独承担生成工作。作为示例,视频生成平台110可以执行下述图3实施例,训练得到卷积神经网络,将卷积神经网络发送至终端101,终端可以接收来自视频生成平台110的卷积神经网络,利用该卷积神经网络,通过执行下述图2实施例或图5实施例,来自动生成高质量视频。
可选地,视频生成平台110包括:接入服务器、视频生成服务器1101和数据库1102。接入服务器用于为终端101提供接入服务。视频生成服务器1101用于提供视频生成有关的后台服务,例如训练卷积神经网络、采集样本视频等等。视频生成服务器1101可以是一台或多台。当视频生成服务器1101是多台时,存在至少两台视频生成服务器1101用于提供不同的服务,和/或,存在至少两台视频生成服务器1101用于提供相同的服务,比如以负载均衡方式提供同一种服务,本公开实施例对此不加以限定。视频生成服务器1101中可以设置有视频生成模型。数据库1102可以用于存储样本视频、卷积神经网络、原始图像或者下述方法实施例涉及的其他数据等,当需要时,数据库1102可以将存储的数据提供给终端101以及视频生成服务器1101。
终端101可以泛指多个终端中的一个,本实施例仅以终端101来举例说明。
本领域技术人员可以知晓,终端101的数量可以更多或更少。比如终端101可以仅为一个,或者终端101为几十个或几百个,或者更多数量,此时上述视频生成系统还包括其他终端。本公开实施例对终端的数量和设备类型不加以限定。
图2是根据一示例性实施例示出的一种视频生成方法的流程图,该方法可以应用于电子设备,如图2所示,该方法包括以下步骤:
在步骤S21中,获取至少一个原始图像。
在步骤S22中,根据至少一个原始图像,获取至少一个原始图像对应的至少一个视频帧中相邻视频帧的关系信息,每个视频帧的图像质量高于对应的原始图像的图像质量,该相邻视频帧的关系信息用于指示该相邻视频帧之间的关联关系。
在步骤S23中,根据相邻视频帧的关系信息,生成至少一个视频帧。
在步骤S24中,对至少一个视频帧进行拼接,得到目标视频。
本实施例提供的方法,充分考虑了原始图像与相邻视频帧之间的关系,通过利用原始图像,预测出高质量视频中相邻视频帧之间的关系,基于相邻视频帧之间的关系,自动生成图像质量更高的一系列视频帧,将这些视频帧拼接为高质量视频。相对于直接将原始图像拼接为视频的方式而言,由于生成的视频帧的图像质量比原始图像的图像质量更高,因此根据生成的视频帧拼接得到的目标视频的质量也就比根据原始图像拼接得到的视频的质量更高,因此提高了生成的视频的质量。
可选地,该根据该至少一个原始图像,获取该至少一个原始图像对应的至少一个视频帧中相邻视频帧的关系信息,包括:
获取相邻原始图像的关系信息,该相邻原始图像的关系信息用于指示该相邻原始图像之间的关联关系;
将该相邻原始图像的关系信息输入卷积神经网络,该卷积神经网络用于根据相邻原始图像的关系信息预测相邻视频帧的关系信息;
通过该卷积神经网络,对该相邻原始图像的关系信息进行处理,输出该相邻视频帧的关系信息。
可选地,该获取至少一个原始图像之前,该方法还包括:
获取样本视频以及该样本视频的每帧对应的每个样本原始图像,该样本视频的每帧的图像质量高于对应的样本原始图像的图像质量;
基于相邻样本原始图像的关系信息以及该样本视频中相邻帧的关系信息进行模型训练,得到该卷积神经网络。
可选地,该获取相邻原始图像的关系信息之后,该方法还包括:
将该相邻原始图像的关系信息映射到对数空间;
该将该关系信息输入卷积神经网络,包括:
将对数空间的关系信息输入该卷积神经网络。
可选地,该相邻视频帧的关系信息包括该相邻视频帧之间的差值图像;
该根据该相邻视频帧的关系信息,生成该至少一个视频帧,包括:
对该至少一个原始图像中的目标原始图像进行处理,得到该至少一个视频帧中的目标视频帧;
对该目标视频帧与该差值图像进行叠加,得到该至少一个视频帧中该目标视频帧相邻的视频帧。
可选地,该相邻视频帧的关系信息包括该相邻视频帧之间的比值图像;
该根据该相邻视频帧的关系信息,生成该至少一个视频帧,包括:
对该至少一个原始图像中的目标原始图像进行处理,得到该至少一个视频帧中的目标视频帧;
对该目标视频帧与该比值图像进行相乘,得到该至少一个视频帧中该目标视频帧相邻的视频帧。
可选地,该获取至少一个原始图像,包括:
接收用户输入的待提高图像质量的视频;
提取该视频的每个帧,作为该至少一个原始图像。
以下,对本公开实施例提供的卷积神经网络的训练过程进行介绍。
图3是根据一示例性实施例示出的一种用于生成视频的卷积神经网络的训练方法的流程图,如图3所示,该方法用于电子设备中,该电子设备可以是图1所示的系统架构中的视频生成平台110,比如是视频生成服务器1101。该电子设备也可以是图1所示的系统架构中的终端101。该方法包括以下步骤:
在步骤S31中,电子设备获取样本视频。
样本视频可以满足高质量视频的标准,例如,样本视频的每帧的图像质量可以满足预设条件。该预设条件可以根据衡量图像质量的参数设置。例如,如果以清晰度来衡量图像质量,样本视频中每帧的清晰度可以大于或等于清晰度阈值,比如清晰度可以在高清或高清以上。又如,如果以分辨率来衡量图像质量,样本视频的每帧的分辨率可以大于或等于分辨率阈值。关于获取样本视频的方式,在一些实施例中,电子设备可以通过PS(AdobePhotoshop,一种图像处理软件),来生成样本视频。具体地,电子设备可以提取原始视频的每帧,对提取的每帧进行超分辨率重构,得到重构后的每帧,对重构后的每帧进行拼接,得到样本视频。其中,重构后的帧的分辨率高于重构前的帧的分辨率。
在步骤S32中,电子设备获取样本视频的至少一帧对应的至少一个样本原始图像。
可选地,电子设备可以从样本视频的拍摄设备获取至少一个样本原始图像。当然,电子设备也可以通过其他方式来获取至少一个样本原始图像,例如从网络中下载样本原始图像,预先存储样本原始图像等,本实施例对获取样本原始图像的方式不做限定。
其中,样本视频的拍摄设备可以是移动终端、摄像机、相机等,比如可以是手机。电子设备和拍摄设备可以是同一设备,也可以是不同设备。如果电子设备为样本视频的拍摄设备,电子设备会在拍摄样本视频的过程中,采集至少一个样本原始图像。如果电子设备不是样本视频的拍摄设备,电子设备可以向拍摄设备发送原始图像获取请求,该原始图像获取请求可以携带样本视频的标识,拍摄设备可以接收该原始图像获取请求,根据样本视频的标识,查询预先采集的该标识对应的至少一个样本原始图像,向电子设备发送该至少一个样本原始图像,电子设备可以接收拍摄设备发送的至少一个样本原始图像。
样本原始图像是指样本视频的帧对应的原始图像,样本视频的帧是由样本原始图像经过图像处理后得到的。样本原始图像的图像质量低于样本视频中对应的帧的图像质量。
需要说明的一点是,本实施例对步骤S31与步骤S32的先后顺序不做限定。在一些实施例中,步骤S31与步骤S32可以顺序执行。例如,可以先执行步骤S31,再执行步骤S32;也可以先执行步骤S32,再执行步骤S31。在另一些实施例中,步骤S31与步骤S32也可以并行执行,即,可以同时执行步骤S31以及步骤S32。
在步骤S33中,电子设备基于样本视频中相邻帧的关系信息以及相邻样本原始图像的关系信息进行模型训练,得到卷积神经网络。
相邻帧可以是样本视频中顺序相邻的前后两帧。相邻帧的关系信息用于指示相邻帧之间的关联关系,相邻帧的关系信息可以是相邻帧经过图像运算后得到的图像。例如,相邻帧的关系信息可以是相邻帧之间的差值图像,也可以是相邻帧之间的比值图像。同理地,相邻原始图像可以是至少一个原始图像中顺序相邻的前后两个原始图像。相邻原始图像的关系信息用于指示相邻原始图像之间的关联关系,相邻原始图像的关系信息可以是相邻原始图像经过图像运算后得到的图像,例如是相邻原始图像之间的差值图像,也可以是相邻原始图像之间的比值图像。
在一些实施例中,模型训练的过程具体可以包括下述步骤(1)至步骤(4):
步骤(1)电子设备配置初始卷积神经网络。
初始卷积神经网络是指待训练的卷积神经网络,初始卷积神经网络的模型参数为初始值。用户可以在电子设备上输入一个或多个超参数,比如卷积层的层数,每个卷积层中卷积核的大小、卷积核的步长等,电子设备可以接收超参数,基于超参数来构建初始卷积神经网络。
步骤(2)电子设备将相邻样本原始图像的关系信息输入至初始卷积神经网络,通过初始卷积神经网络对相邻帧的关系信息进行处理,得到预测结果。
步骤(3)电子设备获取预测结果与样本视频中相邻帧的关系信息之间的差异。
预测结果与相邻帧的关系信息之间的差异用于指示卷积神经网络预测的准确程度,预测结果与相邻帧的关系信息之间的差异越小,表明预测结果越逼近相邻帧的关系信息,则可以确定卷积神经网络预测的越准确。
在一些实施例中,预测结果与相邻帧的关系信息之间的差异可以通过预测结果与相邻帧的关系信息的损失值表示。具体而言,电子设备可以通过损失函数,对预测结果与相邻帧的关系信息进行计算,得到损失值。其中,该损失函数可以是最小化绝对误差(L1loss),也可以是最小化平方误差(L2loss)。如果采用L1loss来计算损失值,则损失值可以是相邻帧的关系信息中每个像素的像素值和预测结果中对应像素的像素值的绝对差值的总和;如果采用L2loss来计算损失值,则损失值可以是相邻帧的关系信息中每个像素点的像素值和预测结果中对应像素点的像素值的平方和的总和。
步骤(4)电子设备根据处理结果与相邻帧的关系信息之间的差异,调整初始卷积神经网络的模型参数。
电子设备可以采用前向传播算法,根据处理结果与相邻帧的关系信息之间的损失值,调整初始卷积神经网络中每个卷积核的权重,通过调整权重,初始卷积神经网络预测的准确性得以提升,使得下一次预测时预测结果与关系信息之间的差异得以减小。
需要说明的是,步骤(2)至步骤(4)可以是一次迭代的过程,模型训练的过程可以包括多次迭代的过程。具体地,调整模型参数后,可以再次执行上述步骤(2)至步骤(3),得到新的损失值,根据新的损失值再次调整模型参数,直至满足预设条件时,停止调整,将当前的初始卷积神经网络作为已训练的卷积神经网络。其中,该预设条件可以根据需要设置,例如可以是损失值收敛,又如可以是调整模型参数的次数达到预设次数。
卷积神经网络用于根据相邻原始图像的关系信息预测相邻视频帧的关系信息,卷积神经网络的输入参数可以是相邻原始图像的关系信息,输出参数可以是相邻视频帧的关系信息。卷积神经网络可以是深度神经网络,包括多个卷积层。在一些实施例中,卷积神经网络可以是自编码器网络,自编码器网络包括至少一层编码器以及至少一层解码器,每层编码器以及每层解码器均包括一个或多个卷积核。示意性地,参见图4,图4所示的卷积神经网络包括5层编码器以及5层解码器。在编码器1中,采用大小为3*3的卷积核,以2为步长,以64为通道数量;在编码器2中,采用大小为3*3的卷积核,以2为步长,以128为通道数量;在编码器3中,采用大小为3*3的卷积核,以2为步长,以256为通道数量;在编码器4中,采用大小为3*3的卷积核,以2为步长,以512为通道数量;在编码器5中,采用大小为3*3的卷积核,以2为步长,以512为通道数量;在解码器1中,采用大小为3*3的卷积核,以2为步长,以512为通道数量;在解码器2中,采用大小为3*3的卷积核,以2为步长,以512为通道数量;在解码器3中,采用大小为3*3的卷积核,以2为步长,以256为通道数量;在解码器4中,采用大小为3*3的卷积核,以2为步长,以128为通道数量;在解码器5中,采用大小为3*3的卷积核,以2为步长,以64为通道数量。
可选地,卷积神经网络可以采用跨层连接的结构,跨层连接是指卷积神经网络中非相邻关系的不同层之间连通。示意性地,参见图4,编码器1与解码器5连接,编码器2与解码器4连接,编码器3与解码器3连接,编码器4与解码器2连接。通过采用跨层连接的结构,可以降低梯度消失对卷积神经网络的准确率带来的影响,具体地,在训练中,对于仅是采用前馈结构的卷积神经网络来说,随着网络深度的加深,训练错误会先减少,然后增多,而通过采用跨层连接的结构,深层网络由于不仅和前一层网络连接,还和浅层网络跨层连接,因此不仅可以利用前一层网络的输出结果,学习到高层语义,还利用浅层网络的输出结果,学习到底层语义,从而可以同时学习到高层语义和低层语义的特征,因此可以提高卷积神经网络预测结果的准确性。
本实施例提供的方法,利用样本视频以及样本原始图像来训练卷积神经网络,使得卷积神经网络能够从样本中,自动学习出从原始图像到相邻视频帧的关系信息之间的映射,那么根据训练后的卷积神经网络,能够根据原始图像,预测出高质量视频中相邻视频帧的关系信息,以便利用相邻视频帧的关系信息来自动生成出高质量视频。
以下,对本公开实施例提供的视频生成方法进行介绍。
图5是根据一示例性实施例示出的一种视频生成方法的流程图,该方法可以在图3实施例之后执行。图5所示的方法用于电子设备中,该电子设备和图3实施例中的电子设备可以是不同的电子设备,也可以是相同的电子设备,该方法包括以下步骤:
在步骤S51中,电子设备获取至少一个原始图像。
该至少一个原始图像可以作为生成高质量视频的素材,每个原始图像经过处理后,可以转换为高质量视频帧的一帧。可选地,步骤S51可以包括下述步骤(1)至步骤(2):
步骤(1)电子设备接收用户输入的待提高图像质量的视频。
用户输入的视频可以是低质量视频,例如是模糊视频或有损视频。
步骤(2)电子设备提取该视频的每个帧,作为该至少一个原始图像。
通过将提取的帧作为原始图像,可以通过后续流程,将提取的帧转换为高质量的视频帧,将高质量的视频帧拼接为目标视频,该目标视频的质量会高于用户输入的视频的质量,从而实现将低质量的视频转换为高质量的视频的功能。
需要说明的一点是,步骤(1)至步骤(2)仅是对步骤S51的举例说明,在一些实施例中,也可以采用其他方式实现步骤S51,比如预先存储至少一个原始图像,或者从网络中下载该至少一个原始图像,本实施例对获取原始图像的方式不做限定。
在步骤S52中,电子设备获取相邻原始图像的关系信息。
相邻原始图像可以是至少一个原始图像中顺序相邻的两个原始图像。例如,如果至少一个原始图像来自于用户输入的视频,则相邻原始图像可以是播放时间点相邻的两个原始图像,即用户输入的视频中的前后两帧。
相邻原始图像的关系信息用于指示相邻原始图像之间的关联关系。示例性地,相邻原始图像的关系信息可以是相邻原始图像经过图像运算后得到的图像。具体地,可以采用第一图像运算方法,对前一个原始图像与后一个原始图像进行计算,将计算结果作为这两个原始图像的关系信息。其中,该第一图像运算方法可以是任意图像运算方法,例如可以是某一种代数运算方法,或者是多种代数运算方法的组合。在一些实施例中,相邻原始图像的关系信息而不限于下述(1)至(2):
(1)相邻原始图像的关系信息可以是相邻原始图像之间的差值图像。差值图像能够表示相邻原始图像之间的差异关系,指示从前一个原始图像到后一个原始图像之间的变化。对于任两个相邻的原始图像而言,可以将前一个原始图像和后一个原始图像中对应像素进行相减,得到差值图像。其中,该对应像素可以是前一个原始图像和后一个原始图像中坐标相同的像素。例如,如果前一个原始图像中的像素点以A表示,后一个原始图像中像素点以B表示,差值图像中像素点以C表示,如果像素点的横坐标为x,纵坐标为y,那么差值图像中的像素点C(x,y)=A(x,y)-B(x,y)。
(2)相邻原始图像的关系信息可以是相邻原始图像之间的比值图像。比值图像能够表示相邻原始图像之间的对比关系,指示前一个原始图像到后一个原始图像之间的对比度。对于任两个相邻的原始图像而言,可以将前一个原始图像和后一个原始图像中对应像素进行相除,得到比值图像。例如,如果前一个原始图像中的像素点以A表示,后一个原始图像中像素点以B表示,比值图像中像素点以C表示,如果像素点的横坐标为x,纵坐标为y,那么比值图像中的像素点C(x,y)=A(x,y)÷B(x,y)。
需要说明的一点是,相邻原始图像之间的差值图像或者相邻图像之间的比值图像仅是对相邻原始图像的关系信息的举例,相邻原始图像的关系信息也可以是差值图像以及比值图像之外的其他信息,本实施例对关系信息的数据形式并不做具体限定。
在步骤S53中,电子设备将相邻原始图像的关系信息映射到对数空间。
对数空间也称log空间,可以对相邻原始图像的关系信息进行对数运算,来得到对数空间中的关系信息。在一些实施例中,可以采用下述公式对相邻原始图像的关系信息进行运算:
Figure BDA0002214823290000131
其中,x表示相邻原始图像的关系信息,y表示对数空间中的相邻原始图像的关系信息,log表示取对数。
步骤S53的效果至少可以包括:原始图像的位数会受到拍摄该原始图像的设备的影响,不同设备拍摄的原始图像的位数可以不同。那么,根据不同位数的原始图像,计算出的关系信息的取值也会不同。例如,关系信息的取值范围可以为[-255,255]。由于不同关系信息的取值不同,导致卷积神经网络根据各种取值的关系信息进行处理时,可能难以收敛,因此,通过将关系信息映射到对数空间,能够缩小关系信息的取值范围,从而提高卷积神经网络的收敛速度。
需要说明的一点是,步骤S53仅是可选步骤,在另一些实施例中,可以不执行步骤S53,而是将步骤S52获取的关系信息直接输入卷积神经网络,本实施例对是否执行步骤S53不做限定。
在步骤S54中,电子设备将对数空间的关系信息输入卷积神经网络。
在步骤S55中,电子设备通过该卷积神经网络,对相邻原始图像的关系信息进行处理,输出相邻视频帧的关系信息。
相邻视频帧的关系信息用于指示至少一个视频帧中相邻视频帧之间的关联关系。该视频帧为待生成的目标视频中的帧,该视频帧的图像质量高于原始图像的图像质量,例如,视频帧的清晰度高于原始图像的清晰度,视频帧的分辨率高于原始图像的分辨率。电子设备可以通过卷积神经网络,对相邻原始图像的关系信息进行至少一次卷积处理,得到相邻视频帧的关系信息。例如,如果卷积神经网络是自编码器网络,可以通过自编码器网络的至少一个编码器,对相邻原始图像的关系信息进行至少一次编码,得到中间结果;通过自编码器网络的至少一个解码器,对中间结果进行至少一次解码,得到相邻视频帧的关系信息。
示意性地,参见图4,通过图4所示的卷积神经网络,会以相邻视频帧的关系信息为输入参数,将相邻视频帧的关系信息输入编码器1;在编码器1中,采用大小为3*3的卷积核,以2为步长,以64为通道数量,对关系信息进行卷积处理,得到中间结果1,将中间结果1输入编码器2以及解码器5;在编码器2中,会采用大小为3*3的卷积核,以2为步长,以128为通道数量,对中间结果1进行卷积处理,得到中间结果2,将中间结果2输入编码器3以及解码器4;在编码器3中,采用大小为3*3的卷积核,以2为步长,以256为通道数量,对中间结果2进行卷积处理,得到中间结果3,将中间结果3输入编码器4以及解码器3;在编码器4中,采用大小为3*3的卷积核,以2为步长,以512为通道数量,对中间结果3进行卷积处理,得到中间结果4,将中间结果4输入编码器5以及解码器2;在编码器5中,采用大小为3*3的卷积核,以2为步长,以512为通道数量,对中间结果4进行卷积处理,得到中间结果5,将中间结果5输入解码器1;在解码器1中,采用大小为3*3的卷积核,以2为步长,以512为通道数量,对中间结果5进行卷积处理,得到中间结果6,将中间结果6输入解码器2;在解码器2中,采用大小为3*3的卷积核,以2为步长,以512为通道数量,对中间结果6以及中间结果4进行卷积处理,得到中间结果7,将中间结果7输入解码器3;在解码器3中,采用大小为3*3的卷积核,以2为步长,以256为通道数量,对中间结果7以及中间结果3进行卷积处理,得到中间结果8,将中间结果8输入解码器4;在解码器4中,采用大小为3*3的卷积核,以2为步长,以128为通道数量,对中间结果8以及中间结果2进行卷积处理,得到中间结果9,将中间结果9输入解码器5;在解码器5中,采用大小为3*3的卷积核,以2为步长,以64为通道数量,对中间结果9以及中间结果1进行卷积处理,得到相邻视频帧的关系信息。
在步骤S56中,电子设备对该至少一个原始图像中的目标原始图像进行处理,得到该至少一个视频帧中的目标视频帧。
目标原始图像可以是至少一个原始图像中的任一个原始图像。例如,目标原始图像可以是至少一个原始图像中的第一个原始图像,比如说可以是用户输入的视频的首帧。当然,目标原始图像可以是至少一个原始图像中的最后一个原始图像或中间的某一个原始图像,本实施例对选取至少一个原始图像中的哪个原始图像作为目标原始图像不做限定。
目标视频帧为由目标原始图像经过处理后得到的视频帧。目标视频帧的图像质量高于目标原始图像的图像质量。如果目标原始图像是至少一个原始图像中的第一个原始图像,则目标视频帧可以是至少一个视频帧中的第一个视频帧,即目标视频的首帧。同理地,如果目标原始图像是至少一个原始图像中的第i个原始图像,则目标视频帧可以是至少一个视频帧中的第i个视频帧,i为正整数。关于生成目标视频帧的方式,电子设备可以采用任意能够提高图像质量的处理方式对目标原始图像进行处理,得到目标视频帧。例如,电子设备可以对目标原始图像进行超分辨率重建,得到目标视频帧,则目标视频帧的分辨率会高于目标原始图像的分辨率。可选地,电子设备可以通过PS对目标原始图像进行处理,从而将低质量的目标原始图像转换为高质量的目标视频帧。
在步骤S57中,电子设备对该目标视频帧与该相邻视频帧的关系信息进行合成,得到至少一个视频帧中目标视频帧相邻的视频帧。
目标视频帧相邻的视频帧可以是目标视频帧的后一个视频帧,也可以是目标视频帧的前一个视频帧。在一些实施例中,可以采用第二图像运算方法,对该目标视频帧与该相邻视频帧的关系信息进行计算,将计算结果作为目标视频帧相邻的视频帧,该第二图像运算方法可以是获取关系信息所使用的第一图像运算方法的逆运算,例如,如果第一图像运算方法是做差,则第二图像运算方法可以是叠加,如果第一图像运算方法是相除,则第二图像运算方法可以是相乘。合成出目标视频帧相邻的视频帧可以而不限于下述实现方式一至实现方式二中的任一项:
实现方式一、如果相邻视频帧的关系信息为相邻视频帧之间的差值图像,可以对目标视频帧与相邻视频帧的关系信息进行叠加,得到目标视频帧相邻的视频帧。具体地,可以将目标视频帧和差值图像中对应像素的像素值进行求和,得到目标视频帧相邻的视频帧对应像素的像素值。例如,如果目标视频帧中的像素点以G表示,相邻视频帧之间的差值图像中像素点以H表示,目标视频帧相邻的视频帧中像素点以I表示,如果像素点的横坐标为x,纵坐标为y,那么目标视频帧相邻的视频帧中的像素点I(x,y)=G(x,y)+H(x,y)。
实现方式二、如果相邻视频帧的关系信息为相邻视频帧之间的比值图像,可以对该目标视频帧与该相邻视频帧的关系信息进行相乘,得到目标视频帧相邻的视频帧。具体地,可以将目标视频帧和比值图像中对应像素的像素值进行相乘,得到目标视频帧相邻的视频帧对应像素的像素值。例如,如果目标视频帧中的像素点以G表示,相邻视频帧之间的比值图像中像素点以H表示,目标视频帧相邻的视频帧中像素点以I表示,如果像素点的横坐标为x,纵坐标为y,那么目标视频帧相邻的视频帧中的像素点I(x,y)=G(x,y)*H(x,y)。
需要说明的一点是,叠加或者相乘仅是合成出目标视频帧相邻的视频帧的举例,也可以通过叠加或者相乘之外的方法,合成出目标视频帧相邻的视频帧。
以目标视频帧为第一个视频帧为例,可以通过循环执行上述步骤S52至步骤S55以及步骤S57,得到至少一个视频帧中的每个视频帧,即目标视频的每个帧。具体而言,目标视频的每个帧的生成方式可以包括:通过对第一个原始图像进行处理,可以得到目标视频的第一个视频帧;根据第一个原始图像与第二个原始图像之间的关系信息,可以获取到第一个视频帧与第二个视频帧之间的关系信息;通过将第一个视频帧,与第一个视频帧与第二个视频帧之间的关系信息进行合成,可以得到目标视频的第二个视频帧;同理地,根据第二个原始图像与第三个原始图像之间的关系信息,可以获取到第二个视频帧与第三个视频帧之间的关系信息;通过将第二个视频帧,与第二个视频帧与第三个视频帧之间的关系信息进行合成,可以得到目标视频的第三个视频帧;依次类推,通过第i个原始图像与第(i+1)个原始图像之间的关系信息,可以得到第i个视频帧与第(i+1)个视频帧之间的关系信息;通过将第i个视频帧,与第i个视频帧与第(i+1)个视频帧之间的关系信息进行合成,可以得到目标视频的第(i+1)个视频帧。
以关系信息为差值图像为例,目标视频的每个帧的生成方式具体可以是:通过对第一个原始图像进行处理,可以得到第一个视频帧;根据第一个原始图像与第二个原始图像之间的差值图像,可以获取到第一个视频帧与第二个视频帧之间的差值图像;通过在第一个视频帧的基础上,叠加第一个视频帧与第二个视频帧之间的差值图像,可以得到第二个视频帧;同理地,根据第二个原始图像与第三个原始图像之间的差值图像,可以获取到第二个视频帧与第三个视频帧之间的差值图像;通过在第二个视频帧的基础上,叠加第二个视频帧与第三个视频帧之间的差值图像,可以得到第三个视频帧;依次类推,根据第i个原始图像与第(i+1)个原始图像之间的差值图像,可以获取到第i个视频帧与第(i+1)个视频帧之间的差值图像;通过在第i个视频帧的基础上,叠加第i个视频帧与第(i+1)个视频帧之间的差值图像,可以得到第(i+1)个视频帧。
通过上述流程来生成目标视频中的每个视频帧,至少可以达到如下效果:改进了生成视频帧的方式,不是直接从原始图像生成视频帧,而是利用了原始图像与目标视频中前后视频帧之间的关系,通过计算前后原始图像之间的差值图像,表示出前后原始图像之间的相互关系,通过将差值图像叠加到前一视频帧上,即可计算得出当前视频帧,一方面,由于视频帧的图像质量高于原始图像的图像质量,因此由视频帧拼接出的目标视频的质量也就会高于由原始图像拼接出的视频的质量,因此大大提高了生成的视频的质量;另一方面,可以避免对所有原始图像均进行超分辨率重构而导致处理复杂的问题,通过对一个目标原始图像经过超分辨率重构来得出一个目标视频帧,目标视频帧之外的其他视频帧均可以通过对前一视频帧的基础上经过简单的叠加运算来得到,因此大大降低了计算量,在手机等移动端即可满足计算需求,有利于提高视频的帧率。
以关系信息为比值图像为例,目标视频的每个帧的生成方式具体可以是:通过对第一个原始图像进行处理,可以得到第一个视频帧;根据第一个原始图像与第二个原始图像之间的比值图像,可以获取到第一个视频帧与第二个视频帧之间的比值图像;通过在第一个视频帧的基础上,乘以第一个视频帧与第二个视频帧之间的比值图像,可以得到第二个视频帧;同理地,根据第二个原始图像与第三个原始图像之间的比值图像,可以获取到第二个视频帧与第三个视频帧之间的比值图像,通过在第二个视频帧的基础上,乘以第二个视频帧与第三个视频帧之间的比值图像,可以得到第三个视频帧;依次类推,根据第i个原始图像与第(i+1)个原始图像之间的比值图像,可以获取到第i个视频帧与第(i+1)个视频帧之间的比值图像;通过在第i个视频帧的基础上,乘以第i个视频帧与第(i+1)个视频帧之间的比值图像,可以得到第(i+1)个视频帧。
在步骤S58中,电子设备对该至少一个视频帧进行拼接,得到目标视频。
目标视频为电子设备自动生成的视频,目标视频可以是高质量视频,目标视频中每帧的图像质量可以满足预设条件。电子设备可以根据每个原始图像的播放时间点,获取步骤S56以及步骤S57生成的每个视频帧对应的播放时间点,对至少一个视频帧按照时间点从先至后的顺序进行拼接,得到该目标视频。
本实施例提供的方法,充分考虑了原始图像与相邻视频帧之间的关系,通过利用原始图像,预测出高质量视频中相邻视频帧之间的关系,基于相邻视频帧之间的关系,自动生成图像质量更高的一系列视频帧,将这些视频帧拼接为高质量视频。相对于直接将原始图像拼接为视频的方式而言,由于生成的视频帧的图像质量比原始图像的图像质量更高,因此根据生成的视频帧拼接得到的目标视频的质量也就比根据原始图像拼接得到的视频的质量更高,因此提高了生成的视频的质量。
图6是根据一示例性实施例示出的一种视频生成装置的框图。参照图6,该装置包括获取单元601,生成单元602和拼接单元603。
获取单元601,被配置为执行获取至少一个原始图像;
该获取单元601,还被配置为执行根据该至少一个原始图像,获取该至少一个原始图像对应的至少一个视频帧中相邻视频帧的关系信息,每个视频帧的图像质量高于对应的原始图像的图像质量,该相邻视频帧的关系信息用于指示该相邻视频帧之间的关联关系;
生成单元602,被配置为执行根据该相邻视频帧的关系信息,生成该至少一个视频帧;
拼接单元603,被配置为执行对该至少一个视频帧进行拼接,得到目标视频。
本实施例提供的装置,充分考虑了原始图像与相邻视频帧之间的关系,通过利用原始图像,预测出高质量视频中相邻视频帧之间的关系,基于相邻视频帧之间的关系,自动生成图像质量更高的一系列视频帧,将这些视频帧拼接为高质量视频。相对于直接将原始图像拼接为视频的方式而言,由于生成的视频帧的图像质量比原始图像的图像质量更高,因此根据生成的视频帧拼接得到的目标视频的质量也就比根据原始图像拼接得到的视频的质量更高,因此提高了生成的视频的质量。
可选地,该获取单元601,包括:
获取子单元,被配置为执行获取相邻原始图像的关系信息,该相邻原始图像的关系信息用于指示该相邻原始图像之间的关联关系;
输入子单元,被配置为执行将该相邻原始图像的关系信息输入卷积神经网络,该卷积神经网络用于根据相邻原始图像的关系信息预测相邻视频帧的关系信息;
处理子单元,被配置为执行通过该卷积神经网络,对该相邻原始图像的关系信息进行处理,输出该相邻视频帧的关系信息。
可选地,该获取单元601,还被配置为执行获取样本视频以及该样本视频的每帧对应的每个样本原始图像,该样本视频的每帧的图像质量高于对应的样本原始图像的图像质量;
该视频生成装置还包括:模型训练单元,被配置为执行基于相邻样本原始图像的关系信息以及该样本视频中相邻帧的关系信息进行模型训练,得到该卷积神经网络。
可选地,该装置还包括:
映射单元,被配置为执行将该相邻原始图像的关系信息映射到对数空间;
该输入子单元,被配置为执行将对数空间的关系信息输入该卷积神经网络。
可选地,该相邻视频帧的关系信息包括该相邻视频帧之间的差值图像;
该生成单元602,包括:
处理子单元,被配置为执行对该至少一个原始图像中的目标原始图像进行处理,得到该至少一个视频帧中的目标视频帧;
叠加子单元,被配置为执行对该目标视频帧与该差值图像进行叠加,得到该至少一个视频帧中该目标视频帧相邻的视频帧。
可选地,该相邻视频帧的关系信息包括该相邻视频帧之间的比值图像;
该生成单元602,包括:
处理子单元,被配置为执行对该至少一个原始图像中的目标原始图像进行处理,得到该至少一个视频帧中的目标视频帧;
相乘子单元,被配置为执行对该目标视频帧与该比值图像进行相乘,得到该至少一个视频帧中该目标视频帧相邻的视频帧。
可选地,该获取单元601,包括:
接收子单元,被配置为执行接收用户输入的待提高图像质量的视频;
提取子单元,被配置为执行提取该视频的每个帧,作为该至少一个原始图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
上述方法实施例中的电子设备可以实现为终端或服务器,例如,图7是根据一示例性实施例示出的一种终端的框图。该终端700可以是:智能手机、平板电脑、MP3(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端700包括有:一个或多个处理器701和一个或多个存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本公开中方法实施例提供的视频生成方法。
在一些实施例中,终端700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、触摸显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本公开对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置终端700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在终端700的不同表面或呈折叠设计;在再一些实施例中,显示屏705可以是柔性显示屏,设置在终端700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
定位组件708用于定位终端700的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测终端700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器713可以设置在终端700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在终端700的侧边框时,可以检测用户对终端700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时,由处理器701根据用户对触摸显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时,指纹传感器714可以与物理按键或厂商Logo集成在一起。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制触摸显示屏705的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏705的显示亮度;当环境光强度较低时,调低触摸显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时,由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时,由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对终端700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
上述方法实施例中的电子设备可以实现为服务器,例如,图8是根据一示例性实施例示出的一种服务器的框图,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)801和一个或一个以上的存储器802,其中,该存储器802中存储有至少一条指令,该至少一条指令由该处理器801加载并执行以实现上述各个方法实施例提供的视频生成方法。当然,该服务器还可以具有有线或无线网络接口以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器,上述指令可由电子设备的处理器执行以完成上述视频生成方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,该非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory,简称:ROM)、随机存取存储器(Random Access Memory,简称:RAM)、只读光盘(Compact Disc Read-Only Memory,简称:CD-ROM)、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种视频生成方法,其特征在于,包括:
获取至少一个原始图像;
将所述至少一个原始图像中相邻原始图像的关系信息输入卷积神经网络,所述相邻原始图像的关系信息用于指示所述相邻原始图像之间的关联关系,所述卷积神经网络是根据相邻样本原始图像的关系信息以及样本视频中相邻帧的关系信息训练得到的;
通过所述卷积神经网络,对所述相邻原始图像的关系信息进行处理,输出所述至少一个原始图像对应的至少一个视频帧中相邻视频帧的关系信息,每个视频帧的图像质量高于对应的原始图像的图像质量,所述相邻视频帧的关系信息用于指示所述相邻视频帧之间的关联关系;
根据所述相邻视频帧的关系信息,生成所述至少一个视频帧;
对所述至少一个视频帧进行拼接,得到目标视频。
2.根据权利要求1所述的视频生成方法,其特征在于,所述获取至少一个原始图像之前,所述方法还包括:
获取样本视频以及所述样本视频的每帧对应的每个样本原始图像,所述样本视频的每帧的图像质量高于对应的样本原始图像的图像质量;
基于相邻样本原始图像的关系信息以及所述样本视频中相邻帧的关系信息进行模型训练,得到所述卷积神经网络,所述相邻样本原始图像的关系信息用于指示所述相邻样本原始图像之间的关联关系。
3.根据权利要求1所述的视频生成方法,其特征在于,所述将所述至少一个原始图像中相邻原始图像的关系信息输入卷积神经网络,包括:
将所述相邻原始图像的关系信息映射到对数空间;
将对数空间的所述相邻原始图像的关系信息输入所述卷积神经网络。
4.根据权利要求1所述的视频生成方法,其特征在于,所述相邻视频帧的关系信息包括所述相邻视频帧之间的差值图像;
所述根据所述相邻视频帧的关系信息,生成所述至少一个视频帧,包括:
对所述至少一个原始图像中的目标原始图像进行处理,得到所述至少一个视频帧中的目标视频帧;
对所述目标视频帧与所述差值图像进行叠加,得到所述至少一个视频帧中所述目标视频帧相邻的视频帧。
5.根据权利要求1所述的视频生成方法,其特征在于,所述相邻视频帧的关系信息包括所述相邻视频帧之间的比值图像;
所述根据所述相邻视频帧的关系信息,生成所述至少一个视频帧,包括:
对所述至少一个原始图像中的目标原始图像进行处理,得到所述至少一个视频帧中的目标视频帧;
对所述目标视频帧与所述比值图像进行相乘,得到所述至少一个视频帧中所述目标视频帧相邻的视频帧。
6.根据权利要求1所述的视频生成方法,其特征在于,所述获取至少一个原始图像,包括:
接收用户输入的待提高图像质量的视频;
提取所述视频的每个帧,作为所述至少一个原始图像。
7.一种视频生成装置,其特征在于,包括:
获取单元,被配置为执行获取至少一个原始图像;
所述获取单元,还被配置为执行将所述至少一个原始图像中相邻原始图像的关系信息输入卷积神经网络,所述相邻原始图像的关系信息用于指示所述相邻原始图像之间的关联关系,所述卷积神经网络是根据相邻样本原始图像的关系信息以及样本视频中相邻帧的关系信息训练得到的;通过所述卷积神经网络,对所述相邻原始图像的关系信息进行处理,输出所述至少一个原始图像对应的至少一个视频帧中相邻视频帧的关系信息,每个视频帧的图像质量高于对应的原始图像的图像质量,所述相邻视频帧的关系信息用于指示所述相邻视频帧之间的关联关系;
生成单元,被配置为执行根据所述相邻视频帧的关系信息,生成所述至少一个视频帧;
拼接单元,被配置为执行对所述至少一个视频帧进行拼接,得到目标视频。
8.根据权利要求7所述的视频生成装置,其特征在于,所述获取单元,还被配置为执行获取样本视频以及所述样本视频的每帧对应的每个样本原始图像,所述样本视频的每帧的图像质量高于对应的样本原始图像的图像质量;
所述视频生成装置还包括:模型训练单元,被配置为执行基于相邻样本原始图像的关系信息以及所述样本视频中相邻帧的关系信息进行模型训练,得到所述卷积神经网络,所述相邻样本原始图像的关系信息用于指示所述相邻样本原始图像之间的关联关系。
9.根据权利要求7所述的视频生成装置,其特征在于,所述获取单元,被配置为执行将所述相邻原始图像的关系信息映射到对数空间;将对数空间的所述相邻原始图像的关系信息输入所述卷积神经网络。
10.根据权利要求7所述的视频生成装置,其特征在于,所述相邻视频帧的关系信息包括所述相邻视频帧之间的差值图像;
所述生成单元,包括:
处理子单元,被配置为执行对所述至少一个原始图像中的目标原始图像进行处理,得到所述至少一个视频帧中的目标视频帧;
叠加子单元,被配置为执行对所述目标视频帧与所述差值图像进行叠加,得到所述至少一个视频帧中所述目标视频帧相邻的视频帧。
11.根据权利要求7所述的视频生成装置,其特征在于,所述相邻视频帧的关系信息包括所述相邻视频帧之间的比值图像;
所述生成单元,包括:
处理子单元,被配置为执行对所述至少一个原始图像中的目标原始图像进行处理,得到所述至少一个视频帧中的目标视频帧;
相乘子单元,被配置为执行对所述目标视频帧与所述比值图像进行相乘,得到所述至少一个视频帧中所述目标视频帧相邻的视频帧。
12.根据权利要求7所述的视频生成装置,其特征在于,所述获取单元,包括:
接收子单元,被配置为执行接收用户输入的待提高图像质量的视频;
提取子单元,被配置为执行提取所述视频的每个帧,作为所述至少一个原始图像。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
用于存储所述处理器可执行指令的一个或多个存储器;
其中,所述一个或多个处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的视频生成方法。
14.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至6中任一项所述的视频生成方法。
CN201910911460.2A 2019-09-25 2019-09-25 视频生成方法、装置、设备及存储介质 Active CN110572710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910911460.2A CN110572710B (zh) 2019-09-25 2019-09-25 视频生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910911460.2A CN110572710B (zh) 2019-09-25 2019-09-25 视频生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110572710A CN110572710A (zh) 2019-12-13
CN110572710B true CN110572710B (zh) 2021-09-28

Family

ID=68782318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910911460.2A Active CN110572710B (zh) 2019-09-25 2019-09-25 视频生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110572710B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111654723B (zh) * 2020-05-14 2022-04-12 北京百度网讯科技有限公司 视频质量提升方法、装置、电子设备和存储介质
CN111738107A (zh) * 2020-06-08 2020-10-02 Oppo(重庆)智能科技有限公司 视频生成方法、视频生成装置、存储介质与电子设备
CN113610713B (zh) * 2021-08-13 2023-11-28 北京达佳互联信息技术有限公司 视频超分辨模型的训练方法、视频超分辨方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107027023A (zh) * 2017-04-24 2017-08-08 北京理工大学 基于神经网络的VoIP无参考视频通信质量客观评价方法
CN108012157A (zh) * 2017-11-27 2018-05-08 上海交通大学 用于视频编码分数像素插值的卷积神经网络的构建方法
CN108830790A (zh) * 2018-05-16 2018-11-16 宁波大学 一种基于精简卷积神经网络的快速视频超分辨率重建方法
CN110166779A (zh) * 2019-05-23 2019-08-23 西安电子科技大学 基于超分辨率重构的视频压缩方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893927B (zh) * 2015-12-18 2020-06-23 乐视云计算有限公司 动画视频识别与编码方法及装置
US9972360B2 (en) * 2016-08-30 2018-05-15 Oath Inc. Computerized system and method for automatically generating high-quality digital content thumbnails from digital video

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107027023A (zh) * 2017-04-24 2017-08-08 北京理工大学 基于神经网络的VoIP无参考视频通信质量客观评价方法
CN108012157A (zh) * 2017-11-27 2018-05-08 上海交通大学 用于视频编码分数像素插值的卷积神经网络的构建方法
CN108830790A (zh) * 2018-05-16 2018-11-16 宁波大学 一种基于精简卷积神经网络的快速视频超分辨率重建方法
CN110166779A (zh) * 2019-05-23 2019-08-23 西安电子科技大学 基于超分辨率重构的视频压缩方法

Also Published As

Publication number Publication date
CN110572710A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
US20210153629A1 (en) Method for processing images, electronic device, and storage medium
KR20210111833A (ko) 타겟의 위치들을 취득하기 위한 방법 및 장치와, 컴퓨터 디바이스 및 저장 매체
CN110572710B (zh) 视频生成方法、装置、设备及存储介质
CN110933334B (zh) 视频降噪方法、装置、终端及存储介质
CN112581358B (zh) 图像处理模型的训练方法、图像处理方法及装置
CN111445901A (zh) 音频数据获取方法、装置、电子设备及存储介质
CN109451248B (zh) 视频数据的处理方法、装置、终端及存储介质
CN112261491B (zh) 视频时序标注方法、装置、电子设备及存储介质
CN111127509A (zh) 目标跟踪方法、装置和计算机可读存储介质
CN114170349A (zh) 图像生成方法、装置、电子设备及存储介质
CN113763228A (zh) 图像处理方法、装置、电子设备及存储介质
CN111178343A (zh) 基于人工智能的多媒体资源检测方法、装置、设备及介质
CN110503159B (zh) 文字识别方法、装置、设备及介质
CN109961802B (zh) 音质比较方法、装置、电子设备及存储介质
CN111107357B (zh) 一种图像处理的方法、装置、系统及存储介质
CN112508959B (zh) 视频目标分割方法、装置、电子设备及存储介质
CN111698512B (zh) 视频处理方法、装置、设备及存储介质
CN114332709A (zh) 视频处理方法、装置、存储介质以及电子设备
CN110263695B (zh) 人脸部位的位置获取方法、装置、电子设备及存储介质
CN110414673B (zh) 多媒体识别方法、装置、设备及存储介质
CN111757146B (zh) 视频拼接的方法、系统及存储介质
CN113407774A (zh) 封面确定方法、装置、计算机设备及存储介质
CN111652432A (zh) 用户属性信息的确定方法、装置、电子设备及存储介质
CN111797754A (zh) 图像检测的方法、装置、电子设备及介质
CN111916105A (zh) 语音信号处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant