CN112165582A - 生成视频的方法、装置、存储介质及电子设备 - Google Patents

生成视频的方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN112165582A
CN112165582A CN202010899561.5A CN202010899561A CN112165582A CN 112165582 A CN112165582 A CN 112165582A CN 202010899561 A CN202010899561 A CN 202010899561A CN 112165582 A CN112165582 A CN 112165582A
Authority
CN
China
Prior art keywords
picture
target
pictures
information
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010899561.5A
Other languages
English (en)
Other versions
CN112165582B (zh
Inventor
王梦丽
庞芸萍
王文明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202010899561.5A priority Critical patent/CN112165582B/zh
Publication of CN112165582A publication Critical patent/CN112165582A/zh
Application granted granted Critical
Publication of CN112165582B publication Critical patent/CN112165582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本公开涉及一种生成视频的方法、装置、存储介质及电子设备,所述方法包括:通过终端获取多个目标图片;获取与多个所述目标图片对应的图片关联信息,该图片关联信息包括该目标图片的拍摄信息和/或图片描述信息,该图片描述信息用于描述多个目标图片的语义信息;根据多个所述目标图片和所述图片关联信息,生成所述目标图片对应的目标视频。也就是说,本公开可以根据多个目标图片和该多个目标图片对应的图片关联信息,生成该目标图片对应的目标视频,这样,生成该目标视频的相邻目标图片之间是相互关联的,可以避免该目标视频中的物体出现忽大忽小、忽远忽近的问题,从而可以提高该目标视频的连贯性。

Description

生成视频的方法、装置、存储介质及电子设备
技术领域
本公开涉及视频技术领域,尤其涉及一种生成视频的方法、装置、存储介质及电子设备。
背景技术
随着移动终端的普及、网络速度的提升以及多媒体技术的不断进步,更加提高了视频(尤其是短视频)在广大用户中的受欢迎程度。相比于视频,传统的图片传播不足以吸引用户的眼球,但是相比于图片资源,视频资源比较匮乏。
相关技术中,可以通过人工合成视频的方式,将多个图片拼接为视频,但是,这种方式合成的视频中可能会出现物体忽大忽小、忽远忽近等问题,导致视频的连贯性较差。
发明内容
为克服相关技术中存在的问题,本公开提供一种生成视频的方法、装置、存储介质及电子设备。
根据本公开实施例的第一方面,提供一种生成视频的方法,包括:通过终端获取多个目标图片;获取与多个所述目标图片对应的图片关联信息,所述图片关联信息包括所述目标图片的拍摄信息和/或图片描述信息,所述图片描述信息用于描述多个所述目标图片的语义信息;根据多个所述目标图片和所述图片关联信息,生成所述目标图片对应的目标视频。
可选地,所述根据多个所述目标图片和所述图片关联信息,生成所述目标图片对应的目标视频包括:根据多个所述目标图片和所述图片描述信息,通过预先训练的视频生成模型得到所述目标图片对应的目标视频。
可选地,所述视频生成模型包括第一视频生成模型和第二视频生成模型,所述根据多个所述目标图片和所述图片描述信息,通过预先训练的视频生成模型得到所述目标图片对应的目标视频包括:将多个所述目标图片和所述图片描述信息,作为所述第一视频生成模型的输入,得到语义图片向量,所述第一视频生成模型用于将多个所述目标图片对应的图片向量和所述图片描述信息对应的信息向量相结合;将所述语义图片向量作为所述第二视频生成模型的输入,得到所述目标视频。
可选地,在所述将多个所述目标图片和所述图片描述信息,作为所述第一视频生成模型的输入,得到语义图片向量前,所述方法还包括:将多个所述目标图片作为第一编码器的输入,得到图片向量;将所述图片描述信息作为第二编码器的输入,得到信息向量;所述将多个所述目标图片和所述图片描述信息,作为所述第一视频生成模型的输入,得到语义图片向量包括:将所述图片向量和所述信息向量作为所述第一视频生成模型的输入,得到所述语义图片向量。
可选地,所述第一视频生成模型通过以下方式训练得到:通过第一训练集,对第一神经网络模型进行训练,得到所述第一视频生成模型;其中,所述第一训练集包括:多个第一样本组合,其中,每个所述第一样本组合包括:多个样本图片和多个所述样本图片的图片描述样本信息。
可选地,所述通过第一训练集,对第一神经网络模型进行训练,得到所述第一视频生成模型包括:针对所述第一训练集中的每个所述第一样本组合,获取多个所述样本图片对应的样本图片向量和所述图片描述样本信息对应的样本信息向量;将所述样本图片向量和所述样本信息向量作为所述第一神经网络模型的输入,对所述第一神经网络模型进行训练,得到所述第一视频生成模型。
可选地,所述第二视频生成模型通过以下方式训练得到:通过第二训练集,对第二神经网络模型进行训练,得到所述第二视频生成模型;其中,所述第二训练集包括:多个样本语义图片向量,其中,所述样本语义图片向量是根据多个样本图片和多个所述样本图片的图片描述样本信息,通过所述第一视频生成模型得到。
可选地,所述拍摄信息包括多个所述目标图片的拍摄顺序,所述根据多个所述目标图片和所述图片关联信息,生成所述目标图片对应的目标视频包括:根据多个所述目标图片,按照所述拍摄顺序生成所述目标视频。
可选地,所述拍摄信息包括多个所述目标图片的拍摄时间,所述根据多个所述目标图片和所述图片关联信息,生成所述目标图片对应的目标视频包括:根据多个所述目标图片,按照所述拍摄时间的先后顺序生成所述目标视频。
根据本公开实施例的第二方面,提供一种生成视频的装置,包括:图片获取模块,被配置为通过终端获取多个目标图片;信息获取模块,被配置为获取与多个所述目标图片对应的图片关联信息,所述图片关联信息包括所述目标图片的拍摄信息和/或图片描述信息,所述图片描述信息用于描述多个所述目标图片的语义信息;生成模块,被配置为根据多个所述目标图片和所述图片关联信息,生成所述目标图片对应的目标视频。
可选地,所述生成模块包括:第一生成子模块,被配置为根据多个所述目标图片和所述图片描述信息,通过预先训练的视频生成模型得到所述目标图片对应的目标视频。
可选地,所述视频生成模型包括第一视频生成模型和第二视频生成模型,所述第一生成子模块,被配置为:将多个所述目标图片和所述图片描述信息,作为所述第一视频生成模型的输入,得到语义图片向量,所述第一视频生成模型用于将多个所述目标图片对应的图片向量和所述图片描述信息对应的信息向量相结合;将所述语义图片向量作为所述第二视频生成模型的输入,得到所述目标视频。
可选地,所述装置还包括:图片向量生成模块,被配置为将多个所述目标图片作为第一编码器的输入,得到图片向量;信息向量生成模块,被配置为将所述图片描述信息作为第二编码器的输入,得到信息向量;所述第一生成子模块,还被配置为:将所述图片向量和所述信息向量作为所述第一视频生成模型的输入,得到所述语义图片向量。
可选地,所述生成模块还包括:第一训练子模块,被配置为通过第一训练集,对第一神经网络模型进行训练,得到所述第一视频生成模型;其中,所述第一训练集包括:多个第一样本组合,其中,每个所述第一样本组合包括:多个样本图片和多个所述样本图片的图片描述样本信息。
可选地,所述第一训练子模块,被配置为:针对所述第一训练集中的每个第一样本组合,获取多个所述样本图片对应的样本图片向量和所述图片描述样本信息对应的样本信息向量;将所述样本图片向量和所述样本信息向量作为所述第一神经网络模型的输入,对所述第一神经网络模型进行训练,得到所述第一视频生成模型。
可选地,所述生成模块还包括:第二训练子模块,被配置为通过第二训练集,对第二神经网络模型进行训练,得到所述第二视频生成模型;其中,所述第二训练集包括:多个样本语义图片向量,其中,所述样本语义图片向量是根据多个样本图片和多个所述样本图片的图片描述样本信息,通过所述第一视频生成模型得到。
可选地,所述拍摄信息包括多个所述目标图片的拍摄顺序,所述生成模块还包括:第二生成子模块,被配置为根据多个所述目标图片,按照所述拍摄顺序生成所述目标视频。
可选地,所述拍摄信息包括多个所述目标图片的拍摄时间,所述生成模块还包括:第三生成子模块,被配置为根据多个所述目标图片,按照所述拍摄时间的先后顺序生成所述目标视频。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所述方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:通过终端获取多个目标图片,获取与多个所述目标图片对应的图片关联信息,并根据多个所述目标图片和所述图片关联信息,生成所述目标图片对应的目标视频。也就是说,本公开可以根据多个目标图片和该多个目标图片对应的图片关联信息,生成该目标图片对应的目标视频,这样,生成该目标视频的相邻目标图片之间是相互关联的,可以避免该目标视频中的物体出现忽大忽小、忽远忽近的问题,从而可以提高该目标视频的连贯性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种生成视频的方法的流程图;
图2是根据一示例性实施例示出的一种生成视频的模型示意图;
图3是根据一示例性实施例示出的一种生成视频的装置的结构示意图;
图4是根据一示例性实施例示出的另一种生成视频的装置的结构示意图;
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
首先,对本公开的应用场景进行介绍。随着多媒体技术的不断进步,视频的应用越来越广泛,相比于视频,传统的图片传播不足以吸引用户的眼球,但是相比于图片资源,视频资源比较匮乏。相关技术中,可以通过人工合成视频的方式,将多个图片拼接为视频,但是,针对比较相似的图片,人眼可能无法辨别其中的差异,导致合成视频时将部分图片的位置排列错误,从而使得该视频中的物体可能出现存在忽大忽小、忽远忽近等问题,导致视频的连贯性较差。例如,若该多个图片包括一个足球从距离拍摄位置50米的初始位置移动至距离拍摄位置2米的目标位置的20张图片,则根据该20张图片可以合成一个足球从远到近移动的视频,若在人工合成视频时将其中两张图片的位置排列错误,则会出现足球忽大忽小的情况,导致视频的连贯性较差。
为了解决上述问题,本公开提供一种生成视频的方法、装置、存储介质及电子设备,可以根据多个目标图片和该多个目标图片对应的图片关联信息,生成该目标图片对应的目标视频,这样,生成该目标视频的相邻目标图片之间是相互关联的,可以避免该目标视频中的物体出现忽大忽小、忽远忽近的问题,从而可以提高该目标视频的连贯性。
下面结合具体实施例对本公开进行说明。
图1是根据一示例性实施例示出的一种生成视频的方法的流程图,如图1所示,该方法包括以下步骤:
在步骤S101中,通过终端获取多个目标图片。
其中,该终端可以是手机、平板电脑、可穿戴设备,也可以是照相机等其它拍摄设备,本公开对此不作限定。本公开的生成视频的方法可以应用于终端,也可以应用于服务器等其它设备,本公开对此不作限定。
在该生成视频的方法应用于终端的情况下,可以通过安装在该终端的摄像头拍摄该多个目标图片,在该生成视频的方法应用于服务器的情况下,可以在该终端通过摄像头拍摄该多个目标图片后,接收该终端发送的多个目标图片。
在步骤S102中,获取与多个目标图片对应的图片关联信息。
其中,该图片关联信息可以包括该目标图片的拍摄信息和/或图片描述信息,该拍摄信息可以是该多个目标图片的拍摄顺序,也可以是该多个目标图片的拍摄时间,该图片描述信息用于描述该多个目标图片的语义信息,比如多个目标图片对应的场景或内容信息等,并不限于此,示例地,该图片描述信息可以是该多个目标图片中物体的移动轨迹,例如,该图片描述信息为“足球从远处移动到近处”,也可以是该多个目标图片对应的环境变化信息,例如,该图片描述信息为“太阳落山的过程”,还可以是该多个目标图片所表征的故事情节,例如,该图片描述信息为“两支球队在足球场上比赛,红队的9号球员进球后,10号球员和3号球员先后拥抱他”,本公开对该图片描述信息的内容不作限定。
在本步骤中,在该生成视频的方法应用于终端的情况下,该终端可以直接获取用户输入的该图片关联信息,在该生成视频的方法应用于服务器的情况下,可以在该终端获取用户输入的该图片关联信息后,接收该终端发送的该图片关联信息。
在步骤S103中,根据多个目标图片和该图片关联信息,生成该目标图片对应的目标视频。
在获取该多个目标图片对应的图片关联信息后,可以根据该图片关联信息确定该多个目标图片的先后顺序,并按照该先后顺序生成该目标视频。
这样,生成该目标视频的相邻目标图片之间是相互关联的,可以避免该目标视频中的物体出现忽大忽小、忽远忽近的问题,从而可以提高该目标视频的连贯性。
在本公开一实施例中,在该图片关联信息包括该目标图片的拍摄信息,且该拍摄信息包括该多个目标图片的拍摄顺序的情况下,上述步骤S103可以通过以下方式实现:
可以根据该多个目标图片,按照该拍摄顺序生成该目标视频。示例地,可以按照该拍摄顺序从前往后依次排列该多个目标图片,并按照该多个目标图片的排列顺序生成该目标视频。例如,若该多个目标图片包括目标图片A、目标图片B、目标图片C、目标图片D以及目标图片E,该5个目标图片从前往后的拍摄顺序为目标图片B、目标图片D、目标图片C、目标图片E以及目标图片A,则可以按照该拍摄顺序依次加载目标图片B、目标图片D、目标图片C、目标图片E以及目标图片A,生成该5个目标图片对应的目标视频。
在本公开另一实施例中,在该图片关联信息包括该目标图片的拍摄信息,且该拍摄信息包括该多个目标图片的拍摄时间的情况下,上述步骤S103还可以通过以下方式实现:
可以根据该多个目标图片,按照该拍摄时间的先后顺序生成该目标视频。示例地,可以按照该拍摄时间从早到晚的顺序排列该多个目标图片,并按照该多个目标图片的排列顺序生成该目标视频。例如,若该多个目标图片包括目标图片A、目标图片B、目标图片C、目标图片D以及目标图片E,该5个目标图片的拍摄时间分别是2000年8月1日12点5分1秒、2000年8月1日12点5分4秒、2000年8月1日12点5分2秒、2000年8月1日12点5分7秒以及2000年8月1日12点5分5秒,则可以按照该5个目标图片的拍摄时间从早到晚的顺序排列该5个目标图片,排列后的顺序为目标图片A、目标图片C、目标图片B、目标图片E、目标图片D,之后,可以按照该5个目标图片的排列顺序依次加载该5个目标图片,生成该5个目标图片对应的目标视频。
需要说明的是,上述拍摄顺序和拍摄时间可以添加在该目标图片的属性信息中,也可以添加在配置文件中,本公开对此不作限定。
在本公开又一实施例中,在该图片关联信息包括该多个目标图片的图片描述信息的情况下,上述步骤S103还可以通过以下方式实现:
可以根据多个目标图片和该图片描述信息,通过预先训练的视频生成模型得到该目标图片对应的目标视频。
在一种可能的实现方式中,该视频生成模型可以包括第一视频生成模型和第二视频生成模型,在获取该多个目标图片和该目标图片的图片描述信息后,可以将该多个目标图片和该图片描述信息,作为该第一视频生成模型的输入,得到语义图片向量,并将该语义图片向量作为该第二视频生成模型的输入,得到该目标视频,该第一视频生成模型用于将多个目标图片对应的图片向量和该图片描述信息对应的信息向量相结合。
其中,可以通过以下两种方式获取该语义图片向量:
方式一:在该第一视频生成模型包括第一编码器和第二编码器的情况下,在获取该多个目标图片和该目标图片的图片描述信息后,可以将该多个目标图片作为该第一视频生成模型中的第一编码器的输入,得到图片向量,将该图片描述信息作为该第一视频生成模型中的第二编码器的输入,得到信息向量,之后,可以根据该图片向量和该信息向量,通过该第一视频生成模型该得到语义图片向量。该第一编码器和该第二编码器可以是相关技术的编码器,这里,也可以通过一个编码器获取多个目标图片对应的图片向量,以及该图片描述信息对应的信息向量,本公开对该编码器的数量不作限定。
方式二:在该第一视频生成模型不包括该第一编码器和该第二编码器的情况下,在获取该多个目标图片和该目标图片的图片描述信息后,可以先将该多个目标图片作为该第一编码器的输入,得到图片向量,将该图片描述信息作为该第二编码器的输入,得到信息向量,之后,再将该图片向量和该信息向量作为该第一视频生成模型的输入,得到该语义图片向量。
其中,可以通过第一训练集,对第一神经网络模型进行训练,得到该第一视频生成模型;其中,该第一训练集包括:多个第一样本组合,其中,每个第一样本组合包括:多个样本图片和多个样本图片的图片描述样本信息。在一种可能的实现方式中,该第一视频生成模型可以通过以下步骤训练得到:
S1、针对第一训练集中的每个第一样本组合,获取多个样本图片对应的样本图片向量和图片描述样本信息对应的样本信息向量。
其中,可以先获取多个样本图片和多个该样本图片的图片描述样本信息。该多个样本图片可以包括多组,每组样本图片对应不同的图片描述样本信息。在一种可能的实现方式中,可以将获取的多个相互关联的样本图片分为多组,示例地,可以按照拍摄顺序将获取的50个图片分为5组,例如,将第1个至10个图片作为第一组,将第11个至20个图片作为第二组,将第21个至30个图片作为第三组,将第31个至40个图片作为第四组,将第41个至50个图片作为第五组,在将该多个样本图片分为多组后,可以针对该多组样本图片设置一个通用图片描述样本信息,该通用图片描述样本信息包含所有样本图片的信息,例如,该通用图片描述样本信息可以是“两支球队在足球场上比赛,红队的9号球员进球后,10号球员和3号球员先后拥抱他”,也可以针对每组样本图片设置不同的图片描述样本信息,例如,若该样本图片分为5组,则第一组样本图片的图片描述样本信息可以是“两支球队在足球场上比赛”,第二组样本图片和第三组样本图片的图片描述样本信息可以是“红队的9号球员进球”,第四组样本图片的图片描述样本信息可以是“10号球员拥抱9号球员”,第五组样本图片的图片描述样本信息可以是“3号球员拥抱9号球员”。在另一种可能的实现方式中,可以获取多组不同场景的样本图片,以及每组样本图片的图片描述样本信息。
在获取该多个样本图片和该图片描述样本信息后,可以获取该多个样本图片对应的样本图片向量和该图片描述样本信息对应的样本信息向量。其中,获取该多个样本图片对应的样本图片向量和该图片描述样本信息对应的样本信息向量的方式,可以参考上述获取多个目标图片对应的图片向量和图片描述信息对应的信息向量的方式,此处不再赘述了。
S2、将该样本图片向量和该样本信息向量作为该第一神经网络模型的输入,对该第一神经网络模型进行训练,得到该第一视频生成模型。
其中,该第一视频生成模型用于将该多个目标图片对应的图片向量和该图片描述信息对应的信息向量相结合。该第一神经网络模型可以是LSTM(Long Short-Term Memory,长短期记忆)模型,也可以是其它相关技术的模型,本公开对此不作限定。
在获取该多个样本图片对应的样本图片向量和该图片描述样本信息对应的样本信息向量后,可以通过该样本图片向量和该样本信息向量,对该第一神经网络模型进行训练,得到该第一视频生成模型。这里,可以通过相关技术的方式训练该第一视频生成模型,本公开不再赘述了。
需要说明的是,在该多个样本图片包括多组的情况下,可以获取每组样本图片对应的样本图片向量和每组图片描述样本信息对应的样本信息向量,将该样本图片向量和该样本信息向量作为模型训练的多组样本进行训练,得到该第一视频生成模型。
在获取该多个目标图片和该多个目标图片对应的图片描述信息后,可以获取预先训练的第一视频生成模型,将该多个目标图片和该图片描述信息作为该第一视频生成模型的输入,得到该语义图片向量。
在获取该语义图片向量后,可以将该语义图片向量作为该第二视频生成模型的输入,得到该目标视频。其中,通过第二训练集,对第二神经网络模型进行训练,得到该第二视频生成模型;其中,该第二训练集包括:多个样本语义图片向量,其中,该样本语义图片向量是根据多个样本图片和多个样本图片的图片描述样本信息,通过该第一视频生成模型得到。
在一种可能的实现方式中,该第二视频生成模型可以通过以下步骤训练得到:
S1、获取多个样本图片和该多个样本图片的图片描述样本信息。
其中,该多个样本图片和该多个样本图片的图片描述样本信息的获取方式,可以参考上述第一视频生成模型的训练方式中的步骤,此处不再赘述了。
S2、将该多个样本图片和该图片描述样本信息作为该第一视频生成模型的输入,得到样本语义图片向量。
在获取该多个样本图片和该图片描述样本信息后,可以将该多个样本图片和该图片描述样本信息作为该第一视频生成模型的输入,得到样本语义图片向量。在该多个样本图片包括多组的情况下,可以得到多个样本语义图片向量。
S3、通过该样本语义图片向量,对第二神经网络模型进行训练,得到该第二视频生成模型。
其中,该第二神经网络模型可以是GAN(Generative Adversarial Networks,生成式对抗网络)模型,也可以是相关技术的其它模型,本公开对此不作限定。
在得到该多个样本语义图片向量后,可以获取每个样本语义向量对应的测试视频,这里,可以按照每个样本语义图片向量对应的样本图片的拍摄顺序或拍摄时间,通过人工方式合成该样本语义图片向量对应的测试视频。示例地,若该样本语义图片向量为50个,则可以获取该50个样本语义图片向量对应的测试视频,即第一测试视频、第二测试视频、第三测试视频,以此类推,直到第五十测试视频。
在获取该多个样本语义图片向量对应的测试视频后,可以将该多个样本语义图片向量依次输入该第二视频生成模型,得到该多个样本语义图片向量对应的训练视频,获取该训练视频与该测试视频之间的相似度,并在该相似度小于相似度阈值的情况下,根据该相似度优化该第二视频生成模型。其中,该相似度阈值可以根据对该第二视频生成模型的准确率的需求确定,示例地,对该第二视频生成模型的准确率要求越高,该相似度阈值可以设置的越大,例如95%,对该第二视频生成模型的准确率要求越低,该相似度阈值可以设置的越小,例如80%。
示例地,在获取该多个样本语义图片向量对应的测试视频后,可以将第一样本语义图片向量输入该第二视频生成模型,得到该第一样本语义图片向量对应的第一训练视频,获取该第一训练视频与该第一测试视频之间的相似度,在该相似度小于该相似度阈值的情况下,根据该相似度优化该第二视频生成模型。之后,可以将第二样本语义图片向量输入优化后的第二视频生成模型,得到该第二样本语义图片向量对应的第二训练视频,获取该第二训练视频与该第二测试视频之间的相似度,在该相似度小于该相似度阈值的情况下,继续根据该相似度优化该第二视频生成模型,以此类推,按照上述方式继续优化该第二视频生成模型,直到获取的训练视频与测试视频之间的相似度大于或者等于该相似度阈值时,完成该第二视频生成模型的训练。
需要说明的是,本公开可以在该第一视频生成模型训练完成之后,再训练该第二视频生成模型,也可以同时训练该第一视频生成模型和该第二视频生成模型,本公开对此不作限定。
在根据该多个目标图片和该图片描述信息得到语义图片向量后,可以获取预先训练的该第二视频生成模型,将该语义图片向量输入该第二视频生成模型,得到该目标图片对应的目标视频。
下面以该第一视频模型为LSTM模型,该第二视频模型为GAN模型,对本公开进行说明。图2是根据一示例性实施例示出的一种生成视频的模型示意图,如图2所示,该生成视频的模型包括第一编码器、第二编码器、LSTM模型以及GAN模型,该GAN模型包括生成器和辨别器。
其中,该LSTM模型的训练方式可以参考上述第一视频生成模型的训练方式,此处不再赘述了。该GAN模型可以通过以下方式训练得到:
S1、获取多个样本图片和该多个样本图片的图片描述样本信息。
其中,该多个样本图片和该多个样本图片的图片描述样本信息的获取方式,可以参考上述第一视频生成模型的训练方式中的步骤,此处不再赘述了。
S2、将该多个样本图片和该图片描述样本信息作为该第一视频生成模型的输入,得到样本语义图片向量。
S3、将该样本语义图片向量输入该GAN模型的生成器,得到该样本语义图片向量对应的训练视频。
S4、获取该多个样本图片对应的测试视频。
其中,可以按照该多个样本图片的拍摄顺序或拍摄时间,通过人工方式合成该多个样本图片对应的测试视频。示例地,若该多个样本图片包括50组,则可以获取该50组样本图片对应的测试视频,即第一测试视频、第二测试视频、第三测试视频,以此类推,直到第五十测试视频。
S5、将该训练视频和该测试视频输入该GAN模型的辨别器,得到该训练视频与该测试视频之间的相似度。
其中,该辨别器可以获取整个视频之间的总相似度,还可以获取该训练视频与该测试视频的每一帧之间的相似度,示例地,可以获取该训练视频的第一帧与该测试视频的第一帧之间的帧相似度,获取该训练视频的第二帧与该测试视频的第二帧之间的帧相似度,以此类推,获取该训练视频的最后一帧与该测试视频的最后一帧之间的帧相似度。
S6、根据该相似度优化该生成器和该辨别器。
其中,在该相似度包括该总相似度和该帧相似度的情况下,可以根据该总相似度和该帧相似度优化该生成器和该辨别器。示例地,可以获取该总相似度和该帧相似度的加权和,根据该加权和优化该生成器和该辨别器,该加权和可以是50%的总相似度与50%的帧相似度之和,本公开对此不作限定。之后,可以通过相关技术的方式,根据该相似度优化该生成器和该辨别器,本公开不再赘述了。
在获取该多个目标图片和该多个目标图片对应的图片描述信息后,可以将该多个目标图片输入该第一编码器,将该图片描述信息输入该第二编码器,该第一编码器将该目标图片转换为图片向量后,将该图片向量输入该LSTM模型,该第二编码器将该图片描述信息转换为信息向量后,将该信息向量输入该LSTM模型,该LSTM模型将该图片向量和该信息向量结合后,输出语义图片向量,并将该语义图片向量作为该GAN模型的输入,之后,通过该GAN模型的生成器输出该目标图片对应的目标视频。
在另一种可能的实现方式中,可以将该多个目标图片和该图片描述信息输入该视频生成模型,得到该目标图片对应的目标视频,这样,可以通过一个模型直接得到该目标图片对应的目标视频,从而节约计算资源。
需要说明的是,该视频生成模型可以通过以下步骤训练得到:
S1、获取多个样本图片和该多个样本图片的图片描述样本信息。
其中,该多个样本图片可以包括多组,每组样本图片对应不同的图片描述样本信息。在一种可能的实现方式中,可以将获取的多个相互关联的样本图片分为多组,示例地,可以按照拍摄顺序将获取的50个图片分为5组,例如,将第1个至10个图片作为第一组,将第11个至20个图片作为第二组,将第21个至30个图片作为第三组,将第31个至40个图片作为第四组,将第41个至50个图片作为第五组,在将该多个样本图片分为多组后,可以针对该多组样本图片设置一个通用图片描述样本信息,该通用图片描述样本信息包含所有样本图片的信息,例如,该通用图片描述样本信息可以是“两支球队在足球场上比赛,红队的9号球员进球后,10号球员和3号球员先后拥抱他”,也可以针对每组样本图片设置不同的图片描述样本信息,例如,若该样本图片分为5组,则第一组样本图片的图片描述样本信息可以是“两支球队在足球场上比赛”,第二组样本图片和第三组样本图片的图片描述样本信息可以是“红队的9号球员进球”,第四组样本图片的图片描述样本信息可以是“10号球员拥抱9号球员”,第五组样本图片的图片描述样本信息可以是“3号球员拥抱9号球员”。在另一种可能的实现方式中,可以获取多组不同场景的样本图片,以及每组样本图片的图片描述样本信息。
S2、通过该多个样本图片和该图片描述样本信息,对神经网络模型进行训练,得到该视频生成模型。
在获取该多个样本图片和该图片描述样本信息后,可以获取每组样本图片对应的测试视频,这里,可以按照每组样本图片中样本图片的拍摄顺序或拍摄时间,通过人工方式合成该每组样本图片对应的测试视频,即得到第一组样本图片对应的第一测试视频、第二组样本图片对应的第二测试视频,以此类推,直到获取最后一组样本图片对应的测试视频。在该样本图片的拍摄顺序或拍摄时间准确的情况下,通过人工方式获取的每组样本图片对应的测试视频的准确率也比较高。
在获取每一组样本图片对应的测试视频后,可以将第一组样本图片和该组样本图片的图片描述样本信息输入该视频生成模型,得到该第一组样本图片对应的第一训练视频,之后,将该第一训练视频与该第一组样本图片对应的第一测试视频进行对比,得到该第一训练视频与该第一测试视频之间的相似度,并根据该相似度优化该视频生成模型。进一步地,可以继续将第二组样本图片和该组样本图片的图片描述样本信息输入优化后的视频生成模型,得到该第二组样本图片对应的第二训练视频,之后,将该第二训练视频与该第二组样本图片对应的第二测试视频进行对比,得到该第二训练视频与该第二测试视频之间的相似度,并根据该相似度继续优化该视频生成模型,以此类推,按照上述方式优化该视频生成模型,直到训练视频与测试视频之间的相似度大于或者等于相似度阈值,完成该视频生成模型的训练。
在获取该多个目标图片和该图片描述信息后,可以获取预先训练的该视频生成模型,将该多个目标图片和该图片描述信息输入该视频生成模型,通过该视频生成模型得到该目标图片对应的目标视频。
采用上述方法,可以根据该多个目标图片和该多个目标图片对应的图片描述信息,通过该第一视频生成模型和该第二视频生成模型,得到该目标图片对应的目标视频。也就是说,可以通过该第一视频生成模型将该图片描述信息与该多个目标图片相结合,得到语义图片向量,该语义图片向量既包括该目标图片对应的特征,也包括该图片描述信息对应的特征,从而使得根据该语义图片向量通过该第二视频生成模型得到的目标视频的连贯性更好,可以避免该目标视频中的物体出现忽大忽小、忽远忽近的问题,并且无需人工参与,可以通过该第一视频生成模型和该第二视频生成模型自动生成该目标视频,降低了人工成本。
图3是根据一示例性实施例示出的一种生成视频的装置的结构示意图。如图3所示,该装置包括图片获取模块301,信息获取模块302和生成模块303。
该图片获取模块301,被配置为通过终端获取多个目标图片;
该信息获取模块302,被配置为获取与多个该目标图片对应的图片关联信息,该图片关联信息包括该目标图片的拍摄信息和/或图片描述信息,该图片描述信息用于描述多个该目标图片的语义信息;
该生成模块303,被配置为根据多个该目标图片和该图片关联信息,生成该目标图片对应的目标视频。
可选地,该生成模块303包括:
第一生成子模块,被配置为根据多个该目标图片和该图片描述信息,通过预先训练的视频生成模型得到该目标图片对应的目标视频。
可选地,该视频生成模型包括第一视频生成模型和第二视频生成模型,该第一生成子模块,被配置为:
将多个该目标图片和该图片描述信息,作为该第一视频生成模型的输入,得到语义图片向量,该第一视频生成模型用于将多个该目标图片对应的图片向量和该图片描述信息对应的信息向量相结合;
将该语义图片向量作为该第二视频生成模型的输入,得到该目标视频。
可选地,图4是根据一示例性实施例示出的另一种生成视频的装置的结构示意图。如图4所示,该装置还包括:
图片向量生成模块304,被配置为将该多个目标图片作为第一编码器的输入,得到图片向量;
信息向量生成模块305,被配置为将该图片描述信息作为第二编码器的输入,得到信息向量;
该第一生成子模块,还被配置为:
将该图片向量和该信息向量作为该第一视频生成模型的输入,得到该语义图片向量。
可选地,该生成模块303还包括:
第一训练子模块,被配置为通过第一训练集,对第一神经网络模型进行训练,得到该第一视频生成模型;其中,该第一训练集包括:多个第一样本组合,其中,每个该第一样本组合包括:多个样本图片和多个样本图片的图片描述样本信息。
可选地,该第一训练子模块,被配置为:
针对该第一训练集中的每个第一样本组合,获取多个样本图片对应的样本图片向量和该图片描述样本信息对应的样本信息向量;
将该样本图片向量和该样本信息向量作为该第一神经网络模型的输入,对该第一神经网络模型进行训练,得到该第一视频生成模型。
可选地,该生成模块303还包括:
第二训练子模块,被配置为通过第二训练集,对第二神经网络模型进行训练,得到该第二视频生成模型;其中,该第二训练集包括:多个样本语义图片向量,其中,该样本语义图片向量是根据多个样本图片和多个样本图片的图片描述样本信息,通过该第一视频生成模型得到。
可选地,该拍摄信息包括多个该目标图片的拍摄顺序,该生成模块303还包括:
第二生成子模块,被配置为根据多个该目标图片,按照该拍摄顺序生成该目标视频。
可选地,该拍摄信息包括多个该目标图片的拍摄时间,该生成模块303还包括:
第三生成子模块,被配置为根据多个该目标图片,按照该拍摄时间的先后顺序生成该目标视频。
通过上述装置,可以根据多个目标图片和该多个目标图片对应的图片关联信息,生成该目标图片对应的目标视频,这样,生成该目标视频的相邻目标图片之间是相互关联的,可以避免该目标视频中的物体出现忽大忽小、忽远忽近的问题,从而可以提高该目标视频的连贯性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示,该电子设备500可以包括:处理器501,存储器502。该电子设备500还可以包括多媒体组件503,输入/输出(I/O)接口504,以及通信组件505中的一者或多者。
其中,处理器501用于控制该电子设备500的整体操作,以完成上述的生成视频的方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的生成视频的方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的生成视频的方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的生成视频的方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的生成视频的方法的代码部分。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (12)

1.一种生成视频的方法,其特征在于,所述方法包括:
通过终端获取多个目标图片;
获取与多个所述目标图片对应的图片关联信息,所述图片关联信息包括所述目标图片的拍摄信息和/或图片描述信息,所述图片描述信息用于描述多个所述目标图片的语义信息;
根据多个所述目标图片和所述图片关联信息,生成所述目标图片对应的目标视频。
2.根据权利要求1所述的方法,其特征在于,所述根据多个所述目标图片和所述图片关联信息,生成所述目标图片对应的目标视频包括:
根据多个所述目标图片和所述图片描述信息,通过预先训练的视频生成模型得到所述目标图片对应的目标视频。
3.根据权利要求2所述的方法,其特征在于,所述视频生成模型包括第一视频生成模型和第二视频生成模型,所述根据多个所述目标图片和所述图片描述信息,通过预先训练的视频生成模型得到所述目标图片对应的目标视频包括:
将多个所述目标图片和所述图片描述信息,作为所述第一视频生成模型的输入,得到语义图片向量,所述第一视频生成模型用于将多个所述目标图片对应的图片向量和所述图片描述信息对应的信息向量相结合;
将所述语义图片向量作为所述第二视频生成模型的输入,得到所述目标视频。
4.根据权利要求3所述的方法,其特征在于,在所述将多个所述目标图片和所述图片描述信息,作为所述第一视频生成模型的输入,得到语义图片向量前,所述方法还包括:
将多个所述目标图片作为第一编码器的输入,得到图片向量;
将所述图片描述信息作为第二编码器的输入,得到信息向量;
所述将多个所述目标图片和所述图片描述信息,作为所述第一视频生成模型的输入,得到语义图片向量包括:
将所述图片向量和所述信息向量作为所述第一视频生成模型的输入,得到所述语义图片向量。
5.根据权利要求3所述的方法,其特征在于,所述第一视频生成模型通过以下方式训练得到:
通过第一训练集,对第一神经网络模型进行训练,得到所述第一视频生成模型;其中,所述第一训练集包括:多个第一样本组合,其中,每个所述第一样本组合包括:多个样本图片和多个所述样本图片的图片描述样本信息。
6.根据权利要求5所述的方法,其特征在于,所述通过第一训练集,对第一神经网络模型进行训练,得到所述第一视频生成模型包括:
针对所述第一训练集中的每个所述第一样本组合,获取多个所述样本图片对应的样本图片向量和所述图片描述样本信息对应的样本信息向量;
将所述样本图片向量和所述样本信息向量作为所述第一神经网络模型的输入,对所述第一神经网络模型进行训练,得到所述第一视频生成模型。
7.根据权利要求3所述的方法,其特征在于,所述第二视频生成模型通过以下方式训练得到:
通过第二训练集,对第二神经网络模型进行训练,得到所述第二视频生成模型;其中,所述第二训练集包括:多个样本语义图片向量,其中,所述样本语义图片向量是根据多个样本图片和多个所述样本图片的图片描述样本信息,通过所述第一视频生成模型得到。
8.根据权利要求1所述的方法,其特征在于,所述拍摄信息包括多个所述目标图片的拍摄顺序,所述根据多个所述目标图片和所述图片关联信息,生成所述目标图片对应的目标视频包括:
根据多个所述目标图片,按照所述拍摄顺序生成所述目标视频。
9.根据权利要求1所述的方法,其特征在于,所述拍摄信息包括多个所述目标图片的拍摄时间,所述根据多个所述目标图片和所述图片关联信息,生成所述目标图片对应的目标视频包括:
根据多个所述目标图片,按照所述拍摄时间的先后顺序生成所述目标视频。
10.一种生成视频的装置,其特征在于,所述装置包括:
图片获取模块,被配置为通过终端获取多个目标图片;
信息获取模块,被配置为获取与多个所述目标图片对应的图片关联信息,所述图片关联信息包括所述目标图片的拍摄信息和/或图片描述信息,所述图片描述信息用于描述多个所述目标图片的语义信息;
生成模块,被配置为根据多个所述目标图片和所述图片关联信息,生成所述目标图片对应的目标视频。
11.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-9中任一项所述方法的步骤。
12.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-9中任一项所述方法的步骤。
CN202010899561.5A 2020-08-31 2020-08-31 生成视频的方法、装置、存储介质及电子设备 Active CN112165582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010899561.5A CN112165582B (zh) 2020-08-31 2020-08-31 生成视频的方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010899561.5A CN112165582B (zh) 2020-08-31 2020-08-31 生成视频的方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN112165582A true CN112165582A (zh) 2021-01-01
CN112165582B CN112165582B (zh) 2023-02-21

Family

ID=73857438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010899561.5A Active CN112165582B (zh) 2020-08-31 2020-08-31 生成视频的方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112165582B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100131571A1 (en) * 2008-11-25 2010-05-27 Reuveni Yoseph Method application and system for characterizing multimedia content
CN105095490A (zh) * 2015-08-18 2015-11-25 北京奇虎科技有限公司 目标图片搜索方法、终端及系统
CN105893412A (zh) * 2015-11-24 2016-08-24 乐视致新电子科技(天津)有限公司 图像分享方法及装置
CN109360436A (zh) * 2018-11-02 2019-02-19 Oppo广东移动通信有限公司 一种视频生成方法、终端及存储介质
CN109618222A (zh) * 2018-12-27 2019-04-12 北京字节跳动网络技术有限公司 一种拼接视频生成方法、装置、终端设备及存储介质
CN109658369A (zh) * 2018-11-22 2019-04-19 中国科学院计算技术研究所 视频智能生成方法及装置
CN111415399A (zh) * 2020-03-19 2020-07-14 北京奇艺世纪科技有限公司 图像处理方法、装置、电子设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100131571A1 (en) * 2008-11-25 2010-05-27 Reuveni Yoseph Method application and system for characterizing multimedia content
CN105095490A (zh) * 2015-08-18 2015-11-25 北京奇虎科技有限公司 目标图片搜索方法、终端及系统
CN105893412A (zh) * 2015-11-24 2016-08-24 乐视致新电子科技(天津)有限公司 图像分享方法及装置
CN109360436A (zh) * 2018-11-02 2019-02-19 Oppo广东移动通信有限公司 一种视频生成方法、终端及存储介质
CN109658369A (zh) * 2018-11-22 2019-04-19 中国科学院计算技术研究所 视频智能生成方法及装置
CN109618222A (zh) * 2018-12-27 2019-04-12 北京字节跳动网络技术有限公司 一种拼接视频生成方法、装置、终端设备及存储介质
CN111415399A (zh) * 2020-03-19 2020-07-14 北京奇艺世纪科技有限公司 图像处理方法、装置、电子设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于海涛等: "基于多模态输入的对抗式视频生成方法", 《计算机研究与发展》 *

Also Published As

Publication number Publication date
CN112165582B (zh) 2023-02-21

Similar Documents

Publication Publication Date Title
CN108830235B (zh) 用于生成信息的方法和装置
CN107911644B (zh) 基于虚拟人脸表情进行视频通话的方法及装置
US11670015B2 (en) Method and apparatus for generating video
JP2022523606A (ja) 動画解析のためのゲーティングモデル
CN109829432B (zh) 用于生成信息的方法和装置
US10674183B2 (en) System and method for perspective switching during video access
CN110162667A (zh) 视频生成方法、装置及存储介质
CN111080759A (zh) 一种分镜效果的实现方法、装置及相关产品
US20150319402A1 (en) Providing video recording support in a co-operative group
CN113299312A (zh) 一种图像生成方法、装置、设备以及存储介质
CN113962965A (zh) 图像质量评价方法、装置、设备以及存储介质
CN108986117B (zh) 视频图像分割方法及装置
CN115119014B (zh) 视频处理方法、插帧数量模型的训练方法及装置
CN111314620B (zh) 拍摄方法和设备
CN113052025B (zh) 图像融合模型的训练方法、图像融合方法及电子设备
CN112165582B (zh) 生成视频的方法、装置、存储介质及电子设备
CN112784701A (zh) 一种视频语义分割方法、装置及存储介质
KR102067360B1 (ko) 실시간 그룹 스트리밍 콘텐츠 처리 방법 및 장치
KR20170127354A (ko) 페이셜 모션 캡쳐를 이용한 얼굴 변환 화상 대화 장치 및 방법
CN109327736B (zh) 一种基于节目观看表情与用户信息的节目推荐方法
CN114177621B (zh) 数据处理方法及装置
CN113240004B (zh) 视频信息确定方法、装置、电子设备以及存储介质
CN107943939A (zh) 图像数据推荐方法、装置及电子设备
CN110166825B (zh) 视频数据处理方法及装置、视频播放方法及装置
CN109711386B (zh) 获取识别模型的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant