CN111787395A - 视频生成方法、装置、电子设备及存储介质 - Google Patents

视频生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111787395A
CN111787395A CN202010463611.5A CN202010463611A CN111787395A CN 111787395 A CN111787395 A CN 111787395A CN 202010463611 A CN202010463611 A CN 202010463611A CN 111787395 A CN111787395 A CN 111787395A
Authority
CN
China
Prior art keywords
video
data
audio
materials
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010463611.5A
Other languages
English (en)
Other versions
CN111787395B (zh
Inventor
李银辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202010463611.5A priority Critical patent/CN111787395B/zh
Publication of CN111787395A publication Critical patent/CN111787395A/zh
Application granted granted Critical
Publication of CN111787395B publication Critical patent/CN111787395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本公开关于一种视频生成方法、装置、电子设备及存储介质。所述方法,包括:获取用于制作视频的原始数据,所述原始数据中包括至少一个详情页链接;根据所述原始数据,获取用于生成视频的素材,所述素材包括图片素材、视频素材中的至少一种;基于所述素材生成N个视频,N为正整数。用户只需要输入包括详情页链接在内的原始数据,即可以自动将基于原始数据获取的素材进而将素材拼接成新的视频,可以在很短的时间内,快速生产符合各类视频的素材,有效提高创意视频的生产效率和视觉效果;同时简化了创意视频的落地门槛、降低视频制作成本。

Description

视频生成方法、装置、电子设备及存储介质
技术领域
本公开涉及视频处理技术领域,尤其涉及一种视频生成方法、装置、电子设备及存储介质。
背景技术
近几年,随着移动终端的普及,越来越多的用户乐于在各类短视频平台上分享自己的视频作品。为了使用户制作视频更加快捷,生成视频时可以利用用户导入的多媒体素材,以智能化的形式合成视频。
相关技术中,在制作视频时,用户上传素材后,可以对素材进行一系列复杂的编辑操作,最终生成一个短视频作品。整个编辑流程包括:添加音乐、设置封面、手动配置音乐、等操作。而且,目前只支持从本地上传素材,需要用户提前准备好图片素材或视频素材,导入素材后才可智能生产微视频。导致用户准备图片素材或者视频素材的时间成本较大,而且由于视频素材元素丰富,创作门槛比较高,需要用户手动添加图片素材或视频素材,用户手动编辑的视频也无法保证质量,且手动操作步骤繁杂耗时,视频制作过程的时间成本也较高。
发明内容
本公开提供一种视频生成方法、装置、电子设备及存储介质,以至少解决相关技术中视频制作过程的手动操作步骤繁琐且时间成本较高的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种视频生成方法,包括:
获取用于制作视频的原始数据,所述原始数据中包括至少一个详情页链接;
根据所述原始数据,获取用于生成视频的素材,所述素材包括图片素材、视频素材中的至少一种;
基于所述素材生成N个视频,N为正整数。
可选地,在所述获取用于制作视频的原始数据的步骤之后,还包括:
根据所述原始数据,获取所述用于制作视频的补充数据,所述补充数据包括文本数据、音频数据、图像数据中的至少一种;
所述基于所述素材生成N个视频的步骤,包括:
基于所述素材和所述补充数据,生成N个视频。
可选地,所述根据所述原始数据,获取所述用于制作视频的补充数据的步骤,包括:
从基于所述原始数据获取的素材中抽取至少一个图片作为参考图片,获取包含所述参考图片在内的至少一个参考视频所配置的音频,作为参考音频;
从所述参考音频所属类别下的备选音频中获取至少一个备选音频,作为用于制作视频的音频数据。
可选地,所述根据所述原始数据,获取所述用于制作视频的补充数据的步骤,包括:
根据基于所述原始数据获取的素材,通过预先训练得到的音频推荐模型,获取与所述素材适配的音频数据,作为用于制作视频的音频数据;
其中,所述音频推荐模型由多个已配置音频的样本视频训练得到。
可选地,所述根据所述原始数据,获取所述用于制作视频的补充数据的步骤,包括:
根据所述详情页链接获取每个详情页;
针对每个所述详情页,通过对所述详情页进行文本识别,获取所述详情页中满足预设文本条件的文本,作为用于生成视频的文本数据;
其中,所述文本包括评价信息、描述信息中的至少一种。
可选地,所述基于所述素材和所述补充数据,生成N个视频的步骤,包括:
获取用以生成每个视频片段的素材和补充数据,并确定每个所述素材在所述视频片段中的排序,以及所述补充数据中的文本数据和图像数据与所述素材的对应关系;
针对每个所述视频片段,基于所述视频片段中包含的任意相邻两个素材的素材属性确定所述相邻两个素材之间的转场效果;
根据所述对应关系,在所述素材中展示所述文本数据和所述图像数据,并根据所述相邻两个素材之间的转场效果生成视频片段;
基于所述音频数据对所述视频片段进行配乐,生成所述视频。
可选地,所述确定每个所述素材在所述视频片段中的排序的步骤,包括:
针对每个所述视频片段,根据用以生成所述视频片段的每个素材中包含的内容,确定每个所述素材的所属类别;
根据每个所述素材的所属类别,将所述素材拆分为多个集合;其中,一个集合中包含一个类别下的全部素材,且各个集合对应的类别互不重合;
确定每个所述集合在所述视频片段中的排序。
可选地,所述根据所述原始数据,获取用于生成视频的素材的步骤,包括:
根据所述详情页链接获取每个详情页;
针对每个所述详情页,通过对所述详情页进行图像识别,获取所述详情页中满足预设素材条件的素材,作为用于生成视频的素材;其中,所述图像识别包括人脸识别、静物识别、场景识别、构图识别、视频镜头识别中的至少一种。
可选地,所述方法还包括:
展示针对生成的所述视频的预览界面;
根据通过所述预览界面接收到的针对任一所述视频的编辑指令,对所述视频执行与所述编辑指令对应的编辑操作;
其中,所述编辑操作包括字幕样式编辑操作、转场效果编辑操作、贴纸编辑操作中的至少一种。
根据本公开实施例的第二方面,提供一种视频装置,包括:
原始数据获取模块,被配置为执行获取用于制作视频的原始数据,所述原始数据中包括至少一个详情页链接;
素材获取模块,被配置为执行根据所述原始数据,获取用于生成视频的素材,所述素材包括图片素材、视频素材中的至少一种;
视频生成模块,被配置为执行基于所述素材生成N个视频,N为正整数。
可选地,所述装置还包括:
补充数据获取模块,用于根据所述原始数据,获取所述用于制作视频的补充数据,所述补充数据包括文本数据、音频数据、图像数据中的至少一种;
所述视频生成模块,具体被配置为执行:基于所述素材和所述补充数据,生成N个视频。
可选地,所述补充数据获取模块,包括:
参考音频获取子模块,被配置为执行从基于所述原始数据获取的素材中抽取至少一个图片作为参考图片,获取包含所述参考图片在内的至少一个参考视频所配置的音频,作为参考音频;
第一音频数据获取子模块,被配置为执行从所述参考音频所属类别下的备选音频中获取至少一个备选音频,作为用于制作视频的音频数据。
可选地,所述补充数据获取模块,包括:
第二音频数据获取子模块,被配置为执行根据基于所述原始数据获取的素材,通过预先训练得到的音频推荐模型,获取与所述素材适配的音频数据,作为用于制作视频的音频数据;
其中,所述音频推荐模型由多个已配置音频的样本视频训练得到。
可选地,所述补充数据获取模块,包括:
第一详情页获取子模块,被配置为执行根据所述详情页链接获取每个详情页;
文本数据获取子模块,被配置为执行针对每个所述详情页,通过对所述详情页进行文本识别,获取所述详情页中满足预设文本条件的文本,作为用于生成视频的文本数据;
其中,所述文本包括评价信息、描述信息中的至少一种。
可选地,所述视频生成模块,包括:
排序确定子模块,被配置为执行获取用以生成每个视频片段的素材和补充数据,并确定每个所述素材在所述视频片段中的排序,以及所述补充数据中的文本数据和图像数据与所述素材的对应关系;
转场效果确定子模块,被配置为执行针对每个所述视频片段,基于所述视频片段中包含的任意相邻两个素材的素材属性确定所述相邻两个素材之间的转场效果;
关键信息展示子模块,被配置为执行根据所述对应关系,在所述素材中展示所述文本数据和所述图像数据,并根据所述相邻两个素材之间的转场效果生成视频片段;
视频生成子模块,被配置为执行基于所述音频数据对所述视频片段进行配乐,生成所述视频。
可选地,所述排序确定子模块,包括:
素材分类单元,被配置为执行针对每个所述视频片段,根据用以生成所述视频片段的每个素材中包含的内容,确定每个所述素材的所属类别;
集合拆分单元,被配置为执行根据每个所述素材的所属类别,将所述素材拆分为多个集合;其中,一个集合中包含一个类别下的全部素材,且各个集合对应的类别互不重合;
排序确定单元,被配置为执行确定每个所述集合在所述视频片段中的排序。
可选地,所述素材获取模块,包括:
第二详情页获取子模块,被配置为执行根据所述详情页链接获取每个详情页;
素材获取子模块,被配置为执行针对每个所述详情页,通过对所述详情页进行图像识别,获取所述详情页中满足预设素材条件的素材,作为用于生成视频的素材;其中,所述图像识别包括人脸识别、静物识别、场景识别、构图识别、视频镜头识别中的至少一种。
可选地,所述装置还包括:
预览界面展示模块,被配置为执行展示针对生成的所述视频的预览界面;
视频编辑模块,被配置为执行根据通过所述预览界面接收到的针对任一所述视频的编辑指令,对所述视频执行与所述编辑指令对应的编辑操作;
其中,所述编辑操作包括字幕样式编辑操作、转场效果编辑操作、贴纸编辑操作中的至少一种。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面中任意一项所述的视频生成方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面中任意一项所述的视频生成方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面中任意一项所述的视频生成方法。
本公开的实施例提供的技术方案至少带来以下有益效果:在本申请实施例中,用户只需要输入包括详情页链接在内的原始数据,即可以自动将基于原始数据获取的素材进而将素材拼接成新的视频,可以在很短的时间内,快速生产符合各类视频的素材,有效提高创意视频的生产效率和视觉效果;同时简化了创意视频的落地门槛、降低视频制作成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种视频生成方法的流程图。
图2是根据一示例性实施例示出的另一种视频生成方法的流程图。
图3是根据一示例性实施例示出的一种视频生成装置的框图。
图4是根据一示例性实施例示出的另一种视频生成装置的框图。
图5是根据一示例性实施例示出的一种装置的框图。
图6是根据一示例性实施例示出的一种装置的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种视频生成方法的流程图,如图1所示,视频生成方法用于电脑、手机等电子设备中,包括以下步骤。
在步骤S11中,获取用于制作视频的原始数据,所述原始数据中包括至少一个详情页链接。
对传统视频设计和制作而言,用户和客户之间的沟通是一道鸿沟,客户很难清晰准确地向视频制作商/工具阐述自己的视频要求。如果用户自己制作视频,用户上传素材后,对素材进行一系列复杂的编辑操作,最终生成一个短视频作品。整个编辑流程包括:添加音乐、设置封面、手动配置音乐、等手动操作。而且由于需要从本地上传素材,因此需要用户提前准备好图片素材或视频素材,导入素材后才可智能生产视频。用户准备图片素材或者视频素材需要耗费时间成本以及个人经历。时间成本较高。对传统视频设计和制作,需要较长的周期沟通效果需求和视频剪辑。
在此场景下,为了解决用户的上述痛点,可以通过输入用以制作视频的详情页链接的方式即可快速生成多个新的视频,为只有详情页链接且没有制作视频能力的用户提供了一种高效的视频制作工具,降低客户操作门槛,提升创意质量。
因此,在本申请实施例中,可以获取用于制作视频的原始数据,其中原始数据中包括至少一个详情页链接。当然,在本申请实施例中,根据需求原始数据中也可以包括图片、视频等从本地上传的数据,以及其他任何可用数据,具体的可以根据需求进行自定义设置,对此本申请实施例不加以限定。其中的详情页链接可以理解为用于获取详情页的链接。详情页可以理解为包含某一对象的详情信息的页面,其中可以包括图片信息、视频信息中的一种或者多种,也可以包含文本信息、音频信息等内容。其中的对象则可以根据具体的应用场景进行设置,例如待售商品详情页、新闻详情页,等等。
在步骤S12中,根据所述原始数据,获取用于生成视频的素材,所述素材包括图片素材、视频素材中的至少一种。
在获取得到用于生成视频的原始数据之后,则可以进一步基于原始数据,获取用于生成视频的素材。例如,对于原始数据中包含的图片、视频等,则可以直接获取相应的图片、视频;而假设原始数据中包括图片和/或视频的获取链接,那么则可以根据获取链接,获取相应的图片和/或视频;而对于原始数据中包含的详情页链接,则可以根据详情页链接获取相应的详情页,进而从详情页中抽取所需素材。而且,在详情页中包含多个可选素材的情况下,可以选择其中一个或多个素材作为生成视频的素材。
另外,在本申请实施例中,为了方便用户查看用以生成视频的素材内容,在提取素材之后,还可以展示当前提取得到的素材。而且为了提高用户对素材的满意度,用户也可以继续添加素材,或者是对现有素材进行删减,对此本申请实施例不加以限定。在确定用于生成视频的素材之后,则可以触发生成视频。
其次,在本发明实施例中,为了提高所生成视频的时间效果,在后续生成视频之前,还可以确定用以生成视频的转场效果,也即视频中各个相邻素材之间的转场效果。
转场效果是指两个场景(即两段素材)之间,采用一定的技巧如划像、叠变、卷页等,实现场景或情节之间的平滑过渡,或达到丰富画面吸引观众的效果。在本申请实施例中,各个素材在视频中同样需要过渡,那么任意两个前后相邻的素材之间的转场效果可以完全相同,也可以有所不同,而且任意两个前后相邻的素材之间的转场效果可以根据需求进行自定义设置,对此本申请实施例不加以限定。
例如,针对用以生成视频的任意相邻的两个素材而言,其之间的转场效果可以根据前后两个素材的类别进行设置。具体地,根据任意相邻的两个素材的类别,可以划分为由图片切换至图片,由图片切换至视频、由视频切换至图片、由视频切换至视频的四种素材切换场景,那么此时则可以针对上述四种四种素材切换场景分别设置对应的可用转场效果集合,那么则可以每次从前后两个素材的类别,从对应的可用转场效果集合中随机选择适用的转场效果。
在步骤S13中,基于所述素材生成N个视频,N为正整数。
在获取用以生成视频的素材之后,则可以基于所述素材生成N个视频,N为正整数。其中N的具体取值可以根据需求进行自定义设置,对此本申请实施例不加以限定。而且N也可以在步骤S12之前确定,那么则可以相应地根据N的取值获取每个视频对应的素材,当然N也可以在生成视频之前预先设置,或者是完全根据步骤S120获取得到的素材确定N的取值,对此本申请实施例不加以限定。
例如,假设设置N的取值为3,那么则需要生成三个视频,且各个视频之间不完全一致,也即各个视频并不完全相同。从而可以给用户提供不同的视频以供用户从中选择更能满足其需求的视频以进行后续应用。另外,在生成视频之后,还可以展示相应各个视频,以供用户浏览。假设用户对当前已生成的各个视频不满意,还可以通过重复执行上述步骤,以再次生成视频。
参照图2,在本申请实施例中,所述方法还可以包括:
步骤S14,根据所述原始数据,获取所述用于制作视频的补充数据,所述补充数据包括文本数据、音频数据、图像数据中的至少一种。
所述步骤S13进一步可以包括:基于所述素材和所述补充数据,生成N个视频。
在实际应用中,为了提高视频的效果,使其更能贴近用户需求,还可以在视频中添加文本数据、音频数据、图像数据等补充数据。例如,如果是通过商品详情页生成视频,通过将抓取其核心优质评价,或者通过识别详情页中的文案,提取卖点文案,将核心优质评价、卖点文案等关键内容显示在图片上或者是视频中的任意至少一帧上,可以有效增强关键内容的可视化。而且,关键内容的表现形式为可以文本、图像中的至少一种。另外,如果可以为视频配置合适的音频,则同样可以提高视频的吸引力。
因此,在本申请实施例中,还可以根据所述原始数据,获取所述用于制作视频的补充数据,所述补充数据包括文本数据、音频数据、图像数据中的至少一种。其中,补充数据可以直接从本地上传得到,也可以根据原始数据中包含的图片、视频中抽取得到,也可以根据原始数据中包含的详情页链接获取相应的详情页,进而根据从详情页中抽取得到补充数据,也可以根据原始数据包含的图片、视频、详情页链接对应的详情页中的至少一帧图片,获取与之关联的数据作为补充数据,等等。
那么此时在生成视频时,则可以基于所述素材和所述补充数据,生成N个视频。其中补充数据在每个视频中的存在位置、存在形式可以根据需求进行自定义设置。具体地,对于补充数据中的文本数据而言,各个文本数据、图像数据在视频的存在位置(例如展示在哪张图片以及在图片中的具体位置、或者展示在哪个视频帧以及在视频帧中的具体位置)、存在形式(例如字体大小、字体颜色、字体类型、图像大小等),等等;对于补充数据中的音频数据而言,各个音频数据在视频的存在位置(例如在展示哪些视频和/或图片的过程中插入音频数据)、存在形式(例如音频音量、音频音色、多种音频是否混合),等等都可以根据需求进行自定义设置,对此本申请实施例不加以限定。
例如,此时假设原始数据中仅包含一个商品详情页链接,那么在获取商品详情页之后,则可以采用图片识别技术对原始详情页内容进行分解,对内容进行文本识别和提取、图像识别和处理、音乐风格选择;进而基于文本识别结果进行买点文案生成,作为用以生成视频的文本数据,基于图像识别结果选择优质商品图片(包括图片和视频帧),作为用于生成视频的素材,基于音乐风格选择结果进行节奏分析,选择合适的音频数据,另外还可以通过图像识别,获取其中比较重要的图标等作为用以生成视频的图像数据。相应地,还可以结合文本数据和素材进行图文匹配,结合音频数据和素材,实现音画联动,再一键智能化生产,运用算法能力给相应的素材添加转场效果,音乐进行重新组合。最终输出N个视频。
如上述,如果是通过详情页生成视频,系统还可以抓取核心优质评价,识别详情页中的文案,提取卖点文案等文本数据,将这个文本数据显示在图片上,增强关键信息的可视化。
可选地,在本申请实施例中,如果补充数据包括文本数据,所述步骤S14进一步可以包括:
步骤S141,根据所述详情页链接获取每个详情页;
步骤S142,针对每个所述详情页,通过对所述详情页进行文本识别,获取所述详情页中满足预设文本条件的文本,作为用于生成视频的文本数据;其中,所述文本包括评价信息、描述信息中的至少一种。
在实际应用中,如果补充数据中包括文本数据,那么此时则可以通过上述步骤S141-S142获取补充数据中的文本数据。其中,可以通过任何可用方式根据详情页链接获取每个详情页,对此本申请实施例不加以限定。而且,在本申请实施例中,可以通过任何可用方式对详情页进行文本识别,对此本申请实施例不加以限定。
其中的预设文本条件可以根据需求进行预先设置,对此本发明实时不加以限定。例如,可以设置预设文本条件包括:如果详情页中的评价信息中的评分高于预设分数,则取详情页中的评分作为文本数据,基于文本识别结果,获取文本识别结果中的评价信息和/或描述信息中包含预设字符(例如推荐相关字符、好评相关字符)的文本内容作为补充数据中的文本数据,等等。
可选地,在本申请实施例中,如果补充数据包括音频数据,所述步骤S14进一步可以包括:
步骤S143,从基于所述原始数据获取的素材中抽取至少一个图片作为参考图片,获取包含所述参考图片在内的至少一个参考视频所配置的音频,作为参考音频;
步骤S145,从所述参考音频所属类别下的备选音频中获取至少一个备选音频,作为用于制作视频的音频数据。
在实际应用中,在为视频设置音频数据时,音频数据可以为原始数据中包含的音频,也可以为另外获取的音频。而且,在另外获取音频时,需要保证相应音频具有使用权,可以被引用,同时为了提高设置的音频数据与用于生成视频的原始数据的匹配度,则可以从基于所述原始数据获取的素材中抽取至少一个图片作为参考图片,获取包含所述参考图片在内的至少一个参考视频所配置的音频,作为参考音频,进而从所述参考音频所属类别下的各个可引用的备选音频中获取至少一个备选音频,作为用于制作视频的音频数据。
其中,参考图片可以为素材中包含的图片,也可以为素材中包含的视频中的视频帧。在本申请实施例中,可以随机从素材中抽取目标图片,或者也可以按照预设抽取策略从素材中抽取目标图片,其中预设抽取策略,以及目标图片的具体数量均可以根据需求进行自定义设置,对此本申请实施例不加以限定。
其中参考视频可以为现有的任何可用视频,而且可以设置在参考视频中包括至少一个参考图片,或者也可以设置在参考视频中需要包括全部的参考图片,而且参考视频的数量也可以根据需求进行自定义设置,对此本申请实施例均不加以限定。
在实际应用中,可以预先为不同音频进行分类,进而则可以从所述参考音频所属类别下的备选音频中获取至少一个备选音频,作为用于制作视频的音频数据。例如,可以将全部可用的备选音频存在在预设的音乐库中,而且在音乐库中可以同时设置各个备选音频的类别标签,或者是按照各个备选音频的所属类别将备选音频拆分为多个集合,每个集合中存放一个类别下的全部参考音频。那么在确定参考音频的类别之后,则可以从音乐库中包含的与参考音频属于同一类别下的各个备选音频中抽取至少一个备选音频,作为当前用于制作视频的音频数据。
其中,抽取的备选音频的具体数量可以根据需求进行自定义设置,对此本申请实施例不加以限定。例如,可以抽取N个备选音频,以在生成N个视频时,可以为每个视频分别分配不同的备选音频,或者也可以抽取1个备选音频,那么此时则可以设置生成的每个视频使用同一备选音频,等等。
而且,在从参考音频所属类别下的备选音频中抽取用于生成视频的备选音频时,可以随机抽取,也可以按照预先设置的抽取策略进行抽取,对此本申请实施例不加以限定。例如,可以设置抽取策略为从参考音频所属类别下的备选音频中抽取与参考音频的相似度最高的M1个备选音频,作为用于制作视频的音频数据;或者,可以设置抽取策略为从从参考音频所属类别下的备选音频中抽取用户反馈效果最佳的M2个备选音频作为用于制作视频的音频数据。其中,M1和M2的具体取值可以根据需求进行自定义设置,对此本申请实施例不加以限定。
或者,也可以设置抽取策略为综合考虑参考音频所属类别下的各个备选音频与参考视频的相似度,以及参考音频所属类别下的各个备选音频的用户反馈效果,从参考音频所属类别下的各个备选音频抽取至少一个备选音频,作为用于制作视频的音频数据。例如,可以设置抽取策略为从参考音频所属类别下的备选音频中抽取与参考音频的相似度最高的M3个备选音频,进而从M3个备选音频中抽取用户反馈效果最佳的M4个备选音频作为用于制作视频的音频数据,等等。其中M3和M4的具体取值均可以根据需求进行自定义设置,对此本申请实施例不加以限定。
而且,在本申请实施例中,音频的用户反馈效果可以理解根据以相应音频作为背景音乐的视频接收到的点赞次数、浏览次数、转发次数、评论次数、视频转发后引入的新用户数量等表征用户反馈信息的数据获取得到。例如,可以直接取以相应音频作为背景音乐的视频接收到的点赞次数、浏览次数、转发次数、评论次数、视频转发后引入的新用户数量的加权和,作为相应音频的用户反馈效果。其中,点赞次数、浏览次数、转发次数、评论次数、视频转发后引入的新用户数量等各项参数的权值可以根据需求进行自定义设置,对此本申请实施例不加以限定。
可选地,在本申请实施例中,如果补充数据包括音频数据,所述步骤S14进一步还可以包括:
步骤S146,根据基于所述原始数据获取的素材,通过预先训练得到的音频推荐模型,获取与所述素材适配的音频数据,作为用于制作视频的音频数据;其中,所述音频推荐模型由多个已配置音频的样本视频训练得到。
在实际应用中,为了提高音频数据的获取效率,可以基于多个已经生成的且配置有音频的样本视频训练得到一个音频推荐模型,而且在训练音频推荐模型时,可以各个样本视频的素材和音频数据训练音频推荐模型,那么此时则可以根据基于所述原始数据获取的素材,通过预先训练得到的音频推荐模型,获取与所述素材适配的音频数据,作为用于制作视频的音频数据。
当然,在本申请实施例中,在训练音频推荐模型时,也可以各个样本视频对应的原始数据和音频数据训练音频推荐模型,那么此时在获取当前的用于制作视频的音频数据时,则可以直接根据所述原始数据,通过预先训练得到的音频推荐模型,获取与所述原始数据适配的音频数据,作为用于制作视频的音频数据。但是,由于是直接基于素材实际生成视频时,因此基于素材获取得到的音频数据相对而言更贴近视频,因此在本申请实施例中,优选地可以采用上述以各个样本视频的素材和音频数据训练音频推荐模型,以及根据基于所述原始数据获取的素材,通过预先训练得到的音频推荐模型,获取与所述素材适配的音频数据,作为用于制作视频的音频数据。
例如,可以基于配乐规则确定音频数据,其中的配乐规则可以包括以素材中的至少一个图片作为参考图片,先去主站库等任何可用路径中查找包括参考图片在内的至少一个参考视频所配置的音频(也即同类图片的配乐),作为参考音频,进而从商业素材库等任何可用路径中包含的各个备选音频中抽取与所述参考音频所属类别相同的至少一个备选音频,作为用以生成视频的音频数据。另外,也可以基于步骤S146所述的音频推荐模型,进行音乐适配。
而且,在对音频进行分类时,可以分为如安静、轻快、浪漫、感人、进取等大类,也可以针对每个大类进一步细分为多个子类,例如将安静大类可以进一步细分为清缓、安静、休闲、故事、慢下来、舒缓、轻、慢、极简、淡淡等子类,那么在确定参考音频所属大类之后,则可以进一步在大类下的各个子类下的各个备选视频中抽取至少一个备选音频,作为用以生成视频的音频数据。
参照图2,在本申请实施例中,所述步骤S12进一步可以包括:
S121,根据所述详情页链接获取每个详情页;
S122,针对每个所述详情页,通过对所述详情页进行图像识别,获取所述详情页中满足预设素材条件的素材,作为用于生成视频的素材;其中,所述图像识别包括人脸识别、静物识别、场景识别、构图识别、视频镜头识别中的至少一种。
在本申请实施例中,为了获取用于生成视频的素材,则可以对每个详情页进行图像识别,进而基于图像识别结果获取相应详情页中满足预设素材条件的素材。其中的预设素材条件可以根据需求进行预先设置,对此本申请实施例不加以限定。
而且,在本申请实施例中,可以通过任何可用方式进行图像识别,对此本申请实施例也不加以限定。而且在实际应用中,详情页中可以包括图片、视频等元素,其中的图像识别可以包括但不限于人脸识别、静物识别、场景识别(例如室内、室外、城市、郊区等)、构图识别(例如是三角形构图还是四角形构图等)、视频镜头识别(例如焦距大小、拍摄角度、是长镜头还是短镜头等),等等。而且,在对详情页中的视频进行图像识别时,可以对视频中的每个视频帧进行图像识别,也可以对视频整体进行图像识别,对此本申请实施例不加以限定。
可选地,在本发明实施例中,所述步骤S13进一步可以包括:
步骤S131,获取用以生成每个视频片段的素材和补充数据,并确定每个所述素材在所述视频片段中的排序,以及所述补充数据中的文本数据和图像数据与所述素材的对应关系;
步骤S132,针对每个所述视频片段,基于所述视频片段中包含的任意相邻两个素材的素材属性确定所述相邻两个素材之间的转场效果;
步骤S133,根据所述对应关系,在所述素材中展示所述文本数据和所述图像数据,并根据所述相邻两个素材之间的转场效果生成视频片段;
步骤S134,基于所述音频数据对所述视频片段进行配乐,生成所述视频。
如上述,在发明实施例中,生成N个视频的目的主要在于给用户提供多个选项,其便于用户从中选择满足自身需求的视频,因此在生成各个视频时的素材和补充数据可以有所不同。那么,首先则可以获取用以生成每个视频片段的素材和补充数据,并确定每个所述素材在所述视频片段中的排序,以及所述补充数据中的文本数据和图像数据与所述素材的对应关系。
另外,在实际应用中,为了提高生成的视频的视觉效果,则可以基于视频中前后切换的两个素材的素材属性确定合适的转场效果。例如,如果相邻两个素材的素材属性均为图片,那么该相邻两个素材在切换过程中可以采用任何可用转场效果,而不会影响两张图片之间切换时视频的视觉效果;而如果相邻两个素材中一个为图片一个为视频,由于视频的展示内容是变化的,因此可选的转场效果有所限制;而如果相邻两个素材的素材属性均为视频,为了避免影响视频的视觉效果,则可以进一步限定可用的转场效果,例如仅可以采用淡入淡出等转场效果。
那么首先则需要确定各个素材在视频中的排序,具体地可以随机确定各个素材的排序,也可以按照各个素材的产生时间、各个素材的素材类别、各个素材中包含的内容等中的至少一种确定各个素材的排序,对此本申请实施例不加以限定。而且如果生成多个视频,那么则可以确定每个视频片段中包含的素材的排序。
而且,在本申请实施例中,可以根据任意相邻两个素材的素材属性设置不同的转场效果集合,例如针对上述的相邻两个素材的素材属性均为图片、相邻两个素材的素材属性为前者为图片后者为视频、相邻两个素材的素材属性为前者为视频后者为图片、相邻两个素材的素材属性均为视频等四种情况分别设置不同的转场效果集合,而且在每个转场效果集合中至少包含一个转场效果,那么此时在确定每个素材的排序之后,则可以基于任意相邻两个素材的素材属性,从相应的转场效果集合中随机选取一个转场效果作为相应相邻两个素材之间的转场效果。
其次,在本申请实施例中,可以将图像识别和文本识别相结合,在获取优选商品图片、优选分镜头视频片段等素材的同时,还可以识别详情页中的商品个性化卖点文案、功能及评价信息等文本数据和图像数据。当然,也可以将图像识别和文本识别拆分为两个步骤,对此本申请实施例不加以限定。而且,为了能够提高文本数据和图像数据在视频片段中的视觉效果,突出展示文本数据和图像数据等包含的关键内容,还可以确定文本数据和图像数据与所述素材的对应关系,具体可以包括在哪个图片数据或者是哪个视频素材中的哪些帧中展示哪些文本数据和/或图像数据,等等。其中的对应关系可以随机产生,也可以根据文本数据和/或图像数据与素材之间的相似度等,针对每个文本数据和/或图像数据,以与之相似度最高的素材建立对应关系;等等。具体的对应关系的确定方式可以根据需求进行预先设置,对此本发明实施例不加以限定。
在确定了每个视频片段中文本数据和/或图像数据与素材之间的对应关系之后,则可以根据相应的对应关系,在所述素材中展示所述文本数据和所述图像数据,同时基于相应视频片段对应的任意相邻两个素材之间的转场效果生成视频片段,进一步地,如果补充数据中包含音频数据,则还可以基于所述音频数据对所述视频片段进行配乐,从而得到最终的视频。而如果相应视频片段的补充数据中不包含音频数据,那么则无需进行配乐,直接以相应的视频片段作为最终视频。
可选地,在本申请实施例中,可选地,在本发明实施例中,可以通过以下方式确定素材在视频片段中的排序:
S1311,针对每个所述视频片段,根据用以生成所述视频片段的每个素材中包含的内容,确定每个所述素材的所属类别;
S1312,根据每个所述素材的所属类别,将所述素材拆分为多个集合;其中,一个集合中包含一个类别下的全部素材,且各个集合对应的类别互不重合;
S1313,确定每个所述集合在所述视频片段中的排序。
在实际应用中,用户一般希望在视频中相关内容集中在一个视频片段中,也即彼此关联度较高的内容在视频中集中展示的展示效果一般高于分散展示,更能吸引用户的注意力,提高视频展示效果。例如,在生成针对商品的视频时,可以将模特展示相关素材、细节展示相关素材、多套搭配展示相关素材分别集中在不同段连续的视频片段中,使得最终生成的视频条理清晰,能够取得更好的商品展示效果。
因此,在本申请实施例中,可以针对每个所述视频片段,根据用以生成所述视频片段的每个素材中包含的内容,确定每个所述素材的所属类别,进而根据每个所述素材的所属类别,将所述素材拆分为多个集合;其中,一个集合中包含一个类别下的全部素材,且各个集合对应的类别互不重合;从而使得同一类别的素材位于同一集合中,进而则可以确定各个集合在视频中的排序,此时是以集合为单位进行排序,从而可以保证同一集合内的素材处于同一连续视频片段内,而且对于同一集合内的各个素材而言,各个素材的排序则可以随机确定,当然也可以参照上述的S131中所述的方式确定同一集合内各个素材的排序,对此本申请实施例不加以限定。
在确定每个集合的排序,以及每个集合中每个素材的排序之后,则可以基于任意相邻两个素材的素材属性确定所述相邻两个素材之间的转场效果。
例如,可以基于每个原始商品素材中包含的内容,将素材拆分为三个集合,其中一个集合中包括整体穿着和气质效果片段相关的素材,一个集合中包括商品细节和卖点片段相关的素材,另一集合中包括多款式片段相关的素材。
参照图2,在本申请实施例中,所述方法还可以包括:
步骤S15,展示针对生成的所述视频的预览界面;
步骤S16,根据通过所述预览界面接收到的针对任一所述视频的编辑指令,对所述视频执行与所述编辑指令对应的编辑操作;其中,所述编辑操作包括字幕样式编辑操作、转场效果编辑操作、贴纸编辑操作中的至少一种。
在实际应用中,由于上述视频是自动生成的,用户可能对其中的部分细节不满意,那么为了提高用户对视频的满意度,可以由用户对视频生成效果进行微调。那么此时可以预先针对生成的各个视频进行预览,也即展示针对生成的每个视频的预览界面,在预览界面中则可以预览当前生成的每个视频。而且如果用户对某一视频的预览效果不满意,则可以通过预览界面触发针对相应视频的编辑指令,对于用于生成视频的电子设备而言,在接收到针对任一视频的编辑指令之后,则可以根据相应的编辑指令,对相应视频执行与相应编辑指令对应的编辑操作。其中,编辑操作包括可以包括但不限于字幕样式编辑操作、转场效果编辑操作、贴纸编辑操作中的至少一种。
例如,可以在预览界面中设置针对每个视频的调整效果控件,在用户点击其中任一视频下方的调整效果控件则可以弹出如针对相应视频的编辑页面,进而则可以通过相应的编辑页面中的控件触发针对相应视频的编辑指令,而且为了方便用户实时查看编辑后的视频效果,还可以在编辑页面中设置一编辑后视频的预览区域。此时,可以通过编辑页面的“视频编辑”功能从字幕样式、转场动效、封面贴纸等方面对视频进行微调。而且,预览界面中的界面信息呈现直观易懂,让普通的非专业认识的用户也可轻松上手,快速生成。当然,在本申请实施例中,也可以将编辑页面完全嵌入预览界面中合并一个页面,或者通过其他任何可用方式触发针对视频的编辑指令,对此本申请实施例不加以限定。
在本申请实施例中,用技术助力创作,大幅提升创意生产的效率,在很短的时间内,快速生产符合各类广告的素材。用户只需要输入详情页链接,系统自动将详情页上的素材拼接成新的视频,提高操作效率;简化了创意落地门槛、降低创意制作成本,提升创意效率与转化效果。具体具有以下优势:
第一方面,低门槛。对传统视频制作而言,客户和视频制作者之间的沟通是一道鸿沟,客户很难清晰准确地向视频制作者或者工具阐述自己的视频要求;而本申请为视频的制作提供了更低的门槛,它让客户可以就地取材(基于详情页链接等原始数据),利用图像智能识别能力准确解析详情页提供的图片文字和视频素材,定位商品调性,自动化为客户提供专业剧本和渲染处理,让用户无需专业知识即可一键生成视频。
第二方面,高效率。对传统视频制作者,需要较长的周期沟通效果需求和视频剪辑过程。对客户而言,通过本方案提供的便捷操作,客户仅需通过输入详情页链接等原始素材、触发生成视频,两步操作即可完成视频的生成。
其中,对于视频素材而言,用户原本就需要在准备详情页中展现的商品图片和文字素材,均可以复用到视频生成过程中,无需再去重复手动准备和剪辑原始数据。对于制作工序而言,需要专业且复杂的视频剪辑等操作,也可以通过本方案一键生成的能力轻松完成,无需人工再进行复杂的剪辑、镜头组、分镜调整、剧本编排及后期渲染操作。对于视频生成速度,1分钟即可生成1个视频,将极大缩短用户的处理时间。
第三方面,高收益。在和传统制作视频对金钱、人力和时间的大量投入对比下,使用本方案输入详情页链接制作视频,可降低客户的制作成本。
首先,可以高效准确传递核心信息,以生成商品视频为例,视频浓缩了卖家想向消费者传递的核心卖点,视频内容以具备视觉冲击力、舒适的叙事方式,浓缩在短短几十秒内。由于视频有着特有的视觉和听觉的冲击力,对人类感官的刺激将更有利的激发用户的购买欲。
其次,也可以自主生成视频剧本,本方案将依据客户输入的详情页链接、以及提供的素材数量,后台自动生成相适配的风格剧本、以及适配舒适的转场风格,并作以合适风格的背景音乐,整个过程也无需人工干预人为创作。
而且,具有丰富的设计元素,本方案可以提供多种视频生成风格(如剧情类、游戏类、图片类),每种风格背后都有相符的转场效果和视频配乐,在本申请实施例中,通过对素材的分析,可以将自动推荐适合素材的视频生成风格。
另外,还可以进行准确的评价提炼,如果是通过详情页生成视频,系统还将抓取核心优质评价等文本数据,以提炼关键字进行可视化展示。
其次,具有智能后期提供轻松便捷的个性化,如用户对视频生成效果还需要微调,可以通过预览界面的"编辑"功能从字幕样式、转场动效、贴纸等多个方面对视频进行极速微调;而且界面信息呈现直观易懂,让普通的非专业认识的用户也可轻松上手,快速生成。
图3是根据一示例性实施例示出的一种视频生成装置框图。参照图3,该装置包括原始数据获取模块210,素材获取模块220和视频生成模块230。
原始数据获取模块210,被配置为执行获取用于制作视频的原始数据,所述原始数据中包括至少一个详情页链接;
素材获取模块220,被配置为执行根据所述原始数据,获取用于生成视频的素材,所述素材包括图片素材、视频素材中的至少一种;
视频生成模块230,被配置为执行基于所述素材生成N个视频,N为正整数。
参照图4,所述装置还可以包括:
补充数据获取模块240,用于根据所述原始数据,获取所述用于制作视频的补充数据,所述补充数据包括文本数据、音频数据、图像数据中的至少一种;
所述视频生成模块230,具体被配置为执行:基于所述素材和所述补充数据,生成N个视频。
可选地,在补充数据包括文本数据的情况下,所述补充数据获取模块240,进一步可以包括:
第一详情页获取子模块,被配置为执行根据所述详情页链接获取每个详情页;
文本数据获取子模块,被配置为执行针对每个所述详情页,通过对所述详情页进行文本识别,获取所述详情页中满足预设文本条件的文本,作为用于生成视频的文本数据。
可选地,在补充数据包括音频数据的情况下,所述补充数据获取模块240,进一步可以包括:
参考音频获取子模块,被配置为执行从基于所述原始数据获取的素材中抽取至少一个图片作为参考图片,获取包含所述参考图片在内的至少一个参考视频所配置的音频,作为参考音频;
第一音频数据获取子模块,被配置为执行从所述参考音频所属类别下的备选音频中获取至少一个备选音频,作为用于制作视频的音频数据。
可选地,在补充数据包括音频数据的情况下,所述补充数据获取模块240,进一步可以包括:
第二音频数据获取子模块,被配置为执行根据基于所述原始数据获取的素材,通过预先训练得到的音频推荐模型,获取与所述素材适配的音频数据,作为用于制作视频的音频数据;其中,所述音频推荐模型由多个已配置音频的样本视频训练得到。
参照图4,在本申请实施例中,所述素材获取模块220,进一步可以包括:
第二详情页获取子模块221,被配置为执行根据所述详情页链接获取每个详情页;
素材获取子模块222,被配置为执行针对每个所述详情页,通过对所述详情页进行图像识别,获取所述详情页中满足预设素材条件的素材,作为用于生成视频的素材;其中,所述图像识别包括人脸识别、静物识别、场景识别、构图识别、视频镜头识别中的至少一种。
可选地,在本发明实施例中,所述视频生成模块230,进一步可以包括:
排序确定子模块,被配置为执行获取用以生成每个视频片段的素材和补充数据,并确定每个所述素材在所述视频片段中的排序,以及所述补充数据中的文本数据和图像数据与所述素材的对应关系;
转场效果确定子模块,被配置为执行针对每个所述视频片段,基于所述视频片段中包含的任意相邻两个素材的素材属性确定所述相邻两个素材之间的转场效果;
关键信息展示子模块,被配置为执行根据所述对应关系,在所述素材中展示所述文本数据和所述图像数据,并根据所述相邻两个素材之间的转场效果生成视频片段;
视频生成子模块,被配置为执行基于所述音频数据对所述视频片段进行配乐,生成所述视频。
可选地,在本申请实施例中,所述排序确定子模块,进一步可以包括:
素材分类单元,被配置为执行针对每个所述视频片段,根据用以生成所述视频片段的每个素材中包含的内容,确定每个所述素材的所属类别;
集合拆分单元,被配置为执行根据每个所述素材的所属类别,将所述素材拆分为多个集合;其中,一个集合中包含一个类别下的全部素材,且各个集合对应的类别互不重合;
排序确定单元,被配置为执行确定每个所述集合在所述视频片段中的排序。
参照图4,在本申请实施例中,所述装置还可以包括:
预览界面展示模块250,被配置为执行展示针对生成的所述视频的预览界面;
视频编辑模块260,被配置为执行根据通过所述预览界面接收到的针对任一所述视频的编辑指令,对所述视频执行与所述编辑指令对应的编辑操作;其中,所述编辑操作包括字幕样式编辑操作、转场效果编辑操作、贴纸编辑操作中的至少一种。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种用于视频生成的装置300的框图。例如,装置300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置300可以包括以下一个或多个组件:处理组件302,存储器304,电力组件306,多媒体组件308,音频组件310,输入/输出(I/O)的接口312,传感器组件314,以及通信组件316。
处理组件302通常控制装置300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理组件302可以包括多媒体模块,以方便多媒体组件308和处理组件302之间的交互。
存储器304被配置为存储各种类型的数据以支持在设备300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件306为装置300的各种组件提供电力。电源组件306可以包括电源管理系统,一个或多个电源,及其他与为装置300生成、管理和分配电力相关联的组件。
多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当设备300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(MIC),当装置300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。
I/O接口312为处理组件302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件314包括一个或多个传感器,用于为装置300提供各个方面的状态评估。例如,传感器组件314可以检测到设备300的打开/关闭状态,组件的相对定位,例如所述组件为装置300的显示器和小键盘,传感器组件314还可以检测装置300或装置300一个组件的位置改变,用户与装置300接触的存在或不存在,装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器304,上述指令可由装置300的处理器320执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图6是根据一示例性实施例示出的一种用于视频生成的装置400的框图。例如,装置400可以被提供为一服务器。参照图6,装置400包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422的执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述任意一种视频生成方法。
装置400还可以包括一个电源组件426被配置为执行装置400的电源管理,一个有线或无线网络接口450被配置为将装置400连接到网络,和一个输入输出(I/O)接口458。装置400可以操作基于存储在存储器432的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM,等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
本申请公开了A1、一种视频生成方法,包括:
获取用于制作视频的原始数据,所述原始数据中包括至少一个详情页链接;
根据所述原始数据,获取用于生成视频的素材,所述素材包括图片素材、视频素材中的至少一种;
基于所述素材生成N个视频,N为正整数。
A2、如A1所述的方法,在所述获取用于制作视频的原始数据的步骤之后,还包括:
根据所述原始数据,获取所述用于制作视频的补充数据,所述补充数据包括文本数据、音频数据、图像数据中的至少一种;
所述基于所述素材生成N个视频的步骤,包括:
基于所述素材和所述补充数据,生成N个视频。
A3、如A2所述的方法,所述根据所述原始数据,获取所述用于制作视频的补充数据的步骤,包括:
从基于所述原始数据获取的素材中抽取至少一个图片作为参考图片,获取包含所述参考图片在内的至少一个参考视频所配置的音频,作为参考音频;
从所述参考音频所属类别下的备选音频中获取至少一个备选音频,作为用于制作视频的音频数据。
A4、如A2所述的方法,所述根据所述原始数据,获取所述用于制作视频的补充数据的步骤,包括:
根据基于所述原始数据获取的素材,通过预先训练得到的音频推荐模型,获取与所述素材适配的音频数据,作为用于制作视频的音频数据;
其中,所述音频推荐模型由多个已配置音频的样本视频训练得到。
A5、如A2-A4中任一项所述的方法,所述根据所述原始数据,获取所述用于制作视频的补充数据的步骤,包括:
根据所述详情页链接获取每个详情页;
针对每个所述详情页,通过对所述详情页进行文本识别,获取所述详情页中满足预设文本条件的文本,作为用于生成视频的文本数据;
其中,所述文本包括评价信息、描述信息中的至少一种。
A6、如A2所述的方法,所述基于所述素材和所述补充数据,生成N个视频的步骤,包括:
获取用以生成每个视频片段的素材和补充数据,并确定每个所述素材在所述视频片段中的排序,以及所述补充数据中的文本数据和图像数据与所述素材的对应关系;
针对每个所述视频片段,基于所述视频片段中包含的任意相邻两个素材的素材属性确定所述相邻两个素材之间的转场效果;
根据所述对应关系,在所述素材中展示所述文本数据和所述图像数据,并根据所述相邻两个素材之间的转场效果生成视频片段;
基于所述音频数据对所述视频片段进行配乐,生成所述视频。
A7、如A6所述的方法,所述确定每个所述素材在所述视频片段中的排序的步骤,包括:
针对每个所述视频片段,根据用以生成所述视频片段的每个素材中包含的内容,确定每个所述素材的所属类别;
根据每个所述素材的所属类别,将所述素材拆分为多个集合;其中,一个集合中包含一个类别下的全部素材,且各个集合对应的类别互不重合;
确定每个所述集合在所述视频片段中的排序。
A8、如A1所述的视频生成方法,所述根据所述原始数据,获取用于生成视频的素材的步骤,包括:
根据所述详情页链接获取每个详情页;
针对每个所述详情页,通过对所述详情页进行图像识别,获取所述详情页中满足预设素材条件的素材,作为用于生成视频的素材;其中,所述图像识别包括人脸识别、静物识别、场景识别、构图识别、视频镜头识别中的至少一种。
A9、如A1所述的方法,所述方法还包括:
展示针对生成的所述视频的预览界面;
根据通过所述预览界面接收到的针对任一所述视频的编辑指令,对所述视频执行与所述编辑指令对应的编辑操作;
其中,所述编辑操作包括字幕样式编辑操作、转场效果编辑操作、贴纸编辑操作中的至少一种。
本申请还公开了B10、一种视频生成装置,包括:
原始数据获取模块,被配置为执行获取用于制作视频的原始数据,所述原始数据中包括至少一个详情页链接;
素材获取模块,被配置为执行根据所述原始数据,获取用于生成视频的素材,所述素材包括图片素材、视频素材中的至少一种;
视频生成模块,被配置为执行基于所述素材生成N个视频,N为正整数。
B11、如B10所述的装置,所述装置还包括:
补充数据获取模块,用于根据所述原始数据,获取所述用于制作视频的补充数据,所述补充数据包括文本数据、音频数据、图像数据中的至少一种;
所述视频生成模块,具体被配置为执行:基于所述素材和所述补充数据,生成N个视频。
B12、如B11所述的装置,所述补充数据获取模块,包括:
参考音频获取子模块,被配置为执行从基于所述原始数据获取的素材中抽取至少一个图片作为参考图片,获取包含所述参考图片在内的至少一个参考视频所配置的音频,作为参考音频;
第一音频数据获取子模块,被配置为执行从所述参考音频所属类别下的备选音频中获取至少一个备选音频,作为用于制作视频的音频数据。
B13、如B11所述的装置,所述补充数据获取模块,包括:
第二音频数据获取子模块,被配置为执行根据基于所述原始数据获取的素材,通过预先训练得到的音频推荐模型,获取与所述素材适配的音频数据,作为用于制作视频的音频数据;
其中,所述音频推荐模型由多个已配置音频的样本视频训练得到。
B14、如B11-B13中任一项所述的装置,所述补充数据获取模块,包括:
第一详情页获取子模块,被配置为执行根据所述详情页链接获取每个详情页;
文本数据获取子模块,被配置为执行针对每个所述详情页,通过对所述详情页进行文本识别,获取所述详情页中满足预设文本条件的文本,作为用于生成视频的文本数据;
其中,所述文本包括评价信息、描述信息中的至少一种。
B15、如B11所述的装置,所述视频生成模块,包括:
排序确定子模块,被配置为执行获取用以生成每个视频片段的素材和补充数据,并确定每个所述素材在所述视频片段中的排序,以及所述补充数据中的文本数据和图像数据与所述素材的对应关系;
转场效果确定子模块,被配置为执行针对每个所述视频片段,基于所述视频片段中包含的任意相邻两个素材的素材属性确定所述相邻两个素材之间的转场效果;
关键信息展示子模块,被配置为执行根据所述对应关系,在所述素材中展示所述文本数据和所述图像数据,并根据所述相邻两个素材之间的转场效果生成视频片段;
视频生成子模块,被配置为执行基于所述音频数据对所述视频片段进行配乐,生成所述视频。
B16、如B15所述的装置,所述排序确定子模块,包括:
素材分类单元,被配置为执行针对每个所述视频片段,根据用以生成所述视频片段的每个素材中包含的内容,确定每个所述素材的所属类别;
集合拆分单元,被配置为执行根据每个所述素材的所属类别,将所述素材拆分为多个集合;其中,一个集合中包含一个类别下的全部素材,且各个集合对应的类别互不重合;
排序确定单元,被配置为执行确定每个所述集合在所述视频片段中的排序。
B17、如B10所述的装置,所述素材获取模块,包括:
第二详情页获取子模块,被配置为执行根据所述详情页链接获取每个详情页;
素材获取子模块,被配置为执行针对每个所述详情页,通过对所述详情页进行图像识别,获取所述详情页中满足预设素材条件的素材,作为用于生成视频的素材;其中,所述图像识别包括人脸识别、静物识别、场景识别、构图识别、视频镜头识别中的至少一种。
B18、如B10所述的装置,所述装置还包括:
预览界面展示模块,被配置为执行展示针对生成的所述视频的预览界面;
视频编辑模块,被配置为执行根据通过所述预览界面接收到的针对任一所述视频的编辑指令,对所述视频执行与所述编辑指令对应的编辑操作;
其中,所述编辑操作包括字幕样式编辑操作、转场效果编辑操作、贴纸编辑操作中的至少一种。
本申请还公开了C19、一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如A1至A9中任一项所述的视频生成方法。
本申请还公开了D20、一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如A1至A9中任一项所述的视频生成方法。

Claims (10)

1.一种视频生成方法,其特征在于,包括:
获取用于制作视频的原始数据,所述原始数据中包括至少一个详情页链接;
根据所述原始数据,获取用于生成视频的素材,所述素材包括图片素材、视频素材中的至少一种;
基于所述素材生成N个视频,N为正整数。
2.根据权利要求1所述的方法,其特征在于,在所述获取用于制作视频的原始数据的步骤之后,还包括:
根据所述原始数据,获取所述用于制作视频的补充数据,所述补充数据包括文本数据、音频数据、图像数据中的至少一种;
所述基于所述素材生成N个视频的步骤,包括:
基于所述素材和所述补充数据,生成N个视频。
3.根据权利要求2所述的方法,其特征在于,所述根据所述原始数据,获取所述用于制作视频的补充数据的步骤,包括:
从基于所述原始数据获取的素材中抽取至少一个图片作为参考图片,获取包含所述参考图片在内的至少一个参考视频所配置的音频,作为参考音频;
从所述参考音频所属类别下的备选音频中获取至少一个备选音频,作为用于制作视频的音频数据。
4.根据权利要求2所述的方法,其特征在于,所述根据所述原始数据,获取所述用于制作视频的补充数据的步骤,包括:
根据基于所述原始数据获取的素材,通过预先训练得到的音频推荐模型,获取与所述素材适配的音频数据,作为用于制作视频的音频数据;
其中,所述音频推荐模型由多个已配置音频的样本视频训练得到。
5.根据权利要求2-4中任一项所述的方法,其特征在于,所述根据所述原始数据,获取所述用于制作视频的补充数据的步骤,包括:
根据所述详情页链接获取每个详情页;
针对每个所述详情页,通过对所述详情页进行文本识别,获取所述详情页中满足预设文本条件的文本,作为用于生成视频的文本数据;
其中,所述文本包括评价信息、描述信息中的至少一种。
6.根据权利要求2所述的方法,所述基于所述素材和所述补充数据,生成N个视频的步骤,包括:
获取用以生成每个视频片段的素材和补充数据,并确定每个所述素材在所述视频片段中的排序,以及所述补充数据中的文本数据和图像数据与所述素材的对应关系;
针对每个所述视频片段,基于所述视频片段中包含的任意相邻两个素材的素材属性确定所述相邻两个素材之间的转场效果;
根据所述对应关系,在所述素材中展示所述文本数据和所述图像数据,并根据所述相邻两个素材之间的转场效果生成视频片段;
基于所述音频数据对所述视频片段进行配乐,生成所述视频。
7.根据权利要求6所述的方法,其特征在于,所述确定每个所述素材在所述视频片段中的排序的步骤,包括:
针对每个所述视频片段,根据用以生成所述视频片段的每个素材中包含的内容,确定每个所述素材的所属类别;
根据每个所述素材的所属类别,将所述素材拆分为多个集合;其中,一个集合中包含一个类别下的全部素材,且各个集合对应的类别互不重合;
确定每个所述集合在所述视频片段中的排序。
8.一种视频生成装置,其特征在于,包括:
原始数据获取模块,被配置为执行获取用于制作视频的原始数据,所述原始数据中包括至少一个详情页链接;
素材获取模块,被配置为执行根据所述原始数据,获取用于生成视频的素材,所述素材包括图片素材、视频素材中的至少一种;
视频生成模块,被配置为执行基于所述素材生成N个视频,N为正整数。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的视频生成方法。
10.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的视频生成方法。
CN202010463611.5A 2020-05-27 2020-05-27 视频生成方法、装置、电子设备及存储介质 Active CN111787395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010463611.5A CN111787395B (zh) 2020-05-27 2020-05-27 视频生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010463611.5A CN111787395B (zh) 2020-05-27 2020-05-27 视频生成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111787395A true CN111787395A (zh) 2020-10-16
CN111787395B CN111787395B (zh) 2023-04-18

Family

ID=72753381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010463611.5A Active CN111787395B (zh) 2020-05-27 2020-05-27 视频生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111787395B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287168A (zh) * 2020-10-30 2021-01-29 北京有竹居网络技术有限公司 用于生成视频的方法和装置
CN112579826A (zh) * 2020-12-07 2021-03-30 北京字节跳动网络技术有限公司 视频显示及处理方法、装置、系统、设备、介质
CN114463673A (zh) * 2021-12-31 2022-05-10 深圳市东信时代信息技术有限公司 素材推荐方法、装置、设备及存储介质
CN114615513A (zh) * 2022-03-08 2022-06-10 北京字跳网络技术有限公司 视频数据生成方法、装置、电子设备及存储介质
WO2022134524A1 (zh) * 2020-12-21 2022-06-30 北京达佳互联信息技术有限公司 视频编辑方法和视频编辑装置
WO2022228553A1 (zh) * 2021-04-30 2022-11-03 北京字跳网络技术有限公司 视频处理方法、装置、电子设备和存储介质
WO2023065832A1 (zh) * 2021-10-18 2023-04-27 华为技术有限公司 视频的制作方法和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030234806A1 (en) * 2002-06-19 2003-12-25 Kentaro Toyama System and method for automatically authoring video compositions using video cliplets
CN107770626A (zh) * 2017-11-06 2018-03-06 腾讯科技(深圳)有限公司 视频素材的处理方法、视频合成方法、装置及存储介质
CN109756786A (zh) * 2018-12-25 2019-05-14 北京百度网讯科技有限公司 视频生成方法、装置、设备及存储介质
CN110309351A (zh) * 2018-02-14 2019-10-08 阿里巴巴集团控股有限公司 数据对象的视频影像生成、装置及计算机系统
CN110532426A (zh) * 2019-08-27 2019-12-03 新华智云科技有限公司 一种基于模板抽取多媒体素材生成视频的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030234806A1 (en) * 2002-06-19 2003-12-25 Kentaro Toyama System and method for automatically authoring video compositions using video cliplets
CN107770626A (zh) * 2017-11-06 2018-03-06 腾讯科技(深圳)有限公司 视频素材的处理方法、视频合成方法、装置及存储介质
CN110309351A (zh) * 2018-02-14 2019-10-08 阿里巴巴集团控股有限公司 数据对象的视频影像生成、装置及计算机系统
CN109756786A (zh) * 2018-12-25 2019-05-14 北京百度网讯科技有限公司 视频生成方法、装置、设备及存储介质
CN110532426A (zh) * 2019-08-27 2019-12-03 新华智云科技有限公司 一种基于模板抽取多媒体素材生成视频的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
电商圈那些事: "1688推出AlibabaWOOD智能短视频制作工具,不过和鹿班一样收费使用", 《HTTPS://WWW.FKDMG.COM/MIP/ARTICLE/4907.HTML》 *
腾讯视频: "详情页自动生成短视频", 《HTTPS://V.QQ.COM/X/PAGE/Z0635JV7ULC.HTML》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287168A (zh) * 2020-10-30 2021-01-29 北京有竹居网络技术有限公司 用于生成视频的方法和装置
CN112579826A (zh) * 2020-12-07 2021-03-30 北京字节跳动网络技术有限公司 视频显示及处理方法、装置、系统、设备、介质
WO2022134524A1 (zh) * 2020-12-21 2022-06-30 北京达佳互联信息技术有限公司 视频编辑方法和视频编辑装置
WO2022228553A1 (zh) * 2021-04-30 2022-11-03 北京字跳网络技术有限公司 视频处理方法、装置、电子设备和存储介质
WO2023065832A1 (zh) * 2021-10-18 2023-04-27 华为技术有限公司 视频的制作方法和电子设备
CN114463673A (zh) * 2021-12-31 2022-05-10 深圳市东信时代信息技术有限公司 素材推荐方法、装置、设备及存储介质
CN114463673B (zh) * 2021-12-31 2023-04-07 深圳市东信时代信息技术有限公司 素材推荐方法、装置、设备及存储介质
CN114615513A (zh) * 2022-03-08 2022-06-10 北京字跳网络技术有限公司 视频数据生成方法、装置、电子设备及存储介质
CN114615513B (zh) * 2022-03-08 2023-10-20 北京字跳网络技术有限公司 视频数据生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111787395B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111787395B (zh) 视频生成方法、装置、电子设备及存储介质
CN109151537B (zh) 视频处理方法、装置、电子设备及存储介质
CN111930994A (zh) 视频编辑的处理方法、装置、电子设备及存储介质
TW202245466A (zh) 視頻錄製方法、電子設備及電腦可讀儲存介質
WO2021063096A1 (zh) 视频合成方法、装置、电子设备及存储介质
US11792504B2 (en) Personalized videos
CN111695505B (zh) 视频处理方法及装置、电子设备和存储介质
WO2022198934A1 (zh) 卡点视频的生成方法及装置
CN109147745A (zh) 歌曲编辑处理方法、装置、电子设备及存储介质
WO2020150693A1 (en) Systems and methods for generating personalized videos with customized text messages
CN112732977A (zh) 一种基于模板快速生成短视频的方法
US11721046B2 (en) Customizing soundtracks and hairstyles in modifiable videos of multimedia messaging application
US11308677B2 (en) Generating personalized videos with customized text messages
US11895260B2 (en) Customizing modifiable videos of multimedia messaging application
CN113746874A (zh) 一种语音包推荐方法、装置、设备及存储介质
CN113157972B (zh) 视频封面文案的推荐方法、装置、电子设备及存储介质
CN111831615B (zh) 一种影音文件的生成方法、装置和系统
CN113778301A (zh) 基于内容服务的情绪互动方法及电子设备
CN113364999B (zh) 视频生成方法、装置、电子设备及存储介质
CN112911351B (zh) 视频教程的展示方法、设备、系统及存储介质
CN113473246A (zh) 媒体文件的发布方法、装置及电子设备
JP2011519079A (ja) フォトリアリスティックなトーキングヘッドの作成、コンテンツ作成、及び流通システム及び方法
CN116506694A (zh) 视频剪辑方法、装置、电子设备及存储介质
CN116170626A (zh) 视频编辑方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant