CN116152393A - 视频生成方法、装置、设备及存储介质 - Google Patents

视频生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116152393A
CN116152393A CN202111373450.1A CN202111373450A CN116152393A CN 116152393 A CN116152393 A CN 116152393A CN 202111373450 A CN202111373450 A CN 202111373450A CN 116152393 A CN116152393 A CN 116152393A
Authority
CN
China
Prior art keywords
image
rendering
music
combination
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111373450.1A
Other languages
English (en)
Inventor
宫伟博
靳潇杰
刘鼎
沈晓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lemon Inc Cayman Island
Original Assignee
Lemon Inc Cayman Island
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lemon Inc Cayman Island filed Critical Lemon Inc Cayman Island
Priority to CN202111373450.1A priority Critical patent/CN116152393A/zh
Priority to PCT/SG2022/050839 priority patent/WO2023091090A2/zh
Publication of CN116152393A publication Critical patent/CN116152393A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请实施例提供一种视频生成方法、装置、设备及存储介质,视频生成方法包括:获取至少两张图像和与至少两张图像匹配的音乐;确定至少两张图像的第一特征信息和音乐的第二特征信息;根据第一特征信息、第二特征信息和预先存储的多个渲染效果,确定目标渲染效果组合;渲染效果为动画、特效、或者转场;根据至少两张图像、音乐和目标渲染效果组合,生成视频。本申请实施例提供的视频生成方法、装置、设备及存储介质用于提高视频的丰富性。

Description

视频生成方法、装置、设备及存储介质
技术领域
本申请涉及视频生成技术领域,尤其涉及一种视频生成方法、装置、设备及存储介质。
背景技术
目前,电子设备可以根据用户选定的一组图像,生成视频。
在相关技术中,电子设备获取用户选定一组图像和与组图像匹配的音乐,并根据该组图像和音乐,生成视频。
在上述相关技术中,根据该组图像和音乐,生成视频,使得视频的丰富性较差。
发明内容
本申请实施例提供一种视频生成方法、装置、设备及存储介质,用以解决生成的视频的丰富性较差问题。
第一方面,本申请实施例提供一种视频生成方法,包括:获取至少两张图像和与至少两张图像匹配的音乐;确定至少两张图像的第一特征信息和音乐的第二特征信息;根据第一特征信息、第二特征信息和预先存储的多个渲染效果,确定目标渲染效果组合;渲染效果为动画、特效、或者转场;根据至少两张图像、音乐和目标渲染效果组合,生成视频。
可选地,第一特征信息包括第一全局特征和第一局部特征;第二特征信息包括第二全局特征和第二局部特征;根据第一特征信息、第二特征信息和预先存储的多个渲染效果,确定目标渲染效果组合,包括:根据第一全局特征和第二全局特征,在多个渲染效果中确定多个待选效果;根据第一局部特征,在多个待选效果中确定至少一个目标效果,并对至少一个目标效果进行组合处理,得到至少一个渲染组合;根据第一局部特征、第二局部特征和至少一个渲染组合,确定目标渲染效果组合。
可选地,第一全局特征包括至少两张图像对应的第一图像情绪、第一图像风格和第一图像场景,第二全局特征包括第一音乐情绪、第一音乐曲风和第一音乐主题;根据第一全局特征和第二全局特征,在多个渲染效果中确定多个待选效果,包括:针对每个渲染效果,根据渲染效果的标识,获取第一图像情绪、第一图像风格、第一图像场景各自对应的第一初始得分;根据第一初始得分,对多个渲染效果进行筛选,得到多个中间效果;针对每个中间效果,根据中间效果的标识,获取第一音乐情绪、第一音乐曲风、第一音乐主题各自对应的第二初始得分;根据第二初始得分,对多个中间效果进行筛选,得到多个待选效果。
可选地,根据第一初始得分,对多个渲染效果进行筛选,得到至少一个中间效果,包括:针对每个渲染效果,将第一图像情绪、第一图像风格、第一图像场景各自对应的第一初始得分之和,确定为渲染效果对应的第一目标得分;将多个渲染效果中第一目标得分大于或等于第一阈值的渲染效果,确定为多个中间效果。
可选地,根据第二初始得分,对多个中间效果进行筛选,得到多个待选效果,包括:针对每个中间效果,将第一音乐情绪、第一音乐曲风、第一音乐主题各自对应的第二初始得分之和,确定为中间效果对应的第二目标得分;将多个中间效果中第二目标得分大于或等于第二阈值的中间效果,确定为多个待选效果。
可选地,第一局部特征中包括至少两张图像各自对应的第二图像情绪、第二图像风格和第二图像场景;根据第一局部特征,在所述多个待选效果中确定至少一个目标效果,包括:针对每张图像,根据多个待选效果和图像对应的第二图像情绪、第二图像风格、第二图像场景,确定多个待选效果在图像条件下各自对应的第三目标得分;根据多个待选效果各自对应的第三目标得分,在多个待选效果中确定至少一个目标效果。
可选地,第一局部特征包括至少两张图像各自对应的第二图像情绪、第二图像风格和第二图像场景;第二局部特征包括音乐中至少两张图像各自对应的音乐片段的副歌点、乐句乐段点和节拍点;根据第一局部特征、第二局部特征和至少一个渲染组合,确定目标渲染效果组合,包括:根据至少两张图像中的第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,对至少一个渲染组合进行筛选,得到N个初始待选组合;N为大于或等于1的整数;根据N个初始待选组合和至少一个渲染组合,确定M个第j-1待选组合,M等于N与至少一个渲染组合的总数量的乘积;根据第j张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第j张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,对M个第j-1待选组合进行筛选,确定N个第j待选组合,并将所述N个第j待选组合作为新的N个初始待选组合,j加1,并重复执行此步骤,直至到达至少两张图像中的最后一张图像,并将最后一张图像对应的待选组合确定为目标渲染效果组合;j的初始值为2。
可选地,根据第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,对至少一个渲染组合进行筛选,得到N个初始待选组合,包括:根据第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,确定至少一个渲染组合各自对应的组合得分;将至少一个渲染组合中组合得分大于或等于第四阈值的N个渲染组合,确定为N个初始待选组合。
可选地,根据第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,确定至少一个渲染组合各自对应的组合得分,包括:针对至少一个渲染组合中的每个渲染组合,根据第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,以及渲染组合中每个渲染效果的标识,确定音乐匹配得分;根据第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及渲染组合中每个渲染效果的标识,确定图像匹配得分;确定第一张图像对应的内部组合分数;将音乐匹配得分、图像匹配得分和内部组合分数,确定为渲染组合对应的组合得分。
可选地,确定至少两张图像的第一特征信息和音乐的第二特征信息,包括:通过预先存储的图像特征提取模型,对至少两张图像进行特征提取,得到至少两张图像的第一特征信息;通过预先存储的音乐特征提取模型,对音乐进行特征提取,得到第二特征信息。
可选地,目标渲染效果组合中包括至少两张图像各自对应的动画、特效和转场;根据至少两张图像、音乐和目标渲染效果组合,生成视频,包括:按照目标渲染效果组合中至少两张图像各自对应的动画、特效和转场,依次显示至少两张图像、并播放音乐,以生成视频。
可选地,获取至少两张图像和与至少两张图像匹配的音乐,包括:响应于对多张待选图像中的至少两张目标图像的选择操作,将至少一张目标图像确定为至少两张图像;响应于对多个待选音乐中的目标音乐的选择操作,将目标音乐确定为至少两张图像匹配的音乐。
第二方面,本申请实施例提供一种视频生成装置,包括:获取模块,用于获取至少两张图像和与至少两张图像匹配的音乐;第一确定模块,用于确定至少两张图像的第一特征信息和音乐的第二特征信息;第二确定模块,用于根据第一特征信息、第二特征信息和预先存储的多个渲染效果,确定目标渲染效果组合;渲染效果为动画、特效、或者转场;生成模块,用于根据至少两张图像、音乐和目标渲染效果组合,生成视频。
可选地,第一特征信息包括第一全局特征和第一局部特征;第二特征信息包括第二全局特征和第二局部特征;第二确定模块具体用于:根据第一全局特征和第二全局特征,在多个渲染效果中确定多个待选效果;根据第一局部特征,在多个待选效果中确定至少一个目标效果,并对至少一个目标效果进行组合处理,得到至少一个渲染组合;根据第一局部特征、第二局部特征和至少一个渲染组合,确定目标渲染效果组合。
可选地,第一全局特征包括至少两张图像对应的第一图像情绪、第一图像风格和第一图像场景,第二全局特征包括第一音乐情绪、第一音乐曲风和第一音乐主题;第二确定模块具体用于:针对每个渲染效果,根据渲染效果的标识,获取第一图像情绪、第一图像风格、第一图像场景各自对应的第一初始得分;根据第一初始得分,对多个渲染效果进行筛选,得到多个中间效果;针对每个中间效果,根据中间效果的标识,获取第一音乐情绪、第一音乐曲风、第一音乐主题各自对应的第二初始得分;根据第二初始得分,对多个中间效果进行筛选,得到多个待选效果。
可选地,第二确定模块具体用于:针对每个渲染效果,将第一图像情绪、第一图像风格、第一图像场景各自对应的第一初始得分之和,确定为渲染效果对应的第一目标得分;将多个渲染效果中第一目标得分大于或等于第一阈值的渲染效果,确定为多个中间效果。
可选地,第二确定模块具体用于:针对每个中间效果,将第一音乐情绪、第一音乐曲风、第一音乐主题各自对应的第二初始得分之和,确定为中间效果对应的第二目标得分;将多个中间效果中第二目标得分大于或等于第二阈值的中间效果,确定为多个待选效果。
可选地,第一局部特征中包括至少两张图像各自对应的第二图像情绪、第二图像风格和第二图像场景;第二确定模块具体用于:针对每张图像,根据多个待选效果和图像对应的第二图像情绪、第二图像风格、第二图像场景,确定多个待选效果在图像条件下各自对应的第三目标得分;根据多个待选效果各自对应的第三目标得分,在多个待选效果中确定至少一个目标效果。
可选地,第一局部特征包括至少两张图像各自对应的第二图像情绪、第二图像风格和第二图像场景;第二局部特征包括音乐中至少两张图像各自对应的音乐片段的副歌点、乐句乐段点和节拍点;第二确定模块具体用于:根据至少两张图像中的第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,对至少一个渲染组合进行筛选,得到N个初始待选组合;N为大于或等于1的整数;根据N个初始待选组合和至少一个渲染组合,确定M个第j-1待选组合,M等于N与至少一个渲染组合的总数量的乘积;根据第j张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第j张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,对M个第j-1待选组合进行筛选,确定N个第j待选组合并将所述N个第j待选组合作为新的N个初始待选组合,j加1,并重复执行此步骤,直至到达至少两张图像中的最后一张图像,并将最后一张图像对应的待选组合确定为目标渲染效果组合;j的初始值为2。
可选地,第二确定模块具体用于:根据第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,确定至少一个渲染组合各自对应的组合得分;将至少一个渲染组合中组合得分大于或等于第四阈值的N个渲染组合,确定为N个初始待选组合。
可选地,第二确定模块具体用于:针对至少一个渲染组合中的每个渲染组合,根据第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,以及渲染组合中每个渲染效果的标识,确定音乐匹配得分;根据第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及渲染组合中每个渲染效果的标识,确定图像匹配得分;确定第一张图像对应的内部组合分数;将音乐匹配得分、图像匹配得分和内部组合分数,确定为渲染组合对应的组合得分。
可选地,第一确定模块具体用于:通过预先存储的图像特征提取模型,对至少两张图像进行特征提取,得到至少两张图像的第一特征信息;通过预先存储的音乐特征提取模型,对音乐进行特征提取,得到第二特征信息。
可选地,生成模块具体用于:按照目标渲染效果组合中至少两张图像各自对应的动画、特效和转场,依次显示至少两张图像、并播放所述音乐,以生成视频。
可选地,获取模块具体用于:响应于对多张待选图像中的至少两张目标图像的选择操作,将至少一张目标图像确定为至少两张图像;响应于对多个待选音乐中的目标音乐的选择操作,将目标音乐确定为至少两张图像匹配的音乐。
第三方面,本申请实施例提供一种电子设备,包括:处理器,以及与处理器通信连接的存储器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,以实现如第一方面中任一项的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一方面中任一项的方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面中任一项的方法。
本申请实施例提供一种视频生成方法、装置、设备及存储介质,视频生成方法包括:获取至少两张图像和与至少两张图像匹配的音乐;确定至少两张图像的第一特征信息和音乐的第二特征信息;根据第一特征信息、第二特征信息和预先存储的多个渲染效果,确定目标渲染效果组合;渲染效果为动画、特效、或者转场;根据至少两张图像、音乐和目标渲染效果组合,生成视频。在上述方法中,通过根据至少两张图像、音乐和目标渲染效果组合,生成视频的手段,达到提高视频的丰富性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的应用场景示意图;
图2为本申请实施例提供的视频生成方法的流程图;
图3为本申请实施例提供的一种确定目标渲染效果组合的方法流程图;
图4为申请实施例提供的确定N个初始待选组合的方法流程图;
图5为本申请实施例提供的一种确定目标渲染效果组合的循环方法流程图;
图6为本申请实施例提供的视频生成装置的结构图;
图7为本申请实施例提供的电子设备的硬件示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
首先对本申请涉及的专业术语进行解释。
动画,指对一张图像的形变和位移的效果。
转场,指两张图像之间切换的效果。
特效,指对图像做一些粒子特效或者明暗色彩变化。
接着现有技术进行说明。
在相关技术中,电子设备根据音乐为该组图像推荐特效,进而根据该组图像、音乐、以及推荐的特性,生成视频,使得生成的视频的丰富性较差。
而在本申请中,为了提高视频的丰富性,发明人想到确定出与至少两张图像和音乐对应的目标渲染效果组合,目标渲染效果组合中可以包括动画、转场和特效中的至少一种渲染效果,并根据至少两张图像、音乐和目标渲染效果组合,生成视频,使得视频可以具有动画、转场和特效中的至少一种渲染效果,从而提高视频的丰富性。
下面结合图1对本申请涉及的应用场景进行说明,具体的,请参见图1。
图1为本申请实施例提供的应用场景示意图。如图1所示,包括:至少两张图像、音乐、多个渲染效果、目标渲染效果组合、视频。例如,至少两张图像包括图像1、图像2和图像3。
至少两张图像与音乐相匹配。
目标渲染效果组合中包括渲染效果。目标渲染效果组合为根据至少两张图像的第一特征信息、音乐的第二特征信息和多个渲染效果去确定的。
视频为根据至少两张图像、音乐和目标渲染效果组合生成的。
在本申请中,通过至少两张图像的第一特征信息、音乐的第二特征信息和多个渲染效果,确定目标渲染效果组合,进而根据至少两张图像、音乐和目标渲染效果组合,生成视频,使得视频中包括目标渲染效果组合中的渲染效果,从而提高视频的丰富性。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的视频生成方法的流程图。如图2所示,该方法包括:
S201,获取至少两张图像和与至少两张图像匹配的音乐。
可选地,本申请实施例的执行主体为电子设备,也可以为设置在电子设备中的视频生成装置,该视频生成装置可以通过软件和/或硬件的结合来实现。
电子设备可以是个人数字助理(Personal Digital Assistant,PDA)、用户设备(User Device or User Equipment)、平板电脑、台式电脑,摄像机、录像机等设备。
可选地,可以通过如下2种方式获取至少两张图像和与至少两张图像匹配的音乐。
方式1,响应于对多张待选图像中的至少两张目标图像的选择操作,将至少两张目标图像确定为至少两张图像;响应于对多个待选音乐中的目标音乐的选择操作,将目标音乐确定为至少两张图像匹配的音乐。
方式2,响应于对多张待选图像中的至少两张目标图像的选择操作,将至少两张目标图像确定为至少两张图像,并通过预设音乐匹配模型,对至少两张图像和多个待选音乐进行处理,得到与至少两张图像匹配的音乐。
可选地,多张待选图像可以为预先存储在电子设备中图像,多个待选音乐可以为预先存储在电子设备和/或预设服务器中音乐。
需要说明的是,每张图像对应于音乐中的部分音乐片段,至少两张图像各自对应的音乐片段能够组成上述音乐。
S202,确定至少两张图像的第一特征信息和音乐的第二特征信息。
可选地,可以通过如下2种方式,确定至少两张图像的第一特征信息和音乐的第二特征信息。
方式1,通过预先训练的特征提取模型,对至少两张图像和音乐进行特征提取,得到至少两张图像的第一特征信息和音乐的第二特征信息。
可选地,预先训练的特征提取模型为采用多个样本数据进行训练得到。其中,每个样本数据包括至少一张样本图像、以及与至少一张样本图像匹配的样本音乐。
方式2,通过预先存储的图像特征提取模型,对至少两张图像进行特征提取,得到至少两张图像的第一特征信息;通过预先存储的音乐特征提取模型,对音乐进行特征提取,得到第二特征信息。
第一特征信息包括第一全局特征和第一局部特征。
第一全局特征为至少两张图像中所有图像综合的特征,第一局部特征为至少两张图像中每张图像的特征。
第一全局特征包括至少两张图像对应的图像情绪标签、图像风格标签、图像场景标签中的至少一种标签。
图像情绪标签中包括第一图像情绪。例如第一图像情绪包括图像情绪Tm1、Tm2、Tm3、Tm4等。
图像风格标签中包括第一图像风格。例如第一图像风格包括图像风格Tf1、Tf3等。
图像场景标签中包括第一图像场景。例如第一图像场景包括图像场景Tt1、Tt2、Tt3等。
第一局部特征包括至少两张图像各自对应的图像情绪标签、图像风格标签、图像场景标签的至少一种标签。
图像情绪标签中包括第二图像情绪。图像风格标签中包括第二图像风格。图像场景标签中包括第二图像场景。
可选地,第一图像情绪可以与第二图像情绪相同、或者不同,第一图像风格可以与第二图像风格相同、或者不同,第一图像场景可以与第二图像场景相同、或者不同。
第二特征信息包括第二全局特征和第二局部特征。
第二全局特征包括音乐的音乐情绪标签、音乐曲风标签、音乐主题标签。
音乐情绪标签中包括第一音乐情绪。例如第一音乐情绪包括音乐情绪Me1、Me2等。
音乐曲风标签中包括第一音乐曲风。例如第一音乐曲风包括音乐曲风Mf1、Mf2等。
音乐主题标签中包括第一音乐主题。例如第一音乐主题包括音乐主题Mt1、Mt2、Mt3等。
第二局部特征包括音乐中至少两张图像各自对应的音乐片段的副歌点、乐句乐段点和节拍点。
S203,根据第一特征信息、第二特征信息和预先存储的多个渲染效果,确定目标渲染效果组合。
预先存储的多个渲染效果可以存储在预设动转特数据库中。
其中,渲染效果可以为动画、特效或者转场中的任意一种。
多个渲染效果可以包括多个不同的动画、多个不同的特效和多个不同的转场。
每个渲染效果具有各自对应的属性。例如属性包括效果方向、视觉冲击力等。
可选地,目标渲染效果组合中可以包括至少两张图像各自对应的X种渲染效果,也可以包括至少两张图像中部分张图像的各自对应的X种渲染效果,还可以包括X种渲染效果各自对应的标识、名称、类型等中的至少一种。
可选地,X种渲染效果可以包括动画、特效和转场中的至少一种。
具体的,对S203的详细说明,请参见图3实施例。
S204,根据至少两张图像、音乐和目标渲染效果组合,生成视频。
当目标渲染效果组合中包括至少两张图像各自对应的动画、特效和转场时,按照目标渲染效果组合中至少两张图像各自对应的动画、特效和转场,依次显示至少两张图像、并播放音乐,以生成视频。
需要说明的是,当目标渲染效果组合中包括至少两张图像中部分张图像各自对应的动画、特效和转场时,在依次显示至少两张图像过程中,按照目标渲染效果组合中部分张图像各自对应的动画、特效和转场,显示部分张图像。
在图2实施例提供的视频生成方法中,根据至少两张图像、音乐和目标渲染效果组合,生成视频,使得视频中可以增加目标渲染效果组合中包括的渲染效果,使得视频更加新颖有趣,从而提高了视频的丰富性。
在本申请中,在获取到至少两张图像和与至少两张图像匹配的音乐之后,电子设备可以自动执行本申请实施例提供的视频生成方法,从而减少了视频生成时间,提高了视频生成效率。其中,至少两张图像和与至少两张图像匹配的音乐可以为用户选定的,因此本申请实施例提供的视频生成方法达到了用户可操作的水平,从而提高了用户体验。
在上述图2实施例的基础上,下面结合图3对上述S203的执行过程进行详细说明。
图3为本申请实施例提供的一种确定目标渲染效果组合的方法流程图。如图3所示,该方法包括:
S301,根据第一全局特征和第二全局特征,在多个渲染效果中确定多个待选效果。
例如,当第一全局特征包括图像情绪标签、图像风格标签和图像场景标签,其中,图像情绪标签包括第一图像情绪,图像风格标签包括第一图像风格,图像场景标签包括第一图像场景,第二全局特征包括音乐情绪标签、音乐曲风标签和音乐主题标签,其中,音乐情绪标签包括第一音乐情绪,音乐曲风标签包括第一音乐曲风,音乐主题标签包括第一音乐主题时,S301具体可以包括:
针对每个渲染效果,根据渲染效果的标识,获取第一图像情绪、第一图像风格、第一图像场景各自对应的第一初始得分;根据第一初始得分,对多个渲染效果进行筛选,得到多个中间效果;
针对每个中间效果,根据中间效果的标识,获取第一音乐情绪、第一音乐曲风、第一音乐主题各自对应的第二初始得分;根据第二初始得分,对多个中间效果进行筛选,得到多个待选效果。
可选地,根据渲染效果的标识,从第一预设列表中获取第一图像情绪对应的第一初始得分,从第二预设列表中获取第一图像风格对应的第一初始得分,从第三预设列表中获取第一图像场景对应的第一初始得分。其中,第一预设列表为图像情绪标签对应的列表,第二预设列表为图像风格标签对应的列表,第三预设列表为图像场景标签对应的列表。例如,第一预设列表如下表1所示,第二预设列表如下表2所示,第三预设列表如下表3所示。
表1
标识 名称 类型 Tm1 Tm2 ……
1 名称1 动画 A11 A12 ……
2 名称2 动画 A21 A22 ……
3 名称3 转场 A31 A32 ……
4 名称4 转场 A41 A42 ……
5 名称5 特效 A51 A52 ……
6 名称6 特效 A61 A62 ……
…… …… …… …… …… ……
表2
标识 名称 类型 Tf1 Tf2 ……
1 名称1 动画 B11 B12 ……
2 名称2 动画 B21 B22 ……
3 名称3 转场 B31 B32 ……
4 名称4 转场 B41 B42 ……
5 名称5 特效 B51 B52 ……
6 名称6 特效 B61 B62 ……
…… …… …… …… …… ……
表3
标识 名称 类型 Tt1 Tt2 ……
1 名称1 动画 C11 C12 ……
2 名称2 动画 C21 C22 ……
3 名称3 转场 C31 C32 ……
4 名称4 转场 C41 C42 ……
5 名称5 特效 C51 C52 ……
6 名称6 特效 C61 C62 ……
…… …… …… …… …… ……
在表1-3中,A11~A62、B11~B62、C11~C62为第一初始得分。
例如,当第一图像情绪包括Tm1和Tm2,第一图片风格包括Tf1,第一图片场景包括Tt1、Tt2时;针对标识为1的渲染效果,根据标识1,从第一预设列表中获取Tm1对应的第一初始得分A11和Tm2对应的第一初始得分A12,从第二预设列表中获取Tf1对应的第一初始得分B11,从第三预设列表中获取Tt1对应的第一初始得分C11和Tt2对应的第一初始得分C12。
其中,根据第一初始得分,对多个渲染效果进行筛选,得到多个中间效果,包括:针对每个渲染效果,将第一图像情绪、第一图像风格、第一图像场景各自对应的第一初始得分之和,确定为渲染效果对应的第一目标得分;将多个渲染效果中第一目标得分大于或等于第一阈值的渲染效果,确定为多个中间效果。
例如,针对标识为1的渲染效果,将A11、A12、B11、C11、C12之和,确定为标识为1的渲染效果对应的第一目标得分。
进一步地,可以根据中间效果的标识,从第四预设列表中获取第一音乐情绪对应的第二初始得分,从第五预设列表中获取第一音乐曲风对应的第二初始得分,从第六预设列表中获取第一音乐主题对应的第二初始得分。其中,第四预设列表为音乐情绪标签对应的列表,第五预设列表为音乐曲风标签对应的列表,第六预设列表为音乐主题标签对应的列表。例如,第四预设列表如下表4所示,第五预设列表如下表5所示,第六预设列表如下表6所示。
表4
标识 名称 类型 Me1 Me2 ……
1 名称1 动画 D11 D12 ……
2 名称2 动画 D21 D22 ……
3 名称3 转场 D31 D32 ……
4 名称4 转场 D41 D42 ……
5 名称5 特效 D51 D52 ……
6 名称6 特效 D61 D62 ……
…… …… …… …… …… ……
表5
标识 名称 类型 Mf1 Mf 2 ……
1 名称1 动画 E11 E12 ……
2 名称2 动画 E21 E22 ……
3 名称3 转场 E31 E32 ……
4 名称4 转场 E41 E42 ……
5 名称5 特效 E51 E52 ……
6 名称6 特效 E61 E62 ……
…… …… …… …… …… ……
表6
标识 名称 类型 Mt1 Mt2 ……
1 名称1 动画 F11 F12 ……
2 名称2 动画 F21 F22 ……
3 名称3 转场 F31 F32 ……
4 名称4 转场 F41 F42 ……
5 名称5 特效 F51 F52 ……
6 名称6 特效 F61 F62 ……
…… …… …… …… …… ……
在表4-6中,D11~D62、E11~E62、F11~F62为第二初始得分。
例如,当第一音乐情绪包括Me1,第一音乐曲风包括Mf1、Mf2,第一音乐主题包括Mt1时,针对标识为4的中间效果,根据标识4,从第四预设列表中获取Me1对应第二初始得分D41,从第五预设列表中获取Mf1对应的第二初始得分E41和Mf2对应的第二初始得分E42,从第六预设列表中Mt1对应的第二初始得分F41。
可选地,根据第二初始得分,对多个中间效果进行筛选,得到多个待选效果,包括:针对每个中间效果,将第一音乐情绪、第一音乐曲风、第一音乐主题各自对应的第二初始得分之和,确定为中间效果对应的第二目标得分;将多个中间效果中第二目标得分大于或等于第二阈值的中间效果,确定为多个待选效果。
例如,针对标识为4的中间效果,将D41、E41、E42、F41之和确定为第二目标得分。
可选地,第一阈值与第二阈值的大小可以相同,也可以不同。
S302,根据第一局部特征,在多个待选效果中确定至少一个目标效果。
可选地,第一局部特征中包括至少两张图像各自对应的第二图像情绪、第二图像风格和第二图像场景;根据第一局部特征,在多个待选效果中确定至少一个目标效果,包括:
针对每张图像,根据多个待选效果和图像对应的第二图像情绪、第二图像风格、第二图像场景,确定多个待选效果在图像条件下各自对应的第三目标得分;
根据多个待选效果各自对应的第三目标得分,在多个待选效果中确定至少一个目标效果。
可选地,可以通过如下方法确定第三目标得分:
针对每张图像中的任意一张图像,在该图像条件下:
针对每个待选效果中的任意一个待选效果,根据该待选效果的标识,从第一预设列表中获取该图像的第二图像情绪对应的第一初始得分,从第二预设列表中获取该图像的第二图像风格对应的第一初始得分,从第三预设列表中获取该图像的第二图像场景对应的第一初始得分;将第二图像情绪对应的第一初始得分、第二图像风格对应的第一初始得分、第二图像场景对应的第一初始得分之和,确定为在该图像条件下的该待选效果对应的第三目标得分。
下面以至少两张图像包括图像1和图像2,图像1的第二图像情绪包括Tm1、第二图像风格包括Tf1、第二图像场景包括Tt1,图像2的第二图片情绪包括Tm2、第二图像风格包括Tf1、第二图像场景Tt1和Tt2为例,对得到第三目标得分的方法进行说明。
在图像1的条件下:
针对标识为1的待选效果,从第一预设列表中获取Tm1对应的第一初始得分A11,从第二预设列表中获取Tf1对应的第一初始得分B11,从第三预设列表中获取Tt1对应的第一初始得分C11,将A11、B11、C11之和,确定为在图像1的条件下标识为1的待选效果对应的第三目标得分。
在图像2的条件下:
针对标识1的待选效果,从第一预设列表中获取Tm2对应的第一初始得分A12,从第二预设列表中获取Tf1对应的第一初始得分B11,分别从第三预设列表中获取Tt1对应的第一初始得分C11和Tt2对应的第一初始得分C12,将A11、B11、C11、C12之和,确定为在图像2的条件下标识为1的待选效果对应的第三目标得分。
可选地,可以通过如下3种方式,在多个待选效果中确定至少一个目标效果。
方式1,将多个待选效果中第三目标得分大于或等于第三阈值的待选效果,确定为至少一个目标效果。
例如,将多个待选效果中,在图像1的条件下多个待选效果对应的第三目标得分大于或等于第三阈值的待选效果、以及在图像2的条件下多个待选效果对应的第三目标得分大于或等于第三阈值的待选效果,确定为至少一个目标效果。
方式2,针对每个待选效果,确定在图像1的条件下该待选效果对应的第三目标得分与在图像2的条件下该待选效果对应的第三目标得分之和,将该和确定为待选效果对应的总得分;将多个待选效果中总得分大于或等于第五阈值的待选效果,确定为至少一个目标效果。
方式3,将多个待选效果中,在图像1的条件下多个待选效果对应的第三目标得分大于或等于第三阈值的待选效果,确定为第一目标效果;
将多个待选效果中,在图像2的条件下多个待选效果对应的第三目标得分大于或等于第三阈值的待选效果,确定为第二目标效果;
将所述第一目标效果和所述第二目标效果,确定为至少一个目标效果。
S303,对至少一个目标效果进行组合处理,得到至少一个渲染组合。
例如,至少一个目标效果包括2个动画、5个转场、3个特效时,对2个动画、5个转场、3个特效进行组合处理,得到30(等于2、5、3的乘积)个渲染组合。
S304,根据第一局部特征、第二局部特征和至少一个渲染组合,确定目标渲染效果组合。
具体的,第一局部特征包括至少两张图像各自对应的第二图像情绪、第二图像风格和第二图像场景;第二局部特征包括音乐中至少两张图像各自对应的音乐片段的副歌点、乐句乐段点和节拍点;S304包括:
S3041,根据至少两张图像中的第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,对至少一个渲染组合进行筛选,得到N个初始待选组合。
N为大于或等于1的整数。
具体的,对S3041的详细说明,请参见图4实施例。
S3042,根据N个初始待选组合和至少一个渲染组合,确定M个第j-1待选组合,M等于N与至少一个渲染组合的总数量的乘积;根据第j张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第j张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,对M个第j-1待选组合进行筛选,确定N个第j待选组合,并将所述N个第j待选组合作为新的N个初始待选组合,j加1,并重复执行此步骤,直至到达至少两张图像中的最后一张图像,并将最后一张图像对应的待选组合确定为目标渲染效果组合。
j为大于或等于2的整数。j的初始值为2。
需要说明的是,针对至少两张图像中除第一张图像之外的其他图像重复执行S3042。具体的,对S3042的详细说明,请参见图5实施例。
在图3实施例中,根据第一全局特征和第二全局特征,在多个渲染效果中确定多个待选效果,进而根据第一局部特征,在多个待选效果中确定至少一个目标效果,能够使得至少一个目标效果是与至少两张图像和音乐的匹配度较高的渲染效果。而且对至少一个目标效果进行组合处理,得到至少一个渲染组合,根据第一局部特征、第二局部特征和至少一个渲染组合,确定目标渲染效果组合,能够使得目标渲染效果组合是与至少两张图像和音乐最为匹配的渲染效果组合,进而提高生成视频的丰富性。
此外在图3实施例中,在确定至少一个目标效果之后,对至少一个目标效果进行组合处理,得到至少一个渲染组合,根据第一局部特征、第二局部特征和至少一个渲染组合,确定目标渲染效果组合,可以减少生成视频过程中涉及的计算量,进而提高视频的生成效率。
下面结合图4对S3041的执行过程进行说明。
图4为申请实施例提供的确定N个初始待选组合的方法流程图。如图4所示,该方法包括:
S401,根据第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,确定至少一个渲染组合各自对应的组合得分。
针对至少一个渲染组合中的每个渲染组合:根据第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,以及渲染组合中每个渲染效果的标识,确定音乐匹配得分;
根据第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及渲染组合中每个渲染效果的标识,确定图像匹配得分;
确定第一张图像对应的内部组合分数;
将音乐匹配得分、图像匹配得分和内部组合分数,确定为渲染组合对应的组合得分。
可选地,通过如下S4011-S4013确定音乐匹配得分。
S4011,根据渲染组合中每个渲染效果的标识,从第七预设列表中获取副歌点、乐句乐段点和节拍点各自对应的第三初始得分。
例如,第七预设列表如下表7所示的格式。
表7
标识 名称 类型 副歌点 乐句乐段点 节拍点
1 名称1 动画 G11 G12 G13
2 名称2 动画 G21 G22 G23
3 名称3 转场 G31 G32 G33
4 名称4 转场 G41 G42 G43
5 名称5 特效 G51 G52 G53
6 名称6 特效 G61 G62 G63
…… …… …… …… …… ……
在表7中,G11~G63为第三初始得分。
例如,当渲染组合中包括标识为2的动画、标识为4的转场和标识为6的特效时,
从第七预设列表中获取标识为2的动画对应的副歌点的第三初始得分G21、乐句乐段点的G22和节拍点的第三初始得分G23;
从第七预设列表中获取标识为4的转场对应的副歌点的第三初始得分G41、乐句乐段点的第三初始得分G42和节拍点的第三初始得分G43;
从第七预设列表中获取标识为6的特效对应的副歌点的第三初始得分G61、乐句乐段点的第三初始得分G62和节拍点的第三初始得分G63。
S4012,根据渲染组合中每个渲染效果的标识,确定每个渲染效果的全局得分。
例如,当第一音乐情绪包括Me1,第一音乐曲风包括Mf1、Mf2,第一音乐主题包括Mt时,若渲染组合中包括标识为2的动画、标识为4的转场和标识为6的特效,
则标识为2的动画的全局得分等于标识为2的动画的第二目标得分(等于D21、E21、E22、F21之和);
则标识为4的转场的全局得分等于标识为4的转场的第二目标得分(等于D41、E41、E42、F41之和);
则标识为6的特效的全局得分等于标识为6的特效的第二目标得分(等于D61、E61、E62、F61之和)。其中,第二目标得分的计算方法可以参见上述S301,此处不再赘述。
S4013,将副歌点、乐句乐段点和节拍点各自对应的第三初始得分,以及每个渲染效果的全局得分之和,确定为音乐匹配得分。
在上述S4011~S4012的基础上,音乐匹配得分等于G21、G22、G23、G41、G42、G43、G61、G62、G63、标识为2的动画的全局得分、标识为4的转场的全局得分、标识为6的特效的全局得分之和。
可选地,可以通过如下S4021~S4022确定图像匹配得分。
S4021,根据渲染组合中每个渲染效果的标识,从第一预设列表中获取第二图像情绪对应的第一初始得分,从第二预设列表中获取第二图像风格的第一初始得分,从第三预设列表中获取第二图像场景的第一初始得分。
当渲染组合中包括标识为2的动画、标识为4的转场、标识为6的特效,以及第一张图像的第二图像情绪包括Tm1、第二图像风格包括Tf1、第二图像场景包括Tt1时,
根据标识2,从第一预设列表中获取Tm1对应的第一初始得分A21,从第二预设列表
中获取Tf1对应的第一初始得分B21,从第三预设列表中获取图像场景Tt1对应的第一初
始得分C11;
根据标识4,从第一预设列表中获取Tm1对应的第一初始得分A41,从第二预设列表
中获取Tf1对应的第一初始得分B41,从第三预设列表中获取图像场景Tt1对应的第一初
始得分C41;
根据标识6,从第一预设列表中获取Tm1对应的第一初始得分A61,从第二预设列表
中获取Tf1对应的第一初始得分B61,从第三预设列表中获取图像场景Tt1对应的第一初
始得分C71。
S4022,可以根据上述S4021中得到的多个第一初始得分,确定图像匹配得分。
可选地,在S4021的基础上,将A21、B21、C11、A41、B41、C41、A61、B61、C71之和,确定为图像匹配得分。
可选地,还可以通过其他方法,根据上述S4021中得到的多个第一初始得分确定图像匹配得分,此处不再赘述。
可选地,下面以渲染效果的属性包括效果方向和视觉冲击力为例,通过如下S4031~S4035,对确定第一张图像对应的内部组合分数的方法进行说明。
S4031,根据渲染组合中每个渲染效果的标识,在第八预设列表中确定每个渲染效果对应的效果方向的第四初始得分。
例如,第八预设列表具有如下表8所示的格式。
表8
标识 名称 类型 效果方向 视觉冲击力 ……
1 名称1 动画 H11 H12 ……
2 名称2 动画 H21 H22 ……
3 名称3 转场 H31 H32 ……
4 名称4 转场 H41 H42 ……
5 名称5 特效 H51 H52 ……
6 名称6 特效 H61 H62 ……
…… …… …… …… …… ……
在表8中,H11~H63为第四初始得分。
需要说明的是,在上述表1-8中,标识为渲染效果的标识,名称为渲染效果的名称,类型为渲染效果的类型。
例如,当渲染组合中包括标识为2的动画、标识为4的转场、标识为6的特效时,根据标识2,从第八预设列表获取标识为2的动画对应的效果方向的第四初始得分H21;根据标识4,从第八预设列表获取标识为4的转场对应的效果方向的第四初始得分H41;根据标识6,从第八预设列表获取标识为6的特效对应的效果方向的第四初始得分H61。
S4032,根据每个渲染效果对应的效果方向的第四初始得分,确定效果方向属性得分。
可选地,根据每两个渲染效果各自对应的效果方向的第四初始得分,确定每两个渲染效果对应的相似度;将每两个渲染效果对应的相似度之和,确定为效果方向属性得分。可选地,相似度可以余弦相似度,也可以为其他相似度。
例如,当渲染组合中包括标识为2的动画、标识为4的转场、标识为6的特效时,根据标识为2的动画对应的效果方向的第四初始得分H21和标识为4的转场对应的效果方向的第四初始得分H41,确定标识为2的动画和标识为4的转场对应的相似度;
根据标识为4的转场对应的效果方向的第四初始得分H41和标识为6的特效对应的效果方向的第四初始得分H61,确定标识为4的转场和标识为6的特效对应的相似度;
根据标识为2的动画对应的效果方向的第四初始得分H21和标识为6的特效对应的效果方向的第四初始得分H61,确定标识为2的动画和标识为6的特效对应的相似度;
将标识为2的动画和标识为4的转场对应的相似度、标识为4的转场和标识为6的特效对应的相似度、标识为2的动画和标识为6的转场对应的相似度之和,确定为效果方向属性得分。
S4033,根据渲染组合中每个渲染效果的标识,在第八预设列表中确定每个渲染效果对应的视觉冲击力的第四初始得分。
当渲染组合中包括标识为2的动画、标识为4的转场、标识为6的特效时,根据标识2,从第八预设列表获取标识为2的动画对应的视觉冲击力的第四初始得分H22;
根据标识4,从第八预设列表获取标识为4的转场对应的视觉冲击力的第四初始得分H42;
根据标识6,从第八预设列表获取标识为6的特效对应的视觉冲击力的第四初始得分H62。
S4034,根据每个渲染效果对应的视觉冲击力的第四初始得分,确定视觉冲击力属性得分。
可选地,根据每两个渲染效果各自对应的视觉冲击力的第四初始得分,确定每两个渲染效果对应的冲击力差异得分;将每两个渲染效果对应的冲击力差异得分之和,确定为视觉冲击力属性得分。
可选地,两个渲染效果对应的冲击力差异得分可以通过如下公式:-β*|X1-X2|;其中,β为预设值,-为负号,*为乘号,X1为两个渲染效果中其中一个渲染效果对应的视觉冲击力的第四初始得分,X2为两个渲染效果中另一个渲染效果对应的视觉冲击力的第四初始得分,||为绝对值。
例如,当标识为2的动画对应的视觉冲击力的第四初始得分为H22、标识为4的转场对应的视觉冲击力的第四初始得分为H42、标识为6的特效对应的视觉冲击力的第四初始得分为H62时,视觉冲击力属性得分等于(-β*|H22-H42|)、(-β*|H42-H62|)与(-β*|H22-H62|)之和。
S4035,将效果方向属性得分和视觉冲击力属性得分之和,确定为第一张图像对应的内部组合分数。
S402,将至少一个渲染组合中组合得分大于或等于第四阈值的N个渲染组合,确定为N个初始待选组合。
具体的,N为预先设定的值。例如,N可以为10、20等,此处不对N进行限定。
在图4实施例中,根据第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,确定至少一个渲染组合各自对应的组合得分,将至少一个渲染组合中组合得分大于或等于第四阈值的N个渲染组合,确定为N个初始待选组合,使得确定出的N个初始待选组合为与第一张图像的局部特征和第一张图像对应的音乐片段的局部特征最为匹配的N初始待选组合,进而提高目标渲染效果组合与至少两张图像和音乐的匹配度。
在上述实施例的基础上,下面结合图5对在确定目标渲染效果组合过程中所涉及的循环过程进行说明。
图5为本申请实施例提供的一种确定目标渲染效果组合的循环方法流程图。如图4所示,该方法包括:
S501,根据N个初始待选组合和至少一个渲染组合,确定M个第j-1待选组合。
M等于N与至少一个渲染组合的总数量的乘积。
S502,根据第j张图像对应的第二图像情绪、第二图像风格和第二图像场景、以及第j张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,对M个第j-1待选组合进行筛选,确定N个第j待选组合。
j的初始值为2。
S503,判断j是否大于至少两张图像的总数量。
若否,则执行S504,否则执行S505。
S504,将N个第j待选组合作为新的N个初始待选组合,并将j加1,重复执行S501~S503。
S505,将N个第j待选组合中组合得分最大的第j待选组合,确定为目标渲染效果组合。
需要说明的是,在执行S505时,表示第j张图像为最后一张图像,此时,N个第j待选组合中组合得分最大的第j待选组合为最后一张图像对应的待选组合。
针对每个第j待选组合,该第j待选组合对应的组合得分等于音乐匹配得分、图像匹配得分、内部组合分数、组合匹配得分之和。
其中,音乐匹配得分的确定方法与上述S4011-S4013的执行过程相似,此处不再赘述。
其中,图像匹配得分的确定方法与上述S4021~S4022的执行过程相似,此处不再赘述。
其中,内部组合分数的确定方法与上述S4031~S4035的执行过程相似,此处不再赘述。
下面以至少两张图像包括第一张图像和第二张图像,第j待选组合中包括第一张图像的动画、转场、特效,以及第二张图像的动画、转场、特效为例,对确定组合匹配得分进行说明:
根据第j待选组合中每个渲染效果的标识,在第八预设列表中确定每个渲染效果的效果方向和视频冲击力;
根据第一张图像的动画对应的效果方向的第四初始得分和第二张图像的动画对应的效果方向的第四初始得分,确定第一相似度;
根据第一张图像的转场对应的效果方向的第四初始得分和第二张图像的转场对应的效果方向的第四初始得分,确定第二相似度;
根据第一张图像的特效对应的效果方向的第四初始得分和第二张图像的特效对应的效果方向的第四初始得分,确定第三相似度;
根据第一张图像的动画对应的视频冲击力的第四初始得分和第二张图像的动画对应的视频冲击力的第四初始得分,确定第一冲击力差异得分;
根据第一张图像的转场对应的视频冲击力的第四初始得分和第二张图像的转场对应的视频冲击力的第四初始得分,确第二冲击力差异得分;
根据第一张图像的特效对应的视频冲击力的第四初始得分和第二张图像的特效对应的视频冲击力的第四初始得分,确定第三冲击力差异得分;
将第一相似度、第二相似度、第三相似度、确定第一冲击力差异得分、第二冲击力差异得分、第二冲击力差异得分、第三冲击力差异得分之和确定为组合匹配得分。
其中,第一相似度、第二相似度、第三相似度的确定方法,与上述S4032中每两个标识对应的相似度的确定方法相似,此处不再赘述。
其中,第一冲击力差异得分、第二冲击力差异得分、第三冲击力差异得分的确定方法,与上述S4034中每两个标识对应的冲击力差异得分的确定方法相似,此处不再赘述。
图6为本申请实施例提供的视频生成装置的结构图。如图6所示,视频生成装置10包括:
获取模块101,用于获取至少两张图像和与至少两张图像匹配的音乐;
第一确定模块102,用于确定至少两张图像的第一特征信息和音乐的第二特征信息;
第二确定模块103,用于根据第一特征信息、第二特征信息和预先存储的多个渲染效果,确定目标渲染效果组合;渲染效果为动画、特效、或者转场;
生成模块104,用于根据至少两张图像、音乐和目标渲染效果组合,生成视频。
本申请实施例提供的视频生成装置可以执行上述视频生成方法,其实现原理以及有益效果类似,此处不再进行赘述。
可选地,第一特征信息包括第一全局特征和第一局部特征;第二特征信息包括第二全局特征和第二局部特征;第二确定模块103具体用于:根据第一全局特征和第二全局特征,在多个渲染效果中确定多个待选效果;根据第一局部特征,在多个待选效果中确定至少一个目标效果,并对至少一个目标效果进行组合处理,得到至少一个渲染组合;根据第一局部特征、第二局部特征和至少一个渲染组合,确定目标渲染效果组合。
可选地,第一全局特征包括至少两张图像对应的第一图像情绪、第一图像风格和第一图像场景,第二全局特征包括第一音乐情绪、第一音乐曲风和第一音乐主题;第二确定模块103具体用于:针对每个渲染效果,根据渲染效果的标识,获取第一图像情绪、第一图像风格、第一图像场景各自对应的第一初始得分;根据第一初始得分,对多个渲染效果进行筛选,得到多个中间效果;针对每个中间效果,根据中间效果的标识,获取第一音乐情绪、第一音乐曲风、第一音乐主题各自对应的第二初始得分;根据第二初始得分,对多个中间效果进行筛选,得到多个待选效果。
可选地,第二确定模块103具体用于:针对每个渲染效果,将第一图像情绪、第一图像风格、第一图像场景各自对应的第一初始得分之和,确定为渲染效果对应的第一目标得分;将多个渲染效果中第一目标得分大于或等于第一阈值的渲染效果,确定为多个中间效果。
可选地,第二确定模块103具体用于:针对每个中间效果,将第一音乐情绪、第一音乐曲风、第一音乐主题各自对应的第二初始得分之和,确定为中间效果对应的第二目标得分;将多个中间效果中第二目标得分大于或等于第二阈值的中间效果,确定为多个待选效果。
可选地,第一局部特征中包括至少两张图像各自对应的第二图像情绪、第二图像风格和第二图像场景;第二确定模块103具体用于:针对每张图像,根据多个待选效果和图像对应的第二图像情绪、第二图像风格、第二图像场景,确定多个待选效果在图像条件下各自对应的第三目标得分;根据在每张图像条件下多个待选效果各自对应的第三目标得分,在多个待选效果中确定至少一个目标效果。
可选地,第一局部特征包括至少两张图像各自对应的第二图像情绪、第二图像风格和第二图像场景;第二局部特征包括音乐中至少两张图像各自对应的音乐片段的副歌点、乐句乐段点和节拍点;第二确定模块103具体用于:根据至少两张图像中的第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,对至少一个渲染组合进行筛选,得到N个初始待选组合;N为大于或等于1的整数;根据N个初始待选组合和至少一个渲染组合,确定M个第j-1待选组合,M等于N与至少一个渲染组合的总数量的乘积;根据第j张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第j张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,对M个第j-1待选组合进行筛选,确定N个第j待选组合,并将所述N个第j待选组合作为新的N个初始待选组合,j加1,并重复执行此步骤,直至到达至少两张图像中的最后一张图像,并将最后一张图像对应的待选组合确定为目标渲染效果组合;j的初始值为2。
可选地,第二确定模块103具体用于:根据第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,确定至少一个渲染组合各自对应的组合得分;将至少一个渲染组合中组合得分大于或等于第四阈值的N个渲染组合,确定为N个初始待选组合。
可选地,第二确定模块103具体用于:针对至少一个渲染组合中的每个渲染组合,根据第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,以及渲染组合中每个渲染效果的标识,确定音乐匹配得分;根据第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及渲染组合中每个渲染效果的标识,确定图像匹配得分;确定第一张图像对应的内部组合分数;将音乐匹配得分、图像匹配得分和内部组合分数,确定为渲染组合对应的组合得分。
可选地,第一确定模块102具体用于:通过预先存储的图像特征提取模型,对至少两张图像进行特征提取,得到至少两张图像的第一特征信息;通过预先存储的音乐特征提取模型,对音乐进行特征提取,得到第二特征信息。
可选地,生成模块104具体用于:按照目标渲染效果组合中至少两张图像各自对应的动画、特效和转场,依次显示至少两张图像、并播放所述音乐,以生成视频。
可选地,获取模块101具体用于:响应于对多张待选图像中的至少两张目标图像的选择操作,将至少一张目标图像确定为至少两张图像;响应于对多个待选音乐中的目标音乐的选择操作,将目标音乐确定为至少两张图像匹配的音乐。
本申请实施例提供的视频生成装置可以执行上述视频生成方法,其实现原理以及有益效果类似,此处不再进行赘述。
图7为本申请实施例提供的电子设备的硬件示意图。如图7所示,电子设备20可以包括:收发器201、存储器202、处理器203。收发器201可以包括:发射器和/或接收器。该发射器还可称为发送器、发射机、发送端口或发送接口等类似描述,接收器还可称为接收器、接收机、接收端口或接收接口等类似描述。示例性地,收发器201、存储器202、处理器203各部分之间通过总线204相互连接。
存储器202用于存储计算机执行指令;
处理器203用于执行存储器202存储的计算机执行指令,使得处理器203执行上述视频生成方法。
本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当计算机执行指令被处理器执行时实现上述视频生成方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,可实现上述视频生成方法。
实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储器(存储介质)包括:只读存储器(read-only memory,ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(magnetic tape)、软盘(floppy disk)、光盘(optical disc)及其任意组合。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或至少一个流程和/或方框图一个方框或至少一个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或至少一个流程和/或方框图一个方框或至少一个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或至少一个流程和/或方框图一个方框或至少一个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
在本申请中,术语“包括”及其变形可以指非限制性的包括;术语“或”及其变形可以指“和/或”。本本申请中术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。本申请中,“至少一个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (16)

1.一种视频生成方法,其特征在于,包括:
获取至少两张图像和与所述至少两张图像匹配的音乐;
确定所述至少两张图像的第一特征信息和所述音乐的第二特征信息;
根据所述第一特征信息、所述第二特征信息和预先存储的多个渲染效果,确定目标渲染效果组合;所述渲染效果为动画、特效、或者转场;
根据所述至少两张图像、所述音乐和所述目标渲染效果组合,生成视频。
2.根据权利要求1所述的方法,其特征在于,所述第一特征信息包括第一全局特征和第一局部特征;所述第二特征信息包括第二全局特征和第二局部特征;
所述根据所述第一特征信息、所述第二特征信息和预先存储的多个渲染效果,确定目标渲染效果组合,包括:
根据所述第一全局特征和所述第二全局特征,在所述多个渲染效果中确定多个待选效果;
根据所述第一局部特征,在所述多个待选效果中确定至少一个目标效果,并对所述至少一个目标效果进行组合处理,得到至少一个渲染组合;
根据所述第一局部特征、所述第二局部特征和所述至少一个渲染组合,确定所述目标渲染效果组合。
3.根据权利要求2所述的方法,其特征在于,所述第一全局特征包括所述至少两张图像对应的第一图像情绪、第一图像风格和第一图像场景,所述第二全局特征包括第一音乐情绪、第一音乐曲风和第一音乐主题;
所述根据所述第一全局特征和所述第二全局特征,在所述多个渲染效果中确定多个待选效果,包括:
针对每个渲染效果,根据所述渲染效果的标识,获取所述第一图像情绪、所述第一图像风格、所述第一图像场景各自对应的第一初始得分;
根据所述第一初始得分,对所述多个渲染效果进行筛选,得到多个中间效果;
针对每个中间效果,根据所述中间效果的标识,获取所述第一音乐情绪、所述第一音乐曲风、所述第一音乐主题各自对应的第二初始得分;
根据所述第二初始得分,对所述多个中间效果进行筛选,得到所述多个待选效果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一初始得分,对所述多个渲染效果进行筛选,得到多个中间效果,包括:
针对每个渲染效果,将所述第一图像情绪、所述第一图像风格、所述第一图像场景各自对应的第一初始得分之和,确定为所述渲染效果对应的第一目标得分;
将所述多个渲染效果中第一目标得分大于或等于第一阈值的渲染效果,确定为所述多个中间效果。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第二初始得分,对所述多个中间效果进行筛选,得到所述多个待选效果,包括:
针对每个中间效果,将所述第一音乐情绪、所述第一音乐曲风、所述第一音乐主题各自对应的第二初始得分之和,确定为所述中间效果对应的第二目标得分;
将所述多个中间效果中第二目标得分大于或等于第二阈值的中间效果,确定为所述多个待选效果。
6.根据权利要求2-5中任一项所述的方法,其特征在于,所述第一局部特征中包括所述至少两张图像各自对应的第二图像情绪、第二图像风格和第二图像场景;
所述根据所述第一局部特征,在所述多个待选效果中确定至少一个目标效果,包括:
针对每张图像,根据所述多个待选效果和所述图像对应的第二图像情绪、第二图像风格、第二图像场景,确定所述多个待选效果在所述图像条件下各自对应的第三目标得分;
根据所述多个待选效果各自对应的第三目标得分,在所述多个待选效果中确定所述至少一个目标效果。
7.根据权利要求2-5中任一项所述的方法,其特征在于,所述第一局部特征包括所述至少两张图像各自对应的第二图像情绪、第二图像风格和第二图像场景;
所述第二局部特征包括所述音乐中所述至少两张图像各自对应的音乐片段的副歌点、乐句乐段点和节拍点;
所述根据所述第一局部特征、所述第二局部特征和所述至少一个渲染组合,确定目标渲染效果组合,包括:
根据所述至少两张图像中的第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及所述第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,对所述至少一个渲染组合进行筛选,得到N个初始待选组合;N为大于或等于1的整数;
根据所述N个初始待选组合和所述至少一个渲染组合,确定M个第j-1待选组合,M等于N与至少一个渲染组合的总数量的乘积;根据所述第j张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及所述第j张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,对所述M个第j-1待选组合进行筛选,确定N个第j待选组合,并将所述N个第j待选组合作为新的N个初始待选组合,j加1,并重复执行此步骤,直至到达所述至少两张图像中的最后一张图像,并将所述最后一张图像对应的待选组合确定为所述目标渲染效果组合;j的初始值为2。
8.根据权利要求7所述的方法,其特征在于,根据第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及所述第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,对所述至少一个渲染组合进行筛选,得到N个初始待选组合,包括:
根据所述第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及所述第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,确定所述至少一个渲染组合各自对应的组合得分;
将至少一个渲染组合中组合得分大于或等于第四阈值的N个渲染组合,确定为所述N个初始待选组合。
9.根据权利要求8所述的方法,其特征在于,所述根据所述第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及所述第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,确定所述至少一个渲染组合各自对应的组合得分,包括:
针对所述至少一个渲染组合中的每个渲染组合,根据所述第一张图像对应的音乐片段的副歌点、乐句乐段点和节拍点,以及所述渲染组合中每个渲染效果的标识,确定音乐匹配得分;
根据所述第一张图像对应的第二图像情绪、第二图像风格和第二图像场景,以及所述渲染组合中每个渲染效果的标识,确定图像匹配得分;
确定所述第一张图像对应的内部组合分数;
将所述音乐匹配得分、所述图像匹配得分和所述内部组合分数,确定为所述渲染组合对应的组合得分。
10.根据权利要求1-5中任一项所述的方法,其特征在于,所述确定所述至少两张图像的第一特征信息和所述音乐的第二特征信息,包括:
通过预先存储的图像特征提取模型,对所述至少两张图像进行特征提取,得到所述至少两张图像的第一特征信息;
通过预先存储的音乐特征提取模型,对所述音乐进行特征提取,得到所述第二特征信息。
11.根据权利要求1-5中任一项所述的方法,其特征在于,所述目标渲染效果组合中包括所述至少两张图像各自对应的动画、特效和转场;
所述根据所述至少两张图像、所述音乐和所述目标渲染效果组合,生成视频,包括:
按照所述目标渲染效果组合中所述至少两张图像各自对应的动画、特效和转场,依次显示所述至少两张图像、并播放所述音乐,以生成所述视频。
12.根据权利要求1-5中任一项所述的方法,其特征在于,所述获取至少两张图像和与所述至少两张图像匹配的音乐,包括:
响应于对多张待选图像中的至少两张目标图像的选择操作,将所述至少两张目标图像确定为所述至少两张图像;
响应于对多个待选音乐中的目标音乐的选择操作,将所述目标音乐确定为所述至少两张图像匹配的音乐。
13.一种视频生成装置,其特征在于,包括:获取模块,用于获取至少两张图像和与所述至少两张图像匹配的音乐;
第一确定模块,用于确定所述至少两张图像的第一特征信息和所述音乐的第二特征信息;
第二确定模块,用于根据所述第一特征信息、所述第二特征信息和预先存储的多个渲染效果,确定目标渲染效果组合;所述渲染效果为动画、特效、或者转场;
生成模块,用于根据所述至少两张图像、所述音乐和所述目标渲染效果组合,生成视频。
14.一种电子设备,其特征在于,包括:处理器和与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-12中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-12中任一项所述的方法。
16.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现如权利要求1-12中任一项所述的方法。
CN202111373450.1A 2021-11-18 2021-11-18 视频生成方法、装置、设备及存储介质 Pending CN116152393A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111373450.1A CN116152393A (zh) 2021-11-18 2021-11-18 视频生成方法、装置、设备及存储介质
PCT/SG2022/050839 WO2023091090A2 (zh) 2021-11-18 2022-11-18 视频生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111373450.1A CN116152393A (zh) 2021-11-18 2021-11-18 视频生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116152393A true CN116152393A (zh) 2023-05-23

Family

ID=86356830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111373450.1A Pending CN116152393A (zh) 2021-11-18 2021-11-18 视频生成方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN116152393A (zh)
WO (1) WO2023091090A2 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109615682A (zh) * 2018-12-07 2019-04-12 北京微播视界科技有限公司 动画生成方法、装置、电子设备及计算机可读存储介质
CN110278388B (zh) * 2019-06-19 2022-02-22 北京字节跳动网络技术有限公司 展示视频的生成方法、装置、设备及存储介质
CN110688496A (zh) * 2019-09-26 2020-01-14 联想(北京)有限公司 一种多媒体文件处理的方法及装置
CN113569088B (zh) * 2021-09-27 2021-12-21 腾讯科技(深圳)有限公司 一种音乐推荐方法、装置以及可读存储介质

Also Published As

Publication number Publication date
WO2023091090A2 (zh) 2023-05-25
WO2023091090A3 (zh) 2023-08-10

Similar Documents

Publication Publication Date Title
CN108230359B (zh) 目标检测方法和装置、训练方法、电子设备、程序和介质
CN104166706B (zh) 基于代价敏感主动学习的多标签分类器构建方法
CN110503074A (zh) 视频帧的信息标注方法、装置、设备及存储介质
CN110148400A (zh) 发音类型的识别方法、模型的训练方法、装置及设备
CN112966697A (zh) 基于场景语义的目标检测方法、装置、设备及存储介质
CN108460098B (zh) 信息推荐方法、装置和计算机设备
CN111836118B (zh) 视频处理方法、装置、服务器及存储介质
CN102737255A (zh) 目标检测设备和方法
WO2016014373A1 (en) Identifying presentation styles of educational videos
US20150213331A1 (en) Emotion modification for image and video content
CN112232346A (zh) 语义分割模型训练方法及装置、图像语义分割方法及装置
CN111243601A (zh) 声纹聚类方法、装置、电子设备和计算机可读存储介质
US20200151458A1 (en) Apparatus and method for video data augmentation
JP6917788B2 (ja) 要約映像生成装置及びプログラム
CN113901263B (zh) 一种视频素材的标签生成方法及装置
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN114595780A (zh) 图文处理模型训练及图文处理方法、装置、设备及介质
CN111291754B (zh) 一种文本级联检测方法、装置及存储介质
CN116152393A (zh) 视频生成方法、装置、设备及存储介质
CN109766922B (zh) 数据处理方法、装置、存储介质及电子设备
CN115438223B (zh) 视频处理方法、装置、电子设备及存储介质
CN108563688B (zh) 一种影视剧本人物情绪识别方法
CN106354736A (zh) 一种重复视频的判断方法及装置
CN115278300A (zh) 视频处理方法、装置、电子设备、存储介质和程序产品
CN116137672A (zh) 视频生成方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination