CN114928755A

CN114928755A - 一种视频制作方法、电子设备及计算机可读存储介质

Info

Publication number: CN114928755A
Application number: CN202210505595.0A
Authority: CN
Inventors: 刘勇; 桂祖宏; 赵芹; 钟德艮; 王超
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-08-19
Anticipated expiration: 2042-05-10
Also published as: CN114928755B

Abstract

本发明公开了一种视频制作方法、电子设备及计算机可读存储介质，涉及视频制作技术领域，以解决现有的视频制作方法呈现形式较为单一问题。该方法包括：根据目标歌曲的歌词，对N张照片中的对象特征进行处理，获得对象特征连续变化的多组视频图像帧；其中，每张照片对应一组视频图像帧，每组视频图像帧包括多个视频图像；根据所述多组视频图像帧与所述目标歌曲的歌词播放时段之间的对应关系，生成视频文件；其中，每组视频图像帧对应至少一句歌词。本发明实施例能够实现在歌曲播放过程中，让用户输入的照片中的对象动起来，使视频更生动形象，丰富了视频的呈现形式。

Description

一种视频制作方法、电子设备及计算机可读存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频制作方法、电子设备及计算机可读存储介质。

背景技术

随着多媒体技术发展，视频表达的内容更多，目前将照片转为视频的方式也比较多，常见的照片转视频方法是利用第三方软件将图片导入，然后添加字幕和音频，渲染出一个视频。这种采用第三方软件及人为处理的方式得到的MV视频，仅做了照片的切换显示，呈现形式较为单一。

发明内容

本发明实施例提供一种视频制作方法、电子设备及计算机可读存储介质，以解决现有的视频制作方法呈现形式较为单一的问题。

第一方面，本发明实施例提供了一种视频制作方法，包括：

根据目标歌曲的歌词，对N张照片中的对象特征进行处理，获得对象特征连续变化的多组视频图像帧；其中，每张照片对应一组视频图像帧，每组视频图像帧包括多个视频图像；

根据所述多组视频图像帧与所述目标歌曲的歌词播放时段之间的对应关系，生成视频文件；其中，每组视频图像帧对应至少一句歌词。

可选地，所述根据目标歌曲的歌词，对N张照片中的对象特征进行处理，获得对象特征连续变化的多组视频图像帧，包括：

确定所述目标歌曲的歌词情感值；

根据所述目标歌曲的歌词内容和所述歌词情感值，对每张照片中的人物面部特征进行处理，获得面部特征连续变化的所述多组视频图像帧。

可选地，所述根据所述目标歌曲的歌词内容和所述歌词情感值，对每张照片中的人物面部特征进行处理，获得面部特征连续变化的多组视频图像帧，包括：

根据所述目标歌曲的歌词情感，对每张照片中的人物表情进行处理，得到人物表情连续变化的第一图像集；

根据所述目标歌曲的歌词内容，对所述第一图像集中的人物口型进行处理，得到人物口型连续变化的第二图像集；

对所述第二图像集中各图像之间的人物表情和人物口型进行过渡处理，得到人物表情和人物口型连续变化的多组视频图像帧。

可选地，所述根据目标歌曲的歌词，对N张照片中的对象特征进行处理，获得对象特征连续变化的多组视频图像帧之前，所述方法还包括：

确定所述目标歌曲的歌词关联关系；

确定所述目标歌曲的歌词情感值；

根据所述歌词关联关系和所述歌词情感值，确定所述目标歌曲适用的照片张数。

可选地，所述确定所述目标歌曲的歌词关联关系包括：

根据所述目标歌曲的歌手数量、歌手性别、男声歌词数、女生歌词数和合唱歌词数中的至少一项，确定所述目标歌曲的歌词关联关系。

可选地，所述确定所述目标歌曲的歌词情感值包括：

基于所述目标歌曲的每句歌词，计算每句歌词对应的第一情感值；

基于歌手演唱所述目标歌曲的每句歌词的歌声，计算每句歌词对应的第二情感值；

根据所述第一情感值和所述第二情感值，计算每句歌词的歌词情感值。

接收用户输入的N张照片；

根据每张照片的第一特征信息和所述目标歌曲的每句歌词的第二特征信息，确定歌词与照片的对应关系；

其中，每张照片对应至少一句歌词；所述第一特征信息包括：人物数量、人物性别；所述第二特征信息包括：歌手数量、歌手性别。

可选地，上述视频制作方法还包括：

在由第M句歌词切换至第M+1句歌词的过程中，根据歌词情感值与转场动画之间的对应关系，确定与所述第M句歌词的歌词情感值对应的目标转场动画；

在由第M组视频图像帧切换至第M+1组视频图像帧的过程中，显示所述目标转场动画；其中，所述第M句歌词与所述第M组视频图像帧对应，所述第M+1句歌词匹配所述第M+1组视频图像帧；M属于正整数。

第二方面，本发明实施例还提供一种电子设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器，用于读取存储器中的程序实现如上所述的视频制作方法中的步骤。

第三方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的视频制作方法中的步骤。

在本发明实施例中，根据目标歌曲的歌词，对N张照片中的对象特征进行处理，获得对象特征连续变化的多组视频图像帧；其中，每张照片对应一组视频图像帧，每组视频图像帧包括多个视频图像；根据所述多组视频图像帧与所述目标歌曲的歌词播放时段之间的对应关系，生成视频文件；其中，每组视频图像帧对应至少一句歌词。这样，能够实现在歌曲播放过程中，让用户输入的照片中的对象动起来，使视频更生动形象，丰富了视频的呈现形式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视频制作方法的流程图；

图2是本发明实施例提供的视频制作界面示意图；

图3是本发明实施例提供的视频制作装置的结构图；

图4是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的视频制作方法的流程图，如图1所示，包括以下步骤：

步骤101，根据目标歌曲的歌词，对N张照片中的对象特征进行处理，获得对象特征连续变化的多组视频图像帧；其中，每张照片对应一组视频图像帧，每组视频图像帧包括多个视频图像。

该步骤中，歌词与照片的对应关系可以包括：所有歌词对应一张照片，一段歌词对应一张照片，也可以是一句歌词对应一张照片，或者几句歌词对应一张照片。在播放歌词时，与歌词对应的视频显示画面是基于与该歌词对应的照片生成的对象特征连续变化的一组视频图像帧。通过播放该组视频图像帧，实现照片中的对象特征的动态变化。

其中，照片中的对象特征包括以下至少一项：人的特征、物的特征，如人的面部特征、肢体特征、外貌特征；物可以包括：植物、动物或其他有形的物体。

步骤102，根据所述多组视频图像帧与所述目标歌曲的歌词播放时段之间的对应关系，生成视频文件；其中，每组视频图像帧对应至少一句歌词。

该步骤中，可以将多组视频图像帧插入至所述目标歌曲的歌词播放时段。合成视频文件；或者将多组视频图像帧与所述目标歌曲的歌词播放时段进行拼接，合成视频文件，或者其他视频合成方式。这样，在播放目标歌词时，目标歌词对应的视频播放画面，是基于与目标歌词对应的照片获得的一组连续的视频图像帧所形成的动态画面。

上述实施例中，能够实现在歌曲播放过程中，让用户输入的照片中的对象动起来，使视频更生动形象，丰富了视频的呈现形式。

在一实施例中，上述步骤102，包括：

确定所述目标歌曲的歌词情感值；

其中，面部特征包括但不限于：表情、眼神、口型、脸部轮廓、眉毛等。其中，歌词情感值能够表征歌词的情感类型。

通过上述实施例，能够实现让人物的面部特征动起来，实现照片中的人在唱歌的动态显示效果。

在一具体实施例中，所述根据所述目标歌曲的歌词内容和所述歌词情感值，对每张照片中的人物面部特征进行处理，获得面部特征连续变化的多组视频图像帧，包括：

示例性地，在具体实现时，基于歌曲的歌词播放时间序列，在检测到歌词和照片人物时，后台自动检查对应照片的人物面部特征，根据前面计算得到的歌词情感值和歌词内容，利用条件生成对抗网络和卷积神经网络的新型网络结构对人物面部进行识别和训练，得到照片处理模型，实现基于照片处理模型得到与歌词情感值和歌词内容对应的人物表情和口型变化。

这里，条件生成对抗网络基本模型由输入Vector、G网络、D网络组成。其中，G和D一般都是由神经网络组成。G的输出是一幅图片，只不过是以全连接形式。G的输出是D的输入，D的输入还包含真实样本集。这样，D对真实样本尽量输出分数(score)高一些，对G产生的样本尽量输出score低一些。每次循环迭代，G网络不断优化网络参数，使D无法区分真假；而D网络也在不断优化网络参数，提高辨识度，让真假样本的score有差距。

其中，训练得到照片处理模型的主要步骤包括：将照片拆分成像素为256×256×3比例的输入图像对，通过带步长的卷积操作代替传统的池化层，将原图转化成多个1×1×64的特征块，再继续通过反卷积操作，将特征块还原成256×256×3的图像，将生成的伪图像输入判别器，由判别器判别输入图像的真伪，然后将结果反馈给生成器，生成器会根据结果继续迭代内部的权重参数，一定次数训练之后直至判别器无法正确判别，此时说明生成器生成的伪图像可以以假乱真。此时，可将生成器作为照片处理模型。

进一步地，基于照片处理模型，得到人物表情与歌曲情绪一致的照片，每一句歌词生成一张照片，然后每张新照片再输入卷积神经网络进行人物口型生成，得到一系列人物口型的图片集P_1～n，再利用滑动函数，处理图片集P_1～n中各个图片之间的人物表情和口型过渡的图片集P_1～n(1～m)，最后将新生成的图片集P_1～n(1～m)合成视频即可。

通过上述实施例，能够实现当女生唱歌时，优先匹配到的女生单独照片会展示并进行唱歌，人物表情及口型也会跟随歌曲发生变化，男生唱歌时也是如此，如果男生唱歌时只匹配到合照，则合照中的男生表情及口型会跟随歌曲发生变化，女生表情及口型无变化。

在一实施例中，步骤102之前，上述方法还包括：

确定所述目标歌曲的歌词关联关系；

确定所述目标歌曲的歌词情感值；

该实施例中，可以基于歌词的关联关系和情感值判断是否适用同一张照片，如情感值处于相同范围的歌词可以适用同一张照片，关联关系大于设定阈值的适用同一张照片。如此，即可基于目标歌曲的歌词关联关系和歌词情感值，确定所述目标歌曲适用的照片张数。具体应用时，可根据以下公式，计算适用的照片张数N：

其中，E_(i)为每句歌词的情感值，i＝1,2,…,m；Fx为用于计算歌词关联关系值的处理歌曲信息函数，f为用于计算照片张数N的函数值。需要说明的是，f的形式不限定，能根据参数计算得出照片张数N即可。

在一具体实施中，所述确定所述目标歌曲的歌词关联关系包括：

示例性地，可基于处理歌曲信息函数Fx(N_s,Si_sex,N_w)，计算每句歌词的关联关系；其中，N_s为歌手数量，Si_sex为歌手的性别，N_w为男女及合唱歌词句数。其中，处理歌曲信息函数可以为机器学习算法，如关联规则算法等。

在一具体实施中，所述确定所述目标歌曲的歌词情感值包括：

示例性地，可基于以下公式计算每句歌词的情感值E(m)：

E(m)＝F_em(M_y(δ₁,δ₂,……,δ_n),M_t(t₁,t₂,……,t_m))；

其中，δ_i是基于歌手唱的每个词计算得到的情感值，这里i＝1,2,…,n；M_y是计算歌手唱的每句歌声的情感值函数。τ_i是基于每个词计算得到的情感值，这里i＝1,2,…,m；M_t是计算每句歌词的情感值函数。F_em是基于歌声的情感值和歌词的情感值计算每句歌词的情感值函数，因此，每首歌的情感值可以用集合{E(1),E(2),…E(m)}表示。本申请不限定E(m)的形式，只要能计算出每句歌词的情感值即可；同样的，不限定F_em和M_y的函数的形式，只要能计算出第一情感值和第二情感值即可。另外，示例性地，在具体实现时，可根据实际需要对第一情感值和第二情感值的加权求和，计算每句歌词的歌词情感值。

在一实施例中，步骤102之前，上述方法还包括：

接收用户输入的N张照片；

根据每张照片的第一特征信息和所述目标歌曲的每句歌词的第二特征信息，确定歌词与照片的对应关系；其中，每张照片对应至少一句歌词；所述第一特征信息包括：人物数量、人物性别；所述第二特征信息包括：歌手数量、歌手性别。

示例性地，在目标歌曲的播放界面显示第一控件，第一控件用于触发显示照片上传界面；用户基于照片上传界面上传N张照片。

该实施例中，在获取到N账照片后，可通过对照片内容进行分析，识别带有人物的照片张数，每张照片的人数及性别。然后，根据目标歌曲的节奏特征，对照片进行智能排序，以插入对应歌词的播放时间段。其中，可基于照片与歌词的匹配度算法ω＝C(N_s,Si_sex,P_i)，计算得到的照片歌词匹配度ω，基于匹配度和歌词出现的时间，对照片进行排序。其中，P_i表示照片信息，包含照片人物、人数、性别等。C函数是基于照片信息、N_s为歌词对应歌手数、Si_sex为歌手性别参数。

具体匹配时，可以女生歌词部分会优先匹配女性单独照片，其次匹配有女性的合照；男生歌词部分优先匹配单独照片，其次匹配有男性的合照；合唱阶段优先匹配有多个人物的照片。

需要说明的是，当匹配度ω低于一定值时，可随机匹配一张或多张照片。

在一实施例中，上述方法还包括：

示例性的，中文歌词表达的情感往往存在铺陈、递进、高潮等不同阶段，不同阶段用不同的切换效果动画，从而带给用户更好的视觉和情感体验。如情绪低落时，用淡出效果；高兴时用炸裂效果等。

在一实施例中，接收用户输入的N张照片之前，还包括：

接收用户对第一控件的输入操作；所述第一控件用于触发显示照片上传界面；

响应于所述输入操作，在所述照片上传界面上显示提示信息；

其中，所述提示信息用于提示以下信息中的至少一项：所述目标歌曲适用的照片张数、所述目标歌曲的歌手数量、歌手性别、男声歌词数、女生歌词数和合唱歌词数。

示例性地，如图3所示，其示出有第一控件(如图3中的“MV”所标识控件)，以及提示信息，如“此歌曲中有2人合唱，一男一女，其中男生歌词数为10，女生歌词数为18，合唱歌词数为23，建议上传照片15张，合照至少一张。”，以使用户基于该提示内容，输入合适的照片张数和照片类型。

上述方案中，通过预先计算好每首歌曲的制作MV的最佳照片张数，当用户点击制作专属MV按钮进行照片上传时，会提示用户当前歌曲的最佳照片张数，用户上传完照片后，系统后台对用户照片进行检测，对照片中的人物进行识别，然后标记人物个数、人物性别，在根据音乐的节奏将照片进行排序放到对应的时间段，然后根据歌曲内容和对应情感进行模型训练，通过模型修改人物表情和对应口型，同时匹配目标视频帧间转场特效，最后渲染成一个MV视频。此外，用户可以改MV设置为视频彩铃或进行分享。

通过上述方案，一方面能够对歌曲进行分析、计算得到该歌曲适合制作MV的照片数量和照片类型，并提醒用户按照提示进行照片上传。另一方面，能够基于歌曲的节奏、歌词内容及照片内容，实现照片智能排序。而且，还通过条件生成对抗网络和卷积神经网络的新型网络结构对人物面部及口型进行了特殊处理，让人物表情和口型与歌曲内容及表达的情绪相对应，实现让照片动起来，给用户一种照片人物在唱歌的视觉，使视频更生动形象。

本发明实施例还提供了一种视频制作装置。参见图3，图3是本发明实施例提供的视频制作装置的结构图。

如图3所示，视频处理装置300包括：

第一处理模块301，用于根据目标歌曲的歌词，对N张照片中的对象特征进行处理，获得对象特征连续变化的多组视频图像帧；其中，每张照片对应一组视频图像帧，每组视频图像帧包括多个视频图像；

第二处理模块302，用于根据所述多组视频图像帧与所述目标歌曲的歌词播放时段之间的对应关系，生成视频文件；其中，每组视频图像帧对应至少一句歌词。

可选地，第一处理模块301包括：

第一处理子模块，用于确定所述目标歌曲的歌词情感值；

第二处理子模块，用于根据所述目标歌曲的歌词内容和所述歌词情感值，对每张照片中的人物面部特征进行处理，获得面部特征连续变化的所述多组视频图像帧。

可选地，第二处理子模块，包括：

第一处理单元，用于根据所述目标歌曲的歌词情感，对每张照片中的人物表情进行处理，得到人物表情连续变化的第一图像集；

第二处理单元，用于根据所述目标歌曲的歌词内容，对所述第一图像集中的人物口型进行处理，得到人物口型连续变化的第二图像集；

第三处理单元，用于对所述第二图像集中各图像之间的人物表情和人物口型进行过渡处理，得到人物表情和人物口型连续变化的多组视频图像帧。

可选地，上述装置300还包括：

第一确定模块，用于确定所述目标歌曲的歌词关联关系；

第二确定模块，用于确定所述目标歌曲的歌词情感值；

第三确定模块，用于根据所述歌词关联关系和所述歌词情感值，确定所述目标歌曲适用的照片张数。

可选地，第一确定模块包括：

第一确定子模块，用于根据所述目标歌曲的歌手数量、歌手性别、男声歌词数、女生歌词数和合唱歌词数中的至少一项，确定所述目标歌曲的歌词关联关系。

可选地，第一处理子模块和第二确定模块具体用于：

可选地，上述装置300还包括：

接收模块，用于接收用户输入的N张照片；

第四确定模块，用于根据每张照片的第一特征信息和所述目标歌曲的每句歌词的第二特征信息，确定歌词与照片的对应关系；

可选地，上述装置300还包括：

第五确定模块，用于在由第M句歌词切换至第M+1句歌词的过程中，根据歌词情感值与转场动画之间的对应关系，确定与所述第M句歌词的歌词情感值对应的目标转场动画；

显示模块，用于在由第M组视频图像帧切换至第M+1组视频图像帧的过程中，显示所述目标转场动画；其中，所述第M句歌词与所述第M组视频图像帧对应，所述第M+1句歌词匹配所述第M+1组视频图像帧；M属于正整数。

由于视频制作装置解决问题的原理与本发明实施例中视频制作方法相似，因此该视频处理装置的实施可以参见方法的实施，重复之处不再赘述。

如图4所示，本发明实施例的电子设备，包括：处理器400；以及通过总线接口与所述处理器400相连接的存储器420，所述存储器420用于存储所述处理器400在执行操作时所使用的程序和数据，处理器400调用并执行所述存储器420中所存储的程序和数据。

其中，收发机410与总线接口连接，用于在处理器400的控制下接收和发送数据；处理器400，用于读取存储器420中的程序，执行下列过程：

收发机410，用于在处理器400的控制下接收和发送数据。

其中，在图4中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器400代表的一个或多个处理器和存储器420代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机410可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的终端，用户接口430还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。处理器400负责管理总线架构和通常的处理，存储器420可以存储处理器400在执行操作时所使用的数据。

可选地，处理器400负责管理总线架构和通常的处理，存储器420可以存储处理器1300在执行操作时所使用的数据。

可选地，处理器400还用于读取所述计算机程序，执行如下步骤：

确定所述目标歌曲的歌词情感值；

确定所述目标歌曲的歌词关联关系；

确定所述目标歌曲的歌词情感值；

接收用户输入的N张照片；

本发明实施例提供的设备，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

此外，本发明实施例的计算机可读存储介质，用于存储计算机程序，所述计算机程序可被处理器执行实现如上所述的视频制作方法。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频制作方法，其特征在于，包括：

2.根据权利要求1所述的视频制作方法，其特征在于，所述根据目标歌曲的歌词，对N张照片中的对象特征进行处理，获得对象特征连续变化的多组视频图像帧，包括：

确定所述目标歌曲的歌词情感值；

3.根据权利要求2所述的视频制作方法，其特征在于，所述根据所述目标歌曲的歌词内容和所述歌词情感值，对每张照片中的人物面部特征进行处理，获得面部特征连续变化的多组视频图像帧，包括：

4.根据权利要求1所述的视频制作方法，其特征在于，所述根据目标歌曲的歌词，对N张照片中的对象特征进行处理，获得对象特征连续变化的多组视频图像帧之前，所述方法还包括：

确定所述目标歌曲的歌词关联关系；

确定所述目标歌曲的歌词情感值；

5.根据权利要求4所述的视频制作方法，其特征在于，所述确定所述目标歌曲的歌词关联关系包括：

6.根据权利要求2或4所述的视频制作方法，其特征在于，所述确定所述目标歌曲的歌词情感值包括：

7.根据权利要求4所述的视频制作方法，其特征在于，所述根据目标歌曲的歌词，对N张照片中的对象特征进行处理，获得对象特征连续变化的多组视频图像帧之前，所述方法还包括：

接收用户输入的N张照片；

8.根据权利要求1所述的视频制作方法，其特征在于，所述方法还包括：

9.一种电子设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器，用于读取存储器中的程序实现如权利要求1至8中任一项所述的视频制作方法中的步骤。

10.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的视频制作方法中的步骤。