CN114630180A

CN114630180A - 视频生成方法及装置

Info

Publication number: CN114630180A
Application number: CN202210269071.6A
Authority: CN
Inventors: 常青
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-06-14

Abstract

本申请实施例提供了视频生成方法及装置，其中，所述视频生成方法包括获取参考对象，并对所述参考对象进行处理生成待处理视频，确定背景音频，并获取所述背景音频的声波数据，基于所述声波数据以及所述待处理视频的视频信息，确定所述背景音频的目标类型点位，根据所述目标类型点位在所述背景音频中对应的时间信息，对所述待处理视频的播放速率进行调整，将调整结果与所述背景音频进行叠加，生成目标类型视频。

Description

视频生成方法及装置

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种视频生成方法。本申请一个或者多个实施例同时涉及一种视频生成装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着技术的不断进步，越来越多的人开始制作个性化的视频，例如，在视频中增加音乐，并根据音乐节奏对视频进行编辑，以使视频的画面跟随音乐的节奏播放或切换，形成卡点视频。卡点视频的制作通常可以利用软件由人工手动制作完成，具体过程大致为：选取标准模板音乐，根据标准模板音乐的重音时间，对多段视频片段进行截取，再根据标准模板音乐与截取的视频进行合并，形成卡点视频。

然而，人工制作卡点视频，需要人工逐帧截取画面，不断根据标准模板音乐的卡点的位置，调整截取的画面，导致卡点视频制作效率低。

发明内容

有鉴于此，本申请实施例提供了一种视频生成方法。本申请一个或者多个实施例同时涉及一种视频生成装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中视频制作效率低的技术缺陷。

根据本申请实施例的第一方面，提供了一种视频生成方法，包括：

获取参考对象，并对所述参考对象进行处理生成待处理视频；

确定背景音频，并获取所述背景音频的声波数据；

基于所述声波数据以及所述待处理视频的视频信息，确定所述背景音频的目标类型点位；

根据所述目标类型点位在所述背景音频中对应的时间信息，对所述待处理视频的播放速率进行调整；

将调整结果与所述背景音频进行叠加，生成目标类型视频。

根据本申请实施例的第二方面，提供了一种视频生成装置，包括：

获取模块，被配置为获取参考对象，并对所述参考对象进行处理生成待处理视频；

第一确定模块，被配置为确定背景音频，并获取所述背景音频的声波数据；

第二确定模块，被配置为基于所述声波数据以及所述待处理视频的视频信息，确定所述背景音频的目标类型点位；

调整模块，被配置为根据所述目标类型点位在所述背景音频中对应的时间信息，对所述待处理视频的播放速率进行调整；

生成模块，被配置为将调整结果与所述背景音频进行叠加，生成目标类型视频。

根据本申请实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述视频生成方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述视频生成方法的步骤。

本申请一个实施例实现了一种视频生成方法及装置，其中，所述视频生成方法包括获取参考对象，并对所述参考对象进行处理生成待处理视频，确定背景音频，并获取所述背景音频的声波数据，基于所述声波数据以及所述待处理视频的视频信息，确定所述背景音频的目标类型点位，根据所述目标类型点位在所述背景音频中对应的时间信息，对所述待处理视频的播放速率进行调整，将调整结果与所述背景音频进行叠加，生成目标类型视频。

本申请实施例在基于参考对象生成待处理视频后，可根据待处理视频的视频信息自定义目标类型点位的数量，以及背景音频中该目标类型点位的位置，并根据目标类型点位的位置对待处理视频的播放速率进行自动化调整，以生成目标类型视频；在能够保证视频生成效率的同时，还有利于保证生成的目标类型视频的适用场景和灵活性。

附图说明

图1是本申请一个实施例提供的一种视频生成方法的流程图；

图2是本申请一个实施例提供的一种背景音频的波形图；

图3是本申请一个实施例提供的一种所述视频生成方法的处理过程流程图；

图4是本申请一个实施例提供的一种视频生成装置的结构示意图；

图5是本申请一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

卡点BGM：指视频在BGM音乐的过渡音节或突出音节的时间点添加影像的过渡效果，如转场和特效，使视频增更加贴合BGM的节奏，更自然和更具有律动效果。

在本申请中，提供了一种视频生成方法。本申请一个或者多个实施例同时涉及一种视频生成装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

本申请实施例提供的所述视频生成方法可以应用于任何需要生成或制作视频的领域，例如对视频领域的视频动画的制作、对通信领域的语音视频的制作、对自媒体领域的特效视频的制作等等；为了便于理解，本申请实施例以所述视频生成方法应用于对视频领域的视频制作为例进行详细介绍，但不局限于此。

具体实施时，本申请实施例的待处理视频可以呈现于大型视频播放设备、游戏机、台式计算机、智能手机、平板电脑、MP3(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)播放器，MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机、电子书阅读器以及其它显示终端等客户端。

参见图1，图1示出了根据本申请一个实施例提供的一种视频生成方法的流程图，包括以下步骤：

步骤102，获取参考对象，并对所述参考对象进行处理生成待处理视频。

具体的，本申请实施例提供的视频生成方法，应用于多媒体平台。多媒体平台基于其自身的视频处理能力，先基于参考对象生成待处理视频，然后通过对待处理视频以及背景音频进行处理，再基于处理结果合成目标类型视频，该目标类型视频即可以是卡点视频，以使得待处理视频的播放频率与背景音频的播放频率匹配，即控制背景音频与待处理视频的画面切换节奏，以使得背景音频与待处理视频的画面节奏相匹配。

其中，参考对象即可以是任意一张图像，也可以是任意一段视频。若所述参考对象为图像，则可直接基于该参考对象生成待处理视频；若参考对象为视频，则可基于视频中的任意一帧或至少两帧视频帧生成待处理视频。

具体实施时，对所述参考对象进行处理生成待处理视频，具体可通过以下方式实现：

确定所述参考对象的至少两个目标图像；

根据插值算法对所述参考对象及所述至少两个目标图像进行处理，生成任意两个相邻目标图像间的至少一个插值图像；

基于所述至少两个目标图像以及所述至少一个插值图像生成待处理视频，其中，所述至少两个目标图像及所述至少一个插值图像为所述参考对象的局部图像。

具体的，在参考对象为图像的情况下，对参考对象进行处理生成待处理视频，具体可先在该图像中截取至少两个目标图像，目标图像为该图像的局部图像，然后可确定所述至少两个目标图像的配置参数，包括但不限于目标图像在该图像中的坐标参数以及其长度和宽度，或目标图像的长度和宽度相对于参考对象的长度和宽度的缩放比例等参数。

本申请实施例获取至少两个目标图像的配置参数后，可根据该配置参数进行插值计算，获得至少一个插值图像的配置参数，并根据至少一个插值图像的配置参数确定至少一个插值图像，以根据至少两个目标图像和至少一个插值图像制作待处理视频。具体可结合至少两个目标图像中第一目标图像和第二目标图像的配置参数，对第一目标图像和第二目标图像进行插值计算，并根据计算结果确定第一图像和第二图像间的至少一个插值图像，然后可将第一目标图像作为待处理视频的起始帧图像，将第二目标图像作待处理视频的结束帧图像，将至少一个插值图像作为待处理视频的中间帧图像，并基于起始帧图像、中间帧图像以及结束帧图像制作待处理视频。

另外，在参考对象为视频的情况下，至少两个目标对象则可以是在该视频的任意一帧或至少两帧视频帧中截取的图像。截取获得至少两个目标对象后，基于目标对象生成待处理视频的过程与前述待处理视频的生成过程类似，在此不再赘述。

步骤104，确定背景音频，并获取所述背景音频的声波数据。

具体的，声波数据，即背景音频对应的时间及震动频率等数据。

具体可获取背景音频的音频文件(BGM音乐文件)，并通过FFMPEG程序获得该音乐文件的声波数据；其中，采用的FFMPEG程序属于开源程序，该程序主要是对音乐文件进行分析，获得音乐文件的声波数据。

获取背景音频的声波数据后，可基于声波数据构建该背景音频对应的波形图，以基于波形图确定背景音频的目标类型点位。

本申请实施例提供的一种背景音频的波形图如图2所示。波形图的横轴代表时间，纵轴表示频率。从图2可以看出，背景音频的播放时间t1、t2、t3、t4在波形图中对应的频率值均为该波形图的波峰位置。

步骤106，基于所述声波数据以及所述待处理视频的视频信息，确定所述背景音频的目标类型点位。

具体的，生成待处理视频，并获取背景音频的声波数据后，即可基于声波数据及待处理视频的视频信息，确定背景音频的目标类型点位。

其中，目标类型点位即可以是卡点位置。

具体实施时，视频信息包括视频总时长，相应的，基于所述声波数据以及所述待处理视频的视频信息，确定所述背景音频的目标类型点位，包括：

根据所述待处理视频的视频总时长，确定目标类型点位的数量；

根据所述目标类型点位的数量，及所述声波数据中包含的所述背景音频的波峰位置信息，确定满足预设条件的目标波峰位置，并将所述目标波峰位置作为所述背景音频的目标类型点位。

具体的，在生成待处理视频后，可根据待处理视频的视频时长确定目标类型点位的数量，即确定卡点数量，例如，若待处理视频时长为8s，则可以设置3个卡点。具体的卡点数量可根据实际需求进行设置，在此不做限定。

确定目标类型点位的数量，并基于声波数据构建该背景音频对应的波形图后，可在波形图中选择对应数量的目标波峰位置，并确定各目标波峰位置对应的时间点，以将背景音频中该时间点所在位置作为目标类型点位，即作为卡点位置。

例如，若根据待处理视频的时长确定卡点数量为3，则可对波形图中各波峰所对应的频率值按照由大到小的顺序进行排序，并将排序靠前的3个波峰确定为目标波峰位置，然后将背景音频中这3个目标波峰位置对应的时间点所在位置作为目标类型点位，即作为卡点位置。

另外，对所述参考对象进行处理生成待处理视频，还可根据插值算法对所述参考对象进行处理，生成至少两个待处理视频；然后可基于所述声波数据以及所述至少两个待处理视频的数量，确定所述背景音频的目标类型点位。

具体的，本申请实施例可对参考对象进行处理，生成至少两个待处理视频，其中，每个待处理视频的生成过程与前述实施例中待处理视频的生成过程类似，均是从图像或视频帧中截取至少两个目标图像，然后根据各目标图像的配置信息进行插值计算，得到两个相邻目标图像间的至少一个插值图像，以基于两个相邻目标图像和至少一个插值图像制作待处理视频，具体的实现细节可参见前述是合理记载的待处理视频的生成过程，在此不再赘述。

生成至少两个待处理视频，并基于声波数据构建该背景音频对应的波形图后，即可确定待处理视频的数量，并在波形图中选择对应数量的目标波峰位置，然后确定各目标波峰位置对应的时间点，以将背景音频中该时间点所在位置作为目标类型点位，即作为卡点位置。

例如，若待处理视频的数量为3，则可对波形图中各波峰所对应的频率值按照由大到小的顺序进行排序，并将排序靠前的3个波峰确定为目标波峰位置，然后将背景音频中这3个目标波峰位置对应的时间点所在位置作为目标类型点位，即作为卡点位置，因此，卡点位置的数量同样为3个。

步骤108，根据所述待处理视频的播放顺序，以及所述目标类型点位在所述背景音频中对应的时间信息，对所述待处理视频的播放速率进行调整。

具体实施时，根据所述目标类型点位在所述背景音频中对应的时间信息，对所述待处理视频的播放速率进行调整，包括：

根据所述目标类型点位的数量及所述待处理视频中各视频帧的特征信息，对所述待处理视频进行拆分，生成至少两个待处理子视频；

根据所述目标类型点位在所述背景音频中对应的时间信息，对所述至少两个待处理子视频的播放速率进行调整。

具体的，特征信息，即视频帧中包含的对象的特征信息，对象包括但不限于人物、动物、植物等，在对象为人物或动物的情况下，其特征信息包括但不限于表情、动作等；在对象为植物的情况下，其特征信息包括但不限于形状、大小、颜色等。

根据目标类型点位的数量及待处理视频中各视频帧的特征信息，对待处理视频进行拆分，具体可确定待处理视频中任意两个相邻视频帧之间、特征信息的变化幅度，并根据变化幅度确定待处理视频的拆分点。

实际应用中，若任意两个相邻视频帧之间特征信息的变化幅度大于预设幅度阈值，则可将这两个相邻视频帧之间的点确定为拆分点。

在确定目标类型点位的数量及各拆分点之后，可在拆分点中选择对应数量的目标拆分点，以基于目标拆分点对待处理视频进行拆分，生成至少两个待处理子视频。然后可根据目标类型点位在背景音频中对应的时间信息，对至少两个待处理子视频的播放速率进行调整。

或者，可根据待处理视频的视频信息，例如视频时长以及目标类型点位的数量对待处理视频进行拆分，拆分后各待处理子视频的视频时长相等。例如，若待处理视频的视频时长为8s，目标类型点位的数量为3，则可将待处理视频拆分为4个待处理子视频，每个待处理子视频的时长为2s，然后可在第一、第二、第三待处理子视频的结束时间点进行卡点。

进一步的，根据所述目标类型点位在所述背景音频中对应的时间信息，对所述至少两个待处理子视频的播放速率进行调整，具体可根据所述至少两个待处理子视频的播放顺序，以及所述目标类型点位在所述背景音频中对应的时间信息，对所述至少两个待处理子视频的播放速率进行调整。

更进一步的，根据所述至少两个待处理子视频的播放顺序，以及所述目标类型点位在所述背景音频中对应的时间信息，对所述至少两个待处理子视频的播放速率进行调整，包括：

基于目标类型点位在所述背景音频中对应的时间信息，确定任意两个相邻目标类型点位对应的音频片段；

根据所述至少两个待处理子视频的播放顺序确定所述音频片段与所述至少两个待处理子视频间的对应关系；

根据与目标待处理子视频对应的目标音频片段的时长，以及所述目标待处理子视频的时长，对所述目标待处理子视频的播放速率进行调整，其中，所述目标待处理子视频为所述至少两个待处理子视频之一，调整后所述目标待处理子视频的时长与所述目标音频片段的时长一致。

具体的，确定目标类型点位后，可基于目标类型点位将背景音频切分为至少两个音频片段，然后根据各待处理子视频的播放顺序确定音频片段与各待处理子视频的对应关系，从而根据该对应关系，以及音频片段和待处理子视频的时长，对待处理子视频的播放速率进行调整，调整后待处理子视频的时长及与其存在对应关系的音频片段的时长保持一致。

如图2所示，待处理视频的时长为T4s，按照视频时长将其拆分为4个待处理子视频，每个待处理子视频的时长一致；其中，0～T1s的子视频作为第一待处理子视频，T1s～T2s的子视频作为第二待处理子视频，T2s～T3s的子视频作为第三待处理子视频，T3s～T4s的子视频作为第四待处理子视频。

而图2中背景音频的波形图中，A、B、C三个点为将各波峰所对应的频率值按照由大到小的顺序进行排序生成的排序结果中，排序靠前的3个波峰，即3个目标波峰位置，然后将背景音频中这3个目标波峰位置对应的时间点(t1时刻、t2时刻、t3时刻)所在位置作为目标类型点位，即作为卡点位置。

其中，若将t1时刻、t2时刻、t3时刻所在位置确定为目标类型点位，则可将0～t1s间的音频片段作为第一音频片段，t1s～t2s间的音频片段作为第二音频片段，t2s～t3s间的音频片段作为第三音频片段，t3s～t4s间的音频片段作为第四音频片段。然后分别建立第一音频片段与第一待处理子视频、第二音频片段与第二待处理子视频、第三音频片段与第三待处理子视频、第四音频片段与第四待处理子视频之间的对应关系。

确定各音频片段与待处理子视频的对应关系之后，即可根据待处理子视频对应的时长，以及与该待处理子视频对应的音频片段的时长，对该待处理子视频的播放速率进行调整，调整后所述目标待处理子视频的时长与所述目标音频片段的时长一致。

其中，根据与目标待处理子视频对应的目标音频片段的时长，以及所述目标待处理子视频的时长，对所述目标待处理子视频的播放速率进行调整，包括：

确定目标待处理子视频的第一时长以及与所述目标待处理子视频对应的目标音频片段的第二时长；

将所述第一时长与所述第二时长的比值作为所述目标待处理子视频的目标播放速率，并基于所述目标播放速率，对所述目标待处理子视频的播放速率进行调整。

具体的，为使得各待处理视频的视频时长及与其存在对应关系的音频片段的时长保持一致，从而实现卡点效果，本申请实施例可通过调整待处理视频的播放速率的方式对待处理视频的视频时长进行调整。具体可将待处理子视频的第一时长及与该待处理子视频对应的音频片段的第二时长间的比值，作为该待处理子视频的目标播放速率，以基于该目标播放速率，对该待处理子视频的播放速率进行调整。

例如，若第一待处理子视频的视频时长T1为5s，而第一音频片段的音频时长t1为10s，则该第一待处理子视频对应的目标播放速率即为T1/t1＝0.5倍速；若第一待处理子视频的视频时长T1为10s，而第一音频片段的音频时长t1为5s，则该第一待处理子视频对应的播放速率即可以调整为T1/t1＝2倍速。

具体实施时，在基于参考对象生成至少两个待处理视频的情况下，根据所述待处理视频的播放顺序，以及所述目标类型点位在所述背景音频中对应的时间信息，对所述待处理视频的播放速率进行调整，包括：

根据所述至少两个待处理视频的播放顺序，确定各待处理视频与所述音频片段间的对应关系；

根据与目标待处理视频对应的目标音频片段的时长，以及所述目标待处理视频的时长，对所述目标待处理视频的播放速率进行调整，其中，所述目标待处理视频为所述至少两个待处理视频之一，调整后所述目标待处理视频的时长与所述目标音频片段的时长一致。

具体的，在基于参考对象生成至少两个待处理视频的情况下，为使得各待处理视频的视频时长及与其存在对应关系的音频片段的时长保持一致，从而实现卡点效果，本申请实施例同样可先基于目标类型点位，将背景音频切分为至少两个音频片段，然后确定各待处理视频与音频片段间的对应关系，并基于待处理视频的视频时长以及与该待处理视频存在对应关系的音频片段的时长，对该待处理视频的播放速率进行调整，调整后该待处理视频的时长与该音频片段的时长一致。

以生成4个待处理视频为例，则图2中，0～T1s的视频可作为第一待处理视频V1，T1s～T2s的视频可作为第二待处理视频V2，T2s～T3s的视频可作为第三待处理视频V3，T3s～T4s的视频可作为第四待处理视频V4，每个待处理视频的视频时长可一致，也可不一致，具体可根据实际需求确定，在此不做限制。

生成4个待处理视频后，为实现视频卡点效果，则可在第一、第二、第三待处理视频的结束时间点进行卡点，因此，可设置3个目标类型点位；即将图2中A、B、C三个点对应的时间点(t1时刻、t2时刻、t3时刻)所在位置作为目标类型点位，即作为卡点位置，并将0～t1s间的音频片段作为第一音频片段，t1s～t2s间的音频片段作为第二音频片段，t2s～t3s间的音频片段作为第三音频片段，t3s～t4s间的音频片段作为第四音频片段。然后分别建立第一音频片段与第一待处理视频V1、第二音频片段与第二待处理视频V2、第三音频片段与第三待处理视频V3、第四音频片段与第四待处理视频V4之间的对应关系。

确定各音频片段与待处理视频的对应关系之后，即可根据待处理视频对应的时长，以及与该待处理视频对应的音频片段的时长，对该待处理视频的播放速率进行调整，调整后该待处理视频的时长与该音频片段的时长一致。

以目标待处理视频为第一待处理视频V1为例，对于第一待处理视频V1，即可根据第一待处理视频V1对应的时长，以及与第一待处理视频V1对应的第一音频片段的时长，对第一待处理视频V1的播放速率进行调整，调整后该第一待处理视频V1的时长与该第一音频片段的时长一致。

进一步的，在目标待处理视频的第一时长大于与所述目标待处理视频对应的目标音频片段的第二时长的情况下，根据所述第一时长、所述第二时长及所述目标待处理视频包含的视频帧的初始数量，确定所述目标待处理视频包含的视频帧的目标数量；

根据所述初始数量、所述目标数量及所述目标待处理视频中各视频帧的特征信息，对所述目标待处理视频中的视频帧进行筛选处理，并基于筛选结果生成调整后的目标待处理视频。

或者，在目标待处理视频的第一时长小于与所述目标待处理视频对应的目标音频片段的第二时长的情况下，将所述第一时长与所述第二时长的比值作为所述目标待处理视频的目标播放速率，并基于所述目标播放速率，对所述目标待处理视频的播放速率进行调整。

具体的，确定各音频片段与待处理视频的对应关系之后，即可根据待处理视频对应的时长，以及与该待处理视频对应的音频片段的时长，对该待处理视频的播放速率进行调整，调整后该待处理视频的时长与该音频片段的时长一致。并且可根据待处理视频的视频时长及与其存在对应关系的音频片段的时长间的大小关系，确定待处理视频的调整方式。

以目标待处理视频为待处理视频V1为例，图2中，待处理视频V1的视频时长为1～T1s，而第一音频片段的时长为0～t1s，由于T1>t1，即待处理视频V1的视频时长大于第一音频片段的音频时长，因此，为将待处理视频V1的视频时长调整至t1s，以使待处理视频V1的视频时长与第一音频片段的音频时长保持一致，可删除待处理视频V1中的部分视频帧。

实际应用中，可根据待处理视频中各视频帧的特征信息，确定待删除视频帧。

具体的，如前所述，特征信息即视频帧中包含的对象的特征信息，在根据特征信息确定待删除视频帧的过程中，同样可根据待处理视频中任意两帧视频帧之间特征信息的变化幅度，确定待删除视频帧。例如，若任意两个相邻视频帧之间特征信息的变化幅度小于预设幅度阈值，则可将这两个相邻视频帧中的任意一个视频帧确定为待删除视频帧。

另外，在T1<t1的情况下，即表示待处理视频V1的视频时长小于第一音频片段的音频时长，因此，为将待处理视频V1的视频时长调整至t1s，以使待处理视频V1的视频时长与第一音频片段的音频时长保持一致，可降低待处理视频V1的播放速率。具体可将T1/t1的结果，确定为待处理视频V1的目标播放速率，并基于该目标播放速率，对待处理视频V1的播放速率进行调整。

步骤110，将调整结果与所述背景音频进行叠加，生成目标类型视频。

具体的，对待处理视频的播放速率进行调整，生成对应的调整结果后，即可将该调整结果与背景音频进行叠加，生成目标类型视频。

实际应用中，目标类型视频即可以是卡点视频。

参见图3，以本申请实施例提供的所述视频生成方法应用在对视频领域的卡卡点视频的生成过程的应用为例，对所述视频生成方法进行进一步说明。其中，图3示出了本申请一个实施例提供的一种视频生成方法的处理过程流程图，具体包括以下步骤：

步骤302，获取参考图像，确定参考图像的至少两个局部图像。

步骤304，根据插值算法对参考图像及至少两个局部图像进行处理，生成任意两个相邻局部图像间的至少一个插值图像。

步骤306，基于至少两个局部图像以及至少一个插值图像生成至少两个待处理视频，其中，至少一个插值图像为参考图像的局部图像。

步骤308，确定背景音频，并获取背景音频的声波数据。

步骤310，基于声波数据以及至少两个待处理视频的数量，确定背景音频的目标卡点。

步骤312，基于目标卡点在背景音频中对应的时间信息，确定任意两个相邻目标卡点对应的音频片段。

步骤314，根据至少两个待处理视频的播放顺序，确定各待处理视频与音频片段间的对应关系。

步骤316，根据目标待处理视频的第一时长及与目标待处理视频对应的目标音频片段的第二时长的比值，作为目标待处理视频的目标播放速率。

步骤318，基于目标播放速率，对目标待处理视频的播放速率进行调整。

其中，目标待处理视频为至少两个待处理视频之一，调整后目标待处理视频的时长与目标音频片段的时长一致。

步骤320，将调整结果与背景音频进行叠加，生成目标卡点视频。

本申请实施例在基于参考图像生成待处理视频后，可根据待处理视频的时长自定义目标卡点的数量，以及背景音频中该目标卡点的位置，并根据目标卡点的位置对待处理视频的播放速率进行自动化调整，以生成目标卡点视频；在能够保证视频生成效率的同时，还有利于保证生成的目标卡点视频的适用场景和灵活性。

与上述方法实施例相对应，本申请还提供了视频生成装置实施例，图4示出了本申请一个实施例提供的一种视频生成装置的结构示意图。如图4所示，该装置包括：

获取模块402，被配置为获取参考对象，并对所述参考对象进行处理生成待处理视频；

第一确定模块404，被配置为确定背景音频，并获取所述背景音频的声波数据；

第二确定模块406，被配置为基于所述声波数据以及所述待处理视频的视频信息，确定所述背景音频的目标类型点位；

调整模块408，被配置为根据所述目标类型点位在所述背景音频中对应的时间信息，对所述待处理视频的播放速率进行调整；

生成模块410，被配置为将调整结果与所述背景音频进行叠加，生成目标类型视频。

可选地，所述获取模块402，还被配置为：

确定所述参考对象的至少两个目标图像；

可选地，所述调整模块408，还被配置为：

可选地，所述调整模块408，进一步被配置为：根据所述至少两个待处理子视频的播放顺序，以及所述目标类型点位在所述背景音频中对应的时间信息，对所述至少两个待处理子视频的播放速率进行调整。

可选地，所述调整模块408，还被配置为：

可选地，所述获取模块402，还被配置为：

根据插值算法对所述参考对象进行处理，生成至少两个待处理视频；

相应的，所述方法，还包括：

基于所述声波数据以及所述至少两个待处理视频的数量，确定所述背景音频的目标类型点位。

可选地，所述调整模块408，还被配置为：

可选地，所述视频信息包括视频总时长；

相应的，所述第二确定模块406，还被配置为：

可选地，所述调整模块408，还被配置为：

可选地，所述视频生成装置，还包括第一处理模块，被配置为：

在目标待处理视频的第一时长大于与所述目标待处理视频对应的目标音频片段的第二时长的情况下，根据所述第一时长、所述第二时长及所述目标待处理视频包含的视频帧的初始数量，确定所述目标待处理视频包含的视频帧的目标数量；

可选地，所述视频生成装置，还包括第二处理模块，被配置为：

在目标待处理视频的第一时长小于与所述目标待处理视频对应的目标音频片段的第二时长的情况下，将所述第一时长与所述第二时长的比值作为所述目标待处理视频的目标播放速率，并基于所述目标播放速率，对所述目标待处理视频的播放速率进行调整。

上述为本实施例的一种视频生成装置的示意性方案。需要说明的是，该视频生成装置的技术方案与上述的视频生成方法的技术方案属于同一构思，视频生成装置的技术方案未详细描述的细节内容，均可以参见上述视频生成方法的技术方案的描述。

图5示出了根据本申请一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，处理器520用于执行如下计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述视频生成方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频生成方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频生成方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述视频生成方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频生成方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频生成方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请实施例的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视频生成方法，其特征在于，包括：

确定背景音频，并获取所述背景音频的声波数据；

将调整结果与所述背景音频进行叠加，生成目标类型视频。

2.根据权利要求1所述的视频生成方法，其特征在于，所述对所述参考对象进行处理生成待处理视频，包括：

确定所述参考对象的至少两个目标图像；

3.根据权利要求2所述的视频生成方法，其特征在于，所述根据所述目标类型点位在所述背景音频中对应的时间信息，对所述待处理视频的播放速率进行调整，包括：

4.根据权利要求3所述的视频生成方法，其特征在于，所述根据所述目标类型点位在所述背景音频中对应的时间信息，对所述至少两个待处理子视频的播放速率进行调整，包括：

根据所述至少两个待处理子视频的播放顺序，以及所述目标类型点位在所述背景音频中对应的时间信息，对所述至少两个待处理子视频的播放速率进行调整。

5.根据权利要求4所述的视频生成方法，其特征在于，所述根据所述至少两个待处理子视频的播放顺序，以及所述目标类型点位在所述背景音频中对应的时间信息，对所述至少两个待处理子视频的播放速率进行调整，包括：

6.根据权利要求1所述的视频生成方法，其特征在于，所述对所述参考对象进行处理生成待处理视频，包括：

相应的，所述方法，还包括：

7.根据权利要求6所述的视频生成方法，其特征在于，所述根据所述目标类型点位在所述背景音频中对应的时间信息，对所述待处理视频的播放速率进行调整，包括：

8.根据权利要求1所述的视频生成方法，其特征在于，所述视频信息包括视频总时长；

相应的，所述基于所述声波数据以及所述待处理视频的视频信息，确定所述背景音频的目标类型点位，包括：

9.根据权利要求5所述的视频生成方法，其特征在于，所述根据与目标待处理子视频对应的目标音频片段的时长，以及所述目标待处理子视频的时长，对所述目标待处理子视频的播放速率进行调整，包括：

10.根据权利要求7所述的视频生成方法，其特征在于，还包括：

11.根据权利要求7或10所述的视频生成方法，其特征在于，还包括：

12.一种视频生成装置，其特征在于，包括：

13.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现权利要求1-11任意一项所述的视频生成方法的步骤。

14.一种计算机可读存储介质，其特征在于，其存储有计算机指令，该指令被处理器执行时实现权利要求1-11任意一项所述的视频生成方法的步骤。