CN116347152A

CN116347152A - 基于音乐点的视频生成方法、装置、设备及存储介质

Info

Publication number: CN116347152A
Application number: CN202111602771.4A
Authority: CN
Inventors: 宫伟博; 靳潇杰; 沈晓辉
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2023-06-27
Also published as: WO2023121562A2; WO2023121562A3

Abstract

本申请提供一种基于音乐点的视频生成方法、装置、设备及存储介质，该方法包括：分别获取多个视频对象和音频信息；确定音频信息中的多个初始音乐点以及各初始音乐点的特征信息，特征信息至少包括各初始音乐点的音强和各初始音乐点在音频信息中所在的时刻；根据特征信息，从多个初始音乐点中筛选出目标音乐点；根据目标音乐点和多个视频对象，生成目标视频。本申请提供的基于音乐点的视频生成方法、装置、设备及存储介质用于提高目标视频的丰富性。

Description

基于音乐点的视频生成方法、装置、设备及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种基于音乐点的视频生成方法、装置、设备及存储介质。

背景技术

播放多张图像以及多张图像匹配的一段音乐，可以形成视频。目前，为了增加视频的丰富性，当播放至预设音乐点处时，可以增加渲染效果至图像。

在相关技术中，通常采用如下方法得到预设音乐点：在播放音乐的过程中，用户将其喜爱的音乐点，设置为预设音乐点。

在上述相关技术中，用户将其喜爱的音乐点设置为预设音乐点，使得视频的丰富性较差。

发明内容

本申请提供一种基于音乐点的视频生成方法、装置、设备及存储介质，用以解决视频的丰富性较差问题。

第一方面，本申请提供一种基于音乐点的视频生成方法，包括：

分别获取多个视频对象和音频信息；

确定音频信息中的多个初始音乐点以及各初始音乐点的特征信息，特征信息至少包括各初始音乐点的音强和各初始音乐点在音频信息中所在的时刻；

根据特征信息，从多个初始音乐点中筛选出目标音乐点；

根据目标音乐点和多个视频对象，生成目标视频。

在一些实施例中，根据特征信息，从多个初始音乐点中筛选出目标音乐点，包括：判断各初始音乐点的音强是否大于第一预设值；根据音强大于第一预设值的第一音乐点，确定目标音乐点。

在一些实施例中，根据音强大于第一预设值的第一音乐点，确定目标音乐点，包括：针对任意两个相邻第一音乐点，根据第一音乐点对应的时刻，获取相邻的两个第一音乐点之间的第一时长；若第一时长小于第一预设时长，则删除相邻两个第一音乐点中优先级低的第一音乐点，得到剩余的至少两个第二音乐点；根据至少两个第二音乐点，确定目标音乐点。

在一些实施例中，多个初始音乐点包括：重拍点、人声点、乐句点、乐段点、音效点、副歌点中的至少两个音乐点。

在一些实施例中，删除所述相邻两个第一音乐点中优先级低的第一音乐点，包括：按照预设优先级顺序，删除所述相邻两个第一音乐点中优先级低的第一音乐点；所述预设优先级顺序由高到底的排列顺序为：所述副歌点、强音效点、所述乐句点、所述乐段点、所述重拍点、弱音效点、所述人声点、预设点。

在一些实施例中，根据特征信息，从多个初始音乐点中筛选出目标音乐点，包括：根据各初始音乐点在音频信息中所在的时刻，确定各初始音乐点的目标得分；根据各初始音乐点的目标得分，确定目标音乐点。

在一些实施例中，根据各初始音乐点的目标得分，确定目标音乐点，包括：删除目标得分小于第二预设值的初始音乐点，得到剩余的第三音乐点；根据第三音乐点在音频信息中所在的时刻，重新确定各第三音乐点的目标得分，并根据第三音乐点的目标得分，确定目标音乐点。

在一些实施例中，根据各初始音乐点在音频信息中所在的时刻，确定各初始音乐点的目标得分，包括：根据各初始音乐点在音频信息中所在的时刻，确定相邻两个初始音乐点之间的第二时长，并根据第二时长确定各初始音乐点的第一得分；根据各初始音乐点的权重，确定各初始音乐点的第二得分；根据各初始音乐点在音频信息中所在的时刻，音频信息的起始时刻和终止时刻，确定各初始音乐点的第三得分；根据第一得分、第二得分和第三得分，确定各初始音乐点的目标得分。

在一些实施例中，根据第二时长确定各初始音乐点的第一得分，包括：根据音频信息的总时长和视频对象的数量，确定第三时长；将第二时长和第三时长的差值的绝对值，确定为第一得分。

在一些实施例中，根据各初始音乐点在音频信息中所在的时刻，音频信息的起始时刻和终止时刻，确定各初始音乐点的第三得分，包括：根据各初始音乐点在音频信息中所在的时刻、音频信息的起始时刻和第二预设时长，确定第四得分；根据各初始音乐点在音频信息中所在的时刻、音频信息的终止时刻和第二预设时长，确定第五得分；将第四得分和第五得分，确定第三得分。

在一些实施例中，该方法还包括：根据预设优先级顺序，为各初始音乐点设置对应的权重，权重至少部分和音乐点的优先级相关。

在一些实施例中，根据目标音乐点和多个视频对象，生成目标视频，包括：将音频信息添加到多个视频对象的音轨中，得到待处理视频；将待处理视频中，目标音乐点所在的时刻对应的视频对象处添加渲染效果，得到目标视频，渲染效果为动画、特效或者转场。

在一些实施例中，确定音频信息中的多个初始音乐点以及各初始音乐点的特征信息，包括：将音频信息输入音频特征分析模型中，得到音频信息中的多个初始音乐点以及各初始音乐点的特征信息。

第二方面，本申请提供一种基于音乐点的视频生成装置，包括：处理模块；处理模块用于：

分别获取多个视频对象和音频信息；

根据特征信息，从多个初始音乐点中筛选出目标音乐点；

根据目标音乐点和多个视频对象，生成目标视频。

在一些实施例中，处理模块具体用于：判断各初始音乐点的音强是否大于第一预设值；根据音强大于第一预设值的第一音乐点，确定目标音乐点。

在一些实施例中，处理模块具体用于：针对任意两个相邻第一音乐点，根据第一音乐点对应的时刻，获取相邻的两个第一音乐点之间的第一时长；若第一时长小于第一预设时长，则删除相邻两个第一音乐点中优先级低的第一音乐点，得到剩余的至少两个第二音乐点；根据至少两个第二音乐点，确定目标音乐点。

在一些实施例中，所述多个初始音乐点包括：重拍点、人声点、乐句点、乐段点、音效点、副歌点中的至少两个音乐点。

在一些实施例中，删除相邻两个第一音乐点中优先级低的第一音乐点，包括：按照预设优先级顺序，删除所述相邻两个第一音乐点中优先级低的第一音乐点；所述预设优先级顺序由高到底的排列顺序为：所述副歌点、强音效点、所述乐句点、所述乐段点、所述重拍点、弱音效点、所述人声点、预设点。

在一些实施例中，处理模块具体用于：根据各初始音乐点在音频信息中所在的时刻，确定各初始音乐点的目标得分；根据各初始音乐点的目标得分，确定目标音乐点。

在一些实施例中，处理模块具体用于：删除目标得分小于第二预设值的初始音乐点，得到剩余的第三音乐点；根据第三音乐点在音频信息中所在的时刻，重新确定各第三音乐点的目标得分，并根据第三音乐点的目标得分，确定目标音乐点。

在一些实施例中，处理模块具体用于：根据各初始音乐点在音频信息中所在的时刻，确定相邻两个初始音乐点之间的第二时长，并根据第二时长确定各初始音乐点的第一得分；根据各初始音乐点的权重，确定各初始音乐点的第二得分；根据各初始音乐点在音频信息中所在的时刻，音频信息的起始时刻和终止时刻，确定各初始音乐点的第三得分；根据第一得分、第二得分和第三得分，确定各初始音乐点的目标得分。

在一些实施例中，处理模块具体用于：根据音频信息的总时长和视频对象的数量，确定第三时长；将第二时长和第三时长的差值的绝对值，确定为第一得分。

在一些实施例中，处理模块具体用于：根据各初始音乐点在音频信息中所在的时刻、音频信息的起始时刻和第二预设时长，确定第四得分；根据各初始音乐点在音频信息中所在的时刻、音频信息的终止时刻和第二预设时长，确定第五得分；将第四得分和第五得分，确定第三得分。

在一些实施例中，处理模块还用于：根据预设优先级顺序，为所述各初始音乐点设置对应的权重，所述权重至少部分和音乐点的优先级相关。

在一些实施例中，处理模块具体用于：将音频信息添加到多个视频对象的音轨中，得到待处理视频；将待处理视频中，目标音乐点所在的时刻对应的视频对象处添加渲染效果，得到目标视频，渲染效果为动画、特效或者转场。

在一些实施例中，处理模块具体用于：将音频信息输入音频特征分析模型中，得到音频信息中的多个初始音乐点以及各初始音乐点的特征信息。

第三方面，本申请提供一种电子设备，包括：处理器，以及与处理器通信连接的存储器；

存储器存储计算机执行指令；

处理器执行存储器存储的计算机执行指令，以实现如第一方面任一项的方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现如第一方面任一项的方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面任一项的方法。

本申请提供一种基于音乐点的视频生成方法、装置、设备及存储介质，该方法包括：分别获取多个视频对象和音频信息；确定音频信息中的多个初始音乐点以及各初始音乐点的特征信息，特征信息至少包括各初始音乐点的音强和各初始音乐点在音频信息中所在的时刻；根据特征信息，从多个初始音乐点中筛选出目标音乐点；根据目标音乐点和多个视频对象，生成目标视频。在上述方法中，根据各初始音乐点的特征信息，从多个初始音乐点中筛选出目标音乐点，使得目标音乐点所在的时刻为最适合增加渲染效果的时刻。进一步地，根据目标音乐点和多个视频对象，生成目标视频，可以避免用户将其喜爱的音乐点设置为预设音乐点，从而提高目标视频的丰富性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请提供的应用场景示意图；

图2为本申请提供的基于音乐点的视频生成方法的流程图；

图3为本申请提供的确定目标音乐点的方法流程图一；

图4为本申请提供的确定目标音乐点的方法流程图二；

图5为本申请提供的基于音乐点的视频生成装置的示意图；

图6为本申请提供的电子设备的硬件示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先对相关技术进行说明。

在相关技术中，为了增加视频的丰富性，在播放音乐的过程中，用户将其喜爱的音乐点设置为预设音乐点，当音乐播放至预设音乐点处时，增加渲染效果至图像。在上述相关技术中，用户将其喜爱的音乐点设置为预设音乐点，使得视频的丰富性较差。

在本申请中，为了提高视频的丰富性，发明人想到根据多个初始音乐点的特征信息，在多个初始音乐点中筛选出目标音乐点，进而根据目标音乐点和多个视频对象，生成目标视频，避免用户将其喜爱的音乐点设置为预设音乐点，提高视频的丰富性。

接着结合图1对本申请提供的基于音乐点的视频生成方法的应用场景进行说明，具体的，请参见图1。

图1为本申请提供的应用场景示意图。如图1所示，音频信息包括：多个初始音乐点。例如，多个初始音乐点包括：初始音乐点2～5。

在本申请中，能够在多个初始音乐点筛选出目标音乐点。例如在初始音乐点2～5中筛选出目标音乐点2、4、5。

进一步地，在筛选出目标音乐点之后，在目标音乐点所在的时刻对应的视频对象处添加渲染效果，得到目标视频，从而提高目标视频的丰富性。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请提供的基于音乐点的视频生成方法的流程图。如图2所示，该方法包括：

S201、分别获取多个视频对象和音频信息。

可选地，用于执行基于音乐点的视频生成方法的执行主体可以为电子设备，也可以为设置在电子设备中的基于音乐点的视频生成装置。

电子设备可以是无线终端，也可以是有线终端。无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network，RAN)与一个或多个核心网设备进行通信。无线终端可以是移动终端，如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。再例如，无线终端还可以是个人通信业务(Personal Communication Service，简称PCS)电话、无绳电话、会话发起协议(SessionInitiation Protocol，简称SIP)话机、个人数字助理(Personal Digital Assistant，简称PDA)等设备。无线终端也可以称为远程终端(Remote Terminal)、接入终端(AccessTerminal)、用户终端(User Terminal)、用户代理(User Agent)、用户设备(User Deviceor User Equipment)，在此不作限定。可选的，上述电子设备还可以是智能手表、平板电脑等设备。有线终端可以是台式电脑、摄像设备等。

视频生成装置可以通过软件和/或硬件的结合来实现。视频生成装置包括但不限于短视频应用程序。

多个视频对象可以包括多张图像，也可以包括多段视频，还可以包括至少一张图像和至少一段视频。

可选地，多个视频对象为电子设备根据用户对N个视频对象中的多个视频对象的选择操作确定的，其中，N为大于或等于2的整数。可选地。多个视频对象为预先存储在电子设备中的对象。

可选地，音频信息为电子设备根据用户对多个音频信息中某一个音频信息的选择操作确定的。

可选地，音频信息还可以为通过音乐匹配模型对多个视频对象和多个音频信息进行分析处理之后，得到的与多个视频对象匹配的音频信息。

S202、确定音频信息中的多个初始音乐点以及各初始音乐点的特征信息，特征信息至少包括各初始音乐点的音强和各初始音乐点在音频信息中所在的时刻(即时间戳)。

其中，S202具体包括：将音频信息输入音频特征分析模型中，得到音频信息中的多个初始音乐点以及各初始音乐点的特征信息。

音频特征分析模型可以为基于深度学习的节拍追踪模型，也可以为基于短时频谱分析的音乐检测(onset)模型。

多个初始音乐点包括：重拍点、人声点、乐句点、乐段点、音效点、副歌点等中的至少两个音乐点。

S203、根据特征信息，从多个初始音乐点中筛选出目标音乐点。

可选地，目标音乐点可以包括：重拍点、人声点、乐句点、乐段点、音效点、副歌点中的至少一个音乐点。

可选地，可以通过如下2种方式(方式11和12)筛选出目标音乐点。

方式11，S203具体包括：判断各初始音乐点的音强是否大于第一预设值；根据音强大于第一预设值的第一音乐点，确定目标音乐点。

可选地，可以通过如下2种方式(方式111和112)，根据音强大于第一预设值的第一音乐点，确定目标音乐点。

方式111，将音强大于第一预设值的第一音乐点，确定为目标音乐点。

方式112，针对任意两个相邻第一音乐点，根据第一音乐点对应的时刻，获取相邻的两个第一音乐点之间的第一时长；若第一时长小于第一预设时长，则删除相邻两个第一音乐点中优先级低的第一音乐点，得到剩余的至少两个第二音乐点；根据至少两个第二音乐点，确定目标音乐点。

第一时长为相邻的两个第一音乐点中前一个第一音乐点对应第一时长。

例如，当第一音乐点包括音乐点1和音乐点2时，音乐点1(为前一个第一音乐点)和音乐点2(为后一个第一音乐点)，第一时长为音乐点1对应的第一时长。

可选地，第一时长等于后一个第一音乐点对应的时刻与前一个第一音乐点对应的时刻的差值。其中，后一个第一音乐点对应的时刻大于前一个第一音乐点对应的时刻。例如，第一时长等于音乐点2对应的时刻减去音乐点1对应的时刻的差值。

在一些实施例中，删除相邻两个第一音乐点中优先级低的第一音乐点，包括：按照预设优先级顺序，删除相邻两个第一音乐点中优先级低的第一音乐点。

其中，预设优先级顺序由高到底的排列顺序为：副歌点、强音效点、乐句点、乐段点、重拍点、弱音效点、人声点、预设点(即其他点)。即副歌点>强音效点>乐句点>乐段点>重拍点>弱音效点>人声点>预设点。

可选地，乐句点和乐段点的优先级也可以相同。需要说明的是，强音效点为音强较强的音乐点，弱音效点为音强较若的音乐点。

例如，当相邻两个第一音乐点包括乐句点和重拍点时，根据预设优先级顺序，删除重拍点，得到乐句点，并将乐句点确定为目标音乐点。

方式12，S203具体包括：根据各初始音乐点在音频信息中所在的时刻，确定各初始音乐点的目标得分；根据各初始音乐点的目标得分，确定目标音乐点。对根据各初始音乐点的目标得分，确定目标音乐点的说明，请参见图3实施例。

S204、根据目标音乐点和多个视频对象，生成目标视频。

在一些实施例方式中，S204具体包括：将音频信息添加到多个视频对象的音轨中，得到待处理视频；将待处理视频中，目标音乐点所在的时刻对应的视频对象处添加渲染效果，得到目标视频，渲染效果为动画、特效或者转场。

其中，多个视频对象的音轨为依次播放多个视频对象的时间轴。

例如当目标音乐点为重拍点、渲染效果为动画(或者特效)时，在重拍点所在的时刻对应的视频对象上增加动画(或者特效)。

在图2实施例提供的基于音乐点的视频生成方法中，根据各初始音乐点的特征信息，从多个初始音乐点中筛选出目标音乐点，使得目标音乐点所在的时刻为最适合增加渲染效果的时刻。进一步地，根据目标音乐点和多个视频对象，生成目标视频，可以避免用户将其喜爱的音乐点设置为预设音乐点，从而提高目标视频的丰富性。

与现有技术不同，在现有技术中，用户将其喜爱的音乐点设置为预设音乐点时，该预设音乐点通常仅为重拍点，使得预设音乐点较为单一，导致目标视频的丰富性。而在本申请中，多个初始音乐点包括重拍点、人声点、乐句点、乐段点、音效点、副歌点中的至少两个音乐点，从多个初始音乐点中筛选出目标音乐点，使得目标音乐点可以包括重拍点、人声点、乐句点、乐段点、音效点、副歌点等，增加了目标音乐点的多样性，从而提高目标视频的丰富性。

在上述实施例的基础上，本申请还提供一种确定目标始音乐点的方法，请参见图3实施例。

图3为本申请提供的确定目标音乐点的方法流程图一。如图3所示，该方法包括：

S301、根据各初始音乐点在音频信息中所在的时刻，确定相邻两个初始音乐点之间的第二时长，并根据第二时长确定各初始音乐点的第一得分。

需要说明的是，每个初始音乐点具有各自对应的第二时长。

可选地，根据如下公式1确定相邻两个初始音乐点之间的第二时长：

D_i＝D_i+1-D_i 公式1；

其中，D_i为相邻两个初始音乐点中前一个初始音乐点(S_i)对应的第二时长，D_i为前一个初始音乐点在音频信息中的时刻，D_i+1为相邻两个初始音乐点中后一个初始音乐点(S_i+1)在音频信息中的时刻，D_i+1通常大于D_i。

可选地，第三时长(记为D_avg)可以为音频信息的总时长与视频对象的数量的比值。例如总时长为T，视频对象的数量为M，则比值等于T/M。可选地，M可以为大于或等于2的整数。

可选地，可以通过如下公式2，确定初始音乐点(S_i)对应的第一得分：

Cost_d＝|D_i-D_avg| 公式2；

其中，Cost_d为第一得分。

S302、根据各初始音乐点的权重，确定各初始音乐点的第二得分。

在一些实施例中，根据预设优先级顺序，为各初始音乐点设置对应的权重，权重至少部分和音乐点的优先级相关。

在一些实施例中，可以根据业务场景需求，手动调整各初始音乐点的权重。

在一些实施例中，针对各初始音乐点，将初始音乐点的权重，确定为初始音乐点的第二得分(记为Cost_s)。

S303、根据各初始音乐点在音频信息中所在的时刻，音频信息的起始时刻和终止时刻，确定各初始音乐点的第三得分。

在一些实施例中，S303具体包括：根据各初始音乐点在音频信息中所在的时刻、音频信息的起始时刻和预设时长，确定第四得分；根据各初始音乐点在音频信息中所在的时刻、音频信息的终止时刻和预设时长，确定第五得分；将第四得分和第五得分，确定第三得分。

其中，各初始音乐点具有与其对应的第四得分、第五得分、第三得分。

在一些实施例中，可以通过如下公式3得到第四得分：

cost_t1＝max(t_start+t_shortest-t_k,0) 公式3；

其中，cost_t1为初始音乐点的第四得分，max为取最大值运算，t_start为音频信息的起始时刻，t_shortest为第二预设时长，t_k为初始音乐点在音频信息中所在的时刻。

在一些实施例中，可以通过如下公式4得到第五得分：

cost_t2＝max(t_k-t_end-t_shortest,0) 公式4；

其中，cost_t2为初始音乐点的第五得分，t_end为音频信息的终止时刻。

在一些实施例中，可以通过如下公式5，得到第三得分：

Cost_p＝cost_t1+cost_t2 公式5；

其中，Cost_p为第三得分。

可选地，还可以通过其他算法根据第四得分和第五得分，确定第三得分，此次不再详述。

S304、根据第一得分、第二得分和第三得分，确定各初始音乐点的目标得分。

具体的，针对各初始音乐点，根据初始音乐点的第一得分、第二得分和第三得分，确定初始音乐点的目标得分。

在一些实施例中，可以通过如下公式6，确定目标得分：

Cost＝Cost_d+w_s*Cost_s+w_p*Cost_p 公式6；

其中，Cost为目标得分，w_s、w_p为分别为预设权重。可选地，w_s和w_p可以相同，也可以不相同。在实际中，根据通过多次测试根据经验确定w_s和w_p的具体取值。

可选地，还可以通过其他算法根据初始音乐点的第一得分、第二得分和第三得分，确定初始音乐点的目标得分，此次不再详述。

S305、删除目标得分小于第二预设值的初始音乐点，得到剩余的第三音乐点。

S306、根据第三音乐点在音频信息中所在的时刻，重新确定各第三音乐点的目标得分，并根据第三音乐点的目标得分，确定目标音乐点。

需要说明的是，重新确定各第三音乐点的目标得分，并根据第三音乐点的目标得分，确定目标音乐点的方法，与上述S301～S305的方法相似，此处不再赘述。

其中，目标音乐点的数量等于M与1的差值。

在图3实施例提供的方法中，根据音频信息的总时长和视频对象的数量，确定第三时长，将第二时长和第三时长的差值的绝对值，确定为初始音乐点的第一得分，可以避免出现视频对象切换间隔过短或过长的情况，使得在待处理视频中增加渲染效果时，使得视觉和听觉能够较为完美的结合，提高用户体验。进一步地，通过公式3得到第四得分，能够避免在音频信息的起始时刻频繁切换，通过公式4得到第五得分，能够避免在音频信息的结束时刻频繁切换，使得在待处理视频中增加渲染效果时，更加美观、易感知。

本申请还提供一种确定目标音乐的方法，具体的，请参见图4。

图4为本申请提供的确定目标音乐点的方法流程图二。如图4所示，该方法包括：

S401、分别获取多个视频对象和音频信息。

可选地，S401的执行方法与S201的执行方法相同，此处不再赘述S401的执行过程。

S402、确定音频信息中的多个初始音乐点以及各初始音乐点的特征信息，特征信息包括各初始音乐点的音强和各初始音乐点在音频信息中所在的时刻。

可选地，S402的执行方法与S202的执行方法相同，此处不再赘述S402的执行过程。

S403、删除多个初始音乐点中在音强小于或等于第一预设值的初始音乐点，得到音强大于第一预设值的第一音乐点。

可选地，判断多个初始音乐点中是否存在音强小于或等于第一预设值的初始音乐点；若是，则删除多个初始音乐点中在音强小于或等于第一预设值的初始音乐点，得到音强大于第一预设值的第一音乐点。

可选地，还可以判断各初始音乐点的音强是否大于第一预设值；以得到音强大于第一预设值的第一音乐点。

S404、根据各第一音乐点在音频信息中所在的时刻，确定剩余的至少两个第二音乐点。

可选地，针对任意两个相邻第一音乐点，根据第一音乐点对应的时刻，获取相邻的两个第一音乐点之间的第一时长；若第一时长小于第一预设时长，则删除相邻两个第一音乐点中优先级低的第一音乐点，得到剩余的至少两个第二音乐点。具体的，请参见上述方式112中，得到剩余的至少两个第二音乐点的方法，此处不再赘述。

可选地，剩余的至少两个第二音乐点中，可能还存在相邻的两个第二音乐点之间的第二时长小于第一预设时长的第二音乐点，因此还需要在剩余的至少两个第二音乐点中再次删除相邻的两个第二音乐点中优先级低的第二音乐点，再次得到剩余的第二音乐点。

S405、获取多个视频对象所需的切换点数量Y。

可选地，切换点数量等于视频对象的数量减去1。其中，视频对象的数量等于多个视频对象的总数量。

可选地，切换点数量还可以等于根据用户的设定操作确定的数量。

在本申请中，根据用户的设定操作确定切换点数量，可以使得用户灵活设置渲染效果的数量，提高在待处理视频中增加渲染效果的数量的灵活性。

S406、获取剩余的至少两个第二音乐点的第一总数量X。

S407、判断X是否等于Y。

若是，则执行S408，否则执行S409。

S408，将剩余的至少两个第二音乐点确定为目标音乐点。

S409，判断X是否大于Y。

若是，则执行S410～S412，否则执行S413。

S410、确定各第二音乐点的目标得分。

确定各第二音乐点的目标得分的方法，与上述S301～S304所示的方法相似，此处不在赘述。

S411、删除剩余的至少两个第二音乐点中目标得分小于第二预设值的第二音乐点，得到剩余的第三音乐点。

S412、将X更新为剩余的第三音乐点的总数量，将剩余的至少两个第二音乐点更新为剩余的第三音乐点，再次执行S407，直至X等于Y。

S413、根据第三预设时长，将音频信息中Y个音乐点，确定为目标音乐点。

Y个音乐点中相邻的两个音乐点在音频信息中各自对应的时刻之间的时间间隔等于第三预设时长。

可选地，从预设时刻起，每隔第三预设时长获取一个音乐点，以得到Y个音乐点。其中，预设时刻可以为在起始时刻之后，且与起始时刻的差值等于第二预设时长的时刻。

图5为本申请提供的基于音乐点的视频生成装置的示意图。如图5所示，视频生成装置10包括：处理模块101；处理模块101用于：

分别获取多个视频对象和音频信息；

确定音频信息中的多个初始音乐点以及各初始音乐点的特征信息，特征信息至少包括各初始音乐点的音强和或各初始音乐点在音频信息中所在的时刻；

根据特征信息，从多个初始音乐点中筛选出目标音乐点；

根据目标音乐点和多个视频对象，生成目标视频。

本申请提供的视频生成装置10可以执行上述视频生成方法，其实现原理以及有益效果类似，此处不再进行赘述。

在一些实施例中，处理模块101具体用于：判断各初始音乐点的音强是否大于第一预设值；根据音强大于第一预设值的第一音乐点，确定目标音乐点。

在一些实施例中，处理模块101具体用于：针对任意两个相邻第一音乐点，根据第一音乐点对应的时刻，获取相邻的两个第一音乐点之间的第一时长；若第一时长小于第一预设时长，则删除相邻两个第一音乐点中优先级低的第一音乐点，得到剩余的至少两个第二音乐点；根据至少两个第二音乐点，确定目标音乐点。

在一些实施例中，所述删除所述相邻两个第一音乐点中优先级低的第一音乐点，包括：按照预设优先级顺序，删除所述相邻两个第一音乐点中优先级低的第一音乐点；所述预设优先级顺序由高到底的排列顺序为：所述副歌点、强音效点、所述乐句点、所述乐段点、所述重拍点、弱音效点、所述人声点、预设点。

在一些实施例中，处理模块101具体用于：根据各初始音乐点在音频信息中所在的时刻，确定各初始音乐点的目标得分；根据各初始音乐点的目标得分，确定目标音乐点。

在一些实施例中，处理模块101具体用于：删除目标得分小于第二预设值的初始音乐点，得到剩余的第三音乐点；根据第三音乐点在音频信息中所在的时刻，重新确定各第三音乐点的目标得分，并根据第三音乐点的目标得分，确定目标音乐点。

在一些实施例中，处理模块101具体用于：根据各初始音乐点在音频信息中所在的时刻，确定相邻两个初始音乐点之间的第二时长，并根据第二时长确定各初始音乐点的第一得分；根据各初始音乐点的权重，确定各初始音乐点的第二得分；根据各初始音乐点在音频信息中所在的时刻，音频信息的起始时刻和终止时刻，确定各初始音乐点的第三得分；根据第一得分、第二得分和第三得分，确定各初始音乐点的目标得分。

在一些实施例中，处理模块101具体用于：根据音频信息的总时长和视频对象的数量，确定第三时长；将第二时长和第三时长的差值的绝对值，确定为第一得分。

在一些实施例中，处理模块101具体用于：根据各初始音乐点在音频信息中所在的时刻、音频信息的起始时刻和第二预设时长，确定第四得分；根据各初始音乐点在音频信息中所在的时刻、音频信息的终止时刻和第二预设时长，确定第五得分；将第四得分和第五得分，确定第三得分。

在一些实施例中，处理模块101还用于：根据预设优先级顺序，为所述各初始音乐点设置对应的权重，所述权重至少部分和音乐点的优先级相关。

在一些实施例中，处理模块101具体用于：将音频信息添加到多个视频对象的音轨中，得到待处理视频；将待处理视频中，目标音乐点所在的时刻对应的视频对象处添加渲染效果，得到目标视频，渲染效果为动画、特效或者转场。

在一些实施例中，处理模块101具体用于：将音频信息输入音频特征分析模型中，得到音频信息中的多个初始音乐点以及各初始音乐点的特征信息。

图6为本申请提供的电子设备的硬件示意图。如图6所示，电子设备20可以包括：收发器201、存储器202和处理器203。

其中，收发器201可以包括：发射器和/或接收器。发射器还可称为发送器、发射机、发送端口或发送接口等类似描述。接收器还可称为接收器、接收机、接收端口或接收接口等类似描述。

示例性地，收发器201、存储器202、处理器203各部分之间通过总线相互连接。

存储器202用于存储计算机执行指令。

处理器203用于执行存储器202存储的计算机执行指令，使得处理器203执行上述视频生成方法。

本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当计算机执行指令被处理器执行时实现上述视频生成方法。

本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，可实现上述视频生成方法。

实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器(存储介质)包括：只读存储器(read-only memory，ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(magnetic tape)、软盘(floppy disk)、光盘(optical disc)及其任意组合。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

在本申请中，术语“包括”及其变形可以指非限制性的包括；术语“或”及其变形可以指“和/或”。本本申请中术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。本申请中，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种基于音乐点的视频生成方法，其特征在于，包括：

分别获取多个视频对象和音频信息；

确定所述音频信息中的多个初始音乐点以及各初始音乐点的特征信息，所述特征信息至少包括各所述初始音乐点的音强和各所述初始音乐点在所述音频信息中所在的时刻；

根据所述特征信息，从所述多个初始音乐点中筛选出目标音乐点；

根据所述目标音乐点和所述多个视频对象，生成目标视频。

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征信息，从所述多个初始音乐点中筛选出目标音乐点，包括：

判断各所述初始音乐点的音强是否大于第一预设值；

根据所述音强大于所述第一预设值的第一音乐点，确定所述目标音乐点。

3.根据权利要求2所述的方法，其特征在于，所述根据所述音强大于所述第一预设值的第一音乐点，确定所述目标音乐点，包括：

针对任意两个相邻第一音乐点，根据所述第一音乐点对应的时刻，获取相邻的两个第一音乐点之间的第一时长；

若所述第一时长小于第一预设时长，则删除所述相邻两个第一音乐点中优先级低的第一音乐点，得到剩余的至少两个第二音乐点；

根据所述至少两个第二音乐点，确定所述目标音乐点。

4.根据权利要求3所述的方法，其特征在于，所述多个初始音乐点包括：重拍点、人声点、乐句点、乐段点、音效点、副歌点中的至少两个音乐点。

5.根据权利要求4所述的方法，其特征在于，所述删除所述相邻两个第一音乐点中优先级低的第一音乐点，包括：

按照预设优先级顺序，删除所述相邻两个第一音乐点中优先级低的第一音乐点；

所述预设优先级顺序由高到底的排列顺序为：所述副歌点、强音效点、所述乐句点、所述乐段点、所述重拍点、弱音效点、所述人声点、预设点。

6.根据权利要求1所述的方法，其特征在于，所述根据所述特征信息，从所述多个初始音乐点中筛选出目标音乐点，包括：

根据各初始音乐点在所述音频信息中所在的时刻，确定所述各初始音乐点的目标得分；

根据所述各初始音乐点的目标得分，确定所述目标音乐点。

7.根据权利要求6所述的方法，其特征在于，所述根据所述各初始音乐点的目标得分，确定所述目标音乐点，包括：

删除所述目标得分小于第二预设值的初始音乐点，得到剩余的第三音乐点；

根据所述第三音乐点在所述音频信息中所在的时刻，重新确定所述各第三音乐点的目标得分，并根据所述第三音乐点的目标得分，确定所述目标音乐点。

8.根据权利要求6或7所述的方法，其特征在于，所述根据各初始音乐点在所述音频信息中所在的时刻，确定所述各初始音乐点的目标得分，包括：

根据各初始音乐点在所述音频信息中所在的时刻，确定相邻两个初始音乐点之间的第二时长，并根据所述第二时长确定各初始音乐点的第一得分；

根据各初始音乐点的权重，确定所述各初始音乐点的第二得分；

根据各初始音乐点在所述音频信息中所在的时刻，所述音频信息的起始时刻和终止时刻，确定所述各初始音乐点的第三得分；

根据所述第一得分、所述第二得分和所述第三得分，确定所述各初始音乐点的所述目标得分。

9.根据权利要求8所述的方法，其特征在于，所述根据所述第二时长确定各初始音乐点的第一得分，包括：

根据所述音频信息的总时长和所述视频对象的数量，确定第三时长；

将所述第二时长和所述第三时长的差值的绝对值，确定为所述第一得分。

10.根据权利要求8所述的方法，其特征在于，所述根据各初始音乐点在所述音频信息中所在的时刻，所述音频信息的起始时刻和终止时刻，确定所述各初始音乐点的第三得分，包括：

根据所述各初始音乐点在所述音频信息中所在的时刻、所述音频信息的起始时刻和第二预设时长，确定第四得分；

根据所述各初始音乐点在所述音频信息中所在的时刻、所述音频信息的终止时刻和所述第二预设时长，确定第五得分；

将所述第四得分和所述第五得分，确定所述第三得分。

11.根据权利要求8所述的方法，其特征在于，所述方法还包括：

根据预设优先级顺序，为所述各初始音乐点设置对应的权重，所述权重至少部分和音乐点的优先级相关。

12.根据权利要求1-11任一项所述的方法，其特征在于，所述根据所述目标音乐点和所述多个视频对象，生成目标视频，包括：

将所述音频信息添加到所述多个视频对象的音轨中，得到待处理视频；

将所述待处理视频中，所述目标音乐点所在的时刻对应的视频对象处添加渲染效果，得到所述目标视频，所述渲染效果为动画、特效或者转场。

13.根据权利要求1-11任一项所述的方法，其特征在于，所述确定所述音频信息中的多个初始音乐点以及各初始音乐点的特征信息，包括：

将所述音频信息输入音频特征分析模型中，得到所述音频信息中的多个初始音乐点以及各初始音乐点的特征信息。

14.一种基于音乐点的视频生成装置，其特征在于，包括：处理模块；所述处理模块用于：

分别获取多个视频对象和音频信息；

确定所述音频信息中的多个初始音乐点以及各初始音乐点的特征信息，所述特征信息包括各所述初始音乐点的音强和/或各所述初始音乐点在所述音频信息中所在的时刻；

根据所述目标音乐点和所述多个视频对象，生成目标视频。

15.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-13任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-13任一项所述的方法。

17.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-13任一项所述的方法。