CN111625682A

CN111625682A - 视频的生成方法、装置、计算机设备及存储介质

Info

Publication number: CN111625682A
Application number: CN202010363105.9A
Authority: CN
Inventors: 吕孟叶; 杨跃; 黄安麒; 董治; 李深远; 陈兴頔; 杨小康
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-09-04
Anticipated expiration: 2040-04-30
Also published as: CN111625682B

Abstract

本申请公开了一种视频的生成方法、装置、计算机设备及存储介质，属于计算机技术领域。所述方法包括：获取待播放音频的关联信息，根据关联信息，从素材库中获取与待播放音频的关联度大于指定阈值的多个备选素材。确定每个备选素材与多个备选素材组成的素材集合之间的语义相似度，得到多个备选素材的语义相似度。按照多个备选素材的语义相似度的高低排序，从多个备选素材中依序选取N个备选素材作为目标素材，目标素材的时长总和大于或等于待播放音频的音频时长，N为大于1的整数。基于目标素材生成用于与待播放音频配合播放的目标视频。如此得到的视频与待播放音频的相关度高，且视频中的素材画风比较和谐，能够给用户带来很好的视觉体验。

Description

视频的生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种视频的生成方法、装置、计算机设备及存储介质。

背景技术

当终端通过音频播放软件播放音频时，由于有些音频没有对应的视频，在播放时只能在播放页面显示音频的歌词或背景图片等，这些一成不变的信息使得用户体验较差，若是能够在播放音频的同时播放该音频对应的视频，可以使用户享受到更好的视听体验。因此，需要一种技术方案，能够生成可以配合音频进行播放的视频。

发明内容

本申请提供了一种视频的生成方法、装置、计算机设备及存储介质，可以解决相关技术中音频播放软件在播放某些音频时，无法找到对应的视频配合播放的问题。所述技术方案如下：

一方面，提供了一种视频的生成方法，所述方法包括：

获取待播放音频的关联信息；

根据所述关联信息，从素材库中获取与所述待播放音频的关联度大于指定阈值的多个备选素材；

确定每个备选素材与所述多个备选素材组成的素材集合之间的语义相似度，得到多个备选素材的语义相似度；

按照所述多个备选素材的语义相似度的高低排序，从所述多个备选素材中依序选取N个备选素材作为目标素材，所述目标素材的时长总和大于或等于所述待播放音频的音频时长，所述N为大于1的整数；

基于所述目标素材生成用于与所述待播放音频配合播放的目标视频。

在本申请一种可能的实现方式中，所述关联信息包括以下信息中的任意一项或多项：演唱者标识、每分钟节拍数、频谱特征、每分钟的歌词字数、音频特征和关联音频标识。

在本申请一种可能的实现方式中，所述根据所述关联信息，从素材库中获取与所述待播放音频的关联度大于指定阈值的多个备选素材，包括：

若所述关联信息包括演唱者标识和每分钟节拍数，则从所述素材库中获取演唱者标识与所述待播放音频的演唱者标识对应且每分钟节拍数与所述待播放音频的每分钟节拍数的差值处于指定范围内的多个素材作为备选素材。

在本申请一种可能的实现方式中，所述确定每个备选素材与所述多个备选素材组成的素材集合之间的语义相似度，包括：

确定每个备选素材的素材特征向量；

基于每个备选素材的素材特征向量，确定所述多个备选素材组成的素材集合的集合特征向量；

根据每个备选素材的素材特征向量与所述素材集合的集合特征向量，分别确定每个备选素材与所述素材集合之间的距离，其中，所述距离用于表示相应的备选素材与所述素材集合之间的语义相似度。

在本申请一种可能的实现方式中，所述基于每个备选素材的素材特征向量，确定所述多个备选素材组成的素材集合的集合特征向量，包括：

确定各个备选素材的素材特征向量中同一位置的素材特征均值；

将所述素材特征均值组成的向量确定为所述集合特征向量。

根据所述多个备选素材的素材特征向量，对所述多个备选素材进行聚类，得到至少一种类别的备选素材；

若所述至少一种类别的数量为多种，从所述多种类别中选择包括备选素材的个数满足预设条件的目标类别；

确定所述目标类别中各个备选素材的素材特征向量中同一位置的素材特征均值；

将所述素材特征均值组成的向量确定为所述集合特征向量。

在本申请一种可能的实现方式中，所述按照所述多个备选素材的语义相似度的高低排序，从所述多个备选素材中依序选取N个备选素材作为目标素材，包括：

按照所述多个备选素材的语义相似度从高到低的顺序，对所述多个备选素材进行排序；

基于所述音频时长，从排序后的多个备选素材中依序选取靠前的N个备选素材作为目标素材，所述目标素材的素材总时长大于或等于所述音频时长。

在本申请一种可能的实现方式中，所述方法还包括：

获取所述待播放音频的歌词文件，并根据所述歌词文件，确定所述待播放音频的演唱区间及非演唱区间；

根据每个备选素材是否包括演唱声音，将每个备选素材确定为演唱素材或非演唱素材；

所述按照所述多个备选素材的语义相似度的高低排序，从所述多个备选素材中依序选取N个备选素材作为目标素材，包括：

针对所述演唱区间，按照所述多个备选素材的语义相似度的高低排序，从所述多个备选素材中依序选取演唱素材，直至选取的演唱素材的素材总时长大于或等于所述演唱区间对应的区间时长，得到所述演唱区间对应的演唱素材组，其中，所述演唱素材组内的演唱素材按照选入顺序依次排序；

针对所述非演唱区间，按照所述多个备选素材的语义相似度的高低排序，从所述多个备选素材中依序选取非演唱素材，直至选取的非演唱素材的素材总时长大于或等于所述非演唱区间对应的区间时长，得到所述非演唱区间对应的非演唱素材组，其中，所述非演唱素材组内的非演唱素材按照选入顺序依次排序；

将所述演唱素材组的演唱素材以及所述非演唱素材组的非演唱素材确定为所述目标素材。

在本申请一种可能的实现方式中，所述基于所述目标素材生成用于与所述待播放音频配合播放的目标视频，包括：

将所述非演唱区间对应的非演唱素材组内的非演唱素材进行拼接，得到所述非演唱区间对应的视频；

将所述演唱区间对应的演唱素材组内的演唱素材进行拼接，得到所述演唱区间对应的视频；

将所述非演唱区间对应的视频与所述演唱区间对应的视频进行拼接，得到用于与所述待播放音频配合播放的目标视频。

在本申请一种可能的实现方式中，所述将所述非演唱区间对应的非演唱素材组内的非演唱素材进行拼接，包括：

按照所述非演唱素材组内的非演唱素材中是否包括人脸，将所述非演唱素材组内的非演唱素材划分为有人脸非演唱素材组以及无人脸非演唱素材组，其中，有人脸非演唱素材组内素材的前后排序与选取的先后顺序相同，且无人脸非演唱素材组内素材的前后排序与选取的先后顺序相同；

根据所述非演唱区间的类型，确定所述非演唱素材组内所述有人脸非演唱素材组以及所述无人脸非演唱素材组的前后排序；

将排序后的有人脸非演唱素材组内的素材以及无人脸非演唱素材组内的素材进行拼接。

在本申请一种可能的实现方式中，所述将所述演唱区间对应的演唱素材组内的演唱素材进行拼接，包括：

确定所述演唱区间包括的在时间维度上依次排列的多个演唱片段，每个演唱片段具有对应的演唱时长；

将所述演唱区间内首个演唱片段确定为当前演唱片段，以及将所述演唱素材组内的首个演唱素材确定为所述当前演唱片段对应的演唱素材，得到当前演唱素材；

按照下述方式依次将具有排序的各个演唱素材进行拼接，直至全部演唱片段的演唱时长均被演唱素材填充，结束拼接：

若所述当前演唱素材的总播放时长不足以完全填充所述当前演唱片段的演唱时长，则将与所述当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材与所述当前演唱素材进行拼接，且将拼接后的演唱素材重新确定为当前演唱素材；

若所述当前演唱素材的总播放时长足以完全填充所述当前演唱片段的演唱时长但不足以填充所述当前演唱片段之后的第Q个演唱片段的演唱时长，则将所述当前演唱素材中的最后一个演唱素材裁剪至所述当前演唱片段之后的第Q个演唱片段的前一演唱片段的演唱时长截止点，并将所述当前演唱片段之后的第Q个演唱片段重新确定为当前演唱片段，将与所述当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材重新确定为当前演唱素材，其中Q为大于0的正整数；

若所述当前演唱素材的总播放时长足以完全填充所述当前演唱片段的演唱时长且足以填充所述当前演唱片段之后的第M个演唱片段的演唱时长，则将与所述当前演唱片段之后的第M个演唱片段相邻的下一个演唱片段重新确定为当前演唱片段，将与所述当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材重新确定为当前演唱素材，其中M为大于0的正整数。

另一方面，提供了一种视频的生成装置，所述装置包括：

第一获取模块，用于获取待播放音频的关联信息；

第二获取模块，用于根据所述关联信息，从素材库中获取与所述待播放音频的关联度大于指定阈值的多个备选素材；

确定模块，用于确定每个备选素材与所述多个备选素材组成的素材集合之间的语义相似度，得到多个备选素材的语义相似度；

选取模块，用于按照所述多个备选素材的语义相似度的高低排序，从所述多个备选素材中依序选取N个备选素材作为目标素材，所述目标素材的时长总和大于或等于所述待播放音频的音频时长，所述N为大于1的整数；

视频生成模块，用于基于所述目标素材生成用于与所述待播放音频配合播放的目标视频。

在本申请一种可能的实现方式中，所述第二获取模块用于：

在本申请一种可能的实现方式中，所述确定模块用于：

确定每个备选素材的素材特征向量；

在本申请一种可能的实现方式中，所述确定模块用于：

将所述素材特征均值组成的向量确定为所述集合特征向量。

在本申请一种可能的实现方式中，所述确定模块用于：

将所述素材特征均值组成的向量确定为所述集合特征向量。

在本申请一种可能的实现方式中，所述选取模块用于：

在本申请一种可能的实现方式中，所述选取模块还用于：

在本申请一种可能的实现方式中，所述视频生成模块用于：

另一方面，提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器用于存放计算机程序，所述处理器用于执行所述存储器上所存放的计算机程序，以实现上述所述的视频的生成方法的步骤。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的视频的生成方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的视频的生成方法的步骤。

本申请提供的技术方案至少可以带来以下有益效果：

获取待播放音频的关联信息，基于该关联信息从素材库中获取与待播放音频的关联度大于指定阈值的多个备选素材，如此确定的多个备选素材与待播放音频的关联度高，更加适合该音频，但多个备选素材之间的风格可能相差较大，因此需要确定每个备选素材与多个备选素材组成的素材集合之间的语义相似度，并根据得到的多个备选素材的语义相似度的高低顺序，从多个备选素材中依序选取N个备选素材作为目标素材，且目标素材的时长总和大于或等于待播放音频的音频时长。如此可以确定彼此之间风格较相似的多个备选素材，再基于目标素材生成与待播放音频配合播放的目标视频。通过本申请的方法，可以减少与待播放音频的风格违和的素材出现的概率，生成的目标视频与待播放音频的相关度高，且目标视频中的目标素材画风比较和谐，使得整个目标视频在视觉上有更好的效果，能够给用户带来很好的视觉体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种视频的生成方法的流程图；

图2是根据一示例性实施例示出的一种确定多个备选素材的方法的流程图；

图3是根据一示例性实施例示出的一种确定目标素材的方法的流程图；

图4是根据一示例性实施例示出的一种目标素材拼接的示意图；

图5是根据一示例性实施例示出的一种视频的生成装置的结构示意图；

图6是根据一示例性实施例示出的一种计算机设备的结构示意图；

图7是根据另一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的视频的生成方法进行详细的解释说明之前，先对本申请实施例提供的应用场景和执行主体进行介绍。

首先，对本申请实施例提供的应用场景进行介绍。

在一种应用场景中，当终端通过音频播放软件播放音频时，对于没有视频的音频，在播放音频的同时，通常会在播放页面展示音频的歌词或背景图片，但相比于展示歌词或背景图片，展示该音频对应的视频，或者说在播放音频的同时配合播放音频对应的视频可以有更好的视听体验。例如，用户通过音频播放听歌时，同时播放歌曲对应的视频会比显示歌词或背景图片效果更好。

在另一种应用场景中，当用户通过终端的唱歌软件录制音频时，对于没有视频的音频，在播放伴奏的同时，通常会在播放页面展示音频的歌词，但相比于展示音频的歌词，展示该音频对应的视频可以有更好的视听体验。例如，用户通过唱歌软件录歌曲时，播放伴奏的同时播放歌曲对应的视频会比显示歌词效果更好。

为此，本申请提供了一种视频的生成方法，对于没有视频的音频，可以生成与该音频配合播放的视频，其具体实现可以参见下述各个实施例。

然后，对本申请实施例提供的执行主体进行介绍。

本申请实施例提供的执行主体为计算机设备，该计算机设备可以为终端，也可以为服务器，本申请实施例对此不做限定。

作为一种示例，若该计算机设备为终端，该终端可以安装有音频播放软件或唱歌软件，该音频播放软件可以播放音频或视频，该唱歌软件可以播放音频、录制音频、播放视频等。该终端还可以与服务器建立有线或无线的通信连接，该服务器可以包括素材库，该素材库可以存储多个素材。该终端可以从服务器包括的素材库中获取多个素材，且该终端可以根据获取的多个素材为音频生成对应的视频。

该终端可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(Personal Computer，个人计算机)、手机、智能手机、PDA(Personal Digital Assistant，个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能电视等。

作为另一种示例，若该计算机设备为服务器，该服务器可以包括素材库，该素材库中可以存储多个素材，且服务器可以根据素材库中的素材为音频生成对应的视频。该服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。

本领域技术人员应能理解上述终端和服务器仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

介绍完本申请实施例提供的应用场景和执行主体后，接下来对本申请实施例提供的视频的生成方法进行详细的解释说明。

图1是根据一示例性实施例示出的一种视频的生成方法的流程图，该方法应用于上述计算机设备中。请参考图1，该方法可以包括如下步骤：

步骤101：获取待播放音频的关联信息。

在实施中，关联信息可以包括以下信息中的任意一项或多项：演唱者标识、每分钟节拍数、频谱特征、每分钟的歌词字数、音频特征和关联音频标识。

其中，演唱者标识用于唯一指示一个演唱者。示例性地，演唱者标识可以为演唱者的名字、演唱者的代号、演唱者的ID(Identification，身份)等。例如，演唱者标识可以为王某某，或Andy，或X等。

其中，每分钟节拍数可以为BPM(Beat Per Minute)，且待播放音频的BPM可以使用开源软件librosa或aubio计算得到。

作为一种示例，计算机设备中可以存储有待播放音频的频谱图，基于待播放音频的频谱图通过深度神经网络可以确定待播放音频的频谱特征。计算机设备还可以基于待播放音频通过深度神经网络确定待播放音频的音频特征。

作为一种示例，关联音频标识可以为在音频播放软件中与该待播放音频同时播放的次数大于次数阈值的多个音频的音频标识。

需要说明的是，次数阈值可以由用户根据实际需要进行设置，也可以由计算机设备默认设置，本申请实施例对此不做限定。

示例性地，可以获取网络上的多个用户播放该待播放音频的历史记录，查找每个用户在播放该待播放音频的同时播放的其他音频，确定与该待播放音频同时播放的次数大于次数阈值的多个音频，获取该多个音频的音频标识，奖盖多个音频的音频标识确定为该待播放音频的关联音频标识。

步骤102：根据关联信息，从素材库中获取与待播放音频的关联度大于指定阈值的多个备选素材。

需要说明的是，指定阈值可以由用户根据实际需要进行设置，也可以由计算机设备默认设置，还可以根据实际情况进行调整，本申请实施例对此不做限定。

其中，素材库可以由人工搜集建立，也可以由计算机设备根据一定规则建立，本申请实施例对此不做限定。

作为一种示例，素材库中至少可以包括多个素材，还可以包括多个素材中每个素材的演唱者标识、每分钟节拍数、频谱特征、每分钟的歌词字数、音频特征和音频标识中的至少一个。

其中，素材库中的多个素材可以包括视频，或者，素材库中的多个素材可以包括视频和图片。

在实施中，根据关联信息，从素材库中获取与待播放音频的关联度大于指定阈值的多个备选素材可以包括如下几种实现方式：

第一种实现方式：若关联信息包括演唱者标识和每分钟节拍数，则从素材库中获取演唱者标识与待播放音频的演唱者标识对应且每分钟节拍数与待播放音频的每分钟节拍数的差值处于指定范围内的多个素材作为备选素材。

其中，指定范围指的是待播放音频的每分钟节拍数与素材的每分钟节拍数的差值所处的范围。

需要说明的是，指定范围可以由用户根据实际需求进行设置，也可以由计算机设备默认设置，本申请实施例对此不做限定。例如，指定范围可以为-20～20。

也就是说，在第一种实现方式中，可以根据演唱者标识和每分钟节拍数，确定同一演唱者演唱且与待播放音频的每分钟节拍数比较接近的多个素材作为备选素材。

作为一种示例，可以先根据演唱者标识，从素材库中获取演唱者标识对应的多个候选素材，然后根据待播放音频的每分钟节拍数和指定范围，确定目标每分钟节拍数范围，再从多个候选素材中确定对应的每分钟节拍数处于目标每分钟节拍数范围内的候选素材，得到与音频的关联度大于指定阈值的多个备选素材。如此得到的多个备选素材的每分钟节拍数与待播放音频的每分钟节拍数接近，即节奏比较接近，有效降低了节奏快的音频配节奏慢的音频的素材的情况，或者节奏慢的音频配节奏快的音频的素材的情况出现的概率，得到的多个备选素材与待播放音频的关联度较高，有效地筛选掉了素材库中与待播放音频的节奏相差很大的素材。

其中，假设指定范围为-20～20，待播放音频的每分钟节拍数为110，可以确定目标每分钟节拍数范围为110-20～110+20，即目标每分钟节拍数范围为90～130。

作为一种示例，假设待播放音频的演唱者标识为123，每分钟节拍数为100，指定范围为-10～10，可以确定目标每分钟节拍数范围为90～110。根据素材库中每个素材的演唱者标识，从素材库中获取演唱者标识为123的多个候选素材，然后根据每个候选素材的每分钟节拍数，从多个候选素材中确定每分钟节拍数处于90～110的多个候选素材作为与该待播放音频的关联度大于指定阈值的多个备选素材。

示例性地，参见图2，图2为一种确定多个备选素材的流程图。可以将待播放音频输入aubio软件中，确定待播放音频的每分钟节拍数，然后根据指定范围和音频的每分钟节拍数，确定目标每分钟节拍数范围。根据演唱者标识从素材库中获取演唱者标识对应的多个候选素材，然后从多个候选素材中确定每分钟节拍数处于目标每分钟节拍数范围内的候选素材，得到多个备选素材。

需要说明的是，若素材为视频，素材的每分钟节拍数指的是素材对应的音频的每分钟节拍数。若素材为图片，素材的每分钟节拍数可以为0。

第二种实现方式：若关联信息包括演唱者标识和频谱特征，则从素材库中获取演唱者标识与待播放音频的演唱者标识对应且频谱特征与待播放音频的频谱特征之间的第一相似度大于第一相似度阈值的素材，从而得到与音频的关联度大于指定阈值的多个备选素材。

其中，第一相似度阈值可以由用户根据实际需要进行设置，也可以由计算机设备默认设置，本申请实施例对此不做限定。

在实施中，素材库中还可以包括每个素材的频谱特征。在第二种实现方式中，可以先根据演唱者标识，从素材库中获取演唱者标识对应的多个候选素材，然后确定每个候选素材的频谱特征与待播放音频的频谱特征的第一相似度，得到每个候选素材的第一相似度，再从多个候选素材中选择第一相似度大于第一相似度阈值的第三候选素材，得到与待播放音频的关联度大于指定阈值的多个备选素材。如此得到的多个备选素材的频谱特征与待播放音频的频谱特征相似度较高，即多个备选素材与待播放音频的关联度较高，有效地筛选掉了与待播放音频的风格违和的素材。

作为一种示例，假设待播放音频的演唱者标识为82，待播放音频的频谱特征为(a₁，a₂，a₃，...，a_n)，第一相似度阈值为0.85。根据素材库中每个素材的演唱者标识，从素材库中获取演唱者标识为82的多个素材作为多个候选素材，然后根据每个候选素材的频谱特征，确定每个候选素材的频谱特征与(a₁，a₂，a₃，...，a_n)之间的第一相似度，得到每个候选素材的第一相似度，然后从多个候选素材中选择第一相似度大于0.85的候选素材作为与该音频的关联度大于指定阈值的多个备选素材。

需要说明的是，若素材为视频，素材的频谱特征可以为素材对应的音频的频谱特征。若素材为图片，素材的频谱特征可以为图像特征。示例性地，可以通过深度神经网络确定素材库中包括的多个素材的频谱特征，并将每个频谱特征与其对应的素材对应存储在计算机设备中。

第三种实现方式：若关联信息包括演唱者标识和每分钟的歌词字数，则从素材库中获取演唱者标识与待播放音频的演唱者标识对应且每分钟的歌词字数与待播放音频的每分钟的歌词字数的差值处于一定范围内的多个素材作为备选素材。

其中，一定范围指的是待播放音频的每分钟的歌词字数与素材的每分钟的歌词字数的差值所处的范围。

需要说明的是，一定范围可以由用户根据实际需求进行设置，也可以由计算机设备默认设置，本申请实施例对此不做限定。例如，一定范围可以为-15～15。

也就是说，在第三种实现方式中，可以根据演唱者标识和每分钟的歌词数，确定同一演唱者演唱且与待播放音频的每分钟的歌词数比较接近的多个素材作为备选素材。

在实施中，素材库中还可以包括每个素材的每分钟的歌词字数。在第三种实现方式中，可以先根据演唱者标识，从素材库中获取演唱者标识对应的多个候选素材，然后根据待播放音频的每分钟的歌词字数和一定范围，确定目标字数范围，再从候选素材中选择每分钟的歌词字数处于目标字数范围内的候选素材，得到与音频的关联度大于指定阈值的多个备选素材。如此得到的多个备选素材的每分钟的歌词字数与待播放音频的每分钟的歌词字数比较接近，即节奏比较接近，有效降低了节奏快的音频配节奏慢的音频的素材的情况，或者节奏慢的音频配节奏快的音频的素材的情况出现的概率，得到的多个备选素材与待播放音频的关联度较高，有效地筛选掉了与待播放音频的节奏相差很大的素材。

其中，假设一定范围为-16～16，待播放音频的每分钟的歌词字数为156，可以确定目标字数范围为156-16～156+16，即目标字数范围为140～172。

作为一种示例，假设待播放音频的演唱者标识为101，每分钟的歌词字数为152，一定范围为10，可以确定目标字数范围为142～162。根据素材库中每个素材的演唱者标识，从素材库中获取演唱者标识为101的多个素材作为多个候选素材，然后根据每个候选素材的每分钟的歌词字数，从多个候选素材中选择每分钟的歌词字数处于142～162范围内的候选素材作为与该音频的关联度大于指定阈值的多个备选素材。

需要说明的是，若素材为视频，素材的每分钟的歌词字数指的是素材对应的音频的每分钟的歌词字数。若素材为图片，素材的每分钟的歌词字数可以为0。

第四种实现方式：若关联信息包括演唱者标识和音频特征，则从素材库中获取演唱者标识与待播放音频的演唱者标识对应且音频特征与待播放音频的音频特征之间的第二相似度大于第二相似度阈值的素材，从而得到与音频的关联度大于指定阈值的多个备选素材。

其中，第二相似度阈值可以由用户根据实际需要进行设置，也可以由计算机设备默认设置，本申请实施例对此不做限定。

在实施中，素材库中还可以包括每个素材的音频特征。若素材为图片，该音频特征可以为该素材的图像特征。在第四种实现方式中，可以先根据演唱者标识，从素材库中获取演唱者标识对应的多个候选素材，然后确定每个候选素材的音频特征与待播放音频的音频特征的第二相似度，得到每个候选素材的第二相似度，再从多个候选素材中选择第二相似度大于第二相似度阈值的候选素材，得到与音频的关联度大于指定阈值的多个备选素材。如此得到的多个备选素材的音频特征与待播放音频的音频特征相似度较高，即多个备选素材与待播放音频的关联度较高，有效地筛选掉了与音频的风格违和的素材。

作为一种示例，假设演唱者标识为135，待播放音频的音频特征为(b₁，b₂，b₃，...，b_n)第二相似度阈值为0.80。根据素材库中每个素材的演唱者标识，从素材库中获取演唱者标识为135的多个素材作为多个候选素材，然后根据每个候选素材的音频特征，确定每个候选素材的音频特征与(b₁，b₂，b₃，...，b_n)之间的第二相似度，得到每个候选素材的第二相似度，然后从多个候选素材中选择第二相似度大于0.80的多个候选素材作为与该待播放音频的关联度大于指定阈值的多个备选素材。

需要说明的是，若素材为视频，素材的音频特征可以为素材对应的音频的音频特征。若素材为图片，素材的音频特征可以为图像特征。示例性地，可以通过深度神经网络确定素材库中包括的多个素材的音频特征，并将每个音频特征与对应的素材对应存储在计算机设备中。

第五种实现方式：在素材为视频的情况下，若关联信息包括演唱者标识和关联音频标识，则从素材库中获取演唱者标识与待播放音频的演唱者标识对应且音频标识与关联音频标识对应的多个素材作为备选素材。

在实施中，素材库中还可以包括每个素材的音频标识。在第五种实现方式中，可以先根据演唱者标识，从素材库中获取演唱者标识对应的多个候选素材。然后根据关联音频标识，从多个候选素材中选择音频标识为关联音频标识的候选素材，得到与音频的关联度大于指定阈值的多个备选素材。如此得到的多个备选素材对应的音频与待播放音频的风格比较相似，即多个备选素材与待播放音频的关联度较高，有效地筛选了与待播放音频的风格违和的素材。

需要说明的是，若素材为视频，素材的音频标识可以为素材对应的音频的音频标识。

在一种可能的实现方式中，除了使用上述几种方式确定多个备选素材之外，还可以通过其他方式确定与待播放音频的关联度大于指定阈值的多个备选素材。例如，音频的关联信息包括每分钟节拍数、频谱特征、每分钟的歌词字数、音频特征中的至少一个，从而可以根据这些信息中的一个或将这些信息中的多个结合，从素材库中不同的演唱者标识对应的素材中，确定与该待播放音频的关联度大于指定阈值的多个备选素材。具体实现可以参见上述几种实现方式，本申请实施例在此不再赘述。

进一步地，素材库中还可以包括每个素材的素材时长。由于时长过长的素材在使用中可能需要裁剪，时长过短的素材在使用中可能需要多次拼接，因此，为了便于后续操作，对于多个备选素材中为视频的备选素材，可以根据该每个备选素材的素材时长，将时长小于第一时长阈值的备选素材剔除，将时长大于第二时长阈值的备选素材剔除。也就是说，为了简化后续操作，可以将时长过长或时长过短的为视频的备选素材剔除掉。

其中，第一时长阈值和第二时长阈值均可以由用户根据实际需要进行设置，也可以由计算机设备默认设置，本申请实施例对此不做限定。例如，第一时长阈值可以为5秒，第二时长阈值可以为40秒。

步骤103：确定每个备选素材与多个备选素材组成的素材集合之间的语义相似度，得到多个备选素材的语义相似度。

其中，任意两个素材之间的语义相似度可以用于表示该任意两个素材的素材风格是否相近。

虽然获取的多个备选素材与音频的关联度较高，但其彼此的风格可能差距很大，如果出现在同一个视频中，会显得比较违和，使视频在视觉上的画风显得不太和谐。例如，多个备选素材可能包括白天的场景、黑夜的场景、外景的场景、演唱会的场景、动画场景等，若这些备选素材在同一个视频中交替出现，且未进行任何处理，会显得很违和。因此，需要对多个备选素材进行进一步地筛选。

在实施中，确定每个备选素材与多个备选素材组成的素材集合之间的语义相似度可以包括如下几个步骤：

(1)确定每个备选素材的素材特征向量。

在实施中，可以使用训练好的图片分类CNN(Convolutional Neural Networks，卷积神经网络)模型，提取每个备选素材的素材特征向量。该CNN模型可以预先根据大型的图像分类数据集进行训练。该大型的图像分类数据集可以为ImageNet、PLACES 365、Open-Images或Tencent ML-Images。

在一种可能的实现方式中，若备选素材包括视频，确定其素材特征向量可以包括两种实现方式。

第一种实现方式：当备选素材包括视频时，对于任一备选素材来说，可以获取该任一备选素材中某时刻对应的视频帧，将该视频帧输入CNN模型中，输出该视频帧对应的素材特征向量，将该视频帧对应的素材特征向量确定为该备选素材的素材特征向量。

第二种实现方式：当备选素材包括视频时，对于任一备选素材来说，可以每隔一定时长提取一次该任一备选素材的视频帧，得到该备选素材对应的多张视频帧，将该多张视频帧输入训练好的CNN模型中，分别输出该多张视频帧对应的素材特征向量，将该多张视频帧对应的素材特征向量求和取平均，得到该备选素材的素材特征向量。

在另一种可能的实现方式中，若备选素材包括图片，可以直接将备选素材输入训练好的CNN模型中，输出该备选素材的素材特征向量。

示例性地，素材特征向量通常为一个定长的浮点型向量。譬如，素材特征向量可以为2048维，可以表示为(x₁，x₂，x₃，...，x₂₀₄₈)。

需要说明的是，可以使用不同的训练数据训练得到多个CNN模型，若要确定不同的待播放音频对应的视频，可以随机选取不同的CNN模型来确定多个备选素材的素材特征向量。

(2)基于每个备选素材的素材特征向量，确定多个备选素材组成的素材集合的集合特征向量。

在实施中，基于每个备选素材的素材特征向量，确定多个备选素材组成的素材集合的集合特征向量可以包括如下两种实现方式：

第一种实现方式：确定各个备选素材的素材特征向量中同一位置的素材特征均值，将素材特征均值组成的向量确定为集合特征向量。

也就是说，在第一种实现方式中，可以直接根据多个备选素材的素材特征向量，确定多个备选素材的素材特征向量中同一位置的素材特征均值，将得到的素材特征均值组成的向量确定为集合特征向量。即将根据步骤102确定的所有备选素材的素材特征向量确定集合特征向量，如此确定的集合特征向量可以更好地代表确定的所有备选素材的风格。

作为一种示例，由于单个备选素材的素材特征向量为多维向量，因此，需要确定各个备选素材的素材特征向量中同一位置的素材特征均值，然后将所得到的素材特征均值组成的向量确定为集合特征向量。

示例性地，假设多个备选素材的数量为2个，分别为A₁和A₂，每个备选素材的素材特征向量为3维向量，假设A₁的素材特征向量表示为[c₁₁,c₁₂,c₁₃]，A₂的素材特征向量表示为[c₂₁,c₂₂,c₂₃]。可以将A₁的素材特征向量和A₂的素材特征向量中对应位置的数值取平均，可以得到3个素材特征均值，分别为(c₁₁+c₂₁)÷2、(c₁₂+c₂₂)÷2和(c₁₃+c₂₃)÷2，进而可以确定集合特征向量为[(c₁₁+c₂₁)÷2，(c₁₂+c₂₂)÷2，(c₁₃+c₂₃)÷2]。

第二种实现方式：根据多个备选素材的素材特征向量，对多个备选素材进行聚类，得到至少一种类别的备选素材。若至少一种类别的数量为多种，从多种类别中选择包括备选素材的个数满足预设条件的目标类别。确定目标类别中各个备选素材的素材特征向量中同一位置的素材特征均值。将素材特征均值组成的向量确定为集合特征向量。

其中，同种类别的备选素材具有相同的规律。例如，同种类别的备选素材的风格比较接近。

作为一种示例，多种类别可以包括卡通类、风景类、演唱会类等等。

其中，包括备选素材的个数满足预设条件可以为包括备选素材的个数大于预设阈值。该预设阈值可以由用户根据实际需求进行设置，也可以由计算机设备默认设置，本申请实施例对此不做限定。例如，预设阈值可以为20。

也就是说，可以先根据多个备选素材的素材特征向量，对多个备选素材进行聚类，若得到多种类别的备选素材，可以统计每种类别包括的备选素材的个数，确定包括的备选素材的个数大于预设阈值的类别，得到目标类别。然后根据目标类别包括的各个备选素材的素材特征向量确定集合特征向量。即根据包括的备选素材个数满足预设条件的类别包括的备选素材的素材特征向量确定集合特征向量，可以减少计算量，且确定的集合特征向量可以代表风格较大众化的备选素材。

在实施中，可以根据多个备选素材的素材特征向量，采用K-means算法对多个备选素材进行聚类，将多个备选素材聚类到多种类别中，得到多种类别的备选素材，属于同种类别的备选素材相互之间的相似度较高。

在一些实施例中，可以先随机选取P个备选素材作为质心，然后计算其它的每个备选素材的素材特征向量分别与该P个质心的素材特征向量的距离，对于任一其它的备选素材来说，可以选择与其距离最小的质心所在的类别为该任一其它的备选素材所属的类别。然后，重新计算每种类别包括的备选素材的素材特征向量的素材特征均值，将素材特征均值作为对应的每种类别的新的质心的素材特征向量，再次计算每个备选素材的素材特征向量与新的质心的素材特征向量的距离，进而调整每个备选素材所属的类别，直到达到最大迭代次数或调整的幅度小于幅度阈值，算法停止，将此时确定的P种类别确定为多个备选素材聚类得到的P种类别。

其中，P为正整数，且P可以由用户根据实际需要进行设置，也可以由计算机设备默认设置，本申请实施例对此不做限定。

其中，幅度阈值可以由用户根据实际需要进行设置，也可以由计算机设备默认设置，本申请实施例对此不做限定。

需要说明的是，上述仅是以K-means算法为例对本步骤的具体实现进行说明，在实施中，还可以通过其它算法实现对多个备选素材的聚类。例如，均值漂移聚类法、DBSCAN(Density-Based Spatial Clustering of Application with Noise，基于密度的聚类方法)、凝聚层次聚类、Graph Community Detection(图团体检测)等。

在一些实施例中，将多个备选素材聚类为多种类别后，可以统计每种类别包括的备选素材的个数，然后选择包括的备选素材的个数大于预设阈值的目标类别。由于单个备选素材的素材特征向量为多维向量，因此，需要确定目标类别包括的备选素材的素材特征向量中同一位置的素材特征均值，然后将所得到的素材特征均值组成的向量确定为集合特征向量。

作为一种示例，若目标类别的数量为一个，可以确定该目标类别包括的所有备选素材的素材特征向量中同一位置的素材特征均值，然后将所得到的素材特征均值组成的向量确定为集合特征向量。

作为另一种示例，若目标类别的数量为多个，可以确定多个目标类别包括的所有备选素材的素材特征向量中同一位置的素材特征均值。然后将所得到的素材特征均值组成的向量确定为集合特征向量。或者，可以确定每个目标类别包括的备选素材的素材特征向量中同一位置的素材特征均值，然后将多个目标类别同一位置的素材特征均值再求均值，将所得到的素材特征均值的均值组成的向量确定为集合特征向量。

第三种实现方式：根据多个备选素材的素材特征向量，对多个备选素材进行聚类，得到至少一种类别的备选素材。若至少一种类别的数量为多种，从多种类别中选择包括备选素材的个数最多的目标类别。确定目标类别中各个备选素材的素材特征向量中同一位置的素材特征均值。将素材特征均值组成的向量确定为集合特征向量。

也就是说，可以先根据多个备选素材的素材特征向量，对多个备选素材进行聚类，若得到多种类别的备选素材，可以确定包括的备选素材个数最多的类别，得到目标类别。然后根据目标类别包括的备选素材的素材特征向量确定集合特征向量。即根据包括的备选素材个数最多的类别包括的备选素材的素材特征向量确定集合特征向量，可以减少计算量，且确定的集合特征向量可以更好地代表风格较大众化的备选素材。

需要说明的是，对备选素材进行聚类的具体实现与第二种实现方式中对备选素材进行聚类的具体实现相同，具体可参见本步骤第二种实现方式的相关描述，该种实现方式在此不再赘述。

需要说明的是，根据目标类别包括的备选素材的素材特征向量确定集合特征向量的具体实现与第二种实现方式中根据目标类别包括的备选素材的素材特征向量确定集合特征向量的方法相同，具体可参见本步骤第二种实现方式的相关描述，该种实现方式在此不再赘述。

第四种实现方式：根据多个备选素材的素材特征向量，对多个备选素材进行聚类，得到多种类别的备选素材。从多种类别中选择包括的备选素材的个数满足预设条件的类别作为目标类别。确定目标类别中每个备选素材的素材特征向量与其他备选素材的素材特征向量的距离，得到每个备选素材对应的多个距离，基于每个素材对应的多个距离确定每个备选素材对应的距离和，将对应的距离和最小的备选素材的素材特征向量确定为集合特征向量。

其中，该距离可以为欧式距离、余弦距离、曼哈顿距离、马氏距离等，本申请实施例对此不做限定。

也就是说，可以先根据多个备选素材的素材特征向量，对多个备选素材进行聚类，得到多种类别的备选素材，每种类别的备选素材具有相同规律。统计每种类别包括的备选素材的个数，从多种类别中，选择包括的备选素材的个数大于预设阈值的类别作为目标类别。确定目标类别包括的多个备选素材中每个备选素材的素材特征向量与其他备选素材的素材特征向量的距离，得到每个备选素材对应的多个距离，将每个备选素材对应的多个距离相加得到每个备选素材对应的距离和，将对应的距离和最小的备选素材的素材特征向量确定为集合特征向量。

作为一种示例，以距离为欧式距离为例，可以通过如下公式(1)来确定每个备选素材的素材特征向量与其他备选素材的素材特征向量的距离：

其中，在公式(1)中，p表示素材特征向量(x₁，x₂，x₃，...，x_n)与素材特征向量(y₁，y₂，y₃，...，y_n)之间的欧式距离，n表示素材特征向量的维度。

在实施中，可以先对多个备选素材进行聚类，得到多种类别的备选素材。然后统计每种类别包括的备选素材的个数，确定包括的备选素材的个数大于预设阈值的目标类别。计算目标类别包括的备选素材中每个备选素材与其他备选素材的相似度，得到每个备选素材对应的多个相似度，将每个备选素材对应的多个相似度相加求平均得到每个备选素材对应的平均相似度，将平均相似度最大的备选素材的素材特征向量确定为集合特征向量。

其中，两个备选素材之间的相似度与两个备选素材的素材特征向量之间的距离可以相互转换。例如，假设两个备选素材的素材特征向量之间的距离为x，可以认为这两个备选素材之间的相似度为1/x。由此可见，距离越小，则相似度越大，距离越大，则相似度越小。

在一种可能的实现方式中，若目标类别的数量为一个，可以直接计算该目标类别包括的每个备选素材的素材特征向量与其他备选素材的素材特征向量的距离，得到每个备选素材对应的多个距离，然后对每个备选素材对应的多个距离求和，可以得到每个备选素材对应的距离和，将对应的距离和最小的备选素材的素材特征向量确定为集合特征向量。

在另一种可能的实现方式中，若目标类别的数量为多个，可以确定多个目标类别包括的所有备选素材中每个备选素材的素材特征向量与其他备选素材的素材特征向量的距离，得到每个备选素材对应的多个距离，然后对每个备选素材对应的多个距离求和，可以得到每个备选素材对应的距离和，将对应的距离和最小的备选素材的素材特征向量确定为集合特征向量。或者，对于多个目标类别中的任一目标类别，可以确定该任一目标类别包括的多个备选素材中每个备选素材的素材特征向量与其他备选素材的素材特征向量的距离，得到该任一目标类别包括的每个备选素材对应的多个距离，然后对每个备选素材对应的多个距离求和，可以得到该任一目标类别包括的每个备选素材对应的距离和，确定该任一目标类别包括的多个备选素材中对应的距离和最小的备选素材。对多个目标类别都进行上述操作后，可以确定每个目标类别对应的距离和最小的备选素材，再确定多个目标类别对应的距离和最小的备选素材中同一位置的素材特征均值，将确定的素材特征均值组成的向量确定为集合特征向量。

需要说明的是，除了上述几种确定集合特征向量的实现方式，还可以在多个备选素材中随机确定一个备选素材为聚类中心，将该聚类中心的素材特征向量确定为集合特征向量。

(3)根据每个备选素材的素材特征向量与素材集合的集合特征向量，分别确定每个备选素材与素材集合之间的距离。

其中，距离可以用于表示相应的备选素材与素材集合之间的语义相似度。

也就是说，分别确定多个备选素材的素材特征向量与集合特征向量之间的距离，得到每个备选素材的距离。

作为一种示例，计算每个备选素材的素材特征向量与集合特征向量之间的距离的具体实现可以参见基于每个备选素材的素材特征向量，确定多个备选素材组成的素材集合的集合特征向量的第四种实现方式的相关描述，本申请实施例在此不再赘述。

在一种可能的实现方式中，确定每个备选素材的素材特征向量与集合特征向量之间的距离时，可以计算步骤102得到的所有备选素材的素材特征向量与集合特征向量之间的距离，得到多个备选素材的距离。

在另一种可能的实现方式中，确定每个备选素材的素材特征向量与集合特征向量之间的距离时，可以将多个备选素材进行聚类，然后统计每种类别包括的备选素材的个数，将包括的备选素材的个数大于预设阈值的类别包括的备选素材保留下来，将包括备选素材个数小于或等于预设阈值的类别包括的备选素材删除，可以剔除一些风格比较小众的素材。然后确定保留的多个备选素材的素材特征向量与集合特征向量之间的距离，得到保留的多个备选素材的距离。

需要说明的是，备选素材的素材特征向量与素材集合的集合特征向量之间的距离越大，说明备选素材与素材集合的语义相似度越小，备选素材的素材特征向量与素材集合的集合特征向量之间的距离越小，说明备选素材与素材集合的语义相似度越大。

步骤104：按照多个备选素材的语义相似度的高低排序，从多个备选素材中依序选取N个备选素材作为目标素材，该目标素材的时长总和大于或等于待播放音频的音频时长。

其中，N为大于1的整数。

获取的备选素材的个数比较多，生成待播放音频对应的视频可能不需要这么多的备选素材，因此，可以根据多个备选素材的语义相似度从多个备选素材中确定目标素材。由于语义相似度越高，说明相应的备选素材与其他备选素材的风格更接近，因此，可以按照多个备选素材的语义相似度从高到低的顺序选择N个备选素材作为目标素材，如此确定的目标素材拼接得到的视频从视觉上会更加和谐。

在一种可能的实现方式中，按照多个备选素材的语义相似度的高低排序，从多个备选素材中依序选取N个备选素材作为目标素材的具体实现可以包括：按照多个备选素材的语义相似度从高到低的顺序，对多个备选素材进行排序。基于音频时长，从排序后的多个备选素材中依序选取靠前的N个备选素材作为目标素材，目标素材的素材总时长大于或等于音频时长。

也就是说，可以先按照语义相似度从高到低的顺序对多个备选素材进行排序，然后根据音频时长和每个备选素材的时长，从排序后的多个备选素材中依序选择备选素材，直到选择的N个备选素材的时长总和大于或等于待播放音频的音频时长，将此时选择的N个备选素材确定为目标素材。

作为一种示例，素材库中还可以包括素材的素材标识，假设多个备选素材的素材标识分别为A、B、C、D、E，且A的语音相似度为0.6、B的语音相似度为0.1、C的语音相似度为0.5、D的语音相似度为0.8、E的语音相似度为0.2。可以对多个备选素材进行排序，得到排序后的多个备选素材为D、A、C、E、B。假设D的素材时长为38秒、A的素材时长为30秒、C的素材时长为35秒、E的素材时长为30秒、B的素材时长为18秒。假设音频的音频时长为2分钟，D的素材时长加A的素材时长加C的素材时长加E的素材时长为2分13秒，大于音频时长2分钟，可以得到目标素材为D、A、C和E。

进一步地，确定多个目标素材后，可以按照多个目标素材在多个备选素材中的位置，对目标素材中多个素材进行排序。

继续上述举例，假设多个备选素材的排序为A、B、C、D、E，得到的多个目标素材包括D、A、C和E，可以按照D、A、C和E分别在多个备选素材中的排序对多个目标素材进行排序。具体实现包括：在多个备选素材中，多个目标素材中的A排在D、C和E之前，因此，将A排在第一位，多个目标素材中的C排在A之后D和E之前，因此，将C排在第二位，多个目标素材中的D排在C之后E之前，因此，将D排在第三位，最后将E排在最后一位，得到排序后的多个目标素材为A、C、D、E。

作为一种示例，接下来结合图3对步骤103～步骤104进行简单描述。

将多个备选素材输入CNN模型中，得到每个备选素材的素材特征向量，根据每个备选素材的素材特征向量，对多个备选素材进行聚类，然后确定集合特征向量，进而确定每个备选素材的素材特征向量与集合特征向量的距离，将距离转换为语义相似度，根据每个备选素材与素材集合之间的语义相似度从高到低的顺序，对多个备选素材进行排序，然后从多个备选素材中选择排序靠前的N个备选素材确定为目标素材。

进一步地，可以获取待播放音频的歌词文件，并根据歌词文件，确定待播放音频的演唱区间及非演唱区间。根据每个备选素材是否包括演唱声音，将每个备选素材确定为演唱素材或非演唱素材。

在实施中，获取待播放音频的歌词文件，并根据歌词文件，确定待播放音频的演唱区间及非演唱区间的具体实现可以包括：获取待播放音频的歌词文件，根据歌词文件，确定待播放音频的至少一个演唱区间和每个演唱区间对应的区间时长，以及确定待播放音频的至少一个非演唱区间和每个非演唱区间对应的区间时长。

在一些实施例中，可以根据待播放音频的歌词文件，将待播放音频中有歌词的部分确定为演唱区间，无歌词的部分确定为非演唱区间，且将两句歌词间的时长小于第三时长阈值的部分也可以确定为演唱区间。如此，可以将整个待播放音频划分为包括至少一个演唱区间和至少一个非演唱区间。

其中，第三时长阈值可以由用户根据实际需要进行设置，也可以由计算机设备默认设置，本申请实施例对此不做限定。

作为一种示例，可以将待播放音频中连续有歌词的部分确定为一个演唱区间，该一个演唱区间可能包括多个演唱片段，且一个演唱片段对应一句歌词。也就是说，可以将连续的多句歌词对应的部分确定为一个演唱区间。

在一些实施例中，确定每个演唱区间对应的区间时长的具体实现可以包括：若待播放音频中演唱区间的数量为一个，可以确定该一个演唱区间对应的歌词的开始时间点和结束时间点，将开始时间点与结束时间点之间的时长确定为该一个演唱区间的区间时长。若待播放音频中演唱区间的数量为多个，对于多个演唱区间中的每一个演唱区间，都可以按照上述方法确定区间时长。

在一些实施例中，确定每个非演唱区间对应的区间时长的具体实现可以包括：若待播放音频中非演唱区间的数量为一个，可以确定该一个非演唱区间对应的无歌词部分的开始时间点和结束时间点，将该开始时间点与结束时间点之间的时长确定为该一个非演唱区间的区间时长。若待播放音频中非演唱区间的数量为多个，对于多个非演唱区间中的每一个非演唱区间，都可以按照上述方法确定区间时长。

在实施中，由于待播放音频中通常包括演唱区间和非演唱区间，为了使得待播放音频与生成的视频更匹配，相关性更好，对于演唱区间和非演唱区间需要匹配不同的备选素材，因此，可以将多个备选素材划分成与演唱区间匹配的演唱素材，以及与非演唱区间匹配的非演唱素材。

在一种可能的实现方式中，需要对备选素材进行演唱声音识别，从而确定备选素材为演唱素材或非演唱素材。

作为一种示例，对于任一备选素材，无论该任一备选素材是视频还是图片，可以对该任一备选素材进行演唱声音识别，若该任一备选素材包括演唱声音，可以将该任一备选素材确定为演唱素材，若该任一备选素材不包括演唱声音，可以将该任一备选素材确定为非演唱素材。在这种情况下，若该任一备选素材为图片，可以确定该任一备选素材不包括演唱声音，可以将该任一备选素材确定为非演唱素材。

作为另一种示例，若任一备选素材为视频，可以继续按照上述一种示例的方式确定该任一备选素材为演唱素材还是非演唱素材。若任一备选素材为图片，不需要判断其是否包括演唱声音，可以随机将该任一备选素材确定为演唱素材或非演唱素材。

在另一种可能的实现方式中，素材库中可以包括每个素材的第一指示信息，该第一指示信息用于指示对应的素材是否包括演唱声音。获取多个备选素材时可以同时获取每个备选素材的第一指示信息，然后可以直接根据每个备选素材的第一指示信息将每个备选素材确定为演唱素材或非演唱素材。

作为一种示例，可以将第一指示信息指示包括演唱声音的备选素材确定为演唱素材，将第一指示信息指示不包括演唱声音的备选素材确定为非演唱素材。

在该种情况下，按照多个备选素材的语义相似度的高低排序，从多个备选素材中依序选取N个备选素材作为目标素材的具体实现可以包括：针对演唱区间，按照多个备选素材的语义相似度的高低排序，从多个备选素材中依序选取演唱素材，直至选取的演唱素材的素材总时长大于或等于演唱区间对应的区间时长，得到演唱区间对应的演唱素材组，其中，演唱素材组内的演唱素材按照选入顺序依次排序。针对非演唱区间，按照多个备选素材的语义相似度的高低排序，从多个备选素材中依序选取非演唱素材，直至选取的非演唱素材的素材总时长大于或等于非演唱区间对应的区间时长，得到非演唱区间对应的非演唱素材组，其中，非演唱素材组内的非演唱素材按照选入顺序依次排序。将演唱素材组的演唱素材以及非演唱素材组的非演唱素材确定为目标素材。

在实施中，针对待播放音频的演唱区间，可以按照多个备选素材的语义相似度的从高到低的顺序，对多个备选素材进行排序。由于已经将每个备选素材分别确定为演唱素材和非演唱素材，因此可以直接从排序后的多个备选素材中依序选取演唱素材，直到选取的演唱素材的素材总时长大于或等于演唱区间对应的区间时长，可以将选取的演唱素材确定为演唱区间对应的演唱素材组。并且，在演唱素材组内，多个演唱素材的顺序与被选取的顺序相同。

示例性地，假设排序后的多个备选素材为A、C、M、E、B、G、D、N、F。其中，A、B、C、D和M为演唱素材，针对演唱区间，依序选取的演唱素材为A、C、M、B和D，可以得到演唱区间对应的演唱素材组，且演唱素材组内演唱素材的排序为A、C、M、B、D。

在实施中，针对待播放音频的非演唱区间，可以按照多个备选素材的语义相似度的从高到低的顺序，对多个备选素材进行排序。由于已经将每个备选素材分别确定为演唱素材和非演唱素材，因此可以直接从排序后的多个备选素材中依序选取非演唱素材，直到选取的非演唱素材的素材总时长大于或等于非演唱区间对应的区间时长，可以将选取的非演唱素材确定为非演唱区间对应的非演唱素材组。并且，在非演唱素材组内，多个非演唱素材的顺序与被选取的顺序相同。

示例性地，假设排序后的多个备选素材为A、C、M、E、B、G、D、N、F。其中，E、F、G和N为非演唱素材，针对非演唱区间，依序选取的非演唱素材为E、G、N和F，可以得到非演唱区间对应的非演唱素材组，且非演唱素材组内非演唱素材的排序为E、G、N、F。

在这种情况下，可以将演唱素材组的演唱素材和非演唱素材组的非演唱素材确定为目标素材。

需要说明的是，在演唱素材组内，如果任一演唱素材为图片，组内排序时，可以将该任一演唱素材作为其相邻的前一个或后一个为视频的演唱素材的一部分。在非演唱素材组内，如果任一非演唱素材为图片，组内排序时，可以将该任一非演唱素材作为其相邻的前一个或后一个为视频的非演唱素材的一部分。

以演唱素材组为例，假设演唱素材组内的多个演唱素材包括A、C、B、D，其中，演唱素材C为图片，演唱素材A、B和D为视频，可以将该C作为演唱素材A的一部分，得到排序后的多个演唱素材为A1、B、D。或者可以将该C作为演唱素材B的一部分，得到排序后的多个演唱素材为A2、B、D。

步骤105：基于目标素材生成用于与待播放音频配合播放的目标视频。

在一种可能的实现方式中，基于目标素材生成用于与待播放音频配合播放的目标视频的具体实现可以包括：

(1)将非演唱区间对应的非演唱素材组内的非演唱素材进行拼接，得到非演唱区间对应的视频。

在实施中，将非演唱区间对应的非演唱素材组内的非演唱素材进行拼接的具体实现可以包括：按照非演唱素材组内的非演唱素材中是否包括人脸，将非演唱素材组内的非演唱素材划分为有人脸非演唱素材组以及无人脸非演唱素材组，其中，有人脸非演唱素材组内素材的前后排序与选取的先后顺序相同，且无人脸非演唱素材组内素材的前后排序与选取的先后顺序相同。根据非演唱区间的类型，确定非演唱素材组内有人脸非演唱素材组以及无人脸非演唱素材组的前后排序。将排序后的有人脸非演唱素材组内的素材以及无人脸非演唱素材组内的素材进行拼接。

在一些实施例中，可以根据非演唱素材组中的每个非演唱素材是否包括人脸，将每个非演唱素材确定为有人脸非演唱素材或无人脸非演唱素材，然后按照非演唱素材组内非演唱素材的顺序依序选取有人脸非演唱素材，得到有人脸非演唱素材组，以及按照非演唱素材组内非演唱素材的顺序依序选取无人脸非演唱素材，得到无人脸非演唱素材组。如此，在有人脸素材组内，多个非演唱素材的顺序与被选取的顺序相同，且在无人脸素材组内，多个非演唱素材的顺序与被选取的顺序相同。

在一种可能的实现方式中，可以对非演唱素材进行人脸识别，根据是否包括人脸将非演唱素材确定为有人脸非演唱素材或无人脸非演唱素材。

作为一种示例，对于任一非演唱素材，可以对该任一非演唱素材进行人脸识别，若该任一非演唱素材包括人脸，可以将该任一非演唱素材确定为有人脸非演唱素材，若该任一非演唱素材不包括人脸，可以将该任一非演唱素材确定为无人脸非演唱素材。

在另一种可能的实现方式中，素材库中可以包括每个素材的第二指示信息，该第二指示信息用于指示对应的素材中是否包括人脸。获取多个第二素材时可以同时获取每个第二素材的第二指示信息，对于非演唱素材组的非演唱素材，可以直接根据每个非演唱素材的第二指示信息将每个非演唱素材确定为有人脸非演唱素材或无人脸非演唱素材。

作为一种示例，可以将第二指示信息指示包括人脸的非演唱素材确定为有人脸非演唱素材，将第二指示信息指示不包括人脸的非演唱素材确定为无人脸非演唱素材，进而可以在非演唱素材组内得到有人脸非演唱素材组和无人脸非演唱素材组。

在一些实施例中，由于在视频拍摄中，通常在视频的开始先拍摄远景，再将镜头拉近到近景，而在视频的最后通常先拍摄近景，再将镜头拉远到远景，这样得到的视频的视觉体验更佳。因此，可以根据非演唱区间的类型，对非演唱素材组内的有人脸素材组和无人脸素材组进行排序。

作为一种示例，若非演唱区间为前奏，可以将无人脸非演唱素材组排在有人脸非演唱素材组之前。如此，在视频一开始，可以先显示无人脸非演唱素材，再显示有人脸非演唱素材，可以达到由远及近的拍摄效果，使得视频画面更和谐。

示例性地，假设非演唱素材组内多个非演唱素材的排序为A、C、M、E、B、G、D。无人脸非演唱素材组包括A、B、C和D，有人脸非演唱素材组包括E、G和M，可以得到无人脸非演唱组内部的排序为A、C、B、D，有人脸非演唱素材组内部的排序为M、E、G，进而可以得到重新排序后的非演唱素材组内的排序为A、C、B、D、M、E、G。

作为一种示例，若非演唱区间为尾奏，可以将有人脸非演唱素材组排在无人脸非演唱素材组之前。如此，在视频的最后，可以先显示有人脸非演唱素材，再显示无人脸非演唱素材，可以达到由近及远的拍摄效果，使得视频画面更和谐。

在实施中，将非演唱素材组内的非演唱素材重新排序后，可以将排序后的有人脸非演唱素材组内的素材和无人脸非演唱素材组内的素材按照排列顺序直接进行拼接，直到拼接的多个非演唱素材的素材总时长等于非演唱区间的区间时长，结束拼接，将此时拼接的多个非演唱素材确定为非演唱区间对应的视频。或者，直到拼接的多个非演唱素材的素材总时长大于非演唱区间的区间时长，结束拼接，将此时拼接的多个非演唱素材中的最后一个非演唱素材裁剪至与非演唱区间同时结束，将执行裁剪操作后的多个非演唱素材确定为非演唱区间对应的视频。

示例性地，参见图4，图4中第一个非演唱区间包括非演唱素材1、非演唱素材2和非演唱素材3，且该3个非演唱素材的素材总时长大于非演唱区间的区间时长，可以将非演唱素材3裁剪至与该非演唱区间同时结束。

(2)将演唱区间对应的演唱素材组内的演唱素材进行拼接，得到演唱区间对应的视频。

在实施中，本步骤的具体实现可以包括：确定演唱区间包括的在时间维度上依次排列的多个演唱片段，每个演唱片段具有对应的演唱时长。将演唱区间内首个演唱片段确定为当前演唱片段，以及将演唱素材组内的首个演唱素材确定为当前演唱片段对应的演唱素材，得到当前演唱素材。按照下述方式依次将具有排序的各个演唱素材进行拼接，直至全部演唱片段的演唱时长均被演唱素材填充，结束拼接：若当前演唱素材的总播放时长不足以完全填充当前演唱片段的演唱时长，则将与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材与当前演唱素材进行拼接，且将拼接后的演唱素材重新确定为当前演唱素材。若当前演唱素材的总播放时长足以完全填充当前演唱片段的演唱时长但不足以填充当前演唱片段之后的第Q个演唱片段的演唱时长，则将当前演唱素材中的最后一个演唱素材裁剪至当前演唱片段之后的第Q个演唱片段的前一演唱片段的演唱时长截止点，并将当前演唱片段之后的第Q个演唱片段重新确定为当前演唱片段，将与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材重新确定为当前演唱素材，其中，Q为大于0的正整数。若当前演唱素材的总播放时长足以完全填充当前演唱片段的演唱时长且足以填充当前演唱片段之后的第M个演唱片段的演唱时长，则将与当前演唱片段之后的第M个演唱片段相邻的下一个演唱片段重新确定为当前演唱片段，将与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材重新确定为当前演唱素材，其中M为大于0的正整数。

其中，演唱片段为一句歌词对应的片段。

其中，当前演唱素材的总播放时长可以为当前演唱素材的素材总时长。

也就是说，可以先将演唱区间划分为多个演唱片段，并将多个演唱片段按照时间顺序进行排列，然后将演唱区间内首个演唱片段确定为当前演唱片段，将演唱素材组内的首个演唱素材确定为当前演唱素材，根据当前演唱片段的演唱时长和当前演唱素材的素材时长对多个演唱素材进行拼接，且在拼接过程中，可以根据情况重新确定当前演唱片段和当前演唱素材，并继续对多个演唱素材进行拼接，直到全部演唱片段的演唱时长均被演唱素材填充，可以结束拼接，将已经拼接好的演唱素材确定为演唱区间对应的视频。

在一些实施例中，可以根据演唱区间对应的歌词，确定演唱区间包括的多个演唱片段，且根据每个演唱片段对应的歌词的开始时间点，可以确定多个演唱片段的前后顺序，即可以在时间维度上对多个演唱片段进行排序。对于该演唱区间包括的多个演唱片段中的任一演唱片段，可以获取该任一演唱片段对应的歌词的开始时间点和结束时间点，将该开始时间点和结束时间点之间的时长确定为该任一演唱片段的演唱时长。如此，可以确定每个演唱片段对应的演唱时长。

在一些实施例中，可以先将演唱区间内首个演唱片段确定为当前演唱片段，将演唱素材组内的首个演唱素材确定为当前演唱片段对应的演唱素材，得到当前演唱素材。根据当前演唱素材的素材时长与当前演唱片段的片段时长之间的大小关系，可以分为如下三种情况：

第一种情况：若当前演唱素材的总播放时长不足以完全填充当前演唱片段的演唱时长，说明当前演唱素材的素材总时长大于当前演唱片段的片段总时长，当前演唱素材会在当前演唱片段唱完之前结束播放。为了使当前演唱素材可以与当前演唱片段同时结束，可以将与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材与当前演唱素材进行拼接，将拼接后的演唱素材重新确定为当前演唱素材。

第二种情况：若当前演唱素材的总播放时长足以完全填充当前演唱片段的演唱时长但不足以填充当前演唱片段之后的第Q个演唱片段的演唱时长，说明当前演唱素材的素材总时长大于当前演唱片段的片段总时长，但小于当前演唱片段的片段时长与当前演唱片段之后的Q个演唱片段的片段时长之和，即当前演唱素材会在该第Q个演唱片段唱完之前结束播放。为了使当前演唱素材可以与第Q个演唱片段的前一个演唱片段同时结束，可以将当前演唱素材中的最后一个演唱素材裁剪至当前演唱片段之后的第Q个演唱片段的前一个演唱片段的演唱时长截止点，即将当前演唱素材中的最后一个演唱素材中填充第Q个演唱片段的部分删除。然后可以将当前演唱片段之后的第Q个演唱片段重新确定为当前演唱片段，将与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材重新确定为当前演唱素材。

第三种情况：若当前演唱素材的总播放时长足以完全填充当前演唱片段的演唱时长且足以填充当前演唱片段之后的第M个演唱片段的演唱时长，说明当前演唱素材的素材总时长大于当前演唱片段的片段时长且大于当前演唱片段的片段时长与当前演唱片段之后的M个演唱片段的片段时长之和，即当前演唱素材可以与当前演唱素材之后的第M个演唱片段同时结束。然后可以将与当前演唱片段之后的第M个演唱片段相邻的下一个演唱片段重新确定为当前演唱片段，将与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材重新确定为当前演唱素材。

作为一种示例，可以按照上述方式对多个演唱素材进行拼接，直到拼接后的演唱素材的素材总时长等于演唱区间的区间时长，将拼接后的演唱素材确定对演唱区间对应的视频。或者，直到拼接后的演唱素材的素材总时长大于演唱区间的区间时长，将拼接后的演唱素材裁剪为与演唱区间中的最后一个演唱片段同时结束，然后将执行裁剪操作的拼接后的演唱素材确定为演唱区间对应的视频。

作为一种示例，参见图4，图4的演唱区间包括3个演唱片段。首先将演唱片段1作为当前演唱片段，将演唱素材1作为当前演唱素材，从图中可以看出，当前演唱素材不足以填充当前演唱片段，可以将当前演唱素材与下一个演唱素材进行拼接，即将演唱素材1与演唱素材2拼接，将拼接后的演唱素材重新确定为当前演唱素材。此时的当前演唱片段仍然是演唱片段1，从图中可以看出，当前演唱素材足以填充当前演唱片段但不足以填充当前演唱片段之后的第1个演唱片段，即演唱素材1和演唱素材2一起足以填充演唱片段1，但不足以填充演唱片段2，可以将当前演唱素材中的最后一个演唱素材裁剪至当前演唱片段之后的第1个演唱片段的前一个演唱片段的演唱时长截止点，即将演唱素材2裁剪至演唱片段1的演唱时长截止点。然后将与当前演唱片段之后的第1个演唱片段重新确定为当前演唱片段，即将演唱片段2重新确定为当前演唱片段，将与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材重新确定为当前演唱素材，即将演唱素材3重新确定为当前演唱素材。此时的当前演唱片段为演唱片段2，当前演唱素材为演唱素材3，从图中可以看出，当前演唱素材不足以填充当前演唱片段，可以将当前演唱素材与下一个演唱素材进行拼接，即将演唱素材3与演唱素材4拼接，将拼接后的演唱素材重新确定为当前演唱素材。此时的当前演唱片段仍然是演唱片段2，当前演唱素材为演唱素材3和演唱素材4，从图中可以看出，当前演唱素材足以填充当前演唱片段且足以填充当前演唱片段之后的第1个演唱片段，即演唱素材3和演唱素材4一起足以填充演唱片段2，且足以填充演唱片段3。此时，已经拼接的演唱素材包括演唱素材1、演唱素材2、演唱素材3和演唱素材4，且这4个演唱素材的素材总时长大于演唱区间的区间时长，可以结束拼接。然后将拼接后的演唱素材裁剪为与演唱区间中的最后一个演唱片段同时结束，即将演唱素材4裁剪至与演唱片段3同时结束，再将执行裁剪操作的拼接后的演唱素材确定为演唱区间对应的视频。

在另一些实施例中，对演唱素材进行拼接还可以包括：将演唱素材组内的首个演唱素材确定为当前演唱素材，确定当前演唱素材所覆盖的最后一个演唱片段。然后根据当前演唱素材的素材时长与最后一个演唱片段的片段时长之间的大小关系，可以分为如下三种情况：

第一种情况：若当前演唱素材不足以填充最后一个演唱片段的时间区间，且当前演唱素材中的最后一个演唱素材仅覆盖最后一个演唱片段，则将与当前演唱素材中最后一个演唱素材相邻的下一个演唱素材与当前演唱素材进行拼接，将拼接后的演唱素材重新确定为当前演唱素材，若当前演唱素材的素材总时长小于多个演唱片段的片段总时长，返回执行确定当前演唱素材所覆盖的最后一个演唱片段的步骤，直至当前演唱素材的素材总时长大于或等于演唱区间的区间时长，结束拼接。

第二种情况：若当前演唱素材不足以填充最后一个演唱片段的时间区间，且当前演唱素材中的最后一个演唱素材覆盖至少两个演唱片段，确定当前演唱素材中覆盖最后一个演唱片段的目标演唱素材部分，从当前演唱素材中将目标演唱素材部分裁掉，将与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材与裁掉目标演唱素材部分后的当前演唱素材进行拼接，将拼接后的演唱素材重新确定为当前演唱素材，若当前演唱素材的素材总时长小于多个演唱片段的片段总时长，返回执行确定当前演唱素材所覆盖的最后一个演唱片段的步骤，直至当前演唱素材的素材总时长大于或等于演唱区间的区间时长，结束拼接。

第三种情况：若当前演唱素材足以填充最后一个演唱片段的时间区间，将与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材与当前演唱素材拼接，将拼接后的演唱素材重新确定为当前演唱素材，若当前演唱素材的素材总时长小于多个演唱片段的片段总时长，返回执行确定当前演唱素材所覆盖的最后一个演唱片段的步骤，直至当前演唱素材的素材总时长大于或等于多个演唱片段的片段总时长，结束拼接。

进一步地，若当前演唱素材中的最后一个演唱素材为演唱素材组中的最后一个演唱素材，则与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材为演唱素材组中的首个演唱素材；或者，若当前演唱素材中的最后一个演唱素材不是演唱素材组中的最后一个演唱素材，则与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材为演唱素材组中排在当前演唱素材中的最后一个演唱素材下一位的演唱素材。

也就是说，如果将演唱素材组中的演唱素材全部拼接后还没有达到演唱区间的区间时长，可以从演唱素材组的第一个演唱素材开始继续拼接。

需要说明的是，上述步骤(1)和步骤(2)没有先后执行顺序。

(3)将非演唱区间对应的视频与演唱区间对应的视频进行拼接，得到用于与待播放音频配合播放的目标视频。

在实施中，可以获取非演唱区间对应的开始时间点和演唱区间对应的开始时间点，按照开始时间点的先后顺序，将非演唱区间对应的视频与演唱区间对应的视频进行拼接，可以得到用于与待播放音频配合播放的目标视频。

作为一种示例，将演唱区间对应的演唱素材和非演唱区间对应的非演唱素材进行拼接后，可以确定切换特效，然后调用视频编辑软件(例如FFMPEG或MoviePy)自动渲染生成待播放音频对应的目标视频。

其中，切换特效可以包括淡入淡出，波纹、模糊等，且切换特效的时长和切换样式可以随机设定，本申请实施例对此不做限定。

示例性地，参见图4，图4是根据一示例性实施例示出的一种待播放音频的目标视频中目标素材的拼接顺序。该待播放音频的目标视频中包括6个非演唱素材和4个演唱素材。

在本申请实施例中，获取待播放音频的关联信息，基于该关联信息从素材库中获取与待播放音频的关联度大于指定阈值的多个备选素材，如此确定的多个备选素材与待播放音频的关联度高，更加适合该音频，但多个备选素材之间的风格可能相差较大，因此需要确定每个备选素材与多个备选素材组成的素材集合之间的语义相似度，并根据得到的多个备选素材的语义相似度的高低顺序，从多个备选素材中依序选取N个备选素材作为目标素材，且目标素材的时长总和大于或等于待播放音频的音频时长。如此可以确定彼此之间风格较相似的多个备选素材，再基于目标素材生成与待播放音频配合播放的目标视频。通过本申请的方法，可以减少与待播放音频的风格违和的素材出现的概率，生成的目标视频与待播放音频的相关度高，且目标视频中的目标素材画风比较和谐，使得整个目标视频在视觉上有更好的效果，能够给用户带来很好的视觉体验。

图5是根据一示例性实施例示出的一种视频的生成装置的结构示意图，该视频的生成装置可以由软件、硬件或者两者的结合实现成为计算机设备的部分或者全部，该计算机设备可以为终端或服务器。请参考图5，该装置包括：第一获取模块501、第二获取模块502、确定模块503、选取模块504和视频生成模块505。

第一获取模块501，用于获取待播放音频的关联信息；

第二获取模块502，用于根据关联信息，从素材库中获取与待播放音频的关联度大于指定阈值的多个备选素材；

确定模块503，用于确定每个备选素材与多个备选素材组成的素材集合之间的语义相似度，得到多个备选素材的语义相似度；

选取模块504，用于按照多个备选素材的语义相似度的高低排序，从多个备选素材中依序选取N个备选素材作为目标素材，目标素材的时长总和大于或等于待播放音频的音频时长，N为大于1的整数；

视频生成模块505，用于基于目标素材生成用于与待播放音频配合播放的目标视频。

在本申请一种可能的实现方式中，关联信息包括以下信息中的任意一项或多项：演唱者标识、每分钟节拍数、频谱特征、每分钟的歌词字数、音频特征和音频标识。

在本申请一种可能的实现方式中，第二获取模块502用于：

若关联信息包括演唱者标识和每分钟节拍数，则从素材库中获取演唱者标识与待播放音频的演唱者标识对应且每分钟节拍数与待播放音频的每分钟节拍数的差值处于指定范围内的多个素材作为备选素材。

在本申请一种可能的实现方式中，确定模块503用于：

确定每个备选素材的素材特征向量；

基于每个备选素材的素材特征向量，确定多个备选素材组成的素材集合的集合特征向量；

根据每个备选素材的素材特征向量与素材集合的集合特征向量，分别确定每个备选素材与素材集合之间的距离，其中，距离用于表示相应的备选素材与素材集合之间的语义相似度。

在本申请一种可能的实现方式中，确定模块503用于：

将素材特征均值组成的向量确定为集合特征向量。

在本申请一种可能的实现方式中，确定模块503用于：

根据多个备选素材的素材特征向量，对多个备选素材进行聚类，得到至少一种类别的备选素材；

若至少一种类别的数量为多种，从多种类别中选择包括备选素材的个数满足预设条件的目标类别；

确定目标类别中各个备选素材的素材特征向量中同一位置的素材特征均值；

将素材特征均值组成的向量确定为集合特征向量。

在本申请一种可能的实现方式中，选取模块504用于：

按照多个备选素材的语义相似度从高到低的顺序，对多个备选素材进行排序；

基于音频时长，从排序后的多个备选素材中依序选取靠前的N个备选素材作为目标素材，目标素材的素材总时长大于或等于音频时长。

在本申请一种可能的实现方式中，选取模块504还用于：

获取待播放音频的歌词文件，并根据歌词文件，确定待播放音频的演唱区间及非演唱区间；

针对演唱区间，按照多个备选素材的语义相似度的高低排序，从多个备选素材中依序选取演唱素材，直至选取的演唱素材的素材总时长大于或等于演唱区间对应的区间时长，得到演唱区间对应的演唱素材组，其中，演唱素材组内的演唱素材按照选入顺序依次排序；

针对非演唱区间，按照多个备选素材的语义相似度的高低排序，从多个备选素材中依序选取非演唱素材，直至选取的非演唱素材的素材总时长大于或等于非演唱区间对应的区间时长，得到非演唱区间对应的非演唱素材组，其中，非演唱素材组内的非演唱素材按照选入顺序依次排序；

将演唱素材组的演唱素材以及非演唱素材组的非演唱素材确定为目标素材。

在本申请一种可能的实现方式中，视频生成模块505用于：

将非演唱区间对应的非演唱素材组内的非演唱素材进行拼接，得到非演唱区间对应的视频；

将演唱区间对应的演唱素材组内的演唱素材进行拼接，得到演唱区间对应的视频；

将非演唱区间对应的视频与演唱区间对应的视频进行拼接，得到用于与待播放音频配合播放的目标视频。

在本申请一种可能的实现方式中，视频生成模块505用于：

按照非演唱素材组内的非演唱素材中是否包括人脸，将非演唱素材组内的非演唱素材划分为有人脸非演唱素材组以及无人脸非演唱素材组，其中，有人脸非演唱素材组内素材的前后排序与选取的先后顺序相同，且无人脸非演唱素材组内素材的前后排序与选取的先后顺序相同；

根据非演唱区间的类型，确定非演唱素材组内有人脸非演唱素材组以及无人脸非演唱素材组的前后排序；

在本申请一种可能的实现方式中，视频生成模块505用于：

确定演唱区间包括的在时间维度上依次排列的多个演唱片段，每个演唱片段具有对应的演唱时长；

将演唱区间内首个演唱片段确定为当前演唱片段，以及将演唱素材组内的首个演唱素材确定为当前演唱片段对应的演唱素材，得到当前演唱素材；

若当前演唱素材的总播放时长不足以完全填充当前演唱片段的演唱时长，则将与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材与当前演唱素材进行拼接，且将拼接后的演唱素材重新确定为当前演唱素材；

若当前演唱素材的总播放时长足以完全填充当前演唱片段的演唱时长但不足以填充当前演唱片段之后的第Q个演唱片段的演唱时长，则将当前演唱素材中的最后一个演唱素材裁剪至当前演唱片段之后的第Q个演唱片段的前一演唱片段的演唱时长截止点，并将当前演唱片段之后的第Q个演唱片段重新确定为当前演唱片段，将与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材重新确定为当前演唱素材，其中Q为大于0的正整数；

若当前演唱素材的总播放时长足以完全填充当前演唱片段的演唱时长且足以填充当前演唱片段之后的第M个演唱片段的演唱时长，则将与当前演唱片段之后的第M个演唱片段相邻的下一个演唱片段重新确定为当前演唱片段，将与当前演唱素材中的最后一个演唱素材相邻的下一个演唱素材重新确定为当前演唱素材，其中M为大于0的正整数。

需要说明的是：上述实施例提供的视频的生成装置在生成视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频的生成装置与视频的生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6是根据一示例性实施例示出的一种计算机设备600的结构框图。该计算机设备600可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的视频的生成方法。

在一些实施例中，计算机设备600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它计算机设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置计算机设备600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在计算机设备600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在计算机设备600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在计算机设备的前面板，后置摄像头设置在计算机设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位计算机设备600的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源609用于为计算机设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以计算机设备600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测计算机设备600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对计算机设备600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在计算机设备600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在计算机设备600的侧边框时，可以检测用户对计算机设备600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置计算机设备600的正面、背面或侧面。当计算机设备600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在计算机设备600的前面板。接近传感器616用于采集用户与计算机设备600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与计算机设备600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与计算机设备600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对计算机设备600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是根据另一示例性实施例示出的一种计算机设备700的结构示意图。该计算机设备700可以为服务器。该计算机设备700包括中央处理单元(CPU)701、包括随机存取存储器(RAM)702和只读存储器(ROM)703的系统存储器704，以及连接系统存储器704和中央处理单元701的系统总线705。计算机设备700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)706，和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。

基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。大容量存储设备707及其相关联的计算机可读介质为计算机设备700提供非易失性存储。也就是说，大容量存储设备707可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。

根据本申请的各种实施例，计算机设备700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备700可以通过连接在系统总线705上的网络接口单元711连接到网络712，或者说，也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在一些实施例中，还提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中视频的生成方法的步骤。例如，所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

值得注意的是，本申请提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。

也即是，在一些实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的视频的生成方法的步骤。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频的生成方法，其特征在于，所述方法包括：

获取待播放音频的关联信息；

2.如权利要求1所述的方法，其特征在于，所述关联信息包括以下信息中的任意一项或多项：演唱者标识、每分钟节拍数、频谱特征、每分钟的歌词字数、音频特征和关联音频标识。

3.如权利要求2所述的方法，其特征在于，所述根据所述关联信息，从素材库中获取与所述待播放音频的关联度大于指定阈值的多个备选素材，包括：

4.如权利要求1所述的方法，其特征在于，所述确定每个备选素材与所述多个备选素材组成的素材集合之间的语义相似度，包括：

确定每个备选素材的素材特征向量；

5.如权利要求4所述的方法，其特征在于，所述基于每个备选素材的素材特征向量，确定所述多个备选素材组成的素材集合的集合特征向量，包括：

将所述素材特征均值组成的向量确定为所述集合特征向量。

6.如权利要求4所述的方法，其特征在于，所述基于每个备选素材的素材特征向量，确定所述多个备选素材组成的素材集合的集合特征向量，包括：

将所述素材特征均值组成的向量确定为所述集合特征向量。

7.如权利要求1所述的方法，其特征在于，所述按照所述多个备选素材的语义相似度的高低排序，从所述多个备选素材中依序选取N个备选素材作为目标素材，包括：

8.如权利要求1所述的方法，其特征在于，所述方法还包括：

9.如权利要求8所述的方法，其特征在于，所述基于所述目标素材生成用于与所述待播放音频配合播放的目标视频，包括：

10.如权利要求9所述的方法，其特征在于，所述将所述非演唱区间对应的非演唱素材组内的非演唱素材进行拼接，包括：

11.如权利要求9所述的方法，其特征在于，所述将所述演唱区间对应的演唱素材组内的演唱素材进行拼接，包括：

12.一种视频的生成装置，其特征在于，所述装置包括：

第一获取模块，用于获取待播放音频的关联信息；

13.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器用于存放计算机程序，所述处理器用于执行所述存储器上所存放的计算机程序，以实现上述权利要求1-11任一所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-11任一所述的方法的步骤。