CN110602552B

CN110602552B - 视频合成的方法、装置、终端及计算机可读存储介质

Info

Publication number: CN110602552B
Application number: CN201910870881.5A
Authority: CN
Inventors: 吴晗; 李文涛; 陈恒全
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2022-02-22
Anticipated expiration: 2039-09-16
Also published as: CN110602552A

Abstract

本申请公开了一种视频合成的方法、装置、终端和计算机可读存储介质，属于音频和视频处理技术领域。所述方法包括：获取目标音频和图像素材，并基于所述目标音频和所述图像素材中图片素材的数目，确定合成视频所需的子视频的目标数目；将所述图像素材中的视频素材划分为所述目标数目个子视频；基于所述目标数目个子视频、所述图片素材和所述目标音频，确定所述合成视频。采用本申请，可以有效解决相关技术中，用户使用多个不同场景的图像素材来达到最低数目要求，从而，导致合成视频的质量较差的技术问题。

Description

视频合成的方法、装置、终端及计算机可读存储介质

技术领域

本申请涉及音频和视频处理技术领域，具体涉及一种视频合成的方法、装置、终端及计算机可读存储介质。

背景技术

如今，在某些APP(application，应用程序)中均具有制作合成视频的功能。在制作合成视频时，用户首先选取目标音频和图像素材(包括图片素材和视频素材)，然后选择合成，即可生成合成视频。

相关技术中，生成合成视频的原理为，首先，获取用户选取的目标音频和目标音频的重音拍时间点。然后，从本地选取出超过最少数目阈值的多个图像素材，然后，将多个图像素材和目标音频进行合成得到合成视频。由于上述生成合成视频的过程，是根据目标音频的重音拍时间点进行的，这样合成视频各图像素材对应的切换时间点就可以为目标音频中的重音拍时间点，使得合成视频在播放时，每个图像素材对应的那部分视频都会在目标音频播放到重音拍时间点时进行切换。可见，相关技术中生成的合成视频，图像素材可以和目标音频有效的结合在一起，有较强的可玩性，趣味性。

在实现本申请的过程中，发明人发现相关技术至少存在以下问题：

为了提高合成视频的质量，合成视频应当对应有多个图像素材，且这多个图像素材最好属于同一场景。而许多用户对于某一特定场景，具有的图像素材的数目往往较少，而制作合成视频时，又对图像素材有最低数目的要求，所以这往往使得用户使用多个不同场景的图像素材来达到最低数目要求，从而，导致合成视频的质量较差。

发明内容

本申请实施例提供了一种视频合成的方法、装置、终端及计算机可读存储介质，可以解决相关技术中存在的技术问题。所述视频合成的方法、装置、终端及计算机可读存储介质的技术方案如下：

第一方面，提供了一种视频合成的方法，所述方法包括：

获取目标音频和图像素材，并基于所述目标音频和所述图像素材中图片素材的数目，确定合成视频所需的子视频的目标数目；

将所述图像素材中的视频素材划分为所述目标数目个子视频；

基于所述目标数目个子视频、所述图片素材和所述目标音频，确定所述合成视频。

可选的，所述将所述图像素材中的视频素材划分为所述目标数目个子视频，包括：

在所述图像素材中的视频素材中选取多个片段代表帧，其中，每个片段代表帧对应有一个视频片段；

确定每相邻两个视频片段对应的片段代表帧的相似度，并基于所述目标数目和各个相似度，确定相似度阈值；

将相似度大于相似度阈值的两个片段代表帧对应的视频片段划分为一个子视频，将相似度小于相似度阈值的两个片段代表帧对应的视频片段划分为不同的子视频。

可选的，所述确定每相邻两个视频片段对应的片段代表帧的相似度，包括：

对于每相邻两个视频片段对应的片段代表帧，确定两个片段代表帧的RGB波形图，并基于所述两个片段代表帧的RGB波形图，确定所述两个片段代表帧的相似度。

可选的，确定出的相似度的数目为M，所述目标数目为N，其中，M和N均为正整数，且M不小于N；

所述基于所述目标数目和各个相似度，确定相似度阈值，包括：

在确定出的M个相似度中，按照单调递增的顺序，确定第N-1个和第N个相似度；

确定一个大于所述第N-1个相似度且小于所述第N个相似度的值，作为相似度阈值。

可选的，所述基于所述目标音频和所述图像素材中图片素材的数目，确定合成视频所需的子视频的目标数目，包括：

基于所述目标音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点，确定所述目标音频的分段数目；

基于所述分段数目和所述图片素材的数目，确定合成视频所需的子视频的目标数目。

可选的，所述基于所述目标数目个子视频、所述图片素材和所述目标音频，确定所述合成视频，包括：

确定所述目标数目个子视频的时长，将时长大于目标时长阈值的子视频确定为目标子视频；

对所述目标子视频、所述图片素材和所述目标音频进行合成，得到所述合成视频。

可选的，所述对所述目标子视频、所述图片素材和所述目标音频进行合成，得到所述合成视频，包括：

对所述目标子视频进行排序，对所述图片素材、排序后的目标子视频和所述目标音频进行合成，得到合成视频。

第二方面，提供了一种视频合成的装置，所述装置包括：

确定模块，用于获取目标音频和图像素材，并基于所述目标音频和所述图像素材中图片素材的数目，确定合成视频所需的子视频的目标数目；

划分模块，用于将所述图像素材中的视频素材划分为所述目标数目个子视频；

合成模块，用于对所述目标数目个子视频、所述图片素材和所述目标音频进行合成，得到所述合成视频。

可选的，所述划分模块用于：

将相似度大于相似度阈值的两个片段代表帧对应的视频片段划分为同一子视频，将相似度小于相似度阈值的两个片段代表帧对应的视频片段划分为不同的子视频。

可选的，所述划分模块，用于：

对于每相邻两个视频片段对应的片段代表帧，确定两个片段代表帧的RGB波形图，并基于所述两个片段代表帧的RGB波形图，确地所述两个片段代表帧的相似度。

所述划分模块，用于：

可选的，所述确定模块，用于：

可选的，所述合成模块，用于：

对所述目标子视频进行排序，对所述图片素材、排序后的目标子视频和所述目标音频进行合成，得到所述合成视频。

第三方面，提供了一种终端，所述终端包括存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述第一方面所述的视频合成的方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述第一方面所述的视频合成的方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的视频合成的方法，可以用于制作合成视频。首先，获取目标音频和图像素材，并根据目标音频和图像素材中图片素材的数目，确定合成视频所需的子视频的目标数目。然后，将图像素材中的视频素材划分为目标数目个子视频。最后，基于目标数目个子视频、图片素材和目标音频，确定合成视频。本申请实施例提供的视频合成的方法，通过将视频素材划分为多个子视频，增加了用于生成合成视频的图像素材的数目，并且，从一个视频素材中划分出来的多个子视频往往属于同一场景。从而，用户不必使用多个不同场景的图像素材来达到最低数目要求，使得合成视频的质量较好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频合成的方法的流程图；

图2是本申请实施例提供的一种视频合成的装置的结构示意图；

图3是本申请实施例提供的一种终端的结构示意图；

图4是本申请实施例提供的一种图像素材的选取界面示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种视频合成的方法，该方法可以由终端实现，其中，该终端可以是手机、平板电脑、笔记本等移动终端，也可以是台式计算机等固定终端。在该终端中安装有可以制作合成视频的应用程序，该应用程序可以是一个综合性的应用程序，具有多种多样的功能，如制作合成视频、视频录制、视频播放、视频剪辑、音乐播放和直播功能等，也可以是一个功能单一的应用程序，只具备制作合成视频的功能。

用户想要把一些自己拍摄的、从互联网下载的、或者通过一些其他途径得到的图像素材制作成一个合成视频时，便可以在终端上打开上述应用程序。通过该应用程序选择想要合成的图像素材和想要使用的目标音频，然后向应用程序下发指令，应用程序便可以根据本申请实施例所提供的视频合成的方法来制作合成视频。

如图1所示，该视频合成的方法的处理流程可以包括如下步骤：

在步骤101中，获取目标音频和图像素材，并基于目标音频和图像素材中图片素材的数目，确定合成视频所需的子视频的目标数目。

其中，目标音频和图像素材可以均为用户选取的。目标音频可以理解为合成视频的背景音频。合成视频为目标音频和图像素材合成后得到的视频。合成视频所需的子视频的目标数目，可以理解为合成视频所需的子视频的最佳数目。

在实施中，当用户想要制作合成视频时，可以打开制作合成视频的应用程序，打开应用程序之后，可以首先进入音频选取界面，则用户可以在音频选取界面选取目标音频，然后，可以进入素材选取界面，则用户可以在素材选取界面选取图片素材和/或视频素材。用户选取完成之后，终端即可以获取用户选取的目标音频和图像素材。

终端获取用户选取的目标音频和图像素材之后，确定目标音频的分段数目和图像素材中图片素材的数目。其中，目标音频的分段数目可以认为与合成视频所需的图像素材的数目相等，即每一段子音频对应有一段子视频或一张图片，因此，确定的目标音频的分段数目可以认为就是合成视频所需的图像素材的数目。所以，在确定目标音频的分段数目和图片素材的数目之后，即可确定合成视频所需的子视频的目标数目，即用目标音频的分段数目(相当于合成视频所需的图像素材的数目)减去图片素材的数目，则可以得到目标数目。

确定目标音频的分段数目的方法可以为，每个目标音频均预先确定出了分段数目，该分段数目与目标音频存储在一起，则在终端获取目标音频的同时，也获取目标音频的分段数目。或者，终端获取目标音频之后，基于目标音频的重音拍时间点等特征，计算出目标音频的分段数目。

可选的，确定合成视频所需的子视频的目标数目的方法还可以如下所述，基于目标音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点，确定目标音频的分段数目。基于分段数目和图片素材的数目，确定合成视频所需的子视频的目标数目。

其中，目标音频为歌曲音频。

在实施中，首先，基于目标音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点确定目标音频的分段时间点。然后，基于确定出的目标音频的分段时间点确定目标音频的分段数目。在一种可能的实现方式中，基于确定出的全部分段时间点，确定分段数目，例如，确定出的分段时间点(分段时间点不包括目标音频的开始时间点和结束时间点)的数目为10，则确定出的目标音频的分段数目为11。在另一种可能的实现方式中，基于确定出的部分分段时间点，确定分段数目，例如，确定出的分段时间点的数目(分段时间点不包括目标音频的开始时间点和结束时间点)为10，选取5个分段时间点用于确定分段数目，则确定出的目标音频的分段数目为6。

在确定出目标音频的分段数目之后，即可用目标音频的分段数目减去图片素材的数目，得到合成视频所需的子视频的目标数目。

需要补充的是，基于目标音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点，确定目标音频的分段时间点的方法可以如下所述。

第一步，确定目标音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点，具体方法可以如下所述。

频谱特征的确定方法：获取目标音频之后，可以基于目标音频自身的特征，确定目标音频的频谱特征。

各歌词段的开始时间点和结束时间点的确定方法：目标音频中携带有歌词信息，歌词信息中包含各歌词段的开始时间点和结束时间点，获取目标音频之后，即可根据目标音频中携带的歌词信息，确定各歌词段的开始时间点和结束时间点。

各重音拍时间点的确定方法：获取目标音频之后，终端可以基于目标音频的BPM(Beat Per Minute，每分钟节拍数)、节拍信息等确定目标音频的各重音拍时间点。或者，终端在获取目标音频的同时，获取目标音频对应的打点数据，打点数据包括目标音频中的节拍时间点和对应的节拍值，节拍值一般有1、2、3和4，节拍值为1代表节拍点为重音点，节拍值为2和3代表节拍点为过渡点，节拍值为4代表节拍点为轻音点，每个重音点的节拍时间点(即重音拍时间点)为音频数据中有节奏变换的时间点。然后，即可根据获取的打点数据，确定目标音频的各重音拍时间点。

第二步，确定各目标音频的各分段时间点，其中，各分段时间点均为重音拍时间点，具体的方法可以如下所述。

首先，基于频谱特征，确定目标歌曲音频的各初始分段时间点，具体方法可以如下所述。

基于频谱特征，确定目标音频的前奏段、入门段、副歌段、间奏段和尾奏段分别对应的初始分段时间点。具体的，可以基于频谱特征，确定出不包含人声的音频段(前奏段、间奏段和尾奏段)。然后，根据三种音频段的不同特点，对音频段进行细分，确定出前奏段、间奏端和尾奏段。然后，将剩余的包含人声的音频段进行再次划分，首先，基于目标音频的频谱特征，确定出基准频谱值，然后，将大于基准频谱值的音频段确定为副歌段，将小于基准频谱值的音频段确定为入门段。

然后，基于各歌词段的开始时间点与结束时间点，对各初始分段时间点进行第一次调整，具体方法可以如下所述。

如果初始分段时间点在任一歌词段的开始时间点与结束时间点之间，则将初始分段时间点调整为结束时间点。即将落在某一歌词段的开始时间点和结束时间点之间的初始分段时间点，调整为该歌词段的结束时间点。若初始分段时间点未在歌词段的开始时间点和结束时间点之间，则该初始分段时间点不变，即经第一次调整后该初始分段时间点仍然为调整前的初始分段时间点。以上两种情况，均可以称为对初始分段时间点进行了第一次调整，无论调整后初始分段时间点的具体数值是否改变。

再然后，基于各重音拍时间点，对经第一次调整后的各初始分段时间点进行第二次调整，即可得到目标音频的各分段时间点，具体方法可以如下所述。

对于每个经第一次调整后的初始分段时间点，将初始分段时间点调整为初始分段时间点之后的第一个重音拍时间点，得到目标音频的分段时间点。在某些情况下，对于每个经第一次调整后的初始分段时间点，若初始分段时间点之后没有重音拍时间点，则将初始分段时间点调整为初始分段时间点之前的第一个重音拍时间点。

最后，基于相邻两个分段时间点之间的间隔时长，继续选取分段时间点，具体的方法可以如下所述。

如果相邻两个分段时间点的间隔时长大于目标时长阈值，则在这两个分段时间点之间，尽可能均匀的选取重音拍时间点作为新的分段时间点，直至所有相邻两个分段时间点的间隔时长小于目标时长阈值。

需要说明的是，上述分段时间点均为重音拍时间点。上述确定目标音频的分段时间点的方法，可以由服务器执行，并将确定出的分段时间点、基于分段时间点确定的目标音频的分段数目和目标音频存储在一起，在终端获取目标音频的同时时，也获取目标音频的分段时间点和分段数目。或者，上述确定目标音频分段时间点的方法，也可以由终端执行，终端获取目标音频之后，通过上述确定分段时间点的方法，确定目标音频的分段时间点，并基于确定出的分段时间点，确定分段数目。

在步骤102中，将图像素材中的视频素材划分为目标数目个子视频。

其中，将图像素材中的视频素材划分为目标数目个子视频是指，将图像素材中的所有视频素材总共划分为目标数目个子视频。

在实施中，确定合成视频所需的子视频的目标数目之后，即可以将所有的视频素材总共划分为目标数目个子视频。对视频素材进行划分时，可以基于时长进行划分，比如，可以将视频素材划分为时长相当的目标数目个子视频，即划分出的多个子视频的时长可以均相等。

例如，目标数目为5，视频素材1的时长为30s，视频素材2的时长为20s，则可以将视频素材1的前10s视频片段划分为一个子视频，视频素材1的中间10s视频片段划分为一个子视频，视频素材1的后10s视频片段划分为一个子视频；视频素材2的前10s视频片段划分为一个子视频，视频素材2的后10s视频片段划分为一个子视频。

如图4所示，在图像素材的选取界面中，打开应用程序的智能分段功能，选取视频素材之后，在视频素材的缩略图上显示有视频素材的分段数目，并且，在选取界面的下方还显示有划分出的各子视频的缩略图。如果用户不想使用智能分段功能，则可以选择选取界面中的撤销智能分段，关闭应用程序的智能分段功能。

可选的，还可以基于视频素材中各视频片段的相似性对视频素材进行划分，则步骤102相应的处理过程可以如下所述，在图像素材中的视频素材中选取多个片段代表帧，其中，每个片段代表帧对应有一个视频片段。确定每相邻两个视频片段对应的片段代表帧的相似度，并基于目标数目和各个相似度，确定相似度阈值。将相似度大于相似度阈值的两个片段代表帧对应的视频片段划分为同一子视频，将相似度小于相似度阈值的两个片段代表帧对应的视频片段划分为不同的子视频。

其中，每个片段代表帧是从对应的视频片段中选取的，每个片段代表帧对应的视频片段的时长可以相等，所有片段代表帧对应的视频片段可以组成所有视频素材。每个片段代表帧对应的视频片段的时长可以任意设置，例如3s或1s。

在实施中，首先，在视频素材中选取多个片段代表帧，可选的，可以在视频素材中均匀选取多个片段代表帧，即在视频素材中每隔预设时长选取一个图像帧作为片段代表帧。片段代表帧可以为对应视频片段的所有视频帧中位于中间位置的视频帧。需要说明的是，片段代表帧的数目应当大于或等于合成视频所需的子视频的目标数目。

然后，确定出相邻两个视频片段对应的片段代表帧的相似度，可选的，可以使用模糊匹配算法确定出两个片段代表帧的相似度。其中，相邻两个视频片段是指，其中一个视频片段的结束时间点是另一个视频片段的开始时间点的两个视频片段。

最后，将相似度大于相似度阈值的两个片段代表帧对应的视频片段划分为同一子视频，将相似度小于相似度阈值的两个片段代表帧对应的视频片段划分为不同的子视频。

通过上述比较视频片段对应的片段代表帧的相似度的方法，划分出的多个子视频，多个子视频之间的差异较大，从而，使得最后得到的合成视频中，各子视频在切换时比较明显，进而提高了合成视频的质量。

可选的，确定两个片段代表帧的相似度的方法可以如下所述，对于每相邻两个视频片段对应的片段代表帧，确定两个片段代表帧的RGB波形图，并基于两个片段代表帧的RGB波形图，确定两个片段代表帧的相似度。

在实施中，首先，确定每个片段代表帧的RGB波形图。然后，将相邻两个视频片段对应的片段代表帧的RGB波形图进行对比，得到这两个片段代表帧的相似度。进而，可以得到任意相邻两个视频片段对应的两个片段代表帧的相似度。

在确定片段代表帧的RGB波形图时，具体的，可以根据片段代表帧的分辨率、位图宽高和区域坐标，来确定RGB波形图。

可选的，如果确定出的相似度的数目为M，目标数目为N，且M不小于N，则基于目标数目和各个相似度，确定相似度阈值的方法可以如下所述，在确定出的M个相似度中，按照单调递增的顺序，确定第N-1个和第N个相似度。确定一个大于第N-1个相似度且小于第N个相似度的值，作为相似度阈值。

其中，M和N均为正整数。相似度的数目为M，则片段代表帧的数目为M+1。

按照单调递增的顺序，确定第N-1个和第N个相似度是指，确定第N-1小和第N小的相似度。

在实施中，通过上述确定相似度阈值的方法确定出的相似度阈值，可以保证基于该相似度阈值划分出的子视频的数目与目标数目相等。

例如，目标数目为5，片段代表帧的数目为10，每相邻两个视频片段对应的片段代表帧确定一个相似度，则共确定出9个相似度(即M＝9)。

假设，将9个相似度按照对应的片段代表帧的顺序进行排序(即第X个相似度代表第X个视频片段和第X+1个视频片段对应的两个片段代表帧的相似度)，分别为0.8、0.9、0.7、0.3、0.2、0.1、0.5、0.4、0.6，则按照单调递增的顺序，确定第4(即N-1＝4)个和第5(即N＝5)个相似度分别为0.4和0.5，然后，在0.4和0.5之间选择0.45作为相似度阈值。则将相似度大于相似度阈值的两个片段代表帧对应的视频片段划分为同一子视频，将相似度小于相似度阈值的两个片段代表帧对应的视频片段划分为不同子视频，即第一个视频片段、第二个视频片段、第三个视频片段和第四个视频片段划分为一个子视频；第五个视频片段划分为一个子视频；第六个视频片段划分为一个子视频；第七个视频片段和第八个视频片段划分为一个子视频；第九个视频片段和第十个视频片段划分为一个子视频。则将视频素材共划分为了5个子视频。

再假设，将9个相似度按照对应的片段代表帧的顺序进行排序(即第X个相似度代表第X个视频片段和第X+1个视频片段对应的两个片段代表帧的相似度)，分别为0.8、0.1、0.9、0.2、0.7、0.3、0.6、0.4、0.5，则按照单调递增的顺序，确定第4(即N-1＝4)个和第5(即N＝5)个相似度分别为0.4和0.5，然后，在0.4和0.5之间选择0.45作为相似度阈值。则将相似度大于相似度阈值的两个片段代表帧对应的视频片段划分为同一子视频，将相似度小于相似度阈值的两个片段代表帧对应的视频片段划分为不同子视频，即第一个视频片段和第二个视频片段划分为同一子视频；第三个视频片段和第四个视频片段划分为同一子视频；第五个视频片段和第六个视频片段划分为同一子视频；第七个视频片段和第八个视频片段划分为同一子视频；第九个视频片段和第十个视频片段划分为同一子视频。即将视频素材共划分为5个子视频。

可选的，如果确定出的相似度的数目为M，目标数目为N，且M＝N-1，则确定相似度阈值为1。

其中，M和N均为正整数。

在实施中，相似度的数目为M，则片段代表帧的数目为M+1，也即视频片段的数目为M+1，由于M＝N-1，则M+1＝N，即此时视频片段的数量与合成视频所需的子视频的数量相等，则此时，将片段代表帧对应的各个视频片段均划分为不同的子视频。

需要说明的是，在步骤102中所指的划分可以是指对视频素材进行标记，在视频素材中标记出不同的子视频；也可以是指对视频素材进行截断，将视频素材分割为不同的子视频，本申请对此不做任何限定。

在步骤103中，基于目标数目个子视频、图片素材和目标音频，确定合成视频。

在实施中，可以直接对目标数目个子视频、图片素材和目标音频进行合成，得到合成视频。当图片素材的数量为0时，也即不存在图片素材时，则直接将子视频与目标音频进行合成，得到合成视频。

得到合成视频之后，可以将合成视频上传到网络上进行分享，或者，保存在本地等。

可选的，可以对确定出的目标数目个子视频进行筛选，确定出用于视频合成的目标子视频，然后，再进行合成处理。则相应的处理过程可以如下所述，确定目标数目个子视频的时长，将时长大于目标时长阈值的子视频确定为目标子视频。对目标子视频、图片素材和目标音频进行合成，得到合成视频。

其中，目标时长阈值的大小可以由工作人员设置，例如，可以设置为3s。

在实施中，通过对子视频进行筛选，将时长过短的子视频剔除掉，从而，可以防止用于视频合成的子视频的时长过短，影响最终得到的合成视频的质量，进而，使得合成视频的质量较高。

可选的，还可以调整各个目标子视频的顺序，则相应的处理过程可以如下所述，对目标子视频进行排序，对图像素材、排序后的目标子视频和目标音频进行合成，得到合成视频。

在实施中，对目标子视频进行排序的目的为，使合成后的视频中相邻的子视频的差异较大，从而，提高合成视频的切换效果，提高合成视频的质量。对目标子视频进行排序的方法可以为随机排序，也可以由用户人工排序。

然后，即可对图片素材、排序后的子视频和目标音频进行合成，得到合成视频。

需要补充的是，上述对图像素材和目标音频进行合成的具体方法，可以如下所述，其中，图像素材包括子视频(或目标子视频)和图片素材。

首先，根据图像素材的数量，在目标音频中选取相应数量的分段时间点。例如，子视频(或目标子视频)和图片素材的数量的和为6，则可以在目标音频中选取6个分段时间点(此时在第6个分段时间点处将目标音频截断，只使用目标音频中第6个分段时间点之前的音频片段与图像素材进行合成)；也可以在目标音频中选取5个分段时间点，此时使用整个目标音频与图像素材进行合成。

然后，确定各图像素材的合成顺序，合成顺序可以根据图像素材的选取顺序，以及后续对目标子视频的排序进行确定。

再然后，基于各图像素材的合成顺序和选取的各分段时间点，确定各图像素材对应的时长。对于合成顺序为第一位的图像素材，其对应的时长为目标音频的起始时间点到选择出的第一个分段时间点之间的时长；对应合成顺序为第二位的图像素材，其对应的时长为选择出的第一个分段时间点到第二个分段时间点之间的时长，以此类推，直到确定出合成顺序为最后一位的图像素材对应的时长。

再然后，基于确定出各图像素材对应的时长，对各图像素材进行处理。对于图片素材，将图片素材制作成视频段，该视频段中的每帧均为该图像素材，且该视频段的时长与图片素材对应的时长相等。对于图像素材为子视频的情况，如果子视频的时长大于该子视频对应的时长，则对子视频进行截取处理，使得子视频的时长等于该子视频对应的时长。需要说明的是，子视频的时长一般不会小于子视频对应的时长，因此，不考虑这种情况。另外，如果各图像素材对应的时长的和小于目标音频的时长，则将目标音频在最后一个分段时间点截断，只使用目标音频中最后一个分段时间点之前的音频片段。

最后，将经过处理后的图像素材与目标音频进行合成，即可得到合成视频。

需要说明的是，初始分段时间点的确定方法，可以参照步骤101中的有关内容，在此不再赘述。另外，在进行合成之前，需要将划分出的多个子视频(或目标子视频)进行截断，即将多个子视频(目标子视频)分割开。

另外，由于上述生成合成视频的过程，是根据目标音频的分段时间点进行的，而分段时间点均为重音拍时间点，这样合成视频各图像素材对应的切换时间点就为目标音频中的重音拍时间点，使得合成视频在播放时，每个图像素材对应的那部分视频都会在目标音频播放到重音拍时间点时进行切换。因此，图像素材和目标音频有效的结合在一起，有较强的可玩性，趣味性。

基于相同的技术构思，本申请实施例还提供了一种视频合成的装置，该装置可以为上述实施例中的终端，如图2所示，该装置包括：

确定模块201，用于获取目标音频和图像素材，并基于目标音频和图像素材中图片素材的数目，确定合成视频所需的子视频的目标数目；

划分模块202，用于将图像素材中的视频素材划分为目标数目个子视频；

合成模块203，用于对目标数目个子视频和目标音频进行合成，得到合成视频。

可选的，划分模块，202，用于：

在图像素材中的视频素材中选取多个片段代表帧，其中，每个片段代表帧对应有一个视频片段；

确定每相邻两个视频片段对应的片段代表帧的相似度，并基于目标数目和各个相似度，确定相似度阈值；

可选的，划分模块202，用于：

对于每相邻两个视频片段对应的片段代表帧，确定两个片段代表帧的RGB波形图，并基于两个片段代表帧的RGB波形图，确地两个片段代表帧的相似度。

可选的，确定出的相似度的数目为M，目标数目为N，其中，M和N均为正整数，且M不小于N；

划分模块202，用于：

在确定出的M个相似度中，按照单调递增的顺序，确定第N个和第N+1个相似度；

确定一个大于第N-1个相似度且小于第N个相似度的值，作为相似度阈值。

可选的，确定模块201，用于：

基于目标音频的频谱特征、各歌词段的开始时间点与结束时间点和各重音拍时间点，确定目标音频的分段数目；

基于分段数目和图片素材的数目，确定合成视频所需的子视频的目标数目。

可选的，合成模块203，用于：

确定目标数目个子视频的时长，将时长大于目标时长阈值的子视频确定为目标子视频；

对目标子视频和目标音频进行合成，得到合成视频。

可选的，合成模块203，用于：

对目标子视频进行排序，对排序后的目标子视频和目标音频进行合成，得到合成视频。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是：上述实施例提供的视频合成的装置在进行视频合成时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频合成的装置与视频合成的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图3是本申请实施例提供的一种终端的结构框图。该终端300可以是便携式移动终端，比如：智能手机、平板电脑、智能摄像机。终端300还可能被称为用户设备、便携式终端等其他名称。

通常，终端300包括有：处理器301和存储器302。

处理器301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器301所执行以实现本申请中提供的视频合成的方法。

在一些实施例中，终端300还可选包括有：外围设备接口303和至少一个外围设备。具体地，外围设备包括：射频电路304、显示屏305、摄像头组件306、音频电路307、定位组件308和电源309中的至少一种。

外围设备接口303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中，处理器301、存储器302和外围设备接口303被集成在同一芯片或电路板上；在一些其他实施例中，处理器301、存储器302和外围设备接口303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。显示屏305还具有采集在触摸显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。显示屏305用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏305可以为一个，设置终端300的前面板；在另一些实施例中，显示屏305可以为至少两个，分别设置在终端300的不同表面或呈折叠设计；在再一些实施例中，显示屏305可以是柔性显示屏，设置在终端300的弯曲表面上或折叠面上。甚至，显示屏305还可以设置成非矩形的不规则图形，也即异形屏。显示屏305可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件306用于采集图像或视频。可选地，摄像头组件306包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件306还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路307用于提供用户和终端300之间的音频接口。音频电路307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器301进行处理，或者输入至射频电路304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器301或射频电路304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路307还可以包括耳机插孔。

定位组件308用于定位终端300的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件308可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源309用于为终端300中的各个组件进行供电。电源309可以是交流电、直流电、一次性电池或可充电电池。当电源309包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端300还包括有一个或多个传感器310。该一个或多个传感器310包括但不限于：加速度传感器311、陀螺仪传感器312、压力传感器313、指纹传感器314、光学传感器315以及接近传感器316。

加速度传感器311可以检测以终端300建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器311可以用于检测重力加速度在三个坐标轴上的分量。处理器301可以根据加速度传感器311采集的重力加速度信号，控制显示屏305以横向视图或纵向视图进行用户界面的显示。加速度传感器311还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器312可以检测终端300的机体方向及转动角度，陀螺仪传感器312可以与加速度传感器311协同采集用户对终端300的3D动作。处理器301根据陀螺仪传感器312采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器313可以设置在终端300的侧边框和/或显示屏305的下层。当压力传感器313设置在终端300的侧边框时，可以检测用户对终端300的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器313设置在显示屏305的下层时，可以根据用户对显示屏305的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器314用于采集用户的指纹，以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器301授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器314可以被设置终端300的正面、背面或侧面。当终端300上设置有物理按键或厂商Logo时，指纹传感器314可以与物理按键或厂商Logo集成在一起。

光学传感器315用于采集环境光强度。在一个实施例中，处理器301可以根据光学传感器315采集的环境光强度，控制显示屏305的显示亮度。具体地，当环境光强度较高时，调高显示屏305的显示亮度；当环境光强度较低时，调低显示屏305的显示亮度。在另一个实施例中，处理器301还可以根据光学传感器315采集的环境光强度，动态调整摄像头组件306的拍摄参数。

接近传感器316，也称距离传感器，通常设置在终端300的正面。接近传感器316用于采集用户与终端300的正面之间的距离。在一个实施例中，当接近传感器316检测到用户与终端300的正面之间的距离逐渐变小时，由处理器301控制显示屏305从亮屏状态切换为息屏状态；当接近传感器316检测到用户与终端300的正面之间的距离逐渐变大时，由处理器301控制显示屏305从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图3中示出的结构并不构成对终端300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述实施例中的视频合成的方法。例如，所述计算机可读存储介质可以是ROM(Read-Only Memory)、随机存取存储器(RandomAccess Memory，RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频合成的方法，其特征在于，所述方法包括：

获取目标音频和图像素材，并基于所述目标音频和所述图像素材中图片素材的数目，确定合成视频所需的子视频的目标数目，所述目标数目是所述目标音频的分段数目减去所述图片素材的数目得到的；

在所述图像素材中的视频素材中选取多个片段代表帧，其中，每个片段代表帧对应有一个视频片段；确定每相邻两个视频片段对应的片段代表帧的相似度，并基于所述目标数目和各个相似度，确定相似度阈值；将相似度大于相似度阈值的两个片段代表帧对应的视频片段划分为同一子视频，将相似度小于相似度阈值的两个片段代表帧对应的视频片段划分为不同的子视频；

基于所述目标数目个子视频、所述图片素材和所述目标音频，确定所述合成视频；

其中，当所述相似度的数目为M，目标数目为N时，所述基于所述目标数目和各个相似度，确定相似度阈值，包括：在所述M个相似度中，按照单调递增的顺序，确定第N-1个和第N个相似度；将一个大于所述第N-1个相似度且小于所述第N个相似度的值，作为所述相似度阈值，M不小于N，M和N均为正整数。

2.根据权利要求1所述的方法，其特征在于，所述确定每相邻两个视频片段对应的片段代表帧的相似度，包括：

3.根据权利要求1所述的方法，其特征在于，确定出的相似度的数目为M，所述目标数目为N，其中，M和N均为正整数，且M不小于N；

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标音频和所述图像素材中图片素材的数目，确定合成视频所需的子视频的目标数目，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标数目个子视频、所述图片素材和所述目标音频，确定所述合成视频，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述目标子视频、所述图片素材和所述目标音频进行合成，得到所述合成视频，包括：

7.一种视频合成的装置，其特征在于，所述装置包括：

确定模块，用于获取目标音频和图像素材，并基于所述目标音频和所述图像素材中图片素材的数目，确定合成视频所需的子视频的目标数目，所述目标数目是所述目标音频的分段数目减去所述图片素材的数目得到的；

划分模块，用于在所述图像素材中的视频素材中选取多个片段代表帧，其中，每个片段代表帧对应有一个视频片段；确定每相邻两个视频片段对应的片段代表帧的相似度，并基于所述目标数目和各个相似度，确定相似度阈值；将相似度大于相似度阈值的两个片段代表帧对应的视频片段划分为同一子视频，将相似度小于相似度阈值的两个片段代表帧对应的视频片段划分为不同的子视频；合成模块，用于对所述目标数目个子视频、所述图片素材和所述目标音频进行合成，得到所述合成视频；

其中，当所述相似度的数目为M，目标数目为N时，所述划分模块还用于：在所述M个相似度中，按照单调递增的顺序，确定第N-1个和第N个相似度；将一个大于所述第N-1个相似度且小于所述第N个相似度的值，作为所述相似度阈值，M不小于N，M和N均为正整数。

8.一种终端，其特征在于，所述终端包括存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1-6任一项所述的视频合成的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1-6任一项所述的视频合成的方法。