CN112866584B

CN112866584B - 视频合成方法、装置、终端及存储介质

Info

Publication number: CN112866584B
Application number: CN202011642894.6A
Authority: CN
Inventors: 曹璐
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-01-20
Anticipated expiration: 2040-12-31
Also published as: CN112866584A

Abstract

本公开关于一种视频合成方法、装置、终端及存储介质，涉及视频技术领域。方法包括：展示视频编辑界面，视频编辑界面包括待添加背景音频的第一视频组，第一视频组包括至少一个视频片段；确定第一视频组的视频内容切换时的第一时间点；基于第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点，确定第一视频组匹配的至少一个背景音频；在视频编辑界面展示至少一个背景音频，将第一背景音频和第一视频组进行合成，得到目标视频，第一背景音频为至少一个背景音频中被选择的背景音频。上述技术方案缩短了选择背景音频所需时间，进而提高了视频与背景音频合成的效率。

Description

视频合成方法、装置、终端及存储介质

技术领域

本公开涉及视频技术领域，尤其涉及视频合成方法、装置、终端及存储介质。

背景技术

在视频编辑过程中，用户如果想让视频内容中的某一内容切换效果与背景音乐中的节拍、音效等对应起来，需要选择与该内容切换效果出现的时间点匹配的背景音乐。而相关技术中，用户需要依次播放背景音乐库中的音乐，然后判断哪个音乐与该视频内容的内容切换效果出现的时间点相匹配，就将该音乐作为该视频的背景音乐。

上述技术中，由于背景音乐库中的音乐较多，因此用户挑选音乐花费的时间较多，进而确定背景音乐的效率较低，导致视频合成的效率较低。

发明内容

本公开提供一种视频合成方法、装置、终端及存储介质，能够提高视频与背景音频合成的效率。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频合成方法，包括：

展示视频编辑界面，所述视频编辑界面包括待添加背景音频的第一视频组，所述第一视频组包括至少一个视频片段；

确定所述第一视频组的视频内容切换时的第一时间点；

基于所述第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点，确定所述第一视频组匹配的至少一个背景音频；

在所述视频编辑界面展示所述至少一个背景音频，将第一背景音频和所述第一视频组进行合成，得到目标视频，所述第一背景音频为所述至少一个背景音频中被选择的背景音频。

在一些实施例中，所述基于所述第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频节拍切换时的第二时间点，确定所述第一视频组匹配的至少一个背景音频包括：

对于第一背景音频集合中的每个背景音频，基于所述视频内容切换时的第一时间点和所述背景音频的音频特征变化时的第二时间点，确定所述第一视频组与所述背景音频之间的匹配度；

基于所述第一视频组与所述背景音频之间的匹配度，从所述第一背景音频集合中选择匹配度满足条件的至少一个背景音频。

在一些实施例中，所述基于所述视频内容切换时的第一时间点和所述背景音频的音频特征变化时的第二时间点，确定所述第一视频组与所述背景音频之间的匹配度包括：

基于所述视频内容切换时的第一时间点和所述背景音频的音频特征变化时的第二时间点，确定目标时间点的第一数量，所述目标时间点为第一时间点与第二时间点匹配的时间点；

基于所述第一数量和第二数量，确定所述第一视频组与所述背景音频之间的匹配度，所述第二数量为所述视频内容切换时的第一时间点包括的第一时间点的数量。

在一些实施例中，所述方法还包括：

对所述第一视频组进行图像识别，得到所述第一视频组的视频风格信息；

基于所述视频风格信息，从第二背景音频集合中选择与所述视频风格对应的背景音频；

将选择的背景音频组成所述第一背景音频集合。

在一些实施例中，所述基于所述第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点，确定所述第一视频组匹配的至少一个背景音频还包括：

向服务器发送音频获取请求，所述音频获取请求携带所述视频内容切换时的第一时间点，用于所述服务器基于所述视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点，确定所述第一视频组匹配的至少一个背景音频；

接收所述服务器的所述至少一个背景音频。

在一些实施例中，所述将第一背景音频和所述第一视频组进行合成，得到目标视频包括：

基于所述视频内容切换时的第一时间点和所述音频特征变化时的第二时间点，确定第一音视频对和第二音视频对，所述第一音视频对为切换时的时间点不匹配的音视频对，所述第二音视频对为切换时的时间点匹配的音视频对；

对所述第一音视频对进行调整，得到第三音视频对，将所述第三视频对进行合成，得到第二视频组；

将所述第二音视频对进行合成，得到第三视频组；

将所述第二视频组和所述第三视频组进行拼接，得到所述目标视频。

在一些实施例中，所述对所述第一音视频对进行调整，得到第三音视频对包括：

对所述第一音视频对中的视频段进行调整，得到所述第三音视频对；或者，

对所述第一音视频对中的背景音频段进行调整，得到所述第三音视频对。

在一些实施例中，所述对所述第一音视频对中的视频段进行调整，得到所述第三音视频对包括：

对于所述第一音视频对中的第一视频段和第一背景音频段，基于所述视频内容切换时的第一时间点，确定所述第一视频段的第一时长，以及，基于所述音频特征变化时的第二时间点，确定所述第一背景音频段的第二时长，所述第一背景音频段包括至少一个节拍；

响应于所述第一时长大于所述第二时长，对所述第一视频段进行剪切或者时间压缩处理，得到第二视频段；

响应于所述第一时长小于所述第二时长，对所述第一视频段进行时间增长处理，得到第二视频段；

将所述第二视频段和所述第一背景音频段组成所述第三音视频对，所述第二视频段的时长与所述第二时长相同。

在一些实施例中，所述对所述第一音视频对中的背景音频段进行调整，得到所述第三音视频对包括：

响应于所述第一时长大于所述第二时长，对所述第一背景音频段进行时间增长处理，得到第二背景音频段；

响应于所述第一时长小于所述第二时长，对所述第一背景音频段进行时间压缩处理，得到第二背景音频段；

将所述第一视频段和所述第二背景音频段组成所述第三音视频对，所述第二背景音频段的时长与所述第一时长相同。

在一些实施例中，所述基于所述视频内容切换时的第一时间点和所述音频特征变化时的第二时间点，确定第一音视频对和第二音视频对包括：

基于所述视频内容切换时的第一时间点和所述音频特征变化时的第二时间点，确定待合成的多个音视频对；

对于每个音视频对，获取所述音视频对的卡点匹配信息；

响应于所述音视频对的卡点匹配信息用于表示所述音视频对在切换时的时间点不匹配，将所述音视频对确定为所述第一音视频对；

响应于所述音视频对的卡点匹配信息用于表示所述音视频对在切换时的时间点匹配，将所述音视频对确定为所述第二音视频对。

根据本公开实施例的第二方面，提供一种视频合成装置，包括：

展示单元，被配置为执行展示视频编辑界面，所述视频编辑界面包括待添加背景音频的第一视频组，所述第一视频组包括至少一个视频片段；

第一确定单元，被配置为执行确定所述第一视频组的视频内容切换时的第一时间点；

第二确定单元，被配置为执行基于所述第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点，确定所述第一视频组匹配的至少一个背景音频；

合成单元，被配置为执行在所述视频编辑界面展示所述至少一个背景音频，将第一背景音频和所述第一视频组进行合成，得到目标视频，所述第一背景音频为所述至少一个背景音频中被选择的背景音频。

在一些实施例中，所述第二确定单元包括：

第一确定子单元，被配置为执行对于第一背景音频集合中的每个背景音频，基于所述视频内容切换时的第一时间点和所述背景音频的音频特征变化时的第二时间点，确定所述第一视频组与所述背景音频之间的匹配度；

选择子单元，被配置为执行基于所述第一视频组与所述背景音频之间的匹配度，从所述第一背景音频集合中选择匹配度满足条件的至少一个背景音频。

在一些实施例中，所述第一确定子单元，被配置为执行基于所述视频内容切换时的第一时间点和所述背景音频的音频特征变化时的第二时间点，确定目标时间点的第一数量，所述目标时间点为第一时间点与第二时间点匹配的时间点；基于所述第一数量和第二数量，确定所述第一视频组与所述背景音频之间的匹配度，所述第二数量为所述视频内容切换时的第一时间点包括的第一时间点的数量。

在一些实施例中，所述装置还包括：

识别单元，被配置为执行对所述第一视频组进行图像识别，得到所述第一视频组的视频风格信息；

选择单元，被配置为执行基于所述视频风格信息，从第二背景音频集合中选择与所述视频风格对应的背景音频；

组合单元，被配置为执行将选择的背景音频组成所述第一背景音频集合。

在一些实施例中，所述第二确定单元，还被配置为执行向服务器发送音频获取请求，所述音频获取请求携带所述视频内容切换时的第一时间点，用于所述服务器基于所述视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点，确定所述第一视频组匹配的至少一个背景音频；接收所述服务器的所述至少一个背景音频。

在一些实施例中，所述合成单元包括：

第二确定子单元，被配置为执行基于所述视频内容切换时的第一时间点和所述音频特征变化时的第二时间点，确定第一音视频对和第二音视频对，所述第一音视频对为切换时的时间点不匹配的音视频对，所述第二音视频对为切换时的时间点匹配的音视频对；

第一合成子单元，被配置为执行对所述第一音视频对进行调整，得到第三音视频对，将所述第三视频对进行合成，得到第二视频组；

第二合成子单元，被配置为执行将所述第二音视频对进行合成，得到第三视频组；

拼接子单元，被配置为执行将所述第二视频组和所述第三视频组进行拼接，得到所述目标视频。

在一些实施例中，所述第一合成子单元，被配置为执行对所述第一音视频对中的视频段进行调整，得到所述第三音视频对；或者，对所述第一音视频对中的背景音频段进行调整，得到所述第三音视频对。

在一些实施例中，所述第一合成子单元，被配置为执行对于所述第一音视频对中的第一视频段和第一背景音频段，基于所述视频内容切换时的第一时间点，确定所述第一视频段的第一时长，以及，基于所述音频特征变化时的第二时间点，确定所述第一背景音频段的第二时长，所述第一背景音频段包括至少一个节拍；响应于所述第一时长大于所述第二时长，对所述第一视频段进行剪切或者时间压缩处理，得到第二视频段；响应于所述第一时长小于所述第二时长，对所述第一视频段进行时间增长处理，得到第二视频段；将所述第二视频段和所述第一背景音频段组成所述第三音视频对，所述第二视频段的时长与所述第二时长相同。

在一些实施例中，所述第一合成子单元，被配置为执行对于所述第一音视频对中的第一视频段和第一背景音频段，基于所述视频内容切换时的第一时间点，确定所述第一视频段的第一时长，以及，基于所述音频特征变化时的第二时间点，确定所述第一背景音频段的第二时长，所述第一背景音频段包括至少一个节拍；响应于所述第一时长大于所述第二时长，对所述第一背景音频段进行时间增长处理，得到第二背景音频段；响应于所述第一时长小于所述第二时长，对所述第一背景音频段进行时间压缩处理，得到第二背景音频段；将所述第一视频段和所述第二背景音频段组成所述第三音视频对，所述第二背景音频段的时长与所述第一时长相同。

在一些实施例中，所述第二确定子单元，被配置为执行基于所述视频内容切换时的第一时间点和所述音频特征变化时的第二时间点，确定待合成的多个音视频对；对于每个音视频对，获取所述音视频对的卡点匹配信息；响应于所述音视频对的卡点匹配信息用于表示所述音视频对在切换时的时间点不匹配，将所述音视频对确定为所述第一音视频对；响应于所述音视频对的卡点匹配信息用于表示所述音视频对在切换时的时间点匹配，将所述音视频对确定为所述第二音视频对。

根据本公开实施例的第三方面，提供一种终端，所述终端包括处理器和用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现执行上述实施例中的视频合成方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由终端的处理器执行时，使得所述终端能够执行上述实施例中的视频合成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述实施例中的视频合成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在本公开实施例中，直接基于视频的视频内容切换时的第一时间点和背景音频的音频特征变化时的第二时间点，从背景音频集合中选择与该视频匹配的背景音频，这样就不需要用户手动从背景音频集合中大量的背景音频中选择背景音频，缩短了选择背景音频所需时间，进而提高了视频与背景音频合成的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频合成方法的实施环境图。

图2是根据一示例性实施例示出的一种视频合成方法的流程图。

图3是根据一示例性实施例示出的一种视频合成方法的流程图。

图4是根据一示例性实施例示出的一种视频合成方法的示意图。

图5是根据一示例性实施例示出的一种视频合成方法的示意图。

图6是根据一示例性实施例示出的一种视频合成方法的示意图。

图7是根据一示例性实施例示出的一种视频合成装置的框图。

图8是根据一示例性实施例示出的一种终端的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

图1是根据一示例性实施例示出的一种视频合成方法的实施环境图，参见图1，该实施环境包括：终端10和服务器20。终端10与服务器20通过无线或者有线网络连接。

终端10中安装有由服务器20提供服务的目标应用程序，终端10通过该目标应用程序与服务器20实现例如数据传输、信息交互等功能。该目标应用程序可以为终端10的操作系统中的应用程序，该目标应用程序还可以为第三方提供的应用程序。该目标应用程序为视频编辑应用程序，该视频编辑应用程序至少具有视频合成等编辑功能，该视频编辑应用程序还能够具备其他功能，例如，录制功能、直播功能、分享功能、播放功能等。例如，该目标应用程序为短视频应用程序、直播应用程序等。

终端10为手机、平板电脑和PC(Personal Computer)设备等设备中的至少一种。服务器20可以为一台服务器、由多台服务器组成的服务器集群、云服务器、云计算平台和虚拟化中心中的至少一种。

在本公开实施例中，终端10编辑视频时，可以为该视频添加背景音频，从而得到具有背景音乐的视频。该背景音频为从音频集合库中选择的背景音频。

在一些实施例中，终端10从服务器20中获取音频集合库，然后通过本申请实施例提供的视频合成方法，从该音频集合库中选择背景音频，将该背景音频与待合成的视频进行合成。

在另一些实施例中，终端10请求服务器20从音频集合库中选择背景音频，然后返回给终端10该选择出的背景音频，由终端10进行背景音频和视频的合成。

本公开实施例提供的视频合成方法，能够应用在以下两种场景中：

第一：应用在分享视频的场景中。

在用户通过终端10分享视频时，终端可以通过本公开实施例提供的方法，为该视频添加背景音频，从而得到具有背景音乐的视频，然后分享该具有背景音乐的视频。

第二：应用在视频录制的场景中。

在用户通过终端10录制视频时，先录制一个视频，然后通过本公开实施例提供的方法，为该视频添加背景音频，从而得到具有背景音乐的视频，然后存储该具有背景音乐的视频。

需要说明的一点是，以上两种应用场景仅是示例性说明，并不视频合成的场景造成限制，本公开除了应用在以上两种场景外，还能够应用在其他任一音频合成的场景中。

图2是根据一示例性实施例示出的一种视频合成方法的流程图，如图2所示，该视频合成方法用于终端中，包括以下步骤。

在步骤S201中，终端展示视频编辑界面，该视频编辑界面包括待添加背景音频的第一视频组，该第一视频组包括至少一个视频片段。

在步骤S202中，终端确定该第一视频组的视频内容切换时的第一时间点。

在步骤S203中，终端基于该第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点，确定该第一视频组匹配的至少一个背景音频。

在步骤S204中，终端在该视频编辑界面展示该至少一个背景音频，将第一背景音频和该第一视频组进行合成，得到目标视频，该第一背景音频为该至少一个背景音频中被选择的背景音频。

在一些实施例中，该基于该第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频节拍切换时的第二时间点，确定该第一视频组匹配的至少一个背景音频包括：

对于第一背景音频集合中的每个背景音频，基于该视频内容切换时的第一时间点和该背景音频的音频特征变化时的第二时间点，确定该第一视频组与该背景音频之间的匹配度；

基于该第一视频组与该背景音频之间的匹配度，从该第一背景音频集合中选择匹配度满足条件的至少一个背景音频。

在一些实施例中，该基于该视频内容切换时的第一时间点和该背景音频的音频特征变化时的第二时间点，确定该第一视频组与该背景音频之间的匹配度包括：

基于该视频内容切换时的第一时间点和该背景音频的音频特征变化时的第二时间点，确定目标时间点的第一数量，该目标时间点为第一时间点与第二时间点匹配的时间点；

基于该第一数量和第二数量，确定该第一视频组与该背景音频之间的匹配度，该第二数量为该视频内容切换时的第一时间点包括的第一时间点的数量。

在一些实施例中，该方法还包括：

对该第一视频组进行图像识别，得到该第一视频组的视频风格信息；

基于该视频风格信息，从第二背景音频集合中选择与该视频风格对应的背景音频；

将选择的背景音频组成该第一背景音频集合。

在一些实施例中，该基于该第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点，确定该第一视频组匹配的至少一个背景音频还包括：

向服务器发送音频获取请求，该音频获取请求携带该视频内容切换时的第一时间点，用于该服务器基于该视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点，确定该第一视频组匹配的至少一个背景音频；

接收该服务器的该至少一个背景音频。

在一些实施例中，该将第一背景音频和该第一视频组进行合成，得到目标视频包括：

基于该视频内容切换时的第一时间点和该音频特征变化时的第二时间点，确定第一音视频对和第二音视频对，该第一音视频对为切换时的时间点不匹配的音视频对，该第二音视频对为切换时的时间点匹配的音视频对；

对该第一音视频对进行调整，得到第三音视频对，将该第三视频对进行合成，得到第二视频组；

将该第二音视频对进行合成，得到第三视频组；

将该第二视频组和该第三视频组进行拼接，得到该目标视频。

在一些实施例中，该对该第一音视频对进行调整，得到第三音视频对包括：

对该第一音视频对中的视频段进行调整，得到该第三音视频对；或者，

对该第一音视频对中的背景音频段进行调整，得到该第三音视频对。

在一些实施例中，该对该第一音视频对中的视频段进行调整，得到该第三音视频对包括：

对于该第一音视频对中的第一视频段和第一背景音频段，基于该视频内容切换时的第一时间点，确定该第一视频段的第一时长，以及，基于该音频特征变化时的第二时间点，确定该第一背景音频段的第二时长，该第一背景音频段包括至少一个节拍；

响应于该第一时长大于该第二时长，对该第一视频段进行剪切或者时间压缩处理，得到第二视频段；

响应于该第一时长小于该第二时长，对该第一视频段进行时间增长处理，得到第二视频段；

将该第二视频段和该第一背景音频段组成该第三音视频对，该第二视频段的时长与该第二时长相同。

在一些实施例中，该对该第一音视频对中的背景音频段进行调整，得到该第三音视频对包括：

响应于该第一时长大于该第二时长，对该第一背景音频段进行时间增长处理，得到第二背景音频段；

响应于该第一时长小于该第二时长，对该第一背景音频段进行时间压缩处理，得到第二背景音频段；

将该第一视频段和该第二背景音频段组成该第三音视频对，该第二背景音频段的时长与该第一时长相同。

在一些实施例中，该基于该视频内容切换时的第一时间点和该音频特征变化时的第二时间点，确定第一音视频对和第二音视频对包括：

基于该视频内容切换时的第一时间点和该音频特征变化时的第二时间点，确定待合成的多个音视频对；

对于每个音视频对，获取该音视频对的卡点匹配信息；

响应于该音视频对的卡点匹配信息用于表示该音视频对在切换时的时间点不匹配，将该音视频对确定为该第一音视频对；

响应于该音视频对的卡点匹配信息用于表示该音视频对在切换时的时间点匹配，将该音视频对确定为该第二音视频对。

图3是根据一示例性实施例示出的一种视频合成方法的流程图，如图3所示，该视频合成方法用于终端中，包括以下步骤。

在步骤301中，终端展示视频编辑界面，该视频编辑界面包括待添加背景音频的第一视频组，该第一视频组包括至少一个视频片段。

第一视频组中的视频片段可以为终端当前拍摄的视频片段，也可以为终端的视频库中的视频片段。其中，终端中安装有目标应用程序，当用户通过该目标应用程序编辑视频时，用户触发终端运行该目标应用程序；响应于该目标应用程序被触发，终端展示该目标应用程序的主界面，该主界面中包括视频拍摄按钮；用户可以通过视频拍摄按钮触发终端拍摄第一视频组，或者触发终端从视频集合库中选择第一视频组。相应的，本步骤可以为：

响应于该视频拍摄按钮被触发，展示视频拍摄界面，该视频拍摄界面中包括拍摄按钮和选择按钮，响应于拍摄按钮被触发，终端进行视频拍摄得到第一视频组，在该视频拍摄界面中展示编辑按钮(例如，“下一步”)，响应于该编辑按钮被触发，展示视频编辑界面，该视频编辑界面包括拍摄得到的第一视频组。

或者，响应于该选择按钮被触发，终端展示视频集合库，用户可以从视频集合库中选择视频，终端获取视频集合库中被选择的至少一个视频、至少一个集合、至少一个视频集合和/或至少一个图像集合，将被选择的至少一个视频、至少一个集合、至少一个视频集合和/或至少一个图像集合进行合成，得到第一视频组，在该视频拍摄界面中展示编辑按钮(例如，“下一步”)，响应于该编辑按钮被触发，展示视频编辑界面，该视频编辑界面包括拍摄得到的第一视频组。

需要说明的一点是，第一视频组可以包括同一视频内容，也可以包括多个不同的视频内容；在本申请实施例中，以每个视频片段包括多个不同的视频内容为例进行说明。相应的，终端在拍摄第一视频组时，可以拍摄多个对象或者多个场景，得到一个视频片段，将该视频片段作为第一视频组。或者，终端从视频集合库中选择视频时，可以选择包括不同的视频内容的一个视频片段，或者是选择包括不同的视频内容的多个视频片段，将多个视频片段合成为第一视频组。

在步骤302中，终端确定该第一视频组的视频内容切换时的第一时间点。

第一种实现方式，第一视频组包括一个视频片段，该视频片段包括多个不同的视频内容，为了便于描述，将每个视频内容对应的视频称为一个视频段，则第一视频组包括多个视频段，且视频片段是由多个视频段组成的视频序列。不同的视频内容包括不同场景的视频内容，或者同一场景中不同对象的视频内容。

响应于不同的视频内容包括不同场景的视频内容，则该视频内容切换时的第一时间点即为两个场景的转场时间点，相应的，终端确定该第一视频组的视频内容切换时的第一时间点的步骤包括：终端从第一视频组中确定每个场景所在的视频段，将相邻每个场景的转场时间点组成第一视频组的视频内容切换时的第一时间点。

响应于不同的视频内容包括同一场景的不同对象的视频内容，则该视频内容切换时的第一时间点即为不同对象的切换时间点，相应的，终端确定该第一视频组的视频内容切换时的第一时间点的步骤包括：

终端从第一视频组中确定每个对象所在的视频段，将相邻两个视频段的切换时间点组成第一视频组的视频内容切换时的第一时间点。

需要说明的一点是，响应于该视频片段包括不同场景的视频内容以及同一场景的不同对象的视频内容，则终端可以结合以上第一种情况和第二种情况的实现方式获取第一视频组的视频内容切换时的第一时间点。

第二种实现方式，第一视频组包括多个视频片段，每个视频片段包括至少一个视频段，也即第一视频组是由多个视频段组成的视频序列。每个视频段对应一个视频内容，不同的视频内容包括不同场景的视频内容，或者同一场景中不同对象的视频内容。则视频内容的切换包括片段间的视频内容的切换和片段内的视频内容的切换中的至少一种，例如，片段间的视频内容变化为视频转场。

其中，第一时间点包括第三时间点和第四时间点，该第三时间点为片段间视频内容切换的时间点，该第四时间点为片段内视频内容切换的时间点。相应的，终端确定该第一视频组的视频内容切换的第一时间点的实现方式包括以下两种情况。

第一种情况，每个视频片段包括一个视频段。则第一时间点包括第三时间点；相应的，终端从第一视频组中，确定至少一个第三时间点，将该至少一个第三时间点作为该第一时间点。

第二种情况，每个视频片段包括多个视频段；则第一时间点包括第三时间点和第四时间点；相应的，终端从第一视频组中，确定第三时间点；对于每个视频片段，终端基于该视频片段内的相邻两帧之间的亮度变化的强度，确定第四时间点；将该第三时间点和第四时间点组成该第一时间点。

在一些实施例中，终端确定该视频片段内的相邻两帧之间的亮度变化的强度，响应于该强度大于强度阈值，确定该相邻两帧之间存在视频内容的切换，确定该相邻两帧的切换的时间点为第四时间点。响应于该强度不大于第一强度阈值，确定该相邻两帧之间不存在视频内容的切换。其中，该强度阈值可根据需求更改和设置，本公开实施例对此不做具体限定，例如，该强度阈值为6。

其中，终端确定该视频片段的相邻两帧之间的亮度变化的强度的实现方式包括：终端确定相邻两帧的亮度之差，将该亮度之差作为该相邻两帧的亮度变化值，确定该亮度变化值对应的强度。其中，终端预先存储有亮度变化值与该强度的对应关系；相应的，终端基于该亮度变化值从该对应关系中，确定该亮度变化值对应的强度。例如，该强度为0-10之间的数值。

在本公开实施例中，终端可基于分别确定片段间的视频内容的切换的第三时间点和片段内的视频内容的切换的第四时间点，将第三时间点与第四时间点组成该第一时间点；终端也可直接基于第一视频组的相邻两帧之间的亮度变化的强度确定第一时间点。

在本步骤中，对于片段间的视频内容的切换的时间点，即第三时间点，终端将最大强度作为该第三时间点连接的相邻两帧的强度，该最大强度为上述的对应关系中的最大强度。

例如，参见图4，用户上传了3个视频片段，包括片段a、片段b和片段c，片段间的视频内容切换的时间点，即第三时间点分别为a1、b1和c1，片段内的视频内容切换的时间点，即第四时间点分别为a2和c2，则该视频内容切换时的第一时间点包括a1、b1、c1、a2和c2。

在步骤303中，终端对于第一背景音频集合中的每个背景音频，基于该视频内容切换时的第一时间点和该背景音频的音频特征变化时的第二时间点，确定该第一视频组与该背景音频之间的匹配度，该背景音频的背景音频特征变化时的第二时间点包括背景音频节拍切换时的第二时间点。

其中，对于第一背景音频集合中的每个背景音频，终端基于该视频内容切换时的第一时间点和该背景音频的背景音频特征变化时的第二时间点，确定该第一视频组与该背景音频之间的匹配度的实现方式包括以下步骤(1)-(2)：

(1)终端基于该视频内容切换时的第一时间点和该背景音频的背景音频特征变化时的第二时间点，确定目标时间点的第一数量，该目标时间点为第一时间点与第二时间点匹配的时间点。

其中，终端确定该第一时间点与该第二时间点匹配的实现方式包括以下两种情况：

第一种情况，响应于第一时间点与该第二时间点相等，终端确定该第一时间点与该第二时间点匹配；例如，该第一时间点为第40ms，该第二时间点为第40ms，则终端确定该第一时间点与该第二时间点匹配。

第二种情况，响应于第一时间点与该第二时间点之间的差值小于预设数值，终端确定该第一时间点与该第二时间点匹配；例如，该第一时间点为第40ms，该预设数值为5ms，则只要第二时间点位于第35ms-第45ms之间，则终端确定该第一时间点与该第二时间点匹配。

(2)终端基于该第一数量和第二数量，确定该第一视频组与该背景音频之间的匹配度，该第二数量为该视频内容切换时的第一时间点包括的第一时间点的数量。

在本步骤中，终端确定该第一视频组与该背景音频之间的匹配度的实现方式包括以下两种实现方式：

第一种实现方式：终端将该第一数量与该第二数量的比值作为该匹配度；例如，该第一数量为4，该第二数量为5，则该匹配度为0.8。

第二种实现方式：终端基于该第一时间点的强度信息对该第一数量进行加权，得到加权后的第一数量，将该加权后的第一数量和第二数量的比值作为该匹配度。

其中，该视频内容切换时的第一时间点还包括该第一时间点的强度信息，该强度信息包括该第一时间点连接的相邻两帧的亮度变化的强度。

例如，第一时间点包括a1、b1、c1、a2和c2，其中，a1、b1和c1的强度分别为10，而a2和c2的强度分别为6、7，其中，a1、b1、a2和c2为目标时间点，则第一数量为4，加权后的第一数量为3.3，则匹配度为0.66。

在本公开实施例中，终端基于第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的背景音频特征变化时的第二时间点来确定每个背景音频与该第一视频组的匹配度，使得终端可以基于该匹配度确定与该第一视频组匹配的背景音频，从而基于匹配度对该第一背景音频集合中的背景音频进行区分，进而实现对背景音频的选择。

在本步骤中，终端可基于第一视频组的视频风格信息确定该第一背景音频集合。在一些实施例中，终端基于第一视频组的视频风格信息确定该第一背景音频集合的实现方式包括以下步骤A1-A3：

A1：终端对该第一视频组进行图像识别，得到该第一视频组的视频风格信息。

例如，该第一视频组中的图像多为风景，则该第一视频组的视频风格信息为风景；再如，该第一视频组中的图像多为人脸，则该第一视频组的视频风格信息为人脸自拍。

A2：终端基于该视频风格信息，从第二背景音频集合中选择与该视频风格对应的背景音频。

其中，该第二背景音频集合为音乐库，该音乐库中存储有多个背景音频，每个背景音频存在对应的背景音频特征变化时的第二时间点。该背景音频特征变化时的第二时间点还包括该背景音频的背景音频风格信息，该背景音频风格信息为该背景音频的背景音频风格；例如，该背景音频风格为风景、美食等。

例如，该第一视频组的视频风格信息为食物，则终端从该第二背景音频集合中确定背景音频风格信息为食物的背景音频。

A3：终端将选择的背景音频组成该第一背景音频集合。

在本公开实施例中，终端通过对第一视频组进行图像识别，来判断第一视频组的视频风格，从而根据该第一视频组的视频风格从音乐库中确定出与该视频风格对应的背景音频，得到第一背景音频集合，从而终端可直接在该第一背景音频集合中确定与该第一视频组匹配的背景音频，进而缩小了选择范围，提高了终端选择背景音频的效率。

在一些实施例中，终端可直接将该第二背景音频集合作为第一背景音频集合。

其中，该第二背景音频集合中的背景音频的背景音频特征变化时的第二时间点由服务器事先获取得到；相应的，服务器获取该第二背景音频集合中的背景音频的背景音频特征变化时的第二时间点的实现方式为：对于每个背景音频，服务器获取该背景音频的相邻两个节拍切换时的第二时间点，将该第二时间点作为该背景音频特征变化时的第二时间点。

在一些实施例中，服务器获取该背景音频的相邻两个节拍切换时的第二时间点的实现方式包括：服务器采用音频节奏分析算法对该相邻两个节拍的切换时间点进行提取，得到该第二时间点。参见图5，对于输入的背景音频信号，获取该背景音频信号的波峰波谷时间点，对该时间点进行标记，得到卡点时间点，即第二时间点。其中，该相邻两个节拍的切换为背景音频的相邻的波峰波谷之间的切换，例如，参见图6，背景音频信号a的振幅中包括波峰和波谷，其中横轴为时间t，纵轴为振幅，单位为分贝dB。

需要说明的一点是，服务器可以直接在第二背景音频集合中存储每个背景音频的背景音频特征变化时的第二时间点；或者，服务器也可在背景音频特征变化时的第二时间点集合中单独存储每个背景音频的背景音频特征变化时的第二时间点，其中，该背景音频特征变化时的第二时间点还包括该背景音频的标识。相应的，在需要获取该背景音频的背景音频特征变化时的第二时间点时，服务器基于该背景音频的标识，从该背景音频特征变化时的第二时间点集合中确定与该背景音频的标识对应的背景音频特征变化时的第二时间点。

在步骤304中，终端基于该第一视频组与该背景音频之间的匹配度，从该第一背景音频集合中选择匹配度满足条件的至少一个背景音频。

其中，该条件包括匹配度大于匹配阈值，则本步骤为：终端基于该第一视频组与该背景音频之间的匹配度，从该第一背景音频集合中选择匹配度大于匹配阈值的至少一个背景音频。或者该条件包括匹配度最大的预设数量，则本步骤为：终端基于该第一视频组与该背景音频之间的匹配度，从该第一背景音频集合中选择匹配度最大的预设数量的背景音频。预设数量可以为大于或者等于1的整数。

需要说明的一点是，终端可独立执行步骤303-304的操作，终端也可借助于服务器来执行步骤303-304的操作；相应的，终端借助于服务器执行步骤303-304的操作的实现方式包括以下步骤A1-A2：

A1：终端向服务器发送背景音频获取请求，该背景音频获取请求携带该视频内容切换时的第一时间点，用于该服务器基于该视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的背景音频特征变化时的第二时间点，确定该第一视频组匹配的至少一个背景音频。

其中，服务器接收终端的背景音频获取请求，确定第一背景音频集合，基于该视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的背景音频特征变化时的第二时间点，确定该第一视频组匹配的至少一个背景音频，服务器向终端发送该至少一个背景音频。

其中，服务器基于该视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的背景音频特征变化时的第二时间点，确定该第一视频组匹配的至少一个背景音频，与终端确定至少一个背景音频的过程相似，在此不再赘述。

A2：终端接收该服务器的该至少一个背景音频。

在本公开实施例中，可由服务器来完成确定该至少一个背景音频的操作，进而通过终端与服务器之间的网络连接，使得终端能够获取该至少一个背景音频，进而终端无需存储大量的背景音频及背景音频特征变化时的第二时间点，降低了终端的存储压力。

在本公开实施例中，基于该第一视频组的视频内容切换时的第一时间点，在第一背景音频集合中确定出匹配度满足条件的至少一个背景音频，从而实现将该至少一个背景音频的选择过程由终端或服务器来完成，即用户无需手动从大量的背景音频中选择和第一视频组匹配的背景音频，进而减少了用户选择背景音频的时间，提高了背景音频选择的效率。

在步骤305中，终端获取至少一个背景音频中被选择的第一背景音频。

终端展示至少一个背景音频的获取入口，响应于任一背景音频的获取入口被触发，将该背景音频作为第一背景音频。

需要说明的一点是，终端获取到第一背景音频后，可以直接将第一背景音频和第一视频组进行合成，得到目标视频。终端还可以先对第一背景音频进行截取，得到时长与第一视频组的时长相同的第三背景音频，将第三背景音频与第一视频组进行合成，得到目标视频。终端还可以对第一背景音频或者第一视频组进行微调，使得第一背景音频和第一视频组完全匹配，然后才进行视频合成。相应的，执行完步骤305后，执行步骤306。

在步骤306中，终端基于该视频内容切换时的第一时间点和该背景音频特征变化时的第二时间点，确定第一音视频对和第二音视频对，该第一音视频对为切换时的时间点不匹配的音视频对，该第二音视频对为切换时的时间点匹配的音视频对。

其中，终端在对第一视频组和第一背景音频进行合成之前，需要对该第一视频组或者该第一背景音频进行编辑，相应的，终端需要确定第一音视频对和第二音视频对。在一些实施例中，终端确定该第一音视频对和该第二音视频对的实现方式包括以下步骤A1-A3：

A1：终端基于该视频内容切换时的第一时间点和该背景音频特征变化时的第二时间点，确定待合成的多个音视频对。

其中，每个音视频对包括第二视频段和目标背景音频段，该目标背景音频段包括至少一个节拍。

A2：终端对于每个音视频对，获取该音视频对的卡点匹配信息。

其中，终端获取该第二视频段和该目标背景音频段之间的卡点匹配信息的实现方式包括：对于第二视频段，终端确定待与该第二视频段合成的目标背景音频段，基于该第二视频段两端的第一时间点是否与该目标背景音频段两端的第二时间点匹配，确定该第二视频段与该目标背景音频段的时间匹配情况。

A3：终端响应于该音视频对的卡点匹配信息用于表示该音视频对在切换时的时间点不匹配，将该音视频对确定为该第一音视频对。

A4：终端响应于该音视频对的卡点匹配信息用于表示该音视频对在切换时的时间点匹配，将该音视频对确定为该第二音视频对。

在本公开实施例中，通过第二视频段与目标背景音频段是否匹配来确定两个音视频对，从而仅需对需要调整的音视频对中的视频段或者背景音频段进行调整即可，无需对时间匹配的视频段和背景音频段调整，进而提高了调整操作的精确性。

在步骤307中，终端对该第一音视频对进行调整，得到第三音视频对，将该第三视频对进行合成，得到第二视频组。

其中，终端对该第一音视频对进行调整的实现方式包括：终端对该第一音视频对中的视频段进行调整，得到该第三音视频对；或者，对该第一音视频对中的背景音频段进行调整，得到该第三音视频对。

相应的，终端通过对该第一音视频对中的第一视频组段进行调整，得到该第二视频组的实现方式包括：终端基于该视频内容切换时的第一时间点和该第一背景音频的背景音频特征变化时的第二时间点，对该第一音视频对中的第一视频组段进行调整，得到第二视频组段；终端将该第一节拍和该第二视频组段进行合成，得到该第二视频组。

在一些实施例中，终端对该第一音视频对中的视频段进行调整，得到该第三音视频对的实现方式包括以下步骤A1-A4：

A1：终端对于该第一音视频对中的第一视频组段和第一背景音频段，基于该视频内容切换时的第一时间点，确定该第一视频组段的第一时长，以及，基于该背景音频特征变化时的第二时间点，确定该第一背景音频段的第二时长，该第一背景音频段包括至少一个节拍。

其中，终端确定该第一视频组段的第一时长的实现方式包括：终端确定该第一视频组段两端的第一时间点，将该两个第一时间点的差值，作为该第一时长。相应的，终端确定该第一背景音频段的第二时长的实现方式包括：终端确定该第一背景音频段两端的第二时间点，将该两个第二时间点的差值，作为该第二时长。

A2：终端响应于该第一时长大于该第二时长，对该第一视频组段进行剪切或者时间压缩处理，得到第二视频段。

其中，终端确定该第一时长与该第二时长的差值，基于该差值，对该第一视频组段进行剪切或者时间压缩处理，使得第二视频段的时长与该第二时长相同。例如，该差值为0.1s，终端从第一视频组段的头部剪切掉0.1s的视频内容，得到第二视频段。

A3：终端响应于该第一时长小于该第二时长，对该第一视频组段进行时间增长处理，得到第二视频段。

其中，终端确定该第一时长与该第二时长的差值，基于该差值，对该第一视频组段进行时间增长处理，使得第二视频段的时长与该第二时长相同。例如，终端将第一视频组段进行慢速处理，得到第二视频段。

A4：终端将该第二视频段和该第一背景音频段组成该第三音视频对，该第二视频段的时长与该第二时长相同。

在本步骤中，终端通过对该第一音视频对中的第一背景音频段进行调整，得到该第二视频组的实现方式包括：终端基于该视频内容切换时的第一时间点和该第一背景音频的背景音频特征变化时的第二时间点，对该第一音视频对中的第一背景音频段进行调整，得到第二背景音频段；终端将该第二背景音频段和该第一第二视频段进行合成，得到该第二视频组。

在本公开实施例中，通过对该第一音视频对中的第一视频组段进行调整，使得调整后的第一视频组段与第一背景音频段的时间匹配，进而实现调整后的第一视频组段与第一背景音频段的对齐，从而提高视频合成的精确性。

在一些实施例中，终端对该第一音视频对中的背景音频段进行调整，得到该第三音视频对的实现方式包括以下步骤B1-B4：

B1：终端对于该第一音视频对中的第一视频组段和第一背景音频段，基于该视频内容切换时的第一时间点，确定该第一视频组段的第一时长，以及，基于该背景音频特征变化时的第二时间点，确定该第一背景音频段的第二时长，该第一背景音频段包括至少一个节拍。

本步骤与步骤A1相似，在此不再赘述。

B2：终端响应于该第一时长大于该第二时长，对该第一背景音频段进行时间增长处理，得到第二背景音频段。

本步骤与步骤A2相似，在此不再赘述。

B3：终端响应于该第一时长小于该第二时长，对该第一背景音频段进行时间压缩处理，得到第二背景音频段。

本步骤与步骤A3相似，在此不再赘述。

B4：终端将该第一视频组段和该第二背景音频段组成该第三音视频对，该第二背景音频段的时长与该第一时长相同。

本步骤与步骤A4相似，在此不再赘述。

在本公开实施例中，通过对该第一音视频对中的第一背景音频段的时长进行调整，使得调整后的第一视频组段与第一背景音频段的时间匹配，进而实现无需对用户上传或者拍摄的第一视频组进行调整，尽可能保留了视频的完整性。

在本公开实施例中，通过对该第一音视频对中的第一视频组段或者第一背景音频段的时长进行调整，使得调整后的第一视频组段与第一背景音频段的时间匹配，进而实现调整后的第一视频组段与第一背景音频段的对齐，从而提高视频合成的精确性。

在步骤308中，终端将该第二音视频对进行合成，得到第三视频组。

在本步骤中，终端将第二背景音频对中的切换时间点匹配的视频段和与该视频段匹配的背景音频段进行合成，得到第三视频组，即具有背景音乐的视频。

在步骤309中，终端将该第二视频组与该第三视频组进行拼接，得到该目标视频。

在本步骤中，终端将调整得到的第二视频组和第三视频组进行拼接得到该目标视频。在一些实施例中，该第二视频组中包括多个第二视频组段，该多个第二视频组段的视频内容可能是连续的，也可能是不连续的；相应的，该第三视频组中的第二视频段可能是连续的，也可能是不连续的。终端基于第一视频组中的多个视频段的排列顺序，确定该第二视频组段与该第三视频组段的排列顺序。

在本公开实施例中，通过将需要进行调整的音视频对和不需要进行调整的音视频对区分开，从而仅需对需要进行调整的音视频对进行调整即可，进而无需用户手动对音视频进行调整，节省了调整的操作时间，进而提高了视频与背景音频的合成效率。

图7是根据一示例性实施例示出的一种视频合成装置70框图。参照图7，该装置70包括展示单元701，第一确定单元702，第二确定单元703和合成单元704。

展示单元701，被配置为执行展示视频编辑界面，该视频编辑界面包括待添加背景音频的第一视频组，该第一视频组包括至少一个视频片段；

第一确定单元702，被配置为执行确定该第一视频组的视频内容切换时的第一时间点；

第二确定单元703，被配置为执行基于该第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点，确定该第一视频组匹配的至少一个背景音频；

合成单元704，被配置为执行在该视频编辑界面展示该至少一个背景音频，将第一背景音频和该第一视频组进行合成，得到目标视频，该第一背景音频为该至少一个背景音频中被选择的背景音频。

在一些实施例中，该第二确定单元703包括：

第一确定子单元，被配置为执行对于第一背景音频集合中的每个背景音频，基于该视频内容切换时的第一时间点和该背景音频的音频特征变化时的第二时间点，确定该第一视频组与该背景音频之间的匹配度；

选择子单元，被配置为执行基于该第一视频组与该背景音频之间的匹配度，从该第一背景音频集合中选择匹配度满足条件的至少一个背景音频。

在一些实施例中，该第一确定子单元，被配置为执行基于该视频内容切换时的第一时间点和该背景音频的音频特征变化时的第二时间点，确定目标时间点的第一数量，该目标时间点为第一时间点与第二时间点匹配的时间点；基于该第一数量和第二数量，确定该第一视频组与该背景音频之间的匹配度，该第二数量为该视频内容切换时的第一时间点包括的第一时间点的数量。

在一些实施例中，该装置还包括：

识别单元，被配置为执行对该第一视频组进行图像识别，得到该第一视频组的视频风格信息；

选择单元，被配置为执行基于该视频风格信息，从第二背景音频集合中选择与该视频风格对应的背景音频；

组合单元，被配置为执行将选择的背景音频组成该第一背景音频集合。

在一些实施例中，该第二确定单元703，还被配置为执行向服务器发送音频获取请求，该音频获取请求携带该视频内容切换时的第一时间点，用于该服务器基于该视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点，确定该第一视频组匹配的至少一个背景音频；接收该服务器的该至少一个背景音频。

在一些实施例中，该合成单元704包括：

第二确定子单元，被配置为执行基于该视频内容切换时的第一时间点和该音频特征变化时的第二时间点，确定第一音视频对和第二音视频对，该第一音视频对为切换时的时间点不匹配的音视频对，该第二音视频对为切换时的时间点匹配的音视频对；

第一合成子单元，被配置为执行对该第一音视频对进行调整，得到第三音视频对，将该第三视频对进行合成，得到第二视频组；

第二合成子单元，被配置为执行将该第二音视频对进行合成，得到第三视频组；

拼接子单元，被配置为执行将该第二视频组和该第三视频组进行拼接，得到该目标视频。

在一些实施例中，该第一合成子单元，被配置为执行对该第一音视频对中的视频段进行调整，得到该第三音视频对；或者，对该第一音视频对中的背景音频段进行调整，得到该第三音视频对。

在一些实施例中，该第一合成子单元，被配置为执行对于该第一音视频对中的第一视频段和第一背景音频段，基于该视频内容切换时的第一时间点，确定该第一视频段的第一时长，以及，基于该音频特征变化时的第二时间点，确定该第一背景音频段的第二时长，该第一背景音频段包括至少一个节拍；响应于该第一时长大于该第二时长，对该第一视频段进行剪切或者时间压缩处理，得到第二视频段；响应于该第一时长小于该第二时长，对该第一视频段进行时间增长处理，得到第二视频段；将该第二视频段和该第一背景音频段组成该第三音视频对，该第二视频段的时长与该第二时长相同。

在一些实施例中，该第一合成子单元，被配置为执行对于该第一音视频对中的第一视频段和第一背景音频段，基于该视频内容切换时的第一时间点，确定该第一视频段的第一时长，以及，基于该音频特征变化时的第二时间点，确定该第一背景音频段的第二时长，该第一背景音频段包括至少一个节拍；响应于该第一时长大于该第二时长，对该第一背景音频段进行时间增长处理，得到第二背景音频段；响应于该第一时长小于该第二时长，对该第一背景音频段进行时间压缩处理，得到第二背景音频段；将该第一视频段和该第二背景音频段组成该第三音视频对，该第二背景音频段的时长与该第一时长相同。

在一些实施例中，该第二确定子单元，被配置为执行基于该视频内容切换时的第一时间点和该音频特征变化时的第二时间点，确定待合成的多个音视频对；对于每个音视频对，获取该音视频对的卡点匹配信息；响应于该音视频对的卡点匹配信息用于表示该音视频对在切换时的时间点不匹配，将该音视频对确定为该第一音视频对；响应于该音视频对的卡点匹配信息用于表示该音视频对在切换时的时间点匹配，将该音视频对确定为该第二音视频对。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种终端10的框图。在一些实施例中，该终端10可以为：智能手机、平板电脑、笔记本电脑或台式电脑等。终端10还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端10包括有：处理器101和存储器102。

在一些实施例中，处理器101包括一个或多个处理核心，比如4核心处理器、8核心处理器等。在一些实施例中，处理器101采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-ProgrammableGateArray，现场可编程门阵列)、PLA(Programmable LogicArray，可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中，处理器101也包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器101集成有GPU(Graphics ProcessingUnit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器101还包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

在一些实施例中，存储器102包括一个或多个计算机可读存储介质，该计算机可读存储介质是非暂态的。在一些实施例中，存储器102还包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器101所执行以实现本公开中方法实施例提供的视频合成方法。

在一些实施例中，终端10还可选包括有：外围设备接口103和至少一个外围设备。在一些实施例中，处理器101、存储器102和外围设备接口103之间通过总线或信号线相连。在一些实施例中，各个外围设备通过总线、信号线或电路板与外围设备接口103相连。具体地，外围设备包括：射频电路104、显示屏105、摄像头组件106、音频电路107、定位组件108和电源109中的至少一种。

外围设备接口103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器101和存储器102。在一些实施例中，处理器101、存储器102和外围设备接口103被集成在同一芯片或电路板上；在一些其他实施例中，处理器101、存储器102和外围设备接口103中的任意一个或两个在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。在一些实施例中，射频电路104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。在一些实施例中，射频电路104通过至少一种无线通信协议来与其他终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路104还包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏105用于显示UI(UserInterface，用户界面)。在一些实施例中，该UI包括图形、文本、图标、视频及其他们的任意组合。当显示屏105是触摸显示屏时，显示屏105还具有采集在显示屏105的表面或表面上方的触摸信号的能力。在一些实施例中，该触摸信号作为控制信号输入至处理器101进行处理。此时，显示屏105还用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏105为一个，设置在终端10的前面板；在另一些实施例中，显示屏105为至少两个，分别设置在终端10的不同表面或呈折叠设计；在另一些实施例中，显示屏105是柔性显示屏，设置在终端10的弯曲表面上或折叠面上。甚至，显示屏105还设置成非矩形的不规则图形，也即异形屏。在一些实施例中，显示屏105采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件106用于采集图像或视频。在一些实施例中，摄像头组件106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其他融合拍摄功能。在一些实施例中，摄像头组件106还包括闪光灯。在一些实施例中，闪光灯是单色温闪光灯，在一些实施例中，闪光灯是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，用于不同色温下的光线补偿。

在一些实施例中，音频电路107包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器101进行处理，或者输入至射频电路104以实现语音通信。出于立体声采集或降噪的目的，在一些实施例中，麦克风为多个，分别设置在终端10的不同部位。在一些实施例中，麦克风是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器101或射频电路104的电信号转换为声波。在一些实施例中，扬声器是传统的薄膜扬声器，在一些实施例中，扬声器以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅能够将电信号转换为人类可听见的声波，也能够将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路107还包括耳机插孔。

定位组件108用于定位终端10的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。在一些实施例中，定位组件107是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源109用于为终端10中的各个组件进行供电。在一些实施例中，电源109是交流电、直流电、一次性电池或可充电电池。当电源109包括可充电电池时，该可充电电池是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还用于支持快充技术。

在一些实施例中，终端10还包括有一个或多个传感器110。该一个或多个传感器110包括但不限于：加速度传感器111、陀螺仪传感器112、压力传感器113、指纹传感器114、光学传感器115以及接近传感器116。

在一些实施例中，加速度传感器111检测以终端10建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器111用于检测重力加速度在三个坐标轴上的分量。在一些实施例中，处理器101根据加速度传感器111采集的重力加速度信号，控制显示屏105以横向视图或纵向视图进行用户界面的显示。在一些实施例中，加速度传感器111还用于游戏或者用户的运动数据的采集。

在一些实施例中，陀螺仪传感器112检测终端10的机体方向及转动角度，陀螺仪传感器112与加速度传感器111协同采集用户对终端10的3D动作。处理器101根据陀螺仪传感器112采集的数据，能够实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

在一些实施例中，压力传感器113设置在终端10的侧边框和/或显示屏105的下层。当压力传感器113设置在终端10的侧边框时，能够检测用户对终端10的握持信号，由处理器101根据压力传感器113采集的握持信号进行左右手识别或快捷操作。当压力传感器113设置在显示屏105的下层时，由处理器101根据用户对显示屏105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器114用于采集用户的指纹，由处理器101根据指纹传感器114采集到的指纹识别用户的身份，或者，由指纹传感器114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器101授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。在一些实施例中，指纹传感器114被设置在终端10的正面、背面或侧面。当终端10上设置有物理按键或厂商Logo时，指纹传感器114与物理按键或厂商Logo集成在一起。

光学传感器115用于采集环境光强度。在一个实施例中，处理器101根据光学传感器115采集的环境光强度，控制显示屏105的显示亮度。具体地，当环境光强度较高时，调高显示屏105的显示亮度；当环境光强度较低时，调低显示屏105的显示亮度。在另一个实施例中，处理器101还根据光学传感器115采集的环境光强度，动态调整摄像头组件106的拍摄参数。

接近传感器116，也称距离传感器，通常设置在终端10的前面板。接近传感器116用于采集用户与终端10的正面之间的距离。在一个实施例中，当接近传感器116检测到用户与终端10的正面之间的距离逐渐变小时，由处理器101控制显示屏105从亮屏状态切换为息屏状态；当接近传感器116检测到用户与终端10的正面之间的距离逐渐变大时，由处理器101控制显示屏105从息屏状态切换为亮屏状态。

本领域技术人员能够理解，图8中示出的结构并不构成对终端10的限定，能够包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，当该计算机可读存储介质中的指令由终端的处理器执行时，使得该终端能够执行上述实施例中的视频合成方法。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，当该计算机程序/指令被处理器执行时实现上述实施例中的视频合成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频合成方法，其特征在于，包括：

确定所述第一视频组的视频内容切换时的第一时间点，所述第一时间点包括片段间视频内容切换的时间点和片段内视频内容切换的时间点中的至少一种，所述片段内视频内容切换的时间点包括不同场景的转场时间点和不同对象的切换时间点中的至少一种；

基于所述第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点之间的差值，确定所述第一视频组匹配的至少一个背景音频；

2.根据权利要求1所述的视频合成方法，其特征在于，所述基于所述第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点之间的差值，确定所述第一视频组匹配的至少一个背景音频包括：

对于第一背景音频集合中的每个背景音频，基于所述视频内容切换时的第一时间点和所述背景音频的音频特征变化时的第二时间点之间的差值，确定所述第一视频组与所述背景音频之间的匹配度；

3.根据权利要求2所述的视频合成方法，其特征在于，所述基于所述视频内容切换时的第一时间点和所述背景音频的音频特征变化时的第二时间点之间的差值，确定所述第一视频组与所述背景音频之间的匹配度包括：

基于所述视频内容切换时的第一时间点和所述背景音频的音频特征变化时的第二时间点之间的差值，确定目标时间点的第一数量，所述目标时间点为第一时间点与第二时间点匹配的时间点；

4.根据权利要求2所述的视频合成方法，其特征在于，所述方法还包括：

将选择的背景音频组成所述第一背景音频集合。

5.根据权利要求1所述的视频合成方法，其特征在于，所述基于所述第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点之间的差值，确定所述第一视频组匹配的至少一个背景音频还包括：

向服务器发送音频获取请求，所述音频获取请求携带所述视频内容切换时的第一时间点，用于所述服务器基于所述视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点之间的差值，确定所述第一视频组匹配的至少一个背景音频；

接收所述服务器的所述至少一个背景音频。

6.根据权利要求1所述的视频合成方法，其特征在于，所述将第一背景音频和所述第一视频组进行合成，得到目标视频包括：

对所述第一音视频对进行调整，得到第三音视频对，将所述第三音视频对进行合成，得到第二视频组；

将所述第二音视频对进行合成，得到第三视频组；

7.根据权利要求6所述的视频合成方法，其特征在于，所述对所述第一音视频对进行调整，得到第三音视频对包括：

8.根据权利要求7所述的视频合成方法，其特征在于，所述对所述第一音视频对中的视频段进行调整，得到所述第三音视频对包括：

9.根据权利要求7所述的视频合成方法，其特征在于，所述对所述第一音视频对中的背景音频段进行调整，得到所述第三音视频对包括：

10.根据权利要求6所述的视频合成方法，其特征在于，所述基于所述视频内容切换时的第一时间点和所述音频特征变化时的第二时间点，确定第一音视频对和第二音视频对包括：

对于每个音视频对，获取所述音视频对的卡点匹配信息；

11.一种视频合成装置，其特征在于，包括：

第一确定单元，被配置为执行确定所述第一视频组的视频内容切换时的第一时间点，所述第一时间点包括片段间视频内容切换的时间点和片段内视频内容切换的时间点中的至少一种，所述片段内视频内容切换的时间点包括不同场景的转场时间点和不同对象的切换时间点中的至少一种；

第二确定单元，被配置为执行基于所述第一视频组的视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点之间的差值，确定所述第一视频组匹配的至少一个背景音频；

12.根据权利要求11所述的视频合成装置，其特征在于，所述第二确定单元包括：

第一确定子单元，被配置为执行对于第一背景音频集合中的每个背景音频，基于所述视频内容切换时的第一时间点和所述背景音频的音频特征变化时的第二时间点之间的差值，确定所述第一视频组与所述背景音频之间的匹配度；

13.根据权利要求12所述的视频合成装置，其特征在于，所述第一确定子单元，被配置为执行基于所述视频内容切换时的第一时间点和所述背景音频的音频特征变化时的第二时间点之间的差值，确定目标时间点的第一数量，所述目标时间点为第一时间点与第二时间点匹配的时间点；基于所述第一数量和第二数量，确定所述第一视频组与所述背景音频之间的匹配度，所述第二数量为所述视频内容切换时的第一时间点包括的第一时间点的数量。

14.根据权利要求12所述的视频合成装置，其特征在于，所述装置还包括：

15.根据权利要求11所述的视频合成装置，其特征在于，所述第二确定单元，还被配置为执行向服务器发送音频获取请求，所述音频获取请求携带所述视频内容切换时的第一时间点，用于所述服务器基于所述视频内容切换时的第一时间点和第一背景音频集合中的每个背景音频的音频特征变化时的第二时间点之间的差值，确定所述第一视频组匹配的至少一个背景音频；接收所述服务器的所述至少一个背景音频。

16.根据权利要求11所述的视频合成装置，其特征在于，所述合成单元包括：

第一合成子单元，被配置为执行对所述第一音视频对进行调整，得到第三音视频对，将所述第三音视频对进行合成，得到第二视频组；

17.根据权利要求16所述的视频合成装置，其特征在于，所述第一合成子单元，被配置为执行对所述第一音视频对中的视频段进行调整，得到所述第三音视频对；或者，对所述第一音视频对中的背景音频段进行调整，得到所述第三音视频对。

18.根据权利要求17所述的视频合成装置，其特征在于，所述第一合成子单元，被配置为执行对于所述第一音视频对中的第一视频段和第一背景音频段，基于所述视频内容切换时的第一时间点，确定所述第一视频段的第一时长，以及，基于所述音频特征变化时的第二时间点，确定所述第一背景音频段的第二时长，所述第一背景音频段包括至少一个节拍；响应于所述第一时长大于所述第二时长，对所述第一视频段进行剪切或者时间压缩处理，得到第二视频段；响应于所述第一时长小于所述第二时长，对所述第一视频段进行时间增长处理，得到第二视频段；将所述第二视频段和所述第一背景音频段组成所述第三音视频对，所述第二视频段的时长与所述第二时长相同。

19.根据权利要求17所述的视频合成装置，其特征在于，所述第一合成子单元，被配置为执行对于所述第一音视频对中的第一视频段和第一背景音频段，基于所述视频内容切换时的第一时间点，确定所述第一视频段的第一时长，以及，基于所述音频特征变化时的第二时间点，确定所述第一背景音频段的第二时长，所述第一背景音频段包括至少一个节拍；响应于所述第一时长大于所述第二时长，对所述第一背景音频段进行时间增长处理，得到第二背景音频段；响应于所述第一时长小于所述第二时长，对所述第一背景音频段进行时间压缩处理，得到第二背景音频段；将所述第一视频段和所述第二背景音频段组成所述第三音视频对，所述第二背景音频段的时长与所述第一时长相同。

20.根据权利要求16所述的视频合成装置，其特征在于，所述第二确定子单元，被配置为执行基于所述视频内容切换时的第一时间点和所述音频特征变化时的第二时间点，确定待合成的多个音视频对；对于每个音视频对，获取所述音视频对的卡点匹配信息；响应于所述音视频对的卡点匹配信息用于表示所述音视频对在切换时的时间点不匹配，将所述音视频对确定为所述第一音视频对；响应于所述音视频对的卡点匹配信息用于表示所述音视频对在切换时的时间点匹配，将所述音视频对确定为所述第二音视频对。

21.一种终端，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至10中任一项所述的视频合成方法。

22.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由终端的处理器执行时，使得所述终端能够执行如权利要求1至10中任一项所述的视频合成方法。