CN111324773A

CN111324773A - 一种背景音乐构建方法、装置、电子设备和存储介质

Info

Publication number: CN111324773A
Application number: CN202010088954.8A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2020-06-23

Abstract

本申请公开了一种背景音乐构建方法、装置、电子设备和存储介质；本申请可以确定至少一个具有背景音乐的参考视频、以及需要构建背景音乐的目标视频，获取所述目标视频和所述参考视频之间的相似度，基于所述目标视频和所述参考视频之间的相似度，从所述至少一个参考视频中确定至少一个相似视频，获取相似视频的背景音乐，并将所述至少一个相似视频的背景音乐作为候选背景音乐，基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐；本申请可以提升获取目标视频的背景音乐的效率，同时可以提高所获取到的目标视频的背景音乐与目标视频的相关度，使背景音乐匹配的准确性更高，视频展示效果更好。

Description

一种背景音乐构建方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种背景音乐构建方法、装置、电子设备和存储介质。

背景技术

随着信息技术的发展，尤其是互联网的迅速发展，网络视频占的比重越来越高，为了使视频更具有吸引力，一般会为视频添加一个与该视频主题相符的背景音乐，好的背景音乐能够提升用户对视频的兴趣，进而可以提高视频的播放量。

为视频添加背景音乐的技术具体可以针对需要添加背景音乐的视频的内容信息，如视频主题等，从背景音乐库中搜索与该视频相符的背景音乐，作为该视频的背景音乐。但是在目前的相关技术中，一般将视频与背景音乐库中的各个背景音乐直接进行对比，来获取最符合该视频主题的背景音乐，这样获取背景音乐的效率较低，且获取到的背景音乐与视频的相关度较弱。

发明内容

本申请实施例提供一种背景音乐构建方法、装置、电子设备和存储介质，有利于提升构建目标视频的背景音乐的效率，同时使背景音乐匹配的准确性更高，目标视频展示效果更好。

本申请实施例提供一种背景音乐构建方法，包括：

确定至少一个具有背景音乐的参考视频、以及需要构建背景音乐的目标视频；

获取所述目标视频和所述参考视频之间的相似度；

基于所述目标视频和所述参考视频之间的相似度，从所述至少一个参考视频中确定至少一个相似视频；

获取相似视频的背景音乐，并将所述至少一个相似视频的背景音乐作为候选背景音乐；

基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐。

相应的，本申请实施例提供一种背景音乐构建装置，包括：

第一确定单元，用于确定至少一个具有背景音乐的参考视频、以及需要构建背景音乐的目标视频；

第一获取单元，用于获取所述目标视频和所述参考视频之间的相似度；

第二确定单元，用于基于所述目标视频和所述参考视频之间的相似度，从所述至少一个参考视频中确定至少一个相似视频；

第二获取单元，用于获取相似视频的背景音乐，并将所述至少一个相似视频的背景音乐作为候选背景音乐；

第三确定单元，用于基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐。

可选的，在本申请的一些实施例中，所述第一获取单元可以包括第一获取子单元、第一提取子单元、第二提取子单元和第一计算子单元，如下：

所述第一获取子单元，用于获取所述目标视频在至少一个模态下的视频内容信息；

第一提取子单元，用于对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息；

第二提取子单元，用于对所述参考视频在至少一个模态下的视频内容信息进行语义提取，得到所述参考视频在至少一个模态下的语义特征信息；

第一计算子单元，用于基于所述目标视频和所述参考视频在至少一个模态下的语义特征信息，计算所述目标视频和所述参考视频之间的相似度。

可选的，在本申请的一些实施例中，所述第一计算子单元具体可以用于计算所述目标视频在至少一个模态下的语义特征信息和所述参考视频在至少一个模态下的语义特征信息之间的语义相似度；将所述语义相似度作为所述目标视频和所述参考视频之间的相似度。

可选的，在本申请的一些实施例中，所述至少一个模态包括文本模态和图像模态；所述第一获取子单元具体可以对所述目标视频进行文本提取处理，得到所述目标视频的文本序列，所述文本序列为所述目标视频在文本模态下的视频内容信息；对所述目标视频进行图像提取处理，得到所述目标视频的图像序列，所述图像序列为所述目标视频在图像模态下的视频内容信息。

可选的，在本申请的一些实施例中，所述第一提取子单元具体可以对所述图像序列中的各个图像进行语义提取，得到所述图像序列中的各个图像的图像语义特征信息；基于各个图像的前后图像的图像语义特征信息，对所述各个图像的图像语义特征信息进行处理；将处理后的各个图像的图像语义特征信息进行融合，得到所述目标视频在图像模态下的语义特征信息；对所述文本序列进行语义提取，得到所述目标视频在文本模态下的语义特征信息；将所述目标视频在图像模态下的语义特征信息和在文本模态下的语义特征信息进行融合，得到所述目标视频在至少一个模态下的语义特征信息。

可选的，在本申请的一些实施例中，所述第一获取单元还可以包括创建子单元，如下：

所述创建子单元，用于基于所述参考视频在至少一个模态下的语义特征信息，生成所述参考视频的检索索引；基于所述检索索引，创建检索索引库。

其中，一些实施例中，所述第一计算子单元可以用于通过所述检索索引库，基于所述目标视频在至少一个模态下的语义特征信息和所述参考视频的检索索引，计算所述目标视频和所述参考视频之间的相似度。

可选的，在本申请的一些实施例中，所述第三确定单元可以包括第三提取子单元、第二获取子单元、第二计算子单元和确定子单元，如下：

所述第三提取子单元，用于对所述候选背景音乐进行语义提取，得到所述候选背景音乐的音频语义特征信息；

第二获取子单元，用于获取所述目标视频在至少一个模态下的语义特征信息；

第二计算子单元，用于基于所述候选背景音乐的音频语义特征信息和所述目标视频在至少一个模态下的语义特征信息，计算所述候选背景音乐和所述目标视频之间的相似度；

确定子单元，用于基于所述相似度，从所述候选背景音乐中确定所述目标视频的背景音乐。

可选的，在本申请的一些实施例中，所述第三提取子单元具体可以用于获取所述候选背景音乐的音频帧序列；对所述音频帧序列中的各个音频帧进行语义提取，得到各个音频帧的音频语义特征信息；基于各个音频帧的前后音频帧的音频语义特征信息，对所述各个音频帧的音频语义特征信息进行处理；将处理后的各个音频帧的音频语义特征信息进行融合，得到所述候选背景音乐的音频语义特征信息。

可选的，在本申请的一些实施例中，所述第三提取子单元可以通过背景音乐匹配模型，对所述候选背景音乐进行语义提取，得到所述候选背景音乐的音频语义特征信息。

可选的，在本申请的一些实施例中，所述第三确定单元还可以包括训练子单元，如下：

所述训练子单元，用于获取训练数据，所述训练数据包括样本视频对应的正样本和负样本，所述正样本为与所述样本视频的期望相似度大于第一预设相似度的背景音乐，所述负样本为与所述样本视频的期望相似度小于第二预设相似度的背景音乐；通过背景音乐匹配模型，对所述样本视频和所述背景音乐进行语义提取，得到所述样本视频的语义特征信息和所述背景音乐的音频语义特征信息；基于所述样本视频的语义特征信息和所述背景音乐的音频语义特征信息，计算所述样本视频和所述背景音乐之间的实际相似度；基于所述背景音乐中的正样本对应的实际相似度和期望相似度，以及所述背景音乐中负样本对应的实际相似度和期望相似度，调整所述背景音乐匹配模型的参数。

可选的，在本申请的一些实施例中，所述第一确定单元具体可以包括确定需要构建背景音乐的目标视频；确定至少一个待选视频，并获取所述待选视频的用户关注度信息；根据所述用户关注度信息，从至少一个待选视频中，确定至少一个具有背景音乐的参考视频。

本申请实施例提供的一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器加载所述指令，以执行本申请实施例提供的背景音乐构建方法中的步骤。

此外，本申请实施例还提供一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例提供的背景音乐构建方法中的步骤。

本申请实施例提供了一种背景音乐构建方法、装置、电子设备和存储介质，可以确定至少一个具有背景音乐的参考视频、以及需要构建背景音乐的目标视频；获取所述目标视频和所述参考视频之间的相似度；基于所述目标视频和所述参考视频之间的相似度，从所述至少一个参考视频中确定至少一个相似视频；获取相似视频的背景音乐，并将所述至少一个相似视频的背景音乐作为候选背景音乐；基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐。本申请可以提升获取目标视频的背景音乐的效率，同时可以提高所获取到的目标视频的背景音乐与目标视频的相关度，使背景音乐匹配的准确性更高，视频展示效果更好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的背景音乐构建方法的场景示意图；

图1b是本申请实施例提供的背景音乐构建方法的流程图；

图1c是本申请实施例提供的背景音乐构建方法的模型结构示意图；

图1d是本申请实施例提供的背景音乐构建方法的另一模型结构示意图；

图2是本申请实施例提供的背景音乐构建方法的另一流程图；

图3a是本申请实施例提供的背景音乐构建装置的结构示意图；

图3b是本申请实施例提供的背景音乐构建装置的另一结构示意图；

图3c是本申请实施例提供的背景音乐构建装置的另一结构示意图；

图3d是本申请实施例提供的背景音乐构建装置的另一结构示意图；

图3e是本申请实施例提供的背景音乐构建装置的另一结构示意图；

图4是本申请实施例提供的电子设备的结构示意图；

图5是本申请实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图；

图6是本申请实施例提供的区块结构的一个可选的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种背景音乐构建方法、装置、电子设备和存储介质。具体地，本申请实施例提供适用于电子设备的背景音乐构建装置，该电子设备可以为终端或服务器等设备。

可以理解的是，本实施例的背景音乐构建方法可以是在终端上执行的，也可以是在服务器上执行的，还可以是由终端和服务器共同执行的。

参考图1a，以终端和服务器共同执行背景音乐构建方法为例。本申请实施例提供的背景音乐构建系统包括终端10和服务器11等；终端10与服务器11之间通过网络连接，比如，通过有线或无线网络连接等，其中，背景音乐构建装置可以集成在服务器中。

其中，终端10可以通过输入模块获取需要构建背景音乐的目标视频，将该目标视频发送给服务器11，以便于服务器11在参考视频中搜索与目标视频相似的相似视频，将相似视频的背景音乐作为候选背景音乐，并从所述候选背景音乐中确定目标音乐的背景音乐，再返回目标视频的背景音乐供终端用户进行选择。其中，终端10可以包括手机、智能电视、平板电脑、笔记本电脑、或个人计算机(PC，Personal Computer)等。终端10上还可以设置客户端，该客户端可以是应用程序客户端或者浏览器客户端等等，用于供用户选取和目标视频匹配的背景音乐。

服务器11，可以用于：确定至少一个具有背景音乐的参考视频、以及需要构建背景音乐的目标视频；获取所述目标视频和所述参考视频之间的相似度；基于所述目标视频和所述参考视频之间的相似度，从所述至少一个参考视频中确定至少一个相似视频；获取相似视频的背景音乐，并将所述至少一个相似视频的背景音乐作为候选背景音乐；基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐，再将确定好的所述目标视频的背景音乐发送给终端10。其中，服务器11可以是单台服务器，也可以是由多个服务器组成的服务器集群。

上述服务器11确定所述目标视频的背景音乐的过程，也可以由终端10执行。

本申请实施例提供的背景音乐构建方法涉及人工智能(AI,ArtificialIntellegence)领域中的自然语言处理(NLP，Nature Language processing)和视频内容理解(VideoContent Understanding)。本申请实施例可以获取与需要构建背景音乐的目标视频相似的相似视频，再从相似视频的背景音乐中确定目标视频的背景音乐，因此，有利于提升获取目标视频的背景音乐的效率，同时可以提高所获取到的目标视频的背景音乐与目标视频的相关度，使背景音乐匹配的准确性更高，视频展示效果更好。

其中，人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。

其中，自然语言处理(NLP，Nature Language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

其中，视频内容理解(Video Content Understanding)是通过一系列的AI算法，将视频解析为结构化的、机器可读的意图与词槽信息，它的研究影响着人脸识别、动作识别、物体检测、媒体制作、视频推荐等方面。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例将从背景音乐构建装置的角度进行描述，该背景音乐构建装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

本申请实施例的背景音乐构建方法可以应用于各种需要构建背景音乐的场景中，例如，当用户在短视频平台发布视频时，可以通过本实施例提供的背景音乐构建方法，来为视频添加背景音乐，通过该方法能够更快地获取到与该视频相关度高的背景音乐。

如图1b所示，该背景音乐构建方法的具体流程如下所述，该背景音乐构建方法可以由服务器执行，也可以由终端来执行，本实施例对此不作限制。

101、确定至少一个具有背景音乐的参考视频、以及需要构建背景音乐的目标视频。

本实施例中，目标视频为需要构建背景音乐的视频，具体可以为需要添加一个与目标视频主题相符的背景音乐的视频。目标视频的视频类型不限，它可以是各种类型的视频，例如新闻类视频，历史向视频或者综艺视频等等。

其中，参考视频可以为视频指标较优的视频，即可以为用户关注度较高的视频。一些实施例中，可以将用户关注度较高的视频作为参考视频，存储到参考视频库中，则参考视频库中视频的背景音乐可认为是质量较高的背景音乐；当需要获取目标视频的背景音乐时，可以从参考视频库中搜索与目标视频相似的视频，将相似视频的背景音乐作为目标视频的候选背景音乐，再从候选背景音乐中确定目标视频的背景音乐。

可选的，步骤“确定至少一个具有背景音乐的参考视频、以及需要构建背景音乐的目标视频”，具体可以包括：

确定需要构建背景音乐的目标视频；

确定至少一个待选视频，并获取所述待选视频的用户关注度信息；

根据所述用户关注度信息，从至少一个待选视频中，确定至少一个具有背景音乐的参考视频。

其中，待选视频可以为视频库中的视频。用户关注度信息可以包括视频的弹幕数量、评论数、收藏数和播放情况信息等等。播放情况信息可以包括播放量、播放率以及播放完成率等。

其中，步骤“根据所述用户关注度信息，从至少一个待选视频中，确定至少一个具有背景音乐的参考视频”，具体可以包括：

将用户关注度信息满足预设条件的待选视频确定为参考视频，且该参考视频具有背景音乐。

本实施例中的预设条件具体可以根据实际需要进行设置，本实施例对此没有限制。例如，当用户关注度信息为播放情况信息时，预设条件具体可以为播放率大于10％和播放完成率大于20％，即只选取播放率大于10％和播放完成率大于20％的待选视频作为参考视频。又比如，当用户关注度信息为收藏数时，预设条件可以为收藏数超过1万，即将收藏数超过1万的待选视频作为参考视频。可选的，也可以综合各个维度的用户关注度信息，来选取参考视频。如将同时满足收藏数超过1万和评论数超过2千的待选视频作为参考视频。

102、获取所述目标视频和所述参考视频之间的相似度。

本实施例中，步骤“获取所述目标视频和所述参考视频之间的相似度”，可以包括：

获取所述目标视频在至少一个模态下的视频内容信息；

对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息；

对所述参考视频在至少一个模态下的视频内容信息进行语义提取，得到所述参考视频在至少一个模态下的语义特征信息；

基于所述目标视频和所述参考视频在至少一个模态下的语义特征信息，计算所述目标视频和所述参考视频之间的相似度。

其中，视频内容信息是视频所包含的内容信息，因为视频蕴含有丰富的视觉、听觉和字幕信息，所以视频有多个模态的信息，这些模态可以是图像模态、语音模态和文本模态等等，基于对各模态下的信息的分析处理，可以提取出该视频在多个模态下的视频内容信息。

可选的，一些实施例中，所述至少一个模态包括文本模态和图像模态；步骤“获取所述目标视频在至少一个模态下的视频内容信息”，可以具体包括：

对所述目标视频进行文本提取处理，得到所述目标视频的文本序列，所述文本序列为所述目标视频在文本模态下的视频内容信息；

对所述目标视频进行图像提取处理，得到所述目标视频的图像序列，所述图像序列为所述目标视频在图像模态下的视频内容信息。

其中，目标视频在文本模态下的视频内容信息可以包括视频标题、视频概述以及字幕信息等等。

可选的，在另一些实施例中，所述至少一个模态包括语音模态；步骤“获取所述目标视频在至少一个模态下的视频内容信息”还可以包括：对所述目标视频进行音频数据提取处理，得到所述目标视频的语音序列，所述语音序列为所述目标视频在语音模态下的视频内容信息。

一些实施例中，对于一些没有字幕的目标视频，可以对目标视频的音频数据进行语音识别，来得到对应的字幕信息，即该目标视频的文本信息。

可选的，在一些实施例中，可以只获取目标视频一个模态下的视频内容信息，对该模态下的视频内容信息进行语义提取，得到目标视频在该模态下的语义特征信息。例如，可以只获取文本模态下的视频内容信息，对文本模态下的视频内容信息进行语义提取，得到目标视频在文本模态下的语义特征信息；或者，也可以只获取图像模态下的视频内容信息，对图像模态下的视频内容信息进行语义提取，得到目标视频在图像模态下的语义特征信息。

可选的，一些实施例中，步骤“对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息”，可以包括：

对所述图像序列中的各个图像进行语义提取，得到所述图像序列中的各个图像的图像语义特征信息；

基于各个图像的前后图像的图像语义特征信息，对所述各个图像的图像语义特征信息进行处理；

将处理后的各个图像的图像语义特征信息进行融合，得到所述目标视频在图像模态下的语义特征信息；

对所述文本序列进行语义提取，得到所述目标视频在文本模态下的语义特征信息；

将所述目标视频在图像模态下的语义特征信息和在文本模态下的语义特征信息进行融合，得到所述目标视频在至少一个模态下的语义特征信息。

其中，该图像序列可以是通过对目标视频进行视频帧抽取，由抽取到的视频帧组成的。一些实施例中，可以对目标视频进行均匀抽帧，例如，可以将目标视频划分为等时长的视频片段，如以10s为划分单位，将目标视频划分为至少一个10s的视频片段，对每个视频片段抽取一帧图片。另一些实施例中，可以对目标视频进行关键帧抽取，具体地，可以通过各个视频帧之间的差值，来识别关键帧，进而对关键帧进行抽取。

其中，步骤“对所述图像序列中的各个图像进行语义提取，得到所述图像序列中的各个图像的图像语义特征信息”，具体可以包括：

通过神经网络，对所述图像序列中的各个图像进行卷积运算和池化运算，得到所述图像序列中的各个图像的图像语义特征信息。

其中，该神经网络可以是残差网络(ResNet，Residual Network)，也可以是密集连接卷积网络(DenseNet，Dense Convolutional Network)等，本实施例的神经网络并不仅限于上述列举的几种类型。

其中，步骤“基于各个图像的前后图像的图像语义特征信息，对所述各个图像的图像语义特征信息进行处理”，可以包括：

通过记忆网络模型，对所述图像序列中的各个图像的图像语义特征信息进行处理。

该记忆网络模型可以为双向长短期记忆网络(BiLSTM，Bi-directional LongShort-Term Memory)等。BiLSTM是由前向长短期记忆网络(LSTM，Long Short-TermMemory)和后向长短期记忆网络组合而成的。LSTM是一种时间循环神经网络，即为循环神经网络(RNN，Recurrent Neural Network)的一种。LSTM比较适合用于对时序数据提取语义特征，在自然语言处理任务中常被用来对上下文信息提取语义特征。LSTM可以通过三个门结构(输入门，遗忘门，输出门)，选择性地遗忘部分历史数据，加入部分当前输入数据，最终整合到当前状态并产生输出状态。但是，LSTM是从左往右推进的，会使后面数据比前面数据更重要。而通过BiLSTM可以更好地捕捉双向的语义信息。一些实施例中，步骤“将处理后的各个图像的图像语义特征信息进行融合，得到所述目标视频在图像模态下的语义特征信息”，可以包括：对处理后的各个图像的图像语义特征信息进行加权变换，得到所述目标视频在图像模态下的语义特征信息。

可选的，一些实施例中，步骤“对所述文本序列进行语义提取，得到所述目标视频在文本模态下的语义特征信息”中，文本序列可以包括视频标题、视频描述以及字幕信息等等，可以将该文本序列通过变压器编码器模型(Transformer-Encoder)进行语义提取，得到文本序列的自注意力机制(Self-Attention)表示，即得到所述目标视频在文本模态下的语义特征信息。

其中，Transformer-Encoder为应用于Encoder架构的Transformer。Transformer是一种基于注意力机制来实现的特征提取器，它可以直接捕获序列中的长距离依赖关系，而且Transformer模型的并行度高，可以使得模型的训练时间大幅降低。Transformer先对文本序列进行初步特征提取操作，再将处理后的文本序列输入到Encoder层，通过自注意力机制来学习文本表示。对于Encoder，它包含一个Self-Attention层和一个前馈神经网络，Self-Attention可以使当前节点不仅只关注当前的词，从而能获取到上下文的语义。Self-Attention可以捕获同一个句子中单词间的语义特征，是一种通过自身和自身相关联的注意力机制，从而达到一个更好的特征表示来表达自身，它可以看成一般注意力机制(Attention)的一种特殊情况。在Self-Attention中，序列中的每个词都要和序列中的所有词进行Attention计算，目的是学习句子内部的词的依赖关系，捕获句子的内部结构。Self-Attention特点在于无视词之间的距离直接计算依赖关系，更容易捕获到句子中长距离的互相依赖的特征，从而学习到序列的内部结构。

一些实施例中，步骤“将所述目标视频在图像模态下的语义特征信息和在文本模态下的语义特征信息进行融合，得到所述目标视频在至少一个模态下的语义特征信息”可以包括：对所述目标视频在图像模态下的语义特征信息和在文本模态下的语义特征信息进行拼接，得到所述目标视频在至少一个模态下的语义特征信息。

其中，拼接的顺序在本实施例中不作限制，可以是于图像模态下的语义特征信息的后面拼接文本模态下的语义特征信息，也可以于文本模态下的语义特征信息的后面拼接图像模态下的语义特征信息。

可选的，一些实施例中，参考视频的语义特征信息可以是预先计算好后存储在数据库中的，也可以通过实时计算来获取。

例如，参考视频的语义特征信息可以在预先计算好后，存储在数据库中，如存储在区块链的共享账本中，在需要获取该参考视频的语义特征信息时，可以将其从数据库中提取出来，提供给该背景音乐构建装置。

又例如，参考视频的语义特征信息还可以是通过实时计算来获取的，可以理解的是，该实时计算的过程可以是在服务器上执行的，也可以是在终端上执行的。具体地，可以通过获取参考视频在至少一个模态下的视频内容信息，并对参考视频在至少一个模态下的视频内容信息进行语义提取，得到参考视频在至少一个模态下的语义特征信息。

可选的，所述至少一个模态包括文本模态和图像模态；步骤“获取参考视频在至少一个模态下的视频内容信息”可以包括：

对所述参考视频进行文本提取处理，得到所述参考视频的文本序列，所述文本序列为所述参考视频在文本模态下的视频内容信息；

对所述参考视频进行图像提取处理，得到所述参考视频的图像序列，所述图像序列为所述参考视频在图像模态下的视频内容信息。

可选的，另一些实施例中，所述至少一个模态包括语音模态；步骤“获取参考视频在至少一个模态下的视频内容信息”还可以包括：对所述参考视频进行音频数据提取处理，得到所述参考视频的语音序列，所述语音序列为所述参考视频在语音模态下的视频内容信息。

一些实施例中，对于一些没有字幕的参考视频，可以对参考视频的音频数据进行语音识别，来得到对应的字幕信息，即该参考视频的文本信息。

其中，参考视频的视频内容信息可以是一个模态下的视频内容信息，也可以是多个模态下的视频内容信息，本申请对此不作限定。

可选的，步骤“对所述参考视频在至少一个模态下的视频内容信息进行语义提取，得到所述参考视频在至少一个模态下的语义特征信息”，可以包括：

对参考视频的图像序列中的各个图像进行语义提取，得到所述图像序列中的各个图像的图像语义特征信息；

将处理后的各个图像的图像语义特征信息进行融合，得到所述参考视频在图像模态下的语义特征信息；

对参考视频的文本序列进行语义提取，得到所述参考视频在文本模态下的语义特征信息；

将所述参考视频在图像模态下的语义特征信息和在文本模态下的语义特征信息进行融合，得到所述参考视频在至少一个模态下的语义特征信息。

可以理解的是，获取参考视频在至少一个模态下的视频内容信息的具体过程可以参考上述目标视频的视频内容信息的获取过程，此处不再赘述。同理，提取参考视频在至少一个模态下的语义特征信息的具体过程也可以参考上述目标视频的语义特征信息的提取过程。

可选的，一些实施例中，步骤“基于所述目标视频和所述参考视频在至少一个模态下的语义特征信息，计算所述目标视频和所述参考视频之间的相似度”，可以包括：

计算所述目标视频在至少一个模态下的语义特征信息和所述参考视频在至少一个模态下的语义特征信息之间的语义相似度；

将所述语义相似度作为所述目标视频和所述参考视频之间的相似度。

本实施例中，语义特征信息具体可以为语义特征向量，可以通过度量语义特征向量间的向量距离来确定语义相似度。向量距离越大，语义相似度越低；向量距离越小，语义相似度越高。

可选的，一些实施例中，步骤“基于所述目标视频和所述参考视频在至少一个模态下的语义特征信息，计算所述目标视频和所述参考视频之间的相似度”之前，还可以包括：

基于所述参考视频在至少一个模态下的语义特征信息，生成所述参考视频的检索索引；

基于所述检索索引，创建检索索引库；

所述基于所述目标视频和所述参考视频在至少一个模态下的语义特征信息，计算所述目标视频和所述参考视频之间的相似度，包括：

通过所述检索索引库，基于所述目标视频在至少一个模态下的语义特征信息和所述参考视频的检索索引，计算所述目标视频和所述参考视频之间的相似度。

具体地，可以使用开源的相似度搜索和聚类的框架工具(如Faiss)对参考视频的语义特征信息构建检索索引，基于检索索引，创建检索索引库。当需要搜索目标视频的相似视频时，可以以目标视频的语义特征信息作为查询钥匙，通过检索索引库搜索相似视频，检索索引库通过计算目标视频的语义特征信息和参考视频的检索索引的相似度，返回相似度高于预设值的参考视频，或者，返回前K个相似度最高的参考视频(k为自然数)，返回的参考视频作为目标视频的相似视频。

可选的，上述提取目标视频的语义特征信息或者提取参考视频的语义特征信息的过程可以通过视频理解模型来实现。该视频理解模型具体可以由其他设备进行训练后，提供给该背景音乐构建装置，或者，也可以由该背景音乐构建装置自行训练。

可选的，该视频理解模型可以参见图1c。通过该视频理解模型，来提取视频的图像特征和文本特征，其中，所述视频包括目标视频和参考视频等。具体地，如图1c所示：

1001、抽取视频的视频帧序列；

1002、对视频帧序列进行构建图像表示；

1003、获得视频帧序列的图像特征；

1004、对视频标题、视频描述信息以及字幕信息进行构建视频的文本表示；

1005、获得视频的文本特征；

1006、将视频的图像特征和文本特征进行融合，得到视频的多路特征融合表示；

1007、将该多路特征融合表示输入视频理解模型的全连接层或残差层；

1008、通过视频理解模型的全连接层或残差层，得到视频的多维度理解表示；

1009、基于视频的多维度理解表示，确定视频的分类概率，并输出视频的分类概率。

若由该背景音乐构建装置自行训练，则在步骤“获取所述目标视频和所述参考视频之间的相似度”之前，该背景音乐构建方法还可以包括：

获取训练数据，所述训练数据包括多个带有标签的训练视频，所述标签为训练视频的目标类别；

通过视频理解模型，对所述训练视频在至少一个模态下的视频内容信息进行语义提取，得到训练视频在至少一个模态下的语义特征信息；

基于所述语义特征信息，确定训练视频属于目标类别的概率；

基于目标类别的概率，调整所述视频理解模型的参数，使得所述训练视频属于目标类别的概率高于预设概率。

可选的，步骤“通过视频理解模型，对所述训练视频至少一个模态下的视频内容信息进行语义提取，得到训练视频在至少一个模态下的语义特征信息”之前，还可以包括：

通过视频理解模型，获取所述训练视频在至少一个模态下的视频内容信息。

例如，可以通过视频理解模型，对训练视频进行文本提取，得到训练视频的文本序列；和/或，通过视频理解模型，对训练视频进行图像提取处理，得到训练视频的图像序列。该图像序列可以是通过对目标视频进行视频帧抽取，由抽取到的视频帧组成的。其中，抽取方式可以是均匀抽帧，也可以是关键帧抽取。

其中，一些实施例中，至少一个模态可以包括图像模态和文本模态，步骤“通过视频理解模型，对所述训练视频至少一个模态下的视频内容信息进行语义提取，得到训练视频在至少一个模态下的语义特征信息”，可以包括：

通过视频理解模型，对所述训练视频在图像模态下的视频内容信息进行语义提取，得到训练视频在图像模态下的语义特征信息；

通过视频理解模型，对所述训练视频在文本模态下的视频内容信息进行语义提取，得到训练视频在文本模态下的语义特征信息；

将训练视频在图像模态下的语义特征信息和在文本模态下的语义特征信息进行融合，得到训练视频在至少一个模态下的语义特征信息。

其中，训练视频在文本模态下的视频内容信息可以包括视频标题、描述和字幕等等。训练视频在文本模态下的语义特征信息即训练视频在文本侧的文本表示，训练视频在图像模态下的语义特征信息即训练视频在图像侧的图像表示。

其中，训练视频所带的标签为训练视频的目标类别，它是训练视频的真实类别，比如，该标签可以是综艺类视频、喜剧类视频、武侠类视频以及历史类视频等等。

103、基于所述目标视频和所述参考视频之间的相似度，从所述至少一个参考视频中确定至少一个相似视频。

例如，可以将与目标视频的相似度高于预设相似度阈值的参考视频，确定为相似视频。本实施例中的预设相似度阈值可以根据实际情况进行具体设置，本实施例对此不作限定。如可以基于目标视频与各个参考视频相似度的大小，设置预设相似度阈值。

又例如，可以基于相似度的高低，对参考视频进行排序，如，基于相似度的高低，对参考视频进行由高到低的排序，将前N个参考视频作为相似视频，其中N为大于等于1的自然数。

104、获取相似视频的背景音乐，并将所述至少一个相似视频的背景音乐作为候选背景音乐。

105、基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐。

本实施例中，步骤“基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐”，可以包括：

对所述候选背景音乐进行语义提取，得到所述候选背景音乐的音频语义特征信息；

获取所述目标视频在至少一个模态下的语义特征信息；

基于所述候选背景音乐的音频语义特征信息和所述目标视频在至少一个模态下的语义特征信息，计算所述候选背景音乐和所述目标视频之间的相似度；

基于所述相似度，从所述候选背景音乐中确定所述目标视频的背景音乐。

其中，目标视频的语义特征信息可以使用步骤102中计算得到的目标视频在至少一个模态下的语义特征信息，也可以基于目标视频在至少一个模态下的视频内容信息进行重新计算，本实施例对此不作限制。可以理解的是，对于重新计算的情况，获取目标视频在至少一个模态下的语义特征信息的具体过程可以参考步骤102中的描述。

可选的，一些实施例中，步骤“对所述候选背景音乐进行语义提取，得到所述候选背景音乐的音频语义特征信息”，可以包括：

获取所述候选背景音乐的音频帧序列；

对所述音频帧序列中的各个音频帧进行语义提取，得到各个音频帧的音频语义特征信息；

基于各个音频帧的前后音频帧的音频语义特征信息，对所述各个音频帧的音频语义特征信息进行处理；

将处理后的各个音频帧的音频语义特征信息进行融合，得到所述候选背景音乐的音频语义特征信息。

其中，步骤“对所述音频帧序列中的各个音频帧进行语义提取，得到各个音频帧的音频语义特征信息”，可以包括：通过神经网络，对所述音频帧序列中的各个音频帧进行卷积运算和池化运算，得到各个音频帧的音频语义特征信息。其中，该神经网络可以为视觉几何组网络(VGGish，Visual Geometry Group)等等。

其中，步骤“基于各个音频帧的前后音频帧的音频语义特征信息，对所述各个音频帧的音频语义特征信息进行处理”，可以包括：

通过记忆网络模型，对各个音频帧的音频语义特征信息进行处理。

其中，该记忆网络模型可以为双向长短期记忆网络(BiLSTM，Bi-directionalLong Short-Term Memory)等。BiLSTM是由前向长短期记忆网络(LSTM，Long Short-TermMemory)和后向长短期记忆网络组合而成的。通过BiLSTM可以更好的捕捉双向的语义依赖。

其中，步骤“将处理后的各个音频帧的音频语义特征信息进行融合，得到所述候选背景音乐的音频语义特征信息”，可以包括：对处理后的各个音频帧的音频语义特征信息进行加权变换，得到所述候选背景音乐的音频语义特征信息。

可选的，步骤“基于所述候选背景音乐的音频语义特征信息和所述目标视频在至少一个模态下的语义特征信息，计算所述候选背景音乐和所述目标视频之间的相似度”，可以包括：

计算所述候选背景音乐的音频语义特征信息和所述目标视频在至少一个模态下的语义特征信息之间的语义相似度；

将所述语义相似度作为所述候选背景音乐和所述目标视频之间的相似度。

可选的，一些实施例中，步骤“基于所述相似度，从所述候选背景音乐中确定所述目标视频的背景音乐”，可以包括：将与目标视频的相似度高于预设相似度阈值的候选背景音乐，确定为目标视频的背景音乐。另一些实施例中，步骤“基于所述相似度，从所述候选背景音乐中确定所述目标视频的背景音乐”，可以包括：基于所述相似度的高低，对候选背景音乐进行排序，如基于相似度的高低，对候选背景音乐进行由高到低的排序，将前M个候选背景音乐作为目标视频的背景音乐，其中M为大于等于1的自然数。

通过背景音乐匹配模型，对所述候选背景音乐进行语义提取，得到所述候选背景音乐的音频语义特征信息。

可选的，该背景音乐匹配模型结构可以参见图1d，具体如下所述：

10001、通过该背景音乐匹配模型，构建视频在图像模态和文本模态下的维度表示，即视频在图像模态和文本模态下的语义特征信息；

10002、抽取背景音乐的音频帧序列；

10003、对音频帧序列进行语义特征提取，以构建背景音乐的音频表示；

10004、通过该背景音乐匹配模型的视频图像、文本、音频特征融合层，来计算背景音乐的音频表示和视频的语义特征信息之间的语义相似度；

10005、基于所述语义相似度，得到视频和背景音乐的相关度符合得分。

需要说明的是，该背景音乐匹配模型具体可以由其他设备进行训练后，提供给该背景音乐构建装置，或者，也可以由该背景音乐构建装置自行进行训练。

若由该背景音乐构建装置自行进行训练，则在步骤“通过背景音乐匹配模型，对所述候选背景音乐进行语义提取，得到所述候选背景音乐的音频语义特征信息”之前，该背景音乐构建方法还可以包括：

获取训练数据，所述训练数据包括样本视频对应的正样本和负样本，所述正样本为与所述样本视频的期望相似度大于第一预设相似度的背景音乐，所述负样本为与所述样本视频的期望相似度小于第二预设相似度的背景音乐；

通过背景音乐匹配模型，对所述样本视频和所述背景音乐进行语义提取，得到所述样本视频的语义特征信息和所述背景音乐的音频语义特征信息；

基于所述样本视频的语义特征信息和所述背景音乐的音频语义特征信息，计算所述样本视频和所述背景音乐之间的实际相似度；

基于所述背景音乐中的正样本对应的实际相似度和期望相似度，以及所述背景音乐中负样本对应的实际相似度和期望相似度，调整所述背景音乐匹配模型的参数。

本实施例中，背景音乐匹配模型是通过三元组数据对该模型进行训练的，该三元组数据为样本视频、正样本和负样本。该训练过程是先计算样本视频和正样本之间的实际相似度，以及样本视频和负样本之间的实际相似度，然后，使用反向传播算法对背景音乐匹配模型的参数进行调整，基于所述背景音乐中的正样本对应的实际相似度和期望相似度，以及所述背景音乐中负样本对应的实际相似度和期望相似度，优化背景音乐匹配模型的参数，使正样本的实际相似度趋近于正样本的期望相似度，负样本的实际相似度趋近于负样本的期望相似度，得到训练好的背景音乐匹配模型。具体地，可以使计算得到的正样本的实际相似度高于正样本的期望相似度，使负样本的实际相似度低于负样本的期望相似度。

其中，正样本的期望相似度大于第一预设相似度，负样本的期望相似度小于第二预设相似度，第一预设相似度和第二预设相似度的值可以根据实际情况进行设置，本申请对此没有限制。例如，可以根据对目标视频的背景音乐的要求来进行设置。若对目标视频的背景音乐匹配的要求越高，则第一预设相似度越大，第二预设相似度越小。

可选的，在一些实施例中，该正样本可以为样本视频自身的背景音乐，即样本视频自身的背景音乐与样本视频之间的期望相似度大于第一预设相似度；该负样本可以为与样本视频相似度低于某一预设值的视频的背景音乐，该背景音乐与样本视频的期望相似度小于第二预设相似度。

其中，为了达到较好的训练效果，以使通过背景音乐匹配模型获取到的目标视频的背景音乐的匹配结果更准确，正样本和负样本的比例需要满足预设比例。该预设比例需要控制在一定的范围内，以避免正样本和负样本的数量差距过大。例如，正样本和负样本的比例可以为1：2，有利于达到较好的训练效果。通过这种方式可以自动获取到较大批量的高质量训练数据，降低人工标注成本，且获取速度快。

由上可知，本实施例可以确定至少一个具有背景音乐的参考视频、以及需要构建背景音乐的目标视频；获取所述目标视频和所述参考视频之间的相似度；基于所述目标视频和所述参考视频之间的相似度，从所述至少一个参考视频中确定至少一个相似视频；获取相似视频的背景音乐，并将所述至少一个相似视频的背景音乐作为候选背景音乐；基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐。本申请实施例可以获取与需要构建背景音乐的目标视频相似的相似视频，再从相似视频的背景音乐中确定目标视频的背景音乐，因此，可以不用将目标视频与所有背景音乐进行一一对比，有利于提升获取目标视频的背景音乐的效率，同时可以提高所获取到的目标视频的背景音乐与目标视频的相关度，使背景音乐匹配的准确性更高，视频展示效果更好。

根据前面实施例所描述的方法，以下将以该背景音乐构建装置具体集成在服务器举例作进一步详细说明。

本申请实施例提供一种背景音乐构建方法，如图2所示，该背景音乐构建方法的具体流程可以如下：

201、当服务器接收到终端发送的构建背景音乐请求时，基于所述构建背景音乐请求，确定需要构建背景音乐的目标视频，并确定至少一个具有背景音乐的参考视频。

其中，参考视频可以为视频指标较优的视频，即可以为用户关注度较高的视频。一些实施例中，参考视频可以是预先计算好后，存储在数据库中，如区块链的共享账本中，当接收到构建背景音乐请求时，可以从数据库中提取参考视频。另一些实施例中，参考视频也可以是实时计算得到的，具体过程如下。

可选的，步骤“服务器确定至少一个具有背景音乐的参考视频、以及需要构建背景音乐的目标视频”，具体可以包括：

确定需要构建背景音乐的目标视频；

其中，用户关注度信息可以包括视频的弹幕数量、评论数、收藏数和播放情况信息等等。播放情况信息可以包括播放量、播放率以及播放完成率等。

本实施例中的预设条件具体可以根据实际需要进行设置，本实施例对此没有限制。

202、服务器获取所述目标视频和所述参考视频之间的相似度。

获取所述目标视频在至少一个模态下的视频内容信息；

其中，步骤“将处理后的各个图像的图像语义特征信息进行融合，得到所述目标视频在图像模态下的语义特征信息”，可以包括：对处理后的各个图像的图像语义特征信息进行加权变换，得到所述目标视频在图像模态下的语义特征信息。

例如，参考视频的语义特征信息还可以是通过实时计算来获取的。具体地，服务器可以通过获取参考视频在至少一个模态下的视频内容信息，并对参考视频在至少一个模态下的视频内容信息进行语义提取，得到参考视频在至少一个模态下的语义特征信息。

可以理解的是，获取参考视频在至少一个模态下的视频内容信息的具体过程可以参考上述步骤102中实施例的描述，此处不再赘述。同理，提取参考视频在至少一个模态下的语义特征信息的具体过程也可以参考102中实施例的描述，此处不再赘述。203、服务器基于所述目标视频和所述参考视频之间的相似度，从所述至少一个参考视频中确定至少一个相似视频。

204、服务器获取相似视频的背景音乐，并将所述至少一个相似视频的背景音乐作为候选背景音乐。

205、服务器基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐。

获取所述目标视频在至少一个模态下的语义特征信息；

其中，目标视频的语义特征信息可以使用步骤202中计算得到的目标视频在至少一个模态下的语义特征信息，也可以基于目标视频在至少一个模态下的视频内容信息进行重新计算，本实施例对此不作限制。可以理解的是，对于重新计算的情况，获取目标视频在至少一个模态下的语义特征信息的具体过程可以参考步骤202中的描述。

获取所述候选背景音乐的音频帧序列；

其中，步骤“对所述音频帧序列中的各个音频帧进行语义提取，得到各个音频帧的音频语义特征信息”，可以包括：通过神经网络，对所述音频帧序列中的各个音频帧进行卷积运算和池化运算，得到各个音频帧的音频语义特征信息。其中，该神经网络可以为视觉几何组网络(VGGish，Visual Geometry Group)等。

206、服务器将所述目标视频的背景音乐发送给终端。

由上可知，本实施例可以在当服务器接收到终端发送的构建背景音乐请求时，基于所述构建背景音乐请求，确定需要构建背景音乐的目标视频，并确定至少一个具有背景音乐的参考视频；服务器获取所述目标视频和所述参考视频之间的相似度，基于所述目标视频和所述参考视频之间的相似度，从所述至少一个参考视频中确定至少一个相似视频，获取相似视频的背景音乐，并将所述至少一个相似视频的背景音乐作为候选背景音乐，基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐，服务器将所述目标视频的背景音乐发送给终端。本申请实施例可以获取与需要构建背景音乐的目标视频相似的相似视频，再从相似视频的背景音乐中确定目标视频的背景音乐，因此，可以不用将目标视频与所有背景音乐进行一一对比，有利于提升获取目标视频的背景音乐的效率，同时可以提高所获取到的目标视频的背景音乐与目标视频的相关度，使背景音乐匹配的准确性更高，视频展示效果更好。

为了更好地实施以上方法，本申请实施例还提供一种背景音乐构建装置，如图3a所示，该背景音乐构建装置可以包括第一确定单元301、第一获取单元302、第二确定单元303、第二获取单元304和第三确定单元305，如下：

(1)第一确定单元301；

第一确定单元301，用于确定至少一个具有背景音乐的参考视频、以及需要构建背景音乐的目标视频。

可选的，在本申请的一些实施例中，所述第一确定单元301具体可以包括确定需要构建背景音乐的目标视频；确定至少一个待选视频，并获取所述待选视频的用户关注度信息；根据所述用户关注度信息，从至少一个待选视频中，确定至少一个具有背景音乐的参考视频。

(2)第一获取单元302；

第一获取单元302，用于获取所述目标视频和所述参考视频之间的相似度。

可选的，在本申请的一些实施例中，所述第一获取单元302可以包括第一获取子单元3021、第一提取子单元3022、第二提取子单元3023和第一计算子单元3024，参见图3b，如下：

所述第一获取子单元3021，用于获取所述目标视频在至少一个模态下的视频内容信息；

第一提取子单元3022，用于对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息；

第二提取子单元3023，用于对所述参考视频在至少一个模态下的视频内容信息进行语义提取，得到所述参考视频在至少一个模态下的语义特征信息；

第一计算子单元3024，用于基于所述目标视频和所述参考视频在至少一个模态下的语义特征信息，计算所述目标视频和所述参考视频之间的相似度。

可选的，在本申请的一些实施例中，所述第一计算子单元3024具体可以用于计算所述目标视频在至少一个模态下的语义特征信息和所述参考视频在至少一个模态下的语义特征信息之间的语义相似度；将所述语义相似度作为所述目标视频和所述参考视频之间的相似度。

可选的，在本申请的一些实施例中，所述至少一个模态包括文本模态和图像模态；所述第一获取子单元3021具体可以对所述目标视频进行文本提取处理，得到所述目标视频的文本序列，所述文本序列为所述目标视频在文本模态下的视频内容信息；对所述目标视频进行图像提取处理，得到所述目标视频的图像序列，所述图像序列为所述目标视频在图像模态下的视频内容信息。

可选的，在本申请的一些实施例中，所述第一提取子单元3022具体可以对所述图像序列中的各个图像进行语义提取，得到所述图像序列中的各个图像的图像语义特征信息；基于各个图像的前后图像的图像语义特征信息，对所述各个图像的图像语义特征信息进行处理；将处理后的各个图像的图像语义特征信息进行融合，得到所述目标视频在图像模态下的语义特征信息；对所述文本序列进行语义提取，得到所述目标视频在文本模态下的语义特征信息；将所述目标视频在图像模态下的语义特征信息和在文本模态下的语义特征信息进行融合，得到所述目标视频在至少一个模态下的语义特征信息。

可选的，在本申请的一些实施例中，所述第一获取单元302还可以包括创建子单元3025，参见图3c，如下：

所述创建子单元3025，用于基于所述参考视频在至少一个模态下的语义特征信息，生成所述参考视频的检索索引；基于所述检索索引，创建检索索引库。

其中，一些实施例中，所述第一计算子单元3024可以用于通过所述检索索引库，基于所述目标视频在至少一个模态下的语义特征信息和所述参考视频的检索索引，计算所述目标视频和所述参考视频之间的相似度。

(3)第二确定单元303；

第二确定单元303，用于基于所述目标视频和所述参考视频之间的相似度，从所述至少一个参考视频中确定至少一个相似视频。

(4)第二获取单元304；

第二获取单元304，用于获取相似视频的背景音乐，并将所述至少一个相似视频的背景音乐作为候选背景音乐。

(5)第三确定单元305；

第三确定单元305，用于基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐。

可选的，在本申请的一些实施例中，所述第三确定单元305可以包括第三提取子单元3051、第二获取子单元3052、第二计算子单元3053和确定子单元3054，参见图3d，如下：

所述第三提取子单元3051，用于对所述候选背景音乐进行语义提取，得到所述候选背景音乐的音频语义特征信息；

第二获取子单元3052，用于获取所述目标视频在至少一个模态下的语义特征信息；

第二计算子单元3053，用于基于所述候选背景音乐的音频语义特征信息和所述目标视频在至少一个模态下的语义特征信息，计算所述候选背景音乐和所述目标视频之间的相似度；

确定子单元3054，用于基于所述相似度，从所述候选背景音乐中确定所述目标视频的背景音乐。

可选的，在本申请的一些实施例中，所述第三提取子单元3051具体可以用于获取所述候选背景音乐的音频帧序列；对所述音频帧序列中的各个音频帧进行语义提取，得到各个音频帧的音频语义特征信息；基于各个音频帧的前后音频帧的音频语义特征信息，对所述各个音频帧的音频语义特征信息进行处理；将处理后的各个音频帧的音频语义特征信息进行融合，得到所述候选背景音乐的音频语义特征信息。

可选的，在本申请的一些实施例中，所述第三提取子单元3051可以通过背景音乐匹配模型，对所述候选背景音乐进行语义提取，得到所述候选背景音乐的音频语义特征信息。

可选的，在本申请的一些实施例中，所述第三确定单元305还可以包括训练子单元3055，参见图3e，如下：

所述训练子单元3055，用于获取训练数据，所述训练数据包括样本视频对应的正样本和负样本，所述正样本为与所述样本视频的期望相似度大于第一预设相似度的背景音乐，所述负样本为与所述样本视频的期望相似度小于第二预设相似度的背景音乐；通过背景音乐匹配模型，对所述样本视频和所述背景音乐进行语义提取，得到所述样本视频的语义特征信息和所述背景音乐的音频语义特征信息；基于所述样本视频的语义特征信息和所述背景音乐的音频语义特征信息，计算所述样本视频和所述背景音乐之间的实际相似度；基于所述背景音乐中的正样本对应的实际相似度和期望相似度，以及所述背景音乐中负样本对应的实际相似度和期望相似度，调整所述背景音乐匹配模型的参数。

由上可知，本实施例可以由第一确定单元301确定至少一个具有背景音乐的参考视频、以及需要构建背景音乐的目标视频；通过第一获取单元302获取所述目标视频和所述参考视频之间的相似度；由第二确定单元303基于所述目标视频和所述参考视频之间的相似度，从所述至少一个参考视频中确定至少一个相似视频；通过第二获取单元304获取相似视频的背景音乐，并将所述至少一个相似视频的背景音乐作为候选背景音乐；由第三确定单元305基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐；本申请可以获取与需要构建背景音乐的目标视频相似的相似视频，再从相似视频的背景音乐中确定目标视频的背景音乐，因此，可以不用将目标视频与所有背景音乐进行一一对比，有利于提升获取目标视频的背景音乐的效率，同时可以提高所获取到的目标视频的背景音乐与目标视频的相关度，使背景音乐匹配的准确性更高，视频展示效果更好。

本申请实施例还提供一种电子设备，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

确定至少一个具有背景音乐的参考视频、以及需要构建背景音乐的目标视频；获取所述目标视频和所述参考视频之间的相似度；基于所述目标视频和所述参考视频之间的相似度，从所述至少一个参考视频中确定至少一个相似视频；获取相似视频的背景音乐，并将所述至少一个相似视频的背景音乐作为候选背景音乐；基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种背景音乐构建方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种背景音乐构建方法中的步骤，因此，可以实现本申请实施例所提供的任一种背景音乐构建方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

本申请实施例涉及的系统可以是由客户端、多个节点(接入网络中的任意形式的电子设备，如服务器、终端)通过网络通信的形式连接形成的分布式系统。

以分布式系统为区块链系统为例，参见图5，图5是本申请实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端300形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission ControlProtocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。本实施例中，参考视频在至少一个模态下的语义特征信息等信息，可以通过节点被存储在区域链系统的共享账本中，电子设备(例如终端或服务器)可以基于共享账本存储的记录数据获取参考视频在至少一个模态下的语义特征信息等信息。

参见图5示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图6，图6是本申请实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

以上对本申请实施例所提供的一种背景音乐构建方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种背景音乐构建方法，其特征在于，包括：

获取所述目标视频和所述参考视频之间的相似度；

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标视频和所述参考视频之间的相似度，包括：

获取所述目标视频在至少一个模态下的视频内容信息；

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标视频和所述参考视频在至少一个模态下的语义特征信息，计算所述目标视频和所述参考视频之间的相似度，包括：

4.根据权利要求2所述的方法，其特征在于，所述至少一个模态包括文本模态和图像模态；

所述获取所述目标视频在至少一个模态下的视频内容信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息，包括：

6.根据权利要求2所述的方法，其特征在于，所述基于所述目标视频和所述参考视频在至少一个模态下的语义特征信息，计算所述目标视频和所述参考视频之间的相似度之前，还包括：

基于所述检索索引，创建检索索引库；

7.根据权利要求1所述的方法，其特征在于，所述基于所述候选背景音乐与所述目标视频之间的相似度，从所述候选背景音乐中确定所述目标视频的背景音乐，包括：

获取所述目标视频在至少一个模态下的语义特征信息；

8.根据权利要求7所述的方法，其特征在于，所述对所述候选背景音乐进行语义提取，得到所述候选背景音乐的音频语义特征信息，包括：

获取所述候选背景音乐的音频帧序列；

9.根据权利要求7所述的方法，其特征在于，所述对所述候选背景音乐进行语义提取，得到所述候选背景音乐的音频语义特征信息，包括：

10.根据权利要求9所述的方法，其特征在于，所述通过背景音乐匹配模型，对所述候选背景音乐进行语义提取，得到所述候选背景音乐的音频语义特征信息之前，还包括：

11.根据权利要求1所述的方法，其特征在于，所述确定至少一个具有背景音乐的参考视频、以及需要构建背景音乐的目标视频，包括：

确定需要构建背景音乐的目标视频；

12.一种背景音乐构建装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至11任一项所述的背景音乐构建方法中的操作。

14.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至11任一项所述的背景音乐构建方法中的步骤。