CN115866327A

CN115866327A - 一种背景音乐添加方法和相关装置

Info

Publication number: CN115866327A
Application number: CN202111107521.3A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2023-03-28

Abstract

本申请实施例公开了一种背景音乐添加方法，可应用于人工智能领域，针对目标内容平台中可作为背景音乐的目标音乐，通过该目标内容平台的多分类模型识别目标音乐的情绪标签。由于多分类模型可识别的情绪标签中包括基于人类情绪确定的和基于内容所涉及主题确定的情绪标签，所确定的目标音乐的K个情绪标签可包括与目标内容平台中主题相关的情绪标签。从而，当需要为目标内容平台的目标媒体内容添加背景音乐时，若确定目标音乐可用，那么目标音乐与目标媒体内容具有较好适配度的可能性更高，以此得到的具有背景音乐的目标媒体内容在被观看时，作为背景音乐的目标音乐将会在观看过程起到增强、引导用户的观看情绪的作用，为目标媒体内容带来正面影响。

Description

一种背景音乐添加方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种背景音乐添加方法和相关装置。

背景技术

为媒体内容添加背景音乐是一种常见的内容编辑方式，例如通过为一段视频添加背景音乐，使得用户在观看该视频的同时能够听到所添加的背景音乐。若能够为媒体内容添加适合的背景音乐，可以起到增强、引导用户的观看情绪的作用，从而有效提高媒体内容的被关注度。

为了便于为媒体内容添加背景音乐，内容平台会提供带有情绪标签的音乐库，通过情绪标签来标识音乐可能让用户感受到的情绪。当用户或平台需要为媒体内容进行背景音乐添加时，可以参考音乐库中音乐的音乐情绪标签从音乐库中确定与该媒体内容对应的背景音乐。

相关技术中为音乐分配的情绪标签并不准确，难以在进行背景音乐添加时起到准确的匹配和参考作用，导致添加的背景音乐与媒体内容适配度低，反而对用户观看媒体内容造成了负面影响。

发明内容

为了解决上述技术问题，本申请提供了一种背景音乐添加方法和相关装置，背景音乐准确的情绪标签实现了高精度的背景音乐添加，在观看过程背景音乐起到了增强、引导用户的观看情绪的作用，为媒体内容带来正面影响。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供了一种背景音乐添加方法，所述方法包括：

获取待识别的目标音乐，所述目标音乐被目标内容平台提供为用于添加到媒体内容中的背景音乐；

根据所述目标内容平台对应的多分类模型识别所述目标音乐在L个情绪标签下的概率分布，所述L个情绪标签中包括基于人类情绪确定的M个情绪标签和基于所述目标内容平台中内容所涉及主题确定的N个情绪标签，L≥2；

基于所述概率分布从所述L个情绪标签中确定所述目标音乐的K个情绪标签；

获取属于所述目标内容平台的目标媒体内容；

根据所述目标音乐的K个情绪标签，确定所述目标媒体内容对应的背景音乐。

另一方面，本申请实施例提供了一种背景音乐添加装置，所述装置包括获取单元、识别单元和确定单元：

所述获取单元，用于获取待识别的目标音乐，所述目标音乐被目标内容平台提供为用于添加到媒体内容中的背景音乐；

所述识别单元，用于根据所述目标内容平台对应的多分类模型识别所述目标音乐在L个情绪标签下的概率分布，所述L个情绪标签中包括基于人类情绪确定的M个情绪标签和基于所述目标内容平台中内容所涉及主题确定的N个情绪标签，L≥2；

所述确定单元，用于基于所述概率分布从所述L个情绪标签中确定所述目标音乐的K个情绪标签；

所述获取单元还用于获取属于所述目标内容平台的目标媒体内容；

所述确定单元还用于根据所述目标音乐的K个情绪标签，确定所述目标媒体内容对应的背景音乐。

另一方面，本申请实施例公开了一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面中所述的背景音乐添加方法。

另一方面，本申请实施例公开了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面中所述的背景音乐添加方法。

由上述技术方案可以看出，针对目标内容平台中可作为背景音乐的目标音乐，可通过该目标内容平台对应的多分类模型识别该目标音乐的情绪标签。由于多分类模型可以实现在L个情绪标签下的分类识别，且该L个情绪标签中包括基于人类情绪确定的M个情绪标签和基于所述目标内容平台中内容所涉及主题情绪确定的N个情绪标签，由此通过多分类模型所识别出的概率分布为目标音乐确定出的K个情绪标签时，其可以包括与该目标内容平台中主题情绪相关的情绪标签。从而，当需要为目标内容平台的目标媒体内容添加背景音乐时，若通过目标音乐的K个情绪标签确定目标音乐可用于目标媒体内容的背景音乐，那么目标音乐与目标媒体内容具有较好适配度的可能性更高，以此得到的具有背景音乐的目标媒体内容在被观看时，作为背景音乐的目标音乐将会在观看过程起到增强、引导用户的观看情绪的作用，为目标媒体内容带来正面影响。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种背景音乐添加场景的场景示意图；

图2为本申请实施例提供的一种背景音乐添加方法的方法流程图；

图3为本申请实施例提供的影视内容平台中对歌曲的情绪标签的识别示意图；

图4为本申请实施例提供的一种多分类模型的模型结构图；

图5为本申请实施例提供的一种下游分类神经网络的模型结构图；

图6为本申请实施例提供的一种上游向量生成网络的模型结构图；

图7为本申请实施例提供的一种音频特征序列的确定流程图；

图8为本申请实施例提供的一种背景音乐添加装置的装置结构图；

图9为本申请实施例提供的一种终端设备的结构图；

图10为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

相关技术中为音乐添加的情绪标签并不准确，导致在基于情绪标签为媒体内容确定背景音乐准确度不高，经常出现确定的背景音乐与媒体内容适配度低，降低了背景音乐原本应起到的正向影响，甚至造成负面影响。

为此，本申请实施例提供了一种背景音乐添加方法，为背景音乐添加的情绪标签更为准确，提高了为媒体内容选择背景音乐的质量。

本申请实施例所提供的背景音乐添加方法可以通过计算机设备实施，该计算机设备可以是终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例提供的背景音乐添加方法是基于人工智能实现的，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

在本申请实施例中，主要涉及的人工智能技术包括上述语音技术和深度学习等方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本申请实施例中，可以通过上述语音技术和自然语言处理技术实现对目标音乐的特征提取、识别等。还可以实现对多分类模型的模型训练，以及通过多分类模型确定目标音乐分别与L个情绪标签间的置信度。

如图1示出的背景音乐添加场景中，服务器101作为前述计算机设备的示例，示例性的将L＝12，M＝7，N＝5，K＝2进行说明。

服务器101中部署有目标内容平台(例如视频平台)对应的多分类模型200，针对目标内容平台中可作为背景音乐的目标音乐100，可通过多分类模型200识别目标音乐100的情绪标签。

由于多分类模型200可以实现在12个情绪标签下的分类识别，且该12个情绪标签中包括基于人类情绪确定的7个情绪标签和基于所述目标内容平台中内容所涉及主题确定的5个情绪标签。例如，这7个情绪标签可以为伤感、快乐、励志、甜蜜、治愈、思念和宣泄，这个5个情绪标签可以为感人、史诗、紧张、战斗和搞笑。在图1中分别采用情绪标签1-12示出。

由此通过多分类模型200所识别出的概率分布为目标音乐100确定出的2个情绪标签(例如史诗和伤感)时，其可以包括与该目标内容平台中主题情绪相关的情绪标签，例如史诗。

通过上述方式确定出情绪标签的音乐都可以保存在背景音乐库中，以供后续背景音乐添加使用。

从而，当需要为目标内容平台的目标媒体内容例如剪辑视频300添加背景音乐时，可以通过背景音乐库中音乐的情绪标签进行匹配。若通过目标音乐100的2个情绪标签确定目标音乐100可适用于目标媒体内容，那么目标音乐100与剪辑视频300具有较好适配度的可能性更高。

将目标音乐100确定为剪辑视频300的背景音乐400，以此得到的具有背景音乐400的剪辑视频300在被观看时，作为背景音乐的目标音乐将会在观看过程起到增强、引导用户的观看情绪的作用，让用户基于背景音乐的烘托，在观看剪辑视频300时感受到史诗和伤感的情绪，为剪辑视频300带来正面影响。

接下来通过图2进行说明，在图2中以服务器作为前述计算机设备。该背景音乐添加方法包括：

S201：获取待识别的目标音乐。

待识别的目标音乐为待识别出情绪标签的音乐，该音乐可以是内容平台收集的，也可以是由用户提供的。

目标音乐可以是具有歌词音频的歌曲，也可以是没有歌词的纯音乐，本申请对此不做限定。

该目标音乐被目标内容平台提供为用于添加到媒体内容中的背景音乐，相当于为媒体内容进行了配乐。目标内容平台中的媒体内容属于用户能够观看的、具有一定持续时间的内容，例如可以是视频、音频等，视频还可以包括短视频、通过视频剪辑加工得到的剪辑视频、直播对应的录制视频等。

由于有一些音乐形式下的音乐具有较长的时长，为了便于后续的背景音乐添加，可以预先从中确定出时长较为适宜目标媒体内容时长的音乐片段。

故在一种可能的实现方式中，S201包括：

获取待处理歌曲。根据切分条件将所述待处理歌曲切分为多段歌曲片段。将所述多段歌曲片段中的任意一段作为所述目标音乐。

该切分条件包括预设时长、歌曲组成部分或曲调切换中的至少一个。

其中，预设时长可以是基于常见需要被添加背景音乐的媒体内容的长度确定，例如15秒、30秒等。例如可以将待处理歌曲切分为多段时长为15秒的歌曲片段。

歌曲组成部分是指基于音乐原理确定出的歌曲特定组成，例如主歌部分、副歌部分、高潮部分等，例如可以基于歌曲组成部分将待处理歌曲切分为主歌部分的歌曲片段和副歌部分的歌曲片段。

曲调切换是指待处理歌曲中曲调的波动，例如从平缓的曲调、高昂的曲调等，例如可以基于曲调切换将待处理歌曲切分为平缓曲调的歌曲片段和高昂曲调的歌曲片段。

本申请并不限定一定要将歌曲或者较长时长的音乐进行切分后识别情绪标签，也可以将整段歌曲或音乐作为目标音乐进行后续的标签识别。

S202：根据所述目标内容平台对应的多分类模型识别所述目标音乐在L个情绪标签下的概率分布。

目标内容平台对应的多分类模型具有针对L个情绪标签的识别能力，L≥2。这L个情绪标签中，包括了基于人类情绪确定的M个情绪标签，例如前述的伤感、快乐等，还包括基于目标内容平台中内容所涉及主题确定的N个情绪标签，例如前述的史诗、战斗等。

情绪标签用于标识目标音乐能够为用户带来的听觉感受，能够体现出音乐的音乐情绪。音乐本身不带任何情绪，音乐的音乐情绪是人对该音乐的一种主观感受，就是在标识人耳感受到音乐的音频信号之后，通过人的主观情绪能够引起的共鸣。针对同一首音乐，会根据不同人的感受体现出不同的音乐情绪。

引入基于目标内容平台中内容所涉及主题情绪作为音乐的情绪标签，使得通过这类情绪标签将音乐和场景进行了关联。

由于为目标音乐识别情绪标签的目的之一是便于后续确定该目标音乐适合作为哪些媒体内容的背景音乐，用户在观看媒体内容时被背景音乐所感染出何种情绪与媒体内容的主题有着直接联系，即背景音乐对同一个人的感受，会基于媒体内容的主题不同带来很大的差别。由此可见，背景音乐和媒体内容的主题间实际上在背景音乐添加场景中是具有强关联的。通过媒体内容的主题能够准确标识出目标音乐可能为用户带来的音乐情绪，故基于目标内容平台中内容所涉及主题确定出的M个情绪标签能够客观、准确的标识音乐情绪。

由此，上述结合了人类情绪和内容所涉及主题创建的情绪标签系统能够更符合视频剪辑中配乐对音乐情绪的需求，这些情绪标签所体现的音乐情绪信息能够为配乐机制提供更丰富的标签匹配选择。

在一种可能的实现方式中，以L＝12为例，本申请实施例提供了一套适用于视频剪辑配乐的12类音乐情绪标签体系，具体可以入表1所示：

表1

伤感	快乐	甜蜜	治愈	思念	宣泄
						励志	感人	紧张	史诗	战斗	搞笑

本申请实施例并不限定目标内容平台的类型，可以是提供媒体内容的各种类型的内容平台，例如社交平台、视频平台、短视频平台等。当目标内容平台为影视类的内容平台时，目标内容平台中媒体内容所涉及主题可以为影视题材。

当不同类型的内容平台中所提供媒体内容的主题类型差别较大时，确定出的M个情绪标签也会有所不同，即使同一类型的内容平台也有可能确定出不同的M个情绪标签，同理，不同类型或相同类型的内容平台也可确定出相同的M个情绪标签。需要说明的是，基于不同内容平台中内容所涉及主题确定出的M个情绪标签的数量可以不同。

由此通过多分类模型所得到的概率分布能够体现出目标音乐在M个人类情绪和N个内容所涉及主题上分别对应的置信度。从而可以确定出目标音乐的音乐情绪与人类情绪到结合场景主题等不同层面的关联性。

S203：基于所述概率分布从所述L个情绪标签中确定所述目标音乐的K个情绪标签。

一些相关技术中，是根据人耳听觉感应来进行手动标注的。该方案是通过雇佣大量的标注人员，让标注人员通过人耳的听觉感应和听完该首音乐后的主观情绪感应，来判断该首歌曲的音乐情绪类别，通常是让多个标注人员同时标注同一首歌曲，根据多人标注的结果取交并集，生成最终的情绪标签。

然而让标注人员根据人耳听觉特性来进行手动标注得标注方案效率极低，一首歌曲通常时长为3-5分钟，而标注人员需要至少完整的听一遍，才能够做出标注。这样就会造成人力标注的效率太过低下，音乐的情绪标签生产慢，影响整个视频剪辑系统性能。而且不同的标注人员对同一首歌的听觉感应是不同的，对同一首歌曲的情绪感应也是不同的。所以在标注过程中就会出现不同人员对于同一首音乐的情绪标注差异很大的情况，这样就会造成交并无结果的情况，所以在人工标注过程中会出现人耳听觉感应的标注人员主观影响，造成标注结果错误。

然而，通过本申请实施例中S201-S203可以实现通过多分类模型全面且自动的识别出所输入目标音乐的K个情绪标签。这种多分类模型能够节省大量的标注人力成本，同时还能够避免因为不同标注人的主观情绪感应的差异，造成最后交并集出来的音乐情绪标签错误或者差异太大的问题。

还有一些相关技术中使用聚类的方法对音乐生成情绪标签，然而基于聚类算法每个粒子只能聚类到一个簇中，使得智能对目标音乐生成一个情绪标签。但目标音乐所体现出的音乐情绪可能会在同一首音乐中出现多种，如果使用聚类方法，就会造成生成情绪标签不能够完整标识目标音乐的现象，不能够为视频剪辑提供更多的音乐情绪信息。

而且，还有一些相关技术中主要通过人类的主观情绪类别来确定标识音乐情绪的情绪标签，这类情绪标签，可能并不适用于媒体内容尤其是影视剧题材类的视频剪辑任务，因为很多场景中通过背景音乐体现出的音乐情绪是无法与人类的情绪标签产生直观对应的，这就会造成这类情绪标签所提供的信息在视频剪辑配乐中无法直接使用来挑选背景音乐。

由于目标内容平台对应的多分类模型可以实现对多个情绪标签的识别，使得当目标音乐的音乐情绪有多种时，通过多分类模型识别出的概率分布可以确定出目标音乐的多个(K≥2)情绪标签。从而通过这K个情绪标签可以更为全面、准确的标识目标音乐的音乐情绪，尤其是确定出的情绪标签里包括基于目标内容平台中内容所涉及主题确定的情绪标签时，可以在确定背景音乐时确定出与目标媒体内容所涉及主题更为贴合的背景音乐，能够比单纯的人类情绪标签更适应视频剪辑配乐在情绪上的需求。

如图3所示的影视内容平台的应用场景中，L＝12，M＝7，N＝5，多分类模型所能识别的12个情绪标签可以参见表1。基于人类情绪确定的7个情绪标签分别为伤感、快乐、励志、甜蜜、治愈、思念和宣泄，基于所述影视内容平台所涉及影视题材确定的5个情绪标签分别为感人、史诗、紧张、战斗和搞笑。

针对获取的目标音乐，可以通过多分类模型识别目标音乐在上述12个情绪标签的概率分布，以此得到目标音乐的情绪标签。可以将目标音乐的情绪标签和目标音乐的标识例如目标音乐的统一资源定位器(Uniform Resource Locator，URL)进行关联保存。

S204：获取属于所述目标内容平台的目标媒体内容。

S205：根据所述目标音乐的K个情绪标签，确定所述目标媒体内容对应的背景音乐。

目标媒体内容为需要通过目标内容平台添加背景音乐的媒体内容。该目标媒体内容可以是已经上传到目标内容平台中的，也可以是准备添加完背景音乐后再上传到目标内容平台中的，也可以是对已经上传到目标内容平台中的媒体内容进行视频剪辑处理得到的媒体内容。本申请对目标媒体内容不进行限定，只要目标媒体内容的主题类型符合目标内容平台要求即可。

以视频剪辑为例，本申请实施例可以应用于智能剪辑中，智能剪辑为以图像识别技术为基础，结合语音识别、智能识别、有效镜头检测等人工智能技术，通过自动合成剪辑模型的综合应用，同时根据组合出的视频集锦和拼接视频进行音乐的选择以及音乐片段的截取，给视频附上背景音乐，最终实现智能剪辑功能。

由于前述S201-S203实现了通过多分类模型全面且自动的识别出所输入目标音乐的K个情绪标签，该K个情绪标签可以标识出目标音乐中可能具有的多种音乐情绪，并且能够标识出目标音乐与目标内容平台中内容所涉及主题相关的音乐情绪，从而当需要通过目标内容平台对目标媒体内容进行背景音乐的添加时，通过前述确定的情绪标签可以更为精准的确定出与目标媒体内容相符的背景音乐，例如目标音乐。当将目标音乐作为背景音乐添加到目标媒体内容中后，用户通过目标内容平台观看目标媒体内容时，作为背景音乐的目标音乐将会在观看过程起到增强、引导用户的观看情绪的作用，为目标媒体内容带来正面影响。

接下来主要说明本申请实施例中提出的多分类模型。

该多分类模型可以实现通过多分类模块以一次分类，识别得到目标音乐在L个情绪标签下的总概率分布，也可以通过多个二分类模块，并行的分别识别目标音乐在单个情绪标签下的概率参数。

在一种可能的实现方式中，S202包括：

根据所述多分类模型所包括的L个二分类模块，得到所述目标音乐与所述L个情绪标签分别对应的L个概率参数，根据所述L个概率参数确定所述概率分布。

如图4所示，多分类模型包括了L个二分类模块，所述L个二分类模块与所述L个情绪标签一一对应。根据目标音乐确定的输入数据，多分类模型通过特征提取等方式，将提取的特征输入全连接层(dense)，全连接层将输出分类提供给L个二分类模块，任意一个二分类模块所输出的概率分布用于标识目标音乐在该二分类模块所对应的情绪标签下的概率参数。从而得到目标音乐的概率参数1-L，通过这些概率参数能够体现出目标音乐的概率分布。

针对具有多个二分类模块的多分类模型也可以称之为多二分类模型，该多分类模型的上述模型结构在本申请实施例中具有易于扩展的作用，例如当需要增加新的情绪标签时，不论是新的情绪标签是基于人类情绪确定的还是基于目标内容平台中内容所涉及主题确定的，都可以直接在原本的模型结构中增加与之对应的二分类模块即可，基本上实现了即插即用，从而大大提高了多分类模型在本申请实施例中的适用性。

在一种可能的实现方式中，多分类模型中还可以包括下游分类神经网络，S202包括：

S2021：根据所述目标音乐的音频特征序列确定所述多分类模型的输入数据。

本申请不限定如何获取目标音乐的音频特征序列，也不限定如何基于音频特征序列得到多分类模型的输入数据。

S2022：通过所述下游分类神经网络的时序状态生成层得到所述输入数据对应的前向隐状态和后向隐状态。

其中，所述前向隐状态用于标识所述目标音乐在播放时序上的整体情绪信息，所述后向隐状态用于标识所述目标音乐在逆播放时序上的整体情绪信息。

通过前向隐状态和后向隐状态携带目标音乐整体的情绪信息，从正向时序和反向时序上有效的体现了整体情绪信息。这类信息相对于目标音乐中音频帧特征能够更好的为确定目标音乐的音乐情绪与哪个或哪些情绪标签相关提供依据。

为了能够获得更为准确的整体情绪信息，在一种可能的实现方式中，所述下游分类神经网络包括顺序拼接的多个双向时间循环神经子网络，所述前向隐状态和所述后向隐状态是根据所述多个双向时间循环神经子网络中在处理顺序上最后一个双向时间循环神经子网络得到的。

该双向时间循环神经子网络可以是双向长短期记忆网络(Bi-directional LongShort-Term Memory，BLSTM)，LSTM主要就是为了解决长期依赖的问题，它的本质就是能够记住很长时期内的信息。而BLSTM可以在时间正向和反向上记住长时期信息。

S2023：根据所述前向隐状态和所述后向隐状态，识别所述目标音乐在L个情绪标签下的概率分布。

如图5所示的是下游分类神经网络配置了顺序拼接的两个双向时间循环神经子网络的模型结构。两个双向时间循环神经子网络分别为BLSTM1和BLSTM2，每层LSTM的隐藏层节点数为512，BLSTM2为下游分类神经网络中最后一层双向时间循环神经子网络。

BLSTM1根据自身的输入数据(例如可以是嵌入向量序列，一个n*128的二维矩阵)，通过双向BLSTM处理后得到输出数据传至BLSTM2，BLSTM2在进行双向BLSTM处理过程中，生成了前向隐状态和后向隐状态，每个状态都是一个1*512的向量，通过将前向隐状态和后向隐状态拼接生成一个1024的信息向量，这个向量中包含了整首音乐的所有情绪信息。最后将这条信息向量输入到全连接层和L个二分类全连接层(图5中示出的为二分类模块1-L，具体可以参考图4中对应的描述)中，生成12个情绪标签的置信度，在最后的全连接层中所有的激活函数都是用softmax函数。

在一种可能的实现方式中，所述多分类模型还包括上游向量生成网络，所述方法还包括：

通过所述上游向量生成网络生成所述输入数据对应的嵌入向量序列。

相应的，S2022包括：通过所述下游分类神经网络的时序状态生成层得到所述嵌入向量序列对应的前向隐状态和后向隐状态。

如图6所示的是一种上游向量生成网络，在图6中该上游向量生成网络示例性的以VGG(Vggish)模型示出。Vggish模型是在AudioSet数据预训练得到模型，AudioSet是一个由数百万个人标记的10秒视频音轨组成的数据集，其标签来自600多个音频事件类的本体。

VGG模型是一个通用的音频分类模型，目前很多音频分类的模型都是继承的vggish模型架构。更多的是将vggish作为一个特征提取器，也就是将音频基础特征序列输入到模型中，生成一系列的高级特征编码的嵌入向量(embedding vector)序列。

在图6中，上游向量生成网络的输入的是上一个模块生成的音频特征序列n*96*64，然后以96*64为基础特征图进行计算。由图6可以看出，VGG由5层卷积层(ConvolutionalNeural Network,CNN)、3层全连接层、softmax输出层构成，层与层之间使用最大池化层(max-pooling)分开，所有隐层的激活单元都采用(Rectified Linear Unit，ReLU)函数。卷积层是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成，同时也包括关联权重和池化层(pooling layer)。

VGG模型使用多个较小卷积核(3x3)的卷积层代替一个卷积核较大的卷积层，一方面可以减少参数，另一方面相当于进行了更多的非线性映射，可以增加网络的拟合/表达能力。两个3x3的卷积堆叠获得的感受野大小，相当一个5x5的卷积；而3个3x3卷积的堆叠获取到的感受野相当于一个7x7的卷积。这样可以增加非线性映射，也能很好地减少参数。经过VGG模型处理过后，每个96*64的微元都会计算成一个128阶的embedding vector。这个128阶的embedding vector已经包含了这96帧音频的所有信息，也就是VGG输出的高级特征。整条音乐音频信号最终会生成一个n*128的embedding vector序列。

需要注意的是，本申请实施例不限定上游向量生成网络的具体模型结构，可以是如图6示出的情况，也可以是其他形式的模型机构。为了提高上游向量生成网络的处理效率还可以采用比VGG模型更为轻量级的模型来代替。

接下来说明如何基于目标音乐确定所分离模型的输入数据，在一种可能的实现方式中，所述方法还包括：

对所述目标音乐进行特征提取，得到对应的音乐特征频谱；

根据所述多分类模型的输入要求对所述音乐特征频谱进行分帧处理，得到包括多个分帧特征图的音频特征序列。

在本申请中将会基于多分类模型的输入要求来确定得到目标音乐的何种音频特征序列，例如在前述实施例中，多分类模型可以包括上游向量生成网络，而且上游向量生成网络也可以具有不同的模型结构，相应的，本申请会基于上游向量生成网络在不同模型结构下的输入要求确定目标音乐的音频特征序列。

接下来结合图7说明在多分类模型包括上游向量生成网络，且上游向量生成网络为VGG模型时，如何确定音频特征序列。

首先是将目标音乐的音频信号读入，由于生成音乐的场景各种各样，导致了音乐的音频格式并不统一。例如视频剪辑种所使用的音乐具有多样性，音频格式也不是统一的，所以在读入原始的音频信号后进行统一的音频重采样，将音频信号重采样为统一的参数范围，例如将音频信号重采样成为16KHz。

重采样后的音频信号为一个一维的数列，然后进行短时傅立变换(short-timeFourier transform，或short-term Fourier transform，STFT)计算，求得音频的频谱图也就是音频的频域特征。然后使用梅尔(mel)滤波器进行梅尔滤波得到梅尔频谱(melspectrogram)，这里使用的梅尔滤波是基于梅尔频率制作的滤波器。其中梅尔频率是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。

求得的梅尔频谱进行取对数，就能够得到模型中所使用的64阶梅尔频谱对数(log-mel spectrogram)。因为在VGG模型的输入中，所有的特征都是以二维的特征图存在的，所以在输入到VGG模型之前，每96帧的特征共同组成一个96*64的二维特征图，分帧完之后每条目标音乐的特征组成为n*96*64。

VGG模型的输入的格式为[b,n,96,64]，一个四阶的矩阵，其中第一维度b为batchsize，也就是输入网络中时每次输入歌曲的条数。n为分帧数，也就是当前处理的音乐分为多少帧单元，然后96为每一帧单元有多少个特征微元(音频帧)，64就是在求取音频特征时求得的音频特征阶数。

通过对目标音乐进行符合多分类模型的输入要求的处理，使得输入多分类模型的音频特征序列能够让多分类模型更为准确的提取其中与情绪相关的信息，提高后续情绪标签识别的准确度。

从而通过上述实施例描述出了一个用于音乐情绪分类的多分类系统的组成，该多分类系统包括了用于提取音频特征的音频特征模块和多分类模型，多分类模型包括上游向量生成网络(例如VGG模型)和下游分类神经网络。

当获取目标音乐后，首先经过音频特征模块将目标音乐的音频信号提取为音频特征序列，然后将音频特征序列输入到上游向量生成网络，对音频特征序列进行计算，求得整条音频的嵌入向量序列，然后将嵌入向量序列输入到下游分类神经网络中，经过L个二分类后，得到该首音乐在L类音乐情绪上的置信度表现。

接下来说明本申请实施例提供的多分类模型的训练方式。

由于本申请中的多分类模型所能识别的情绪标签包括了基于人类情绪确定的M个情绪标签和基于所述目标内容平台中内容所涉及主题确定的N个情绪标签。故为了能够实现上述能力，本申请实施例提供了一种多分类模型的训练方式，所述方法还包括：

S801：获取所述目标内容平台中已添加背景音乐的历史媒体内容。

S802：将所述历史媒体内容的背景音乐作为样本音乐，根据所述历史媒体内容所涉及主题的主题类型，确定所述样本音乐的主题情绪标签。

S803：将所述样本音乐的主题情绪标签和人类情绪标签作为所述样本音乐的情绪标签，生成音乐训练样本。

S804：根据所述音乐训练样本对初始分类模型进行训练，得到所述多分类模型。

上述历史媒体内容可以是目标内容平台中已经获得认可的媒体内容，例如一些热门内容、受到用户欢迎的内容等。从而相当于通过用户的行为确定出了背景音乐与主题相符的媒体内容。那么可以将这些历史媒体内容所涉及主题的主题类型确定背景音乐的主题情绪标签，即基于主题所确定出的情绪标签。

进一步的，还可以确定出背景音乐的人类情绪标签，即基于人类情绪的情绪标签。

通过将上述人类情绪标签和主题情绪标签都作为背景音乐的情绪标签，以此训练初始分类模型，从而使得初始分类模型可以学习到基于什么样的音频输入，可以识别出哪种情绪标签。

需要注意的是，为了保证训练质量，除了需要确定上述音乐训练样本(正样本)外，还可以确定出一些负样本，负样本的确定方式也可以基于用户的行为，将一些不受用户喜爱的、评论中指出背景音乐不好的历史媒体内容中的背景音乐确定为负样本，以避免模型的过拟合。

在上述实施例中提供的背景音乐添加方法的基础上，本申请实施例提供了一种背景音乐添加装置，该背景音乐添加装置可以配置在前述的计算机设备中。图8为本申请实施例提供的一种背景音乐添加装置，所述背景音乐添加装置800包括获取单元801、识别单元802和确定单元803：

所述获取单元801，用于获取待识别的目标音乐，所述目标音乐被目标内容平台提供为用于添加到媒体内容中的背景音乐；

所述识别单元802，用于根据所述目标内容平台对应的多分类模型识别所述目标音乐在L个情绪标签下的概率分布，所述L个情绪标签中包括基于人类情绪确定的M个情绪标签和基于所述目标内容平台中内容所涉及主题确定的N个情绪标签，L≥2；

所述确定单元803，用于基于所述概率分布从所述L个情绪标签中确定所述目标音乐的K个情绪标签；

所述获取单元801还用于获取属于所述目标内容平台的目标媒体内容；

所述确定单元803还用于根据所述目标音乐的K个情绪标签，确定所述目标媒体内容对应的背景音乐。

在一种可能的实现方式中，所述识别单元还用于：

根据所述多分类模型所包括的L个二分类模块，得到所述目标音乐与所述L个情绪标签分别对应的L个概率参数，所述L个二分类模块与所述L个情绪标签一一对应；

根据所述L个概率参数确定所述概率分布。

在一种可能的实现方式中，所述多分类模型包括下游分类神经网络，所述识别单元还用于：

根据所述目标音乐的音频特征序列确定所述多分类模型的输入数据；

通过所述下游分类神经网络的时序状态生成层得到所述输入数据对应的前向隐状态和后向隐状态，所述前向隐状态用于标识所述目标音乐在播放时序上的整体情绪信息，所述后向隐状态用于标识所述目标音乐在逆播放时序上的整体情绪信息；

根据所述前向隐状态和所述后向隐状态，识别所述目标音乐在L个情绪标签下的概率分布。

在一种可能的实现方式中，所述下游分类神经网络包括顺序拼接的多个双向时间循环神经子网络，所述前向隐状态和所述后向隐状态是根据所述多个双向时间循环神经子网络中在处理顺序上最后一个双向时间循环神经子网络得到的。

在一种可能的实现方式中，所述多分类模型还包括上游向量生成网络，所述装置还包括生成单元：

所述生成单元，用于通过所述上游向量生成网络生成所述输入数据对应的嵌入向量序列；

所述识别单元还用于通过所述下游分类神经网络的时序状态生成层得到所述嵌入向量序列对应的前向隐状态和后向隐状态。

在一种可能的实现方式中，所述装置还包括提取单元和分帧单元：

所述提取单元，用于对所述目标音乐进行特征提取，得到对应的音乐特征频谱；

所述分帧单元，用于根据所述多分类模型的输入要求对所述音乐特征频谱进行分帧处理，得到包括多个分帧特征图的音频特征序列。

在一种可能的实现方式中，所述获取单元还用于：

获取待处理歌曲；

根据切分条件将所述待处理歌曲切分为多段歌曲片段，所述切分条件包括预设时长、歌曲组成部分或曲调切换中的至少一个；

将所述多段歌曲片段中的任意一段作为所述目标音乐。

在一种可能的实现方式中，所述装置还包括训练单元，所述训练单元用于：

获取所述目标内容平台中已添加背景音乐的历史媒体内容；

将所述历史媒体内容的背景音乐作为样本音乐，根据所述历史媒体内容所涉及主题的主题类型，确定所述样本音乐的主题情绪标签；

将所述样本音乐的主题情绪标签和人类情绪标签作为所述样本音乐的情绪标签，生成音乐训练样本；

根据所述音乐训练样本对初始分类模型进行训练，得到所述多分类模型。

由此可见，针对目标内容平台中可作为背景音乐的目标音乐，可通过该目标内容平台对应的多分类模型识别该目标音乐的情绪标签。由于多分类模型可以实现在L个情绪标签下的分类识别，且该L个情绪标签中包括基于人类情绪确定的M个情绪标签和基于所述目标内容平台中内容所涉及主题情绪确定的N个情绪标签，由此通过多分类模型所识别出的概率分布为目标音乐确定出的K个情绪标签时，其可以包括与该目标内容平台中主题情绪相关的情绪标签。从而，当需要为目标内容平台的目标媒体内容添加背景音乐时，若通过目标音乐的K个情绪标签确定目标音乐可用于目标媒体内容的背景音乐，那么目标音乐与目标媒体内容具有较好适配度的可能性更高，以此得到的具有背景音乐的目标媒体内容在被观看时，作为背景音乐的目标音乐将会在观看过程起到增强、引导用户的观看情绪的作用，为目标媒体内容带来正面影响。

本申请实施例还提供了一种计算机设备，该计算机设备为前述介绍的计算机设备，可以包括终端设备或服务器，前述的背景音乐添加装置可以配置在该计算机设备中。下面结合附图对该计算机设备进行介绍。

若该计算机设备为终端设备，请参见图9所示，本申请实施例提供了一种终端设备，以终端设备为手机为例：

图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9，手机包括：射频(Radio Frequency，简称RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(Wireless Fidelity，简称WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路1410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1480处理；另外，将设计上行的数据发送给基站。通常，RF电路1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1420可用于存储软件程序以及模块，处理器1480通过运行存储在存储器1420的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1430可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1430可包括触控面板1431以及其他输入设备1432。触控面板1431，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1480，并能接收处理器1480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1431。除了触控面板1431，输入单元1430还可以包括其他输入设备1432。具体地，其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1441。进一步的，触控面板1431可覆盖显示面板1441，当触控面板1431检测到在其上或附近的触摸操作后，传送给处理器1480以确定触摸事件的类型，随后处理器1480根据触摸事件的类型在显示面板1441上提供相应的视觉输出。虽然在图9中，触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1431与显示面板1441集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1441和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1460、扬声器1461，传声器1462可提供用户与手机之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号，传输到扬声器1461，由扬声器1461转换为声音信号输出；另一方面，传声器1462将收集的声音信号转换为电信号，由音频电路1460接收后转换为音频数据，再将音频数据输出处理器1480处理后，经RF电路1410以发送给比如另一手机，或者将音频数据输出至存储器1420以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块1470，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1480是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1420内的软件程序和/或模块，以及调用存储在存储器1420内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1480可包括一个或多个处理单元；优选的，处理器1480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1480中。

手机还包括给各个部件供电的电源1490(比如电池)，优选的，电源可以通过电源管理系统与处理器1480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1480还具有以下功能：

获取属于所述目标内容平台的目标媒体内容；

若计算机设备为服务器，本申请实施例还提供一种服务器，请参见图10所示，图10为本申请实施例提供的服务器1500的结构图，服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)1522(例如，一个或一个以上处理器)和存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中，存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1522可以设置为与存储介质1530通信，在服务器1500上执行存储介质1530中的一系列指令操作。

服务器1500还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作系统1541，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例所提供的背景音乐添加方法中由服务器所执行的步骤可以基于图10所示的服务器结构。

另外，本申请实施例还提供了一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于执行上述实施例提供的方法。

本申请实施例还提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：Read-only Memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种背景音乐添加方法，其特征在于，所述方法包括：

获取属于所述目标内容平台的目标媒体内容；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标内容平台对应的多分类模型识别所述目标音乐在L个情绪标签下的概率分布，包括：

根据所述L个概率参数确定所述概率分布。

3.根据权利要求1所述的方法，其特征在于，所述多分类模型包括下游分类神经网络，所述根据所述目标内容平台对应的多分类模型识别所述目标音乐在L个情绪标签下的概率分布，包括：

4.根据权利要求3所述的方法，其特征在于，所述下游分类神经网络包括顺序拼接的多个双向时间循环神经子网络，所述前向隐状态和所述后向隐状态是根据所述多个双向时间循环神经子网络中在处理顺序上最后一个双向时间循环神经子网络得到的。

5.根据权利要求3所述的方法，其特征在于，所述多分类模型还包括上游向量生成网络，所述方法还包括：

通过所述上游向量生成网络生成所述输入数据对应的嵌入向量序列；

所述通过所述下游分类神经网络的时序状态生成层得到所述输入数据对应的前向隐状态和后向隐状态，包括：

通过所述下游分类神经网络的时序状态生成层得到所述嵌入向量序列对应的前向隐状态和后向隐状态。

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

对所述目标音乐进行特征提取，得到对应的音乐特征频谱；

7.根据权利要求1-6任意一项所述的方法，其特征在于，所述获取待识别的目标音乐，包括：

获取待处理歌曲；

将所述多段歌曲片段中的任意一段作为所述目标音乐。

8.根据权利要求1-6任意一项所述的方法，其特征在于，所述方法还包括：

获取所述目标内容平台中已添加背景音乐的历史媒体内容；

9.一种背景音乐添加装置，其特征在于，所述装置包括获取单元、识别单元和确定单元：

10.根据权利要求9所述的装置，其特征在于，所述识别单元还用于：

根据所述L个概率参数确定所述概率分布。

11.根据权利要求9所述的装置，其特征在于，所述多分类模型包括下游分类神经网络，所述识别单元还用于：

12.根据权利要求11所述的装置，其特征在于，所述下游分类神经网络包括顺序拼接的多个双向时间循环神经子网络，所述前向隐状态和所述后向隐状态是根据所述多个双向时间循环神经子网络中在处理顺序上最后一个双向时间循环神经子网络得到的。

13.根据权利要求11所述的方法，其特征在于，所述多分类模型还包括上游向量生成网络，所述装置还包括生成单元：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-8中任意一项所述的背景音乐添加方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-8中任意一项所述的背景音乐添加方法。

16.一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1-8中任意一项所述的背景音乐添加方法。