CN111767431A

CN111767431A - 用于视频配乐的方法和装置

Info

Publication number: CN111767431A
Application number: CN202010604165.5A
Authority: CN
Inventors: 朱延东; 袁泽寰; 王长虎
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-13

Abstract

本申请实施例公开了用于视频配乐的方法和装置。该方法的一具体实施方式包括：获取待配乐视频；将该待配乐视频输入至预先训练的视频情绪分类模型，得到与该待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率；获取与该待配乐视频对应的待召回乐曲信息集合，其中，该待召回乐曲信息集合中的各乐曲信息对应有至少一种情绪标签；基于该待配乐视频对应的至少一个情绪分类信息和概率与该待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成召回乐曲信息列表。该实施方式充分利用了视频与配乐的情绪维度的信息，从而有效提升了视频配乐的匹配度。

Description

用于视频配乐的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及用于视频配乐的方法和装置。

背景技术

随着互联网技术的发展，UGC(User Generated Content，用户生成内容)也取得了越来越广泛的应用。在视频配乐领域，相关的方式通常采用优先将历史采纳率较高或近期热门的歌曲推荐给用户，或者利用用户的历史数据(例如历史投稿的视频及其配乐)来指导模型训练，从而学习视频和配乐之间的关联关系。

发明内容

本申请实施例提出了用于视频配乐的方法和装置。

第一方面，本申请实施例提供了一种用于视频配乐的方法，该方法包括：获取待配乐视频；根据待配乐视频，得到与待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率；获取与待配乐视频对应的待召回乐曲信息集合，其中，待召回乐曲信息集合中的各乐曲信息对应有至少一种情绪标签；基于待配乐视频对应的至少一个情绪分类信息的概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成召回乐曲信息列表。

在一些实施例中，上述待召回乐曲信息集合中的各乐曲信息还对应有召回分数；以及上述基于待配乐视频对应的至少一个情绪分类信息的概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成召回乐曲信息列表，包括：根据待配乐视频对应的至少一个情绪分类信息和概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，对待召回乐曲信息集合中的各乐曲信息对应的召回分数进行调整；根据调整后的召回分数对待召回乐曲信息集合中的各乐曲信息进行排序，生成乐曲信息列表。

在一些实施例中，上述待召回乐曲信息集合中的各乐曲信息还对应有至少一种情绪标签各自的概率分数；以及上述根据待配乐视频对应的至少一个情绪分类信息和概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，对待召回乐曲信息集合中的各乐曲信息对应的召回分数进行调整，包括：对于待召回乐曲信息集合中的乐曲信息，根据该乐曲信息对应的至少一个情绪标签和概率分数与待配乐视频对应的至少一个情绪分类信息和概率，生成该乐曲信息与待配乐视频的匹配值；增加所生成的匹配值大于第一预设阈值的乐曲信息对应的召回分数；降低所生成的匹配值小于第二预设阈值的乐曲信息对应的召回分数，其中，第二预设阈值小于第一预设阈值。

在一些实施例中，上述根据待配乐视频，得到与待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率，包括：将待配乐视频输入至预先训练的视频情绪分类模型，得到与待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率；以及上述视频情绪分类模型通过以下步骤训练得到：获取情绪关键词集合，其中，情绪关键词集合包括至少一种情绪分类信息对应的关联关键词，关联关键词包括场景描述关键词、名词关键词中的至少一者；根据情绪关键词集合，在与待配乐视频同源的历史视频库中搜索与各情绪关键词匹配的视频，生成与各情绪关键词对应的匹配视频集合，其中，历史视频库包括视频和与视频相关的文本；基于所生成的匹配视频集合和对应的情绪分类信息，生成训练样本集合；将训练样本集合中的匹配视频作为输入，将与输入的匹配视频对应的情绪分类信息作为期望输出，利用机器学习方法训练得到视频情绪分类模型。

在一些实施例中，上述视频相关的文本包括用户名；以及上述基于所生成的匹配视频集合和对应的情绪分类信息，生成训练样本集合，包括：从所生成匹配视频集合中选取用户名与情绪关键词匹配的视频作为待过滤视频；基于对所选取的待过滤视频的过滤，生成训练样本集合。

在一些实施例中，上述将训练样本集合中的匹配视频作为输入，将与输入的匹配视频对应的情绪分类信息作为期望输出，利用机器学习方法训练得到视频情绪分类模型，包括：将训练样本集合中的匹配视频输入初始视频情绪分类模型，得到与输入的匹配视频对应的情绪分类结果；基于所得到的情绪分类结果与输入的匹配视频对应的情绪分类信息之间的差异生成损失值；响应于确定所生成的损失值大于第三预设阈值，减小模型参数的更新步长；基于减小后的更新步长调整初始视频情绪分类模型的参数，在满足预设的训练结束条件的情况下结束训练；将训练得到的初始视频情绪分类模型确定为视频情绪分类模型。

在一些实施例中，该方法还包括：向目标终端设备发送召回乐曲信息列表以及用于表征召回乐曲信息列表基于乐曲情绪推荐的提示信息，其中，提示信息与召回乐曲信息列表中的乐曲信息对应的情绪标签相关联；响应于接收到目标终端设备发送的、包括调整后的情绪分类信息的推荐反馈信息，基于调整后的情绪分类信息与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成调整后的召回乐曲信息列表；将调整后的召回乐曲信息列表发送至目标终端设备。

第二方面，本申请实施例提供了一种用于显示召回乐曲信息的方法，该方法包括：向目标服务器发送待配乐视频；接收目标服务器发送的与待配乐视频相匹配的召回乐曲信息列表以及用于表征召回乐曲信息列表基于乐曲情绪推荐的提示信息，其中，提示信息与召回乐曲信息列表中的乐曲信息对应的情绪标签相关联；显示与待配乐视频相匹配的召回乐曲信息列表以及提示信息。

在一些实施例中，该方法还包括：获取推荐反馈信息，其中，推荐反馈信息基于用户针对所显示的提示信息的调整而生成，调整包括以下至少一项：删除情绪分类信息，增加情绪分类信息，调整情绪分类信息之间的顺序；将推荐反馈信息发送至目标服务器；响应于接收到目标服务器发送的与推荐反馈信息匹配的调整后的召回乐曲信息列表，显示调整后的召回乐曲信息列表。

第三方面，本申请实施例提供了一种用于视频配乐的装置，该装置包括：第一获取单元，被配置成获取待配乐视频；生成单元，被配置成根据待配乐视频，得到与待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率；第二获取单元，被配置成获取与待配乐视频对应的待召回乐曲信息集合，其中，待召回乐曲信息集合中的各乐曲信息对应有至少一种情绪标签；召回单元，被配置成基于待配乐视频对应的至少一个情绪分类信息的概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成召回乐曲信息列表。

在一些实施例中，上述待召回乐曲信息集合中的各乐曲信息还对应有召回分数。上述召回单元包括：调整模块，被配置成根据待配乐视频对应的至少一个情绪分类信息和概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，对待召回乐曲信息集合中的各乐曲信息对应的召回分数进行调整；生成模块，被配置成根据调整后的召回分数对待召回乐曲信息集合中的各乐曲信息进行排序，生成乐曲信息列表。

在一些实施例中，上述待召回乐曲信息集合中的各乐曲信息还对应有至少一种情绪标签各自的概率分数。上述调整模块包括：生成子模块，被配置成对于待召回乐曲信息集合中的乐曲信息，根据该乐曲信息对应的至少一个情绪标签和概率分数与待配乐视频对应的至少一个情绪分类信息和概率，生成该乐曲信息与待配乐视频的匹配值；第一调整子模块，被配置成增加所生成的匹配值大于第一预设阈值的乐曲信息对应的召回分数；第二调整子模块，被配置成降低所生成的匹配值小于第二预设阈值的乐曲信息对应的召回分数，其中，第二预设阈值小于第一预设阈值。

在一些实施例中，上述生成单元进一步被配置成：将待配乐视频输入至预先训练的视频情绪分类模型，得到与待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率；以及上述视频情绪分类模型通过以下步骤训练得到：获取情绪关键词集合，其中，情绪关键词集合包括至少一种情绪分类信息对应的关联关键词，关联关键词包括场景描述关键词、名词关键词中的至少一者；根据情绪关键词集合，在与待配乐视频同源的历史视频库中搜索与各情绪关键词匹配的视频，生成与各情绪关键词对应的匹配视频集合，其中，历史视频库包括视频和与视频相关的文本；基于所生成的匹配视频集合和对应的情绪分类信息，生成训练样本集合；将训练样本集合中的匹配视频作为输入，将与输入的匹配视频对应的情绪分类信息作为期望输出，利用机器学习方法训练得到视频情绪分类模型。

在一些实施例中，上述视频相关的文本包括用户名；上述基于所生成的匹配视频集合和对应的情绪分类信息，生成训练样本集合，包括：从所生成匹配视频集合中选取用户名与情绪关键词匹配的视频作为待过滤视频；基于对所选取的待过滤视频的过滤，生成训练样本集合。

在一些实施例中，该装置还包括：信息发送单元，被配置成向目标终端设备发送召回乐曲信息列表以及用于表征召回乐曲信息列表基于乐曲情绪推荐的提示信息，其中，提示信息与召回乐曲信息列表中的乐曲信息对应的情绪标签相关联；调整单元，被配置成响应于接收到目标终端设备发送的、包括调整后的情绪分类信息的推荐反馈信息，基于调整后的情绪分类信息与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成调整后的召回乐曲信息列表；信息再发送单元，被配置成将调整后的召回乐曲信息列表发送至目标终端设备。

第四方面，本申请实施例提供了一种用于显示召回乐曲信息的装置，该装置包括：视频发送单元，被配置成向目标服务器发送待配乐视频；接收单元，被配置成接收目标服务器发送的与待配乐视频相匹配的召回乐曲信息列表以及用于表征召回乐曲信息列表基于乐曲情绪推荐的提示信息，其中，提示信息与召回乐曲信息列表中的乐曲信息对应的情绪标签相关联；显示单元，被配置成显示与待配乐视频相匹配的召回乐曲信息列表以及提示信息。

在一些实施例中，该装置还包括：信息获取单元，被配置成获取推荐反馈信息，其中，推荐反馈信息基于用户针对所显示的提示信息的调整而生成，调整包括以下至少一项：删除情绪分类信息，增加情绪分类信息，调整情绪分类信息之间的顺序；反馈信息发送单元，被配置成将推荐反馈信息发送至目标服务器；再显示单元，被配置成响应于接收到目标服务器发送的与推荐反馈信息匹配的调整后的召回乐曲信息列表，显示调整后的召回乐曲信息列表。

第五方面，本申请实施例提供了一种服务器，该服务器包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第六方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的用于视频配乐的方法和装置，通过引入对待配乐视频的情绪分类信息和待召回乐曲的情绪标签的匹配，充分利用了视频与配乐的情绪维度的信息，从而有效提升了视频配乐的匹配度。而且，由于选取情绪这一维度来显式地呈现视频与乐曲的匹配度，相比于传统的通过初始随机编码的ID特征的模型具有更强的可解释性，从而有助于后期对于模型的调试和优化。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于视频配乐的方法的一个实施例的流程图；

图3是根据本申请的实施例的用于视频配乐的方法的一个应用场景的示意图；

图4是根据本申请的用于视频配乐的方法的又一个实施例的流程图；

图5是根据本申请的用于显示召回乐曲信息的方法的一个实施例的流程图；

图6是根据本申请的用于视频配乐的装置的一个实施例的结构示意图；

图7是根据本申请的用于显示召回乐曲信息的装置的一个实施例的结构示意图；

图8是适于用来实现本申请的实施例的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于视频配乐的方法或用于视频配乐的装置的示例性架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件、文本编辑类应用、视频编辑类应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且支持音视频编辑的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如为终端设备101、102、103上推荐的视频配乐提供支持的后台服务器。后台服务器可以对接收的待配乐视频进行分析等处理，并生成处理结果(如与待配乐视频匹配的召回乐曲信息列表)或将处理结果反馈给终端设备。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的用于视频配乐的方法一般由服务器105执行，相应地，用于视频配乐的装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的用于视频配乐的方法的一个实施例的流程200。该用于视频配乐的方法包括以下步骤：

步骤201，获取待配乐视频。

在本实施例中，用于视频配乐的方法的执行主体(如图1所示的服务器105)可以通过有线连接方式或者无线连接方式获取待配乐视频。其中，上述待配乐视频可以包括各种具有一定内容主题的视频，例如电子相册、美食视频等。

作为示例，上述执行主体可以获取预先存储于本地的待配乐视频，也可以获取与之通信连接的电子设备(例如图1所示的终端设备)发送的用户上传的投稿视频。

步骤202，根据待配乐视频，得到与待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率。

在本实施例中，上述执行主体可以通过各种方式根据步骤201所获取的待配乐视频，得到与上述待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率。其中，上述情绪分类信息可以用于表征视频中所传达出的各种情绪，例如可以包括但不限于以下至少一项：“快乐”、“悲伤”、“浪漫”、“轻松”、“兴奋”、“怀旧”、“安静”、“伤感”、“治愈”、“清新”、“孤独”、“思念”。可选地，上述概率通常可以表现为概率分布，即各情绪分类信息对应的概率之和为1。

在本实施例中，作为示例，上述执行主体可以首先通过各种方式从步骤201所获取的待配乐视频中提取关键帧。而后，上述执行主体可以从上述关键帧中提取图像特征。最后，上述执行主体可以根据所提取的图像特征与预设的分类特征进行相似度比较，生成与各分类特征对应的相似度。其中，上述预设的分类特征可以与情绪分类信息相对应。上述所生成的相似度可以作为上述与情绪分类信息对应的概率。

在本实施例的一些可选的实现方式中，上述执行主体可以将步骤201所获取的待配乐视频输入至预先训练的视频情绪分类模型，得到与上述待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率。其中，上述视频情绪分类模型可以用于表征情绪分类信息和对应的概率与待配乐视频之间的对应关系。上述视频情绪分类模型可以包括各种利用机器学习方式所训练的用于分类的模型，例如CNN(Convolutional NeuralNetworks,卷积神经网络)。上述视频分类模型可以输出上述待配乐视频对应的至少一个情绪分类信息和各情绪分类信息对应的分类概率或置信度。上述情绪分类信息可以作为上述视频情绪分类模型的分类标签。

基于上述可选的实现方式，上述视频情绪分类模型可以通过如下步骤训练得到：

第一步，获取情绪关键词集合。

在这些实现方式中，用于训练上述视频情绪分类模型的执行主体可以通过各种方式获取情绪关键词集合。其中，上述情绪关键词集合可以包括至少一种情绪分类信息对应的关联关键词。上述关联关键词可以包括场景描述关键词、名词关键词中的至少一者。作为示例，上述情绪关键词集合可以由技术人员预先设定。例如，情绪分类信息“浪漫”对应的关联关键词可以包括场景描述关键词(“表白”、“吹蜡烛”等)和名词关键词(“热气球”、“玫瑰花”、“婚礼”等)。作为又一示例，上述执行主体还可以利用现有的文本挖掘技术从语料库中获取各情绪分类信息对应的关联关键词。

第二步，根据情绪关键词集合，在与待配乐视频同源的历史视频库中搜索与各情绪关键词匹配的视频，生成与各情绪关键词对应的匹配视频集合。

在这些实现方式中，用于训练上述视频情绪分类模型的执行主体可以通过各种方式在与待配乐视频同源的历史视频库中搜索与各情绪关键词匹配的视频。其中，上述同源用于表征历史视频库中的视频与上述待配乐视频来自于相似的平台(例如同属于UGC短视频平台)。上述历史视频库可以包括视频和与视频相关的文本。上述视频相关的文本例如可以包括但不限于以下至少一项：视频标题，视频评论，视频动态的话题(hashtag)。

作为示例，上述执行主体可以利用现有的文本搜索视频服务，也可以根据视频相关文本与情绪关键词的匹配，生成大量与各情绪关键词对应的匹配视频集合。

由于现有的学术数据集中的视频通常是以人像(人脸)自拍为主的，往往主体明确，重点关注人的表情。但在实际使用场景(例如UGC场景)中，视频分析的情绪不仅包含人的表情，也包含对视频中的事件、场景的分析。同时由于UGC场景下用户投稿视频内容更加丰富，前景和背景更加复杂，因此直接使用学术数据集训练的模型在实际使用场景(例如UGC场景)难以符合要求。基于上述可选的实现方式，可以通过与实际应用场景相近的数据源作为训练样本，避免了由于采用学术数据集进行模型训练而造成的不适于UGC场景的视频分析的限制，为视频配乐的情绪匹配提供重要的数据基础。

第三步，基于所生成的匹配视频集合和对应的情绪分类信息，生成训练样本集合。

在这些实现方式中，基于上述第二步所生成的匹配视频集合和对应的情绪分类信息，上述执行主体通过各种方式生成训练样本集合。其中，上述训练样本集合的样本视频基于上述匹配视频得到。与上述样本视频匹配的样本标签基于样本视频对应的情绪关键词所对应的情绪分类信息得到。

基于上述可选的实现方式，上述执行主体可以利用文本搜索视频的方式召回满足训练需求的训练样本，且无需人工标注样本，节约了大量的人力资源。

可选地，上述视频相关的文本还可以包括用户名。基于所生成的匹配视频集合和对应的情绪分类信息，上述执行主体还可以通过以下步骤生成训练样本集合：

S1、从所生成匹配视频集合中选取用户名与情绪关键词匹配的视频作为待过滤视频。

在这些实现方式中，上述执行主体还可以从上述第二步所生成匹配视频集合中选取用户名与情绪关键词匹配的视频作为待过滤视频。

S2、基于对所选取的待过滤视频的过滤，生成训练样本集合。

在这些实现方式中，基于对上述步骤S1所选取的待过滤视频的过滤，上述执行主体可以生成训练样本集合。作为示例，上述执行主体可以从上述待过滤视频中随机选取若干个视频，将选取的视频及其对应的情绪分类信息进行删除。作为又一示例，上述执行主体可以从上述待过滤视频中选取只有用户名与情绪关键词匹配的视频，将选取的视频及其对应的情绪分类信息进行删除。而后，上述执行主体可以将上述所生成匹配视频集合中剩余的视频和对应的情绪分类信息作为训练样本的样本视频和样本标签，从而生成上述训练样本集合。

由于实际应用场景(例如UGC场景)中存在大量的“脏数据(outlier)”。例如搜索“兔子”时召回大量用户名中包括“兔子”的用户投稿的视频，但视频的内容与“兔子”的关联度并不高。因此，上述“脏数据”的存在会对训练样本质量产生严重影响。基于上述可选的实现方式，可以大大降低所召回的视频与情绪分类信息之间的不匹配性，为后续的模型训练提供高质量的数据基础。

第四步，将训练样本集合中的匹配视频作为输入，将与输入的匹配视频对应的情绪分类信息作为期望输出，利用机器学习方法训练得到视频情绪分类模型。

在这些实现方式中，上述执行主体可以首先将训练样本集合中的匹配视频输入初始视频情绪分类模型，得到与输入的匹配视频对应的情绪分类结果。而后，上述执行主体可以利用预设的损失函数对所得到的情绪分类结果与输入的匹配视频对应的情绪分类信息之间的差异进行计算，从而生成损失值。之后，根据所生成的损失值，上述执行主体可以利用梯度下降(Gradient Descent)法等算法调整上述初始视频情绪分类模型的参数，并在满足预设的训练结束条件的情况下结束训练。最后，上述执行主体可以将训练得到的初始视频情绪分类模型确定为视频情绪分类模型。

可选地，上述执行主体可以通过以下方式利用机器学习方法训练得到视频情绪分类模型：

S1、将训练样本集合中的匹配视频输入初始视频情绪分类模型，得到与输入的匹配视频对应的情绪分类结果。

S2、基于所得到的情绪分类结果与输入的匹配视频对应的情绪分类信息之间的差异生成损失值。

S3、响应于确定所生成的损失值大于第三预设阈值，减小模型参数的更新步长。

在这些实现方式中，上述模型参数的更新步长可以根据目标函数确定。其中，上述目标函数的曲线可以根据实际需要进行预先调整(例如对称轴靠右的抛物线)，从而使模型计算出的结果与样本标签具有很大误差(如大于第三预设阈值)时并不像误差处于正常水平时对模型参数进行同样力度的调整。从而通过降低那些导致模型损失非常大的样本对模型权重的影响，实现了使用包含不可避免的“脏数据”(即样本标注错误)的训练样本对模型进行训练，从而提模型的鲁棒性。

S4、基于减小后的更新步长调整初始视频情绪分类模型的参数，在满足预设的训练结束条件的情况下结束训练。

S5、将训练得到的初始视频情绪分类模型确定为视频情绪分类模型。

需要说明的是，上述步骤S1-S2、S4-S5与前述描述相同，此处不再赘述。

步骤203，获取与待配乐视频对应的待召回乐曲信息集合。

在本实施例中，上述执行主体可以利用各种召回算法获取与待配乐视频对应的待召回乐曲信息集合。其中，上述待召回乐曲信息集合中的各乐曲信息对应有至少一种情绪标签。上述乐曲信息对应的情绪标签可以通过各种方式得到。上述情绪标签通常与上述情绪分类信息一致。作为示例，可以利用文本挖掘技术从网络信息中获取与乐曲信息对应的情绪文本信息(例如音乐网站对歌曲的分类标签，网友对乐曲的评论中的表征情绪关键词)。作为又一示例，上述情绪标签还可以通过预先训练的音乐情绪分类模型得到。其中，上述音乐情绪分类模型可以包括各种利用机器学习方法训练的分类网络，在此不再赘述。

步骤204，基于待配乐视频对应的至少一个情绪分类信息的概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成召回乐曲信息列表。

在本实施例中，基于待配乐视频对应的至少一个情绪分类信息的概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，上述执行主体可以通过各种方式生成召回乐曲信息列表。作为示例，上述执行主体可以首先按照情绪分类信息对应的概率由高至低的顺序选取第一目标数目个情绪分类信息作为目标情绪分类信息。而后，上述执行主体可以将上述待召回乐曲信息集合中对应的情绪标签包括上述目标情绪分类信息的乐曲信息添加至上述召回乐曲信息列表。作为又一示例，上述执行主体还可以将待召回乐曲信息集合中的各乐曲信息对应的情绪标签按照匹配的情绪分类信息对应的概率进行累计，得到各乐曲信息对应的分数。而后，上述执行主体可以按照分数从高至低的顺序选取第二目标数目个乐曲信息，从而生成召回乐曲信息列表。其中，上述第一目标数目和第二目标数目可以根据实际应用场景而预先设定，也可以根据预设规则而定(例如概率大于阈值，分数大于阈值等)，在此不做限定。

在本实施例的一些可选的实现方式中，上述执行主体还可以继续执行以下步骤：

第一步，向目标终端设备发送召回乐曲信息列表以及用于表征召回乐曲信息列表基于乐曲情绪推荐的提示信息。

在这些实现方式中，上述执行主体可以向目标终端设备发送上述步骤204所生成的召回乐曲信息列表以及用于表征上述召回乐曲信息列表基于乐曲情绪推荐的提示信息。其中，上述提示信息可以与上述召回乐曲信息列表中的乐曲信息对应的情绪标签相关联。上述提示信息例如可以包括与上述情绪标签的含义相同或相近的词。上述目标设备可以包括上述待配乐视频对应的客户端，例如发送上述待配乐视频的用户终端。

基于上述可选的实现方式，上述目标设备可以将与待配乐视频对应的召回乐曲信息列表显示给用户以显式地呈现乐曲推荐理由。

第二步，响应于接收到目标终端设备发送的、包括调整后的情绪分类信息的推荐反馈信息，基于调整后的情绪分类信息与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成调整后的召回乐曲信息列表。

在这些实现方式中，响应于接收到目标终端设备发送的、包括调整后的情绪分类信息的推荐反馈信息，上述执行主体可以采用与前述用于视频配乐的方法一致的方式，基于调整后的情绪分类信息与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成调整后的召回乐曲信息列表。

第三步，将调整后的召回乐曲信息列表发送至目标终端设备

基于上述可选的实现方式，上述执行主体可以根据目标设备所发送的推荐反馈信息对所推荐的召回乐曲信息列表中所包括的乐曲信息进行调整，从而利用与用户之间的交互来提升视频配乐的匹配度。

继续参见图3，图3是根据本申请实施例的用于视频配乐的方法的应用场景的一个示意图。在图3的应用场景中，用户301使用终端设备302向后台服务器303上传待配乐视频304。根据接收到的待配乐视频304，后台服务器303可以得到与上述待配乐视频304对应的情绪分类信息和概率(如标号305所示)。后台服务器303获取与待配乐视频304对应的待召回乐曲信息集合(如标号306所示)。基于待召回乐曲信息集合306和待配乐视频304对应的情绪分类信息和概率之间的匹配，后台服务器303可以生成召回乐曲信息列表(如标号307所示)。可选地，后台服务器303还可以将所生成的召回乐曲信息列表307发送至终端设备302，以使用户301可以从召回乐曲信息列表307中选取与待配乐视频匹配的乐曲。

目前，现有技术之一通常是优先将历史采纳率较高或近期热门的歌曲推荐给用户，或者利用用户的历史数据(例如历史投稿的视频及其配乐)来训练表征视频和配乐之间的关联关系的模型，由于并未针对视频和配乐进行情绪分析，往往导致召回与视频的情绪不匹配的乐曲(例如针对一个悲伤的视频，系统推荐的列表中却出现了很欢快的歌曲)。而本申请的上述实施例提供的方法，通过引入对待配乐视频的情绪分类信息和待召回乐曲的情绪标签的匹配，充分利用了视频与配乐的情绪维度的信息，从而有效提升了视频配乐的匹配度。而且，由于选取情绪这一维度来显式地呈现视频与乐曲的匹配度，相比于传统的通过初始随机编码的ID特征的模型具有更强的可解释性，从而有助于后期对于模型的调试和优化。

进一步参考图4，其示出了用于视频配乐的方法的又一个实施例的流程400。该用于视频配乐的方法的流程400，包括以下步骤：

步骤401，获取待配乐视频。

步骤402，根据待配乐视频，得到与待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率。

步骤403，获取与待配乐视频对应的待召回乐曲信息集合。

在本实施例中，上述待召回乐曲信息集合中的各乐曲信息还可以对应有召回分数。其中，上述召回分数可以用于表征符合召回策略的程度。即，召回分数越高，对应的乐曲信息与上述待配乐视频越匹配。

上述步骤401、步骤402、步骤403分别与前述实施例中的步骤201、步骤202、步骤203及其可选的实现方式一致，上文针对步骤201、步骤202、步骤203及其可选的实现方式的描述也适用于步骤401、步骤402和步骤403，此处不再赘述。

步骤404，根据待配乐视频对应的至少一个情绪分类信息的概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，对待召回乐曲信息集合中的各乐曲信息对应的召回分数进行调整。

在本实施例中，根据待配乐视频对应的至少一个情绪分类信息的概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，用于视频配乐的方法的执行主体(例如图1所示的服务器105)可以通过各种方式对待召回乐曲信息集合中的各乐曲信息对应的召回分数进行调整。作为示例，上述执行主体可以按照与前述实施例步骤204中一致的匹配方式，确定上述待召回乐曲信息集合中的各乐曲信息的匹配程度。例如，上述匹配程度可以是乐曲信息对应的情绪标签中与上述待匹配视频对应的概率大于0.3的情绪分类信息匹配的数目。而后，上述执行主体可以根据上述所确定匹配程度对召回分数进行调整。例如根据匹配程度赋予相应大小的权重，将原召回分数乘以对应的权重，生成各乐曲信息对应的新的召回分数。

在本实施例的一些可选的实现方式中，上述待召回乐曲信息集合中的各乐曲信息还可以对应有至少一种情绪标签各自的概率分数。其中，上述情绪标签各自的概率分数可以通过人工标注，也可以通过前述音乐情绪分类模型得到，此处不再赘述。

基于上述各乐曲信息对应的至少一种情绪标签各自的概率分数，上述执行主体还可以按照以下步骤对待召回乐曲信息集合中的各乐曲信息对应的召回分数进行调整：

第一步，对于待召回乐曲信息集合中的乐曲信息，根据该乐曲信息对应的至少一个情绪标签和概率分数与待配乐视频对应的至少一个情绪分类信息和概率，生成该乐曲信息与待配乐视频的匹配值。

在这些实现方式中，上述执行主体可以通过各种方式生成上述待召回乐曲信息集合中的乐曲信息与待配乐视频的匹配值。

作为示例，上述执行主体可以选取乐曲信息对应的情绪标签的概率分数与匹配的待配乐视频对应的情绪分类信息的概率中的较小值作为情绪匹配值。而后，从乐曲信息对应的情绪匹配值中选取最大的值作为上述匹配值。例如，待配乐视频对应的情绪分类信息及其概率可以分别为：快乐—0.4，轻松—0.3，浪漫—0.1，…。乐曲信息1对应的情绪标签及其概率分数可以分别为：快乐—0.6，清新—0.2，轻松—0.1。则，乐曲信息1对应的“快乐”的情绪匹配值为0.4，对应的“轻松”的情绪匹配值为0.1。乐曲信息1对应的匹配值为0.4。

作为又一示例，上述执行主体可以选取待配乐视频对应的情绪分类信息中的概率大于预设阈值的情绪分类信息作为目标匹配信息。而后，上述执行主体可以从乐曲信息对应的情绪标签中与上述目标匹配信息匹配的情绪标签中选取概率分数的最大值作为该乐曲信息的匹配值。例如，上述例子中，预设阈值可以为0.2，则目标匹配信息为“快乐”和“轻松”。乐曲信息1中与上述“快乐”和“轻松”匹配的情绪标签的概率分数分别为0.6和0.1。则上述乐曲信息1的匹配值可以为0.6和0.1中的最大值，即0.6。

第二步，增加所生成的匹配值大于第一预设阈值的乐曲信息对应的召回分数。

第三步，降低所生成的匹配值小于第二预设阈值的乐曲信息对应的召回分数。

在这些实现方式中，上述第二预设阈值通常小于上述第一预设阈值。

基于上述可选的实现方式，通过乐曲的情绪标签和概率分数与待配乐视频的情绪分类信息和概率细化视频与乐曲之间的匹配度的计算，从而可以据此对召回乐曲信息集合所指示的乐曲中情绪不匹配的乐曲进行降权、对情绪显著匹配的乐曲进行升权，实现改善所生成的召回乐曲信息列表的质量的技术效果。

步骤405，根据调整后的召回分数对待召回乐曲信息集合中的各乐曲信息进行排序，生成乐曲信息列表。

在本实施例中，根据调整后的召回分数对待召回乐曲信息集合中的各乐曲信息进行排序，上述执行主体可以通过各种方式生成乐曲信息列表。作为示例，上述执行主体可以按照召回分数从高至低的顺序生成乐曲信息列表。作为又一示例，上述执行主体可以按照召回分数从高至低的顺序划分分数段，在各分数段内按照其他顺序(例如乐曲信息所指示的标题字数、首字母顺序等)进行排序，从而生成上述乐曲信息列表。

在本实施例的一些可选的实现方式中，上述执行主体还可以继续执行如前述实施例中步骤204的可选的实现方式中所描述的第一步至第三步，此处不再赘述。

从图4中可以看出，本实施例中的用于视频配乐的方法的流程400体现了对待召回乐曲信息集合中的各乐曲信息对应的召回分数进行调整以及按照调整后的召回分数生成乐曲的步骤。由此，本实施例描述的方案可以将视频和乐曲的情绪匹配作为乐曲召回的辅助排序手段，从而可以显著减小情绪不匹配歌曲在最终的配乐列表中出现的概率，进而能够提升召回乐曲信息列表中的乐曲的选取率。从用户角度看，能够节省选取视频配乐的时间，从而提升用户体验。

继续参考图5，示出了根据本申请的用于显示召回乐曲信息的方法的一个实施例的流程500。该用于显示召回乐曲信息的方法包括以下步骤：

步骤501，向目标服务器发送待配乐视频。

在本实施例中，用于显示召回乐曲信息的方法的执行主体(如图1所示的终端设备101、102、103)可以通过有线连接方式或者无线连接方式向目标服务器(例如图1所示的服务器105)发送待配乐视频。其中，上述待配乐视频可以与前述实施例中步骤201的相关描述一致，此处不再赘述。作为示例，上述待配乐视频可以是用户在自驾游途中拍摄的风景短视频。

步骤502，接收目标服务器发送的与待配乐视频相匹配的召回乐曲信息列表以及用于表征召回乐曲信息列表基于乐曲情绪推荐的提示信息。

在本实施例中，上述执行主体可以接收上述目标服务器发送的与待配乐视频相匹配的召回乐曲信息列表以及用于表征召回乐曲信息列表基于乐曲情绪推荐的提示信息。其中，上述提示信息通常与上述召回乐曲信息列表中的乐曲信息对应的情绪标签相关联。

在本实施例中，上述与待配乐视频相匹配的召回乐曲信息列表可以由上述目标服务器通过各种信息匹配的方式而确定。上述提示信息可以用于表征上述匹配的依据。作为示例，上述提示信息可以包括至少一个用于表征乐曲情绪的关键词。例如，上述提示信息可以包括“轻松”、“安静”、“快乐”。

在本实施例的一些可选的实现方式中，上述与待配乐视频相匹配的召回乐曲信息列表以及用于表征上述召回乐曲信息列表基于乐曲情绪推荐的提示信息可以通过前述实施例中用于视频配乐的方法而得到。

步骤503，显示与待配乐视频相匹配的召回乐曲信息列表以及提示信息。

在本实施例中，上述执行主体可以在显示屏上呈现步骤502所接收到的与待配乐视频相匹配的召回乐曲信息列表以及上述提示信息。作为示例，上述执行主体可以显示召回乐曲信息列表(例如《安妮的仙境》、《天空之城》、《宁静的夏天》、《快乐出发》、《自由飞翔》)和提示信息(例如“安静”、“轻松”、“快乐”)。作为又一示例，上述执行主体可以将召回乐曲信息列表中的乐曲信息与提示信息对应显示。例如，与“安静”对应的乐曲信息可以包括《安妮的仙境》和《天空之城》。

第一步，获取推荐反馈信息。

在这些实现方式中，上述执行主体可以检测用户对所显示的提示信息的调整。其中，上述调整可以包括以下至少一项：删除情绪分类信息，增加情绪分类信息，调整情绪分类信息之间的顺序。响应于检测到用户的调整操作，上述执行主体可以生成推荐反馈信息。其中，上述推荐反馈信息可以用于指示提示信息经用户调整后所得到的信息。

第二步，将推荐反馈信息发送至目标服务器。

第三步，响应于接收到目标服务器发送的与推荐反馈信息匹配的调整后的召回乐曲信息列表，显示调整后的召回乐曲信息列表。

基于上述可选的实现方式，上述执行主体可以获取用户对所推荐的召回乐曲信息列表及其提示信息的反馈，通过用户反馈获取与反馈后的信息相匹配的调整后的召回乐曲信息列表，从而实现了用户与推荐系统的有机互动，从而可以提升视频配乐的匹配度。此外，还可以将所获取的用户的推荐反馈信息作为对推荐系统进行优化的训练样本，为推荐系统后续的优化、迭代提供有价值的数据基础。

从图5中可以看出，本实施例中的用于显示召回乐曲信息的方法的流程500，通过对与待配乐视频相匹配的召回乐曲信息列表以及提示信息的显示，来显式地呈现所匹配的乐曲信息的推荐依据，具有更强的可解释性。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了用于视频配乐的装置的一个实施例，该装置实施例与图2或图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备(例如服务器)中。

如图6所示，本实施例提供的用于视频配乐的装置600包括第一获取单元601、生成单元602、第二获取单元603和召回单元604。其中，第一获取单元601，被配置成获取待配乐视频；生成单元602，被配置成根据待配乐视频，得到与待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率；第二获取单元603，被配置成获取与待配乐视频对应的待召回乐曲信息集合，其中，待召回乐曲信息集合中的各乐曲信息对应有至少一种情绪标签；召回单元604，被配置成基于待配乐视频对应的至少一个情绪分类信息的概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成召回乐曲信息列表。

在本实施例中，用于视频配乐的装置600中：第一获取单元601、生成单元602、第二获取单元603和召回单元604的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203和步骤204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述待召回乐曲信息集合中的各乐曲信息还可以对应有召回分数。上述召回单元604可以包括调整模块(图中未示出)、生成模块(图中未示出)。其中，上述调整模块，可以被配置成根据待配乐视频对应的至少一个情绪分类信息和概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，对待召回乐曲信息集合中的各乐曲信息对应的召回分数进行调整。上述生成模块，可以被配置成根据调整后的召回分数对待召回乐曲信息集合中的各乐曲信息进行排序，生成乐曲信息列表。

在本实施例的一些可选的实现方式中，上述待召回乐曲信息集合中的各乐曲信息还可以对应有至少一种情绪标签各自的概率分数。上述调整模块可以包括：生成子模块(图中未示出)、第一调整子模块(图中未示出)、第二调整子模块(图中未示出)。其中，上述生成子模块，可以被配置成对于待召回乐曲信息集合中的乐曲信息，根据该乐曲信息对应的至少一个情绪标签和概率分数与待配乐视频对应的至少一个情绪分类信息和概率，生成该乐曲信息与上述待配乐视频的匹配值。上述第一调整子模块，可以被配置成增加所生成的匹配值大于第一预设阈值的乐曲信息对应的召回分数。上述第二调整子模块，可以被配置成降低所生成的匹配值小于第二预设阈值的乐曲信息对应的召回分数。其中，上述第二预设阈值可以小于上述第一预设阈值。

在本实施例的一些可选的实现方式中，上述生成单元602可以进一步被配置成：将待配乐视频输入至预先训练的视频情绪分类模型，得到与待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率。上述视频情绪分类模型可以通过以下步骤训练得到：获取情绪关键词集合；根据情绪关键词集合，在与待配乐视频同源的历史视频库中搜索与各情绪关键词匹配的视频，生成与各情绪关键词对应的匹配视频集合；基于所生成的匹配视频集合和对应的情绪分类信息，生成训练样本集合；将训练样本集合中的匹配视频作为输入，将与输入的匹配视频对应的情绪分类信息作为期望输出，利用机器学习方法训练得到视频情绪分类模型。其中，上述情绪关键词集合可以包括至少一种情绪分类信息对应的关联关键词。上述关联关键词可以包括场景描述关键词、名词关键词中的至少一者。上述历史视频库可以包括视频和与视频相关的文本。

在本实施例的一些可选的实现方式中，上述视频相关的文本可以包括用户名。上述基于所生成的匹配视频集合和对应的情绪分类信息，生成训练样本集合，可以包括：从所生成匹配视频集合中选取用户名与情绪关键词匹配的视频作为待过滤视频；基于对所选取的待过滤视频的过滤，生成训练样本集合。

在本实施例的一些可选的实现方式中，上述将训练样本集合中的匹配视频作为输入，将与输入的匹配视频对应的情绪分类信息作为期望输出，利用机器学习方法训练得到视频情绪分类模型，可以包括：将训练样本集合中的匹配视频输入初始视频情绪分类模型，得到与输入的匹配视频对应的情绪分类结果；基于所得到的情绪分类结果与输入的匹配视频对应的情绪分类信息之间的差异生成损失值；响应于确定所生成的损失值大于第三预设阈值，减小模型参数的更新步长；基于减小后的更新步长调整初始视频情绪分类模型的参数，在满足预设的训练结束条件的情况下结束训练；将训练得到的初始视频情绪分类模型确定为视频情绪分类模型。

在本实施例的一些可选的实现方式中，上述用于视频配乐的装置600还可以包括：信息发送单元(图中未示出)、调整单元(图中未示出)、信息再发送单元(图中未示出)。其中，上述信息发送单元，可以被配置成向目标终端设备发送召回乐曲信息列表以及用于表征召回乐曲信息列表基于乐曲情绪推荐的提示信息。其中，上述提示信息可以与召回乐曲信息列表中的乐曲信息对应的情绪标签相关联。上述调整单元，可以被配置成响应于接收到目标终端设备发送的、包括调整后的情绪分类信息的推荐反馈信息，基于调整后的情绪分类信息与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成调整后的召回乐曲信息列表。上述信息再发送单元，可以被配置成将调整后的召回乐曲信息列表发送至目标终端设备。

本申请的上述实施例提供的装置，通过第一获取单元601获取待配乐视频。而后，生成单元602根据待配乐视频，得到与待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率。之后，第二获取单元603获取与待配乐视频对应的待召回乐曲信息集合。其中，待召回乐曲信息集合中的各乐曲信息对应有至少一种情绪标签。召回单元604基于待配乐视频对应的至少一个情绪分类信息的概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成召回乐曲信息列表。从而能够充分利用视频与配乐的情绪维度的信息，进而有效提升了视频配乐的匹配度。而且，由于选取情绪这一维度来显式地呈现视频与乐曲的匹配度，相比于传统的通过初始随机编码的ID特征的模型具有更强的可解释性，从而有助于后期对于模型的调试和优化。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了用于显示召回乐曲信息的装置的一个实施例，该装置实施例与图5所示的方法实施例相对应，该装置具体可以应用于各种电子设备(例如终端设备)中。

如图7所示，本实施例提供的用于显示召回乐曲信息的装置700包括视频发送单元701、接收单元702和显示单元703。其中，视频发送单元701，被配置成向目标服务器发送待配乐视频；接收单元702，被配置成接收目标服务器发送的与待配乐视频相匹配的召回乐曲信息列表以及用于表征召回乐曲信息列表基于乐曲情绪推荐的提示信息，其中，提示信息与召回乐曲信息列表中的乐曲信息对应的情绪标签相关联；显示单元703，被配置成显示与待配乐视频相匹配的召回乐曲信息列表以及提示信息。

在本实施例中，用于显示召回乐曲信息装置700中：视频发送单元701、接收单元702和显示单元703的具体处理及其所带来的技术效果可分别参考图5对应实施例中的步骤501、步骤502和步骤503的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，用于显示召回乐曲信息装置700还可以包括：信息获取单元(图中未示出)、反馈信息发送单元(图中未示出)、再显示单元(图中未示出)。其中，上述信息获取单元，可以被配置成获取推荐反馈信息。上述推荐反馈信息可以基于用户针对所显示的提示信息的调整而生成。上述调整包括以下至少一项：删除情绪分类信息，增加情绪分类信息，调整情绪分类信息之间的顺序。上述反馈信息发送单元，可以被配置成将推荐反馈信息发送至目标服务器。上述再显示单元，可以被配置成响应于接收到目标服务器发送的与推荐反馈信息匹配的调整后的召回乐曲信息列表，显示调整后的召回乐曲信息列表。

本申请的上述实施例提供的装置，通过视频发送单元701向目标服务器发送待配乐视频。而后，接收单元702接收目标服务器发送的与待配乐视频相匹配的召回乐曲信息列表以及用于表征召回乐曲信息列表基于乐曲情绪推荐的提示信息，其中，提示信息与召回乐曲信息列表中的乐曲信息对应的情绪标签相关联。最后，显示单元703显示与待配乐视频相匹配的召回乐曲信息列表以及提示信息。从而可以显式地呈现所匹配的乐曲信息的推荐依据，具有更强的可解释性。

下面参考图8，其示出了适于用来实现本申请实施例的电子设备(例如图1中的服务器或终端设备)800的结构示意图。本申请实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

通常，以下装置可以连接至I/O接口805：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806；包括例如液晶显示器(LCD，LiquidCrystal Display)、扬声器、振动器等的输出装置807；包括例如磁带、硬盘等的存储装置808；以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图8中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置809从网络上被下载和安装，或者从存储装置808被安装，或者从ROM 802被安装。在该计算机程序被处理装置801执行时，执行本申请的实施例的方法中限定的上述功能。

需要说明的是，本申请的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(Radio Frequency，射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待配乐视频；根据待配乐视频，得到与待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率；获取与待配乐视频对应的待召回乐曲信息集合，其中，待召回乐曲信息集合中的各乐曲信息对应有至少一种情绪标签；基于待配乐视频对应的至少一个情绪分类信息的概率与待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成召回乐曲信息列表。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器，包括第一获取单元、生成单元、第二获取单元、召回单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取待配乐视频的单元”。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于视频配乐的方法，包括：

获取待配乐视频；

根据所述待配乐视频，得到与所述待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率；

获取与所述待配乐视频对应的待召回乐曲信息集合，其中，所述待召回乐曲信息集合中的各乐曲信息对应有至少一种情绪标签；

基于所述待配乐视频对应的至少一个情绪分类信息的概率与所述待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成召回乐曲信息列表。

2.根据权利要求1所述的方法，其中，所述待召回乐曲信息集合中的各乐曲信息还对应有召回分数；以及

所述基于所述待配乐视频对应的至少一个情绪分类信息的概率与所述待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成召回乐曲信息列表，包括：

根据所述待配乐视频对应的至少一个情绪分类信息的概率与所述待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，对所述待召回乐曲信息集合中的各乐曲信息对应的召回分数进行调整；

根据调整后的召回分数对所述待召回乐曲信息集合中的各乐曲信息进行排序，生成所述乐曲信息列表。

3.根据权利要求2所述的方法，其中，所述待召回乐曲信息集合中的各乐曲信息还对应有至少一种情绪标签各自的概率分数；以及

所述根据所述待配乐视频对应的至少一个情绪分类信息和概率与所述待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，对所述待召回乐曲信息集合中的各乐曲信息对应的召回分数进行调整，包括：

对于所述待召回乐曲信息集合中的乐曲信息，根据该乐曲信息对应的至少一个情绪标签和概率分数与所述待配乐视频对应的至少一个情绪分类信息和概率，生成该乐曲信息与所述待配乐视频的匹配值；

增加所生成的匹配值大于第一预设阈值的乐曲信息对应的召回分数；

降低所生成的匹配值小于第二预设阈值的乐曲信息对应的召回分数，其中，所述第二预设阈值小于所述第一预设阈值。

4.根据权利要求1所述的方法，其中，所述根据所述待配乐视频，得到与所述待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率，包括：

将所述待配乐视频输入至预先训练的视频情绪分类模型，得到与所述待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率；以及

所述视频情绪分类模型通过以下步骤训练得到：

获取情绪关键词集合，其中，所述情绪关键词集合包括至少一种情绪分类信息对应的关联关键词，所述关联关键词包括场景描述关键词、名词关键词中的至少一者；

根据所述情绪关键词集合，在与所述待配乐视频同源的历史视频库中搜索与各情绪关键词匹配的视频，生成与各情绪关键词对应的匹配视频集合，其中，所述历史视频库包括视频和与视频相关的文本；

基于所生成的匹配视频集合和对应的情绪分类信息，生成训练样本集合；

将所述训练样本集合中的匹配视频作为输入，将与输入的匹配视频对应的情绪分类信息作为期望输出，利用机器学习方法训练得到所述视频情绪分类模型。

5.根据权利要求4所述的方法，其中，所述视频相关的文本包括用户名；以及

所述基于所生成的匹配视频集合和对应的情绪分类信息，生成训练样本集合，包括：

从所生成匹配视频集合中选取用户名与情绪关键词匹配的视频作为待过滤视频；

基于对所选取的待过滤视频的过滤，生成所述训练样本集合。

6.根据权利要求5所述的方法，其中，所述将所述训练样本集合中的匹配视频作为输入，将与输入的匹配视频对应的情绪分类信息作为期望输出，利用机器学习方法训练得到所述视频情绪分类模型，包括：

将所述训练样本集合中的匹配视频输入初始视频情绪分类模型，得到与输入的匹配视频对应的情绪分类结果；

基于所得到的情绪分类结果与输入的匹配视频对应的情绪分类信息之间的差异生成损失值；

响应于确定所生成的损失值大于第三预设阈值，减小模型参数的更新步长；

基于减小后的更新步长调整所述初始视频情绪分类模型的参数，在满足预设的训练结束条件的情况下结束训练；

将训练得到的初始视频情绪分类模型确定为所述视频情绪分类模型。

7.根据权利要求1-6之一所述的方法，其中，所述方法还包括：

向目标终端设备发送所述召回乐曲信息列表以及用于表征所述召回乐曲信息列表基于乐曲情绪推荐的提示信息，其中，所述提示信息与所述召回乐曲信息列表中的乐曲信息对应的情绪标签相关联；

响应于接收到所述目标终端设备发送的、包括调整后的情绪分类信息的推荐反馈信息，基于所述调整后的情绪分类信息与所述待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成调整后的召回乐曲信息列表；

将所述调整后的召回乐曲信息列表发送至所述目标终端设备。

8.一种用于显示召回乐曲信息的方法，包括：

向目标服务器发送待配乐视频；

接收所述目标服务器发送的与所述待配乐视频相匹配的召回乐曲信息列表以及用于表征所述召回乐曲信息列表基于乐曲情绪推荐的提示信息，其中，所述提示信息与所述召回乐曲信息列表中的乐曲信息对应的情绪标签相关联；

显示所述与所述待配乐视频相匹配的召回乐曲信息列表以及所述提示信息。

9.根据权利要求8所述的方法，所述方法还包括：

获取推荐反馈信息，其中，所述推荐反馈信息基于用户针对所显示的提示信息的调整而生成，所述调整包括以下至少一项：删除情绪分类信息，增加情绪分类信息，调整情绪分类信息之间的顺序；

将所述推荐反馈信息发送至所述目标服务器；

响应于接收到所述目标服务器发送的与所述推荐反馈信息匹配的调整后的召回乐曲信息列表，显示所述调整后的召回乐曲信息列表。

10.一种用于视频配乐的装置，包括：

第一获取单元，被配置成获取待配乐视频；

生成单元，被配置成根据所述待配乐视频，得到与所述待配乐视频对应的至少一个情绪分类信息和情绪分类信息对应的概率；

第二获取单元，被配置成获取与所述待配乐视频对应的待召回乐曲信息集合，其中，所述待召回乐曲信息集合中的各乐曲信息对应有至少一种情绪标签；

召回单元，被配置成基于所述待配乐视频对应的至少一个情绪分类信息的概率与所述待召回乐曲信息集合中的各乐曲信息对应的情绪标签的匹配，生成召回乐曲信息列表。

11.一种用于显示召回乐曲信息的装置，包括：

视频发送单元，被配置成向目标服务器发送待配乐视频；

接收单元，被配置成接收所述目标服务器发送的与所述待配乐视频相匹配的召回乐曲信息列表以及用于表征所述召回乐曲信息列表基于乐曲情绪推荐的提示信息，其中，所述提示信息与所述召回乐曲信息列表中的乐曲信息对应的情绪标签相关联；

显示单元，被配置成显示所述与所述待配乐视频相匹配的召回乐曲信息列表以及所述提示信息。

12.一种服务器，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

13.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。