CN109063163B

CN109063163B - 一种音乐推荐的方法、装置、终端设备和介质

Info

Publication number: CN109063163B
Application number: CN201810924409.0A
Authority: CN
Inventors: 李岩; 王汉杰; 叶浩; 陈波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2022-12-02
Anticipated expiration: 2038-08-14
Also published as: US20210004402A1; EP3757995A4; WO2020034849A1; JP7206288B2; US11314806B2; EP3757995A1; JP2021516398A; CN109063163A

Abstract

本申请公开了一种音乐推荐的方法、装置、终端设备和介质，属于计算机技术领域，该方法包括，确定待配乐素材的视觉语义标签，并搜索视觉语义标签匹配的匹配音乐，并根据用户对各匹配音乐的用户鉴赏信息，对各匹配音乐进行排序，以及按照排序结果向用户进行匹配音乐推荐。这样，可以通过视觉语义标签向用户解释音乐推荐的理由，并且对不同用户进行差异化推荐，实现了音乐推荐的个性化推荐服务。

Description

一种音乐推荐的方法、装置、终端设备和介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种音乐推荐的方法、装置、终端设备和介质。

背景技术

随着各类即时通信应用的兴起，分享行为无处不在，用户对分享素材的形式要求越来越多样化，单纯分享图片视频等素材已经不满足人们的需求，对素材进行配乐成为一种新的需求。现有技术下，通常提取素材的素材特征以及音乐的音乐特征后，根据提取的素材特征以及音乐特征建立素材与音乐之间的匹配关系，进而通过匹配关系为用户素材推荐匹配的音乐。其中，用户获得的素材种类可能很多，例如网上的图片视频，或者自己拍摄的视频或图像集合等。

但是，采用这种方式，仅能按照固定的匹配关系对不同用户进行推荐，无法为用户提供个性化服务。

发明内容

本申请实施例提供一种音乐推荐的方法、装置、终端设备和介质，用以在为用户推荐素材匹配的音乐时，为不同用户提供个性化推荐服务。

第一方面，提供一种音乐推荐的方法，包括：

获取待配乐的素材；

确定素材的至少一个视觉语义标签，每个视觉语义标签用于描述素材的至少一项内容；

从候选音乐库中，搜索出与至少一个视觉语义标签匹配的各个匹配音乐；

根据素材对应的用户针对各个匹配音乐的用户鉴赏信息，对各个匹配音乐进行排序；

基于排序结果，按照预设的音乐筛选条件对匹配音乐进行筛选，并将筛选出的匹配音乐推荐为素材的备选音乐。

较佳的，还包括：

接收终端发送的从备选音乐中指定配乐音乐的指示信息；

根据指示信息，将配乐音乐合成到素材；

将合成有音乐的素材发送给终端。

较佳的，确定素材的至少一个视觉语义标签，具体包括：

将用户从备选的视觉语义标签中指定的至少一个视觉语义标签，确定为素材的至少一个视觉语义标签；或者，

解析素材的内容，确定素材的至少一个视觉语义标签。

较佳的，解析素材的内容，确定素材的至少一个视觉语义标签，具体包括：

素材为图像集合时，利用预先训练的标签识别模型，对素材进行视觉语义标签识别，获得素材的视觉语义标签向量，并将视觉语义标签向量中分值符合预设筛选条件的视觉语义标签，确定为素材对应的视觉语义标签；

其中：图像集合中包含至少一帧图像，素材的视觉语义标签向量包括：从素材中识别出的内容的至少一个视觉语义标签及其对应的分值，标签识别模型为对多个标签识别样本进行训练后获得的，每个标签识别样本包括样本图像和该样本图像的视觉语义标签向量。

较佳的，解析素材的内容，确定素材的至少一个视觉语义标签，具体包括；

素材为视频时，将素材进行帧解析，获得各帧图像；

利用预先训练的标签识别模型，分别对每一帧图像进行视觉语义标签识别，获得每一帧图像的视觉语义标签向量；

将各帧图像的视觉语义标签向量的平均向量中，分值符合预设筛选条件的视觉语义标签，确定为素材对应的视觉语义标签；

其中：一帧图像的视觉语义标签向量包括：从该帧图像中识别出的内容的至少一个视觉语义标签及其对应的分值，标签识别模型为对多个标签识别样本进行训练后获得的，每个标签识别样本包括样本图像和该样本图像的视觉语义标签向量。

较佳的，搜索出与至少一个视觉语义标签匹配的各个匹配音乐，具体包括：

基于至少一个视觉语义标签，采用预先训练的音乐搜索模型，获得与至少一个视觉语义标签匹配的各个匹配音乐；

其中，音乐搜索模型是将各用户对各音乐的音乐评论信息进行文本分类训练后获得的。

较佳的，根据素材对应的用户针对各个匹配音乐的用户鉴赏信息，对各个匹配音乐进行排序，具体包括：

根据素材对应的用户对各个匹配音乐的预估音乐鉴赏信息，对各个匹配音乐进行排序，用户对各个匹配音乐的预估音乐鉴赏信息是基于不同用户对各个候选音乐的实际音乐鉴赏信息获得的；

其中，一个用户对一首音乐的实际音乐鉴赏信息是对用户的音乐鉴赏行为数据中包含的各个参数值进行加权处理后获得的；音乐鉴赏行为数据中包含以下参数中的任意一种或任意组合：音乐评分、点击率、收藏行为、点赞行为，以及分享行为。

较佳的，在根据素材对应的用户对各个匹配音乐的预估音乐鉴赏信息，对各个匹配音乐进行排序之前，进一步包括：

针对匹配音乐，获取鉴赏该匹配音乐的各用户的用户属性信息，并筛选出用户属性信息与用户的用户属性信息相似的各相似用户；

获取各相似用户对各匹配音乐的实际音乐鉴赏信息；

分别对各相似用户分别对每一匹配音乐的实际音乐鉴赏信息进行平均值处理，预估用户对各匹配音乐的预估音乐鉴赏信息。

基于各用户对各候选音乐的实际音乐鉴赏信息，获得评分矩阵；

对评分矩阵进行矩阵分解以及优化处理，获得用户矩阵和音乐特征矩阵；

分别将音乐特征矩阵中的每一音乐特征向量的转置与用户矩阵中的每一用户向量的乘积，确定为每一用户对每一音乐的预估音乐鉴赏信息。

根据素材对应的用户对音乐的一种音乐鉴赏行为数据的参数值，或者是对音乐的至少两种音乐鉴赏行为数据的参数值进行加权处理后获得的综合值，对各个匹配音乐进行排序；

其中，一个用户对一首音乐的音乐鉴赏行为数据中包含以下参数中的任意一种或任意组合：音乐评分、点击率、收藏行为、点赞行为，以及分享行为。

一方面，一种音乐推荐的方法，包括：

向服务器发送待配乐的素材，触发服务器执行以下步骤：确定素材的至少一个视觉语义标签；从候选音乐库中，搜索出与至少一个视觉语义标签匹配的各个匹配音乐；根据素材对应的用户对各个匹配音乐的预估音乐鉴赏信息，对各个匹配音乐进行排序；基于排序结果，按照预设的音乐筛选条件对匹配音乐进行筛选，并将筛选出的匹配音乐推荐为素材的备选音乐；

接收服务器返回的备选音乐；

其中，用户对各个匹配音乐的预估音乐鉴赏信息是基于不同用户对各个候选音乐的实际音乐鉴赏信息获得的。

一方面，一种音乐推荐的装置，包括：

获取单元，用于获取待配乐的素材；

第一确定单元，用于确定素材的至少一个视觉语义标签，每个视觉语义标签用于描述素材的至少一项内容；

搜索单元，用于从候选音乐库中，搜索出与至少一个视觉语义标签匹配的各个匹配音乐；

排序单元，用于根据素材对应的用户针对各个匹配音乐的用户鉴赏信息，对各个匹配音乐进行排序；

推荐单元，用于基于排序结果，按照预设的音乐筛选条件对匹配音乐进行筛选，并将筛选出的匹配音乐推荐为素材的备选音乐。

较佳的，推荐单元还用于：

接收终端发送的从备选音乐中指定配乐音乐的指示信息；

根据指示信息，将配乐音乐合成到素材；

将合成有音乐的素材发送给终端。

较佳的，第一确定单元还包括：

第二确定单元，用于将用户从备选的视觉语义标签中指定的至少一个视觉语义标签，确定为素材的至少一个视觉语义标签；或者，

解析单元，用于解析素材的内容，确定素材的至少一个视觉语义标签。

较佳的，解析单元具体用于：

素材为视频时，将素材进行帧解析，获得各帧图像；

较佳的，搜索单元具体用于：

较佳的，排序单元具体用于：

获取各相似用户对各匹配音乐的实际音乐鉴赏信息；

较佳的，排序单元具体用于：

排序单元具体用于：

一方面，一种音乐推荐的装置，包括：

发送单元，用于向服务器发送待配乐的素材，触发服务器执行以下步骤：确定素材的至少一个视觉语义标签；从候选音乐库中，搜索出与至少一个视觉语义标签匹配的各个匹配音乐；根据素材对应的用户对各个匹配音乐的预估音乐鉴赏信息，对各个匹配音乐进行排序；基于排序结果，按照预设的音乐筛选条件对匹配音乐进行筛选，并将筛选出的匹配音乐推荐为素材的备选音乐；

接收单元，用于接收服务器返回的备选音乐；

一方面，提供一种终端设备，包括至少一个处理单元、以及至少一个存储单元，其中，存储单元存储有计算机程序，当程序被处理单元执行时，使得处理单元执行上述任意一种音乐推荐的方法的步骤。

一方面，提供一种计算机可读介质，其存储有可由终端设备执行的计算机程序，当程序在终端设备上运行时，使得终端设备执行上述任意一种音乐推荐的方法的步骤。

本申请实施例提供的一种音乐推荐的方法、装置、终端设备和介质中，确定待配乐素材的视觉语义标签，并搜索视觉语义标签匹配的匹配音乐，并根据用户对各匹配音乐的用户鉴赏信息，对各匹配音乐进行排序，以及按照排序结果向用户进行匹配音乐推荐。这样，可以通过视觉语义标签向用户解释音乐推荐的理由，并且对不同用户进行差异化推荐，实现了音乐推荐的个性化推荐服务。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施方式中提供的一种终端设备的结构示意图；

图2为本申请实施方式中一种音乐推荐的方法的实施流程图；

图3a为本申请实施方式中提供的一种解析图像示例图；

图3b为本申请实施方式中提供的一种Inception V1的Inception子模块示意图；

图3c为本申请实施方式中提供的一种用户音乐评论的示例图一；

图3d为本申请实施方式中提供的一种用户音乐评论的示例图二；

图3e为本申请实施方式中提供的一种FastText的模型结构示意图；

图3f为本申请实施方式中提供的一种音乐推荐应用界面示意图一；

图3g为本申请实施方式中提供的一种素材的匹配音乐推荐示例图；

图3h为本申请实施方式中提供的一种音乐推荐应用界面示意图二；

图3i为本申请实施方式中提供的一种信息交互图；

图4a为本申请实施方式中一种音乐推荐的装置的结构示意图一；

图4b为本申请实施方式中一种音乐推荐的装置的结构示意图二；

图5为本申请实施方式中终端设备结构示意图。

具体实施方式

为了在为用户推荐素材匹配的音乐时，为不同用户提供个性化推荐，本申请实施例提供了一种音乐推荐的方法、装置、终端设备和介质。

首先，对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

1、终端设备：可以安装各类应用程序，并且能够将已安装的应用程序中提供的实体进行显示的设备，该电子设备可以是移动的，也可以是固定的。例如，手机、平板电脑、车载设备、个人数字助理(personal digital assistant，PDA)或其它能够实现上述功能的电子设备等。

2、卷积神经网络算法：是近年发展起来，并引起广泛重视的一种高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络(ConvolutionalNeural Networks，CNN)。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

3、视觉语义标签向量：表示一帧图像对应各个标签中的概率分布，包括：一帧图像分别对应每一标签的分值，可选的，一个分值可以为一帧图像对应一种标签的概率值。一帧图像可以标注多个标签。

4、标签识别模型：为用于对输入的图像进行识别，确定该图像的标签的模型。

5、音乐搜索模型：为用于根据输入的搜索词进行音乐搜索，获得该搜索词匹配的音乐的模型。

6、FastText：是脸书(facebook)于2016年开源的一个词向量计算和文本分类工具，但是它的优点也非常明显，在文本分类任务中，FastText能取得和深度网络相媲美的精度，却在训练时间上比深度网络快许多数量级。

由于通过素材与音乐的固定的匹配关系为用户输入的素材推荐匹配音乐，无法为不同用户提供差异化服务，因此，本申请实施例提供一种音乐推荐的技术方案，确定素材的视觉语义标签，并搜索视觉语义标签匹配的匹配音乐，以及按照用户对匹配音乐的用户鉴赏信息为匹配音乐进行排序以及推荐。这样，可以为不同用户提供差异化推荐，为用户提供个性化服务。

本申请实施例提供的一种音乐推荐的方法，可应用于终端设备中，该终端设备可以为手机、平板电脑、PDA(Personal Digital Assistant，掌上电脑)等。

图1示出了一种终端设备100的结构示意图。参阅图1所示，终端设备100包括：处理器110、存储器120、电源130、显示单元140、输入单元150。

处理器110是终端设备100的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在存储器120内的软件程序和/或数据，执行终端设备100的各种功能，从而对终端设备进行整体监控。

可选的，处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、各种应用程序等；存储数据区可存储根据终端设备100的使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

终端设备100还包括给各个部件供电的电源130(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备100的各种菜单等，本申请实施例中主要用于显示终端设备100中各应用程序的显示界面以及显示界面中显示的文本、图片等实体。显示单元140可以包括显示面板141。显示面板141可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置。

输入单元150可用于接收用户输入的数字或字符等信息。输入单元150可包括触控面板151以及其他输入设备152。其中，触控面板151，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板151上或在触控面板151附近的操作)。

具体的，触控面板151可以检测用户的触摸操作，并检测触摸操作带来的信号，将这些信号转换成触点坐标，发送给处理器110，并接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板151。其他输入设备152可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

当然，触控面板151可覆盖显示面板141，当触控面板151检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1中，触控面板151与显示面板141是作为两个独立的部件来实现终端设备100的输入和输出功能，但是在某些实施例中，可以将触控面板151与显示面板141集成而实现终端设备100的输入和输出功能。

终端设备100还可包括一个或多个传感器，例如压力传感器、重力加速度传感器、接近光传感器等。当然，根据具体应用中的需要，上述终端设备100还可以包括摄像头等其它部件，由于这些部件不是本申请实施例中重点使用的部件，因此，在图1中没有示出，且不再详述。

本领域技术人员可以理解，图1仅仅是终端设备的举例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

本申请实施例中，服务器以及终端都可以采用图1中所示的结构。本申请实施例提供的一种音乐推荐的方法，可以应用于为各种素材进行匹配音乐的推荐，各种素材例如图像集合或者视频，图像集合中可以包含一张或多张图像，图像或者视频，可以是用户自己拍摄，也可以是从其他途径获取的。

参阅图2所示，为本申请实施例提供的一种音乐推荐的方法的实施流程图，该方法的具体实施流程如下：

步骤200：服务器获取需要配乐的素材。

可选的，执行步骤200时，可选的，素材可以为视频或图像集合，图像集合中包含至少一帧图像。

其中，服务器的素材可以是通过以下方式获得：服务器接收终端发送的待配乐的素材，或，服务器直接获取用户输入的待配乐的素材，服务器自身设定的待配乐的素材。用户可以为即时通讯业务(如，微信)的用户，用户可以通过自己的终端设备输入各类素材，例如微信朋友圈拍摄的待配乐的短素材，终端设备再将短素材通过通信网络发送给服务器。再例如，用户直接在服务器端提供的应用界面上传待配乐的素材等。还例如，服务器也可以主动搜索用户上传到公共平台的素材，然后对这些素材进行配乐，并将配乐后的素材再发送给用户等。

步骤201：服务器确定素材的视觉语义标签。

具体的，执行步骤201时，可以采用以下几种方式：

第一种方式为：可以为用户提供一些备选的视觉语义标签供用户选择，用户在其中指定自己想要的至少一个视觉语义标签并提交，将用户指定的视觉语义标签确定为素材的至少一个视觉语义标签。

第二种方式为：对视频或图像集合的内容进行解析，根据解析结果确定素材的至少一个视觉语义标签。

其中，若素材为图像集合，则利用预先训练的标签识别模型，对素材进行视觉语义标签识别，获得素材的视觉语义标签向量，并将视觉语义标签向量中分值符合预设筛选条件的视觉语义标签，确定为素材对应的视觉语义标签。

其中，若素材为视频，则执行以下步骤：

首先，服务器将素材按照预设时长进行帧解析，获得各帧图像。

然后，服务器利用预先训练的标签识别模型，分别对每一帧图像进行视觉语义标签识别，获得每一帧图像的视觉语义标签向量。

最后，服务器确定各帧图像的视觉语义标签向量的平均向量，并将平均向量中的分值符合预设筛选条件的视觉语义标签，确定为素材对应的视觉语义标签。

可选的，预设时长可以为1s，即1s解析一帧图像。筛选条件可以为筛选出分值最高的指定数量的视觉语义标签。指定数量可以为一个或多个。

例如，假设视觉语义标签集合包括：天空、山、海、植物、动物、人、雪、灯以及车，指定数量为1。平均向量为{0.7，0.03，0.1，0.02，0，0，0，0.05，0}时，服务器确定素材对应的视觉语义标签为分值最高的天空。

其中，标签识别模型为用于对输入的图像进行识别，确定该图像的标签的模型。标签识别模型可以通过对大量样本图像以及相应视觉语义标签向量进行训练后获得的模型，也可以为根据图像特征与视觉语义标签之间的关联关系建立的模型。标签识别模型的具体获得方式在此不做限制。

本申请实施例中，以通过卷积神经网络算法对样本图像以及视觉语义标签向量进行训练获得标签识别模型为例进行说明。

卷积神经网络算法：是近年发展起来，并引起广泛重视的一种高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络(ConvolutionalNeural Networks，CNN)。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

在执行步骤201之前，服务器预先采用卷积神经网络算法，对图像数据库中大量的样本图像以及该样本图像的视觉语义标签向量进行训练，从而获得标签识别模型。图像数据库通常包含千万级的图像数据。

其中，视觉语义标签向量表示一帧图像对应各个标签中的概率分布，包括：一帧图像分别对应每一标签的分值，可选的，一个分值可以为一帧图像对应一种标签的概率值。一帧图像可以标注多个标签。

例如，参阅图3a所示，为一种解析图像示例图。假设视觉语义标签集合包括：天空、山、海、植物、动物、人、雪、灯以及车。则服务器确定图3a所示的解析图像对应视觉语义标签向量为{0.7，0.03，0.1，0.02，0，0，0，0.05，0}。

可选的，对图像数据库中大量的样本图像以及该样本图像的视觉语义标签向量进行训练时，可以采用卷积神经网络中的Inception V1或Inception V3模型，并且可以采用交叉嫡损失函数(Cross Entropy Loss)作为损失函数，以确定识别获得的视觉语义标签向量，与样本视觉语义标签向量之间的相似度。这样，就可以根据确定出的相似度对训练过程中的模型参数进行不断调整。

例如，参阅图3b所示，为一种Inception V1的Inception子模块示意图。上一层(Previous layer)用于获取上一层的输出值。1x1，3x3，以及5x5均为卷积核。Inception子模块通过各卷积核对上一层的输出值进行卷积以及池化，并采用过滤器连接(FilterConcatenation)进行处理后输出到下一层。

这样，就可以预先采用卷积神经网络算法，对图像数据库中大量的样本图像以及该样本图像的视觉语义标签向量进行训练，从而获得标签识别模型。若素材为视频，则利用预先训练的标签识别模型，分别对每一帧图像进行视觉语义标签识别，获得每一帧图像的视觉语义标签向量，以及根据素材在各视觉语义标签的概率分布，确定素材对应的视觉语义标签，为不同的素材打上不同的视觉语义标签，可以通过视觉语义标签向用户解释音乐推荐的理由。若待匹配的对象为图像集合，则直接采用标签识别模型确定该图像的视觉语义标签向量，并根据视觉语义标签向量确定该图像的视觉语义标签。

步骤202：服务器从候选音乐库中，搜索出与至少一个视觉语义标签匹配的各个匹配音乐。

具体的，服务器采用预先训练的音乐搜索模型，从候选音乐库中，搜索出与至少一个视觉语义标签匹配的各个匹配音乐。

例如，视觉语义标签为“想念我的老母亲”，服务器根据音乐搜索模型，从候选音乐库中，搜索出与“想念我的老母亲”匹配的匹配音乐为阎维文的《母亲》。

其中，音乐搜索模型为用于根据输入的搜索词进行音乐搜索，获得该搜索词匹配的音乐的模型。音乐搜索模型可以通过文本分类算法，或文本与音乐之间的关联关系等方式获得。音乐搜索模型的具体获得方式在此不做限制。本申请实施例中，仅以采用预设的文本分类算法进行文本与音乐的训练获得音乐搜索模型为例进行说明。

本申请实施例中，在执行步骤204之前，服务器可以预先基于各用户对各音乐的音乐评论信息，采用预设的文本分类算法进行文本训练后获得音乐搜索模型。文本分类算法为用于进行文本进行分类。这是由于各用户对各歌曲的海量音乐评论信息，可以反映每一歌曲的主题与意境，不同的歌曲可能有着截然不同的评论风格。

例如，参阅图3c所示，为一种用户音乐评论的示例图一。图3c中，可以看到用户在朋友圈中对分享的音乐进行的评论。参阅图3d所示，为一种用户音乐评论的示例图二。图3d中三首歌曲分别为呼斯楞的《鸿雁》，阎维文的《母亲》，以及军旅歌曲《军中绿花》，根据用户的音乐评论信息可以明显看出《鸿雁》的评论多集中于思乡、故乡、内蒙、塞北，《母亲》则多为儿女情、父母恩，《军中绿花》更多的是对部队生活、军旅生活的怀念。

可选的，文本分类算法可以采用FastText。参阅图3e所示，为一种FastText的模型结构示意图。图3e中，输入层(x1、x2……x_N)用于输入用户的音乐评论信息；隐含层用于基于输入的音乐评论信息生成隐层向量；输出层用于基于隐层向量进行分类，即按照音乐分类。

其中，优化目标函数用于使得f的似然估计越大，FastText的音乐分类精度越高。FastText的优化目标函数为：

其中，x_n为用户的音乐评论信息，y_n为音乐，矩阵参数A是基于单词的快查表，即词的嵌入向量，Ax_n矩阵运算的数学意义是将单词的嵌入向量相加或者取平均，得到隐层向量。矩阵参数B是函数f的参数，函数f是一个多分类的线性函数。

这样，就可以根据各用户对各音乐的音乐评论信息，采用预设的文本分类算法进行文本训练后获得音乐搜索模型，并采用预先训练的音乐搜索模型，从候选音乐库中，搜索出与视觉语义标签匹配的各个匹配音乐。

步骤203：服务器确定素材对应的用户针对各个匹配音乐的用户鉴赏信息。

具体的，执行步骤203时，可以采用以下几种方式：

第一种方式为：分别针对提供素材的用户对每一匹配音乐的音乐鉴赏行为数据，将音乐鉴赏行为数据的一种参数值，或多种参数值的加权平均值，作为用户鉴赏信息。

第二种方式为：服务器基于用户的各相似用户分别对每一匹配音乐的实际音乐鉴赏信息，预测用户对每一匹配音乐的预估音乐鉴赏信息，并将预估音乐鉴赏信息作为用户鉴赏信息。

第三种方式为：服务器获取预先确定的预估评价矩阵，并直接获取预估评价矩阵中用户对各匹配音乐的预估音乐鉴赏信息，并将预估音乐鉴赏信息作为用户鉴赏信息。

实际应用中，可以为各种方式设定相应的优先级，本申请实施例中，对各方式的优先顺序不做限定。

具体的，执行第二种方式时，可以采用以下步骤：

首先，服务器获取鉴赏各匹配音乐的各用户的用户属性信息，并筛选出用户属性信息与输入素材的用户属性信息相似的各相似用户。

然后，服务器分别获取每一相似用户对每一匹配音乐的实际音乐鉴赏信息。

最后，服务器分别对各相似用户分别对每一匹配音乐的实际音乐鉴赏信息进行平均值处理，预估用户对各匹配音乐的预估音乐鉴赏信息。

其中，用户属性信息用于对描述用户的特征。可选的，用户属性信息可以包括：性别，年龄，学历以及工作等。一个用户对一首音乐的实际音乐鉴赏信息是对用户的音乐鉴赏行为数据中包含的各个参数值进行加权处理后获得的；音乐鉴赏行为数据中包含以下参数中的任意一种或任意组合：音乐评分、点击率、收藏行为、点赞行为，以及分享行为。

这样，就可以根据用户的各相似用户对匹配音乐的实际音乐鉴赏信息，预测用户对各匹配音乐的预估音乐鉴赏信息，从而可以根据相似用户的实际音乐鉴赏信息为用户推荐匹配音乐。

其中，采用第三种方式时，在执行步骤203之前，服务器预先基于各用户对候选音乐库中各候选音乐的实际音乐鉴赏信息，确定预估评价矩阵。

具体的，确定预估评价矩阵时，可以采用以下步骤：

首先，服务器基于各用户对各候选音乐的实际音乐鉴赏信息，组成评分矩阵。其中，评分矩阵中的元素mij表示用户i对音乐j的鉴赏对应的数值。

然后，服务器采用预设的矩阵分解算法对评分矩阵进行矩阵分解，获得用户矩阵和音乐特征矩阵。

可选的，矩阵分解算法可以采用FunkSVD算法，具体原理如下：

对评分矩阵进行矩阵分解时，期望评分矩阵按照公式M_mxn＝P^T _mxkQ_kxn进行分解。其中，M为评分矩阵，P为用户矩阵，Q为音乐特征矩阵，m为用户总数，n为音乐总数，k参数。这样，基于矩阵分解后的P和Q，可以通过qTjpi表示用户i对音乐j的预估的音乐评分。p为用户向量，q为音乐特征向量。

为尽可能的减小用户实际的音乐评分mij与计算获得的预估音乐评分qTjpi之间的评分残差，将均方差作为损失函数，以确定最终的P和Q。

即只要可以最小化损失函数∑i,j(mij-qTjpi)²并求出极值所对应的pi和qj，则我们最终可以得到矩阵P和Q，那么对于任意矩阵M任意一个空白评分的位置，我们可以通过qTjpi计算预测的音乐评分。

在实际应用中，我们为了防止过拟合，会加入一个正则化项，因此，优化目标函数J(p，q)为：

其中，p为用户向量，q为音乐特征向量，λ为正则化系数，i为用户序号，j为音乐序号。

由于λ为正则化系数，需要调参，因此，通过梯度下降法来进行优化得到结果，具体步骤如下：

首先，将上式分别对pi和qj求导我们得到：

然后，在梯度下降法迭代时，迭代公式为：

pi＝pi+α((mij-qTjpi)qj-λpi)；

qj＝qj+α((mij-qTjpi)pi-λqj)；

通过迭代我们最终可以得到优化后的用户矩阵P和音乐特征矩阵Q，进而基于Q中的每一qTj与P中的每一pi的乘积，确定各用户对各音乐的预估评价矩阵。

这样，就可以根据各用户对各候选音乐的实际音乐鉴赏信息获得的评分矩阵，通过矩阵分解，获得用户矩阵和音乐特征矩阵，进而基于用户矩阵和音乐特征矩阵，获得各用户对各音乐的预估评价矩阵，并将预估评价矩阵确定为用户对各候选音乐的预估音乐鉴赏信息。

步骤204服务器根据素材对应的用户对各个匹配音乐的用户鉴赏信息，对各个匹配音乐进行排序。

步骤205：服务器基于排序结果，按照预设的音乐筛选条件对各匹配音乐进行筛选，并将筛选出的匹配音乐推荐为素材的备选音乐。

具体的，服务器在各匹配音乐中按照排序筛选出符合预设的音乐筛选条件的匹配音乐，并按照排序将筛选出的备选音乐直接向用户显示或将备选音乐的信息发送给终端。

可选的，音乐筛选条件可以为筛选出用户鉴赏信息中的数值高于设定值的匹配音乐，或者，按照由高到低的排序结果，筛选出序号高于设定值的匹配音乐，或倒数设定数量的匹配音乐。

这样，用户就可以在各备选音乐中选取自己喜欢的音乐进行素材配乐。

例如，参阅图3f所示，为一种音乐推荐应用界面示意图一，图3f中，终端询问用户是否为小视频配乐，参阅图3g所示，为一种素材的匹配音乐推荐示例图。图3g中，终端确定用户为小视频配乐时，向服务器发送小视频，服务器对小视频进行解析，确定小视频的视觉语义标签为雪地和运动。然后，服务器在海量曲库(候选音乐库)中搜索出与雪地匹配的5首歌曲，搜索出与运动匹配的5首歌曲。接着，服务器根据用户对上述10首歌曲的预估音乐鉴赏信息，对各歌曲进行排序。参阅图3h所示，为一种音乐推荐应用界面示意图二，图3h中将排序在前的5首歌曲按照排序推荐给用户。

进一步地，终端设备接收服务器返回的备选音乐的信息，并将备选音乐的信息显示给用户，确定接收到用户从备选音乐中指定配乐音乐的指示信息，根据指示信息，获得合成并输出合成有配乐音乐的素材。

其中，根据指示信息，获得合成有配乐音乐的素材时，可以采用以下两种方式：

第一种方式为：将指示信息发送给服务器，接收服务器返回的合成有配乐音乐的素材。

第二种方式为：将指示信息发送给服务器，并接收服务器根据指示信息返回的配乐音乐，以及将配乐音乐合成到素材中。

本申请实施例中，确定素材的若干素材语义标签，并基于各用户对各音乐的音乐评论信息获得的音乐搜索模型搜索素材语义标签匹配的若干匹配音乐，以及基于用户的用户鉴赏信息，对各个匹配音乐进行排序，并按照排序结果向用户进行音乐推荐。这样，就可以根据不同用户对不同音乐的喜好进行个性化服务，即对不同的用户进行差异化推荐，既向用户推荐了与素材匹配的音乐还向用户推荐了用户喜欢的音乐，提高了用户体验。

参阅图3i所示，为一种音乐配乐的交互时序图。该方法的具体实施流程如下：

步骤301：终端向服务器发送对素材进行配乐的指示信息。

步骤302：终端接收服务器返回的基于素材推荐的备选音乐。

步骤303：终端向服务器发送采用备选音乐中的指定音乐进行配乐的指示信息。

步骤304：终端接收服务器返回的合成有音乐的素材。

基于同一发明构思，本申请实施例中还提供了一种音乐推荐的装置，由于上述装置及设备解决问题的原理与一种音乐推荐的方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图4a所示，其为本申请实施例提供的一种音乐推荐的装置的结构示意图一，包括：

获取单元400，用于获取待配乐的素材；

第一确定单元401，用于确定素材的至少一个视觉语义标签，每个视觉语义标签用于描述素材的至少一项内容；

搜索单元402，用于从候选音乐库中，搜索出与至少一个视觉语义标签匹配的各个匹配音乐；

排序单元403，用于根据素材对应的用户针对各个匹配音乐的用户鉴赏信息，对各个匹配音乐进行排序；

推荐单元404，用于基于排序结果，按照预设的音乐筛选条件对匹配音乐进行筛选，并将筛选出的匹配音乐推荐为素材的备选音乐。

较佳的，推荐单元404还用于：

接收终端发送的从备选音乐中指定配乐音乐的指示信息；

根据指示信息，将配乐音乐合成到素材；

将合成有音乐的素材发送给终端。

较佳的，第一确定单元401还包括：

较佳的，解析单元具体用于：

素材为视频时，将素材进行帧解析，获得各帧图像；

较佳的，搜索单元402具体用于：

较佳的，排序单元403具体用于：

获取各相似用户对各匹配音乐的实际音乐鉴赏信息；

较佳的，排序单元403具体用于：

排序单元403具体用于：

如图4b所示，其为本申请实施例提供的一种音乐推荐的装置的结构示意图二，包括：

发送单元410，用于向服务器发送待配乐的素材，触发服务器执行以下步骤：确定素材的至少一个视觉语义标签；从候选音乐库中，搜索出与至少一个视觉语义标签匹配的各个匹配音乐；根据素材对应的用户对各个匹配音乐的预估音乐鉴赏信息，对各个匹配音乐进行排序；基于排序结果，按照预设的音乐筛选条件对匹配音乐进行筛选，并将筛选出的匹配音乐推荐为素材的备选音乐；

接收单元411，用于接收服务器返回的备选音乐；

基于同一技术构思，本申请实施例还提供了一种终端设备500，参照图5所示，终端设备500用于实施上述各个方法实施例记载的方法，例如实施图2所示的实施例，终端设备500可以包括存储器501、处理器502、输入单元4503和显示面板504。

存储器501，用于存储处理器502执行的计算机程序。存储器501可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据终端设备500的使用所创建的数据等。处理器502，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。输入单元503，可以用于获取用户输入的用户指令。显示面板504，用于显示由用户输入的信息或提供给用户的信息，本申请实施例中，显示面板504主要用于显示终端设备中各应用程序的显示界面以及各显示界面中显示的控件实体。可选的，显示面板504可以采用液晶显示器(liquidcrystal display，LCD)或OLED(organic light-emitting diode，有机发光二极管)等形式来配置显示面板504。

本申请实施例中不限定上述存储器501、处理器502、输入单元503和显示面板504之间的具体连接介质。本申请实施例在图5中以存储器501、处理器502、输入单元503、显示面板504之间通过总线505连接，总线505在图5中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线505可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器501可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器501也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器501是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器501可以是上述存储器的组合。

处理器502，用于实现如图2所示的实施例，包括：

处理器502，用于调用存储器501中存储的计算机程序执行如实施图2所示的实施例。

本申请实施例还提供了一种计算机可读存储介质，存储为执行上述处理器所需执行的计算机可执行指令，其包含用于执行上述处理器所需执行的程序。

在一些可能的实施方式中，本申请提供的一种音乐推荐的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种音乐推荐的方法中的步骤。例如，终端设备可以执行如实施图2所示的实施例。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于一种音乐推荐的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向实体的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种音乐推荐的方法，其特征在于，包括：

获取待配乐的素材；

确定所述素材的至少一个视觉语义标签，每个视觉语义标签用于描述素材的至少一项内容；

从候选音乐库中，搜索出与所述至少一个视觉语义标签匹配的各个匹配音乐；

根据所述素材对应的用户针对各个匹配音乐的用户鉴赏信息，对各个匹配音乐进行排序；

基于排序结果，按照预设的音乐筛选条件对匹配音乐进行筛选，并将筛选出的匹配音乐推荐为所述素材的备选音乐；

所述搜索出与所述至少一个视觉语义标签匹配的各个匹配音乐，具体包括：

基于所述至少一个视觉语义标签，采用预先训练的音乐搜索模型，获得与所述至少一个视觉语义标签匹配的各个匹配音乐；其中，所述音乐搜索模型是将各用户对各音乐的音乐评论信息进行文本分类训练后获得的；

确定用户针对各个匹配音乐的用户鉴赏信息时，执行以下操作中的任意一项：

分别针对提供素材的用户对每一匹配音乐的音乐鉴赏行为数据，将音乐鉴赏行为数据的一种参数值，或多种参数值的加权平均值，作为用户鉴赏信息；

基于用户的各相似用户分别对每一匹配音乐的实际音乐鉴赏信息，预测用户对每一匹配音乐的预估音乐鉴赏信息，并将预估音乐鉴赏信息作为用户鉴赏信息；

获取预先确定的预估评价矩阵，并直接获取预估评价矩阵中用户对各匹配音乐的预估音乐鉴赏信息，并将预估音乐鉴赏信息作为用户鉴赏信息。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

接收终端发送的从所述备选音乐中指定配乐音乐的指示信息；

根据所述指示信息，将所述配乐音乐合成到所述素材；

将合成有音乐的素材发送给终端。

3.如权利要求1所述的方法，其特征在于，所述确定所述素材的至少一个视觉语义标签，具体包括：

将所述用户从备选的视觉语义标签中指定的至少一个视觉语义标签，确定为所述素材的至少一个视觉语义标签；或者，

解析所述素材的内容，确定所述素材的至少一个视觉语义标签。

4.如权利要求3所述的方法，其特征在于，解析所述素材的内容，确定所述素材的至少一个视觉语义标签，具体包括：

所述素材为图像集合时，利用预先训练的标签识别模型，对所述素材进行视觉语义标签识别，获得所述素材的视觉语义标签向量，并将所述视觉语义标签向量中分值符合预设筛选条件的视觉语义标签，确定为所述素材对应的视觉语义标签；

其中：所述图像集合中包含至少一帧图像，所述素材的视觉语义标签向量包括：从素材中识别出的内容的至少一个视觉语义标签及其对应的分值，所述标签识别模型为对多个标签识别样本进行训练后获得的，每个标签识别样本包括样本图像和该样本图像的视觉语义标签向量。

5.如权利要求3所述的方法，其特征在于，所述解析所述素材的内容，确定所述素材的至少一个视觉语义标签，具体包括；

所述素材为视频时，将所述素材进行帧解析，获得各帧图像；

将各帧图像的视觉语义标签向量的平均向量中，分值符合预设筛选条件的视觉语义标签，确定为所述素材对应的视觉语义标签；

其中：一帧图像的视觉语义标签向量包括：从该帧图像中识别出的内容的至少一个视觉语义标签及其对应的分值，所述标签识别模型为对多个标签识别样本进行训练后获得的，每个标签识别样本包括样本图像和该样本图像的视觉语义标签向量。

6.如权利要求1～5任一项所述的方法，其特征在于，根据所述素材对应的用户针对各个匹配音乐的用户鉴赏信息，对各个匹配音乐进行排序，具体包括：

根据所述素材对应的用户对各个匹配音乐的预估音乐鉴赏信息，对各个匹配音乐进行排序，所述用户对各个匹配音乐的预估音乐鉴赏信息是基于不同用户对各个候选音乐的实际音乐鉴赏信息获得的；其中，一个用户对一首音乐的所述实际音乐鉴赏信息是对用户的音乐鉴赏行为数据中包含的各个参数值进行加权处理后获得的；所述音乐鉴赏行为数据中包含以下参数中的任意一种或任意组合：音乐评分、点击率、收藏行为、点赞行为，以及分享行为。

7.如权利要求6所述的方法，其特征在于，在根据所述素材对应的用户对各个匹配音乐的预估音乐鉴赏信息，对各个匹配音乐进行排序之前，进一步包括：

针对匹配音乐，获取鉴赏该匹配音乐的各用户的用户属性信息，并筛选出用户属性信息与所述用户的用户属性信息相似的各相似用户；

获取各相似用户对各匹配音乐的实际音乐鉴赏信息；

分别对各相似用户分别对每一匹配音乐的实际音乐鉴赏信息进行平均值处理，预估所述用户对各匹配音乐的预估音乐鉴赏信息。

8.如权利要求6所述的方法，其特征在于，在根据所述素材对应的用户对各个匹配音乐的预估音乐鉴赏信息，对各个匹配音乐进行排序之前，进一步包括：

对所述评分矩阵进行矩阵分解以及优化处理，获得用户矩阵和音乐特征矩阵；

分别将所述音乐特征矩阵中的每一音乐特征向量的转置与所述用户矩阵中的每一用户向量的乘积，确定为每一用户对每一音乐的预估音乐鉴赏信息。

9.如权利要求1～5任一项所述的方法，其特征在于，根据所述素材对应的用户针对各个匹配音乐的用户鉴赏信息，对各个匹配音乐进行排序，具体包括：

根据所述素材对应的用户对音乐的一种音乐鉴赏行为数据的参数值，或者是对音乐的至少两种音乐鉴赏行为数据的参数值进行加权处理后获得的综合值，对各个匹配音乐进行排序；

10.一种音乐推荐的方法，其特征在于，包括：

向服务器发送待配乐的素材，触发所述服务器执行以下步骤：确定所述素材的至少一个视觉语义标签；从候选音乐库中，搜索出与所述至少一个视觉语义标签匹配的各个匹配音乐；根据所述素材对应的用户对各个匹配音乐的预估音乐鉴赏信息，对各个匹配音乐进行排序；基于排序结果，按照预设的音乐筛选条件对匹配音乐进行筛选，并将筛选出的匹配音乐推荐为所述素材的备选音乐；所述搜索出与所述至少一个视觉语义标签匹配的各个匹配音乐，具体包括：基于所述至少一个视觉语义标签，采用预先训练的音乐搜索模型，获得与所述至少一个视觉语义标签匹配的各个匹配音乐；其中，所述音乐搜索模型是将各用户对各音乐的音乐评论信息进行文本分类训练后获得的；

获取预先确定的预估评价矩阵，并直接获取预估评价矩阵中用户对各匹配音乐的预估音乐鉴赏信息，并将预估音乐鉴赏信息作为用户鉴赏信息；

接收所述服务器返回的备选音乐；

其中，所述用户对各个匹配音乐的预估音乐鉴赏信息是基于不同用户对各个候选音乐的实际音乐鉴赏信息获得的。

11.一种音乐推荐的装置，其特征在于，包括：

获取单元，用于获取待配乐的素材；

第一确定单元，用于确定所述素材的至少一个视觉语义标签，每个视觉语义标签用于描述素材的至少一项内容；

搜索单元，用于从候选音乐库中，搜索出与所述至少一个视觉语义标签匹配的各个匹配音乐；

排序单元，用于根据所述素材对应的用户针对各个匹配音乐的用户鉴赏信息，对各个匹配音乐进行排序；

推荐单元，用于基于排序结果，按照预设的音乐筛选条件对匹配音乐进行筛选，并将筛选出的匹配音乐推荐为所述素材的备选音乐；

所述搜索出与所述至少一个视觉语义标签匹配的各个匹配音乐时，所述搜索单元具体用于：基于所述至少一个视觉语义标签，采用预先训练的音乐搜索模型，获得与所述至少一个视觉语义标签匹配的各个匹配音乐；其中，所述音乐搜索模型是将各用户对各音乐的音乐评论信息进行文本分类训练后获得的；

确定用户针对各个匹配音乐的用户鉴赏信息时，所述排序单元还用于执行以下操作中的任意一项：

12.如权利要求11所述的装置，其特征在于，所述第一确定单元还包括：

第二确定单元，用于将所述用户从备选的视觉语义标签中指定的至少一个视觉语义标签，确定为所述素材的至少一个视觉语义标签；或者，

解析单元，用于解析所述素材的内容，确定所述素材的至少一个视觉语义标签。

13.如权利要求11或12所述的装置，其特征在于，所述排序单元具体用于：

根据所述素材对应的用户对各个匹配音乐的预估音乐鉴赏信息，对各个匹配音乐进行排序，所述用户对各个匹配音乐的预估音乐鉴赏信息是基于不同用户对各个候选音乐的实际音乐鉴赏信息获得的；

其中，一个用户对一首音乐的所述实际音乐鉴赏信息是对用户的音乐鉴赏行为数据中包含的各个参数值进行加权处理后获得的；所述音乐鉴赏行为数据中包含以下参数中的任意一种或任意组合：音乐评分、点击率、收藏行为、点赞行为，以及分享行为。

14.如权利要求13所述的装置，其特征在于，所述排序单元具体用于：

针对匹配音乐，获取鉴赏该匹配音乐的各用户的用户属性信息，并筛选出用户属性信息与所述用户的用户属性信息相似的各相似用户；获取各相似用户对各匹配音乐的实际音乐鉴赏信息；分别对各相似用户分别对每一匹配音乐的实际音乐鉴赏信息进行平均值处理，预估所述用户对各匹配音乐的预估音乐鉴赏信息；

基于各用户对各候选音乐的实际音乐鉴赏信息，获得评分矩阵；对所述评分矩阵进行矩阵分解以及优化处理，获得用户矩阵和音乐特征矩阵；分别将所述音乐特征矩阵中的每一音乐特征向量的转置与所述用户矩阵中的每一用户向量的乘积，确定为每一用户对每一音乐的预估音乐鉴赏信息；或者

根据所述素材对应的用户对音乐的一种音乐鉴赏行为数据的参数值，或者是对音乐的至少两种音乐鉴赏行为数据的参数值进行加权处理后获得的综合值，对各个匹配音乐进行排序；其中，一个用户对一首音乐的音乐鉴赏行为数据中包含以下参数中的任意一种或任意组合：音乐评分、点击率、收藏行为、点赞行为，以及分享行为。

15.一种音乐推荐的装置，其特征在于，包括：

发送单元，用于向服务器发送待配乐的素材，触发所述服务器执行以下步骤：确定所述素材的至少一个视觉语义标签；从候选音乐库中，搜索出与所述至少一个视觉语义标签匹配的各个匹配音乐；根据所述素材对应的用户对各个匹配音乐的预估音乐鉴赏信息，对各个匹配音乐进行排序；基于排序结果，按照预设的音乐筛选条件对匹配音乐进行筛选，并将筛选出的匹配音乐推荐为所述素材的备选音乐；所述搜索出与所述至少一个视觉语义标签匹配的各个匹配音乐，具体包括：基于所述至少一个视觉语义标签，采用预先训练的音乐搜索模型，获得与所述至少一个视觉语义标签匹配的各个匹配音乐；其中，所述音乐搜索模型是将各用户对各音乐的音乐评论信息进行文本分类训练后获得的；其中，确定用户针对各个匹配音乐的用户鉴赏信息时，执行以下操作中的任意一项：分别针对提供素材的用户对每一匹配音乐的音乐鉴赏行为数据，将音乐鉴赏行为数据的一种参数值，或多种参数值的加权平均值，作为用户鉴赏信息；基于用户的各相似用户分别对每一匹配音乐的实际音乐鉴赏信息，预测用户对每一匹配音乐的预估音乐鉴赏信息，并将预估音乐鉴赏信息作为用户鉴赏信息；获取预先确定的预估评价矩阵，并直接获取预估评价矩阵中用户对各匹配音乐的预估音乐鉴赏信息，并将预估音乐鉴赏信息作为用户鉴赏信息；

接收单元，用于接收所述服务器返回的备选音乐；

16.一种终端设备，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行权利要求1～9或10任一权利要求所述方法的步骤。

17.一种计算机可读介质，其特征在于，其存储有可由终端设备执行的计算机程序，当所述程序在终端设备上运行时，使得所述终端设备执行权利要求1～9或10任一所述方法的步骤。