CN111259192A

CN111259192A - 音频推荐方法和装置

Info

Publication number: CN111259192A
Application number: CN202010043310.7A
Authority: CN
Inventors: 李玉洁; 刘才良; 陈世哲; 孙文; 刘少伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-09
Anticipated expiration: 2040-01-15
Also published as: CN111259192B

Abstract

本申请的实施例提供了一种音频推荐方法和装置。该音频推荐方法包括：将待处理的视频数据输入第一机器学习模型，得到视频帧特征以及视频分类标签；根据所述视频分类标签在音频库中确定至少两个目标音频；获取基于用户偏好标签生成的用户特征以及至少两个所述目标音频的音频特征；将所述用户特征、至少两个所述目标音频的音频特征以及所述视频帧特征输入第二机器学习模型，得到至少两个所述目标音频的推荐评分；基于所述推荐评分对至少两个所述目标音频进行排序，生成所述视频数据的音频推荐列表。本申请实施例的技术方案使得所推荐的配乐与用户需求的匹配度较高，提高了推荐的精准度。

Description

音频推荐方法和装置

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种音频推荐方法和装置。

背景技术

目前，对于用户所上传的视频，需要为视频推荐符合视频内容的配乐。现有的配乐推荐方式一般是按照各个配乐的热门程度或基于较为简单的人工智能推荐来解决配乐和视频的匹配度问题，该方式没有考虑到用户喜好，从而使得所推荐的配乐与用户需求的匹配度不高，推荐的精准度较低。

发明内容

本申请的实施例提供了一种音频推荐方法和装置，可以解决所推荐的配乐与用户需求的匹配度不高，推荐的精准度较低的技术问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种音频推荐方法，包括：将待处理的视频数据输入第一机器学习模型，得到视频帧特征以及视频分类标签；根据所述视频分类标签在音频库中确定至少两个目标音频；获取基于用户偏好标签生成的用户特征以及至少两个所述目标音频的音频特征；将所述用户特征、至少两个所述目标音频的音频特征以及所述视频帧特征输入第二机器学习模型，得到至少两个所述目标音频的推荐评分；基于所述推荐评分对至少两个所述目标音频进行排序，生成所述视频数据的音频推荐列表。

根据本申请实施例的一个方面，提供了一种音频推荐装置，包括：第一执行单元，用于将待处理的视频数据输入第一机器学习模型，得到视频帧特征以及视频分类标签；第二执行单元，用于根据所述视频分类标签在音频库中确定至少两个目标音频；获取单元，用于获取用户特征以及至少两个所述目标音频的音频特征；第三执行单元，用于将所述用户特征、至少两个所述目标音频的音频特征以及所述视频帧特征输入第二机器学习模型，得到至少两个所述目标音频的推荐评分；第一排序单元，用于基于所述推荐评分对至少两个所述目标音频进行排序，生成所述视频数据的音频推荐列表。

在本申请的一些实施例中，基于前述方案，所述第一执行单元被配置为：抽取子单元，用于从用户的所述视频数据中抽取视频帧；输入子单元，用于将所述视频帧输入所述第一机器学习模型；生成子单元，用于所述第一机器学习模型基于所述视频帧生成所述视频帧特征以及所述视频分类标签。

在本申请的一些实施例中，基于前述方案，生成子单元被配置为：提取各个所述视频帧的图像特征；对各个所述视频帧的图像特征进行融合处理，生成所述视频帧特征；基于所述视频帧特征进行分类处理，得到视频分类标签。

在本申请的一些实施例中，基于前述方案，生成子单元被配置为：对各个所述视频帧的图像特征进行排序处理，得到排序后的图像特征；确定所述排序后的各个图像特征的权重，生成所述视频帧特征。

在本申请的一些实施例中，基于前述方案，第三执行单元被配置为：根据所述用户特征、至少两个所述目标音频的音频特征以及所述视频帧特征进行特征组合，生成第一组合特征以及第二组合特征，其中，所述第一组合特征的阶数高于第二组合特征的阶数；基于所述第一组合特征以及所述第二组合特征进行评分预估处理，生成至少两个所述目标音频的推荐评分。

在本申请的一些实施例中，基于前述方案，第二执行单元被配置为：根据所述视频分类标签、用户偏好标签以及音频热度标签在音频库中确定至少两个目标音频。

在本申请的一些实施例中，基于前述方案，第二执行单元被配置为：对至少两个所述目标音频进行去重处理。

在本申请的一些实施例中，基于前述方案，若所述视频分类标签包括一级分类标签以及二级分类标签，则第二执行单元被配置为：根据所述一级分类标签，在所述音频库中确定与所述视频数据匹配的至少两个备选音频；根据所述二级分类标签，在至少两个所述备选音频中确定与所述视频数据匹配的至少两个目标音频。

在本申请的一些实施例中，基于前述方案，所述音频推荐装置还包括以下单元中的至少一种：第二排序单元，用于基于预设的推荐音频黑名单对所述音频推荐列表进行重新排序；和第二三排序单元，用于基于所述音频推荐列表中各个音频的音频标签的相似度对所述音频推荐列表进行重新排序。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的音频推荐方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的音频推荐方法。

在本申请的一些实施例所提供的技术方案中，通过将待处理的视频输入第一机器学习模型，得到视频帧特征以及视频分类标，并根据视频分类标签在音频库中确定至少两个目标音频；然后获取基于用户偏好标签生成的用户特征以及至少两个目标音频的音频特征；并将用户特征、至少两个目标音频的音频特征以及视频帧特征输入第二机器学习模型，得到至少两个目标音频的推荐评分；基于推荐评分对至少两个目标音频进行排序，生成视频数据的音频推荐列表，通过用户特征、目标音频的音频特征以及视频帧特征来对目标音频进行综合评分，可以在考虑到用户喜好的情况下，使得所推荐的配乐与用户的视频的匹配度较高，进而为待处理的视频推荐合适的配乐，提高了推荐的精准度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在附图中：

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

图2示出了根据本申请的一个实施例的音频推荐方法的流程图。

图3示出了根据本申请的一个实施例的音频推荐方法的步骤S210的具体流程图。

图4示出了根据本申请的一个实施例的音频推荐方法的步骤S330的具体流程图。

图5示出了根据本申请的一个实施例的音频推荐方法的步骤S420的具体流程图。

图6示出了根据本申请的一个实施例的第一机器学习模型内部的网络结构示意图。

图7示出了根据本申请的一个实施例的音频推荐方法的步骤S220的具体流程图。

图8示出了根据本申请的一个实施例的确定目标音频的构架示意图。

图9示出了根据本申请的一个实施例的音频推荐方法的步骤S240的具体流程图。

图10示出了根据本申请的一个实施例的音频推荐装置的框图。

图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

如图1所示，系统架构可以包括客户端101(如图1中所示智能手机、平板电脑和便携式计算机中的一种或多种，当然也可以是台式计算机等等)、网络102和服务器103。网络102用以在客户端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的客户端101、网络102和服务器103的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端101、网络102和服务器103，比如服务器103可以是多个服务器组成的服务器集群等。客户端101通过网络102与服务器103交互，以接收或发送消息等，服务器103可以是提供各种服务的服务器。

用户为使用客户端101的用户，例如用户利用客户端101上传了待处理的视频数据，待处理的视频数据可以为用户上传至客户端101中的某种应用上进行预览的视频数据，客户端101将待处理的视频输入第一机器学习模型，得到视频帧特征以及视频分类标签，并根据视频分类标签在音频库中确定至少两个目标音频；然后获取基于用户偏好标签生成的用户特征以及至少两个目标音频的音频特征；并将用户特征、至少两个目标音频的音频特征以及视频帧特征输入第二机器学习模型，得到至少两个目标音频的推荐评分；基于推荐评分对至少两个目标音频进行排序，生成视频数据的音频推荐列表，通过用户特征、目标音频的音频特征以及视频帧特征来对目标音频进行综合评分，可以在考虑到用户喜好的情况下，使得所推荐的配乐与用户的视频的匹配度较高，进而为待处理的视频推荐合适的配乐，提高了推荐的精准度。

需要说明的是，本申请实施例所提供的音频推荐方法一般由客户端101执行，相应地，音频推荐装置一般设置于客户端101中。但是，在本申请的其它实施例中，服务器103也可以与客户端101具有相似的功能，从而执行本申请实施例所提供的音频推荐方法的方案。如，用户利用客户端101上传了待处理的视频数据，客户端101将待处理的视频数据发送至服务器103，服务器103将接收到的视频数据输入第一机器学习模型，得到视频帧特征以及视频分类标，并根据视频分类标签在音频库中确定至少两个目标音频；然后获取基于用户偏好标签生成的用户特征以及至少两个目标音频的音频特征；并将用户特征、至少两个目标音频的音频特征以及视频帧特征输入第二机器学习模型，得到至少两个目标音频的推荐评分；

基于推荐评分对至少两个目标音频进行排序，生成视频数据的音频推荐列表，服务器103在生成视频数据的音频推荐列表后，再将视频数据的音频推荐列表发送至客户端101。

在其它实施例中，本申请实施例所提供的音频推荐方法还可以是由客户端101与服务器103共同执行，比如，例如用户利用客户端101上传了待处理的视频数据，客户端101将用户的视频数据输入第一机器学习模型，得到视频帧特征以及视频分类标签，客户端101将得到视频帧特征以及视频分类标签发送至服务器103。服务器103根据视频分类标签在音频库中确定至少两个目标音频；获取基于用户偏好标签生成的用户特征以及至少两个目标音频的音频特征；将用户特征、至少两个目标音频的音频特征以及视频帧特征输入第二机器学习模型，得到至少两个目标音频的推荐评分；基于推荐评分对至少两个目标音频进行排序，生成视频数据的音频推荐列表，服务器103在生成视频数据的音频推荐列表后，再将视频数据的音频推荐列表发送至客户端101。

以下对本申请实施例的技术方案的实现细节进行详细阐述。

图2示出了根据本申请的一个实施例的音频推荐方法的流程图，该音频推荐方法可以由客户端来执行，该客户端可以是图1中所示的客户端101。参照图2所示，该音频推荐方法至少包括步骤S210至步骤S250，详细介绍如下：

在步骤S210中，将待处理的视频数据输入第一机器学习模型，得到视频帧特征以及视频分类标签。

在本申请的一个实施例中，待处理的视频数据可以为上传至客户端中的需要添加音频的视频文件，例如，在客户端的短视频应用中所上传的需要添加音频进行配乐的视频文件。

视频帧特征为对视频数据中包含的视频帧进行特征提取所得到的图像特征，视频分类标签为基于视频数据包含的视频内容进行分类的结果，如体育、游戏、娱乐。

参考图3，图3示出了根据本申请的一个实施例的音频推荐方法的步骤S210的具体流程图，步骤S210具体可以包括步骤S310至步骤S330，详细描述如下。

在步骤S310中，从待处理的所述视频数据中抽取视频帧。

在获取待处理的视频数据后，为了确定得到视频数据对应的视频帧特征以及视频分类标签时，可以对待处理的视频数据进行数据预处理。数据预处理包括从待处理的视频数据中抽取视频帧，即可以基于预设的帧数间隔从视频数据中抽取视频帧。

在一个实施例中，预设的帧数间隔可以与客户端当前设备的硬件性能存在关联关系，如在客户端当前搭载设备为智能手机或平板电脑时，可以预先在本地存储不同型号的搭载设备与帧数间隔之间的对应关系表，客户端可以从搭载设备的配置信息中获取搭载设备的型号，并基于所存储不同型号的搭载设备与帧数间隔之间的对应关系，确定对视频数据进行抽帧处理的帧数间隔。

在步骤S320中，将所述视频帧输入所述第一机器学习模型。

客户端将对视频数据进行抽取处理得到的视频帧输入至第一机器学习模型。

在步骤S330中，所述第一机器学习模型基于所述视频帧生成所述视频帧特征以及所述视频分类标签。

第一机器学习模型是通过训练样本数据来对机器学习模型进行训练得到的，机器学习模型可以是CNN(Convolutional Neural Network，卷积神经网络)模型，或者也可以是深度神经网络模型等。训练样本数据中的每条样本数据包含每个视频数据进行抽帧得到视频帧以及对视频帧所对应的视频数据预先标注的视频分类标签。对机器学习模型进行训练的过程是调整机器学习模型对应的网络结构中的各项系数，使得对于输入的视频帧样本，经过机器学习模型对应的网络结构中的各项系数运算，输出结果为根据视频帧样本提取的视频帧特征以及对该视频帧样本进行标注的视频分类标签。

参考图4，图4示出了根据本申请的一个实施例的音频推荐方法的步骤S330的具体流程图，步骤S330可以包括步骤S410至步骤S430，详细描述如下。

在步骤S410中，提取各个所述视频帧的图像特征。

对于获取的视频帧，可以基于第一机器学习模型中包含的用于进行特征提取的网络结构来进行提取，用于进行特征提取的网络结构可以为efficient-b3模型对应的网络结构来进行提取，也可以是VGG的卷积神经网络结构，在此不作限定。

在步骤S420中，对各个所述视频帧的图像特征进行融合处理，生成所述视频帧特征。

提取得到的各个视频帧的图像特征后，可以对各个视频帧的图像特征进行融合处理得到融合的视频帧特征，融合的视频帧特征作为考虑到各个视频帧的图像特征的时序信息以及各个视频帧不同重要程度的特征信息，可以使得第一机器学习模型能更快地基于视频帧特征确定视频数据对应的视频分类标签。

参考图5，图5示出了根据本申请的一个实施例的音频推荐方法的步骤S420的具体流程图，图6示出了根据本申请的一个实施例的第一机器学习模型内部的网络结构示意图，其中，本实施例中的步骤S420可以包括步骤S510至步骤S520，详细描述如下。

在步骤S510中，对各个所述视频帧的图像特征进行排序处理，得到排序后的图像特征。

在对各个视频帧的图像特征进行融合处理生成视频帧特征时，可以对各个视频帧的图像特征进行排序处理，得到排序后的图像特征。如，可以按照各个视频帧在视频图像中出现的时间序列对各个视频帧的图像特征进行排序处理，生成排序后的图像特征。

参考图6，本实施例中第一机器学习模型通过内部包含的nextvlad层的网络结构来对视频帧的图像特征进行排序处理，得到排序后的图像特征。

在步骤S520中，确定所述排序后的各个图像特征的权重，生成所述视频帧特征。

在对各个视频帧的图像特征进行融合处理生成视频帧特征时，为了确定各个视频帧的图像特征的重要程度，还可以确定排序后的各个视频帧对应的图像特征的权重，其中，各个视频帧对应的图像特征的权重大小反映了第一机器学习模型需要关注的重要程度。进而便于第一机器学习模型能更快的基于各个视频帧的图像特征确定视频数据对应的视频分类标签。

参考图6，本实施例中第一机器学习模型通过内部包含的attention层的网络结构确定排序后的各个视频帧对应的图像特征的权重，以便于第一机器学习模型内部的cancat层以及fc层的网络结构进行数据处理，进而生成用于作为第一机器学习模型内部的分类器结构进行视频分类的输入数据。

图5以及图6所示实施例的方案通过考虑到各个视频帧的图像特征的时序信息以及各个视频帧的需要关注的重要程度，可以使得第一机器学习模型能更快的基于各个视频帧的图像特征确定对应的视频分类标签，提高了根据视频帧进行视频分类的效率。

还请继续参考图4，在步骤S430中，基于所述视频帧特征进行分类处理，得到视频分类标签。

在生成视频帧特征后，第一机器学习模型通过内部的分类器网络结构对视频帧特征进行分类处理，得到视频数据对应的视频分类标签。

通过第一机器学习模型对视频数据进行处理，确定视频数据中的视频帧特征以及视频分类标签，可以提高提取视频帧特征的精确性以及对视频数据进行分类的精确性。

还请继续参考图2，在步骤S220中，根据所述视频分类标签在音频库中确定至少两个目标音频。

音频库可以为包含多个音频的数据库，在根据视频分类标签确定与视频数据匹配的目标音频时，可以根据视频分类标签与音频库的各个音频之间的匹配关系来确定目标音频。在确定视频分类标签是否与音频匹配时，可以通过建立视频分类标签与音频的匹配关系表的方式来快速查找是否匹配，进而查找到与视频分类标签匹配成功的音频。音频可以作为视频的配乐，用于使得用户实现对视频进行配乐编辑，视频分类标签与各个音频的匹配关系表可以基于所有用户针对视频进行配乐的用户配乐记录来确定。具体的，通过用户配乐记录确定同一个音频被应用于各个不同的视频分类标签下的视频进行配乐的次数，将进行配乐的次数达到预定阈值的音频与该视频分类标签关联，进而生成视频分类标签与音频的匹配关系表。

如，根据用户配乐记录可以得到音频“A”被应用于“游戏”这个视频分类标签下的视频进行配乐的次数为12532次、音频“A”被应用于“体育”这个视频分类标签下的视频进行配乐的次数为5632次，音频“A”被应用于“娱乐”这个视频分类标签的下的视频进行配乐的次数为21次，而预定阈值设定为500次，则可以确定音频“A”与“游戏”和“体育”这两个视频分类标签进行关联，进而生成音频“A”与视频分类标签的匹配关系。

参考图7，图7示出了根据本申请的一个实施例的音频推荐方法的步骤S220的具体流程图，若视频分类标签包括一级分类标签以及二级分类标签，则步骤S220还可以包括步骤S710至步骤S720，详细描述如下。

在步骤S710中，根据所述一级分类标签，在所述音频库中确定与所述视频数据匹配的至少两个备选音频。

在一个实施例中，视频分类标签还可以包括一级分类标签以及二级分类标签，二级分类标签可以为一级分类标签下更加精细的分类标签。如，针对“体育”的一级分类标签，二级分类标签可以为“足球”、“篮球”以及“乔丹”、“NBA”。需要说明的是，针对某个视频进行视频分类得到的一级分类标签可以为一个或者多个，一级分类标签下的二级分类标签也可以为一个或者多个。

在确定视频分类标签是否与音频匹配时，可以通过建立一级分类标签与音频的匹配关系表的方式来快速查找是否匹配，进而查找到与一级分类标签匹配成功的音频作为备选音频。

在步骤S720中，根据所述二级分类标签，在至少两个所述备选音频中确定与所述视频数据匹配的至少两个目标音频。

由于一级分类标签为粗粒度的标签，二级分类标签为更加精细粒度的标签，因此在根据一级分类标签与音频库的各个音频之间的匹配关系来确定至少两个备选音频时，虽然可以将不能与一级分类标签的音频筛选掉，但是不能得到与音频库的各个音频匹配度较高的音频。由此在得到至少两个备选音频后，还可以根据二级分类标签，在至少两个备选音频中确定与视频数据匹配的至少两个目标音频，进而得到与音频库的各个音频匹配度较高的音频。

在一个实施例中，可以通过建立二级分类标签与音频的匹配关系表的方式来快速查找是否匹配，进而查找备选音频与视频数据匹配的二级分类标签的个数。由于二级分类标签为一个或者多个，在根据匹配的二级分类标签的个数确定备选音频与视频数据之间的匹配相似度时，可以基于匹配的二级分类标签的个数与二级分类标签总个数的比值作为备选音频与视频数据之间的匹配相似度，进而将匹配相似度高的备选音频作为匹配成功的目标音频。

图7所示的实施例的方案，通过对视频分类的结果设置一级分类标签以及二级分类标签，通过将不能与一级分类标签的音频筛选掉，进而避免将二级分类标签与视频库的所有音频都进行匹配比较，可以减少不必要的数据处理，进而提高根据视频分类标签在音频库中确定至少两个目标音频的效率。

参考图8，图8示出了根据本申请的一个实施例的确定目标音频的构架示意图，在本申请的一个实施例中，根据视频分类标签在音频库中确定至少两个目标音频，还可以包括：根据视频分类标签、用户偏好标签以及音频热度标签在音频库中确定至少两个目标音频。

在一个实施例中，客户端基于内部的视频分类标签模块来根据视频分类标签这一个维度的标签信息在音频库中确定目标音频；客户端基于内部的用户偏好标签模块来根据用户偏好标签这一个维度的标签信息在音频库中确定目标音频；客户端基于内部的音频热度标签模块来根据音频热度标签这一个维度的标签信息在音频库中确定目标音频。

用户偏好标签为根据用户针对音频库中的各个音频进行配乐操作的行为记录日志所生成的用户偏好标签。行为记录日志可以包含用户将音频作为所上传视频的配乐次数以及音频的属性标签，音频的属性标签可以包括音频的风格标签、演唱歌手标签，演唱歌手标签如“周杰伦”、“林俊杰”、音频的风格标签如“电音”、“摇滚”、“嘻哈说唱”；不同的音频可以存在相同的某种属性标签。在根据行为记录日志生成用户偏好标签时，可以根据用户将各个音频作为所上传视频的配乐次数以及各个音频的属性标签，来确定用户针对每种属性标签的音频选为所上传视频的配乐总次数，并根据每种属性标签的音频的配乐总次数来生成用户偏好标签，用户偏好标签可以为“周杰伦”、“摇滚”、“电音”等。

具体地，可以采取如下策略中的任一种：将配乐总次数最多的属性标签作为用户偏好标签；选择配乐总次数排在预定名次n之内的属性标签作为用户偏好标签，n为大于等于2的正整数；选择配乐总次数高于预定次数阈值的属性标签作为用户偏好标签。

在根据用户偏好标签在音频库中确定目标音频时，可以根据用户偏好标签与音频之间的匹配相似度来确定目标音频。该匹配相似度可以为用户偏好标签与音频的属性标签匹配成功的标签个数与用户偏好标签和音频的属性标签的标签总数之间的比值。具体的，可以将匹配相似度最高的预定数量的音频作为目标音频的策略，也可以将匹配相似度高于预定阈值的音频作为目标音频的策略，在此不做限定。

基于用户偏好标签在音频库中确定目标音频，可以考虑到用户喜好为用户确定用于进行配乐的目标音频，提高所推荐的配乐与用户需求的匹配度。

在一个实施例中，音频热度标签可以为根据各个音频被用户选为所上传视频的配乐的次数来确定，音频热度标签可以反映音频当前的热门程度，不同的次数范围对应与不同的音频热度标签。音频热度标签可以包括高、中、低三个等级，根据实际需求，还可以划分为更多等级。

在根据音频热度标签在音频库中确定至少两个目标音频时，可以从音频热度标签为最高级别的音频中确定目标音频，基于音频热度标签在音频库中确定目标音频，可以考虑到当前音频的受欢迎程度为用户推荐配乐，以实现达到为用户推荐热门音频的效果。

通过视频分类标签、用户偏好标签以及音频热度标签分别在音频库中确定对应的目标音频，可以充分考虑到视频内容与音频之间的匹配度、用户偏好与音频之间的匹配度以及音频的热门程度来筛选符合目标音频，可以显著提高所推荐的音频与用户需求的匹配度，提高音频推荐的精准度。

在本申请的一个实施例中，根据所述视频分类标签、用户偏好标签以及音频热度标签在音频库中确定至少两个目标音频，还包括：对至少两个所述目标音频进行去重处理。

参考图8，由于根据视频分类标签、用户偏好标签以及音频热度标签分别在音频库中确定的目标音频会存在重复的情况，在输入至第二机器学习模型之前，客户端可以基于内部的attention层模块对至少两个目标音频进行去重处理，即基于各个目标音频的标识信息对所确定的至少两个目标音频进行去重处理，针对某个目标音频进行重复的推荐评分计算，减小不必要的数据处理。

在步骤S230中，获取基于用户偏好标签生成的用户特征以及至少两个所述目标音频的音频特征。

在本申请的一个实施例中，用户特征为基于用户偏好标签所生成的针对用户的特征，该特征具体可以为一个特征向量，该特征向量可以反映不同用户针对不同音频的偏好。具体的，可以通过预训练的机器学习模型来根据用户偏好标签确定对应的用户特征。机器学习模型可以通过包含用户偏好标签的训练样本集合进行训练而成，用户偏好标签可以由负责模型训练的人员人工在短视频应用中针对各个用户对应的用户偏好标签进行收集，将训练样本集合中的各个用户偏好标签输入到机器学习模型，对机器学习模型进行训练，训练将具有相似的用户偏好标签聚成一类，并生成该聚类所对应的特征向量的过程中所需要用到的各系数。在用训练样本集合中的全部样本训练机器学习模型后，机器学习模型根据输入的用户偏好标签，就能自动输出用户特征。

音频特征为音频包含的基本特征信息的一种表征形式，具体可以为特征向量。音频包含的基本特征信息可以包括时域特征、频域特征以及时频特征。在确定音频对应的音频特征时，可以通过预训练的机器学习模型来根据音频确定其对应的音频特征。机器学习模型可以通过包含音频库中的所有音频的训练样本集合进行训练而成，音频库中的所有音频可以由负责模型训练的人员人工在短视频应用进行收集，将训练样本集合中的各个音频输入到机器学习模型，对机器学习模型进行训练，训练将具有相似的基本特征信息的音频聚成一类，并生成该聚类的音频所对应的特征向量的过程中所需要用到的各系数。在用训练样本集合中的全部样本训练机器学习模型后，机器学习模型根据输入的音频，就能自动输出音频特征。

在步骤S240中，将所述用户特征、至少两个所述目标音频的音频特征以及所述视频帧特征输入第二机器学习模型，得到至少两个所述目标音频的推荐评分。

在本申请的一个实施例中，推荐评分为在考虑到用户对音频的偏好，用户待发布的视频数据和音频之间的匹配度等综合因素后所确定的目标音频的推荐评分，可以在考虑到用户喜好的情况下，为用户推荐与视频数据的匹配度较高的音频，进一步提高音频推荐的精准度。

在根据用户特征、至少两个目标音频的音频特征以及视频帧特征来确定得到至少两个目标音频的推荐评分时，可以基于预训练的第二机器学习模型来实现。其中，预训练的第二机器学习模型通过包含用户特征、音频的音频特征、视频帧特征以及预先设定的对针对音频的推荐评分的训练样本数据进行训练。对机器学习模型进行训练的过程是调整机器学习模型对应的网络结构中的各项系数，使得对于输入的用户特征、音频的音频特征、视频帧特征，经过机器学习模型对应的网络结构中的各项系数运算，输出结果为该根据用户特征、音频的音频特征、视频帧特征进行预先设定的推荐评分。

参考图9，图9示出了根据本申请的一个实施例的音频推荐方法的步骤S240的具体流程图，该步骤S240可以包括步骤S910至步骤S920，详细描述如下。

在步骤S910中，根据所述用户特征、至少两个所述目标音频的音频特征以及所述视频帧特征进行特征组合，生成第一组合特征以及第二组合特征，其中，所述第一组合特征的阶数高于第二组合特征的阶数。

第二机器学习模型通过包含的网络结构对用户特征、音频的音频特征以及视频帧特征之间进行特征组合，得到生成这三个维度的特征进行组合第一组合特征以及第二组合特征，其中，第一组合特征的阶数高于第二组合特征的阶数，即第一组合特征为高阶组合特征，第二组合特征位为低阶组合特征。

在步骤S920中，基于所述第一组合特征以及所述第二组合特征进行评分预估处理，生成至少两个所述目标音频的推荐评分。

第二机器学习模型通过包含的网络结构来对通过第一组合特征以及第二组合特征来进行评分预估处理，生成至少两个目标音频的推荐评分，由此第一组合特征以及第二组合特征作为对用户特征、音频的音频特征以及视频帧特征这三者的特征进行组合关联的特征，可以更加准确地反映用户对音频的偏好，用户待发布的视频数据和音频之间的匹配度等因素之间的关系，基于第一组合特征以及第二组合特征进行评分预估处理，可以在考虑到用户对音频的偏好，用户待发布的视频数据和音频之间的匹配度等综合因素后，实现更快地且更加准确地目标音频的推荐评分。

还请继续参考图2，在步骤S250中，基于所述推荐评分对至少两个所述目标音频进行排序，生成所述视频数据的音频推荐列表。

在本申请的一个实施例中，基于所确定的推荐评分对至少两个目标音频进行排序，生成视频数据的音频推荐列表，进而便于在客户端基于用户所上传的待配乐的视频展示所推荐的音频推荐列表，以便于用户从音频推荐列表中选择合适的音频对视频进行配乐。

以上可以看出，通过将待处理的视频输入第一机器学习模型，得到视频帧特征以及视频分类标，并根据视频分类标签在音频库中确定至少两个目标音频；然后获取基于用户偏好标签生成的用户特征以及至少两个目标音频的音频特征；并将用户特征、至少两个目标音频的音频特征以及视频帧特征输入第二机器学习模型，得到至少两个目标音频的推荐评分；基于推荐评分对至少两个目标音频进行排序，生成视频数据的音频推荐列表，通过用户特征、目标音频的音频特征以及视频帧特征来对目标音频进行综合评分，可以在考虑到用户喜好的情况下，使得所推荐的配乐与用户的视频的匹配度较高，进而为待处理的视频推荐合适的配乐，提高了推荐的精准度。

在本申请的一个实施例中，音频推荐方法还可以包括以下方法中的至少一种：基于预设的推荐音频黑名单对音频推荐列表进行重新排序；和基于音频推荐列表中各个音频的属性标签之间的相似度对音频推荐列表进行重新排序。

在一个实施例中，由于最热门的一个或多个音频如果经常出现在音频推荐列表，会使得用户失去新奇感，由此还可以将音频库中的热度程度最高的预定数量的音频添加到推荐音频黑名单中。具体的，可以依据音频被用户选为视频的配乐总次数来确定，配乐总次数越多的音频，相应的热度程度越高。

在获取音频推荐列表后，将基于预设的推荐音频黑名单对音频推荐列表进行重新排序，具体的，可以基于以下策略中的一种来对音频推荐列表进行重新排序：将音频推荐列表中存在于推荐音频黑名单的音频从音频推荐列表删除；将音频推荐列表中存在于推荐音频黑名单的音频排列至音频推荐列表的末尾。

通过预设的推荐音频黑名单对音频推荐列表进行重新排序，可以避免为用户所推荐的音频推荐列表存在过热的音频，提高为用户所推荐的音频推荐列表的新奇性，给用户以更人性化的音频推荐。

在一个实施例中，由于音频推荐列表中会存在属性标签较为相似的至少两个音频，这样会造成会为用户推荐属性标签较为相似音频的情况。可以基于音频推荐列表中各个音频的属性标签之间的相似度对音频推荐列表进行重新排序。两个不同音频的属性标签之间的相似度可以为这两个音频存在相同的属性标签的标签个数与这两个音频存在的属性标签的标签总个数的比值来确定，并可以将相似度达到预定阈值的这两个音频确定为属性标签相似，将相似度未达到预定阈值的这两个音频确定为属性标签不相似。

在存在属性标签相似的至少两个音频的情况下，可以基于以下策略中的一种来对音频推荐列表进行重新排序：将其中一个音频从音频推荐列表删除；将其中一个音频排列至音频推荐列表的末尾。

通过基于音频推荐列表中各个音频的属性标签之间的相似度对音频推荐列表进行重新排序，可以避免为用户推荐较为相似的音频，提高为用户推荐的音频的丰富度。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的音频推荐方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的音频推荐方法的实施例。

参照图10所示，根据本申请的一个实施例的音频推荐装置1000，包括：第一执行单元1010、第二执行单元1020、获取单元1030、第三执行单元1040以及第一排序单元1050。其中，第一执行单元，用于将待处理的视频数据输入第一机器学习模型，得到视频帧特征以及视频分类标签；第二执行单元，用于根据所述视频分类标签在音频库中确定至少两个目标音频；获取单元，用于获取基于用户偏好标签生成的用户特征以及至少两个所述目标音频的音频特征；第三执行单元，用于将所述用户特征、至少两个所述目标音频的音频特征以及所述视频帧特征输入第二机器学习模型，得到至少两个所述目标音频的推荐评分；第一排序单元，用于基于所述推荐评分对至少两个所述目标音频进行排序，生成所述视频数据的音频推荐列表。

在本申请的一些实施例中，基于前述方案，所述第一执行单元1010被配置为：抽取子单元，用于从用户的所述视频数据中抽取视频帧；输入子单元，用于将所述视频帧输入所述第一机器学习模型；生成子单元，用于所述第一机器学习模型基于所述视频帧生成所述视频帧特征以及所述视频分类标签。

在本申请的一些实施例中，基于前述方案，第三执行单元1040被配置为：根据所述用户特征、至少两个所述目标音频的音频特征以及所述视频帧特征进行特征组合，生成第一组合特征以及第二组合特征，其中，所述第一组合特征的阶数高于第二组合特征的阶数；基于所述第一组合特征以及所述第二组合特征进行评分预估处理，生成至少两个所述目标音频的推荐评分。

在本申请的一些实施例中，基于前述方案，第二执行单元1020被配置为：根据所述视频分类标签、用户偏好标签以及音频热度标签在音频库中确定至少两个目标音频。

在本申请的一些实施例中，基于前述方案，第二执行单元1020被配置为：对至少两个所述目标音频进行去重处理。

在本申请的一些实施例中，基于前述方案，若所述视频分类标签包括一级分类标签以及二级分类标签，则第二执行单元1020被配置为：根据所述一级分类标签，在所述音频库中确定与所述视频数据匹配的至少两个备选音频；根据所述二级分类标签，在至少两个所述备选音频中确定与所述视频数据匹配的至少两个目标音频。

需要说明的是，图11示出的电子设备的计算机系统1100仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理单元(Central Processing Unit，CPU)1101，其可以根据存储在只读存储器(Read-Only Memory，ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(Random Access Memory，RAM)1103中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1103中，还存储有系统操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output，I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种音频推荐方法，其特征在于，包括：

将待处理的视频数据输入第一机器学习模型，得到视频帧特征以及视频分类标签；

根据所述视频分类标签在音频库中确定至少两个目标音频；

获取基于用户偏好标签生成的用户特征以及至少两个所述目标音频的音频特征；

将所述用户特征、至少两个所述目标音频的音频特征以及所述视频帧特征输入第二机器学习模型，得到至少两个所述目标音频的推荐评分；

基于所述推荐评分对至少两个所述目标音频进行排序，生成所述视频数据的音频推荐列表。

2.根据权利要求1所述的音频推荐方法，其特征在于，所述将待处理的视频数据输入第一机器学习模型，得到视频帧特征以及视频分类标签，包括：

从所述待处理的视频数据中抽取视频帧；

将所述视频帧输入所述第一机器学习模型；

所述第一机器学习模型基于所述视频帧生成所述视频帧特征以及所述视频分类标签。

3.根据权利要求2所述的音频推荐方法，其特征在于，所述第一机器学习模型基于所述视频帧生成所述视频帧特征以及所述视频分类标签，包括：

提取各个所述视频帧的图像特征；

对各个所述视频帧的图像特征进行融合处理，生成所述视频帧特征；

基于所述视频帧特征进行分类处理，得到视频分类标签。

4.根据权利要求3所述的音频推荐方法，其特征在于，所述对各个所述视频帧的图像特征进行融合处理，生成所述视频帧特征，包括：

对各个所述视频帧的图像特征进行排序处理，得到排序后的图像特征；

确定所述排序后的各个图像特征的权重，生成所述视频帧特征。

5.根据权利要求1所述的音频推荐方法，其特征在于，所述将所述用户特征、至少两个所述目标音频的音频特征以及所述视频帧特征输入第二机器学习模型，得到至少两个所述目标音频的推荐评分，包括：

根据所述用户特征、至少两个所述目标音频的音频特征以及所述视频帧特征进行特征组合，生成第一组合特征以及第二组合特征，其中，所述第一组合特征的阶数高于第二组合特征的阶数；

基于所述第一组合特征以及所述第二组合特征进行评分预估处理，生成至少两个所述目标音频的推荐评分。

6.根据权利要求1所述的音频推荐方法，其特征在于，所述根据所述视频分类标签在音频库中确定至少两个目标音频，包括：

根据所述视频分类标签、用户偏好标签以及音频热度标签在音频库中确定至少两个目标音频。

7.根据权利要求6所述的音频推荐方法，其特征在于，所述根据所述视频分类标签、用户偏好标签以及音频热度标签在音频库中确定至少两个目标音频，还包括：

对至少两个所述目标音频进行去重处理。

8.根据权利要求1所述的音频推荐方法，其特征在于，若所述视频分类标签包括一级分类标签以及二级分类标签，则所述根据所述视频分类标签在音频库中确定至少两个目标音频，包括：

根据所述一级分类标签，在所述音频库中确定与所述视频数据匹配的至少两个备选音频；

根据所述二级分类标签，在至少两个所述备选音频中确定与所述视频数据匹配的至少两个目标音频。

9.根据权利要求1所述的音频推荐方法，其特征在于，所述音频推荐方法还包括以下方法中的至少一种：

基于预设的推荐音频黑名单对所述音频推荐列表进行重新排序；

和基于所述音频推荐列表中各个音频的属性标签之间的相似度对所述音频推荐列表进行重新排序。

10.一种音频推荐装置，其特征在于，包括：

第一执行单元，用于将待处理的视频数据输入第一机器学习模型，得到视频帧特征以及视频分类标签；

第二执行单元，用于根据所述视频分类标签在音频库中确定至少两个目标音频；

获取单元，用于获取基于用户偏好标签生成的用户特征以及至少两个所述目标音频的音频特征；

第三执行单元，用于将所述用户特征、至少两个所述目标音频的音频特征以及所述视频帧特征输入第二机器学习模型，得到至少两个所述目标音频的推荐评分；

第一排序单元，用于基于所述推荐评分对至少两个所述目标音频进行排序，生成所述视频数据的音频推荐列表。