CN112380377A

CN112380377A - 一种音频推荐方法、装置、电子设备及计算机存储介质

Info

Publication number: CN112380377A
Application number: CN202110047919.6A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-02-19
Anticipated expiration: 2041-01-14
Also published as: CN112380377B

Abstract

本申请提供一种音频推荐方法、装置、电子设备及计算机存储介质，涉及人工智能技术领域。本申请实施例响应目标账户触发的页面展示请求，根据目标账户的历史行为数据，获取目标账户对应的参考音频，根据参考音频的声谱信息以及候选音频集合中各个候选音频的声谱信息，从候选音频集合中筛选出至少一个待推荐音频，将筛选出的至少一个待推荐音频推荐给目标账户；由于本申请实施例需要根据用户的历史行为确定参考音频，根据确定出的参考音频从候选音频集合中筛选待推荐音频，针对不同的账户，可以灵活向账户推荐不同的音频，从而实现音频的个性化推荐，且由于同时考虑目标账户的历史行为以及音频自身的内容，提高了向目标账户推荐待推荐音频的准确性。

Description

一种音频推荐方法、装置、电子设备及计算机存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种音频推荐方法、装置、电子设备及计算机存储介质。

背景技术

随着5G网络和人工智能技术的发展，以及在音频的商业价值潜力和日益增长的市场需求的导向下，网络音频行业应运而生。音频用户使用音频APP主要达到“放松身心”、“休闲娱乐”等目的。

目前，基于泛文化的发展趋势，涌现出海量的优质音频APP以及音频内容，给予了用户更多的选择。一般情况下，在用户使用音频APP时，音频APP在显示页面中会向用户推荐部分音频，但是，目前音频APP推荐的音频是从音频库中选取固定数目的音频，在需要向用户推荐时，将选取的固定数目的音频展示在显示页面中。因此，目前针对不同的用户，向用户推荐的是相同的音频，音频APP向用户推荐音频的方式不够灵活。

发明内容

本申请提供一种音频推荐方法、装置、电子设备及计算机存储介质，用以提高音频APP向用户推荐音频的灵活性。

第一方面，本申请实施例提供一种音乐推荐方法，包括：

响应目标账户触发的页面展示请求，根据所述目标账户的历史行为数据，获取所述目标账户对应的参考音频；

根据所述参考音频的声谱信息以及候选音频集合中各个候选音频的声谱信息，从所述候选音频集合中筛选出至少一个待推荐音频；

将筛选出的所述至少一个待推荐音频推荐给所述目标账户。

第二方面，本申请实施例提供一种音频推荐装置，包括：

获取单元，用于响应目标账户触发的页面展示请求，根据所述目标账户的历史行为数据，获取所述目标账户对应的参考音频；

筛选单元，用于根据所述参考音频的声谱信息以及候选音频集合中各个候选音频的声谱信息，从所述候选音频集合中筛选出至少一个待推荐音频；

推荐单元，用于将筛选出的所述至少一个待推荐音频推荐给所述目标账户。

可选地，所述筛选单元具体用于：

对所述参考音频的声谱信息进行特征提取，得到用于表示所述参考音频的声音频率分布信息的第一特征向量；以及

分别对各个候选音频的声谱信息进行特征提取，分别得到各个候选音频的用于表示候选音频的声音频率分布信息的第二特征向量；

分别确定所述第一特征向量与各个第二特征向量之间的相似度，根据所述第一特征向量与各个第二特征向量之间的相似度，从所述候选音频集合中筛选出至少一个待推荐音频。

可选地，所述筛选单元具体用于：

基于已训练的第一特征提取模型，对所述参考音频的声谱信息进行解析，得到所述参考音频的声谱信息中各个时间片段对应的频率集合；对所述各个时间片段对应的频率集合进行信息融合处理，得到所述参考音频的声谱信息的第一特征向量；

所述分别对各个候选音频的声谱信息进行特征提取，得到各个候选音频的用于表示候选音频的声音频率分布信息的第二特征向量，具体包括：

基于已训练的第二特征提取模型，针对各个候选音频分别执行以下操作：对一个候选音频的声谱信息进行解析，得到所述一个候选音频的声谱信息中各个时间片段对应的频率集合；对所述各个时间片段对应的频率集合进行信息融合处理，得到所述一个候选音频的声谱信息的第二特征向量。

可选地，所述筛选单元具体用于：

针对各个第二特征向量分别执行以下操作：

基于已训练的分类模型，根据所述第一特征向量和一个第二特征向量，确定所述第一特征向量与所述一个第二特征向量之间的差向量；

将所述第一特征向量、所述一个第二特征向量以及所述差向量进行拼接处理；

根据所述已训练的分类模型的参数对拼接处理后的向量进行融合处理，得到用于表示所述第一特征向量与所述一个第二特征向量之间相似程度的概率值；

将所述概率值作为所述第一特征向量与所述一个第二特征向量之间的相似度。

可选地，所述筛选单元具体用于：

根据下列方式对所述第一特征提取模型、所述第二特征提取模型以及所述分类模型进行训练：

获取多个样本集以及各个样本集对应的样本标签；其中，每个样本集中包括第一样本音频和第二样本音频，所述样本集对应的样本标签为正样本标签或负样本标签；

针对各个样本集分别执行以下操作：基于所述第一特征提取模型，对一个样本集中的第一样本音频的声谱信息进行特征提取得到第一样本特征向量；基于所述第二特征提取模型，对所述一个样本集中的第二样本音频的声谱信息进行特征提取得到第二样本特征向量；基于所述分类模型，确定所述第一样本特征向量与所述第二样本特征向量之间的相似度；

根据各个样本集中第一样本音频的第一样本特征向量与第二样本音频的第二样本特征向量，以及各个样本集对应的样本标签确定损失值，根据确定出的所述损失值对所述第一特征提取模型、所述第二特征提取模型以及所述分类模型的参数进行调整，直到确定出的所述损失值在预设范围内，得到训练后的第一特征提取模型、训练后的第二特征提取模型以及训练后的分类模型。

可选地，所述筛选单元具体用于：

获取多个样本对象的历史行为数据，根据各个样本对象的历史行为数据，确定各个样本对象触发预设操作的样本音频序列；

针对各个样本对象对应的样本音频序列分别执行以下操作：将一个样本音频序列中包括的多个样本音频两两组合得到多个样本集，并根据各个样本集中第一样本音频和第二样本音频在所述一个样本音频序列中的关联关系，确定各个样本集对应的样本标签。

可选地，所述筛选单元具体用于：

确定各个样本集中第一样本音频以及第二样本音频在所述一个样本音频序列中的位置；其中，所述样本音频序列中各个样本音频按照对应的操作时间进行排序，所述操作时间为目标对象对样本音频触发预设操作的时间；

若所述第一样本音频与所述第二样本音频之间的间隔小于第一阈值，则确定样本集对应的样本标签为正样本标签；若所述第一样本音频与所述第二样本音频之间的间隔不小于第二阈值，则确定样本集对应的样本标签为负样本标签。

第三方面，本申请实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请提供的音频推荐方法。

第四方面，本申请实施例提供一种计算机可读介质，存储有计算机可执行指令，所述计算机可执行指令用于执行本申请提供的音频推荐方法。

本申请有益效果：

由于本申请实施例在目标账户触发页面展示请求后，会获取目标账户的历史行为数据，并进一步确定目标账户对应的参考音频，例如，参考音频可以是目标账户点击播放过的音频、或者还可以是目标账户收藏的音频等。根据确定出的参考音频的声谱信息，以及预设的候选音频集合中的各个候选音频的声谱信息，从候选音频集合中筛选出需要推荐给目标账户的待推荐音频，并在显示页面中将筛选出的待推荐音频推荐给目标账户。本申请实施例的音频推荐方案，需要根据用户的历史行为确定参考音频，根据确定出的参考音频从候选音频集合中筛选待推荐音频，针对不同的账户，可以灵活向账户推荐不同的音频，从而实现音频的个性化推荐；并且本申请实施例在筛选待推荐音频时，同时考虑目标账户的历史行为以及音频自身的内容，从而提高了向目标账户推荐待推荐音频的准确性。另外，由于本申请实施例在向目标账户推荐音频时，根据用户的历史行为数据确定出用户有操作行为的参考音频，将参考音频的声谱信息与候选音频的声谱信息进行匹配，从候选音频集合中筛选出待推荐音频；即使是用户行为稀疏的候选音频，例如上线初期的音频，在根据参考音频从候选音频集合中筛选时，用户行为稀疏的候选音频也可能作为筛选出的待推荐音频推荐给用户，因此该音频推荐方案可以适用于用户行为稀疏的候选音频，避免用户行为稀疏的候选音频由于缺少用户行为数据长期无法推荐给用户，提高音频推荐方案的广泛适用性。

附图说明

图1为本申请实施例中的一种可选的应用场景示意图；

图2为本申请实施例提供的一种音频推荐方法流程示意图；

图3为本申请实施例提供的一种可选的时域图；

图4为本申请实施例提供的一种可选的频谱图和相位谱图；

图5为本申请实施例提供的一种可选的声谱图；

图6为本申请实施例提供的一种向量拼接处理的过程示意图；

图7为本申请实施例提供的向目标账户推荐待推荐音乐对应的展示页面图；

图8为本申请实施例提供的第一特征提取模型、第二特征提取模型以及分类模型示意图；

图9为本申请实施例提供的一种音频推荐方法整体流程示意图；

图10为本申请实施例提供的一种音频推荐装置的结构示意图；

图11为本申请实施例中的电子设备的结构示意图；

图12为本申请实施例中的一种计算装置的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本申请公开的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

下面对文中出现的一些术语进行解释：

1、CNN：卷积神经网络（Convolutional Neural Networks，CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deeplearning）的代表算法之一。CNN包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面（featureMap），每个特征平面由一些矩形排列的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值（卷积核）带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。

2、Tranformer模型：Tranformer模型抛弃了CNN和循环神经网络（RecurrentNeural Network，RNN），只使用了Attention（注意力）机制来实现，因此Transformer模型是一个完全利用注意力机制的Encoder-Decoder（编码-解码）模型，在Transformer模型中引入了self-Attention（自注意力）机制这一概念，Transformer的整个架构就是叠层的self-Attention和全连接层，并利用注意力机制实现快速并行，改善了RNN训练慢的缺点。

3、LSTM：长短期记忆网络（Long Short-Term Memory networks，LSTM），是一种特殊的RNN，能够避免长期依赖关系问题，记住信息很长一段时间是它们固有的行为，而不是努力去学习。LSTM包含链状的结构，重复模块有着不同的结构，它有四层神经网络层以特殊的方式相互作用，而不是单个神经网络层。

4、声谱图：声音信号是一维信号，直观上只能看到时域信息，不能看到频域信息。通过傅里叶变换(Fourier Transform，FT)可以变换到频域，但是丢失了时域信息，无法看到时频关系。为了解决这个问题，可以采用短时傅里叶变换(Short Time FourierTransform，STFT)，就是对短时的信号做傅里叶变换，获取声音信号的声谱图。原理如下：对一段长语音信号，分帧、加窗，再对每一帧做傅里叶变换，之后把每一帧的结果沿另一维度堆叠，得到一张图（类似于二维信号），这张图就是声谱图。

5、终端：又称为用户设备（User Equipment，UE）、移动台（Mobile Station，MS）、移动终端（Mobile Terminal，MT）等，是一种向用户提供语音和/或数据连通性的设备，例如，具有无线连接功能的手持式设备、车载设备等。目前，一些终端的举例为：手机（mobilephone）、平板电脑、笔记本电脑、掌上电脑、移动互联网设备（Mobile Internet Device，MID）。

6、客户端：既可以指软件类的应用程序（Application，APP），也可以指终端设备。它具有可视的显示界面，能与用户进行交互；是与服务器相对应，为客户提供本地服务。针对软件类的应用程序，除了一些只在本地运行的应用程序之外，一般安装在普通的客户终端上，需要与服务端互相配合运行。因特网发展以后，较常用的应用程序包括了如收寄电子邮件时的电子邮件客户端，以及即时通讯的客户端等。对于这一类应用程序，需要网络中有相应的服务器和服务程序来提供相应的服务，如数据库服务，配置参数服务等，这样在客户终端和服务器端，需要建立特定的通信连接，来保证应用程序的正常运行。

7、服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。

下面对本申请实施例的设计思想进行简要介绍：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

本申请实施例响应目标账户触发的页面展示请求，根据目标账户的历史行为数据，获取目标账户对应的参考音频，根据参考音频的声谱信息以及候选音频集合中各个候选音频的声谱信息，从候选音频集合中筛选出至少一个待推荐音频，将筛选出的至少一个待推荐音频推荐给目标账户；本申请实施例的音频推荐方案，需要根据用户的历史行为确定参考音频，根据确定出的参考音频从候选音频集合中筛选待推荐音频，针对不同的账户，可以灵活向账户推荐不同的音频，从而实现音频的个性化推荐；并且本申请实施例在筛选待推荐音频时，同时考虑目标账户的历史行为以及音频自身的内容，从而提高了向目标账户推荐待推荐音频的准确性；并且，由于本申请实施例是将参考音频的声谱信息与候选音频的声谱信息进行匹配，从候选音频集合中筛选出待推荐音频，针对用户行为稀疏的候选音频，采用本申请实施例的音频推荐方案时，用户行为稀疏的候选音频也可能作为筛选出的待推荐音频推荐给用户，该音频推荐方案可以适用于用户行为稀疏的候选音频。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

如图1所示，其为本申请实施例示例性的一种应用场景的示意图，包括用户10、移动终端11、服务器12；其中，移动终端11上安装有音频客户端。

一种可选的应用场景为，移动终端11上安装有音频客户端，用户10通过目标账户登录音频客户端；音频客户端响应目标账户触发的页面展示请求，根据目标账户的历史行为数据，获取目标账户对应的参考音频；其中，目标账户的历史行为数据可以存储于服务器12；音频客户端将接收到的页面展示请求发送给服务器12，从服务器12中获取目标账户的历史行为数据；音频客户端根据参考音频的声谱信息以及候选音频集合中各个候选音频的声谱信息，从候选音频集合中筛选出至少一个待推荐音频；音频客户端将筛选出的至少一个待推荐音频推荐给目标账户。

另一种可选的应用场景为，移动终端11上安装有音频客户端，用户10通过目标账户登录音频客户端；音频客户端响应目标账户触发的页面展示请求，根据目标账户的历史行为数据，获取目标账户对应的参考音频；其中，目标账户的历史行为数据可以存储于服务器12；音频客户端将接收到的页面展示请求发送给服务器12，页面展示请求中包含目标账户的账户标识；服务器12接收到页面展示请求后，根据目标账户的历史行为数据，获取目标账户对应的参考音频；服务器12根据参考音频的声谱信息以及候选音频集合中各个候选音频的声谱信息，从候选音频集合中筛选出至少一个待推荐音频；服务器12将筛选出的至少一个待推荐音频发送给音频客户端；音频客户端接收服务器12发送的至少一个待推荐音频，将筛选出的至少一个待推荐音频推荐给目标账户。

其中，本申请实施例的服务器可以为一个独立服务器，或者可以是由多个服务器组成的服务器集群；服务器12可以为音频客户端对应的服务器。

下面结合上述描述的应用场景，参考图2-图9来描述本申请示例性实施方式提供的音频推荐方法。需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

如图2所示，为本申请实施例提供的一种音频推荐方法流程示意图，该方法可以包括以下步骤：

步骤S201、响应目标账户触发的页面展示请求，根据目标账户的历史行为数据，获取目标账户对应的参考音频；

步骤S202、根据参考音频的声谱信息以及预设的候选音频集合中各个候选音频的声谱信息，从候选音频集合中筛选出至少一个待推荐音频；

步骤S203、将筛选出的至少一个待推荐音频推荐给目标账户。

在用户使用目标账户登录音频客户端时，音频客户端响应目标账户触发的页面展示请求，音频客户端生成显示页面；其中，音频客户端生成的显示页面中包含向目标账户推荐的音频。

在接收到目标账户触发的页面展示请求之后，获取目标账户的历史行为数据；

其中，目标账户的历史行为数据可以为目标账户在音频客户端中曾经触发过的操作行为相关的数据；例如，历史行为数据可以为目标账户的点击播放行为数据、分享行为数据、收藏行为数据、下载行为数据等。

在获取到目标账户的历史行为数据后，确定目标账户对应的参考音频；

其中，目标账户对应的参考音频可以为目标账户历史播放的音频、或者为目标账户历史收藏的音频、或者为目标账户历史分享的音频、或者为目标账户历史下载的音频等。

需要说明的是，根据目账户的历史行为数据确定出的参考音频可以是一个或多个。

一种可选的实施方式为，本申请实施例根据目标账户的历史行为数据，获取目标账户对应的参考音频之后，可以根据下列方式对参考音频进行处理生成参考音频的声谱信息，下列实施例中参考音频的声谱信息以声谱图为例；

（1）根据预设的帧间距对参考音频进行分帧处理。

参考音频的语音信号在时域上形成一段连续的时域波形（后续简称为时域图），一种可选的时域图如图3所示，其横轴为时间、纵轴为信号的变化（振幅）。

具体地，首先对时域图以采样周期T（假设采样周期T为0.1s）进行采样，得到时域离散信号，其中，采样周期T根据参考音频的语音信号的带宽确定，以避免信号的频域混叠失真；振幅数值代表参考音频在该采样点上的大小；另外，由于语音信号具有短时平稳性，其在宏观上是不稳定，但在微观上是平稳的，因此可以按照预设的帧间距（假设预设的帧间距为3s）对时域离散信号进行处理，用于将时域离散信号截取为多个短的时间段，而每一个短的时间段称为一帧。

需要说明的是，分帧虽然可以采用连续分段的方法，但为了使帧与帧之间平滑过渡，保证合成信号的连续性，一般要采用交叠分段的方法，即相邻帧之间会存在重叠部分。

（2）分别对各帧进行加窗处理。

一般的，常用的窗函数有两种，一种是矩形窗，窗函数如下：

另一种是汉明窗，窗函数如下：

以一帧为例，先将该帧与窗函数相乘，使得原本没有周期性的语音信号呈现出周期函数的部分特征，便于后续的傅里叶变换操作。

（3）分别对加窗处理后的各帧进行频域变换。

其中，频域变换方法可以包括但不限于：

快速傅里叶变换（Fast Fourier Transform，FFT）、离散傅里叶变换（DiscreteFourier Transform，DFT）、短时傅里叶变换(Short Time Fourier Transform，STFT)。

下述实施例以STFT为例对加窗处理后的各帧进行频域变换；

需要说明的是，计算STFT的过程是把一个较长的时间信号分成相同长度的更短的段，在每个更短的段上计算傅里叶变换；

具体地，分别对加窗处理后的各帧继续进行短时傅里叶变换，将短时傅里叶变换后得到的结果称之为频谱。虽然时域图直观地展示了语音信号在不同时刻的振幅取值，但是难以提取到更多有用的信息用于信号分析，而根据短时傅里叶变换将参考音频的语音信号由时域映射到频域中，进而研究语音信号的频谱结构以及变化规律。如图4所示为本申请实施例提供的一种可选的频谱图和相位谱图，其中，频谱图的横轴为频率、纵轴为信号的振幅强度（振幅），相位谱图的横轴为相位、纵轴为振幅，且根据图4可知，一帧音频的波是由多个不同频率的波合成。

（4）按照时间顺序拼接各个频谱图得到声谱图。

如图5所示为本申请实施例提供的一种可选的声谱图，其横轴为时间、纵轴为频率。从图5中可以看出，频率的上下限可以为110hz-3520hz，颜色深浅代表不同频率对应的数值大小。

需要说明的是，语音信号的时域分析和频域分析就是语音信号分析的两种重要方法，但这两种单独分析的方法有局限性，时域分析对语音信号的频率没有直观了解，而频域分析出的特征中又没有语音信号随时间变化的关系，且由于语音信号是时变信号，所以频谱也是随时间变化的，但是语音信号随时间变化是缓慢的，因而在一段时间内可以认为频谱是不变的，这种频谱是短时谱，短时谱只反映语音信号静态频谱特性，所以研究声谱图，即把和时间相关的傅立叶分析的显示图称为声谱图，表示语音信号的频谱随时间变化的图形。

另外，还需要说明的是，本申请实施例对预设的候选音频集合中各个候选音频进行处理，生成各个候选音频的声谱信息的方式，与上文中对目标账户对应的参考音频进行处理，生成参考音频的声谱信息的方式相同，具体实施方式可以参见上文中的描述，在此不再详细赘述。

本申请实施例根据上述实施例生成参考音频的声谱信息以及各个候选音频的声谱信息之后，可以根据下列方式从候选音频集合中筛选出至少一个待推荐音频：

对参考音频的声谱信息进行特征提取，得到用于表示参考音频的声音频率分布信息的第一特征向量；以及分别对各个候选音频的声谱信息进行特征提取，

得到各个候选音频的用于表示候选音频的声音频率分布信息的第二特征向量；

分别确定第一特征向量与各个第二特征向量之间的相似度，根据第一特征向量与各个第二特征向量之间的相似度，从候选音频集合中筛选出至少一个待推荐音频。

一种可选的实施方式为，本申请实施例可以根据下列方式得到用于表示参考音频的声音频率分布信息的第一特征向量：

基于已训练的第一特征提取模型，对参考音频的声谱信息进行解析，得到参考音频的声谱信息中的各个时间片段对应的频率集合；对各个时间片段对应的频率集合进行信息融合处理，得到参考音频的声谱信息的第一特征向量；

需要说明的是，频率集合中包含多个频率值，对各个时间片段对应的频率集合进行信息融合处理，即对频率集合中包含的多个频率值进行融合处理。

在一些实施例中，已训练的第一特征提取模型为编码器模型，编码器模型包括但不限于：

卷积神经网络、Tranformer模型、长短期记忆网络。

一种可选的实施方式为，本申请实施例可以根据下列方式得到各个候选音频的用于表示候选音频的声音频率分布信息的第二特征向量：

基于已训练的第二特征提取模型，针对各个候选音频分别执行以下操作：对一个候选音频的声谱信息进行解析，得到一个候选音频的声谱信息中各个时间片段对应的频率集合；对各个时间片段对应的频率集合进行信息融合处理，得到一个候选音频的声谱信息的第二特征向量。

需要说明的是，已训练的第二特征提取模型与已训练的第一特征提取模型选择同一种编码器模型，且两个编码器模型参数是同一套模型参数，编码器模型参数是在编码器模型训练过程中确定的。

一种可选的实施方式为，本申请实施例在得到用于表示参考音频的声音频率分布信息的第一特征向量以及各个候选音频的用于表示候选音频的声音频率分布信息的第二特征向量之后，可以根据下列方式确定第一特征向量与各个第二特征向量之间的相似度：

针对各个第二特征向量分别执行以下操作：

基于已训练的分类模型，根据第一特征向量和一个第二特征向量，确定第一特征向量与一个第二特征向量之间的差向量；将第一特征向量、一个第二特征向量以及差向量进行拼接处理；根据已训练的分类模型的参数对拼接处理后的向量进行融合处理，得到用于表示第一特征向量与一个第二特征向量之间相似程度的概率值；将概率值作为第一特征向量与一个第二特征向量之间的相似度；

例如，第一特征向量为向量U、一个第二特征向量为向量V，则根据向量U与向量V确定两个向量之间的差向量

，并将向量U、向量V及差向量

进行拼接处理，得到拼接后的向量Y；如图6所示为本申请实施例提供的一种向量拼接处理的过程示意图，其中，以向量U、向量V为n行1列的向量为例，则将向量U、向量V及差向量

进行拼接处理，得到的是3*n行1列的向量。另外，在向量U、向量V为1行n列的向量时，将向量U、向量V及差向量

进行拼接处理，得到的是1行3*n列的向量。

根据已训练的分类模型的参数对拼接后的向量Y进行融合处理，即将拼接后的向量Y乘以一个可训练的权重

，根据softmax函数确定用于表示第一特征向量与第二特征向量之间相似程度的概率值，其中，概率值的表示式如下公式（1）所示：

最后，将概率值作为第一特征向量与一个第二特征向量之间的相似度。

需要说明的是，上述确定第一特征向量与第二特征向量之间相似度的方式只是对本申请实施例的举例说明，本申请实施例想要保护的第一特征向量与第二特征向量之间相似度的确定方式并不限于上述举例，任何能够确定第一特征向量与第二特征向量之间相似度的方式均适用于本申请。

本申请实施例在确定第一特征向量与一个第二特征向量之间的相似度之后，根据第一特征向量与各个第二特征向量之间的相似度，从候选音频集合中筛选出至少一个待推荐音频，并将筛选出的至少一个待推荐音频推荐给目标账户。

其中，本申请实施例在确定第一特征向量与各个第二特征向量之间的相似度时，可以通过已训练的分类模型，将相似度处理在0~1范围内。

例如，移动终端上安装有推荐音乐的音频客户端，如图7所示，目标账户登录音频客户端，音频客户端响应目标账户触发的页面展示请求后，根据目标账户的历史行为数据，获取目标账户历史播放的音乐A，并根据历史播放的音乐A的声谱信息以及候选音乐集合中各个候选音乐的声谱信息，从候选音乐集合中筛选出至少一个待推荐音乐；例如，为目标账户推荐的待推荐音乐可以为“音乐B”、“音乐C”、“音乐D”，在音频客户端中生成包含“音乐B”、“音乐C”、“音乐D”的显示页面。

一种可选的实施方式为，在根据目标账户的历史行为数据确定出的参考音频为多个时，本申请实施例可以根据下列方式从候选音频集合中筛选出至少一个待推荐音频：

下面以确定出的3个参考音频为例进行详细介绍。

具体地，确定出的3个参考音频可以为参考音频a、参考音频b、参考音频c；

实施中，针对各个参考音频分别执行以下操作：

一种可选的实施方式为，本申请实施例在根据目标账户的历史行为数据确定出参考音频之后，可以根据下列方式对参考音频进行处理生成参考音频的声谱信息，并对预设的候选音频集合中各个候选音频进行处理生成各个候选音频的声谱信息；

需要说明的是，本申请实施例对参考音频以及各个候选音频进行处理，生成参考音频以及各个候选音频的声谱信息的方式，与上文中对目标账户对应的参考音频进行处理，生成参考音频的声谱信息的方式相同，具体实施方式可以参见上文中的描述，在此不再详细赘述。

根据参考音频的声谱信息以及预设的候选音频集合中各个候选音频的声谱信息，从候选音频集合中筛选出至少一个待推荐音频；

需要说明的是，本申请实施例从候选音频集合中筛选出至少一个待推荐音频的方式，与上文中从候选音频集合中筛选出至少一个待推荐音频的方式相同，具体实施方式可以参见上文中的描述，在此不再详细赘述。

本申请实施例根据上述实施方式得到针对参考音频a、参考音频b、参考音频c，分别从候选音频集合中筛选出至少一个待推荐音频；

例如，针对参考音频a，从候选音频集合中筛选出的待推荐音频为音频a₁、音频a₂、音频a₃，其中，参考音频a与音频a₁、音频a₂、音频a₃的相似度分别为0.9、0.8、0.85；针对参考音频b，从候选音频集合中筛选出的待推荐音频为音频b₁、音频b₂、音频b₃，其中参考音频b与音频b₁、音频b₂、音频b₃的相似度分别为0.7、0.9、0.9；针对参考音频c，从候选音频集合中筛选出的待推荐音频为音频c₁、音频c₂、音频c₃，其中参考音频c与音频c₁、音频c₂的相似度分别为0.7、0.95；

则一种可选的实施方式为，针对各个参考音频，可以计算各个参考音频与从候选音频集合中筛选出的待推荐音频的相似度的平均值，并将相似度平均值较大的参考音频对应的待推荐音频推荐给目标账户；

例如，针对参考音频a，计算出的相似度平均值为0.85；针对参考音频b，计算出的相似度平均值为0.83；针对参考音频c，计算出的相似度平均值为0.825，则将根据参考音频a筛选出的音频a₁、音频a₂、音频a₃推荐给目标账户。

实施中，在根据第一特征向量与各个第二特征向量之间的相似度，从候选音频集合中筛选出至少一个待推荐音频之前，需要对第一特征提取模型、第二特征提取模型以及分类模型进行训练；

下面对第一特征提取模型、第二特征完提取模型以及分类模型的训练过程

进行详细介绍：

一种可选的实施方式为，本申请实施例对第一特征提取模型、第二特征提取模型以及分类模型进行训练之前，可以根据下列方式获取多个样本集以及各个样本集对应的样本标签：

其中，每个样本集中包括第一样本音频和第二样本音频，样本集对应的样本标签为正样本标签或负样本标签；

需要说明的是，各个样本对象触发的预设操作可以包括但不限于：

播放操作、分享操作、收藏操作、下载操作。

实施中，针对各个样本对象对应的样本音频序列分别执行以下操作：将一个样本音频序列中包括的多个样本音频两两组合得到多个样本集，并根据各个样本集中第一样本音频和第二样本音频在一个样本音频序列中的关联关系，确定各个样本集对应的样本标签；

具体地，本申请实施例可以根据下列方式确定各个样本集对应的样本标签；

确定各个样本集中第一样本音频以及第二样本音频在一个样本音频序列中的位置；若第一样本音频与第二样本音频之间的间隔小于第一阈值，则确定样本集对应的样本标签为正样本标签；若第一样本音频与所述第二样本音频之间的间隔不小于第二阈值，则确定样本集对应的样本标签为负样本标签；

其中，样本音频序列中各个样本音频按照对应的操作时间进行排序，操作时间为目标对象对样本音频触发预设操作的时间；

例如，目标对象的预设操作为播放歌曲，则获取多个目标对象的历史行为数据，根据各个目标对象的历史行为数据，确定各个样本对象曾经播放的歌曲，假设某一目标对象曾经播放的歌曲序列，即样本音频序列为{S5，S7，S1，S8，S3，S2}，其中，样本音频序列中各个样本音频是根据目标对象曾经播放歌曲的时间顺序进行排序的；

接下来，可以设定一个长度为C=3（即第一阈值）的窗口去滑动样本音频序列{S5，S7，S1，S8，S3，S2}，从而可以得到以下序列：{S5，S7，S1}、{S7，S1，S8}、{S1，S8，S3}、{S8，S3，S2}；将得到的序列中的样本音频两两组合得到多个样本集，即每个样本集中包括第一样本音频和第二样本音频，例如，样本集可以包括：{S5，S7}、{S7，S1}、{S5，S1}、{S7，S8}、{S1，S8}、{S1，S3}、{S8，S3}、{S3，S2}、{S8，S2}，此时样本集中的第一样本音频和第二样本音频具有前后的连续性，同时具有用户行为上的相似性，而样本集中第一样本音频与第二样本音频之间的间隔小于第一阈值，则确定样本集对应的样本标签为正样本标签；

另外，设定一个长度为C=5（即第二阈值）的窗口去滑动样本音频序列{S5，S7，S1，S8，S3，S2}，从而可以得到以下序列：{S5，S2}，此时{S5，S2}为一个样本集，此时间隔较长，用户行为不一定具有相关性，而样本集{S5，S2}中，第一样本音频S5与第二样本音频S2之间的间隔小于第二阈值，则确定样本集{S5，S2}对应的样本标签为负样本标签。

本申请实施例在采用上述方式获取多个样本集时，是根据样本对象的历史行为数据获取样本音频序列，并将样本序列中的多个样本音频两两组合得到多个样本集，这种生成样本集的方式，可以根据有限的样本音频组合得到多个样本集；针对历史行为稀疏的样本对象，根据该历史行为稀疏的样本对象获取的样本音频数目较少，但是采用本申请实施例获取样本集的方式，可以将数目较少的样本音频组合得到数目较多的样本集，从而可以获取得到大量的样本集，在使用丰富的样本集对模型进行训练时，可以使得训练得到的模型更为准确。

本申请实施例在获取多个样本集以及各个样本集对应的样本标签之后，可以根据下列方式对第一特征提取模型、第二特征提取模型以及分类模型进行训练，得到训练后的第一特征提取模型、训练后的第二特征提取模型以及训练后的分类模型：

如图8所示，为本申请实施例提供的第一特征提取模型、第二特征提取模型以及分类模型示意图，其中，第一特征提取网络与第二特征提取网络可以为卷积神经网络、或Tranformer模型、或长短期记忆网络；

实施中，针对各个样本集分别执行以下操作：基于第一特征提取模型，对一个样本集中的第一样本音频的声谱信息进行特征提取得到第一样本特征向量；基于第二特征提取模型，对一个样本集中的第二样本音频的声谱信息进行特征提取得到第二样本特征向量；基于分类模型，确定第一样本特征向量与第二样本特征向量之间的相似度；

根据各个样本集中第一样本音频的第一样本特征向量与第二样本音频的第二样本特征向量，以及各个样本集对应的样本标签确定损失值，根据确定出的所述损失值对第一特征提取模型、第二特征提取模型以及分类模型的参数进行调整，直到确定出的损失值在预设范围内，得到训练后的第一特征提取模型、训练后的第二特征提取模型以及训练后的分类模型。

如图9所示，为本申请实施例提供的一种音频推荐方法整体流程示意图，其中，移动终端上安装有音频客户端，用户通过目标账户登陆音频客户端，包括以下步骤：

步骤S901、音频客户端响应目标账户触发的页面展示请求，并将接收到的页面展示请求发送给服务器；

步骤S902、服务器接收音频客户端发送的页面展示请求，并根据目标账户的历史行为数据，获取目标账户对应的参考音频；

步骤S903、服务器基于已训练的第一特征提取模型，对参考音频的声谱信息进行特征提取，得到用于表示参考音频的声音频率分布信息的第一特征向量；

步骤S904、服务器基于已训练的第二特征提取模型，分别对各个候选音频的声谱信息进行特征提取，得到各个候选音频的用于表示候选音频的声音频率分布信息的第二特征向量；

步骤S905、服务器基于已训练的分类模型，分别确定第一特征向量与各个第二特征向量之间的相似度；

步骤S906、服务器根据第一特征向量与各个第二特征向量之间的相似度，从候选音频集合中筛选出至少一个待推荐音频；

步骤S907、服务器将筛选出的至少一个待推荐音频发送给音频客户端；

步骤S908、音频客户端接收服务器发送的至少一个待推荐音频，将筛选出的至少一个待推荐音频推荐给目标账户。

如图10所示，为本申请实施例提供的一种音频推荐装置1000的结构示意图，包括：

获取单元1001，用于响应目标账户触发的页面展示请求，根据目标账户的历史行为数据，获取目标账户对应的参考音频；

筛选单元1002，用于根据参考音频的声谱信息以及预设的候选音频集合中各个候选音频的声谱信息，从候选音频集合中筛选出至少一个待推荐音频；

推荐单元1003，用于将筛选出的至少一个待推荐音频推荐给目标账户。

可选地，筛选单元1002具体用于：

对参考音频的声谱信息进行特征提取，得到用于表示参考音频的声音频率分布信息的第一特征向量；以及

可选地，筛选单元1002具体用于：

基于已训练的第一特征提取模型，对参考音频的声谱信息进行解析，得到参考音频的声谱信息中各个时间片段对应的频率集合；对各个时间片段对应的频率集合进行信息融合处理，得到参考音频的声谱信息的第一特征向量；

筛选单元1002具体用于：

基于已训练的第二特征提取模型，针对各个候选音频分别执行以下操作：对一个候选音频的声谱信息进行解析，得到所述一个候选音频的声谱信息中各个时间片段对应的频率集合；对各个时间片段对应的频率集合进行信息融合处理，得到一个候选音频的声谱信息的第二特征向量。

可选地，筛选单元1002具体用于：

针对各个第二特征向量分别执行以下操作：

基于已训练的分类模型，根据第一特征向量和一个第二特征向量，确定第一特征向量与一个第二特征向量之间的差向量；

将第一特征向量、一个第二特征向量以及差向量进行拼接处理；

根据已训练的分类模型的参数对拼接处理后的向量进行融合处理，得到用于表示第一特征向量与一个第二特征向量之间相似程度的概率值；

将概率值作为第一特征向量与一个第二特征向量之间的相似度。

可选地，筛选单元1002具体用于：

根据下列方式对第一特征提取模型、第二特征提取模型以及分类模型进行训练：

获取多个样本集以及各个样本集对应的样本标签；其中，每个样本集中包括第一样本音频和第二样本音频，样本集对应的样本标签为正样本标签或负样本标签；

针对各个样本集分别执行以下操作：基于第一特征提取模型，对一个样本集中的第一样本音频的声谱信息进行特征提取得到第一样本特征向量；基于第二特征提取模型，对一个样本集中的第二样本音频的声谱信息进行特征提取得到第二样本特征向量；基于分类模型，确定第一样本特征向量与第二样本特征向量之间的相似度；

根据各个样本集中第一样本音频的第一样本特征向量与第二样本音频的第二样本特征向量，以及各个样本集对应的样本标签确定损失值，根据确定出的损失值对第一特征提取模型、第二特征提取模型以及分类模型的参数进行调整，直到确定出的损失值在预设范围内，得到训练后的第一特征提取模型、训练后的第二特征提取模型以及训练后的分类模型。

可选地，筛选单元1002具体用于：

针对各个样本对象对应的样本音频序列分别执行以下操作：将一个样本音频序列中包括的多个样本音频两两组合得到多个样本集，并根据各个样本集中第一样本音频和第二样本音频在一个样本音频序列中的关联关系，确定各个样本集对应的样本标签。

可选地，筛选单元1002具体用于：

确定各个样本集中第一样本音频以及第二样本音频在一个样本音频序列中的位置；其中，样本音频序列中各个样本音频按照对应的操作时间进行排序，操作时间为目标对象对样本音频触发预设操作的时间；

若第一样本音频与第二样本音频之间的间隔小于第一阈值，则确定样本集对应的样本标签为正样本标签；若第一样本音频与第二样本音频之间的间隔不小于第二阈值，则确定样本集对应的样本标签为负样本标签。

为了描述的方便，以上各部分按照功能划分为各模块（或单元）分别描述。当然，在实施本申请时可以把各模块（或单元）的功能在同一个或多个软件或硬件中实现。

所属技术领域的技术人员能够理解，本申请的每个方面可以实现为系统、方法或程序产品。因此，本申请的每个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，本申请实施例还提供一种电子设备，参阅图11所示，电子设备1100可以至少包括至少一个处理器1101、以及至少一个存储器1102。其中，存储器1102存储有程序代码，当程序代码被处理器1101执行时，使得处理器1101执行本说明书上述描述的根据本申请各种示例性实施方式的音频推荐方法中的步骤，例如，处理器1101可以执行如图2所示的步骤。

在一些可能的实施方式中，本申请实施例还提供一种计算装置，可以至少包括至少一个处理单元、以及至少一个存储单元。其中，存储单元存储有程序代码，当程序代码被处理单元执行时，使得处理单元执行本说明书上述描述的根据本申请各种示例性实施方式的音频推荐方法中的步骤，例如，处理器1101可以执行如图2中所示的步骤。

下面参照图12来描述根据本申请的这种实施方式的计算装置1200。图12的计算装置1200仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图12，计算装置1200以通用计算装置的形式表现。计算装置1200的组件可以包括但不限于：上述至少一个处理单元1201、上述至少一个存储单元1202、连接不同系统组件（包括存储单元1202和处理单元1201）的总线1203。

总线1203表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元1202可以包括易失性存储器形式的可读介质，例如随机存取存储器（RAM）1221或高速缓存存储器1222，还可以进一步包括只读存储器（ROM）1223。

存储单元1202还可以包括具有一组（至少一个）程序模块1224的程序/实用工具1225，这样的程序模块1224包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置1200也可以与一个或多个外部设备1204（例如键盘、指向设备等）通信，还可与一个或者多个使得用户能与计算装置1200交互的设备通信，或与使得该计算装置1200能与一个或多个其它计算装置进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口1205进行。并且，计算装置1200还可以通过网络适配器1206与一个或者多个网络（例如局域网（LAN），广域网（WAN）或公共网络，例如因特网）通信。如图所示，网络适配器1206通过总线1203与用于计算装置1200的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置1200使用其它硬件或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的音频推荐方法的每个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的音频推荐方法中的步骤，例如，计算机设备可以执行如图2中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种音频推荐方法，其特征在于，该方法包括：

根据所述参考音频的声谱信息以及预设的候选音频集合中各个候选音频的声谱信息，从所述候选音频集合中筛选出至少一个待推荐音频；

将筛选出的所述至少一个待推荐音频推荐给所述目标账户。

2.如权利要求1所述的方法，其特征在于，所述根据所述参考音频的声谱信息以及候选音频集合中各个候选音频的声谱信息，从所述候选音频集合中筛选出至少一个待推荐音频，具体包括：

3.如权利要求2所述的方法，其特征在于，所述对所述参考音频的声谱信息进行特征提取，得到用于表示所述参考音频的声音频率分布信息的第一特征向量，具体包括：

4.如权利要求3所述的方法，其特征在于，所述分别确定所述第一特征向量与各个第二特征向量之间的相似度，具体包括：

针对各个第二特征向量分别执行以下操作：

5.如权利要求4所述的方法，其特征在于，在根据所述第一特征向量与各个第二特征向量之间的相似度，从所述候选音频集合中筛选出至少一个待推荐音频之前，还包括：

6.如权利要求5所述的方法，其特征在于，所述获取多个样本集以及各个样本集对应的样本标签，具体包括：

7.如权利要求6所述的方法，其特征在于，所述根据各个样本集中第一样本音频和第二样本音频在所述一个样本音频序列中的关联关系，确定各个样本集对应的样本标签，具体包括：

8.一种音频推荐装置，其特征在于，包括：

筛选单元，用于根据所述参考音频的声谱信息以及预设的候选音频集合中各个候选音频的声谱信息，从所述候选音频集合中筛选出至少一个待推荐音频；

9.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1~7中任一所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序代码在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1~7中任一所述方法的步骤。