CN113051425A

CN113051425A - 音频表征提取模型的获取方法和音频推荐的方法

Info

Publication number: CN113051425A
Application number: CN202110298544.0A
Authority: CN
Inventors: 梁贝茨
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-06-29
Anticipated expiration: 2041-03-19
Also published as: CN113051425B

Abstract

本公开提供了一种音频表征提取模型的获取方法，属于音视频技术领域。该方法包括：在第一样本集合中选取音频训练样本；将音频训练样本输入待训练音频表征提取模型，获得每个音频的音频表征；确定音频训练样本中每个音频所属账户的用户表征；确定音频训练样本中每个正向反馈音频的音频表征与所属账户的用户表征的正向相似度，确定音频训练样本中每个负向反馈音频的音频表征与所属账户的用户表征的负向相似度；用正向相似度和负向相似度计算第一损失，当第一损失满足第一预设条件时，将待训练音频表征提取模型确定为音频表征提取模型，第一预设条件是基于同一账户的正向相似度大于负向相似度的原则生成。采用本公开，获得提取音频的音频表征的模型。

Description

音频表征提取模型的获取方法和音频推荐的方法

技术领域

本公开涉及音视频技术领域，特别涉及一种音频表征提取模型的获取方法和音频推荐的方法。

背景技术

随着网络技术的发展，越来越多的用户使用音乐应用程序，在音乐应用程序中，为了提升用户体验，通常会分析音频的音频表征，进行个性化处理。例如，通过两个音频的音频表征之间的相似性进行个性化推荐。

相关技术中，对于任一音频，一般是将音频的描述信息，确定为音频的音频表征，音频的描述信息可以包括音频的语种、版本等。

由于某些音频不存在描述信息，所以基于目前确定音频表征的方式，无法获得不存在描述信息的音频的音频表征，因此需要提供一种提取音频表征的模型。

发明内容

本公开实施例提供了一种音频表征提取模型的获取方法和音频推荐的方法，可以获得提取任何音频的音频表征的模型。所述技术方案如下：

一方面，提供了一种音频表征提取模型的获取方法，所述方法包括：

在第一样本集合中选取音频训练样本，所述第一样本集合包括多个账户对应的正向反馈音频和负向反馈音频，所述音频训练样本包括至少一个账户的第一数目个正向反馈音频和第二数目个负向反馈音频；

将所述音频训练样本输入待训练音频表征提取模型，获得所述音频训练样本中每个音频的音频表征；

基于所述音频训练样本中每个音频所属账户的用户信息，确定所述音频训练样本中每个音频所属账户的用户表征；

确定所述音频训练样本中每个正向反馈音频的音频表征与所属账户的用户表征的正向相似度，确定所述音频训练样本中每个负向反馈音频的音频表征与所属账户的用户表征的负向相似度；

使用所述正向相似度和所述负向相似度计算第一损失，判断所述第一损失是否满足第一预设条件，当所述第一损失满足所述第一预设条件时，将所述待训练音频表征提取模型，确定为所述音频表征提取模型，其中，所述第一预设条件是基于同一账户的正向相似度大于负向相似度的原则生成的。

在一种可能的实现方式中，所述方法还包括：

当所述第一损失不满足所述第一预设条件时，更新所述待训练音频表征提取模型的参数值，继续基于所述第一样本集合中的音频训练样本对更新后的待训练音频表征提取模型进行训练，直到确定的第一损失满足所述第一预设条件，将满足所述第一预设条件时的待训练音频表征提取模型，确定为所述音频表征提取模型。

在一种可能的实现方式中，所述使用所述正向相似度和所述负向相似度计算第一损失，包括：

确定所述音频训练样本中每个账户对应的正向相似度与负向相似度的差值；

将每个账户对应的差值代入预设的损失函数，获得第一损失。

在一种可能的实现方式中，所述将所述音频训练样本输入待训练音频表征提取模型，获得所述音频训练样本中每个音频的音频表征，包括：

确定所述音频训练样本中每个音频开始的目标时长的音频数据；

将每个音频开始的目标时长的音频数据，输入至所述待训练音频表征提取模型，获得所述音频训练样本中每个音频的音频表征。

在一种可能的实现方式中，每个账户的用户信息包括音频播放信息和个人信息，所述音频播放信息包括音频的名称、音频的专辑名称、音频的艺术家或音频的发布日期中的一种或多种；

所述基于所述音频训练样本中每个音频所属账户的用户信息，确定所述音频训练样本中每个音频所属账户的用户表征，包括：

对于所述音频训练样本中的音频所属的每个账户，将所述账户的各种音频播放信息的向量分别进行平均池化后进行拼接，获得第一池化向量；

将所述第一池化向量与所述账户的个人信息的向量进行拼接，获得第一拼接向量；

将所述第一拼接向量输入用户表征提取模型，获得所述账户的用户表征。

在一种可能的实现方式中，所述方法还包括：

在第二样本集合中选取用户训练样本，所述第二样本集合包括多个账户分别对应的用户信息，所述用户训练样本包括一个账户的个人信息和音频播放信息；

将所述用户训练样本中各种音频播放信息的向量分别进行平均池化后进行拼接，获得第二池化向量；

将所述第二池化向量与所述用户训练样本中的个人信息的向量进行拼接，获得第二拼接向量；

将所述第二拼接向量，输入至待训练用户表征提取模型，获得所述用户训练样本中的账户对目标音频播放信息的正向反馈概率，所述目标音频播放信息为所述用户训练样本中距离当前时间最近的音频播放信息；

使用所述正向反馈概率和所述目标音频播放信息的标签计算第二损失，判断所述第二损失是否满足第二预设条件，当所述第二损失满足所述第二预设条件时，将所述待训练用户训练模型中目标全连接层之前的模型，确定为所述用户表征提取模型，当所述第二损失不满足所述第二预设条件时，更新所述待训练用户表征提取模型的参数值，继续基于所述第二样本集合中的音频训练样本对更新后的待训练用户表征提取模型进行训练，直到当确定的第二损失满足所述第二预设条件时，将满足所述第二预设条件时的待训练用户训练模型中目标全连接层之前的模型，确定为所述用户表征提取模型，所述目标全连接层为输出正向反馈概率的全连接层。

在一种可能的实现方式中，所述方法还包括：

将目标音频按照时间顺序划分为多个音频段，每个音频段的时长等于目标时长；

将每个音频段分别输入所述音频表征提取模型，获得每个音频段的音频表征；

将所述目标音频的多个音频段的音频表征转换为目标维度的音频表征，获得所述目标音频的音频表征。

在一种可能的实现方式中，所述多个音频段为N个音频段，每个音频段的音频表征为M维，所述目标维度为M*P维；

所述将所述目标音频的多个音频段的音频表征转换为目标维度的音频表征，获得所述目标音频的音频表征，包括：

确定所述目标音频的N个音频段的音频表征中每个维度的N个特征值的P个统计值；

将获得的M维的P个统计值，组成所述目标音频的M*P维音频表征。

在一种可能的实现方式中，所述方法还包括：

确定所述目标音频的音频表征与待推荐账户的正向反馈音频的音频表征的第一相似度；确定所述目标音频的音频表征与所述待推荐账户的用户表征的第二相似度；

若所述第一相似度高于第一数值和/或所述第二相似度高于第二数值，则将所述目标音频推荐给所述待推荐账户。

另一方面，本公开提供了一种音频表征提取模型的获取装置，所述装置包括：

选取模块，用于在第一样本集合中选取音频训练样本，所述第一样本集合包括多个账户对应的正向反馈音频和负向反馈音频，所述音频训练样本包括至少一个账户的第一数目个正向反馈音频和第二数目个负向反馈音频；

训练模块，用于：

在一种可能的实现方式中，所述训练模块，还用于：

在一种可能的实现方式中，所述训练模块，用于：

所述训练模块，用于：

在一种可能的实现方式中，所述训练模块，还用于：

在一种可能的实现方式中，所述装置还包括：

推荐模块，用于：

所述推荐模块，用于：

在一种可能的实现方式中，所述推荐模块，还用于：

再一方面，本公开提供了一种音频推荐的方法，该方法包括：

获取多个候选音频，所述候选音频为播放次数小于预设阈值的音频和/或上线时长低于预设时长的音频；

将每个候选音频按照时间顺序划分为多个音频段，每个音频段的时长等于目标时长；

将每个候选音频的各音频段分别输入音频表征提取模型，获得每个候选音频的各音频段的音频表征，所述音频表征提取模型为权利要求1至5中任一项所述的音频表征提取模型；

将每个候选音频的音频段的音频表征分别转换为目标维度的音频表征，获得每个候选音频的音频表征；

基于每个候选音频对应的用户相似度，在所述多个候选音频中为待推荐账户推荐音频，每个候选音频对应的用户相似度为每个候选音频的音频表征与所述待推荐账户的用户表征的相似度；和/或，基于每个候选音频对应的音频相似度，在所述多个候选音频中为待推荐账户推荐音频，每个候选音频对应的音频相似度为每个候选音频的音频表征与所述待推荐账户的正向反馈音频的音频表征的相似度。

再一方面，本公开提供了一种音频推荐的装置，该装置包括：

获取模块，用于获取多个候选音频，所述候选音频为播放次数小于预设阈值的音频和/或上线时长低于预设时长的音频；

划分模块，用于将每个候选音频按照时间顺序划分为多个音频段，每个音频段的时长等于目标时长；

提取模块，用于将每个候选音频的各音频段分别输入音频表征提取模型，获得每个候选音频的各音频段的音频表征，所述音频表征提取模型为第一方面所述的音频表征提取模型；

确定模块，用于将每个候选音频的音频段的音频表征分别转换为目标维度的音频表征，获得每个候选音频的音频表征；

推荐模块，用于基于每个候选音频对应的用户相似度，在所述多个候选音频中为待推荐账户推荐音频，每个候选音频对应的用户相似度为每个候选音频的音频表征与所述待推荐账户的用户表征的相似度；和/或，基于每个候选音频对应的音频相似度，在所述多个候选音频中为待推荐账户推荐音频，每个候选音频对应的音频相似度为每个候选音频的音频表征与所述待推荐账户的正向反馈音频的音频表征的相似度。

再一方面，本公开提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如第一方面所述的获取音频表征提取模型的获取方法所执行的操作。

再一方面，本公开提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如第一方面所述的获取音频表征提取模型的获取所执行的操作。

本公开实施例提供的技术方案带来的有益效果至少包括：

在本公开中，通过训练获得一种音频表征提取模型，对于任一音频，均可以使用该音频表征提取模型，提取出音频表征，所以对于任何音频均能提取到音频表征，那么对不存在描述信息的音频，也能提取到音频表征。而且由于该音频表征提取模型是基于每个账户对应的正向相似度大于负向相似度的规则训练获得，所以提取的音频表征可以更贴合用户在区分音频时所覆盖的维度。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的音频表征提取模型的获取方法流程示意图图；

图2是本公开实施例提供的待训练音频表征提取模型的结构示意图；

图3是本公开实施例提供的训练过程的示意图；

图4是本公开实施例提供的用户表征提取模型的结构示意图；

图5是本公开实施例提供的音频推荐的方法流程示意图；

图6是本公开实施例提供的音频表征提取模型的获取装置的结构示意图；

图7是本公开实施例提供的音频表征提取模型的获取装置的结构示意图；

图8是本公开实施例提供的音频推荐的装置的结构示意图；

图9是本公开实施例提供的计算机设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

为了更好的理解本公开实施例，首先介绍下可能涉及的名词概念：

音频表征，指基于音频的音频波形进行信息提取，以向量或者矩阵等抽象的特征代替直观的文本来表示音频。

用户表征，指表征账户的用户信息的特征。

相关技术中，在确定音频的音频表征时，是基于音频的描述信息进行确定，音频的描述信息可以包括音频的语种、版本等。然而由于某些音频不存在描述信息，所以无法获得不存在描述信息的音频表征。

为了提供一种普适的提取音频表征的方法，本公开提供了一种音频表征提取模型的获取方法，该方法的执行主体可以是推荐装置，推荐装置可以是软件程序，也可以是服务器等计算机设备，该服务器也可以是云端服务器。服务器可以包括处理器、存储器和收发器。处理器可以用于执行训练音频表征提取模型的过程的处理，如可以训练音频表征提取模型等。存储器可以用于存储训练音频表征提取模型的过程中需要的数据，以及产生的数据，如可以用于存储训练完成的音频表征提取模型等。收发器可以用于接收以及发送数据。

本公开实施例中提供了一种音频表征提取模型的获取方法，如图1所示，该方法的处理流程可以为：

步骤101，在第一样本集合中选取音频训练样本，第一样本集合包括多个账户对应的正向反馈音频和负向反馈音频，音频训练样本包括至少一个账户的第一数目个正向反馈音频和第二数目个负向反馈音频。

其中，针对任一账户，正向反馈音频包括但不限于该账户全部播放完的音频、该账户作出正向评论的音频，正向评论可以包括加关注、收藏、评论信息中包括“喜欢”等正向关键字；负向反馈音频包括但不限于该账户播放时长小于第一时长的音频、该账户做出负向评论的音频，负向评论可以包括加拉黑、评论信息中包括“不喜欢”等负向关键字。此处第一时长可以为30秒等。

在本实施例中，推荐装置可以获取第一样本集合，第一样本集合中可以包括训练集、验证集和测试集，训练集中样本数目大于验证集和测试集中的样本数目，它们的比例可以是80％、10％和10％。训练集是用于音频表征提取模型的训练，验证集是用于训练过程中判断音频表征提取模型的准确性，测试集是在音频表征提取模型训练好后，考察模型的泛化能力等用途。第一样本集合中包括多个账户分别对应的正向反馈音频和负向反馈音频，第一样本集合中的音频均为原始音频波形数据，每个原始音频波形数据的格式、大小、声道数不限，如mp3(moving picture experts group audio layer III，动态影像专家压缩标准音频层面3)格式、flac(free lossless audio codec，无损音频压缩编码)格式、wav(波形声音文件)格式、ogg(ogg vorbis)格式等，ogg格式是一种音频压缩格式，单声道、双声道和多声道等。

推荐装置可以在第一样本集合中选取音频训练样本，该音频训练样本包括至少一个账户的第一数目个正向反馈音频和第二数目个负向反馈音频。第一数目和第二数目可以预设，例如，第一数目为1，第二数目为10。

步骤102，将音频训练样本输入待训练音频表征提取模型，获得音频训练样本中每个音频的音频表征。

在本实施例中，推荐装置可以构建待训练音频表征提取模型，待训练音频表征提取模型包括第一预设数目个卷积层、第一预设数目个池化层和一个全连接层。例如，如图2所示，第一预设数目为5，每个卷积层均是一维卷积层，也就说待训练音频表征提取模型为一维卷积神经网络，前三个卷积层的卷积窗口参数为4、边缘填充参数为2，第四个卷积层的卷积窗口参数为2，边缘填充参数为1，第五个卷积层的卷积窗口参数为2，边缘填充参数为0，前四个池化层均为最大值池化层，第五个池化层为自适应最大值池化层。待训练音频表征提取模型的输出为40维特征。卷积层和池化层中可以使用整流线性单位函数(rectifiedlinear unit，ReLU)作为激活函数。

推荐装置将音频训练样本中每个音频输入至待训练音频表征提取模型，得到的输出即为每个音频的音频表征。

可选的，在将音频输入至待训练音频表征提取模型之前，对音频进行预处理，示例性，将音频的原始波形数据，通过时频域变换，获得二维声谱图(spectrogram)。另外，考虑到人耳对频率的感知并非线性，可以将频域轴为线性的声谱图映射到梅尔尺度，获得梅尔声谱图(melspectrogram)。再考虑到人耳对声音强度的感知也并非线性，可将梅尔声谱图的能量取对数，获得对数能量下的梅尔声谱图(log-melspectrogram)。后续提取音频表征，都是对音频的对数能量下的梅尔声谱图进行操作。这样，由于将音频从时域转换到频域，所以会体现出更多的语义信息。

步骤103，基于音频训练样本中每个音频所属账户的用户信息，确定音频训练样本中每个音频所属账户的用户表征。

其中，用户信息可以包括音频播放信息和个人信息，音频播放信息可以是播放的音频的名称、播放的音频的专辑名称、播放的音频的艺术家等，此处艺术家指演唱该音频的歌手的名称，个人信息可以是年龄、地域等。

在本实施例中，推荐装置可以将音频训练样本中每个音频所属账户的用户信息，输入至用户表征提取模型，获得每个音频所属账户的用户表征。

步骤104，确定音频训练样本中每个正向反馈音频的音频表征与所属账户的用户表征的正向相似度，确定音频训练样本中每个负向反馈音频的音频表征与所属账户的用户表征的负向相似度。

在本实施例中，对于任一账户，推荐装置计算该账户的每个正向反馈音频的音频表征与该账户的用户表征的余弦距离，该余弦距离称为是正向相似度，并且推荐装置计算该账户的每个负向反馈音频的音频表征与该账户的用户表征的余弦距离，该余弦距离称为是负向相似度。当然此处也可以使用欧式距离计算。

需要说明的是，用户表征的维度与音频表征的维度相同，例如，用户表征的维度和音频表征的维度均为40维。

步骤105，使用正向相似度和负向相似度计算第一损失，判断第一损失是否满足第一预设条件，当第一损失满足第一预设条件时，将待训练音频表征提取模型，确定为音频表征提取模型，第一预设条件是基于同一账户的正向相似度大于负向相似度的原则生成的。

其中，第一预设条件是基于同一账户的正向相似度大于负向相似度的原则生成的，例如，第一预设条件为第一损失小于第一预设数值，第一预设条件还可以为第一损失小于第二预设数值，且计算出的损失不再减少，第二预设数值大于第一预设数值。此处第一预设数值和第二预设数值是基于正向相似度大于负向相似度的原则确定的，也即第一预设数值和第二预设数值作为损失的约束时，必须使得同一账户的正向相似度大于负向相似度。

在本实施例中，推荐装置可以使用正向相似度和负向相似度计算出第一损失。然后判断第一损失是否满足第一预设条件，在第一损失满足第一预设条件时，可以将待训练音频表征提取模型确定为训练完成的音频表征提取模型。

可选的，在第一损失不满足第一预设条件时，处理可以为：

当第一损失不满足第一预设条件时，更新待训练音频表征提取模型的参数值，继续基于第一样本集合中的音频训练样本对更新后的待训练音频表征提取模型进行训练，直到确定的第一损失满足第一预设条件，将满足第一预设条件时的待训练音频表征提取模型，确定为音频表征提取模型。

在本实施例中，当第一损失不满足第一预设条件时，使用第一损失更新待训练音频表征模型的参数值，作为当前的待训练音频表征提取模型，然后转至执行步骤101，直到确定第一损失满足第一预设条件时，将满足第一预设条件时的待训练音频表征提取模型，确定为训练完成的音频表征提取模型。

可选的，有多种损失函数可以计算第一损失，如下给出一种可能的方式：

确定音频训练样本中每个账户对应的正向相似度与负向相似度的差值；将每个账户对应的差值代入预设的损失函数，获得第一损失。

在本实施例中，推荐装置可以计算音频训练样本中每个账户对应的正向相似度与负向相似度的差值，然后将每个账户对应的差值代入预设的损失函数，确定出第一损失。

示例性的，在预设的损失函数为最大间隔折页损失函数(max-margin hingeloss)时，计算第一损失的处理为：如图3所示，在第一数目为1，第二数目为n时，在图3中为了更好地说明损失，列出了n+1个待训练音频表征提取模型，第一损失的表达式为：

在该式子中，L(u，R)表示第一损失，R表示{r⁺，r₁ ^-，r₂ ^-...r_n ^-}，r⁺表示一个正向反馈音频的音频表征，u表示账户的用户表征，M(r⁺,u)表示一个正向反馈音频的音频表征与所属账户的用户表征的正向相似度，r_i ^-表示第二数目个负向反馈音频中第i个负向反馈音频的音频表征，i取值为1至n，u表示账户的用户表征，M(r_i ^-,u)表示第i个负向反馈音频的音频表征与所属账户的用户表征的负向相似度，Δ表示间隔超参数，是一个大于0的数值，含义为正向相似度与负向相似度的差值最好是大于或等于Δ，才能将正向反馈音频和负向反馈音频区分开。max(0,Δ-(M(r⁺,u)-M(r_i ^-,u)))表示取0和Δ-(M(r⁺,u)-M(r_i ^-,u))之间的最大值。第二数目为n。在该式子中，假如M(r⁺,u)-M(r_i ^-,u)小于Δ，说明正向相似度与第i个负向反馈音频对应的负向相似度的差值未达到Δ，max(0,Δ-(M(r⁺,u)-M(r_i ^-,u)))取值为M(r⁺,u)-M(r_i ^-,u)，M(r⁺,u)-M(r_i ^-,u)大于0。假如M(r⁺,u)-M(r_i ^-,u)大于或等于Δ，说明正向相似度与第i个负向反馈音频对应的负向相似度的差值达到Δ，max(0,Δ-(M(r⁺,u)-M(r_i ^-,u)))取值为0。

第一预设条件为L(u，R)小于第一预设数值，且该第一预设数值接近0。这样，相当于正向相似度与每个负向反馈音频对应的负向相似度的差值达到Δ，说明正向反馈音频和负向反馈音频可以很好的区分开，也就说在某次训练时，L(u，R)小于一个数值，且该数值接近0，说明训练完成，可以将获得本次L(u，R)的模型，确定为音频表征提取模型。

或者，第一预设条件为L(u，R)小于第二预设数值，且多次获得L(u，R)不再减小。

上述是以第一数目为1为例进行说明，在第一数目不为1时，可以按照上述处理过程，确定出每个正向反馈音频对应的一个损失，将每个正向反馈音频对应的一个损失相加，获得第一损失。

在另一种可能的实现方式中，计算第一损失的过程也可以是：

确定音频训练样本中每个账户对应的正向相似度与负向相似度的差值，将这些差值取平均值，获得第一损失。此时第一预设条件为第一损失大于一定数值，且损失不再增加。

在一种可能的实现方式中，为了更快的确定出每个音频训练样本的音频表征，步骤102的处理可以为：

确定音频训练样本中每个音频开始的目标时长的音频数据；将每个音频开始的目标时长的音频数据，输入至待训练音频表征提取模型，获得音频训练样本中每个音频的音频表征。

其中，目标时长可以为10秒等。

在本实施例中，推荐装置确定第一数目个正向反馈音频中每个正向反馈音频开始的目标时长的音频数据，将每个正向反馈音频开始的目标时长的音频数据分别输入至待训练音频表征提取模型，获得每个正向反馈音频开始的目标时长的音频数据的音频表征，将每个正向反馈音频开始的目标时长的音频数据的音频表征，确定为每个正向反馈音频的音频表征。

并且推荐装置确定第二数目个负向反馈音频中每个负向反馈音频开始的目标时长的音频数据，将每个负向反馈音频开始的目标时长的音频数据分别输入至待训练音标表征提取模型，获得每个负向反馈音频开始的目标时长的音频数据的音频表征，将每个负向反馈音频开始的目标时长的音频数据的音频表征，确定为每个负向反馈音频的音频表征。

此处需要说明的是，为了节约训练时长，由于任一音频开始时的一段时间的音频，可以反映用户是否喜欢该音频(即反映正向反馈音频，还是反映负向反馈音频)，所以可以将每个音频的开始目标时长内的音频数据的音频表征，确定为每个音频的音频表征。

在一种可能的实现方式中，步骤103中，获得用户表征的处理方式为：

对于音频训练样本中的音频所属的每个账户，将账户的各种音频播放信息的向量分别进行平均池化后进行拼接，获得第一池化向量；将第一池化向量与账户的个人信息的向量进行拼接，获得第一拼接向量；将第一拼接向量输入用户表征提取模型，获得账户的用户表征。

在本实施例中，对于音频训练样本中的音频所属的任一账户，推荐装置将该账户的音频播放信息中的n个音频的名称分别使用K维向量表示，并将该n个音频的专辑分别使用K维向量表示，并且将该n个音频的艺术家分别使用K维向量表示。并且将该账户的每种个人信息使用K维向量表示。此处该账户的音频播放信息是距离当前时刻最近的音频播放信息。此处在使用向量表示时，可以查向量表(lookup-embeddings)确定向量。

然后推荐装置将n个音频的名称的各维向量对应进行平均，获得n个音频的名称的平均池化向量(如每个音频的名称使用K维向量表示，将n个音频的名称的第一维向量平均，将n个音频的名称的第二维向量平均，依此类推，直到将n个音频的名称的第K维向量平均，这样，获得n个音频的名称的平均池化向量还是K维向量)，将n个音频的专辑的各维向量对应进行平均，获得n个音频的专辑的平均池化向量，将n个音频的艺术家的各维向量对应进行平均，获得n个音频的艺术家的平均池化向量。然后将n个音频的名称的平均池化向量、n个音频的专辑的平均池化向量和n个音频的艺术家的平均池化向量进行拼接，获得第一池化向量。然后将第一池化向量与该账户的每种个人信息的向量拼接在一起，获得第一拼接向量。

推荐装置将第一拼接向量输入至用户表征提取模型，输出即为该账户的用户表征。

此处需要说明的是，拼接指将向量拼接在一起，例如，第一池化向量为200维，个人信息的向量为20维，拼接后获得的第一拼接向量为220维。

可选的，用户表征提取模型中包括多个全连接层。获得用户表征提取模型的处理可以是从其它设备直接获取，也可以是训练获得，训练获得用户表征提取模型的处理为：

在第二样本集合中选取用户训练样本，第二样本集合包括多个账户分别对应的用户信息，用户训练样本包括一个账户的个人信息和音频播放信息；将用户训练样本中各种音频播放信息的向量分别进行平均池化后进行拼接，获得第二池化向量；将第二池化向量与用户训练样本中的个人信息的向量进行拼接，获得第二拼接向量；将第二拼接向量，输入至待训练用户表征提取模型，获得用户训练样本中的账户对目标音频播放信息的正向反馈概率，目标音频播放信息为用户训练样本中距离当前时间最近的音频播放信息；使用正向反馈概率和目标音频播放信息的标签计算第二损失，判断第二损失是否满足第二预设条件，当第二损失满足第二预设条件时，将待训练用户训练模型中目标全连接层之前的模型，确定为用户表征提取模型，当第二损失不满足第二预设条件时，更新待训练用户表征提取模型的参数值，继续基于第二样本集合中的音频训练样本对更新后的待训练用户表征提取模型进行训练，直到当确定的第二损失满足第二预设条件时，将满足第二预设条件时的待训练用户训练模型中目标全连接层之前的模型，确定为用户表征提取模型，目标全连接层为输出正向反馈概率的全连接层。

其中，第二预设条件为第二损失小于一定数值，第二预设条件还可以为第二损失小于另一数值，且计算出的损失不再减少。

在本实施例中，推荐装置可以获取第二样本集合，第二样本集合中包括多个账户分别对应的用户信息，用户信息包括音频播放信息和个人信息，该音频播放信息可以是播放的音频的名称、播放的音频的专辑名称、播放的音频的艺术家等，此处艺术家指演唱该音频的歌手的名称。此处音频播放信息是账户最近一段时间内的音频播放信息，该一段时间可以是一个月、一周等。个人信息可以是年龄、地域等。第二样本集合中可以包括训练集、验证集和测试集，训练集中样本数目大于验证集和测试集中的样本数目，它们的比例可以是80％、10％和10％。训练集是用于训练待训练用户表征提取模型，验证集是用于训练过程中判断用户表征提取模型的准确性，测试集是在用户表征提取模型训练好后，考察模型的泛化能力等用途。

推荐装置在第二样本集合中选取用户训练样本，该用户训练样本包括一个账户的个人信息和音频播放信息。该音频播放信息为该账户最近播放完成的音频的音频播放信息，也就说这些音频是该账户的正向反馈音频。推荐装置将该一个账户的用户信息使用向量表示，示例性的，针对该账户，将播放的音频的名称使用K维一维向量表示，将播放的音频的专辑名称使用K维一维向量表示，将播放的音频的艺术家使用K维一维向量表示，将每种个人信息使用K维一维向量表示。例如，K为8。此处在使用向量表示时，可以使用lookup-embeddings查找到向量。

推荐装置构建待训练用户表征提取模型，如图4所示，待训练用户表征提取模型包括多个使用带泄露的整流线性单位函数(leaky-rectified linear unit，leaky-ReLU)作为激活函数全连接层，如可以是包括4个使用leaky-ReLU作为激活函数的全连接层。待训练用户表征提取模型每次的输入为一个账户的n个音频的名称(x₁,...,x_n)、n个音频的专辑(a₁,...,a_n)和n个音频的艺术家(s₁,...,s_n)和该一个账户的个人信息D，待训练用户表征提取模型的采样柔性最大值(sampled softmax)输出值的大小表示输入的该一个账户对输入的音频x_n的喜好反馈，待训练用户表征提取模型的sampled softmax输出值越大，表示越是正向反馈。其中，在x₁,...,x_n中，x_n表示该账户最近播放的倒数第一个音频，x_n-1表示该账户最近播放的倒数第二个音频，依此类推，x₁表示该账户最近播放的倒数第n个音频。例如，x_n表示2021.1.2日播放的音频，x_n-1表示2021.1.1日播放的音频。

推荐装置将每次输入的一个账户的n个音频的名称的向量进行平均池化，并将每次输入的一个账户的n个音频的专辑的向量进行平均池化，并将每次输入的一个账户的n个音频的艺术家的向量进行平均池化，此处平均池化参见前文中的描述。此处平均池化是为了降维处理，然后将每种平均池化后的向量拼接为第二池化向量，将第二池化向量与该账户的个人信息的向量拼接为一个完整的向量，获得第二拼接向量。将第二拼接向量输入至待训练用户表征提取模型。待训练用户表征提取模型的每个全连接层对输入的向量进行处理后，输入至下一个全连接层，直至获得sampled softmax的输出值，即获得对音频x_n的正向反馈概率，即音频x_n所属账户对音频x_n为正向反馈的概率。

推荐装置可以获取音频x_n的标签，由于音频x_n为账户的正向反馈音频，所以该标签是1。推荐装置可以将正向反馈概率与音频x_n的标签代入交叉熵损失函数，计算出第二损失，判断第二损失是否满足第二预设条件，当第二损失满足第二预设条件时，可以将待训练用户训练模型中目标全连接层之前的模型，确定为用户特征提取模型，目标全连接层为输出正向反馈概率的全连接层。

当第二损失不满足第二预设条件时，使用第二损失更新待训练用户表征提取模型的参数值，基于更新后的待训练用户表征提取模型和第二样本集合，进行训练，直到获得第二损失满足第二预设条件，将获得该结果的待训练用户表征提取模型中目标全连接层之前的模型，确定为用户特征提取模型。

这样，通过上述训练可以使得用户表征提取模型能够最大化概率P(x_n|X_1：n-1，D)＝P(x_n|x₁,...,x_n-1,a₁,...,a_n-1,s₁,...,s_n-1,D)，在该式子中，P(x_n|X_1：n-1，D)表示在X_1：n-1，D条件下，账户对x_n为正向反馈的概率。此处由于D为账户的个人信息，X_1：n-1和x_n是账户播放完成的音频的音频播放信息，说明x_n和X_1：n-1是相似的。使用训练完成后的用户表征提取模型，可以使得在X_1：n-1，D条件下，账户对x_n为正向反馈的概率最大。

需要说明的是，在训练过程中，每次的输入可以是不同账户的音频播放信息和个人信息，当然可以使用相同账户的音频播放信息和个人信息训练多次后，切换为使用另一个账户的音频播放信息和个人信息训练。

在一种可能的实现方式中，在获得音频表征提取模型后，提取音频的音频表征的处理为：

将目标音频按照时间顺序划分为多个音频段，每个音频段的时长等于目标时长；将每个音频段分别输入音频表征提取模型，获得每个音频段的音频表征；将目标音频的多个音频段的音频表征转换为目标维度的音频表征，获得目标音频的音频表征。

其中，目标音频为任一音频，时间顺序指的是目标音频的播放顺序。

在本实施例中，推荐装置将目标音频按照时间顺序划分为多个音频段，划分得到的每个音频段的时长等于目标时长。例如，目标时长为10秒，目标音频为20分钟，目标音频可以划分得到120个音频段。此处需要说明的是，若目标音频的播放时长不是恰好等于目标时长的整数倍，可以按照时间顺序划分得到N个目标时长的音频段后，将最后剩余的不够目标时长的音频段舍弃，此处N等于目标音频的播放时长除以目标时长获得的整数值。

然后推荐装置在将目标音频的音频段输入至音频表征提取模型之前，对目标音频进行预处理，示例性，将目标音频的原始波形数据，通过时频域变换，获得spectrogram。另外，考虑到人耳对频率的感知并非线性，可以将频域轴为线性的声谱图映射到梅尔尺度，获得melspectrogram。再考虑到人耳对声音强度的感知也并非线性，可将梅尔声谱图的能量取对数，获得log-melspectrogram。后续提取音频表征，都是对目标音频的对数能量下的梅尔声谱图进行操作。这样，由于将目标音频从时域转换到频域，所以会体现出更多的语义信息。

推荐装置可以将每个音频段的梅尔声谱图分别输入至音频表征提取模型，音频表征提取模型针对输入的每个音频段输出每个音频段的音频表征。此处输入每个音频段的梅尔声谱图指的是输入每个音频段的梅尔声谱图的m_帧*f_mels，其中，m_帧表示目标时长内的帧数，f_mels表示目标时长内的mel组数，mel表示梅尔。

然后推荐装置可以将目标音频的多个音频段的音频表征，进行处理，转换为目标维度的音频表征。此处，目标维度为预设的维度，例如，目标维度为M*P维。这样，通过本公开实施例，对于任一音频，均可以使用音频表征提取模型，提取出音频表征，所以对于不存在描述信息的音频，也能提取到音频表征。

在一种可能的实现方式中，假设目标音频划分得到的多个音频段为N个音频段，每个音频段的音频表征为M维，目标维度为M*P维，获得目标维度的音频表征的处理为：

确定目标音频的N个音频段的音频表征中每个维度的N个特征值的P个统计值；将获得的M维的P个统计值，组成目标音频的M*P维音频表征。

其中，P个统计值可以是任意数目个统计值，例如，P个统计值为6个统计值，6个统计值分别为最小值、最大值、均差、方差、峰值与偏度。

在本实施例中，推荐装置在目标音频的N个音频段的音频表征中，确定每个维度的N个特征值。然后确定每个维度的N个特征值的P个统计值。

然后将M维的P个统计值，组合在一起，组成目标音频的M*P维音频表征。

这样，由于每个音频段的音频表征的维度相同，所以针对每个音频，均可以获得M*P维音频表征。

在一种可能的实现方式中，还可以基于目标音频的音频表征，确定是否将目标音频推荐给某个账户，可以称为是待推荐账户，处理为：

确定目标音频的音频表征与待推荐账户的正向反馈音频的音频表征的第一相似度；确定目标音频的音频表征与待推荐账户的用户表征的第二相似度；若第一相似度高于第一数值和/或第二相似度高于第二数值，则将目标音频推荐给待推荐账户。

其中，第一数值与第二数值可以预设，并且存储在推荐装置。

在本实施例中，在为待推荐账户推荐音频的过程中，目标音频作为候选音频。推荐装置确定目标音频的音频表征与待推荐账户的正向反馈音频的音频表征的余弦距离，即获得第一相似度，并且推荐装置确定目标音频的音频表征与待推荐账户的用户表征的音频表征的余弦距离，即获得第二相似度。推荐装置判断第一相似度与第一数值的大小关系，并且判断第二相似度与第二数值的大小关系。若第一相似度高于第一数值和/或第二相似度高于第二数值，则可以将目标音频推荐给待推荐账户。

另外，若待推荐账户的正向反馈音频为多个，推荐装置确定目标音频的音频表征与待推荐账户的每个正向反馈音频的音频表征的余弦距离，将多个余弦距离取平均值，获得第一相似度。

在一种可能的实现方式中，音频表征提取模型中包括卷积层和池化层，获取目标音频的音频表征的处理为：

将目标音频的每个音频段分别输入音频表征提取模型，经过第一预设数目次一维卷积处理、第一预设数目次池化和全连接处理，获得每个音频段的音频表征。

在本实施例中音频表征提取模型中包括第一预设数目个卷积层、第一预设数目个池化层和一个全连接层，第一预设数目可以为5。对于每个音频段，推荐装置可以将该音频段输入音频表征提取模型，依次经过第一预设数目次卷积处理、第一预设数目次池化处理和一次全连接处理，全连接处理后输出的结果为该音频段的音频表征。基于这种方式可以获得目标音频的每个音频段的音频表征。此处需要说明的是，每两个卷积处理中存在一个池化处理，也就说首先进行一次卷积处理，再进行一次池化处理，然后再进行一次卷积处理，再进行一次池化处理，按照这种顺序进行卷积处理和池化处理。

针对确定每个音频段的音频表征的处理，提供的示例为：

由于音频表征提取模型是由待训练音频表征提取模型训练获得，所示音频表征提取模型是与待训练音频表征提取模型的结构类似，第一预设数目为5，这样，音频表征提取模型包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层，输出层(全连接层)。每个卷积层均是一维卷积层，也就说音频表征提取模型为一维卷积神经网络，第一卷积层至第二卷积层的卷积窗口参数为4、边缘填充参数为2，第四卷积层的卷积窗口参数为2，边缘填充参数为1，第五卷积层的卷积窗口参数为2，边缘填充参数为0，第一池化层至第四池化层均为最大值池化层，第五池化层为自适应最大值池化层。音频表征提取模型的输出为40维特征。卷积层和池化层中的激活函数为ReLU。

一个音频段为128*430维特征(此处128指示目标时长内的mel组数，430指示目标时长内的帧数)，那么第一卷积层的输入为128*430，填充之后的大小为128*434，第一卷积层中卷积核的数目为128，卷积窗口参数为4(也就是说一维卷积核长度为4)，卷积核的步长为1，这样，第一卷积层的输出为128*431。

然后对第一卷积层的输出进行批量归一化处理，结果还是128*431，输出至第一池化层。

第一池化层为最大值池化层，输入为128*431，输出为128*108，输出至第二卷积层。

第二卷积层的输入为128*108，填充之后的大小为128*112，第二卷积层中卷积核的数目为128，卷积窗口参数为4(也就是说一维卷积核长度为4)，卷积核的步长为1，这样，第二卷积层的输出为128*109。

然后对第二卷积层的输出进行批量归一化处理，结果还是128*109，输出至第二池化层。

第二池化层为最大值池化层，输入为128*109，输出为128*29，输出至第三卷积层。

第三卷积层的输入为128*29，填充之后的大小为128*33，第三卷积层中卷积核的数目为128，卷积窗口参数为4(也就是说一维卷积核长度为4)，卷积核的步长为1，这样，第三卷积层的输出为128*30。

然后对第三卷积层的输出进行批量归一化处理，结果还是128*30，输出至第三池化层。

第三池化层为最大值池化层，输入为128*30，输出为128*15，输出至第四卷积层。

第四卷积层的输入为128*15，填充之后的大小为128*17，第四卷积层中卷积核的数目为128，卷积窗口参数为2(也就是说一维卷积核长度为2)，卷积核的步长为1，这样，第四卷积层的输出为128*16。

然后对第四卷积层的输出进行批量归一化处理，结果还是128*16，输出至第四池化层。

第四池化层为最大值池化层，输入为128*16，输出为128*8，输出至第五卷积层。

第五卷积层的输入为128*8，不进行填充，第五卷积层中卷积核的数目为256，卷积窗口参数为2(也就是说一维卷积核长度为2)，卷积核的步长为1，这样，第五卷积层的输出为256*7。

然后对第五卷积层的输出进行批量归一化处理，结果还是256*7，输出至第五池化层。

第五池化层为自适应最大值池化层，输入为256*7，输出为256维，输出至全连接层。

全连接层将输入的256维，转换为40维，输出为40维，获得音频段的音频表征，该音频段的音频表征为40维特征。

上述仅是一种示例性的方式，其他可行的方式均可应用于本公开实施例，例如，采用二维卷积，采用除ReLU之外的激活函数等。

在本公开实施例中，对于任一音频，均可以使用音频表征提取模型，提取出音频表征，所以对于任何音频均能提取到音频表征，那么对不存在描述信息的音频，也能提取到音频表征。而且由于音频表征提取模型是基于每个账户对应的正向相似度大于负向相似度的规则训练获得，所以提取的音频表征可以更贴合用户在区分音频时所覆盖的维度。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

在本公开的另一个实施例中，还提供了基于音频表征推荐模型推荐音频的处理，如图5所示：

步骤501，获取多个候选音频，候选音频为播放次数小于预设阈值的音频和/或上线时长低于预设时长的音频。

其中，预设阈值可以预设，存储至推荐装置中，如100等，预设时长也可以预设，存储至推荐装置中，如7天等。

在本实施例中，在用户使用自身申请的账户登录音频程序时，推荐装置可以在音频库中获取多个候选音频，候选音频为播放次数小于预设阈值的音频和/或上线时长低于预设时长的音频。

步骤502，将每个候选音频按照时间顺序划分为多个音频段，每个音频段的时长等于目标时长。

其中，时间顺序指播放顺序。目标时长可以为10秒。

在本实施例中，推荐装置可以将每个候选音频按照时间顺序，将每个候选音频划分为多个音频段，每个音频段的时长等于目标时长。若划分的最后一个音频段的时长不够目标时长，则将最后一个音频段丢弃。

步骤503，将每个候选音频的各音频段分别输入音频表征提取模型，获得每个候选音频的各音频段的音频表征。

其中，音频表征提取模型为图1的流程中训练获得的音频表征提取模型。

步骤504，将每个候选音频的音频段的音频表征分别转换为目标维度的音频表征，获得每个候选音频的音频表征。

步骤504中的处理可以参见前文中的描述，此处不再赘述。

步骤505，基于每个候选音频对应的用户相似度，在多个候选音频中为待推荐账户推荐音频，每个候选音频对应的用户相似度为每个候选音频的音频表征与待推荐账户的用户表征的相似度；和/或，基于每个候选音频对应的音频相似度，在多个候选音频中为待推荐账户推荐音频，每个候选音频对应的音频相似度为每个候选音频的音频表征与待推荐账户的正向反馈音频的音频表征的相似度。

在本实施例中，推荐装置可以确定每个候选音频的音频表征与待推荐账户的用户表征的余弦距离，获得每个候选音频对应的用户相似度，并且推荐装置可以确定每个候选音频的音频表征与待推荐账户的正向反馈音频的余弦距离，获得每个候选音频对应的音频相似度。

推荐装置判断每个候选音频对应的用户相似度与第一数值的大小关系，并且判断每个候选音频对应的音频相似度与第二数值的大小关系，将用户相似度大于第一数值和/或音频相似度大于第二数值的候选音频，推荐给待推荐账户。这样，不管音频有没有描述信息，均可以获得音频表征，基于音频的音频表征进行音频推荐。

此处需要说明的是，在待推荐账户的正向反馈音频为多个的情况下，可以对于待推荐账户的任一正向反馈音频，计算每个候选音频的音频相似度与该正向反馈音频的余弦距离，获得待推荐账户的该正向反馈与每个候选音频的音频相似度。对于任一候选音频，计算每个正向反馈音频与该候选音频的音频相似度取平均值，获得该候选音频对应的音频相似度，后续处理与前文中的描述相同。

可选的，在将候选音频推荐给待推荐账户时，可以按照列表的方式发送至待推荐账户所登录的终端。

可选的，在将选取的音频推荐给待推荐账户的处理可以为：

将在多个候选音频中为待推荐账户选择的音频，添加至待推荐账户的音频推荐点位。

其中，目标推荐点位可以为音频程序中的个性电台、今日私享等位置。

在本实施例中，推荐装置可以将在候选音频中选择的音频的标识，添加至待推荐账户的音频推荐点位的歌单中。这样，用户在打开音频应用程序后，音频程序的后端会将音频推荐点位的歌单发送给音频程序，用户可以在音频推荐点位看到推荐的音频。

可选的，将在多个候选音频中选择的音频，按照与历史音频的相似度从高到低的顺序，添加至待推荐账户的音频推荐点位的歌单的预设位置处。

其中，预设位置可以为第三首、第十首、第十五首等。

在本实施例中，将在候选音频中选择的音频的标识，添加至待推荐账户的音频推荐点位时，还会通知音频推荐点位中选择的音频的排序，排序是按照相似度大小进行排序，相似度大的排序在前，相似度小的排序在后，按照这种方式添加至待推荐账户的音频推荐点位的歌单的预设位置处。这样，可以使得用户首先看到相似度大的音频，提升相似度大的音频的播放量。

基于相同的技术构思，本公开实施例还提供了一种音频表征提取模型的获取装置，如图6所示，该装置包括：

选取模块610，用于在第一样本集合中选取音频训练样本，所述第一样本集合包括多个账户对应的正向反馈音频和负向反馈音频，所述音频训练样本包括至少一个账户的第一数目个正向反馈音频和第二数目个负向反馈音频；

训练模块620，用于：

在一种可能的实现方式中，所述训练模块620，还用于：

在一种可能的实现方式中，所述训练模块620，用于：

所述训练模块620，用于：

在一种可能的实现方式中，所述训练模块620，还用于：

在一种可能的实现方式中，如图7所示，所述装置还包括：

推荐模块630，用于：

所述推荐模块630，用于：

在一种可能的实现方式中，所述推荐模块630，还用于：

需要说明的是：上述实施例提供的音频表征提取模型的获取装置在获取模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频表征提取模型的获取装置与音频表征提取模型的获取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于相同的技术构思，本公开实施例还提供了一种音频推荐的装置，如图8所示，该装置包括：

获取模块810，用于获取多个候选音频，所述候选音频为播放次数小于预设阈值的音频和/或上线时长低于预设时长的音频；

划分模块820，用于将每个候选音频按照时间顺序划分为多个音频段，每个音频段的时长等于目标时长；

提取模块830，用于将每个候选音频的各音频段分别输入音频表征提取模型，获得每个候选音频的各音频段的音频表征，所述音频表征提取模型为第一方面所述的音频表征提取模型；

确定模块840，用于将每个候选音频的音频段的音频表征分别转换为目标维度的音频表征，获得每个候选音频的音频表征；

推荐模块850，用于基于每个候选音频对应的用户相似度，在所述多个候选音频中为待推荐账户推荐音频，每个候选音频对应的用户相似度为每个候选音频的音频表征与所述待推荐账户的用户表征的相似度；和/或，基于每个候选音频对应的音频相似度，在所述多个候选音频中为待推荐账户推荐音频，每个候选音频对应的音频相似度为每个候选音频的音频表征与所述待推荐账户的正向反馈音频的音频表征的相似度。

需要说明的是：上述实施例提供的音频推荐的装置在推荐音频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频推荐的装置与音频推荐的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本公开实施例提供的一种计算机设备的结构示意图，该计算机设备900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)901和一个或一个以上的存储器902，其中，所述存储器902中存储有至少一条指令，所述至少一条指令由所述处理器901加载并执行以实现上述各个方法实施例提供的音频表征提取模型的获取方法和音频推荐的方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中提取音频表征的方法。该计算机可读存储介质可以是非暂态的。例如，所述计算机可读存储介质可以是只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、光盘只读存储器(compact disc read-only memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种音频表征提取模型的获取方法，其特征在于，所述方法包括：

基于所述正向相似度和所述负向相似度计算第一损失，当所述第一损失满足所述第一预设条件时，将所述待训练音频表征提取模型，确定为所述音频表征提取模型，其中，所述第一预设条件是基于同一账户的正向相似度大于负向相似度的原则生成的。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述使用所述正向相似度和所述负向相似度计算第一损失，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述将所述音频训练样本输入待训练音频表征提取模型，获得所述音频训练样本中每个音频的音频表征，包括：

5.根据权利要求1至3任一项所述的方法，其特征在于，每个账户的用户信息包括音频播放信息和个人信息，所述音频播放信息包括音频的名称、音频的专辑名称、音频的艺术家或音频的发布日期中的一种或多种；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述多个音频段为N个音频段，每个音频段的音频表征为M维，所述目标维度为M*P维；

9.根据权利要求7或8所述的方法，其特征在于，所述方法还包括：

10.一种音频推荐的方法，其特征在于，所述方法包括：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至9任一项所述的音频表征提取模型的获取方法所执行的操作。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至9任一项所述的音频表征提取模型的获取方法所执行的操作。