CN109558512A

CN109558512A - 一种基于音频的个性化推荐方法、装置和移动终端

Info

Publication number: CN109558512A
Application number: CN201910070182.2A
Authority: CN
Inventors: 朱玉婷
Original assignee: Guangzhou Li Zhi Network Technology Co Ltd
Current assignee: Guangzhou Li Zhi Network Technology Co Ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-04-02
Anticipated expiration: 2039-01-24
Also published as: CN109558512B

Abstract

本发明实施例提供了一种基于音频的个性化推荐方法、装置和移动终端，该方法包括：根据音频样本集训练音频识别模型，所述音频识别模型由卷积神经网络、循环神经网络级联得到；获取目标用户的目标音频特征；将所述目标音频特征输入至所述音频识别模型中，得到目标音频向量；根据所述目标音频向量从候选对象列表中获取目标对象；将所述目标对象推荐给所述目标用户。可以通过音频识别模型获取到目标音频向量(声音特征)，以将用户喜欢的声音输入推荐给用户，有助于提高推荐成功率。

Description

一种基于音频的个性化推荐方法、装置和移动终端

技术领域

本发明涉及音频识别的技术领域，特别是涉及一种基于音频的个性化推荐方法、装置和移动终端。

背景技术

广播电台通过音频向用户提供信息，例如，车载广播系统可以方便驾驶人员获取路况、或音乐、或其他信息。在实际应用中，还可以向用户进行音频的个性化推荐，即从主播列表中找到与用户喜欢的主播相似的主播。

现有技术中，通常可以根据主播的基本信息进行音频的个性化推荐，其中，基本信息包括：主播性别、年龄、节目类型等。具体地，首先，从用户的历史收听记录中获取用户历史收听次数较多的主播的性别、年龄、节目类型，作为目标信息；然后，将目标信息与主播列表中的主播的基本信息进行匹配，得到基于匹配度的主播排序序列；最后，排序在靠前位置的主播推荐给用户。例如，用户经常收听的主播的性别为女、年龄为25岁、节目类型为音乐节目，从而可以将性别为女、年龄为25岁、节目类型为音乐节目的主播优先推荐给用户。

然而，上述推荐过程并未考虑主播的声音特征，而通常情况下，用户喜欢主播的原因在于主播的声音，在该场景下推荐成功率较低。

发明内容

本发明公开了一种基于音频的个性化推荐方法、装置和移动终端，以解决推荐过程未考虑主播的声音特征，导致推荐成功率较低的问题。

第一个方面，本发明提供了一种基于音频的个性化推荐方法，包括：

根据音频样本集训练音频识别模型，所述音频识别模型由卷积神经网络、循环神经网络级联得到；

获取目标用户的目标音频特征；

将所述目标音频特征输入至所述音频识别模型中，得到目标音频向量；

根据所述目标音频向量从候选对象列表中获取目标对象；

将所述目标对象推荐给所述目标用户。

可选地，所述目标音频特征为梅尔频率倒谱系数，所述获取目标用户的目标音频特征，包括：

从历史收听记录中获取目标用户的目标音频，所述目标用户对所述目标音频的收听频率大于预设收听频率阈值；

从所述目标音频中提取梅尔频率倒谱系数。

可选地，所述音频样本集包括参考样本、正样本、负样本，所述音频样本集中的每个音频样本包括样本梅尔频谱系数、样本对象，所述根据音频样本集训练音频识别模型，包括：

分别将所述参考样本、正样本、负样本的梅尔频谱系数输入至卷积神经网络中，得到第一特征向量；

分别将所述参考样本、正样本、负样本的第一特征向量输入至循环神经网络中，得到第二特征向量；

分别将所述参考样本、正样本、负样本的第二特征向量输入至Sigmoid激活函数中，得到第三特征向量；

基于所述参考样本、正样本、负样本的第三特征向量，计算三元组损失值；

根据所述三元组损失值确定针对所述音频识别模型的训练是否结束。

可选地，所述基于所述参考样本、正样本、负样本的第三特征向量，计算三元组损失值的步骤，包括：

计算所述参考样本的第三特征向量与正样本的第三特征向量之间的距离，得到第一距离；

计算所述参考样本的第三特征向量与负样本的第三特征向量之间的距离，得到第二距离；

计算所述第一距离与第二距离的差值；

根据所述差值和预设最小距离常量确定三元损失值。

可选地，所述根据所述三元组损失值确定针对所述音频识别模型的训练是否结束，包括：

在所述三元组损失值大于或等于预设损失值阈值的情况下，修改所述卷积神经网络和所述循环神经网络的参数，以继续训练；

在所述三元组损失值小于预设损失值阈值的情况下，结束针对所述音频识别模型的训练，得到音频识别模型。

可选地，所述根据所述目标音频向量从候选对象列表中获取目标对象，包括：

采用局部敏感哈希算法对所述候选对象列表进行分桶，得到至少一个候选对象分桶；

从所述候选对象分桶中获取目标分桶；

根据所述目标音频向量从所述目标分桶中获取目标对象。

可选地，所述根据所述目标音频向量从所述目标分桶中获取目标对象，包括：

从所述目标分桶中获取一个候选对象，以及所述候选对象对应的候选音频向量；

将所述目标音频向量与所述候选音频向量进行匹配，得到匹配度；

在所述匹配度大于或等于预设匹配度阈值的情况下，确定所述候选对象为目标对象。

可选地，所述候选音频向量为二值化向量，在所述根据所述目标音频向量从候选对象列表中获取目标对象之前，还包括：

针对所述目标音频向量中的每个元素，在所述元素的取值大于或等于预设二值化阈值的情况下，将所述元素的取值修改为预设最大值；

在所述元素的取值小于预设二值化阈值的情况下，将所述元素的取值修改为预设最小值。

第二个方面，本发明提供了一种基于音频的个性化推荐装置，包括：

音频识别模型训练模块，用于根据音频样本集训练音频识别模型，所述音频识别模型由卷积神经网络、循环神经网络级联得到；

目标音频特征获取模块，用于获取目标用户的目标音频特征；

目标音频向量预测模块，用于将所述目标音频特征输入至所述音频识别模型中，得到目标音频向量；

目标对象获取模块，用于根据所述目标音频向量从候选对象列表中获取目标对象；

目标对象推荐模块，用于将所述目标对象推荐给所述目标用户。

可选地，所述目标音频特征为梅尔频率倒谱系数，所述目标音频特征获取模块，包括：

目标音频获取子模块，用于从历史收听记录中获取目标用户的目标音频，所述目标用户对所述目标音频的收听频率大于预设收听频率阈值；

梅尔频率倒谱系数提取子模块，用于从所述目标音频中提取梅尔频率倒谱系数。

可选地，所述音频样本集包括参考样本、正样本、负样本，所述音频样本集中的每个音频样本包括样本梅尔频谱系数、样本对象，所述音频识别模型训练模块，包括：

第一特征向量预测子模块，用于分别将所述参考样本、正样本、负样本的梅尔频谱系数输入至卷积神经网络中，得到第一特征向量；

第二特征向量预测子模块，用于分别将所述参考样本、正样本、负样本的第一特征向量输入至循环神经网络中，得到第二特征向量；

第三特征向量预测子模块，用于分别将所述参考样本、正样本、负样本的第二特征向量输入至Sigmoid激活函数中，得到第三特征向量；

三元组损失值计算子模块，用于基于所述参考样本、正样本、负样本的第三特征向量，计算三元组损失值；

训练结束判断子模块，用于根据所述三元组损失值确定针对所述音频识别模型的训练是否结束。

可选地，所述三元组损失值计算子模块，包括：

第一距离计算单元，用于计算所述参考样本的第三特征向量与正样本的第三特征向量之间的距离，得到第一距离；

第二距离计算单元，用于计算所述参考样本的第三特征向量与负样本的第三特征向量之间的距离，得到第二距离；

距离差值计算单元，用于计算所述第一距离与第二距离的差值；

三元损失值计算单元，用于根据所述差值和预设最小距离常量确定三元损失值。

可选地，所述训练结束判断子模块，包括：

继续训练单元，用于在所述三元组损失值大于或等于预设损失值阈值的情况下，修改所述卷积神经网络和所述循环神经网络的参数，以继续训练；

结束训练单元，用于在所述三元组损失值小于预设损失值阈值的情况下，结束针对所述音频识别模型的训练，得到音频识别模型。

可选地，所述目标对象获取模块，包括：

分桶子模块，用于采用局部敏感哈希算法对所述候选对象列表进行分桶，得到至少一个候选对象分桶；

目标分桶获取子模块，用于从所述候选对象分桶中获取目标分桶；

目标对象获取子模块，用于根据所述目标音频向量从所述目标分桶中获取目标对象。

可选地，所述目标对象获取子模块，包括：

候选信息获取单元，用于从所述目标分桶中获取一个候选对象，以及所述候选对象对应的候选音频向量；

匹配度计算单元，用于将所述目标音频向量与所述候选音频向量进行匹配，得到匹配度；

目标对象确定单元，用于在所述匹配度大于或等于预设匹配度阈值的情况下，确定所述候选对象为目标对象。

可选地，所述候选音频向量为二值化向量，所述装置还包括：

第一二值化模块，用于针对所述目标音频向量中的每个元素，在所述元素的取值大于或等于预设二值化阈值的情况下，将所述元素的取值修改为预设最大值；

第二二值化模块，用于在所述元素的取值小于预设二值化阈值的情况下，将所述元素的取值修改为预设最小值。

第三方面，本发明提供了一种移动终端，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现所述的基于音频的个性化推荐方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现所述的基于音频的个性化推荐方法的步骤。

相对于现有技术，本发明实施例包括以下优点：

在本发明实施例中，根据音频样本集训练音频识别模型，所述音频识别模型由卷积神经网络、循环神经网络级联得到；获取目标用户的目标音频特征；将所述目标音频特征输入至所述音频识别模型中，得到目标音频向量；根据所述目标音频向量从候选对象列表中获取目标对象；将所述目标对象推荐给所述目标用户。可以通过音频识别模型获取到目标音频向量(声音特征)，以将用户喜欢的声音输入推荐给用户，有助于提高推荐成功率。

附图说明

图1是本发明的一种基于音频的个性化推荐方法的步骤流程图；

图2是本发明的另一种基于音频的个性化推荐方法的步骤流程图；

图3是本发明的一种基于音频的个性化推荐装置的结构框图；

图4是本发明的另一种基于音频的个性化推荐装置的结构框图；

图5为实现本发明各个实施例的一种移动终端的硬件结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

参照图1，示出了本发明的一种基于音频的个性化推荐方法的步骤流程图，具体可以包括如下步骤：

步骤101，根据音频样本集训练音频识别模型，所述音频识别模型由卷积神经网络、循环神经网络级联得到。

其中，音频样本集为预先标注的若干音频样本，每个音频样本被标注为正样本或负样本或参考样本，正样本与参考样本具有相同的特征，负样本与参考样本具有不同的特征。

本发明实施例对音频识别模型的训练即为对卷积神经网络和循环神经网络的训练，通过不断调整卷积神经网络和循环神经网络的参数使得模型的预测结果最接近标定信息。

可以理解，卷积神经网络(CNN，Convolutional Neural Network)可以包括多个CNN单元，循环神经网络(RNN，Recurrent Neural Network)可以包括多个RNN单元。从而第一个CNN单元的输入为音频识别模型的输入，其他CNN单元的输入为上一级CNN单元的输出，第一个RNN的输入为最后一个CNN单元的输出，其他RNN的输出为上一级RNN的输出，最后一个RNN的输出通过激活函数之后得到音频识别模型的输出。

步骤102，获取目标用户的目标音频特征。

其中，目标用户为个性化推荐的对象，例如，当一个用户A在搜索音频信息时，该用户A为目标用户。

目标音频特征可以为目标用户比较喜欢或倾向的音频特征，音频特征由声音特征决定，即不同人的声音特征对应不同的音频特征。

在本发明实施例中，目标音频特征可以为梅尔频率倒谱系数。梅尔频率倒谱是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换，梅尔频率倒谱系数就是组成梅尔频率倒谱的系数，被广泛应用于语音识别。具体地，梅尔频率倒谱系数可以通过如下步骤得到：A1，将一段语音信号分解为多个语音片段；A2，对语音信号进行预处理之后进行高通滤波；A3，进行傅立叶变换，将信号变换至频域；A4，将每个语音片段获得的频谱通过梅尔滤波器(三角重叠窗口)，得到梅尔刻度；A5,在每个梅尔刻度上提取对数能量；A6,对上面获得的结果进行离散傅里叶反变换，变换到倒频谱，梅尔频率倒谱系数就是倒频谱的幅度，一般使用12个系数，与语音片段能量叠加得到13维的系数。

步骤103，将所述目标音频特征输入至所述音频识别模型中，得到目标音频向量。

其中，目标音频向量的大小在音频识别模型训练之后确定，并保持不变。

具体地，由于音频识别模型由卷积神经网络、循环神经网络级级联之后连接激活函数，从而将目标音频特征输入至卷积神经网络的第一个单元，激活函数的输出向量为目标音频向量。

步骤104，根据所述目标音频向量从候选对象列表中获取目标对象。

可以理解，目标对象的音频向量与目标音频向量接近，对于向量而言，可以通过向量间的距离确定向量的接近程度，距离越小，代表两个向量越接近；距离越大，代表两个向量越不接近。

在本发明实施例中，可以将距离与一个预设的距离阈值进行对比，若距离小于该距离阈值，则确定计算该距离所使用的音频向量所对应的候选对象为目标对象；若距离大于或等于该距离阈值，则确定计算该距离所使用的音频向量所对应的候选对象不为目标对象。另外，还可以将各候选对象的音频向量与目标音频向量的距离按照升序排列，并取排序靠前的一个或若干距离对应的候选对象作为目标对象。

步骤105，将所述目标对象推荐给所述目标用户。

具体地，可以将目标对象按照顺序在屏幕上展示，从而用户可以点击或进入详情界面进一步查看。

实施例二

参照图2，示出了本发明的另一种基于音频的个性化推荐方法的步骤流程图，具体可以包括如下步骤：

步骤201，分别将所述参考样本、正样本、负样本的梅尔频谱系数输入至卷积神经网络中，得到第一特征向量。

在本发明实施例中，音频样本集包括:参考样本、正样本、负样本，其中，参考样本为标准样本，正样本与参考样本的音频特征相似，负样本与参考样本的音频特征不相似。

其中，卷积神经网络可以包括一个或多个卷积单元，从而将样本输入至第一个卷积单元，第一个卷积单元的输出为第二个卷积单元的输入，从而最后一个卷积单元的输出为第一特征向量。

可以理解，第一特征向量的大小由卷积单元的数目决定。

步骤202，分别将所述参考样本、正样本、负样本的第一特征向量输入至循环神经网络中，得到第二特征向量。

其中，循环神经网络可以包括一个或多个循环单元，从而将第一特征向量输入至第一个循环单元，第一个循环单元的输出为第二个循环单元的输入，从而最后一个循环单元的输出为第二特征向量。

可以理解，第二特征向量的大小由循环单元的数目决定。

步骤203，分别将所述参考样本、正样本、负样本的第二特征向量输入至Sigmoid激活函数中，得到第三特征向量。

在实际应用中，本发明实施例还可以使用其他类型的激活函数，例如，tanh激活函数、ReLU激活函数、ELU激活函数、PreLU激活函数等。本发明实施例对采用的激活函数不加以限制，但应用结果表明，Sigmoid激活函数的效果最好，从而本发明实施例优选Sigmoid激活函数。

步骤204，基于所述参考样本、正样本、负样本的第三特征向量，计算三元组损失值。

根据实际应用的结果，三元组损失值的效果最好，从而本发明实施例采用三元组损失值训练。其中，三元组损失值根据三种样本计算得到。

可选地，在本发明的另一种实施例中，上述步骤204包括子步骤2041至2044：

子步骤2041，计算所述参考样本的第三特征向量与正样本的第三特征向量之间的距离，得到第一距离。

具体地，第一距离D1_m的计算公式可以为如下的欧式距离：

其中，I为第三特征向量的长度，VB3_m,i为第m个参考样本的第三特征向量的第i项，VP3_m,i为第m个正样本的第三特征向量的第i项。

子步骤2042，计算所述参考样本的第三特征向量与负样本的第三特征向量之间的距离，得到第二距离。

具体地，第二距离D2_m的计算公式可以为如下的欧式距离：

其中，VN3_m,i为第m个负样本的第三特征向量的第i项。

子步骤2043，计算所述第一距离与第二距离的差值。

可以理解，差值的计算公式可以为第一距离减去第二距离，也可以为第二距离减去第一距离。

子步骤2044，根据所述差值和预设最小距离常量确定三元损失值。

具体地，三元损失值LOSS可以根据如下公式计算得到：

其中，M为样本数目，D1_m为第m个参考样本、正样本、负样本计算得到的第一距离，D2_m为第m个参考样本、正样本、负样本计算得到的第二距离。

α为预设距离常量，可以保证损失值最小为α，取值为正数。

步骤205，根据所述三元组损失值确定针对所述音频识别模型的训练是否结束。

可以理解，三元组损失值越小，越接近训练结束状态；三元组损失值越大，越偏离训练结束状态。当三元组损失值小至一定阈值，则训练结束。

本发明实施例通过三元组损失值指导训练，经过实际测试，三元组损失值的效果最好，有助于提高音频识别模型的准确度。

可选地，在本发明的另一种实施例中，所述步骤205包括子步骤2051至2052：

子步骤2051，在所述三元组损失值大于或等于预设损失值阈值的情况下，修改所述卷积神经网络和所述循环神经网络的参数，以继续训练。

其中，损失值阈值用于判断训练是否结束，具体取值可以根据实际应用场景设定。可以理解，损失值阈值越大，模型越不准确，训练时间越短；损失值阈值越小，模型越准确，训练时间越长。

具体地，可以根据损失值的梯度值调整参数，使得损失值更小。

子步骤2052，在所述三元组损失值小于预设损失值阈值的情况下，结束针对所述音频识别模型的训练，得到音频识别模型。

可以理解，训练结束时音频识别模型所使用的参数为最优参数，此时的模型预测结果最准确。

本发明实施例通过三元组损失值和损失值阈值指导训练，有助于提高音频识别模型的准确度。

步骤206，从历史收听记录中获取目标用户的目标音频，所述目标用户对所述目标音频的收听频率大于预设收听频率阈值。

其中，历史收听记录用于记录各种用户对音频信息的收听，从而可以从其中获取目标用户经常收听的音频信息，作为用户喜欢收听的音频信息，得到目标音频。

收听频率为用户在单位时间内收听音频的次数，例如，一天或一周或一月内收听音频的次数。

收听频率阈值可以根据实际应用场景设定，本发明实施例对其不加以限制。可以理解，收听频率阈值越大，目标音频越少；收听频率阈值越小，目标音频越多。

具体地，历史收听记录通过用户标识记录用户收听的音频，从而可以根据目标用户的标识从中获取目标音频。

步骤207，从所述目标音频中提取梅尔频率倒谱系数。

梅尔频率倒谱系数的提取即为对目标音频进行频谱变换的过程，具体步骤可以参照步骤102的详细说明，在此不再赘述。

步骤208，将所述目标音频特征输入至所述音频识别模型中，得到目标音频向量。

该步骤可以参照步骤103的详细说明，在此不再赘述。

步骤209，针对所述目标音频向量中的每个元素，在所述元素的取值大于或等于预设二值化阈值的情况下，将所述元素的取值修改为预设最大值。

其中，二值化阈值可以根据元素的取值范围和实际应用场景确定。例如，当元素的取值范围为0(最小值)至1(最大值)时，二值化阈值可以为0.5，从而可以将大于或等于0.5的元素修改为1，将小于0.5的元素修改为0。

步骤210，在所述元素的取值小于预设二值化阈值的情况下，将所述元素的取值修改为预设最小值。

可以理解，目标音频向量中元素的取值可能接近于最大值，也可能接近于最小值，或可能接近二值化阈值，本发明实施例可以将其进行二值化，使得取值为最大值或最小值，提高数据的统一性。

步骤211，采用局部敏感哈希算法对所述候选对象列表进行分桶，得到至少一个候选对象分桶。

其中，局部敏感哈希算法用于确定相似度，从而可以将相似的候选对象划分至同一个分桶中。局部敏感哈希算法基于一个假设，如果两个候选对象在原有的数据空间是相似的，那么分别经过哈希函数转换之后，同样也具有很高的相似度；相反，如果它们本身是不相似的，那么经过哈希函数转换之后它们仍不具有相似性。

候选对象列表中包含候选音频向量，本发明实施例可以进行基于候选音频向量的哈希函数的转换。

步骤212，从所述候选对象分桶中获取目标分桶。

具体地，可以将目标音频向量进行哈希函数的转换，从而根据转换之后的数值以及每个候选对象分桶的取值范围，从候选对象分桶中获取目标分桶，即当转换之后的数值在候选对象分桶的取值范围内时，该候选对象分桶为目标分桶。

步骤213，根据所述目标音频向量从所述目标分桶中获取目标对象。

具体地，从目标分桶中选取与目标音频向量接近的候选音频向量，从而该候选音频向量对应的候选对象即为目标对象。

本发明实施例可以采用局部敏感哈希算法进行分桶，从而可以在一个分桶中获取目标对象，有助于提高检索速度。

可选地，在本发明的另一种实施例中，所述步骤213包括子步骤2131至2133：

子步骤2131，从所述目标分桶中获取一个候选对象，以及所述候选对象对应的候选音频向量。

其中，候选对象和对应的候选音频向量按照对应关系存储，例如，作为一条记录存储，候选对象和候选音频向量为两个不同的字段。

子步骤2132，将所述目标音频向量与所述候选音频向量进行匹配，得到匹配度。

具体地，匹配度可以为目标音频向量与候选音频向量之间的欧式距离。

子步骤2133，在所述匹配度大于或等于预设匹配度阈值的情况下，确定所述候选对象为目标对象。

其中，匹配度阈值可以根据实际应用场景设定，本发明实施例对其不加以限制。可以理解，匹配度阈值越小，得到的目标对象越多，但存在部分或全部对象推荐失败的风险；匹配度阈值越大，得到的目标对象越少，但得到的目标对象准确度较高，有助于提高推荐成功率。

本发明实施例可以根据向量的匹配度准确确定目标对象，有助于提高推荐成功率。

步骤214，将所述目标对象推荐给所述目标用户。

该步骤可以参照步骤105的详细说明，在此不再赘述。

实施例三

参照图3，示出了本发明的一种基于音频的个性化推荐装置的结构框图，具体可以包括如下模块：

音频识别模型训练模块301，用于根据音频样本集训练音频识别模型，所述音频识别模型由卷积神经网络、循环神经网络级联得到。

目标音频特征获取模块302，用于获取目标用户的目标音频特征。

目标音频向量预测模块303，用于将所述目标音频特征输入至所述音频识别模型中，得到目标音频向量。

目标对象获取模块304，用于根据所述目标音频向量从候选对象列表中获取目标对象。

目标对象推荐模块305，用于将所述目标对象推荐给所述目标用户。

实施例四

参照图4，示出了本发明的另一种基于音频的个性化推荐装置的结构框图，具体可以包括如下模块：

音频识别模型训练模块401，用于根据音频样本集训练音频识别模型，所述音频识别模型由卷积神经网络、循环神经网络级联得到；可选地，在本发明实施例中，所述音频样本集包括参考样本、正样本、负样本，所述音频样本集中的每个音频样本包括样本梅尔频谱系数、样本对象，所述音频识别模型训练模块401，包括：

第一特征向量预测子模块4011，用于分别将所述参考样本、正样本、负样本的梅尔频谱系数输入至卷积神经网络中，得到第一特征向量。

第二特征向量预测子模块4012，用于分别将所述参考样本、正样本、负样本的第一特征向量输入至循环神经网络中，得到第二特征向量。

第三特征向量预测子模块4013，用于分别将所述参考样本、正样本、负样本的第二特征向量输入至Sigmoid激活函数中，得到第三特征向量。

三元组损失值计算子模块4014，用于基于所述参考样本、正样本、负样本的第三特征向量，计算三元组损失值。

训练结束判断子模块4015，用于根据所述三元组损失值确定针对所述音频识别模型的训练是否结束。

目标音频特征获取模块402，用于获取目标用户的目标音频特征；可选地，在本发明实施例中，所述所述目标音频特征为梅尔频率倒谱系数，所述目标音频特征获取模块402，包括：

目标音频获取子模块4021，用于从历史收听记录中获取目标用户的目标音频，所述目标用户对所述目标音频的收听频率大于预设收听频率阈值。

梅尔频率倒谱系数提取子模块4022，用于从所述目标音频中提取梅尔频率倒谱系数。

目标音频向量预测模块403，用于将所述目标音频特征输入至所述音频识别模型中，得到目标音频向量。

第一二值化模块404，用于针对所述目标音频向量中的每个元素，在所述元素的取值大于或等于预设二值化阈值的情况下，将所述元素的取值修改为预设最大值。

第二二值化模块405，用于在所述元素的取值小于预设二值化阈值的情况下，将所述元素的取值修改为预设最小值。

目标对象获取模块406，用于根据所述目标音频向量从候选对象列表中获取目标对象；可选地，在本发明实施例中，所述目标对象获取模块406，包括：

分桶子模块4061，用于采用局部敏感哈希算法对所述候选对象列表进行分桶，得到至少一个候选对象分桶。

目标分桶获取子模块4062，用于从所述候选对象分桶中获取目标分桶。

目标对象获取子模块4063，用于根据所述目标音频向量从所述目标分桶中获取目标对象。

目标对象推荐模块407，用于将所述目标对象推荐给所述目标用户。

可选地，在本发明的另一种实施例中，所述三元组损失值计算子模块4014，包括：

第一距离计算单元，用于计算所述参考样本的第三特征向量与正样本的第三特征向量之间的距离，得到第一距离。

第二距离计算单元，用于计算所述参考样本的第三特征向量与负样本的第三特征向量之间的距离，得到第二距离。

距离差值计算单元，用于计算所述第一距离与第二距离的差值。

可选地，在本发明的另一种实施例中，所述训练结束判断子模块4015，包括：

继续训练单元，用于在所述三元组损失值大于或等于预设损失值阈值的情况下，修改所述卷积神经网络和所述循环神经网络的参数，以继续训练。

可选地，在本发明的另一种实施例中，所述目标对象获取子模块4063，包括：

候选信息获取单元，用于从所述目标分桶中获取一个候选对象，以及所述候选对象对应的候选音频向量。

匹配度计算单元，用于将所述目标音频向量与所述候选音频向量进行匹配，得到匹配度。

该移动终端500包括但不限于：射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、处理器510、以及电源511等部件。本领域技术人员可以理解，图5中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，移动终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器510，用于根据音频样本集训练音频识别模型，所述音频识别模型由卷积神经网络、循环神经网络级联得到；获取目标用户的目标音频特征；将所述目标音频特征输入至所述音频识别模型中，得到目标音频向量；根据所述目标音频向量从候选对象列表中获取目标对象；将所述目标对象推荐给所述目标用户。

应理解的是，本发明实施例中，射频单元501可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器510处理；另外，将上行的数据发送给基站。通常，射频单元501包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元501还可以通过无线通信系统与网络和其他设备通信。

移动终端通过网络模块502为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元503可以将射频单元501或网络模块502接收的或者在存储器509中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元503还可以提供与移动终端500执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元503包括扬声器、蜂鸣器以及受话器等。

输入单元504用于接收音频或视频信号。输入单元504可以包括图形处理器(Graphics Processing Unit，GPU)5041和麦克风5042，图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元506上。经图形处理器5041处理后的图像帧可以存储在存储器509(或其它存储介质)中或者经由射频单元501或网络模块502进行发送。麦克风5042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元501发送到移动通信基站的格式输出。

移动终端500还包括至少一种传感器505，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板5061的亮度，接近传感器可在移动终端500移动到耳边时，关闭显示面板5061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器505还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元506用于显示由用户输入的信息或提供给用户的信息。显示单元506可包括显示面板5061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板5061。

用户输入单元507可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板5071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板5071上或在触控面板5071附近的操作)。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器510，接收处理器510发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5071。除了触控面板5071，用户输入单元507还可以包括其他输入设备5072。具体地，其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板5071可覆盖在显示面板5061上，当触控面板5071检测到在其上或附近的触摸操作后，传送给处理器510以确定触摸事件的类型，随后处理器510根据触摸事件的类型在显示面板5061上提供相应的视觉输出。虽然在图5中，触控面板5071与显示面板5061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板5071与显示面板5061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元508为外部装置与移动终端500连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元508可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端500内的一个或多个元件或者可以用于在移动终端500和外部装置之间传输数据。

存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器510是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器510可包括一个或多个处理单元；优选的，处理器510可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器510中。

移动终端500还可以包括给各个部件供电的电源511(比如电池)，优选的，电源511可以通过电源管理系统与处理器510逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，移动终端500包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种移动终端，包括处理器510，存储器509，存储在存储器509上并可在所述处理器510上运行的计算机程序，该计算机程序被处理器510执行时实现上述基于音频的个性化推荐方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述基于音频的个性化推荐方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种基于音频的个性化推荐方法，其特征在于，包括：

获取目标用户的目标音频特征；

根据所述目标音频向量从候选对象列表中获取目标对象；

将所述目标对象推荐给所述目标用户。

2.根据权利要求1所述的方法，其特征在于，所述目标音频特征为梅尔频率倒谱系数，所述获取目标用户的目标音频特征，包括：

从所述目标音频中提取梅尔频率倒谱系数。

3.根据权利要求1所述的方法，其特征在于，所述音频样本集包括参考样本、正样本、负样本，所述音频样本集中的每个音频样本包括样本梅尔频谱系数、样本对象，所述根据音频样本集训练音频识别模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述参考样本、正样本、负样本的第三特征向量，计算三元组损失值的步骤，包括：

计算所述第一距离与第二距离的差值；

根据所述差值和预设最小距离常量确定三元损失值。

5.根据权利要求3所述的方法，其特征在于，所述根据所述三元组损失值确定针对所述音频识别模型的训练是否结束，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标音频向量从候选对象列表中获取目标对象，包括：

从所述候选对象分桶中获取目标分桶；

根据所述目标音频向量从所述目标分桶中获取目标对象。

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标音频向量从所述目标分桶中获取目标对象，包括：

8.一种基于音频的个性化推荐装置，其特征在于，包括：

9.一种移动终端，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于音频的个性化推荐方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于音频的个性化推荐方法的步骤。