CN113421574A

CN113421574A - 音频特征提取模型的训练方法、音频识别方法及相关设备

Info

Publication number: CN113421574A
Application number: CN202110682612.3A
Authority: CN
Inventors: 胡诗超
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-09-21
Anticipated expiration: 2041-06-18

Abstract

本申请实施例提供了一种音频特征提取模型的训练方法、音频识别方法及相关设备，该训练方法包括：获取训练数据集，该训练数据集包括多个参考用户的音频数据，对该多个参考用户的音频数据进行预处理，得到该多个参考用户的音频频谱图，根据该多个参考用户的音频频谱图生成多个批处理数据，每个该批处理数据包括由N个参考用户中每个参考用户的M个单位频谱数据组成的频谱特征矩阵，利用批处理数据对神经网络进行训练，得到N个参考用户的特征向量，直到根据该N个参考用户的特征向量确定神经网络的损失函数收敛时，得到音频特征提取模型，可以高效地训练得到音频特征提取模型，以提高提取用户声音特征时的准确度。

Description

音频特征提取模型的训练方法、音频识别方法及相关设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频特征提取模型的训练方法、音频识别方法及相关设备。

背景技术

目前，对说话人识别或者对歌声识别通常使用的是传统声纹提取技术，主要依靠使用传统的机器学习算法(例如高斯混合模型(Gaussian Mixture Model，GMM)、因子分析(Joint Factor Analysis，JFA)、i-vector等)对声音信号进行建模，继而提取与说话人或者唱歌人身份相关的信息再进行匹配。然而，使用以上传统建模的方法难以很好地对音频特征特别是说话人相关的特征做模型训练，从而难以准确提取与说话人相关的特征。

发明内容

本申请实施例提供一种音频特征提取模型的训练方法、音频识别方法及相关设备，可以高效地训练得到音频特征提取模型，以提高提取用户声音特征时的准确度。

一方面，本申请实施例提供了一种音频特征提取模型的训练方法，所述方法包括：

获取训练数据集，所述训练数据集包括多个参考用户的音频数据。

对所述多个参考用户的音频数据进行预处理，得到所述多个参考用户的音频频谱图。

根据所述多个参考用户的音频频谱图生成多个批处理数据，每个所述批处理数据包括由N个参考用户中每个参考用户的M个单位频谱数据组成的频谱特征矩阵，所述N和所述M均为大于0的整数。

利用所述批处理数据对神经网络进行训练，得到所述N个参考用户的特征向量，直到根据所述N个参考用户的特征向量确定所述神经网络的损失函数收敛时，得到音频特征提取模型。

另一方面，本申请实施例提供了一种音频识别方法，所述方法包括：

获取待识别用户的音频数据。

将所述音频数据输入上述的音频特征提取模型，得到所述待识别用户的第一特征向量。

从用户特征库中确定与所述第一特征向量匹配的第二特征向量，所述用户特征库包括至少一个参考用户的特征向量。

根据所述第二特征向量对应的参考用户确定所述待识别用户的音频特征信息。

又一方面，本申请实施例提供了一种音频特征提取模型的训练装置，所述装置包括：

获取模块，用于获取训练数据集，所述训练数据集包括多个参考用户的音频数据。

处理模块，用于对所述多个参考用户的音频数据进行预处理，得到所述多个参考用户的音频频谱图。

所述处理模块，还用于根据所述多个参考用户的音频频谱图生成多个批处理数据，每个所述批处理数据包括由N个参考用户中每个参考用户的M个单位频谱数据组成的频谱特征矩阵，所述N和所述M均为大于0的整数。

训练模块，用于利用所述批处理数据对神经网络进行训练，得到所述N个参考用户的特征向量，直到根据所述N个参考用户的特征向量确定所述神经网络的损失函数收敛时，得到音频特征提取模型。

又一方面，本申请实施例提供了一种音频识别装置，所述装置包括：

获取模块，用于获取待识别用户的音频数据。

处理模块，用于将所述音频数据输入上述的音频特征提取模型，得到所述待识别用户的第一特征向量。

确定模块，用于从用户特征库中确定与所述第一特征向量匹配的第二特征向量，所述用户特征库包括至少一个参考用户的特征向量。

所述确定模块，还用于根据所述第二特征向量对应的参考用户确定所述待识别用户的音频特征信息。

又一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器、网络接口和存储装置，所述处理器、所述网络接口和所述存储装置相互连接，其中，所述网络接口受所述处理器的控制用于收发数据，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用于执行上述的音频特征提取模型的训练方法或者音频识别方法。

又一方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令用于执行上述的音频特征提取模型的训练方法或者音频识别方法。

又一方面，本申请实施公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机存储介质中。计算机设备的处理器从计算机存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的音频特征提取模型的训练方法或者音频识别方法。

本申请实施例可以获取训练数据集，该训练数据集包括多个参考用户的音频数据，对该多个参考用户的音频数据进行预处理，得到该多个参考用户的音频频谱图，根据该多个参考用户的音频频谱图生成多个批处理数据，每个批处理数据包括由N个参考用户中每个参考用户的M个单位频谱数据组成的频谱特征矩阵，利用批处理数据对神经网络进行训练，得到N个参考用户的特征向量，直到根据该N个参考用户的特征向量确定神经网络的损失函数收敛时，得到音频特征提取模型，可以高效地训练得到音频特征提取模型，以提高提取用户声音特征时的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理系统的架构示意图；

图2是本申请实施例提供的一种音频特征提取模型的训练方法的流程示意图；

图3是本申请实施例提供的另一种音频特征提取模型的训练方法的流程示意图；

图4是本申请实施例提供的一种模型训练流程的示意图；

图5是本申请实施例提供的一种音频识别方法的流程示意图；

图6是本申请实施例提供的一种音频特征识别流程的示意图；

图7是本申请实施例提供的一种音频特征提取模型的训练装置的结构示意图；

图8是本申请实施例提供的一种音频识别装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对传统的机器学习算法对声音信号进行建模时难以准确提取与说话人相关的特征的问题，本申请实施例提供了一种音频特征提取模型的训练方法，可以利用深度神经网络强大的模型学习能力，配合大量的训练数据可以高效地训练得到音频特征提取模型，用于提高提取用户声音特征时的准确度，还可以将提取的声音特征用于声音识别，以提升声音特征识别的准确度。

请参见图1，是本申请实施例提供的一种数据处理系统的架构示意图，本申请实施例的数据处理系统包括：计算机设备101和终端设备102，其中：

计算机设备101，具体可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

具体的，计算机设备101可以获取包括多个参考用户的音频数据的训练数据集，对该多个参考用户的音频数据进行预处理，得到该多个参考用户的音频频谱图，根据该多个参考用户的音频频谱图生成多个批处理数据，利用该多个批处理数据对神经网络进行训练，得到N个参考用户的特征向量，直到根据该N个参考用户的特征向量确定神经网络的损失函数收敛时，得到音频特征提取模型，可以高效地训练得到音频特征提取模型，以提高提取用户声音特征时的准确度。

其中，神经网络具体可以是卷积神经网络(Convolutional Neural Networks，CNN)，循环神经网络(Rerrent Neural Network，RNN)，卷积递归神经网络(ConvolutionalRecurrent Neural Network，CRNN)等，本申请实施例不做限定。

终端设备102，具体可以是智能手机、平板电脑、智能手表等电子手表，可以安装有唱歌类应用，可以向用户提供K歌环境，以获取用户输入的音频数据(例如歌唱数据)，并可以向计算机设备101提交用户输入的音频数据。

在一些可行的实施方式中，计算机设备101可以利用训练得到的音频特征提取模型对终端设备102提交的音频数据进行处理，以提取用户的特征向量，将用户的特征向量与用户特征库中各个参考用户的特征向量进行匹配，根据匹配到的参考用户确定该用户的音频特征信息，例如可以认为该用户与匹配到的参考用户在音色方面较为相似，可以提升声音特征识别的准确度。

请参见图2，是本申请实施例基于图1所示的数据处理系统提供的一种音频特征提取模型的训练方法的流程示意图，本申请实施例的音频特征提取模型的训练方法包括如下步骤：

201、获取训练数据集，所述训练数据集包括多个参考用户的音频数据。

其中，参考用户是指歌唱质量较高的用户，例如歌手等，计算机设备可以从曲库中获取多个歌手的歌曲作为训练数据集。

202、对所述多个参考用户的音频数据进行预处理，得到所述多个参考用户的音频频谱图。

具体的，预处理是指计算机设备对每个参考用户的音频数据对应的声音波形进行变换处理，例如可以是傅里叶变换，变换处理后得到每个参考用户的音频频谱图。其中，该音频频谱图可以为log-mel频谱或MFCC频谱。

203、根据所述多个参考用户的音频频谱图生成多个批处理数据，每个所述批处理数据包括由N个参考用户中每个参考用户的M个单位频谱数据组成的频谱特征矩阵，所述N和所述M均为大于0的整数。

其中，批处理数据(可称为batch)是指在训练神经网络时，每次输入神经网络的数据集合。

具体的，计算机设备在每次生成批处理数据时，可以从该多个参考用户中选择部分参考用户，利用该部分参考用户的音频频谱图生成批处理数据batch。例如，计算机设备可以从该多个参考用户中确定第一用户集合，第一用户集合包括N个参考用户，针对第一用户集合中的每个参考用户，从每个参考用户的音频频谱图中截取M个单位频谱数据，将该N个参考用户中每个参考用户的M个单位频谱数据组合在一起，可以生成N行M列的频谱特征矩阵，频谱特征矩阵的每一行包括一个参考用户的M个单位频谱数据，即可将该频谱特征矩阵作为第一用户集合对应的批处理数据。例如，该多个参考用户具体为1000个参考用户，N＝10，则计算机设备可以每次选取10个参考用户对应生成一个批处理数据，最终可以生成100个批处理数据，并作为神经网络的训练样本。当然，计算机设备也可以选择在神经网络训练过程中，每进行一次训练之前，选取10个参考用户生成本次训练所需的批处理数据，而不是在训练开始之前，将全部的参考用户的单位频谱数据都对应生成批处理数据。

在一些可行的实施方式中，单位频谱数据具体可以是一个T*F(即T行F列)的矩阵，F是指音频频谱图的频谱特征维度，可以从参考用户的音频频谱图中截取T帧的频谱数据，例如可以每隔300毫秒截取一帧频谱数据，每帧频谱数据对应一个F维的频谱特征向量，包含该帧频谱数据的音频特征。

例如，N＝5，M＝3，则计算机设备每次从该多个参考用户中选取5个参考用户(记为a、b、c、d、e)，并且从每个参考用户的音频频谱图中截取3个单位频谱数据，生成5行3列的频谱特征矩阵，具体表示如下：

其中，每一行包括的是一个参考用户的3个单位频谱数据，例如第一行的3个单位频谱数据a1 a2 a3对应表示用户a的3个单位频谱数据。

204、利用所述批处理数据对神经网络进行训练，得到所述N个参考用户的特征向量，直到根据所述N个参考用户的特征向量确定所述神经网络的损失函数收敛时，得到音频特征提取模型。

具体的，计算机设备可以每次利用一个批处理数据对神经网络进行一次训练，预测得到对应的N个参考用户的特征向量，并可以根据该N个参考用户的特征向量之间的相似度计算神经网络的损失函数，直到根据对应的N个参考用户的特征向量确定神经网络的损失函数收敛时，即可将训练后的神经网络作为音频特征提取模型。

本申请实施例中，计算机设备可以获取训练数据集，该训练数据集包括多个参考用户的音频数据，对该多个参考用户的音频数据进行预处理，得到该多个参考用户的音频频谱图，根据该多个参考用户的音频频谱图生成多个批处理数据，每个批处理数据包括由N个参考用户中每个参考用户的M个单位频谱数据组成的频谱特征矩阵，利用批处理数据对神经网络进行训练，得到N个参考用户的特征向量，直到根据该N个参考用户的特征向量确定神经网络的损失函数收敛时，得到音频特征提取模型，可以高效、准确地训练得到音频特征提取模型，以提高提取用户声音特征时的准确度。

请参见图3，是本申请实施例基于图1所示的数据处理系统提供的另一种音频特征提取模型的训练方法的流程示意图，本申请实施例的音频特征提取模型的训练方法包括如下步骤：

301、获取训练数据集，所述训练数据集包括多个参考用户的音频数据。

302、对所述多个参考用户的音频数据进行预处理，得到所述多个参考用户的音频频谱图。

303、根据所述多个参考用户的音频频谱图生成多个批处理数据，每个所述批处理数据包括由N个参考用户中每个参考用户的M个单位频谱数据组成的频谱特征矩阵，所述N和所述M均为大于0的整数。

其中，步骤301～303的具体实现可以参见前述实施例中步骤201～203的相关描述，此处不再赘述。

304、调用神经网络对所述频谱特征矩阵进行处理，得到所述N个参考用户中每个参考用户的M个特征向量。

具体的，计算机设备可以是每次将一个批处理数据输入神经网络，例如可以先从该多个批处理数据中确定第一批处理数据，第一批处理数据可以是该多个批处理数据中的任意一个，通过调用神经网络对第一批处理数据包括的频谱特征矩阵进行处理，由于输入频谱特征矩阵中包括每个参考用户的M个单位频谱数据，经过神经网络处理，可以将每个单位频谱数据转变为一个特征向量，也即是用一个特征向量表示一个单位频谱数据中所包含的用户声音特征，从而得到该第一批处理数据对应的N个参考用户中每个参考用户的M个特征向量(embedding)，M个特征向量均可以用于表示对应的参考用户的音频特征。

需要说明的是，将一个批处理数据输入神经网络进行处理后，可以输出得到一个N*M*D的特征向量集合，特征向量集合可以是一个N行M列的矩阵，N*M是指特征向量的数量，也即是N个参考用户中的每个参考用户对应得到M个特征向量，D是指特征向量的维度，例如D＝128，则每个参考用户可以对应得到M个维度为128的特征向量。

305、根据所述N个参考用户中每个参考用户的M个特征向量和所述神经网络的损失函数确定第一损失值。

具体的，考虑到同一个参考用户的M个特征向量之间应该是非常相似的，然而在神经网络训练的初期，由于神经网络的网络参数尚未完成优化，得到的同一参考用户的M个特征向量之间通常差异较大，因此可以利用该N个参考用户中每个参考用户的M个特征向量来计算神经网络的损失，例如，可以获取神经网络采用的损失函数，利用该损失函数对应的计算规则对每个参考用户的M个特征向量进行处理，包括获取同一个参考用户的M个特征向量之间的距离，以及不同参考用户的特征向量之间的距离，从而根据这些距离计算得到神经网络的损失函数的损失值。

其中，损失函数可以采用triplet loss、GE2E loss、TE2E loss、TN loss中的任意一种，本申请实施例不做限定。

在一些可行的实施方式中，计算机设备利用该N个参考用户中每个参考用户的特征向量计算神经网络损失的具体实现方式可以为：

除了考虑到同一个参考用户的M个特征向量之间应该是非常相似的，还可以考虑到不同的参考用户的特征向量之间差异应该是较大的。基于此，计算机设备可以获取该N个参考用户中同一参考用户的M个特征向量之间的距离，以及不同参考用户的M个特征向量之间的距离，将同一参考用户的M个特征向量之间的距离、不同参考用户的M个特征向量之间的距离代入神经网络的损失函数计算公式，即可得到对应的损失值(可以记为第一损失值)，训练的优化目标可以是增大不同的参考用户的特征向量之间的距离，并减小同一参考用户的特征向量之间的距离。

在一些可行的实施方式中，以损失函数采用triplet loss为例，triplet loss的计算表达式为：L＝max(d(a,p)-d(a,n)+margin,0)。

其中，triplet loss的输入是一个三元组<a,p,n>，L为神经网络的损失，d()表示计算距离；a为锚点anchor；p为positive，与a是同一类别的样本；n为negative，与a是不同类别的样本。

具体的，计算机设备在获取到N个参考用户中每个参考用户的M个特征向量之后，可以先构建三元组，假设N＝3，M＝2，3个参考用户分别为参考用户x、参考用户y和参考用户z，参考用户x的2个特征向量为X1、X2，参考用户y的2个特征向量为Y1、Y2，参考用户z的2个特征向量为Z1、Z2，具体处理时需要分别将每个特征向量作为锚点，并构建对应的三元组。这里以将参考用户x的特征向量X1作为锚点a为例，则本次构建的三元组<a,p,n>中的p可以为特征向量为X2，n可以为参考用户y和z的特征向量中的任意一个，也即是说锚点a为特征向量X1，p为特征向量为X2的情况下，可以构建4个三元组。假设n为参考用户z的特征向量Z2，则该三元组对应的triplet loss的计算可以包括：计算特征向量X1与特征向量X2之间的距离d(X1,X2)，以及特征向量X1与特征向量Z2之间的距离d(X1,Z2)，并将d(X1,X2)、d(X1,Z2)代入上式即可得到该三元组对应的triplet loss，在获取到所有三元组的tripletloss后，可以进行求和得到神经网络总的损失值。

306、根据所述第一损失值对所述神经网络的网络参数进行调整，直到所述神经网络的损失函数收敛时，得到音频特征提取模型。

具体的，计算机设备可以利用计算得到的第一损失值对神经网络的网络参数进行调整，例如可以采用梯度下降法对网络参数进行调整，直到神经网络的损失函数收敛。

在一些可行的实施方式中，计算机设备可以先判断第一损失值是否满足收敛条件，如果不满足收敛条件，则根据第一损失值对神经网络的网络参数进行调整，然后再从该多个批处理数据中确定第二批处理数据，第二批处理数据可以是该多个批处理数据中除了上述的第一批处理数据之外的任意一个，然后再将第二批处理数据包括的频谱特征矩阵输入网络参数调整后的神经网络，并得到第二批处理数据对应的N个参考用户中每个参考用户的M个特征向量，并可以采用类似的方式，利用第二批处理数据对应的N个参考用户中每个参考用户的M个特征向量计算第二损失值，如果第二损失值满足收敛条件，则将网络参数调整后的神经网络作为音频特征提取模型。

其中，收敛条件可以包括损失值小于或等于预设阈值，或者损失值趋于收敛状态。

在一些可行的实施方式中，也可以设置神经网络训练的迭代次数，当迭代次数达到预设次数阈值时，即认为神经网络的损失函数实现收敛，并将最后一次训练后的神经网络作为音频特征提取模型。

在一些可行的实施方式中，以音频数据是歌手的歌声为例，计算机设备对神经网络进行训练的主要流程可以如图4所示。具体包括：对多歌手歌声库中的歌声进行特征提取，得到多歌手歌声的低维特征(即上述的M个单位频谱数据)，对多歌手歌声的低维特征进行处理生成批处理数据batch(N*M*T*F)，每个批处理数据包括N行M列的频谱特征矩阵，也即是N个歌手的频谱特征，利用神经网络对该批处理数据进行处理，得到N个歌手的特征向量矩阵(N*M*D)，N*M*D是指N个歌手中每个歌手对应得到M个特征向量，且特征向量的维度为D，并利用损失函数和N个歌手中每个歌手的M个特征向量计算损失值，如果损失值不满足收敛条件，则利用损失函数的损失值调整神经网络的参数，以对神经网络进行训练优化，再利用训练优化后的神经网络对另外N个歌手对应的批处理数据进行处理，得到该另外N个歌手中每个歌手的M个特征向量，再根据该另外N个歌手中每个歌手的M个特征向量和损失函数重新计算损失值，如果重新计算的损失值满足收敛条件，则将训练优化后的神经网络作为前述的音频特征提取模型。

本申请实施例中，计算机设备可以获取训练数据集，该训练数据集包括多个参考用户的音频数据，对该多个参考用户的音频数据进行预处理，得到该多个参考用户的音频频谱图，根据该多个参考用户的音频频谱图生成多个批处理数据，每个批处理数据包括由N个参考用户中每个参考用户的M个单位频谱数据组成的频谱特征矩阵，并调用神经网络对频谱特征矩阵进行处理，得到该N个参考用户中每个参考用户的M个特征向量，根据每个参考用户的M个特征向量和神经网络的损失函数确定第一损失值，根据第一损失值对神经网络的网络参数进行调整，直到神经网络的损失函数收敛时，得到音频特征提取模型，可以针对每个参考用户生成多个特征向量，该多个特征向量包括的是同一参考用户的声音特征，利用同一参考用户的多个特征向量之间的差异，以及不同参考用户的特征向量之间的差异可以准确计算神经网络的损失，并基于损失调整网络参数，可以高效、准确地训练得到音频特征提取模型，以提高提取用户声音特征时的准确度。

请参见图5，是本申请实施例基于图1所示的数据处理系统提供的一种音频识别方法的流程示意图，本申请实施例的音频识别方法包括如下步骤：

501、获取待识别用户的音频数据。

具体的，终端设备可以通过安装的唱歌类应用获取待识别用户的音频数据，例如歌唱数据，计算机设备接收终端设备发送的待识别用户的音频数据。或者，终端设备也可以将待识别用户的音频数据发送到云端存储，计算机设备从云存储空间中下载待识别用户的音频数据。

502、将所述音频数据输入音频特征提取模型，得到所述待识别用户的第一特征向量。

具体的，计算机设备可以利用音频特征提取模型对待识别用户的音频数据进行处理，从而提取到待识别用户的特征向量(记为第一特征向量)，第一特征向量可以表示待识别用户的声音特征。

在一些可行的实施方式中，计算机设备可以对待识别用户的音频数据对应的声音波形进行变换处理，例如可以是傅里叶变换，变换处理后得到待识别用户的音频频谱图，从待识别用户的音频频谱图中截取多个单位频谱数据(例如M个单位频谱数据)，将该待识别用户的M个单位频谱数据组成的频谱特征矩阵输入音频特征提取模型，以对待识别用户的声音特征进行提取，对应可以得到待识别用户的M个特征向量，然后可以随机选取一个特征向量作为上述的第一特征向量，也可以对该待识别用户的M个特征向量进行融合处理，将融合处理得到的特征向量作为上述的第一特征向量。其中，融合处理可以是指对该M个特征向量取平均，以提高第一特征向量的准确度。

503、从用户特征库中确定与所述第一特征向量匹配的第二特征向量，所述用户特征库包括至少一个参考用户的特征向量。

其中，用户特征库包括至少一个参考用户的特征向量，例如用户特征库中包括多个歌手的特征向量，每个歌手的特征向量是利用音频特征提取模型对歌手的音频数据进行处理后提取得到的。

具体的，计算机设备可以将待识别用户的第一特征向量与用户特征库中各个参考用户的特征向量进行匹配，例如计算特征向量之间的距离，然后根据距离确定出匹配的特征向量(记为第二特征向量)，可以将用户特征库中与第一特征向量之间的距离最小的特征向量确定为匹配的特征向量。

在一些可行的实施方式中，计算机设备在训练得到音频特征提取模型之后，可以建立用户特征库，可以从多个参考用户中确定出至少一个参考用户，当然也可以是全部的参考用户，参考用户例如可以是曲库中的明星歌手，并根据该至少一个参考用户的音频数据创建用户特征库。具体可以包括：计算机设备对至少一个参考用户的音频数据进行预处理，得到该至少一个参考用户的音频频谱图，根据该至少一个参考用户的音频频谱图生成多个批处理数据，每个批处理数据包括由N个参考用户中每个参考用户的M个单位频谱数据组成的频谱特征矩阵，利用训练好的音频特征提取模型对每个批处理数据包括的频谱特征矩阵进行处理，得到每个批处理数据对应的N个参考用户中每个参考用户的M个特征向量，从而得到该至少一个参考用户中每个参考用户的M个特征向量，针对每个参考用户，可以从其对应的M个特征向量中随机选取一个特征向量，并将每个参考用户的标识以及对应选取的特征向量添加到用户特征库中，从而完成用户特征库的创建，如果参考用户是歌手，则参考用户的标识可以是指歌手的名称或者歌手在曲库中的索引编号，用于区分不同歌手对应的特征向量。其中，用户特征库具体可以是一个特征向量矩阵，假设选择4个参考用户创建用户特征库，则用户特征库具体可以是一个4行2列的特征向量矩阵，具体表示如下：

其中，每一行包括的是参考用户的标识以及对应的特征向量，例如第一行的m1代表一个参考用户的标识，a代表该参考用户的特征向量，具体是一个D维向量。

504、根据所述第二特征向量对应的参考用户确定所述待识别用户的音频特征信息。

具体的，计算机设备可以根据用户特征库中参考用户与特征向量之间的对应关系，确定第二特征向量对应的参考用户(记为目标参考用户)，然后将目标参考用户作为待识别用户的音频特征信息，例如目标参考用户为歌手A，则可以确定待识别用户的音频特征信息为：音色与歌手A相似。

在一些可行的实施方式中，计算机设备根据第二特征向量对应的参考用户确定待识别用户的音频特征信息之后，可以基于待识别用户的音频特征信息确定推荐内容，并向待识别用户对应的终端设备发送推荐内容。

其中，推荐内容可以包括目标参考用户的音频数据，从而可以将用户的歌声音色匹配到相似的明星音色，引导推荐用户唱相似明星音色的作品，增加点唱率。

另外，推荐内容也可以包括待推荐用户的用户标识等等，其中，待推荐用户可以是指对应的特征向量与待识别用户的第一特征向量之间的距离小于或等于预设距离阈值的用户，从而可以推荐音色相似的用户，增加用户的社交属性体验。例如，计算机设备可以将其他非参考用户(即普通用户)的声音特征与待识别用户的声音特征进行比较，具体可以是计算其他非参考用户的特征向量与待识别用户的第一特征向量之间的距离，如果对应的距离小于或等于预设距离阈值，则表明音色特征与待识别用户较为相似，从而将其作为待推荐用户。

在一些可行的实施方式中，计算机设备对音频特征识别的主要流程可以如图6所示。具体包括：一方面利用训练后的神经网络对所有目标歌手歌声进行处理，形成目标歌手特征库(即上述的用户特征库)；另一方面利用训练后的神经网络对待识别音色的歌声进行处理，得到待识别信号特征，然后将待识别信号特征与目标歌手特征库中的特征进行匹配，并得到识别结果，从而找出与待识别音色最为相似的歌手，并推荐给对应的用户。

本申请实施例中，计算机设备可以获取待识别用户的音频数据，将音频数据输入音频特征提取模型，得到待识别用户的第一特征向量，然后从用户特征库中确定与第一特征向量匹配的第二特征向量，用户特征库包括至少一个参考用户中每个参考用户的特征向量，并根据第二特征向量对应的参考用户确定待识别用户的音频特征信息，从而可以利用音频特征提取模型准确地提取待识别用户的音频特征，通过与参考用户的音频特征进行匹配即可识别出用户的声音特征，例如音色与某个参考用户相似，从而可以准确地向用户推荐歌曲或者音色相似的其他用户，以引导推荐用户演唱相似音色明星的作品，增加点唱率，还可以增加用户的社交属性体验。

请参见图7，是本申请实施例的一种音频特征提取模型的训练装置的结构示意图，所述装置包括：

获取模块701，用于获取训练数据集，所述训练数据集包括多个参考用户的音频数据。

处理模块702，用于对所述多个参考用户的音频数据进行预处理，得到所述多个参考用户的音频频谱图。

所述处理模块702，还用于根据所述多个参考用户的音频频谱图生成多个批处理数据，每个所述批处理数据包括由N个参考用户中每个参考用户的M个单位频谱数据组成的频谱特征矩阵，所述N和所述M均为大于0的整数。

训练模块703，用于利用所述批处理数据对神经网络进行训练，得到所述N个参考用户的特征向量，直到根据所述N个参考用户的特征向量确定所述神经网络的损失函数收敛时，得到音频特征提取模型。

可选的，所述处理模块702，具体用于：

从所述多个参考用户中确定第一用户集合，所述第一用户集合包括N个参考用户。

针对所述第一用户集合中的每个参考用户，从所述每个参考用户的音频频谱图中截取M个单位频谱数据。

根据所述第一用户集合中每个参考用户的M个单位频谱数据生成N行M列的频谱特征矩阵，所述频谱特征矩阵的每一行包括一个参考用户的M个单位频谱数据。

将所述频谱特征矩阵作为所述第一用户集合对应的批处理数据。

可选的，所述训练模块703，具体用于：

调用神经网络对所述频谱特征矩阵进行处理，得到所述N个参考用户中每个参考用户的M个特征向量。

根据所述N个参考用户中每个参考用户的M个特征向量和所述神经网络的损失函数确定第一损失值。

根据所述第一损失值对所述神经网络的网络参数进行调整，直到所述神经网络的损失函数收敛时，得到音频特征提取模型。

可选的，所述训练模块703，具体用于：

获取所述N个参考用户中同一参考用户的M个特征向量之间的距离，以及不同参考用户的M个特征向量之间的距离。

根据所述同一参考用户的M个特征向量之间的距离、所述不同参考用户的M个特征向量之间的距离和所述神经网络的损失函数，确定第一损失值。

可选的，所述训练模块703，具体用于：

从所述多个批处理数据中确定第一批处理数据。

调用神经网络对所述第一批处理数据包括的频谱特征矩阵进行处理，得到所述第一批处理数据对应的N个参考用户中每个参考用户的M个特征向量。

可选的，所述训练模块703，具体用于：

若所述第一损失值不满足收敛条件，则根据所述第一损失值对所述神经网络的网络参数进行调整。

从所述多个批处理数据中确定第二批处理数据。

根据网络参数调整后的神经网络、所述第二批处理数据和所述神经网络的损失函数，确定第二损失值。

若所述第二损失值满足所述收敛条件，则将网络参数调整后的神经网络作为音频特征提取模型。

需要说明的是，本申请实施例的音频特征提取模型的训练装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

请参见图8，是本申请实施例的一种音频识别装置的结构示意图，所述装置包括：

获取模块801，用于获取待识别用户的音频数据。

处理模块802，用于将所述音频数据输入上述的音频特征提取模型，得到所述待识别用户的第一特征向量。

确定模块803，用于从用户特征库中确定与所述第一特征向量匹配的第二特征向量，所述用户特征库包括至少一个参考用户的特征向量。

所述确定模块803，还用于根据所述第二特征向量对应的参考用户确定所述待识别用户的音频特征信息。

可选的，所述处理模块802，还用于：

对至少一个参考用户的音频数据进行预处理，得到所述至少一个参考用户的音频频谱图。

根据所述至少一个参考用户的音频频谱图生成多个批处理数据，每个所述批处理数据包括由N个参考用户中每个参考用户的M个单位频谱数据组成的频谱特征矩阵，所述N和所述M均为大于0的整数。

利用所述音频特征提取模型对每个所述批处理数据包括的频谱特征矩阵进行处理，得到所述至少一个参考用户中每个参考用户的M个特征向量。

根据所述至少一个参考用户中每个参考用户的M个特征向量创建用户特征库。

可选的，所述装置还包括发送模块804，其中：

所述确定模块803，还用于根据所述待识别用户的音频特征信息确定推荐内容，所述推荐内容包括所述第二特征向量对应的参考用户的音频数据和待推荐用户的用户标识中的一种或两种，所述待推荐用户包括对应的特征向量与所述第一特征向量之间的距离小于或等于预设距离阈值的用户。

所述发送模块804，用于向所述待识别用户对应的终端设备发送所述推荐内容。

需要说明的是，本申请实施例的音频识别装置的各功能模块的功能可根据上述方法实施例中的其方法具体实现，具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

请参见图9，是本申请实施例的一种计算机设备的结构示意图，本申请实施例的所述计算机设备包括供电模块等结构，并包括处理器901、存储装置902以及网络接口903。所述处理器901、存储装置902以及网络接口903之间可以交互数据。

所述存储装置902可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置902也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；所述存储装置902还可以包括上述种类的存储器的组合。

所述处理器901可以是中央处理器901(central processing unit，CPU)。在一个实施例中，所述处理器901还可以是图形处理器901(Graphics Processing Unit，GPU)。所述处理器901也可以是由CPU和GPU的组合。

在一个实施例中，所述存储装置902用于存储程序指令。所述处理器901可以调用所述程序指令，执行如下操作：

可选的，所述处理器901，具体用于：

从所述多个批处理数据中确定第一批处理数据。

可选的，所述处理器901，具体用于：

从所述多个批处理数据中确定第二批处理数据。

获取待识别用户的音频数据。

处将所述音频数据输入上述的音频特征提取模型，得到所述待识别用户的第一特征向量。

可选的，所述处理器901，还用于：

根据所述待识别用户的音频特征信息确定推荐内容，所述推荐内容包括所述第二特征向量对应的参考用户的音频数据和待推荐用户的用户标识中的一种或两种，所述待推荐用户包括对应的特征向量与所述第一特征向量之间的距离小于或等于预设距离阈值的用户。

通过网络接口903向所述待识别用户对应的终端设备发送所述推荐内容。

具体实现中，本申请实施例中所描述的处理器901、存储装置902以及网络接口903可执行本申请实施例图2、3、5提供的方法的相关实施例中所描述的实现方式，也可执行本申请实施例图7或图8提供的装置的相关实施例中所描述的实现方式，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序包括一条或一条以上指令，可存储于一计算机存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机存储介质中。计算机设备的处理器从计算机存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。

以上所揭露的仅为本申请部分实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音频特征提取模型的训练方法，其特征在于，所述方法包括：

获取训练数据集，所述训练数据集包括多个参考用户的音频数据；

对所述多个参考用户的音频数据进行预处理，得到所述多个参考用户的音频频谱图；

根据所述多个参考用户的音频频谱图生成多个批处理数据，每个所述批处理数据包括由N个参考用户中每个参考用户的M个单位频谱数据组成的频谱特征矩阵，所述N和所述M均为大于0的整数；

2.根据权利要求1所述的方法，其特征在于，所述利用所述批处理数据对神经网络进行训练，得到所述N个参考用户的特征向量，直到根据所述N个参考用户的特征向量确定所述神经网络的损失函数收敛时，得到音频特征提取模型，包括：

调用神经网络对所述频谱特征矩阵进行处理，得到所述N个参考用户中每个参考用户的M个特征向量；

根据所述N个参考用户中每个参考用户的M个特征向量和所述神经网络的损失函数确定第一损失值；

3.根据权利要求2所述的方法，其特征在于，所述根据所述N个参考用户中每个参考用户的M个特征向量和所述神经网络的损失函数确定第一损失值，包括：

获取所述N个参考用户中同一参考用户的M个特征向量之间的距离，以及不同参考用户的M个特征向量之间的距离；

4.根据权利要求2或3所述的方法，其特征在于，所述调用神经网络对所述频谱特征矩阵进行处理，得到所述N个参考用户中每个参考用户的M个特征向量，包括：

从所述多个批处理数据中确定第一批处理数据；

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一损失值对所述神经网络的网络参数进行调整，直到所述神经网络的损失函数收敛时，得到音频特征提取模型，包括：

若所述第一损失值不满足收敛条件，则根据所述第一损失值对所述神经网络的网络参数进行调整；

从所述多个批处理数据中确定第二批处理数据；

根据网络参数调整后的神经网络、所述第二批处理数据和所述神经网络的损失函数，确定第二损失值；

6.一种音频识别方法，其特征在于，所述方法包括：

获取待识别用户的音频数据；

将所述音频数据输入如权利要求1～5中任一项所述的音频特征提取模型，得到所述待识别用户的第一特征向量；

从用户特征库中确定与所述第一特征向量匹配的第二特征向量，所述用户特征库包括至少一个参考用户的特征向量；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

对至少一个参考用户的音频数据进行预处理，得到所述至少一个参考用户的音频频谱图；

根据所述至少一个参考用户的音频频谱图生成多个批处理数据，每个所述批处理数据包括由N个参考用户中每个参考用户的M个单位频谱数据组成的频谱特征矩阵，所述N和所述M均为大于0的整数；

利用所述音频特征提取模型对每个所述批处理数据包括的频谱特征矩阵进行处理，得到所述至少一个参考用户中每个参考用户的M个特征向量；

8.根据权利要求6或7所述的方法，其特征在于，所述根据所述第二特征向量对应的参考用户确定所述待识别用户的音频特征信息之后，所述方法还包括：

根据所述待识别用户的音频特征信息确定推荐内容，所述推荐内容包括所述第二特征向量对应的参考用户的音频数据和待推荐用户的用户标识中的一种或两种，所述待推荐用户包括对应的特征向量与所述第一特征向量之间的距离小于或等于预设距离阈值的用户；

向所述待识别用户对应的终端设备发送所述推荐内容。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、网络接口和存储装置，所述处理器、所述网络接口和所述存储装置相互连接，其中，所述网络接口受所述处理器的控制用于收发数据，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用于执行如权利要求1～5任一项所述的音频特征提取模型的训练方法，或者如权利要求6～8任一项所述的音频识别方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储计算机程序，所述计算机程序包括程序指令，所述程序指令用于执行如权利要求1～5任一项所述的音频特征提取模型的训练方法，或者如权利要求6～8任一项所述的音频识别方法。