CN113220934A

CN113220934A - 歌手识别模型的训练及歌手识别方法、装置和相关设备

Info

Publication number: CN113220934A
Application number: CN202110608301.2A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-08-06
Anticipated expiration: 2041-06-01
Also published as: CN113220934B

Abstract

本发明公开了一种歌手识别模型的训练方法，应用于人工智能技术领域，用于解决歌手识别时“专辑效应”导致识别结果不准确的技术问题。本发明提供的方法包括：获取样本歌曲；将该样本歌曲转换为携带有该歌手标签和该域标签的样本梅尔频谱；通过该特征提取器对该样本梅尔频谱进行特征提取，得到中间样本特征；将该中间样本特征输入至该歌手分类器，得到该歌手分类器的损失；将携该中间样本特征输入至该域分类器，得到该域分类器的损失；根据该歌手分类器的损失、该域分类器的损失以及该歌手识别模型的损失函数计算该待训练的歌手识别模型的损失；当该损失中该歌手分类器的损失最小且该域分类器的损失最大时，得到训练好的歌手识别模型。

Description

歌手识别模型的训练及歌手识别方法、装置和相关设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种歌手识别模型的训练及歌手识别方法、装置和相关设备。

背景技术

歌手识别是音乐信息检索领域中的一项重要任务，它的目的是在给定的音频样本中识别出是哪位歌手演唱的，以便于音乐库的管理。目前歌手识别方法一般是通过模型来实现，将歌手识别模型经过适当训练后，歌手识别模型还可以学习一些演唱相关的下游任务，如歌声合成等。

但是，目前为止至少还存在一个主要的挑战——如何处理不同专辑之间的数据分布不相同的问题，这里数据分布不相同主要指由于专辑风格及歌唱者嗓音随时间的变化带来的结果。传统解决歌手识别任务的技术方案主要是对原始音频进行特征提取，设计深度学习网络也是一种特征提取。但是，由于训练集与测试集数据分布不相同的问题，导致利用训练集训练得出的模型不能很好地泛化到测试集中，带来的结果是不同专辑风格(例如摇滚类和民谣类)会对歌手识别的准确性造成不良影响，这种现象被称为“专辑效应”。

发明内容

本发明实施例提供一种歌手识别模型的训练及歌手识别方法、装置、计算机设备及存储介质，以解决歌手识别时“专辑效应”导致识别结果不准确的技术问题。

一种歌手识别模型的训练方法，待训练的歌手识别模型包括特征提取器、歌手分类器和域分类器，该方法包括：

获取样本歌曲，该样本歌曲携带有歌手标签和域标签；

将该样本歌曲转换为携带有该歌手标签和该域标签的样本梅尔频谱；

通过该特征提取器对该样本梅尔频谱进行特征提取，得到中间样本特征；

将携带有该歌手标签的该中间样本特征输入至该歌手分类器，得到该歌手分类器的损失；

将携带有该域标签的该中间样本特征输入至该域分类器，得到该域分类器的损失；

根据该歌手分类器的损失、该域分类器的损失以及该歌手识别模型的损失函数计算该待训练的歌手识别模型的损失；

当该损失中该歌手分类器的损失最小且该域分类器的损失最大时，得到训练好的歌手识别模型。

根据上述方法训练得到的歌手识别模型进行歌手识别的方法，该方法包括：

获取待识别的歌曲；

将该待识别的歌曲转换为对应的梅尔频谱；

将该梅尔频谱输入至训练好的歌手识别模型的特征提取器，得到中间特征；

将该中间特征输入至该训练好的歌手识别模型的歌手分类器，得到对应的歌手。

一种歌手识别模型的训练装置，该装置包括：

样本获取模块，用于获取样本歌曲，该样本歌曲携带有歌手标签和域标签；

第一转换模块，用于将该样本歌曲转换为携带有该歌手标签和该域标签的样本梅尔频谱；

第一提取模块，用于通过该特征提取器对该样本梅尔频谱进行特征提取，得到中间样本特征；

第一输入模块，用于将携带有该歌手标签的该中间样本特征输入至该歌手分类器，得到该歌手分类器的损失；

第二输入模块，用于将携带有该域标签的该中间样本特征输入至该域分类器，得到该域分类器的损失；

计算模块，用于根据该歌手分类器的损失、该域分类器的损失以及该歌手识别模型的损失函数计算该待训练的歌手识别模型的损失；

训练模块，用于当该损失中该歌手分类器的损失最小且该域分类器的损失最大时，得到训练好的歌手识别模型。

根据上述歌手识别模型的训练装置提供的歌手识别模型进行歌手识别的装置，该装置包括：

歌曲获取模块，用于获取待识别的歌曲；

第二转换模块，用于将该待识别的歌曲转换为对应的梅尔频谱；

第二提取模块，用于将该梅尔频谱输入至训练好的歌手识别模型的特征提取器，得到中间特征；

第三输入模块，用于将该中间特征输入至该训练好的歌手识别模型的歌手分类器，得到对应的歌手。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述歌手识别模型的训练方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述歌手识别模型的训练方法的步骤。

本发明提出的歌手识别模型的训练方法及歌手识别方法、装置、计算机设备及存储介质，在训练该歌手识别模型，根据歌手分类器的损失、域分类器的损失以及歌手识别模型的损失函数计算该待训练的歌手识别模型的损失，当该损失中歌手分类器的损失最小且域分类器的损失最大时，得到训练好的特征提取器的参数以及歌手识别模型中歌手分类器的参数，使得特征提取器对歌手分类器的损失越来越小，同时使得该特征提取器对域分类器的损失越来越大，以达到在准确识别歌手的情况下弱化专辑效应带来的不良影响，有效解决了传统技术中面对专辑数据分布差异从而导致的泛化能力弱的问题，从而达到提升歌手识别准确性的技术效果，训练得到的歌手识别模型能够有效区分给定音频是哪个歌手唱的，有助于提高音乐数字化管理效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中歌手识别模型的训练方法及歌手识别方法的一应用环境示意图；

图2是本发明一实施例中歌手识别模型的训练方法的一流程图；

图3是本发明一实施例中待训练的歌手识别模型的网络结构示意图；

图4是本发明一实施例中训练好的歌手识别模型的网络结构示意图；

图5是本发明一实施例中根据上述歌手识别模型的训练方法训练得到的歌手识别模型进行歌手识别的方法的一流程图

图6是本发明一实施例中歌手识别模型的训练装置的结构示意图；

图7是本发明一实施例中歌手识别装置的结构示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的歌手识别模型的训练方法及利用该训练方法得到的歌手识别模型进行歌手识别的方法，可应用在如图1的应用环境中，其中，该计算机设备可以通过网络与外部设备进行通信，该外部设备例如服务器。其中，该计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。该服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种歌手识别模型的训练方法，该待训练的歌手识别模型包括特征提取器、歌手分类器和域分类器，在训练阶段，该特征提取器的输出分别输入该歌手分类器和该域分类器，以该方法应用在图1中的计算机设备为例进行说明，包括如下步骤S101至S107。

S101、获取样本歌曲，该样本歌曲携带有歌手标签和域标签。

可以理解的是，歌手标签表示演唱所述样本歌曲的歌手，域标签表示所述样本歌曲被划分的类别，该域标签可以是该样本歌曲所属的专辑，也可以是该样本歌曲所属的年代，例如可以将20世纪80年代和20世纪90年代可以作为两个不同的域标签。

样本歌曲的获取范围较为广泛，可以从网络上下载得到，也可以直接从存储在数据库的歌曲中获取得到。

在获取样本歌曲的步骤之后，还可以将该样本歌曲按专辑进行划分，将已知标签的数据划分为训练集，对应域适应中的源域，将未知标签的数据划分为测试集，对应域适应中的目标域。训练集用于对该待训练的歌手识别模型进行训练，测试集用于对训练过程中的歌手识别模型进行性能测试。

S102、将该样本歌曲转换为携带有该歌手标签和该域标签的样本梅尔频谱。

在其中一个实施例中，可以通过梅尔标度滤波器组(mel-scale filter banks)将所述样本歌曲转换为样本梅尔频谱。梅尔频谱是根据人听觉特征专门设计的音频特征，将该样本歌曲转换为携带有该歌手标签和该域标签的样本梅尔频谱有利于后续网络特征提取与网络训练。

在其中一个实施例中，在该步骤S102中将所述样本歌曲转换为携带有所述歌手标签和所述域标签的样本梅尔频谱的步骤之前，该歌手识别模型的训练方法还包括：

将所述样本歌曲按照预设的时间间隔进行切分，得到多段音频文件；

将每段所述音频文件分别转换为携带有所述歌手标签和所述域标签的样本梅尔频谱。

在其中一个实施例中，所述预设的时间间隔例如为30秒，当该预设的时间间隔为30秒时，切分后的样本歌曲即[0s-30s]为一段，[31s-60s]为一段……

将该样本歌曲按照预设的时间间隔进行切分，并将切分后的每段所述音频文件分别转换为携带有所述歌手标签和所述域标签的样本梅尔频谱，可以避免不同时间长度的样本梅尔频谱与特征提取器的数据输入口径不一致的缺陷，便于后续的卷积处理。

S103、通过该特征提取器对该样本梅尔频谱进行特征提取，得到中间样本特征。

图3是本发明一实施例中待训练的歌手识别模型的网络结构示意图，在其中一个实施例中，如图3所示，该特征提取器01包括四层卷积层和两层GRU(Gated RecurrentUnit)神经网络，该四层卷积层依次顺序连接，两层该GRU神经网络顺序连接，最后一层该卷积层的输出连接第一层该GRU神经网络的输入。

在其中一个实施例中，每层所述卷积层的维度均为二维。该GRU神经网络即GRU循环神经网络。

可以理解的是，通过该特征提取器中的四层卷积层可以学习到该样本梅尔频谱的空间特征，通过该GRU神经网络可以学习到该样本梅尔频谱的时序特征。依次通过该卷积层和该GRU神经网络进行特征提取的过程是一个递进学习的过程。

由于深度学习网络中，低层网络学习到一些域不相关的特征，高层网络往往能学习到一些域相关的特征，本实施例将卷积循环网络前四层卷积层与两层循环网络GRU设计为特征提取器，有利于对样本梅尔频谱中携带的各方面特征进行充分学习并进行特征提取。

S104、将携带有该歌手标签的该中间样本特征输入至该歌手分类器，得到该歌手分类器的损失。

在其中一个实施例中，该歌手分类器的损失可以表示为：

其中，G_f(x_i；θ_f)表示特征提取器在参数为θ_f时对样本歌曲x_i输出的中间样本特征，G_y表示歌手分类器在参数为θ_y、歌手标签为y_i时，对特征提取器输入的中间样本特征的输出，L_y表示歌手分类器的损失函数，i表示第i个所述样本歌曲，N表示所述样本歌曲的总数。

在其中一个实施例中，歌手分类器的损失函数L_y可以选用交叉熵损失函数。

S105、将携带有该域标签的该中间样本特征输入至该域分类器，得到该域分类器的损失。

在其中一个实施例中，该域分类器的损失可以表示为：

其中，G_f(x_i；θ_f)表示特征提取器在参数为θ_f时对样本歌曲x_i输出的中间样本特征，G_d表示域分类器在参数为θ_d、歌手标签为y_i时，对特征提取器输入的中间样本特征的输出，L_d表示域分类器的损失函数，i表示第i个所述样本歌曲，N表示所述样本歌曲的总数。

在其中一个实施例中，域分类器的损失函数L_d可以选用均方误差MSE(MeanSquared Error)函数。

S106、根据该歌手分类器的损失、该域分类器的损失以及该歌手识别模型的损失函数计算该待训练的歌手识别模型的损失。

在其中一个实施例中，该歌手识别模型的损失函数为：

其中，E表示损失，θ_f表示所述特征提取器的网络参数，θ_y表示所述歌手分类器的网络参数，θ_d表示所述域分类器的网络参数，L_y表示歌手分类器的损失函数，L_d表示域分类器的损失函数，i表示第i个所述样本歌曲，N表示所述样本歌曲的总数，λ表示超参数。

可以理解的是：

其中，超参数λ的取值根据实验结果测试得到，作为优选地，0.5≤γ≤1。

进一步地，该根据该歌手分类器的损失、该域分类器的损失以及该歌手识别模型的损失函数计算该待训练的歌手识别模型的损失的步骤具体包括：

将携带有该域标签的该中间样本特征输入至该域分类器，得到该样本歌曲的预测域；

根据该域标签和该预测域计算域分类器的梯度；

在反向传播时将该域分类器的梯度取负或取倒数回传至该特征提取器。

S107、当该损失中该歌手分类器的损失最小且该域分类器的损失最大时，得到训练好的歌手识别模型。

在其中一个实施例中，通过以下方式确定该损失中该歌手分类器的损失最小且该域分类器的损失最大：

其中，

表示在已知域分类器的网络参数θ_d的情况下求所述损失最小时特征提取器的网络参数θ_f和歌手分类器的网络参数θ_y，

表示在已知特征提取器的网络参数θ_f和歌手分类器的网络参数θ_y的情况下求所述损失最大时域分类器的网络参数θ_d，当

和

同时成立时，得到训练好的所述歌手识别模型。

在其中一个实施例中，在确定该损失中该歌手分类器的损失最小且该域分类器的损失最大的步骤之后，该歌手识别模型的训练方法还包括：

获取测试样本歌曲，所述测试样本歌曲不携带歌手标签和域标签；

将所述测试样本歌曲输入至所述待训练的歌手识别模型，通过所述测试样本歌曲对待训练的歌手识别模型进行测试；

当测试通过时，得到训练好的歌手识别模型。

可以理解的是，在测试阶段输入至该歌手识别模型的测试样本歌曲虽然不携带歌手标签和域标签，但是该测试样本歌曲也有演唱该歌曲的歌手和该测试样本歌曲实际所属的域，判断测试是否通过可以通过判断该歌手识别模型的输出精度是否达到预设的要求，例如，在测试阶段该歌手识别模型的预测准确率达到95％时，确定测试通过，得到训练好的歌手识别模型。

本实施例提出的歌手识别模型的训练方法，通过最小化最大化的思想去训练歌手识别模型，其中用到了梯度反转的方法，即在前向传播的过程中最小化损失让域分类器的性能更好，在反向传播的过程中把梯度取负，即优化特征提取器，来尽量让特征提取器提取的特征分不清楚是来自于源域还是目标域，使得特征提取器对歌手分类器的损失越来越小，同时使得该特征提取器对域分类器的损失越来越大，使得到的特征提取器是专辑不相关的，从而将源域与目标域共同映射到一个空间上使其分布更为相似，以达到在准确识别歌手的情况下弱化专辑效应带来的不良影响，有效解决了传统技术中面对专辑数据分布差异从而导致的泛化能力弱的问题，从而达到提升歌手识别准确性的技术效果。

图5是本发明一实施例中根据上述歌手识别模型的训练方法训练得到的歌手识别模型进行歌手识别的方法的一流程图，根据本发明另一实施例提出了根据上述歌手识别模型的训练方法训练得到的歌手识别模型进行歌手识别的方法，如图5所示，该方法包括以下步骤S501至S504。

S501、获取待识别的歌曲；

S502、将该待识别的歌曲转换为对应的梅尔频谱；

S503、将该梅尔频谱输入至训练好的歌手识别模型的特征提取器，得到中间特征；

S504、将该中间特征输入至该训练好的歌手识别模型的歌手分类器，得到对应的歌手。

图4是本发明一实施例中训练好的歌手识别模型的网络结构示意图，如图4所示，可以理解的是，当训练好的歌手识别模型在实际分类使用时，训练阶段的域分类器在实际分类时是不起作用的，在训练阶段域分类器的作用在于根据域分类器的损失调节特征提取器的参数，使得特征提取器对歌手分类器的损失越来越小，同时使得该特征提取器对域分类器的损失越来越大，以达到在准确识别歌手的情况下弱化专辑效应带来的不良影响。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种歌手识别模型的训练装置，该歌手识别模型的训练装置与上述实施例中歌手识别模型的训练方法一一对应。如图6所示，该歌手识别模型的训练装置100包括样本获取模块11、第一转换模块12、第一提取模块13、第一输入模块14、第二输入模块15、计算模块16和训练模块17。各功能模块详细说明如下：

样本获取模块11，用于获取样本歌曲，该样本歌曲携带有歌手标签和域标签。

进一步地，该样本获取模块还具体用于将该样本歌曲按专辑进行划分，将已知标签的数据划分为训练集，对应域适应中的源域，将未知标签的数据划分为测试集，对应域适应中的目标域。

可以理解的是，训练集用于对该待训练的歌手识别模型进行训练，测试集用于对训练过程中的歌手识别模型进行性能测试。

第一转换模块12，用于将该样本歌曲转换为携带有该歌手标签和该域标签的样本梅尔频谱。

在其中一个实施例中，该歌手识别模型的训练装置100还包括：

切分模块，用于将所述样本歌曲按照预设的时间间隔进行切分，得到多段音频文件；

该第一转换模块12具体用于将每段所述音频文件分别转换为携带有所述歌手标签和所述域标签的样本梅尔频谱。

第一提取模块13，用于通过该特征提取器对该样本梅尔频谱进行特征提取，得到中间样本特征。

第一输入模块14，用于将携带有该歌手标签的该中间样本特征输入至该歌手分类器，得到该歌手分类器的损失。

在其中一个实施例中，该歌手分类器的损失可以表示为：

第二输入模块15，用于将携带有该域标签的该中间样本特征输入至该域分类器，得到该域分类器的损失。

在其中一个实施例中，该域分类器的损失可以表示为：

在其中一个实施例中，域分类器的损失函数L_d可以选用均方误差MSE函数。

计算模块16，用于根据该歌手分类器的损失、该域分类器的损失以及该歌手识别模型的损失函数计算该待训练的歌手识别模型的损失。

训练模块17，用于当该损失中该歌手分类器的损失最小且该域分类器的损失最大时，得到训练好的歌手识别模型。

在其中一个实施例中，该歌手识别模型的损失函数为：

其中，E表示损失，θ_f表示所述特征提取器的网络参数，θ_y表示所述歌手分类器的网络参数，θ_d表示所述域分类器的网络参数，L_y表示歌手分类器的损失函数，L_d表示域分类器的损失函数，i表示第i个所述样本歌曲，N表示所述样本歌曲的总数，λ表示超参数。其中，超参数λ的取值根据实验结果测试得到，作为优选地，0.5≤γ≤1。

在其中一个实施例中，该训练模块17通过以下方式确定该损失中该歌手分类器的损失最小且该域分类器的损失最大：

其中，

和

同时成立时，得到训练好的所述歌手识别模型。

在其中一个实施例中，该特征提取器包括四层卷积层和两层GRU神经网络，该四层卷积层依次顺序连接，两层该GRU神经网络顺序连接，最后一层该卷积层的输出连接第一层该GRU神经网络的输入。

进一步地，该计算模块16具体包括：

输入单元，用于将携带有该域标签的该中间样本特征输入至该域分类器，得到该样本歌曲的预测域；

梯度计算单元，用于根据该域标签和该预测域计算域分类器的梯度；

回传单元，用于在反向传播时将该域分类器的梯度取负或取倒数回传至该特征提取器。

在其中一个实施例中，该歌手识别模型的训练装置100进一步包括：

测试样本获取模块，用于获取测试样本歌曲，所述测试样本歌曲不携带歌手标签和域标签；

测试模块，用于将所述测试样本歌曲输入至所述待训练的歌手识别模型，通过所述测试样本歌曲对待训练的歌手识别模型进行测试；

测试通过模块，用于当测试通过时，得到训练好的歌手识别模型。

关于该歌手识别模型的训练装置的具体限定可以参见上文中对于歌手识别模型的训练方法的限定，在此不再赘述。上述歌手识别模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种歌手识别模型的训练方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中歌手识别模型的训练方法的步骤，例如图2所示的步骤101至步骤107及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中歌手识别模型的训练装置100的各模块/单元的功能，例如图6所示模块11至模块17的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中歌手识别模型的训练方法的步骤，例如图2所示的步骤101至步骤107及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中歌手识别模型的训练装置100的各模块/单元的功能，例如图6所示模块11至模块17的功能。为避免重复，这里不再赘述。

图7是本发明一实施例中歌手识别装置的结构示意图，如图7所示，该根据上述歌手识别模型的训练装置提供的歌手识别模型进行歌手识别的装置200包括歌曲获取模块21、第二转换模块22、第二提取模块23和第三输入模块24。各功能模块详细说明如下：

歌曲获取模块21，用于获取待识别的歌曲；

第二转换模块22，用于将该待识别的歌曲转换为对应的梅尔频谱；

第二提取模块23，用于将该梅尔频谱输入至训练好的歌手识别模型的特征提取器，得到中间特征；

第三输入模块24，用于将该中间特征输入至该训练好的歌手识别模型的歌手分类器，得到对应的歌手。

其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

关于该歌手识别的装置的具体限定可以参见上文中对于歌手识别的方法的限定，在此不再赘述。上述歌手识别的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种歌手识别的方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中歌手识别的方法的步骤，例如图5所示的步骤501至步骤504及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中歌手识别的装置的各模块/单元的功能，例如图7所示模块21至模块24的功能。为避免重复，这里不再赘述。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中歌手识别的方法的步骤，例如图5所示的步骤501至步骤504及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中歌手识别的装置的各模块/单元的功能，例如图7所示模块21至模块24的功能。为避免重复，这里不再赘述。

本实施例提出的歌手识别模型的训练方法及歌手识别方法、装置、计算机设备及存储介质，在训练该歌手识别模型，根据歌手分类器的损失、域分类器的损失以及歌手识别模型的损失函数计算该待训练的歌手识别模型的损失，当该损失中歌手分类器的损失最小且域分类器的损失最大时，得到训练好的特征提取器的参数以及歌手识别模型中歌手分类器的参数，使得特征提取器对歌手分类器的损失越来越小，同时使得该特征提取器对域分类器的损失越来越大，以达到在准确识别歌手的情况下弱化专辑效应带来的不良影响，有效解决了传统技术中面对专辑数据分布差异从而导致的泛化能力弱的问题，从而达到提升歌手识别准确性的技术效果，训练得到的歌手识别模型能够有效区分给定音频是哪个歌手唱的，有助于提高音乐数字化管理效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种歌手识别模型的训练方法，其特征在于，待训练的歌手识别模型包括特征提取器、歌手分类器和域分类器，所述方法包括：

获取样本歌曲，所述样本歌曲携带有歌手标签和域标签；

将所述样本歌曲转换为携带有所述歌手标签和所述域标签的样本梅尔频谱；

通过所述特征提取器对所述样本梅尔频谱进行特征提取，得到中间样本特征；

将携带有所述歌手标签的所述中间样本特征输入至所述歌手分类器，得到所述歌手分类器的损失；

将携带有所述域标签的所述中间样本特征输入至所述域分类器，得到所述域分类器的损失；

根据所述歌手分类器的损失、所述域分类器的损失以及所述歌手识别模型的损失函数计算所述待训练的歌手识别模型的损失；

当所述损失中所述歌手分类器的损失最小且所述域分类器的损失最大时，得到训练好的歌手识别模型。

2.根据权利要求1所述的歌手识别模型的训练方法，其特征在于，所述歌手识别模型的损失函数为：

3.根据权利要求2所述的歌手识别模型的训练方法，其特征在于，通过以下方式确定所述损失中所述歌手分类器的损失最小且所述域分类器的损失最大：

其中，

知

同时成立时，得到训练好的所述歌手识别模型。

4.根据权利要求1所述的歌手识别模型的训练方法，其特征在于，所述特征提取器包括四层卷积层和两层GRU神经网络，所述四层卷积层依次顺序连接，两层所述GRU神经网络顺序连接，最后一层所述卷积层的输出连接第一层所述GRU神经网络的输入。

5.根据权利要求1所述的歌手识别模型的训练方法，其特征在于，所述根据所述歌手分类器的损失、所述域分类器的损失以及所述歌手识别模型的损失函数计算所述待训练的歌手识别模型的损失的步骤具体包括：

将携带有所述域标签的所述中间样本特征输入至所述域分类器，得到所述样本歌曲的预测域；

根据所述域标签和所述预测域计算域分类器的梯度；

在反向传播时将所述域分类器的梯度取负或取倒数回传至所述特征提取器。

6.根据权利要求1至5任一项所述方法训练得到的歌手识别模型进行歌手识别的方法，其特征在于，所述方法包括：

获取待识别的歌曲；

将所述待识别的歌曲转换为对应的梅尔频谱；

将所述梅尔频谱输入至训练好的歌手识别模型的特征提取器，得到中间特征；

将所述中间特征输入至所述训练好的歌手识别模型的歌手分类器，得到对应的歌手。

7.一种歌手识别模型的训练装置，其特征在于，所述装置包括：

样本获取模块，用于获取样本歌曲，所述样本歌曲携带有歌手标签和域标签；

第一转换模块，用于将所述样本歌曲转换为携带有所述歌手标签和所述域标签的样本梅尔频谱；

第一提取模块，用于通过所述特征提取器对所述样本梅尔频谱进行特征提取，得到中间样本特征；

第一输入模块，用于将携带有所述歌手标签的所述中间样本特征输入至所述歌手分类器，得到所述歌手分类器的损失；

第二输入模块，用于将携带有所述域标签的所述中间样本特征输入至所述域分类器，得到所述域分类器的损失；

计算模块，用于根据所述歌手分类器的损失、所述域分类器的损失以及所述歌手识别模型的损失函数计算所述待训练的歌手识别模型的损失；

训练模块，用于当所述损失中所述歌手分类器的损失最小且所述域分类器的损失最大时，得到训练好的歌手识别模型。

8.根据权利要求7提供的歌手识别模型进行歌手识别的装置，其特征在于，所述装置包括：

歌曲获取模块，用于获取待识别的歌曲；

第二转换模块，用于将所述待识别的歌曲转换为对应的梅尔频谱；

第二提取模块，用于将所述梅尔频谱输入至训练好的歌手识别模型的特征提取器，得到中间特征；

第三输入模块，用于将所述中间特征输入至所述训练好的歌手识别模型的歌手分类器，得到对应的歌手。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。