CN113284501B

CN113284501B - 歌手识别方法、装置、设备及存储介质

Info

Publication number: CN113284501B
Application number: CN202110542271.XA
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2024-03-08
Anticipated expiration: 2041-05-18
Also published as: CN113284501A

Abstract

本申请涉及人工智能技术领域，揭示了一种歌手识别方法、装置、设备及存储介质，其中方法包括：根据待识别的歌曲音频得到待融合的梅尔频谱、待融合的声纹特征、待融合的音乐中层特征；根据待融合的梅尔频谱和待融合的声纹特征得到待分析的融合特征；对待分析的融合特征进行降维处理和特征提取得到待处理的抽象特征；将待处理的抽象特征进行时间序列维度特征的提取得到待融合的时间序列维度特征；根据待融合的时间序列维度特征和待融合的音乐中层特征得到待预测分类的特征数据；根据待预测分类的特征数据进行分类概率预测和歌手确定得到目标歌手。通过声纹特征有效消除伴奏的影响、音乐中层特征增加对歌曲类型或风格的识别，提高歌手识别的准确率。

Description

歌手识别方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种歌手识别方法、装置、设备及存储介质。

背景技术

歌手识别是音乐信息检索领域的一个重要任务，它的目的是在给定的音频中识别出歌手，以便于音乐库的管理。经过适当训练后，歌手识别模型还可以应用于有关歌唱的其他任务，如相似度搜索、播放列表生成或歌声合成等。歌手识别任务主要的两大挑战是伴奏影响与人类发声机制相似。随着深度学习技术的发展，许多学者将深度学习技术应用于歌手识别任务，但是识别准确率还有待提高。

发明内容

本申请的主要目的为提供一种歌手识别方法、装置、设备及存储介质，旨在解决现有技术的将深度学习技术应用于歌手识别任务，但是识别准确率还有待提高的技术问题。

为了实现上述发明目的，本申请提出一种歌手识别方法，所述方法包括：

获取待识别的歌曲音频；

对所述待识别的歌曲音频进行梅尔频谱提取，得到待融合的梅尔频谱；

对所述待识别的歌曲音频进行声纹特征提取，得到待融合的声纹特征；

对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，得到待分析的融合特征；

对所述待分析的融合特征进行降维处理和特征提取，得到待处理的抽象特征；

将所述待处理的抽象特征进行时间序列维度特征的提取，得到待融合的时间序列维度特征；

对所述待识别的歌曲音频进行音乐中层特征的提取，得到待融合的音乐中层特征；

对所述待融合的时间序列维度特征和所述待融合的音乐中层特征进行融合处理，得到待预测分类的特征数据；

根据所述待预测分类的特征数据进行分类概率预测和歌手确定，得到所述待识别的歌曲音频对应的目标歌手。

进一步的，所述对所述待识别的歌曲音频进行声纹特征提取，得到待融合的声纹特征的步骤，包括：

将所述待识别的歌曲音频输入目标歌声分离模型进行人声特征分离，得到待分析的人声特征；

将所述待分析的人声特征输入目标声纹识别模型进行声纹特征提取，得到所述待融合的声纹特征，其中，所述目标声纹识别模型在训练时采用包含噪声和混响的数据增强策略。

进一步的，所述对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，得到待分析的融合特征的步骤，包括：

采用concat方法，对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，得到所述待分析的融合特征。

进一步的，所述对所述待分析的融合特征进行降维处理和特征提取，得到待处理的抽象特征的步骤，包括：

将所述待分析的融合特征输入第一卷积块进行卷积，得到第一卷积特征；

将所述第一卷积特征输入第二卷积块进行卷积，得到第二卷积特征；

将所述第二卷积特征输入第三卷积块进行卷积，得到第三卷积特征；

将所述第三卷积特征输入第四卷积块进行卷积，得到所述待处理的抽象特征；

其中，所述第一卷积块包括：第一卷积层、第一最大池化层和第一随机失活层，所述第一卷积层的卷积核为3×3、通道数为64和激活函数为ELU函数，所述第二卷积块包括：第二卷积层、第二最大池化层和第二随机失活层，所述第二卷积层的卷积核为3×3、通道数为128和激活函数为ELU函数，所述第三卷积块包括：第三卷积层、第三最大池化层和第三随机失活层，所述第三卷积层的卷积核为3×3、通道数为128和激活函数为ELU函数，所述第四卷积块包括：第四卷积层、第四最大池化层和第四随机失活层，所述第四卷积层的卷积核为3×3、通道数为128和激活函数为ELU函数。

进一步的，所述将所述待处理的抽象特征进行时间序列维度特征的提取，得到待融合的时间序列维度特征的步骤，包括：

将所述待处理的抽象特征输入第一门控循环单元进行时间序列维度特征的提取，得到待处理的时间序列维度特征；

将所述待处理的时间序列维度特征输入第二门控循环单元进行时间序列维度特征的提取，得到所述待融合的时间序列维度特征。

进一步的，所述对所述待识别的歌曲音频进行音乐中层特征的提取，得到待融合的音乐中层特征的步骤，包括：

将所述待识别的歌曲音频输入目标音乐中层特征提取模型进行音乐中层特征的提取，得到所述待融合的音乐中层特征，其中，所述目标音乐中层特征提取模型是基于预训练Inception V3网络训练得到的模型。

进一步的，所述根据所述待预测分类的特征数据进行分类概率预测和歌手确定，得到所述待识别的歌曲音频对应的目标歌手的步骤，包括：

将所述待预测分类的特征数据输入分类概率预测模块进行分类概率的预测，得到分类概率预测结果，其中，所述分类概率预测模块采用全连接层结合softmax激活函数进行分类概率预测；

从所述分类概率预测结果中获取最大概率，得到目标概率；

将目标概率对应的歌手作为所述待识别的歌曲音频对应的所述目标歌手。

本申请还提出了一种歌手识别装置，所述装置包括：

歌曲音频获取模块，用于获取待识别的歌曲音频；

待融合的梅尔频谱确定模块，用于对所述待识别的歌曲音频进行梅尔频谱提取，得到待融合的梅尔频谱；

待融合的声纹特征确定模块，用于对所述待识别的歌曲音频进行声纹特征提取，得到待融合的声纹特征；

待分析的融合特征确定模块，用于对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，得到待分析的融合特征；

待处理的抽象特征确定模块，用于对所述待分析的融合特征进行降维处理和特征提取，得到待处理的抽象特征；

待融合的时间序列维度特征确定模块，用于将所述待处理的抽象特征进行时间序列维度特征的提取，得到待融合的时间序列维度特征；

待融合的音乐中层特征确定模块，用于对所述待识别的歌曲音频进行音乐中层特征的提取，得到待融合的音乐中层特征；

待预测分类的特征数据确定模块，用于对所述待融合的时间序列维度特征和所述待融合的音乐中层特征进行融合处理，得到待预测分类的特征数据；

目标歌手确定模块，用于根据所述待预测分类的特征数据进行分类概率预测和歌手确定，得到所述待识别的歌曲音频对应的目标歌手。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的歌手识别方法、装置、设备及存储介质，通过对待识别的歌曲音频进行梅尔频谱提取，得到待融合的梅尔频谱；对待识别的歌曲音频进行声纹特征提取，得到待融合的声纹特征；对待融合的梅尔频谱和待融合的声纹特征进行融合处理，得到待分析的融合特征；对待分析的融合特征进行降维处理和特征提取，得到待处理的抽象特征；将待处理的抽象特征进行时间序列维度特征的提取，得到待融合的时间序列维度特征；对待识别的歌曲音频进行音乐中层特征的提取，得到待融合的音乐中层特征；对待融合的时间序列维度特征和待融合的音乐中层特征进行融合处理，得到待预测分类的特征数据；根据待预测分类的特征数据进行分类概率预测和歌手确定，得到待识别的歌曲音频对应的目标歌手，通过提取声纹特征有效消除了伴奏的影响，通过提取音乐中层特征可以增加对歌曲类型或风格的识别，从而提高了歌手识别的准确率，有利于音乐库的管理。

附图说明

图1为本申请一实施例的歌手识别方法的流程示意图；

图2为本申请一实施例的歌手识别装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了解决现有技术的将深度学习技术应用于歌手识别任务，但是识别准确率还有待提高的技术问题，本申请提出了一种歌手识别方法，所述方法应用于人工智能技术领域，所述方法进一步应用于人工智能的语音处理技术领域。所述歌手识别方法，通过首先根据歌曲音频识别出梅尔频谱、声纹特征、音乐中层特征，然后将梅尔频谱和声纹特征进行融合处理，对融合处理的结果进行降维处理和特征提取以得到抽象特征，将抽象特征进行时间序列维度特征的提取后和音乐中层特征进行融合处理以得到待预测分类的特征，最后根据待预测分类的特征进行分类概率预测和歌手确定以确定歌曲音频对应的歌手，通过提取声纹特征有效消除了伴奏的影响，通过提取音乐中层特征可以增加对歌曲类型或风格的识别，从而提高了歌手识别的准确率，有利于音乐库的管理。

参照图1，本申请实施例中提供一种歌手识别方法，所述方法包括：

S1：获取待识别的歌曲音频；

S2：对所述待识别的歌曲音频进行梅尔频谱提取，得到待融合的梅尔频谱；

S3：对所述待识别的歌曲音频进行声纹特征提取，得到待融合的声纹特征；

S4：对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，得到待分析的融合特征；

S5：对所述待分析的融合特征进行降维处理和特征提取，得到待处理的抽象特征；

S6：将所述待处理的抽象特征进行时间序列维度特征的提取，得到待融合的时间序列维度特征；

S7：对所述待识别的歌曲音频进行音乐中层特征的提取，得到待融合的音乐中层特征；

S8：对所述待融合的时间序列维度特征和所述待融合的音乐中层特征进行融合处理，得到待预测分类的特征数据；

S9：根据所述待预测分类的特征数据进行分类概率预测和歌手确定，得到所述待识别的歌曲音频对应的目标歌手。

本实施例通过对待识别的歌曲音频进行梅尔频谱提取，得到待融合的梅尔频谱；对待识别的歌曲音频进行声纹特征提取，得到待融合的声纹特征；对待融合的梅尔频谱和待融合的声纹特征进行融合处理，得到待分析的融合特征；对待分析的融合特征进行降维处理和特征提取，得到待处理的抽象特征；将待处理的抽象特征进行时间序列维度特征的提取，得到待融合的时间序列维度特征；对待识别的歌曲音频进行音乐中层特征的提取，得到待融合的音乐中层特征；对待融合的时间序列维度特征和待融合的音乐中层特征进行融合处理，得到待预测分类的特征数据；根据待预测分类的特征数据进行分类概率预测和歌手确定，得到待识别的歌曲音频对应的目标歌手，通过提取声纹特征有效消除了伴奏的影响，通过提取音乐中层特征可以增加对歌曲类型或风格的识别，从而提高了歌手识别的准确率，有利于音乐库的管理。

对于S1，可以从数据库中获取待识别的歌曲音频，也可以获取用户输入的待识别的歌曲音频，还可以从第三方应用系统中获取待识别的歌曲音频。

待识别的歌曲音频，也就是需要识别出歌手的歌曲音频。

对于S2，梅尔频谱，是由Stevens、Volkmann和Newman在1937年命名。我们知道，频率的单位是赫兹(Hz)，人耳能听到的频率范围是20-20000Hz，但人耳对Hz这种标度单位并不是线性感知关系。比如，如果我们适应了1000Hz的音调，如果把音调频率提高到2000Hz，我们的耳朵只能觉察到频率提高了一点点，根本察觉不到频率提高了一倍。针对上述的这种非线性感知关系提出了梅尔频谱，梅尔频谱表示声音信息的基本特征。

对所述待识别的歌曲音频进行梅尔频谱提取的方法步骤在此不做赘述。

对于S3，首先从所述待识别的歌曲音频中分离出人声特征，然后再从人声特征中提取出声纹特征，将提取得到的声纹特征作为待融合的声纹特征。从而使待融合的声纹特征中消除了伴奏的影响。

对于S4，对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，以实现将所述待融合的梅尔频谱和所述待融合的声纹特征的合并，合并后得到一个矩阵，将得到的矩阵作为待分析的融合特征。

比如，所述待融合的梅尔频谱是128x512的图像数据，所述待融合的声纹特征是1x512的数据，对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，得到一个129x512的矩阵，将得到的129x512的矩阵作为待分析的融合特征，在此举例不做具体限定。

对于S5，对所述待分析的融合特征进行多次特征捕获操作，每次特征捕获操作依次包括卷积运算、最大池化运算、随机失活运算，以实现降维处理和特征提取，最后得到图像在不同尺度的抽象特征，将得到的抽象特征作为待处理的抽象特征。

对于S6，采用门控循环单元(GRU，Gated Recurrent Unit)，对所述待处理的抽象特征进行时间序列维度特征的提取，将提取得到的时间序列维度特征作为待融合的时间序列维度特征。待融合的梅尔频谱虽然是一张图像，但仍然存在时序特征，通过门控循环单元可以更好处理所述待处理的抽象特征中的时序特征。

门控循环单元是LSTM(长短期记忆人工神经网络)的一种变体，它保持了LSTM的效果同时又使结构更加简单。GRU主要由两部分组成，分别是更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。

对于S7，音乐领域的特征可以粗略的分为三个层级。其中，明确定义的概念，比如节拍、和弦等称为音乐低层特征；没有明确定义的、主观的概念，比如情绪、流派、相似性等称为音乐高层特征，音乐高层特征只有通过考虑音乐的各个方面才能被定义；而介于音乐低层特征与音乐高层特征之间的被称为音乐中层特征，比如音乐的速度、节奏的稳定性等称为音乐中层特征。音乐中层特征的概念最早由Aljanaki提出，用于改进音乐情感识别、音乐检索和音乐分类。

其中，对所述待识别的歌曲音频进行音乐中层特征的提取，将提取的音乐中层特征作为待融合的音乐中层特征。

对于S8，对所述待融合的时间序列维度特征和所述待融合的音乐中层特征进行融合处理，以实现将所述待融合的时间序列维度特征和所述待融合的音乐中层特征的合并，合并后得到一个矩阵，将得到的矩阵作为待预测分类的特征数据。

采用concat方法，对所述待融合的时间序列维度特征和所述待融合的音乐中层特征进行融合处理。

concat是Python(计算机编程语言)中一种数据合并的方法，concat方法相当于数据库中的全连接(UNION ALL),可以指定按某个轴进行连接,也可以指定连接的方式join(outer,inner只有这两种)。

对于S9，首先根据所述待预测分类的特征数据进行分类概率预测，然后从分类概率预测得到的概率中找出最大值，将找出的最大值对应的概率对应的歌手作为所述待识别的歌曲音频对应的目标歌手。也就是说，进行分类概率预测时，分类标签对应的是歌手，分类概率预测的结果就是各个分类标签各自对应的歌手是所述待识别的歌曲音频的歌手的概率。

在一个实施例中，上述对所述待识别的歌曲音频进行声纹特征提取，得到待融合的声纹特征的步骤，包括：

S31：将所述待识别的歌曲音频输入目标歌声分离模型进行人声特征分离，得到待分析的人声特征；

S32：将所述待分析的人声特征输入目标声纹识别模型进行声纹特征提取，得到所述待融合的声纹特征，其中，所述目标声纹识别模型在训练时采用包含噪声和混响的数据增强策略。

本实施例实现了先进行人声特征分离，然后再进行声纹特征提取，通过提取声纹特征有效消除了伴奏的影响，从而提高了歌手识别的准确率；因所述目标声纹识别模型在训练时采用包含噪声和混响的数据增强策略，提高了目标声纹识别模型对于噪声和混响干扰的鲁棒性，进一步提高了歌手识别的准确率。

对于S31，将所述待识别的歌曲音频输入目标歌声分离模型进行人声特征分离，将分离出的人声特征作为待分析的人声特征。

目标歌声分离模型是基于open-unmix(开源音乐音源分离项目)得到的模型。

对于S32，将所述待分析的人声特征输入目标声纹识别模型进行声纹特征提取，将提取到的声纹特征作为所述待融合的声纹特征。

所述目标声纹识别模型是基于X-vectors得到的模型。X-vectors是声纹识别领域主流的模型框架，X-vectors可接受任意长度的输入并且转化为固定长度的特征表达。

其中，获取多个训练样本，所述多个训练样本中每个训练样本包括：音频样本、声纹特征标定值，音频样本是在歌曲音频中加入噪声和混响得到的音频；根据X-vectors得到初始模型；采用所述多个训练样本对所述初始模型进行训练，将训练结束的所述初始模型作为所述目标声纹识别模型。因为音频样本是在歌曲音频中加入噪声和混响得到的音频，实现了在训练时采用包含噪声和混响的数据增强策略，从而提高了目标声纹识别模型对于噪声和混响干扰的鲁棒性。

在同一个训练样本中，声纹特征标定值是对音频样本的声纹特征的标定的结果。

在一个实施例中，上述对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，得到待分析的融合特征的步骤，包括：

S41：采用concat方法，对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，得到所述待分析的融合特征。

本实施例实现了采用concat方法对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，实现了将梅尔频谱的图像数据和声纹特征进行融合，为后续同时对梅尔频谱的图像数据和声纹特征进行降维处理和特征提取提供了基础。

对于S41，采用concat方法，对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，以实现将所述待融合的梅尔频谱和所述待融合的声纹特征的合并，合并后得到一个矩阵，将得到的矩阵作为所述待分析的融合特征。

在一个实施例中，上述对所述待分析的融合特征进行降维处理和特征提取，得到待处理的抽象特征的步骤，包括：

S51：将所述待分析的融合特征输入第一卷积块进行卷积，得到第一卷积特征；

S52：将所述第一卷积特征输入第二卷积块进行卷积，得到第二卷积特征；

S53：将所述第二卷积特征输入第三卷积块进行卷积，得到第三卷积特征；

S54：将所述第三卷积特征输入第四卷积块进行卷积，得到所述待处理的抽象特征；

本实施例实现了采用4个卷积块进行降维处理和特征提取，得到了对图像在不同尺度的抽象特征，为后续进行时间序列维度特征的提取提供了基础。

对于S51，将所述待分析的融合特征输入第一卷积块进行卷积，将卷积得到的特征作为第一卷积特征。

对于S52，将所述第一卷积特征输入第二卷积块进行卷积，将卷积得到的特征作为第二卷积特征。

对于S53，将所述第二卷积特征输入第三卷积块进行卷积，将卷积得到的特征作为第三卷积特征。

对于S54，将所述第三卷积特征输入第四卷积块进行卷积，将卷积得到的特征作为所述待处理的抽象特征。

可以理解的是，第一卷积层、第二卷积层、第三卷积层、第四卷积层还可以采用其他激活函数，比如，sigmoid函数，tanh函数，ReLU函数，在此不做具体限定。

第一最大池化层采用(2，2)，第二最大池化层采用(4，2)，第三最大池化层采用(4，2)，第四最大池化层采用(4，2)，其中，括号中前一个数是池化矩阵的行数，括号中后一个数是池化矩阵的列数。

第一随机失活层、第二随机失活层、第三随机失活层、第四随机失活层都是随机失活层(Dropout)。第一随机失活层、第二随机失活层、第三随机失活层、第四随机失活层的机失活参数设置为0.1。可以理解的是，第一随机失活层、第二随机失活层、第三随机失活层、第四随机失活层的机失活参数还可以设置为其他数值，在此不做限定。

在一个实施例中，上述将所述待处理的抽象特征进行时间序列维度特征的提取，得到待融合的时间序列维度特征的步骤，包括：

S61：将所述待处理的抽象特征输入第一门控循环单元进行时间序列维度特征的提取，得到待处理的时间序列维度特征；

S62：将所述待处理的时间序列维度特征输入第二门控循环单元进行时间序列维度特征的提取，得到所述待融合的时间序列维度特征。

本实施例实现了采用两个门控循环单元进行时间序列维度特征的提取，为后续准确进行分类概率预测提供了支持，进一步提高了歌手识别的准确率。

对于S61，将所述待处理的抽象特征输入第一门控循环单元进行时间序列维度特征的提取，将提取到的时间序列维度特征作为待处理的时间序列维度特征。

对于S62，将所述待处理的时间序列维度特征输入第二门控循环单元进行时间序列维度特征的提取，将提取到的时间序列维度特征作为所述待融合的时间序列维度特征。

第一门控循环单元和第二门控循环单元完全相同，结构都采用32个单元，随机失活参数都设置为0.3。

在一个实施例中，上述对所述待识别的歌曲音频进行音乐中层特征的提取，得到待融合的音乐中层特征的步骤，包括：

S71：将所述待识别的歌曲音频输入目标音乐中层特征提取模型进行音乐中层特征的提取，得到所述待融合的音乐中层特征，其中，所述目标音乐中层特征提取模型是基于预训练Inception V3网络训练得到的模型。

本实施例实现了基于预训练Inception V3网络训练得到的模型进行音乐中层特征的提取，从而有利于提高提取的音乐中层特征的准确性，进一步提高了歌手识别的准确率。

对于S71，将所述待识别的歌曲音频输入目标音乐中层特征提取模型进行音乐中层特征的提取，将提取的音乐中层特征作为所述待融合的音乐中层特征。

Inception卷积神经网络应用的核心领域的计算机视觉的模型。Inception V3是Inception模型的V3版本。

在一个实施例中，上述根据所述待预测分类的特征数据进行分类概率预测和歌手确定，得到所述待识别的歌曲音频对应的目标歌手的步骤，包括：

S91：将所述待预测分类的特征数据输入分类概率预测模块进行分类概率的预测，得到分类概率预测结果，其中，所述分类概率预测模块采用全连接层结合softmax激活函数进行分类概率预测；

S92：从所述分类概率预测结果中获取最大概率，得到目标概率；

S93：将目标概率对应的歌手作为所述待识别的歌曲音频对应的所述目标歌手。

本实施例采用全连接层结合softmax激活函数进行分类概率预测，再从所述分类概率预测结果中获取最大概率，将最大概率对应的歌手作为目标歌手，从而准确的识别出了待识别的歌曲音频的歌手。

对于S91，所述分类概率预测模块的全连接层的神经元的数量和分类标签的数量相同，每个分类标签对应一个神经元，每个分类标签对应一个歌手。

对于S92，从所述分类概率预测结果中获取最大概率，将提取的最大概率作为目标概率。

对于S93，将目标概率对应的分类标签对应的歌手作为所述待识别的歌曲音频对应的所述目标歌手。

参照图2，本申请还提出了一种歌手识别装置，所述装置包括：

歌曲音频获取模块100，用于获取待识别的歌曲音频；

待融合的梅尔频谱确定模块200，用于对所述待识别的歌曲音频进行梅尔频谱提取，得到待融合的梅尔频谱；

待融合的声纹特征确定模块300，用于对所述待识别的歌曲音频进行声纹特征提取，得到待融合的声纹特征；

待分析的融合特征确定模块400，用于对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，得到待分析的融合特征；

待处理的抽象特征确定模块500，用于对所述待分析的融合特征进行降维处理和特征提取，得到待处理的抽象特征；

待融合的时间序列维度特征确定模块600，用于将所述待处理的抽象特征进行时间序列维度特征的提取，得到待融合的时间序列维度特征；

待融合的音乐中层特征确定模块700，用于对所述待识别的歌曲音频进行音乐中层特征的提取，得到待融合的音乐中层特征；

待预测分类的特征数据确定模块800，用于对所述待融合的时间序列维度特征和所述待融合的音乐中层特征进行融合处理，得到待预测分类的特征数据；

目标歌手确定模块900，用于根据所述待预测分类的特征数据进行分类概率预测和歌手确定，得到所述待识别的歌曲音频对应的目标歌手。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存歌手识别方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种歌手识别方法。所述歌手识别方法，包括：获取待识别的歌曲音频；对所述待识别的歌曲音频进行梅尔频谱提取，得到待融合的梅尔频谱；对所述待识别的歌曲音频进行声纹特征提取，得到待融合的声纹特征；对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，得到待分析的融合特征；对所述待分析的融合特征进行降维处理和特征提取，得到待处理的抽象特征；将所述待处理的抽象特征进行时间序列维度特征的提取，得到待融合的时间序列维度特征；对所述待识别的歌曲音频进行音乐中层特征的提取，得到待融合的音乐中层特征；对所述待融合的时间序列维度特征和所述待融合的音乐中层特征进行融合处理，得到待预测分类的特征数据；根据所述待预测分类的特征数据进行分类概率预测和歌手确定，得到所述待识别的歌曲音频对应的目标歌手。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种歌手识别方法，包括步骤：获取待识别的歌曲音频；对所述待识别的歌曲音频进行梅尔频谱提取，得到待融合的梅尔频谱；对所述待识别的歌曲音频进行声纹特征提取，得到待融合的声纹特征；对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，得到待分析的融合特征；对所述待分析的融合特征进行降维处理和特征提取，得到待处理的抽象特征；将所述待处理的抽象特征进行时间序列维度特征的提取，得到待融合的时间序列维度特征；对所述待识别的歌曲音频进行音乐中层特征的提取，得到待融合的音乐中层特征；对所述待融合的时间序列维度特征和所述待融合的音乐中层特征进行融合处理，得到待预测分类的特征数据；根据所述待预测分类的特征数据进行分类概率预测和歌手确定，得到所述待识别的歌曲音频对应的目标歌手。

上述执行的歌手识别方法，通过对待识别的歌曲音频进行梅尔频谱提取，得到待融合的梅尔频谱；对待识别的歌曲音频进行声纹特征提取，得到待融合的声纹特征；对待融合的梅尔频谱和待融合的声纹特征进行融合处理，得到待分析的融合特征；对待分析的融合特征进行降维处理和特征提取，得到待处理的抽象特征；将待处理的抽象特征进行时间序列维度特征的提取，得到待融合的时间序列维度特征；对待识别的歌曲音频进行音乐中层特征的提取，得到待融合的音乐中层特征；对待融合的时间序列维度特征和待融合的音乐中层特征进行融合处理，得到待预测分类的特征数据；根据待预测分类的特征数据进行分类概率预测和歌手确定，得到待识别的歌曲音频对应的目标歌手，通过提取声纹特征有效消除了伴奏的影响，通过提取音乐中层特征可以增加对歌曲类型或风格的识别，从而提高了歌手识别的准确率，有利于音乐库的管理。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种歌手识别方法，其特征在于，所述方法包括：

获取待识别的歌曲音频；

对所述待分析的融合特征进行降维处理和特征提取，其中，采用不同的4个卷积块进行降维处理和特征提取，得到了对图像在不同尺度的抽象特征；

将待处理的抽象特征进行时间序列维度特征的提取，得到待融合的时间序列维度特征；

对所述待识别的歌曲音频进行音乐中层特征的提取，得到待融合的音乐中层特征；所述音乐中层特征包括音乐的速度、节奏的稳定性；

根据所述待预测分类的特征数据进行分类概率预测和歌手确定，得到所述待识别的歌曲音频对应的目标歌手；

所述对所述待识别的歌曲音频进行声纹特征提取，得到待融合的声纹特征的步骤，包括：

将所述待识别的歌曲音频输入目标歌声分离模型进行人声特征分离，得到待分析的人声特征；所述目标歌声分离模型是基于open-unmix得到的模型；

将所述待分析的人声特征输入目标声纹识别模型进行声纹特征提取，得到所述待融合的声纹特征，其中，所述目标声纹识别模型在训练时采用包含噪声和混响的数据增强策略；所述目标声纹识别模型是基于X-vectors得到的模型；

所述对所述待识别的歌曲音频进行音乐中层特征的提取，得到待融合的音乐中层特征的步骤，包括：

将所述待识别的歌曲音频输入目标音乐中层特征提取模型进行音乐中层特征的提取，得到所述待融合的音乐中层特征，其中，所述目标音乐中层特征提取模型是基于预训练Inception V3网络训练得到的模型；

所述根据所述待预测分类的特征数据进行分类概率预测和歌手确定，得到所述待识别的歌曲音频对应的目标歌手的步骤，包括：

从所述分类概率预测结果中获取最大概率，得到目标概率；

2.根据权利要求1所述的歌手识别方法，其特征在于，所述对所述待融合的梅尔频谱和所述待融合的声纹特征进行融合处理，得到待分析的融合特征的步骤，包括：

3.根据权利要求1所述的歌手识别方法，其特征在于，所述对所述待分析的融合特征进行降维处理和特征提取，得到待处理的抽象特征的步骤，包括：

4.根据权利要求1所述的歌手识别方法，其特征在于，所述将所述待处理的抽象特征进行时间序列维度特征的提取，得到待融合的时间序列维度特征的步骤，包括：

5.一种歌手识别装置，用于实现权利要求1-4中任一项所述的方法，其特征在于，所述装置包括：

歌曲音频获取模块，用于获取待识别的歌曲音频；

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。