CN114627892A

CN114627892A - 一种基于深度学习的多声部音乐人声主旋律提取方法

Info

Publication number: CN114627892A
Application number: CN202210271946.6A
Authority: CN
Inventors: 陈彦如; 冯寅
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-06-14
Anticipated expiration: 2042-03-18
Also published as: CN114627892B

Abstract

一种基于深度学习的多声部音乐人声主旋律提取方法，涉及深度学习领域和音频信号处理领域。包括以下步骤：1)基于音高显著性的多声部音乐音频信号预处理：利用显著性函数中谐波求和，通过频谱图分析、相位谱计算、显著性图谱计算、归一化处理的步骤获得输入神经网络的数据特征；2)基于多分类神经网络进行音高估算：将步骤1)预处理方法中得出的显著性图谱作为神经网络的输入，通过一个用于分类的神经网络来估算逐帧的音高。集合传统方法中对音频特征分析的优势，能较好地提取出音频的音高显著性特征，同时结合深度学习的先进方法，搭建神经网络训练模型，在预测结果时比传统的计算方法要更加快速高效。

Description

一种基于深度学习的多声部音乐人声主旋律提取方法

技术领域

本发明涉及深度学习领域和音频信号处理领域，尤其是涉及音高显著性特征结合深度学习方法来提取多声部音乐人声主旋律的一种基于深度学习的多声部音乐人声主旋律提取方法。

背景技术

从一首带伴奏的歌曲中提取出人声哼唱的旋律部分，是音乐信息检索(MIR)中的一项重要而有难度的课题。旋律提取任务(Melody Extraction)，它以信号帧为单位，计算每一帧中人声的音高。同样的，此任务也包含两个部分，人声旋律检测(VoicingDetection)和音高检测(Pitch Detection)。目的是从中提取主旋律轮廓，在单个信号帧上表现出人声频率的波动。

目前应用于多声部音乐主旋律提取的方法主要有三种：

第一种是基于音高显著性，基本方法是通过对多声部音乐音频信号依次进行频谱分析、显著性音高表示、主旋律轮廓跟踪从而筛选代表人声基频的旋律轮廓。Goto(GotoM.A real-time music-scene-description system:Predominant-F0 estimation fordetecting melody and bass lines in real-world audio signals[J].SpeechCommunication,2004,43(4):311-329.)根据提取的峰值模型，对频谱多次过滤搜索峰值点从而得到轮廓。Cancela(Cancela P.Tracking melody in polyphonic audio.mirex 2008[J].Proc.of Music Information Retrieval Evaluation eXchange,2008)采用常数Q变换寻找谐波与基频关系从而追踪哼唱旋律的基频序列。Salamon和Gomez(Salamon,J.,&Gómez,E.Melody extraction from polyphonic music signals using pitch contourcharacteristics.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(6),1759-1770.)通过正弦识别重构频谱，利用谐波约分方法计算显著性图谱后，采用均值化筛选峰值点。由于被分析的音频信号受多声部伴奏干扰频谱复杂，若要估算出精度较高的显著性图谱需要庞大的计算量，耗时较多，且现有算法的准确率仍有待提高。

第二种是基于音源分离的方法，首先将多声部音乐分离为人声与伴奏的频谱，再对人声部分进行旋律的提取。R.Hennequin(R.Hennequin,A.Khlif,F.Voituret,andM.Moussallam,“Spleeter:A Fast and State-of-the Art Music SourceSeparationTool with Pre-Trained Models,”Late-Breaking/Demo ISMIR2019)提出spleeter方法，利用unet网络基于频域进行人声与伴奏的音轨分离。Rafii和pardo(RafiiZ,Pardo B.Repeating pattern extraction technique(REPET):A simple method formusic/voice separation[J].IEEE transactions on audio,speech,and languageprocessing,2012,21(1):73-84)使用混合声谱图的自相关运算来计算伴奏的重复周期，通过计算连续重复的频谱图的显著性可以获得仅包含伴奏的频谱图。此方法中人声旋律基频的估算结果很大程度受到音源分离效果的影响，准确率不够理想。

第三种是基于神经网络的方法，近几年随着深度学习的发展，数据驱动模式显得更为主流。Sangeun Kum和Junhan Nam(Kum,S.；Nam,J.Joint Detection andClassification of Singing Voice Melody Using Convolutional Recurrent NeuralNetworks.Appl.Sci.2019,9,1324.https://doi.org/10.3390/app9071324)设计联合型神经网络(JDC)，将人声检测与音高检测结合在同一个网络中训练。Park和Yoo(Park H,Yoo CD.Melody extraction and detection through LSTM-RNN with harmonic sum loss[C]//2017IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP).IEEE,2017:2766-2770)提出一种用于提取旋律的长短期记忆递归神经网络(LSTM-RNN)，该网络能够表现出旋律音高序列的动态变化。Bittner等人(RachelM.Bittner,Brian McFee,Justin Salamon,Peter Li,and Juan Pablo Bello.DeepSalience Representations for F0 Estimation in Polyphonic Music.In ISMIR,pages63–70,Suzhou,China,2017.)使用全卷积神经网络(FCNN)从音乐信号的常数Q变换表示中学习显著性表示，并通过为每个帧选择具有最大显著性的频率来估计旋律线。而多声部音乐主旋律提取的标注数据集仍较为匮乏，且多数基于深度学习而进行旋律提取的方法将重点放在神经网络的构建与训练，对音乐音频信号的特征分析有待提高，使该类方法仍存在改进空间。

发明内容

本发明的目的在于针对上述技术中存在的旋律提取以提取音高显著性特征为主，需要经过层层过滤与计算，从复杂的图谱中筛选出仅属于人声的主旋律音高，计算量较大，时间复杂度高，且准确率有限等问题，提供可解决传统基于信号处理方法中计算过程时间复杂度高，以及基于深度学习方法中对于音频信号特征学习不足的缺点，提高人声区音高估算的准确率以及计算的效率的一种基于深度学习的多声部音乐人声主旋律提取方法。

本发明包括以下步骤：

1)基于音高显著性的多声部音乐音频信号预处理：利用显著性函数中谐波求和，通过频谱图分析、相位谱计算、显著性图谱计算、归一化处理的步骤获得输入神经网络的数据特征；

2)基于多分类神经网络进行音高估算：将步骤1)预处理方法中得出的显著性图谱作为神经网络的输入，通过一个用于分类的神经网络来估算逐帧的音高。

在步骤1)中，所述多声部音乐音频信号预处理的具体步骤可为：

(1)通过短时快速傅里叶变换将音频时域信号转化为频域信号；

(2)根据相位声码器构建相位谱，计算瞬时频率与幅度；

(3)基于显著性函数的思想，构造显著性图谱来重建音高分布，将高次谐波的能量向下做累加，增强基频能量，每一帧中每一个音高的能量构成显著性图谱；为保留更多频谱特征以使神经网络更好学习，首先将瞬时频率转化为对数频率(即MIDI音高)，然后将每个频率对应的与之存在倍频关系的高次谐波向下做约分叠加，叠加的能量会随着倍频的提高而逐渐减小，最后对每一帧进行高斯函数滤波，抑制低频区域的能量，增强系统的鲁棒性；

(4)计算显著性图谱的平均值矩阵以及标准差矩阵，通过z-score的方式进行归一化处理。

在步骤2)中，所述基于多分类神经网络进行音高估算的具体步骤可为：

(1)标注处理：将多声部音乐人声旋律的提取作为一个分类问题，将连续的基频F0值量化为600个类，将音高范围设定从A1到A6之间的五个八度60个半音，即从55hz到1760hz的频率范围，覆盖常规的人声可达到音域，分辨率为1/10半音(10音分)；另外添加一个类来表示非人声状态，共601个分类；将训练集的标注(ground truth)处理为两组数据，第一个数据将每帧对应的频率转化为601个类别的音高，表示为一个one-hot向量，使用分类交叉熵(cross entropy)计算损失函数，第二个数据将每帧对应的频率处理为表示“人声帧/非人声帧”的“1/0”标签，使用二分类交叉熵(binary cross entropy)计算损失函数；

2)网络结构：负责音高估算的改进的检测分类联合神经网络由1个卷积模块ConvBlock，2个ResNeXt Block和1个池化模块PoolBlock组成，中间引入CBAM注意力机制模块，自适应地学习特征的权重分配，顶层加入一个双向长短期记忆神经网络(Bi-LSTM)来预测音高的输出；其中ConvBlock由两个3×3卷积(Conv)层，一个激活函数LReLU层和一个批量归一化BN层和组成的模块；PoolBlock是另一个由BN层、LReLU层、最大池化(MaxPool)层组成的模块；ResNeXt Block包含Conv Block的结构，一个额外的LReLU/BN层，一个池化大小为4的MaxPool层和一个跳跃连接skip connection，根据ResNeXt网络原理构建；CBAM注意力机制包括空间注意力模块SAM和通道注意力模块CAM两个子模块，分别汇总空间和通道两方面的注意力信息，并将信息进行一定程度的综合。

3)损失函数：将音高多分类损失与语音检测损失相结合，计算出最终的损失函数L合计为：

与现有技术相比，本发明具有以下突出的技术效果：

本发明解决传统基于信号处理方法中计算过程时间复杂度高，以及基于深度学习方法中对于音频信号特征学习不足的缺点，基于深度学习方法以及音高显著性方法，结合两者优点并加以改进，通过音高显著性特征的分析为神经网络的学习提供更为全面准确的特征。本发明提出的方法在测试数据集中表现出较好准确率，本发明集合传统方法中对音频特征分析的优势，能较好地提取出音频的音高显著性特征，同时结合深度学习的先进方法，搭建神经网络训练模型，在预测结果时比传统的计算方法要更加快速高效。

附图说明

图1为ResneXt与ResNet对比图。左图为ResNet block，右图为带有32个cardinality的ResNeXtblock结构。

图2为多声部音乐人声旋律发明方法流程图。

图3为CMAB注意力机制结构图。上图为CMAB结构图，中图为子模块CAM结构图，下图为子模块SAM结构图.

图4为ResNeXt Block结构图。

图5为本发明实施例adc04中的歌曲“daisy2.wav”的旋律提取结果示意图。背景为计算的显著性图谱，其中横轴代表歌曲时间，单位是10ms，纵轴代表以10音分为单位的600个音高类别，线条为预测的旋律轮廓。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下实施例将结合附图对本发明进行作进一步的说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，以下对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

本实施例所述方法包括以下两部分：

1、基于音高显著性的多声部音乐音频信号预处理方法

基于显著性图谱的算法的核心是估算在期望的旋律范围内每个可能的人声音高值随时间变化的显著性。大多数方法都使用某种形式的谐波求和，通过该形式，音调的显著性可以作为其谐波频率幅度的加权总和来计算。本方法利用显著性函数中谐波求和的思想，通过频谱图分析、相位谱计算、显著性图谱计算、归一化处理的步骤来获得输入神经网络的数据特征。

1)通过短时快速傅里叶变换(STFT)将音频时域信号转化为频域信号。

2)根据Flanagan and Golden提出的著名方法相位声码器(phase vocoder)(Flanagan J L,Golden R M.Phase vocoder[J].Bell System Technical Journal,1966,45(9):1493-1509.)构建相位谱，计算瞬时频率与幅度。

3)参考Salamon和Gómez提出的显著性函数(Salamon,J.,&Gómez,E.Melodyextraction from polyphonic music signals using pitch contourcharacteristics.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(6),1759-1770)的思想，构造显著性图谱来重建音高分布，将高次谐波的能量向下做累加，增强基频能量，每一帧中每一个音高的能量构成显著性图谱。为尽可能保留更多的频谱特征以使神经网络更好的学习，本发明没有对每帧取能量峰值点而排除其他存在能量的频率点。首先将瞬时频率转化为对数频率(即MIDI音高)，接下来将每个频率对应的与之存在倍频关系的高次谐波向下做约分叠加，叠加的能量将会随着倍频的提高而逐渐减小，最后对每一帧进行高斯函数滤波，抑制低频区域的能量，增强系统的鲁棒性。

4)计算显著性图谱的平均值矩阵以及标准差矩阵，通过z-score的方式进行归一化处理。

2、基于多分类神经网络的音高计算方法

将预处理方法中计算出的显著性图谱作为神经网络的输入，通过一个用于分类的神经网络来估算逐帧的音高。

1)标注处理：本方法将多声部音乐人声旋律的提取作为一个分类问题，将连续的基频F0值量化为600个类，将音高范围设定从A1到A6之间的五个八度60个半音，即从55hz到1760hz的频率范围，覆盖了常规的人声可达到音域，分辨率为1/10半音(10音分)。另外需要添加了一个类来表示非人声状态，因此总共是601个分类。将训练集的标注(ground truth)处理为两组数据，第一个数据将每帧对应的频率转化为601个类别的音高，表示为一个one-hot向量，使用分类交叉熵(cross entropy)来计算损失函数，第二个数据将每帧对应的频率处理为表示“人声帧/非人声帧”的“1/0”标签，使用二分类交叉熵(binary crossentropy)来计算损失函数。

2)网络结构：本方法中负责音高估算的改进的检测分类联合神经网络由1个卷积模块ConvBlock，2个ResNeXt Block和1个池化模块PoolBlock组成，中间引入CBAM注意力机制模块，自适应地学习特征的权重分配，顶层加入一个双向长短期记忆神经网络(Bi-LSTM)来预测音高的输出。其中ConvBlock是由两个3×3卷积(Conv)层，一个激活函数PReLU层和一个批量归一化BN层和组成的模块。PoolBlock是另一个由BN层、PReLU层、最大池化(MaxPool)层组成的模块。ResNeXt Block包含Conv Block的结构，除此之外有一个额外的PReLU/BN层，一个池化大小为4的MaxPool层，和一个跳跃连接skip connection，是根据ResNeXt网络原理构建而成，ResNeXt Block结构如图4所示。CBAM注意力机制包括空间注意力模块SAM和通道注意力模块CAM两个子模块，分别汇总空间和通道两方面的注意力信息，并将信息进行一定程度的综合。

ResNeXt与ResNet网络结构相比，大的结构类似，都采用了残差恒等，但ResNeXt在卷积层增加了cardinality维度，实验中使用参数8。ResNeXt对输入的通道分为8组，卷积核的通道和个数都分为8组来分别对输入做卷积，最后的结果就是8组的输出，通道合并(concatenate)否就是总通道的输出。由于ResNeXt利用了分组(group)卷积，既有便于训练的残缺结构又对特征层进行了多角度理解。ResneXt与ResNet对比如图1所示，左图为ResNet block，右图为带有32个cardinality的ResNeXtblock结构。

CBAM是由Woo等人(Woo,S.,Park,J.,Lee,JY.,Kweon,I.S.(2018).CBAM:Convolutional Block Attention Module.In:Ferrari,V.,Hebert,M.,Sminchisescu,C.,Weiss,Y.(eds)Computer Vision–ECCV 2018.ECCV 2018.Lecture Notes in ComputerScience(),vol 11211.Springer,Cham.)提出的一种轻量的注意力模块(CBAM，Convolutional Block Attention Module)，可以在通道和空间维度上进行Attention。CBAM结构如图3所示。可以看到CBAM包含2个独立的子模块，通道注意力模块(ChannelAttention Module，CAM)和空间注意力模块(Spartial Attention Module，SAM)，分别进行通道与空间上的Attention。本方法在ResNeXt和BiLSTM经典结构中添加CBAM模块，它能够自适应的学习特征图中的有效信息，然后将注意力机制得到的权重乘以输入特征图以进行自适应特征细化，使接下来的Bi-LSTM模块实现更精准的音高预测。

3)损失函数：受联合神经网络研究的启发，将人声旋律提取和歌曲人声检测任务相结合进行优化可以在一定程度上提高性能，本实验将音高多分类损失与语音检测损失相结合，计算出最终的损失函数L合计为:

以下给出具体实施例。

如图2，本实施例包括以下步骤：

1、对多声部音乐音频信号进行预处理，构造显著性图谱

1)对音频时域信号进行短时快速傅立叶变换(STFT)，将其转换为频域信号，在分帧时将音频信号转换为帧级别的信号。每一帧的长度直接与窗移有关，采样率为8000Hz，窗长为1024，窗移为80，窗移与采样率之比正好与基本时间单位10ms一致。

2)构建相位谱，计算瞬时频率与幅度。首先计算对应的相位谱，先计算相角，然后由频谱图中每一帧相角

与前一帧相角

的相角差，构建相位谱。其中相角的计算方式如下：

将频谱图中每一帧相角

与前一帧相角

进行如下计算：

其中，N表示FFT的窗长选取1024，H是窗移取80，

即纵轴中的每一格，E为构造的归一化函数，使频谱图的各列计算的相位角差稳定分布在区间(-1,1)内。瞬时幅值计算方式如下：

其中，A_l表示每一帧每个频率点的幅度，该核函数按比例降低了低频区域和高频区域的能量，降低因伴奏和倍频能量过大而造成后续旋律提取的误差。通过核函数重新计算幅度，得到瞬时幅度

根据相位角差得到的f_l计算正弦峰的瞬时频率大小，表示频率分辨率与中心频率间的偏移量，公式如下：

瞬时频率

为每个频率分辨率所对应的频率与f_l的叠加。

3)构造显著性图谱，将高次谐波的能量向下做累加，每一帧中每一个音高的能量构成显著性图谱。首先将瞬时频率转化为对数频率(即MIDI音高)，对每个频率

计算MIDI音高的公式如下

本实施例中将音高范围设定从A1到A6之间的五个八度60个半音，即从55hz到1760hz的频率范围，覆盖了常规的人声可达到音域，分辨率为1/10半音(10音分)，即共有600个类别的音高。接下来将峰值点

对应的高次谐波向下做约分叠加，叠加的能量将会随着倍频的提高而逐渐减小，方程如下：

其中，

变量η确定是否存在倍频关系，判断能量存在点的各个八度与基频音高差的绝对值小于半音的条件，从而将谐波的能量以一定的分数叠加到基频中，I对应划分的600个音高区间，N代表向上取谐波的次数，每一帧中每一个音高的能量构成显著性图谱，α为高次谐波衰减的参数。将计算出的谐波峰值能量取余弦变化在乘以谐波次数的幂指数，也是对谐波能量叠加的一次衰减。

为了进一步提升人声旋律的比重以及调节不同频域带的相对平衡，通过对每一帧进行高斯函数滤波，抑制低频区域的能量，方程如下：

4)通过z-score的方式进行归一化处理，计算显著性图谱的平均值矩阵μ以及标准差矩阵σ，公式如下：

2、利用神经网络训练多分类模型进行音高估算

1)输入：根据上述预处理步骤将计算完成的显著性图谱作为神经网络的x_train进行输入，并将其以40帧为一组切割成shape＝(40,601)的多个矩阵。根据技术方案中所述的标注处理的方法将训练集的标注处理为若干个包含601个音高类别的one-hot向量和shape＝(40,2)的“0/1”向量的两组矩阵，作为y_train输入神经网络。

2)训练：网络结构根据技术方案中所述的进行搭建。使用He uniform初始化对网络参数进行随机初始化，使用技术方案中自定义的损失函数,并用Adam优化器对其进行训练对所有的训练数据进行了长达50个epoch的重复训练，初始学习率设置为0.001，训练使用GPU进行。

3)预测：首先将一首歌曲进行上述的预处理计算作为x_test，然后将得到的矩阵输入训练好的模型进行预测，输出的结果与y_train结构一致，由若干个shape＝(40,601)和shape＝(40,2)的矩阵组成，仅取多分类音高估算的结果，对每帧的601个类别预测取argmax，得到可能性最大的音高作为该帧预测值，最终输出每帧对应的音高序列。

图5给出为adc04中的歌曲“daisy2.wav”的旋律提取结果示意图，背景为计算的显著性图谱，其中横轴代表歌曲时间，单位是10ms，纵轴代表以10音分为单位的600个音高类别，线条为预测的旋律轮廓。从图5可以看出，预测的旋律轮廓与提取的音高显著性特征图谱中较为显著的旋律区域重合度高，较为相符，说明本方法构建的神经网络对旋律轮廓的提取有着较高的准确率，且对音乐信号预处理得到的显著性图谱作为神经网络的输入，对于音高显著性特征的表示以及对于伴奏谐波的过滤都发挥了良好的作用。

以下给出本发明方法与现有方法对比结果分析。

1)数据集

本实施例使用的数据集均为MIREX比赛中用于该任务的常用数据集。

·训练集：MIR-1K数据集由1000个中文流行歌曲卡拉ok片段构成。将整个数据集按照0.7,0.15,0.15的比例随机划分为训练集、验证集以及测试集。使用其中的训练集与验证集进行神经网络的训练与验证。

·测试集：本实施例使用了三个测试集进行旋律提取结果的测试。

a)MIR-1K数据集中划分出来的测试集。

b)ADC04：由20个歌曲片段构成，包含流行音乐、爵士乐、歌剧以及从MIDI文件合成的音乐音频。将MIDI歌曲排除在测试集之外。

c)MIREX05：由13个歌曲片段构成，包含摇滚、布鲁斯、流行、爵士，以及从MIDI文件合成的音频。同样将MIDI歌曲排除在测试之外。

2)评估标准

根据MIREX给出的评价指标，主要包括下列五个标准：

·VR(voicing recall rate)：算法识别为人声帧且标注中也是人声帧的概率；

·VFA(voicing false alarm rate)：算法识别为人声帧，而标注中是非人声帧的概率；

·RPA(raw pitch accuracy)：算法识别的人声帧音高与标注中人声帧音高差的绝对值在0.25音高范围内的正确音高，与标注中总人声帧数的比值；

·RCA(raw chroma accuracy)：算法识别的人声帧音高与标注中人声帧音高差的绝对值在25音分范围内，加上允许产生的八度误差的音高，与标注中总人声帧数的比值；

·OA(overall accuracy)：算法识别的非人声帧且标注中也是非人声帧的，以及识别的人声帧音高与标注中人声帧音高差的绝对值在25个音分内的音高，与标注中总帧数的比值。

3)结果对比

在上述三个测试集上测试实验结果，并与其他先进方法的结果作对比，结果如下表所示，其中SG是Salamon和Gómez(Salamon,J.,&Gómez,E.Melody extraction frompolyphonic music signals using pitch contour characteristics.IEEETransactions on Audio,Speech,and Language Processing,2012,20(6),1759-1770)提出的基于显著性函数的方法在MIREX大赛中的结果，AH1、HL1皆为MIREX2020大赛旋律提取项目中性能较佳的两种方法的结果。

表1 ADC04数据集测试结果对比

表2 MIREX05数据集测试结果对比

表3 MIR-1K数据集测试结果

从表1～3中可以看出，本发明提出的方法在测试的三个数据集中都表现出较好的准确率，在MIREX05中表现优于其他方法，在ADC04中也略高于其他先进方法。本发明提出的方法在检测速度、精度上都达到较好的性能。本发明集合传统方法中对音频特征分析的优势，能较好地提取出音频的音高显著性特征，同时结合深度学习的先进方法，搭建神经网络训练模型，在预测结果时比传统的计算方法要更加快速高效。

Claims

1.一种基于深度学习的多声部音乐人声主旋律提取方法，其特征在于包括以下步骤：

2.如权利要求1所述一种基于深度学习的多声部音乐人声主旋律提取方法，其特征在于在步骤1)中，所述多声部音乐音频信号预处理的具体步骤为：

(2)根据相位声码器构建相位谱，计算瞬时频率与幅度；

(3)基于显著性函数的思想，构造显著性图谱来重建音高分布，将高次谐波的能量向下做累加，增强基频能量，每一帧中每一个音高的能量构成显著性图谱；为保留更多频谱特征以使神经网络更好学习，首先将瞬时频率转化为对数频率，即MIDI音高，然后将每个频率对应的与之存在倍频关系的高次谐波向下做约分叠加，叠加的能量会随着倍频的提高而逐渐减小，最后对每一帧进行高斯函数滤波，抑制低频区域的能量，增强系统的鲁棒性；

3.如权利要求1所述一种基于深度学习的多声部音乐人声主旋律提取方法，其特征在于在步骤2)中，所述基于多分类神经网络进行音高估算的具体步骤为：

(1)标注处理：将多声部音乐人声旋律的提取作为一个分类问题，将连续的基频F0值量化为600个类，将音高范围设定从A1到A6之间的五个八度60个半音，即从55hz到1760hz的频率范围，覆盖常规的人声可达到音域，分辨率为1/10半音；另外添加一个类来表示非人声状态，共601个分类；将训练集的标注处理为两组数据，第一个数据将每帧对应的频率转化为601个类别的音高，表示为一个one-hot向量，使用分类交叉熵计算损失函数，第二个数据将每帧对应的频率处理为表示“人声帧/非人声帧”的“1/0”标签，使用二分类交叉熵计算损失函数；

2)网络结构：负责音高估算的联合神经网络由1个卷积模块ConvBlock，2个ResNeXtBlock和1个池化模块PoolBlock组成，中间引入CBAM注意力机制模块，自适应地学习特征的权重分配，顶层加入一个双向长短期记忆神经网络Bi-LSTM来预测音高的输出；其中ConvBlock由两个3×3卷积层，一个激活函数LReLU层和一个批量归一化BN层和组成的模块；PoolBlock是另一个由BN层、LReLU层、最大池化层组成的模块；ResNeXt Block包含ConvBlock的结构，一个额外的LReLU/BN层，一个池化大小为4的MaxPool层和一个跳跃连接skipconnection，根据ResNeXt网络原理构建；CBAM注意力机制包括空间注意力模块SAM和通道注意力模块CAM两个子模块，分别汇总空间和通道两方面的注意力信息，并将信息进行一定程度的综合；