CN114627892A - 一种基于深度学习的多声部音乐人声主旋律提取方法 - Google Patents

一种基于深度学习的多声部音乐人声主旋律提取方法 Download PDF

Info

Publication number
CN114627892A
CN114627892A CN202210271946.6A CN202210271946A CN114627892A CN 114627892 A CN114627892 A CN 114627892A CN 202210271946 A CN202210271946 A CN 202210271946A CN 114627892 A CN114627892 A CN 114627892A
Authority
CN
China
Prior art keywords
pitch
frequency
neural network
frame
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210271946.6A
Other languages
English (en)
Inventor
陈彦如
冯寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202210271946.6A priority Critical patent/CN114627892A/zh
Publication of CN114627892A publication Critical patent/CN114627892A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

一种基于深度学习的多声部音乐人声主旋律提取方法,涉及深度学习领域和音频信号处理领域。包括以下步骤:1)基于音高显著性的多声部音乐音频信号预处理:利用显著性函数中谐波求和,通过频谱图分析、相位谱计算、显著性图谱计算、归一化处理的步骤获得输入神经网络的数据特征;2)基于多分类神经网络进行音高估算:将步骤1)预处理方法中得出的显著性图谱作为神经网络的输入,通过一个用于分类的神经网络来估算逐帧的音高。集合传统方法中对音频特征分析的优势,能较好地提取出音频的音高显著性特征,同时结合深度学习的先进方法,搭建神经网络训练模型,在预测结果时比传统的计算方法要更加快速高效。

Description

一种基于深度学习的多声部音乐人声主旋律提取方法
技术领域
本发明涉及深度学习领域和音频信号处理领域,尤其是涉及音高显著性特征结合深度学习方法来提取多声部音乐人声主旋律的一种基于深度学习的多声部音乐人声主旋律提取方法。
背景技术
从一首带伴奏的歌曲中提取出人声哼唱的旋律部分,是音乐信息检索(MIR)中的一项重要而有难度的课题。旋律提取任务(Melody Extraction),它以信号帧为单位,计算每一帧中人声的音高。同样的,此任务也包含两个部分,人声旋律检测(VoicingDetection)和音高检测(Pitch Detection)。目的是从中提取主旋律轮廓,在单个信号帧上表现出人声频率的波动。
目前应用于多声部音乐主旋律提取的方法主要有三种:
第一种是基于音高显著性,基本方法是通过对多声部音乐音频信号依次进行频谱分析、显著性音高表示、主旋律轮廓跟踪从而筛选代表人声基频的旋律轮廓。Goto(GotoM.A real-time music-scene-description system:Predominant-F0 estimation fordetecting melody and bass lines in real-world audio signals[J].SpeechCommunication,2004,43(4):311-329.)根据提取的峰值模型,对频谱多次过滤搜索峰值点从而得到轮廓。Cancela(Cancela P.Tracking melody in polyphonic audio.mirex 2008[J].Proc.of Music Information Retrieval Evaluation eXchange,2008)采用常数Q变换寻找谐波与基频关系从而追踪哼唱旋律的基频序列。Salamon和Gomez(Salamon,J.,&Gómez,E.Melody extraction from polyphonic music signals using pitch contourcharacteristics.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(6),1759-1770.)通过正弦识别重构频谱,利用谐波约分方法计算显著性图谱后,采用均值化筛选峰值点。由于被分析的音频信号受多声部伴奏干扰频谱复杂,若要估算出精度较高的显著性图谱需要庞大的计算量,耗时较多,且现有算法的准确率仍有待提高。
第二种是基于音源分离的方法,首先将多声部音乐分离为人声与伴奏的频谱,再对人声部分进行旋律的提取。R.Hennequin(R.Hennequin,A.Khlif,F.Voituret,andM.Moussallam,“Spleeter:A Fast and State-of-the Art Music SourceSeparationTool with Pre-Trained Models,”Late-Breaking/Demo ISMIR2019)提出spleeter方法,利用unet网络基于频域进行人声与伴奏的音轨分离。Rafii和pardo(RafiiZ,Pardo B.Repeating pattern extraction technique(REPET):A simple method formusic/voice separation[J].IEEE transactions on audio,speech,and languageprocessing,2012,21(1):73-84)使用混合声谱图的自相关运算来计算伴奏的重复周期,通过计算连续重复的频谱图的显著性可以获得仅包含伴奏的频谱图。此方法中人声旋律基频的估算结果很大程度受到音源分离效果的影响,准确率不够理想。
第三种是基于神经网络的方法,近几年随着深度学习的发展,数据驱动模式显得更为主流。Sangeun Kum和Junhan Nam(Kum,S.;Nam,J.Joint Detection andClassification of Singing Voice Melody Using Convolutional Recurrent NeuralNetworks.Appl.Sci.2019,9,1324.https://doi.org/10.3390/app9071324)设计联合型神经网络(JDC),将人声检测与音高检测结合在同一个网络中训练。Park和Yoo(Park H,Yoo CD.Melody extraction and detection through LSTM-RNN with harmonic sum loss[C]//2017IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP).IEEE,2017:2766-2770)提出一种用于提取旋律的长短期记忆递归神经网络(LSTM-RNN),该网络能够表现出旋律音高序列的动态变化。Bittner等人(RachelM.Bittner,Brian McFee,Justin Salamon,Peter Li,and Juan Pablo Bello.DeepSalience Representations for F0 Estimation in Polyphonic Music.In ISMIR,pages63–70,Suzhou,China,2017.)使用全卷积神经网络(FCNN)从音乐信号的常数Q变换表示中学习显著性表示,并通过为每个帧选择具有最大显著性的频率来估计旋律线。而多声部音乐主旋律提取的标注数据集仍较为匮乏,且多数基于深度学习而进行旋律提取的方法将重点放在神经网络的构建与训练,对音乐音频信号的特征分析有待提高,使该类方法仍存在改进空间。
发明内容
本发明的目的在于针对上述技术中存在的旋律提取以提取音高显著性特征为主,需要经过层层过滤与计算,从复杂的图谱中筛选出仅属于人声的主旋律音高,计算量较大,时间复杂度高,且准确率有限等问题,提供可解决传统基于信号处理方法中计算过程时间复杂度高,以及基于深度学习方法中对于音频信号特征学习不足的缺点,提高人声区音高估算的准确率以及计算的效率的一种基于深度学习的多声部音乐人声主旋律提取方法。
本发明包括以下步骤:
1)基于音高显著性的多声部音乐音频信号预处理:利用显著性函数中谐波求和,通过频谱图分析、相位谱计算、显著性图谱计算、归一化处理的步骤获得输入神经网络的数据特征;
2)基于多分类神经网络进行音高估算:将步骤1)预处理方法中得出的显著性图谱作为神经网络的输入,通过一个用于分类的神经网络来估算逐帧的音高。
在步骤1)中,所述多声部音乐音频信号预处理的具体步骤可为:
(1)通过短时快速傅里叶变换将音频时域信号转化为频域信号;
(2)根据相位声码器构建相位谱,计算瞬时频率与幅度;
(3)基于显著性函数的思想,构造显著性图谱来重建音高分布,将高次谐波的能量向下做累加,增强基频能量,每一帧中每一个音高的能量构成显著性图谱;为保留更多频谱特征以使神经网络更好学习,首先将瞬时频率转化为对数频率(即MIDI音高),然后将每个频率对应的与之存在倍频关系的高次谐波向下做约分叠加,叠加的能量会随着倍频的提高而逐渐减小,最后对每一帧进行高斯函数滤波,抑制低频区域的能量,增强系统的鲁棒性;
(4)计算显著性图谱的平均值矩阵以及标准差矩阵,通过z-score的方式进行归一化处理。
在步骤2)中,所述基于多分类神经网络进行音高估算的具体步骤可为:
(1)标注处理:将多声部音乐人声旋律的提取作为一个分类问题,将连续的基频F0值量化为600个类,将音高范围设定从A1到A6之间的五个八度60个半音,即从55hz到1760hz的频率范围,覆盖常规的人声可达到音域,分辨率为1/10半音(10音分);另外添加一个类来表示非人声状态,共601个分类;将训练集的标注(ground truth)处理为两组数据,第一个数据将每帧对应的频率转化为601个类别的音高,表示为一个one-hot向量,使用分类交叉熵(cross entropy)计算损失函数,第二个数据将每帧对应的频率处理为表示“人声帧/非人声帧”的“1/0”标签,使用二分类交叉熵(binary cross entropy)计算损失函数;
2)网络结构:负责音高估算的改进的检测分类联合神经网络由1个卷积模块ConvBlock,2个ResNeXt Block和1个池化模块PoolBlock组成,中间引入CBAM注意力机制模块,自适应地学习特征的权重分配,顶层加入一个双向长短期记忆神经网络(Bi-LSTM)来预测音高的输出;其中ConvBlock由两个3×3卷积(Conv)层,一个激活函数LReLU层和一个批量归一化BN层和组成的模块;PoolBlock是另一个由BN层、LReLU层、最大池化(MaxPool)层组成的模块;ResNeXt Block包含Conv Block的结构,一个额外的LReLU/BN层,一个池化大小为4的MaxPool层和一个跳跃连接skip connection,根据ResNeXt网络原理构建;CBAM注意力机制包括空间注意力模块SAM和通道注意力模块CAM两个子模块,分别汇总空间和通道两方面的注意力信息,并将信息进行一定程度的综合。
3)损失函数:将音高多分类损失与语音检测损失相结合,计算出最终的损失函数L合计为:
Figure BDA0003553812970000041
与现有技术相比,本发明具有以下突出的技术效果:
本发明解决传统基于信号处理方法中计算过程时间复杂度高,以及基于深度学习方法中对于音频信号特征学习不足的缺点,基于深度学习方法以及音高显著性方法,结合两者优点并加以改进,通过音高显著性特征的分析为神经网络的学习提供更为全面准确的特征。本发明提出的方法在测试数据集中表现出较好准确率,本发明集合传统方法中对音频特征分析的优势,能较好地提取出音频的音高显著性特征,同时结合深度学习的先进方法,搭建神经网络训练模型,在预测结果时比传统的计算方法要更加快速高效。
附图说明
图1为ResneXt与ResNet对比图。左图为ResNet block,右图为带有32个cardinality的ResNeXtblock结构。
图2为多声部音乐人声旋律发明方法流程图。
图3为CMAB注意力机制结构图。上图为CMAB结构图,中图为子模块CAM结构图,下图为子模块SAM结构图.
图4为ResNeXt Block结构图。
图5为本发明实施例adc04中的歌曲“daisy2.wav”的旋律提取结果示意图。背景为计算的显著性图谱,其中横轴代表歌曲时间,单位是10ms,纵轴代表以10音分为单位的600个音高类别,线条为预测的旋律轮廓。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下实施例将结合附图对本发明进行作进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,以下对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
本实施例所述方法包括以下两部分:
1、基于音高显著性的多声部音乐音频信号预处理方法
基于显著性图谱的算法的核心是估算在期望的旋律范围内每个可能的人声音高值随时间变化的显著性。大多数方法都使用某种形式的谐波求和,通过该形式,音调的显著性可以作为其谐波频率幅度的加权总和来计算。本方法利用显著性函数中谐波求和的思想,通过频谱图分析、相位谱计算、显著性图谱计算、归一化处理的步骤来获得输入神经网络的数据特征。
1)通过短时快速傅里叶变换(STFT)将音频时域信号转化为频域信号。
2)根据Flanagan and Golden提出的著名方法相位声码器(phase vocoder)(Flanagan J L,Golden R M.Phase vocoder[J].Bell System Technical Journal,1966,45(9):1493-1509.)构建相位谱,计算瞬时频率与幅度。
3)参考Salamon和Gómez提出的显著性函数(Salamon,J.,&Gómez,E.Melodyextraction from polyphonic music signals using pitch contourcharacteristics.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(6),1759-1770)的思想,构造显著性图谱来重建音高分布,将高次谐波的能量向下做累加,增强基频能量,每一帧中每一个音高的能量构成显著性图谱。为尽可能保留更多的频谱特征以使神经网络更好的学习,本发明没有对每帧取能量峰值点而排除其他存在能量的频率点。首先将瞬时频率转化为对数频率(即MIDI音高),接下来将每个频率对应的与之存在倍频关系的高次谐波向下做约分叠加,叠加的能量将会随着倍频的提高而逐渐减小,最后对每一帧进行高斯函数滤波,抑制低频区域的能量,增强系统的鲁棒性。
4)计算显著性图谱的平均值矩阵以及标准差矩阵,通过z-score的方式进行归一化处理。
2、基于多分类神经网络的音高计算方法
将预处理方法中计算出的显著性图谱作为神经网络的输入,通过一个用于分类的神经网络来估算逐帧的音高。
1)标注处理:本方法将多声部音乐人声旋律的提取作为一个分类问题,将连续的基频F0值量化为600个类,将音高范围设定从A1到A6之间的五个八度60个半音,即从55hz到1760hz的频率范围,覆盖了常规的人声可达到音域,分辨率为1/10半音(10音分)。另外需要添加了一个类来表示非人声状态,因此总共是601个分类。将训练集的标注(ground truth)处理为两组数据,第一个数据将每帧对应的频率转化为601个类别的音高,表示为一个one-hot向量,使用分类交叉熵(cross entropy)来计算损失函数,第二个数据将每帧对应的频率处理为表示“人声帧/非人声帧”的“1/0”标签,使用二分类交叉熵(binary crossentropy)来计算损失函数。
2)网络结构:本方法中负责音高估算的改进的检测分类联合神经网络由1个卷积模块ConvBlock,2个ResNeXt Block和1个池化模块PoolBlock组成,中间引入CBAM注意力机制模块,自适应地学习特征的权重分配,顶层加入一个双向长短期记忆神经网络(Bi-LSTM)来预测音高的输出。其中ConvBlock是由两个3×3卷积(Conv)层,一个激活函数PReLU层和一个批量归一化BN层和组成的模块。PoolBlock是另一个由BN层、PReLU层、最大池化(MaxPool)层组成的模块。ResNeXt Block包含Conv Block的结构,除此之外有一个额外的PReLU/BN层,一个池化大小为4的MaxPool层,和一个跳跃连接skip connection,是根据ResNeXt网络原理构建而成,ResNeXt Block结构如图4所示。CBAM注意力机制包括空间注意力模块SAM和通道注意力模块CAM两个子模块,分别汇总空间和通道两方面的注意力信息,并将信息进行一定程度的综合。
ResNeXt与ResNet网络结构相比,大的结构类似,都采用了残差恒等,但ResNeXt在卷积层增加了cardinality维度,实验中使用参数8。ResNeXt对输入的通道分为8组,卷积核的通道和个数都分为8组来分别对输入做卷积,最后的结果就是8组的输出,通道合并(concatenate)否就是总通道的输出。由于ResNeXt利用了分组(group)卷积,既有便于训练的残缺结构又对特征层进行了多角度理解。ResneXt与ResNet对比如图1所示,左图为ResNet block,右图为带有32个cardinality的ResNeXtblock结构。
CBAM是由Woo等人(Woo,S.,Park,J.,Lee,JY.,Kweon,I.S.(2018).CBAM:Convolutional Block Attention Module.In:Ferrari,V.,Hebert,M.,Sminchisescu,C.,Weiss,Y.(eds)Computer Vision–ECCV 2018.ECCV 2018.Lecture Notes in ComputerScience(),vol 11211.Springer,Cham.)提出的一种轻量的注意力模块(CBAM,Convolutional Block Attention Module),可以在通道和空间维度上进行Attention。CBAM结构如图3所示。可以看到CBAM包含2个独立的子模块,通道注意力模块(ChannelAttention Module,CAM)和空间注意力模块(Spartial Attention Module,SAM),分别进行通道与空间上的Attention。本方法在ResNeXt和BiLSTM经典结构中添加CBAM模块,它能够自适应的学习特征图中的有效信息,然后将注意力机制得到的权重乘以输入特征图以进行自适应特征细化,使接下来的Bi-LSTM模块实现更精准的音高预测。
3)损失函数:受联合神经网络研究的启发,将人声旋律提取和歌曲人声检测任务相结合进行优化可以在一定程度上提高性能,本实验将音高多分类损失与语音检测损失相结合,计算出最终的损失函数L合计为:
Figure BDA0003553812970000061
以下给出具体实施例。
如图2,本实施例包括以下步骤:
1、对多声部音乐音频信号进行预处理,构造显著性图谱
1)对音频时域信号进行短时快速傅立叶变换(STFT),将其转换为频域信号,在分帧时将音频信号转换为帧级别的信号。每一帧的长度直接与窗移有关,采样率为8000Hz,窗长为1024,窗移为80,窗移与采样率之比正好与基本时间单位10ms一致。
2)构建相位谱,计算瞬时频率与幅度。首先计算对应的相位谱,先计算相角,然后由频谱图中每一帧相角
Figure BDA0003553812970000071
与前一帧相角
Figure BDA0003553812970000072
的相角差,构建相位谱。其中相角的计算方式如下:
将频谱图中每一帧相角
Figure BDA0003553812970000073
与前一帧相角
Figure BDA0003553812970000074
进行如下计算:
Figure BDA0003553812970000075
Figure BDA0003553812970000076
Figure BDA0003553812970000077
其中,N表示FFT的窗长选取1024,H是窗移取80,
Figure BDA0003553812970000078
即纵轴中的每一格,E为构造的归一化函数,使频谱图的各列计算的相位角差稳定分布在区间(-1,1)内。瞬时幅值计算方式如下:
Figure BDA0003553812970000079
其中,Al表示每一帧每个频率点的幅度,该核函数按比例降低了低频区域和高频区域的能量,降低因伴奏和倍频能量过大而造成后续旋律提取的误差。通过核函数重新计算幅度,得到瞬时幅度
Figure BDA00035538129700000710
根据相位角差得到的fl计算正弦峰的瞬时频率大小,表示频率分辨率与中心频率间的偏移量,公式如下:
Figure BDA00035538129700000711
瞬时频率
Figure BDA00035538129700000712
为每个频率分辨率所对应的频率与fl的叠加。
3)构造显著性图谱,将高次谐波的能量向下做累加,每一帧中每一个音高的能量构成显著性图谱。首先将瞬时频率转化为对数频率(即MIDI音高),对每个频率
Figure BDA00035538129700000713
计算MIDI音高的公式如下
Figure BDA0003553812970000081
本实施例中将音高范围设定从A1到A6之间的五个八度60个半音,即从55hz到1760hz的频率范围,覆盖了常规的人声可达到音域,分辨率为1/10半音(10音分),即共有600个类别的音高。接下来将峰值点
Figure BDA0003553812970000082
对应的高次谐波向下做约分叠加,叠加的能量将会随着倍频的提高而逐渐减小,方程如下:
Figure BDA0003553812970000083
其中,
Figure BDA0003553812970000084
变量η确定是否存在倍频关系,判断能量存在点的各个八度与基频音高差的绝对值小于半音的条件,从而将谐波的能量以一定的分数叠加到基频中,I对应划分的600个音高区间,N代表向上取谐波的次数,每一帧中每一个音高的能量构成显著性图谱,α为高次谐波衰减的参数。将计算出的谐波峰值能量取余弦变化在乘以谐波次数的幂指数,也是对谐波能量叠加的一次衰减。
为了进一步提升人声旋律的比重以及调节不同频域带的相对平衡,通过对每一帧进行高斯函数滤波,抑制低频区域的能量,方程如下:
Figure BDA0003553812970000085
4)通过z-score的方式进行归一化处理,计算显著性图谱的平均值矩阵μ以及标准差矩阵σ,公式如下:
Figure BDA0003553812970000086
2、利用神经网络训练多分类模型进行音高估算
1)输入:根据上述预处理步骤将计算完成的显著性图谱作为神经网络的x_train进行输入,并将其以40帧为一组切割成shape=(40,601)的多个矩阵。根据技术方案中所述的标注处理的方法将训练集的标注处理为若干个包含601个音高类别的one-hot向量和shape=(40,2)的“0/1”向量的两组矩阵,作为y_train输入神经网络。
2)训练:网络结构根据技术方案中所述的进行搭建。使用He uniform初始化对网络参数进行随机初始化,使用技术方案中自定义的损失函数,并用Adam优化器对其进行训练对所有的训练数据进行了长达50个epoch的重复训练,初始学习率设置为0.001,训练使用GPU进行。
3)预测:首先将一首歌曲进行上述的预处理计算作为x_test,然后将得到的矩阵输入训练好的模型进行预测,输出的结果与y_train结构一致,由若干个shape=(40,601)和shape=(40,2)的矩阵组成,仅取多分类音高估算的结果,对每帧的601个类别预测取argmax,得到可能性最大的音高作为该帧预测值,最终输出每帧对应的音高序列。
图5给出为adc04中的歌曲“daisy2.wav”的旋律提取结果示意图,背景为计算的显著性图谱,其中横轴代表歌曲时间,单位是10ms,纵轴代表以10音分为单位的600个音高类别,线条为预测的旋律轮廓。从图5可以看出,预测的旋律轮廓与提取的音高显著性特征图谱中较为显著的旋律区域重合度高,较为相符,说明本方法构建的神经网络对旋律轮廓的提取有着较高的准确率,且对音乐信号预处理得到的显著性图谱作为神经网络的输入,对于音高显著性特征的表示以及对于伴奏谐波的过滤都发挥了良好的作用。
以下给出本发明方法与现有方法对比结果分析。
1)数据集
本实施例使用的数据集均为MIREX比赛中用于该任务的常用数据集。
·训练集:MIR-1K数据集由1000个中文流行歌曲卡拉ok片段构成。将整个数据集按照0.7,0.15,0.15的比例随机划分为训练集、验证集以及测试集。使用其中的训练集与验证集进行神经网络的训练与验证。
·测试集:本实施例使用了三个测试集进行旋律提取结果的测试。
a)MIR-1K数据集中划分出来的测试集。
b)ADC04:由20个歌曲片段构成,包含流行音乐、爵士乐、歌剧以及从MIDI文件合成的音乐音频。将MIDI歌曲排除在测试集之外。
c)MIREX05:由13个歌曲片段构成,包含摇滚、布鲁斯、流行、爵士,以及从MIDI文件合成的音频。同样将MIDI歌曲排除在测试之外。
2)评估标准
根据MIREX给出的评价指标,主要包括下列五个标准:
·VR(voicing recall rate):算法识别为人声帧且标注中也是人声帧的概率;
·VFA(voicing false alarm rate):算法识别为人声帧,而标注中是非人声帧的概率;
·RPA(raw pitch accuracy):算法识别的人声帧音高与标注中人声帧音高差的绝对值在0.25音高范围内的正确音高,与标注中总人声帧数的比值;
·RCA(raw chroma accuracy):算法识别的人声帧音高与标注中人声帧音高差的绝对值在25音分范围内,加上允许产生的八度误差的音高,与标注中总人声帧数的比值;
·OA(overall accuracy):算法识别的非人声帧且标注中也是非人声帧的,以及识别的人声帧音高与标注中人声帧音高差的绝对值在25个音分内的音高,与标注中总帧数的比值。
3)结果对比
在上述三个测试集上测试实验结果,并与其他先进方法的结果作对比,结果如下表所示,其中SG是Salamon和Gómez(Salamon,J.,&Gómez,E.Melody extraction frompolyphonic music signals using pitch contour characteristics.IEEETransactions on Audio,Speech,and Language Processing,2012,20(6),1759-1770)提出的基于显著性函数的方法在MIREX大赛中的结果,AH1、HL1皆为MIREX2020大赛旋律提取项目中性能较佳的两种方法的结果。
表1 ADC04数据集测试结果对比
Figure BDA0003553812970000101
表2 MIREX05数据集测试结果对比
Figure BDA0003553812970000102
表3 MIR-1K数据集测试结果
Figure BDA0003553812970000103
从表1~3中可以看出,本发明提出的方法在测试的三个数据集中都表现出较好的准确率,在MIREX05中表现优于其他方法,在ADC04中也略高于其他先进方法。本发明提出的方法在检测速度、精度上都达到较好的性能。本发明集合传统方法中对音频特征分析的优势,能较好地提取出音频的音高显著性特征,同时结合深度学习的先进方法,搭建神经网络训练模型,在预测结果时比传统的计算方法要更加快速高效。

Claims (3)

1.一种基于深度学习的多声部音乐人声主旋律提取方法,其特征在于包括以下步骤:
1)基于音高显著性的多声部音乐音频信号预处理:利用显著性函数中谐波求和,通过频谱图分析、相位谱计算、显著性图谱计算、归一化处理的步骤获得输入神经网络的数据特征;
2)基于多分类神经网络进行音高估算:将步骤1)预处理方法中得出的显著性图谱作为神经网络的输入,通过一个用于分类的神经网络来估算逐帧的音高。
2.如权利要求1所述一种基于深度学习的多声部音乐人声主旋律提取方法,其特征在于在步骤1)中,所述多声部音乐音频信号预处理的具体步骤为:
(1)通过短时快速傅里叶变换将音频时域信号转化为频域信号;
(2)根据相位声码器构建相位谱,计算瞬时频率与幅度;
(3)基于显著性函数的思想,构造显著性图谱来重建音高分布,将高次谐波的能量向下做累加,增强基频能量,每一帧中每一个音高的能量构成显著性图谱;为保留更多频谱特征以使神经网络更好学习,首先将瞬时频率转化为对数频率,即MIDI音高,然后将每个频率对应的与之存在倍频关系的高次谐波向下做约分叠加,叠加的能量会随着倍频的提高而逐渐减小,最后对每一帧进行高斯函数滤波,抑制低频区域的能量,增强系统的鲁棒性;
(4)计算显著性图谱的平均值矩阵以及标准差矩阵,通过z-score的方式进行归一化处理。
3.如权利要求1所述一种基于深度学习的多声部音乐人声主旋律提取方法,其特征在于在步骤2)中,所述基于多分类神经网络进行音高估算的具体步骤为:
(1)标注处理:将多声部音乐人声旋律的提取作为一个分类问题,将连续的基频F0值量化为600个类,将音高范围设定从A1到A6之间的五个八度60个半音,即从55hz到1760hz的频率范围,覆盖常规的人声可达到音域,分辨率为1/10半音;另外添加一个类来表示非人声状态,共601个分类;将训练集的标注处理为两组数据,第一个数据将每帧对应的频率转化为601个类别的音高,表示为一个one-hot向量,使用分类交叉熵计算损失函数,第二个数据将每帧对应的频率处理为表示“人声帧/非人声帧”的“1/0”标签,使用二分类交叉熵计算损失函数;
2)网络结构:负责音高估算的联合神经网络由1个卷积模块ConvBlock,2个ResNeXtBlock和1个池化模块PoolBlock组成,中间引入CBAM注意力机制模块,自适应地学习特征的权重分配,顶层加入一个双向长短期记忆神经网络Bi-LSTM来预测音高的输出;其中ConvBlock由两个3×3卷积层,一个激活函数LReLU层和一个批量归一化BN层和组成的模块;PoolBlock是另一个由BN层、LReLU层、最大池化层组成的模块;ResNeXt Block包含ConvBlock的结构,一个额外的LReLU/BN层,一个池化大小为4的MaxPool层和一个跳跃连接skipconnection,根据ResNeXt网络原理构建;CBAM注意力机制包括空间注意力模块SAM和通道注意力模块CAM两个子模块,分别汇总空间和通道两方面的注意力信息,并将信息进行一定程度的综合;
3)损失函数:将音高多分类损失与语音检测损失相结合,计算出最终的损失函数L合计为:
Figure FDA0003553812960000021
CN202210271946.6A 2022-03-18 2022-03-18 一种基于深度学习的多声部音乐人声主旋律提取方法 Pending CN114627892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210271946.6A CN114627892A (zh) 2022-03-18 2022-03-18 一种基于深度学习的多声部音乐人声主旋律提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210271946.6A CN114627892A (zh) 2022-03-18 2022-03-18 一种基于深度学习的多声部音乐人声主旋律提取方法

Publications (1)

Publication Number Publication Date
CN114627892A true CN114627892A (zh) 2022-06-14

Family

ID=81902409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210271946.6A Pending CN114627892A (zh) 2022-03-18 2022-03-18 一种基于深度学习的多声部音乐人声主旋律提取方法

Country Status (1)

Country Link
CN (1) CN114627892A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527514A (zh) * 2022-09-30 2022-12-27 恩平市奥科电子科技有限公司 音乐大数据检索的专业声乐旋律特征提取方法
CN115938346A (zh) * 2023-01-28 2023-04-07 中国传媒大学 音准评估方法、系统、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010038385A1 (ja) * 2008-09-30 2010-04-08 パナソニック株式会社 音判定装置、音判定方法、及び、音判定プログラム
CN108257591A (zh) * 2016-12-29 2018-07-06 北京酷我科技有限公司 一种音乐的识别方法及系统
US10026407B1 (en) * 2010-12-17 2018-07-17 Arrowhead Center, Inc. Low bit-rate speech coding through quantization of mel-frequency cepstral coefficients
CN108417228A (zh) * 2018-02-02 2018-08-17 福州大学 乐器音色迁移下的人声音色相似性度量方法
CN111091800A (zh) * 2019-12-25 2020-05-01 北京百度网讯科技有限公司 歌曲生成方法和装置
CN112199548A (zh) * 2020-09-28 2021-01-08 华南理工大学 一种基于卷积循环神经网络的音乐音频分类方法
CN113421589A (zh) * 2021-06-30 2021-09-21 平安科技(深圳)有限公司 歌手识别方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010038385A1 (ja) * 2008-09-30 2010-04-08 パナソニック株式会社 音判定装置、音判定方法、及び、音判定プログラム
US10026407B1 (en) * 2010-12-17 2018-07-17 Arrowhead Center, Inc. Low bit-rate speech coding through quantization of mel-frequency cepstral coefficients
CN108257591A (zh) * 2016-12-29 2018-07-06 北京酷我科技有限公司 一种音乐的识别方法及系统
CN108417228A (zh) * 2018-02-02 2018-08-17 福州大学 乐器音色迁移下的人声音色相似性度量方法
CN111091800A (zh) * 2019-12-25 2020-05-01 北京百度网讯科技有限公司 歌曲生成方法和装置
CN112199548A (zh) * 2020-09-28 2021-01-08 华南理工大学 一种基于卷积循环神经网络的音乐音频分类方法
CN113421589A (zh) * 2021-06-30 2021-09-21 平安科技(深圳)有限公司 歌手识别方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张维维;陈喆;殷福亮;张俊星;: "复调音乐主旋律提取方法综述", 电子学报, no. 04, 15 April 2017 (2017-04-15) *
李伟;冯相宜;吴益明;张旭龙;: "流行音乐主旋律提取技术综述", 计算机科学, no. 05, 15 May 2017 (2017-05-15) *
贺志强;冯寅;: "长的短时记忆(LSTM)在五声调式和声的应用", 福建电脑, no. 04, 1 April 2007 (2007-04-01) *
黄磊;冯寅;: "简析基于内容的音乐检索", 福建电脑, no. 02, 1 February 2008 (2008-02-01) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527514A (zh) * 2022-09-30 2022-12-27 恩平市奥科电子科技有限公司 音乐大数据检索的专业声乐旋律特征提取方法
CN115527514B (zh) * 2022-09-30 2023-11-21 恩平市奥科电子科技有限公司 音乐大数据检索的专业声乐旋律特征提取方法
CN115938346A (zh) * 2023-01-28 2023-04-07 中国传媒大学 音准评估方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
Goto A robust predominant-F0 estimation method for real-time detection of melody and bass lines in CD recordings
Basaran et al. Main melody extraction with source-filter NMF and CRNN
Klapuri Multiple fundamental frequency estimation based on harmonicity and spectral smoothness
Duan et al. Multiple fundamental frequency estimation by modeling spectral peaks and non-peak regions
Paulus et al. Measuring the similarity of Rhythmic Patterns.
CN101599271B (zh) 一种数字音乐情感的识别方法
US7908135B2 (en) Music-piece classification based on sustain regions
CN114627892A (zh) 一种基于深度学习的多声部音乐人声主旋律提取方法
Peeters Musical key estimation of audio signal based on hidden Markov modeling of chroma vectors
Verma et al. Frequency Estimation from Waveforms Using Multi-Layered Neural Networks.
CN104616663A (zh) 一种结合hpss的mfcc-多反复模型的音乐分离方法
Lagrange et al. Normalized cuts for predominant melodic source separation
Fan et al. Singing voice separation and pitch extraction from monaural polyphonic audio music via DNN and adaptive pitch tracking
CN110516102B (zh) 一种基于语谱图识别的歌词时间戳生成方法
CN111696580A (zh) 一种语音检测方法、装置、电子设备及存储介质
Silverman et al. A comparison of several speech-spectra classification methods
Zhang et al. Melody extraction from polyphonic music using particle filter and dynamic programming
Ono et al. Harmonic and percussive sound separation and its application to MIR-related tasks
Pikrakis et al. Tracking melodic patterns in flamenco singing by analyzing polyphonic music recordings
Pratama et al. Human vocal type classification using MFCC and convolutional neural network
Sarkar et al. Raga identification from Hindustani classical music signal using compositional properties
Dong et al. Vocal Pitch Extraction in Polyphonic Music Using Convolutional Residual Network.
Gao et al. Vocal melody extraction via dnn-based pitch estimation and salience-based pitch refinement
Emiya et al. Multipitch estimation of quasi-harmonic sounds in colored noise
Theimer et al. Definitions of audio features for music content description

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination