CN115527514B - 音乐大数据检索的专业声乐旋律特征提取方法 - Google Patents
音乐大数据检索的专业声乐旋律特征提取方法 Download PDFInfo
- Publication number
- CN115527514B CN115527514B CN202211216510.3A CN202211216510A CN115527514B CN 115527514 B CN115527514 B CN 115527514B CN 202211216510 A CN202211216510 A CN 202211216510A CN 115527514 B CN115527514 B CN 115527514B
- Authority
- CN
- China
- Prior art keywords
- pitch
- contour
- melody
- frequency
- significance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001755 vocal effect Effects 0.000 title claims abstract description 75
- 238000000605 extraction Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 66
- 238000001228 spectrum Methods 0.000 claims abstract description 27
- 238000009826 distribution Methods 0.000 claims abstract description 21
- 238000005457 optimization Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 7
- 230000003595 spectral effect Effects 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 36
- 238000000926 separation method Methods 0.000 claims description 24
- 238000013139 quantization Methods 0.000 claims description 23
- 238000000746 purification Methods 0.000 claims description 22
- 238000005259 measurement Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 239000000470 constituent Substances 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000003313 weakening effect Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 abstract description 8
- 230000009466 transformation Effects 0.000 abstract description 6
- 239000011295 pitch Substances 0.000 description 169
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 230000005484 gravity Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013531 bayesian neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/055—Filters for musical processing or musical effects; Filter responses, filter architecture, filter coefficients or control parameters therefor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本申请提出一种采用基于音高轮廓声乐计量特征与整面域优化的旋律提取方法,基于专业声乐旋律特征分为频率分解、显著性计算、建立音高轮廓以及旋律生成四个步骤,大幅提高了对专业声乐特征提取的准确性;采用等响度滤波器优化处理使得信号的频率分布更符合人类听觉,改进信号相位信息缓解傅里叶变换存在的分辨率问题;利用类比谐波加权求和的方式计算谱峰显著性,使得显著性更加符合听觉原理;缓解浊音帧被误过滤的问题;采用基于音高轮廓声乐计量特征的方式优化旋律生成阶段,采用显著性加权的方式对旋律参考线进行不断调整,获得具有更高鲁棒性,能更好表征音频数据,并具有更强普适性和专业性的特征。
Description
技术领域
本申请涉及一种音频大数据特征检索提取方法,特别涉及一种音乐大数据检索的专业声乐旋律特征提取方法,属于声音大数据处理技术领域。
背景技术
随着网络技术的发展,音频信息呈现爆炸式的增长,在海量数据中进行有效检索的难度日益增加。音乐的存储、访问、分发和消费的方式在过去的几十年内发生了根本性的变化,如今,大型的音乐数据库中的记录可能存储在作为分销商、数字图书馆的服务器及个人计算机上,数以千万计的的音乐数据集合可以从世界各地访问。对于如此大量的容易获得的音乐信息,需要更加高效和专业的检索策略来引导用户轻松快速的获得感兴趣的内容。
然而,传统的音频检索策略依赖于人为标注的描述音乐信息的文本元数据信息,大多数搜索引擎依赖于元数据以及基于内容的文本注释,编辑元数据通常包括艺术家、标题以及其它相关信息。尽管与这种基于文本注释的检索策略相关的新技术的不断涌现,但一方面基本上还是受制于文本检索技术;另一方面当音乐数据量变得非常大时,要保持一致的描述信息非常困难。这种方式已经逐渐无法满足人们的检索需求,因为这种注释信息通常是模糊、不准确、不足以描述音乐数据的复杂性和专业性的,而且带有一定的主观性。
仅基于元数据的检索系统的一个缺点是用户需要明确的知道他要寻找的音频的相关信息,即基于元数据的检索方式仅仅允许搜索已知的内容。为了克服这些限制,有利用基于音乐内容的一般表达和注释,即标签来对检索系统进行优化。为了进一步的降低建立标签系统的难度,有的系统采用用户标注的方式来获得标签,但以这种途径获得的标签,通常不太准确,且带有有非常严重的的主观性,并且会存在噪声,即这种方式获得的标签在不同的用户之间表现出高度的可变性,当系统规模逐渐扩大时,这种方式建立的标签系统甚至会变得不可用。依赖于大量用户创建可靠注释的发发发,虽然对于较为流行的音乐而言不存在较大问题,但对于一些刚刚发布,或不太热门的音乐而言,基本上不存在可靠的标记。
为了克服上述系统的种种劣势,现有技术提出了基于内容的检索,因为这种系统基本上不依赖于任何手动创建的数据来引导检索过程,而是基于音乐数据内容,可再现的方式获得的覆盖整个音乐数据的特征,通常获得的特征具有很强的客观性。通过输入一段音乐数据或乐谱信息,然后获得与输入相同的或在某种程度上具有一定相似性(例如风格、艺术家)的数据。用户可以很方便的实现检索目的,并且这种技术有助于推荐方法、分类技术的发展,从而进一步提升检索系统的性能。
基于内容的音频检索的需求会越来越大,且将具有广泛的应用前景。但如何获得具有更高鲁棒性,能更好的表征音频数据,并具有更强的普适性和专业性的特征,已成为研发重点。另外,在大规模检索系统中,如何更加快速、更加精确的获得结果,也是亟需解决的问题。
综上,现有技术的音乐大数据检索特征提取仍然存在若干问题和缺陷,本申请需要解决的问题和关键技术难点包括:
(1)现有技术一大类的音频检索策略依赖于人为标注的描述音乐信息的文本元数据信息,大多数搜索引擎依赖于元数据以及基于内容的文本注释,尽管与这种基于文本注释的检索策略相关的新技术的不断涌现,但一方面基本上还是受制于文本检索技术;另一方面当音乐数据量变得非常大时,要保持一致的描述信息非常困难,这种方式已经逐渐无法满足人们的检索需求,因为这种注释信息通常是模糊、不准确、不足以描述音乐数据的复杂性和专业性的,而且带有一定的主观性,特别是对于专业声乐旋律特征严重依赖文本注释,鲁棒性差,并且结果的精确无法保证,面对海量音频数据标注的工作量太大。
(2)现有技术仅基于元数据的检索系统的缺点模型,用户需要明确的知道他要寻找的音频的相关信息,即基于元数据的检索方式仅仅允许搜索已知的内容。为了克服这些限制,有利用基于音乐内容的一般表达和注释,即标签来对检索系统进行优化。现有技术采用用户标注的方式来获得标签通常不太准确,且带有有非常严重的的主观性,并且会存在噪声,即这种方式获得的标签在不同的用户之间表现出高度的可变性,当系统规模逐渐扩大时,这种方式建立的标签系统甚至会变得不可用,依赖于大量用户创建可靠注释,对于一些刚刚发布,或不太热门的音乐而言,基本上不存在可靠的标记,对于海量音乐信息,现有技术缺少高效和专业的检索策略来引导用户轻松快速的获得感兴趣的内容。
(3)现有技术基于内容的音频检索鲁棒性低,无法很好的表征音频数据,普适性和专业性特征不强,亟需在频率分解、显著性计算、建立音高轮廓以及旋律生成等多个方法进行优化,缺少采用等响度滤波器优化处理使得信号的频率分布更符合人类听觉,信号相位信息设计不合理导致傅里叶变换存在分辨率问题;无法将频率标度映射到音分标度用于后续提高精度,缺少利用类比谐波加权求和的方式计算谱峰显著性,无法对频谱峰值进行表征,显著性不符合听觉原理;无法缓解浊音帧被误过滤的问题;缺少采用基于音高轮廓声乐计量特征的方式优化旋律生成阶段,缺少采用显著性加权的方式对旋律参考线进行调整,导致最终生成音乐的旋律曲线声乐专业特征不明显,旋律特征精度较低。
(4)现有技术缺少基于乐理的显著性表征方法,缺少将对应的频率映射到符合人类听觉特征的十二平均律中,不符合听觉特征,在计算某一个量化点的显著性时,未考虑一帧信号中所有谱峰的显著性贡献,噪声影响较大。现有技术缺少基于音高轮廓声乐计量特征的旋律提取方法,缺少整面域处理的方式对倍频声乐误差的消除的优化,缺少非音高轮廓的频谱峰值集合优化建立轮廓的过程,无法提取音高轮廓的声乐计量特征,未设置轮廓频率峰度以及显著性峰度,未将颤音引入以调整颤音特征的影响;缺少对轮廓分离净化的最终阶段进行优化,未将轮廓总显著性及轮廓持续时长这两个特征引入,缺少轮廓总显著性所占比重加权的方式调整参考旋律曲线,最终的旋律曲线总显著性小,提取的声乐旋律特征复杂、时间和节奏变化性能差,表示音乐信号内容小,不利于大数据下的音乐快速检索。
发明内容
本申请创造性的提出一种采用基于音高轮廓声乐计量特征与整面域优化的旋律提取方法,基于音乐数据内容,可再现的方式获得的覆盖整个音乐数据的特征,大幅提高了对专业声乐特征提取的准确性;采用等响度滤波器优化处理使得信号的频率分布更符合人类听觉,改进信号相位信息缓解傅里叶变换存在的分辨率问题;将频率标度映射到音分标度用于后续精确处理,使得显著性更加符合听觉原理;采用整面域处理对音高轮廓的生成阶段进一步优化,缓解浊音帧被误过滤的问题;采用基于音高轮廓声乐计量特征的方式优化旋律生成阶段,将音高轮廓的音高均值、方差、总显著性以及持续时长声乐计量特征引入模型,采用显著性加权的方式对旋律参考线进行不断调整,获得具有更高鲁棒性,能更好的表征音频数据,并具有更强的普适性和专业性的特征,在大规模音频检索系统中,能够更加快速精确的获得专业声乐旋律特征。
为实现以上技术效果,本申请所采用的技术方案如下:
音乐大数据检索的专业声乐旋律特征提取方法,采用基于音高轮廓声乐计量特征与整面域优化的旋律提取方法,分为频率分解、显著性计算、建立音高轮廓以及旋律生成四个步骤,采用等响度滤波器优化处理使得信号的频率分布更符合人类听觉,改进信号相位信息缓解傅里叶变换存在的分辨率问题;将频率标度映射到音分标度用于后续处理,利用类比谐波加权求和的方式计算谱峰显著性,对频谱峰值进行表征,使得显著性更加符合听觉原理;采用整面域处理对音高轮廓的生成阶段进行进一步优化,缓解浊音帧被误过滤的问题;采用基于音高轮廓声乐计量特征的方式优化旋律生成阶段,将音高轮廓的音高均值、方差、总显著性以及持续时长声乐计量特征引入模型,采用显著性加权的方式对旋律参考线进行不断调整,最终生成音乐的旋律曲线;
1)基于乐理的显著性表征方法:首先,通过将对应的频率映射到符合人类听觉特征的十二平均律中,以音分为标度;其次,在计算某一个量化点的显著性时,考虑一帧信号中所有谱峰的显著性贡献,将某一个谱峰视为该量化点的谐波分量,使器可被应用于多个量化点之间的一个谱峰,减弱噪声影响。
2)基于音高轮廓声乐计量特征的旋律提取方法:首先采用整面域处理的方式对倍频声乐误差的消除进行优化,采用构成非音高轮廓的频谱峰值集合优化建立轮廓的过程;其次提取音高轮廓的声乐计量特征,并设置轮廓频率峰度以及显著性峰度,依次建立各个特征的计算模型和方式,且绘制数据集合的各个特征的概率分布曲线,然后,新引入参数因子τvib和τdiv,将颤音引入以调整颤音特征的影响;对轮廓分离净化的最终阶段进行优化,采用整面域处理对倍频轮廓进行识别,将轮廓总显著性及轮廓持续时长这两个特征引入,采用轮廓总显著性所占比重加权的方式调整参考旋律曲线使得最终的旋律曲线倾向于总显著性更大的轮廓。
优选地,将谱峰映射到音分标度:首先,根据听觉原理,基于55Hz至1760Hz范围内的5个八度音频率范围,根据十二平均律将这一频率范围分为600个量化点,每两点间距为10音分,对于频率fi,将其映射到量化后的刻度上如式1所示:
将谱峰映射到音分标度。
优选地,计算旋律显著性:对于某一个频谱峰值f,将其视为某一音分的n次谐波,采用一个临界值进行处理,也即只将与帧内最大谱峰的能量差异在某一临界值(γ)内的共振峰考虑在内,削弱非旋律频率的影响;
接下来计算点b的显著性,如式2所示,其中fi为谱峰pi的频率,mi为谱峰的振幅,Nh为考虑的共振峰的数量,β为将振幅转化为能量的缩放函数:
函数e(mi)为进行振幅量化的方式,如式3所示,其中mMax为谱峰的振幅,γ为共振峰与谱峰的能量差异:
最后采用函数g(b,h,fi)定义共振峰的权重,如式4所示,其中h是考虑所有共振峰的编号,峰值处为1,α是谐波权重的参数,b是谱峰的映射后的标度,δ是谐波频率fi/h与量化点b的中心频率的距离,引进δ保证共振峰不是单独的应用于某一个量化点,而是应用于相邻的量化点之间,削弱量化带来的误差,如式5所示:
得到基于乐理的显著性表示。
优选地,音高轮廓计量生成方法的优化:利用音高轮廓的声乐计量特征引导生成最终的旋律序列,并且采用整体分离净化的方式对轮廓的建立阶段进行优化;
基于音高轮廓的方式首先根据音高序列,提取出所有可能成为最终旋律的短时序列,然后计算其综合特征进一步优化,最终得到旋律结果,在选择轮廓之前首先对音高序列进行分离净化,去除非旋律音高的影响,丢弃过滤掉的非旋律音高,获得更高精度的轮廓特征,建立最终的旋律曲线,并对其进行进一步的优化;
首先,在帧的基础上过滤掉与峰值差距一个临界值τ1之外的共振峰;其次,计算第一步处理之后的所有峰(所有帧中)的平均值μs以及标准差δs,然后引入参数τδ,以便决定对峰值的分离净化程度,如式6所示:
Smax=μs-τδ·δs 式6
在建立音高轮廓时,综合考虑分离净化后的音高集合C1与被滤出的音高集合C2,具体流程包括:
第一步:从集合C1中选取最大值f0,如果存在f0,将其从C中去除,设定参考点ft=f0,并且建立新的音高轮廓S0,转向第二步,如果不存在,方法结束;
第二步:从集合C1中选取时间上在ft之后,并且与之音高偏差在一个半音之内的峰值f1,如果f1存在,将其从C1中去除,并且将其添加到S0中,更新ft=f1,重复第二步,如果f1不存在,开始计算间隔时长t0=0,转向第三步;
第三步:从集合C2中选择与ft音高偏差在一个半音之内,且时间上在ft之后的峰值f2,如果f2不存在,转向第五步,如果f2存在,转向第四步;
第四步:如果t0≤100ms,则将f2添加到S0,并将其从C2中去除,更新ft=f2,转向第二步,否则,转向第五步;
第五步:如果S0不为空,将S0添加到轮廓集合C3中,转向第一步。
优选地,引入参数τ1,用于分离净化单帧内的非旋律峰;参数τδ用于确定允许的旋律峰值的最大偏差,本申请τ1=0.92,τδ=0.91,虽然增大τ1,同时增大τδ,导致分离净化掉更多非旋律峰的同时也分离净化掉更多的旋律峰,对于最终旋律的构建起到更好作用。
优选地,旋律轮廓的声乐计量特征:采用基于轮廓声乐计量特征的方式对轮廓进行分离净化,并且利用颤音以及音高标准差引导旋律的构建,以获得最终结果,得到的音高轮廓由两种方式表示:音高的频率表示和音高的显著性表示,p(n)是音高的频率表示,s(n)是音高的显著性表示,假设对于某一轮廓,共有N个频谱峰,采用上述方式对以下特征表示后者,假设对于某一轮廓,共有N个频谱峰,采用上述方式对以下特征的概率分布进行计算;
(1)音高频率平均值,表示音高轮廓的平均频率,如式7所示:
(2)音高频率标准差,表示音高轮廓的频率标准差,如式8所示:
(3)音高频率峰度,表示音高轮廓频率的峰度,如式9所示:
(4)轮廓总显著性,表示某一轮廓的所有峰的总显著性,如式10所示:
(5)轮廓显著性平均值,表示音高轮廓显著性的均值,如式11所示:
(6)轮廓显著性标准差,表示音高轮廓显著性的标准差,如式12所示:
(7)轮廓显著性峰度,表示音高轮廓显著性的峰度,如式13所示:
(8)轮廓的持续时长,表示某一音高轮廓的持续时长,如式14所示,其中fs为信号采样率,H为进行FFT变换时,窗口的前进步长:
(9)颤音是否存在,将每一个轮廓进行傅里叶变换,分析其频谱峰值是否位于5至8Hz之间来确定颤音,如果是则存在颤音,否则不存在,采用一个布尔类型参数Cv表示。
优选地,检测旋律是否存在:
对于发声检测,采用音高轮廓的平均显著性来引导处理,首先计算所有/>的均值,记为/>然后计算其标准差,记为/>引入临界值参数τv,来决定被剔除的轮廓所应该具有的平均显著性的上限,如式15所示:
其中,参数v决定允许的偏差。
对于检测到颤音的轮廓,允许更大的偏差,对于不满足参数τv,但音调标准差在40音分以上时,也应该允许更大的偏差,为此引入参数τvib和τdiv来对进行调整,采用布尔类型参数Cis来表示轮廓是否为旋律轮廓,其取值有以下几种情况:
1)时,Cis=true;
2)Cv=false且/>时,Cis=false;
3)Cv=true且/>时,如果/>Cis=true,否则Cis=false;
4)Cv=false且/>时,如果/>Cis=true,否则Cis=false;
5)Cv=true且/>时,如果/>Cis=true,否则,Cis=false。
优选地,倍频声乐误差消除:
首先,在轮廓的基础上检测共振峰,以削弱多音源带来的影响,在每一个音高轮廓重复的区域,在帧的基础上计算所有帧的音高偏差的平均值本申请令/>音分,通过这种方式检测到的共振峰,保证音高轮廓在形态上相似性,音高轮廓设置以下特征:一是旋律轮廓比起倍频轮廓具有更大的显著性;二是最终的旋律曲线应该避免较大的频率跳跃;
对于检测到的具有倍频关系的音高轮廓,首先计算每个轮廓的总显著性然后计算每个轮廓总显著性是否在最大显著性的一半以上,如果不是,则直接将其分离净化掉,如果是则进行后续处理,此时对于存在共振峰的轮廓,其在显著性上相似,根据上述的第二个特征进一步处理;
采用权重变换的方式,以帧为基础,计算每一帧的平均音高,得到一个参考旋律序列然后为了引入最终旋律应该避免较大跳跃这一信息,在出现轮廓重叠的区域,分离净化掉距离/>较远或具有一场音高的轮廓,每次滤出轮廓之后都对/>进行调整,以获得更精确的结果。
优选地,本申请的整面域声乐误差消除过程包括:
步骤一:对旋律检测处理之后的轮廓集合进行处理,寻找时间上重叠且没有处理的轮廓,如果找到转步骤二,否则转步骤四;
步骤二:对轮廓重叠区域计算所有帧的音高偏差平均值去除/>或者 的轮廓,只保留近似符合八度关系的轮廓,转步骤三;
步骤三:对于具有八度关系的轮廓,计算每个轮廓的总显著性保留/>在最大值一半以上的轮廓,去除谐音,转步骤一;
步骤四:计算每个音高轮廓在所有轮廓中的权重,用Cw表示,如式16所示,
其中Nc表示轮廓总数表示计算得到的轮廓总显著性序列,转步骤五:
步骤五:以帧为基础,计算每一帧的平均音高,得到一个关于时间的音高序列如式17所示:
其中Nc表示某一帧所参与组成轮廓的数量,Cw(n,i)表示第n号帧的共振峰i所组成的轮廓的权重,P(n,i)表示第n号帧的共振峰i处的频率,转步骤六;
步骤六:寻找出现时间上重叠,但没有处理的轮廓,如果有则继续,否则转步骤七,计算轮廓的持续时间段上每个轮廓与序列的音高差值,选择差距较小的轮廓作为结果,但如果所有差值均在半个八度以上,选择轮廓总显著性较大的作为结果。转步骤四;
步骤七:寻找与序列的音高差值在一个八度以上的轮廓,如果有,删除该轮廓,转步骤四,否则方法结束。
通过以上方式,使得最终的旋律更加偏向于具有较大总显著性,也即具有较长时长的轮廓,最终得到旋律曲线。
与现有技术相比,本申请的创新点和优势在于:
(1)本申请创造性的提出一种采用基于音高轮廓声乐计量特征与整面域优化的旋律提取方法,基于音乐数据内容,可再现的方式获得的覆盖整个音乐数据的特征,基于专业声乐旋律特征分为频率分解、显著性计算、建立音高轮廓以及旋律生成四个步骤,大幅提高了对专业声乐特征提取的准确性;采用等响度滤波器优化处理使得信号的频率分布更符合人类听觉,改进信号相位信息缓解傅里叶变换存在的分辨率问题;将频率标度映射到音分标度用于后续精确处理,利用类比谐波加权求和的方式计算谱峰显著性,使得显著性更加符合听觉原理;采用整面域处理对音高轮廓的生成阶段进一步优化,缓解浊音帧被误过滤的问题;采用基于音高轮廓声乐计量特征的方式优化旋律生成阶段,将音高轮廓的音高均值、方差、总显著性以及持续时长声乐计量特征引入模型,采用显著性加权的方式对旋律参考线进行不断调整,最终生成音乐旋律曲线,获得具有更高鲁棒性,能更好的表征音频数据,并具有更强的普适性和专业性的特征,在大规模音频检索系统中,能够更加快速精确的获得专业声乐旋律特征。
(2)本申请创造性的提出了基于乐理的显著性表征方法,首先,提出利用信号相位信息引导校准频率的方法,以音分为标度,通过将对应的频率映射到符合人类听觉特征的十二平均律中;其次,在计算某一个量化点的显著性时,考虑一帧信号中所有谱峰的显著性贡献,将某一个谱峰视为该量化点的谐波分量,使器可被应用于多个量化点之间的一个谱峰,减弱噪声影响,对于量化引入的误差进行一定的消除,使得本申请方法最终具有更低的浊音误报率与较高的鲁棒性。
(3)本申请提出了基于音高轮廓声乐计量特征的旋律提取方法,首先采用整面域处理的方式对倍频声乐误差的消除进行了优化,采用构成非音高轮廓的频谱峰值集合优化了建立轮廓的过程;其次提取音高轮廓的声乐计量特征,设置轮廓频率峰度以及显著性峰度,依次建立了各个特征的计算模型和方式,然后,新引入参数因子,将颤音引入以调整颤音特征的影响;对轮廓分离净化的最终阶段进行了优化,将轮廓总显著性及轮廓持续时长这两个特征引入,采用轮廓总显著性所占比重加权的方式调整参考旋律曲线,使得最终的旋律曲线倾向于总显著性更大的轮廓,提取的声乐旋律特征简单明晰、时间和节奏变化性能好,表示音乐信号内容多且全,实验中声乐旋律特征提取效率提高26%,有助于大数据下的音乐快速精确检索。
(4)本申请的创新点还表现在:一是提出了利用信号的相位信息对常用的傅里叶变换存在的精度问题进行校正的方法;二是采用基于显著性的方式对频谱峰值进行表征,在计算显著性时,提出将频率标度映射到音分标度,使之更加符合听觉特征;同时提出采用整体分离净化的方式,将帧中的峰值用于所有音分标度的显著性计算中,利用频谱峰值的声乐计量特征进行分离净化,采用了一种整体的方式对音高轮廓的建立过程进行优化。三是提出利用音高轮廓的声乐计量特征,包括平均音高、音调偏差、显著性、颤音的出现以及持续时长和峰度特征引导本申请建立最终的旋律序列,并且提出采用显著性加权的方式设置参考旋律序列并进行迭代调整,建立最终的旋律序列。本申请方法在浊音召回率(VR)、浊音误报率(VFA)、真实音高估计(RPA)、真实色度估计精度(RCA)等多个声乐旋律专业特征评价指标上较现有技术都有明显优势。
附图说明
图1是基于乐理的显著性表征方法的整体流程图。
图2是音高轮廓计量生成方法的优化流程示意图。
图3是一段音频的音高轮廓提取结果示意图。
图4是旋律分布的几种特征的概率分布曲线示意图。
图5是基于轮廓声乐计量特征的旋律示意图。
图6是倍频声乐误差消除流程示意图。
图7是一段音频的最终旋律曲线示意图。
图8是本申请所用A类参数符号说明及取值参考图。
图9是本申请所用B类参数符号说明及取值参考图。
图10是本申请几种旋律提取方法的评价结果示意图。
具体实施方式
下面结合附图,对本申请提供的音乐大数据检索的专业声乐旋律特征提取方法的技术方案进行进一步的描述,使本领域的技术人员能够更好的理解本申请并能够予以实施。
音乐的存储、访问、分发及消费的方式在过去的几十年中已经发生了根本性的改变,无论是音乐的发布还是流通,都变得更加便捷。音乐是互联网上最流行的信息之一,当今世界上存在数以千万计的音乐数据库可以在世界各地自由访问,这样大量且易获得的数据对音乐检索策略提出了挑战。传统检索方式是基于人工标注的元数据,然而这种方式由于其固有的缺点,已不能满足当今用户更加多样化的需求,基于内容的音乐检索逐渐被重视起来。
本申请提出一种基于音高轮廓声乐计量特征与整面域优化的旋律提取方法,分为频率分解、显著性计算、建立音高轮廓以及旋律生成四个步骤,采用等响度滤波器优化处理使得信号的频率分布更符合人类听觉,改进信号相位信息缓解傅里叶变换存在的分辨率问题;将频率标度映射到音分标度用于后续处理,利用类比谐波加权求和的方式计算谱峰显著性,对频谱峰值进行表征,使得显著性更加符合听觉原理;采用整面域处理对音高轮廓的生成阶段进行进一步优化,在一定程度上缓解浊音帧被误过滤的问题;采用基于音高轮廓声乐计量特征的方式优化旋律生成阶段,将音高轮廓的音高均值、方差、总显著性以及持续时长声乐计量特征引入模型,采用显著性加权的方式对旋律参考线进行不断调整,最终生成音乐的旋律曲线。
最后采用相关数据集与评价指标通过实验验证了本申请方法的可行性与有效性,与现有技术的方法进行了对比分析。在没有引入复杂数学模型及方法的情况下,本申请方法具有更高的鲁棒性,专业声乐旋律特征的提取更加准确,同时对于声乐信号具有更低的浊音误报率和较高的浊音召回率。
一、基于乐理的显著性表征方法
虽然通过谐波加权求和可以近似表征某一时间点的一系列频率的显著性,但其并没有考虑人类的听觉原理,以及噪声和谐波带来的误差。
因此,本申请(基本流程如图1所示):首先,通过将对应的频率映射到符合人类听觉特征的十二平均律中,以音分为标度;其次,本申请不直接采用谐波加权求和的方式,而是在计算某一个量化点的显著性时,考虑一帧信号中所有谱峰的显著性贡献,也即将某一个谱峰视为该量化点的谐波分量,使得可以被应用于多个量化点之间的一个谱峰,以减弱噪声的影响。
基于乐理的显著性表征方法的流程中涉及到的计算包括:
1.将谱峰映射到音分标度
首先,根据听觉原理,基于55Hz至1760Hz(其中55Hz为钢琴的音符A1所具有的频率)范围内的5个八度音频率范围,根据十二平均律将这一频率范围分为600个量化点(每两点间距为10音分),对于频率fi,将其映射到量化后的刻度上如式1所示:
将谱峰映射到音分标度。
2.计算旋律显著性
对于某一个频谱峰值f,将其视为某一音分的n次谐波,采用一个临界值进行处理,也即只将与帧内最大谱峰的能量差异在某一临界值(γ)内的共振峰(只考虑与cents标度中音程差距一个半音之内的共振峰)考虑在内,以削弱非旋律频率的影响。
接下来计算点b的显著性(将一帧中所有共振峰考虑在内),如式2所示,其中fi为谱峰pi的频率,mi为谱峰的振幅,Nh为考虑的共振峰的数量,β为将振幅转化为能量的缩放函数(通常认为能量为振幅的二次方,但引入参数便于本申请后续的调优):
函数e(mi)为进行振幅量化的方式,如式3所示,其中mMax为谱峰(帧中振幅最大的峰)的振幅,γ为共振峰与谱峰的能量差异(采用dB标度):
最后采用函数g(b,h,fi)定义共振峰的权重,如式4所示,其中h是考虑所有共振峰(共N,个)的编号,峰值(振幅最大的频率)处为1,α是谐波权重的参数,b是谱峰的映射后的标度(音分),δ是谐波频率fi/h与量化点b的中心频率的距离(以半音为单位),引进δ保证共振峰不是单独的应用于某一个量化点,而是应用于相邻的量化点之间,削弱量化带来的误差,如式5所示:
/>
得到基于乐理的显著性表示。
二、基于音高轮廓声乐计量特征的旋律提取方法
得到音乐信号的频率组成及其显著性表示后,对于最终的旋律,单纯的显著性表示还不够直观,并且单纯的临界值处理也很难保证方法的鲁棒性。为此,本申请提出一种基于音高轮廓声乐计量特征的旋律提取方法,首先采用整体分离净化方式对轮廓的生成进行优化,然后在此基础上利用轮廓的声乐计量特征引导最终旋律的生成。
(一)音高轮廓计量生成方法的优化
通过前面的处理,得到了信号的频率组成,及其对应的显著性,相对于直接采用振幅的频谱图,旋律变得更加直观,但获得的效果并不理想,因为此时显著性相对于最终旋律而言还是比较复杂。本申请利用音高轮廓(根据显著函数的峰值将音高组织成在时间上连续的序列)的声乐计量特征引导生成最终的旋律序列,并且提出采用整体分离净化的方式对轮廓的建立阶段进行优化。
与其它直接采用临界值处理的技术不同,基于音高轮廓的方式首先根据音高序列,提取出所有可能成为最终旋律的短时序列,然后计算其综合特征进一步优化,最终得到旋律结果,在选择轮廓之前首先对音高序列进行分离净化,去除非旋律音高的影响,丢弃过滤掉的非旋律音高,获得更高精度的轮廓特征,建立最终的旋律曲线,并对其进行进一步的优化。
首先,在帧的基础上过滤掉与峰值差距一个临界值τ1之外的共振峰;其次,计算第一步处理之后的所有峰(所有帧中)的平均值μs以及标准差δs,然后引入参数τδ,以便决定对峰值的分离净化程度(即允许共振峰与平均值的最大偏差),如式6所示:
Smax=μs-τδ·δs 式6
对于τδ,当其较大时,在过滤掉更多的非旋律峰的同时,也会分离净化掉更多的旋律峰;但当其较小时,很少分离净化掉旋律峰,但对于非旋律峰的分离净化效果也不明显;
虽然通过以上方式,可以对音高轮廓的建立起到一定的优化作用,但考虑到在分离净化峰值时,由于有可能在一定程度上分离净化掉一部分因为噪声因素被掩盖的构成旋律序列的音高,所以在建立音高轮廓时,综合考虑分离净化后的音高集合C1与被滤出的音高集合C2,基本流程如图2所示。
具体流程包括:
第一步:从集合C1中选取最大值f0,如果存在f0,将其从C中去除,设定参考点ft=f0,并且建立新的音高轮廓S0,转向第二步,如果不存在,方法结束;
第二步:从集合C1中选取时间上在ft之后,并且与之音高偏差在一个半音之内的峰值f1,如果f1存在,将其从C1中去除,并且将其添加到S0中,更新ft=f1,重复第二步,如果f1不存在,开始计算间隔时长t0=0,转向第三步;
第三步:从集合C2中选择与ft音高偏差在一个半音之内,且时间上在ft之后的峰值f2,如果f2不存在,转向第五步,如果f2存在,转向第四步;
第四步:如果t0≤100ms,则将f2添加到S0,并将其从C2中去除,更新ft=f2,转向第二步,否则,转向第五步;
第五步:如果S0不为空,将S0添加到轮廓集合C3中,转向第一步﹔
引入参数τ1,用于分离净化单帧内的非旋律峰;参数τδ用于确定允许的旋律峰值的最大偏差,本申请τ1=0.92,τδ=0.91,虽然增大τ1,同时增大τδ,导致分离净化掉更多非旋律峰的同时也分离净化掉更多的旋律峰,但由于在建立轮廓时综合考虑了已经滤出的集合,对于最终旋律的构建,起到了更好的作用。
(二)基于音高轮廓的声乐旋律构建方法
经过上述处理,得到了一系列的旋律轮廓,如图3所示,但对最终的旋律,在每一个时间点,应该只有一个频率值与之对应。所以,本申请对所得旋律轮廓进行进一步分离净化处理,以确定最终的旋律曲线,采用音高轮廓的声乐计量特征来引导旋律生成的最后阶段。
1.旋律轮廓的声乐计量特征
采用基于轮廓声乐计量特征的方式对轮廓进行分离净化,并且利用颤音以及音高标准差引导旋律的构建,以获得最终结果,得到的音高轮廓由两种方式表示:音高的频率表示(用音分表示)和音高的显著性表示,p(n)是音高的频率表示,s(n)是音高的显著性表示,假设对于某一轮廓,共有N个频谱峰,采用上述方式对以下特征表示后者。假设对于某一轮廓,共有N个频谱峰,采用上述方式对以下特征的概率分布进行计算,如图4所示,其中图(a)为音高频率平局值、图(b)为音高频率标准差、图(c)为音高频率峰度、图(d)为轮廓总显著性、图(e)为轮廓显著性平均值、图(f)为轮廓显著性标准差、图(g)为轮廓显著性峰度、图(h)为轮廓持续时长的概率分布。其中实线代表构成旋律的音高轮廓的特征,虚线代表非旋律轮廓的特征。
(1)音高频率平均值,表示音高轮廓的平均频率,如式7所示:
(2)音高频率标准差,表示音高轮廓的频率标准差,如式8所示:
(3)音高频率峰度,表示音高轮廓频率的峰度,如式9所示:
(4)轮廓总显著性,表示某一轮廓的所有峰的总显著性,如式10所示:
(5)轮廓显著性平均值,表示音高轮廓显著性的均值,如式11所示:
/>
(6)轮廓显著性标准差,表示音高轮廓显著性的标准差,如式12所示:
(7)轮廓显著性峰度,表示音高轮廓显著性的峰度,如式13所示:
(8)轮廓的持续时长,表示某一音高轮廓的持续时长,如式14所示,其中fs为信号采样率,H为进行FFT变换时,窗口的前进步长:
(9)颤音是否存在,如图3中2.5至3.5s时间的音高表示,呈现有规律的波动,本申请将这种波动称之为颤音,将每一个轮廓进行傅里叶变换,分析其频谱峰值是否位于5至8Hz之间来确定颤音,如果是则存在颤音,否则不存在,采用一个布尔类型参数Cv表示。
旋律具有较大的音高频率方差、持续时间较长的轮廓、较大的显著性以及频率集中分布在中频区域。本申请通过图4给出概率分布观察,可以看出在图(b)中,当音高频率方差在50音分以上时,非旋律轮廓的概率在10%以下;在图(h)中,当轮廓持续时长大于0.5s时,几乎可以确定为旋律轮廓;在图(d)中,当轮廓总显著性在1以上时,是非旋律轮廓的概率在10%以下;在图(a)中,音高频率分布在2000至3000音分(频率大概在200至300Hz)之间。可以看出这些特征的分布与本申请描述吻合,可以用其引导建立更加精确的旋律曲线。
2.基于轮廓声乐计量特征的旋律构建
旋律曲线提取所面临的问题为:旋律是否存在(发声检测)以及倍频声乐误差。虽然上述处理在一定程度上缓解了该问题,对于同一时间点,最终的旋律曲线应该只有一个固定的频率与之对应,但本申请现在所得到的音高轮廓序列并不满足这种要求。所以,在上述处理得到的频谱分布、音高轮廓序列以及音高轮廓特征的引导下,进一步处理,得到最终的旋律曲线。
(1)检测旋律是否存在
对于发声检测,采用音高轮廓的平均显著性来引导处理(如图5所示),因为如果采用轮廓总显著性来执行类似处理,可能会由于轮廓长度的不一致带来额外的误差。首先计算所有/>的均值,记为/>然后计算其标准差,记为/>引入临界值参数τv,来决定被剔除的轮廓所应该具有的平均显著性的上限,如式15所示:
其中,参数v决定允许的偏差。
对于检测到颤音的轮廓,允许更大的偏差。对于图4中图(b),可以看出当音调标准差在40音分以上时,轮廓为旋律轮廓的概率在95%以上,因此,对于不满足参数τv,但音调标准差在40音分以上时,也应该允许更大的偏差,为此本申请引入参数τvib和τdiv来对进行调整,采用布尔类型参数Cis来表示轮廓是否为旋律轮廓,其取值有以下几种情况:
1)时,Cis=true;
2)Cv=false且/>时,Cis=false;
3)Cv=true且/>时,如果/>Cis=true,否则Cis=false;
4)Cv=false且/>时,如果/>Cis=true,否则Cis=false;
5)Cv=true且/>时,如果/>Cis=true,否则,Cis=false。
(2)倍频声乐误差消除
由于发声体在振动时,通常会产生一系列的谐波(即共振峰)。通常这些谐波的频率接近倍数关系,他们的特征非常相似,这使得本申请确定含有谐波的时间段的音高轮廓变得十分困难。对于这种问题,通常采用基于帧的方式,也即直接根据音高的显著性,在音高的整数倍处的峰值进行分离净化。虽然这种方式对于单音音乐而言可以达到很好的效果,但对于复音音乐而言,由于同时存在多个声源,使得在同时时间段内的整数倍处的波峰可能不是属于同一个音源,这样如果本申请单纯的采用上述的基于帧的方式,很有可能引入较大的误差。因此,本申请提出采用整面域处理的方式对倍频声乐误差的消除进行优化。
首先,在轮廓的基础上检测共振峰,以削弱多音源带来的影响,在每一个音高轮廓重复的区域,在帧的基础上计算所有帧的音高偏差的平均值本申请令/>音分,通过这种方式检测到的共振峰,保证音高轮廓在形态上相似性,音高轮廓设置以下特征:一是旋律轮廓比起倍频轮廓具有更大的显著性;二是最终的旋律曲线应该避免较大的频率跳跃。
因此本申请提出的方式如图6所示,对于检测到的具有倍频关系的音高轮廓,首先计算每个轮廓的总显著性然后计算每个轮廓总显著性是否在最大显著性的一半以上,如果不是,则直接将其分离净化掉,如果是则进行后续处理,此时对于存在共振峰的轮廓,其在显著性上相似,根据上述的第二个特征进一步处理。
由前边计算的旋律轮廓的总显著性以及持续时长的概率分布(图4中图(b)以及图(h))可知,对于构成最终旋律的轮廓,往往相对具有更大的总显著性,以及更长的持续时长,为了利用这种信息,本申请对这一阶段进行优化。本申请采用权重变换的方式,以帧为基础,计算每一帧的平均音高,得到一个参考旋律序列然后为了引入最终旋律应该避免较大跳跃这一信息,在出现轮廓重叠的区域,分离净化掉距离/>较远或具有一场音高的轮廓(有可能为噪声引入),每次滤出轮廓之后都对/>进行调整,以获得更精确的结果。
本申请的整面域声乐误差消除过程包括:
步骤一:对旋律检测处理之后的轮廓集合进行处理,寻找时间上重叠且没有处理的轮廓,如果找到转步骤二,否则转步骤四;
步骤二:对轮廓重叠区域计算所有帧的音高偏差平均值(相对于总显著性最大的轮廓),去除/>或者/>的轮廓,只保留近似符合八度关系的轮廓,转步骤三;
步骤三:对于具有八度关系的轮廓,计算每个轮廓的总显著性保留/>在最大值一半以上的轮廓,去除谐音,转步骤一;
步骤四:计算每个音高轮廓在所有轮廓中的权重,用Cw表示,如式16所示,
其中Nc表示轮廓总数表示计算得到的轮廓总显著性序列,转步骤五:
步骤五:以帧为基础,计算每一帧的平均音高,得到一个关于时间(以帧为单位)的音高序列(作为最终旋律的参考序列),如式17所示:
其中Nc表示某一帧所参与组成轮廓的数量(也即含有共振峰的数量),Cw(n,i)表示第n号帧的共振峰i所组成的轮廓的权重(由步骤一计算给出),P(n,i)表示第n号帧的共振峰i处的频率,转步骤六;
步骤六:寻找出现时间上重叠,但没有处理的轮廓,如果有则继续,否则转步骤七,计算轮廓的持续时间段上每个轮廓与序列的音高差值(以帧为基础进行计算),选择差距较小的轮廓作为结果,但如果所有差值均在半个八度以上,选择轮廓总显著性较大的作为结果。转步骤四;
步骤七:寻找与序列的音高差值(以帧为基础进行计算)在一个八度以上的轮廓,如果有,删除该轮廓,转步骤四,否则方法结束。
通过以上方式,本申请使得最终的旋律更加偏向于具有较大总显著性,也即具有较长时长的轮廓,符合本申请前面的声乐计量特征,最终所得的结果(旋律曲线)如图7所示,其中图(a)中y坐标轴为频率表示,图(b)中y坐标轴为相对于55Hz的音分表示。
三、实验及结果分析
(一)参数调优
如图8与图9所示,列出了本申请所采用的参数及其相应的说明和后续实验中采用的值,其中对于参数M、N、Hop、fs、H、τ1、τδ、以及/>由于本申请在前边已经给出了各个参数的意义,所以此处只对参数fmax、γ、Nh、β、α、τvib、τdiv和v的不同取值给实验带来的影响进行分析说明。
首先,对于参数γ、Nb、β、α,由于其用于最终的旋律构建阶段,为了更好的评估其它参数的影响,假定其取值分别为50dB、15、2、0.9,其中γ=50dB是由人耳的响度曲线大致估算,也即将与谱峰能量差异在50dB以上的谱峰视为背景或噪声,分离净化掉;Nh=15为根据计算一段音频信号中的单帧谱峰数量的均值得出;β=2为根据经典的将振幅转化为能量的方式进行取值;a=0.9为考虑到使得谐波的权重所占比重较大得出。
如图8所示,其中图(a)、图(b)、图(c)和图(d)分别为参数fmax、τvib、τdiv以及v取不同值时对实验总体精度的影响,其中测量一个参数的影响时,其它参数的取值为不产生效果的取值,其中参数fmax、τvib、τdiv以及v不产生效果取值分别为0、1、1、1,当参数fmax取880Hz,τvib取3,τdiv取2,v取0.2时,总体精度达到最高,因此实验中采用该组参数组合。
另外,到当部分参数取值过大时,反而导致精度轻微减小。这也符合音高轮廓声乐计量特征的概率分布,即有可能将本不是期望结果的帧(所占比例较小)过度矫正,导致精度降低。
如图9所示为fmax、τvib、τdiv以及v分别取值为880、3、2以及0.2时,参数γ、Nh、β、α取不同值时的实验结果(其中分析某一参数取值时,均取其它三个参数的假设值)其中图(a)、图(b)、图(c)以及图(d)分别为参数γ、Nh、β、α取不同值时所得结果。可以看出对于所允许的单帧能量差值γ,当其取值为40dB时精度达到最高,这说明其取值过大时会导致非旋律峰被过多的引入,取值过小时,会导致旋律峰被过多的滤出;对于谐波数量Nk,当其取值为10时,精度达到最大,取值过小时会忽略掉本应是谐波分量的谱峰,取值过大时,会引入较多的非谐波峰值;对于能量指数β,其取值的变化对总体精度的变化影响不大,但为了运算的简便,本申请取值为1;对于谐波权重参数α,其取值为0.8时,总体精度达到最高,这说明,当其取值过大时,会使得不同频率的谐波的显著性衰减过小,导致产生误差,而取值过小时时,又会导致显著性衰减过快,引入误差。
(二)总体评价
如图10所示,给出了几种旋律提取方法的评价结果,其中SL1为一种基于贝叶斯神经网络的方法,IYl1为一种基于演奏转录的方法,CWJ3为一种基于旋律音高与非旋律音高的计算模型的方法,YJ2为一种基于隐马尔可夫模型(HMM)的方法。另外对于每个评价指标,还计算了其均值,并且对最大值与最小值用加粗字体表示。本申请方法的结果在倒数第二行给出。
从图10中可以看出对于浊音召回率(VR)与浊音误报率(VFA),二者之间近似成正相关关系,也就是说当提升VR时,一般情况下VFA也会随之提升。这是因为对于发声检测,通常会采用一系列的基于临界值的分离净化手段,当临界值设置过小时,会导致大量的清音帧被误估计为浊音帧,从而导致浊音误报率VFA的提升;但当临界值过大时,会导致大量的浊音帧被分离净化掉,导致浊音召回率VR降低。在本申请的方法中,采用建立音高轮廓的方式,并没有直接将分离净化掉的清音帧丢弃,而是在音高轮廓的建立阶段,在一定程度上允许方法重新引入被当做清音帧分离净化掉的浊音帧(有可能是由于噪声因素被掩盖),相比CWJ3方法,在一定程度上在尽量不增加浊音误报率的条件下提升了浊音召回率,相比均值提升。可以看出本申请方法在尽量少的增加浊音误报率的情况下,提升了浊音召回率,本申请方法具有最低的浊音误报率与最高的总体精度。
对于真实音高估计(RPA),由于本申请在最终旋律建立的阶段,采用基于音高轮廓的声乐计量特征加权(总显著性)的方式(因为本申请从音高轮廓的总显著性以及持续时长的概率分布发现,最终旋律在很大概率上偏向于较长,总显著性较大的轮廓),使得最终的旋律估计偏向于较长的音高轮廓,并且采用不断调整参考旋律序列的方式,从而在一定程度上对真实音高的估计产生了积极的作用,在一定程度上减少了YJ2方法中所产生的音高估计误差。
对于真实色度估计精度(RCA),本申请由于在旋律建立阶段,采用限制轮廓平均显著性偏差的方式,同时将声乐计量特征轮廓音调标准差、颤音的存在引入分离净化过程,从而对允许轮廓的偏差程度进行调整。另外采用轮廓平均偏差的方式(值为1100至1300cents),在一定程度上保证了倍频音高轮廓在形态上的相似性,最终在一定程度上分离净化掉噪声因素带来的误估计。
最后对于总体精度(OA),可以看出,在列出的几种方法中,取得了最好的效果,而且本申请在方法中并没有引入比较复杂的多元高斯模型或隐马尔科夫模型,因此,本申请方法具有明显的可行性与有效性。
Claims (3)
1.音乐大数据检索的专业声乐旋律特征提取方法,其特征在于,采用基于音高轮廓声乐计量特征与整面域优化的旋律提取方法,分为频率分解、显著性计算、建立音高轮廓以及旋律生成四个步骤;
所述频率分解包括以下步骤:
将目标声乐旋律采用等响度滤波器进行优化处理,并将频率标度映射到音分标度用于后续处理;
利用类比谐波加权求和的方式计算谱峰显著性,对频谱峰值进行表征,使得显著性更加符合听觉原理;
所述显著性计算方法如下:
对于某一个频谱峰值f,将其视为某一音分的n次谐波,采用一个临界值进行处理,也即只将与帧内最大谱峰的能量差异在某一临界值(γ)内的共振峰考虑在内,削弱非旋律频率的影响;
接下来计算点b的显著性,如式1所示,其中fi为谱峰pi的频率,mi为谱峰的振幅,Nh为考虑的共振峰的数量,β为将振幅转化为能量的缩放函数:
函数e(mi)为进行振幅量化的方式,如式2所示,其中mMax为谱峰的振幅,γ为共振峰与谱峰的能量差异:
最后采用函数g(b,h,fi)定义共振峰的权重,如式3所示,其中h是考虑所有共振峰的编号,峰值处为1,α是谐波权重的参数,b是谱峰的映射后的标度,δ是谐波频率fi/h与量化点b的中心频率的距离,引进δ保证共振峰不是单独的应用于某一个量化点,而是应用于相邻的量化点之间,削弱量化带来的误差,如式4所示:
从而得到基于乐理的显著性表示;
建立音高轮廓的具体步骤为:音高轮廓计量生成方法的优化:利用音高轮廓的声乐计量特征引导生成最终的旋律序列,并且采用整体分离净化的方式对轮廓的建立阶段进行优化;
基于音高轮廓的方式首先根据音高序列,提取出所有可能成为最终旋律的短时序列,然后计算其综合特征进一步优化,最终得到旋律结果,在选择轮廓之前首先对音高序列进行分离净化,去除非旋律音高的影响,丢弃过滤掉的非旋律音高,获得更高精度的轮廓特征,建立最终的旋律曲线,并对其进行进一步的优化;
首先,在帧的基础上过滤掉与峰值差距一个临界值τ1之外的共振峰;其次,计算第一步处理之后的所有峰(所有帧中)的平均值μs以及标准差δs,然后引入参数τδ,以便决定对峰值的分离净化程度,如式5所示:
Smax=μs-τδ·δs 式5
在建立音高轮廓时,综合考虑分离净化后的音高集合C1与被滤出的音高集合C2,具体流程包括:
第一步:从集合C1中选取最大值f0,如果存在f0,将其从C1中去除,设定参考点ft=f0,并且建立新的音高轮廓S0,转向第二步,如果不存在,方法结束;
第二步:从集合C1中选取时间上在ft之后,并且与之音高偏差在一个半音之内的峰值f1,如果f1存在,将其从C1中去除,并且将其添加到S0中,更新ft=f1,重复第二步,如果f1不存在,开始计算间隔时长t0=0,转向第三步;
第三步:从集合C2中选择与ft音高偏差在一个半音之内,且时间上在ft之后的峰值f2,如果f2不存在,转向第五步,如果f2存在,转向第四步;
第四步:如果t0≤100ms,则将f2添加到S0,并将其从C2中去除,更新ft=f2,转向第二步,否则,转向第五步;
第五步:如果S0不为空,将S0添加到轮廓集合C3中,转向第一步;
旋律生成的具体步骤为:采用基于音高轮廓声乐计量特征的方式优化旋律生成阶段,将音高轮廓的音高均值、方差、总显著性以及持续时长声乐计量特征输入至计算模型中,采用显著性加权的方式对旋律参考线进行不断调整,最终生成音乐的旋律曲线,具体的,音高轮廓的声乐计量特征计算方式为:采用基于轮廓声乐计量特征的方式对轮廓进行分离净化,并且利用颤音以及音高标准差引导旋律的构建,以获得最终结果,得到的音高轮廓由两种方式表示:音高的频率表示和音高的显著性表示,p(n)是音高的频率表示,s(n)是音高的显著性表示,假设对于某一轮廓,共有N个频谱峰,采用音高轮廓的声乐计量特征计算方式对以下特征的概率分布进行计算;
(1)音高频率平均值,表示音高轮廓的平均频率,如式6所示:
(2)音高频率标准差,表示音高轮廓的频率标准差,如式7所示:
(3)音高频率峰度,表示音高轮廓频率的峰度,如式8所示:
(4)轮廓总显著性,表示某一轮廓的所有峰的总显著性,如式9所示:
(5)轮廓显著性平均值,表示音高轮廓显著性的均值,如式10所示:
(6)轮廓显著性标准差,表示音高轮廓显著性的标准差,如式11所示:
(7)轮廓显著性峰度,表示音高轮廓显著性的峰度,如式12所示:
(8)轮廓的持续时长,表示某一音高轮廓的持续时长,如式13所示,其中fs为信号采样率,H为进行FFT变换时,窗口的前进步长:
(9)颤音是否存在,将每一个轮廓进行傅里叶变换,分析其频谱峰值是否位于5至8Hz之间来确定颤音,如果是则存在颤音,否则不存在,采用一个布尔类型参数Cv表示;
检测生成的旋律是否存在,具体包括以下步骤:
对于发声检测,采用音高轮廓的平均显著性来引导处理,首先计算所有/>的均值,记为/>然后计算其标准差,记为/>引入临界值参数τv,来决定被剔除的轮廓所应该具有的平均显著性的上限,如式14所示:
其中,参数v决定允许的偏差;
对于检测到颤音的轮廓,允许更大的偏差,对于不满足参数τv,但音调标准差在40音分以上时,也应该允许更大的偏差,为此引入参数τvib和τdiv来对进行调整,采用布尔类型参数Cis来表示轮廓是否为旋律轮廓,其取值有以下几种情况:
1)时,Cis=true;
2)Cv=false且/>时,Cis=false;
3)Cv=true且/>时,如果/>Cis=true,否则Cis=false;
4)Cv=false且/>时,如果/>Cis=true,否则Cis=false;
5)Cv=true且/>时,如果/>Cis=true,否则,Cis=false;
其中,整面域优化的旋律提取方法中,关于声乐误差消除过程,包括:
步骤一:对旋律检测处理之后的轮廓集合进行处理,寻找时间上重叠且没有处理的轮廓,如果找到转步骤二,否则转步骤四;
步骤二:对轮廓重叠区域计算所有帧的音高偏差平均值去除/>或者/> 的轮廓,只保留近似符合八度关系的轮廓,转步骤三;
步骤三:对于具有八度关系的轮廓,计算每个轮廓的总显著性C∑s,保留C∑s在最大值一半以上的轮廓,去除谐音,转步骤一;
步骤四:计算每个音高轮廓在所有轮廓中的权重,用Cw表示,如式15所示,
其中Nc表示轮廓总数,C∑s表示计算得到的轮廓总显著性序列,转步骤五:
步骤五:以帧为基础,计算每一帧的平均音高,得到一个关于时间的音高序列如式16所示:
其中Nc表示某一帧所参与组成轮廓的数量,Cw(n,i)表示第n号帧的共振峰i所组成的轮廓的权重,P(n,i)表示第n号帧的共振峰i处的频率,转步骤六;
步骤六:寻找出现时间上重叠,但没有处理的轮廓,如果有则继续,否则转步骤七,计算轮廓的持续时间段上每个轮廓与序列的音高差值,选择差距较小的轮廓作为结果,但如果所有差值均在半个八度以上,选择轮廓总显著性较大的作为结果,转步骤四;
步骤七:寻找与序列的音高差值在一个八度以上的轮廓,如果有,删除该轮廓,转步骤四,否则方法结束;
通过以上方式,使得最终的旋律更加偏向于具有较大总显著性,也即具有较长时长的轮廓,最终得到旋律曲线。
2.根据权利要求1所述音乐大数据检索的专业声乐旋律特征提取方法,其特征在于,引入参数τ1,用于分离净化单帧内的非旋律峰;参数τδ用于确定允许的旋律峰值的最大偏差,本申请τ1=0.92,τδ=0.91,虽然增大τ1,同时增大τδ。
3.根据权利要求1所述音乐大数据检索的专业声乐旋律特征提取方法,其特征在于,倍频声乐误差消除:
首先,在轮廓的基础上检测共振峰,以削弱多音源带来的影响,在每一个音高轮廓重复的区域,在帧的基础上计算所有帧的音高偏差的平均值本申请令/>音分,通过这种方式检测到的共振峰,保证音高轮廓在形态上相似性;
对于检测到的具有倍频关系的音高轮廓,首先计算每个轮廓的总显著性CΣs,然后计算每个轮廓总显著性是否在最大显著性的一半以上,如果不是,则直接将其分离净化掉,如果是则进行后续处理;
采用权重变换的方式,以帧为基础,计算每一帧的平均音高,得到一个参考旋律序列然后在出现轮廓重叠的区域,分离净化掉距离/>较远或具有一场音高的轮廓,每次滤出轮廓之后都对/>进行调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211216510.3A CN115527514B (zh) | 2022-09-30 | 2022-09-30 | 音乐大数据检索的专业声乐旋律特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211216510.3A CN115527514B (zh) | 2022-09-30 | 2022-09-30 | 音乐大数据检索的专业声乐旋律特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115527514A CN115527514A (zh) | 2022-12-27 |
CN115527514B true CN115527514B (zh) | 2023-11-21 |
Family
ID=84702324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211216510.3A Active CN115527514B (zh) | 2022-09-30 | 2022-09-30 | 音乐大数据检索的专业声乐旋律特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115527514B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001069575A1 (en) * | 2000-03-13 | 2001-09-20 | Perception Digital Technology (Bvi) Limited | Melody retrieval system |
CN103247286A (zh) * | 2013-03-28 | 2013-08-14 | 北京航空航天大学 | 一种基于gpu的多声部音乐旋律提取方法 |
CN105957538A (zh) * | 2016-05-09 | 2016-09-21 | 大连民族大学 | 基于显著性的复调音乐主旋律提取方法 |
CN108257591A (zh) * | 2016-12-29 | 2018-07-06 | 北京酷我科技有限公司 | 一种音乐的识别方法及系统 |
CN108647596A (zh) * | 2018-04-27 | 2018-10-12 | 大连民族大学 | 音乐主旋律提取方法 |
CN114627892A (zh) * | 2022-03-18 | 2022-06-14 | 厦门大学 | 一种基于深度学习的多声部音乐人声主旋律提取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080300702A1 (en) * | 2007-05-29 | 2008-12-04 | Universitat Pompeu Fabra | Music similarity systems and methods using descriptors |
JP2014219607A (ja) * | 2013-05-09 | 2014-11-20 | ソニー株式会社 | 音楽信号処理装置および方法、並びに、プログラム |
-
2022
- 2022-09-30 CN CN202211216510.3A patent/CN115527514B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001069575A1 (en) * | 2000-03-13 | 2001-09-20 | Perception Digital Technology (Bvi) Limited | Melody retrieval system |
CN103247286A (zh) * | 2013-03-28 | 2013-08-14 | 北京航空航天大学 | 一种基于gpu的多声部音乐旋律提取方法 |
CN105957538A (zh) * | 2016-05-09 | 2016-09-21 | 大连民族大学 | 基于显著性的复调音乐主旋律提取方法 |
CN108257591A (zh) * | 2016-12-29 | 2018-07-06 | 北京酷我科技有限公司 | 一种音乐的识别方法及系统 |
CN108647596A (zh) * | 2018-04-27 | 2018-10-12 | 大连民族大学 | 音乐主旋律提取方法 |
CN114627892A (zh) * | 2022-03-18 | 2022-06-14 | 厦门大学 | 一种基于深度学习的多声部音乐人声主旋律提取方法 |
Non-Patent Citations (5)
Title |
---|
"Melody Extraction From Polyphonic Music Signals Using Pitch Contour Characteristics";J. Salamon;《IEEE Transactions on Audio, Speech, and Language Processing》;第第20卷卷(第第6期期);全文 * |
"音乐旋律的提取方法研究及其应用";李强;《中国优秀硕士学位论文全文数据库哲学与人文科学辑》;全文 * |
Chen Li."Main melody extraction from polyphonic music based on frequency amplitude and multi-octave relation".《Computers & Electrical Engineering》.2021,全文. * |
一种基于音高显著性增强的主旋律提取方法;金文清;韩芳;;计算机科学(S1);全文 * |
改进音高轮廓创建和选择的旋律提取算法;李强;于凤芹;;计算机应用(08);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115527514A (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kroher et al. | Automatic transcription of flamenco singing from polyphonic music recordings | |
US20050211071A1 (en) | Automatic music mood detection | |
US20070131096A1 (en) | Automatic Music Mood Detection | |
Benetos et al. | Joint multi-pitch detection using harmonic envelope estimation for polyphonic music transcription | |
Rocamora et al. | Comparing audio descriptors for singing voice detection in music audio files | |
Gulati et al. | Automatic tonic identification in Indian art music: approaches and evaluation | |
US8193436B2 (en) | Segmenting a humming signal into musical notes | |
Hargreaves et al. | Structural segmentation of multitrack audio | |
Arora et al. | Multiple F0 estimation and source clustering of polyphonic music audio using PLCA and HMRFs | |
Arora et al. | On-line melody extraction from polyphonic audio using harmonic cluster tracking | |
Benetos | Automatic transcription of polyphonic music exploiting temporal evolution | |
Schramm et al. | Automatic transcription of a cappella recordings from multiple singers | |
Elowsson et al. | Modeling the perception of tempo | |
Wei et al. | Harmof0: Logarithmic scale dilated convolution for pitch estimation | |
Tian et al. | Towards music structural segmentation across genres: Features, structural hypotheses, and annotation principles | |
Cogliati et al. | Piano music transcription modeling note temporal evolution | |
Benetos et al. | Auditory spectrum-based pitched instrument onset detection | |
Plaja-Roglans et al. | Repertoire-specific vocal pitch data generation for improved melodic analysis of carnatic music | |
Hu et al. | Singer identification based on computational auditory scene analysis and missing feature methods | |
Pratama et al. | Human vocal type classification using MFCC and convolutional neural network | |
CN115527514B (zh) | 音乐大数据检索的专业声乐旋律特征提取方法 | |
Davies et al. | Towards a musical beat emphasis function | |
Sha et al. | Singing voice timbre classification of Chinese popular music | |
Wang et al. | Musicyolo: A vision-based framework for automatic singing transcription | |
Gurunath Reddy et al. | Predominant melody extraction from vocal polyphonic music signal by time-domain adaptive filtering-based method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |