CN104200818A

CN104200818A - 一种音高检测方法

Info

Publication number: CN104200818A
Application number: CN201410383633.5A
Authority: CN
Inventors: 张天骐; 徐昕; 张刚; 石穗; 张亚娟
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2014-08-06
Filing date: 2014-08-06
Publication date: 2014-12-10

Abstract

本发明请求保护一种音高检测方法。它针对基于内容的音乐检索中音高检测技术较差问题进行了研究。先将信号利用傅里叶变换将音乐信号转换到频域上进行计算，根据谐波峰值法对信号进行音高检测的第一步，即找到5个较低频率的谐波峰，并按其频率大小升序排列，之后计算各频率之间的比值，根据实验所测得的数据确定一组音高候选序列，再采用倒谱法对原有的音乐信号进行音高检测，将两种方法所得到的音高序列组合成一个新的音高候选序列，最后利用置信度和维特比最优算法，寻找最小代价对应的音高，即为本方法获得的标准音高。本发明具有很好的鲁棒性，抗噪性能好。

Description

一种音高检测方法

技术领域

本发明涉及音频信号处理，具体为一种纯音乐信号在不同噪声环境下的音高检测方法。

背景技术

音乐中音符音调的高低情况称之为音高，音高是由本征频率，即基频所决定，且与频率成反比关系。音高是描述音乐的一个重要参数，在哼唱检索、音乐识别及音乐分离等领域起到关键作用。能否快速且准确的检测出音高，直接影响了相关系统的各项性能。

随着互联网和数字音乐的发展，人们接触音乐的途径越来越多，如何快速且准确的找到自己想要的音乐是目前许多相关公司和用户所面临的一大难题。现有的音乐检索特征提取算法，主要方向都离不开准确音高这一显著特征。原因主要是易于接触的音频格式的音乐没有像MIDI音乐那样可直接利用的音高信息，如WAV、MP3等格式的音乐。所以目前的音乐检索算法思路大多都是从音频信号中提取音高、节拍等信息，从而将其转化成为MIDI格式音乐检索情形，这样诸多问题也就迎刃而解。目前为止，许多研究者在此方面做出了杰出贡献，Chias和McNab在哼唱检索中用符号U、D、S(或R)表示音高的变化，但是这种简化在数据库很大时的检索正确率很低。Hung用音高、音长、音强三元组合来描述音乐的特征，虽然提高了检索准确度，但是该算法复杂度较高，且对多声部的音乐检索性能欠佳。

音乐识别领域中音高的主要三种识别方法是时域的并行处理法，频域的谐波峰值法以及时频域的小波算法。在录音质量差、波形残缺时，并行处理法出错率很高，且对于有简单和弦伴奏的乐曲，并行处理法和小波算法都会无效，而谐波峰值法在基频分量小、偶次谐波丰富的场合误判可能性增大，所以目前还没有一种很好的办法解决不同种音乐的音高检测问题。综上可知，找到一个检测精度高、鲁棒性好的音高检测算法很有必要。

发明内容

本方明针对基于内容的音乐检索中音高检测技术较差的问题，提出一种谐波峰值法结合倒谱法(CEP)的音高检测方法。该方法可以对不同乐器在不同噪声下的乐曲进行音高检测，且检测正确率较高，鲁棒性较好。

本发明解决上述问题的技术方案是，先对音乐信号进行傅里叶变换(FFT)得到频谱，根据峰值检测法找出5个较低频率处的谐波峰，并按其对应频率大小升序排列，然后计算各频率间的比值，以此确定一组音高候选序列，再将此候选序列与倒谱法所算得的音高合并到一起组成新的音高候选序列，最后利用置信度和维特比算法对候选音高序列进行筛选，得到标准音高。具体步骤如下：

步骤1：将采集的音乐信号x(n)通过带通滤波器后，进行预处理，得到短时平稳信号；

步骤2：对所述短时平稳信号利用基于信号频谱特征的方法检测出音符起点，然后利用中值门限加均值门限对音符起点进行伪峰值剔除，完成音符分割；

步骤3：对完成音符分割后的信号采用谐波峰值法计算出一组音高候选序列，再通过倒谱法计算该完成音符分割后的信号的音高，得到另一组音高候选序列，将两组音高候选序列组成一个新的候选音高序列；

步骤4：对所述新的候选音高序列利用置信度筛选掉序列中的一部分音高候选值，将具有最大置信度的候选音高作为最佳音高候选值，并将这些值组成最佳音高候选序列；在最佳音高候选序列中利用维特比算法计算出代价函数，该最小代价函数对应的音高即为标准音高。

将本发明与经典的YIN算法、倒谱法(CEP)、HPS算法进行比较，具有如下优点：

本发明可以对不同乐器的乐曲进行音高检测，对以往单一音源的检测方法有了很大改进，而且对于常见的几种噪声(白(white)噪声、粉红(pink)噪声、工厂(factory)噪声、babble噪声)有很好的鲁棒性，抗噪性能明显优于其它几种方法，在较低信噪比情况下的检测精度较之其它几种方法也有很大提高。

附图说明

图1为理想情况下钢琴单个音符示意图；

图2为音符分割效果图；图中a为《昨日重现》时域波形图，b为对应a的突出outset点检测图，c为对应a峰值提取(音符分割)结果图；

图3为谐波峰值法原理流程图；

图4为倒谱法原理框图；

图5为改进方法的整体流程框图；

图6为不同乐器不同方法的音高比较图；图中a为小提琴音高序列比较图；b为钢琴音高序列比较图；

图7为不同噪声下音高序列比较图；

图8为不同乐器不同方法的音高检测性能比较图；图中a为小号音高检测率比较图；b为竖笛音高检测率比较图；c为小提琴音高检测率比较图；d为钢琴音高检测率比较图。

具体实施方式

音高检测是对单独的音符来进行的，所以必须先对输入的音频信号进行音符分割。不同乐器弹奏出来的音乐都以音频信号的形式采集到计算机内部后再进行相应的处理，这些采集的信号是非平稳且连续音符之间是叠加、互不隐藏的，所以类似于语音信号，必须先做短时处理,即音符分割。下面以钢琴理想情况下为例说明单个音符的组成，其组成图如图1所示。

单个音符主要由四部分组成：起奏，即attack部分，这段时间音符的幅度包络快速上升；瞬态即transient部分，它表示演奏者的真正演奏时间；最后为乐器本身的缓慢衰减即deday和共振部分。一个演奏音符的真正开始时间，即音符起点，记为图中的onset点，它也是瞬态的最初时间点。音符分割就是检测出onset点，根据其位置进行音符端点的切割。具体实现方法如下所述。

a：预处理阶段：将采集的音乐信号通过带通滤波器，这里根据几个常见乐器的重要频率范围，将滤波器的带宽设置为50到20000Hz，这样可以在后面的处理中提取到基频的5次谐波，之后进行分帧、加窗处理，得到短时平稳信号，窗函数采用窗长为N的汉明窗，表达式为：

w (n) = \{\begin{matrix} 0.5 - 0.46 \cos (2 πn / N - 1), 0 \leq n \leq N \\ 0, else \end{matrix} - - - (1)

b：简化：通过检测函数将原始音频信号转化为能突出音符起始点onset的特征序列；这里的检测函数采用基于信号频谱特征的方法，假设信号为x(n)，则它的短时傅里叶变换为：

X_{k} (n) = Σ_{n = - N / 2}^{N / 2 - 1} x (nh + n) w (n) e^{- 2 jπnk / N} - - - (2)

其中w(n)是N点的窗函数，h是帧移，一般取N的一半。对于一般语音信号，其能量主要集中在低频部分，但是连续音符构成的音频信号，其引发能量显著变化的瞬态却是在高频部分,根据Nick Collins等人提出的权重思想，信号能量表达式如下：

E (n) = \frac{1}{N} Σ_{k = - N / 2}^{N / 2 - 1} w_{k} {| X_{k} (n) |}^{2} - - - (3)

其中为w_k频率权重，表达式取w_k＝|k|时，瞬态期的峰值会更加尖锐，尤其对于敲击乐器演奏的音乐音符分割效果很好。

音符分割最重要的是检测出频域能量突变的增加部分，本发明定义连续短时傅里叶频谱的“距离”为检测函数，定义式为：

SD (n) = Σ_{k = - N / 2}^{N / 2 - 1} {H (| X_{k} (n) | - | X_{k} (n - 1) |)}^{2} - - - (4)

其中|X_k(n)-|X_k(n-1)||为连续两帧间的短时傅里叶变换系数的差值，之后利用 H(x)＝(x+|x|)/2函数保留差值中增加的部分。

c：峰值提出：上一步中的检测函数就可以表明onset点的位置，即峰值点的位置。但是不是所有的峰值都对应的是音符的onset点，一般的基于中值的自适应门限提取峰值法因为中值本身具有的随机性，且中值不能反映一个区段整体变化，所以检测的不稳定。为此在中值门限中引入均值门限，提高门限的稳定性能。其数学表达式如下：

σ′＝σ(n)+λ×median(SD(n-M),…,SD(n+M)) (5)

其中λ为尺度因子，取大于零的常数，M为区间长度参数，这里计算的区间长度为2M+1，median(·)表示中值滤波器，σ(n)为均值门限，表达式为：

σ (n) = a \times mean (SD (n - M), . . ., SD (n + M)) = \frac{a}{2 M + 1} Σ_{i = n - M}^{n + M} SD (i) - - - (6)

其中a为均值门限尺度因子。mean(·)表示均值滤波器。实验证明当k＝1.58、M＝3、λ＝1.2时效果最佳，以一首钢琴音乐《昨日重现》为例，其音符分割效果图如图2所示。

对音乐信号进行音符分割后，接下来就是对分割后的信号进行音高检测，这里先用谐波峰值法。因为任何周期性波形均可分解为一个基频正弦波加上许多谐波频率的正弦波，音乐中，每个音符的声音信息不仅包含基频，也包含了谐波部分，理论上谐波频率是基频的整倍数。谐波峰值法正是基于该理论，它将音乐信号通过FFT变换得到频率谱，频谱中的最大峰值一般对应基频，其原理流程图如图3所示(详细计算过程参见下文描述)。但是很多情况下基频的峰值并不是最大的，上世纪30年代，JFSchouten在著名的音调转移实验中证明：基频并不一定决定音高。因此本发明对此进行改进，只是根据谐波获得一组音高候选值，再结合倒谱法(CEP)、置信度等算法精确音高值。

这里令F₀为基频，假设知道谐波对应频率与基频的比值，接下来就能得到F₀的值。但是即使知道了谐波的频率值，也不知道谐波和基频的比值，因此，本发明提出一种方法，利用以下步骤寻找候选谐波与基频的比值，从而得到所要的候选音高序列。

幅度大的一定是音高本身或者它的某次谐波，一般情况小于等于5。这里将具有大的幅度且频率较低的谱峰值选为需要的谐波，因为大的幅值不易受到噪声的影响，而低频率的峰值容易确定谐波并计算其比值。实现如下：

加窗数字音乐信号的傅里叶变换的绝对值为：

| H (k) | = | Σ_{n = 0}^{N - 1} x (n) \cdot w (n) \cdot e^{- j 2 πk \frac{n}{N}} | - - - (7)

其中w(n)为上述汉明窗，为了提供高的分辨率，这里N取2¹⁶。接下来用峰值检测法来检测频谱峰值，之后将检测到的最大峰值的1/15作为幅度门限来筛选峰值，这里选择前5个较大的峰值。

令表示谐波对应频率值，表示筛选出的具有低频率的5个谱峰值，这里i＝0,…,4，将5个峰值按的大小以升序排列。实验表明，一些甚至是5个谱峰全部都可能是前5个谐波，即在m×F₀的位置处，这里m＝1,…,5，对于每一帧来说，音高候选序列来源于(即谐波对应的频率值)的比值。

根据实验可测得表1所示数据，对其中i<j,i,j＝0,…,4，计算比值如果比值落在任何表1所列的范围内，就知道了相一致的和之后通过计算谐波除以F₀的比值就可以获得一个候选基音值，即而且在实际中，因为乐器本身结构不会绝对理想，或者录取音频信号时的背景噪声的影响等这些不稳定因素，谐波往往不是F₀的整数倍。所以要加入一定的比例容差来尽可能纠正这些偏移。

为了选取5个谐波，对于每对，要计算种比值，因为实验中F₁/F₀和F₃/F₁的比值都等于2，对于区分它属于哪次谐波并不影响最后的结果，该文中假设它属于F₁/F₀，并在此基础上计算音高候选序列。另外，本发明将最小频率的峰值也作为一个候选音高，因为有些情况下只有F₀的峰值足够大到可以检测到。

表1：公差范围谐波比率

R	F₀	F₁	F₂	F₃
					F₁	[1.9,2.1]
F₂	[2.8,3.2]	[1.42,1.59]
					F₃	[3.8,4.2]	Discarded	[1.29,1.42]
F₄	[4.8,5.2]	[2.4,2.6]	[1.59,1.8]	[1.15,1.29]

在本发明中，将结合倒谱法来计算音高，即将倒谱法所得到的音高值作为候选值加入到上述利用谐波比所计算的音高候选值一起。因为之前所选的5个峰值都属于较低的频率，在这种情况下，在低频率出的谱峰更容易受到噪声的影响。但是，倒谱描述的是信号整个周期的频谱，考虑到了所有的谱峰，这样可以帮助提高检测精度。倒谱法的原理框图如图4所示。

令K表示上述音高候选序列的个数，则有候选音高值一般在50—4000Hz之外的直接舍弃，舍弃不可能的候选值之后的音高值数为K′。如果从谐波比值中无法导出可能的音高值，则直接将音高值置0。对于K′个候选值，如果两个或者多个候选值之间的频率差在10Hz之内的话，将被认为是特殊的候选值。接下来利用置信度在这些特殊候选值之间进行舍取。因为候选音高越接近真实音高的话，它在峰值中和它成谐波关系的峰值就越多，置信度也就越高。假设这种候选值有D个，则有

C(b)＝f_max/b,1≤b≤5 (8)

其中C(b)为候选音高，f_max为最大峰值频率，b为假定谐波次数。

置信度的表达式为：

v (b) = Σ_{i = 2}^{D} P (i) - - - (9)

其中P(i)为某次谐波的幅度。通过计算候选音高的置信度，将最大置信度的候选音高作为最佳音高候选值。

得到一组音高候选值后就是要从中筛选出真正的音高值，因为每一帧的候选音高值都是独立计算获得的，但是音高值的变化很缓慢，下一帧突然变化的情况比较少见，所以相邻帧之间的音高值可能是相关联的，因此这里采用维特比算法作为后处理，从而对所有的音高候选序列进行错误纠正。引入代价函数，它包括两部分：相邻两帧之间的频率跳变和每个独特候选音高值的置信度的倒数。接下来就是寻找一条最佳路径使得总得代价最小，从而根据它提取出最后的标准音高。每一条路径的代价函数定义为：

PathCost ({p_{n}}) = Σ_{n = 1}^{N_{frame} - 1} Cost ({\tilde{F}}_{i}^{n}, {\tilde{F}}_{j}^{n + 1}) - - - (10)

其中表示第n帧第i个候选音高值，表示下一帧的第j个候选基音值，N_frame表示样本乐曲的帧数，对于每一帧n，p_n是候选音高，其范围为{1≤n≤Nf_rame}。这里用来计算相邻帧间的代价，它与相邻帧之间的音高差和音高置信度有关。因为音高差和频率差存在着对数关系，音高差越大，所需要的代价就越大，候选音高的置信度越大越好，这里需要代价函数越小，所以采用的是置信度的倒数，权重w是用来平衡这两者间的关系的，实验证明w取值0.2为最佳。综上可得相邻帧的代价函数为：

Cost ({\tilde{F}}_{i}^{n}, {\tilde{F}}_{j}^{n + 1}) = | \log_{2} ({\tilde{F}}_{i}^{n} / {\tilde{F}}_{j}^{n + 1}) | + w \times \frac{1}{V_{i}^{n}} - - - (11)

其中为第n帧的第i个候选音高值的置信度。这里所要求的就是那些具有高的置信度且低代价的候选音高值。具有最小的代价函数对应的音高即为标准音高，记为{p_n}，即有如下关系：

其中Viterbi(Cost)即为式(11)中的代价函数利用Viterbi算法得到的最小代价函数。

本发明的整体流程框图如图5所示。

将本发明与经典的PIN算法、CEP算法、HPS算法进行比较。为验证本发明方法的整体检测效果及其在噪声情况下的抗干扰性，实验中所用到的音乐都由专业人士所弹奏，涉及的乐器主要有四种：钢琴、小提琴、小号和竖笛。音乐样本的采样率为44100Hz，量化比特为16bit。干扰噪声都取自noisex-92数据库，这里主要取四种常见的噪声：babble噪声、white噪声、factory噪声、pink噪声。

由图2(b)的音符分割效果图可知，基于信号频谱特征的方法基本上可以检测出onset点，但是存在很多伪峰值，再用中值门限中加入均值门限的方法进行峰值提取后，效果得到明显改善，如图2(c)所示，由此可知该方法可以有效并精确的进行音符分割。

图6为音高对比结果，其中(a)为钢琴，(b)为小提琴。本发明中对纯净音乐进行的音高检测之后加以手工校正，将最后得到的音高作为该首音乐的标准音高。取一首纯净的钢琴音乐和小提琴音乐为例来验证该检测方法的精确度，取检测到的前200帧的基音值为例。由图6可知，该方法不管是对钢琴还是小提琴，检测的正确率较于YIN算法而言，都有明显提高，基本可以完全检测出音乐的音高值。

接下来对该方法的鲁棒性进行验证。在上述实验中所选的纯净钢琴音乐中加入0dBwhite、babble噪声，之后对加噪后所得的音乐进行音高检测，由图7可知，虽然有部分音高检测出错，但是大部分音高都可以被检测出来，可见该方法的鲁棒性较好。

最后为了验证本发明方法检测效果的优越性，在上述四种乐器乐曲中各选取十首音乐，并在其中加入不同信噪比的四种噪声，再对其进行音高检测，累计平均后的结果再与标准音高对比，得出检测正确率，如图8所示。由此可知，不管是什么乐器，在什么信噪比的情况下，本发明方法的检测率明显高于其它几种常见的检测方法，说明本发明方法检测精度高，且具有良好的鲁棒性。

参考文献：

[1]Ghias,AJ and Logan,D.Chamberlain,BC Smith.Query by humming-musical information retrieval in an audio database[C].In Proc.ACM International Conference on Multimedia,San Francisco,1995.11:231-236.

[2]McNab,R.J,Smith,LA and Witten,Jan H.Towards the Digital Music Library:Tune Retrieval from Acoustic Input[C]In Proc ACM,International Conference on Digital Libraries 1996.5:11-18.

[3]Hung-Che Shen&Chungnan Lee Whistle for music:.Using melody transcription and approximate string matching for content-based query over a MIDI database[J]Multimed Tools Appl(2007)35:259-283.

Claims

1.一种音高检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述一种音高检测方法，其特征在于：所述带通滤波器的带宽为50到20000Hz。

3.根据权利要求1所述一种音高检测方法，其特征在于：步骤1中所述预处理包括分帧和加窗处理。

4.根据权利要求1所述一种音高检测方法，其特征在于：所述中值门限加均值门限的公式如下：

σ'＝σ(n)+λ×median(SD(n-M),…,SD(n+M))

式中，λ为尺度因子，取大于零的常数，M为区间长度参数，σ(n)为均值门限，SD(n)为检测函数；median(·)表示中值滤波器。

5.根据权利要求1所述一种音高检测方法，其特征在于：所述代价函数为

PathCost ({p_{n}}) = Σ_{n = 1}^{N_{frame} - 1} Cost ({\tilde{F}}_{i}^{n}, {\tilde{F}}_{j}^{n + 1})

式中，表示第n帧第i个候选音高值，表示下一帧的第j个候选基音值，N_frame表示样本乐曲的帧数，对于每一帧n，p_n是候选音高，其范围为{1≤n≤N_frame}，表示相邻帧间的代价。