CN110675845A

CN110675845A - 人声哼唱精确识别算法及数字记谱方法

Info

Publication number: CN110675845A
Application number: CN201910908933.3A
Authority: CN
Inventors: 杨岱锦
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-01-10

Abstract

本发明公布了一种以相对振幅为依据的直接提取基频方法，建立了频率矩阵和节拍矩阵，实现了有效哼唱音符音长区域切分；发明了一种可变识别区域的精确识别迭代算法，通过引入频率变化率和变化阻尼判定方法，显著减少整个哼唱音频的迭代次数。对人声哼唱录音的WAV格式音频文件，经过对基频的获取计算、音符音长识别区域切分、可变区域精确识别、国际音高换算四个环节，最后形成数字乐谱输出。该方法可利用普通智能手机和电脑实现对普通人声哼唱的精确识别并输出相应的数字曲谱，具有简洁、高效、精准、易推广的特色优势。

Description

人声哼唱精确识别算法及数字记谱方法

技术领域

本发明属于信号处理系统和软件算法领域，涉及对声音信号的提取，数字音乐旋律的表示方法。通过对哼唱声音进行采样，精确识别频率变化，准确判断音符音高音长，进而输出数字乐谱。

背景技术

音乐是构建人类文明、传承文化、表达思想情感的艺术和重要途径，人类社会发展离不开音乐。随着网络的发展，数字音乐用户逐渐普及。仅2015年，中国数字音乐市场规模就达近500亿，音乐创作步入了数字时代。在音乐创作中，通过哼唱形成曲谱是音乐创作过程中必不可少的重要过程与方法。哼唱曲调人工写作曲谱难度大，一般只有专业音乐人才能完成，且目前没有成熟的通用辅助软件。如果可以通过手机APP软件完成哼唱直接转换为乐谱，无疑将会帮助更多人进入音乐创作行业。因此，设计一种快速精准识别哼唱曲调的算法与软件，实现自动记谱具有广阔的应用前景和市场。

对哼唱的曲调的识别，通常的方法是采用寻找音频频率的突变点，并对音符音长进行切分,然后提取切分段的频率。频率的提取主要有时域、频域以及统计3种方法。时域提取基频的方法抗噪性低，只能粗略估计基频。在哼唱低频部分，每个音高差距的频率不过几赫兹，不适合应用此类方法。统计方法的计算量太大，不适合用于软件的快速分析。当前应用比较多的是频域分析方法，主要有离散小波变换(DWT) 和加窗傅里叶变换(WFT)两种。离散小波变换主要的特征是灵活性、快速性、双域性和深刻性，但是对音高频率相差只有几赫兹的人声低频部分，提取误差较大。而加窗傅里叶变换通过简单调整窗长，可以较好地满足需求。

在使用加窗傅里叶变换提取基频的方法中，国内外已有报导。Kwok等提出了自适应的短时傅里叶变换(ASTFT)，利用自适应关系调整窗长；但自适应调整需要提前知道目标参数，与哼唱基频提取的目标相悖。Dressler提出了多分辨率快速傅里叶变换(FFT)的正弦提取；虽然提高了和弦音频的提取能力，但准确度只有71.4％，并且与哼唱记谱的基频提取要求仍有差距。鲁佳采用了加窗傅里叶变化提取人声哼唱音高，通过对谐波分组来确定基频；但其固定窗长的提取方法无法同时满足高频和低频提取的精确度。张文歆采用多分辨率短时离散傅里叶变换(STDFT)对音频的主旋律进行提取，并指出应在局部区域对频率不断变化的音频进行频率测量，但该工作追求谐波的提取，且使用信号为一般音乐信号，含有大量的乐器噪声，与哼唱记谱中的基频提取背景不符。由于人声哼唱的能量很难固定，波动较大，而频率在短时间是趋于一致的，因此，对哼唱的音符度量(频率、音高、音长)的精确识别，成为解决辅助作曲软件的核心技术关键点，也是难点。不同人的发音标准、声音大小、节奏情况相对不同，哼唱环境影响导致音频组成更加复杂，节奏变化模糊，随机性更大，因此在对人声哼唱的音频的精确提取方面，更具挑战性。

综上所述，对于人声哼唱的自动识别记谱方面，当前并未有成熟且完美的解决方案。本发明基于加窗傅里叶变换基础上，提出了一种新的符合哼唱特征的加窗傅里叶变换改进算法，发明了人声哼唱精确识别算法及数字记谱方法，较好地解决了对哼唱作曲过程中音频的分析与提取，为开发精准的哼唱作曲软件，提供了一种可行的关键技术和解决方案。

发明内容

对于整个哼唱的识别记普，就是对音频信号进行离散化、精确提取哼唱特征信息的过程；我们发明了整个处理流程，包括对哼唱基频的获取计算、音符音长识别区域切分、可变区域精确识别、国际音高换算和乐谱输出共5个环节，主要流程如附图1所示。(1)哼唱基频通过振幅的离散傅里叶变化(DFT) 方法,(2)通过构建可识别频率矩阵、节拍规律矩阵来实现对音符音长的有效识别；(3)对音高的精确识别，提出了可变区域精确识别迭代算法；(4)最后应用国际标准音高度量换算，(5)最后输出数字乐谱。

(1)哼唱基频的振幅提取方法

我们对多种大量实际的哼唱音频进行了采样分析，按照一帧0.1s的离散数字哼唱音频进行傅里叶变换，发现基频的峰值通常出现在振幅第一次达到最大振幅的1/10左右处，能有效地减少噪声频率包含的能量，且误差不超过10％。采样分析结果见附图2，基于这样的规律，可以直接采用振幅来提取基频，由

给出。

式中f'是修正后的频率，[f_1/10]是第一次出现的不超过最大振幅1/10对应的频率值,F_s是离散数字哼唱音频对原始连续声音信号的采样频率，N是离散数字哼唱音频的采样点数。

(2)音符音长的有效识别方法

采用DTFT的方法对哼唱的基频提取后，在此基础上需要快速寻找音频的突变并进行准确识别，从而实现对音符音长区域切分。处理方法是对离散数字哼唱音频信号进行分帧，再对每一帧进行离散傅里叶变换，就可以得到频率-时间信息，这一过程必须尽可能降低噪声能量，突出基频峰峰值，并防止频谱泄漏。加窗傅里叶变化为此提供了一种解决方案，本发明在海明窗函数的基础上进行了改进，定义了窗宽参数λ，和频率系数η，见表达式w(n)，λ,η均取值[0,1],用于调节实现对音频数字信号的分帧和频率识别，λ和η根据不同哼唱特征进行模拟校对后，确定一个经验值，本文在具体实施中，λ取值0.54，η取值0.46。

在算法实现过程中，构建了频率矩阵F和节拍矩阵R。频率矩阵F用于记录唱音的个数n和频率重复出现的次数，可以便捷地找出连续出现次数最多的n个唱音的基频频率。F矩阵中f_k是第k个连续出现最多次的频率，简称第k个频率；x_k是该频率复现的次数。矩阵R用于记录音长区域的切分值，即形成哼唱识别的节奏。

R＝[r₁ ... r_k ... r_n]

R式中r_k是第k个频率的拍数。r_k＝int(2x_k/x_min)/2，x_min是F矩阵中x_k的最小值，k、n均为整数。对矩阵R切分由式

给出；其中Len_k是第k个区域所含的采样点数，N为离散数字哼唱音频信号采样点的总数。有效哼唱音符音长区域切分算法如附图3所示。

(3)可变区域精确识别迭代算法

虽然海明窗函数能够较好地处理音频频谱泄漏和噪声，由于普通人声哼唱音频复杂，且受到日常环境等多种因素影响，单一采样这种方法识别，往往出现漏、错、变调现象。难以达到更加精准地识别音符音长和音高。为此我们在上述识别区域基础上，进一步改进了算法，最后统一进行了修正。

改进算法的基本原理是：在一个音在已经切分区域内，人声哼唱单音持续时长内频率可以近似不变，不断迭代计算一个频率变化率Δf_k的最小点来确定哼唱基频，并以该点出现时的区域所含采样点个数，作为记录该音的音符音长。首先判断哼唱频率变化方向，确定边界改变的初始方向。选择或者定义一个可变识别区域len_k,k值为[a,b]，向右扩大区域(增大b值)，令初始区域对应的基频为f₀，向右扩展2次区域的基频对应值为f_k、f_k+1。对这3个数据求出变化阻尼P_k+1，若P_k+1<0，则应该沿增大b 的方向继续迭代，若P_k+1>0，则应该初始化b值后沿减小b的方向迭代。

定义基频变化率Δf_k＝|f_k-f_k-1|和变化阻尼为：P_k+1＝Δf_k-Δf_k-1式中，Δf_k为第k次边界改变对应基频的变化率，f_k为第k次边界改变后区域对应的基频，P_k+1为第k+1次边界改变的阻尼大小。在迭代过程中，若P_k+1小于0则继续沿当前边界改变的方向迭代，若P_k+1大于0则停止当前边界改变，迭代结束。

算法流程见附图4，具体步骤如下：

步骤1：取3.2节中描述的音符音长区域len_k。定义[a,b]区间对应音频相应的振幅范围，a为振幅矩阵F中的一个起始序号，相当于一个起始采样点，b为振幅矩阵中一个终止的序号，由a、b的值可以决定所选择区域的长度。

步骤2～4：逐次改变右边界，即b的值。在[a,b]区域内开始进行DFT变化，公式如下：

通过迭代判断判断频率变方向，计算频率变化最小值，记录对应的b值。

步骤5～8：改变左边界，即a的值，并按照上述原理进行DFT变化，同样计算频率变化最小值对应的a，迭代完毕后记录a、b的值，确定最终区域。

步骤9～11：对最终区域[a,b]进行处理，对应的基频视为该音频率，根据(3)式计算其时长，记录为该哼唱的音符音长。

每处理完一个区域后，按照步骤1～11进行下一个区域的精确识别，直到整个哼唱音频结束。通过变化阻尼P_k判定频率变化方向后，再计算基频变化率Δf_k，可以显著减少整个哼唱音频的迭代计算次数，大大提高效率。

(4)数字乐谱输出

通过上述迭代算法精确得出的每个最终区域对应的基频及其对应的音符音长，更新F矩阵值后记作 F'。乐谱输出定义了矩阵O的形式输出，其矩阵形式定义如下：

矩阵O中Y_k是第k个音符音高，r_k是第k个音符音长，即节拍数。将F’中记录频率的值，根据国际标准音高度量，按照下试进行频率f′_k与音高Y_k换算，对应的音高值记录到矩阵O中Y_k中。

式中f'是第k个基频对应的标准频率，f_k是第k个基频，f_k1是不大于f_k的最高半音所对应频率，f_k2是比f_k1高一个半音的音所对应的频率，int为取整算符。O中的r_k由记录音长区域的切分值矩阵 R＝[r₁ ... r_k ... r_n]给出，最终输出O，完成数字乐谱的输出。

附图说明

图1哼唱音频识别处理流程

图2哼唱按0.1帧/秒离散采样，振幅与频率误差关系

图3有效哼唱音符音长区域切分算法

图4可变区域精确识别迭代算法

图5 10个真实哼唱音频实施数据

图6少音哼唱傅里叶变化获得的振幅图形

图7对少音随意哼唱1的分帧结果图形输出

图8对每帧进行快速傅里叶变换(FFT)得到的基频效果图

图9对音符音长区域切分后，矩阵F和矩阵R输出图形

图10实际音频的区域划分效果图

图11精确识别后的最终时长划分效果图

图12根据国际标准音高度量换算后的频率与音高矩阵输出图

图13 10个真实哼唱的数字乐谱输出图

具体实施方式

使用Python 3.6作为编程语言。应用了Python提供的wave软件开发包，编程提取了哼唱录音成 WAV文件格式音频信号，实现了对音频的通道数、量化位数、采样率(Fs)、采样点数(N)的矩阵计算与存储；采用了numpy软件开发包实现了快速傅里叶变换(FFT)及相应的矩阵换算。

根据10个以确定的谱曲，分别进行人声哼唱录音，录音设备为普通智能手机，录音地点为普通宿舍。10个哼唱音频数据显示见图5,其中包含2个低音音阶、2个高音音阶、2个短时随意哼唱、2个长时随意哼唱、2个合成声。以少音随意哼唱为例给出具体的实施过程。

少音随意哼唱1，经过含时的傅里叶变化采样后，获得振幅图见图6；

对少音随意哼唱1的分帧结果如图7所示；

对每帧进行快速傅里叶变换(FFT)得到的基频结果见图8；

对音符音长区域切分后，矩阵F和矩阵R输出见图9，实际音频的区域划分效果见图10；

对每个有效哼唱音符音长区域迭代精确频率和时长，与矩阵F中的各频率进行更新，最终的时长划分效果如图11所示；根据国际标准音高度量，进行频率f′_k与音高Y_k换算，输出F'及矩阵O，见图 12；

最后程序对10个哼唱音频精确识别后，数字乐谱输出见图13。

Claims

1.人声哼唱精确识别算法及数字记谱方法，其特征在于所述方法包括如步骤：

(1)对哼唱录音文件的基频提取，对音频进行离散傅里叶变化(DFT)，根据振幅信号值直接提取基频。

(2)音符音长识别区域切分，构建了频率矩阵F和节拍矩阵R，采用了基于海明窗函数的离散傅里叶变化，对音频数字信号的分帧和频率识别，从而实现了对音符音长识别区域的切分。

(3)可变区域音符音高音长的精确识别，对音律按照上述方法进行切分后的区域内，通过改变区域边界，不断迭代计算这个区域内一个发音的频率变化率Δf_k，寻找最小点来确定哼唱基频，并以该点出现时的区域所含采样点个数，作为记录该音的音符音长，从而实现对音符音高音长的精确识别。

(4)国际音高换算，采用国际标准音高(Standard Pitch)度量，按照高度顺序分别为A、Bb、B、C、C#、D、Eb、E、F、F#、G、G#，越靠后表示半音高度越高。2个半音高度(f₁,f₂)之间的频率关系由公式：

计算,由此计算获得所有音高和频率对照表，并进行存储。

(5)乐谱输出，根据国际标准音高度量，进行频率f′_k与音高Y_k换算后，产生的对应音高Y_k存储于矩阵A中，将已经计算获得的音符音长(步骤(2))存储于矩阵R中，根据矩阵相应储值，通过音高和频率对照表输出该哼唱曲调的数字乐谱。

2.根据权利要求1所述的人声哼唱精确识别算法及数字记谱方法，其特征在于步骤(1)提出了相对基频提取方法，包括如下原理及计算公式。

经过大量哼唱特征分析，发现基频的峰值出现在振幅第一次达到最大振幅的1/10左右处，误差不超过10％，且能有效地减少噪声。基于这样的原理，直接采用振幅来提取基频，由

给出。式中f'是修正后的频率，[f_1/10]是第一次出现的不超过最大振幅1/10对应的频率值,F_s是离散数字哼唱音频对原始连续声音信号的采样频率，N是离散数字哼唱音频的采样点数。

3.根据权利要求1所述的人声哼唱精确识别算法及数字记谱方法，其特征在于步骤(2)对音频数字信号分帧和频率识别的区域划分方法，具体特征描述如下：

定义了频率矩阵F和节拍矩阵R用于存储和输出频率和节拍：

F矩阵中f_k是第k个连续出现最多次的频率，简称第k个频率；x_k是该频率复现的次数。R式中r_k是第k个频率的拍数。r_k＝int(2x_k/x_min)/2，x_min是F矩阵中x_k的最小值，k、n均为整数。对区域的切分定义了第k个区域所含的采样点数了Len_k，计算式为

N为离散数字哼唱音频信号采样点的总数。由此实现对离散数字哼唱音频信号进行分帧，再对每一帧进行含时的离散傅里叶变换。

4.根据权利要求1和权利要求3，对音频频率识别方法，其特征在于对加窗傅里叶变化函数进行了改进，定义了窗宽参数λ，和频率系数η，见表达式w(n)，λ,η均取值[0,1],用于调节实现对音频数字信号的分帧和频率识别，λ和η根据特定的哼唱特征进行模拟校对后，确定一个经验值。

。

5.根据权利要求1所述的人声哼唱精确识别算法及数字记谱方法，其特征在于步骤(3)对音符音高音长的精确识别包含如下原理：

在一个音在已经切分区域内，人声哼唱单音持续时长内频率可以近似不变，选择或者定义一个可变识别区域len_k,k值为[a,b]，在此区间内通过DFT迭代计算一个频率变化率Δf_k的最小点，确定哼唱基频，并以该点出现时的区域所含采样点个数，作为记录该音的音符音长。

6.根据权利要求5所述对音符音高音长的精确识别原理，其特征在于定义基频变化率Δf_k＝|f_k-f_k-1|和变化阻尼P_k+1＝Δf_k-Δf_k-1来判断可变识别区域len_k的边界方向，即k值[a,b]的取值改变方向。若P_k+1<0，则应该沿增大b的方向继续迭代，若P_k+1>0，则应该初始化b值后沿减小于b的方向迭代。其算法过程为：

步骤9～11：对最终区域[a,b]进行处理，对应的基频视为该音频率，根据(3)式计算其时长，记录为该哼唱的音符音长。每处理完一个区域后，按照步骤1～11进行下一个区域的精确识别，直到整个哼唱音频识别结束。

7.根据权利要求1和权利要求5所述的人声哼唱精确识别算法与数字记谱方法，其特征在于将最终区域锁定的基频值f'和采样点数，作为更新值储存到权利要求3的F矩阵中。定义矩阵根据国际标准音高度量，对f'进行频率与音高换算，对应的音高值记录到矩阵O中Y_k。矩阵A中Y_k即是第k个音符音高，r_k是第k个音符音长，即节拍数，由矩阵R＝[r₁ ... r_k ... r_n]给出。