CN103854644B

CN103854644B - 单声道多音音乐信号的自动转录方法及装置

Info

Publication number: CN103854644B
Application number: CN201210516769.XA
Authority: CN
Inventors: 王晖; 王雨田; 朱兵; 王颖; 宫妍竹
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2012-12-05
Filing date: 2012-12-05
Publication date: 2016-09-28
Anticipated expiration: 2032-12-05
Also published as: CN103854644A

Abstract

本发明提供了一种单声道多音音乐信号的自动转录方法及装置，该自动转录方法包括：接收单通道多音音乐信号；对所述单声道多音音乐信号进行分离，得到多路单音音乐信号；对各路单音音乐信号进行音色提取，确定演奏乐器信息；对各路单音音乐信号进行旋律、节奏及节拍的提取，获得音频信息；以及根据所述演奏乐器信息和所述音频信息获得多音音乐乐谱。上述单声道多音音乐信号的自动转录方法及装置，通过将多音音乐信号分离成多路单音音乐信号，对分离出的各路单音音乐信号分别进行音色和旋律、节奏及节拍的提取，获得演奏乐器信息和音频信息，进而根据所述演奏乐器信息和所述音频信息获得高准确率的多音音乐乐谱。

Description

单声道多音音乐信号的自动转录方法及装置

技术领域

本发明涉及数字信号处理技术领域，尤其涉及一种单声道多音音乐信号的自动转录方法及装置。

背景技术

随着数字信号处理技术的进步，音乐信号的传播及保存方式也变得多样化。一段音乐信号的乐谱几乎包含了乐曲中的所有信息，包括旋律、节奏、节拍等。利用某些音频软件，甚至可以通过对乐谱的创作或修改，不需真实乐器演奏就可以生成新的音乐信号。如果计算机能够自动从时域音乐信号中得到乐谱，那么对于音乐的进一步发展将有着非常重要的意义。

随着音乐信号处理技术的发展，产生了多种音乐信号自动转录装置。但目前存在的音乐信号自动转录装置都存在着各自的局限性。例如，有些装置只针对乐器数字接口(MIDI)格式的音乐信号，然而众所周知，MIDI信号中包含了很丰富的乐谱信息，从MIDI格式的音乐信号中提取乐谱只是一种逻辑转换，并不包含音符识别或节奏提取等具体工作；有些装置只针对单音音乐信号，即音乐信号在任何一个时间点只有不超过一个音符存在，当这些装置面对多音音乐的输入信号，就会失去原有的功能。有些装置可以对多音音乐信号进行乐谱的自动转录，但由于多音信号自身的复杂性及装置的特性，会造成乐谱信息的不准确。

因此，针对不包含乐谱信息的音乐格式(如wav格式)的多音音乐信号进行高质量的乐谱的自动转录的装置是合乎需要的。

发明内容

本发明提供了一种单声道多音音乐信号的自动转录方法及装置，以解决现有的自动转录装置无法针对多音音乐信号进行转录或乐谱准确率不高的问题。

本发明提供了一种单声道多音音乐信号的自动转录方法，该方法包括：

接收单通道多音音乐信号；

对所述单声道多音音乐信号进行分离，得到多路单音音乐信号；

对各路单音音乐信号进行音色提取，确定演奏乐器信息；

对各路单音音乐信号进行旋律、节奏及节拍的提取，获得音频信息；以及

根据所述演奏乐器信息和所述音频信息获得多音音乐乐谱。

优选地，所述对单声道多音音乐信号进行分离，得到多路单音音乐信号，包括：

将多音音乐信号进行分帧处理，获得多个音频帧，对各音频帧进行静音检测确定是否为静音帧，对每一非静音帧进行多基频检测，获得音符信息和基频检测值；对不同音符进行谐波数及幅度的估计，获得各音符的幅度和谐波信息，依据贝叶斯谐波模型，利用所述基频估计值，获得时域分音信号；依据预设的帧移及帧数，逐帧对时域分音信号进行合成；或者

所述对各路单音音乐信号进行音色提取，确定演奏乐器信息，包括：

将各路单音音乐信号分帧，将各帧单音音乐信号进行转换，得到各单音信号的内禀模态函数集合；利用非线性音色模型，提取各帧单音音乐信号的模型参数；将获得的模型参数与预存数据进行对比，判断演奏各路单音音乐信号的乐器信息；或者

所述对各路单音音乐信号进行旋律、节奏及节拍的提取，获得音频信息，包括：

将各路单音音乐信号分帧，按照启发式规则和各帧单音音乐信号频谱峰值信息，进行基频检测，得到音高和对应音符；将各帧单音音乐信号归一化，得到一阶差分包络，利用能量突起进行音符起始点检测；对差分后的边沿信号进行处理，得到其自相关信号和自相关相位熵序列，利用二者信息计算节拍检测待检信号；对音符起始点序列进行处理，根据音乐速度范围和音符之间关系将音符节拍分类，并利用各类在待检信号的峰值找出节拍长度作为候选节拍；选取不同的检测起点和节拍值，对整首音乐进行设定权值的多路径跟踪，得到与开始音符匹配的节拍值及节拍起始位置和各个节拍的位置。

优选地，所述对每一非静音帧进行多基频检测，获得音符信息和基频检测值，包括：

对每一非静音帧，通过短时傅里叶变换(STFT)，获得对应的频谱；在对应的频谱中，提取波峰位置及其对应幅度；按照启发式规则和已提取的波峰位置及其对应幅度进行多基频检测，获得多个音符信息；对相互之间没有倍数关系的基频进行估计，获得第一估计值，对相互之间有倍数关系的基频进行估计，获得第二估计值，根据所述第一估计值和所述第二估计值获得基频估计值；或者

所述非线性音色模型为基于正弦频率调制的非线性音色模型，该基于正弦频率调制的非线性音色模型为：

其中，A_i是第i个调频分量的幅度，ω_i为载波频率，为第i个调频分量的第j个调频系数，R为残余分量。

本发明还提供了一种单声道多音音乐信号的自动转录装置，该装置包括：

音频信号接收单元，用于接收单通道多音音乐信号；

多音音乐信号分离器，用于将来自所述音频信号接收单元的多音音乐信号分离为多路单音音乐信号；

音色提取器，用于针对所述多音音乐信号分离器分离的各路单音音乐信号进行音色提取，获得演奏乐器信息；

节奏旋律提取器，用于针对所述多音音乐信号分离器分离的各路单音音乐信号分别进行旋律、节奏及节拍的提取，获得音频信息；以及

乐谱输出单元，用于根据所述演奏乐器信息和所述音频信息获得多音音乐乐谱并输出。

优选地，该多音音乐信号分离器包括：

多基频提取器，用于对相互之间没有倍数关系的基频进行估计，获得第一估计值；以及，对相互之间有倍数关系的基频进行估计，获得第二估计值；

基频估计值获得单元，用于根据所述第一估计值和所述第二估计值获得基频估计值；

音频参数提取器，用于依据贝叶斯谐波模型，利用所述基频估计值，获得时域分音信号；

音频信号合成器，用于依据预设的帧移及帧数，逐帧对时域分音信号进行合成。

优选地，所述多基频提取器包括分帧加窗单元、傅里叶变换单元、估计无倍数关系基频单元、查找已估计基频谐波单元、插值处理单元、估计有倍数关系基频单元，其中：

所述分帧加窗单元，用于根据窗函数及帧长对输入的多音音乐信号进行分帧加窗处理，获得多个音频帧，各音频帧根据预设帧移长度进行帧移，使音频帧间相互重叠；

傅里叶变换单元，用于对各音频帧进行短时傅里叶变换，获得各音频帧数据对应的频谱数据；

估计无倍数关系基频单元，用于对相互之间没有倍数关系的基频进行估计，获得第一估计值；

查找已估计基频谐波单元，用于在音频帧的频谱中查找已获得基频估计值对应的谐波信息，包括谐波幅度与谐波位置；

插值处理单元，用于已获得基频估计值之间拥有相同谐波的情况，对该音频帧的频谱进行插值处理，以避免重叠的谐波影响该音频帧中其他基频的估计；

估计有倍数关系基频单元，用于根据音频帧的频谱特性对相互间有倍数关系的基频进行估计，获得第二估计值。

优选地，所述估计有倍数关系基频单元，具体用于：获得基频建议值；获得所述基频建议值在频谱中的谐波数；获得所述基频建议值的谐波在频谱中为区域最大值的次数；根据所述谐波数和所述次数获得所述第二估计值。

优选地，所述音色提取器，具体用于：将各路单音音乐信号分帧，将各帧单音音乐信号进行转换，得到各单音信号的内禀模态函数集合；利用非线性音色模型，提取各帧单音音乐信号的模型参数；将获得的模型参数与预存数据进行对比，判断演奏各路单音音乐信号的乐器信息。

优选地，所述非线性音色模型为基于正弦频率调制的非线性音色模型，该基于正弦频率调制的非线性音色模型为：

优选地，所述节奏旋律提取器包括节拍分析器和旋律提取器，其中：

所述节拍分析器，用于获取分离后的单音音乐信号的一阶差分包络，并进行能量检测得到音符起始点序列；利用所述一阶差分包络获得单音音乐信号的无偏自相关序列及其熵序列，将二者相除得到待检信号；将节拍聚类和进行多路径跟踪提取节奏特征；

所述旋律提取器，用于按照启发式规则和波峰位置及其对应幅度进行单基频检测，获得基频；将所述基频与音高对照表进行对照，得到音高信息。

上述单声道多音音乐信号的自动转录方法及装置，通过将多音音乐信号分离成多路单音音乐信号，对分离出的各路单音音乐信号分别进行音色和旋律、节奏及节拍的提取，获得演奏乐器信息和音频信息，进而根据所述演奏乐器信息和所述音频信息获得高准确率的多音音乐乐谱。

附图说明

图1为本发明单声道多音音乐信号的自动转录装置的结构示意图；

图2为本发明多音音乐信号分离器的结构示意图；

图3a为本发明解释多基频信号频域特征的分析图一；

图3b为本发明解释多基频信号频域特征的分析图二；

图4为本发明估计有倍数关系基频单元的结构示意图；

图5为本发明基频估计值获得单元利用贝叶斯谐波模型估计音频参数的流程图；

图6为本发明节拍旋律提取器的结构示意图；

图7为本发明音符起始点检测单元的工作流程图；

图8为本发明节拍提取和跟踪单元的工作流程图；

图9为本发明获得音高对应音名的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本发明提供一种单声道多音音乐信号的自动转录方法，该方法包括：

步骤一、接收单通道多音音乐信号；

步骤二、对单声道多音音乐信号进行分离，得到多路单音音乐信号；

该步骤二具体包括：将多音音乐信号进行分帧处理，获得多个音频帧，对各音频帧进行静音检测确定是否为静音帧，对每一非静音帧进行多基频检测，获得音符信息和基频检测值；对不同音符进行谐波数及幅度的估计，获得各音符的幅度和谐波信息，依据贝叶斯谐波模型，利用所述基频估计值，获得时域分音信号；依据预设的帧移及帧数，逐帧对时域分音信号进行合成；

其中，所述将多音音乐信号进行分帧处理，获得多个音频帧的步骤，具体包括：根据预置的窗函数对输入的多音音乐信号进行分帧处理，获得多个对应的音频帧；根据预置的帧移长度对每个音频帧进行帧移，使所述音频帧相互重叠；

其中，所述对各音频帧进行静音检测确定是否为静音帧，具体包括：对每一音频帧计算其能量；设定阈值，对于每一音频帧，若其能量小于所设阈值，则将此音频帧标记为静音帧，否则标记为非静音帧；

其中，所述对每一非静音帧进行多基频检测，获得音符信息和基频检测值，具体包括：对每一非静音帧，通过短时傅里叶变换(STFT)，获得其对应频谱；在频谱中，提取波峰位置及其对应幅度；按照启发式规则和已提取的峰值信息，进行多基频检测，获得多个音符信息；对相互之间没有倍数关系的基频进行估计，获得第一估计值，对相互之间有倍数关系的基频进行估计，获得第二估计值，根据所述第一估计值和所述第二估计值获得基频估计值；

其中，所述对每一非静音帧，分别针对不同音符进行谐波数及幅度的估计，获得各音符对应的幅度与谐波信息的步骤，具体包括：对于每一非静音帧，根据已获得的音符信息，预设其幅度信息及谐波数信息；将预设的幅度及谐波数信息代入可逆跳转蒙特卡洛算法进行迭代计算；根据后验概率最大化及最小均方误差准则，获得一帧数据的最终幅度信息及谐波数信息；

步骤三、对各路单音音乐信号进行音色提取，确定乐器信息；

该步骤三具体包括：将分离的各帧单音音乐信号进行希尔伯特-黄变换(Hilbert Huang Transform，HHT)，得到各单音信号的内禀模态函数(IntrinsicMode Function，IMF)集合；利用本发明新提出的基于正弦频率调制的非线性音色模型，提取各帧信号的模型参数；将获得的模型参数与现有数据进行对比，判断信号由何种乐器产生；

步骤四、对各路单音音乐信号进行旋律、节奏及节拍的提取，获得音频信息；

该步骤四具体包括：将单音音乐信号分帧，按照启发式规则和单音音乐信号频谱峰值信息，进行基频检测，得到音高和对应音符；将单音音乐信号归一化，得到一阶差分包络，利用能量突起进行音符起始点检测；对差分后的边沿信号进行处理，得到其自相关信号和自相关相位熵序列，利用二者信息计算节拍检测待检信号；对音符起始点序列进行处理，根据音乐速度范围和音符之间关系将音符节拍分类，并利用各类在待检信号的峰值找出节拍长度作为候选节拍；选取不同的检测起点和节拍值，对整首音乐进行设定权值的多路径跟踪，得到与开始(onset)音符最为匹配的节拍值及节拍起始位置和各个节拍的位置；

其中，所述对差分后的边沿信号进行处理，得到其自相关信号和自相关相位熵序列，利用二者信息计算节拍检测待检信号的步骤，具体包括：将差分后的边沿信号降采样，计算其无偏自相关；计算降采样后边沿信号的无偏自相关相位矩阵，并对其每行求熵得到熵序列；无偏自相关与熵序列相除，所得序列作为待检信号；

其中，所述对音符起始点序列进行处理，根据音乐速度范围和音符之间关系将音符节拍分类，并利用各类在待检信号的峰值找出节拍长度作为候选节拍的步骤，具体包括：对音符间隔进行分类，将其分为目标范围的节拍长度、二倍节拍长度和四倍节拍长度三种情况；循环遍历三类，找到三类中相互存在倍数关系的节拍长度，及对应二倍长度和四倍长度；计算所有满足条件的这三个数值，在对应的待检包络上的峰值，并对其求和，找到其中峰值和最大的值，及其对应节拍长度作为待检节拍；

步骤五、根据所述乐器信息和所述音频信息获得多音音乐乐谱。

上述单声道多音音乐信号的自动转录方法，通过将多音音乐信号分离成多路单音音乐信号，对分离出的各路单音音乐信号分别进行音色和旋律、节奏及节拍的提取，获得演奏乐器信息和音频信息，进而根据所述演奏乐器信息和所述音频信息获得高准确率的多音音乐乐谱。

本发明还提供了一种单声道多音音乐信号的自动转录装置，该装置用于从多音音乐信号中提取信息构成音乐乐谱输出，如图1所示，该装置包括：音频信号接收单元10，用于接收单通道多音音乐信号；多音音乐信号分离器20，用于将多音音乐信号分离为多路单音音乐信号；音色提取器30，用于针对各路单音音乐信号进行音色提取，获得演奏乐器信息；节奏旋律提取器40，用于针对各路单音音乐信号分别进行旋律、节奏及节拍的提取，获得节奏旋律等音频信息；乐谱输出单元50，用于根据所述演奏乐器信息和所述音频信息获得多音音乐乐谱并输出。

其中，所述音频信号接收单元10接收的单通道多音音乐信号可以为wav格式，乐谱输出单元50可提供多音音乐乐谱，其中包含音高、节奏、节拍、音色等信息。

对于多音音乐信号分离器：

另外，上述多音音乐信号分离器的结构如图2所示，多音音乐信号分离器包括多基频提取器200、基频估计值获得单元207、音频参数提取器(基于贝叶斯谐波模型算法)208及音频信号合成器209三部分；其中，多基频提取器200具体包括分帧加窗单元201、傅里叶变换单元202、估计无倍数关系基频单元203、查找已估计基频谐波单元204、插值处理单元205、估计有倍数关系基频单元206，其中：

分帧加窗单元201，用于根据窗函数及帧长对输入音频信号进行分帧加窗处理，获得多个音频帧。音频帧根据预设帧移长度进行帧移，使音频帧间相互重叠。分帧加窗后的音频帧如式1-1所示：

X_n＝Hx_n (1-1)

其中，X_n表示帧号为n的音频帧，H表示窗函数，本发明实施例采用汉明窗，x_n表示原音频数据中对应的帧号为n的帧数据，若帧长设定为N，帧移设定为S，那么x_n中对应帧号为n的起始位置为(N-S)×(n-1)+1，结束位置为(N-S)×(n-1)+N。

傅里叶变换单元202，用于对各音频帧进行短时傅里叶变换，获得各音频帧数据对应的频谱数据，多基频估计需在一帧数据的频谱中进行。

估计无倍数关系基频单元203，用于估计相互之间没有倍数关系的基频，此单元依据音频帧的频谱中，基频和谐波之间存在的特性进行具体步骤的设计，如基频在频谱中以波峰形式出现且幅度相对较高，基频的各次谐波频率约为基频的整数倍等；可以将该单元输出的结果作为第一估计值，此单元具体包含以下步骤(假设音符数为K)：

a)从一帧数据的频谱中找出幅度最大的前K*10个波峰和对应峰值，分别放入f_peak和A_peak中，峰值最大值为A_max；

b)将f_peak中的幅度最大的前K*2个频点依次除以10到1，并将结果放入f_cand中；

c)判断f_peak中频点的在基频建议值(f_cand)出现的次数，放入标记矩阵(label)中；

d)找出label中大于K，且相互之间无倍频关系的频点放入f中；

e)若f中频点个数大于等于K，则将f中的频点按照峰值由大到小的顺序作为基频值，否则将f中的所有频点设为基频(设当前基频个数为n)，放入f0中，并将其对应的label置零，进入步骤f；

f)找出label中所有不为零的且相互之间无倍频关系的频点，放入f1中；

g)判断f1中的所有频点在f_peak中的谐波个数，找出谐波数最大的前K-n个频点，若对应峰值大于阈值(A_max*0.15，实验所得)，则设为基频，放入f0中。

以上步骤，对无倍频关系的频点的选择按照如下规则：若f与之间存在倍数关系，则将两者中的频率较大的那个舍去。

查找已估计基频谐波单元204，用于在音频帧的频谱中查找已获得基频估计值对应的谐波信息，包括谐波幅度与谐波位置。

插值处理单元205，用于处理当已获得基频估计值之间拥有相同谐波的情况，进一步对音频帧的频谱进行插值处理。假设已获得基频估计值之间拥有的相同谐波位置为f_n，幅度为a_n，其相邻波峰位置分别为f_n-1与f_n+1，此单元具体包含以下步骤：利用f_n-1与f_n+1及其幅度在f_n处进行线性插值，得到线性插值幅度为若an小于则a_n保持不变；若a_n大于则将的值赋给a_n。

插值处理单元205的目的在于防止已获得基频估计值共同拥有的谐波影响后续基频的估计。

估计有倍数关系基频单元206，用于根据音频帧的频谱特性对相互间有倍数关系的基频进行估计，可以将该单元输出的结果作为第二估计值，图3a和图3b所示，图3a表示无倍数关系的基频的频谱，图3b表示有倍数关系的基频的频谱(f₂＝2×f₁)，对比可知，图3a中，谐波幅度服从依次衰减的趋势，而图3b中，由于f₂及其各次谐波与f₁的偶数次谐波重叠，所以其幅度也被叠加，所以f₁的偶数次谐波幅度大于相邻的奇数次谐波幅度。当然，有倍频关系基频的频谱并不可能完全符合以上规律，所以我们附加上谐波数的特征来共同估计有倍频关系的基频。

如图4所示，为本发明估计有倍数关系基频单元的结构示意图，具体包括：

基频建议值获得单元2061，用于获得此206单元中的基频建议值，具体为将此时已获得的基频值的二到四次谐波作为基频建议值；

谐波数获得单元2062，用于获得基频建议值在频谱中的谐波数，具体为依据频谱特征计算基频建议值在频谱中的谐波数；

最大值次数获得单元2063，用于获得建议值的谐波在频谱中为区域最大值的次数，具体为找到相应谐波峰值，判断其左右两个相邻峰值是否均小于此峰值，若是，则此谐波为区域最大值，若否，则不是。

基频值获得单元2064，用于获得206单元的估计结果，具体为根据2062与2063得到的谐波数和区域最大值的次数获得基频值。

图2中基频估计值获得单元207，用于获得整体基频估计值，具体为从估计无倍数关系基频单元203单元获得的第一估计值和估计有倍数关系基频单元206单元中获得的第二估计值，并进行整合，得到整体的基频估计值。

如图5所示，为本发明基频估计值获得单元利用贝叶斯谐波模型估计音频参数的流程图，具体包括：

步骤2071、初始化参数，具体参数包括谐波数、幅度参数、失谐量、误差等；

步骤2072、预设迭代次数，由于贝叶斯谐波模型算法依据可逆跳转蒙特卡洛算法进行参数估计，而可逆跳转蒙特卡洛算法是依据迭代算法进行的，所以需要预设总体迭代次数来确保算法的收敛；

步骤2073、判断目前的迭代次数是否大于预设值，是则进入2074，否则进入2075；

步骤2074、用于在算法结束时利用各种准则获得最终的参数估计值，准则包括后验概率最大化及最小均方误差准则等；结束；

步骤2075、用于产生引导算法跳转的概率函数，由于贝叶斯谐波模型算法是依据概率进行的，所以在进入各种跳转算法时，需先计算概率函数，而后依据概率函数，以不同概率进入不同算法；

步骤2076、依据概率进入不同算法，算法具体包括：谐波数增加(减少)算法、谐波数加倍(减半)算法及更新算法；

步骤2077、将此次迭代后产生的参数估计值保存起来。

图2中音频参数提取器208，用于获得其他用于分离的音频参数，此音频参数提取器利用贝叶斯谐波模型算法对参数进行估计，贝叶斯谐波模型如式(1-2)所示：

y (t) = Σ_{k = 1}^{K} Σ_{m = 1}^{M} Σ_{i = 0}^{I} φ [t - iΔt] {a_{k, m, i} \cos [(m + δ_{k, m}) \frac{ω_{k, 0}}{ω_{s}} t] + b_{k, m, i} \sin [(m + δ_{k, m}) \frac{ω_{k, 0}}{ω_{s}} t]} + v (t) - - - (1 - 2)

其中，t＝0，1，...，N-1(实质是抽样点序号)；k为正整数；M表示总谐波数；m表示各谐波号；ω_s表示音乐信号的取样频率；ω_k，0表示第k个音符的基音频率；δ_k，m表示第k个音符的谐波的失谐系数；v(t)表示噪声(包含由模型引起的噪声)；φ_i(t)为基函数，它是非振荡函数，可以有很多种选择，如汉宁窗和汉明窗等，本发明选择汉明窗。

假设观测变量为矩阵y＝[y₀，y₁，…，y_N-1]^T，则依据多音音乐谐波模型可将矩阵y表示为式(1-3)：

y＝DF+v (1-3)

其中，F为幅度矩阵，矩阵D为窗函数矩阵。

图2中音频参数提取器208，用于依据式(1-2)所示的谐波模型，利用所得参数估计值，获得时域分音信号，具体包括以下步骤：

利用所得参数估计值，依据式(1-2)所示的谐波模型获得一帧分音音频帧；

图2中音频合成器209，用于按照预设的帧移及帧数，进行分音音频帧的帧间合成，具体包括以下步骤：利用所得分音音频帧，依据预设的帧移及帧数，逐帧对时域分音信号进行合成。

对于音色提取器：

基于正弦频率调制的非线性音色模型为：

其中，A_i是第i个调频分量的幅度，ω_i为载波频率，为第i个分量的第j个调频系数，R为残余分量，一般为单调函数或纯噪声。

即音色是多个不同调制系数的一组正弦波的叠加，并且每个正弦波的频率都是基频的整数倍。通过实验发现，这种复合调频信号可以较好的再现乐器信号音色部分的非线性波内调频特征。一般来说，M值为2～3时已经可以产生足够复杂的波形，通过调节各模型参数，可以产生跟原始声音较为接近的信号。

模型参数提取方式采用贝叶斯估计的方式，步骤如下：

步骤301、构造状态空间方程和观测方程，如式1-4所示：

其中，v(n)和ω(n)为高斯白噪声，u(n)为输入信号，f_s为采样频率；

步骤302、构造重要度函数，如式1-5所示：

q (n) = \frac{1}{\sqrt{2 π σ_{y}^{2}}} \exp [\frac{- < Y (n + 1), Y (n) >}{2 σ_{y}^{2}}] - - - (1 - 5)

其中，<□>表示内积；

步骤303、归一化更新权重，如式1-6所示：

ω_{k}^{i} = q_{k}^{i} (n / Σ_{i = 1}^{N} q_{k}^{i} (n)) - - - (1 - 6)

步骤304、估计瞬时频率和相应的参数，如式1-7和式1-8所示：

InsFrq(n)＝diff(x(n)/2π)f_s (1-7)

K_c＝max(InsFrq(n))-f_c (1-8)

然后，将提取的参数与数据库中的标准值进行对比，寻找与之最接近的乐器参数，判断出乐器种类。

对于节拍旋律提取器：

图6为节拍旋律提取器40的结构示意图，该节拍旋律提取器主要包括节拍分析器400和旋律提取器401两部分；其中，节拍分析器400具体包括音符起始点检测单元402、节拍提取和跟踪单元403；旋律提取器401具体包括基频提取单元404和音高提取单元405。

如图7所示，为音符起始点检测单元402的工作流程图，包括：

步骤4021、对输入信号进行预处理，主要对信号进行归一化和降噪操作；

步骤4022、设计一阶高斯滤波器作为音符起始点的检测函数，具体公式如式1-9所示：

h^{'} (x) = - \frac{(x - \frac{L}{2})}{\sqrt{2 π} σ^{3}} e^{- \frac{{(x - \frac{L}{2})}^{2}}{{2 σ}^{2}}} - - - (1 - 9)

步骤4023、用于获取能量突出后的边沿信号，具体使用4021所得处理过输入信号，与4022所得检测函数相卷积，得到输入信号的一阶差分信号的边沿信号(一阶差分包络)；

步骤4024、利用能量突变，进行音符起始点检测，找到峰值高于阈值的位置将其存储作为音符起始位置，对所得音符起始位置进行虚假峰值判断，若相邻两个峰值间距小于跳转阈值则去掉后一峰值，若否，则保留。

图8为节拍提取和跟踪单元403的工作流程图，包括：

步骤4031、求得节拍检测时使用的检测信号，对一阶差分包络求其无偏自相关相位熵序列和无偏自相关序列，这其中将自相关序列R_n(k)按照时刻t与偏移k之间的关系以二者余数为依据将其分为k列，得到自相关相位矩阵，具体公式如式1-10所示：

其中，x表示输入信号，N表示输入信号的长度，k表示偏移，表示相位，i为整数。

利用自相关相位矩阵(Autocorrelation Phase Matrix，APM)每行求和得到A_sum，对A_sum按行求熵，得到所求自相关相位熵序列H(k)，具体公式如式1-11和1-12所示：

A_sum＝∑A_unbiased(k，：) (1-11)

检测信号RH即为无偏自相关序列与1-12式所得熵序列相除；

步骤4032、提取音乐节拍，根据普遍的音乐速度范围，利用音符起始点检测单元402得到的音符起始点，将所有节拍可能值聚为一类beat1，同时将2倍节拍可能值、4倍节拍可能值的分别聚为另外两类分别记为beat2和beat3；需要说明的是，此处2倍节拍可能值、4倍节拍可能值是优选值，也可以为其他数值，例如3倍节拍可能值、6倍节拍可能值，但是考虑到音乐节拍类型，2倍数值比3倍或者其他数值更有利于节拍检测；

循环遍历，找到所有符合的值，并计算这三个成倍数关系的数据在检测信号RH上的对应峰值的和；

找到其中最大的峰值和合对应的beat1，输出为节拍候选值；

步骤4033、跟踪各个节拍值，并对4032中得到的节拍候选值及其倍约数进行选择，得到最优的节拍值和各个节拍的具体位置，具体包括初始化每条路径、设置权值计算规则、跟踪检测三部分。

其中，初始化路径，利用不同的节拍初始值和各个节拍候选情况，对路径进行初始化；设置权值计算规则，主要按照预测值与onset位置的差距，分为三大类情况，分别是预测值落在距其最近的onset的内邻域、外邻域和外邻域之外，考虑到预测值与onset不匹配，可能是由于一个音符持续几拍，于是细分为五种情况，对应权值计算规则，如式1-13所示：

其中跟踪检测部分，结合利用初始化的节拍初始位置和节拍值预测后续每个节拍的位置，并对每个预测值按照规则计算权值，每条路径得到一个权值；

挑选权值最大的路径，输出其节拍初始位置、最优节拍值和各节拍位置。

基频提取单元404，利用多音音乐分离器20中如图2所示的多基频提取器200来提取基频。

音高提取单元405，利用基频提取单元所得基频，以及基频与音高对照表，得到每个音符的音高和音名，具体过程如图9所示，载入标准基频与音高对照表之后，利用步骤4051对所得基频进行检测，若提取基频与标准基频差距在标准基频的0.28倍以内，则将标准基频的音高和音名赋给该基频，若否，则记为’x’；得到所有音高序列和音名序列之后，从中删除错误音符，输出为最终音高序列和音名序列。

上述单声道多音音乐信号的自动转录装置，通过将多音音乐信号分离成多路单音音乐信号，对分离出的各路单音音乐信号分别进行音色和旋律、节奏及节拍的提取，获得演奏乐器信息和音频信息，进而根据所述演奏乐器信息和所述音频信息获得高准确率的多音音乐乐谱。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，上述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

以上实施例仅用以说明本发明的技术方案而非限制，仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种单声道多音音乐信号的自动转录方法，其特征在于，该方法包括：

接收单通道多音音乐信号；

对所述单声道多音音乐信号进行分离，得到多路单音音乐信号，包括：将多音音乐信号进行分帧处理，获得多个音频帧，对各音频帧进行静音检测确定是否为静音帧，对每一非静音帧进行多基频检测，获得音符信息和基频检测值；对不同音符进行谐波数及幅度的估计，获得各音符的幅度和谐波信息，依据贝叶斯谐波模型，利用所述基频估计值，获得时域分音信号；依据预设的帧移及帧数，逐帧对时域分音信号进行合成；

对各路单音音乐信号进行音色提取，确定演奏乐器信息，包括：将各路单音音乐信号分帧，将各帧单音音乐信号进行转换，得到各单音信号的内禀模态函数集合；利用非线性音色模型，提取各帧单音音乐信号的模型参数；将获得的模型参数与预存数据进行对比，判断演奏各路单音音乐信号的乐器信息；

对各路单音音乐信号进行旋律、节奏及节拍的提取，获得音频信息，包括：将各路单音音乐信号分帧，按照启发式规则和各帧单音音乐信号频谱峰值信息，进行基频检测，得到音高和对应音符；将各帧单音音乐信号归一化，得到一阶差分包络，利用能量突起进行音符起始点检测；对差分后的边沿信号进行处理，得到其自相关信号和自相关相位熵序列，利用二者信息计算节拍检测待检信号；对音符起始点序列进行处理，根据音乐速度范围和音符之间关系将音符节拍分类，并利用各类在待检信号的峰值找出节拍长度作为候选节拍；选取不同的检测起点和节拍值，对整首音乐进行设定权值的多路径跟踪，得到与开始音符匹配的节拍值及节拍起始位置和各个节拍的位置；以及

根据所述演奏乐器信息和所述音频信息获得多音音乐乐谱。

2.根据权利要求1所述的方法，其特征在于：

所述对每一非静音帧进行多基频检测，获得音符信息和基频检测值，包括：

对每一非静音帧，通过短时傅里叶变换STFT，获得对应的频谱；在对应的频谱中，提取波峰位置及其对应幅度；按照启发式规则和已提取的波峰位置及其对应幅度进行多基频检测，获得多个音符信息；对相互之间没有倍数关系的基频进行估计，获得第一估计值，对相互之间有倍数关系的基频进行估计，获得第二估计值，根据所述第一估计值和所述第二估计值获得基频估计值；或者

3.一种单声道多音音乐信号的自动转录装置，其特征在于，该装置包括：

音频信号接收单元，用于接收单通道多音音乐信号；

多音音乐信号分离器，用于将来自所述音频信号接收单元的多音音乐信号分离为多路单音音乐信号，包括：多基频提取器，用于对相互之间没有倍数关系的基频进行估计，获得第一估计值；以及，对相互之间有倍数关系的基频进行估计，获得第二估计值；基频估计值获得单元，用于根据所述第一估计值和所述第二估计值获得基频估计值；音频参数提取器，用于依据贝叶斯谐波模型，利用所述基频估计值，获得时域分音信号；音频信号合成器，用于依据预设的帧移及帧数，逐帧对时域分音信号进行合成；

音色提取器，用于针对所述多音音乐信号分离器分离的各路单音音乐信号进行音色提取，获得演奏乐器信息，具体用于：将各路单音音乐信号分帧，将各帧单音音乐信号进行转换，得到各单音信号的内禀模态函数集合；利用非线性音色模型，提取各帧单音音乐信号的模型参数；将获得的模型参数与预存数据进行对比，判断演奏各路单音音乐信号的乐器信息；

节奏旋律提取器，用于针对所述多音音乐信号分离器分离的各路单音音乐信号分别进行旋律、节奏及节拍的提取，获得音频信息，包括：节拍分析器和旋律提取器，所述节拍分析器，用于获取分离后的单音音乐信号的一阶差分包络，并进行能量检测得到音符起始点序列；利用所述一阶差分包络获得单音音乐信号的无偏自相关序列及其熵序列，将二者相除得到待检信号；将节拍聚类和进行多路径跟踪提取节奏特征；所述旋律提取器，用于按照启发式规则和波峰位置及其对应幅度进行单基频检测，获得基频；将所述基频与音高对照表进行对照，得到音高信息；以及

4.根据权利要求3所述的装置，其特征在于：

所述多基频提取器包括分帧加窗单元、傅里叶变换单元、估计无倍数关系基频单元、查找已估计基频谐波单元、插值处理单元、估计有倍数关系基频单元，其中：

5.根据权利要求4所述的装置，其特征在于：

所述估计有倍数关系基频单元，具体用于：获得基频建议值；获得所述基频建议值在频谱中的谐波数；获得所述基频建议值的谐波在频谱中为区域最大值的次数；根据所述谐波数和所述次数获得所述第二估计值。

6.根据权利要求3所述的装置，其特征在于：