CN110176246A

CN110176246A - 民族室内乐演奏现场录音过程中消除混响的方法

Info

Publication number: CN110176246A
Application number: CN201910476297.1A
Authority: CN
Inventors: 陈瑾
Original assignee: Hengyang Normal University
Current assignee: Hengyang Normal University
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-08-27

Abstract

本发明公开了一种民族室内乐演奏现场录音过程中消除混响的方法，属于声音信号采集与分析技术领域。针对民族器乐室内合奏音乐时域信号复杂、混响时间长的特点，首先进行早期混响的消除，在此基础上通过引入音乐端点检测算法完成合奏音乐分声部音符分割，然后利用谱减法分段除去合奏音乐中各声部信号的后期反射混响。本发明解决了现有技术中存在的民族室内乐因旋律提取困难，检索质量低导致的合奏曲谱识别准确性低的问题，实现了有效提升室内民乐合奏录制的清晰度和音响效果，并可有效提升民族乐室内演奏乐曲信息检索效率的目的。

Description

民族室内乐演奏现场录音过程中消除混响的方法

技术领域

本发明属于声音信号采集与分析技术领域，特别是涉及一种民族室内乐演奏现场录音过程中消除混响的方法。

背景技术

多媒体技术日新月异，现代信息技术迅猛发展，音乐早已成为人们日常生活中非常重要的部分，人们所接触到的音乐类型也越来越多样。每个社会个体在成长中大多会形成自己的音乐偏好，从而我们往往希望能从海量的音乐中快速便捷地找到自己想要的音乐作品。然而，人们早期对音乐信息的检索大部分还是基于文本的，比如：曲名、作曲家姓名、歌词等，人们通过传统的搜索引擎及检索技术，如专门的音乐频道找到其所需。然而，当这些文本不足以满足人们的需求时，人们开始考虑从声音本身的信号出发，继而以音频检索技术为依托，更大程度地开发音乐搜索的功能。

目前，许多音乐搜索引擎仍需要手工原始方式生成音频信息的文本标注，如乐曲名、演唱者、歌词以及歌谱等一些外部特征，从而为检索提供方便，然而音频的数据量越来越大，人为手工增加注释的强度加大。此外，民族室内乐表演录制音乐的空间较小，音源比较集中，但是由于有多种乐器参与，所以，它的音乐是由多种类型的音频信号混合在一起的，虽然这些混合的音频信号会使民族室内乐在音响上更丰富，但各乐器音源的组合本身也会带来混响、延迟、相移等问题，又以混合音中混响的影响较大，这会严重影响到民族室内乐合奏作品在旋律提取方面的困难，从而存在检索质量的问题。

混响在日常生活中其实也是很普遍的一种声音现象，有时在音乐表演中会通过麦克风等手段增加混响效果，从而获得音乐中的空间感。然而，在一些相对密闭的室内空间，比如小型音乐厅等，由于音源到麦克风的距离较远，且乐器之间的相互影响，此时录到的音乐混响现象较为明显，且有干扰性。由于这些混响的存在使声音混淆不清，难于分辨，导致音质下降，很大程度地降低了民族室内乐的旋律提取和检索质量，严重影响了小型民乐合奏曲谱识别的准确性。

因此，亟需一种民族室内乐演奏现场录音过程中消除混响的方法，解决现有技术中存在的民族室内乐因旋律提取困难，检索质量低导致的合奏曲谱识别准确性低的问题，实现了有效提升室内民乐合奏录制的清晰度和音响效果，并可有效提升民族乐室内演奏乐曲信息检索效率的目的。

发明内容

本发明的目的在于提供一种民族室内乐演奏现场录音过程中消除混响的方法，解决现有技术中存在的民族室内乐因旋律提取困难，检索质量低导致的合奏曲谱识别准确性低的问题，实现了有效提升室内民乐合奏录制的清晰度和音响效果，并可有效提升民族乐室内演奏乐曲信息检索效率的目的。

本发明所采用的技术方案是，提供一种民族室内乐演奏现场录音过程中消除混响的方法，包括以下步骤：

S1，基于信号线性预测原理对现场混响音乐信号x(n)进行时域采样，n为采样点数，通过对所述现场混响音乐信号x(n)的线性预测进行自适应逆滤波器g(n)的设计，再利用所述自适应滤波器g(n)对所述现场混响音乐信号x(n)进行滤波处理，得到去除早期反射混响的音乐信号

S2，利用频变时频分析法对所述S1中得到的去除早期混响的音乐信号进行端点检测，通过这些端点实现整个乐曲的分割；

S3，利用谱减法对分割后的乐曲去除后期反射混响，得到去除混响的分段音乐信号；重新组合后形成消除混响后的乐曲。

进一步地，所述S1中得到去除早期反射混响的音乐信号包括以下步骤：

S11，对现场混响音乐信号x(n)进行时域采样得到线性预估音乐信号样值

其中，n为采样点数，为线性预估音乐信号样值；x(n)为现场混响音乐信号；a_i为线性预估系数；p为线性组合信号样本数；x(n-i)为进行线性预估时所采用的p个样本中的第i个线性组合信号，i＝1……p；

S12，采用均方误差最小准则，求解线性预估系数a_i，并求出预估误差e(n)：

现场混响音乐信号x(n)经过线性预测误差后得到混响残差信号x_r(n)：

x_r(n)＝x(n)-e(n)， (3)

S13，计算混响残差信号x_r(n)通过自适应逆滤波器g(n)后所得信号的峰度值，以所述峰度值的最大值为目标，求解自适应逆滤波器g(n)的设计参数；

S14，利用所述S13中设计出的自适应逆滤波器g(n)对现场混响音乐信号x(n)进行滤波得到去除早期反射混响的音乐信号

进一步地，所述S13中峰度值及其最大值的计算包括以下步骤：

S131，对所述自适应逆滤波器g(n)进行FFT变换得到频响函数G(n)；

S132，将所述混响残差信号x_r(n)在时域分成M段，对每段信号进行FFT变换，将所得各段频域信号输入自适应逆滤波器g(n)进行频域滤波；

S133，对S132中所得分段频域信号求FFT逆变换得到分段时域信号后，将所得时域信号在时域内进行组合得到整体时域信号z(n)；

S134，求解所述S133中整体时域信号z(n)的峰度值J(n)：

J(n)＝E[z⁴(n)]/E²[z²(n)]-3， (4)

其中，z(n)为混响残差信号x_r(n)经过自适应逆滤波器g(n)后得到的整体时域信号；E为求取期望值的函数；

同时，对组合后时域信号求解更新后的自适应逆滤波器g(n)的频域系数f(n)：

S135，返回依次执行所述S132、S133、S134，且每次执行S133均使用前一次更新后的自适应逆滤波器频域系数，直到求出整体时域信号峰度值的最大值J_max(n)，迭代结束。

进一步地，所述S2中利用频变时频分析法对所述去除早期反射混响的音乐信号进行的端点检测，包括以下步骤：

S21，将去除早期反射混响的音乐信号进行频率离散变换得到RTFI能量谱：

其中，表示一阶谐振数字滤波器的脉冲响应，衰减因子r(ω_m)是频率ω_m的函数，f_s为采样频率，ω_m为系统第m个频率，j为虚数符号；

对公式(6)得到的RTFI能量谱进行平滑处理得到平均平滑能量谱A(k,ω_m)：

其中，A(k,ω_m)为去除早期反射混响的音乐信号的平均平滑能量谱，k表示音乐信号两端点间的帧数，dB表示将能量谱转换为分贝值的函数，N表示每一帧的长度，M为混响残差信号x_r(n)在时域分成的段数；

S22，根据等响曲线将S21中得到的平均平滑能量谱A(k,ω_m)进行修正，得到修正后相对能量谱AES(k,ω_m)：

AES(k,ω_m)＝A(k,ω_m)-Eq(ω_m)， (8)

其中，Eq(ω_m)为等响曲线能量谱曲线中规定的修正系数；

S23，考虑音乐信号的谐波结构特性，将修正后相对能量谱AES(k,ω_m)转化为音高能量谱：

其中，AES(k,i·ω_m)为第k帧、频率ω_m的前五阶谐频的修正后相对能量谱。

S24，对所述S23中的音高能量谱同时在相邻5帧时域和相邻5个频点频域进行平滑处理，得到平滑音高能量谱SPES(k,ω_m)：

其中，PES(k+i,ω_m+j)为时域内相邻k+i帧、频率内与ω_m相邻的前五个频点的音高能量谱。

S25，对所述S24中的平滑音高能量谱进行差分，得到差分音高能量谱DPES(k,ω_m)：

DPES(k,ω_m)＝SPES(k,ω_m)-SPES(k-3,ω_m)， (11)

其中，SPES(k-3,ω_m)为时域内当前帧信号往前3帧、频率为ω_m信号的平滑音高能量谱。

S26，对所述S25中的差分音高能量谱DPES(k,ω_m)对应的峰值进行提取并判断，判断准则为：如有两个时间间隔不大于50ms的端点，取峰值较大的点标记为端点，另一个点则取消端点标记；根据所述端点实现对所述去除早期反射混响的音乐信号的分割。

进一步地，所述S3中的谱减法是利用瑞利分布曲线通过平滑处理得到经过分割后的去除早期反射混响的音乐信号中两端点之间信号的短时功率谱|S_l(k,q)|²：

|S_l(k,q)|²＝γr(q)*|S_z(k,q)|²， (12)

其中，r(q)为平滑瑞利函数；q为音乐信号两端点间的采样点数；γ为尺度因子，表示后期反射混响成分的相对强度；

通过加载窗函数得到各端点之间的去除混响之后的分段音乐信号；所述窗函数为矩形窗函数或汉宁窗函数。

本发明的有益效果是：

有效提升了室内民乐合奏录制乐曲的清晰度和音响效果，也可以有效提升民族乐室内演奏乐曲的信息检索效率，进而可以推广到更多由多种乐器组合音响而成的大型乐曲(如：交响乐、民族管弦乐合奏等)的信息检索中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明整体流程图。

图2是去除早期反射混响原理图。

图3是基于RTFI法的音乐端点检测法原理图。

图4是现场混响音乐时域信号图。

图5经早期混响消除后的音乐时域信号图。

图6是基于RTFI端点(onset)检测算法得到的端点图。

图7是经过后期混响消除后的音乐时域信号图。

图8是消声室中录制的纯净音乐信号图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明为解决上述技术问题，采取的技术方案见图1所示，包括如下步骤：

S1，基于信号线性预测原理对现场混响音乐信号x(n)进行时域采样，通过对信号进行线性预测完成自适应逆滤波器的设计，通过该滤波器对现场混响音乐信号x(n)进行滤波处理，从而得到去除早期反射混响的音乐信号

S2，基于频变时频分析方法(即RTFI算法)对去除早期混响信号后的音乐信号进行端点检测，如图3的检测原理所示，通过这些端点实现整个乐曲的分割。

具体而言，本技术方案的实施内容主要包括音乐录制后的早期反射混响场去除、基于RTFI算法的音乐端点检测、后期混响场去除。

S1，早期反射混响场去除技术方案见图2所示，具体实施步骤如下：

式中，n为采样点数，为线性预估音乐信号样值；x(n)为现场混响音乐信号；a_i为线性预估系数；p为线性组合信号样本数；x(n-i)为进行线性预估时所采用的p个样本中的第i个线性组合信号，i＝1……p。

S12，求取预估误差e(n)：

采用均方误差最小准则，先求解线性预估系数a_i，进一步可求出预估误差e(n)。

现场混响音乐信号x(n)经过线性预测误差后得到混响残差信号x_r(n)为：

x_r(n)＝x(n)-e(n)， (3)

S13，自适应逆滤波器参数优化

计算混响残差信号x_r(n)通过自适应逆滤波器后信号的峰度值，以该峰度值最大为目标求解自适应逆滤波器的最优设计参数。主要步骤如下：

S131，对自适应逆滤波器g(n)进行FFT变换后得到频响函数G(n)。

S132，将混响残差信号x_r(n)在时域分成M段，对每段信号进行FFT变换，将所得各段频率信号输入自适应逆滤波器进行频率滤波。

S133，对S132中所得分段频域信号求FFT逆变换得到分段时域信号后，将所得时域信号在时域内进行组合得到整体时域信号z(n)。

S134，根据公式(4)求S133中组合后时域信号的峰度值J(n)，并采用公式(5)对组合后时域信号求更新后自适应逆滤波器频域系数f(n)，然后返回依次执行S132、S133、S134，以后每次执行S133都使用上次更新后的自适应逆滤波器频域系数，直到求出组合后时域信号峰度值的最大值J_max(n)，迭代结束。

J(n)＝E[z⁴(n)]/E²[z²(n)]-3， (4)

式中，z(n)表示混响残差信号x_r(n)经过自适应逆滤波器g(n)后得到的信号；E[]表示求取期望值。

S14，利用该逆滤波器对现场录制的混响音乐信号进行滤波得到去除早期反射混响的音乐信号

S2，基于RTFI(谐振器时频分析)对去除早期混响信号的民族室内乐音乐信号进行端点检测，并完成音符的分割。主要步骤如下：

S21，时频处理阶段

S211，计算去除早期混响后的音乐信号的平滑能量谱A(k,ω_m)

对S14中得到的去除早期混响后的音乐信号进行频率离散变换得到RTFI能量谱，表达式为:

RTFI(n,ω_m)＝z(n)*I_R(n,ω_m)， (6)

其中，表示一阶谐振数字滤波器的脉冲响应，衰减因子r(ω_m)是频率ω_m的函数，f_s为采样频率，ω_m为系统第m个频率，j为虚数。

S212，修正能量谱

根据等响曲线将平均平滑能量谱A(k,ω_m)进行修正，得到修正后相对能量谱AES(k,ω_m)如下：

AES(k,ω_m)＝A(k,ω_m)-Eq(ω_m)， (8)

其中，Eq(ω_m)为等响曲线能量谱曲线中规定的修正系数。

S213，音高能量谱

将修正后相对能量谱AES(k,ω_m)进一步转化为音高能量谱(PES)：

S214，平滑音高能量谱

为了进一步降低噪声，对音高能量谱进一步平滑处理，得到平滑音高能量谱SPES(k,ω_m)：

S215，差分音高能量谱

为了更明显的体现能量的变化，对平滑音高能量谱进行差分产生差分音高能量谱DPES(k,ω_m)：

DPES(k,ω_m)＝SPES(k,ω_m)-SPES(k-3,ω_m)， (11)

S22，基于能量变化的端点(onset)检测

对差分音高能量谱DPES(k,ω_m)对应的峰值进行提取，判断其在时域中的端点，判断准则为：如有两个时间间隔不大于50ms的端点，取峰值较大的点标记为端点，另一个点则取消端点标记；根据端点实现对去除早期反射混响的音乐信号的分割。

S3，利用谱减法对分割后的音乐信号分段去除后期反射混响

利用瑞利分布曲线通过平滑处理得到经过分割后的去除早期反射混响的音乐信号中两端点之间信号的短时功率谱|S_l(k,q)|²：

|S_l(k,q)|²＝γr(q)*|S_z(k,q)|²， (12)

其中，r(q)为平滑瑞利函数，q为音乐信号两端点间的采样点；γ为尺度因子，表示后期反射混响成分的相对强度，一般设置为0.32。

通过加载窗函数(可选择矩形窗或汉宁窗函数)得到各端点之间的去处混响之后的分段音乐信号。

7、将分段音乐信号重新组合形成消除混响后的音乐乐曲。

实施例

选取民族室内乐《忆—一位老红军的回想》片段，长度为3s，采样频率为44100Hz。采样得到的原始混响音乐时域信号如图4所示；经去除早期反射混响后的音乐时域信号见图5所示；采用基于RTFI的端点检测算法对上述音乐信号进行仿真得到音符端点的位置示意图如图6所示；从图6可以采用基于RTFI的端点检测算法基本上避免了传统算法中容易出现的端点漏检现象；图7是为经过后期混响消除后的音乐时域信号图；图8为在消声室中录制的民乐演奏的无混响音乐时域信号，以该信号与通过上述两阶段混响消除后的时域信号进行对比。

将图5、图7、图8对比可以明显看出，图7时域信号的波形图相比图5更接近图8的波形图。这说明，通过两阶段反射混响消除，得到的音乐信号已经很接近纯净音乐信号。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种民族室内乐演奏现场录音过程中消除混响的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种民族室内乐演奏现场录音过程中消除混响的方法，其特征在于，所述S1中得到去除早期反射混响的音乐信号包括以下步骤：

x_r(n)＝x(n)-e(n)， (3)

3.根据权利要求2所述的一种民族室内演奏现场录音过程中消除混响的方法，其特征在于，所述S13中峰度值及其最大值的计算包括以下步骤：

S134，求解所述S133中整体时域信号z(n)的峰度值J(n)：

J(n)＝E[z⁴(n)]/E²[z²(n)]-3， (4)

S135，返回依次执行所述S132、S133、S134，且每次执行S133均使用前一次更新后的自适应逆滤波器频域系数，直到求出整体时域信号z(n)峰度值的最大值J_max(n)，迭代结束。

4.根据权利要求1或2所述的一种民族室内乐演奏现场录音过程中消除混响的方法，其特征在于，所述S2中利用频变时频分析法对所述去除早期反射混响的音乐信号进行的端点检测，包括以下步骤：

AES(k,ω_m)＝A(k,ω_m)-Eq(ω_m)， (8)

其中，Eq(ω_m)为等响曲线能量谱曲线中规定的修正系数；

其中，AES(k,i·ω_m)为第k帧、频率ω_m的前五阶谐频的修正后相对能量谱；

其中，PES(k+i,ω_m+j)为时域内相邻k+i帧、频率内与ω_m相邻的前五个频点的音高能量谱；

DPES(k,ω_m)＝SPES(k,ω_m)-SPES(k-3,ω_m)， (11)

其中，SPES(k-3,ω_m)为时域内当前帧信号往前3帧、频率为ω_m信号的平滑音高能量谱；

5.根据权利要求1所述的一种民族室内乐演奏现场录音过程中消除混响的方法，其特征在于，所述S3中的谱减法是利用瑞利分布曲线通过平滑处理得到经过分割后的去除早期反射混响的音乐信号中两端点之间信号的短时功率谱|S_l(k,q)|²：

|S_l(k,q)|²＝γr(q)*|S_z(k,q)|²， (12)