CN113327624B

CN113327624B - 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法

Info

Publication number: CN113327624B
Application number: CN202110569402.3A
Authority: CN
Inventors: 陈克安; 李晗
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2023-06-23
Anticipated expiration: 2041-05-25
Also published as: CN113327624A

Abstract

本发明提出了一种采用端到端时域声源分离系统进行环境噪声智能监测的方法，在训练阶段，建立在训练数据集中引入尽可能多的声源种类，然后以不同的信噪比混合两个声源获得单通道的时域混合声，作为分离网络的输入。分离网络输出两个声源的时域估计信号。网络以最小化真实声源和网络估计声源在时域上的差异作为目标进行多轮训练，获得声源分离模型。在网络使用时，将监测噪声输入声源分离网络，网络实时输出目标噪声和干扰噪声的时域信号估计值。将目标噪声估计值用于进一步的声级计算，实现噪声的智能评估。本发明解决了监测噪声中干扰噪声的偶发性和不可预测性，能够将干扰噪声进行分离，避免了其他声源对目标噪声的干扰，提高了噪声评估的科学性和有效性。

Description

一种采用端到端时域声源分离系统进行环境噪声智能监测的方法

技术领域

本发明属于噪声监测领域，具体涉及一种采用端到端时域声源分离系统进行环境噪声智能监测的方法。

背景技术

由于噪声污染日益严重，噪声监测与管控受到越来越多的关注。低成本、便捷的声学传感器的迅速普及为智能噪声的连续监测提供了平台和便利，这些传感器网络记录了数百万个音频数据，并返回总声压级等幅度参量信息，但缺乏对声音组分的实时分析。

在真实场景中往往存在多个声源的同时发声，被监测的噪声(在本发明中称为目标噪声)会受到同时存在的不相关声源发出的噪声(在本发明中称为干扰噪声)的干扰，导致评估偏差和争议。以交通噪声监测为例，应该去除可能改变交通噪声声压级的其他非交通干扰声源(如谈话声、音乐声、雷声等)，以获得可靠的噪声测量结果，为进一步的噪声地图绘制、噪声治理及行政措施奠定科学基础。对于其他应用，例如在评估工业企业厂界噪声时，应仅评估使用中的设备产生的噪声并排除其他因素的影响。总之，在多种噪声监测场景中，干扰噪声会始终存在，它们会对可靠的噪声评价产生负面影响。

目前，声源分离网络在听觉场景分析中已有应用，但在智能噪声监测应用中，由于干扰噪声具有偶发性、多样性和不可预测性，而传统的声源分离网络局限于有限类别的声源分离和识别，因此往往难以有效进行智能噪声监测。

传统声源分离系统都遵循编码器-分离器-解码器的框架，编码器将时域混合声转换为中间表达，分离器用来估计声源的加权函数(掩模)，然后将掩模和混合声源的中间表达相乘并通过解码器获得分离后的声源。

编码器是指对时域信号进行卷积的一组滤波器，可以是固定的(本发明中称为固定式滤波器组)，例如短时傅立叶变换(STFT)，恒定Q变换或具有固定值的听觉滤波器组。另一方面，滤波器组也可以是一组具有任意初始化值的一维卷积层，其参数在网络训练过程中自发学习得到，在本发明中称为自由式滤波器组。

固定式滤波器组具有直观的解释，包含先验知识，不易引起网络的过度拟合，但性能难以提高，在智能噪声监测中应用时难以有效对抗各种复杂干扰噪声。相反，自由式滤波器组具有高自由度，性能通常更优，但在训练中容易受到含噪数据影响。

发明内容

为解决现有技术存在的问题，本发明提出一种采用端到端时域声源分离系统进行环境噪声智能监测的方法，通过实时分离干扰噪声以获得目标噪声的精准评估，为后续噪声管控提供科学依据，以改善噪声评价的科学性和公平性，更好地服务于噪声污染的问责和治理。

本发明中还引入了参数化听觉滤波器组，与传统的分离和分类系统相比，该分离网络在解决干扰声源的类别和发生时段的不可预测性，以及干扰噪声与目标噪声样本不均衡等多个方面更为先进，并且因为引入了听觉滤波器组，能够模拟人耳听觉系统以适用多种复杂场景。

本发明的技术方案为：

所述一种采用端到端时域声源分离系统进行环境噪声智能监测的方法，包括以下步骤：

步骤1：建立训练数据集，在训练数据集中引入尽可能多的声源种类；

步骤2：从训练数据集中随机选择两个不同声源种类，并以随机信噪比进行混合获得混合声源；

步骤3：重复步骤2，得到大量混合声源数据；

步骤4：搭建端到端时域声源分离系统：

依据编码器-分离器-解码器的框架创建时域分离网络；其中编码器通过一维卷积层实现，其滤波器组的形式采用参数化听觉滤波器组；分离器用于估计声源的掩模；解码器为一维反卷积层；来自分离器的每个声源的掩模估计值与来自编码器的混合声的二维表达相乘，之后能够通过解码器合成分离声源的时域信号；

步骤5：利用步骤3得到的混合声源数据对时域分离网络进行训练，获得端到端时域声源分离系统；

步骤6：利用步骤5训练得到的端到端时域声源分离系统进行环境噪声智能监测，分离出目标噪声并进行后续噪声评估。

进一步的，所述参数化听觉滤波器组采用Gammatone滤波器，滤波器的数量N不小于32；滤波器时域脉冲响应由Gamma分布调制的纯音：

g(t)＝At^p-1e^-2πbtcos(2πf_ct+φ)

其中p为阶数，f_c为中心频率，b为带宽，φ为相位，A为幅度，通过阶数p与带宽b确定。

进一步的，幅度取值为

进一步的，步骤5进行训练前，根据人耳听觉系统的先验知识对各个滤波器的参数集

进行初始化，参数集/>

在网络训练过程中可变：

(1)各滤波器的阶数p_i都初始化设定为4，对应人耳听觉系统中滤波器阶数的平均拟合值；

(2)各滤波器的中心频率

初始化均匀分布在等效矩形带宽ERB尺度上，其中从线性频率到ERB尺度的映射为

(3)各滤波器的初始化带宽b_i由

和阶数p_i决定

(4)各滤波器的初始化相位φ_i设定为

以对齐音调的峰值与Gamma包络的峰值。

进一步的，所述分离器采用基于深度卷积的网络结构，包含多个具有不同扩张因子的带洞卷积模块，每个模块中又包含卷积层、整流层、归一化层、深度卷积层以及留数和跳跃结构。

进一步的，步骤5训练时域分离网络时，以最小化真实声源和估计声源之间的尺度不变信号失真比作为训练目标，通过Adam优化器训练网络，直到分离性能不再提高，获得端到端时域声源分离系统。

有益效果

本发明创建了能够适应多种场景的具有参数化听觉滤波器组的端到端时域声源分离网络，解决了监测噪声中干扰噪声的偶发性和不可预测性，能够将干扰噪声进行分离，避免了其他声源对目标噪声的干扰，提高了噪声评估的科学性和有效性。

同时，本发明在端到端时域分离系统中引入了参数化听觉滤波器组，建立了更具听觉合理性的分离模型，提高了网络的分离性能。相比于固定式滤波器组，参数化听觉滤波器组的参数是通过网络训练得到的，具有更好的灵活性，能够根据网络和数据的特性进行自发的调整，以获得更优的分离性能。而相比于自由式滤波器组，参数化听觉滤波器组通过给定Gammatone滤波器的形式，提供给网络听觉系统的先验信息，使得网络能够更好的模拟人耳听觉系统以提高实际场景中网络的分离能力，也使得网络具有更好的可解释性。此外，每个滤波器只有4个参数需要训练，相比所有参数都需要训练的自由式滤波器，其显著降低了网络的参数数量。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1：本发明流程图；

图2：端到端时域卷积分离网络结构图；

图3：(a)参数化Gammatone滤波器组的频率响应，其按照中心频率排列；(b)中心频率为1.125KHz的4个Gammatone滤波器的频率响应；

图4：分离系统在交通噪声智能监测应用中的实例。

(a)(b)(c)分别表示具有三段干扰噪声的交通噪声信号、网络输出的交通噪声信号和网络输出的干扰噪声信号的时频图；

(d)表示噪声信号在分离前、分离后以及真实值的等效连续声级。

具体实施方式

本发明的目的是提供一种采用端到端时域声源分离系统进行环境噪声智能监测的方法，对目标噪声和干扰噪声进行实时分离，避免其他声源对目标噪声干扰导致的评估偏差，为智能噪声评价提供科学基础。

该方法包括训练阶段和监测阶段，如图1所示。在训练阶段，建立在训练数据集中引入尽可能多的声源种类，然后以不同的信噪比混合两个声源获得单通道的时域混合声，作为分离网络的输入。分离网络输出两个声源的时域估计信号。网络以最小化真实声源和网络估计声源在时域上的差异作为目标进行多轮训练，获得声源分离模型用于监测阶段。在网络使用时，将监测噪声输入声源分离网络，网络实时输出目标噪声和干扰噪声的时域信号估计值。将目标噪声估计值用于进一步的声级计算，实现噪声的智能评估。

声源分离网络基于编码器-分离器-解码器的框架，编码器的形式为一组Gammatone听觉滤波器，其参数在网络训练中学习得到，使得分离网络的性能得到提高，为环境噪声智能监测在真实场景中的应用奠定基础。

本实施例中训练一个普适性的声源分离网络，并将训练好的网络用于设定的交通噪声监测情境中，包括以下步骤：

步骤1：建立训练数据集。

由于干扰噪声类别具有不确定性，环境声中的任何声源都有可能作为不同场景中的干扰噪声。在训练数据集中引入尽可能多的声源种类，例如语音声、乐声和环境声(交通噪声、狗叫声、警报声等等)。

本实施例选取来自BBC effects数据集的环境声(包括交通噪声、警报声、狗叫声等)、来自Librispeech数据集的语音以及来自musan数据集的乐音。将每个声源下采样至16kHz。

步骤2：从训练数据集中随机选择两个不同声源种类，并以随机信噪比进行混合获得混合声源。

步骤3：重复步骤2，得到大量混合声源数据。

本实施例中，从上述数据集中随机选择两个不同声源，以-10dB～10dB之间的随机信噪比进行混合。该数据集共包含150小时的声样本，其中70％用于训练，20％用于交叉验证，10％用于测试。

步骤4：搭建端到端时域声源分离系统：

依据编码器-分离器-解码器的框架创建时域分离网络；其中编码器通过一维卷积层实现，将输入的时域信号转化为二维表达，并作为分离器的输入，其滤波器组的形式采用参数化听觉滤波器组。分离器用来估计声源的掩模，可以具有多种网络形式。本发明提供一种基于深度卷积的网络结构，如图2所示，其包含多个具有不同扩张因子的带洞卷积模块，每个模块中又包含卷积层、整流层、归一化层、深度卷积层以及留数和跳跃结构。本实施例中分离器由3个卷积模块构成，每个卷积模块由8个扩张因子为2的指数的带洞卷积分块实现。将来自分离器的每个声源的掩模估计值与来自编码器的混合声的二维表达相乘。最后通过解码器(一维转置卷积层)合成分离声源的时域信号。

该参数化听觉滤波器组采用Gammatone滤波器，滤波器的数量N不小于32。

Gammatone滤波器是对听觉系统具有较好模拟效果的滤波器，其时域脉冲响应可以表达为由Gamma分布调制的纯音：

g(t)＝At^p-1e^-2πbtcos(2πf_ct+φ)

其中p为阶数，f_c为中心频率，b为带宽，φ为相位，A为幅度

滤波器的参数集

在网络训练过程中可变。合适的初值有助于网络训练，为此根据人耳听觉系统的先验知识对各个滤波器的参数集/>

进行初始化：

(2)各滤波器的中心频率

(3)各滤波器的初始化带宽b_i由

和阶数p_i决定

(4)各滤波器的初始化相位φ_i设定为

以对齐音调的峰值与Gamma包络的峰值。

本实施例中编码器由512个长度为2ms的Gammatone滤波器构成，保证了网络具有优良的实时性。每一个滤波器的参数集

的初始化值为：阶数p_i＝4，中心频率/>

为均匀分布在ERB尺度上的512个频率点之一，带宽b_i和相位φ_i由相应的/>

和p_i计算得到。

步骤5：利用步骤3得到的混合声源数据对时域分离网络进行训练，以最小化真实声源和估计声源之间的尺度不变信号失真比(scale-invariant source-to-distortionratio，SI-SDR)作为训练目标，通过Adam优化器训练网络，直到分离性能不再提高，获得端到端时域声源分离系统。

针对该网络，在测试集上不同类别的混合声的SI-SDR改善值(dB)如下表所示。结果表明除乐音和乐音混合外，其余情况都能得到较好的分离，其平均值为11.40dB。而乐音和乐音的混合会产生和谐感受，并非网络的主要关注对象。

表1.声源分离网络在测试集中不同类别的混合声的SI-SDR改善值(dB)

此外，为了说明该网络采用参数式Gammatone听觉滤波器的优势，也通过测试集进行了对比，如表2所示，参数式Gammatone滤波器组相对于固定式Gammatone滤波器组分离性能提高了2.31dB，证明网络能够学习到更适用于该分离系统的参数集，相比于固定式滤波器组具有更高的灵活性和更好的分离性能。而相对于自由式滤波器组而言，参数式Gammatone滤波器组不仅具有更好的可解释性，同时也获得了性能上的提升，证明具有听觉合理性的Gammatone滤波器组能够引入有益于分离网络的先验信息。

表2.具有不同编码器的声源分离网络在测试集中SI-SDR改善值(dB)

图3(a)表示经过网络训练之后得到的512个滤波器响应，其按照中心频率排列。(b)表示4个中心频率为1.125KHz的Gammatone滤波器的频率响应。结果表明网络学习到的中心频率依然按照ERB尺度分布，但会学习到更为丰富的阶数p和带宽b，表明网络对于滤波器的参数敏感。对于滤波器组很难人为确定合适的固定参数值，而通过网络训练自发学习参数值是改善性能的更优方式。

由于训练好的网络模拟人耳听觉系统特性，具有普适性，能够适应多种场景，因此一般不需要训练或只需要针对特定场景进行微调。将监测噪声的音频流输入训练好的网络，得到目标噪声的时域信号，并进行后续声压级等评估量的计算。

本实施例中，利用训练得到的端到端时域声源分离系统分离目标噪声并计算实时声压级。由于训练好的网络经过大量数据的训练，具有很好的普适性。因此对于实施例中选定的交通噪声场景不再进行训练。此实施例中的交通噪声来自TAU Urban AcousticScenes 2019dataset，为在10个城市中的实录数据，选取1000个10s长的声样本作为目标噪声。选定谈话声、鸟叫声、狗叫声、雷声、枪声等作为干扰噪声。由于干扰噪声一般具有突发性和不可预测性，在10s长的目标噪声样本中随机添加1到3个干扰噪声，每个干扰噪声为1到3s。因为当干扰噪声能量大于目标噪声时，分离对进一步的噪声评估才具有实际意义，所以信噪比选定为-10dB到0dB。将监测噪声数据集的音频流输入训练得到的网络，其平均SI-SDR改善值为8.30dB，表明了网络具有很好的适应性，能够进行此场景下的声源分离。

获得网络输出的目标噪声估计信号后，进行声压级的计算。以一个具有三段干扰噪声的10s长的交通噪声样本为例，计算帧长为125ms的等效连续声级。图4(a)(b)(c)分别表示混合噪声信号、网络输出的交通噪声估计信号和网络输出的干扰噪声估计信号的时频图。图4(d)表示在分离前、分离后以及交通噪声真实值的等效连续声级。结果表明网络能够在保证原有目标噪声不失真的情况下，较好的分离出在目标噪声中出现的三类干扰噪声(鸟叫声、狗叫声和钟声)。分离后计算得到的等效连续声级(红线)和真值(黑线)一致性良好，验证了分离网络在噪声监测中应用的可行性。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。