CN113327624B - 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法 - Google Patents

一种采用端到端时域声源分离系统进行环境噪声智能监测的方法 Download PDF

Info

Publication number
CN113327624B
CN113327624B CN202110569402.3A CN202110569402A CN113327624B CN 113327624 B CN113327624 B CN 113327624B CN 202110569402 A CN202110569402 A CN 202110569402A CN 113327624 B CN113327624 B CN 113327624B
Authority
CN
China
Prior art keywords
sound source
time domain
noise
network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110569402.3A
Other languages
English (en)
Other versions
CN113327624A (zh
Inventor
陈克安
李晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110569402.3A priority Critical patent/CN113327624B/zh
Publication of CN113327624A publication Critical patent/CN113327624A/zh
Application granted granted Critical
Publication of CN113327624B publication Critical patent/CN113327624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提出了一种采用端到端时域声源分离系统进行环境噪声智能监测的方法,在训练阶段,建立在训练数据集中引入尽可能多的声源种类,然后以不同的信噪比混合两个声源获得单通道的时域混合声,作为分离网络的输入。分离网络输出两个声源的时域估计信号。网络以最小化真实声源和网络估计声源在时域上的差异作为目标进行多轮训练,获得声源分离模型。在网络使用时,将监测噪声输入声源分离网络,网络实时输出目标噪声和干扰噪声的时域信号估计值。将目标噪声估计值用于进一步的声级计算,实现噪声的智能评估。本发明解决了监测噪声中干扰噪声的偶发性和不可预测性,能够将干扰噪声进行分离,避免了其他声源对目标噪声的干扰,提高了噪声评估的科学性和有效性。

Description

一种采用端到端时域声源分离系统进行环境噪声智能监测的 方法
技术领域
本发明属于噪声监测领域,具体涉及一种采用端到端时域声源分离系统进行环境噪声智能监测的方法。
背景技术
由于噪声污染日益严重,噪声监测与管控受到越来越多的关注。低成本、便捷的声学传感器的迅速普及为智能噪声的连续监测提供了平台和便利,这些传感器网络记录了数百万个音频数据,并返回总声压级等幅度参量信息,但缺乏对声音组分的实时分析。
在真实场景中往往存在多个声源的同时发声,被监测的噪声(在本发明中称为目标噪声)会受到同时存在的不相关声源发出的噪声(在本发明中称为干扰噪声)的干扰,导致评估偏差和争议。以交通噪声监测为例,应该去除可能改变交通噪声声压级的其他非交通干扰声源(如谈话声、音乐声、雷声等),以获得可靠的噪声测量结果,为进一步的噪声地图绘制、噪声治理及行政措施奠定科学基础。对于其他应用,例如在评估工业企业厂界噪声时,应仅评估使用中的设备产生的噪声并排除其他因素的影响。总之,在多种噪声监测场景中,干扰噪声会始终存在,它们会对可靠的噪声评价产生负面影响。
目前,声源分离网络在听觉场景分析中已有应用,但在智能噪声监测应用中,由于干扰噪声具有偶发性、多样性和不可预测性,而传统的声源分离网络局限于有限类别的声源分离和识别,因此往往难以有效进行智能噪声监测。
传统声源分离系统都遵循编码器-分离器-解码器的框架,编码器将时域混合声转换为中间表达,分离器用来估计声源的加权函数(掩模),然后将掩模和混合声源的中间表达相乘并通过解码器获得分离后的声源。
编码器是指对时域信号进行卷积的一组滤波器,可以是固定的(本发明中称为固定式滤波器组),例如短时傅立叶变换(STFT),恒定Q变换或具有固定值的听觉滤波器组。另一方面,滤波器组也可以是一组具有任意初始化值的一维卷积层,其参数在网络训练过程中自发学习得到,在本发明中称为自由式滤波器组。
固定式滤波器组具有直观的解释,包含先验知识,不易引起网络的过度拟合,但性能难以提高,在智能噪声监测中应用时难以有效对抗各种复杂干扰噪声。相反,自由式滤波器组具有高自由度,性能通常更优,但在训练中容易受到含噪数据影响。
发明内容
为解决现有技术存在的问题,本发明提出一种采用端到端时域声源分离系统进行环境噪声智能监测的方法,通过实时分离干扰噪声以获得目标噪声的精准评估,为后续噪声管控提供科学依据,以改善噪声评价的科学性和公平性,更好地服务于噪声污染的问责和治理。
本发明中还引入了参数化听觉滤波器组,与传统的分离和分类系统相比,该分离网络在解决干扰声源的类别和发生时段的不可预测性,以及干扰噪声与目标噪声样本不均衡等多个方面更为先进,并且因为引入了听觉滤波器组,能够模拟人耳听觉系统以适用多种复杂场景。
本发明的技术方案为:
所述一种采用端到端时域声源分离系统进行环境噪声智能监测的方法,包括以下步骤:
步骤1:建立训练数据集,在训练数据集中引入尽可能多的声源种类;
步骤2:从训练数据集中随机选择两个不同声源种类,并以随机信噪比进行混合获得混合声源;
步骤3:重复步骤2,得到大量混合声源数据;
步骤4:搭建端到端时域声源分离系统:
依据编码器-分离器-解码器的框架创建时域分离网络;其中编码器通过一维卷积层实现,其滤波器组的形式采用参数化听觉滤波器组;分离器用于估计声源的掩模;解码器为一维反卷积层;来自分离器的每个声源的掩模估计值与来自编码器的混合声的二维表达相乘,之后能够通过解码器合成分离声源的时域信号;
步骤5:利用步骤3得到的混合声源数据对时域分离网络进行训练,获得端到端时域声源分离系统;
步骤6:利用步骤5训练得到的端到端时域声源分离系统进行环境噪声智能监测,分离出目标噪声并进行后续噪声评估。
进一步的,所述参数化听觉滤波器组采用Gammatone滤波器,滤波器的数量N不小于32;滤波器时域脉冲响应由Gamma分布调制的纯音:
g(t)=Atp-1e-2πbtcos(2πfct+φ)
其中p为阶数,fc为中心频率,b为带宽,φ为相位,A为幅度,通过阶数p与带宽b确定。
进一步的,幅度取值为
Figure BDA0003082069510000031
进一步的,步骤5进行训练前,根据人耳听觉系统的先验知识对各个滤波器的参数集
Figure BDA0003082069510000032
进行初始化,参数集/>
Figure BDA0003082069510000033
在网络训练过程中可变:
(1)各滤波器的阶数pi都初始化设定为4,对应人耳听觉系统中滤波器阶数的平均拟合值;
(2)各滤波器的中心频率
Figure BDA0003082069510000034
初始化均匀分布在等效矩形带宽ERB尺度上,其中从线性频率到ERB尺度的映射为
Figure BDA0003082069510000035
(3)各滤波器的初始化带宽bi
Figure BDA0003082069510000036
和阶数pi决定
Figure BDA0003082069510000037
(4)各滤波器的初始化相位φi设定为
Figure BDA0003082069510000038
以对齐音调的峰值与Gamma包络的峰值。
进一步的,所述分离器采用基于深度卷积的网络结构,包含多个具有不同扩张因子的带洞卷积模块,每个模块中又包含卷积层、整流层、归一化层、深度卷积层以及留数和跳跃结构。
进一步的,步骤5训练时域分离网络时,以最小化真实声源和估计声源之间的尺度不变信号失真比作为训练目标,通过Adam优化器训练网络,直到分离性能不再提高,获得端到端时域声源分离系统。
有益效果
本发明创建了能够适应多种场景的具有参数化听觉滤波器组的端到端时域声源分离网络,解决了监测噪声中干扰噪声的偶发性和不可预测性,能够将干扰噪声进行分离,避免了其他声源对目标噪声的干扰,提高了噪声评估的科学性和有效性。
同时,本发明在端到端时域分离系统中引入了参数化听觉滤波器组,建立了更具听觉合理性的分离模型,提高了网络的分离性能。相比于固定式滤波器组,参数化听觉滤波器组的参数是通过网络训练得到的,具有更好的灵活性,能够根据网络和数据的特性进行自发的调整,以获得更优的分离性能。而相比于自由式滤波器组,参数化听觉滤波器组通过给定Gammatone滤波器的形式,提供给网络听觉系统的先验信息,使得网络能够更好的模拟人耳听觉系统以提高实际场景中网络的分离能力,也使得网络具有更好的可解释性。此外,每个滤波器只有4个参数需要训练,相比所有参数都需要训练的自由式滤波器,其显著降低了网络的参数数量。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1:本发明流程图;
图2:端到端时域卷积分离网络结构图;
图3:(a)参数化Gammatone滤波器组的频率响应,其按照中心频率排列;(b)中心频率为1.125KHz的4个Gammatone滤波器的频率响应;
图4:分离系统在交通噪声智能监测应用中的实例。
(a)(b)(c)分别表示具有三段干扰噪声的交通噪声信号、网络输出的交通噪声信号和网络输出的干扰噪声信号的时频图;
(d)表示噪声信号在分离前、分离后以及真实值的等效连续声级。
具体实施方式
本发明的目的是提供一种采用端到端时域声源分离系统进行环境噪声智能监测的方法,对目标噪声和干扰噪声进行实时分离,避免其他声源对目标噪声干扰导致的评估偏差,为智能噪声评价提供科学基础。
该方法包括训练阶段和监测阶段,如图1所示。在训练阶段,建立在训练数据集中引入尽可能多的声源种类,然后以不同的信噪比混合两个声源获得单通道的时域混合声,作为分离网络的输入。分离网络输出两个声源的时域估计信号。网络以最小化真实声源和网络估计声源在时域上的差异作为目标进行多轮训练,获得声源分离模型用于监测阶段。在网络使用时,将监测噪声输入声源分离网络,网络实时输出目标噪声和干扰噪声的时域信号估计值。将目标噪声估计值用于进一步的声级计算,实现噪声的智能评估。
声源分离网络基于编码器-分离器-解码器的框架,编码器的形式为一组Gammatone听觉滤波器,其参数在网络训练中学习得到,使得分离网络的性能得到提高,为环境噪声智能监测在真实场景中的应用奠定基础。
本实施例中训练一个普适性的声源分离网络,并将训练好的网络用于设定的交通噪声监测情境中,包括以下步骤:
步骤1:建立训练数据集。
由于干扰噪声类别具有不确定性,环境声中的任何声源都有可能作为不同场景中的干扰噪声。在训练数据集中引入尽可能多的声源种类,例如语音声、乐声和环境声(交通噪声、狗叫声、警报声等等)。
本实施例选取来自BBC effects数据集的环境声(包括交通噪声、警报声、狗叫声等)、来自Librispeech数据集的语音以及来自musan数据集的乐音。将每个声源下采样至16kHz。
步骤2:从训练数据集中随机选择两个不同声源种类,并以随机信噪比进行混合获得混合声源。
步骤3:重复步骤2,得到大量混合声源数据。
本实施例中,从上述数据集中随机选择两个不同声源,以-10dB~10dB之间的随机信噪比进行混合。该数据集共包含150小时的声样本,其中70%用于训练,20%用于交叉验证,10%用于测试。
步骤4:搭建端到端时域声源分离系统:
依据编码器-分离器-解码器的框架创建时域分离网络;其中编码器通过一维卷积层实现,将输入的时域信号转化为二维表达,并作为分离器的输入,其滤波器组的形式采用参数化听觉滤波器组。分离器用来估计声源的掩模,可以具有多种网络形式。本发明提供一种基于深度卷积的网络结构,如图2所示,其包含多个具有不同扩张因子的带洞卷积模块,每个模块中又包含卷积层、整流层、归一化层、深度卷积层以及留数和跳跃结构。本实施例中分离器由3个卷积模块构成,每个卷积模块由8个扩张因子为2的指数的带洞卷积分块实现。将来自分离器的每个声源的掩模估计值与来自编码器的混合声的二维表达相乘。最后通过解码器(一维转置卷积层)合成分离声源的时域信号。
该参数化听觉滤波器组采用Gammatone滤波器,滤波器的数量N不小于32。
Gammatone滤波器是对听觉系统具有较好模拟效果的滤波器,其时域脉冲响应可以表达为由Gamma分布调制的纯音:
g(t)=Atp-1e-2πbtcos(2πfct+φ)
其中p为阶数,fc为中心频率,b为带宽,φ为相位,A为幅度
Figure BDA0003082069510000061
滤波器的参数集
Figure BDA0003082069510000062
在网络训练过程中可变。合适的初值有助于网络训练,为此根据人耳听觉系统的先验知识对各个滤波器的参数集/>
Figure BDA0003082069510000063
进行初始化:
(1)各滤波器的阶数pi都初始化设定为4,对应人耳听觉系统中滤波器阶数的平均拟合值;
(2)各滤波器的中心频率
Figure BDA0003082069510000071
初始化均匀分布在等效矩形带宽ERB尺度上,其中从线性频率到ERB尺度的映射为
Figure BDA0003082069510000072
(3)各滤波器的初始化带宽bi
Figure BDA0003082069510000073
和阶数pi决定
Figure BDA0003082069510000074
(4)各滤波器的初始化相位φi设定为
Figure BDA0003082069510000075
以对齐音调的峰值与Gamma包络的峰值。
本实施例中编码器由512个长度为2ms的Gammatone滤波器构成,保证了网络具有优良的实时性。每一个滤波器的参数集
Figure BDA0003082069510000076
的初始化值为:阶数pi=4,中心频率/>
Figure BDA0003082069510000077
为均匀分布在ERB尺度上的512个频率点之一,带宽bi和相位φi由相应的/>
Figure BDA0003082069510000078
和pi计算得到。
步骤5:利用步骤3得到的混合声源数据对时域分离网络进行训练,以最小化真实声源和估计声源之间的尺度不变信号失真比(scale-invariant source-to-distortionratio,SI-SDR)作为训练目标,通过Adam优化器训练网络,直到分离性能不再提高,获得端到端时域声源分离系统。
针对该网络,在测试集上不同类别的混合声的SI-SDR改善值(dB)如下表所示。结果表明除乐音和乐音混合外,其余情况都能得到较好的分离,其平均值为11.40dB。而乐音和乐音的混合会产生和谐感受,并非网络的主要关注对象。
表1.声源分离网络在测试集中不同类别的混合声的SI-SDR改善值(dB)
Figure BDA0003082069510000079
Figure BDA0003082069510000081
此外,为了说明该网络采用参数式Gammatone听觉滤波器的优势,也通过测试集进行了对比,如表2所示,参数式Gammatone滤波器组相对于固定式Gammatone滤波器组分离性能提高了2.31dB,证明网络能够学习到更适用于该分离系统的参数集,相比于固定式滤波器组具有更高的灵活性和更好的分离性能。而相对于自由式滤波器组而言,参数式Gammatone滤波器组不仅具有更好的可解释性,同时也获得了性能上的提升,证明具有听觉合理性的Gammatone滤波器组能够引入有益于分离网络的先验信息。
表2.具有不同编码器的声源分离网络在测试集中SI-SDR改善值(dB)
Figure BDA0003082069510000082
图3(a)表示经过网络训练之后得到的512个滤波器响应,其按照中心频率排列。(b)表示4个中心频率为1.125KHz的Gammatone滤波器的频率响应。结果表明网络学习到的中心频率依然按照ERB尺度分布,但会学习到更为丰富的阶数p和带宽b,表明网络对于滤波器的参数敏感。对于滤波器组很难人为确定合适的固定参数值,而通过网络训练自发学习参数值是改善性能的更优方式。
步骤6:利用步骤5训练得到的端到端时域声源分离系统进行环境噪声智能监测,分离出目标噪声并进行后续噪声评估。
由于训练好的网络模拟人耳听觉系统特性,具有普适性,能够适应多种场景,因此一般不需要训练或只需要针对特定场景进行微调。将监测噪声的音频流输入训练好的网络,得到目标噪声的时域信号,并进行后续声压级等评估量的计算。
本实施例中,利用训练得到的端到端时域声源分离系统分离目标噪声并计算实时声压级。由于训练好的网络经过大量数据的训练,具有很好的普适性。因此对于实施例中选定的交通噪声场景不再进行训练。此实施例中的交通噪声来自TAU Urban AcousticScenes 2019dataset,为在10个城市中的实录数据,选取1000个10s长的声样本作为目标噪声。选定谈话声、鸟叫声、狗叫声、雷声、枪声等作为干扰噪声。由于干扰噪声一般具有突发性和不可预测性,在10s长的目标噪声样本中随机添加1到3个干扰噪声,每个干扰噪声为1到3s。因为当干扰噪声能量大于目标噪声时,分离对进一步的噪声评估才具有实际意义,所以信噪比选定为-10dB到0dB。将监测噪声数据集的音频流输入训练得到的网络,其平均SI-SDR改善值为8.30dB,表明了网络具有很好的适应性,能够进行此场景下的声源分离。
获得网络输出的目标噪声估计信号后,进行声压级的计算。以一个具有三段干扰噪声的10s长的交通噪声样本为例,计算帧长为125ms的等效连续声级。图4(a)(b)(c)分别表示混合噪声信号、网络输出的交通噪声估计信号和网络输出的干扰噪声估计信号的时频图。图4(d)表示在分离前、分离后以及交通噪声真实值的等效连续声级。结果表明网络能够在保证原有目标噪声不失真的情况下,较好的分离出在目标噪声中出现的三类干扰噪声(鸟叫声、狗叫声和钟声)。分离后计算得到的等效连续声级(红线)和真值(黑线)一致性良好,验证了分离网络在噪声监测中应用的可行性。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种采用端到端时域声源分离系统进行环境噪声智能监测的方法,其特征在于:包括以下步骤:
步骤1:建立训练数据集,在训练数据集中引入尽可能多的声源种类;
步骤2:从训练数据集中随机选择两个不同声源种类,并以随机信噪比进行混合获得混合声源;
步骤3:重复步骤2,得到大量混合声源数据;
步骤4:搭建端到端时域声源分离系统:
依据编码器-分离器-解码器的框架创建时域分离网络;其中编码器通过一维卷积层实现,其滤波器组的形式采用参数化听觉滤波器组;分离器用于估计声源的掩模;解码器为一维反卷积层;来自分离器的每个声源的掩模估计值与来自编码器的混合声的二维表达相乘,之后能够通过解码器合成分离声源的时域信号;
步骤5:利用步骤3得到的混合声源数据对时域分离网络进行训练,获得端到端时域声源分离系统;
步骤6:利用步骤5训练得到的端到端时域声源分离系统进行环境噪声智能监测,分离出目标噪声并进行后续噪声评估。
2.根据权利要求1所述一种采用端到端时域声源分离系统进行环境噪声智能监测的方法,其特征在于:所述参数化听觉滤波器组采用Gammatone滤波器,滤波器的数量N不小于32;滤波器时域脉冲响应由Gamma分布调制的纯音:
g(t)=Atp-1e-2πbtcos(2πfct+φ)
其中p为阶数,fc为中心频率,b为带宽,φ为相位,A为幅度,通过阶数p与带宽b确定。
3.根据权利要求2所述一种采用端到端时域声源分离系统进行环境噪声智能监测的方法,其特征在于:幅度取值为
Figure FDA0003082069500000011
4.根据权利要求1所述一种采用端到端时域声源分离系统进行环境噪声智能监测的方法,其特征在于:步骤5进行训练前,根据人耳听觉系统的先验知识对各个滤波器的参数集
Figure FDA0003082069500000021
进行初始化,参数集/>
Figure FDA0003082069500000022
在网络训练过程中可变:
(1)各滤波器的阶数pi都初始化设定为4,对应人耳听觉系统中滤波器阶数的平均拟合值;
(2)各滤波器的中心频率
Figure FDA0003082069500000023
初始化均匀分布在等效矩形带宽ERB尺度上,其中从线性频率到ERB尺度的映射为
Figure FDA0003082069500000024
(3)各滤波器的初始化带宽bi
Figure FDA0003082069500000025
和阶数pi决定
Figure FDA0003082069500000026
(4)各滤波器的初始化相位φi设定为
Figure FDA0003082069500000027
以对齐音调的峰值与Gamma包络的峰值。
5.根据权利要求1所述一种采用端到端时域声源分离系统进行环境噪声智能监测的方法,其特征在于:所述分离器采用基于深度卷积的网络结构,包含多个具有不同扩张因子的带洞卷积模块,每个模块中又包含卷积层、整流层、归一化层、深度卷积层以及留数和跳跃结构。
6.根据权利要求1所述一种采用端到端时域声源分离系统进行环境噪声智能监测的方法,其特征在于:步骤5训练时域分离网络时,以最小化真实声源和估计声源之间的尺度不变信号失真比作为训练目标,通过Adam优化器训练网络,直到分离性能不再提高,获得端到端时域声源分离系统。
CN202110569402.3A 2021-05-25 2021-05-25 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法 Active CN113327624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110569402.3A CN113327624B (zh) 2021-05-25 2021-05-25 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110569402.3A CN113327624B (zh) 2021-05-25 2021-05-25 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法

Publications (2)

Publication Number Publication Date
CN113327624A CN113327624A (zh) 2021-08-31
CN113327624B true CN113327624B (zh) 2023-06-23

Family

ID=77416547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110569402.3A Active CN113327624B (zh) 2021-05-25 2021-05-25 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法

Country Status (1)

Country Link
CN (1) CN113327624B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117153186A (zh) * 2022-08-05 2023-12-01 深圳Tcl新技术有限公司 声音信号处理方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728989A (zh) * 2019-09-29 2020-01-24 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法
CN111292762A (zh) * 2018-12-08 2020-06-16 南京工业大学 一种基于深度学习的单通道语音分离方法
CN112786064A (zh) * 2020-12-30 2021-05-11 西北工业大学 一种端到端的骨气导语音联合增强方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210012767A1 (en) * 2020-09-25 2021-01-14 Intel Corporation Real-time dynamic noise reduction using convolutional networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292762A (zh) * 2018-12-08 2020-06-16 南京工业大学 一种基于深度学习的单通道语音分离方法
CN110728989A (zh) * 2019-09-29 2020-01-24 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法
CN112786064A (zh) * 2020-12-30 2021-05-11 西北工业大学 一种端到端的骨气导语音联合增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于船舶辐射噪声信号改进Mel倒谱系数的目标识别方法;朱成名;翟江涛;王彪;戴跃伟;;船舶工程(第01期);全文 *

Also Published As

Publication number Publication date
CN113327624A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
Nam et al. Filteraugment: An acoustic environmental data augmentation method
CN102664017B (zh) 一种3d音频质量客观评价方法
CN111312273A (zh) 混响消除方法、装置、计算机设备和存储介质
CN109658935B (zh) 多通道带噪语音的生成方法及系统
CN111031463B (zh) 麦克风阵列性能评测方法、装置、设备和介质
Svensson et al. Errors in MLS measurements caused by time variance in acoustic systems
CN110726972A (zh) 干扰及高混响环境下使用传声器阵列的语音声源定位方法
CN113327624B (zh) 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法
US20200273441A1 (en) Timbre fitting method and system based on time-varying multi-segment spectrum
CN109920446A (zh) 一种音频数据处理方法、装置及计算机存储介质
CN107690034A (zh) 基于环境背景声音的智能情景模式切换系统及方法
Deng et al. Online Blind Reverberation Time Estimation Using CRNNs.
CN110362789B (zh) 一种基于gpr模型的自适应声掩蔽系统及方法
CN108615536A (zh) 基于麦克风阵列的时频联合特征乐器音质评价系统及方法
JP3918315B2 (ja) インパルス応答測定方法
CN112837670B (zh) 语音合成方法、装置及电子设备
CN113393850B (zh) 一种用于端到端时域声源分离系统的参数化听觉滤波器组
CN114302301B (zh) 频响校正方法及相关产品
CN113921007B (zh) 提升远场语音交互性能的方法和远场语音交互系统
Juvela et al. End-to-end amp modeling: from data to controllable guitar amplifier models
Wang et al. Blind estimation of speech transmission index and room acoustic parameters by using extended model of room impulse response derived from speech signals
Pendharkar Auralization of road vehicles using spectral modeling synthesis
Martínez Ramírez Deep learning for audio effects modeling
Unoki et al. MTF-based method of blind estimation of reverberation time in room acoustics
CN102523553A (zh) 一种针对移动终端设备并基于声源内容的全息音频方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant