CN113077811B - 一种基于参数化多相位gammatone滤波器组的语音分离方法 - Google Patents
一种基于参数化多相位gammatone滤波器组的语音分离方法 Download PDFInfo
- Publication number
- CN113077811B CN113077811B CN202110357265.7A CN202110357265A CN113077811B CN 113077811 B CN113077811 B CN 113077811B CN 202110357265 A CN202110357265 A CN 202110357265A CN 113077811 B CN113077811 B CN 113077811B
- Authority
- CN
- China
- Prior art keywords
- parameterized
- network
- filter bank
- gamma
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 15
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000010363 phase shift Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000005316 response function Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 7
- 230000009466 transformation Effects 0.000 abstract description 5
- 230000002860 competitive effect Effects 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/40—Arrangements for reducing harmonics
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
本发明公开了一种基于参数化多相位gammatone滤波器组的语音分离方法,首先在gammatone滤波器的基础上构建参数化多相位gammatone滤波器组,然后用参数化多相位gammatone滤波器组替换Conv‑Tasnet网络的编码器,解码器不变或采用参数化多相位gammatone滤波器组的逆变换,形成新Conv‑Tasnet网络,对新Conv‑Tasnet网络进行训练,得到最终的语音分离网络。本发明方法在解码器为可学习特征的情况下,获得了具有竞争力的性能;在解码器为编码器的逆变换的情况下,该特征优于STFT,MPGTF等人工设计特征。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种语音分离方法。
背景技术
语音分离的目的是将多个音源的混合语音分离成其对应成分。近些年针对语音分离问题提出了如深度聚类,置换不变训练,深度吸引子网络等多种方法。然而在这些方法中,被广泛应用的声学特征是短时傅里叶变换的幅度谱(short–time Fourier transform,STFT)。这就会导致在从分离后的幅度谱恢复成时域信号的过程中,所用到的是含有噪声的相位谱,从而得到次优的性能。
为了克服这一缺陷,由网络学习的从时域到时频域变换的可学习特征成为了新的趋势。其中代表性的就是一维卷积滤波器(1D-conv)。由于该变换是与分离网络联合训练的,并且不需要额外的人工操作,因此该变换相比于STFT来说使语音分离的性能得到了提升。在这些时域方法中,Conv-Tasnet(convolutional time domain audio separationnetwork,Conv-Tasnet)在帧长设置为仅2毫秒的低时延情况下得到了杰出的分离性能,从而受到了广泛的关注。
近期有一些工作旨在研究Conv-Tasnet的声学特征。例如,Ditter和Gerkmann用人工设计特征,即多相位Gammatone滤波器组(MPGTF)来代替Conv-Tasnet中编码器部分的可学习特征,并在尺度无关信噪比(scale-invariant source-to-noise,SI-SNR)上带来了提升。Pariente等人将参数化滤波器扩展为了复值的解析滤波器,同时他们也提出了类似的一维卷积滤波器的解析版本。解析的一维卷积滤波器相比于原始的Conv-Tasnet也有性能上的提升。但是这种方法在语音分离时并未达到最佳性能,还有进一步提升的空间。
发明内容
为了克服现有技术的不足,本发明提供了一种基于参数化多相位gammatone滤波器组的语音分离方法,首先在gammatone滤波器的基础上构建参数化多相位gammatone滤波器组,然后用参数化多相位gammatone滤波器组替换Conv-Tasnet网络的编码器,解码器不变或采用参数化多相位gammatone滤波器组的逆变换,形成新Conv-Tasnet网络,对新Conv-Tasnet网络进行训练,得到最终的语音分离网络。本发明方法在解码器为可学习特征的情况下,获得了具有竞争力的性能;在解码器为编码器的逆变换的情况下,该特征优于STFT,MPGTF等人工设计特征。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:对Gammatone滤波器进行改进,得到参数化多相位gammatone滤波器组;
步骤1-1:Gammatone滤波器的冲激响应函数γ(t)为:
γ(t)=αtn-1exp(-2πbt)cos(2πfct+φ) (1)
其中,n是滤波器阶数,b是带宽参数,fc是滤波器的中心频率,t>0是时间,α是幅度,φ是相移;
滤波器中心频率fc和带宽参数b由矩形带通滤波器的等效矩形带宽ERB(.)决定:
fc=c2(ERB-c1) (3)
其中,c1和c2是不同的滤波器参数;
步骤2:使用参数化多相位gammatone滤波器组替换Conv-Tasnet网络的编码器,构成新Conv-Tasnet网络;
步骤3:采用Adam优化器,设置初始学习率,对新Conv-Tasnet网络进行训练,训练完成后采用新Conv-Tasnet网络实现语音分离。
优选地,所述步骤2中构成新Conv-Tasnet网络时,新Conv-Tasnet网络的解码器保持新Conv-Tasnet网络的解码器不变。
优选地,所述步骤2中构成新Conv-Tasnet网络时,新Conv-Tasnet网络的解码器为参数化多相位gammatone滤波器组的逆变换。
优选地,所述c1=24.7,c2=9.265。
优选地,所述初始学习率为0.001。
本发明的有益效果如下:
本发明针对目前现有人工特征的参数无法与网络进行联合训练的缺点提出了改进版本的参数化多相位gammatone滤波器组特征,其中参数化多相位gammatone滤波器组的中心频率与带宽参数将与网络进行联合训练。实验结果表明,在解码器为可学习特征的情况下,该特征获得了具有竞争力的性能;在解码器为编码器的逆变换的情况下,该特征优于STFT、MPGTF等人工设计特征。
附图说明
图1为本发明实施例不同编码器-解码器的收敛曲线。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
Conv-Tasnet是目前最流行的时域语音分离网络,针对Conv-Tasnet的编码器和解码器进行了一些改进。用人工设计特征或者参数化特征代替Conv-Tasnet中的可学习特征。然而目前缺少对可学习特征、人工设计特征以及参数化特征的比较。
本发明将人工设计特征的多相位gammatone滤波器组与参数化特征进行了结合,提出了参数化多相位gammatone滤波器组。
本发明的基础分离框架是Conv-Tasnet。它是由三个主要部分构成:编码器,分离网络和解码器。其中编码器可以看作是N个长度为L的滤波器的集合。编码器的输出是由输入混合语音和滤波器卷积所产生的:
一种基于参数化多相位gammatone滤波器组的语音分离方法,包括以下步骤:
步骤1:Gammatone滤波器组模拟了人类听觉系统的掩蔽效应,在语音分离任务中是一种良好的特征。对Gammatone滤波器进行改进,得到参数化多相位gammatone滤波器组ParaMPGTF;
步骤1-1:Gammatone滤波器的冲激响应函数γ(t)为:
γ(t)=αtn-1exp(-2πbt)cos(2πfct+φ) (1)
其中,n是滤波器阶数,b是带宽参数,fc是滤波器的中心频率,t>0是时间,α是幅度,φ是相移;
gammatone滤波器组通过以下三个方面的改进成为多相位gammatone滤波器组。第一:滤波器的长度被设置成了2毫秒,其目的是为了使系统低时延;第二:对每个滤波器MPGTF引入了/>来保证在每一个中心频率处,至少有一个滤波器含有能量。第三,相移φ在相同中心频率下变化;
滤波器中心频率fc和带宽参数b由矩形带通滤波器的等效矩形带宽ERB(.)决定:
fc=c2(ERB-c1) (3)
其中,c1和c2是不同的滤波器参数;通常情况下,根据经验公式,c1和c2分别被设置为24.7和9.265。然而这种经验设置可能不够准确,从而可能会导致次优的性能。
其中fHz表示频率变量;
将和b代入公式(1)得到参数化多相位gammatone滤波器组;为了使参数化多相位gammatone滤波器组成为有实际物理意义的滤波器组,/>应该被限制在100Hz和4000Hz之间。为了满足这一限制,在整个训练过程中将/>固定为100Hz。综上所述,参数化多相位gammatone滤波器组将数据驱动方式和多相位gammatone滤波器进行了结合,它同时也继承了多相位gammatone滤波器的性质。
步骤2:使用参数化多相位gammatone滤波器组替换Conv-Tasnet网络的编码器,解码器保持Conv-Tasnet网络的解码器不变或者为参数化多相位gammatone滤波器组的逆变换,构成新Conv-Tasnet网络;
步骤3:采用Adam优化器,设置初始学习率,对新Conv-Tasnet网络进行训练,训练完成后采用新Conv-Tasnet网络实现语音分离。
具体实施例:
(1)实验设置:
Conv-Tasnet网络在4秒长的片段上进行了200个周期的训练。优化器采用Adam优化器,初始学习率为0.001。如果在验证集上连续5个周期性能没有提升则学习率减半。同时,当验证集上的性能在过去的10个周期内都没有提升时,网络训练将会被停止。网络的超参数设置遵循Conv-Tasnet中的网络超参数,其中滤波器数目N为512。时序卷积网络(Temporal Convolutional Networks,TCN)的掩模函数分别被设置为sigmoid函数和修正线性单元(rectified linear unit,ReLU)。对于ParaMPGTF,将阶数n设置为2,幅度α设置为1。将c1和c2的初始值设置为其经验值,即c1=24.7,c2=9.265。采用SI-SNR作为评价指标。所报告的结果均是3000句测试混合语音的平均结果。
(2)数据准备:
使用WSJ0-2mix数据集对双说话人语音分离性能进行比较。它包含了30个小时的训练数据,10小时的验证数据以及5小时的测试数据。WSJ0-2mix中的混合语音是通过在Wall Street Journal(WSJ0)训练集si_tr_s中随机选择不同的说话者和句子产生的,并将它们以-5分贝到5分贝范围中的随机信噪比混合。测试集中的句子来自于WSJ0数据集中si_dt_05和si_et_05中16个训练中未用到的说话人。WSJ0-2mix中的所有语音均被重采样至8000赫兹。
(3)实验结果:
首先比较了解码器为可学习特征,编码器为STFT、MPGTF、ParaMPGTF和可学习特征时的情况,表1列出了比较结果。从表1中可以看出,这四种特征并没有产生很大的性能差异。如果仔细比较,发现STFT特征在测试集和验证集都达到最高的性能。MPGTF和ParaMPGTF性能比较接近,ParaMPGTF在验证集上略好于MPGTF,而在测试集上略差于MPGTF。
表1不同特征作为编码器的比较
分别将编码器设置为STFT,MPGTF,ParaMPGTF,并将解码器设置为其对应的逆变换。表2列出了STFT,MPGTF,ParaMPGTF以及它们逆变换分别作为编码器和解码器的实验结果。从表中可以看出,这三种比较方法的性能大体上是相似的。但在测试集和验证集上,所提出的ParaMPGTF都达到了最好的性能,这也表明了参数化训练的策略有进传统人工设计特征的潜力。
表2编码器和解码器为不同特征及其逆变换时的比较
Claims (7)
1.一种基于参数化多相位gammatone滤波器组的语音分离方法,其特征在于,包括以下步骤:
步骤1:对Gammatone滤波器进行改进,得到参数化多相位gammatone滤波器组;
步骤1-1:Gammatone滤波器的冲激响应函数γ(t)为:
γ(t)=αtn-1exp(-2πbt)cos(2πfct+φ) (1)
其中,n是滤波器阶数,b是带宽参数,fc是滤波器的中心频率,t>0是时间,α是幅度,φ是相移;
滤波器中心频率fc和带宽参数b由矩形带通滤波器的等效矩形带宽ERB(.)决定:
fc=c2(ERB-c1) (3)
其中,c1和c2是不同的滤波器参数;
其中fHz表示频率变量;
步骤2:使用参数化多相位gammatone滤波器组替换Conv-Tasnet网络的编码器,构成新Conv-Tasnet网络;
步骤3:采用Adam优化器,设置初始学习率,对新Conv-Tasnet网络进行训练,训练完成后采用新Conv-Tasnet网络实现语音分离。
2.根据权利要求1所述的一种基于参数化多相位gammatone滤波器组的语音分离方法,其特征在于,所述步骤2中构成新Conv-Tasnet网络时,新Conv-Tasnet网络的解码器保持新Conv-Tasnet网络的解码器不变。
3.根据权利要求1所述的一种基于参数化多相位gammatone滤波器组的语音分离方法,其特征在于,所述步骤2中构成新Conv-Tasnet网络时,新Conv-Tasnet网络的解码器为参数化多相位gammatone滤波器组的逆变换。
6.根据权利要求1所述的一种基于参数化多相位gammatone滤波器组的语音分离方法,其特征在于,所述c1=24.7,c2=9.265。
7.根据权利要求1所述的一种基于参数化多相位gammatone滤波器组的语音分离方法,其特征在于,所述初始学习率为0.001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110357265.7A CN113077811B (zh) | 2021-04-01 | 2021-04-01 | 一种基于参数化多相位gammatone滤波器组的语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110357265.7A CN113077811B (zh) | 2021-04-01 | 2021-04-01 | 一种基于参数化多相位gammatone滤波器组的语音分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113077811A CN113077811A (zh) | 2021-07-06 |
CN113077811B true CN113077811B (zh) | 2023-06-30 |
Family
ID=76614618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110357265.7A Active CN113077811B (zh) | 2021-04-01 | 2021-04-01 | 一种基于参数化多相位gammatone滤波器组的语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113077811B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
WO2021009319A1 (fr) * | 2019-07-17 | 2021-01-21 | Audionamix Sa | Procédé de séparation d'un signal acoustique de mélange en une pluralité de m contributions sonores; produit programme d'ordinateur et support lisible d'informations associés |
-
2021
- 2021-04-01 CN CN202110357265.7A patent/CN113077811B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
WO2021009319A1 (fr) * | 2019-07-17 | 2021-01-21 | Audionamix Sa | Procédé de séparation d'un signal acoustique de mélange en une pluralité de m contributions sonores; produit programme d'ordinateur et support lisible d'informations associés |
Non-Patent Citations (1)
Title |
---|
基于听觉系统半波整流逆变化的语音恢复;李世超;王永琦;吉立新;马桂航;;计算机工程与设计(第13期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113077811A (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pandey et al. | Densely connected neural network with dilated convolutions for real-time speech enhancement in the time domain | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
Li et al. | ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with a two-stage deep network | |
CN105741849A (zh) | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 | |
Hao et al. | UNetGAN: A robust speech enhancement approach in time domain for extremely low signal-to-noise ratio condition | |
Ren et al. | A Causal U-Net Based Neural Beamforming Network for Real-Time Multi-Channel Speech Enhancement. | |
CN113744749B (zh) | 一种基于心理声学域加权损失函数的语音增强方法及系统 | |
WO2020127900A1 (en) | Apparatus and method for source separation using an estimation and control of sound quality | |
JP2023548707A (ja) | 音声強調方法、装置、機器及びコンピュータプログラム | |
Zhu et al. | A comparison of handcrafted, parameterized, and learnable features for speech separation | |
JPH10503908A (ja) | オーディオ信号の調性を決定するための方法および装置 | |
CN113077811B (zh) | 一种基于参数化多相位gammatone滤波器组的语音分离方法 | |
Gandhiraj et al. | Auditory-based wavelet packet filterbank for speech recognition using neural network | |
CN115966218A (zh) | 一种骨导辅助的气导语音处理方法、装置、介质及设备 | |
CN110010150A (zh) | 基于多分辨率的听觉感知语音特征参数提取方法 | |
Xiang et al. | A deep representation learning speech enhancement method using β-vae | |
Uhle et al. | Speech enhancement of movie sound | |
Li et al. | A Two-Stage Approach to Quality Restoration of Bone-Conducted Speech | |
Vo et al. | Build A module for improvement real time speech enhancement using long short-term memory approach: improvement real time speech enhancement using long short-term memory | |
Vanambathina et al. | Real time speech enhancement using densely connected neural networks and Squeezed temporal convolutional modules | |
Liu et al. | Speech enhancement based on the integration of fully convolutional network, temporal lowpass filtering and spectrogram masking | |
Wen et al. | Biophysically-inspired single-channel speech enhancement in the time domain | |
Zhang et al. | URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement | |
Ozamoto et al. | Noise-tolerant time-domain speech separation with noise bases | |
Gonzalez et al. | Investigating the Design Space of Diffusion Models for Speech Enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |