CN113077811B - 一种基于参数化多相位gammatone滤波器组的语音分离方法 - Google Patents

一种基于参数化多相位gammatone滤波器组的语音分离方法 Download PDF

Info

Publication number
CN113077811B
CN113077811B CN202110357265.7A CN202110357265A CN113077811B CN 113077811 B CN113077811 B CN 113077811B CN 202110357265 A CN202110357265 A CN 202110357265A CN 113077811 B CN113077811 B CN 113077811B
Authority
CN
China
Prior art keywords
parameterized
network
filter bank
gamma
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110357265.7A
Other languages
English (en)
Other versions
CN113077811A (zh
Inventor
张晓雷
朱文博
王逸平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Shenzhen Institute of Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110357265.7A priority Critical patent/CN113077811B/zh
Publication of CN113077811A publication Critical patent/CN113077811A/zh
Application granted granted Critical
Publication of CN113077811B publication Critical patent/CN113077811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/40Arrangements for reducing harmonics

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

本发明公开了一种基于参数化多相位gammatone滤波器组的语音分离方法,首先在gammatone滤波器的基础上构建参数化多相位gammatone滤波器组,然后用参数化多相位gammatone滤波器组替换Conv‑Tasnet网络的编码器,解码器不变或采用参数化多相位gammatone滤波器组的逆变换,形成新Conv‑Tasnet网络,对新Conv‑Tasnet网络进行训练,得到最终的语音分离网络。本发明方法在解码器为可学习特征的情况下,获得了具有竞争力的性能;在解码器为编码器的逆变换的情况下,该特征优于STFT,MPGTF等人工设计特征。

Description

一种基于参数化多相位gammatone滤波器组的语音分离方法
技术领域
本发明属于语音识别技术领域,具体涉及一种语音分离方法。
背景技术
语音分离的目的是将多个音源的混合语音分离成其对应成分。近些年针对语音分离问题提出了如深度聚类,置换不变训练,深度吸引子网络等多种方法。然而在这些方法中,被广泛应用的声学特征是短时傅里叶变换的幅度谱(short–time Fourier transform,STFT)。这就会导致在从分离后的幅度谱恢复成时域信号的过程中,所用到的是含有噪声的相位谱,从而得到次优的性能。
为了克服这一缺陷,由网络学习的从时域到时频域变换的可学习特征成为了新的趋势。其中代表性的就是一维卷积滤波器(1D-conv)。由于该变换是与分离网络联合训练的,并且不需要额外的人工操作,因此该变换相比于STFT来说使语音分离的性能得到了提升。在这些时域方法中,Conv-Tasnet(convolutional time domain audio separationnetwork,Conv-Tasnet)在帧长设置为仅2毫秒的低时延情况下得到了杰出的分离性能,从而受到了广泛的关注。
近期有一些工作旨在研究Conv-Tasnet的声学特征。例如,Ditter和Gerkmann用人工设计特征,即多相位Gammatone滤波器组(MPGTF)来代替Conv-Tasnet中编码器部分的可学习特征,并在尺度无关信噪比(scale-invariant source-to-noise,SI-SNR)上带来了提升。Pariente等人将参数化滤波器扩展为了复值的解析滤波器,同时他们也提出了类似的一维卷积滤波器的解析版本。解析的一维卷积滤波器相比于原始的Conv-Tasnet也有性能上的提升。但是这种方法在语音分离时并未达到最佳性能,还有进一步提升的空间。
发明内容
为了克服现有技术的不足,本发明提供了一种基于参数化多相位gammatone滤波器组的语音分离方法,首先在gammatone滤波器的基础上构建参数化多相位gammatone滤波器组,然后用参数化多相位gammatone滤波器组替换Conv-Tasnet网络的编码器,解码器不变或采用参数化多相位gammatone滤波器组的逆变换,形成新Conv-Tasnet网络,对新Conv-Tasnet网络进行训练,得到最终的语音分离网络。本发明方法在解码器为可学习特征的情况下,获得了具有竞争力的性能;在解码器为编码器的逆变换的情况下,该特征优于STFT,MPGTF等人工设计特征。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:对Gammatone滤波器进行改进,得到参数化多相位gammatone滤波器组;
步骤1-1:Gammatone滤波器的冲激响应函数γ(t)为:
γ(t)=αtn-1exp(-2πbt)cos(2πfct+φ) (1)
其中,n是滤波器阶数,b是带宽参数,fc是滤波器的中心频率,t>0是时间,α是幅度,φ是相移;
滤波器中心频率fc和带宽参数b由矩形带通滤波器的等效矩形带宽ERB(.)决定:
Figure BDA0003003906860000021
fc=c2(ERB-c1) (3)
Figure BDA0003003906860000022
其中,c1和c2是不同的滤波器参数;
步骤1-2:使用M个Gammatone滤波器构成参数化多相位gammatone滤波器组,带宽参数b和第j个滤波器
Figure BDA0003003906860000024
的中心频率用式(2)(4)(5)进行计算:
Figure BDA0003003906860000023
其中,ERBscale表示将1/ERB(fc)进行频率积分得到的ERB尺度,
Figure BDA0003003906860000025
是ERBscale的逆,j=1,…,M;ERBscale和/>
Figure BDA0003003906860000026
计算如下:
Figure BDA0003003906860000027
Figure BDA0003003906860000028
其中fHz表示频率变量;
Figure BDA0003003906860000029
和b代入公式(1)得到参数化多相位gammatone滤波器组;
步骤2:使用参数化多相位gammatone滤波器组替换Conv-Tasnet网络的编码器,构成新Conv-Tasnet网络;
步骤3:采用Adam优化器,设置初始学习率,对新Conv-Tasnet网络进行训练,训练完成后采用新Conv-Tasnet网络实现语音分离。
优选地,所述步骤2中构成新Conv-Tasnet网络时,新Conv-Tasnet网络的解码器保持新Conv-Tasnet网络的解码器不变。
优选地,所述步骤2中构成新Conv-Tasnet网络时,新Conv-Tasnet网络的解码器为参数化多相位gammatone滤波器组的逆变换。
优选地,所述
Figure BDA0003003906860000032
在100Hz和4000Hz之间。
优选地,所述
Figure BDA0003003906860000033
优选地,所述c1=24.7,c2=9.265。
优选地,所述初始学习率为0.001。
本发明的有益效果如下:
本发明针对目前现有人工特征的参数无法与网络进行联合训练的缺点提出了改进版本的参数化多相位gammatone滤波器组特征,其中参数化多相位gammatone滤波器组的中心频率与带宽参数将与网络进行联合训练。实验结果表明,在解码器为可学习特征的情况下,该特征获得了具有竞争力的性能;在解码器为编码器的逆变换的情况下,该特征优于STFT、MPGTF等人工设计特征。
附图说明
图1为本发明实施例不同编码器-解码器的收敛曲线。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
Conv-Tasnet是目前最流行的时域语音分离网络,针对Conv-Tasnet的编码器和解码器进行了一些改进。用人工设计特征或者参数化特征代替Conv-Tasnet中的可学习特征。然而目前缺少对可学习特征、人工设计特征以及参数化特征的比较。
本发明将人工设计特征的多相位gammatone滤波器组与参数化特征进行了结合,提出了参数化多相位gammatone滤波器组。
本发明的基础分离框架是Conv-Tasnet。它是由三个主要部分构成:编码器,分离网络和解码器。其中编码器可以看作是N个长度为L的滤波器的集合。编码器的输出是由输入混合语音和滤波器卷积所产生的:
Figure BDA0003003906860000031
其中,n是滤波器的索引,i是帧数的索引,D是帧移,
Figure BDA0003003906860000041
是滤波器组中第n个滤波器,l是一帧当中采样点的索引,/>
Figure BDA0003003906860000042
是修正线性单元(ReLU),其目的是为了保证所输出的表示非负。
解码器的作用是重构第c个说话人的时域语音信号
Figure BDA0003003906860000043
解码器的输出为:
Figure BDA0003003906860000044
其中
Figure BDA0003003906860000045
是第c个说话人的分离网络的输出,k是滤波器权重的索引,/>
Figure BDA0003003906860000046
是解码器中第n个滤波器,/>
Figure BDA0003003906860000047
是第c个说话人在第i帧的估计。为了对语音帧之间的帧移操作进行解码,解码器进一步计算:
Figure BDA0003003906860000048
一种基于参数化多相位gammatone滤波器组的语音分离方法,包括以下步骤:
步骤1:Gammatone滤波器组模拟了人类听觉系统的掩蔽效应,在语音分离任务中是一种良好的特征。对Gammatone滤波器进行改进,得到参数化多相位gammatone滤波器组ParaMPGTF;
步骤1-1:Gammatone滤波器的冲激响应函数γ(t)为:
γ(t)=αtn-1exp(-2πbt)cos(2πfct+φ) (1)
其中,n是滤波器阶数,b是带宽参数,fc是滤波器的中心频率,t>0是时间,α是幅度,φ是相移;
gammatone滤波器组通过以下三个方面的改进成为多相位gammatone滤波器组。第一:滤波器的长度被设置成了2毫秒,其目的是为了使系统低时延;第二:对每个滤波器
Figure BDA0003003906860000049
MPGTF引入了/>
Figure BDA00030039068600000410
来保证在每一个中心频率处,至少有一个滤波器含有能量。第三,相移φ在相同中心频率下变化;
滤波器中心频率fc和带宽参数b由矩形带通滤波器的等效矩形带宽ERB(.)决定:
Figure BDA00030039068600000411
fc=c2(ERB-c1) (3)
Figure BDA00030039068600000412
其中,c1和c2是不同的滤波器参数;通常情况下,根据经验公式,c1和c2分别被设置为24.7和9.265。然而这种经验设置可能不够准确,从而可能会导致次优的性能。
步骤1-2:使用M个Gammatone滤波器构成参数化多相位gammatone滤波器组,滤波器组的参数c1和c2将与网络联合训练;带宽参数b和第j个滤波器
Figure BDA0003003906860000051
的中心频率用式(2)(4)(5)进行计算:
Figure BDA0003003906860000052
其中,ERBscale表示将1/ERB(fc)进行频率积分得到的ERB尺度,
Figure BDA0003003906860000053
是ERBscale的逆,j=1,…,M;ERBscale和/>
Figure BDA0003003906860000054
计算如下:
Figure BDA0003003906860000055
Figure BDA0003003906860000056
其中fHz表示频率变量;
Figure BDA0003003906860000057
和b代入公式(1)得到参数化多相位gammatone滤波器组;为了使参数化多相位gammatone滤波器组成为有实际物理意义的滤波器组,/>
Figure BDA0003003906860000058
应该被限制在100Hz和4000Hz之间。为了满足这一限制,在整个训练过程中将/>
Figure BDA0003003906860000059
固定为100Hz。综上所述,参数化多相位gammatone滤波器组将数据驱动方式和多相位gammatone滤波器进行了结合,它同时也继承了多相位gammatone滤波器的性质。
步骤2:使用参数化多相位gammatone滤波器组替换Conv-Tasnet网络的编码器,解码器保持Conv-Tasnet网络的解码器不变或者为参数化多相位gammatone滤波器组的逆变换,构成新Conv-Tasnet网络;
步骤3:采用Adam优化器,设置初始学习率,对新Conv-Tasnet网络进行训练,训练完成后采用新Conv-Tasnet网络实现语音分离。
具体实施例:
(1)实验设置:
Conv-Tasnet网络在4秒长的片段上进行了200个周期的训练。优化器采用Adam优化器,初始学习率为0.001。如果在验证集上连续5个周期性能没有提升则学习率减半。同时,当验证集上的性能在过去的10个周期内都没有提升时,网络训练将会被停止。网络的超参数设置遵循Conv-Tasnet中的网络超参数,其中滤波器数目N为512。时序卷积网络(Temporal Convolutional Networks,TCN)的掩模函数分别被设置为sigmoid函数和修正线性单元(rectified linear unit,ReLU)。对于ParaMPGTF,将阶数n设置为2,幅度α设置为1。将c1和c2的初始值设置为其经验值,即c1=24.7,c2=9.265。采用SI-SNR作为评价指标。所报告的结果均是3000句测试混合语音的平均结果。
(2)数据准备:
使用WSJ0-2mix数据集对双说话人语音分离性能进行比较。它包含了30个小时的训练数据,10小时的验证数据以及5小时的测试数据。WSJ0-2mix中的混合语音是通过在Wall Street Journal(WSJ0)训练集si_tr_s中随机选择不同的说话者和句子产生的,并将它们以-5分贝到5分贝范围中的随机信噪比混合。测试集中的句子来自于WSJ0数据集中si_dt_05和si_et_05中16个训练中未用到的说话人。WSJ0-2mix中的所有语音均被重采样至8000赫兹。
(3)实验结果:
首先比较了解码器为可学习特征,编码器为STFT、MPGTF、ParaMPGTF和可学习特征时的情况,表1列出了比较结果。从表1中可以看出,这四种特征并没有产生很大的性能差异。如果仔细比较,发现STFT特征在测试集和验证集都达到最高的性能。MPGTF和ParaMPGTF性能比较接近,ParaMPGTF在验证集上略好于MPGTF,而在测试集上略差于MPGTF。
表1不同特征作为编码器的比较
Figure BDA0003003906860000061
分别将编码器设置为STFT,MPGTF,ParaMPGTF,并将解码器设置为其对应的逆变换。表2列出了STFT,MPGTF,ParaMPGTF以及它们逆变换分别作为编码器和解码器的实验结果。从表中可以看出,这三种比较方法的性能大体上是相似的。但在测试集和验证集上,所提出的ParaMPGTF都达到了最好的性能,这也表明了参数化训练的策略有进传统人工设计特征的潜力。
表2编码器和解码器为不同特征及其逆变换时的比较
Figure BDA0003003906860000071

Claims (7)

1.一种基于参数化多相位gammatone滤波器组的语音分离方法,其特征在于,包括以下步骤:
步骤1:对Gammatone滤波器进行改进,得到参数化多相位gammatone滤波器组;
步骤1-1:Gammatone滤波器的冲激响应函数γ(t)为:
γ(t)=αtn-1exp(-2πbt)cos(2πfct+φ) (1)
其中,n是滤波器阶数,b是带宽参数,fc是滤波器的中心频率,t>0是时间,α是幅度,φ是相移;
滤波器中心频率fc和带宽参数b由矩形带通滤波器的等效矩形带宽ERB(.)决定:
Figure FDA0003003906850000011
fc=c2(ERB-c1) (3)
Figure FDA0003003906850000012
其中,c1和c2是不同的滤波器参数;
步骤1-2:使用M个Gammatone滤波器构成参数化多相位gammatone滤波器组,带宽参数b和第j个滤波器
Figure FDA0003003906850000019
的中心频率用式(2)(4)(5)进行计算:
Figure FDA0003003906850000013
其中,ERBscale表示将1/ERB(fc)进行频率积分得到的ERB尺度,
Figure FDA0003003906850000014
是ERBscale的逆,j=1,…,M;ERBscale和/>
Figure FDA0003003906850000015
计算如下:
Figure FDA0003003906850000016
Figure FDA0003003906850000017
其中fHz表示频率变量;
Figure FDA0003003906850000018
和b代入公式(1)得到参数化多相位gammatone滤波器组;
步骤2:使用参数化多相位gammatone滤波器组替换Conv-Tasnet网络的编码器,构成新Conv-Tasnet网络;
步骤3:采用Adam优化器,设置初始学习率,对新Conv-Tasnet网络进行训练,训练完成后采用新Conv-Tasnet网络实现语音分离。
2.根据权利要求1所述的一种基于参数化多相位gammatone滤波器组的语音分离方法,其特征在于,所述步骤2中构成新Conv-Tasnet网络时,新Conv-Tasnet网络的解码器保持新Conv-Tasnet网络的解码器不变。
3.根据权利要求1所述的一种基于参数化多相位gammatone滤波器组的语音分离方法,其特征在于,所述步骤2中构成新Conv-Tasnet网络时,新Conv-Tasnet网络的解码器为参数化多相位gammatone滤波器组的逆变换。
4.根据权利要求1所述的一种基于参数化多相位gammatone滤波器组的语音分离方法,其特征在于,所述
Figure FDA0003003906850000021
在100Hz和4000Hz之间。
5.根据权利要求1所述的一种基于参数化多相位gammatone滤波器组的语音分离方法,其特征在于,所述
Figure FDA0003003906850000022
6.根据权利要求1所述的一种基于参数化多相位gammatone滤波器组的语音分离方法,其特征在于,所述c1=24.7,c2=9.265。
7.根据权利要求1所述的一种基于参数化多相位gammatone滤波器组的语音分离方法,其特征在于,所述初始学习率为0.001。
CN202110357265.7A 2021-04-01 2021-04-01 一种基于参数化多相位gammatone滤波器组的语音分离方法 Active CN113077811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110357265.7A CN113077811B (zh) 2021-04-01 2021-04-01 一种基于参数化多相位gammatone滤波器组的语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110357265.7A CN113077811B (zh) 2021-04-01 2021-04-01 一种基于参数化多相位gammatone滤波器组的语音分离方法

Publications (2)

Publication Number Publication Date
CN113077811A CN113077811A (zh) 2021-07-06
CN113077811B true CN113077811B (zh) 2023-06-30

Family

ID=76614618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110357265.7A Active CN113077811B (zh) 2021-04-01 2021-04-01 一种基于参数化多相位gammatone滤波器组的语音分离方法

Country Status (1)

Country Link
CN (1) CN113077811B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107845389A (zh) * 2017-12-21 2018-03-27 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
WO2021009319A1 (fr) * 2019-07-17 2021-01-21 Audionamix Sa Procédé de séparation d'un signal acoustique de mélange en une pluralité de m contributions sonores; produit programme d'ordinateur et support lisible d'informations associés

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107845389A (zh) * 2017-12-21 2018-03-27 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
WO2021009319A1 (fr) * 2019-07-17 2021-01-21 Audionamix Sa Procédé de séparation d'un signal acoustique de mélange en une pluralité de m contributions sonores; produit programme d'ordinateur et support lisible d'informations associés

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于听觉系统半波整流逆变化的语音恢复;李世超;王永琦;吉立新;马桂航;;计算机工程与设计(第13期);全文 *

Also Published As

Publication number Publication date
CN113077811A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
Pandey et al. Densely connected neural network with dilated convolutions for real-time speech enhancement in the time domain
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
Li et al. ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with a two-stage deep network
CN105741849A (zh) 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
Hao et al. UNetGAN: A robust speech enhancement approach in time domain for extremely low signal-to-noise ratio condition
Ren et al. A Causal U-Net Based Neural Beamforming Network for Real-Time Multi-Channel Speech Enhancement.
CN113744749B (zh) 一种基于心理声学域加权损失函数的语音增强方法及系统
WO2020127900A1 (en) Apparatus and method for source separation using an estimation and control of sound quality
JP2023548707A (ja) 音声強調方法、装置、機器及びコンピュータプログラム
Zhu et al. A comparison of handcrafted, parameterized, and learnable features for speech separation
JPH10503908A (ja) オーディオ信号の調性を決定するための方法および装置
CN113077811B (zh) 一种基于参数化多相位gammatone滤波器组的语音分离方法
Gandhiraj et al. Auditory-based wavelet packet filterbank for speech recognition using neural network
CN115966218A (zh) 一种骨导辅助的气导语音处理方法、装置、介质及设备
CN110010150A (zh) 基于多分辨率的听觉感知语音特征参数提取方法
Xiang et al. A deep representation learning speech enhancement method using β-vae
Uhle et al. Speech enhancement of movie sound
Li et al. A Two-Stage Approach to Quality Restoration of Bone-Conducted Speech
Vo et al. Build A module for improvement real time speech enhancement using long short-term memory approach: improvement real time speech enhancement using long short-term memory
Vanambathina et al. Real time speech enhancement using densely connected neural networks and Squeezed temporal convolutional modules
Liu et al. Speech enhancement based on the integration of fully convolutional network, temporal lowpass filtering and spectrogram masking
Wen et al. Biophysically-inspired single-channel speech enhancement in the time domain
Zhang et al. URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement
Ozamoto et al. Noise-tolerant time-domain speech separation with noise bases
Gonzalez et al. Investigating the Design Space of Diffusion Models for Speech Enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant