CN109584903A - 一种基于深度学习的多人语音分离方法 - Google Patents
一种基于深度学习的多人语音分离方法 Download PDFInfo
- Publication number
- CN109584903A CN109584903A CN201811641471.5A CN201811641471A CN109584903A CN 109584903 A CN109584903 A CN 109584903A CN 201811641471 A CN201811641471 A CN 201811641471A CN 109584903 A CN109584903 A CN 109584903A
- Authority
- CN
- China
- Prior art keywords
- voice
- spectrum
- signal
- target voice
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 20
- 238000013135 deep learning Methods 0.000 title claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims abstract description 131
- 230000000873 masking effect Effects 0.000 claims abstract description 47
- 230000035945 sensitivity Effects 0.000 claims abstract description 41
- 230000003595 spectral effect Effects 0.000 claims abstract description 40
- 230000009466 transformation Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 238000009432 framing Methods 0.000 claims abstract description 6
- 230000001404 mediated effect Effects 0.000 claims description 29
- 210000005036 nerve Anatomy 0.000 claims description 18
- 238000013459 approach Methods 0.000 claims description 6
- 241000695274 Processa Species 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 6
- 238000000034 method Methods 0.000 abstract description 4
- 238000011084 recovery Methods 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于深度学习的多人语音分离方法。包括:对传声器得到的多说话人混合语音信号进行分帧、加窗、傅里叶变换,得到混合信号的频谱;将混合语音信号的频谱幅度送入神经网络,对各目标信号的理想幅度掩蔽进行估计;利用估计出的各信号的理想幅度掩蔽及混合信号的频谱幅度和频谱相位,采用迭代的方法恢复出各目标信号的相位;利用恢复后各目标信号的相位,计算出各目标信号的相敏掩蔽,训练神经网络对其进行估计;利用神经网络估计的相敏掩蔽得到目标信号的频谱幅度,进而结合恢复的相位对各目标信号的频谱进行重建;将重建后的各信号频谱进行逆傅里叶变换,得到分离后的时域语音信号。本发明提供的方法能有效提高说话人语音分离效果。
Description
技术领域
本发明涉及语音分离技术领域,尤其涉及一种基于深度学习的多人语音分离方法。
背景技术
说话人分离技术是从多个说话人的混合语音信号中,分别提取出每一个说话人的语音信号。该技术对目标说话人检测、语音识别等具有重要意义。
由于语音信号的复杂性和不稳定性,传统的分离方法达不到很好的分离效果,并且以往的分离中只对目标信号的频谱幅度进行估计。
发明内容
本发明的目的在于解决现有技术存在的缺陷。
为达到上述目的,一种基于深度学习的多人语音分离方法,包括步骤:
将传声器接收的含有多个目标语音信号的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音信号的频谱,混合语音信号的频谱包括混合语音频谱幅度和混合语音频谱相位;
使用多个目标语音频谱幅度理论值分别和混合语音频谱幅度计算得到多个目标语音理想幅度掩蔽理论值,使用多个目标语音理想幅度掩蔽理论值分别对第一神经网络进行训练;
基于训练后的第一神经网络,输入混合语音频谱幅度得到多个目标语音理想幅度掩蔽估计值;
使用多个目标语音理想幅度掩蔽估计值分别和混合语音频谱幅度以及混合语音频谱相位计算得到多个目标语音频谱相位估计值;
使用多个目标语音频谱相位估计值及其对应的目标语音频谱相位理论值、目标语音频谱幅度理论值分别和混合语音频谱幅度计算得到多个目标语音理想相敏掩蔽理论值,使用多个目标语音理想相敏掩蔽理论值分别对第二神经网络进行训练;
基于所训练后的第二神经网络,输入混合语音频谱幅度得到多个目标语音理想相敏掩蔽估计值;
使用多个目标语音理想相敏掩蔽估计值分别和混合语音频谱幅度计算得到多个目标语音频谱幅度估计值;
利用多个目标语音频谱幅度估计值及对应的多个目标语音频谱相位估计值进行重构形成目标语音信号的频谱,对目标语音信号的频谱进行逆傅里叶变换,得到多个目标语音信号。
优选的,将传声器接收的含有多个目标语音信号的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音信号的频谱的步骤,具体为,
取每32ms采样点为一帧信号,其中,若采样率8kHz时对应256个采样点,若采样频率为16kHz时对应为512个采样点,若长度不足32ms则先将采样点补零到256或512个;然后对每一帧信号进行加窗,加窗函数采用汉明窗或汉宁窗。
优选的,目标语音理想幅度掩蔽理论值为:
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,|Xj(k,l)|为第j个目标语音频谱幅度理论值,|Y(k,l)|为混合语音频谱幅度。
优选的,使用多个目标语音理想幅度掩蔽理论值分别对第一神经网络进行训练的步骤,具体为,
将混合语音频谱幅度输入未训练的第一神经网络,通过第一神经网络输出各目标语音理想幅度掩蔽估计值,目标语音理想幅度掩蔽估计值和目标语音理想幅度掩蔽理论值进行均方误差迭代,进而最小化均方误差,以此对第一神经网络进行训练,使第一神经网络输出目标语音理想幅度掩蔽理论值逼近于目标语音理想幅度掩蔽的理论值。
优选的,使用多个目标语音理想幅度掩蔽估计值分别和混合语音频谱幅度以及混合语音频谱相位计算得到多个目标语音频谱相位估计值的步骤,具体为,
a)多个目标语音理想幅度掩蔽估计值分别和混合语音信号的频谱合成,得到多个中介信号估计值的初始频谱:
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,为第j个目标语音理想幅度掩蔽估计值,为混合语音信号的频谱;
b)对各中介信号估计值的初始频谱进行逆傅里叶变换,得到多个中介信号估计值
c)计算混合语音信号与多个中介信号估计值之和的误差:
其中,y为混合语音信号,J为混合语音中所含目标语音的个数;
d)将误差平均分配到各中介信号估计值形成误差补偿后的中介信号估计值
e)对误差补偿后的中介信号估计值进行傅里叶变换得到误差补偿后的中介信号估计值的频谱,其中包含目标语音频谱相位估计值:
其中,STFT[]为傅里叶变换,∠为取相位操作;
f)利用多个目标语音理想幅度掩蔽估计值及其对应的目标语音频谱相位估计值,分别和混合语音频谱幅度合成,得到多个中介信号估计值的频谱
用替换步骤b)中的进行逆傅里叶变换得到新的中介信号估计值并至少两次重复步骤c)-步骤f),将最后一次重复过程中的作为目标语音频谱相位估计值。
优选的,目标语音理想相敏掩蔽理论值为:
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,|Xj(k,l)|为第j个目标语音频谱幅度理论值,|Y(k,l)|为混合语音频谱幅度,θj为第j个目标语音频谱相位理论值,为第j个目标语音频谱相位估计值。
优选的,使用多个目标语音理想相敏掩蔽理论值分别对第二神经网络进行训练的步骤,具体为,
将混合语音频谱幅度输入未训练的第二神经网络,通过第二神经网络输出各目标语音理想相敏掩蔽估计值,目标语音理想相敏掩蔽估计值和目标语音理想相敏掩蔽理论值进行均方误差迭代,进而最小化均方误差,以此对第二神经网络进行训练,使第二神经网络输出目标语音理想相敏掩蔽理论值逼近于目标语音理想相敏掩蔽的理论值。
优选的,目标语音频谱幅度估计值为:
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,为第j个目标语音理想相敏掩蔽估计值,|Y(k,l)|为混合语音频谱幅度。
本发明的优点在于:不仅对目标信号的频谱幅度进行了估计,同时还对目标信号的频谱相位进行估计,并且提出分别估计目标的理想幅度掩蔽和相敏掩蔽用于目标信号的相位估计和幅度恢复,以使幅度和相位估计的效果最优。用理想幅度掩蔽恢复相位比其它掩蔽效果更优;用相敏掩蔽估计幅度可对相位估计的误差进行补偿,在信号相位确定的情况下用相敏掩蔽估计幅度比其它掩蔽更优。同时进行频谱幅度估计和频谱相位估计比只估计频谱幅度效果更优。
附图说明
为了更清楚说明本发明实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种基于深度学习的多人语音分离方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为一种基于深度学习的多人语音分离方法流程图。如图1所示,包括步骤:
步骤S101:将传声器接收的含有多个目标语音信号的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音信号的频谱,混合语音信号的频谱包括混合语音频谱幅度和混合语音频谱相位。
在一个具体实施例中,取每32ms采样点为一帧信号,其中,若采样率8kHz时对应256个采样点,若采样频率为16kHz时对应为512个采样点,若长度不足32ms则先将采样点补零到256或512个;然后对每一帧信号进行加窗,加窗函数采用汉明窗或汉宁窗。
步骤S102:使用多个目标语音频谱幅度理论值分别和混合语音频谱幅度计算得到多个目标语音理想幅度掩蔽理论值
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,|Xj(k,l)|为第j个目标语音频谱幅度理论值,|Y(k,l)|为混合语音频谱幅度。
使用多个目标语音理想幅度掩蔽理论值分别对第一神经网络进行训练。
在一个具体实施例中,将混合语音频谱幅度输入未训练的第一神经网络,通过第一神经网络输出各目标语音理想幅度掩蔽估计值,目标语音理想幅度掩蔽估计值和目标语音理想幅度掩蔽理论值进行均方误差迭代,进而最小化均方误差,以此对第一神经网络进行训练,使第一神经网络输出目标语音理想幅度掩蔽理论值逼近于目标语音理想幅度掩蔽的理论值。
步骤S103:基于训练后的第一神经网络,输入混合语音频谱幅度得到多个目标语音理想幅度掩蔽估计值。
步骤S104:使用多个目标语音理想幅度掩蔽估计值分别和混合语音频谱幅度以及混合语音频谱相位计算得到多个目标语音频谱相位估计值。
在一个具体实施例中,包括:
步骤a)多个目标语音理想幅度掩蔽估计值分别和混合语音信号的频谱合成,得到多个中介信号估计值的初始频谱:
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,为第j个目标语音理想幅度掩蔽估计值,为混合语音信号的频谱;
步骤b)对各中介信号估计值的初始频谱进行逆傅里叶变换,得到多个中介信号估计值
步骤c)计算混合语音信号与多个中介信号估计值之和的误差:
其中,y为混合语音信号,J为混合语音中所含目标语音的个数;
步骤d)将误差平均分配到各中介信号估计值形成误差补偿后的中介信号估计值
步骤e)对误差补偿后的中介信号估计值进行傅里叶变换得到误差补偿后的中介信号估计值的频谱,其中包含目标语音频谱相位估计值:
其中,STFT[]为傅里叶变换,∠为取相位操作;
步骤f)利用多个目标语音理想幅度掩蔽估计值及其对应的目标语音频谱相位估计值,分别和混合语音频谱幅度合成,得到多个中介信号估计值的频谱
用替换步骤b)中的进行逆傅里叶变换得到新的中介信号估计值并至少两次重复步骤c)-步骤f),将最后一次重复过程中的作为目标语音频谱相位估计值。
步骤S105:使用多个目标语音频谱相位估计值及其对应的目标语音频谱相位理论值、目标语音频谱幅度理论值分别和混合语音频谱幅度计算得到多个目标语音理想相敏掩蔽理论值
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,|Xj(k,l)|为第j个目标语音频谱幅度理论值,|Y(k,l)|为混合语音频谱幅度,θj为第j个目标语音频谱相位理论值,为第j个目标语音频谱相位估计值。
使用多个目标语音理想相敏掩蔽理论值分别对第二神经网络进行训练。
在一个具体实施例中,将混合语音频谱幅度输入未训练的第二神经网络,通过第二神经网络输出各目标语音理想相敏掩蔽估计值,目标语音理想相敏掩蔽估计值和目标语音理想相敏掩蔽理论值进行均方误差迭代,进而最小化均方误差,以此对第二神经网络进行训练,使第二神经网络输出目标语音理想相敏掩蔽理论值逼近于目标语音理想相敏掩蔽的理论值。
步骤S106:基于所训练后的第二神经网络,输入混合语音频谱幅度得到多个目标语音理想相敏掩蔽估计值;
步骤S107:使用多个目标语音理想相敏掩蔽估计值分别和混合语音频谱幅度计算得到多个目标语音频谱幅度估计值
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,为第j个目标语音理想相敏掩蔽估计值,|Y(k,l)|为混合语音频谱幅度。
步骤S108:利用多个目标语音频谱幅度估计值及对应的多个目标语音频谱相位估计值进行重构形成目标语音信号的频谱,对目标语音信号的频谱进行逆傅里叶变换,得到多个目标语音信号。
本发明提供了一种基于深度学习的多人语音分离方法。不仅对目标信号的频谱幅度进行了估计,同时还对目标信号的频谱相位进行估计,并且提出分别估计目标的理想幅度掩蔽和相敏掩蔽用于目标信号的相位估计和幅度恢复,以使幅度和相位估计的效果最优。用理想幅度掩蔽恢复相位比其它掩蔽效果更优;用相敏掩蔽估计幅度可对相位估计的误差进行补偿,在信号相位确定的情况下用相敏掩蔽估计幅度比其它掩蔽更优。同时进行频谱幅度估计和频谱相位估计比只估计频谱幅度效果更优。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于深度学习的多人语音分离方法,其特征在于,包括步骤:
将传声器接收的含有多个目标语音信号的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音信号的频谱,所述混合语音信号的频谱包括混合语音频谱幅度和混合语音频谱相位;
使用多个目标语音频谱幅度理论值分别和所述混合语音频谱幅度计算得到多个目标语音理想幅度掩蔽理论值,使用所述多个目标语音理想幅度掩蔽理论值分别对第一神经网络进行训练;
基于训练后的所述第一神经网络,输入所述混合语音频谱幅度得到多个目标语音理想幅度掩蔽估计值;
使用多个目标语音理想幅度掩蔽估计值分别和所述混合语音频谱幅度以及混合语音频谱相位计算得到多个目标语音频谱相位估计值;
使用多个目标语音频谱相位估计值及其对应的目标语音频谱相位理论值、目标语音频谱幅度理论值分别和所述混合语音频谱幅度计算得到多个目标语音理想相敏掩蔽理论值,使用所述多个目标语音理想相敏掩蔽理论值分别对第二神经网络进行训练;
基于所训练后的所述第二神经网络,输入所述混合语音频谱幅度得到多个目标语音理想相敏掩蔽估计值;
使用多个目标语音理想相敏掩蔽估计值分别和所述混合语音频谱幅度计算得到多个目标语音频谱幅度估计值;
利用所述多个目标语音频谱幅度估计值及对应的多个目标语音频谱相位估计值进行重构形成目标语音信号的频谱,对所述目标语音信号的频谱进行逆傅里叶变换,得到多个目标语音信号。
2.根据权利要求1所述的分离方法,其特征在于,所述将传声器接收的含有多个目标语音信号的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音信号的频谱的步骤,具体为,
取每32ms采样点为一帧信号,其中,若采样率8kHz时对应256个采样点,若采样频率为16kHz时对应为512个采样点,若长度不足32ms则先将采样点补零到256或512个;然后对每一帧信号进行加窗,所述加窗函数采用汉明窗或汉宁窗。
3.根据权利要求1所述的分离方法,其特征在于,所述目标语音理想幅度掩蔽理论值为:
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,|Xj(k,l)|为第j个目标语音频谱幅度理论值,|Y(k,l)|为混合语音频谱幅度。
4.根据权利要求1所述的分离方法,其特征在于,所述使用所述多个目标语音理想幅度掩蔽理论值分别对第一神经网络进行训练的步骤,具体为,
将所述混合语音频谱幅度输入未训练的第一神经网络,通过所述第一神经网络输出各目标语音理想幅度掩蔽估计值,所述目标语音理想幅度掩蔽估计值和目标语音理想幅度掩蔽理论值进行均方误差迭代,进而最小化均方误差,以此对第一神经网络进行训练,使第一神经网络输出目标语音理想幅度掩蔽理论值逼近于目标语音理想幅度掩蔽的理论值。
5.根据权利要求1所述的分离方法,其特征在于,所述使用多个目标语音理想幅度掩蔽估计值分别和所述混合语音频谱幅度以及混合语音频谱相位计算得到多个目标语音频谱相位估计值的步骤,具体为,
a)所述多个目标语音理想幅度掩蔽估计值分别和所述混合语音信号的频谱合成,得到多个中介信号估计值的初始频谱:
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,为第j个目标语音理想幅度掩蔽估计值,为混合语音信号的频谱;
b)对各中介信号估计值的初始频谱进行逆傅里叶变换,得到多个中介信号估计值
c)计算混合语音信号与所述多个中介信号估计值之和的误差:
其中,y为混合语音信号,J为混合语音中所含目标语音的个数;
d)将所述误差平均分配到各中介信号估计值形成误差补偿后的中介信号估计值
e)对所述误差补偿后的中介信号估计值进行傅里叶变换得到误差补偿后的中介信号估计值的频谱,其中包含目标语音频谱相位估计值:
其中,STFT[]为傅里叶变换,∠为取相位操作;
f)利用所述多个目标语音理想幅度掩蔽估计值及其对应的目标语音频谱相位估计值,分别和所述混合语音频谱幅度合成,得到多个中介信号估计值的频谱
用替换步骤b)中的进行逆傅里叶变换得到新的中介信号估计值并至少两次重复步骤c)-步骤f),将最后一次重复过程中的作为目标语音频谱相位估计值。
6.根据权利要求1所述的分离方法,其特征在于,所述目标语音理想相敏掩蔽理论值为:
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,|Xj(k,l)|为第j个目标语音频谱幅度理论值,|Y(k,l)|为混合语音频谱幅度,θj为第j个目标语音频谱相位理论值,为第j个目标语音频谱相位估计值。
7.根据权利要求1所述的分离方法,其特征在于,所述使用所述多个目标语音理想相敏掩蔽理论值分别对第二神经网络进行训练的步骤,具体为,
将所述混合语音频谱幅度输入未训练的第二神经网络,通过所述第二神经网络输出各目标语音理想相敏掩蔽估计值,所述目标语音理想相敏掩蔽估计值和目标语音理想相敏掩蔽理论值进行均方误差迭代,进而最小化均方误差,以此对第二神经网络进行训练,使第二神经网络输出目标语音理想相敏掩蔽理论值逼近于目标语音理想相敏掩蔽的理论值。
8.根据权利要求1所述的分离方法,其特征在于,所述目标语音频谱幅度估计值为:
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,为第j个目标语音理想相敏掩蔽估计值,|Y(k,l)|为混合语音频谱幅度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811641471.5A CN109584903B (zh) | 2018-12-29 | 2018-12-29 | 一种基于深度学习的多人语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811641471.5A CN109584903B (zh) | 2018-12-29 | 2018-12-29 | 一种基于深度学习的多人语音分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109584903A true CN109584903A (zh) | 2019-04-05 |
CN109584903B CN109584903B (zh) | 2021-02-12 |
Family
ID=65932678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811641471.5A Active CN109584903B (zh) | 2018-12-29 | 2018-12-29 | 一种基于深度学习的多人语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109584903B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148419A (zh) * | 2019-04-25 | 2019-08-20 | 南京邮电大学 | 基于深度学习的语音分离方法 |
CN110444223A (zh) * | 2019-06-26 | 2019-11-12 | 平安科技(深圳)有限公司 | 基于循环神经网络和声学特征的说话人分离方法及装置 |
CN110459240A (zh) * | 2019-08-12 | 2019-11-15 | 新疆大学 | 基于卷积神经网络和深度聚类的多说话人语音分离方法 |
CN110491410A (zh) * | 2019-04-12 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及相关设备 |
CN110970053A (zh) * | 2019-12-04 | 2020-04-07 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
CN111028858A (zh) * | 2019-12-31 | 2020-04-17 | 云知声智能科技股份有限公司 | 一种人声起止时间检测方法及装置 |
CN111128230A (zh) * | 2019-12-31 | 2020-05-08 | 广州市百果园信息技术有限公司 | 语音信号重建方法、装置、设备和存储介质 |
CN111710349A (zh) * | 2020-06-23 | 2020-09-25 | 长沙理工大学 | 一种语音情感识别方法、系统、计算机设备和存储介质 |
WO2020248485A1 (zh) * | 2019-06-13 | 2020-12-17 | 平安科技(深圳)有限公司 | 音频单音色分离方法、装置、计算机设备及存储介质 |
CN112331218A (zh) * | 2020-09-29 | 2021-02-05 | 北京清微智能科技有限公司 | 一种针对多说话人的单通道语音分离方法和装置 |
CN112331181A (zh) * | 2019-07-30 | 2021-02-05 | 中国科学院声学研究所 | 一种基于多说话人条件下目标说话人语音提取方法 |
WO2021036046A1 (zh) * | 2019-08-23 | 2021-03-04 | 北京市商汤科技开发有限公司 | 声音分离方法和装置、电子设备 |
CN113299302A (zh) * | 2021-04-22 | 2021-08-24 | 维沃移动通信(杭州)有限公司 | 音频降噪方法、装置及电子设备 |
CN113707172A (zh) * | 2021-06-02 | 2021-11-26 | 西安电子科技大学 | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 |
WO2023027634A3 (zh) * | 2021-08-27 | 2023-04-13 | 脸萌有限公司 | 音频信号的分离方法、装置、设备、存储介质及程序 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103325381A (zh) * | 2013-05-29 | 2013-09-25 | 吉林大学 | 一种基于模糊隶属函数的语音分离方法 |
CN105096961A (zh) * | 2014-05-06 | 2015-11-25 | 华为技术有限公司 | 语音分离方法和装置 |
CN106847301A (zh) * | 2017-01-03 | 2017-06-13 | 东南大学 | 一种基于压缩感知和空间方位信息的双耳语音分离方法 |
WO2017112466A1 (en) * | 2015-12-21 | 2017-06-29 | Microsoft Technology Licensing, Llc | Multi-speaker speech separation |
CN109036460A (zh) * | 2018-08-28 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 基于多模型神经网络的语音处理方法和装置 |
-
2018
- 2018-12-29 CN CN201811641471.5A patent/CN109584903B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103325381A (zh) * | 2013-05-29 | 2013-09-25 | 吉林大学 | 一种基于模糊隶属函数的语音分离方法 |
CN105096961A (zh) * | 2014-05-06 | 2015-11-25 | 华为技术有限公司 | 语音分离方法和装置 |
WO2017112466A1 (en) * | 2015-12-21 | 2017-06-29 | Microsoft Technology Licensing, Llc | Multi-speaker speech separation |
CN106847301A (zh) * | 2017-01-03 | 2017-06-13 | 东南大学 | 一种基于压缩感知和空间方位信息的双耳语音分离方法 |
CN109036460A (zh) * | 2018-08-28 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 基于多模型神经网络的语音处理方法和装置 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110491410A (zh) * | 2019-04-12 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及相关设备 |
CN110148419A (zh) * | 2019-04-25 | 2019-08-20 | 南京邮电大学 | 基于深度学习的语音分离方法 |
WO2020248485A1 (zh) * | 2019-06-13 | 2020-12-17 | 平安科技(深圳)有限公司 | 音频单音色分离方法、装置、计算机设备及存储介质 |
CN110444223A (zh) * | 2019-06-26 | 2019-11-12 | 平安科技(深圳)有限公司 | 基于循环神经网络和声学特征的说话人分离方法及装置 |
CN110444223B (zh) * | 2019-06-26 | 2023-05-23 | 平安科技(深圳)有限公司 | 基于循环神经网络和声学特征的说话人分离方法及装置 |
WO2020258661A1 (zh) * | 2019-06-26 | 2020-12-30 | 平安科技(深圳)有限公司 | 基于循环神经网络和声学特征的说话人分离方法及装置 |
CN112331181A (zh) * | 2019-07-30 | 2021-02-05 | 中国科学院声学研究所 | 一种基于多说话人条件下目标说话人语音提取方法 |
CN110459240A (zh) * | 2019-08-12 | 2019-11-15 | 新疆大学 | 基于卷积神经网络和深度聚类的多说话人语音分离方法 |
WO2021036046A1 (zh) * | 2019-08-23 | 2021-03-04 | 北京市商汤科技开发有限公司 | 声音分离方法和装置、电子设备 |
CN110970053A (zh) * | 2019-12-04 | 2020-04-07 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
CN110970053B (zh) * | 2019-12-04 | 2022-03-15 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
CN111028858B (zh) * | 2019-12-31 | 2022-02-18 | 云知声智能科技股份有限公司 | 一种人声起止时间检测方法及装置 |
CN111128230B (zh) * | 2019-12-31 | 2022-03-04 | 广州市百果园信息技术有限公司 | 语音信号重建方法、装置、设备和存储介质 |
CN111128230A (zh) * | 2019-12-31 | 2020-05-08 | 广州市百果园信息技术有限公司 | 语音信号重建方法、装置、设备和存储介质 |
CN111028858A (zh) * | 2019-12-31 | 2020-04-17 | 云知声智能科技股份有限公司 | 一种人声起止时间检测方法及装置 |
CN111710349A (zh) * | 2020-06-23 | 2020-09-25 | 长沙理工大学 | 一种语音情感识别方法、系统、计算机设备和存储介质 |
CN111710349B (zh) * | 2020-06-23 | 2023-07-04 | 长沙理工大学 | 一种语音情感识别方法、系统、计算机设备和存储介质 |
CN112331218A (zh) * | 2020-09-29 | 2021-02-05 | 北京清微智能科技有限公司 | 一种针对多说话人的单通道语音分离方法和装置 |
CN113299302A (zh) * | 2021-04-22 | 2021-08-24 | 维沃移动通信(杭州)有限公司 | 音频降噪方法、装置及电子设备 |
CN113707172A (zh) * | 2021-06-02 | 2021-11-26 | 西安电子科技大学 | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 |
CN113707172B (zh) * | 2021-06-02 | 2024-02-09 | 西安电子科技大学 | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 |
WO2023027634A3 (zh) * | 2021-08-27 | 2023-04-13 | 脸萌有限公司 | 音频信号的分离方法、装置、设备、存储介质及程序 |
Also Published As
Publication number | Publication date |
---|---|
CN109584903B (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584903A (zh) | 一种基于深度学习的多人语音分离方法 | |
Thomas et al. | Recognition of reverberant speech using frequency domain linear prediction | |
CN112331218B (zh) | 一种针对多说话人的单通道语音分离方法和装置 | |
CN111899756B (zh) | 一种单通道语音分离方法和装置 | |
Ren et al. | A Causal U-Net Based Neural Beamforming Network for Real-Time Multi-Channel Speech Enhancement. | |
CN108109617A (zh) | 一种远距离拾音方法 | |
CN107785028B (zh) | 基于信号自相关的语音降噪方法及装置 | |
CN111312275A (zh) | 一种基于子带分解的在线声源分离增强系统 | |
Zhou et al. | Complex spectral mapping with attention based convolution recurrent neural network for speech enhancement | |
Huang et al. | Dccrgan: Deep complex convolution recurrent generator adversarial network for speech enhancement | |
CN104240717B (zh) | 基于稀疏编码和理想二进制掩膜相结合的语音增强方法 | |
Zhu et al. | A comparison of handcrafted, parameterized, and learnable features for speech separation | |
CN114613384B (zh) | 一种基于深度学习多输入语音信号波束形成信息互补方法 | |
Bavkar et al. | PCA based single channel speech enhancement method for highly noisy environment | |
CN102637438A (zh) | 一种语音滤波方法 | |
Cheng et al. | Speech Enhancement Based on Beamforming and Post-Filtering by Combining Phase Information. | |
CN112967722A (zh) | 一种基于盲源分离的文本无关型多源说话人识别方法 | |
Ismae et al. | NNMF with Speaker Clustering in a Uniform Filter-Bank for Blind Speech Separation. | |
Yang et al. | So-DAS: A Two-Step Soft-Direction-Aware Speech Separation Framework | |
Deng et al. | Vision-Guided Speaker Embedding Based Speech Separation | |
Liang et al. | An Implementaion of the CNN-Based MVDR Beamforming For Speech Enhancement | |
Zhang et al. | A Beam-TFDPRNN Based Speech Separation Method in Reverberant Environments | |
Pang et al. | The SEUEE System for the CHiME-8 MMCSG Challenge | |
Jiang et al. | A Complex Neural Network Adaptive Beamforming for Multi-channel Speech Enhancement in Time Domain | |
Du et al. | Investigation of Monaural Front-End Processing for Robust ASR without Retraining or Joint-Training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |