CN109584903B - 一种基于深度学习的多人语音分离方法 - Google Patents

一种基于深度学习的多人语音分离方法 Download PDF

Info

Publication number
CN109584903B
CN109584903B CN201811641471.5A CN201811641471A CN109584903B CN 109584903 B CN109584903 B CN 109584903B CN 201811641471 A CN201811641471 A CN 201811641471A CN 109584903 B CN109584903 B CN 109584903B
Authority
CN
China
Prior art keywords
amplitude
frequency spectrum
voice
signal
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811641471.5A
Other languages
English (en)
Other versions
CN109584903A (zh
Inventor
李军锋
尹路
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201811641471.5A priority Critical patent/CN109584903B/zh
Publication of CN109584903A publication Critical patent/CN109584903A/zh
Application granted granted Critical
Publication of CN109584903B publication Critical patent/CN109584903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开了一种基于深度学习的多人语音分离方法。包括:对传声器得到的多说话人混合语音信号进行分帧、加窗、傅里叶变换,得到混合信号的频谱;将混合语音信号的频谱幅度送入神经网络,对各目标信号的理想幅度掩蔽进行估计;利用估计出的各信号的理想幅度掩蔽及混合信号的频谱幅度和频谱相位,采用迭代的方法恢复出各目标信号的相位;利用恢复后各目标信号的相位,计算出各目标信号的相敏掩蔽,训练神经网络对其进行估计;利用神经网络估计的相敏掩蔽得到目标信号的频谱幅度,进而结合恢复的相位对各目标信号的频谱进行重建;将重建后的各信号频谱进行逆傅里叶变换,得到分离后的时域语音信号。本发明提供的方法能有效提高说话人语音分离效果。

Description

一种基于深度学习的多人语音分离方法
技术领域
本发明涉及语音分离技术领域,尤其涉及一种基于深度学习的多人语音分离方法。
背景技术
说话人分离技术是从多个说话人的混合语音信号中,分别提取出每一个说话人的语音信号。该技术对目标说话人检测、语音识别等具有重要意义。
由于语音信号的复杂性和不稳定性,传统的分离方法达不到很好的分离效果,并且以往的分离中只对目标信号的频谱幅度进行估计。
发明内容
本发明的目的在于解决现有技术存在的缺陷。
为达到上述目的,一种基于深度学习的多人语音分离方法,包括步骤:
将传声器接收的含有多个目标语音信号的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音信号的频谱,混合语音信号的频谱包括混合语音频谱幅度和混合语音频谱相位;
使用多个目标语音频谱幅度理论值分别和混合语音频谱幅度计算得到多个目标语音理想幅度掩蔽理论值,使用多个目标语音理想幅度掩蔽理论值分别对第一神经网络进行训练;
基于训练后的第一神经网络,输入混合语音频谱幅度得到多个目标语音理想幅度掩蔽估计值;
使用多个目标语音理想幅度掩蔽估计值分别和混合语音频谱幅度以及混合语音频谱相位计算得到多个目标语音频谱相位估计值;
使用多个目标语音频谱相位估计值及其对应的目标语音频谱相位理论值、目标语音频谱幅度理论值分别和混合语音频谱幅度计算得到多个目标语音理想相敏掩蔽理论值,使用多个目标语音理想相敏掩蔽理论值分别对第二神经网络进行训练;
基于所训练后的第二神经网络,输入混合语音频谱幅度得到多个目标语音理想相敏掩蔽估计值;
使用多个目标语音理想相敏掩蔽估计值分别和混合语音频谱幅度计算得到多个目标语音频谱幅度估计值;
利用多个目标语音频谱幅度估计值及对应的多个目标语音频谱相位估计值进行重构形成目标语音信号的频谱,对目标语音信号的频谱进行逆傅里叶变换,得到多个目标语音信号。
优选的,将传声器接收的含有多个目标语音信号的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音信号的频谱的步骤,具体为,
取每32ms采样点为一帧信号,其中,若采样率8kHz时对应256个采样点,若采样频率为16kHz时对应为512个采样点,若长度不足32ms则先将采样点补零到256或512个;然后对每一帧信号进行加窗,加窗函数采用汉明窗或汉宁窗。
优选的,目标语音理想幅度掩蔽理论值为:
Figure BDA0001931189490000021
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,|Xj(k,l)|为第j个目标语音频谱幅度理论值,|Y(k,l)|为混合语音频谱幅度。
优选的,使用多个目标语音理想幅度掩蔽理论值分别对第一神经网络进行训练的步骤,具体为,
将混合语音频谱幅度输入未训练的第一神经网络,通过第一神经网络输出各目标语音理想幅度掩蔽估计值,目标语音理想幅度掩蔽估计值和目标语音理想幅度掩蔽理论值进行均方误差迭代,进而最小化均方误差,以此对第一神经网络进行训练,使第一神经网络输出目标语音理想幅度掩蔽理论值逼近于目标语音理想幅度掩蔽的理论值。
优选的,使用多个目标语音理想幅度掩蔽估计值分别和混合语音频谱幅度以及混合语音频谱相位计算得到多个目标语音频谱相位估计值的步骤,具体为,
a)多个目标语音理想幅度掩蔽估计值分别和混合语音信号的频谱合成,得到多个中介信号估计值的初始频谱:
Figure BDA0001931189490000031
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,
Figure BDA0001931189490000032
为第j个目标语音理想幅度掩蔽估计值,
Figure BDA0001931189490000033
为混合语音信号的频谱;
b)对各中介信号估计值的初始频谱进行逆傅里叶变换,得到多个中介信号估计值
Figure BDA0001931189490000034
c)计算混合语音信号与多个中介信号估计值之和的误差:
Figure BDA0001931189490000035
其中,y为混合语音信号,J为混合语音中所含目标语音的个数;
d)将误差平均分配到各中介信号估计值形成误差补偿后的中介信号估计值
Figure BDA0001931189490000036
e)对误差补偿后的中介信号估计值进行傅里叶变换得到误差补偿后的中介信号估计值的频谱,其中包含目标语音频谱相位估计值:
Figure BDA0001931189490000037
其中,STFT[]为傅里叶变换,∠为取相位操作;
f)利用多个目标语音理想幅度掩蔽估计值及其对应的目标语音频谱相位估计值,分别和混合语音频谱幅度合成,得到多个中介信号估计值的频谱
Figure BDA0001931189490000041
Figure BDA0001931189490000042
替换步骤b)中的
Figure BDA0001931189490000043
进行逆傅里叶变换得到新的中介信号估计值
Figure BDA0001931189490000044
并至少两次重复步骤c)-步骤f),将最后一次重复过程中的
Figure BDA0001931189490000045
作为目标语音频谱相位估计值。
优选的,目标语音理想相敏掩蔽理论值为:
Figure BDA0001931189490000046
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,|Xj(k,l)|为第j个目标语音频谱幅度理论值,|Y(k,l)|为混合语音频谱幅度,θj为第j个目标语音频谱相位理论值,
Figure BDA0001931189490000047
为第j个目标语音频谱相位估计值。
优选的,使用多个目标语音理想相敏掩蔽理论值分别对第二神经网络进行训练的步骤,具体为,
将混合语音频谱幅度输入未训练的第二神经网络,通过第二神经网络输出各目标语音理想相敏掩蔽估计值,目标语音理想相敏掩蔽估计值和目标语音理想相敏掩蔽理论值进行均方误差迭代,进而最小化均方误差,以此对第二神经网络进行训练,使第二神经网络输出目标语音理想相敏掩蔽理论值逼近于目标语音理想相敏掩蔽的理论值。
优选的,目标语音频谱幅度估计值为:
Figure BDA0001931189490000049
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,
Figure BDA0001931189490000048
为第j个目标语音理想相敏掩蔽估计值,|Y(k,l)|为混合语音频谱幅度。
本发明的优点在于:不仅对目标信号的频谱幅度进行了估计,同时还对目标信号的频谱相位进行估计,并且提出分别估计目标的理想幅度掩蔽和相敏掩蔽用于目标信号的相位估计和幅度恢复,以使幅度和相位估计的效果最优。用理想幅度掩蔽恢复相位比其它掩蔽效果更优;用相敏掩蔽估计幅度可对相位估计的误差进行补偿,在信号相位确定的情况下用相敏掩蔽估计幅度比其它掩蔽更优。同时进行频谱幅度估计和频谱相位估计比只估计频谱幅度效果更优。
附图说明
为了更清楚说明本发明实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种基于深度学习的多人语音分离方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为一种基于深度学习的多人语音分离方法流程图。如图1所示,包括步骤:
步骤S101:将传声器接收的含有多个目标语音信号的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音信号的频谱,混合语音信号的频谱包括混合语音频谱幅度和混合语音频谱相位。
在一个具体实施例中,取每32ms采样点为一帧信号,其中,若采样率8kHz时对应256个采样点,若采样频率为16kHz时对应为512个采样点,若长度不足32ms则先将采样点补零到256或512个;然后对每一帧信号进行加窗,加窗函数采用汉明窗或汉宁窗。
步骤S102:使用多个目标语音频谱幅度理论值分别和混合语音频谱幅度计算得到多个目标语音理想幅度掩蔽理论值
Figure BDA0001931189490000061
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,|Xj(k,l)|为第j个目标语音频谱幅度理论值,|Y(k,l)|为混合语音频谱幅度。
使用多个目标语音理想幅度掩蔽理论值分别对第一神经网络进行训练。
在一个具体实施例中,将混合语音频谱幅度输入未训练的第一神经网络,通过第一神经网络输出各目标语音理想幅度掩蔽估计值,目标语音理想幅度掩蔽估计值和目标语音理想幅度掩蔽理论值进行均方误差迭代,进而最小化均方误差,以此对第一神经网络进行训练,使第一神经网络输出目标语音理想幅度掩蔽理论值逼近于目标语音理想幅度掩蔽的理论值。
步骤S103:基于训练后的第一神经网络,输入混合语音频谱幅度得到多个目标语音理想幅度掩蔽估计值。
步骤S104:使用多个目标语音理想幅度掩蔽估计值分别和混合语音频谱幅度以及混合语音频谱相位计算得到多个目标语音频谱相位估计值。
在一个具体实施例中,包括:
步骤a)多个目标语音理想幅度掩蔽估计值分别和混合语音信号的频谱合成,得到多个中介信号估计值的初始频谱:
Figure BDA0001931189490000071
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,
Figure BDA0001931189490000072
为第j个目标语音理想幅度掩蔽估计值,
Figure BDA0001931189490000073
为混合语音信号的频谱;
步骤b)对各中介信号估计值的初始频谱进行逆傅里叶变换,得到多个中介信号估计值
Figure BDA0001931189490000074
步骤c)计算混合语音信号与多个中介信号估计值之和的误差:
Figure BDA0001931189490000075
其中,y为混合语音信号,J为混合语音中所含目标语音的个数;
步骤d)将误差平均分配到各中介信号估计值形成误差补偿后的中介信号估计值
Figure BDA0001931189490000076
步骤e)对误差补偿后的中介信号估计值进行傅里叶变换得到误差补偿后的中介信号估计值的频谱,其中包含目标语音频谱相位估计值:
Figure BDA0001931189490000077
其中,STFT[]为傅里叶变换,∠为取相位操作;
步骤f)利用多个目标语音理想幅度掩蔽估计值及其对应的目标语音频谱相位估计值,分别和混合语音频谱幅度合成,得到多个中介信号估计值的频谱
Figure BDA0001931189490000078
Figure BDA0001931189490000079
替换步骤b)中的
Figure BDA00019311894900000710
进行逆傅里叶变换得到新的中介信号估计值
Figure BDA0001931189490000081
并至少两次重复步骤c)-步骤f),将最后一次重复过程中的
Figure BDA0001931189490000082
作为目标语音频谱相位估计值。
步骤S105:使用多个目标语音频谱相位估计值及其对应的目标语音频谱相位理论值、目标语音频谱幅度理论值分别和混合语音频谱幅度计算得到多个目标语音理想相敏掩蔽理论值
Figure BDA0001931189490000083
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,|Xj(k,l)|为第j个目标语音频谱幅度理论值,|Y(k,l)|为混合语音频谱幅度,θj为第j个目标语音频谱相位理论值,
Figure BDA0001931189490000084
为第j个目标语音频谱相位估计值。
使用多个目标语音理想相敏掩蔽理论值分别对第二神经网络进行训练。
在一个具体实施例中,将混合语音频谱幅度输入未训练的第二神经网络,通过第二神经网络输出各目标语音理想相敏掩蔽估计值,目标语音理想相敏掩蔽估计值和目标语音理想相敏掩蔽理论值进行均方误差迭代,进而最小化均方误差,以此对第二神经网络进行训练,使第二神经网络输出目标语音理想相敏掩蔽理论值逼近于目标语音理想相敏掩蔽的理论值。
步骤S106:基于所训练后的第二神经网络,输入混合语音频谱幅度得到多个目标语音理想相敏掩蔽估计值;
步骤S107:使用多个目标语音理想相敏掩蔽估计值分别和混合语音频谱幅度计算得到多个目标语音频谱幅度估计值
Figure BDA0001931189490000085
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,
Figure BDA0001931189490000091
为第j个目标语音理想相敏掩蔽估计值,|Y(k,l)|为混合语音频谱幅度。
步骤S108:利用多个目标语音频谱幅度估计值及对应的多个目标语音频谱相位估计值进行重构形成目标语音信号的频谱,对目标语音信号的频谱进行逆傅里叶变换,得到多个目标语音信号。
本发明提供了一种基于深度学习的多人语音分离方法。不仅对目标信号的频谱幅度进行了估计,同时还对目标信号的频谱相位进行估计,并且提出分别估计目标的理想幅度掩蔽和相敏掩蔽用于目标信号的相位估计和幅度恢复,以使幅度和相位估计的效果最优。用理想幅度掩蔽恢复相位比其它掩蔽效果更优;用相敏掩蔽估计幅度可对相位估计的误差进行补偿,在信号相位确定的情况下用相敏掩蔽估计幅度比其它掩蔽更优。同时进行频谱幅度估计和频谱相位估计比只估计频谱幅度效果更优。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度学习的多人语音分离方法,其特征在于,包括步骤:
将传声器接收的含有多个目标语音信号的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音信号的频谱,所述混合语音信号的频谱包括混合语音频谱幅度和混合语音频谱相位;
使用多个目标语音频谱幅度理论值分别和所述混合语音频谱幅度计算得到多个目标语音理想幅度掩蔽理论值,使用所述多个目标语音理想幅度掩蔽理论值分别对第一神经网络进行训练;
基于训练后的所述第一神经网络,输入所述混合语音频谱幅度得到多个目标语音理想幅度掩蔽估计值;
使用多个目标语音理想幅度掩蔽估计值分别和所述混合语音频谱幅度以及混合语音频谱相位计算得到多个目标语音频谱相位估计值;
使用多个目标语音频谱相位估计值及其对应的目标语音频谱相位理论值、目标语音频谱幅度理论值分别和所述混合语音频谱幅度计算得到多个目标语音理想相敏掩蔽理论值,使用所述多个目标语音理想相敏掩蔽理论值分别对第二神经网络进行训练;
基于所训练后的所述第二神经网络,输入所述混合语音频谱幅度得到多个目标语音理想相敏掩蔽估计值;
使用多个目标语音理想相敏掩蔽估计值分别和所述混合语音频谱幅度计算得到多个目标语音频谱幅度估计值;
利用所述多个目标语音频谱幅度估计值及对应的多个目标语音频谱相位估计值进行重构形成目标语音信号的频谱,对所述目标语音信号的频谱进行逆傅里叶变换,得到多个目标语音信号。
2.根据权利要求1所述的分离方法,其特征在于,所述将传声器接收的含有多个目标语音信号的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音信号的频谱的步骤,具体为,
取每32ms采样点为一帧信号,其中,若采样率8kHz时对应256个采样点,若采样频率为16kHz时对应为512个采样点,若长度不足32ms则先将采样点补零到256或512个;然后对每一帧信号进行加窗,所述加窗使用的函数采用汉明窗或汉宁窗。
3.根据权利要求1所述的分离方法,其特征在于,所述目标语音理想幅度掩蔽理论值为:
Figure FDA0002659491020000021
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,|Xj(k,l)|为第j个目标语音频谱幅度理论值,|Y(k,l)|为混合语音频谱幅度。
4.根据权利要求1所述的分离方法,其特征在于,所述使用所述多个目标语音理想幅度掩蔽理论值分别对第一神经网络进行训练的步骤,具体为,
将所述混合语音频谱幅度输入未训练的第一神经网络,通过所述第一神经网络输出各目标语音理想幅度掩蔽估计值,所述目标语音理想幅度掩蔽估计值和目标语音理想幅度掩蔽理论值进行均方误差迭代,进而最小化均方误差,以此对第一神经网络进行训练,使第一神经网络输出目标语音理想幅度掩蔽理论值逼近于目标语音理想幅度掩蔽的理论值。
5.根据权利要求1所述的分离方法,其特征在于,所述使用多个目标语音理想幅度掩蔽估计值分别和所述混合语音频谱幅度以及混合语音频谱相位计算得到多个目标语音频谱相位估计值的步骤,具体为,
a)所述多个目标语音理想幅度掩蔽估计值分别和所述混合语音信号的频谱合成,得到多个中介信号估计值的初始频谱:
Figure FDA0002659491020000031
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,
Figure FDA0002659491020000032
为第j个目标语音理想幅度掩蔽估计值,
Figure FDA0002659491020000033
为混合语音信号的频谱;
b)对各中介信号估计值的初始频谱进行逆傅里叶变换,得到多个中介信号估计值
Figure FDA0002659491020000034
c)计算混合语音信号与所述多个中介信号估计值之和的误差:
Figure FDA0002659491020000035
其中,y为混合语音信号,J为混合语音中所含目标语音的个数;
d)将所述误差平均分配到各中介信号估计值形成误差补偿后的中介信号估计值
Figure FDA0002659491020000036
e)对所述误差补偿后的中介信号估计值进行傅里叶变换得到误差补偿后的中介信号估计值的频谱,其中包含目标语音频谱相位估计值:
Figure FDA0002659491020000037
其中,STFT[]为傅里叶变换,∠为取相位操作;
f)利用所述多个目标语音理想幅度掩蔽估计值及其对应的目标语音频谱相位估计值,分别和所述混合语音频谱幅度合成,得到多个中介信号估计值的频谱
Figure FDA0002659491020000038
Figure FDA0002659491020000039
替换步骤b)中的
Figure FDA00026594910200000310
进行逆傅里叶变换得到新的中介信号估计值
Figure FDA00026594910200000311
并至少两次重复步骤c)-步骤f),将最后一次重复过程中的
Figure FDA00026594910200000312
作为目标语音频谱相位估计值。
6.根据权利要求1所述的分离方法,其特征在于,所述目标语音理想相敏掩蔽理论值为:
Figure FDA0002659491020000041
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,|Xj(k,l)|为第j个目标语音频谱幅度理论值,|Y(k,l)|为混合语音频谱幅度,θj为第j个目标语音频谱相位理论值,
Figure FDA0002659491020000042
为第j个目标语音频谱相位估计值。
7.根据权利要求1所述的分离方法,其特征在于,所述使用所述多个目标语音理想相敏掩蔽理论值分别对第二神经网络进行训练的步骤,具体为,
将所述混合语音频谱幅度输入未训练的第二神经网络,通过所述第二神经网络输出各目标语音理想相敏掩蔽估计值,所述目标语音理想相敏掩蔽估计值和目标语音理想相敏掩蔽理论值进行均方误差迭代,进而最小化均方误差,以此对第二神经网络进行训练,使第二神经网络输出目标语音理想相敏掩蔽理论值逼近于目标语音理想相敏掩蔽的理论值。
8.根据权利要求1所述的分离方法,其特征在于,所述目标语音频谱幅度估计值为:
Figure FDA0002659491020000043
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,
Figure FDA0002659491020000044
为第j个目标语音理想相敏掩蔽估计值,|Y(k,l)|为混合语音频谱幅度。
CN201811641471.5A 2018-12-29 2018-12-29 一种基于深度学习的多人语音分离方法 Active CN109584903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811641471.5A CN109584903B (zh) 2018-12-29 2018-12-29 一种基于深度学习的多人语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811641471.5A CN109584903B (zh) 2018-12-29 2018-12-29 一种基于深度学习的多人语音分离方法

Publications (2)

Publication Number Publication Date
CN109584903A CN109584903A (zh) 2019-04-05
CN109584903B true CN109584903B (zh) 2021-02-12

Family

ID=65932678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811641471.5A Active CN109584903B (zh) 2018-12-29 2018-12-29 一种基于深度学习的多人语音分离方法

Country Status (1)

Country Link
CN (1) CN109584903B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459238B (zh) * 2019-04-12 2020-11-20 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN110148419A (zh) * 2019-04-25 2019-08-20 南京邮电大学 基于深度学习的语音分离方法
CN110335622B (zh) * 2019-06-13 2024-03-01 平安科技(深圳)有限公司 音频单音色分离方法、装置、计算机设备及存储介质
CN110444223B (zh) * 2019-06-26 2023-05-23 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN112331181A (zh) * 2019-07-30 2021-02-05 中国科学院声学研究所 一种基于多说话人条件下目标说话人语音提取方法
CN110459240B (zh) * 2019-08-12 2021-01-12 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN110491412B (zh) * 2019-08-23 2022-02-25 北京市商汤科技开发有限公司 声音分离方法和装置、电子设备
CN110970053B (zh) * 2019-12-04 2022-03-15 西北工业大学深圳研究院 一种基于深度聚类的多通道与说话人无关语音分离方法
CN111128230B (zh) * 2019-12-31 2022-03-04 广州市百果园信息技术有限公司 语音信号重建方法、装置、设备和存储介质
CN111028858B (zh) * 2019-12-31 2022-02-18 云知声智能科技股份有限公司 一种人声起止时间检测方法及装置
CN111710349B (zh) * 2020-06-23 2023-07-04 长沙理工大学 一种语音情感识别方法、系统、计算机设备和存储介质
CN112331218B (zh) * 2020-09-29 2023-05-05 北京清微智能科技有限公司 一种针对多说话人的单通道语音分离方法和装置
CN113299302A (zh) * 2021-04-22 2021-08-24 维沃移动通信(杭州)有限公司 音频降噪方法、装置及电子设备
CN113707172B (zh) * 2021-06-02 2024-02-09 西安电子科技大学 稀疏正交网络的单通道语音分离方法、系统、计算机设备
CN115731941A (zh) * 2021-08-27 2023-03-03 脸萌有限公司 音频信号的分离方法、装置、设备、存储介质及程序

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325381B (zh) * 2013-05-29 2015-09-02 吉林大学 一种基于模糊隶属函数的语音分离方法
CN105096961B (zh) * 2014-05-06 2019-02-01 华为技术有限公司 语音分离方法和装置
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
CN106847301A (zh) * 2017-01-03 2017-06-13 东南大学 一种基于压缩感知和空间方位信息的双耳语音分离方法
CN109036460B (zh) * 2018-08-28 2020-01-07 百度在线网络技术(北京)有限公司 基于多模型神经网络的语音处理方法和装置

Also Published As

Publication number Publication date
CN109584903A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109584903B (zh) 一种基于深度学习的多人语音分离方法
Qian et al. Very deep convolutional neural networks for noise robust speech recognition
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
CN111899756B (zh) 一种单通道语音分离方法和装置
CN104134444B (zh) 一种基于mmse的歌曲去伴奏方法和装置
CN109448751B (zh) 一种基于深度学习的双耳语音增强方法
CN107346664A (zh) 一种基于临界频带的双耳语音分离方法
CN111243617B (zh) 一种基于深度学习降低mfcc特征失真的语音增强方法
CN112331218B (zh) 一种针对多说话人的单通道语音分离方法和装置
Chen et al. Improving Mask Learning Based Speech Enhancement System with Restoration Layers and Residual Connection.
Lv et al. A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation
JP6253226B2 (ja) 音源分離装置
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
Zwyssig et al. Recognition of overlapping speech using digital MEMS microphone arrays
Gallardo et al. I-vector speaker verification for speech degraded by narrowband and wideband channels
CN111312275A (zh) 一种基于子带分解的在线声源分离增强系统
Nian et al. A time domain progressive learning approach with snr constriction for single-channel speech enhancement and recognition
CN112185405B (zh) 一种基于差分运算和联合字典学习的骨导语音增强方法
Tu et al. LSTM-based iterative mask estimation and post-processing for multi-channel speech enhancement
JP7315087B2 (ja) 信号処理装置、信号処理方法、および、信号処理プログラム
KR101658001B1 (ko) 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
CN114613384B (zh) 一种基于深度学习多输入语音信号波束形成信息互补方法
Zhang et al. On monoaural speech enhancement for automatic recognition of real noisy speech using mixture invariant training
CN111968627B (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
Liu et al. Robust speech enhancement techniques for ASR in non-stationary noise and dynamic environments.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant