CN110634502B - 基于深度神经网络的单通道语音分离算法 - Google Patents
基于深度神经网络的单通道语音分离算法 Download PDFInfo
- Publication number
- CN110634502B CN110634502B CN201910840498.5A CN201910840498A CN110634502B CN 110634502 B CN110634502 B CN 110634502B CN 201910840498 A CN201910840498 A CN 201910840498A CN 110634502 B CN110634502 B CN 110634502B
- Authority
- CN
- China
- Prior art keywords
- neural network
- deep neural
- voice
- training
- separation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 69
- 238000000926 separation method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000003062 neural network model Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims description 30
- 238000007667 floating Methods 0.000 claims description 10
- 238000011478 gradient descent method Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 28
- 238000002474 experimental method Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 208000003098 Ganglion Cysts Diseases 0.000 description 1
- 208000005400 Synovial Cyst Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000000574 ganglionic effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明提供了一种基于深度神经网络的单通道语音分离算法,主要包括以下步骤:对训练语音样本进行预处理,并提取其特征信息;使用损失函数对深度神经网络进行训练,以获得深度神经网络模型;将待测试语音样本进行预处理,提取其特征信息,并通过训练后的深度神经网络模型进行语音分离,再通过语音重构得到分离结果。本发明利用输入输出之间的非线性关系来训练深度神经网络,与传统基于单输出深度神经网络的分离方法相比,它充分挖掘了输出之间的联合关系,且分离效率较高,一次可分离两个源语音信号,有效地降低了语音的失真率,同时提高了分离语音的可懂性。
Description
技术领域
本发明涉及一种基于深度神经网络的单通道语音分离算法,属于语音分离领域。
背景技术
单通道语音分离(Single channel speech separation,SCSS)是从一维混合语音中恢复出多个语音的过程。单通道语音分离技术被广泛应用于语音增强,语音识别的预处理,助听器或智能家居等领域。在这些领域中,通常传感器接收的是来自一个麦克风的混合语音,人耳可以很容易从这种混合语音中获取有用信息,而对于计算机而言,准确得到所需语音比较困难。因此,准确而高效地得到目的语音有着非常重要的实用意义。
深度神经网络(Deep neural network,DNN)具有强大的数据挖掘能力,在语音分离领域,它主要用于模拟输入特征与输出目标之间的非线性关系。基于DNN的语音分离方法包括特征提取和DNN训练两部分。用于分离的语音特征主要包括梅尔倒谱系数(Mel-frequency cepstral coefficient,MFCC)、幅度谱(Amplitude modulation spectrogram,AMS)、傅里叶幅度谱和傅里叶对数谱等,其中较为常用的是幅度谱以及傅里叶幅度谱,常用的输出目标有语音的幅度谱和理想浮值掩蔽(Ideal ratio mask,IRM)。而深度神经网络的训练作为语音分离过程中至关重要的部分,其网络准确性很大程度地影响着语音分离的质量。根据输出数目的不同,DNN可以分为单输出DNN和多输出DNN。使用单输出DNN对混合语音进行分离时,每次仅能分离出一个语音,使用该方法分离多个语音时,耗时较长;传统基于多输出深度神经网络的方法可以同时分离多个语音,但是也由于这个原因,多输出DNN所映射的输出不如单输出DNN具有针对性,分离效果相对于单输出的DNN较差。以上两个深度神经网络均需要通过损失函数来训练,传统基于双输出DNN所使用的基本损失函数仅仅用于映射输入输出之间的关系,但忽略了输出之间的联合关系,而这种联合关系对最终的语音分离性能有很大的影响。
有鉴于此,确有必要提出一种基于深度神经网络的单通道语音分离算法,以解决上述问题。
发明内容
本发明的目的在于提供一种基于深度神经网络的单通道语音分离算法,与传统基于单输出DNN的分离方法相比,它充分挖掘了输出之间的联合关系,且分离效率较高,一次可分离两个源语音信号,有效地降低了语音的失真率,同时提高了分离语音的可懂性。
为实现上述目的,本发明提供了一种基于深度神经网络的单通道语音分离算法,主要包括以下步骤:
步骤1:对训练语音样本进行预处理,并提取其特征信息;
步骤2:使用损失函数对深度神经网络进行训练,以获得深度神经网络模型;
步骤3:将待测试语音样本进行预处理,提取其特征信息,并通过训练后的深度神经网络模型进行语音分离,再通过语音重构得到分离结果。
可选的,步骤1具体包括:
步骤11:对训练语音样本的时域信号在25kHz下采样,加窗分帧,得到T帧分帧后的语音信号;
步骤12:对分帧后的语音信号进行短时傅里叶变换,得到混合语音信号和干净语音信号的幅度谱、相位谱及幅度最大值;
步骤13:对混合语音信号和干净语音信号的幅度谱进行归一化,并计算理想浮值掩蔽,将归一化后的混合语音信号的幅度谱作为深度神经网络的输入,理想浮值掩蔽作为深度神经网络的训练目标。
可选的,步骤2具体包括:
步骤21:对深度神经网络参数进行随机初始化;
步骤22:根据步骤21初始化后的参数,使用玻尔兹曼机对深度神经网络进行无监督的预训练;
步骤23:预训练完成后,对深度神经网络进行微调,即使用损失函数通过梯度下降法来反向传播更新权重和偏置,以获得深度神经网络模型。
可选的,所述步骤23中包括前向传播阶段和反向传播阶段。
可选的,前向传播阶段包括:
对网络神经元节点之间的权重和偏置进行初始化;
深度神经网络进行前向传播。
可选的,深度神经网络的前向传播过程中,使用激活函数增加网络之间的非线性关系,最后生成输入输出之间的非线性映射。
可选的,反向传播阶段包括:
计算深度神经网络的损失函数;
通过梯度下降法更新深度神经网络的参数。
可选的,损失函数为:
可选的,通过梯度下降法更新深度神经网络的参数的具体步骤包括:
a、构建双输出深度神经网络,该双输出深度神经网络包括:输入层、输出层和三个隐藏层;
b、计算输出层损失函数的梯度;
c、计算深度神经网络层数l=L-1,L-2,…,2时每一层所对应的梯度;
d、更新权重和偏置。
可选的,步骤3中的语音重构步骤为:将待测试语音样本的幅度谱输入到训练后的深度神经网络模型,得到估计的训练目标将训练目标与待测试语音样本的幅度谱相乘,然后与相位谱结合经由短时傅里叶变换、恢复帧重叠后得到分离结果。
本发明的有益效果是:本发明利用输入输出之间的非线性关系来训练DNN,与传统基于单输出DNN的分离方法相比,它充分挖掘了输出之间的联合关系,且分离效率较高,一次可分离两个源语音信号,有效地降低了语音的失真率,同时提高了分离语音的可懂性。
附图说明
图1是本发明基于深度神经网络的单通道语音分离算法示意图。
图2是本发明双输出深度神经网络的基本结构图。
图3是图1中语音重构步骤的示意图。
图4是本发明在不同批量下的平均语音分离性能。
图5是本发明在不同隐藏层节点数下的平均语音分离性能。
图6是本发明与基本损失函数关于信号失真比(SDR)性能的对比结果图。
图7是本发明与基本损失函数关于人造干扰成分比(SAR)性能的对比结果图。
图8是本发明与基本损失函数关于信号干扰比(SIR)性能的对比结果图。
图9是本发明与基本损失函数关于主观语音质量评估(PESQ)性能的对比结果图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,本发明提供了一种基于深度神经网络的单通道语音分离算法,主要包括以下步骤:
步骤1:对训练语音样本进行预处理,并提取其特征信息;
步骤2:使用损失函数对深度神经网络进行训练,以获得深度神经网络模型;
步骤3:将待测试语音样本进行预处理,提取其特征信息,并通过训练后的深度神经网络模型进行语音分离,再通过语音重构得到分离结果。
以下将对步骤1-步骤3进行详细说明。
其中,步骤1具体包括:
步骤11:对训练语音样本的时域信号进行25kHz下采样,加窗分帧,分帧后得到T帧语音信号;
步骤12:对第t帧混合信号y(t),以及第i个源信号xi(t),(i=1,2)进行短时傅里叶变换,得到混合语音信号、干净语音信号的幅度谱Y(t,f)、Xi(t,f)(i=1,2)、相位谱及幅度最大值;
步骤13:对混合语音信号和干净语音信号的幅度谱进行归一化,并计算理想浮值掩蔽,将归一化后的混合语音信号的幅度谱作为深度神经网络的输入,理想浮值掩蔽作为深度神经网络的训练目标。
步骤2具体包括:
步骤21:对深度神经网络参数进行随机初始化;
步骤22:根据步骤21初始化后的参数,使用玻尔兹曼机对深度神经网络进行无监督的预训练;
步骤23:预训练完成后,对深度神经网络进行微调,即使用损失函数通过梯度下降法来反向传播更新权重和偏置,以获得深度神经网络模型。
如图2所示,步骤23中包括前向传播阶段和反向传播阶段。
前向传播阶段包括:对网络神经元节点之间的权重和偏置进行初始化;深度神经网络进行前向传播。深度神经网络的前向传播的过程中,使用激活函数增加网络之间的非线性关系,最后生成输入输出之间的非线性映射。
具体来说,前向传播是从输入层逐层向上计算每一层的状态和激活值,直至输出层。第l层的状态表示如下:
其中,Wi和b分别是第l层初始化的权重和偏置,sl是第l层网络的神经节点数,xi是DNN的输入,z为第i层的输出。同时,在每层的输出使用激活函数σ(z)并将其作为输入馈送到下一个层:
σ(Z)=1/(1+ez)
激活函数用于生成输入输出之间的非线性映射。此处的z、1、ez均为向量。
反向传播阶段包括:计算深度神经网络的损失函数;通过梯度下降法更新深度神经网络的参数。
具体来说,神经网络的反向传播根据损失函数从DNN的最后一层逐层向下计算误差,并通过梯度下降法更新参数。
损失函数为:
其中,Mit和分别是在t帧时,第i个源的理想浮值掩蔽向量(Ideal ratiomask,IRM)和估计浮值掩蔽(Ratio mask,RM)向量。损失函数的前两项用来惩罚输入特征和输出目标之间的预测误差,第三项用于挖掘输出之间的联合关系。
Mit作为训练目标,定义为:
其中,Xit是第i个源的幅度谱向量,为了防止分母等于0,ε向量中的每一个元素设为同一个极小值,是第i个源对应的输出,即在t帧时,M1t+M2t=1,因此若估计值足够准确,中的每个元素也应当趋近于1,即双输出之间的对应节点之和趋近1。通过利用这种联合关系,可以有效提高分离信号的可懂性。
通过梯度下降法更新深度神经网络的参数的具体步骤包括:
a、构建双输出深度神经网络,该双输出深度神经网络包括:输入层、输出层和三个隐藏层;在t帧时,根据神经网络的节点数,损失函数可具体化为:
其中,W和b分别是权重和偏置向量,M1:512和M513:1024分别是第一个和第二个源的IRM,和则为对应的估计值。这是因为双输出DNN的神经节点数设为1024,前512个节点设为信号源1的输出,后512个节点设为信号源2的输出。
b、计算输出层损失函数的梯度;对于第L层(输出层)的每个输出单元i,我们根据以下公式计算梯度:
c、计算深度神经网络层数l=L-1,L-2,…,2时每一层所对应的梯度;当神经网络层数l=L-1,L-2,…,2时,每一层所对应的梯度可表示为:
用l-1代替l,以上公式可以表示为:
d、更新权重和偏置;得到残差后,权重和偏置的导数可以通过以下公式进行计算:
最后,参数可以根据以下公式更新:
其中,α是学习率。
如图3所示,步骤3中的语音重构步骤具体为:将待测试语音样本的幅度谱输入到训练后的深度神经网络模型,得到估计的训练目标将估计的训练目标与待测试语音样本的幅度谱相乘,然后与相位谱结合经由短时傅里叶变换、恢复帧重叠后得到分离结果。
本发明提出的基于深度神经网络的单通道语音分离算法,分离效率较高,一次可分离两个源语音信号,可有效降低语音的失真率。以下将以一具体的测试实验进行举例说明。
测试中采用的语料库取自于GRID语料库,该语料库包含18个男性和16个女性说话人,其中每个说话人语音条数有1000条,平均每条语音长度1秒左右。另外,语音的采样率为25kHz,分帧的窗口长度为1024,帧移为512。实验环境为Windows10下的64位操作系统,8G内存。本实验从语料库中随机抽取两个男性说话人和两个女性说话人。因此,有三种不同的性别对,分别是男性-男性混合语音、男性-女性混合语音和女性-女性混合语音。随机抽取每个人的500条语音用来训练DNN,剩下的500条语音中随机抽取50条用于测试。
深度神经网络的参数设置如下:DNN的输入层的节点个数为512,三个隐藏层以及输出层的神经节点均为1024。在RBM预训练阶段,批量大小设置为128,迭代次数为20,学习率为0.001。在有监督的微调阶段,批量大小为128,前10次迭代的学习率设为0.1,之后的40次迭代学习率每次迭代降低10%。同时,隐藏层的dropout设为0.2。
如图4和图5所示,为了寻找深度神经网络的最佳参数,分别将批量设置为50、100、128、160、200进行对比实验,实验结果记录在图4中;分别将DNN隐藏层节点个数设为256、512、1024、2048、4096进行对比实验,实验结果记录在图5中。将图4和图5进行对比可知:当批量设为128、隐藏层设为1024时,分离的语音性能较好。
如图6至图9所示,为了验证本发明提出的损失函数的有效性,本实验与传统的损失函数进行对比实验,实验结果记录在图6-图9中,其中M1和M2为男性,F1和F2为女性,从图中可以看出,本发明在分离女性-女性混合语音时,信号失真比(SDR)、人造干扰成分比(SAR)、信号干扰比(SIR)以及主观语音质量评估(PESQ)分别比传统的损失函数高了0.77dB、0.69dB、0.51dB以及0.46;在分离男性-男性混合语音时,SDR,SAR,SIR和PESQ分别提升了1.72dB、1.42dB、0.86dB和0.4;在分离男性-女性混合语音时,SDR,SAR,SIR最高分别提升了2.18dB、2.05dB、2.54dB。从分离结果来看,相同性别的分离效果提升较少,这是由于同性别间的频谱较为相似,分离起来较为困难。
同时,本发明还比较了损失函数与其他算法的性能,对比结果如下表1所示。
表1不同算法所得的性能比较
其中,single和dual分别表示单输出的DNN和双输出的DNN。单输出DNN除了输出的数量以及损失函数与双输出DNN不同,其他参数设置与双输出DNN相同。
从表1中可以看出,以IRM为目标的DNN的分离性能优于以AMS为目标的DNN。这是因为基于AMS的方法在低频时的性能较好,但在中频和高频中丢失了一些细节,而这些细节对语音清晰度和语音质量有很大的影响,同时,单输出DNN的性能优于双输出。在分离女性-女性混合语音时,以AMS为训练目标的双输出的DNN比单输出DNN在SAR和SIR方面分别下降了1.64dB和2.26dB;在男性-女性语音混合的情况下,SDR下降了1.09dB。
这种性能的衰减也存在于以IRM为训练目标的DNN中,就男性-女性混合语音的分离而言,双输出DNN相比于单输出DNN在SAR和SIR方面分别降低了1.64dB和1.81dB,并且在男性-男性混合语音分离时,SDR降低了1.86dB。这是因为,单输出DNN是针对特定信号而训练的,所训练的DNN参数更适合于目标信号,因此分离性能较好。也因为这种特性,单输出的DNN每次仅能分离一个语音,耗时是双输出DNN的两倍。本发明所提出的算法,在分离两个信号的同时又能够提高语音的分离性能,特别是在分离女性-女性混合信号中,所得的分离结果与单输出DNN分离的结果几乎相同。
综上所述,本发明利用输入输出之间的非线性关系来训练DNN,与传统基于单输出DNN的分离方法相比,它充分挖掘了输出之间的联合关系,且分离效率较高,一次可分离两个源语音信号,有效地降低了语音的失真率,同时提高了分离语音的可懂性,在实际应用和理论研究领域都具有很好的借鉴意义。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (8)
1.一种基于深度神经网络的单通道语音分离算法,其特征在于,主要包括以下步骤:
步骤1:对训练语音样本进行预处理,并提取其特征信息;
步骤2:使用损失函数对深度神经网络进行训练,以获得深度神经网络模型;
步骤3:将待测试语音样本进行预处理,提取其特征信息,并通过训练后的深度神经网络模型进行语音分离,再通过语音重构得到分离结果;
其中,步骤2具体包括:
步骤21:对深度神经网络参数进行随机初始化;
步骤22:根据步骤21初始化后的参数,使用玻尔兹曼机对深度神经网络进行无监督的预训练;
步骤23:预训练完成后,对深度神经网络进行微调,即使用损失函数通过梯度下降法来反向传播更新权重和偏置,以获得深度神经网络模型;
所述损失函数为:
2.根据权利要求1所述的基于深度神经网络的单通道语音分离算法,其特征在于,步骤1具体包括:
步骤11:对训练语音样本的时域信号在25kHz下采样,加窗分帧,得到T帧分帧后的语音信号;
步骤12:对分帧后的语音信号进行短时傅里叶变换,得到混合语音信号和干净语音信号的幅度谱、相位谱及幅度最大值;
步骤13:对混合语音信号和干净语音信号的幅度谱进行归一化,并计算理想浮值掩蔽,将归一化后的混合语音信号的幅度谱作为深度神经网络的输入,理想浮值掩蔽作为深度神经网络的训练目标。
3.根据权利要求1所述的基于深度神经网络的单通道语音分离算法,其特征在于:所述步骤23中包括前向传播阶段和反向传播阶段。
4.根据权利要求3所述的基于深度神经网络的单通道语音分离算法,其特征在于,前向传播阶段包括:
对网络神经元节点之间的权重和偏置进行初始化;
深度神经网络进行前向传播。
5.根据权利要求4所述的基于深度神经网络的单通道语音分离算法,其特征在于:深度神经网络的前向传播过程中,使用激活函数增加网络之间的非线性关系,最后生成输入输出之间的非线性映射。
6.根据权利要求3所述的基于深度神经网络的单通道语音分离算法,其特征在于,反向传播阶段包括:
计算深度神经网络的损失函数;
通过梯度下降法更新深度神经网络的参数。
7.根据权利要求6所述的基于深度神经网络的单通道语音分离算法,其特征在于,通过梯度下降法更新深度神经网络的参数的具体步骤包括:
a、构建双输出深度神经网络,该双输出深度神经网络包括:输入层、输出层和三个隐藏层;
b、计算输出层损失函数的梯度;
c、计算深度神经网络层数l=L-1,L-2,…,2时每一层所对应的梯度;
d、更新权重和偏置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910840498.5A CN110634502B (zh) | 2019-09-06 | 2019-09-06 | 基于深度神经网络的单通道语音分离算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910840498.5A CN110634502B (zh) | 2019-09-06 | 2019-09-06 | 基于深度神经网络的单通道语音分离算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110634502A CN110634502A (zh) | 2019-12-31 |
CN110634502B true CN110634502B (zh) | 2022-02-11 |
Family
ID=68971007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910840498.5A Active CN110634502B (zh) | 2019-09-06 | 2019-09-06 | 基于深度神经网络的单通道语音分离算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110634502B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243620B (zh) | 2020-01-07 | 2022-07-19 | 腾讯科技(深圳)有限公司 | 语音分离模型训练方法、装置、存储介质和计算机设备 |
CN111312270B (zh) * | 2020-02-10 | 2022-11-22 | 腾讯科技(深圳)有限公司 | 语音增强方法及装置、电子设备和计算机可读存储介质 |
CN111341341B (zh) * | 2020-02-11 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 音频分离网络的训练方法、音频分离方法、装置及介质 |
CN111429938B (zh) * | 2020-03-06 | 2022-09-13 | 江苏大学 | 一种单通道语音分离方法、装置及电子设备 |
CN111477220B (zh) * | 2020-04-15 | 2023-04-25 | 南京邮电大学 | 一种面向家居口语环境的神经网络语音识别方法及系统 |
CN111429937B (zh) * | 2020-05-09 | 2023-09-15 | 北京声智科技有限公司 | 语音分离方法、模型训练方法及电子设备 |
CN111583954B (zh) * | 2020-05-12 | 2021-03-30 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
CN111724806B (zh) * | 2020-06-05 | 2022-09-06 | 太原理工大学 | 一种基于深度神经网络的双视角单通道语音分离方法 |
CN111816208B (zh) * | 2020-06-17 | 2023-05-05 | 厦门快商通科技股份有限公司 | 一种语音分离质量评估方法、装置及计算机存储介质 |
CN112116921A (zh) * | 2020-09-10 | 2020-12-22 | 南京邮电大学 | 一种基于整合优化器的单声道语音分离方法 |
CN112017686B (zh) * | 2020-09-18 | 2022-03-01 | 中科极限元(杭州)智能科技股份有限公司 | 基于门控递归融合深度嵌入式特征的多通道语音分离系统 |
CN113053407B (zh) * | 2021-02-06 | 2024-06-14 | 南京蕴智科技有限公司 | 一种针对多说话人的单通道语音分离方法及系统 |
CN113707172B (zh) * | 2021-06-02 | 2024-02-09 | 西安电子科技大学 | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 |
CN113539293B (zh) * | 2021-08-10 | 2023-12-26 | 南京邮电大学 | 基于卷积神经网络和联合优化的单通道语音分离方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170162194A1 (en) * | 2015-12-04 | 2017-06-08 | Conexant Systems, Inc. | Semi-supervised system for multichannel source enhancement through configurable adaptive transformations and deep neural network |
US20170178666A1 (en) * | 2015-12-21 | 2017-06-22 | Microsoft Technology Licensing, Llc | Multi-speaker speech separation |
CN108417224A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 双向神经网络模型的训练和识别方法及系统 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
CN109841226A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
CN110070882A (zh) * | 2019-04-12 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及电子设备 |
CN110070887A (zh) * | 2018-01-23 | 2019-07-30 | 中国科学院声学研究所 | 一种语音特征重建方法及装置 |
CN110148419A (zh) * | 2019-04-25 | 2019-08-20 | 南京邮电大学 | 基于深度学习的语音分离方法 |
-
2019
- 2019-09-06 CN CN201910840498.5A patent/CN110634502B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170162194A1 (en) * | 2015-12-04 | 2017-06-08 | Conexant Systems, Inc. | Semi-supervised system for multichannel source enhancement through configurable adaptive transformations and deep neural network |
US20170178666A1 (en) * | 2015-12-21 | 2017-06-22 | Microsoft Technology Licensing, Llc | Multi-speaker speech separation |
CN108417224A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 双向神经网络模型的训练和识别方法及系统 |
CN110070887A (zh) * | 2018-01-23 | 2019-07-30 | 中国科学院声学研究所 | 一种语音特征重建方法及装置 |
CN109841226A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
CN110070882A (zh) * | 2019-04-12 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及电子设备 |
CN110148419A (zh) * | 2019-04-25 | 2019-08-20 | 南京邮电大学 | 基于深度学习的语音分离方法 |
Non-Patent Citations (4)
Title |
---|
"Joint Optimization of Masks and Deep Recurrent__Neural Networks for Monaural Source Separation";Po-Sen Huang等;《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20151201;第23卷(第12期);第2-5页第Ⅲ节的内容,第5-8页第Ⅳ节的内容,图2、6-7 * |
"Monaural speaker separation using source-contrastive estimation";Cory Stephenson等;《2017 IEEE International Workshop on Signal Processing Systems (SiPS)》;20171216;全文 * |
"深度学习理论及其应用专题讲座(四) 第8讲 深度学习方法在语音增强中的应用";时文华等;《军事通信技术》;20160320;第37卷(第3期);全文 * |
Po-Sen Huang等."Joint Optimization of Masks and Deep Recurrent__Neural Networks for Monaural Source Separation".《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》.2015,第23卷(第12期), * |
Also Published As
Publication number | Publication date |
---|---|
CN110634502A (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634502B (zh) | 基于深度神经网络的单通道语音分离算法 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN107146601B (zh) | 一种用于说话人识别系统的后端i-vector增强方法 | |
CN110111803B (zh) | 基于自注意多核最大均值差异的迁移学习语音增强方法 | |
Grais et al. | Deep neural networks for single channel source separation | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
Shi et al. | Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech Separation. | |
CN112331181A (zh) | 一种基于多说话人条件下目标说话人语音提取方法 | |
Mallidi et al. | Autoencoder based multi-stream combination for noise robust speech recognition. | |
Wang et al. | A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation. | |
Islam et al. | Supervised single channel dual domains speech enhancement using sparse non-negative matrix factorization | |
KR102026226B1 (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
CN113724727A (zh) | 基于波束形成的长短时记忆网络语音分离算法 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Li et al. | A Convolutional Neural Network with Non-Local Module for Speech Enhancement. | |
CN111653287A (zh) | 基于dnn和频带内互相关系数的单通道语音增强算法 | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
CN112116921A (zh) | 一种基于整合优化器的单声道语音分离方法 | |
CN103971697A (zh) | 基于非局部均值滤波的语音增强方法 | |
Chauhan et al. | Speech recognition and separation system using deep learning | |
CN114141266A (zh) | 基于pesq驱动的强化学习估计先验信噪比的语音增强方法 | |
Yu et al. | Monaural Music Source Separation Using Deep Convolutional Neural Network Embedded with Feature Extraction Module | |
Zhu et al. | Using Hybrid Penalty and Gated Linear Units to Improve Wasserstein Generative Adversarial Networks for Single-Channel Speech Enhancement. | |
Lee et al. | Speech Enhancement for Virtual Meetings on Cellular Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |