CN111292762A - 一种基于深度学习的单通道语音分离方法 - Google Patents
一种基于深度学习的单通道语音分离方法 Download PDFInfo
- Publication number
- CN111292762A CN111292762A CN201811521436.XA CN201811521436A CN111292762A CN 111292762 A CN111292762 A CN 111292762A CN 201811521436 A CN201811521436 A CN 201811521436A CN 111292762 A CN111292762 A CN 111292762A
- Authority
- CN
- China
- Prior art keywords
- noise
- time
- layer
- voice
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 50
- 238000013135 deep learning Methods 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000001228 spectrum Methods 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 238000007667 floating Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种基于深度学习的语音分离方法:对语音资源进行信号预处理,并按照设定比例将原始数据集分为训练集和测试集;通过短时傅里叶变换将得到的时域信号分解成二维的时频信号;提取时频单元级别的听觉特征短时傅里叶对数能量谱,并进行归一化;利用纯净的短时傅里叶变换幅度谱和噪声的傅里叶变换幅度谱计算出分离目标。将提取出的特征作为模型的输入,选定的分离目标作为模型的训练目标,进行深层模型的训练。利用得到的估计的分离目标以及产生的带噪时频信号,通过逆短时傅里叶变换得到分离后语音的时域信号,并得到最终分离后的语音。
Description
技术领域
本发明涉及一种语音分离方法。主要涉及一种基于深度学习的单通道语音分离方法。
背景技术
语音分离是将目标语音与背景干扰分离的任务,其主要目的在于提高语音信号的可懂度和听觉质量。语音信号的可懂度影响着人们的交流体验;而听觉质量则是人们的主观听觉感受,如果听觉质量较低就容易使得人耳产生听觉疲劳,影响听者的体验。因此,语音分离算法具有极大的实用价值。
计算听觉场景分析通过模拟人耳对声音的处理机制来解决语音分离问题,是性能比较理想的语音分离技术之一,并且提出了完成语音分离任务的计算目标,即理想二值掩蔽。在CASA思想的基础上,可以将语音分离任务看作一个分类问题,通过把带噪的混合语音信号分类成目标语音信号或噪声信号来解决。主要方法是对其每一个时频单元做出分类决策,判断是目标语音主导或噪声主导。因此,语音分离问题可以被描述为监督性学习问题。监督性语音分离通常是训练一个学习模型来学习一个带噪语音特征到分离目标的映射函数。
将带噪语音的声学特征或是直接将带噪声的语音信号作为输入,可以通过深层模型训练得到理想的目标估计。本发明中,提出了一种结合卷积神经网络和长短时记忆网络的方法来解决语音分离问题,相对于常规的深度神经网络和卷积神经网络,可以取得显著的分离性能提升。
发明内容
本发明所要解决的技术问题是,提供一种结合卷积神经网络和长短时记忆网络的神经网络结构,提取声学特征,并将声学特征用于监督学习语音分离系统进行语音分离的方法。
一种基于深度学习的语音分离方法,包括以下步骤:
步骤一、对语音资源进行信号预处理,并按照设定比例将原始数据集分为训练集和测试集。
步骤二、时频分解:通过短时傅里叶变换将步骤1)得到的时域信号分解成二维的时频信号。
步骤三、特征提取:从步骤2)中提取时频单元级别的听觉特征短时傅里叶对数能量谱,并进行归一化。
步骤四、分离目标:利用纯净的短时傅里叶变换幅度谱和噪声的傅里叶变换幅度谱计算出分离目标。
步骤五、模型训练:将步骤3)中提取出的特征作为模型的输入,步骤4)中选定的分离目标作为模型的训练目标,进行深层模型的训练。
步骤六、波形合成:利用步骤5)得到的估计的分离目标以及步骤2)中产生的带噪时频信号,通过逆短时傅里叶变换得到分离后语音的时域信号,并得到最终分离后的语音。
上述方法中,所述步骤1)中所述的语音资源来自IEEE语音库男性的720句纯净语音,以及CHiMe4噪音库的噪声。
步骤2)包括:通过短时窗对语音信号进行分割以获取局部稳定语音信号,然后进行频域分析。下式是短时傅里叶变换表达式:
其中,x(k)是一维时域信号,而w(k-t)是实对称窗函数,X(t,f)是在第t个时间帧第f个频带信号的STFT系数。时频单元对应的能量谱密度(PSD)表达式如下:
Px(t,f)=|X(t,f)|
步骤3)包括:选择振幅调制谱+感知线性预测+梅尔频率倒谱系数作为固定特征,并且采用自回归与移动平均模型模型来平滑特征的时间轨迹,以此进一步提升语音分离性能,其表达式如下:
其中C^(t)是滤波后的特征向量,C(t)是第t帧的特征向量,m是滤波器的阶数。
步骤4)包括:采用理想浮值掩蔽(IRM)作为语音分离目标。
步骤5)包括:选取CNN的结构包含一个输入层,两个卷积层,一个降采样层,同时,用含有一个隐层的感知机作为输出层。第一个卷积层包含十个卷积核,每个卷积核都是5*5大小,再进行最大值降采样操作,降采样的大小设置成2*2,特征向量都缩减为原来的四分之一大小。第二个卷积层包含二十个卷积核,每个卷积核的大小也是5*5,然后再经过一个降采样为2*2的最大值降采样操作。最后将降采样层的所有输出作为后层感知器的输入数据,感知器的隐层设置了500个节点。然后在CNN结构的基础上连接三个LSTM层,以及一个全连接层。输出层的激活函数为Sigmoid。使用均方差作为损失函数,优化器也采用Adam。LSTM和全连接层的节点数分别为300和1024,随机初始化权值。
本发明的基于深度学习的单通道语音分离方法,在语音质量评估(Perceptualevaluation of speech quality,PESQ)和短时客观可懂度评分(Short-Time ObjectiveIntelligibility,STOI)等语音评价指标上都得到了显著的提升。
附图说明
图1为本发明提出的神经网络结构图。
图2为本发明具体实现的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细说明。
如图2所示,本发明的一种基于深度学习的单通道语音分离方法,包括以下步骤:
1)对语音资源进行信号预处理,并按照设定比例将原始数据集分为训练集和测试集。语音资源来自IEEE语音库男性的720句纯净语音,以及CHiMe4噪音库的噪声。
2)通过短时傅里叶变换将得到的时域信号分解成二维的时频信号。通过短时窗对语音信号进行分割以获取局部稳定语音信号,然后进行频域分析。下式是短时傅里叶变换表达式:
其中,x(k)是一维时域信号,而w(k-t)是实对称窗函数,X(t,f)是在第t个时间帧第f个频带信号的STFT系数。时频单元对应的能量谱密度(PSD)表达式如下:
Px(t,f)=|X(t,f)|
其中,|·|表示复数域的取模操作。短时傅里叶变换是完备而稳定的,可以通过短时福利也逆变换从X(t,f)精确重构x(k)。
3)提取时频单元级别的听觉特征短时傅里叶对数能量谱,进行归一化。提取短时傅里叶对数能量谱包括:对输入的时域信号进行分帧处理,然后对每帧信号进行STFT,得到STFT系数,然后对STFT进行平方操作得到STFT能量谱,再对STFT能量谱取对数即可得到STFT对数能量谱。选择振幅调制谱+感知线性预测+梅尔频率倒谱系数作为固定特征,并且采用自回归与移动平均模型模型来平滑特征的时间轨迹,以此进一步提升语音分离性能,其表达式如下:
其中C^(t)是滤波后的特征向量,C(t)是第t帧的特征向量,m是滤波器的阶数。
4)利用纯净的短时傅里叶变换幅度谱和噪声的傅里叶变换幅度谱计算出分离目标。如下式所示,理想浮值掩蔽(IRM)表示在一个时频单元内语音能量与混合语音能量的比率,IRM假设S(t,f)和N(t,f)是不相关的。其中IRM(t,f)表示在时间t和频率f的T-F单元的理想浮值掩蔽值,S2(t,f)和N2(t,f)分别表示IRM(t,f)对应的T-F单元中的语音和噪声的能量。IRM在没有开方的情况和维纳滤波相似。为了估计IRM,均方误差(mean-square error,MSE)通常被用作代价函数。IRM的方法与IBM类似,区别在于IRM是连续的,且在[0,1]的区间内。
5)将步骤3)中提取出的特征作为模型的输入,步骤4)中选定的分离目标作为模型的训练目标,进行深层模型的训练。步骤5)包括:选取CNN的结构包含一个输入层,两个卷积层,一个降采样层,同时,用含有一个隐层的感知机作为输出层。第一个卷积层包含十个卷积核,每个卷积核都是5*5大小,再进行最大值降采样操作,降采样的大小设置成2*2,特征向量都缩减为原来的四分之一大小。第二个卷积层包含二十个卷积核,每个卷积核的大小也是5*5,然后再经过一个降采样为2*2的最大值降采样操作。最后将降采样层的所有输出作为后层感知器的输入数据,感知器的隐层设置了500个节点。然后在CNN结构的基础上连接三个LSTM层,以及一个全连接层。输出层的激活函数为Sigmoid。使用均方差作为损失函数,优化器也采用Adam。LSTM和全连接层的节点数分别为300和1024,随机初始化权值。
6)利用步骤5)得到的估计的分离目标以及步骤2)中产生的带噪时频信号,通过逆短时傅里叶变换得到分离后语音的时域信号,并得到最终分离后的语音。
下面给出最佳实施:
在IEEE语音库男性的720句语音中选择600句语音作为训练集的纯净语音,另外的120句语音作为测试集的纯净语音。使用CHiME4噪音库的噪声:Bus(公交)、Cafe(咖啡厅)、Str(街道)、Ped(行人)噪音作为训练集和测试集的噪声,噪声持续时长为4分钟,所有噪声都是不稳定的噪声。
训练集:在前半段噪声中把噪声段随机切分出来,然后与训练集中的纯净语音混合,以获得信噪比分别为-3dB、0dB、3dB的混合信号。因此,训练集中将存在36000(600个信号*4种噪声*5次切分*3个信噪比)条混合语音信号。
噪声测试集:在后半段噪声中将噪声段随机切分出来,再与测试集中的纯净语音相叠加,以获得信噪比分别为-3dB、0dB、3dB的混合信号。训练集中随机分出10%作为验证集。然后测试集中可得到1440(120个信号*4种噪声*3个信噪比)条混合语音信号。将噪声分为前半段和后半段两个部分分别切分以保证鲁棒性,确保训练阶段与测试阶段所使用噪声的不同。
从混合信号中提取出输入特征后,通过归一化使其均值和每个频带的单元方差都为零。均值和方差归一化后,作为最终输入神经网络的特征。
神经网络选取CNN的结构包含一个输入层,两个卷积层,一个降采样层,同时,用含有一个隐层的感知机作为输出层。第一个卷积层包含十个卷积核,每个卷积核都是5*5大小,再进行最大值降采样操作,降采样的大小设置成2*2,特征向量都缩减为原来的四分之一大小。第二个卷积层包含二十个卷积核,每个卷积核的大小也是5*5,然后再经过一个降采样为2*2的最大值降采样操作。最后将降采样层的所有输出作为后层感知器的输入数据,感知器的隐层设置了500个节点。然后在CNN结构的基础上连接三个LSTM层,以及一个全连接层。输出层的激活函数为Sigmoid。使用均方差作为损失函数,优化器也采用Adam。LSTM和全连接层的节点数分别为300和1024,随机初始化权值。
将带噪信号的特征输入到神经网络的输入层,输出层数据为IRM,得到训练好的监督学习语音分离系统。
最后将测试集带噪信号作为监督学习语音分离系统的输入层数据,利用上述训练好的监督学习分离系统进行语音分离,利用波形合成得到最终分离的语音。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施例的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施例或变更均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于深度学习的单通道语音分离方法,包括以下步骤:
步骤一、对语音资源进行信号预处理,并按照设定比例将原始数据集分为训练集和测试集。
步骤二、时频分解:通过短时傅里叶变换将步骤1)得到的时域信号分解成二维的时频信号。
步骤三、特征提取:从步骤2)中提取时频单元级别的听觉特征短时傅里叶对数能量谱,并进行归一化。
步骤四、分离目标:利用纯净的短时傅里叶变换幅度谱和噪声的傅里叶变换幅度谱计算出分离目标。
步骤五、模型训练:将步骤3)中提取出的特征作为模型的输入,步骤4)中选定的分离目标作为模型的训练目标,进行深层模型的训练。
步骤六、波形合成:利用步骤5)得到的估计的分离目标以及步骤2)中产生的带噪时频信号,通过逆短时傅里叶变换得到分离后语音的时域信号,并得到最终分离后的语音。
2.根据权利要求1所述的一种基于深度学习的单通道语音分离方法,其特征在于,具体包括以下步骤:
1)对语音资源进行信号预处理,并按照设定比例将原始数据集分为训练集和测试集。语音资源来自IEEE语音库男性的720句纯净语音,以及CHiMe4噪音库的噪声。
2)通过短时傅里叶变换将得到的时域信号分解成二维的时频信号。通过短时窗对语音信号进行分割以获取局部稳定语音信号,然后进行频域分析。下式是短时傅里叶变换表达式:
其中,x(k)是一维时域信号,而w(k-t)是实对称窗函数,X(t,f)是在第t个时间帧第f个频带信号的STFT系数。时频单元对应的能量谱密度(PSD)表达式如下:
Px(t,f)=|X(t,f)|
其中,|·|表示复数域的取模操作。短时傅里叶变换是完备而稳定的,可以通过短时福利也逆变换从X(t,f)精确重构x(k)。
3)提取时频单元级别的听觉特征短时傅里叶对数能量谱,进行归一化。提取短时傅里叶对数能量谱包括:对输入的时域信号进行分帧处理,然后对每帧信号进行STFT,得到STFT系数,然后对STFT进行平方操作得到STFT能量谱,再对STFT能量谱取对数即可得到STFT对数能量谱。选择振幅调制谱+感知线性预测+梅尔频率倒谱系数作为固定特征,并且采用自回归与移动平均模型模型来平滑特征的时间轨迹,以此进一步提升语音分离性能,其表达式如下:
其中C^(t)是滤波后的特征向量,C(t)是第t帧的特征向量,m是滤波器的阶数。
4)利用纯净的短时傅里叶变换幅度谱和噪声的傅里叶变换幅度谱计算出分离目标。如下式所示,理想浮值掩蔽(IRM)表示在一个时频单元内语音能量与混合语音能量的比率,IRM假设S(t,f)和N(t,f)是不相关的。其中IRM(t,f)表示在时间t和频率f的T-F单元的理想浮值掩蔽值,S2(t,f)和N2(t,f)分别表示IRM(t,f)对应的T-F单元中的语音和噪声的能量。IRM在没有开方的情况和维纳滤波相似。为了估计IRM,均方误差(mean-square error,MSE)通常被用作代价函数。IRM的方法与IBM类似,区别在于IRM是连续的,且在[0,1]的区间内。
5)将步骤3)中提取出的特征作为模型的输入,步骤4)中选定的分离目标作为模型的训练目标,进行深层模型的训练。步骤5)包括:选取CNN的结构包含一个输入层,两个卷积层,一个降采样层,同时,用含有一个隐层的感知机作为输出层。第一个卷积层包含十个卷积核,每个卷积核都是5*5大小,再进行最大值降采样操作,降采样的大小设置成2*2,特征向量都缩减为原来的四分之一大小。第二个卷积层包含二十个卷积核,每个卷积核的大小也是5*5,然后再经过一个降采样为2*2的最大值降采样操作。最后将降采样层的所有输出作为后层感知器的输入数据,感知器的隐层设置了500个节点。然后在CNN结构的基础上连接三个LSTM层,以及一个全连接层。输出层的激活函数为Sigmoid。使用均方差作为损失函数,优化器也采用Adam。LSTM和全连接层的节点数分别为300和1024,随机初始化权值。
6)利用步骤5)得到的估计的分离目标以及步骤2)中产生的带噪时频信号,通过逆短时傅里叶变换得到分离后语音的时域信号,并得到最终分离后的语音。
下面给出最佳实施:
在IEEE语音库男性的720句语音中选择600句语音作为训练集的纯净语音,另外的120句语音作为测试集的纯净语音。使用CHiME4噪音库的噪声:Bus(公交)、Cafe(咖啡厅)、Str(街道)、Ped(行人)噪音作为训练集和测试集的噪声,噪声持续时长为4分钟,所有噪声都是不稳定的噪声。
训练集:在前半段噪声中把噪声段随机切分出来,然后与训练集中的纯净语音混合,以获得信噪比分别为-3dB、0dB、3dB的混合信号。因此,训练集中将存在36000(600个信号*4种噪声*5次切分*3个信噪比)条混合语音信号。
噪声测试集:在后半段噪声中将噪声段随机切分出来,再与测试集中的纯净语音相叠加,以获得信噪比分别为-3dB、0dB、3dB的混合信号。训练集中随机分出10%作为验证集。然后测试集中可得到1440(120个信号*4种噪声*3个信噪比)条混合语音信号。将噪声分为前半段和后半段两个部分分别切分以保证鲁棒性,确保训练阶段与测试阶段所使用噪声的不同。
从混合信号中提取出输入特征后,通过归一化使其均值和每个频带的单元方差都为零。均值和方差归一化后,作为最终输入神经网络的特征。
神经网络选取CNN的结构包含一个输入层,两个卷积层,一个降采样层,同时,用含有一个隐层的感知机作为输出层。第一个卷积层包含十个卷积核,每个卷积核都是5*5大小,再进行最大值降采样操作,降采样的大小设置成2*2,特征向量都缩减为原来的四分之一大小。第二个卷积层包含二十个卷积核,每个卷积核的大小也是5*5,然后再经过一个降采样为2*2的最大值降采样操作。最后将降采样层的所有输出作为后层感知器的输入数据,感知器的隐层设置了500个节点。然后在CNN结构的基础上连接三个LSTM层,以及一个全连接层。输出层的激活函数为Sigmoid。使用均方差作为损失函数,优化器也采用Adam。LSTM和全连接层的节点数分别为300和1024,随机初始化权值。
将带噪信号的特征输入到神经网络的输入层,输出层数据为IRM,得到训练好的监督学习语音分离系统。
最后将测试集带噪信号作为监督学习语音分离系统的输入层数据,利用上述训练好的监督学习分离系统进行语音分离,利用波形合成得到最终分离的语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811521436.XA CN111292762A (zh) | 2018-12-08 | 2018-12-08 | 一种基于深度学习的单通道语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811521436.XA CN111292762A (zh) | 2018-12-08 | 2018-12-08 | 一种基于深度学习的单通道语音分离方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111292762A true CN111292762A (zh) | 2020-06-16 |
Family
ID=71030644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811521436.XA Pending CN111292762A (zh) | 2018-12-08 | 2018-12-08 | 一种基于深度学习的单通道语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111292762A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816208A (zh) * | 2020-06-17 | 2020-10-23 | 厦门快商通科技股份有限公司 | 一种语音分离质量评估方法、装置及计算机存储介质 |
CN111899757A (zh) * | 2020-09-29 | 2020-11-06 | 南京蕴智科技有限公司 | 针对目标说话人提取的单通道语音分离方法及系统 |
CN111951804A (zh) * | 2020-08-21 | 2020-11-17 | 韩山师范学院 | 一种基于深度学习的语音互动设备 |
CN112002343A (zh) * | 2020-08-18 | 2020-11-27 | 海尔优家智能科技(北京)有限公司 | 语音纯度的识别方法、装置、存储介质及电子装置 |
CN112201229A (zh) * | 2020-10-09 | 2021-01-08 | 百果园技术(新加坡)有限公司 | 一种语音处理方法、装置及系统 |
CN112489675A (zh) * | 2020-11-13 | 2021-03-12 | 北京云从科技有限公司 | 一种多通道盲源分离方法、装置、机器可读介质及设备 |
CN113327624A (zh) * | 2021-05-25 | 2021-08-31 | 西北工业大学 | 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法 |
CN113707172A (zh) * | 2021-06-02 | 2021-11-26 | 西安电子科技大学 | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 |
CN114464206A (zh) * | 2022-04-11 | 2022-05-10 | 中国人民解放军空军预警学院 | 一种单通道盲源分离方法及系统 |
CN114613384A (zh) * | 2022-03-14 | 2022-06-10 | 中国电子科技集团公司第十研究所 | 一种基于深度学习多输入语音信号波束形成信息互补方法 |
CN115206335A (zh) * | 2022-09-15 | 2022-10-18 | 北京中环高科环境治理有限公司 | 一种自动留样取证的噪声监测方法 |
CN115856987A (zh) * | 2023-02-28 | 2023-03-28 | 西南科技大学 | 一种复杂环境下的核脉冲信号与噪声信号甄别方法 |
CN116994552A (zh) * | 2023-09-28 | 2023-11-03 | 深圳市齐奥通信技术有限公司 | 一种基于深度学习的音频降噪方法及系统 |
-
2018
- 2018-12-08 CN CN201811521436.XA patent/CN111292762A/zh active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816208A (zh) * | 2020-06-17 | 2020-10-23 | 厦门快商通科技股份有限公司 | 一种语音分离质量评估方法、装置及计算机存储介质 |
CN112002343A (zh) * | 2020-08-18 | 2020-11-27 | 海尔优家智能科技(北京)有限公司 | 语音纯度的识别方法、装置、存储介质及电子装置 |
CN112002343B (zh) * | 2020-08-18 | 2024-01-23 | 海尔优家智能科技(北京)有限公司 | 语音纯度的识别方法、装置、存储介质及电子装置 |
CN111951804A (zh) * | 2020-08-21 | 2020-11-17 | 韩山师范学院 | 一种基于深度学习的语音互动设备 |
CN111899757A (zh) * | 2020-09-29 | 2020-11-06 | 南京蕴智科技有限公司 | 针对目标说话人提取的单通道语音分离方法及系统 |
CN111899757B (zh) * | 2020-09-29 | 2021-01-12 | 南京蕴智科技有限公司 | 针对目标说话人提取的单通道语音分离方法及系统 |
CN112201229B (zh) * | 2020-10-09 | 2024-05-28 | 百果园技术(新加坡)有限公司 | 一种语音处理方法、装置及系统 |
CN112201229A (zh) * | 2020-10-09 | 2021-01-08 | 百果园技术(新加坡)有限公司 | 一种语音处理方法、装置及系统 |
CN112489675A (zh) * | 2020-11-13 | 2021-03-12 | 北京云从科技有限公司 | 一种多通道盲源分离方法、装置、机器可读介质及设备 |
CN113327624A (zh) * | 2021-05-25 | 2021-08-31 | 西北工业大学 | 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法 |
CN113327624B (zh) * | 2021-05-25 | 2023-06-23 | 西北工业大学 | 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法 |
CN113707172A (zh) * | 2021-06-02 | 2021-11-26 | 西安电子科技大学 | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 |
CN113707172B (zh) * | 2021-06-02 | 2024-02-09 | 西安电子科技大学 | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 |
CN114613384A (zh) * | 2022-03-14 | 2022-06-10 | 中国电子科技集团公司第十研究所 | 一种基于深度学习多输入语音信号波束形成信息互补方法 |
CN114613384B (zh) * | 2022-03-14 | 2023-08-29 | 中国电子科技集团公司第十研究所 | 一种基于深度学习多输入语音信号波束形成信息互补方法 |
CN114464206A (zh) * | 2022-04-11 | 2022-05-10 | 中国人民解放军空军预警学院 | 一种单通道盲源分离方法及系统 |
CN115206335B (zh) * | 2022-09-15 | 2022-12-02 | 北京中环高科环境治理有限公司 | 一种自动留样取证的噪声监测方法 |
CN115206335A (zh) * | 2022-09-15 | 2022-10-18 | 北京中环高科环境治理有限公司 | 一种自动留样取证的噪声监测方法 |
CN115856987A (zh) * | 2023-02-28 | 2023-03-28 | 西南科技大学 | 一种复杂环境下的核脉冲信号与噪声信号甄别方法 |
CN116994552A (zh) * | 2023-09-28 | 2023-11-03 | 深圳市齐奥通信技术有限公司 | 一种基于深度学习的音频降噪方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN103854662B (zh) | 基于多域联合估计的自适应语音检测方法 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
US20160189730A1 (en) | Speech separation method and system | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN108615533B (zh) | 一种基于深度学习的高性能语音增强方法 | |
CN110767244B (zh) | 语音增强方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN110120227A (zh) | 一种深度堆叠残差网络的语音分离方法 | |
CN111192598A (zh) | 一种跳变连接深度神经网络的语音增强方法 | |
KR101305373B1 (ko) | 관심음원 제거방법 및 그에 따른 음성인식방법 | |
Wang et al. | Deep learning assisted time-frequency processing for speech enhancement on drones | |
Nossier et al. | Mapping and masking targets comparison using different deep learning based speech enhancement architectures | |
Roy et al. | DeepLPC: A deep learning approach to augmented Kalman filter-based single-channel speech enhancement | |
WO2019232867A1 (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Saleem et al. | Unsupervised speech enhancement in low SNR environments via sparseness and temporal gradient regularization | |
Han et al. | Perceptual weighting deep neural networks for single-channel speech enhancement | |
Wang | Supervised speech separation using deep neural networks | |
Thomas et al. | Acoustic and data-driven features for robust speech activity detection | |
Wang et al. | Cross-domain diffusion based speech enhancement for very noisy speech | |
Soni et al. | State-of-the-art analysis of deep learning-based monaural speech source separation techniques | |
Hepsiba et al. | Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN | |
Sivapatham et al. | Gammatone filter bank-deep neural network-based monaural speech enhancement for unseen conditions | |
Liu et al. | Using Shifted Real Spectrum Mask as Training Target for Supervised Speech Separation. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200616 |
|
WD01 | Invention patent application deemed withdrawn after publication |