CN107680611B - 基于卷积神经网络的单通道声音分离方法 - Google Patents
基于卷积神经网络的单通道声音分离方法 Download PDFInfo
- Publication number
- CN107680611B CN107680611B CN201710821803.7A CN201710821803A CN107680611B CN 107680611 B CN107680611 B CN 107680611B CN 201710821803 A CN201710821803 A CN 201710821803A CN 107680611 B CN107680611 B CN 107680611B
- Authority
- CN
- China
- Prior art keywords
- layer
- neural network
- convolutional
- sound signal
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 46
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 43
- 230000005236 sound signal Effects 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000005070 sampling Methods 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 15
- 238000011176 pooling Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 26
- 238000010586 diagram Methods 0.000 claims description 22
- 238000005457 optimization Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- 239000002689 soil Substances 0.000 claims description 4
- 230000001143 conditioned effect Effects 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 230000001902 propagating effect Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005065 mining Methods 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 101001090688 Homo sapiens Lymphocyte cytosolic protein 2 Proteins 0.000 description 1
- 102100034709 Lymphocyte cytosolic protein 2 Human genes 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Auxiliary Devices For Music (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络的单通道声音分离方法,属于声音信号处理、人工智能技术领域。本发明首先提出了基于卷积神经网络的单通道声音分离方法的处理框架,该框架由短时傅里叶变换、卷积神经网络、时频掩膜、逆短时傅里叶变换组成。其中卷积神经网络包含卷积层、池化层、融合层以及上采样层。本发明利用卷积神经网络擅长于挖掘二维数据空间特征的特性,在神经网络层数方面,增加模型的层数;在神经网络结构方面,本发明提出一个包含编码阶段和解码阶段的卷积神经网络结构。在单通道声音分离领域,本发明较之基线模型在分离指标上得到了极大提升,同时大大降低了神经网络参数的数目。
Description
技术领域
本发明属于声音信号处理、人工智能技术领域,具体涉及单通道声音分离方法。
背景技术
单通道声音分离问题是指从单通道混合声音信号中分离出混合前的原始声音信号。在卡拉OK游戏中,声音分离算法能够从音乐中分离出伴奏;在助听器中,从混合信号中分离出人声能够提高声音的可懂度;在语音识别算法中,从混合信号中分离出人声能够降低语音识别的错字率,因此单通道声音分离有极其重要的研究和实用价值。
卷积神经网络于20世纪90年代提出,直到2012年在ImageNet大规模图像识别竞赛获得成功,卷积神经网络才被广泛应用到图像、语音等各个领域。在图像数据中,局部图像往往具有很高的相关性,能够构成可鉴别的基本图案。卷积神经网络充分利用了这一特性,每一层只与前一层一小块神经元链接。局部连接大大降低了神经网络参数的数量,并具有更好的泛化性能。声音信号经过短时傅里叶变换以后得到时频图,时频图也是一种类似于图像的二维数据,因此同样可以使用卷积神经网络来实现单通道声音分离。
在单通道语音分离领域,最常用的方法是非负矩阵分解和稳健主成分分析。基于非负矩阵分解的方法会假设声音信号的时频图是低秩的;基于稳健主成分分析的方法会假设一种原始声音信号的时频图是低秩的,另一种原始声音信号的时频图是稀疏的。然而在真实的复杂环境中,这些假设并不完全准确。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于卷积神经网络的声音分离方法,来提升声音分离的效果,以解决当前实际应用场景下声音分离的问题。
本发明首先提出了一个全新的基于卷积神经网络的声音分离框架,此框架能够充分利用声音信号在时频图中的重复性。
本发明提出的声音分离方法,采用上述基于卷积神经网络的框架,首先对声音信号进行预处理得到时频图,使用时频图构建训练数据,然后训练卷积神经网络模型,最后通过卷积神经网络模型预测原始声音信号的时频图,从预测的原始声音信号的时频图中恢复出原始声音信号。具体包括3个过程:构建训练数据、训练卷积神经网络、使用已训练模型进行分离。
本发明的基于卷积神经网络的声音分离方法,包括下列步骤:
步骤1、构建训练数据:
101:对每一原始声音信号进行短时傅里叶变换得到原始声音信号时频图S(t,f),其中t表示时间,f表示频率;
102:对原始声音信号进行混合得到混合声音信号,并对混合声音信号进行短时傅里叶变换得到混合声音信号时频图Y(t,f);
103:由原始声音信号时频图和混合声音信号时频图构建理想二值掩膜:
步骤2、训练卷积神经网络模型:
201:构建用于单声道声音分离的卷积神经网络模型,所述卷积神经网络模型从输入层INPUT开始,依次经过卷积层CONV1_1,卷积层CONV1_2,池化层POOL1,卷积层CONV2_1,卷积层CONV2_2,池化层POOL2,卷积层CONV3_1,卷积层CONV3_2,池化层POOL3,卷积层CONV4_1,卷积层CONV4_2,上采样层UP5、融合层CONCAT5、卷积层CONV5_1、卷积层CONV5_2、上采样层UP6、融合层CONCAT6、卷积层CONV6_1、卷积层CONV6_2、上采样层UP7、融合层CONCAT7、卷积层CONV7_1、卷积层CONV7_2和卷积层CONV_8,且融合层CONCAT5将上采样层UP5的输出与卷积层CONV3_2的输出进行特征图叠加,融合层CONCAT6将上采样层UP6的输出与卷积层CONV2_2的输出进行特征图叠加,融合层CONCAT7将上采样层UP7的输出与卷积层CONV1_2的输出进行特征图叠加;
202:设置训练参数,其中训练参数包括模型学习优化方式、学习率及最大迭代次数;例如模型学习优化方式采用Adam优化,初始学习率设置为0.001,若交叉验证集分数在5次迭代内不下降,则学习率下降为0.1倍,最大迭代次数设置为100。
203:将混合声音信号时频图Y(t,f)幅度输入卷积神经网络模型,前向传播计算交叉墒损失;
204:将交叉墒损失反向传播更新神经元权重,其初始值为预设值;
205:重复步骤203和204,直至模型收敛,得到训练好的卷积神经网络模型,保存最后一次更新的模型参数。
模型收敛的条件为达到最大迭代次数或损失收敛,其中认定损失收敛的条件为交叉验证集分数在10个epoch内没有下降。epoch表示使用训练集中的全部训练样本训练1次。
步骤3、使用训练好的卷积神经网络模型进行声音分离处理:
301:对待分离的混合声音信号进行短时傅里叶变换得到待分离的混合声音信号时频图;
302:将待分离的混合声音信号时频图幅度输入训练好的卷积神经网络模型,输出估计时频掩膜;
303:使用估计时频掩膜和待分离的混合声音信号时频图合成估计的原始声音信号时频图;
304:对估计的原始声音信号时频图进行逆短时傅里叶变换得到估计的原始声音信号。
本发明无需对时频图的特征做出任何假设,只需要足够的训练数据就能够学习出合适的神经元权重。相比于普通的全连接神经网络,卷积神经网络充分利用了时频图在时间轴和频率轴上的重复性,具有参数更少、泛化性能更强的特点。
综上所述,由于采用了上述技术方案,本发明的有益效果是:模型训练数据少,仅使用105分钟的音频作为训练数据;分离速度快,例如在3.4GHz两核的CPU上,分离60秒的音频仅需20秒。
附图说明
图1一种基于卷积神经网络单声道声音分离方法的流程图;
图2本发明提出的卷积神经网络模型结构图;
图3对比不同声音分离方法的GNSDR,其中图(a)为不同声音分离方法的人声GNSDR;(b)为不同声音分离方法的伴奏GNSDR。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
参见图1,将本发明用于人声与伴奏分离时,其具体处理步骤如下:
1、构建训练数据:
训练本发明提出的卷积神经网络模型所使用的数据集是iKala数据集。iKala数据集包含252段长度为30秒的中文流行歌曲片段,每一个片段包含两个声道,左声道为人声,右声道为伴奏。首先将人声信号与伴奏信号进行一比一混合得到混合声音信号。然后分别对人声信号、伴奏信号和混合声音信号进行短时傅里叶变换得到相应的时频图。最后由人声信号时频图、伴奏信号时频图和混合声音信号时频图构建理想二值掩膜。
2、搭建卷积神经网络模型:
利用深度学习框架Keras,搭建本发明提出的卷积神经网络模型,如图2所示。此模型由卷积层、池化层、融合层和上采样层组成;
其中,输入层的大小为1024×8×1;
卷积层CONV1_1~CONV7_2(即除卷积层CONV8外的所有卷积层)的卷积方式和卷积核尺寸均相同:卷积核大小为5×3,卷积核的个数为32,滑动步长为1,边缘填充为1;卷积层CONV8的卷积核大小为1×1,卷积核的个数为1,滑动步长为1,边缘填充为0;
池化层POOL1和POOL2均为:最大值池化,池化核大小为4×2,滑动步长为4×2,边缘填充为0;池化层POOL3为:最大值池化,池化核大小为2×1,滑动步长为2×1,边缘填充为0;
上采样层UP5:最近邻上采样,大小为2×1;上采样层UP6和UP7为:最近邻上采样,上采样因子为4×2;
融合层CONCAT5将上采样层UP5的输出与卷积层CONV3_2的输出进行特征图叠加,融合层CONCAT6将上采样层UP6的输出与卷积层CONV2_2的输出进行特征图叠加,融合层CONCAT7将上采样层UP7的输出与卷积层CONV1_2的输出进行特征图叠加。
3、训练卷积神经网络模型:
训练数据前向传播并计算交叉熵损失,将损失反向传播并更新模型参数。重复前向传播与反向传播直至模型收敛,认定模型收敛的条件是交叉验证集分数在10个epoch内不下降。训练完成后,模型参数保存到文件中。
4、使用已训练模型进行分离:
首先搭建卷积神经网络模型并加载训练好的模型参数。然后对待分离的混合声音信号进行短时傅里叶变换得到时频图,将待分离的混合声音信号时频图幅度输入到卷积神经网络模型得到估计的二值掩膜。将估计的二值掩膜与带分离的混合声音信号时频图相乘得到估计的原始声音信号时频图。最后将估计的原始声音信号时频图进行逆短时傅里叶变换得到估计的原始声音信号。
5、在iKala数据集上对本发明的模型进行评估:
评估所使用的指标是BSS-EVAL所定义的三个评价指标:信号失真比(SDR)、信号干扰比(SIR)和信号伪影比(SAR),其中SIR反映模型抑制干扰的能力,SAR反映模型对引入的误差的抑制能力,SDR反映模型的整体分离性能。信号失真比、信号干扰比和信号伪影比均为越大越好。评估结果如下表1所示,可以看出本发明所提出的卷积神经网络模型性能优越。
为了衡量本发明的分离方法在整个数据集上的分离效果,对每一首歌曲的评价指标进行加权求和,权重为歌曲的长度。最终的评价指标为全局归一化SDR(GNSDR)、全局SIR(GSIR)、全局SAR(GSAR),具体如表1所示。
表1、本发明方法在iKala数据集上,人声与伴奏分离的评价指标(dB)
其中RP1为文献“Rafii Z,Pardo B.REpeating Pattern Extraction Technique(REPET):A Simple Method for Music/Voice Separation[J].IEEE Transactions onAudio Speech&Language Processing,2012,21(1):73-84.”中提出的分离方式;IIY4为文献“Huang P S,Chen S D,Smaragdis P,et al.Singing-voice separation frommonaural recordings using robust principal component analysis[C]//IEEEInternational Conference on Acoustics,Speech and Signal Processing.IEEE,2012:57-60.”中提出的分离方式;LCP2为文献“Luo Y,Chen Z,Hershey J R,et al.DeepClustering and Conventional Networks for Music Separation:Stronger Together[J].2016.”中提出的分离方式;MC3为文献“Chandna P,Miron M,Janer J,etal.Monoaural Audio Source Separation Using Deep Convolutional Neural Networks[J].2017:258-266”中提出的分离方式。
图3为对应表1的柱状图,其中图(a)为不同声音分离方法的人声GNSDR;(b)为不同声音分离方法的伴奏GNSDR。。
综上,本发明方法利用了卷积神经网络善于挖掘二维数据空间特征的特性,在iKala数据集上取得了很高的信号失真比。相比于传统的声音分离方法,本发明方法利用了卷积神经网络结构,充分拟合输入数据的特征,同时具有很好的泛化性能,在非训练数据上也有很好的效果。与基于全连接神经网络的方法相比,基于卷积神经网络的方法具有更少的参数,在训练的过程中不容易出现过拟合。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (3)
1.基于卷积神经网络的单通道声音分离方法,其特征在于,包括下列步骤:
步骤1、构建训练数据:
101:对每一原始声音信号进行短时傅里叶变换得到原始声音信号时频图S(t,f);
102:对原始声音信号进行混合得到混合声音信号,并对混合声音信号进行短时傅里叶变换得到混合声音信号时频图Y(t,f);
103:由原始声音信号时频图和混合声音信号时频图构建理想二值掩膜:
步骤2、训练卷积神经网络模型:
201:构建用于单声道声音分离的卷积神经网络模型,所述卷积神经网络模型从输入层INPUT开始,依次经过卷积层CONV1_1,卷积层CONV1_2,池化层POOL1,卷积层CONV2_1,卷积层CONV2_2,池化层POOL2,卷积层CONV3_1,卷积层CONV3_2,池化层POOL3,卷积层CONV4_1,卷积层CONV4_2,上采样层UP5、融合层CONCAT5、卷积层CONV5_1、卷积层CONV5_2、上采样层UP6、融合层CONCAT6、卷积层CONV6_1、卷积层CONV6_2、上采样层UP7、融合层CONCAT7、卷积层CONV7_1、卷积层CONV7_2和卷积层CONV_8,且融合层CONCAT5将上采样层UP5的输出与卷积层CONV3_2的输出进行特征图叠加,融合层CONCAT6将上采样层UP6的输出与卷积层CONV2_2的输出进行特征图叠加,融合层CONCAT7将上采样层UP7的输出与卷积层CONV1_2的输出进行特征图叠加;
其中,输入层的大小为1024×8×1;
除卷积层CONV_8外,所有卷积层的卷积核尺寸和卷积方式相同:卷积核大小为5×3,卷积核的个数为32,滑动步长为1,边缘填充为1;卷积层CONV_8的卷积核大小为1×1,卷积核的个数为1,滑动步长为1,边缘填充为0;
池化层POOL1和POOL2的池化方式和池化核尺寸相同:池化核大小为4×2,最大值池化,滑动步长为4×2,边缘填充为0;池化层POOL3为:最大值池化,池化核大小为2×1,滑动步长为2×1,边缘填充为0;
上采样层UP5~UP7的采样方式均为最近邻上采样,其中上采样层UP6和UP7的上采样因子均为4×2,上采样层UP5的上采样因子为2×1;
202:设置训练参数;所述训练参数包括模型学习优化方式、学习率及最大迭代次数;
203:将混合声音信号时频图Y(t,f)幅度输入卷积神经网络模型,前向传播计算交叉墒损失;
204:将交叉墒损失反向传播更新神经元权重,其中神经元权重的初始值为预设值;
205:重复步骤203和204,直至模型收敛,得到训练好的卷积神经网络模型;
步骤3、使用训练好的卷积神经网络模型进行声音分离处理:
301:对待分离的混合声音信号进行短时傅里叶变换得到待分离的混合声音信号时频图;
302:将待分离的混合声音信号时频图幅度输入训练好的卷积神经网络模型,输出估计时频掩膜;
303:使用估计时频掩膜和待分离的混合声音信号时频图合成估计的原始声音信号时频图;
304:对估计的原始声音信号时频图进行逆短时傅里叶变换得到估计的原始声音信号。
2.如权利要求1所述的方法,其特征在于,模型学习优化方式采用Adam优化,初始学习率设置为0.001,若交叉验证集分数在5次迭代内不下降,则学习率下降为0.1倍,最大迭代次数设置为100。
3.如权利要求1所述的方法,其特征在于,模型收敛的条件为达到最大迭代次数或损失收敛,其中,认定损失收敛的条件为交叉验证集分数在10个epoch内没有下降,epoch表示使用训练集中的全部训练样本训练1次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710821803.7A CN107680611B (zh) | 2017-09-13 | 2017-09-13 | 基于卷积神经网络的单通道声音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710821803.7A CN107680611B (zh) | 2017-09-13 | 2017-09-13 | 基于卷积神经网络的单通道声音分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107680611A CN107680611A (zh) | 2018-02-09 |
CN107680611B true CN107680611B (zh) | 2020-06-16 |
Family
ID=61135588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710821803.7A Expired - Fee Related CN107680611B (zh) | 2017-09-13 | 2017-09-13 | 基于卷积神经网络的单通道声音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107680611B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830854A (zh) * | 2018-03-22 | 2018-11-16 | 广州多维魔镜高新科技有限公司 | 一种图像分割方法及存储介质 |
CN108766440B (zh) * | 2018-05-28 | 2020-01-14 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
JP7243052B2 (ja) * | 2018-06-25 | 2023-03-22 | カシオ計算機株式会社 | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム |
CN109036460B (zh) * | 2018-08-28 | 2020-01-07 | 百度在线网络技术(北京)有限公司 | 基于多模型神经网络的语音处理方法和装置 |
CN109461447B (zh) * | 2018-09-30 | 2023-08-18 | 厦门快商通信息技术有限公司 | 一种基于深度学习的端到端说话人分割方法及系统 |
CN109410968B (zh) * | 2018-11-15 | 2022-12-09 | 电子科技大学 | 一种高效的歌曲中人声起始位置检测方法 |
CN109614943A (zh) * | 2018-12-17 | 2019-04-12 | 电子科技大学 | 一种用于盲源分离的特征提取方法 |
CN109801644B (zh) * | 2018-12-20 | 2021-03-09 | 北京达佳互联信息技术有限公司 | 混合声音信号的分离方法、装置、电子设备和可读介质 |
CN109671446B (zh) * | 2019-02-20 | 2020-07-14 | 西华大学 | 一种基于绝对听觉阈值的深度学习语音增强方法 |
CN110148419A (zh) * | 2019-04-25 | 2019-08-20 | 南京邮电大学 | 基于深度学习的语音分离方法 |
CN110120227B (zh) * | 2019-04-26 | 2021-03-19 | 天津大学 | 一种深度堆叠残差网络的语音分离方法 |
CN110503940B (zh) * | 2019-07-12 | 2021-08-31 | 中国科学院自动化研究所 | 语音增强方法、装置、存储介质、电子设备 |
CN112309428B (zh) * | 2019-07-30 | 2024-03-19 | 微软技术许可有限责任公司 | 获得歌声检测模型 |
CN110619887B (zh) * | 2019-09-25 | 2020-07-10 | 电子科技大学 | 一种基于卷积神经网络的多说话人语音分离方法 |
CN111128211B (zh) * | 2019-12-02 | 2022-04-12 | 云知声智能科技股份有限公司 | 一种语音分离方法及装置 |
CN111341341B (zh) * | 2020-02-11 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 音频分离网络的训练方法、音频分离方法、装置及介质 |
CN111370032B (zh) * | 2020-02-20 | 2023-02-14 | 厦门快商通科技股份有限公司 | 语音分离方法、系统、移动终端及存储介质 |
CN111312224B (zh) * | 2020-02-20 | 2023-04-21 | 北京声智科技有限公司 | 语音分割模型的训练方法、装置和电子设备 |
CN112259118A (zh) * | 2020-10-19 | 2021-01-22 | 成都明杰科技有限公司 | 单声道人声与背景音乐分离方法 |
CN112233675B (zh) * | 2020-10-22 | 2023-10-27 | 中科南京智能技术研究院 | 一种基于分离卷积神经网络的语音唤醒方法及系统 |
TWI768676B (zh) * | 2021-01-25 | 2022-06-21 | 瑞昱半導體股份有限公司 | 音頻處理方法及音頻處理裝置以及非暫態計算機可讀取媒體 |
CN113447570A (zh) * | 2021-06-29 | 2021-09-28 | 同济大学 | 一种基于车载声学传感的无砟轨道病害检测方法及系统 |
CN117727312A (zh) * | 2023-12-12 | 2024-03-19 | 广州伏羲智能科技有限公司 | 一种目标噪声分离方法、系统及终端设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1941494A2 (en) * | 2005-10-06 | 2008-07-09 | DTS Licensing Limited | Neural network classifier for seperating audio sources from a monophonic audio signal |
CN104464727A (zh) * | 2014-12-11 | 2015-03-25 | 福州大学 | 一种基于深度信念网络的单通道音乐的歌声分离方法 |
CN105096961A (zh) * | 2014-05-06 | 2015-11-25 | 华为技术有限公司 | 语音分离方法和装置 |
CN106024005A (zh) * | 2016-07-01 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法及装置 |
CN106653048A (zh) * | 2016-12-28 | 2017-05-10 | 上海语知义信息技术有限公司 | 基于人声模型的单通道声音分离方法 |
CN106782504A (zh) * | 2016-12-29 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6543844B2 (ja) * | 2015-08-27 | 2019-07-17 | 本田技研工業株式会社 | 音源同定装置および音源同定方法 |
-
2017
- 2017-09-13 CN CN201710821803.7A patent/CN107680611B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1941494A2 (en) * | 2005-10-06 | 2008-07-09 | DTS Licensing Limited | Neural network classifier for seperating audio sources from a monophonic audio signal |
CN105096961A (zh) * | 2014-05-06 | 2015-11-25 | 华为技术有限公司 | 语音分离方法和装置 |
CN104464727A (zh) * | 2014-12-11 | 2015-03-25 | 福州大学 | 一种基于深度信念网络的单通道音乐的歌声分离方法 |
CN106024005A (zh) * | 2016-07-01 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法及装置 |
CN106653048A (zh) * | 2016-12-28 | 2017-05-10 | 上海语知义信息技术有限公司 | 基于人声模型的单通道声音分离方法 |
CN106782504A (zh) * | 2016-12-29 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
Non-Patent Citations (4)
Title |
---|
"Deep learning for monaural speech separation";Po-Sen Huang;《IEEE International Conference on Acoustics, Speech and Signal Processing》;20141231;全文 * |
"On the improvement of singing voice separation for monaural recordings using the MIR-1K dataset";Chao Ling Hsu;《IEEE Transactions on Audio Speech& Language Processing》;20091231;全文 * |
"REpeating Pattern Extraction Technique(REPET): A Simple Method for Music/Voice Separation";Rafii Z;《IEEE Transactions on Audio Speech& Language Processing》;20121231;第21卷(第1期);全文 * |
"Singing-voice separation from monaural recordings using robust principal component analysis";Huang P S;《IEEE International Conference on Acoustics, Speech and Signal Processing》;20121231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107680611A (zh) | 2018-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107680611B (zh) | 基于卷积神经网络的单通道声音分离方法 | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN109859767B (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 | |
CN111816156B (zh) | 基于说话人风格特征建模的多对多语音转换方法及系统 | |
US20160189730A1 (en) | Speech separation method and system | |
CN110136731A (zh) | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 | |
CN112989107B (zh) | 音频分类和分离方法、装置、电子设备以及存储介质 | |
CN109410917A (zh) | 基于改进型胶囊网络的语音数据分类方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN112309411B (zh) | 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统 | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
Venkataramani et al. | Adaptive front-ends for end-to-end source separation | |
Qin et al. | Improved Wasserstein conditional generative adversarial network speech enhancement | |
CN112259119B (zh) | 基于堆叠沙漏网络的音乐源分离方法 | |
Hasannezhad et al. | PACDNN: A phase-aware composite deep neural network for speech enhancement | |
CN113241092A (zh) | 基于双注意力机制和多阶段混合卷积网络声源分离方法 | |
CN113850246A (zh) | 基于对偶一致网络的声源定位与声源分离的方法和系统 | |
CN114613387A (zh) | 语音分离方法、装置、电子设备与存储介质 | |
Raj et al. | Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients | |
CN113724727A (zh) | 基于波束形成的长短时记忆网络语音分离算法 | |
CN116030824A (zh) | 一种基于深度神经网络的定向语音分离方法 | |
CN116013339A (zh) | 一种基于改进crn的单通道语音增强方法 | |
CN113707172B (zh) | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 | |
CN112562702B (zh) | 基于循环帧序列门控循环单元网络的语音超分辨率方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200616 |