CN110120227A - 一种深度堆叠残差网络的语音分离方法 - Google Patents

一种深度堆叠残差网络的语音分离方法 Download PDF

Info

Publication number
CN110120227A
CN110120227A CN201910345455.XA CN201910345455A CN110120227A CN 110120227 A CN110120227 A CN 110120227A CN 201910345455 A CN201910345455 A CN 201910345455A CN 110120227 A CN110120227 A CN 110120227A
Authority
CN
China
Prior art keywords
residual error
voice signal
layer
stacks
error network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910345455.XA
Other languages
English (en)
Other versions
CN110120227B (zh
Inventor
张涛
朱诚诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910345455.XA priority Critical patent/CN110120227B/zh
Publication of CN110120227A publication Critical patent/CN110120227A/zh
Application granted granted Critical
Publication of CN110120227B publication Critical patent/CN110120227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种深度堆叠残差网络的语音分离方法,包括:语音信号数据集的制作;语音信号的特征提取,包括分别提取语音信号每一帧的:梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征、Relative Spectral Transform‑Perceptual Linear Prediction和短时傅里叶变换幅度谱;深度堆叠残差网络的搭建;学习标签的制作;损失函数的制作;深度堆叠残差网络模型的训练。本发明分离出来的语音可以得到更高的语音质量和可懂度,尤其在低信噪比的声学的环境下。本发明在模型训练阶段不需要很多次的迭代就可以得到一个比较鲁棒的分离模型,而且模型的泛化能力特别强,对于未匹配的噪声环境也能有很好的性能表现。

Description

一种深度堆叠残差网络的语音分离方法
技术领域
本发明涉及一种语音分离方法。特别是涉及一种深度堆叠残差网络的语音分离方法。
背景技术
在现实生活中,人们所听到的声音几乎都是多种声音的组合体。语音信号往往会被各种噪声信号所干扰。语音分离技术旨在从被干扰的信号中分离出人们感兴趣的目标信号,从而提升语音的质量和可懂度。人耳听觉系统可以自动识别目标信号,即使在鸡尾酒会这种嘈杂的环境下,人耳也能轻易地识别出其中一个人的说话内容。所以语音分离通常被称为“鸡尾酒会问题”,这个术语是Cherry于1953年在他的论文中提出来的。采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。根据干扰的不同,语音分离任务可以分为三类:当干扰为噪声信号时,可以称为“语音增强”(Speech Enhancement);当干扰为其他说话人时,可以称为“多说话人分离”(Speaker Separation);当干扰为目标说话人自己声音的反射波时,可以称为“解混响”(De-reverberation),由于麦克风采集到的声音中可能包括噪声、其他人说话的声音、混响等干扰,不做语音分离、直接进行识别的话,会影响到识别的准确率。因此在语音识别的前端加上语音分离技术,把目标说话人的声音和其它干扰分开就可以提高语音识别系统的鲁棒性,这从而也成为现代语音识别系统中不可或缺的一环.
迄今为止在针对语音分离领域已经有许多方法产生。在早期该领域专家提出了谱减法(Spectral Subtraction)、维纳滤波法(Wiener Filtering)和最小均方误差(MinimumMean Squared Error,MMSE)等。对于谱减法,谱减法是处理宽带噪声的最通用技术。它利用语音信号的短时平稳特性,从带噪语音的短时谱值中减去噪声的短时谱,从而得到纯净语音的频谱达到语音增强得目的。谱减法包括两种方法:幅度谱减法和功率谱减法。幅度谱减法就是在频域中从带噪语音的幅度谱上减去噪声的幅度谱作为语音信号的幅度谱;功率谱减法通过从带噪语音的功率谱中减去噪声的功率谱,得到纯净语音的功率谱估计,通过开方运算得到幅度谱。维纳滤波法是一种最小均方误差意义下的最优滤波器,维纳滤波法要求输入过程广义平稳且统计特性已知。早期提出的方法对环境都有特殊要求,要求噪声平稳的环境,否则对分离效果影响很大,由其在低信噪比的情况下效果特别差。但是在真实的环境中,大部分环境都是非平稳噪声。
在过去几年中,语音分离已被表达成一个监督学习问题。王等人在论文“A newBayesian method incorporating with local correlation for Ibm estimation”中首先引入深度神经网络来解决语音分离问题。对于有监督的语音分离,理想二值掩蔽和幅度谱图是最常见的分离目标。它们已经被证明能够在嘈杂的环境中显着提高语音的可懂度和感知质量。随后,徐等人在论文“An experimental study on speech enhancement basedon deep neural networks”中采用DNN来学习从嘈杂语音的对数功率谱到纯净语音的对数功能谱的映射函数。他们的实验结果表明,训练有素的DNN得到的语音质量(PESQ)高于传统的增强方法。过去十年见证了CNN在计算机视觉和自然语言处理领域的巨大成功。典型的CNN架构包括级联的卷积层,子采样层和完全连接的层。尽管近年来CNN已被用于语音分离,但它们都没有比DNN实现显著的性能提升。再后来,采用卷积最大神经网络(CMNN)来估计理想浮值掩蔽。实验结果表明,与DNN分离的语音相比,CMNN会得到相当的PESQ增益。
发明内容
本发明所要解决的技术问题是,提供一种能够使分离出来的语音得到更高的语音质量和可懂度的深度堆叠残差网络的语音分离方法。
本发明所采用的技术方案是:一种深度堆叠残差网络的语音分离方法,包括如下步骤:
1)语音信号数据集的制作;
2)语音信号的特征提取,包括分别提取语音信号每一帧的:
梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征、RelativeSpectral Transform-Perceptual Linear Prediction和短时傅里叶变换幅度谱;
3):深度堆叠残差网络的搭建
深度堆叠残差网络框架是由卷积通道、第一全连接通道和第二全连接通道构成,其中,所述的卷积通道是由7个卷积残差模块组成,所述的第一全连接通道是由3个第一全连接残差模块组成,所述第二全连接通道是由3个第二全连接残差模块组成,所述的卷积通道和第一全连接通道输出经过级联输入到第二全连接通道;
4)学习标签的制作
采用如下理想浮值掩蔽IRM(m,f)公式制作学习目标:
其中S(m,f)2和N(m,f)2分别表示时间帧为m和频率为f时T-F单元内的语音能量和噪声能量;
5)损失函数的制作
所述的损失函数的制作采用如下的损失函数cost的表达式:
其中L2(w)表示深度堆叠残差网络最后一层权值的二范数,表示深度堆叠残差网络的预测值,yn表示学习目标的真实值;
6)深度堆叠残差网络模型的训练
深度堆叠残差网络的输入分为两部分,输入的一部分为特征集,包含梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征和Relative SpectralTransform-Perceptual Linear Prediction四种特征;输入的另一部分为语音信号当前帧以及相邻四帧的短时傅里叶变换幅度谱。
步骤1)是从TIMIT纯净语音库随机抽取1500段语音,每个语音都来自不同的语音文件,将1500段语音与从NOISEX-92数据库选取的15种噪声随机混合,得到语音信号的数据集。
步骤2)所述的提取梅尔倒谱系数,是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换,得到语音信号的功率谱,所述的将功率谱转换到梅尔域,再经过对数运算和离散傅里叶变换,得到31维的梅尔倒谱系数。
步骤2)所述的提取Amplitude Modulation Spectrogram,是通过全波整流提取语音信号的包络,对所述的包络进行四分之一抽样,对抽样后得到的语音信号使用汉明窗进行加窗处理,采用32ms的帧长和10ms帧移对加窗处理后的信号进行短时傅里叶变换,得到抽样后的语音信号的幅度谱,最后利用15个中心频率均匀分布在15.6到400HZ的三角窗对所述抽样后的语音信号的幅度谱滤波,得到15维的Amplitude Modulation Spectrogram。
步骤2)所述的提取Gammatone特征,是使用64通道的gammatone滤波器组分解语音信号,对每一个分解出的语音信号,使用100HZ的采样率进行采样,分别得到10毫秒帧偏移的语音信号,将所有偏移的语音信号的幅度通过立方根运算得到放大压缩后的64维的Gammatone特征。
步骤2)所述的提取Relative Spectral Transform-Perceptual LinearPrediction,是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换,得到语音信号的功率谱,使用梯形滤波器将所述的语音信号的功率谱转换到20通道的巴克尺度,然后应用等响度预加重得到预加重信号,再对预加重信号使用强度响度定律,最后将强度响度定律处理后的信号经12阶线性预测模型预测的倒谱系数形成13维的Relative Spectral Transform-Perceptual LinearPrediction。
步骤2)所述的提取短时傅里叶变换幅度谱,是对采样率为16KHz的语音信号采用25ms帧长的汉明窗和10ms的帧移进行399点短时傅里叶变换,得到短时傅里叶变换幅度谱。
步骤3)所述的:
卷积残差模块,包含3层卷积层,第一层卷积层采用32通道,卷积核大小采用1×1的二维卷积窗,第二层卷积层采用32通道,卷积核大小采用3×3的二维卷积窗,第三层卷积层采用64通道,卷积核大小采用1×1的二维卷积窗,每层卷积层之前都设有一层归一化层,激活函数都采用Relu函数,第一层的输入与第三层的输出采用残差形式连接;
第一全连接残差模块,包含一层全连接层,且全连接层前面设有一层归一化层,激活函数采用Relu函数,输入与输出采用残差形式连接;
第二全连接残差模块,包含一层全连接层,且全连接层前面设有一层归一化层,激活函数采用sigmoid函数,输入与输出采用残差形式连接。
本发明的一种深度堆叠残差网络的语音分离方法,分离出来的语音可以得到更高的语音质量和可懂度,尤其在低信噪比的声学的环境下。在不同的信噪比下本发明的一种深度堆叠残差网络的语音分离方法的分离性能相比于与最新的深度学习算法也有一定的提升。在模型训练阶段不需要很多次的迭代就可以得到一个比较鲁棒的分离模型,而且模型的泛化能力特别强,对于未匹配的噪声环境也能有很好的性能表现。
附图说明
图1是本发明中深度堆叠残差网络的框架结构示意图;
图2是本发明中卷积残差模块示意图;
图3是本发明中第一全连接残差模块示意图;
图4是本发明中第二全连接残差模块示意图;
图5a是本发明的深度堆叠残差网络语音质量对比图;
图5b是本发明的深度堆叠残差网络语音可懂度对比图;
具体实施方式
下面结合实施例和附图对本发明的一种深度堆叠残差网络的语音分离方法做出详细说明。
本发明的一种深度堆叠残差网络的语音分离方法,包括如下步骤:
1)语音信号数据集的制作;是从TIMIT纯净语音库随机抽取1500段语音,每个语音都来自不同的语音文件,将1500段语音与从NOISEX-92数据库选取的15种噪声随机混合,得到语音信号的数据集。
2)语音信号的特征提取,包括分别提取语音信号每一帧的:
梅尔倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、AmplitudeModulation Spectrogram(AMS)、Gammatone特征(GF)、Relative Spectral Transform-Perceptual Linear Prediction(RASTA-PLP)和短时傅里叶变换幅度谱;其中,
(1)所述的提取梅尔倒谱系数,是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换,得到语音信号的功率谱,所述的将功率谱转换到梅尔域,再经过对数运算和离散傅里叶变换(Discrete CosineTransfor,DCT),得到31维的梅尔倒谱系数。
(2)所述的提取Amplitude Modulation Spectrogram,是通过全波整流提取语音信号的包络,对所述的包络进行四分之一抽样,对抽样后得到的语音信号使用汉明窗进行加窗处理,采用32ms的帧长和10ms帧移对加窗处理后的信号进行短时傅里叶变换,得到抽样后的语音信号的幅度谱,最后利用15个中心频率均匀分布在15.6到400HZ的三角窗对所述抽样后的语音信号的幅度谱滤波,得到15维的Amplitude Modulation Spectrogram。
(3)所述的提取Gammatone特征,是使用64通道的gammatone滤波器组分解语音信号,对每一个分解出的语音信号,使用100HZ的采样率进行采样,分别得到10毫秒帧偏移的语音信号,将所有偏移的语音信号的幅度通过立方根运算得到放大压缩后的64维的Gammatone特征。
(4)PLP是语音识别中常用的一种表示形式,其目的是寻找由共振峰组成的平滑光谱,能够尽可能消除说话人的差异。所述的提取Relative Spectral Transform-Perceptual Linear Prediction,是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换,得到语音信号的功率谱,使用梯形滤波器将所述的语音信号的功率谱转换到20通道的巴克尺度,然后应用等响度预加重得到预加重信号,再对预加重信号使用强度响度定律,最后将强度响度定律处理后的信号经12阶线性预测模型预测的倒谱系数形成13维的Relative Spectral Transform-Perceptual Linear Prediction。
(5)所述的提取短时傅里叶变换幅度谱,是对采样率为16KHz的语音信号采用25ms帧长的汉明窗和10ms的帧移进行399点短时傅里叶变换,得到短时傅里叶变换幅度谱。
3):深度堆叠残差网络的搭建
如图1所示,深度堆叠残差网络框架是由卷积通道、第一全连接通道和第二全连接通道构成,其中,所述的卷积通道是由7个卷积残差模块a组成,所述的第一全连接通道是由3个第一全连接残差模块b组成,所述第二全连接通道是由3个第二全连接残差模块c组成,所述的卷积通道和第一全连接通道输出经过级联输入到第二全连接通道;其中,
卷积残差模块(a),如图2所示,包含3层卷积层,第一层卷积层采用32通道,卷积核大小采用1×1的二维卷积窗,第二层卷积层采用32通道,卷积核大小采用3×3的二维卷积窗,第三层卷积层采用64通道,卷积核大小采用1×1的二维卷积窗,每层卷积层之前都设有一层归一化层,激活函数都采用Relu函数,第一层的输入与第三层的输出采用残差形式连接;
第一全连接残差模块(b),如图3所示,包含一层全连接层,且全连接层前面设有一层归一化层,激活函数采用Relu函数,输入与输出采用残差形式连接;
第二全连接残差模块(c),如图4所示,包含一层全连接层,且全连接层前面设有一层归一化层,激活函数采用sigmoid函数,输入与输出采用残差形式连接。
4)学习标签的制作
理想浮值掩蔽(IRM)是监督学习语音分离中广泛使用的训练目标,本发明采用如下理想浮值掩蔽IRM(m,f)公式制作学习目标:
其中S(m,f)2和N(m,f)2分别表示时间帧为m和频率为f时T-F单元内的语音能量和噪声能量;
5)损失函数的制作
损失函数在整个网络模型训练中起着至关重要的作用,本发明所述的损失函数的制作是采用如下的损失函数cost的表达式:
其中L2(w)表示深度堆叠残差网络最后一层权值的二范数,表示深度堆叠残差网络的预测值,yn表示学习目标的真实值;
6)深度堆叠残差网络模型的训练
深度堆叠残差网络的输入分为两部分,输入的一部分为特征集,包含梅尔倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、Amplitude Modulation Spectrogram(AMS)、Gammatone特征(GF)和Relative Spectral Transform-Perceptual LinearPrediction(RASTA-PLP)四种特征;输入的另一部分为语音信号当前帧以及相邻四帧的短时傅里叶变换幅度谱。
下面给出实例:
1、在数据集制作上,数据集应该是在-5~5dB的连续变化信噪比下产生1500个混合语音。
2、在深度堆叠网络框架上,其中卷积残差网络模块如图2所示,该模块有三层卷积层和三层归一化层利用残差网络组合而成,卷积层用来提取STFT域幅度谱的高阶特征,三层卷积层都采用2维的卷积核,卷积核步长都为1,且采用补0的方式使卷积过后得到的特征图大小与输入保持一致,从上而下第一层卷积层卷积核大小为1*1输出通道数为32,第二层卷积核大小为3*3输出通道数为32,第三层卷积核大小为1*1输出通道数为64,卷积层的激活函数都为Relu激活函数,归一化层用来加速网络收敛速度,以及防止网络过深导致梯度弥散。全连接残差网络模块1(Dense residual block1)如图3所示,该模块由一个归一化层和一个全连接层用残差网络的形式连接组成,该全连接层有1024个神经元,全连接层使用的是Relu激活函数。全连接残差网络模块2(Dense residual block2)如图4所示,该模块由一个归一化层和一个全连接层用残差网络的形式连接组成,该全连接层有4096个神经元,全连接层使用的是Sigmoid激活函数。
3、在进行网络模型训练时,采用200帧语音信号作为一个批次,学习率为0.001,迭代次数为40次。
如图5a所示,在相同的信噪比下,本发明的一种深度堆叠残差网络的语音分离方法相比DNN_IRM、GRN_IRM具有更高的语音质量(GPESQ),如图5b所示,在语音可懂度(GSTOI)上本发明的一种深度堆叠残差网络的语音分离方法,在低信噪比情况下分离性能更好。

Claims (8)

1.一种深度堆叠残差网络的语音分离方法,其特征在于,包括如下步骤:
1)语音信号数据集的制作;
2)语音信号的特征提取,包括分别提取语音信号每一帧的:
梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征、RelativeSpectral Transform-Perceptual Linear Prediction和短时傅里叶变换幅度谱;
3):深度堆叠残差网络的搭建
深度堆叠残差网络框架是由卷积通道、第一全连接通道和第二全连接通道构成,其中,所述的卷积通道是由7个卷积残差模块(a)组成,所述的第一全连接通道是由3个第一全连接残差模块(b)组成,所述第二全连接通道是由3个第二全连接残差模块(c)组成,所述的卷积通道和第一全连接通道输出经过级联输入到第二全连接通道;
4)学习标签的制作
采用如下理想浮值掩蔽IRM(m,f)公式制作学习目标:
其中S(m,f)2和N(m,f)2分别表示时间帧为m和频率为f时T-F单元内的语音能量和噪声能量;
5)损失函数的制作
所述的损失函数的制作采用如下的损失函数cost的表达式:
其中L2(w)表示深度堆叠残差网络最后一层权值的二范数,表示深度堆叠残差网络的预测值,yn表示学习目标的真实值;
6)深度堆叠残差网络模型的训练
深度堆叠残差网络的输入分为两部分,输入的一部分为特征集,包含梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征和Relative Spectral Transform-Perceptual Linear Prediction四种特征;输入的另一部分为语音信号当前帧以及相邻四帧的短时傅里叶变换幅度谱。
2.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤1)是从TIMIT纯净语音库随机抽取1500段语音,每个语音都来自不同的语音文件,将1500段语音与从NOISEX-92数据库选取的15种噪声随机混合,得到语音信号的数据集。
3.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤2)所述的提取梅尔倒谱系数,是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换,得到语音信号的功率谱,所述的将功率谱转换到梅尔域,再经过对数运算和离散傅里叶变换,得到31维的梅尔倒谱系数。
4.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤2)所述的提取Amplitude Modulation Spectrogram,是通过全波整流提取语音信号的包络,对所述的包络进行四分之一抽样,对抽样后得到的语音信号使用汉明窗进行加窗处理,采用32ms的帧长和10ms帧移对加窗处理后的信号进行短时傅里叶变换,得到抽样后的语音信号的幅度谱,最后利用15个中心频率均匀分布在15.6到400HZ的三角窗对所述抽样后的语音信号的幅度谱滤波,得到15维的Amplitude Modulation Spectrogram。
5.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤2)所述的提取Gammatone特征,是使用64通道的gammatone滤波器组分解语音信号,对每一个分解出的语音信号,使用100HZ的采样率进行采样,分别得到10毫秒帧偏移的语音信号,将所有偏移的语音信号的幅度通过立方根运算得到放大压缩后的64维的Gammatone特征。
6.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤2)所述的提取Relative Spectral Transform-Perceptual Linear Prediction,是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换,得到语音信号的功率谱,使用梯形滤波器将所述的语音信号的功率谱转换到20通道的巴克尺度,然后应用等响度预加重得到预加重信号,再对预加重信号使用强度响度定律,最后将强度响度定律处理后的信号经12阶线性预测模型预测的倒谱系数形成13维的Relative Spectral Transform-Perceptual Linear Prediction。
7.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤2)所述的提取短时傅里叶变换幅度谱,是对采样率为16KHz的语音信号采用25ms帧长的汉明窗和10ms的帧移进行399点短时傅里叶变换,得到短时傅里叶变换幅度谱。
8.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤3)所述的:
卷积残差模块(a),包含3层卷积层,第一层卷积层采用32通道,卷积核大小采用1×1的二维卷积窗,第二层卷积层采用32通道,卷积核大小采用3×3的二维卷积窗,第三层卷积层采用64通道,卷积核大小采用1×1的二维卷积窗,每层卷积层之前都设有一层归一化层,激活函数都采用Relu函数,第一层的输入与第三层的输出采用残差形式连接;
第一全连接残差模块(b),包含一层全连接层,且全连接层前面设有一层归一化层,激活函数采用Relu函数,输入与输出采用残差形式连接;
第二全连接残差模块(c),包含一层全连接层,且全连接层前面设有一层归一化层,激活函数采用sigmoid函数,输入与输出采用残差形式连接。
CN201910345455.XA 2019-04-26 2019-04-26 一种深度堆叠残差网络的语音分离方法 Active CN110120227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910345455.XA CN110120227B (zh) 2019-04-26 2019-04-26 一种深度堆叠残差网络的语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910345455.XA CN110120227B (zh) 2019-04-26 2019-04-26 一种深度堆叠残差网络的语音分离方法

Publications (2)

Publication Number Publication Date
CN110120227A true CN110120227A (zh) 2019-08-13
CN110120227B CN110120227B (zh) 2021-03-19

Family

ID=67521488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910345455.XA Active CN110120227B (zh) 2019-04-26 2019-04-26 一种深度堆叠残差网络的语音分离方法

Country Status (1)

Country Link
CN (1) CN110120227B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503976A (zh) * 2019-08-15 2019-11-26 广州华多网络科技有限公司 音频分离方法、装置、电子设备及存储介质
CN110867181A (zh) * 2019-09-29 2020-03-06 北京工业大学 基于scnn和tcnn联合估计的多目标语音增强方法
CN111105809A (zh) * 2019-12-31 2020-05-05 云知声智能科技股份有限公司 一种降噪方法及装置
CN111128209A (zh) * 2019-12-28 2020-05-08 天津大学 一种基于混合掩蔽学习目标的语音增强方法
CN111144347A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置、平台及存储介质
CN111261146A (zh) * 2020-01-16 2020-06-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
CN111583954A (zh) * 2020-05-12 2020-08-25 中国人民解放军国防科技大学 一种说话人无关单通道语音分离方法
CN111899750A (zh) * 2020-07-29 2020-11-06 哈尔滨理工大学 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN112150238A (zh) * 2020-09-07 2020-12-29 湖北工业大学 一种基于深度神经网络的商品推荐方法及系统
CN112465135A (zh) * 2019-09-06 2021-03-09 华为技术有限公司 数据处理方法、装置、计算机可读存储介质和芯片
CN112509593A (zh) * 2020-11-17 2021-03-16 北京清微智能科技有限公司 一种语音增强网络模型、单通道的语音增强方法及系统
CN112786068A (zh) * 2021-01-12 2021-05-11 普联国际有限公司 一种音频音源分离方法、装置及存储介质
CN113035217A (zh) * 2021-03-01 2021-06-25 武汉大学 一种基于声纹嵌入的低信噪比条件下的语音增强方法
WO2021159775A1 (zh) * 2020-02-11 2021-08-19 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
CN113506583A (zh) * 2021-06-28 2021-10-15 杭州电子科技大学 利用残差网络的伪装语音检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9524730B2 (en) * 2012-03-30 2016-12-20 Ohio State Innovation Foundation Monaural speech filter
CN105825866A (zh) * 2016-05-24 2016-08-03 天津大学 基于模糊系统实时卷积混合盲信号分离自适应步长方法
CN106887225B (zh) * 2017-03-21 2020-04-07 百度在线网络技术(北京)有限公司 基于卷积神经网络的声学特征提取方法、装置和终端设备
CN107680611B (zh) * 2017-09-13 2020-06-16 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN108847223B (zh) * 2018-06-20 2020-09-29 陕西科技大学 一种基于深度残差神经网络的语音识别方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503976A (zh) * 2019-08-15 2019-11-26 广州华多网络科技有限公司 音频分离方法、装置、电子设备及存储介质
CN110503976B (zh) * 2019-08-15 2021-11-23 广州方硅信息技术有限公司 音频分离方法、装置、电子设备及存储介质
CN112465135A (zh) * 2019-09-06 2021-03-09 华为技术有限公司 数据处理方法、装置、计算机可读存储介质和芯片
CN110867181A (zh) * 2019-09-29 2020-03-06 北京工业大学 基于scnn和tcnn联合估计的多目标语音增强方法
CN110867181B (zh) * 2019-09-29 2022-05-06 北京工业大学 基于scnn和tcnn联合估计的多目标语音增强方法
CN111128209A (zh) * 2019-12-28 2020-05-08 天津大学 一种基于混合掩蔽学习目标的语音增强方法
CN111128209B (zh) * 2019-12-28 2022-05-10 天津大学 一种基于混合掩蔽学习目标的语音增强方法
CN111144347A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置、平台及存储介质
CN111105809A (zh) * 2019-12-31 2020-05-05 云知声智能科技股份有限公司 一种降噪方法及装置
CN111105809B (zh) * 2019-12-31 2022-03-22 云知声智能科技股份有限公司 一种降噪方法及装置
CN111261146A (zh) * 2020-01-16 2020-06-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
WO2021159775A1 (zh) * 2020-02-11 2021-08-19 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
CN111583954A (zh) * 2020-05-12 2020-08-25 中国人民解放军国防科技大学 一种说话人无关单通道语音分离方法
CN111583954B (zh) * 2020-05-12 2021-03-30 中国人民解放军国防科技大学 一种说话人无关单通道语音分离方法
CN111899750A (zh) * 2020-07-29 2020-11-06 哈尔滨理工大学 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN111899750B (zh) * 2020-07-29 2022-06-14 哈尔滨理工大学 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN112150238A (zh) * 2020-09-07 2020-12-29 湖北工业大学 一种基于深度神经网络的商品推荐方法及系统
CN112509593A (zh) * 2020-11-17 2021-03-16 北京清微智能科技有限公司 一种语音增强网络模型、单通道的语音增强方法及系统
CN112509593B (zh) * 2020-11-17 2024-03-08 北京清微智能科技有限公司 一种语音增强网络模型、单通道的语音增强方法及系统
CN112786068A (zh) * 2021-01-12 2021-05-11 普联国际有限公司 一种音频音源分离方法、装置及存储介质
CN112786068B (zh) * 2021-01-12 2024-01-16 普联国际有限公司 一种音频音源分离方法、装置及存储介质
CN113035217A (zh) * 2021-03-01 2021-06-25 武汉大学 一种基于声纹嵌入的低信噪比条件下的语音增强方法
CN113035217B (zh) * 2021-03-01 2023-11-10 武汉大学 一种基于声纹嵌入的低信噪比条件下的语音增强方法
CN113506583A (zh) * 2021-06-28 2021-10-15 杭州电子科技大学 利用残差网络的伪装语音检测方法
CN113506583B (zh) * 2021-06-28 2024-01-05 杭州电子科技大学 利用残差网络的伪装语音检测方法

Also Published As

Publication number Publication date
CN110120227B (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN110120227A (zh) 一种深度堆叠残差网络的语音分离方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
Schmidt et al. Wind noise reduction using non-negative sparse coding
Delcroix et al. Compact network for speakerbeam target speaker extraction
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
CN111243617B (zh) 一种基于深度学习降低mfcc特征失真的语音增强方法
Sharma et al. Study of robust feature extraction techniques for speech recognition system
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
CN110970044B (zh) 一种面向语音识别的语音增强方法
Hou et al. Domain adversarial training for speech enhancement
Chao et al. Cross-domain single-channel speech enhancement model with bi-projection fusion module for noise-robust ASR
Venkatesan et al. Binaural classification-based speech segregation and robust speaker recognition system
Zhang et al. Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss.
Bonet et al. Speech enhancement for wake-up-word detection in voice assistants
Hsu et al. Voice activity detection based on frequency modulation of harmonics
Maganti et al. Auditory processing-based features for improving speech recognition in adverse acoustic conditions
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
Ali et al. A speech enhancement front-end for intent classification in noisy environments
Singh et al. Speech enhancement for Punjabi language using deep neural network
Ravindran et al. Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing
Yu et al. Text-Dependent Speech Enhancement for Small-Footprint Robust Keyword Detection.
Shao et al. A versatile speech enhancement system based on perceptual wavelet denoising
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
Shu-Guang et al. Isolated word recognition in reverberant environments
Agrawal et al. Deep variational filter learning models for speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant