CN108615533B - 一种基于深度学习的高性能语音增强方法 - Google Patents
一种基于深度学习的高性能语音增强方法 Download PDFInfo
- Publication number
- CN108615533B CN108615533B CN201810265012.5A CN201810265012A CN108615533B CN 108615533 B CN108615533 B CN 108615533B CN 201810265012 A CN201810265012 A CN 201810265012A CN 108615533 B CN108615533 B CN 108615533B
- Authority
- CN
- China
- Prior art keywords
- dbn
- training
- voice
- layer
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Abstract
一种基于深度学习的高性能语音增强方法:对音频PCM编码信号预处理:对音频PCM编码信号进行分帧、加窗,同时按照设定比例将原始数据集分为训练集和测试集;利用黄金分割法确定DBN隐藏层节点数;利用训练集对DBN的权重和偏置参数进行预训练;利用训练集对DBN的权重和偏置参数进行微调;提取DBN特征,是利用微调得到的DBN权重和偏置参数分别提取DBN训练集特征和DBN测试集特征;利用提取的DBN训练集特征对监督学习语音分离系统进行训练;将提取的DBN的测试集特征作为已训练好的监督学习语音分离系统的输入,监督学习语音分离系统输出即为估计的目标标签,通过语音波形合成可得最终增强后的语音。本发明在语音评价指标上都得到了较大提升。
Description
技术领域
本发明涉及一种语音增强方法。特别是涉及一种基于深度学习的高性能语音增强方法。
背景技术
1、监督学习语音分离基线系统工作原理
监督学习语音分离系统中计算听觉场景分析是一种典型的语音分离方法,它是基于听觉场景分析的感知原则,通常以理想比率掩码为训练目标进行噪声抑制。理想比率掩码是一种从预混合的语音和噪声中构造的时频掩码,定义如下,
其中,S2(t,f),N2(t,f)分别表示时频单元中语音和噪声的能量,时频单元是信号通过γ-tone滤波器组,子带信号分帧后的表达。β是可调的放缩指数,根据经验通常取β=0.5,预混合的训练语音和噪声分别通过一个多通道的γ-tone滤波器组,利用上述公式可求得训练集的子带理想比率掩码。
监督学习语音分离可分为三个关键的步骤:声学特征提取、监督模型构建和训练目标估计,附图1给出了基于听觉场景分析的监督学习语音分离基线系统结构框图,该基线系统主要分为训练和测试两个阶段,基线系统工作流程如下描述:第一阶段为训练阶段,首先预混合的纯净语音与噪声经γ-tone滤波器组后计算训练目标子带理想比率掩码,然后纯净语音与噪声信号混合得到带噪信号,进而从带噪信号中提取声学特征,随后声学特征作为输入,训练目标子带理想比率掩码作为输出,利用反向传播算法进行深层神经网络语音增强模型训练,经迭代训练后得到权重偏置等参数,最后可得训练好的语音分离模型;第二阶段为测试阶段,首先从带噪信号中提取声学特征,然后声学特征作为已训练好的语音分离模型的输入,语音分离模型的输出即为估计的目标标签,经语音波形合成得最终增强后语音。
2、深信度神经网络提取声学特征的原理
深信度神经网络(Deep Belief Networks,DBN)是一种生成模型,由多个受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)堆叠而成,通过训练DBN神经元间的权重,可使整个神经网络按照最大概率生成特征数据,DBN权重偏置等参数学习分为预训练和微调两个过程。如附图2a所示,以两个RBM为例,在预训练中,带噪信号通过可见层v1输入到下层的RBM,自下向上每个RBM被逐个预训练,附图2b中,利用权重转置多个RBM堆叠组成对称的DBN,附图2c中展示了DBN微调过程,并指出了声学特征层。
(1)预训练
DBN的预训练通常利用对比散列学习算法来实现,其处理过程示意图如附图3所示,首先根据可见数据v0来得到隐藏层单元h0的状态,然后通过h0来重构可见向量v1,然后再根据v1来生成新的隐藏层向量h1,多次迭代,直到重建数据与原始输入数据之间误差减小到最小。
(2)微调
每个RBM都利用上述对比散列算法预训练后,得到DBN的初始权重,然而预训练得到的初始权重可能只考虑了代价函数的局部最优,忽略了全局性,为了弥补这一缺点,需要进行整体网络参数微调。如附图2(c)所示,RBM通过转置权重矩阵组成对称的DBN,微调过程是监督学习,分帧、加窗、标准化预处理后的音频PCM编码数据既作为DBN的输入层数据,也作为输出层训练目标数据,通过误差反向传播进行权重等参数更新,中间声学特征层提取得到的数据即为语音信号的DBN声学特征。
3、黄金分割法确定DBN隐藏层节点数原理
在RBM训练中,最小均方误差是原始输入数据与重建数据之间差别的主要衡量指标,因此在确定最佳的隐藏层节点数时可以将最小均方误差作为目标函数。经实验发现,在进行语音PCM编码数据声学特征提取时,隐藏层节点数量与均方误差之间满足先单调后波动或者是单峰函数关系,对于先单调后波动的情况,容易综合考虑网络复杂度与性能之间平衡,选择合适的隐藏层节点数;对于单峰函数的情况,可利用黄金分割法确定隐藏层最佳节点数,随着实验次数的增加,最佳节点数被限定在越来越小范围内,最终可确定最优点。
发明内容
本发明所要解决的技术问题是,提供一种利用DBN提取声学特征,并将声学特征用于监督学习语音分离基线系统进行语音增强的基于深度学习的高性能语音增强方法。
本发明所采用的技术方案是:一种基于深度学习的高性能语音增强方法,包括如下步骤:
1)对音频PCM编码信号预处理:对音频PCM编码信号进行分帧、加窗,同时按照设定比例将原始数据集分为训练集和测试集;
2)利用黄金分割法确定DBN隐藏层节点数;
3)利用训练集对DBN的权重和偏置参数进行预训练;
4)利用训练集对DBN的权重和偏置参数进行微调;
5)提取DBN特征,是利用步骤4)微调得到的DBN权重和偏置参数分别提取DBN训练集特征和DBN测试集特征;
6)利用步骤5)提取的DBN训练集特征对监督学习语音分离系统进行训练;
7)语音增强,将步骤5)提取的DBN的测试集特征作为步骤6)已训练好的监督学习语音分离系统的输入,监督学习语音分离系统输出即为估计的目标标签,通过语音波形合成可得最终增强后的语音。
步骤1)中所述的原始数据集是由720条TIMIT语料库纯净语音和NOISEX92噪声库中的噪声混合得到。
步骤2)包括:设DBN隐藏层节点数起始取值范围为:[x1,x2],计算所述起始取值范围内的两个黄金分割点,
x3=x2-0.618×(x2-x1)
x4=x1+0.618×(x2-x1)
比较两个黄金分割点x3,x4最小均方误差的大小,如果黄金分割点x3的最小均方误差小于黄金分割点x4,则舍弃黄金分割点x4右边的取值范围,新的取值范围为[x1,x4];如果x4点的最小均方误差小于黄金分割点x3,则舍弃x3点左边的取值范围,新的取值范围为[x3,x2];重复迭代,逐渐缩小最优隐藏层节点数取值范围,达到设定的迭代次数,得最优的隐藏层节点数。
步骤3)包括:根据步骤2)得到的DBN隐藏层节点数,将步骤1)预处理后的训练集的语音数据取一帧样本数据y,将y值赋给可视层单元v0,随机初始化权重w,计算可视层单元v0使DBN隐藏层hj被开启的概率,即DBN隐藏层hj以概率p(hj=1|v(0))设置为状态1,以概率1-p(hj=1|v(0))设置为0,从可视层到隐藏层的概率p(hj=1|v(0))计算表达式如下:
其中,σ表示logistic函数,bj表示隐藏层的偏置参数,wij表示连接可见层与隐藏层的权重参数,式中下标用于区别同一向量中不同的维度,上标用于区分迭代重建次数,从计算出的概率中抽取出一个样本h(0)~p(h(0)|v(0)),用h0重构可视层单元v1,从隐藏层到可视层的概率p(vi=1|h(0))计算表达式如下:
w=w+ε(p(h(0)=1|v(0))v(0)T-p(h(1)=1|v(1))v(1)T)
ε为学习率,v(0)T中的T表示矩阵转置符号,取下一帧样本数据,重复迭代,直到所有训练集数据训练完成。
步骤4)包括:将步骤3)预训练得到的权重和偏置参数作为初始参数,将步骤1)预处理后的训练集的语音数据分别作为DBN的输入层数据和DBN的输出层数据,利用反向传播算法进行DBN权重和偏置参数的微调,得到最终的DBN权重和偏置参数。
步骤6)包括:将步骤5)提取的DBN训练集特征作为监督学习语音分离系统的输入,将步骤1)预处理后训练集的带噪信号通过多通道的γ-tone滤波器组滤波计算得到的理想比率掩码作为监督学习语音分离系统的输出,对监督学习语音分离系统进行训练。
本发明的基于深度学习的高性能语音增强方法,在短时目标可懂度(Short-TimeObjective Intelligibility,STOI)、语音质量感知评估(Perceptual EvaluationofSpeech Quality,PESQ)、信噪比(Signal-Noise Ratio,SNR)等语音评价指标上都得到了较大提升。
附图说明
图1是监督学习语音分离基线系统结构框图;
图2a是深信度神经网络预训练示意图;
图2b是由多个RBM堆叠成的DBN图;
图2c是深信度神经网络微调示意图;
图3是对比散列学习算法示意图;
图4是本发明一种基于深度学习的高性能语音增强方法的流程图;
图5是三种噪声条件下不同算法信噪比值。
具体实施方式
下面结合实施例和附图对本发明的一种基于深度学习的高性能语音增强方法做出详细说明。
如图4所示,本发明的一种基于深度学习的高性能语音增强方法,包括如下步骤:
1)对音频PCM编码信号预处理:对音频PCM编码信号进行分帧、加窗,同时按照设定比例将原始数据集分为训练集和测试集,所述的原始数据集是由720条TIMIT语料库纯净语音和NOISEX92噪声库中的噪声混合得到。
2)利用黄金分割法确定DBN隐藏层节点数;包括:
设DBN隐藏层节点数起始取值范围为:[x1,x2],计算所述起始取值范围内的两个黄金分割点,
x3=x2-0.618×(x2-x1)
x4=x1+0.618×(x2-x1)
比较两个黄金分割点x3,x4最小均方误差的大小,如果黄金分割点x3的最小均方误差小于黄金分割点x4,则舍弃黄金分割点x4右边的取值范围,新的取值范围为[x1,x4];如果x4点的最小均方误差小于黄金分割点x3,则舍弃x3点左边的取值范围,新的取值范围为[x3,x2];重复迭代,逐渐缩小最优隐藏层节点数取值范围,达到设定的迭代次数,得最优的隐藏层节点数。
3)利用训练集对DBN的权重和偏置参数进行预训练;包括:
根据步骤2)得到的DBN隐藏层节点数,将步骤1)预处理后的训练集的语音数据取一帧样本数据y,将y值赋给可视层单元v0,随机初始化权重w,计算可视层单元v0使DBN隐藏层hj被开启的概率,即DBN隐藏层hj以概率p(hj=1|v(0))设置为状态1,以概率1-p(hj=1|v(0))设置为0,从可视层到隐藏层的概率p(hj=1|v(0))计算表达式如下:
其中,σ表示logistic函数,bj表示隐藏层的偏置参数,wij表示连接可见层与隐藏层的权重参数,式中下标用于区别同一向量中不同的维度,上标用于区分迭代重建次数,从计算出的概率中抽取出一个样本h(0)~p(h(0)|v(0)),用h0重构可视层单元v1,从隐藏层到可视层的概率p(vi=1|h(0))计算表达式如下:
w=w+ε(p(h(0)=1|v(0))v(0)T-p(h(1)=1|v(1))v(1)T)
ε为学习率,v(0)T中的T表示矩阵转置符号,取下一帧样本数据,重复迭代,直到所有训练集数据训练完成。
4)利用训练集对DBN的权重和偏置参数进行微调;包括:
将步骤3)预训练得到的权重和偏置参数作为初始参数,将步骤1)预处理后的训练集的语音数据分别作为DBN的输入层数据和DBN的输出层数据,利用反向传播算法进行DBN权重和偏置参数的微调,得到最终的DBN权重和偏置参数。
5)提取DBN特征,是利用步骤4)微调得到的DBN权重和偏置参数分别提取DBN训练集特征和DBN测试集特征;
6)利用步骤5)提取的DBN训练集特征对监督学习语音分离系统进行训练;包括:
将步骤5)提取的DBN训练集特征作为监督学习语音分离系统的输入,将步骤1)预处理后训练集的带噪信号通过多通道的γ-tone滤波器组滤波计算得到的理想比率掩码作为监督学习语音分离系统的输出,对监督学习语音分离系统进行训练。
7)语音增强,将步骤5)提取的DBN的测试集特征作为步骤6)已训练好的监督学习语音分离系统的输入,监督学习语音分离系统输出即为估计的目标标签,通过语音波形合成可得最终增强后的语音。
下面给出最佳实施:
从TIMIT语料库中随机选取600条语句作为训练集纯净语音,从剩余的语句中选取120条语句作为测试集纯净语音,从NOISEX92噪声库选择工厂噪声、白噪声、粉红噪声三种不同类型噪声进行实验,实验中参数设置:混合信噪比为-2dB,帧长NW=320,帧移NSH=160,窗函数h(l)选择320点的汉明窗,学习率ε=0.1。
将训练集与测试集中的纯净语音以-2dB混合信噪比分别与三种不同的噪声混合生成带噪信号,依据图4所示的流程图,对提出的基于深度学习的高性能语音增强方法分别进行对比分析,具体实施如下:
1、读取纯净语音被噪声干扰后生成的带噪信号,并进行分帧、加窗处理,每帧320个采样点,加320点的汉明窗。
2、对加窗后的每帧数据输入到DBN网络,利用黄金分割法确定最终DBN隐藏层节点数为In=>h1=>h2=>...=>hn=>Out,其中In表示输入层节点数,hi表示每层隐藏层节点数,Out表示输出层节点数。
3、根据DBN隐藏层节点数,利用训练集带噪语音数据进行DBN参数预训练,经多次迭代更新预训练后,得到第i层的权重为wi。
4、将预训练得到的权重作为初始权重,预处理后的训练集数据既作为DBN的输入层数据也作为输出层数据,利用误差反向传播进行参数微调,得到第i层最终的DBN权重为Wi。
5、利用微调得到的权重Wi组成DBN网络,预处理后的训练集带噪信号作为输入层数据,中间声学特征层数据即为训练集DBN声学特征,同样,得到测试集DBN声学特征。
6、将上述得到的训练集带噪信号的特征输入到监督学习语音分离系统的输入层,监督学习语音分离系统有4个隐藏层,每个隐藏层节点数为1024,输出层数据为理想比率掩码,利用误差反向传播迭代20次得到训练好的监督学习语音分离系统。
7、将测试集带噪信号作为监督学习语音分离系统的输入层数据,利用上述训练好的监督学习语音分离系统进行语音增强,得到目标估计标签,同时利用语音波形合成得到最终增强后语音。
如图5所示,对相同的测试集进行语音增强处理,本发明与谱减法、维纳滤波法、基于对数最小均方误差的统计模型法进行对比,信噪比均得到提高,尤其与谱减法相比,在白噪声情况下提高了92.19%。
Claims (6)
1.一种基于深度学习的高性能语音增强方法,其特征在于,包括如下步骤:
1)对音频PCM编码信号预处理:对音频PCM编码信号进行分帧、加窗,同时按照设定比例将原始数据集分为训练集和测试集;
2)利用黄金分割法确定DBN隐藏层节点数;
3)利用训练集对DBN的权重和偏置参数进行预训练;
4)利用训练集对DBN的权重和偏置参数进行微调;
5)提取DBN特征,是利用步骤4)微调得到的DBN权重和偏置参数分别提取DBN训练集特征和DBN测试集特征;
6)利用步骤5)提取的DBN训练集特征对监督学习语音分离系统进行训练;
7)语音增强,将步骤5)提取的DBN的测试集特征作为步骤6)已训练好的监督学习语音分离系统的输入,监督学习语音分离系统输出即为估计的目标标签,通过语音波形合成可得最终增强后的语音。
2.根据权利要求1所述的一种基于深度学习的高性能语音增强方法,其特征在于,步骤1)中所述的原始数据集是由720条TIMIT语料库纯净语音和NOISEX92噪声库中的噪声混合得到。
3.根据权利要求1所述的一种基于深度学习的高性能语音增强方法,其特征在于,步骤2)包括:设DBN隐藏层节点数起始取值范围为:[x1,x2],计算所述起始取值范围内的两个黄金分割点,
x3=x2-0.618×(x2-x1)
x4=x1+0.618×(x2-x1)
比较两个黄金分割点x3,x4最小均方误差的大小,如果黄金分割点x3的最小均方误差小于黄金分割点x4的最小均方误差,则舍弃黄金分割点x4右边的取值范围,新的取值范围为[x1,x4];如果x4点的最小均方误差小于黄金分割点x3,则舍弃x3点左边的取值范围,新的取值范围为[x3,x2];重复迭代,逐渐缩小最优隐藏层节点数取值范围,达到设定的迭代次数,得最优的隐藏层节点数。
4.根据权利要求1所述的一种基于深度学习的高性能语音增强方法,其特征在于,步骤3)包括:根据步骤2)得到的DBN隐藏层节点数,将步骤1)预处理后的训练集的语音数据取一帧样本数据y,将y值赋给可视层单元v0,随机初始化权重w,计算可视层单元v0使DBN隐藏层hj被开启的概率,即DBN隐藏层hj以概率p(hj=1|v(0))设置为状态1,以概率1-p(hj=1|v(0))设置为0,从可视层到隐藏层的概率p(hj=1|v(0))计算表达式如下:
其中,σ表示logistic函数,bj表示隐藏层的偏置参数,wij表示连接可见层与隐藏层的权重参数,式中下标用于区别同一向量中不同的维度,上标用于区分迭代重建次数,从计算出的概率中抽取出一个样本h(0)~p(h(0)|v(0)),用h0重构可视层单元v1,从隐藏层到可视层的概率p(vi=1|h(0))计算表达式如下:
wn+1=wn+ε(p(h(0)=1|v(0))v(0)T-p(h(1)=1|v(1))v(1)T)
ε为学习率,v(0)T中的T表示矩阵转置符号,其中取下一帧样本数据,重复迭代,直到所有训练集数据训练完成。
5.根据权利要求1所述的一种基于深度学习的高性能语音增强方法,其特征在于,步骤4)包括:将步骤3)预训练得到的权重和偏置参数作为初始参数,将步骤1)预处理后的训练集的语音数据分别作为DBN的输入层数据和DBN的输出层数据,利用反向传播算法进行DBN权重和偏置参数的微调,得到最终的DBN权重和偏置参数。
6.根据权利要求1所述的一种基于深度学习的高性能语音增强方法,其特征在于,步骤6)包括:将步骤5)提取的DBN训练集特征作为监督学习语音分离系统的输入,将步骤1)预处理后训练集的带噪信号通过多通道的γ-tone滤波器组滤波计算得到的理想比率掩码作为监督学习语音分离系统的输出,对监督学习语音分离系统进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810265012.5A CN108615533B (zh) | 2018-03-28 | 2018-03-28 | 一种基于深度学习的高性能语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810265012.5A CN108615533B (zh) | 2018-03-28 | 2018-03-28 | 一种基于深度学习的高性能语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108615533A CN108615533A (zh) | 2018-10-02 |
CN108615533B true CN108615533B (zh) | 2021-08-03 |
Family
ID=63659265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810265012.5A Active CN108615533B (zh) | 2018-03-28 | 2018-03-28 | 一种基于深度学习的高性能语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108615533B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020715B (zh) * | 2018-10-16 | 2020-11-27 | 量子超并(北京)科技有限公司 | 利用波动和脉冲信号混合编码的神经网络识别方法与装置 |
CN110378396A (zh) * | 2019-06-26 | 2019-10-25 | 北京百度网讯科技有限公司 | 样本数据标注方法、装置、计算机设备及存储介质 |
JP7301154B2 (ja) * | 2019-09-23 | 2023-06-30 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム |
CN111179962B (zh) * | 2020-01-02 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 语音分离模型的训练方法、语音分离方法及装置 |
CN111312270B (zh) * | 2020-02-10 | 2022-11-22 | 腾讯科技(深圳)有限公司 | 语音增强方法及装置、电子设备和计算机可读存储介质 |
CN111653272A (zh) * | 2020-06-01 | 2020-09-11 | 重庆科技学院 | 一种基于深度信念网络的车载语音增强算法 |
CN112151036B (zh) * | 2020-09-16 | 2021-07-30 | 科大讯飞(苏州)科技有限公司 | 基于多拾音场景的防串音方法、装置以及设备 |
CN113593591A (zh) * | 2021-07-27 | 2021-11-02 | 北京小米移动软件有限公司 | 语料降噪方法及装置、电子设备和存储介质 |
CN114613384B (zh) * | 2022-03-14 | 2023-08-29 | 中国电子科技集团公司第十研究所 | 一种基于深度学习多输入语音信号波束形成信息互补方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9142207B2 (en) * | 2010-12-03 | 2015-09-22 | Cirrus Logic, Inc. | Oversight control of an adaptive noise canceler in a personal audio device |
GB2501067B (en) * | 2012-03-30 | 2014-12-03 | Toshiba Kk | A text to speech system |
US9153230B2 (en) * | 2012-10-23 | 2015-10-06 | Google Inc. | Mobile speech recognition hardware accelerator |
US9997172B2 (en) * | 2013-12-02 | 2018-06-12 | Nuance Communications, Inc. | Voice activity detection (VAD) for a coded speech bitstream without decoding |
CN105023580B (zh) * | 2015-06-25 | 2018-11-13 | 中国人民解放军理工大学 | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 |
KR101704925B1 (ko) * | 2015-10-22 | 2017-02-09 | 한양대학교 산학협력단 | Evs 코덱 파라미터를 이용한 심화 신경망 기반의 음성 검출 장치 및 그 방법 |
CN105448302B (zh) * | 2015-11-10 | 2019-06-25 | 厦门快商通科技股份有限公司 | 一种环境自适应的语音混响消除方法和系统 |
CN106782511A (zh) * | 2016-12-22 | 2017-05-31 | 太原理工大学 | 修正线性深度自编码网络语音识别方法 |
CN107146601B (zh) * | 2017-04-07 | 2020-07-24 | 南京邮电大学 | 一种用于说话人识别系统的后端i-vector增强方法 |
CN107086036A (zh) * | 2017-04-19 | 2017-08-22 | 杭州派尼澳电子科技有限公司 | 一种高速公路隧道安全监控方法 |
CN107358966B (zh) * | 2017-06-27 | 2020-05-12 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
CN107545890A (zh) * | 2017-08-31 | 2018-01-05 | 桂林电子科技大学 | 一种声音事件识别方法 |
CN107845389B (zh) * | 2017-12-21 | 2020-07-17 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
-
2018
- 2018-03-28 CN CN201810265012.5A patent/CN108615533B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108615533A (zh) | 2018-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108615533B (zh) | 一种基于深度学习的高性能语音增强方法 | |
CN109410917B (zh) | 基于改进型胶囊网络的语音数据分类方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN110751044B (zh) | 基于深度网络迁移特征与增广自编码的城市噪声识别方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
Shi et al. | Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech Separation. | |
CN110428849A (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN111128229A (zh) | 语音分类方法、装置及计算机存储介质 | |
CN108335702A (zh) | 一种基于深度神经网络的音频降噪方法 | |
Xu et al. | Global variance equalization for improving deep neural network based speech enhancement | |
Zöhrer et al. | Representation learning for single-channel source separation and bandwidth extension | |
Tseng et al. | Combining sparse NMF with deep neural network: A new classification-based approach for speech enhancement | |
CN113936681A (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
Wang et al. | A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation. | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
CN111724806B (zh) | 一种基于深度神经网络的双视角单通道语音分离方法 | |
Chiluveru et al. | Low SNR speech enhancement with DNN based phase estimation | |
CN111524530A (zh) | 一种基于膨胀因果卷积的语音降噪方法 | |
CN113744749A (zh) | 一种基于心理声学域加权损失函数的语音增强方法及系统 | |
Cheng et al. | DNN-based speech enhancement with self-attention on feature dimension | |
Li et al. | U-shaped transformer with frequency-band aware attention for speech enhancement | |
CN115171712A (zh) | 适用于瞬态噪声抑制的语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |