CN111899750A - 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 - Google Patents

联合耳蜗语音特征和跳变深层神经网络的语音增强算法 Download PDF

Info

Publication number
CN111899750A
CN111899750A CN202010743992.2A CN202010743992A CN111899750A CN 111899750 A CN111899750 A CN 111899750A CN 202010743992 A CN202010743992 A CN 202010743992A CN 111899750 A CN111899750 A CN 111899750A
Authority
CN
China
Prior art keywords
speech
noise
voice
mrcg
dnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010743992.2A
Other languages
English (en)
Other versions
CN111899750B (zh
Inventor
兰朝凤
刘春东
张磊
康守强
郭小霞
韩闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202010743992.2A priority Critical patent/CN111899750B/zh
Publication of CN111899750A publication Critical patent/CN111899750A/zh
Application granted granted Critical
Publication of CN111899750B publication Critical patent/CN111899750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了联合耳蜗语音特征和跳变深层神经网络的语音增强算法,采用MMSE为前端的改进MRCG语音特征,通过比较不同特征作为网络输入的语音增强效果;分析DNN与Skip‑DNN滤除“音乐噪声”的能力,建立了联合改进MRCG和Skip‑DNN的语音增强模型,由实验可知,联合改进MRCG和Skip‑DNN的语音增强模型比MRACC与MRCG增强效果好;同时,在低信噪比与非平稳背景噪声环境中,Skip‑DNN滤除了部分“音乐噪声”,很好的拟合了改进MRCG与IRM之间复杂的非线性关系,提高低信噪比环境中语音增强效果,获得更清晰的语音特征,可有效提高语音可懂度和语音质量。

Description

联合耳蜗语音特征和跳变深层神经网络的语音增强算法
技术领域
本发明涉及语音增强技术领域,具体为联合耳蜗语音特征和跳变深层神经网络的语音增强算法。
背景技术
单通道语音增强是一种有趣且充满挑战的技术,其主要目的在于提高语音质量,增强语音可懂度,使噪声环境中的目标语音更加清晰。因其较为实际的功能,使得工程上有许多应用,例如,助听器、通讯设备以及鲁棒性语音识别等领域,单通道语音增强都起到了重要作用。
几十年来许多人致力于单通道语音增强的研究,提出了许多方法。大致可分为两种,无监督与有监督的语音增强算法。其中,无监督算法包括谱减法、维纳滤波法以及MMSE-STSA法等,其中MMSE-STSA在低信噪比与非平稳背景噪声环境中,对信号降噪处理后又引进新的“音乐噪声”。因此许多人提出了MMSE-STSA的改进,例如,根据人耳听觉感知与语音幅度的对数成正比关系这种特点,提出了最小均方误差对数短时谱幅值、估计增益因子的方法等。然而,由于低信噪比和非平稳噪声环境的影响,大多数无监督算法不能正确地估计先验信噪比,无法有效地抑制“音乐噪声”。
随着机器学习的不断发展,一些学者把目光投向了基于浅层神经网络和深层神经网络的有监督语音增强算法。其中,浅层神经网络包括基于隐马尔可夫模型和非负矩阵的语音增强算法等,因为浅层,所以需要更适合的语音信息才能自主提取有用特征。直到深层网络的出现,语音增强技术又开始了新一轮的发展,包括,基于掩蔽法和映射法的语音增强模型。早期,基于深度学习的语音增强模型的网络结构大多采用DNN。随后,根据ResNet改进了DNN,提出了Skip-DNN语音增强模型,此模型在训练过程中携带更多语音细节信息、解决梯度消失以及模型不可识别性造成的奇异性等问题。掩蔽法的训练目标包括有理想二值掩蔽、理想比率掩蔽(Ideal radio mask,IRM)以及复数域的理想比率掩蔽等,其中采用理想二值掩蔽作为训练目标时得到的增强语音高频段被破坏较为严重,但背景噪声滤除的效果较好,而IRM虽然背景噪声滤除不如理想二值掩蔽,但对原始语音破坏较少;同样的,语音特征提取也是有监督语音增强算法重要的组成部分,现有技术中根据特征的互补特性提出了将振幅调制谱、相对谱变换、感知线性预测与梅尔倒谱系数相组合的特征方法,在非匹配噪声测试条件下性能较好。现有技术中利用稀疏非负矩阵分解提取语音特征,低信噪比环境下获得了清晰度较高的语音。
现有技术中,针对低信噪比环境,提出了一种多分辨率耳蜗图的语音特征方法,获取语音信号的全局与局部特征,提高了低信噪比场景下的语音增强效果,但随着MRCG特征维度的增大会导致计算复杂度变大。现有技术中还提出了一种基于听觉变化的特征提取算法,采用非线性幂函数代替对数获得幂归一化倒谱系数(Power Normalized CepstralCoefficients,PNCC),提高了语音识别精度。随后有学者根据PNCC对MRCG进行了改进,得到多分辨率听觉倒谱系数(Multi-Resolution Auditory Cepstral Coefficient,MRACC),降低了维度的同时提高了语音增强效果。虽然MRCG与MRACC在低信噪比环境下有较好的语音增强效果,但是仍有提升的空间。
根据上述分析可知,基于深度学习的语音增强算法,网络模型的建立、语音特征与训练目标都会对语音增强效果有较大影响。为提高低信噪比环境中语音增强效果,为了获得更清晰的语音特征,有必要进一步优化语音增强的相关研究。
发明内容
本发明的目的在于提供联合耳蜗语音特征和跳变深层神经网络的语音增强算法,在MRCG与MRACC基础上提出改进MRCG,拟采用Skip-DNN网络对改进MRCG语音特征进行训练,利用TIMIT语音库和NoiseX-92噪声库的语音进行实验,利用评价指标度量语音可懂度与语音质量,在不同信噪比与背景噪声环境下,分析MRACC、MRCG以及改进MRCG作为Skip-DNN网络特征输入得到的语音增强效果,以此来确定哪种特征作为Skip-DNN网络的输入,构建语音增强模型,并评价不同网络结构滤除“音乐噪声”的能力,以提高低信噪比环境中语音增强效果,获得更清晰的语音特征。
为实现上述目的,本发明提供如下技术方案:
联合耳蜗语音特征和跳变深层神经网络的语音增强算法,包括以下步骤:
S1:采用MMSE为前端的改进MRCG语音特征,通过比较不同特征作为网络输入的语音增强效果;
S2:分析DNN与Skip-DNN滤除“音乐噪声”的能力,建立了联合改进MRCG和Skip-DNN的语音增强模型。
进一步地,S1中的具体算法如下:
S101:在训练阶段,将带噪语音Y(t)通过时频分解转换到时频域得到Y(t,f),在每个时频单元提取改进MRCG特征参数;再将纯净语音与噪音转化到时频域分别表示为S(t,f)、N(t,f),获得时频单元的纯净语音能量与噪声能量,计算能量占比得到IRM,通过Skip-DNN自主提取改进MRCG中有用的信息,与IRM建立非线性关系,得到语音增强模型;
S102:在增强阶段,将带噪语音Y1(t)转换到时频域得到Y1(t,f),提取改进MRCG特征参数,通过训练得到的语音增强模型估计IRM,进而得到增强语音时频谱,将其与带噪语音相位∠Y1(t)重构出目标语音
Figure BDA0002607708200000024
S103:若噪音为加性噪音,则带噪语音由纯净语音与噪音相加构成,为:Y(t)=S(t)+N(t) (1)
其中,Y(t)表示带噪语音;S(t)表示纯净语音;N(t)表示噪声;
S104:将Y(t)经64通道Gammatone滤波器组进行时频分解,获得64个子带滤波输出G(t,f),并将其分帧加窗转换到时频域,得到Yj(t,fc),Sj(t,fc),Nj(t,fc),其中,j表示帧数,fc表示中心频率,fc∈[80Hz,5kHz],t表示帧索引;其中,利用Gammatone滤波器组的冲激响应函数,可表示为:
g(t)=tn-1e-2πbtcos(2πfct),t≥0 (2)
其中,n表示滤波器阶数,通常n取4;b表示等效矩形带宽,与fc成正比;
S105:将IRM作为训练目标,计算Gammatone域纯净语音与噪音能量的占比,得到IRMgamma,表达为:
Figure BDA0002607708200000021
其中,
Figure BDA0002607708200000022
Figure BDA0002607708200000023
分别表示时频域中纯净语音能量和噪音能量;
将带噪语音幅度谱与IRMgamma结合,得到目标语音幅度谱为:
Figure BDA0002607708200000031
其中,
Figure BDA0002607708200000032
表示时频域目标语音幅度谱;
将估计的纯净语音信号幅值与带噪语音的相位进行重构,得到估计纯净语音信号为:
Figure BDA0002607708200000033
其中,∠Y(t)表示带噪语音相位;
Figure BDA0002607708200000034
表示目标语音幅度谱;
Figure BDA0002607708200000035
表示重构纯净语音信号。
进一步地,S1中还包括语音特征提取,具体方法如下:
S101:最小均方误差幅度谱估计-MMSE-STSA:
对公式(1)中Y(t)、S(t)作快速傅里叶变换,得到噪声信号和纯净语音信号第i个频谱分量特征,为:
Yi=Riexp[jθi],Si=Aiexp[jαi] (6)
其中,Ri、Ai分别为带噪语音、纯净语音的幅值,θi与αi分别表示带噪语音与纯净语音的相位;
利用噪声功率谱,得到估计的纯净语音
Figure BDA0002607708200000036
假定噪声对相位无影响,根据语音信号频谱相邻帧之间具有相关性的特点,可对语音信号采用快速傅里叶变换进行分频,得到分频后每一帧纯净语音信号的幅度谱估计
Figure BDA0002607708200000037
假设频谱分量之间相互独立,则有:
Figure BDA0002607708200000038
其中,E{g}表示参数的期望,p(g)为概率密度函数,p(ai)为Ai的概率密度函数,p(aii)为幅相联合概率分布概率;
假设噪声平稳加性高斯白噪声,则:
Figure BDA0002607708200000039
其中,Γ(g)表示伽马函数,M(a,c,x)为合流超几何函数,
Figure BDA00026077082000000310
ξi、γi分别表示先验信噪比和后验信噪比;
S102:改进MRCG特征提取:利用Gammatone滤波器组耳蜗模型,得到多频段语音信号,通过不同的帧长、滤波器不同的窗长得到不同分辨率的耳蜗图,采用中值滤波器与均值滤波器平滑获得低分辨率的耳蜗图,滤波器窗长越大平滑的效果越明显,由此得到语音的高低分辨率的耳蜗图,即局部与全局特征;
带噪语音信号经时频分解后,纯净语音能量集中在低频部分,噪声能量集中在高频部分,在低信噪比环境与非平稳背景噪声环境下,保留MMSE-STSA降噪后的高频部分,并将此部分与MRACC低频部分拼接,同时为反映特征参数的动态特性,在上述特征基础上混合离散余弦特征、一阶差分以及二阶差分特征,进而得到改进MRCG特征,即在提取MRCG特征参数前端加MMSE-STSA,建立改进MRCG。
进一步地,S2中具体方法如下:
S201:采用Skip-DNN建立语音增强模型,在隐藏层之间加入跳变连接;
S202:每层之间加入Dropout层;
S203:选用LeakyReLU作为激活函数;
S204:输出层的激活函数选用了Sigmoid。
进一步地,S201中的跳变连接为神经网络中常用的连接形式,让训练过程中一些被掩盖的有用特征被发现并且被训练,打破了因权重相同造成的网络退化,解决层与层之间因为维度不同在传输过程中出现的细节信息丢失,通过跳变连接将丢失的信息补充回来;在反向传播过程中也为网络提供了新的误差信息。
与现有技术相比,本发明的有益效果是:
本发明提供的联合耳蜗语音特征和跳变深层神经网络的语音增强算法,针对低信噪比环境下传统DNN语音增强模型降噪效果一般,本发明采用MMSE为前端的改进MRCG语音特征,通过比较不同特征作为网络输入的语音增强效果;分析DNN与Skip-DNN滤除“音乐噪声”的能力,建立了联合改进MRCG和Skip-DNN的语音增强模型,由实验可知,联合改进MRCG和Skip-DNN的语音增强模型比MRACC与MRCG增强效果好;同时,在低信噪比与非平稳背景噪声环境中,Skip-DNN滤除了部分“音乐噪声”,很好的拟合了改进MRCG与IRM之间复杂的非线性关系,提高低信噪比环境中语音增强效果,获得更清晰的语音特征。
附图说明
图1为本发明的基于Skip-DNN的语音增强系统框图;
图2为本发明的改进MRCG提取流程图;
图3为本发明的Skip-DNN的语音增强系统的网络结构图;
图4为本发明的改进MRCG语音特征图;
图5为本发明的信噪比为-5dB时各种语音增强模型的STOI值图;
图6为本发明的信噪比为-5dB时各种语音增强模型的PESQ值图;
图7为本发明的纯净语音与信噪比为-5dB时增强后的目标语音时域图;
图8为本发明的三种节点数的训练集均方误差以及测试集均方误差图;
图9为现有技术中MRACC特征参数提取原理框图;
图10为现有技术中LMS-MRCG特征提取原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中:联合耳蜗语音特征和跳变深层神经网络的语音增强算法,包括以下步骤:
第一步:采用MMSE为前端的改进MRCG语音特征,通过比较不同特征作为网络输入的语音增强效果;
第二步:分析DNN与Skip-DNN滤除“音乐噪声”的能力,建立了联合改进MRCG和Skip-DNN的语音增强模型。
其中,基于深度学习的语音增强算法,有三个组成部分,分别为特征提取、模型建立以及训练目标;本发明基于Skip-DNN语音增强系统如图1所示,步骤一中的具体算法如下:
S101:在训练阶段,首先将带噪语音Y(t)通过时频分解转换到时频域得到Y(t,f),在每个时频单元提取改进MRCG特征参数;其次,将纯净语音与噪音转化到时频域分别表示为S(t,f)、N(t,f),获得时频单元的纯净语音能量与噪声能量,计算能量占比得到IRM,通过Skip-DNN自主提取改进MRCG中有用的信息,与IRM建立非线性关系,得到语音增强模型;
S102:在增强阶段,同样将带噪语音Y1(t)转换到时频域得到Y1(t,f),提取改进MRCG特征参数,通过训练得到的语音增强模型估计IRM,进而得到增强语音时频谱,将其与带噪语音相位∠Y1(t)重构出目标语音
Figure BDA0002607708200000051
假设图1中噪音为加性噪音,则带噪语音由纯净语音与噪音相加构成,为:Y(t)=S(t)+N(t) (1)
其中,Y(t)表示带噪语音;S(t)表示纯净语音;N(t)表示噪声;
S103:将Y(t)经64通道Gammatone滤波器组进行时频分解,获得64个子带滤波输出G(t,f),并将其分帧加窗转换到时频域,得到Yj(t,fc),Sj(t,fc),Nj(t,fc),其中,Gammatone滤波器组耳蜗模型是将语音信号分解成多个频段,其幅频特性为频率越低分辨率越高,频率越高分辨率越低;j表示帧数,fc表示中心频率,fc∈[80Hz,5kHz],t表示帧索引;此种方法得到的语音特征比传统方法得到的语音特征更符合人耳听觉特征,其中,利用Gammatone滤波器组的冲激响应函数,可表示为:
g(t)=tn-1e-2πbtcos(2πfct),t≥0 (2)
其中,n表示滤波器阶数,通常n取4;b表示等效矩形带宽,与fc成正比;
S104:将IRM作为训练目标,计算Gammatone域纯净语音与噪音能量的占比,得到IRMgamma,表达为:
Figure BDA0002607708200000052
其中,
Figure BDA0002607708200000053
Figure BDA0002607708200000054
分别表示时频域中纯净语音能量和噪音能量;
将带噪语音幅度谱与IRMgamma结合,得到目标语音幅度谱为:
Figure BDA0002607708200000055
其中,
Figure BDA0002607708200000056
表示时频域目标语音幅度谱;
将估计的纯净语音信号幅值与带噪语音的相位进行重构,得到估计纯净语音信号为:
Figure BDA0002607708200000057
其中,∠Y(t)表示带噪语音相位;
Figure BDA0002607708200000058
表示目标语音幅度谱;
Figure BDA0002607708200000059
表示重构纯净语音信号。
在上述实施例中,步骤一中还包括语音特征提取,具体方法如下:
S101:最小均方误差幅度谱估计-MMSE-STSA:
对公式(1)中Y(t)、S(t)作快速傅里叶变换,得到噪声信号和纯净语音信号第i个频谱分量特征,为:
Yi=Riexp[jθi],Si=Aiexp[jαi] (6)
其中,Ri、Ai分别为带噪语音、纯净语音的幅值,θi与αi分别表示带噪语音与纯净语音的相位;
利用噪声功率谱,得到估计的纯净语音
Figure BDA0002607708200000061
假定噪声对相位无影响,根据语音信号频谱相邻帧之间具有相关性的特点,可对语音信号采用快速傅里叶变换进行分频,得到分频后每一帧纯净语音信号的幅度谱估计
Figure BDA0002607708200000062
假设频谱分量之间相互独立,则有:
Figure BDA0002607708200000063
其中,E{g}表示参数的期望,p(g)为概率密度函数,p(ai)为Ai的概率密度函数,p(aii)为幅相联合概率分布概率;
假设噪声平稳加性高斯白噪声,则:
Figure BDA0002607708200000064
其中,Γ(g)表示伽马函数,M(a,c,x)为合流超几何函数,
Figure BDA0002607708200000065
ξi、γi分别表示先验信噪比和后验信噪比;
S102:改进MRCG特征提取:MRCG特征提取是利用Gammatone滤波器组耳蜗模型,得到多频段语音信号,可以通过不同的帧长、滤波器不同的窗长可得到不同分辨率的耳蜗图,采用中值滤波器与均值滤波器平滑获得低分辨率的耳蜗图,滤波器窗长越大平滑的效果越明显,由此得到语音的高低分辨率的耳蜗图,即局部与全局特征,在低信噪比下,部分有用信号被掩盖,MRCG因为包含语音信号的局部与全局特征,因此更适用于低信噪比环境;
众所周知,带噪语音信号经时频分解后,纯净语音能量主要集中在低频部分,噪声能量主要集中在高频部分,在低信噪比环境与非平稳背景噪声环境下,传统MMSE-STSA方法中先验信噪比估计算法会导致残留部分背景噪声,同时又会引入“音乐噪声”,因此,本发明选择只保留MMSE-STSA降噪后的高频部分,并将此部分与MRACC低频部分拼接,同时为反映特征参数的动态特性,提高语音增强性能,在上述特征基础上混合离散余弦特征、一阶差分以及二阶差分特征,进而得到改进MRCG特征,这样的特征既降低高频部分背景噪声的干扰,又防止低频部分被“音乐噪声”破坏。
综合上述分析,为提高带噪语音在低信噪比环境下的清晰度,本发明在提取MRCG特征参数前端加MMSE-STSA,建立改进MRCG,过程如图2所示。
在上述实施例中,步骤二中Skip-DNN网络建模的具体方法如下:
跳变连接是神经网络中常用的连接形式,传统DNN网络因权重相同造成的网络退化会使复杂特征拟合效果不好,而跳变连接通过打破网络对称(权重相同)的方式,让训练过程中一些被掩盖的有用特征被发现并且被训练,打破了因权重相同造成的网络退化,跳变连接可以解决层与层之间因为维度不同在传输过程中出现的细节信息丢失的问题,尤其是改进MRCG这种维度较大的语音特征在传输过程中丢失的信息更多,通过跳变连接将丢失的信息补充回来;同时,跳变连接在反向传播过程中也为网络提供了新的误差信息。
本发明采用Skip-DNN建立语音增强模型,在隐藏层之间加入跳变连接,可以解决模型中不能识别部分造成的奇异性、梯度消失等问题;为了防止过拟合现象出现,在每层之间加入Dropout层;为解决ReLU输入值为负时坏死的问题,本发明选用LeakyReLU作为激活函数,同时,LeakyReLU具有收敛速度快,计算简单等优点,因为Sigmoid取值在0-1范围内符合IRM的取值范围,所以输出层的激活函数选用了Sigmoid,Skip-DNN的结构如图3所示:由图3可知,为防止跳变连接的过程中出现输入层与隐藏层维度不匹配问题,将D2层的节点数设为输入层的维度,因为Skip-DNN模型输入层是一维向量,并且Skip-DNN语音增强模型的输入是时间与频率两个维度,语音和噪声在两个维度上都有较强的相关性,所以语音特征作为网络输入应包括上下文信息。
为了进一步更好的解释说明上述发明,还提供如下具体的实验数据与参数设置:
1、数据集的选择与设置:本发明纯净语音选自TIMIT语音库,TIMIT语音库共包括6300条语音,采样频率为16kHz;本发明选取了其中的150条语音,105条作为训练集,45条作为测试集;噪音选用NoiseX-92噪声库,共包含15条噪音,本发明选用13种噪音:babble、buccaneer1、buccaneer2、destroyerengine、destroyerops、f16、factory、hfchannel、leopard、m109、pink、volvo、white,将上述噪音降采样到16kHz,且与150条纯净语音按信噪比-5dB、0dB、5dB以及10dB混合,构成不同信噪比下的带噪语音信号,形成带噪语音的训练集与测试集,选择训练集中10%作为验证集。
2、语音特征参数的选择与设置:在将语音信号从时域转换到频域的过程中,不同帧长可以得到不同分辨率耳蜗图,本发明将帧长、帧移分别设为20ms、10ms,获得高分辨率耳蜗图CG1,将帧长、帧移分别设为200ms、10ms,获得低分辨率耳蜗图CG2,以及中值滤波器与均值滤波器不同的窗长,也可获得不同分辨率的耳蜗图;本发明将中值滤波器的窗长设为5×5、均值滤波器的窗长设为11×11与23×23,获得低分辨率的耳蜗图CG3以及更低分辨率的耳蜗图CG4;将四种耳蜗图沿时域方向进行底层特征融合拼接,通过离散余弦变换,再与其一阶、二阶差分组合得到改进MRCG,其特征图如图4所示:
在图4中,CG1为传统的耳蜗图,由CG1可以得到语音信号的局部特征,CG2、CG3以及CG4表示语音信号的全局特征,将CG1、CG2、CG3以及CG4拼接得到的改进MRCG语音特征,既包含语音的细节信息,又包含全局信息,在低信噪比环境下,可以更好地表征带噪语音信息。
3、网络参数的选择与设置:网络输入包括上下文共5帧;训练过程使用最小批量化的大小为128;选择Adam算法改善网络的训练过程,初始化学习速率为2×10-4,当验证损失在两个时间段内没有减少时,学习速率减半,直到学习速率为1×10-10或达到最大迭代次数时训练结束,最大迭代次数设为100;隐藏层节点数设为1024,丢弃率为0.2;网络中衡量模型预测好坏的损失函数选择MSE,表达为:
Figure BDA0002607708200000071
以下实验数据处理过程中,语音信号和带噪信号均是按照上述参数选定。
4、对实验结果进行分析:
(1)不同特征作为Skip-DNN网络输入的效果评价:
本发明采用STOI和PESQ来评价语音可懂度和语音质量,对比在平稳噪声(f16)和非平稳噪声(factory、babble)作为背景噪声情况下,评价MRACC、MRCG以及改进MRCG特征作为Skip-DNN网络的输入特征时的语音增强效果;利用STOI与PESQ两种评价指标的平均值,语音增强效果如表1、表2所示,其中,Skip-DNN网络特征输入采用MRACC、MRCG及改进MRCG时,在表中分别标记为MRACC-Skip-DNN、MRCG-Skip-DNN及改进MRCG-Skip-DNN。
表1三种方法的平均STOI得分
Figure BDA0002607708200000081
由表1可知,在信噪比为0dB环境中,背景噪声为f16,特征输入采用改进MRCG、MRACC及MRCG时平均STOI分别为0.8731、0.8688及0.8696,可见改进MRCG较MRACC与MRCG分别提高了0.5%、0.4%;背景噪声为factory,特征输入采用改进MRCG时平均STOI为0.8910、采用MRACC时平均STOI为0.8865,采用MRCG时平均STOI为0.8801,可见改进MRCG较MRACC与MRCG分别提高了0.5%、1.2%;背景噪声为babble,特征输入采用改进MRCG时平均STOI为0.8903、采用MRACC时平均STOI为0.8858,采用MRCG时平均STOI为0.8824,改进MRCG较MRACC与MRCG分别提高了0.5%、0.9%;由此可知,改进MRCG作为Skip-DNN的特征输入时,STOI的评价得分最高。
表2三种方法的平均PESQ得分
Figure BDA0002607708200000082
由表2可知,在信噪比为0dB环境中,背景噪声为f16,特征输入采用改进MRCG时平均PESQ为1.6320、采用MRACC时平均PESQ为1.6026,采用MRCG时平均PESQ为1.5989,可见改进MRCG较MRACC与MRCG分别提高了1.8%、2.0%;背景噪声为factory,特征输入采用改进MRCG时平均PESQ为1.6715、采用MRACC时平均PESQ为1.6466,采用MRCG时平均PESQ为1.6149,可见改进MRCG较MRACC与MRCG分别提高了1.5%、3.5%;背景噪声为babble时,特征输入采用改进MRCG时平均PESQ为1.7298、采用MRACC时平均PESQ为1.7026,采用MRCG时平均PESQ为1.6741,可见改进MRCG较MRACC与MRCG分别提高了1.6%、3.3%;由此可知,改进MRCG作为Skip-DNN的特征输入时,PESQ的评价得分最高。
因此,根据表1和表2的实验评价结果,可以判定在任意背景噪声和信噪比环境下,均是采用改进MRCG作为Skip-DNN网络特征输入的语音评价效果最好,由此说明,改进MRCG作为Skip-DNN网络的特征输入时,可获得较好的语音增强效果。
(2)低信噪比下不同网络结构对“音乐噪声”的去除效果:
(201)STOI与PESQ评价:为了分析不同背景噪声以及低信噪比环境下的语音评价结果,进行如下实验;设定信噪比为-5dB,在f16、factory和babble背景噪声环境下,将MRACC、MRCG以及改进MRCG特征作为DNN和Skip-DNN网络的输入,研究不同特征输入到DNN与Skip-DNN网络中对“音乐噪声”的去除效果,得到STOI与PESQ评价的实验结果如图5、图6所示:
由图5可知,在f16、factory以及babble背景噪声环境中,联合MRACC+DNN语音增强模型的平均STOI分别为0.7508、0.6762、0.6359;联合MRCG和DNN语音增强模型的平均STOI分别为0.7461、0.6771、0.6354;联合改进MRCG和DNN语音增强模型的平均STOI分别为0.7536、0.6759、0.6292;联合MRACC和Skip-DNN语音增强模型的平均STOI分别为0.7772、0.7103、0.6715;联合MRCG和Skip-DNN语音增强模型的平均STOI分别为0.7779、0.7102、0.6705;联合改进MRCG和Skip-DNN语音增强模型的平均STOI分别为0.7801、0.7104、0.6719;由此可知,在低信噪比环境下,背景噪声为f16,联合改进MRCG和DNN得到的语音可懂度最高,背景噪声为factory与babble时,联合改进MRCG和DNN反而最低;可见,联合改进MRCG和Skip-DNN模型在三种背景噪声环境中,得到的语音可懂度最高。
由图6可知,在f16、factory以及babble背景噪声环境中,联合MRACC和DNN语音增强模型的平均PESQ分别为1.2654、1.179、1.1255;联合MRCG和DNN语音增强模型的平均PESQ分别为1.2677、1.1818、1.1340;联合改进MRCG和DNN语音增强模型的平均PESQ分别为1.2873、1.1731、1.1277;联合MRACC和Skip-DNN语音增强模型的平均PESQ分别为1.2950、1.1790、1.160;联合MRCG和Skip-DNN语音增强模型的平均PESQ分别为1.3045、1.2044、1.1561;联合改进MRCG和Skip-DNN语音增强模型的平均PESQ分别为1.314、1.2092、1.1639;由此可知,在低信噪比环境下,背景噪声为f16,联合改进MRCG和DNN得到的语音质量最好,背景噪声为factory与babble时,联合改进MRCG和DNN反而最差;可见,联合改进MRCG和Skip-DNN模型在三种背景噪声环境中,得到的语音质量最好。
(202)“音乐噪声”去除效果的定量观测:为观测不同背景噪声、不同网络模型下,对音乐噪声的去除效果,给出改进MRCG在不同网络得到的增强语音时域波形图,如图7所示:
其中,纯净语音信号时域图如图7(a)所示,背景噪声为f16、factory及babble的带噪语音时域图如图7(b)、7(c)及7(d)所示,相应带噪情况下的改进MRCG作为DNN、Skip-DNN特征输入时,语音增强模型的目标语音时域图如7(e)、7(f),7(g)、7(h)及7(i)、7(j)所示;本发明以图中椭圆标注部分作为观测窗口,分析语音的增强效果:
由图7(e)、(f)可见,当背景噪声为f16时,在椭圆圈标注部分,没有“音乐噪声”;由图7(g)、(h)可见,当背景噪声为factory时,图7(g)在椭圆圈标注部分“音乐噪声”较明显,而图7(g)中仅含少量的“音乐噪声”;当背景噪声为babble时,观察到的情况与factory相同;由此可以说明,改进MRCG在非平稳背景噪声环境下会产生“音乐噪声”,并且Skip-DNN可以有效去除“音乐噪声”。
因此,由本发明的理论分析和图7的观测结果可知,由于factory与babble为非平稳噪声,经MMSE-STSA降噪处理后在高频处产生的“音乐噪声”,掩盖了改进MRCG特征,DNN在训练过程中忽略了被掩盖的语音特征,使目标语音缺失,最终导致得到的联合改进MRCG和DNN的语音增强模型增强效果变差,而Skip-DNN中因为跳变连接的存在抑制了网络退化、更好的拟合了复杂特征等原因,使掩盖在“音乐噪声”下的有用语音特征被训练,由此可见,在改进MRCG作为网络输入时,Skip-DNN网络比DNN网络去除“音乐噪声”的效果更好。
(3)联合改进MRCG和Skip-DNN网络模型的优化:
为分析网络隐藏层节点数对联合改进MRCG和Skip-DNN网络模型优化效果的影响,进行实验研究,设定隐藏层节点数为1500、1024、512,对训练集与测试集进行研究,对比分析均方误差大小,进而确定改进MRCG Skip-DNN的语音增强模型最优的隐藏层节点数,结果如图8所示:
其中,图中标注的Skip-DNN+改进MRCG-1500-train、Skip-DNN+改进MRCG-1500-test分别表示联合改进MRCG和Skip-DNN网络模型隐藏层节点数为1500的训练集、测试集均方误差实验结果;图中标注的Skip-DNN+改进MRCG-1024-train、Skip-DNN+改进MRCG-1024-test分别表示联合改进MRCG和Skip-DNN网络模型隐藏层节点数为1024的训练集、测试集均方误差实验结果;图中标注的Skip-DNN+改进MRCG-512-train、Skip-DNN+改进MRCG-512-test分别表示隐藏层节点数为512的训练集、测试集均方误差实验结果。
由图8可知,Skip-DNN+改进MRCG-1024-train迭代结束得到均方误差为0.0054,而Skip-DNN+改进MRCG-1024-test得到均方误差为0.0164,虽然Skip-DNN+改进MRCG-1500-train均方误差小于Skip-DNN+改进MRCG-1024-train,但是Skip-DNN+改进MRCG-1024-test均方误差小于Skip-DNN+改进MRCG-1500-test,由此可知,在联合改进MRCG和Skip-DNN语音增强模型中隐藏层节点数设为1024时效果较好。
通过对现有技术文献的检索,与本发明最接近的现有技术为“基于深度学习的语音增强算法研究”,基于此本发明与现有技术特征区别技术特征如下:
现有技术“基于深度学习的语音增强算法研究”提出的MRACC特征参数的原理为:是一种基于Gammatone滤波器组分解的多分辨率特征,不仅采用Gammatone滤波器组模拟人耳的听觉模型,而且提取多分辨率的Cochleagram,将计算的Cochleagram进行幂函数压缩,使其更符合人耳的听觉感知特性,MRACC特征参数既可以关注细节的高分辨率特征,又可以把握全局性的低分辨率特征,如图9所示。
而本发明提出的改进MRCG特征参数的原理为:在MRACC基础上,采用MMSE做了前期的预处理,预处理只针对MRACC特征的低分辨率部分,所以改进MRCG在关注细节的高分辨率特征、把握全局性的低分辨率特征的同时又可以在低信噪比环境中提取出更容易被训练的特征,如图2所示。
效果对比参数如下:
对本发明与现有技术进行了对比实验,模型采用的是Skip-DNN网络,训练目标采用IRM;实验结果如下表3、表4:
表3三种背景噪声下平均STOI得分
Figure BDA0002607708200000101
Figure BDA0002607708200000111
表4三种背景噪声下平均PESQ得分
Figure BDA0002607708200000112
由上表3、表4可知,表中用粗体标注的是本发明提出的改进MRCG特征得到的语音增强效果客观评价,可以看出效果优于MRACC特征。
与本发明相近的现有技术还包括“基于内容的伪造语音盲检测技术研究”,该现有技术中提出的LMS-MRCG特征参数提取的原理为:在MRCG基础上,在预处理部分引入最小均方误差(Least Mean Square,LMS)滤波器,通过LMS滤波器对语音信号进行语音信号增强,减弱音频中噪声的影响,再对耳蜗系数进行多分辨率化构造LMS-MRCG(Least MeanSquare-Multi Resolution Cochleagram)特征,如图10所示;
而本发明在预处理部分采用的是最小均方误差短时谱幅值估计法(MinimumMean-Square Error Short-Time Spectral Amplitude,MMSE-STSA)对语音信号进行降噪,且只对语音的高频部分进行降噪处理,以防止低信噪比环境下MMSE产生的“音乐噪声”污染语音的低频部分。
基于内容的伪造语音盲检测技术研究中的LMS-MRCG是针对有效地检测变调语音、准确分类变调类型提出。
由此可见,与现有技术中无从探究的问题、算法的原理、还是达到的目标均有所不同。
综上所述:本发明提供的联合耳蜗语音特征和跳变深层神经网络的语音增强算法,针对低信噪比环境下传统DNN语音增强模型降噪效果一般,本发明采用MMSE为前端的改进MRCG语音特征,通过比较不同特征作为网络输入的语音增强效果;分析DNN与Skip-DNN滤除“音乐噪声”的能力,建立了联合改进MRCG和Skip-DNN的语音增强模型,由实验可知,联合改进MRCG和Skip-DNN的语音增强模型比MRACC与MRCG增强效果好;同时,在低信噪比与非平稳背景噪声环境中,Skip-DNN滤除了部分“音乐噪声”,很好的拟合了改进MRCG与IRM之间复杂的非线性关系,提高低信噪比环境中语音增强效果,获得更清晰的语音特征。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.联合耳蜗语音特征和跳变深层神经网络的语音增强算法,其特征在于,包括以下步骤:
S1:采用MMSE为前端的改进MRCG语音特征,通过比较不同特征作为网络输入的语音增强效果;
S2:分析DNN与Skip-DNN滤除“音乐噪声”的能力,建立了联合改进MRCG和Skip-DNN的语音增强模型。
2.如权利要求1所述的联合耳蜗语音特征和跳变深层神经网络的语音增强算法,其特征在于,S1中的具体算法如下:
S101:在训练阶段,将带噪语音Y(t)通过时频分解转换到时频域得到Y(t,f),在每个时频单元提取改进MRCG特征参数;再将纯净语音与噪音转化到时频域分别表示为S(t,f)、N(t,f),获得时频单元的纯净语音能量与噪声能量,计算能量占比得到IRM,通过Skip-DNN自主提取改进MRCG中有用的信息,与IRM建立非线性关系,得到语音增强模型;
S102:在增强阶段,将带噪语音Y1(t)转换到时频域得到Y1(t,f),提取改进MRCG特征参数,通过训练得到的语音增强模型估计IRM,进而得到增强语音时频谱,将其与带噪语音相位∠Y1(t)重构出目标语音
Figure FDA0002607708190000011
S103:若噪音为加性噪音,则带噪语音由纯净语音与噪音相加构成,为:
Y(t)=S(t)+N(t) (1)
其中,Y(t)表示带噪语音;S(t)表示纯净语音;N(t)表示噪声;
S104:将Y(t)经64通道Gammatone滤波器组进行时频分解,获得64个子带滤波输出G(t,f),并将其分帧加窗转换到时频域,得到Yj(t,fc),Sj(t,fc),Nj(t,fc),其中,j表示帧数,fc表示中心频率,fc∈[80Hz,5kHz],t表示帧索引;其中,利用Gammatone滤波器组的冲激响应函数,可表示为:
g(t)=tn-1e-2πbtcos(2πfct),t≥0 (2)
其中,n表示滤波器阶数,通常n取4;b表示等效矩形带宽,与fc成正比;
S105:将IRM作为训练目标,计算Gammatone域纯净语音与噪音能量的占比,得到IRMgamma,表达为:
Figure FDA0002607708190000021
其中,
Figure FDA0002607708190000022
Figure FDA0002607708190000023
分别表示时频域中纯净语音能量和噪音能量;
将带噪语音幅度谱与IRMgamma结合,得到目标语音幅度谱为:
Figure FDA0002607708190000024
其中,
Figure FDA0002607708190000025
表示时频域目标语音幅度谱;
将估计的纯净语音信号幅值与带噪语音的相位进行重构,得到估计纯净语音信号为:
Figure FDA0002607708190000026
其中,∠Y(t)表示带噪语音相位;
Figure FDA0002607708190000027
表示目标语音幅度谱;
Figure FDA0002607708190000028
表示重构纯净语音信号。
3.如权利要求2所述的联合耳蜗语音特征和跳变深层神经网络的语音增强算法,其特征在于,S1中还包括语音特征提取,具体方法如下:
S101:最小均方误差幅度谱估计-MMSE-STSA:
对公式(1)中Y(t)、S(t)作快速傅里叶变换,得到噪声信号和纯净语音信号第i个频谱分量特征,为:
Yi=Riexp[jθi],Si=Aiexp[jαi] (6)
其中,Ri、Ai分别为带噪语音、纯净语音的幅值,θi与αi分别表示带噪语音与纯净语音的相位;
利用噪声功率谱,得到估计的纯净语音
Figure FDA0002607708190000031
假定噪声对相位无影响,根据语音信号频谱相邻帧之间具有相关性的特点,可对语音信号采用快速傅里叶变换进行分频,得到分频后每一帧纯净语音信号的幅度谱估计
Figure FDA0002607708190000032
假设频谱分量之间相互独立,则有:
Figure FDA0002607708190000033
其中,E{g}表示参数的期望,p(g)为概率密度函数,p(ai)为Ai的概率密度函数,p(aii)为幅相联合概率分布概率;
假设噪声平稳加性高斯白噪声,则:
Figure FDA0002607708190000034
其中,Γ(g)表示伽马函数,M(a,c,x)为合流超几何函数,
Figure FDA0002607708190000035
ξi、γi分别表示先验信噪比和后验信噪比;
S102:改进MRCG特征提取:利用Gammatone滤波器组耳蜗模型,得到多频段语音信号,通过不同的帧长、滤波器不同的窗长得到不同分辨率的耳蜗图,采用中值滤波器与均值滤波器平滑获得低分辨率的耳蜗图,滤波器窗长越大平滑的效果越明显,由此得到语音的高低分辨率的耳蜗图,即局部与全局特征;
带噪语音信号经时频分解后,纯净语音能量集中在低频部分,噪声能量集中在高频部分,在低信噪比环境与非平稳背景噪声环境下,保留MMSE-STSA降噪后的高频部分,并将此部分与MRACC低频部分拼接,同时为反映特征参数的动态特性,在上述特征基础上混合离散余弦特征、一阶差分以及二阶差分特征,进而得到改进MRCG特征,即在提取MRCG特征参数前端加MMSE-STSA,建立改进MRCG。
4.如权利要求1所述的联合耳蜗语音特征和跳变深层神经网络的语音增强算法,其特征在于,S2中具体方法如下:
S201:采用Skip-DNN建立语音增强模型,在隐藏层之间加入跳变连接;
S202:每层之间加入Dropout层;
S203:选用LeakyReLU作为激活函数;
S204:输出层的激活函数选用了Sigmoid。
5.如权利要求4所述的联合耳蜗语音特征和跳变深层神经网络的语音增强算法,其特征在于,S201中的跳变连接为神经网络中常用的连接形式,让训练过程中一些被掩盖的有用特征被发现并且被训练,打破了因权重相同造成的网络退化,解决层与层之间因为维度不同在传输过程中出现的细节信息丢失,通过跳变连接将丢失的信息补充回来;在反向传播过程中也为网络提供了新的误差信息。
CN202010743992.2A 2020-07-29 2020-07-29 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 Active CN111899750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010743992.2A CN111899750B (zh) 2020-07-29 2020-07-29 联合耳蜗语音特征和跳变深层神经网络的语音增强算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010743992.2A CN111899750B (zh) 2020-07-29 2020-07-29 联合耳蜗语音特征和跳变深层神经网络的语音增强算法

Publications (2)

Publication Number Publication Date
CN111899750A true CN111899750A (zh) 2020-11-06
CN111899750B CN111899750B (zh) 2022-06-14

Family

ID=73183340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010743992.2A Active CN111899750B (zh) 2020-07-29 2020-07-29 联合耳蜗语音特征和跳变深层神经网络的语音增强算法

Country Status (1)

Country Link
CN (1) CN111899750B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393852A (zh) * 2021-08-18 2021-09-14 杭州雄迈集成电路技术股份有限公司 语音增强模型的构建方法及系统、语音增强方法及系统
CN113571078A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 噪声抑制方法、装置、介质以及电子设备
CN117275499A (zh) * 2023-11-17 2023-12-22 深圳波洛斯科技有限公司 自适应神经网络的降噪方法及相关装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658949A (zh) * 2018-12-29 2019-04-19 重庆邮电大学 一种基于深度神经网络的语音增强方法
WO2019139660A1 (en) * 2018-01-12 2019-07-18 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
CN110120227A (zh) * 2019-04-26 2019-08-13 天津大学 一种深度堆叠残差网络的语音分离方法
US20190341067A1 (en) * 2018-05-07 2019-11-07 Qualcomm Incorporated Split-domain speech signal enhancement
CN110459235A (zh) * 2019-08-15 2019-11-15 深圳乐信软件技术有限公司 一种混响消除方法、装置、设备及存储介质
CN110610715A (zh) * 2019-07-29 2019-12-24 西安工程大学 一种基于cnn-dnn混合神经网络的降噪方法
CN111128209A (zh) * 2019-12-28 2020-05-08 天津大学 一种基于混合掩蔽学习目标的语音增强方法
CN111192598A (zh) * 2020-01-07 2020-05-22 哈尔滨理工大学 一种跳变连接深度神经网络的语音增强方法
CN111341332A (zh) * 2020-02-28 2020-06-26 重庆邮电大学 基于深度神经网络的语音特征增强后置滤波方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019139660A1 (en) * 2018-01-12 2019-07-18 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
US20190341067A1 (en) * 2018-05-07 2019-11-07 Qualcomm Incorporated Split-domain speech signal enhancement
CN109658949A (zh) * 2018-12-29 2019-04-19 重庆邮电大学 一种基于深度神经网络的语音增强方法
CN110120227A (zh) * 2019-04-26 2019-08-13 天津大学 一种深度堆叠残差网络的语音分离方法
CN110610715A (zh) * 2019-07-29 2019-12-24 西安工程大学 一种基于cnn-dnn混合神经网络的降噪方法
CN110459235A (zh) * 2019-08-15 2019-11-15 深圳乐信软件技术有限公司 一种混响消除方法、装置、设备及存储介质
CN111128209A (zh) * 2019-12-28 2020-05-08 天津大学 一种基于混合掩蔽学习目标的语音增强方法
CN111192598A (zh) * 2020-01-07 2020-05-22 哈尔滨理工大学 一种跳变连接深度神经网络的语音增强方法
CN111341332A (zh) * 2020-02-28 2020-06-26 重庆邮电大学 基于深度神经网络的语音特征增强后置滤波方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RUWEI LI,ET AL.: "Multi-resolution auditory cepstral coefficient and adaptive mask for speech enhancement with deep neural network", 《EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING》 *
WEI HAN ET AL.: "Speech enhancement based on improved deep neural networks with MMSE pretreatment features", 《2016 IEEE 13TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING》 *
刘鹏: "基于深度学习的语音增强方法研究", 《智能计算机与应用 》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571078A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 噪声抑制方法、装置、介质以及电子设备
CN113571078B (zh) * 2021-01-29 2024-04-26 腾讯科技(深圳)有限公司 噪声抑制方法、装置、介质以及电子设备
CN113393852A (zh) * 2021-08-18 2021-09-14 杭州雄迈集成电路技术股份有限公司 语音增强模型的构建方法及系统、语音增强方法及系统
CN113393852B (zh) * 2021-08-18 2021-11-05 杭州雄迈集成电路技术股份有限公司 语音增强模型的构建方法及系统、语音增强方法及系统
CN117275499A (zh) * 2023-11-17 2023-12-22 深圳波洛斯科技有限公司 自适应神经网络的降噪方法及相关装置
CN117275499B (zh) * 2023-11-17 2024-02-02 深圳波洛斯科技有限公司 自适应神经网络的降噪方法及相关装置

Also Published As

Publication number Publication date
CN111899750B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN107452389B (zh) 一种通用的单声道实时降噪方法
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
CN107845389B (zh) 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN111899750B (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN110148420A (zh) 一种适用于噪声环境下的语音识别方法
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
CN109215674A (zh) 实时语音增强方法
CN112017682B (zh) 一种单通道语音同时降噪和去混响系统
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
CN111816200B (zh) 一种基于时频域二值掩膜的多通道语音增强方法
CN105679321B (zh) 语音识别方法、装置及终端
Geng et al. End-to-end speech enhancement based on discrete cosine transform
Li et al. A multi-objective learning speech enhancement algorithm based on IRM post-processing with joint estimation of SCNN and TCNN
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
CN111341351B (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质
CN115295002B (zh) 一种基于交互性时频注意力机制的单通道语音增强方法
CN111341331A (zh) 基于局部注意力机制的语音增强方法、装置及介质
CN113936680B (zh) 基于多尺度信息感知卷积神经网络的单通道语音增强方法
CN113035217B (zh) 一种基于声纹嵌入的低信噪比条件下的语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant