CN107452389B - 一种通用的单声道实时降噪方法 - Google Patents

一种通用的单声道实时降噪方法 Download PDF

Info

Publication number
CN107452389B
CN107452389B CN201710594168.3A CN201710594168A CN107452389B CN 107452389 B CN107452389 B CN 107452389B CN 201710594168 A CN201710594168 A CN 201710594168A CN 107452389 B CN107452389 B CN 107452389B
Authority
CN
China
Prior art keywords
noise
noise reduction
voice
time
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710594168.3A
Other languages
English (en)
Other versions
CN107452389A (zh
Inventor
陈纪同
张学良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Elevoc Technology Co ltd
Original Assignee
Elevoc Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Elevoc Technology Co ltd filed Critical Elevoc Technology Co ltd
Priority to CN201710594168.3A priority Critical patent/CN107452389B/zh
Publication of CN107452389A publication Critical patent/CN107452389A/zh
Application granted granted Critical
Publication of CN107452389B publication Critical patent/CN107452389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明涉及一种通用的单声道实时降噪方法,包括以下步骤:接收电子格式的带噪语音,其中包含语音和非人声干扰噪声;从接收到的声音中逐帧提取短时傅里叶幅度谱作为声学特征;使用具有长短期记忆的深度回归神经网络逐帧产生比值膜;利用产生的比值膜对带噪语音的幅度谱进行掩蔽;使用掩蔽后的幅度谱和带噪语音的原始相位,经过逆傅里叶变换,再次合成语音波形。本发明采用有监督学习方法进行语音降噪,通过使用带有长短期记忆的回归神经网络来估计理想比值膜;本发明提出的回归神经网络使用大量带噪语音进行训练,其中包含了各种现实声学场景和麦克风脉冲响应,最终实现了独立于背景噪声、说话人和传输信道的通用语音降噪。

Description

一种通用的单声道实时降噪方法
技术领域
本发明涉及一种通用的单声道实时降噪方法,更具体地说,涉及一种利用长短期记忆(LSTM)回归神经网络(RNN)进行掩膜估计的新方法。
背景技术
语音降噪任务是指从带噪语音信号中分离出语音信号,该技术拥有广泛的应用,如鲁棒性自动语音识别(ASR)和日常环境中的移动通信。语音降噪或分离已在信号处理领域进行了数十年的研究。其中,单声道语音降噪是非常具有挑战性的课题,因为单声道语音降噪仅依靠单麦克风录音信号,无法利用麦克风阵列常用的空间信息。另一方面,和基于波束形成(通过传感器阵列适当配置的空间滤波)的麦克风阵列降噪技术相比,单声道降噪可应用的声学场景更为广泛。由于只使用一个麦克风,单声道降噪不仅成本低,而且在实际情况下更方便使用。此外,单声道降噪的结果可以提升波束形成和其它相关的阵列处理任务的性能。
最近,一个观念上的突破是把单声道语音降噪转变成有监督学习问题。以传统语音增强为例的信号处理方法是建立在背景噪声和语音信号的统计分析之上。但有监督方法则是基于数据驱动,并且可以从训练样本中自动学习模式。有监督学习的引入标志着单声道语音降噪在实用性方面取得了实质性进展。
时频掩蔽是监督性语音降噪中最主要的方法。它通过训练一个模型来估计理想时频掩膜。根据对带噪语音信号的时频表示,理想掩膜的定义指示了抑制噪声和保留语音的时频位置。自2013年以来,深度神经网络被证明能够有效的对理想掩膜进行估计。目前,普遍认为基于深度学习的有监督降噪是最先进的方法,能够大幅度提升降噪性能,尤其是首次展示出在嘈杂环境下可以显著改善有听觉障碍及正常听觉人的语音可懂度。
之前最先进的语音降噪方案是使用大量数据训练的前馈型深度神经网络(Deepneural network,DNN),尽管该方案可以实现从未经训练的噪声中分离出特定人声,但该模型对非特定人声的降噪效果并不好。为了提升非特定人声的降噪效果,最有效的方法是在训练集中加入多个说话人的语音,然而这样会使得DNN对语音和背景噪声出现混淆,并且倾向于将噪声错分为语音。
发明内容
本发明要解决的技术问题在于,针对现有技术的缺陷提供一种通用的单声道实时降噪方法。
本发明解决其技术问题所采用的技术方案是:构造一种通用的单声道实时降噪方法,包括如下步骤:
S1接收电子格式的带噪语音,其中包含语音和非人声干扰噪声;
S2从接收到的声音中逐帧提取短时傅里叶幅度谱作为声学特征;
S3使用具有长短期记忆的深度回归神经网络逐帧产生比值膜;
S4利用产生的比值膜对带噪语音的幅度谱进行掩蔽;
S5使用掩蔽后的幅度谱和带噪语音的原始相位,经过逆傅里叶变换,再次合成语音波形;
在步骤S2中,将带噪语音波形进行分帧处理,每帧长度为20毫秒,相邻帧之间有10毫秒重叠,利用快速傅里叶变换提取每一帧上的频谱幅度矢量,每个矢量采用对数压缩的方法形成一帧声学特征;
所述带有长短期记忆的回归神经网络采用带噪语音大数据集进行训练,带噪语音数据集由各种噪声和多个说话人的语音混合而成;在训练期间,使用不同的脉冲响应对语音和噪声段进行滤波,以此模拟不同的麦克风对信号的采集过程,增加降噪方法的信道泛化能力,通过利用6个公开的脉冲响应来模拟6种不同麦克风进行信号采集,并相应地扩充训练集。
在本发明所述的一种通用的单声道实时降噪方法中,所述声学特征是将当前帧的短时傅里叶幅度和过去若干帧拼接而成。
在本发明所述的一种通用的单声道实时降噪方法中,所述声学特征可以扩展成包含未来一个或若干帧,用在对延迟有适当宽容的应用场景中。
在本发明所述的一种通用的单声道实时降噪方法中,所述长短期记忆包含多个堆叠的单向层,每层具有64个神经元。
在本发明所述的一种通用的单声道实时降噪方法中,所述长短期记忆层利用沿时间展开的反向传播进行训练。
在本发明所述的一种通用的单声道实时降噪方法中,所述带噪语音训练集由数千种不同类型的噪声和大约100个以上说话人的语音混合而成。
在本发明所述的一种通用的单声道实时降噪方法中,通过与麦克风脉冲响应进行卷积来增加训练集中的带噪语音数据,以便推广到未参与训练的采集信道中。
在本发明所述的一种通用的单声道实时降噪方法中,麦克风脉冲响应可以在消音室中使用不同麦克风进行采集。
在本发明所述的一种通用的单声道实时降噪方法中,所述长短期记忆门的小值被置零,并且去除由这些门所调制输入项的计算。
实施本发明的一种通用的单声道实时降噪方法,具有以下有益效果:
本发明的单声道降噪是指对单个麦克风采集的信号进行处理,相比波束形成的麦克风阵列降噪方法,单声道降噪具有更广泛的实用性。本发明采用有监督学习方法进行语音降噪,通过使用带有长短期记忆的回归神经网络来估计理想比值膜;本发明提出的回归神经网络使用大量带噪语音进行训练,其中包含了各种现实声学场景和麦克风脉冲响应,最终实现了独立于背景噪声、说话人和传输信道的通用语音降噪。本发明引入了消除对未来时间帧依赖的技术,并实现了降噪过程中回归神经网络模型的高效计算,在不影响降噪性能的前提下,通过 进一步的简化计算,构造了一个非常小的回归神经网络模型,实现了实时语音降噪。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明通用的单声道实时语音降噪系统的结构示意图。
图2为本发明通用的单声道实时语音降噪方法的流程图。
图3为采用短时客观可懂度(STOI)衡量方法降噪性能的对比结果,图中分别展示了本发明提出的基于长短期记忆(LSTM)的方法、基于深度神经网络(DNN)的方法和原始混合语音的短时客观可懂度(STOI)值,其中图3A为人声噪声环境下的结果,图3B为餐厅噪声环境下的结果。
图4为训练后的回归神经网络(RNN)模型对带噪语音的处理结果,其中,噪声和说话人均未在训练中出现,图4A为带噪语音的频谱图;图4B为纯净语音的频谱图;
图4C为带噪语音所对应的IRM;
图4D为估计的IRM;
图4E为降噪语音的频谱图。
图5为优化后长短期记忆(LSTM)计算产生的IRM,其中,图5A为直接计算LSTM;图5B为减少7%的计算时间;图5C为减少11%的计算时间;图5D为减少17%的计算时间。
图6为通过改变回归神经网络(RNN)输入特征的维度(减少过去帧的数量)所对应的计算时间和相对于原始带噪语音的STOI增益。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1、2示出了本发明的通用的单声道实时降噪系统及方法流程图,降噪方法如下:S1接收电子格式的带噪语音,其中包含语音和非人声干扰噪声;S2从接收到的声音中逐帧提取短时傅里叶幅度谱作为声学特征;S3使用具有长短期记忆的深度回归神经网络逐帧产生比值膜;S4利用产生的比值膜对带噪语音的幅度谱进行掩蔽;S5使用掩蔽后的幅度谱和带噪语音的原始相位,经过逆傅里叶变换,再次合成语音波形。其中,在S2中的特征提取,将带噪语音波形进行分帧处理,每帧长度为20毫秒,相邻帧之间有10毫秒重叠。利用快速傅里叶变换提取每一帧上的频谱幅度矢量,每个矢量采用对数压缩的方法形成一帧声学特征(参见图2)。语音信号在时间维度上具有较强的相关性,而且这种相关性对语音分离有很大帮助。为了利用这一上下文信息提高分离性能,基于DNN的方法将当前帧和前后连续几帧拼接成一个维度较大的向量作为输入特征。该方法由计算机程序执行,从带噪语音中提取声学特征,估计理想时频比值膜,并重新合成降噪后的语音波形。该方法包含一个或多个程序模块,任何系统或带有可执行计算机编程指令的硬件设备用来执行上述的一个或多个模块。
对于不要求实时处理的应用,例如ASR,使用未来时间帧作为输入是可以接受的。然而,移动通信和助听器等降噪应用降噪中,需要实时处理而不能使用未来帧。本发明针对实时应用,所以在特征提取中不包括未来时间帧。具体来说,将先前5帧和当前帧拼接成一个统一的特征向量,作为本发明的输入。对过去帧的数量还可减少到小于5帧,可以在牺牲一定降噪性能的情况下进一步节省计算时间。对于实时性要求具有适当容忍度的应用场景,可以将未来一帧包括进来,此时输入特征共包含7帧。这种情况下可以使STOI提高大约一个百分点。STOI代表短时客观可懂度(Short-Time Objective intelligibility),是评估语音降噪性能的重要指标,其典型数值范围在0和1之间,可以解释为听懂语音的百分比。
具体地,从带噪语音中估计出理想比值膜(Ideal ratio mask,IRM),用IRM抑制背景噪声、保留语音信号,具体步骤:首先从带噪语音信号中提取原始声学特征,将其送入层叠的长短期记忆LSTM中,用来建模语音在时间上的动态特性,长短期记忆LSTM最后一层的输出构成了学习到的高级特征。然后,将高级特征送给掩膜预测层估计IRM。最后,将估计的IRM掩蔽到带噪语音上以合成降噪后的时域信号。
对于任何有监督学习方法,泛化能力至关重要。泛化能力是指在未参与过训练的场景下方法的性能表现。总体而言,本发明中的方法是使用大量噪声和说话人语音数据,通过大规模训练解决泛化性问题。由于回归神经网络RNN具有对信号中长期依赖关系的建模能力,所提出的模型对于新噪声和说话人场景具有很好的泛化性,这对实际应用至关重要。同时,本发明还公开了一种用于处理不同麦克风录音的泛化技术。最后,为了保证方法的实时性,本发明使用了一个小尺寸且不依赖未来帧的RNN模型,并实现了该模型的快速计算。
进一步地,如图2所示,其详细说明了本发明的整个过程,提出的语音降噪方法的详细过程,输入为带噪语音信号,输出为降噪后的语音信号,图中的“1”表示在训练期间涉及的步骤,图中的“2”表示推理或预测阶段的步骤,图中的“3”表示训练和预测共享的步骤。作为有监督学习方法,方法使用理想比值膜(IRM)为训练目标。IRM是通过比较带噪语音信号和对应纯净语音信号的STFT(短时傅里叶变换)得到。在训练阶段,带有LSTM的RNN估计每个输入带噪语音的理想比值膜,然后计算理想比值膜和估计掩膜的均方误差(Mean-squareerror,MSE)。神经网络经过重复的多轮迭代将整个训练集的MSE最小化,而每轮迭代中训练样本仅使用一次。训练阶段结束后,进入预测阶段,即使用训练好的RNN直接对输入的带噪语音进行降噪,具体而言,经过训练的网络对输入波形进行处理并产生估计掩膜,然后使用估计掩膜重新合成降噪(分离)后的语音波形。以下小节披露本发明方法的具体细节,并与现有方法进行比较。
在本发明中的时间建模的LSTM,采用LSTM刻画语音在时间上的动态特性。LSTM是一种特定类型的RNN,它可以有效地捕获长时的上下文信息。与传统的RNN相比,LSTM通过时间反向传播减轻了训练过程中梯度消失或爆炸的问题。LSTM是具有三个门(gate)的存储单元:输入门、遗忘门和输出门。遗忘门控制之前信息应该保留多少,输入门控制当前信息添加到存储单元的比例,输出门控制是否向外输出信息。具体可以通过以下公式描述:
it=σ(Wxxt+Wthht-1+bt)
ft=σ(Wfxxt+Wfhht-1+bf)
ot=σ(Woxxt+Wohht-1+bo)
zt=g(Wzxxt+Wzhht-1+bz)
Figure GDA0002573523280000101
Figure GDA0002573523280000111
其中Io、fo和o分别是输入门,遗忘门和输出门的值。xtht分别表示t时刻的输入特征和隐含的激活输出。zt和ct分别表示块输入和存储单元。σ表示S形函数,σ(x)=1/(1+ex)。g表示双曲正切函数,g(x)=(ex-e-x)/(ex+e-x)。符号□表示元素乘。输入和遗忘门根据之前一帧的激活状态和当前帧的输入计算得到,并根据输入和遗忘门对记忆单元进行上下文相关的更新。
当训练LSTM用于语音降噪时,LSTM存储单元保留了用于估计IRM的相关上下文信息。
本发明中的理想比值膜和估计,采用IRM作为有监督语音降噪的训练目标。在幅度谱中为每个时频单元定义IRM,具体公式如下:
Figure GDA0002573523280000112
其中,sFFT(t,f)和YFFT(t,f)分别表示时频单元中纯净语音和带噪语音的幅度。
在训练阶段,使用混合前的纯净语音和带噪语音计算IRM。训练过程采用有监督训练方法调整神经网络参数,使其输出逼近IRM。具体来说,将最后一层LSTM的输出送到全连接(参见图2)的输出层,产生的输出与IRM进行比较。然后利用误差调整RNN连接权重,从而使得模型输出不断逼近IRM。
本发明中的语音波形合成,训练结束后,带有LSTM的RNN就可以在降噪应用中直接使用。在特定应用中使用已经训练好的神经网络称为推理或预测。在推理阶段,使用多层的RNN对噪声信号进行处理。这一推理过程的结果就是比值掩膜。利用比值掩膜对带噪语音分量进行加权(或掩蔽)就可以产生降噪后的语音信号。具体而言,将掩蔽后的幅度谱以及原始带噪语音的相位经过傅里叶逆变换,得到降噪后的语音波形信号。
本发明中的大规模噪声和说话人综合训练,为了实现与噪声无关的通用语音降噪,本发明使用了大量日常环境中收集的背景噪声对RNN进行训练。同时,为了实现说话者无关的语音降噪,在训练过程中使用了大量男性和女性的语音数据。在构建噪声语音训练集时,将纯净语音和背景噪声以某种信噪比(Signal-to-noise ratio,SNR)混合。构建含有多种环境噪声的训练集对模型至关重要。
在本发明的实施例中,噪声集采用包含10,000种短噪声的商用数据库,语音数据来自华尔街日报语料库中的70名说话人(男、女比例各50%)。按照上面的混合方法,整个训练集规模大约数千小时。这个大型的带噪语音数据集确保RNN得到充分训练。
图3采用STOI衡量方法降噪性能的对比结果,图中分别展示了本发明提出的基于LSTM的方法、基于DNN的方法和原始混合语音的STOI值,其中,图3A为人声噪声环境下的结果;图3B为餐厅噪声环境下结果。
具体地,图3显示经过训练后RNN的STOI结果、前馈DNN(具有五个隐藏层,每层2048个神经元)的STOI结果,和未经处理的带噪语音的STOI结果。在本实施例中使用的RNN具有4个隐藏层,每个隐藏层中具有1024个神经元。系统的评估是针对未训练说话人和两个没见过的非平稳噪声:人声噪声(Babble)和咖啡厅噪声。如图所示,本发明降噪的结果与原始带噪语音相比,STOI有着很大的提升.在输入SNR为-5分贝的情况下,STOI提升了约20个百分点;在SNR为5分贝的情况下,STOI提升了约10个百分点。该图还显示,所提出的方法明显优于前馈DNN,并且SNR越低,优势越大。
为了进一步展示降噪的效果,图4示出了训练后的RNN模型对带噪语音的处理结果,其中噪声和说话人均未在训练中出现;图4A为带噪语音的频谱图;图4B为纯净语音的频谱图;图4C为IRM;图4D为估计的IRM;图4E为降噪语音的频谱图。
本发明中的信道泛化,降噪方法除了应该对未经训练的噪声和说话人具有泛化性能外,降噪性能也不应受到不同麦克风或录音设备的影响。这一点非常重要,因为在实际应用中,声音采集设备通常是多种多样的,而且不同类型麦克风带来的信道畸变也不同。麦克风的类型包括:电容麦克风、丝带麦克风和动态麦克风等。不同的信道具有不同的频率响应,因此会引入信道失真。这种信道失真可以相当大,尤其是廉价或低质量的麦克风。鉴于实际用到的麦克风种类繁多,为每个可能的麦克风采集一组单独的训练数据是不切实际的。同时,用户希望降噪方法对于不同录音设备在降噪性能上保持一致。
本发明的发明人已经发现:如果只使用一种麦克风采集的噪声语音进行RNN模型的训练,对于由其他麦克风采集的噪声语音信号进行降噪处理时,效果有明显的下降,这种下降在某些情况下高达5个STOI百分点。本发明的发明人进一步观察到,如果训练数据包含多个麦克风采集的噪声语音时,则上述分离性能的下降量会大大减少。
尽管在训练数据中增加不同麦克风采集的声音可以改善降噪对信道的泛化性,但这样会大大增加采集成本。因此,本发明提出使用麦克风脉冲响应的方法来模拟生成麦克风对声音信号的采集。这将会显著降低采集成本和周期。在训练期间,使用不同的脉冲响应对语音和噪声段进行滤波,以此模拟不同的麦克风对信号的采集过程,增加降噪方法的信道泛化能力:
y=s*t+α·n*l
其中,y,s和n分别表示时域的带噪语音、纯净语音和噪声信号;符号表示麦克风脉冲响应,控制噪声语音的SNR。另外,‘*’表示卷积运算。
本发明通过利用6个公开的脉冲响应来模拟6种不同麦克风进行信号采集,并相应地扩充训练集。经过该数据集训练后的降噪模型,大大缩小了不同麦克风在测试时降噪性能的差异。
本发明提出的信道扩展方法另一个优点是可以在消声室中直接测量麦克风脉冲响应。因此,本发明还提供了一种便捷地测量新型或特殊麦克风脉冲响应的技术。上面公式显示了如何使用脉冲响应来模拟特定麦克风进行录音采集并扩展训练数据。通过上述方法对训练数据进行扩充,成功解决了语音降噪的信道泛化问题。
本发明中的实时实现,在本发明的大规模噪声和说话人综合训练中描述了RNN模型的尺寸,并且在图3中展示对应降噪的结果。但是,该模型计算时间和模型尺寸不能满足实时处理的要求。针对实时处理的应用场景,本发明极大的缩减了模型尺寸。在优选实施例中,缩减后的RNN模型只有四个LSTM层,每层只有64个神经元。另外,输入特征只包含6帧,由过去5帧加上当前帧的STFT拼接组成(见A节)。输入特征不包括未来帧确保了本发明中的信号处理流程是一个因果系统,而这是实时处理的先决条件。
从STOI的表现上看,这个非常小的RNN与经过充分训练的大尺寸RNN模型相比,性能仅略有下降。当输入SNR为-5分贝时,STOI下降约为2-3%。当输入SNR较高时,STOI下降更小。总而言之,与原始带噪语音相比,这种小尺寸的RNN依然具有非常明显的降噪效果。
在小模型推理(预测)过程中,本发明提出了进一步优化计算。原理如下,在LSTM的推理过程中ht和的计算取决于输入it、遗忘门ft和输出门ot。当这些门的值接近零时,不需要计算这些门所调制的对应输入项,从而消除输入项的计算。通过改变将门置零的阈值,可以节省不同的计算量。图5给出了使用不同阈值所得到的预测掩膜。对比RNN的直接计算,经过优化后的方法可以节省多达17%的计算时间。同时,本发明还采用了用其它加速计算的策略,包括重新组织模型参数的存储和加速大矩阵的乘法。
图5为优化LSTM计算产生的IRM估计,其中,图5A为直接计算LSTM;图5B为减少7%的计算时间;图5C为减少11%的计算时间;图5D为减少17%的计算时间。图6示出了通过改变回归神经网络(RNN)输入特征的维度(减少过去帧的数量)所对应的计算时间和相对于原始带噪语音的STOI增益。
具体地,计算效率还取决于输入特征的维度。通过在1.5GHz双核CPU的PC平台上测试,耗时仅为0.082倍(即8.2%)的实时。从图6中可以看出,当过去帧的数量从5减少到0时,降噪性能没有明显下降。
但由此带来了计算时间上的大幅降低,从0.082下降到0.044倍的实时,几乎节省了1倍的计算时间。
在本发明的特征提取中所述,特征中包含一个未来帧可将STOI可以提高1个百分点。对于对实时处理需求较小的应用,建议在训练期间逐步增加未来的帧。鉴于RNN对过去信息进行编码的能力,与添加相同数量的过去帧相比,添加未来帧通常会导致更好的降噪性能。
本发明的单声道降噪是指对单个麦克风采集的信号进行处理,相比波束形成的麦克风阵列降噪方法,单声道降噪具有更广泛的实用性。本发明采用有监督学习方法进行语音降噪,通过使用带有长短期记忆的回归神经网络来估计理想比值膜;本发明提出的回归神经网络使用大量带噪语音进行训练,其中包含了各种现实声学场景和麦克风脉冲响应,最终实现了独立于背景噪声、说话人和传输信道的通用语音降噪。本发明引入了消除对未来时间帧依赖的技术,并实现了降噪过程中回归神经网络模型的高效计算,在不影响降噪性能的前提下,通过进一步的简化计算,构造了一个非常小的回归神经网络模型,实现了实时语音降噪。
尽管通过以上实施例对本发明进行了揭示,但本发明的保护范围并不局限于此,在不偏离本发明构思的条件下,对以上各构件所做的变形、替换等均将落入本发明的权利要求范围内。

Claims (9)

1.一种通用的单声道实时降噪方法,其特征在于,包括如下步骤:
S1接收电子格式的带噪语音,其中包含语音和非人声干扰噪声;
S2从接收到的声音中逐帧提取短时傅里叶幅度谱作为声学特征;
S3使用具有长短期记忆的深度回归神经网络逐帧产生比值膜;S4利用产生的比值膜对带噪语音的幅度谱进行掩蔽;
S5使用掩蔽后的幅度谱和带噪语音的原始相位,经过逆傅里叶变换,再次合成语音波形;
在步骤S2中,将带噪语音波形进行分帧处理,每帧长度为20毫秒,相邻帧之间有10毫秒重叠,利用快速傅里叶变换提取每一帧上的频谱幅度矢量,每个矢量采用对数压缩的方法形成一帧声学特征;
所述带有长短期记忆的回归神经网络采用带噪语音大数据集进行训练,带噪语音数据集由各种噪声和多个说话人的语音混合而成;在训练期间,使用不同的脉冲响应对语音和噪声段进行滤波,以此模拟不同的麦克风对信号的采集过程,增加降噪方法的信道泛化能力,通过利用6个公开的脉冲响应来模拟6种不同麦克风进行信号采集,并相应地扩充训练集。
2.如权利要求1所述的一种通用的单声道实时降噪方法,其特征在于,所述声学特征是将当前帧的短时傅里叶幅度和过去若干帧拼接而成。
3.如权利要求2所述的一种通用的单声道实时降噪方法,其特征在于,所述声学特征可以扩展成包含未来一个或若干帧,用在对延迟有适当宽容的应用场景中。
4.如权利要求1所述的一种通用的单声道实时降噪方法,其特征在于,所述长短期记忆包含多个堆叠的单向层,每层具有64个神经元。
5.如权利要求4所述的一种通用的单声道实时降噪方法,其特征在于,所述长短期记忆层利用沿时间展开的反向传播进行训练。
6.如权利要求1所述的一种通用的单声道实时降噪方法,其特征在于,所述带噪语音训练集由数千种不同类型的噪声和大约100个以上说话人的语音混合而成。
7.如权利要求6所述的一种通用的单声道实时降噪方法,其特征在于,通过与麦克风脉冲响应进行卷积来增加训练集中的带噪语音数据,以便推广到未参与训练的采集信道中。
8.如权利要求7所述的一种通用的单声道实时降噪方法,其特征在于,麦克风脉冲响应可以在消音室中使用不同麦克风进行采集。
9.如权利要求1所述的一种通用的单声道实时降噪方法,其特征在于,所述长短期记忆门的小值被置零,并且去除由这些门所调制输入项的计算。
CN201710594168.3A 2017-07-20 2017-07-20 一种通用的单声道实时降噪方法 Active CN107452389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710594168.3A CN107452389B (zh) 2017-07-20 2017-07-20 一种通用的单声道实时降噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710594168.3A CN107452389B (zh) 2017-07-20 2017-07-20 一种通用的单声道实时降噪方法

Publications (2)

Publication Number Publication Date
CN107452389A CN107452389A (zh) 2017-12-08
CN107452389B true CN107452389B (zh) 2020-09-01

Family

ID=60487875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710594168.3A Active CN107452389B (zh) 2017-07-20 2017-07-20 一种通用的单声道实时降噪方法

Country Status (1)

Country Link
CN (1) CN107452389B (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019014890A1 (zh) * 2017-07-20 2019-01-24 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
US10832660B2 (en) * 2018-04-10 2020-11-10 Futurewei Technologies, Inc. Method and device for processing whispered speech
CN110709921A (zh) * 2018-05-28 2020-01-17 深圳市大疆创新科技有限公司 降噪方法、装置和无人机
CN108806708A (zh) * 2018-06-13 2018-11-13 中国电子科技集团公司第三研究所 基于计算听觉场景分析和生成对抗网络模型的语音降噪方法
CN110767244B (zh) * 2018-07-25 2024-03-29 中国科学技术大学 语音增强方法
CN109273021B (zh) * 2018-08-09 2021-11-30 厦门亿联网络技术股份有限公司 一种基于rnn的实时会议降噪方法及装置
CN109215674A (zh) * 2018-08-10 2019-01-15 上海大学 实时语音增强方法
CN109065067B (zh) * 2018-08-16 2022-12-06 福建星网智慧科技有限公司 一种基于神经网络模型的会议终端语音降噪方法
JP6789455B2 (ja) * 2018-08-24 2020-11-25 三菱電機株式会社 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
CN109839612B (zh) * 2018-08-31 2022-03-01 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法及装置
CN109841226B (zh) * 2018-08-31 2020-10-16 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
CN109841206B (zh) * 2018-08-31 2022-08-05 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
CN109119093A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音降噪方法、装置、存储介质及移动终端
CN109119090A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音处理方法、装置、存储介质及电子设备
CN109614943A (zh) * 2018-12-17 2019-04-12 电子科技大学 一种用于盲源分离的特征提取方法
CN109671446B (zh) * 2019-02-20 2020-07-14 西华大学 一种基于绝对听觉阈值的深度学习语音增强方法
CN111696571A (zh) * 2019-03-15 2020-09-22 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN110191387A (zh) * 2019-05-31 2019-08-30 深圳市荣盛智能装备有限公司 耳机的自动启动控制方法、装置、电子设备及存储介质
CN110322891B (zh) * 2019-07-03 2021-12-10 南方科技大学 一种语音信号的处理方法、装置、终端及存储介质
CN110392273B (zh) * 2019-07-16 2023-08-08 北京达佳互联信息技术有限公司 音视频处理的方法、装置、电子设备及存储介质
CN110600050B (zh) * 2019-09-12 2022-04-15 深圳市华创技术有限公司 基于深度神经网络的麦克风阵列语音增强方法及系统
CN110751958A (zh) * 2019-09-25 2020-02-04 电子科技大学 一种基于rced网络的降噪方法
CN110660406A (zh) * 2019-09-30 2020-01-07 大象声科(深圳)科技有限公司 近距离交谈场景下双麦克风移动电话的实时语音降噪方法
CN110767223B (zh) * 2019-09-30 2022-04-12 大象声科(深圳)科技有限公司 一种单声道鲁棒性的语音关键词实时检测方法
WO2021062706A1 (zh) * 2019-09-30 2021-04-08 大象声科(深圳)科技有限公司 近距离交谈场景下双麦克风移动电话的实时语音降噪方法
JP2022505997A (ja) 2019-10-09 2022-01-17 大象声科(深セン)科技有限公司 骨振動センサーとマイクの信号を融合するディープラーニング音声抽出及びノイズ低減方法
CN110931031A (zh) * 2019-10-09 2020-03-27 大象声科(深圳)科技有限公司 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法
CN111009252B (zh) * 2019-12-19 2020-08-11 电子科技大学 一种embedding编解码器的语音增强系统及方法
CN113053400A (zh) * 2019-12-27 2021-06-29 武汉Tcl集团工业研究院有限公司 音频信号降噪模型的训练方法、音频信号降噪方法及设备
CN113223545A (zh) * 2020-02-05 2021-08-06 字节跳动有限公司 一种语音降噪方法、装置、终端及存储介质
CN111370031B (zh) * 2020-02-20 2023-05-05 厦门快商通科技股份有限公司 语音分离方法、系统、移动终端及存储介质
CN111429930B (zh) * 2020-03-16 2023-02-28 云知声智能科技股份有限公司 一种基于自适应采样率的降噪模型处理方法及系统
CN111613243B (zh) * 2020-04-26 2023-04-18 云知声智能科技股份有限公司 一种语音检测的方法及其装置
CN111292759B (zh) * 2020-05-11 2020-07-31 上海亮牛半导体科技有限公司 一种基于神经网络的立体声回声消除方法及系统
CN111583954B (zh) * 2020-05-12 2021-03-30 中国人民解放军国防科技大学 一种说话人无关单通道语音分离方法
US11678120B2 (en) * 2020-05-14 2023-06-13 Nvidia Corporation Audio noise determination using one or more neural networks
CN112201229A (zh) * 2020-10-09 2021-01-08 百果园技术(新加坡)有限公司 一种语音处理方法、装置及系统
CN112382265A (zh) * 2020-10-21 2021-02-19 西安交通大学 基于深度循环神经网络的主动降噪方法、存储介质及系统
CN112614504A (zh) * 2020-12-22 2021-04-06 平安科技(深圳)有限公司 单声道语音降噪方法、系统、设备及可读存储介质
CN112289333B (zh) * 2020-12-25 2021-04-13 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN112927707B (zh) * 2021-01-25 2023-10-03 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN112992131A (zh) * 2021-02-04 2021-06-18 南京邮电大学 一种在复杂场景下提取目标人声的乒乓球指令的方法
CN112767960B (zh) * 2021-02-05 2022-04-26 云从科技集团股份有限公司 一种音频降噪方法、系统、设备及介质
CN113129919A (zh) * 2021-04-17 2021-07-16 上海麦图信息科技有限公司 一种基于深度学习的空中管制语音降噪方法
CN113299302A (zh) * 2021-04-22 2021-08-24 维沃移动通信(杭州)有限公司 音频降噪方法、装置及电子设备
CN113450780B (zh) * 2021-06-16 2023-02-24 武汉大学 一种听觉感知响度空间Lombard效应分类方法
CN113782044B (zh) * 2021-08-25 2023-11-03 慧言科技(天津)有限公司 一种语音增强方法及装置
CN113936681B (zh) * 2021-10-13 2024-04-09 东南大学 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN116705013B (zh) * 2023-07-28 2023-10-10 腾讯科技(深圳)有限公司 语音唤醒词的检测方法、装置、存储介质和电子设备
CN116778970B (zh) * 2023-08-25 2023-11-24 长春市鸣玺科技有限公司 强噪声环境下的语音检测模型训练方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202887704U (zh) * 2012-06-18 2013-04-17 歌尔声学股份有限公司 一种单通道语音去混响装置
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
JP2016143043A (ja) * 2015-02-05 2016-08-08 日本電信電話株式会社 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202887704U (zh) * 2012-06-18 2013-04-17 歌尔声学股份有限公司 一种单通道语音去混响装置
JP2016143043A (ja) * 2015-02-05 2016-08-08 日本電信電話株式会社 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习与并行计算的语音增强系统;石博天;《中国优秀硕士学位论文全文数据库》;20170228;第4.1.3节,第4.3节 *

Also Published As

Publication number Publication date
CN107452389A (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN107452389B (zh) 一种通用的单声道实时降噪方法
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
Zhao et al. Two-stage deep learning for noisy-reverberant speech enhancement
CN109841206B (zh) 一种基于深度学习的回声消除方法
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
WO2019014890A1 (zh) 一种通用的单声道实时降噪方法
CN111653288A (zh) 基于条件变分自编码器的目标人语音增强方法
CN110660406A (zh) 近距离交谈场景下双麦克风移动电话的实时语音降噪方法
US9520138B2 (en) Adaptive modulation filtering for spectral feature enhancement
CN113129918A (zh) 联合波束形成和深度复数U-Net网络的语音去混响方法
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
CN114041185A (zh) 用于确定深度过滤器的方法和装置
Zhang Deep ad-hoc beamforming
Schwartz et al. Nested generalized sidelobe canceller for joint dereverberation and noise reduction
Zhou et al. Binaural speech separation algorithm based on long and short time memory networks
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
CN111899750B (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
Chen Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering
CN114566179A (zh) 一种时延可控的语音降噪方法
Ji et al. Coherence-Based Dual-Channel Noise Reduction Algorithm in a Complex Noisy Environment.
Sivapatham et al. Gammatone Filter Bank-Deep Neural Network-based Monaural speech enhancement for unseen conditions
CN114078481A (zh) 基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备
Li et al. Speech separation based on reliable binaural cues with two-stage neural network in noisy-reverberant environments
Kothapally et al. Monaural Speech Dereverberation using Deformable Convolutional Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Chen Jitong

Inventor after: Zhang Xueliang

Inventor before: Chen Jitong

Inventor before: Zhang Xueliang

Inventor before: Wang Deliang

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 533, podium building 12, Shenzhen Bay science and technology ecological park, No.18, South Keji Road, high tech community, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000

Patentee after: ELEVOC TECHNOLOGY Co.,Ltd.

Address before: 518000 1301, Dongfang Science and technology building, No. 5 Kewei Road, Yuehai street, Nanshan District, Shenzhen, Guangdong Province

Patentee before: ELEVOC TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder