CN113658604A - 一种利用数理统计和深度网络结合的语音降噪通用方法 - Google Patents
一种利用数理统计和深度网络结合的语音降噪通用方法 Download PDFInfo
- Publication number
- CN113658604A CN113658604A CN202110993883.0A CN202110993883A CN113658604A CN 113658604 A CN113658604 A CN 113658604A CN 202110993883 A CN202110993883 A CN 202110993883A CN 113658604 A CN113658604 A CN 113658604A
- Authority
- CN
- China
- Prior art keywords
- noise
- sub
- neural network
- voice
- noise reduction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title abstract description 20
- 238000001228 spectrum Methods 0.000 claims abstract description 29
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 238000003062 neural network model Methods 0.000 claims abstract description 16
- 230000001052 transient effect Effects 0.000 claims abstract description 3
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000007429 general method Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种利用数理统计和深度网络结合的语音降噪通用方法,包括以下步骤:a.带噪语音输入,用短时傅立叶变换,得到带噪频谱的64个子带;b.计算64个子带的三角滤波对数能量;c.计算子带能量的倒谱系数作为特征,输入LSTM神经网络模型;d.用LSTM神经网络模型计算语音权重。本发明中,使用小尺寸的神经网络模型,充分利用它的非线性优势,把难处理的降噪成分的占比交给深度学习,并用拉式滤波估计残留稳态噪声及小波瞬时特性估计音乐噪声伪影得到干净频谱,具有低成本、低延时、低功耗,可以很好解决各类噪声,有较好保真度、自然度和可懂度的特性。
Description
技术领域
本发明涉及语音降噪技术领域,尤其涉及一种利用数理统计和深度网络结合的语音降噪通用方法。
背景技术
基于传统的语音降噪算法有很多(可参考图1),大类归为噪声抑制和语音增强。
对于单支麦克风的单通道情况,噪声抑制常见的有维纳滤波、卡尔曼滤波、自适应滤波器等基于数理统计原理的减谱法,此类方法听感还不错,但是在强噪声下或者全频污染,要保留较好的降噪效果,会引起很大的语音畸变,保真度无法得到保证。另一个最大的缺陷是无法很好的处理非稳态突发噪声,如狗叫、键盘敲击等突发噪声。由于短时傅立叶变换无法同时兼顾时域和频域的分辨率,选择较大的收敛因子会导致降噪完不平稳;选择较小的收敛因子则收敛时间长,无法及时处理突发噪声。
因此也有基于小波包变换,此方法计算复杂度高,而且目前针对语音的小波基还在研究中,还没有较通用的小波基可用于语音降噪的工程产品,目前大部分小波基算法用于机械故障检测和图像边缘检测等领域。
对于多支麦克风的多通道语音降噪算法,如信号子空间方法、听觉掩蔽效应方法、独立分量分析、波束形成等,为了语音保真度,保留了大部分噪声,从听感的舒适度来讲,不适用于通话降噪、对讲机或视频会议等使用场景,且多麦克风成本高,对麦克风一致性要求较为严苛,算法落地和故障排查多有不便。此外对于混响较大的场景,此类算法的性能大打折扣。
随着数据获取的便捷性的提高和芯片运算性能的快速发展,深度学习降噪(可参考图2)成为一种主流趋势,有用端到端的深度神经网络结构,编解码一体;也有运用卷积和递归估计噪声谱,然后用减谱法降噪等。此类方法有四个明显的缺陷:
第一:延时高,因为拼帧做卷积计算;
第二:运算复杂度高,含有多层级的卷积和逆卷积过程;
第三:内存开销大,由于要还原语音需要大量的权重参数;
第四:存在较为严重的语音失真,尤其在没有训练模型见过的样本中,语音还原度差,降噪引入的声音畸变较大。简而言之,此类算法由于运算量大、泛化能力差、延时高等问题,导致其无法快速工业化落地应用。也有一些低延时单纯的网络降噪算法,在非语音段噪声压制得很干净,但在语音段,为了防止语音失真,帧间音乐噪声伪影残留大,伴有哧啦呼啦的声音,在低性能噪比和全频污染(如白噪声)等情况下,尤为明显。
综上所述,语音识别前处理要求降噪处理后的语音有较高保真度,通话降噪或视频会议等场景要求降噪处理后的语音有较好的自然度和可懂度并且能能处理各类噪声,目前没有可以很好兼顾二者,同时又有实用价值的通用降噪算法。
因此,提出一种利用数理统计和深度网络结合的语音降噪通用方法。
发明内容
本发明的目的在于:为了解决上述的问题,而提出的一种利用数理统计和深度网络结合的语音降噪通用方法。
为了实现上述目的,本发明采用了如下技术方案:
一种利用数理统计和深度网络结合的语音降噪通用方法,包括以下步骤:
a.带噪语音输入,用短时傅立叶变换,得到带噪频谱的64个子带;
b.计算64个子带的三角滤波对数能量;
c.计算子带能量的倒谱系数作为特征,输入LSTM神经网络模型;
d.用LSTM神经网络模型计算语音权重;
e.通过语音权重系数作用于带噪频谱,得到初级干净频谱;
f.通过拉式滤波和小波作用于初级干净频谱,得到干净频谱;
g.输入干净频谱,用短时傅立叶逆变换回干净语音。
作为上述技术方案的进一步描述:
所述d步骤中的LSTM神经网络模型构建步骤为:
S1.带噪语音输入,用短时傅立叶变换,把频域均匀的分成64个子带,每个子带4个频点;
S2.设计64个子带的三角滤波,取对数能量,让特征值更加平稳;
S3.用离散余弦傅立叶变换计算子带能量的倒谱系数,同时计算一阶二阶差分;
S4.由此得到每帧64维矩阵作为特征输入,用单向LSTM神经网络学习它的语音权重;
S5.通过损失函数计算和迭代,得到最终的LSTM神经网络模型。
作为上述技术方案的进一步描述:
所述f步骤的具体步骤为:
输入相对干净的频谱,利用拉式滤波估计残留稳态噪声;
输入相对干净的频谱,利用小波瞬时特性估计音乐噪声伪影。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.通用性:该方法可同时用于通话、对讲机或视频会议等降噪场景和语音识别前处理,通过调整权重,做语音识别保真度高,做通话降噪自然度和可懂度高。
2.低成本:针对单通道设计,只需要一支麦克风,节约成本。
3.低内存:用了量化机制,节省内存开销,神经元权重仅有30K左右就可以达到很好的效果,实际运行时候开辟内存空间仅需要55K。
4.低功耗:用ln2优化自然对数指数函数【1】,而不用泰勒展开的查表方式,更简洁,运行速度也更快;用简化的球面高斯算法优化非自然对数指数函数【2】。
5.低延时:帧间依赖仅有32ms(小于41ms),可以音视频同步。
6.用均匀的子带,具有较强的泛化能力,而不像Mel域仅考虑音高感知的非线性映射或Bark域仅考虑心理声学的非线性映射。
附图说明
图1示出了根据本发明实施例提供的传统语音降噪流程示意图;
图2示出了根据本发明实施例提供的常见神经网络语音降噪流程结构示意图;
图3示出了根据本发明实施例提供的LSTM神经网络训练流程示意图;
图4示出了根据本发明实施例提供的通用语音降噪解码流程示意图;
其中:
图3中的LSTM是长短期记忆递归神经元的缩写;
图3中的DCT是离散余弦傅立叶变换的缩写;
图4中的STFT是短时傅立叶变换的缩写,ISTFT是短时傅立叶逆变换的缩写。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图3-4,本发明提供一种技术方案:一种利用数理统计和深度网络结合的语音降噪通用方法,包括以下步骤:
a.单通道带噪语音输入,用短时傅立叶变换,得到带噪频谱的64个子带;
b.计算64个子带的三角滤波对数能量;
c.用离散余弦傅立叶变换计算子带能量的倒谱系数作为特征,输入LSTM神经网络模型;
d.用LSTM神经网络模型计算语音权重;
e.通过语音权重系数作用于带噪频谱,得到初级干净频谱;
f.通过拉式滤波和小波作用于初级干净频谱,得到干净频谱,具体步骤为,
输入相对干净的频谱,利用拉式滤波估计残留稳态噪声,拉氏滤波是优化拉普拉斯算子后,用于稳态噪声的概率密度模型统计的滤波器;
输入相对干净的频谱,利用小波瞬时特性估计音乐噪声伪影,小波瞬时特性估计,是受到小波时域和频域兼顾的启发,设计出一种估计音乐噪声伪影的滤波器。
g.输入干净频谱,用短时傅立叶逆变换回干净语音。
其中,初级干净频谱是指相对干净的频谱。
具体的,如图3和图4所示,LSTM神经网络模型构建主要分为三个关键点,第一:根据干净语音和带噪语音,设计模型标签,即理想权重参数,可以根据使用需求进行设计;第二:特征提取模块;第三:神经网络训练模块。d步骤中的LSTM神经网络模型构建步骤为:
S1.带噪语音输入,用短时傅立叶变换,把频域均匀的分成64个子带,每个子带4个频点;
S2.设计64个子带的三角滤波,取对数能量,让特征值更加平稳;
S3.用离散余弦傅立叶变换计算子带能量的倒谱系数,同时计算一阶二阶差分;
S4.由此得到每帧64维矩阵作为特征输入,用单向LSTM神经网络学习它的语音权重;
S5.通过损失函数计算和迭代,得到最终的LSTM神经网络模型。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (3)
1.一种利用数理统计和深度网络结合的语音降噪通用方法,其特征在于,包括以下步骤:
a.带噪语音输入,用短时傅立叶变换,得到带噪频谱的64个子带;
b.计算64个子带的三角滤波对数能量;
c.计算子带能量的倒谱系数作为特征,输入LSTM神经网络模型;
d.用LSTM神经网络模型计算语音权重;
e.通过语音权重系数作用于带噪频谱,得到初级干净频谱;
f.通过拉式滤波和小波作用于初级干净频谱,得到干净频谱;
g.输入干净频谱,用短时傅立叶逆变换回干净语音。
2.根据权利要求1所述的一种利用数理统计和深度网络结合的语音降噪通用方法,其特征在于,所述d步骤中的LSTM神经网络模型构建步骤为:
S1.带噪语音输入,用短时傅立叶变换,把频域均匀的分成64个子带,每个子带4个频点;
S2.设计64个子带的三角滤波,取对数能量,让特征值更加平稳;
S3.用离散余弦傅立叶变换计算子带能量的倒谱系数,同时计算一阶二阶差分;
S4.由此得到每帧64维矩阵作为特征输入,用单向LSTM神经网络学习它的语音权重;
S5.通过损失函数计算和迭代,得到最终的LSTM神经网络模型。
3.根据权利要求1所述的一种利用数理统计和深度网络结合的语音降噪通用方法,其特征在于,所述f步骤的具体步骤为:
输入相对干净的频谱,利用拉式滤波估计残留稳态噪声;
输入相对干净的频谱,利用小波瞬时特性估计音乐噪声伪影。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110993883.0A CN113658604A (zh) | 2021-08-27 | 2021-08-27 | 一种利用数理统计和深度网络结合的语音降噪通用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110993883.0A CN113658604A (zh) | 2021-08-27 | 2021-08-27 | 一种利用数理统计和深度网络结合的语音降噪通用方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113658604A true CN113658604A (zh) | 2021-11-16 |
Family
ID=78493051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110993883.0A Pending CN113658604A (zh) | 2021-08-27 | 2021-08-27 | 一种利用数理统计和深度网络结合的语音降噪通用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113658604A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030078772A1 (en) * | 2001-09-28 | 2003-04-24 | Industrial Technology Research Institute | Noise reduction method |
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
CN108682418A (zh) * | 2018-06-26 | 2018-10-19 | 北京理工大学 | 一种基于预训练和双向lstm的语音识别方法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN109065067A (zh) * | 2018-08-16 | 2018-12-21 | 福建星网智慧科技股份有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN110808059A (zh) * | 2019-10-10 | 2020-02-18 | 天津大学 | 一种基于谱减法和小波变换的语音降噪方法 |
-
2021
- 2021-08-27 CN CN202110993883.0A patent/CN113658604A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030078772A1 (en) * | 2001-09-28 | 2003-04-24 | Industrial Technology Research Institute | Noise reduction method |
CN107845389A (zh) * | 2017-12-21 | 2018-03-27 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN108682418A (zh) * | 2018-06-26 | 2018-10-19 | 北京理工大学 | 一种基于预训练和双向lstm的语音识别方法 |
CN109065067A (zh) * | 2018-08-16 | 2018-12-21 | 福建星网智慧科技股份有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN110808059A (zh) * | 2019-10-10 | 2020-02-18 | 天津大学 | 一种基于谱减法和小波变换的语音降噪方法 |
Non-Patent Citations (1)
Title |
---|
邓利娜;黄晓革;: "基于频谱减法的语音去噪算法研究", 电子设计工程, no. 08, 20 April 2011 (2011-04-20), pages 113 - 115 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN110085249B (zh) | 基于注意力门控的循环神经网络的单通道语音增强方法 | |
CN110600050B (zh) | 基于深度神经网络的麦克风阵列语音增强方法及系统 | |
Valin et al. | Low-complexity, real-time joint neural echo control and speech enhancement based on percepnet | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
US11804234B2 (en) | Method for enhancing telephone speech signals based on Convolutional Neural Networks | |
WO2021147237A1 (zh) | 语音信号处理方法、装置、电子设备及存储介质 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN113744749B (zh) | 一种基于心理声学域加权损失函数的语音增强方法及系统 | |
CN112885375A (zh) | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
CN114566176A (zh) | 基于深度神经网络的残余回声消除方法及系统 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
CN116013344A (zh) | 一种多种噪声环境下的语音增强方法 | |
Yamashita et al. | Improved spectral subtraction utilizing iterative processing | |
CN113658604A (zh) | 一种利用数理统计和深度网络结合的语音降噪通用方法 | |
Nossier et al. | Two-stage deep learning approach for speech enhancement and reconstruction in the frequency and time domains | |
Rani et al. | Significance of phase in DNN based speech enhancement algorithms | |
CN115394310A (zh) | 一种基于神经网络的背景人声去除方法及系统 | |
CN115440240A (zh) | 语音降噪的训练方法、语音降噪系统及语音降噪方法 | |
CN113066483B (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 | |
Gui et al. | Adaptive subband Wiener filtering for speech enhancement using critical-band gammatone filterbank | |
CN113299308A (zh) | 一种语音增强方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |