CN109658949A - 一种基于深度神经网络的语音增强方法 - Google Patents
一种基于深度神经网络的语音增强方法 Download PDFInfo
- Publication number
- CN109658949A CN109658949A CN201811653295.7A CN201811653295A CN109658949A CN 109658949 A CN109658949 A CN 109658949A CN 201811653295 A CN201811653295 A CN 201811653295A CN 109658949 A CN109658949 A CN 109658949A
- Authority
- CN
- China
- Prior art keywords
- signal
- spectrum
- speech signal
- enhancing voice
- phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 14
- 238000001228 spectrum Methods 0.000 claims abstract description 111
- 230000002708 enhancing effect Effects 0.000 claims abstract description 75
- 238000013507 mapping Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000003062 neural network model Methods 0.000 claims abstract description 7
- 230000008447 perception Effects 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims description 9
- 239000004568 cement Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000007547 defect Effects 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
为了解决传统基于特征映射的DNN语音增强方法噪声鲁棒性差、特征映射不准确、增强语音存在频谱失真等缺点,提出了一种基于深度神经网络的语音增强方法。首先提出并搭建基于动态噪声和语音联合感知训练的特征映射深度神经网络模型(DNAT‑DSAT‑DNN),学习带噪语音信号和纯净语音信号之间的特征映射关系,进而得到增强语音信号的对数功率谱特征值;其次利用带噪语音信号、纯净语音信号和噪声信号三者的几何关系,求得增强语音信号的相位信息;最后利用重叠相加原理恢复出增强语音信号的时域表示。
Description
技术领域
本发明涉及语音增强领域和数字语音信号处理领域,特别涉及一种基于深度神经网络的语音增强方法。
背景技术
通过语音传递信息是人类最重要、最有效和最常用的交换信息的形式。语言是人类特有的功能,声音是人类最常用的工具。随着计算机技术的不断发展,人们越来越迫切的要求摆脱双手的束缚而代之以语音作为智能化设备的信息入口,实现人机对话的梦想;但是,人类生活的声学环境异常复杂,通常受到各种各样噪声的干扰,因此要想进行人机交流,有必要在语音信号处理的前端模块中实现语音增强的功能,以此来提高语音的质量和可懂度,提高语音识别的准确率和识别速度,从而进一步提高人机交流的准确度和流畅度。而提高和改善助听设备语音增强的功能也是一个重要的应用,大多数患有听力障碍的人不选择佩戴助听设备,其中一个主要原因就是助听器语音增强效果不好,有时甚至会将语音和噪声同时放大,严重影响了用户的体验度,而该技术可以在滤除噪声的同时,有效的提高语音的质量,因此很适合将其应用到助听设备之中。除此之外,还可以将该技术运用到语音通信、军事通信、窃听设备和语音编码等领域。
发明内容
语音增强方法通常按照所使用的技术可以划分为两种,基于数字语音信号处理的方法和基于机器学习的方法。基于数字语音信号处理的方法由于存在噪声信号准平稳、语音和噪声相互独立等假设性条件,因此对稳态噪声有很好的性能,但是对真实生活环境中的非稳态噪声增强效果较差;基于机器学习的方法尤其是基于深度学习的方法近几年得到了很好的发展,相较于传统基于数字语音信号处理的语音增强算法性能提升明显,但是它需要准备大量的数据,数据较少往往导致模型的噪声鲁棒性差,模型泛化能力弱,特征映射不准确和存在频谱失真问题。
针对此缺点,提出并搭建基于动态噪声和语音联合感知训练的特征映射深度神经网络模型(DNAT-DSAT-DNN),学习带噪语音信号和纯净语音信号之间的特征映射关系,进而得到增强语音信号的对数功率谱特征值;其次利用带噪语音信号、纯净语音信号和噪声信号三者的几何关系,求得增强语音信号的相位信息;最后利用重叠相加原理恢复出增强语音信号。主要分为三个步骤:
步骤101:搭建并训练基于DNAT-DSAT-DNN的特征映射网络模型;
步骤102:利用几何关系求解增强语音信号的相位信息;
步骤103:利用重叠相加原理恢复得到增强语音信号;
优先地,所述步骤101搭建并训练DNAT-DSAT-DNN的特征映射深度神经网络,获取增强语音信号的对数功率谱特征,解决目标问题包括:传统基于特征映射的DNN深度神经网络模型在语音增强任务中,采用的特征往往是带噪语音信号的特征或者再附加噪声信号的估计特征,因此包含的信息也就相对较少,模型的噪声鲁棒性差,而噪声估计的不准确性还会进一步导致恢复得到的增强语音信号存在频谱失真的问题,这严重的影响了语音的质量和可懂度。
针对此缺陷,提出了一种基于动态噪声和语音联合感知训练的模型训练方法,求取带噪语音信号中心帧(即当前帧)的语音对数域幅度谱特征估计值和噪声对数域幅度谱特征估计值,然后将二者与带噪语音信号中心帧及其扩展的前后各τ帧的对数功率谱特征进行融合,作为深度神经网络模型训练的输入特征向量,使模型能够更好的学习带噪语音信号、纯净语音信号和噪声信号三者之间的非线性关系,实现更精确的特征映射。
采用基于DNAT-DSAT-DNN的特征映射深度神经网络模型得到增强语音的对数功率谱特征,主要分为以下三个步骤:
①数据集:提供训练数据集、测试数据集;
②模型搭建和训练:搭建并训练基于DNAT-DSAT-DNN的特征映射深度神经网络模型;
③对于测试带噪语音信号进行模型解码,获得增强语音对数功率谱特征;
具体如下:
首先收集并整理数据集,提供模型训练所需要的带噪语音信号和纯净语音信号数据集对,搭建基于DNAT-DSAT-DNN的特征映射网络模型,接着对带噪语音进行加窗分帧的预处理,通过短时离散傅里叶变换求取带噪语音信号每一帧的对数功率谱特征和相位信息,然后对带噪语音信号的中心帧(即当前帧)进行前、后各τ帧扩展,得到该帧包含上、下文信息的特征向量:
vt=[yt-τ,...,yt-1,yt,yt+1,...,yt+τ]
接着利用改进最小控制迭代平均(IMCRA)方法实时动态跟踪每一帧带噪语音信号,求取每一帧带噪语音信号的噪声对数域幅度谱特征值的估计利用对数谱域的最小均方误差(Log-MMSE)方法求取带噪语音信号每一帧语音对数域幅度谱特征值的估计再进一步将二者与其所对应帧包含上、下文信息的特征向量进行融合,得到模型的输入向量:
该特征向量相较于传统的基于特征映射DNN语音增强方法的特征向量,给予了神经网络模型训练噪声环境和语音环境的双重提示,使模型能够训练学习到更多的信息,从而更好的学习带噪语音和纯净语音之间的映射关系,实现更精确的映射;然后对测试的带噪语音信号进行模型解码,就可以得到增强语音信号的对数功率谱特征估计值。
优先地,所述步骤102利用几何关系求解增强语音信号的相位信息;解决目标问题包括:无论是传统的基于数字语音信号处理的语音增强算法,还是基于深度神经网络的语音增强算法,绝大多数方法在进行语音信号波形恢复时都是采用原始带噪语音信号的相位信息,主要源于人耳对于相位微小变化不敏感的特性和纯净语音信号相位信息求解较为困难,但这无疑给纯净语音的精准估计和恢复带来了一定的误差,而且在一定程度上会造成估计的纯净语音信号的失真;
针对此缺陷,提出了利用几何关系求解增强语音信号的相位信息,即建立带噪语音信号、纯净语音信号和噪声信号三者幅度谱和相位谱在极坐标下的几何关系,用步骤101求得的增强语音对数功率谱求取增强语音信号的幅度谱,用其替代纯净语音信号的幅度谱,再进一步利用余弦定理求得增强语音信号的相位谱,该方法可以获得增强语音信号更准确的相位谱信息。
采用几何关系求解增强语音信号的相位谱信息,主要分为以下三个步骤:
①建立几何关系:在极坐标下建立带噪语音信号、纯净语音信号和噪声信号的幅度谱和相位谱的几何关系;
②求解带噪语音信号的幅度谱和相位谱,噪声信号的幅度谱,以及增强语音信号的幅度谱;
③利用余弦定理求解增强语音信号的相位谱;
具体如下:
假设{aY,aX,aN}、{θY,θX,θN}分别表示带噪语音信号、纯净语音信号和噪声信号的幅度谱值和相位值,然后在极坐标下三者满足几何关系:
在步骤101的特征值求解过程中,已经完成了带噪语音信号幅度谱和相位谱,以及噪声信号幅度谱值的求解,而由步骤101模型的输出可以得到增强语音信号的对数功率谱特征,因此可以进一步求得其幅度谱值,并用它代替纯净语音信号的幅度谱值,接着利用余弦定理求得增强语音信号的相位谱信息,即纯净语音信号所对应的θX:
该增强语音信号的相位谱信息相较于其他绝大数语音增强算法所使用的原始带噪语音信号的相位谱信息更加精准,更加接近真实纯净语音信号的相位谱信息,可以在后续进行语音重构恢复时提供更准确的相位谱信息。
优先地,所述步骤103利用重叠相加原理恢复得到增强语音信号,主要分为以下两个主要步骤:
①利用步骤101的输出即增强语音信号的对数功率谱求其幅度谱值;
②将增强语音的幅度谱值与步骤102求得的增强语音相位谱值利用重叠相加原理和逆短时离散傅里叶变换得到增强语音信号的时域表示;
具体如下:
假设步骤101的输出的带噪语音信号对数功率谱为对其进行exp(·)指数运算,得到功率谱值,再开方得到其幅度谱值然后结合步骤102求得的增强语音信号的相位值θX通过:
得到增强语音信号的时域表示波形恢复时相邻帧之间需要保持一定的重叠,这样得到的增强语音信号流畅度和舒适度更好。
附图说明
图1本发明所提出的基于深度学习的语音增强模型示意图;
图2本发明使用的语音信号几何关系示意图;
图3本发明所使用的增强语音信号恢复示意图;
具体实施方式
为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施案例对本发明做进一步详细说明。
图1本发明所提出并使用的基于深度学习的语音增强模型示意图,包括以下步骤:
①数据集:提供训练数据集、测试数据集;
②模型搭建和训练:搭建并训练基于DNAT-DSAT-DNN的特征映射深度神经网络模型;
③对于测试带噪语音信号进行模型解码,获得增强语音对数功率谱特征;
具体如下:
首先收集并整理数据集,提供模型训练所需要的带噪语音信号和纯净语音信号数据集对,搭建基于DNAT-DSAT-DNN的特征映射网络模型,接着对带噪语音进行加窗分帧的预处理,通过短时离散傅里叶变换求取带噪语音信号每一帧的对数功率谱特征和相位信息,然后对带噪语音信号的中心帧(即当前帧)进行前、后各τ帧扩展,得到该帧包含上、下文信息的特征向量:
vt=[yt-τ,...,yt-1,yt,yt+1,...,yt+τ]
接着利用改进最小控制迭代平均(IMCRA)方法实时动态跟踪每一帧带噪语音信号,求取每一帧带噪语音信号的噪声对数域幅度谱特征值的估计利用对数谱域的最小均方误差(Log-MMSE)方法求取带噪语音信号每一帧语音对数域幅度谱特征值的估计再进一步将二者与其所对应帧包含上、下文信息的特征向量进行融合,得到模型的输入向量:
该特征向量相较于传统的基于特征映射DNN语音增强方法的特征向量,给予了神经网络模型训练的噪声环境和语音环境的双重提示,使模型能够训练学习到更多的信息,从而更好的学习带噪语音和纯净语音之间的映射关系,实现更精确的映射;然后对测试的带噪语音信号进行模型解码,就可以得到增强语音信号的对数功率谱特征估计值。
图2本发明使用的语音信号几何关系示意图,包括以下步骤:
采用几何关系求解增强语音信号的相位谱信息,主要分为以下三个步骤:
①建立几何关系:在极坐标下建立带噪语音信号、纯净语音信号和噪声信号的幅度谱和相位谱的几何关系;
②求解带噪语音信号的幅度谱和相位谱,噪声信号的幅度谱,以及增强语音信号的幅度谱;
③利用余弦定理求解增强语音信号的相位谱;
具体如下:
假设{aY,aX,aN}、{θY,θX,θN}分别表示带噪语音信号、纯净语音信号和噪声信号的幅度谱值和相位值,然后在极坐标下三者满足几何关系:
在步骤101的特征值求解过程中,已经完成了带噪语音信号幅度谱和相位谱,以及噪声信号幅度谱值的求解,而由步骤101模型的输出可以得到增强语音信号的对数功率谱特征,因此可以进一步求得其幅度谱值,并用它代替纯净语音信号的幅度谱值,接着利用余弦定理求得增强语音信号的相位谱信息,即纯净语音信号所对应的θX:
图3本发明所使用的增强语音信号恢复示意图,包括以下步骤:
①利用步骤101的输出即增强语音信号的对数功率谱求其幅度谱值
②将增强语音的幅度谱值与步骤102求得的增强语音相位谱值利用重叠相加原理和逆短时离散傅里叶变换得到增强语音信号的时域表示;
具体如下:
假设步骤101的输出的带噪语音信号对数功率谱为对其进行exp(·)指数运算,得到功率谱值,再开方得到其幅度谱值然后结合步骤102求得的增强语音信号的相位值θX通过:
得到增强语音信号的时域表示波形恢复时相邻帧之间需要保持一定的重叠,这样得到的增强语音信号流畅度和舒适度更好。
Claims (4)
1.一种基于深度神经网络的语音增强方法,其特征在于,包括以下步骤:
步骤101:搭建并训练基于DNAT-DSAT-DNN的特征映射深度神经网络;
步骤102:利用几何关系求解增强语音信号的相位信息;
步骤103:利用重叠相加原理恢复得到增强语音信号。
2.根据权利要求1所述的一种基于深度神经网络的语音增强方法,其特征在于,所述步骤101搭建并训练基于DNAT-DSAT-DNN的特征映射深度神经网络,获取增强语音信号的对数功率谱特征,解决目标问题包括:传统基于特征映射的DNN深度神经网络模型在语音增强任务中,采用的特征往往是带噪语音信号的特征或者再附加噪声信号的估计特征,因此包含的信息也就相对较少,模型的噪声鲁棒性差,而噪声估计的不准确性还会进一步导致恢复得到的增强语音信号存在频谱失真的问题,这严重的影响了语音的质量和可懂度;
针对此缺陷,提出了一种基于动态噪声和语音联合感知训练的模型训练方法,求取带噪语音信号中心帧(即当前帧)的语音对数域幅度谱特征估计值和噪声对数域幅度谱特征估计值,然后将二者与带噪语音信号中心帧及其扩展的前后各τ帧的对数功率谱特征进行融合,作为深度神经网络模型训练的输入特征向量,使模型能够更好的学习带噪语音信号、纯净语音信号和噪声信号三者之间的非线性关系,实现更精确的特征映射;
采用基于DNAT-DSAT-DNN特征映射深度神经网络模型解码得到增强语音的对数功率谱特征,主要分为以下三个步骤:
①数据集:提供训练数据集、测试数据集;
②模型搭建和训练:搭建并训练基于DNAT-DSAT-DNN的特征映射深度神经网络模型;
③对于测试带噪语音信号进行模型解码,获得增强语音对数功率谱特征;具体如下:
首先收集并整理数据集,提供模型训练所需要的带噪语音信号和纯净语音信号数据集对,搭建基于DNAT-DSAT-DNN的特征映射网络模型,接着对带噪语音进行加窗分帧的预处理,通过短时离散傅里叶变换求取带噪语音信号每一帧的对数功率谱特征和相位信息,然后对带噪语音信号的中心帧(即当前帧)进行前、后各τ帧扩展,得到该帧包含上、下文信息的特征向量:
vt=[yt-τ,...,yt-1,yt,yt+1,...,yt+τ]
接着利用改进最小控制迭代平均(IMCRA)方法实时动态跟踪每一帧带噪语音信号,求取每一帧带噪语音信号的噪声对数域幅度谱特征值的估计利用对数谱域的最小均方误差(Log-MMSE)方法求取带噪语音信号每一帧语音对数域幅度谱特征值的估计再进一步将二者与其所对应帧包含上、下文信息的特征向量进行融合,得到模型的输入向量:
该特征向量相较于传统的基于特征映射DNN语音增强方法的特征向量,给予了神经网络模型训练噪声环境和语音环境的双重提示,使模型能够训练学习到更多的信息,从而更好的学习带噪语音和纯净语音之间的映射关系,实现更精确的映射;然后对测试的带噪语音信号进行模型解码,就可以得到增强语音信号的对数功率谱特征估计值。
3.根据权利要求1所述的一种基于深度神经网络的语音增强方法,其特征在于,所述步骤102利用几何关系求解增强语音信号的相位信息,解决目标问题包括:无论是传统的基于数字语音信号处理的语音增强算法,还是基于深度神经网络的语音增强算法,绝大多数方法在进行语音信号波形恢复时都是采用原始带噪语音信号的相位信息,这主要源于人耳对于相位微小变化不敏感的特性和纯净语音信号相位信息求解较为困难,但这无疑给纯净语音的精准估计和恢复带来了一定的误差,而且在一定程度上会造成估计的纯净语音信号失真;
针对此缺陷,提出了利用几何关系求解增强语音信号的相位信息,即建立带噪语音信号、纯净语音信号和噪声信号三者幅度谱和相位谱在极坐标下的几何关系,用步骤101求得的增强语音对数功率谱求取增强语音信号的幅度谱,用其替代纯净语音信号的幅度谱,再进一步利用余弦定理求得增强语音信号的相位谱,该方法可以获得增强语音信号更准确的相位谱信息;
采用几何关系求解增强语音信号的相位谱信息,主要分为以下三个步骤:
①建立几何关系:在极坐标下建立带噪语音信号、纯净语音信号和噪声信号的幅度谱和相位谱的几何关系;
②求解带噪语音信号的幅度谱和相位谱,噪声信号的幅度谱,以及增强语音信号的幅度谱;
③利用余弦定理求解增强语音信号的相位谱;
具体如下:
假设{aY,aX,aN}、{θY,θX,θN}分别表示带噪语音信号、纯净语音信号和噪声信号的幅度谱值和相位值,然后在极坐标下三者满足几何关系:
在步骤101的特征值求解过程中,已经完成了带噪语音信号幅度谱和相位谱,以及噪声信号幅度谱值的求解,而由步骤101模型的输出可以得到增强语音信号的对数功率谱特征,因此可以进一步求得其幅度谱值,并用它代替纯净语音信号的幅度谱值,接着利用余弦定理求得增强语音信号的相位谱信息,即纯净语音信号所对应的θX:
该增强语音信号的相位谱信息相较于其他绝大数语音增强算法所使用的原始带噪语音信号的相位谱信息更加精准,更加接近真实纯净语音信号的相位谱信息,可以在后续进行语音重构恢复时提供更准确的相位谱信息。
4.根据权利要求1所述的一种基于深度神经网络的语音增强方法,其特征在于,所述步骤103利用重叠相加原理得到增强语音信号的时域表示;
采用重叠相加恢复语音信号,主要分为以下两个主要步骤:
①利用步骤101的输出即增强语音信号的对数功率谱求其幅度谱值;
②将增强语音的幅度谱值与步骤102求得的增强语音相位谱值利用重叠相加原理和逆短时离散傅里叶变换得到增强语音信号的时域表示;
具体如下:
假设步骤101的输出的带噪语音信号对数功率谱为对其进行exp(·)指数运算,得到功率谱值,再进一步开方得到其幅度谱值然后结合步骤102求得的增强语音信号的相位值θX通过:
得到增强语音信号的时域表示波形恢复时相邻帧之间需要保持一定的重叠,这样得到的增强语音信号流畅度和舒适度更好。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811653295.7A CN109658949A (zh) | 2018-12-29 | 2018-12-29 | 一种基于深度神经网络的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811653295.7A CN109658949A (zh) | 2018-12-29 | 2018-12-29 | 一种基于深度神经网络的语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109658949A true CN109658949A (zh) | 2019-04-19 |
Family
ID=66118159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811653295.7A Pending CN109658949A (zh) | 2018-12-29 | 2018-12-29 | 一种基于深度神经网络的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109658949A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148419A (zh) * | 2019-04-25 | 2019-08-20 | 南京邮电大学 | 基于深度学习的语音分离方法 |
CN110246510A (zh) * | 2019-06-24 | 2019-09-17 | 电子科技大学 | 一种基于RefineNet的端到端语音增强方法 |
CN110867192A (zh) * | 2019-10-23 | 2020-03-06 | 北京计算机技术及应用研究所 | 基于门控循环编解码网络的语音增强方法 |
CN111145772A (zh) * | 2019-12-28 | 2020-05-12 | 广州国音智能科技有限公司 | 一种语音增强方法、系统及设备 |
CN111816187A (zh) * | 2020-07-03 | 2020-10-23 | 中国人民解放军空军预警学院 | 复杂环境下基于深层神经网络的语音特征映射方法 |
CN111863007A (zh) * | 2020-06-17 | 2020-10-30 | 国家计算机网络与信息安全管理中心 | 一种基于深度学习的语音增强方法及系统 |
CN111899750A (zh) * | 2020-07-29 | 2020-11-06 | 哈尔滨理工大学 | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 |
CN111968659A (zh) * | 2020-07-23 | 2020-11-20 | 天津大学 | 一种基于优化imcra的麦克风阵列语音增强方法 |
CN113744754A (zh) * | 2021-03-23 | 2021-12-03 | 京东数字科技控股股份有限公司 | 语音信号的增强处理方法和装置 |
CN113782044A (zh) * | 2021-08-25 | 2021-12-10 | 慧言科技(天津)有限公司 | 一种语音增强方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09153847A (ja) * | 1995-11-30 | 1997-06-10 | Ricoh Co Ltd | 音声処理装置および通信端末装置 |
EP1417679B1 (en) * | 2001-08-07 | 2010-12-15 | Emma Mixed Signal C.V. | Sound intelligibility enhancement using a psychoacoustic model and an oversampled filterbank |
CN102097099A (zh) * | 2009-12-11 | 2011-06-15 | 冲电气工业株式会社 | 使用通过线性组合的频谱分析的源声分离器及其方法 |
JP2012235310A (ja) * | 2011-04-28 | 2012-11-29 | Sony Corp | 信号処理装置および方法、プログラム、並びにデータ記録媒体 |
WO2014167570A1 (en) * | 2013-04-10 | 2014-10-16 | Technologies For Voice Interface | System and method for extracting and using prosody features |
US20160111108A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Audio Signal using Phase Information |
CN107257996A (zh) * | 2015-03-26 | 2017-10-17 | 英特尔公司 | 环境敏感自动语音识别的方法和系统 |
US20180033449A1 (en) * | 2016-08-01 | 2018-02-01 | Apple Inc. | System and method for performing speech enhancement using a neural network-based combined symbol |
CN108133702A (zh) * | 2017-12-20 | 2018-06-08 | 重庆邮电大学 | 一种基于mee优化准则的深度神经网络语音增强模型 |
CN108231086A (zh) * | 2017-12-24 | 2018-06-29 | 航天恒星科技有限公司 | 一种基于fpga的深度学习语音增强器及方法 |
US20180197534A1 (en) * | 2016-03-23 | 2018-07-12 | Google Llc | Adaptive audio enhancement for multichannel speech recognition |
US20180366138A1 (en) * | 2017-06-16 | 2018-12-20 | Apple Inc. | Speech Model-Based Neural Network-Assisted Signal Enhancement |
-
2018
- 2018-12-29 CN CN201811653295.7A patent/CN109658949A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09153847A (ja) * | 1995-11-30 | 1997-06-10 | Ricoh Co Ltd | 音声処理装置および通信端末装置 |
EP1417679B1 (en) * | 2001-08-07 | 2010-12-15 | Emma Mixed Signal C.V. | Sound intelligibility enhancement using a psychoacoustic model and an oversampled filterbank |
CN102097099A (zh) * | 2009-12-11 | 2011-06-15 | 冲电气工业株式会社 | 使用通过线性组合的频谱分析的源声分离器及其方法 |
JP2012235310A (ja) * | 2011-04-28 | 2012-11-29 | Sony Corp | 信号処理装置および方法、プログラム、並びにデータ記録媒体 |
WO2014167570A1 (en) * | 2013-04-10 | 2014-10-16 | Technologies For Voice Interface | System and method for extracting and using prosody features |
US20160111108A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Audio Signal using Phase Information |
CN107257996A (zh) * | 2015-03-26 | 2017-10-17 | 英特尔公司 | 环境敏感自动语音识别的方法和系统 |
US20180197534A1 (en) * | 2016-03-23 | 2018-07-12 | Google Llc | Adaptive audio enhancement for multichannel speech recognition |
US20180033449A1 (en) * | 2016-08-01 | 2018-02-01 | Apple Inc. | System and method for performing speech enhancement using a neural network-based combined symbol |
US20180366138A1 (en) * | 2017-06-16 | 2018-12-20 | Apple Inc. | Speech Model-Based Neural Network-Assisted Signal Enhancement |
CN108133702A (zh) * | 2017-12-20 | 2018-06-08 | 重庆邮电大学 | 一种基于mee优化准则的深度神经网络语音增强模型 |
CN108231086A (zh) * | 2017-12-24 | 2018-06-29 | 航天恒星科技有限公司 | 一种基于fpga的深度学习语音增强器及方法 |
Non-Patent Citations (8)
Title |
---|
DONG YU ET AL: "AN INVESTIGATION OF DEEP NEURAL NETWORKS FOR NOISE ROBUST SPEECH RECOGNITION", 《ICASSP 2013》 * |
QING WANG ET AL: "Joint noise and mask aware training for DNN-based speech enhancement with SUB-band features", 《2017 HANDS-FREE SPEECH COMMUNICATIONS AND MICROPHONE ARRAYS》 * |
ROBERT REHR ET AL: "Robust DNN-Based Speech Enhancement with Limited Training Data", 《SPEECH COMMUNICATION》 * |
YONG XU ET AL: "A Regression Approach to Speech Enhancement Based on Deep Neural Networks", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
YONG XU ET AL: "Dynamic Noise Aware Training for Speech Enhancement Based on Deep Neural Networks", 《INTERSPEECH 2014》 * |
张晖: "基于深度学习的语音分离研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
李湑: "单声道语音增强关键技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
赵彦平: "基于稀疏表示的语音增强方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148419A (zh) * | 2019-04-25 | 2019-08-20 | 南京邮电大学 | 基于深度学习的语音分离方法 |
CN110246510A (zh) * | 2019-06-24 | 2019-09-17 | 电子科技大学 | 一种基于RefineNet的端到端语音增强方法 |
CN110867192A (zh) * | 2019-10-23 | 2020-03-06 | 北京计算机技术及应用研究所 | 基于门控循环编解码网络的语音增强方法 |
CN111145772A (zh) * | 2019-12-28 | 2020-05-12 | 广州国音智能科技有限公司 | 一种语音增强方法、系统及设备 |
CN111863007A (zh) * | 2020-06-17 | 2020-10-30 | 国家计算机网络与信息安全管理中心 | 一种基于深度学习的语音增强方法及系统 |
CN111816187A (zh) * | 2020-07-03 | 2020-10-23 | 中国人民解放军空军预警学院 | 复杂环境下基于深层神经网络的语音特征映射方法 |
CN111968659B (zh) * | 2020-07-23 | 2023-10-31 | 天津大学 | 一种基于优化imcra的麦克风阵列语音增强方法 |
CN111968659A (zh) * | 2020-07-23 | 2020-11-20 | 天津大学 | 一种基于优化imcra的麦克风阵列语音增强方法 |
CN111899750A (zh) * | 2020-07-29 | 2020-11-06 | 哈尔滨理工大学 | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 |
CN111899750B (zh) * | 2020-07-29 | 2022-06-14 | 哈尔滨理工大学 | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 |
CN113744754A (zh) * | 2021-03-23 | 2021-12-03 | 京东数字科技控股股份有限公司 | 语音信号的增强处理方法和装置 |
CN113744754B (zh) * | 2021-03-23 | 2024-04-05 | 京东科技控股股份有限公司 | 语音信号的增强处理方法和装置 |
CN113782044A (zh) * | 2021-08-25 | 2021-12-10 | 慧言科技(天津)有限公司 | 一种语音增强方法及装置 |
CN113782044B (zh) * | 2021-08-25 | 2023-11-03 | 慧言科技(天津)有限公司 | 一种语音增强方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109658949A (zh) | 一种基于深度神经网络的语音增强方法 | |
CN111445905B (zh) | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 | |
US11024324B2 (en) | Methods and devices for RNN-based noise reduction in real-time conferences | |
CN111583954B (zh) | 一种说话人无关单通道语音分离方法 | |
CN108172238A (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
Yu et al. | Speech enhancement based on denoising autoencoder with multi-branched encoders | |
CN109378013B (zh) | 一种语音降噪方法 | |
CN102157156B (zh) | 一种单通道语音增强的方法和系统 | |
CN106203380A (zh) | 超声波手势识别方法及系统 | |
CN109147763A (zh) | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 | |
CN111951824A (zh) | 一种基于声音判别抑郁症的检测方法 | |
CN110456332A (zh) | 一种基于自动编码器的水声信号增强方法 | |
Li et al. | Sams-net: A sliced attention-based neural network for music source separation | |
WO2019232833A1 (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN110867192A (zh) | 基于门控循环编解码网络的语音增强方法 | |
CN112185405A (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
CN116403594A (zh) | 基于噪声更新因子的语音增强方法和装置 | |
US20230386492A1 (en) | System and method for suppressing noise from audio signal | |
Han et al. | Perceptual improvement of deep neural networks for monaural speech enhancement | |
CN114464188A (zh) | 一种基于分布式边缘计算的声纹唤醒算法 | |
CN111968627A (zh) | 一种基于联合字典学习和稀疏表示的骨导语音增强方法 | |
Zhou et al. | Meta-reinforcement learning based few-shot speech reconstruction for non-intrusive speech quality assessment | |
Li et al. | Research on voiceprint recognition technology based on deep neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190419 |