CN113066483B - 一种基于稀疏连续约束的生成对抗网络语音增强方法 - Google Patents
一种基于稀疏连续约束的生成对抗网络语音增强方法 Download PDFInfo
- Publication number
- CN113066483B CN113066483B CN201911402478.6A CN201911402478A CN113066483B CN 113066483 B CN113066483 B CN 113066483B CN 201911402478 A CN201911402478 A CN 201911402478A CN 113066483 B CN113066483 B CN 113066483B
- Authority
- CN
- China
- Prior art keywords
- voice
- noise
- training
- speech
- complex spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 36
- 230000006870 function Effects 0.000 claims abstract description 22
- 238000013480 data collection Methods 0.000 claims abstract description 8
- 230000006835 compression Effects 0.000 claims abstract description 6
- 238000007906 compression Methods 0.000 claims abstract description 6
- 238000009432 framing Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000037433 frameshift Effects 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000009826 distribution Methods 0.000 abstract description 17
- 230000006837 decompression Effects 0.000 abstract description 5
- 239000011159 matrix material Substances 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000003042 antagnostic effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
- G10L21/045—Time compression or expansion by changing speed using thinning out or insertion of a waveform
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Abstract
本发明公开了一种基于稀疏连续约束的生成对抗网络语音增强方法,包括步骤:1)数据收集和分类;2)语音分帧加窗;3)幅度压缩;4)输入基于稀疏性约束的生成对抗网络训练;5)幅度解压缩;6)合成增强语音。本发明的优点是:通过生成对抗网络中的生成模型和判别模型之间的对抗学习,最终得到干净语音样本的分布;对语音或噪声的统计分布没有任何假设;在生成器的损失函数上添加了稀疏性和连续性约束,可以使获取的稀疏矩阵更符合语音频谱分布。本发明巧妙地解决了语音和噪声信号分布难以估计问题,有助于提高语音可懂度,得到更符合纯净语音频谱分布的增强语音。
Description
技术领域
本发明涉及语音处理技术领域,具体涉及一种基于稀疏连续约束的生成对抗网络语音增强方法。
背景技术
语音作为人类交流的主要媒介,已经在移动通信、语音助手等领域发挥了重要作用。在人工智能技术和物联网技术方兴未艾的大背景下,语音识别、声纹识别等技术的广泛应用也对语音信号的质量提出了更高的要求。然而在实际的语音采集和对话交流场景中,语音信号往往会受到各种噪声的干扰。语音增强是解决噪声污染的有效技术。
传统的语音增强方法主要有四种:(1)谱减法,是利用语音的短时平稳性将含噪语音信号的功率谱减去噪声信号的功率谱,便可得到纯净语音信号的功率谱估计。此方法容易产生“音乐噪声”问题;(2)维纳滤波器法,是在假定语音和加性噪声都服从高斯分布的条件下,从给定的含噪语音中通过维纳滤波器估计出语音的谱系数。当滤波器参数的调节到达极限或者处于非稳态噪声环境时,维纳滤波法的效果不佳;(3)基于谱幅度最小均方误差估计法(MMSE),是假设语音幅度谱满足某种分布,如高斯分布、伽玛分布等,通过统计学习估计出谱系数的概率分布。然而,假设的分布和真实的分布往往并不一致;(4)子空间法,是将纯净语音置于一个低秩的信号子空间,噪声信号置于一个噪声子空间。此方法通过将噪声子空间置零,再对信号子空间进行滤波以得到纯净的语音信号。此方法未考虑语音和噪声的先验知识,难以完全去除噪声子空间。
发明内容
本发明所要解决的问题是:提供一种基于稀疏连续约束的生成对抗网络语音增强方法旨在解决低信噪比环境下,现有方法存在“音乐噪声”、非稳态噪声干扰、真实语音分布难以估计的问题。
本发明为解决上述问题所提供的技术方案为:一种基于稀疏连续约束的生成对抗网络语音增强方法,所述方法包括以下步骤,
1)、数据收集和分类;
2)、语音分帧加窗;
3)、幅度压缩;
4)、输入基于稀疏连续约束的生成对抗网络训练;
5)、幅度解压缩;
6)、合成增强语音。
优选的,所述步骤1)中数据收集和分类具体包括以下步骤:
(1.1)数据收集:采用NOIZEUS库的语音作为纯净语音,以此作为纯净语音数据集;采用NOISEX~92噪声库中的噪声作为噪声信号;
(1.2)数据分类:每种噪声分别以-5dB,0dB,5dB,10dB和15dB的信噪比叠加到纯净语音,以此作为含噪语音数据集。
优选的,所述步骤2)语音分帧加窗是指采用长度为512,帧移为50%的汉明窗对含噪语音分帧,短时傅里叶变换的点数为1024。
优选的,所述步骤3)幅度压缩是指使用双曲正切函数对复数谱串接向量进行幅度压缩,把取值范围限制在[-1,1],双曲正切函数定义为
优选的,所述步骤4)输入基于稀疏连续约束的生成对抗网络训练可分为网络模型初始化、训练判别器、训练生成器及输出训练模型,具体如下:
(5.1)网络模型初始化:初始化生成器和判别器;生成器G通过卷积层和反卷积层实现,激活函数选择PReLU;判别器D通过卷积层实现,激活函数选择LeakyReLU;采用“same”的补零策略,并采用BatchNormalization对每一层进行归一化;优化器选择RMSprop,学习率为0.0002;
(5.2)训练判别器:对步骤3)得到的纯净语音样本压缩复数谱训练,使得D(Xm)趋近1;对步骤3)得到的含噪语音样本压缩复数谱训练,使得增强语音复数谱且趋近0;
(5.3)训练生成器:对步骤3)得到的纯净语音样本和含噪语音样本压缩复数谱训练,冻结判别器,训练生成器,使得判别器D对增强语音复数谱且/>趋近1;
(5.4)输出训练模型:重复步骤(5.1)~(5.3),直到模型收敛为止,输出生成器G和判别器D。
优选的,所述步骤5)幅度解压缩是指使用反双曲正切函数对增强复数谱串接向量进行幅度解压缩,反双曲正切函数定义为
优选的,所述步骤6)合成增强语音是指将增强语音复数谱进行逆短时傅里叶变换,得到降噪语音时域波形的过程。
与现有技术相比,本发明的优点是:本发明通过生成对抗网络中的生成模型和判别模型之间的对抗学习,最终得到干净语音样本的分布;对语音或噪声的统计分布没有任何假设;在生成器的损失函数上添加了稀疏性和连续性约束,可以使获取的稀疏矩阵更符合语音频谱分布。本发明巧妙地解决了语音和噪声信号分布难以估计问题,有助于提高语音可懂度,得到更符合纯净语音频谱分布的增强语音。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明的工作原理图。
图2是本发明基于稀疏连续约束的生成对抗网络原理框图。
具体实施方式
以下将配合附图及实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
一种基于稀疏连续约束的生成对抗网络语音增强方法,实现低信噪比环境下的语音去噪,如图1所示,其具体实施步骤如下:
1)数据收集和分类
(1.1)数据收集:本发明实例采用NOIZEUS库的sp01~sp30语音作为纯净语音,采用NOISEX~92噪声库中的babble噪声,white噪声,hfchannel噪声及buccaneer1噪声作为噪声信号,采样频率均为8KHz;
(1.2)数据分类:将(1.1)所述的四种噪声分别以-5dB,0dB,5dB,10dB和15dB的信噪比叠加到纯净语音,以此作为含噪语音数据集。纯净语音数据集和含噪语音数据集里均为8KHz、16位、单通道的语音。将数据集以3:1的比例分成训练集和测试集。
2)语音分帧加窗
采用长度为512,帧移为50%的汉明窗对含噪语音分帧,短时傅里叶变换(STFT)的点数为1024,得到含噪语音的复数谱,并将复数谱的实部和虚部串接成向量,以此作为网络训练目标。
3)幅度压缩
使用双曲正切函数对步骤2)所得复数谱串接向量进行幅度压缩,将图1所示的含噪语音复数谱Z的实部Zr和虚部Zi的幅度范围限制在[-1,1],然后把Zr和Zi的串接向量作为SCC-GAN的输入,通过SCC-GAN计算Xr和Xi的估计值和/>双曲正切函数定义如式(1)所示:
4)输入基于稀疏连续约束的生成对抗网络训练
(4.1)网络模型初始化:初始化生成器和判别器。生成器G通过卷积层和反卷积层实现,激活函数选择PReLU。判别器D通过卷积层实现,激活函数选择LeakyReLU。采用“same”的补零策略,并采用BatchNormalization对每一层进行归一化。优化器选择RMSprop,学习率为0.0002。输入基于稀疏连续约束的生成对抗网络目标函数如式(2)所示:
式中,有Xc=[Xr'Xi'],Zc=[Zr'Zi'],λ表示调节权重,E[·]表示计算数学期望,μ为平衡因子,|·|2,1为L2,1范数,其定义为
如果不考虑语音的连续性,容易使生成的增强语音时频矩阵出现一些不合理的孤立离群点。通过引入语音连续性,可以使获取的稀疏矩阵更符合语音频谱分布,减少不合理的孤立点。T.Virtanen在语音分离研究中提出了一个时间连续性代价函数,它的原理是根据时频矩阵相邻列元素之间的连续性建立一个惩罚函数
式中,n,k分别为时间索引和频率索引,且有标准差在式(2-b)中加入连续性约束,得到含有时间连续性的代价函数为
其中,c为调节因子,用于调节连续性惩罚项所占的权重。
(4.2)训练判别器:对步骤3)得到的纯净语音样本压缩复数谱训练,使得D(Xm)趋近1;对步骤3)得到的含噪语音样本压缩复数谱训练,使得增强语音复数谱且趋近0。
(4.3)训练生成器:对步骤3)得到的纯净语音样本和含噪语音样本压缩复数谱训练,冻结判别器,训练生成器,使得判别器D对增强语音复数谱且/>趋近1;
(4.4)输出训练模型:重复步骤(4.1)~(4.3),直到模型收敛为止,输出生成器G和判别器D。
5)幅度解压缩
使用反双曲正切函数对步骤4)得到的增强复数谱串接向量的实部和虚部/>进行幅度解压缩,获得/>和/>反双曲正切函数定义如式(3)所示:
6)合成增强语音
对步骤5)得到的增强语音复数谱进行逆短时傅里叶变换(ISTFT),得到降噪语音的时域波形,完成语音增强过程。
将测试集的所有含噪语音重复步骤6),可得增强后的语音数据集。
以上仅就本发明的最佳实施例作了说明,但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例,其具体结构允许有变化。凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明保护范围内。
Claims (1)
1.一种基于稀疏连续约束的生成对抗网络语音增强方法,所述方法包括以下步骤,
1)、数据收集和分类
(1.1)数据收集:采用NOIZEUS库的sp01~sp30语音作为纯净语音,采用NOISEX~92噪声库中的babble噪声,white噪声,hfchannel噪声及buccaneer1噪声作为噪声信号,采样频率均为8KHz;
(1.2)数据分类:将(1.1)所述的四种噪声分别以-5dB,0dB,5dB,10dB和15dB的信噪比叠加到纯净语音,以此作为含噪语音数据集;纯净语音数据集和含噪语音数据集里均为8KHz、16位、单通道的语音;将数据集以3:1的比例分成训练集和测试集;
2)、语音分帧加窗
采用长度为512,帧移为50%的汉明窗对含噪语音分帧,短时傅里叶变换的点数为1024,得到含噪语音的复数谱,并将复数谱的实部和虚部串接成向量,以此作为网络训练目标;
3)、幅度压缩
使用双曲正切函数对步骤2)所得复数谱向量进行幅度压缩,将含噪语音复数谱Z的实部Zr和虚部Zi的幅度范围限制在[-1,1],然后把Zr和Zi的向量作为SCC-GAN的输入,通过SCC-GAN计算Xr和Xi的估计值和/>双曲正切函数定义如下式所示:
4)、输入基于稀疏连续约束的生成对抗网络训练
基于稀疏连续约束的生成对抗网络训练可分为网络模型初始化、训练判别器、训练生成器及输出训练模型,具体如下:
网络模型初始化:初始化生成器和判别器;生成器G通过卷积层和反卷积层实现,激活函数选择PReLU;判别器D通过卷积层实现,激活函数选择LeakyReLU;采用“same”的补零策略,并采用Batch Normalization对每一层进行归一化;优化器选择RMSprop,学习率为0.0002;
训练判别器:对纯净语音样本的压缩复数谱训练,使得D(Xm)趋近1;对步骤3)得到的含噪语音样本压缩复数谱训练,使得增强语音复数谱且/>趋近0;
训练生成器:对纯净语音样本和含噪语音样本的压缩复数谱训练,冻结判别器,训练生成器,使得判别器D对增强语音复数谱且/>趋近1;
输出训练模型:重复以上步骤训练交替判别器和生成器,直到模型收敛为止,输出生成器G和判别器D;
5)、幅度解压缩;
使用反双曲正切函数对增强复数谱向量进行幅度解压缩,反双曲正切函数定义为:
6)、合成增强语音;
将增强语音复数谱进行逆短时傅里叶变换,得到降噪语音时域波形的过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911402478.6A CN113066483B (zh) | 2019-12-31 | 2019-12-31 | 一种基于稀疏连续约束的生成对抗网络语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911402478.6A CN113066483B (zh) | 2019-12-31 | 2019-12-31 | 一种基于稀疏连续约束的生成对抗网络语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113066483A CN113066483A (zh) | 2021-07-02 |
CN113066483B true CN113066483B (zh) | 2024-01-30 |
Family
ID=76558269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911402478.6A Active CN113066483B (zh) | 2019-12-31 | 2019-12-31 | 一种基于稀疏连续约束的生成对抗网络语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113066483B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115967451B (zh) * | 2023-03-13 | 2023-06-27 | 微网优联科技(成都)有限公司 | 无线路由器信号处理方法、装置及应用其的无线路由器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2035338C (en) * | 1990-03-21 | 1995-07-25 | Bernhard Boser | Operational speed improvement for neural networks |
CN106328150A (zh) * | 2016-08-18 | 2017-01-11 | 北京易迈医疗科技有限公司 | 嘈杂环境下的肠鸣音检测方法、装置及系统 |
CN110085215A (zh) * | 2018-01-23 | 2019-08-02 | 中国科学院声学研究所 | 一种基于生成对抗网络的语言模型数据增强方法 |
CN110428849A (zh) * | 2019-07-30 | 2019-11-08 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的语音增强方法 |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102002681B1 (ko) * | 2017-06-27 | 2019-07-23 | 한양대학교 산학협력단 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
US11062717B2 (en) * | 2018-06-20 | 2021-07-13 | Mimi Hearing Technologies GmbH | Systems and methods for processing an audio signal for replay on an audio device |
-
2019
- 2019-12-31 CN CN201911402478.6A patent/CN113066483B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2035338C (en) * | 1990-03-21 | 1995-07-25 | Bernhard Boser | Operational speed improvement for neural networks |
CN106328150A (zh) * | 2016-08-18 | 2017-01-11 | 北京易迈医疗科技有限公司 | 嘈杂环境下的肠鸣音检测方法、装置及系统 |
CN110085215A (zh) * | 2018-01-23 | 2019-08-02 | 中国科学院声学研究所 | 一种基于生成对抗网络的语言模型数据增强方法 |
CN110428849A (zh) * | 2019-07-30 | 2019-11-08 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的语音增强方法 |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
Non-Patent Citations (4)
Title |
---|
Conditional Generative Adversarial Networks for Speech Enhancement and Noise-Robust Speaker Verification;Daniel Michelsanti et al;《Conference of the International Speech Communication Association 2017》;第2008-2011页 * |
Enhancing explainability of neural networks through architecture constraints;Yang Z等;《arXiv preprint arXiv》;第1-12页 * |
生成式对抗网络在语音增强方面的研究;孙成立等;《 计算机技术与发展》;第29卷(第2期);第152-156,161页 * |
高噪声环境下的生成对抗网络人机语音增强技术;张敬敏 等;《移动通信》;第43卷(第08期);第14-20页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113066483A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN110085249B (zh) | 基于注意力门控的循环神经网络的单通道语音增强方法 | |
CN107274908B (zh) | 基于新阈值函数的小波语音去噪方法 | |
CN107845389A (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN112017682B (zh) | 一种单通道语音同时降噪和去混响系统 | |
CN110491406B (zh) | 一种多模块抑制不同种类噪声的双噪声语音增强方法 | |
CN113066483B (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN114283829A (zh) | 一种基于动态门控卷积循环网络的语音增强方法 | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
Rao et al. | Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration | |
CN116013339A (zh) | 一种基于改进crn的单通道语音增强方法 | |
CN115273884A (zh) | 基于频谱压缩和神经网络的多阶段全频带语音增强方法 | |
Yang et al. | A speech enhancement algorithm combining spectral subtraction and wavelet transform | |
CN114566179A (zh) | 一种时延可控的语音降噪方法 | |
Shao et al. | A versatile speech enhancement system based on perceptual wavelet denoising | |
CN113113049A (zh) | 一种联合语音增强的语音活动检测方法 | |
Darabian et al. | Improving the performance of MFCC for Persian robust speech recognition | |
Seyedin et al. | New features using robust MVDR spectrum of filtered autocorrelation sequence for robust speech recognition | |
Shen et al. | A priori SNR estimator based on a convex combination of two DD approaches for speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240102 Address after: 510000 No. 101, hongshansan Road, Huangpu District, Guangzhou City, Guangdong Province Applicant after: GUANGZHOU MARITIME INSTITUTE Applicant after: CHAOYANG JUSHENGTAI (XINFENG) SCIENCE & TECHNOLOGY Co.,Ltd. Applicant after: NANCHANG HANGKONG University Address before: No. 696 Fenghe Road, Nanchang, Jiangxi Province, Jiangxi Applicant before: NANCHANG HANGKONG University |
|
GR01 | Patent grant | ||
GR01 | Patent grant |