CN115410589A - 一种基于联合感知损失的注意力生成对抗语音增强方法 - Google Patents
一种基于联合感知损失的注意力生成对抗语音增强方法 Download PDFInfo
- Publication number
- CN115410589A CN115410589A CN202211079475.5A CN202211079475A CN115410589A CN 115410589 A CN115410589 A CN 115410589A CN 202211079475 A CN202211079475 A CN 202211079475A CN 115410589 A CN115410589 A CN 115410589A
- Authority
- CN
- China
- Prior art keywords
- model
- voice
- speech
- training
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000008447 perception Effects 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000001228 spectrum Methods 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 230000001965 increasing effect Effects 0.000 claims abstract description 4
- 230000002708 enhancing effect Effects 0.000 claims abstract description 3
- 238000012952 Resampling Methods 0.000 claims abstract 3
- 238000009432 framing Methods 0.000 claims abstract 2
- 230000000873 masking effect Effects 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 8
- 230000003042 antagnostic effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000035945 sensitivity Effects 0.000 claims description 2
- 241000213006 Angelica dahurica Species 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 101000659995 Homo sapiens Ribosomal L1 domain-containing protein 1 Proteins 0.000 description 3
- 102100035066 Ribosomal L1 domain-containing protein 1 Human genes 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于联合感知损失的注意力生成对抗语音增强的方法。所述方法包括以下步骤:步骤1:训练数据预处理:对训练数据进行重采样、分帧加窗,短时傅里叶变换,获取训练数据的幅度谱特征;步骤2:构建模型并训练:构建基于联合感知损失函数的注意力生成对抗语音增强模型,设定合理的训练参数,并对其进行训练;步骤3:测试模型:预处理带噪语音测试集,利用上述训练完成的语音增强模型对其进行去噪与增强,并保存结果,完成语音增强任务。利用本发明,可以在不显著增加模型参数和计算开销的情况下显著提高带噪语音信号的语音质量和可懂度。
Description
技术领域
本发明涉及语音信号处理的语音增强技术领域,尤其涉及了一种基于联合感知损失的注意力生成对抗语音增强方法。
背景技术
语音是人类最重要的交流工具,是人们所使用的最古老、最普遍的通信方式,它有着自然方便、高效准确的优点,但是在现实生活中语音往往会被各种各样的噪声影响而造成失真,这些噪声会不同程度地影响语音质量,从而导致语音可懂度下降。
为了解决这个问题,许多基于信号处理的方法被提出,如谱减法、子空间法、维纳滤波法等。近几年,研究界见证了传统信号处理方法到数据驱动增强方法的转变,尤其是基于深度学习的方法。深度学习中典型的神经网络模型有递归神经网络(RNN)、长短期记忆网络(LSTM)、卷积神经网络(CNN)、全卷积网络(FCN)、卷积递归神经网络(CRNN)、生成对抗网络(GAN)。与传统的基于信号处理的语音增强方法相比,深度学习方法的语音增强性能有了显著的提高。
深度学习语音增强算法的性能主要和四个因素密切相关。即:输入特征,训练目标,网络结构,损失函数。要部署特定任务的语音增强模型,最直观的方法是采用与最终目标相关的损失函数,而当前很多基于生成对抗网络的语音增强模型,其指导生成器生成数据的对抗性损失所用参数(频谱)与语音质量评价所用参数(STOI)不匹配,从而限制了增强模型对语音质量与语音可懂度的提升性能。
在语音增强领域MetricGAN显示出强大的能力,其被证明可以有效地优化复杂甚至不可微的语音评估指标。但仅优化单个目标度量通常会导致另一个指标处于次优状态,因而限制了MetricGAN语音增强的性能。
发明内容
本发明主要在MetricGAN语音增强模型中使用联合感知损失函数,以改善仅优化单个目标度量通常会导致另一个指标处于次优状态这一缺点;同时,在MetricGAN语音增强模型的判别器模型D中使用SK-Net卷积注意力模块,使模型可以根据输入信息的多个尺度自适应的调节感受野大小,以此提升判别器模型的预测能力,使其更好地指导生成器训练。
本发明的目的是通过以下技术方案实现。
一种基于联合感知损失的注意力生成对抗语音增强方法,包括以下步骤。
步骤1:预处理训练数据:提取语音幅度谱特征作为模型输入,提取语音幅度谱特征使用的窗函数为汉明窗,窗长为32ms,窗移为16ms,傅里叶点数为512;
步骤2:构建模型并训练:构建基于联合感知损失函数的注意力生成对抗语音增强模型,设置合理的训练参数,并对其进行训练;
步骤3:测试模型:预处理带噪语音测试集,利用上述训练完成的语音增强模型对其进行去噪与增强,并保存结果,完成语音增强任务。
本发明的模型称为AMGAN(Attention MetricGAN)模型,通过训练AMGAN模型,可在幅度谱域完成语音增强任务,该模型可改善仅优化单个目标度量通常会导致另一个指标处于次优状态从而限制增强性能这一缺点;本发明可以在不显著增加模型参数和计算开销的情况下同时有效提升带噪语音信号的语音质量和语音可懂度。
进一步的,步骤2的AMGAN模型由两个深度神经网络模型构建,分别称为生成器模型G和判别器模型D:
生成器模型G对输入带噪语音的幅度谱特征进行特征掩蔽,获得去除噪声分量后的语音幅度谱特征;
判别器模型D使用CNN网络对生成器模型G生成语音的增强效果进行量化估计。为进一步提升判别器模型D预测目标度量的能力,在模型中使用SK-Net卷积注意力模块,使网络可以根据输入信息的多个尺度自适应地调节感受野大小,以此提升网络模型的表达能力,更加准确预测目标度量的分数。
进一步的,AMGAN模型的生成器模型G含有两个双向LSTM层,每一层有200个神经元,LSTM后面接两个全连接层,它们分别有300个LeakyReLU节点和257个可学习的sigmoid节点用于掩模估计,当该掩模与带噪语音幅度谱相乘时,应去除噪声分量。
进一步的,AMGAN模型的判别器模型D采用四个二维卷积层,为了提高判别器D的模型预测能力,在第四层卷积后添加一个SK-Net卷积注意力模块,每一层卷积都具有15个滤波器,普通二维卷积的卷积核大小为(5,5),SK-Net卷积注意力模块通过模型训练在(1,1)、(3,3)、(5,5)、(7,7)之间自适应地选择卷积核大小。为了处理可变长度输入,添加一个二维全局平均池化层,以便可以将特征固定在15个维度上。随后添加三个全连接层,它们分别有50个和10个LeakyReLU节点,以及一个线性节点用于预测目标度量分数。
进一步的,SK-Net是基于卷积核的注意力机制,它是一种可在多个不同大小卷积核之间进行选择的卷积操作。对于网络模型来说,人为设定的感受野大小不一定是最优的,而SK-Net可以使网络根据输入信息的多个尺度自适应的调节感受野大小,以此提升网络模型的表达能力,作用在本发明判别器模型D中以提升判别器模型D的对目标度量的预测性能,使其更好地指导生成器训练。
进一步的,所述联合感知损失作用在生成器模型G中。其由两部分构成,一部分是生成对抗网络的对抗性损失,通过使用判别器D模拟PESQ的行为,获得语音质量的损失;另一部分是使用STOI损失,用来代表语音可懂度的损失。所述AMGAN模型的判别器模型D和生成器模型G的损失函数分别为:
其中代表带噪语音信号的幅度谱特征,代表干净语音信号的幅度谱特征,代表通过生成器模型G优化后的带噪语音幅度谱特征,在本发明中表示目标度量,得到的是归一化后的PESQ指标分数,为了使判别器D学习预测语音信号的PESQ分数,判别器D输入为成对的干净语音与带噪语音、干净语音与增强语音或干净语音与干净语音的幅度谱。
进一步的,虽然STOI函数的计算是复杂的,但大部分计算是可微的,因此可以将其重写集成到模型用于直接优化STOI度量,在所述生成器G的损失函数中添加可懂度损失,可以引导生成器G重构的语音信号可懂度得到有效提升。
步骤1:移除静音段:因为在语音静音段中没有需要被理解的语音内容,所以计算前需要将其移除。
步骤2:短时傅里叶变换(STFT):对信号进行短时傅里叶变换,该变换所使用的窗函数为汉明窗,窗长256ms,窗移为128ms,傅里叶点数为512。
步骤3:1/3倍频程分析:对信号进行DFT变换并将频率进行划分。该操作一共用了15个1/3倍频程,干净语音信号的短时时域包络可以表示为:
步骤5:可懂度测度:中间可懂度可以定义为两个时域包络之间的相关系数,即:
进一步的,生成器模型G和判别器模型D进行交替训练,相互对抗,直到带噪语音通过生成器G重构后的语音质量和语音可懂度足够逼近理想值。
进一步的,所述的步骤3包括以下步骤:
步骤3-1:测试数据预处理:提取测试数据的语音幅度谱特征,提取语音幅度谱特征使用的窗函数为汉明窗,窗长为32ms,窗移为16ms,傅里叶点数为512;
步骤3-2:特征掩蔽:将所述测试数据的语音幅度谱特征输入训练完成的AMGAN算法模型,通过生成器模型G对其进行幅度谱掩蔽,去除噪声分量,输出经过掩蔽后的语音幅度谱;
步骤3-3:语音重构:将所述掩蔽后的语音幅度谱与原始带噪语音的相位谱通过短时傅里叶逆变换操作,重构得到去噪后的语音。
进一步的,利用训练好的AMGAN算法模型对带噪语音信号进行处理,通过生成器模型G生成出语音质量和可懂度指标尽可能理想的语音信号,完成对带噪语音的去噪和增强。
采用上述方案,本发明的有益效果包括以下几点。
1.本发明提供了一种基于联合感知损失的注意力生成对抗语音增强方法,利用SK-Net卷积注意力模块自适应调节卷积核大小的优点,有效提升了判别器D的模型表达能力,使其能更加准确预测特定的目标度量,更好地指导生成器模型G的训练。
2.本发明使用一种联合感知损失函数指导AMGAN语音增强模型进行训练,同时优化多个语音感知度量,改善了仅优化单个目标度量通常会导致另一个指标处于次优状态的缺点,同时有效提升了语音质量和可懂度。
3.本发明可以在不同的噪声条件下完成语音增强,具有较强的适应能力和一定实用性。
附图说明
为进一步理解本发明实施的技术方案,在此对附图加以说明,此处附图构成本申请的一部分,并不构成本发明实施例的限定。
在附图中:图1为本发明实施例提供的一种语音增强技术路线示意图,图2为本发明判别器D的网络模型图。
具体实施方式
在此结合本发明实施例中的附图,对本发明实施例的目的、技术方案以及优点进行详细、完整地说明。在此所说明的实施例是对本发明的一部分实施例,并非全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种基于联合感知损失的注意力生成对抗语音增强方法,本发明的模型可简称为AMGAN(Attention MetricGAN)模型,通过联合对抗训练,获得AMGAN模型完成语音增强任务,在模型参数及计算开销并没有显著增加的前提下,既能有效提升语音质量,又能解决使用判别器模型D模拟PESQ函数作为生成器损失函数时,语音质量提升但语音可懂度没有得到有效提升这一问题,更加有效的实现了语音增强任务。
如图1所示,本发明实施例提供的一种语音增强技术路线图,其中包括以下步骤:
步骤1:预处理训练数据:提取语音幅度谱特征作为模型输入,提取语音幅度谱特征使用的窗函数为汉明窗,窗长为32ms,窗移为16ms,傅里叶点数为512。
步骤2:构建模型并训练:构建基于联合感知损失的注意力生成对抗语音增强模型,将预处理后的语音训练集输入模型进行联合对抗训练,将训练完成的AMGAN模型部署到服务器中。
AMGAN模型由两个深度神经网络模型构建,分别是生成器模型G和判别器模型D。
生成器模型G对输入带噪语音的幅度谱特征进行特征掩蔽,去除噪声分量获得经过掩蔽后的语音幅度谱特征。
判别器模型D如图2所示使用CNN网络对生成器模型G生成语音的增强效果进行量化估计。为进一步提升判别器模型D预测目标度量的能力,在模型中使用SK-Net卷积注意力模块,使网络可以根据输入信息的多个尺度自适应地调节感受野大小,以此提升网络模型的表达能力,更加准确预测目标度量的分数。
模型构建完成后,通过联合对抗训练方式对模型进行训练,通过判别器模型D获得预测PESQ的分数,通过使用STOI函数获得STOI的分数,并将上述两种分数作为联合感知损失指导生成器G的训练,直到带噪语音通过生成器G重构后得到足够理想的语音质量和可懂度。
AMGAN模型的判别器模型D和生成器模型G和的损失函数分别为:
利用联合感知损失的注意力生成对抗语音增强模型,以优化训练数据的PESQ和STOI度量为训练目标,使重构语音信号尽可能逼近干净语音信号,有效解决了一些生成对抗网络语音增强模型不能同时有效提升语音质量和可懂度的问题。
步骤3:测试模型:将带噪语音测试集的语音数据进行预处理,利用训练完成的AMGAN模型对其去噪,并重构获得去噪后的语音信号,完成语音增强任务。
步骤3-1:预处理测试数据:对测试集的带噪语音信号的预处理方式与训练集预处理方式相同。提取语音幅度谱特征作为模型输入,提取语音幅度谱特征使用的窗函数为汉明窗,窗长为32ms,窗移为16ms,傅里叶点数为512;
步骤3-2:特征掩蔽:将所述测试数据的语音幅度谱特征输入训练完成的AMGAN算法模型,通过生成器G对其进行幅度谱掩蔽,去除噪声分量,输出经过掩蔽后的语音幅度谱;
步骤3-3:语音重构:将所述掩蔽后的语音幅度谱与原始带噪语音的相位谱通过短时傅里叶逆变换操作,重构得到去噪后的语音并保存。
步骤4:评估模型:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。
对保存的去噪语音进行评估,以此来测评模型性能。评价指标包括:STOI、PESQ、CSIG、CBAK以及COVL。其中STOI为短时可懂度,PESQ为感知语音质量评估,CSIG为针对语音信号失真的平均意见得分,CBAK为测评背景噪声干扰性的平均意见得分,COVL为总体增强效果的平均意见得分。通过这些评价指标,可准确有效地对模型进行评估。
本发明的一个实施例,评测模型采用了公开数据集VoiceBank-DEMAN。
测试集中噪声类型是五种与训练集不同的环境噪声,模拟本模型应对未知环境噪声时,所获得的增强效果。同时证明本模型的有效性和可行性,实施例结果如表1所示。
表1 VoiceBank-DEMAN测试集的不同指标得分情况
指标 | PESQ | CSIG | CBAK | COVL | STOI |
带噪测试集得分 | 1.97 | 3.35 | 2.44 | 2.63 | 0.916 |
MetricGAN+方法得分 | 3.15 | 4.14 | 3.16 | 3.64 | 0.927 |
本实施例方法得分 | 3.25 | 4.08 | 3.12 | 3.66 | 0.937 |
为了证明本发明有效性和可行性,本实施例还与MetricGAN+语音增强模型方法的结果进行比较。由表1发现,本实施例的PESQ得分相比于MetricGAN+方法提升了0.10,STOI相对提升了0.10,说明本实施例可有效抑制噪声,改善语音质量与可懂度。
以上所述的具体实施方式对本发明的目的、技术路线和有益效果进行了进一步说明。并且仅为本发明具体实施方式以及较佳实施例,其不用以限制本发明,凡在本发明精神和原则之内,所做的任何修改、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于联合感知损失的注意力生成对抗语音增强方法,其特征在于,包括以下步骤:
步骤1:训练数据预处理,提取语音幅度谱特征:对训练数据进行重采样、分帧加窗,短时傅里叶变换,获取训练数据的幅度谱特征;
步骤2:构建模型并训练:构建基于联合感知损失函数的注意力生成对抗语音增强模型,设定合理的训练参数,并对其进行训练;
步骤3:测试模型:预处理带噪语音测试集,利用上述训练完成的基于联合感知损失函数的注意力生成对抗语音增强模型对其进行去噪与增强,并保存结果,完成语音增强任务。
2.根据权利要求1所述的一种基于联合感知损失的注意力生成对抗语音增强方法,其特征在于所述的步骤1训练数据预处理:对训练数据以16000HZ频率重采样,分帧加窗,短时傅里叶变换,提取语音的幅度谱特征作为语音增强模型的输入。
3.根据权利要求1所述的一种基于联合感知损失的注意力生成对抗语音增强方法,其特征在于,所述的步骤2中基于联合感知损失函数的注意力生成对抗语音增强模型由两个深度神经网络模型构建,分别是生成器模型G和判别器模型D:
生成器模型G使用BLSTM网络对输入带噪语音的幅度谱特征进行特征掩蔽,获得去除噪声分量后的语音幅度谱特征;判别器模型D使用CNN网络对生成器模型G生成语音的增强效果进行量化估计;为进一步提升判别器模型D预测目标度量的能力,在模型中使用SK-Net卷积注意力模块,使网络可以根据输入信息的多个尺度自适应地调节感受野大小,以此提升网络模型的表达能力,更加准确预测目标度量的分数。
4.根据权利要求3所述的一种基于联合感知损失的注意力生成对抗语音增强方法,其特征 在于,所述联合感知损失是作用在生成器模型G中;其由两部分构成,一部分是生成对抗网络的对抗性损失,通过使用判别器D模拟PESQ的行为,获得语音质量的损失;另一部分是使用STOI损失,用来代表语音可懂度的损失;基于联合感知损失的注意力生成对抗语音增强模型的两个深度神经网络模型通过联合训练方式进行训练,将带噪语音的幅度谱特征输入生成器模型G,通过判别器模型D获得预测PESQ的分数,通过使用STOI函数获得STOI的分数,并将上述两种分数用于指导生成器模型G的训练,判别器模型D和生成器模型G的损失函数分别为:
步骤1:移除静音段:因为在语音静音段中没有需要被理解的语音内容,所以计算前需要将其移除;
步骤2:短时傅里叶变换:对信号进行短时傅里叶变换,该变换所使用的窗函数为汉明窗,窗长256ms,窗移为128ms,傅里叶点数为512;
步骤3:1/3倍频程分析:对信号进行DFT变换并将频率进行划分;该操作一共用了15个
1/3倍频程,干净语音信号的短时时域包络可以表示为:
步骤5:可懂度测度:中间可懂度可以定义为两个时域包络之间的相关系数,即:
6.根据权利要求1所述的一种基于联合感知损失的注意力生成对抗语音增强方法,其特征在于,所述步骤3包含以下子步骤:
步骤3-1:预处理测试数据:提取测试集中带噪语音的幅度谱特征,提取过程使用的窗函数,窗长,窗移,傅里叶点数均与处理训练数据时的相同;
步骤3-2:特征掩蔽:将所述测试数据的语音幅度谱特征输入训练完成的基于联合感知损失的注意力生成对抗语音增强模型,通过生成器G对其进行幅度谱掩蔽,去除噪声分量,输出经过掩蔽后的语音幅度谱;
步骤3-3:语音重构:将所述掩蔽后的语音幅度谱与原始带噪语音的相位谱通过短时傅里叶逆变换操作,重构得到去噪后的语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211079475.5A CN115410589A (zh) | 2022-09-05 | 2022-09-05 | 一种基于联合感知损失的注意力生成对抗语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211079475.5A CN115410589A (zh) | 2022-09-05 | 2022-09-05 | 一种基于联合感知损失的注意力生成对抗语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115410589A true CN115410589A (zh) | 2022-11-29 |
Family
ID=84163383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211079475.5A Pending CN115410589A (zh) | 2022-09-05 | 2022-09-05 | 一种基于联合感知损失的注意力生成对抗语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115410589A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129872A (zh) * | 2021-04-06 | 2021-07-16 | 新疆大学 | 一种基于深度压缩感知的语音增强方法 |
CN116092501A (zh) * | 2023-03-14 | 2023-05-09 | 澳克多普有限公司 | 语音增强方法、语音识别方法、说话人识别方法和系统 |
-
2022
- 2022-09-05 CN CN202211079475.5A patent/CN115410589A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129872A (zh) * | 2021-04-06 | 2021-07-16 | 新疆大学 | 一种基于深度压缩感知的语音增强方法 |
CN116092501A (zh) * | 2023-03-14 | 2023-05-09 | 澳克多普有限公司 | 语音增强方法、语音识别方法、说话人识别方法和系统 |
CN116092501B (zh) * | 2023-03-14 | 2023-07-25 | 深圳市玮欧科技有限公司 | 语音增强方法、语音识别方法、说话人识别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation | |
CN108172238B (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
Bhat et al. | A real-time convolutional neural network based speech enhancement for hearing impaired listeners using smartphone | |
Liu et al. | Experiments on deep learning for speech denoising | |
CN115410589A (zh) | 一种基于联合感知损失的注意力生成对抗语音增强方法 | |
Sun et al. | Monaural source separation in complex domain with long short-term memory neural network | |
CN111312273A (zh) | 混响消除方法、装置、计算机设备和存储介质 | |
CN112700786B (zh) | 语音增强方法、装置、电子设备和存储介质 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
Li et al. | Real-time monaural speech enhancement with short-time discrete cosine transform | |
Yu et al. | Metricnet: Towards improved modeling for non-intrusive speech quality assessment | |
Poorjam et al. | Automatic quality control and enhancement for voice-based remote Parkinson’s disease detection | |
Islam et al. | Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask | |
Bouchair et al. | Improved empirical mode decomposition using optimal recursive averaging noise estimation for speech enhancement | |
Elshamy et al. | An iterative speech model-based a priori SNR estimator | |
Schmidt et al. | Reduction of non-stationary noise using a non-negative latent variable decomposition | |
Hepsiba et al. | Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN | |
Tu et al. | Effective Kalman filtering algorithm for distributed multichannel speech enhancement | |
CN112331232A (zh) | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 | |
Akarsh et al. | Speech enhancement using non negative matrix factorization and enhanced NMF | |
Jannu et al. | Multi-stage Progressive Learning-Based Speech Enhancement Using Time–Frequency Attentive Squeezed Temporal Convolutional Networks | |
CN112652321B (zh) | 一种基于深度学习相位更加友好的语音降噪系统及方法 | |
CN115497492A (zh) | 一种基于全卷积神经网络的实时语音增强方法 | |
Wang et al. | Speech Enhancement Control Design Algorithm for Dual‐Microphone Systems Using β‐NMF in a Complex Environment | |
CN113129872B (zh) | 一种基于深度压缩感知的语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |