CN115410589A - 一种基于联合感知损失的注意力生成对抗语音增强方法 - Google Patents

一种基于联合感知损失的注意力生成对抗语音增强方法 Download PDF

Info

Publication number
CN115410589A
CN115410589A CN202211079475.5A CN202211079475A CN115410589A CN 115410589 A CN115410589 A CN 115410589A CN 202211079475 A CN202211079475 A CN 202211079475A CN 115410589 A CN115410589 A CN 115410589A
Authority
CN
China
Prior art keywords
model
voice
speech
training
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211079475.5A
Other languages
English (en)
Inventor
郭创建
黄志华
李慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN202211079475.5A priority Critical patent/CN115410589A/zh
Publication of CN115410589A publication Critical patent/CN115410589A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于联合感知损失的注意力生成对抗语音增强的方法。所述方法包括以下步骤:步骤1:训练数据预处理:对训练数据进行重采样、分帧加窗,短时傅里叶变换,获取训练数据的幅度谱特征;步骤2:构建模型并训练:构建基于联合感知损失函数的注意力生成对抗语音增强模型,设定合理的训练参数,并对其进行训练;步骤3:测试模型:预处理带噪语音测试集,利用上述训练完成的语音增强模型对其进行去噪与增强,并保存结果,完成语音增强任务。利用本发明,可以在不显著增加模型参数和计算开销的情况下显著提高带噪语音信号的语音质量和可懂度。

Description

一种基于联合感知损失的注意力生成对抗语音增强方法
技术领域
本发明涉及语音信号处理的语音增强技术领域,尤其涉及了一种基于联合感知损失的注意力生成对抗语音增强方法。
背景技术
语音是人类最重要的交流工具,是人们所使用的最古老、最普遍的通信方式,它有着自然方便、高效准确的优点,但是在现实生活中语音往往会被各种各样的噪声影响而造成失真,这些噪声会不同程度地影响语音质量,从而导致语音可懂度下降。
为了解决这个问题,许多基于信号处理的方法被提出,如谱减法、子空间法、维纳滤波法等。近几年,研究界见证了传统信号处理方法到数据驱动增强方法的转变,尤其是基于深度学习的方法。深度学习中典型的神经网络模型有递归神经网络(RNN)、长短期记忆网络(LSTM)、卷积神经网络(CNN)、全卷积网络(FCN)、卷积递归神经网络(CRNN)、生成对抗网络(GAN)。与传统的基于信号处理的语音增强方法相比,深度学习方法的语音增强性能有了显著的提高。
深度学习语音增强算法的性能主要和四个因素密切相关。即:输入特征,训练目标,网络结构,损失函数。要部署特定任务的语音增强模型,最直观的方法是采用与最终目标相关的损失函数,而当前很多基于生成对抗网络的语音增强模型,其指导生成器生成数据的对抗性损失所用参数(频谱)与语音质量评价所用参数(STOI)不匹配,从而限制了增强模型对语音质量与语音可懂度的提升性能。
在语音增强领域MetricGAN显示出强大的能力,其被证明可以有效地优化复杂甚至不可微的语音评估指标。但仅优化单个目标度量通常会导致另一个指标处于次优状态,因而限制了MetricGAN语音增强的性能。
发明内容
本发明主要在MetricGAN语音增强模型中使用联合感知损失函数,以改善仅优化单个目标度量通常会导致另一个指标处于次优状态这一缺点;同时,在MetricGAN语音增强模型的判别器模型D中使用SK-Net卷积注意力模块,使模型可以根据输入信息的多个尺度自适应的调节感受野大小,以此提升判别器模型的预测能力,使其更好地指导生成器训练。
本发明的目的是通过以下技术方案实现。
一种基于联合感知损失的注意力生成对抗语音增强方法,包括以下步骤。
步骤1:预处理训练数据:提取语音幅度谱特征作为模型输入,提取语音幅度谱特征使用的窗函数为汉明窗,窗长为32ms,窗移为16ms,傅里叶点数为512;
步骤2:构建模型并训练:构建基于联合感知损失函数的注意力生成对抗语音增强模型,设置合理的训练参数,并对其进行训练;
步骤3:测试模型:预处理带噪语音测试集,利用上述训练完成的语音增强模型对其进行去噪与增强,并保存结果,完成语音增强任务。
本发明的模型称为AMGAN(Attention MetricGAN)模型,通过训练AMGAN模型,可在幅度谱域完成语音增强任务,该模型可改善仅优化单个目标度量通常会导致另一个指标处于次优状态从而限制增强性能这一缺点;本发明可以在不显著增加模型参数和计算开销的情况下同时有效提升带噪语音信号的语音质量和语音可懂度。
进一步的,步骤2的AMGAN模型由两个深度神经网络模型构建,分别称为生成器模型G和判别器模型D:
生成器模型G对输入带噪语音的幅度谱特征进行特征掩蔽,获得去除噪声分量后的语音幅度谱特征;
判别器模型D使用CNN网络对生成器模型G生成语音的增强效果进行量化估计。为进一步提升判别器模型D预测目标度量的能力,在模型中使用SK-Net卷积注意力模块,使网络可以根据输入信息的多个尺度自适应地调节感受野大小,以此提升网络模型的表达能力,更加准确预测目标度量的分数。
进一步的,AMGAN模型的生成器模型G含有两个双向LSTM层,每一层有200个神经元,LSTM后面接两个全连接层,它们分别有300个LeakyReLU节点和257个可学习的sigmoid节点用于掩模估计,当该掩模与带噪语音幅度谱相乘时,应去除噪声分量。
进一步的,AMGAN模型的判别器模型D采用四个二维卷积层,为了提高判别器D的模型预测能力,在第四层卷积后添加一个SK-Net卷积注意力模块,每一层卷积都具有15个滤波器,普通二维卷积的卷积核大小为(5,5),SK-Net卷积注意力模块通过模型训练在(1,1)、(3,3)、(5,5)、(7,7)之间自适应地选择卷积核大小。为了处理可变长度输入,添加一个二维全局平均池化层,以便可以将特征固定在15个维度上。随后添加三个全连接层,它们分别有50个和10个LeakyReLU节点,以及一个线性节点用于预测目标度量分数。
进一步的,SK-Net是基于卷积核的注意力机制,它是一种可在多个不同大小卷积核之间进行选择的卷积操作。对于网络模型来说,人为设定的感受野大小不一定是最优的,而SK-Net可以使网络根据输入信息的多个尺度自适应的调节感受野大小,以此提升网络模型的表达能力,作用在本发明判别器模型D中以提升判别器模型D的对目标度量的预测性能,使其更好地指导生成器训练。
进一步的,所述联合感知损失作用在生成器模型G中。其由两部分构成,一部分是生成对抗网络的对抗性损失,通过使用判别器D模拟PESQ的行为,获得语音质量的损失;另一部分是使用STOI损失,用来代表语音可懂度的损失。所述AMGAN模型的判别器模型D和生成器模型G的损失函数分别为:
Figure 459652DEST_PATH_IMAGE001
Figure 933358DEST_PATH_IMAGE002
Figure 168031DEST_PATH_IMAGE003
其中
Figure 119806DEST_PATH_IMAGE004
代表带噪语音信号的幅度谱特征,
Figure 326796DEST_PATH_IMAGE005
代表干净语音信号的幅度谱特征,
Figure 236984DEST_PATH_IMAGE006
代表通过生成器模型G优化后的带噪语音幅度谱特征,
Figure 896635DEST_PATH_IMAGE007
在本发明中表示目标度量,得到的是归一化后的PESQ指标分数,为了使判别器D学习预测语音信号的PESQ分数,判别器D输入为成对的干净语音与带噪语音、干净语音与增强语音或干净语音与干净语音的幅度谱。
进一步的,虽然STOI函数的计算是复杂的,但大部分计算是可微的,因此可以将其重写集成到模型用于直接优化STOI度量,在所述生成器G的损失函数中添加可懂度损失
Figure 917681DEST_PATH_IMAGE008
,可以引导生成器G重构的语音信号可懂度得到有效提升。
进一步的,
Figure 713598DEST_PATH_IMAGE008
损失函数的计算包括以下操作步骤:
步骤1:移除静音段:因为在语音静音段中没有需要被理解的语音内容,所以计算前需要将其移除。
步骤2:短时傅里叶变换(STFT):对信号进行短时傅里叶变换,该变换所使用的窗函数为汉明窗,窗长256ms,窗移为128ms,傅里叶点数为512。
步骤3:1/3倍频程分析:对信号进行DFT变换并将频率进行划分。该操作一共用了15个1/3倍频程,干净语音信号的短时时域包络可以表示为:
Figure 794687DEST_PATH_IMAGE009
其中,
Figure 738372DEST_PATH_IMAGE010
是得到的1/3倍频程,M是信号帧的总数,
Figure 500792DEST_PATH_IMAGE011
是帧的索引,
Figure 479112DEST_PATH_IMAGE012
是1/3倍频程的索引,N=30相当于帧长384ms。
Figure 403206DEST_PATH_IMAGE013
表示增强语音或带噪语音的短时时域包络。
步骤4:归一化和限幅:归一化过程的目的是补偿全局水平差异,限幅过程的目的是未为了确保STOI评价对于带噪信号时频单元的敏感性上升。受噪声干扰的语音经过归一化和限幅后的时间包络可以表示为
Figure 99766DEST_PATH_IMAGE014
步骤5:可懂度测度:中间可懂度可以定义为两个时域包络之间的相关系数,即:
Figure 400298DEST_PATH_IMAGE015
其中,
Figure 233124DEST_PATH_IMAGE016
代表L2范式,
Figure 124857DEST_PATH_IMAGE017
表示对应向量的样本均值。STOI是通过对所有子带和帧的中间可懂度取平均得到的,即:
Figure 308714DEST_PATH_IMAGE018
最后,
Figure 412936DEST_PATH_IMAGE019
损失函数由以下公式取得,即:
Figure 855198DEST_PATH_IMAGE002
进一步的,生成器模型G和判别器模型D进行交替训练,相互对抗,直到带噪语音通过生成器G重构后的语音质量和语音可懂度足够逼近理想值。
进一步的,所述的步骤3包括以下步骤:
步骤3-1:测试数据预处理:提取测试数据的语音幅度谱特征,提取语音幅度谱特征使用的窗函数为汉明窗,窗长为32ms,窗移为16ms,傅里叶点数为512;
步骤3-2:特征掩蔽:将所述测试数据的语音幅度谱特征输入训练完成的AMGAN算法模型,通过生成器模型G对其进行幅度谱掩蔽,去除噪声分量,输出经过掩蔽后的语音幅度谱;
步骤3-3:语音重构:将所述掩蔽后的语音幅度谱与原始带噪语音的相位谱通过短时傅里叶逆变换操作,重构得到去噪后的语音。
进一步的,利用训练好的AMGAN算法模型对带噪语音信号进行处理,通过生成器模型G生成出语音质量和可懂度指标尽可能理想的语音信号,完成对带噪语音的去噪和增强。
采用上述方案,本发明的有益效果包括以下几点。
1.本发明提供了一种基于联合感知损失的注意力生成对抗语音增强方法,利用SK-Net卷积注意力模块自适应调节卷积核大小的优点,有效提升了判别器D的模型表达能力,使其能更加准确预测特定的目标度量,更好地指导生成器模型G的训练。
2.本发明使用一种联合感知损失函数指导AMGAN语音增强模型进行训练,同时优化多个语音感知度量,改善了仅优化单个目标度量通常会导致另一个指标处于次优状态的缺点,同时有效提升了语音质量和可懂度。
3.本发明可以在不同的噪声条件下完成语音增强,具有较强的适应能力和一定实用性。
附图说明
为进一步理解本发明实施的技术方案,在此对附图加以说明,此处附图构成本申请的一部分,并不构成本发明实施例的限定。
在附图中:图1为本发明实施例提供的一种语音增强技术路线示意图,图2为本发明判别器D的网络模型图。
具体实施方式
在此结合本发明实施例中的附图,对本发明实施例的目的、技术方案以及优点进行详细、完整地说明。在此所说明的实施例是对本发明的一部分实施例,并非全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种基于联合感知损失的注意力生成对抗语音增强方法,本发明的模型可简称为AMGAN(Attention MetricGAN)模型,通过联合对抗训练,获得AMGAN模型完成语音增强任务,在模型参数及计算开销并没有显著增加的前提下,既能有效提升语音质量,又能解决使用判别器模型D模拟PESQ函数作为生成器损失函数时,语音质量提升但语音可懂度没有得到有效提升这一问题,更加有效的实现了语音增强任务。
如图1所示,本发明实施例提供的一种语音增强技术路线图,其中包括以下步骤:
步骤1:预处理训练数据:提取语音幅度谱特征作为模型输入,提取语音幅度谱特征使用的窗函数为汉明窗,窗长为32ms,窗移为16ms,傅里叶点数为512。
步骤2:构建模型并训练:构建基于联合感知损失的注意力生成对抗语音增强模型,将预处理后的语音训练集输入模型进行联合对抗训练,将训练完成的AMGAN模型部署到服务器中。
AMGAN模型由两个深度神经网络模型构建,分别是生成器模型G和判别器模型D。
生成器模型G对输入带噪语音的幅度谱特征进行特征掩蔽,去除噪声分量获得经过掩蔽后的语音幅度谱特征。
判别器模型D如图2所示使用CNN网络对生成器模型G生成语音的增强效果进行量化估计。为进一步提升判别器模型D预测目标度量的能力,在模型中使用SK-Net卷积注意力模块,使网络可以根据输入信息的多个尺度自适应地调节感受野大小,以此提升网络模型的表达能力,更加准确预测目标度量的分数。
模型构建完成后,通过联合对抗训练方式对模型进行训练,通过判别器模型D获得预测PESQ的分数,通过使用STOI函数获得STOI的分数,并将上述两种分数作为联合感知损失指导生成器G的训练,直到带噪语音通过生成器G重构后得到足够理想的语音质量和可懂度。
AMGAN模型的判别器模型D和生成器模型G和的损失函数分别为:
Figure 448990DEST_PATH_IMAGE001
Figure 792247DEST_PATH_IMAGE002
Figure 762477DEST_PATH_IMAGE003
利用联合感知损失的注意力生成对抗语音增强模型,以优化训练数据的PESQ和STOI度量为训练目标,使重构语音信号尽可能逼近干净语音信号,有效解决了一些生成对抗网络语音增强模型不能同时有效提升语音质量和可懂度的问题。
步骤3:测试模型:将带噪语音测试集的语音数据进行预处理,利用训练完成的AMGAN模型对其去噪,并重构获得去噪后的语音信号,完成语音增强任务。
步骤3-1:预处理测试数据:对测试集的带噪语音信号的预处理方式与训练集预处理方式相同。提取语音幅度谱特征作为模型输入,提取语音幅度谱特征使用的窗函数为汉明窗,窗长为32ms,窗移为16ms,傅里叶点数为512;
步骤3-2:特征掩蔽:将所述测试数据的语音幅度谱特征输入训练完成的AMGAN算法模型,通过生成器G对其进行幅度谱掩蔽,去除噪声分量,输出经过掩蔽后的语音幅度谱;
步骤3-3:语音重构:将所述掩蔽后的语音幅度谱与原始带噪语音的相位谱通过短时傅里叶逆变换操作,重构得到去噪后的语音并保存。
步骤4:评估模型:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。
对保存的去噪语音进行评估,以此来测评模型性能。评价指标包括:STOI、PESQ、CSIG、CBAK以及COVL。其中STOI为短时可懂度,PESQ为感知语音质量评估,CSIG为针对语音信号失真的平均意见得分,CBAK为测评背景噪声干扰性的平均意见得分,COVL为总体增强效果的平均意见得分。通过这些评价指标,可准确有效地对模型进行评估。
本发明的一个实施例,评测模型采用了公开数据集VoiceBank-DEMAN。
测试集中噪声类型是五种与训练集不同的环境噪声,模拟本模型应对未知环境噪声时,所获得的增强效果。同时证明本模型的有效性和可行性,实施例结果如表1所示。
表1 VoiceBank-DEMAN测试集的不同指标得分情况
指标 PESQ CSIG CBAK COVL STOI
带噪测试集得分 1.97 3.35 2.44 2.63 0.916
MetricGAN+方法得分 3.15 4.14 3.16 3.64 0.927
本实施例方法得分 3.25 4.08 3.12 3.66 0.937
为了证明本发明有效性和可行性,本实施例还与MetricGAN+语音增强模型方法的结果进行比较。由表1发现,本实施例的PESQ得分相比于MetricGAN+方法提升了0.10,STOI相对提升了0.10,说明本实施例可有效抑制噪声,改善语音质量与可懂度。
以上所述的具体实施方式对本发明的目的、技术路线和有益效果进行了进一步说明。并且仅为本发明具体实施方式以及较佳实施例,其不用以限制本发明,凡在本发明精神和原则之内,所做的任何修改、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于联合感知损失的注意力生成对抗语音增强方法,其特征在于,包括以下步骤:
步骤1:训练数据预处理,提取语音幅度谱特征:对训练数据进行重采样、分帧加窗,短时傅里叶变换,获取训练数据的幅度谱特征;
步骤2:构建模型并训练:构建基于联合感知损失函数的注意力生成对抗语音增强模型,设定合理的训练参数,并对其进行训练;
步骤3:测试模型:预处理带噪语音测试集,利用上述训练完成的基于联合感知损失函数的注意力生成对抗语音增强模型对其进行去噪与增强,并保存结果,完成语音增强任务。
2.根据权利要求1所述的一种基于联合感知损失的注意力生成对抗语音增强方法,其特征在于所述的步骤1训练数据预处理:对训练数据以16000HZ频率重采样,分帧加窗,短时傅里叶变换,提取语音的幅度谱特征作为语音增强模型的输入。
3.根据权利要求1所述的一种基于联合感知损失的注意力生成对抗语音增强方法,其特征在于,所述的步骤2中基于联合感知损失函数的注意力生成对抗语音增强模型由两个深度神经网络模型构建,分别是生成器模型G和判别器模型D:
生成器模型G使用BLSTM网络对输入带噪语音的幅度谱特征进行特征掩蔽,获得去除噪声分量后的语音幅度谱特征;判别器模型D使用CNN网络对生成器模型G生成语音的增强效果进行量化估计;为进一步提升判别器模型D预测目标度量的能力,在模型中使用SK-Net卷积注意力模块,使网络可以根据输入信息的多个尺度自适应地调节感受野大小,以此提升网络模型的表达能力,更加准确预测目标度量的分数。
4.根据权利要求3所述的一种基于联合感知损失的注意力生成对抗语音增强方法,其特征 在于,所述联合感知损失是作用在生成器模型G中;其由两部分构成,一部分是生成对抗网络的对抗性损失,通过使用判别器D模拟PESQ的行为,获得语音质量的损失;另一部分是使用STOI损失,用来代表语音可懂度的损失;基于联合感知损失的注意力生成对抗语音增强模型的两个深度神经网络模型通过联合训练方式进行训练,将带噪语音的幅度谱特征输入生成器模型G,通过判别器模型D获得预测PESQ的分数,通过使用STOI函数获得STOI的分数,并将上述两种分数用于指导生成器模型G的训练,判别器模型D和生成器模型G的损失函数分别为:
Figure 236938DEST_PATH_IMAGE001
Figure 493345DEST_PATH_IMAGE002
Figure 845829DEST_PATH_IMAGE003
其中
Figure 460481DEST_PATH_IMAGE004
代表带噪语音信号的幅度谱特征,
Figure 898415DEST_PATH_IMAGE005
代表干净语音信号的幅度谱特征,
Figure 522295DEST_PATH_IMAGE006
代表通过生成器模型G优化后的带噪语音幅度谱特征,
Figure 729285DEST_PATH_IMAGE007
表示判别器模型,
Figure 780418DEST_PATH_IMAGE008
表示归一化后的PESQ,
Figure 705648DEST_PATH_IMAGE009
代表语音可懂度损失,通过最小化
Figure 726694DEST_PATH_IMAGE010
Figure 636793DEST_PATH_IMAGE011
引导带噪语音经过生成器G重构后更加逼近干净语音。
5.根据权利要求4所述的一种基于联合感知损失的注意力生成对抗语音增强方法,其特征在于,
Figure 921144DEST_PATH_IMAGE009
损失函数的计算包括以下操作步骤:
步骤1:移除静音段:因为在语音静音段中没有需要被理解的语音内容,所以计算前需要将其移除;
步骤2:短时傅里叶变换:对信号进行短时傅里叶变换,该变换所使用的窗函数为汉明窗,窗长256ms,窗移为128ms,傅里叶点数为512;
步骤3:1/3倍频程分析:对信号进行DFT变换并将频率进行划分;该操作一共用了15个
1/3倍频程,干净语音信号的短时时域包络可以表示为:
Figure 5775DEST_PATH_IMAGE012
其中,
Figure 33774DEST_PATH_IMAGE013
是得到的1/3倍频程,M是信号帧的总数,
Figure 153039DEST_PATH_IMAGE014
是帧的索引,
Figure 608292DEST_PATH_IMAGE015
是1/3倍频程的索引,N=30相当于帧长384ms,
Figure 944333DEST_PATH_IMAGE016
表示干净语音信号的短时时域包络,
Figure 307181DEST_PATH_IMAGE017
表示增强语音或带噪语音的短时时域包络;
步骤4:归一化和限幅:归一化过程的目的是补偿全局水平差异,限幅过程的目的是为了确保STOI评价对于带噪信号时频单元的敏感性上升;受噪声干扰的语音经过归一化和限幅后的时间包络可以表示为
Figure 343270DEST_PATH_IMAGE018
步骤5:可懂度测度:中间可懂度可以定义为两个时域包络之间的相关系数,即:
Figure 48052DEST_PATH_IMAGE019
其中,
Figure 169592DEST_PATH_IMAGE020
代表L2范式,
Figure 477076DEST_PATH_IMAGE021
表示对应向量的样本均值;STOI是通过对所有子带和帧的中间可懂度取平均得到的,即:
Figure 633251DEST_PATH_IMAGE022
最后,
Figure 227044DEST_PATH_IMAGE009
损失函数由以下公式取得,即:
Figure 835879DEST_PATH_IMAGE002
6.根据权利要求1所述的一种基于联合感知损失的注意力生成对抗语音增强方法,其特征在于,所述步骤3包含以下子步骤:
步骤3-1:预处理测试数据:提取测试集中带噪语音的幅度谱特征,提取过程使用的窗函数,窗长,窗移,傅里叶点数均与处理训练数据时的相同;
步骤3-2:特征掩蔽:将所述测试数据的语音幅度谱特征输入训练完成的基于联合感知损失的注意力生成对抗语音增强模型,通过生成器G对其进行幅度谱掩蔽,去除噪声分量,输出经过掩蔽后的语音幅度谱;
步骤3-3:语音重构:将所述掩蔽后的语音幅度谱与原始带噪语音的相位谱通过短时傅里叶逆变换操作,重构得到去噪后的语音。
CN202211079475.5A 2022-09-05 2022-09-05 一种基于联合感知损失的注意力生成对抗语音增强方法 Pending CN115410589A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211079475.5A CN115410589A (zh) 2022-09-05 2022-09-05 一种基于联合感知损失的注意力生成对抗语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211079475.5A CN115410589A (zh) 2022-09-05 2022-09-05 一种基于联合感知损失的注意力生成对抗语音增强方法

Publications (1)

Publication Number Publication Date
CN115410589A true CN115410589A (zh) 2022-11-29

Family

ID=84163383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211079475.5A Pending CN115410589A (zh) 2022-09-05 2022-09-05 一种基于联合感知损失的注意力生成对抗语音增强方法

Country Status (1)

Country Link
CN (1) CN115410589A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129872A (zh) * 2021-04-06 2021-07-16 新疆大学 一种基于深度压缩感知的语音增强方法
CN116092501A (zh) * 2023-03-14 2023-05-09 澳克多普有限公司 语音增强方法、语音识别方法、说话人识别方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129872A (zh) * 2021-04-06 2021-07-16 新疆大学 一种基于深度压缩感知的语音增强方法
CN116092501A (zh) * 2023-03-14 2023-05-09 澳克多普有限公司 语音增强方法、语音识别方法、说话人识别方法和系统
CN116092501B (zh) * 2023-03-14 2023-07-25 深圳市玮欧科技有限公司 语音增强方法、语音识别方法、说话人识别方法和系统

Similar Documents

Publication Publication Date Title
Luo et al. Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation
CN108172238B (zh) 一种语音识别系统中基于多个卷积神经网络的语音增强算法
Bhat et al. A real-time convolutional neural network based speech enhancement for hearing impaired listeners using smartphone
Liu et al. Experiments on deep learning for speech denoising
CN115410589A (zh) 一种基于联合感知损失的注意力生成对抗语音增强方法
Sun et al. Monaural source separation in complex domain with long short-term memory neural network
CN111312273A (zh) 混响消除方法、装置、计算机设备和存储介质
CN112700786B (zh) 语音增强方法、装置、电子设备和存储介质
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
Li et al. Real-time monaural speech enhancement with short-time discrete cosine transform
Yu et al. Metricnet: Towards improved modeling for non-intrusive speech quality assessment
Poorjam et al. Automatic quality control and enhancement for voice-based remote Parkinson’s disease detection
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
Bouchair et al. Improved empirical mode decomposition using optimal recursive averaging noise estimation for speech enhancement
Elshamy et al. An iterative speech model-based a priori SNR estimator
Schmidt et al. Reduction of non-stationary noise using a non-negative latent variable decomposition
Hepsiba et al. Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN
Tu et al. Effective Kalman filtering algorithm for distributed multichannel speech enhancement
CN112331232A (zh) 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
Akarsh et al. Speech enhancement using non negative matrix factorization and enhanced NMF
Jannu et al. Multi-stage Progressive Learning-Based Speech Enhancement Using Time–Frequency Attentive Squeezed Temporal Convolutional Networks
CN112652321B (zh) 一种基于深度学习相位更加友好的语音降噪系统及方法
CN115497492A (zh) 一种基于全卷积神经网络的实时语音增强方法
Wang et al. Speech Enhancement Control Design Algorithm for Dual‐Microphone Systems Using β‐NMF in a Complex Environment
CN113129872B (zh) 一种基于深度压缩感知的语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication