CN115273873A - 基于深度学习的语音增强方法及装置 - Google Patents

基于深度学习的语音增强方法及装置 Download PDF

Info

Publication number
CN115273873A
CN115273873A CN202110485290.3A CN202110485290A CN115273873A CN 115273873 A CN115273873 A CN 115273873A CN 202110485290 A CN202110485290 A CN 202110485290A CN 115273873 A CN115273873 A CN 115273873A
Authority
CN
China
Prior art keywords
frame
frequency band
voice
sample
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110485290.3A
Other languages
English (en)
Inventor
房慧保
秦鹏
秦晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Shanxi Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Shanxi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Shanxi Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110485290.3A priority Critical patent/CN115273873A/zh
Publication of CN115273873A publication Critical patent/CN115273873A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种基于深度学习的语音增强方法及装置,该方法包括:将第一语音样本的每帧中各频带的原幅度谱输入到深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱;计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的频域加权分段信噪比;根据所述频域加权分段信噪比计算第一代价函数值,根据所述第一代价函数值对所述深度神经网络模型进行训练;使用训练后的深度神经网络模型对目标语音进行增强。本发明增强的语言信号能够反映人耳听觉感知,提高了语音增强效果。

Description

基于深度学习的语音增强方法及装置
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于深度学习的语音增强方法及装置。
背景技术
语音增强作为语音识别系统的重要前端预处理技术,在语音通信系统、虚拟现实(Virtual Reality,VR)和增强现实(Augmented Reality,AR)系统上具有重要应用。而对于人类听觉感知来说,语音增强的主要目标是提高含噪语音的质量及可懂度。
近年来,很多基于深度学习的有监督语音增强技术被提出,和传统的基于信号处理的方法相比,这些有监督方法的增强性能获得了显著提高。基于DNN(Deep NeuralNetworks,深度神经网络)的语音增强方法可以分为两大类:基于映射的方法和基于分类的方法。其中,基于映射的方法通过利用多种声学条件下的大量不同输入信号来训练DNN,从而学习含噪语音信号到干净语音信号的映射;基于分类的方法通过训练DNN将含噪语音信号的时频单元分类为语音或噪声,然后将分类的结果用于估计每个时频单元的理想比值掩蔽。
现有深度学习方法在训练阶段常用于网络优化的代价函数是均方误差(MeanSquared Error,MSE)标准。而MSE不同于语音增强算法的评价标准,不能很好地反映人耳听觉感知,所以在模型优化中通过最小化MSE不能保证获得性能良好的增强语音。
发明内容
本发明提供一种基于深度学习的语音增强方法及装置,用以解决现有技术中通过MSE优化的模型语音增强效果不好的缺陷,实现使用反映人耳听觉感知的代价函数对模型进行训练,提高语音增强效果。
本发明提供一种基于深度学习的语音增强方法,包括:
将第一语音样本的每帧中各频带的原幅度谱输入到深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱;
计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的频域加权分段信噪比;其中,所述第一语音样本通过在所述第二语音样本中加入噪音获取;
根据所述频域加权分段信噪比计算第一代价函数值,根据所述第一代价函数值对所述深度神经网络模型进行训练;
将目标语音的每帧中各频带的原幅度谱输入到训练后的深度神经网络模型中,输出所述目标语音的每帧中各频带增强后的幅度谱,根据所述目标语音对应的增强后的幅度谱,获取所述目标语音的增强语音。
根据本发明提供的一种基于深度学习的语音增强方法,通过以下公式根据所述频域加权分段信噪比计算第一代价函数值:
Figure BDA0003050445450000021
Figure BDA0003050445450000022
其中,MSSNR为所述第一代价函数值,M为所述第一语音样本的总数量,xm(l,k)为第m个第二语音样本的第l帧中第k个频带的原幅度谱,
Figure BDA0003050445450000023
为第m个第一语音样本的第l帧中第k个频带增强后的幅度谱,fwSNRseg(xm(l,k),
Figure BDA0003050445450000024
)为第m个第一语音样本的xm(l,k)和
Figure BDA0003050445450000025
之间的频域加权分段信噪比,L为所述第一语音样本的总帧数,K为所述第一语音样本和第二语音样本的每帧中的频带总数,W(l,k)为所述第一语音样本的第l帧中第k个频带的权重因子。
根据本发明提供的一种基于深度学习的语音增强方法,所述根据所述第一代价函数值对所述深度神经网络模型进行训练,包括:
计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的均方误差;
根据所述均方误差和所述第一语音样本的每帧中各频带的权重因子计算第二代价函数值;
根据所述第一代价函数值和第二代价函数值,对所述深度神经网络模型进行训练。
根据本发明提供的一种基于深度学习的语音增强方法,通过以下公式根据所述均方误差和所述第一语音样本的每帧中各频带的权重因子计算第二代价函数值:
Figure BDA0003050445450000031
其中,wMSE为所述均方误差,M为第一语音样本的总数量,xm(l,k)为第m个第二语音样本的第l帧中第k个频带的原幅度谱,
Figure BDA0003050445450000032
为第m个第一语音样本的第l帧中第k个频带增强后的幅度谱,L为所述第一语音样本的总帧数,K为所述第一语音样本和第二语音样本的每帧中的频带总数,W(l,k)为所述第一语音样本的第l帧中第k个频带的权重因子。
根据本发明提供的一种基于深度学习的语音增强方法,还包括:
计算所述第一语音样本的每帧中各频带的理想二值掩蔽,将所述理想二值掩蔽作为所述第一语音样本的每帧中各频带的权重因子。
根据本发明提供的一种基于深度学习的语音增强方法,还包括:
计算所述第一语音样本的每帧中各频带的中心频率处的绝对听阈;
根据所述绝对听阈获取所述第一语音样本的每帧中各频带的权重因子。
根据本发明提供的一种基于深度学习的语音增强方法,所述将第一语音样本的每帧中各频带的原幅度谱输入到深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱,包括:
对所述第一语音样本进行分帧;
对所述第一语音样本的每帧进行DFT变换;
将所述第一语音样本的每帧以及与每帧相邻的帧中各频带的原幅度谱进行合并,生成特征向量;
将所述特征向量输入到所述深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱。
本发明还提供一种基于深度学习的语音增强装置,包括:
第一增强模块,用于将第一语音样本的每帧中各频带的原幅度谱输入到深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱;
第一计算模块,用于计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的频域加权分段信噪比;其中,所述第一语音样本通过在所述第二语音样本中加入噪音获取;
第二计算模块,用于根据所述频域加权分段信噪比计算第一代价函数值,根据所述第一代价函数值对所述深度神经网络模型进行训练;
第二增强模块,用于将目标语音的每帧中各频带的原幅度谱输入到训练后的深度神经网络模型中,输出所述目标语音的每帧中各频带增强后的幅度谱,根据所述目标语音对应的增强后的幅度谱,获取所述目标语音的增强语音。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于深度学习的语音增强方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于深度学习的语音增强方法的步骤。
本发明提供的基于深度学习的语音增强方法及装置,通过在对深度神经网络模型进行训练的代价函数中引入基于人耳听觉感知的频域加权分段信噪比,并将其作为优化目标来训练深度神经网络模型的参数,缩小了模型优化和评价标准的差距,使得训练的深度神经网络模型增强的语言信号能够反映人耳听觉感知,实现在各种噪声类型和信噪比情况下,残留噪声得到有效抑制且语音失真降低,提高了语音增强效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于深度学习的语音增强方法的流程示意图之一;
图2是本发明提供的基于深度学习的语音增强方法的流程示意图之二;
图3是本发明提供的基于深度学习的语音增强方法中DNN模型优化的流程示意图;
图4是本发明提供的基于深度学习的语音增强装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的基于深度学习的语音增强方法,该方法包括:步骤101,将第一语音样本的每帧中各频带的原幅度谱输入到深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱;
如图2所示,本实施例包括两个阶段,即训练阶段和增强阶段。在训练阶段使用基于人类听觉感知的代价函数作为优化目标来训练DNN网络模型,以提高DNN网络模型的语音增强性能。
可选地,在不同SNR(Signal Noise Ratio,信噪比)条件下,将噪声数据和干净语音数据,即第二语音样本相加得到第一语音样本,获取语音语料库。
其中,噪声信号使用实际生活中最常见的应用场景,干净语音数据来自TIMIT语料库。
首先,将每个语音和噪声信号都采样至16KHz;然后,采用100种实时噪声类型和4620条干净语音,包含男性和女性说话人的语音来准备多条件训练数据集。
在-5dB、0dB、5dB、10dB、15dB和20dB六种SNR条件下,将4620条干净语音,即第二语音样本添加到100种噪声类型上,得到462000条用于训练的含噪语音数据,即第一语音样本,每条语音平均时长2秒,则训练数据一共约257小时。
在准备好第一语音样本和第二语音样本后,构建感知相关带教函数用于DNN参数的优化,以预测增强语音的幅度谱参数。
对第一语音样本和第二语音样本进行分帧,提取每帧的各频带的幅度谱特征。将第一语音样本和第二语音样本每帧中各频带的幅度谱特征输入到DNN网络中,输出第一语音样本增强后的幅度谱特征,第二语音样本的幅度谱特征作为训练目标。
步骤102,计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的频域加权分段信噪比;其中,所述第一语音样本通过在所述第二语音样本中加入噪音获取;
为了克服MSE代价函数的问题,本实施例将频域加权分段信噪比(frequency-weighted segmental SNR,fwSNRseg)用于预测增强语音的可懂度。fwSNRseg是一种能够反映人类听觉感知的语音可懂度的客观评价标准。将基于人耳听觉感知的fwSNRseg引入代价函数。
步骤103,根据所述频域加权分段信噪比计算第一代价函数值,根据所述第一代价函数值对所述深度神经网络模型进行训练;
可选地,DNN一共有3个隐藏层且每一层具有1024个整流线性单元(RectifierLinear Units,ReLU)结点,输出层为线性激活单元结点。所有的网络权重通过Adam优化算法和丢弃正则化方法进行训练获取。其中,将丢弃率设置为0.2,通过在网络的每个反向传播步骤中删除每一层中20%的神经元可以避免DNN训练出现过拟合问题。此外,Adam初始学习率设置为0.0001。
将感知相关代价函数应用于DNN模型优化的流程如图3所示。首先,将7×257维第一语音样本的幅度谱特征归一化为0均值和单位方差,并作为DNN的输入,通过前向传播得到增强语音的幅度谱估计,即:
Figure BDA0003050445450000071
其中,Y表示输入的第一语音样本的幅度谱特征,ω和b表示DNN的权重和偏差参数;接下来将对应的第二语言样本的幅度谱作为训练目标,通过基于梯度下降的反向传播算法来最小化网络输出和训练目标之间的感知相关代价函数值,以得到优化的权重和偏差参数。
步骤104,将目标语音的每帧中各频带的原幅度谱输入到训练后的深度神经网络模型中,输出所述目标语音的每帧中各频带增强后的幅度谱,根据所述目标语音对应的增强后的幅度谱,获取所述目标语音的增强语音。
可选地,在对目标语音进行增强之前,将目标语音进行分帧、加窗,并通过DFT变换得到目标语音的幅度谱特征。
将目标语音的幅度谱特征输入到训练好的DNN模型中,预测目标语音的增强语音的幅度谱,再结合目标语音的相位采用叠接相加法进行波形重构,最后利用IDFT(InverseDiscrete Fourier Transform,离散傅里叶逆变换)得到目标语音时域增强的语音信号。
本实施例通过在对深度神经网络模型进行训练的代价函数中引入基于人耳听觉感知的频域加权分段信噪比,并将其作为优化目标来训练深度神经网络模型的参数,缩小了模型优化和评价标准的差距,使得训练的深度神经网络模型增强的语言信号能够反映人耳听觉感知,实现在各种噪声类型和信噪比情况下,残留噪声得到有效抑制且语音失真降低,提高了语音增强效果。
在上述实施例的基础上,本实施例中通过以下公式通过以下公式根据所述频域加权分段信噪比计算第一代价函数值:
Figure BDA0003050445450000081
Figure BDA0003050445450000082
其中,MSSNR为所述第一代价函数值,M为第一语音样本的总数量,xm(l,k)为第m个第二语音样本的第l帧中第k个频带的原幅度谱,
Figure BDA0003050445450000083
为第m个第一语音样本的第l帧中第k个频带增强后的幅度谱,fwSNRseg(xm(l,k),
Figure BDA0003050445450000091
)为第m个第一语音样本的xm(l,k)和
Figure BDA0003050445450000092
之间的频域加权分段信噪比,L为所述第一语音样本的总帧数,K为所述第一语音样本和第二语音样本的每帧中的频带总数,W(l,k)为所述第一语音样本的第l帧中第k个频带的权重因子。
在上述实施例的基础上,本实施例中所述根据所述第一代价函数值对所述深度神经网络模型进行训练,包括:计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的均方误差;
大多数基于深度学习的语音增强算法使用的代价函数都是干净语音信号和增强语音信号之间的均方误差(MSE)形式,每个频带的误差是通过对每一帧所有频带的误差平方和取平均来计算的。MSE的计算表明所有频带对基于梯度下降的网络参数优化有同样的重要性,但是根据声学理论可以得知:对于语音质量和语音可懂度来说所有频带并不是同等重要的。
根据所述均方误差和所述第一语音样本的每帧中各频带的权重因子计算第二代价函数值;
DNN的训练应该多考虑对人类听觉感知更为重要的频带。因此,本实施例根据每个频带的均分误差和基于感知的权重因子,计算第二代价函数值。
根据所述第一代价函数值和第二代价函数值,对所述深度神经网络模型进行训练。
可选地,将第一代价函数值和第二代价函数值进行相加作为对DNN进行训练的代价函数值。
本实施例通过将第一代价函数值和第二代价函数值进行合并作为代价函数,将其用于DNN训练,进一步提高增强语音的可懂度。
在上述实施例的基础上,本实施例通过以下公式根据所述均方误差和所述第一语音样本的每帧中各频带的权重因子计算第二代价函数值:
Figure BDA0003050445450000101
其中,wMSE为所述均方误差,M为第一语音样本的总数量,xm(l,k)为第m个第二语音样本的第l帧中第k个频带的原幅度谱,
Figure BDA0003050445450000102
为第m个第一语音样本的第l帧中第k个频带增强后的幅度谱,L为所述第一语音样本的总帧数,K为所述第一语音样本和第二语音样本的每帧中的频带总数,W(l,k)为所述第一语音样本的第l帧中第k个频带的权重因子。
将fwSNRseg和wMSE合并到一个代价函数中,得到联合优化代价函数,计算公式如下:
Figure BDA0003050445450000103
在DNN训练期间最小化第一代价函数值和第二代价函数值之和,以最大化第一语音样本增强后的可懂度。
在上述各实施例的基础上,本实施例中还包括:计算所述第一语音样本的每帧中各频带的理想二值掩蔽,将所述理想二值掩蔽作为所述第一语音样本的每帧中各频带的权重因子。
对于权重因子的确定,考虑到临界带频谱特征提取以及利用其进行信号合成的复杂性,本实施例考虑不采用基于人类听觉感知的临界频带划分,选择将其他听觉感知特性引入代价函数的计算中。
本实施例利用音频编码中的声学准则来定义每个频带的权重因子W(l,k),即:对于一个给定信号,可以识别出对人类听觉感知更为重要的时频区域。
通过使用理想二值掩蔽(Ideal Binary Mask,IBM)来获得每个频带的权重因子。
频域掩蔽是一种能够有效地应用于感知音频编码的声学模型。而通过利用IBM可以将干净语音信号从噪声中分离出来,所以本实施例将IBM值作为权重因子施加于各个频带,公式如下:
Figure BDA0003050445450000111
基于IBM对频带加权的思想是:在语音能量占主导的频带,噪声将被掩蔽,因此噪声是听不到的;而在噪声能量占主导的频带,语音将被掩蔽,所以人耳无法感知到语音,并且令这些频带的W(l,k)=0就可以去除噪声能量主导的频带。
本实施例通过将基于人类听觉感知的理想二值掩蔽作为每个频带的权重因子引入fwSNRseg的计算中,使得DNN模型的训练更加注重对人耳听觉感知更为重要的频带。
作为另一种限定频带的权重因子确定方法,在上述各实施例的基础上,本实施例中还包括:计算所述第一语音样本的每帧中各频带的中心频率处的绝对听阈;根据所述绝对听阈获取所述第一语音样本的每帧中各频带的权重因子。
本实施例使用绝对听阈(Absolute Threshold of Hearing,ATH)来获得每个频带的权重因子。
ATH定义了安静环境下可以测听到的纯音的最小声音能量(声压级,单位为dB),能量阈值和频率之间的关系可以近似化为:
Figure BDA0003050445450000112
ATH之所以可以用于定义频带权重的思想是:当某个频率的ATH值较低时,说明对应的频率很容易听到,因此这个频率对人耳听觉感知更重要。
本实施例通过根据基于人类听觉感知的绝对听阈获取每个频带的权重因子,引入fwSNRseg的计算中,使得DNN模型的训练更加注重对人耳听觉感知更为重要的频带。
基于上述思想,将频带权重因子W(l,k)定义为与ATH(fq)成反比关系。
具体实现步骤为:首先计算出每个频带的中心频率处的ATH(fq),接下来对这些阈值进行标准化使得最小值为1,最后将标准化后的阈值取倒数,就可以得到每个频带对应的权重因子W(l,k)。
为了避免第0个频带的权重为0,即ATH(fq)=∞,在第0个频带的3/4频率范围处进行ATH计算。
在上述各实施例的基础上,本实施例中所述将第一语音样本的每帧中各频带的原幅度谱输入到深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱,包括:对所述第一语音样本进行分帧;对所述第一语音样本的每帧进行DFT(DiscreteFourier Transform,离散傅里叶变换);
为了使得DNN的输入特征和输出特征的维度相同,对第一语音样本进行分帧后再进行DFT变换。
例如,为了使得DNN的输入特征和输出特征都是257×7的幅度谱,利用32ms窗长,即512个样点,并且相邻两帧之间具有50%重叠率,即帧移为256个样点的Hanning窗对第一语音样本进行分帧,并对每一帧进行257点DFT变换。
为了使得训练目标与DNN的输出对应,对第二语音样本进行相同方式的分帧和DTF变换。
将所述第一语音样本的每帧以及与每帧相邻的帧中各频带的原幅度谱进行合并,生成特征向量;
为了充分利用语音的时间信息,将相邻帧的幅度谱特征合并为单个输入特征向量,因此以第l帧为中心的特征向量可以构建为:
Y=[y(l-3,1),…,y(l-3,K),…,y(l,1),…,y(l+3,1),…,y(l+3,K)];
其中,l表示当前帧的编号,K表示每帧中的频带总数,第l帧左边相邻和右边相邻的帧数分别为3,y(l,k)表示第一语音样本中第l帧中第k个频带的幅度谱特征。这种考虑了时间连续性的特征构建方式可以进一步提高语音增强性能。
DNN的训练目标是第二语音样本的幅度谱特征,即:
X=[x(l,1),…,x(l,K)];
其中,x(l,k)表示干净语音第l帧第k个频带的幅度谱特征。
将所述特征向量输入到所述深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱。
下面对本发明提供的基于深度学习的语音增强装置进行描述,下文描述的基于深度学习的语音增强装置与上文描述的基于深度学习的语音增强方法可相互对应参照。
如图4所示,该装置包括第一增强模块401、第一计算模块402、第二计算模块403和第二增强模块404,其中:
第一增强模块401用于将第一语音样本的每帧中各频带的原幅度谱输入到深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱;
对第一语音样本和第二语音样本进行分帧,提取每帧的各频带的幅度谱特征。将第一语音样本和第二语音样本每帧中各频带的幅度谱特征输入到DNN网络中,输出第一语音样本增强后的幅度谱特征,第二语音样本的幅度谱特征作为训练目标。
第一计算模块402用于计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的频域加权分段信噪比;其中,所述第一语音样本通过在所述第二语音样本中加入噪音获取;
将频域加权分段信噪比用于预测增强语音的可懂度。将基于人耳听觉感知的fwSNRseg引入代价函数。
第二计算模块403用于根据所述频域加权分段信噪比计算第一代价函数值,根据所述第一代价函数值对所述深度神经网络模型进行训练;
第二增强模块404用于将目标语音的每帧中各频带的原幅度谱输入到训练后的深度神经网络模型中,输出所述目标语音的每帧中各频带增强后的幅度谱,根据所述目标语音对应的增强后的幅度谱,获取所述目标语音的增强语音。
将目标语音的幅度谱特征输入到训练好的DNN模型中,预测目标语音的增强语音的幅度谱,再结合目标语音的相位采用叠接相加法进行波形重构,最后利用IDFT得到目标语音时域增强的语音信号。
本实施例通过在对深度神经网络模型进行训练的代价函数中引入基于人耳听觉感知的频域加权分段信噪比,并将其作为优化目标来训练深度神经网络模型的参数,缩小了模型优化和评价标准的差距,使得训练的深度神经网络模型增强的语言信号能够反映人耳听觉感知,实现在各种噪声类型和信噪比情况下,残留噪声得到有效抑制且语音失真降低,提高了语音增强效果。
在上述实施例的基础上,本实施例中的第二计算模块通过以下公式根据所述频域加权分段信噪比计算第一代价函数值:
Figure BDA0003050445450000141
Figure BDA0003050445450000142
其中,MSSNR为所述第一代价函数值,M为所述第一语音样本的总数量,xm(l,k)为第m个第二语音样本的第l帧中第k个频带的原幅度谱,
Figure BDA0003050445450000143
为第m个第一语音样本的第l帧中第k个频带增强后的幅度谱,fwSNRseg(xm(l,k),
Figure BDA0003050445450000144
)为第m个第一语音样本的xm(l,k)和
Figure BDA0003050445450000145
之间的频域加权分段信噪比,L为所述第一语音样本的总帧数,K为所述第一语音样本和第二语音样本的每帧中的频带总数,W(l,k)为所述第一语音样本的第l帧中第k个频带的权重因子。
在上述实施例的基础上,本实施例中第二计算模块用于:计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的均方误差;根据所述均方误差和所述第一语音样本的每帧中各频带的权重因子计算第二代价函数值;根据所述第一代价函数值和第二代价函数值,对所述深度神经网络模型进行训练。
在上述实施例的基础上,本实施例中第二计算模块通过以下公式根据所述均方误差和所述第一语音样本的每帧中各频带的权重因子计算第二代价函数值:
Figure BDA0003050445450000151
其中,wMSE为所述均方误差,M为第一语音样本的总数量,xm(l,k)为第m个第二语音样本的第l帧中第k个频带的原幅度谱,
Figure BDA0003050445450000152
为第m个第一语音样本的第l帧中第k个频带增强后的幅度谱,L为所述第一语音样本的总帧数,K为所述第一语音样本和第二语音样本的每帧中的频带总数,W(l,k)为所述第一语音样本的第l帧中第k个频带的权重因子。
在上述实施例的基础上,本实施例中第一计算模块还用于:计算所述第一语音样本的每帧中各频带的理想二值掩蔽,将所述理想二值掩蔽作为所述第一语音样本的每帧中各频带的权重因子。
在上述实施例的基础上,本实施例中第一计算模块还用于:计算所述第一语音样本的每帧中各频带的中心频率处的绝对听阈;根据所述绝对听阈获取所述第一语音样本的每帧中各频带的权重因子。
在上述各实施例的基础上,本实施例中第一增强模块用于:对所述第一语音样本进行分帧;对所述第一语音样本的每帧进行DFT变换;将所述第一语音样本的每帧以及与每帧相邻的帧中各频带的原幅度谱进行合并,生成特征向量;将所述特征向量输入到所述深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行基于深度学习的语音增强方法,该方法包括:将第一语音样本的每帧中各频带的原幅度谱输入到深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱;计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的频域加权分段信噪比;根据所述频域加权分段信噪比计算第一代价函数值,根据所述第一代价函数值对所述深度神经网络模型进行训练;使用训练后的深度神经网络模型对目标语音进行增强。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于深度学习的语音增强方法,该方法包括:将第一语音样本的每帧中各频带的原幅度谱输入到深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱;计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的频域加权分段信噪比;根据所述频域加权分段信噪比计算第一代价函数值,根据所述第一代价函数值对所述深度神经网络模型进行训练;使用训练后的深度神经网络模型对目标语音进行增强。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于深度学习的语音增强方法,该方法包括:将第一语音样本的每帧中各频带的原幅度谱输入到深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱;计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的频域加权分段信噪比;根据所述频域加权分段信噪比计算第一代价函数值,根据所述第一代价函数值对所述深度神经网络模型进行训练;使用训练后的深度神经网络模型对目标语音进行增强。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于深度学习的语音增强方法,其特征在于,包括:
将第一语音样本的每帧中各频带的原幅度谱输入到深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱;
计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的频域加权分段信噪比;其中,所述第一语音样本通过在所述第二语音样本中加入噪音获取;
根据所述频域加权分段信噪比计算第一代价函数值,根据所述第一代价函数值对所述深度神经网络模型进行训练;
将目标语音的每帧中各频带的原幅度谱输入到训练后的深度神经网络模型中,输出所述目标语音的每帧中各频带增强后的幅度谱,根据所述目标语音对应的增强后的幅度谱,获取所述目标语音的增强语音。
2.根据权利要求1所述的基于深度学习的语音增强方法,其特征在于,通过以下公式根据所述频域加权分段信噪比计算第一代价函数值:
Figure FDA0003050445440000011
Figure FDA0003050445440000012
其中,MSSNR为所述第一代价函数值,M为所述第一语音样本的总数量,xm(l,k)为第m个第二语音样本的第l帧中第k个频带的原幅度谱,
Figure FDA0003050445440000013
为第m个第一语音样本的第l帧中第k个频带增强后的幅度谱,
Figure FDA0003050445440000014
为第m个第一语音样本的xm(l,k)和
Figure FDA0003050445440000015
之间的频域加权分段信噪比,L为所述第一语音样本的总帧数,K为所述第一语音样本和第二语音样本的每帧中的频带总数,W(l,k)为所述第一语音样本的第l帧中第k个频带的权重因子。
3.根据权利要求1所述的基于深度学习的语音增强方法,其特征在于,所述根据所述第一代价函数值对所述深度神经网络模型进行训练,包括:
计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的均方误差;
根据所述均方误差和所述第一语音样本的每帧中各频带的权重因子计算第二代价函数值;
根据所述第一代价函数值和第二代价函数值,对所述深度神经网络模型进行训练。
4.根据权利要求3所述的基于深度学习的语音增强方法,其特征在于,通过以下公式根据所述均方误差和所述第一语音样本的每帧中各频带的权重因子计算第二代价函数值:
Figure FDA0003050445440000021
其中,wMSE为所述均方误差,M为第一语音样本的总数量,xm(l,k)为第m个第二语音样本的第l帧中第k个频带的原幅度谱,
Figure FDA0003050445440000022
为第m个第一语音样本的第l帧中第k个频带增强后的幅度谱,L为所述第一语音样本的总帧数,K为所述第一语音样本和第二语音样本的每帧中的频带总数,W(l,k)为所述第一语音样本的第l帧中第k个频带的权重因子。
5.根据权利要求2或4所述的基于深度学习的语音增强方法,其特征在于,还包括:
计算所述第一语音样本的每帧中各频带的理想二值掩蔽,将所述理想二值掩蔽作为所述第一语音样本的每帧中各频带的权重因子。
6.根据权利要求2或4所述的基于深度学习的语音增强方法,其特征在于,还包括:
计算所述第一语音样本的每帧中各频带的中心频率处的绝对听阈;
根据所述绝对听阈获取所述第一语音样本的每帧中各频带的权重因子。
7.根据权利要求1-4任一所述的基于深度学习的语音增强方法,其特征在于,所述将第一语音样本的每帧中各频带的原幅度谱输入到深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱,包括:
对所述第一语音样本进行分帧;
对所述第一语音样本的每帧进行DFT变换;
将所述第一语音样本的每帧以及与每帧相邻的帧中各频带的原幅度谱进行合并,生成特征向量;
将所述特征向量输入到所述深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱。
8.一种基于深度学习的语音增强装置,其特征在于,包括:
第一增强模块,用于将第一语音样本的每帧中各频带的原幅度谱输入到深度神经网络模型中,输出所述第一语音样本的每帧中各频带增强后的幅度谱;
第一计算模块,用于计算所述第一语音样本的每帧中各频带增强后的幅度谱和第二语音样本的每帧中各频带的原幅度谱之间的频域加权分段信噪比;其中,所述第一语音样本通过在所述第二语音样本中加入噪音获取;
第二计算模块,用于根据所述频域加权分段信噪比计算第一代价函数值,根据所述第一代价函数值对所述深度神经网络模型进行训练;
第二增强模块,用于将目标语音的每帧中各频带的原幅度谱输入到训练后的深度神经网络模型中,输出所述目标语音的每帧中各频带增强后的幅度谱,根据所述目标语音对应的增强后的幅度谱,获取所述目标语音的增强语音。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于深度学习的语音增强方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于深度学习的语音增强方法的步骤。
CN202110485290.3A 2021-04-30 2021-04-30 基于深度学习的语音增强方法及装置 Pending CN115273873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110485290.3A CN115273873A (zh) 2021-04-30 2021-04-30 基于深度学习的语音增强方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110485290.3A CN115273873A (zh) 2021-04-30 2021-04-30 基于深度学习的语音增强方法及装置

Publications (1)

Publication Number Publication Date
CN115273873A true CN115273873A (zh) 2022-11-01

Family

ID=83744661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110485290.3A Pending CN115273873A (zh) 2021-04-30 2021-04-30 基于深度学习的语音增强方法及装置

Country Status (1)

Country Link
CN (1) CN115273873A (zh)

Similar Documents

Publication Publication Date Title
CN110379412B (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
US7313518B2 (en) Noise reduction method and device using two pass filtering
EP3866165B1 (en) Method for enhancing telephone speech signals based on convolutional neural networks
CN108922513B (zh) 语音区分方法、装置、计算机设备及存储介质
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN112581973B (zh) 一种语音增强方法及系统
CN110767244B (zh) 语音增强方法
KR20180115984A (ko) 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
CN111292762A (zh) 一种基于深度学习的单通道语音分离方法
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
Zhao et al. Late reverberation suppression using recurrent neural networks with long short-term memory
Tu et al. A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition
Mirsamadi et al. Causal speech enhancement combining data-driven learning and suppression rule estimation.
CN112700786B (zh) 语音增强方法、装置、电子设备和存储介质
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
Swami et al. Speech enhancement by noise driven adaptation of perceptual scales and thresholds of continuous wavelet transform coefficients
CN112037809A (zh) 基于多特征流结构深度神经网络的残留回声抑制方法
Braun et al. Effect of noise suppression losses on speech distortion and ASR performance
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
Tan et al. Improving robustness of deep learning based monaural speech enhancement against processing artifacts
Vanjari et al. Comparative Analysis of Speech Enhancement Techniques in Perceptive of Hearing Aid Design
Wang et al. Improving denoising auto-encoder based speech enhancement with the speech parameter generation algorithm
Rani et al. Significance of phase in DNN based speech enhancement algorithms
Gowri et al. A VMD based approach for speech enhancement
Nossier et al. Two-stage deep learning approach for speech enhancement and reconstruction in the frequency and time domains

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination