CN114141266A

CN114141266A - 基于pesq驱动的强化学习估计先验信噪比的语音增强方法

Info

Publication number: CN114141266A
Application number: CN202111516319.6A
Authority: CN
Inventors: 雷桐; 卢晶
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-04
Anticipated expiration: 2041-12-08
Also published as: CN114141266B

Abstract

本发明公开了一种基于PESQ驱动的强化学习估计先验信噪比的语音增强方法，具体步骤如下：(1)使用清晰语音和噪声数据集生成模拟含噪语音，并做短时傅里叶变换得到短时傅里叶谱；(2)用清晰语音和含噪语音的短时傅里叶谱训练Deep Xi‑TCN网络；(3)用理想的映射信噪比通过K‑means聚类生成有限个聚类中心，作为先验信噪比模板；(4)正式训练阶段，通过DQN网络在帧层面挑选Deep Xi‑TCN推断的信噪比或者先验信噪比模板，计算出与PESQ值相关的奖励，进行强化学习迭代，更新网络参数；(5)将含噪语音短时傅里叶谱输入完成训练的模型，得到的增强语音的短时傅里叶谱，再进行逆短时傅里叶变换。本发明能进一步优化Deep Xi‑TCN推断的先验信噪比，从而提高与听感相关的语音质量。

Description

基于PESQ驱动的强化学习估计先验信噪比的语音增强方法

技术领域

本发明属于语音增强的技术领域，具体涉及一种用强化学习优化Deep Xi-TCN网络估计先验信噪比的方法，用于提升语音质量感知评价分数。

背景技术

在实际应用中，无处不在的噪声和混响大大损害了语音交互的体验和自动语音识别(Automatic Speech Recognition,ASR)的性能。语音增强的目的是从背景干扰中提取清晰的语音，以获得更高的语音可懂度和感知质量。谱减法可以用来实现噪声抑制。该方法基于最小均方误差(Minimum Mean-Square Error，MMSE)估计噪声功率谱(GERKMANN T,HENDRIKS R C.Unbiased MMSE-Based Noise Power Estimation With Low Complexityand Low Tracking Delay[J].IEEE Transactions on Audio Speech&LanguageProcessing,2012,20(4):1383–1393)，随后将含噪语音功率谱减去噪声功率谱得到增强语音的功率谱，再结合含噪语音短时傅里叶谱的相位信息得到增强语音短时傅里叶谱，然后经逆傅里叶变换得到增强语音信号。谱减法在许多场景下取得了良好的噪声抑制效果，但由于其假设的噪声和语音模型的限制，该算法在处理某些低信噪比(Signal-Noise Ratio,SNR)、非稳态噪声场景语音的效果较差，容易导致语音的失真。WPE算法被用于语音的去混响(NAKATANI T,YOSHIOKA T,KINOSHITA K,et al.Speech Dereverberation Based onVariance-Normalized Delayed Linear Prediction[J].IEEE Transactions on AudioSpeech&Language Processing,2010,18(7):1717–1731)。它对语音短时傅里叶谱建立时帧的自回归模型，通过迭代的方式估计逆滤波器系数和早期混响的功率谱，进而求得清晰语音的短时傅里叶谱。WPE算法在语音去混响上取得了优越的效果，但算法的迭代特性使其难以运用在短延时的实时处理当中。

近年来，深度神经网络(Deep Neural Network，DNN)因其强大的非线性建模能力，在语音增强领域取得了令人瞩目的成果(WANG,D L,CHEN J.Supervised speechseparation based on deep learning:An overview[J].IEEE/ACM Transactions onAudio,Speech,and Language Processing,2018,26(10):1702-1726.)。对于单通道语音增强，端到端处理是最直接的方法，但它面临着泛化的挑战，即DNN的输出在训练集未包含的噪声条件下可能会严重恶化。最近提出的Deep Xi框架(ZHANG Q,NICOLSON A,WANG M,etal.DeepMMSE:A deep learning approach to MMSE-based noise power spectraldensity estimation[J].IEEE/ACM Transactions on Audio,Speech,and LanguageProcessing,2020,28:1404-1415.)可以被视为一种有效的混合方法，结合了基于规则的MMSE语音增强策略和数据驱动的深度学习方法来估计先验信噪比。与其他噪声功率谱密度估计器不同，它不对语音或噪声的特性做任何假设，不表现出任何跟踪延迟，也不依赖偏置补偿。此外，DNN只用于跟踪噪声功率谱密度(Power Spectral Density，PSD)和信噪比，其输出是根据基于规则的方法计算的，所以可以减少端到端方法的风险。

对于基于深度学习的语音增强，有研究指出，用估计信号和清晰语音之间的均方误差这样的通用标准来处理语音，并不能保证高的语音质量和可懂度。在与人类感知有关的客观指标中，语音质量的感知评价(Perceptual Evaluation of Speech Quality，PESQ)和短时客观可懂度(Short-Time Objective Intelligibility，STOI)是评价语音质量和可懂度的两个流行指标。因此，直接使用这两个函数来优化模型是一项有意义的工作。一些研究集中于STOI分数的优化，以提高语音可懂度，但PESQ分数不能通过最大化STOI分数来改善。另有一些研究简化了PESQ中对称干扰向量的计算，在响度谱的绝对差值上应用了一个中心剪切算子，这样就可以把它纳入训练目标。然而，PESQ本身是不可微分的，反向传播的导数也无法计算，所以很难得到一个通用的训练方案。

作为一种自我优化的方法，强化学习(Reinforcement Learning,RL)可以被理解为在反馈环境中采取行动，让机器学习最优策略，使累积奖励最大化，其在机器人行为控制、智能对话管理、让机器人玩游戏和语音识别等领域受到广泛关注。RL的使用已经在端到端语音增强方案中得到了探索，已经被验证了增强的语音确实能带来更好的PESQ分数，并且RL增强方案具有训练数据少的优势。

发明内容

传统基于规则的方法在对低信噪比、非稳态噪声、强混响环境下的语音进行增强时往往难以去除噪声成分，甚至会造成严重的语音失真。而纯端到端的方法在面对陌生的噪声和混响环境时，效果会极大恶化。Deep Xi是一种混合语音增强方案，其结合了基于规则的方法和深度学习的语音增强的方法，但由于训练过程是依赖估计信号和清晰语音之间的均方误差标准来达到收敛效果的，并不能达到语音质量的感知评价的优化。为此，本发明提出在Deep Xi-TCN网络估计的先验信噪比的基础上，进一步用强化学习引入PESQ指标优化信噪比的估计，从而得到感知评分更好的清晰语音，特别是低信噪比时提升效果相对明显。

为实现上述目的，本发明采用的技术方案为：

基于PESQ驱动的强化学习估计先验信噪比的语音增强方法，该方法包括以下步骤：

步骤1，使用训练集中的清晰语音和噪声以随机信噪比合成模拟含噪语音，并对三者做短时傅里叶变换分别得到清晰语音短时傅里叶谱、噪声短时傅里叶谱和模拟含噪语音短时傅里叶谱；

步骤2，使用所述清晰语音短时傅里叶谱和模拟含噪语音短时傅里叶谱训练DeepXi-TCN网络；

步骤3，利用所述清晰语音短时傅里叶谱幅度和噪声短时傅立叶谱幅度相除，并将其范围映射到[0,1]，生成训练集的映射信噪比，然后通过K-means聚类生成有限个聚类中心，作为先验信噪比模板；

步骤4，利用所述先验信噪比模板给所述模拟含噪语音的每帧打标签，用以训练DQN网络初始化参数；

步骤5，正式训练阶段，通过所述DQN网络在帧层面挑选信噪比模板，信噪比模板为步骤2完成训练的Deep Xi-TCN网络推断的信噪比或者步骤3生成的先验信噪比模板；然后计算出与PESQ值相关的奖励，进行强化学习迭代，更新所述DQN网络参数；

步骤6，将测试集清晰语音和噪声合成的含噪语音短时傅里叶谱输入步骤5完成训练的DQN网络，并将得到的增强语音的短时傅里叶谱进行逆短时傅里叶变换，得到增强语音的时域信号。

进一步地，步骤2中，所述Deep Xi-TCN网络的输入数据首先经过一个全连接输入层，然后通过若干个残差块，再通过一个全连接输出层输出估计的映射信噪比；其中每个残差块包括三层激活函数为ReLU并且带层正则化的一维卷积网络，可实现时频域块的二维特征提取。

进一步地，步骤4中，利用所述先验信噪比模板给所述模拟含噪语音的每帧打标签的具体步骤为：通过均方误差法则去判断每帧所有频点的理想信噪比和模板信噪比之间的距离，取距离最小的模板

的编号m为相应帧的标签；从1到M的索引号被用作训练集中相应帧的标签。

本发明的方法能够在低信噪比、非稳态噪声等多种复杂噪声场景下对语音进行增强，鲁棒性较高，并且感知评分也得到可观改善。Deep Xi方法作为一种有效的混合方法，结合了基于规则的MMSE语音增强策略和数据驱动的深度学习方法来估计先验信噪比。与其他噪声功率谱密度估计器不同，它不对语音或噪声的特性做任何假设，不表现出任何跟踪延迟，也不依赖偏置补偿。此外，DNN只用于跟踪噪声功率谱密度(Power Spectral Density，PSD)和信噪比，其输出是根据基于规则的方法计算的，所以可以减少端到端方法的风险。在此基础上，通过再加上一个用强化学习策略训练的双层全连接网络进行帧级别的信噪比模板挑选，实现将PESQ指标引入模型的优化，达到估计语音更好的感知评分。

附图说明

图1是本发明方法的处理流程图。

图2是本发明方法中训练阶段的流程图。

图3为训练阶段重建时域信号的流程图。

图4为Deep Xi-TCN网络结构示意图。

图5为DQN网络结构示意图。

图6为训练阶段PESQ分数的变化曲线图。

图7为本发明方法与Deep Xi-TCN处理语音增强结果对比图，(a)清晰语音信号，(b)含噪混响信号，(c)Deep Xi-TCN方法处理结果，(d)本发明方法处理结果。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本实施例提供一种基于PESQ驱动的强化学习估计先验信噪比的语音增强方法，将PESQ评分指标引入Deep Xi-TCN，将先验信噪比视为RL中的行为，并设计与PESQ相关的奖励。离散的动作由预先训练的帧级先验信噪比模板和Deep Xi-TCN获得的先验信噪比组成。然后利用双Q学习(Double QLearning)策略来选择最佳的先验信噪比与PESQ的奖励函数。其总流程如图1所示，包括以下步骤：

步骤1，使用训练集的清晰语音数据集和噪声数据集以随机信噪比合成模拟含噪语音，并对三者做短时傅里叶变换得到短时傅里叶谱；

步骤2，利用步骤1中的清晰语音数据集和模拟含噪语音的短时傅里叶谱训练DeepXi-TCN网络；

步骤3，用步骤1合成的模拟含噪语音所对应的清晰语音和噪声的短时傅立叶谱生成理想的映射信噪比，并通过K-means聚类生成有限个聚类中心，作为先验信噪比模板；

步骤4，利用先验信噪比模板给步骤1合成的模拟含噪语音的每帧打标签，用以训练DQN网络初始化参数；

步骤5，正式训练阶段如图2所示，通过DQN网络在帧层面挑选已完成训练的DeepXi-TCN网络推断的信噪比或者先验信噪比模板，计算出与PESQ值相关的奖励，进行强化学习反馈迭代，从而更新网络参数；

步骤6，将步骤1得到的模拟含噪语音的短时傅里叶谱输入完成训练的模型，并将得到的增强语音的短时傅里叶谱进行逆短时傅里叶变换，得到增强语音的时域信号。

一、Deep Xi混合方法

时频域的信号模型可由短时傅里叶变换(Short Time Fourier Transform,STFT)获得：

Y_l[k]＝S_l[k]+D_l[k] (1)

其中Y_l[k]，S_l[k]和D_l[k]分别是含噪语音，清晰语音和噪声的短时傅里叶变换复系数。l是时间帧索引，k是离散频率索引。应用Deep Xi框架的标准假设，S_l[k]和D_l[k]在时间和频率帧上是统计独立的，并且遵循条件零均值高斯分布，频谱方差分别为λ_s[l，k]和λ_d[l，k]。设R＝|Y_l[k]|，先验信噪比ξ和后验信噪比γ被定义为：

Deep Xi框架由以下内容简述。理论上，先验信噪比的范围是[0，+∞]，而DNN要求训练目标是在一个有限的区间内。所以需要一个适当的映射。10log₁₀(ξ_l[k])服从以下高斯分布：

均值和方差分别为μ_k和σ_k ²。被映射的信噪比由下式给出：

erf(·)表示高斯误差函数。被估计的先验信噪比

能用下式恢复：

其中

是映射信噪比的估计。

Deep Xi-TCN的网络是将传统Deep Xi框架中的ResLSTM网络换成时间卷积网络(Temporal ConvolutionNetwork，TCN)的方法，其结构如图4所示，它由一个全连接层FC连接输入的频谱和若干个残差块，然后用Sigmoidal单元的全连接层连接残差块和输出层O。TCN网络的输入是第l帧的含噪语音频谱R_l，通过一个256节点的激活函数为ReLU的全连接层，连接到40个残差块上。每个残差块包含三个一维因果扩张卷积单元，维度分别为(1，d_f，1)，(k，d_f，d)，(1，d_{mod el}，1)。其中第一第二个单元的输出维度d_f＝64，第三个单元的输出维度d_{mod el}＝256，第二个单元的核尺寸k＝3，扩展率

其中mod()是模数操作。最大扩张率设置为16，也就是说d的维度会随着残差块标签的增加以1，2，4，8，16循环。因果扩张卷积单元的存在可以使网络使用上下文(如果是因果网络则只有上文)的信息，利用时间上的关联性得到更好的结果。最后一个残差块连接节点为256激活函数为sigmoid的输出层，输出第l帧的映射的先验信噪比

在估计了先验的信噪比估计后，需要一个相应的增益函数来恢复估计的信号。最小均方误差对数频谱振幅(MMSE-LSA)估计器将清晰语音和增强语音的对数频谱之间的MSE最小化，这是性能最好的增益函数之一。瞬时后验信噪比是由瞬时先验信噪比估计出来的γ＝ξ+1，增益函数由下式给出

二、XiDQN模型框架

本发明提出的强化学习方法旨在提高PESQ得分。深度Q网络(Deep Q Network，DQN)被用来从噪声语音的归一化功率谱中识别清晰的语音，并选择最高的奖励先验信噪比，因此被称为XiDQN模型，奖励目标使用PESQ得分。

结合图1、2和3，下面详细描述初始化阶段和训练阶段两部分的流程。

在初始化阶段，Deep Xi-TCN网络得到了一个帧级映射的先验信噪比，并被视为一个候选动作，表示为

为了形成一个完整的动作模板，通过K-means聚类算法在理想的先验信噪比

上形成M个候选动作，先验信噪比由训练集中的清晰语音和噪声的功率谱之间的比率产生。通过这种方式，产生了具有M+1个候选动作的有限动作模板

DQN网络可以被看作是一个动作值函数Q(R_l，a_l)，其中R_l＝[R_l[0]，R_l[1]，...，R_l[K]]^T是噪声语音的幅度谱，a_l＝[a_l[0]，a_l[1]，...，a_l[K]]^T是先验信噪比，K是频率点的数量。为了在训练前对DQN网络有合理的初始化参数，本实施例在初始化阶段对网络进行预训练。

DQN的初始化参数Θ_q是以下列方式训练的。首先，计算训练集的先验信噪比，并将其映射到

通过均方误差法则去判断每帧所有频点的理想信噪比和模板信噪比之间的距离，取距离最小的模板的编号为相应帧的标签，如下式(7)。从1到M的索引号被用作训练集中相应帧的标签。

其中⊙是哈达玛积。这个过程可以被看作是一个分类任务。网络参数由反向传播更新。每个全连接层的权重和偏置用正态分布初始化。

在训练阶段，DQN的参数Θ_q被训练的目标是最大化与PESQ相关的奖励。在训练过程中，使用了双Q学习策略，该策略将选择与评估解耦，以防止高估。此方法无需额外的网络或参数。本实施例有两个具有不同更新速率的DQN网络：在每个迭代中更新的网络被称为评估DQN(Eval.DQN)，而定期复制Eval.DQN参数的网络被称为目标DQN(TargetDQN)。含噪语音振幅频谱同时输入两个网络，由评估DQN和目标DQN分别生成Q′(R_l，a_l)和Q(R_l，a_l)。除了更新率之外，这两个DQN之间的另一个区别是，Target DQN直接遵循DQN的标准过程来选择动作，而评估DQN则以概率∈随机挑选动作。在做出行动选择后，两者都产生各自的估计语音

和

然后根据他们的PESQ之间的差异计算奖励，并以自我优化的方式更新DQN参数。请注意，图1集中于对特定帧的行动选择，而忽略了上下文窗口大小和块处理。下文描述训练细节和奖励设置。

用Q Learning策略挑选合适的帧级别的行为a_l如下式

其中⊙是哈达玛积。G_MMSE-LSA(.)输入向量或者矩阵返回对应的向量和矩阵的每个频率点的MMSE-LSA增益，如式(6)。Y＝[Y_l-P，..，Y_l，...，Y_l+P]是含噪语音频谱，2P+1是上下文窗长的大小。

是用DQN推断的先验信噪比矩阵，所以

是推断的清晰语音频谱。

是通过逆傅里叶变换(inverse short timeFourier transform，iSTFT)还原的清晰语音的时域波形，需要用于接下来奖励的计算。

奖励的设置很重要。为了对不同信噪比和不同噪声类型进行适当的奖励，需要对奖励的范围进行约束。评价网络和目标网络之间的相对PESQ值被用作奖励：

其中α＞0是放缩参数。

和

是根据目标DQN和评价DQN的估计语音计算出的PESQ值。DQN分别计算的PESQ值。考虑到先验信噪比是随时间变化的，而且PESQ值不能在一帧内计算，因此需要对多帧计算随时间变化的奖励。在奖励计算中利用时间权重E_l∈[0，1]，即

一旦∈-贪婪策略从

中随机选择了与评估DQN不同的行动a_ε，评估DQN迭代的行为-价值函数的期望的Q值以以下规则更新

其中Q(R_l，a_l)是目标DQN估计的Q值，

是评估DQN的期望的Q值。当

(此时r_l＜0)时，目标DQN的最大Q值减去r_l，奖励目标DQN挑选的信噪比行为比评估DQN的好。另外，为了给评估DQN的Q值设定一个上限，其输出层的激活函数为softmax。相应地，

也将被归一化以满足

最后，通过最小化以下方程来更新参数Θ_q，使评估DQN的值Q′(R_l，a_l)接近期望值

为了最小化公式(15)，本发明使用RMSProp算法与标准的小批量随机梯度下降(Stochastic Gradient Descent，SGD)。

在推断阶段，只使用经过训练的Deep Xi-TCN和Target DQN。除了在Deep Xi-TCN中推断

训练好的目标DQN还要确定M+1个候选信噪比模板中哪个最适合给定的帧。

三、数据集和实验参数

本发明提出的方法命名为XiDQN，将其性能与Deep Xi-TCN方法进行比较。在实验中，清晰的语音语料包括TIMIT语音数据集(6289个语料)和Librispeech数据集的train-clean-100集(28539个语料)。噪声音频包括Nonspeech数据集、环境背景噪声数据集和MUSAN语料库的噪声部分。清晰的语音和噪声被分为训练集、验证集和测试集，比例分别为0.7、0.1和0.2。此外，白噪声被添加到训练集的噪声部分。所有的语音和噪声都统一为16kHz的采样率(采样频率高于16kHz的录音被降采样为16kHz)。噪声语音信号的生成规则如下：每个清晰的语音与一个随机选择的噪声信号混合，混合信噪比从-10dB到15dB，增量为1dB随机采样。

模板中的先验信噪比候选人的数量是32。如图5所示，框架中使用的DQN由两个完全连接的隐藏层组成，有66个单元和sigmoid激活函数。输出层的激活函数是softmax。公式(9)中的可调节比例参数被设置为20。上下文的半窗口大小P被设置为15。训练中使用了dropout技术以避免过拟合。STFT的帧大小为512，有256个样本的位移。贪婪参数∈从0.20到0.01线性变化。学习率采用1cycle学习率法设置，用于训练加速，在0.00001和0.0005之间增加，然后减少。

四、实验结果

图6显示了训练期间从目标DQN的估计语音中计算出的PESQ分数的变化。为了进行比较，还描述了从训练的Deep Xi-TCN计算出的固定平均PESQ分数。一个小批量的8个训练音频被用来迭代更新评估DQN，它的参数每更新20次会定期复制给目标DQN。从图6可以看出，PESQ得分随着迭代次数的增加而增加，并在大约160次迭代后超过了Deep Xi-TCN的得分。XiDQN在收敛后比Deep Xi-TCN有大约0.11的整体PESQ改善。需要注意的是，PESQ分数的收敛行为并不像Deep Xi的学习曲线那样平滑，因为PESQ是通过从训练数据集中随机选择的样本计算的。

在测试集上，除了PESQ之外，还使用STOI作为评估指标。表1列出了在-6dB、0dB、6dB和12dB信噪比条件下增强语音的PESQ和STOI(％)得分。可以看出XiDQN在STOI上的优势，尽管与PESQ的优势相比相形见绌。请注意，在低信噪比下，XiDQN方法比Deep Xi-TCN有更明显的改进，这表明当噪声能量相对较高时，XiDQN网络所做的动作选择会带来明显的增益。

表1测试集的PESQ和STOI(％)分数

图7显示了在0dB信噪比下处理过的语音的频谱图例子。通过比较其中的(c)和(d)图，可以看出所提出的XiDQN的改善。这两幅图中的左边2个虚线框显示了XiDQN更有效的噪声抑制，而右边的虚线框显示了XiDQN更清楚地保留了辅音音节。

Claims

1.基于PESQ驱动的强化学习估计先验信噪比的语音增强方法，其特征在于，该方法包括以下步骤：

步骤2，使用所述清晰语音短时傅里叶谱和模拟含噪语音短时傅里叶谱训练Deep Xi-TCN网络；

2.根据权利要求1所述的基于PESQ驱动的强化学习估计先验信噪比的语音增强方法，其特征在于，步骤2中，所述Deep Xi-TCN网络的输入数据首先经过一个全连接输入层，然后通过若干个残差块，再通过一个全连接输出层输出估计的映射信噪比；其中每个残差块包括三层激活函数为ReLU并且带层正则化的一维卷积网络，可实现时频域块的二维特征提取。

3.根据权利要求1所述的基于PESQ驱动的强化学习估计先验信噪比的语音增强方法，其特征在于，步骤4中，利用所述先验信噪比模板给所述模拟含噪语音的每帧打标签的具体步骤为：通过均方误差法则去判断每帧所有频点的理想信噪比和模板信噪比之间的距离，取距离最小的模板

4.根据权利要求1所述的基于PESQ驱动的强化学习估计先验信噪比的语音增强方法，其特征在于，步骤5中存在两个具有不同更新速率的DQN网络：在每个迭代中更新的网络被称为评估DQN网络，而定期复制其参数的网络被称为目标DQN网络；利用双Q策略计算出与PESQ值相关的奖励，奖励设置如下：

评估DQN网络和目标DQN网络之间的相对PESQ值

其中α>0是放缩参数，

和

是根据目标DQN网络和评估DQN网络的估计语音计算出的PESQ值；考虑到先验信噪比是随时间变化的，而且PESQ值不能在一帧内计算，因此需要对多帧计算随时间变化的奖励，在奖励计算中利用时间权重E_l∈[0,1]，即

其中k是离散频域序号，l’是第l帧前后P帧的帧序号，2P+1是上下文窗长的大小；S_l'[k]是清晰语音的频谱，Y_l'[k]是含噪语音的频谱，

是用DQN网络推断的先验信噪比选项；

通过对比目前进行迭代的评估DQN网络的推断结果和滞后更新的目标DQN网络的推断结果，结果更好则网络的对应节点获得相应的奖励，反之则惩罚。

5.根据权利要求4所述的基于PESQ驱动的强化学习估计先验信噪比的语音增强方法，其特征在于，所述评估DQN网络迭代的行为-价值函数，即Q函数的期望的Q值按以下规则更新：

其中，Q(R_l,a_l)是目标DQN网络估计的Q值，Q′(R_l,a_l)是评估DQN网络估计的Q值，

是评估DQN网络的期望的Q值。