CN114141266A - 基于pesq驱动的强化学习估计先验信噪比的语音增强方法 - Google Patents
基于pesq驱动的强化学习估计先验信噪比的语音增强方法 Download PDFInfo
- Publication number
- CN114141266A CN114141266A CN202111516319.6A CN202111516319A CN114141266A CN 114141266 A CN114141266 A CN 114141266A CN 202111516319 A CN202111516319 A CN 202111516319A CN 114141266 A CN114141266 A CN 114141266A
- Authority
- CN
- China
- Prior art keywords
- speech
- noise ratio
- signal
- network
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000002787 reinforcement Effects 0.000 title claims abstract description 18
- 238000001228 spectrum Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000003064 k means clustering Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 16
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000009471 action Effects 0.000 description 13
- 238000013459 approach Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000008447 perception Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,具体步骤如下:(1)使用清晰语音和噪声数据集生成模拟含噪语音,并做短时傅里叶变换得到短时傅里叶谱;(2)用清晰语音和含噪语音的短时傅里叶谱训练Deep Xi‑TCN网络;(3)用理想的映射信噪比通过K‑means聚类生成有限个聚类中心,作为先验信噪比模板;(4)正式训练阶段,通过DQN网络在帧层面挑选Deep Xi‑TCN推断的信噪比或者先验信噪比模板,计算出与PESQ值相关的奖励,进行强化学习迭代,更新网络参数;(5)将含噪语音短时傅里叶谱输入完成训练的模型,得到的增强语音的短时傅里叶谱,再进行逆短时傅里叶变换。本发明能进一步优化Deep Xi‑TCN推断的先验信噪比,从而提高与听感相关的语音质量。
Description
技术领域
本发明属于语音增强的技术领域,具体涉及一种用强化学习优化Deep Xi-TCN网络估计先验信噪比的方法,用于提升语音质量感知评价分数。
背景技术
在实际应用中,无处不在的噪声和混响大大损害了语音交互的体验和自动语音识别(Automatic Speech Recognition,ASR)的性能。语音增强的目的是从背景干扰中提取清晰的语音,以获得更高的语音可懂度和感知质量。谱减法可以用来实现噪声抑制。该方法基于最小均方误差(Minimum Mean-Square Error,MMSE)估计噪声功率谱(GERKMANN T,HENDRIKS R C.Unbiased MMSE-Based Noise Power Estimation With Low Complexityand Low Tracking Delay[J].IEEE Transactions on Audio Speech&LanguageProcessing,2012,20(4):1383–1393),随后将含噪语音功率谱减去噪声功率谱得到增强语音的功率谱,再结合含噪语音短时傅里叶谱的相位信息得到增强语音短时傅里叶谱,然后经逆傅里叶变换得到增强语音信号。谱减法在许多场景下取得了良好的噪声抑制效果,但由于其假设的噪声和语音模型的限制,该算法在处理某些低信噪比(Signal-Noise Ratio,SNR)、非稳态噪声场景语音的效果较差,容易导致语音的失真。WPE算法被用于语音的去混响(NAKATANI T,YOSHIOKA T,KINOSHITA K,et al.Speech Dereverberation Based onVariance-Normalized Delayed Linear Prediction[J].IEEE Transactions on AudioSpeech&Language Processing,2010,18(7):1717–1731)。它对语音短时傅里叶谱建立时帧的自回归模型,通过迭代的方式估计逆滤波器系数和早期混响的功率谱,进而求得清晰语音的短时傅里叶谱。WPE算法在语音去混响上取得了优越的效果,但算法的迭代特性使其难以运用在短延时的实时处理当中。
近年来,深度神经网络(Deep Neural Network,DNN)因其强大的非线性建模能力,在语音增强领域取得了令人瞩目的成果(WANG,D L,CHEN J.Supervised speechseparation based on deep learning:An overview[J].IEEE/ACM Transactions onAudio,Speech,and Language Processing,2018,26(10):1702-1726.)。对于单通道语音增强,端到端处理是最直接的方法,但它面临着泛化的挑战,即DNN的输出在训练集未包含的噪声条件下可能会严重恶化。最近提出的Deep Xi框架(ZHANG Q,NICOLSON A,WANG M,etal.DeepMMSE:A deep learning approach to MMSE-based noise power spectraldensity estimation[J].IEEE/ACM Transactions on Audio,Speech,and LanguageProcessing,2020,28:1404-1415.)可以被视为一种有效的混合方法,结合了基于规则的MMSE语音增强策略和数据驱动的深度学习方法来估计先验信噪比。与其他噪声功率谱密度估计器不同,它不对语音或噪声的特性做任何假设,不表现出任何跟踪延迟,也不依赖偏置补偿。此外,DNN只用于跟踪噪声功率谱密度(Power Spectral Density,PSD)和信噪比,其输出是根据基于规则的方法计算的,所以可以减少端到端方法的风险。
对于基于深度学习的语音增强,有研究指出,用估计信号和清晰语音之间的均方误差这样的通用标准来处理语音,并不能保证高的语音质量和可懂度。在与人类感知有关的客观指标中,语音质量的感知评价(Perceptual Evaluation of Speech Quality,PESQ)和短时客观可懂度(Short-Time Objective Intelligibility,STOI)是评价语音质量和可懂度的两个流行指标。因此,直接使用这两个函数来优化模型是一项有意义的工作。一些研究集中于STOI分数的优化,以提高语音可懂度,但PESQ分数不能通过最大化STOI分数来改善。另有一些研究简化了PESQ中对称干扰向量的计算,在响度谱的绝对差值上应用了一个中心剪切算子,这样就可以把它纳入训练目标。然而,PESQ本身是不可微分的,反向传播的导数也无法计算,所以很难得到一个通用的训练方案。
作为一种自我优化的方法,强化学习(Reinforcement Learning,RL)可以被理解为在反馈环境中采取行动,让机器学习最优策略,使累积奖励最大化,其在机器人行为控制、智能对话管理、让机器人玩游戏和语音识别等领域受到广泛关注。RL的使用已经在端到端语音增强方案中得到了探索,已经被验证了增强的语音确实能带来更好的PESQ分数,并且RL增强方案具有训练数据少的优势。
发明内容
传统基于规则的方法在对低信噪比、非稳态噪声、强混响环境下的语音进行增强时往往难以去除噪声成分,甚至会造成严重的语音失真。而纯端到端的方法在面对陌生的噪声和混响环境时,效果会极大恶化。Deep Xi是一种混合语音增强方案,其结合了基于规则的方法和深度学习的语音增强的方法,但由于训练过程是依赖估计信号和清晰语音之间的均方误差标准来达到收敛效果的,并不能达到语音质量的感知评价的优化。为此,本发明提出在Deep Xi-TCN网络估计的先验信噪比的基础上,进一步用强化学习引入PESQ指标优化信噪比的估计,从而得到感知评分更好的清晰语音,特别是低信噪比时提升效果相对明显。
为实现上述目的,本发明采用的技术方案为:
基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,该方法包括以下步骤:
步骤1,使用训练集中的清晰语音和噪声以随机信噪比合成模拟含噪语音,并对三者做短时傅里叶变换分别得到清晰语音短时傅里叶谱、噪声短时傅里叶谱和模拟含噪语音短时傅里叶谱;
步骤2,使用所述清晰语音短时傅里叶谱和模拟含噪语音短时傅里叶谱训练DeepXi-TCN网络;
步骤3,利用所述清晰语音短时傅里叶谱幅度和噪声短时傅立叶谱幅度相除,并将其范围映射到[0,1],生成训练集的映射信噪比,然后通过K-means聚类生成有限个聚类中心,作为先验信噪比模板;
步骤4,利用所述先验信噪比模板给所述模拟含噪语音的每帧打标签,用以训练DQN网络初始化参数;
步骤5,正式训练阶段,通过所述DQN网络在帧层面挑选信噪比模板,信噪比模板为步骤2完成训练的Deep Xi-TCN网络推断的信噪比或者步骤3生成的先验信噪比模板;然后计算出与PESQ值相关的奖励,进行强化学习迭代,更新所述DQN网络参数;
步骤6,将测试集清晰语音和噪声合成的含噪语音短时傅里叶谱输入步骤5完成训练的DQN网络,并将得到的增强语音的短时傅里叶谱进行逆短时傅里叶变换,得到增强语音的时域信号。
进一步地,步骤2中,所述Deep Xi-TCN网络的输入数据首先经过一个全连接输入层,然后通过若干个残差块,再通过一个全连接输出层输出估计的映射信噪比;其中每个残差块包括三层激活函数为ReLU并且带层正则化的一维卷积网络,可实现时频域块的二维特征提取。
进一步地,步骤4中,利用所述先验信噪比模板给所述模拟含噪语音的每帧打标签的具体步骤为:通过均方误差法则去判断每帧所有频点的理想信噪比和模板信噪比之间的距离,取距离最小的模板的编号m为相应帧的标签;从1到M的索引号被用作训练集中相应帧的标签。
本发明的方法能够在低信噪比、非稳态噪声等多种复杂噪声场景下对语音进行增强,鲁棒性较高,并且感知评分也得到可观改善。Deep Xi方法作为一种有效的混合方法,结合了基于规则的MMSE语音增强策略和数据驱动的深度学习方法来估计先验信噪比。与其他噪声功率谱密度估计器不同,它不对语音或噪声的特性做任何假设,不表现出任何跟踪延迟,也不依赖偏置补偿。此外,DNN只用于跟踪噪声功率谱密度(Power Spectral Density,PSD)和信噪比,其输出是根据基于规则的方法计算的,所以可以减少端到端方法的风险。在此基础上,通过再加上一个用强化学习策略训练的双层全连接网络进行帧级别的信噪比模板挑选,实现将PESQ指标引入模型的优化,达到估计语音更好的感知评分。
附图说明
图1是本发明方法的处理流程图。
图2是本发明方法中训练阶段的流程图。
图3为训练阶段重建时域信号的流程图。
图4为Deep Xi-TCN网络结构示意图。
图5为DQN网络结构示意图。
图6为训练阶段PESQ分数的变化曲线图。
图7为本发明方法与Deep Xi-TCN处理语音增强结果对比图,(a)清晰语音信号,(b)含噪混响信号,(c)Deep Xi-TCN方法处理结果,(d)本发明方法处理结果。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本实施例提供一种基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,将PESQ评分指标引入Deep Xi-TCN,将先验信噪比视为RL中的行为,并设计与PESQ相关的奖励。离散的动作由预先训练的帧级先验信噪比模板和Deep Xi-TCN获得的先验信噪比组成。然后利用双Q学习(Double QLearning)策略来选择最佳的先验信噪比与PESQ的奖励函数。其总流程如图1所示,包括以下步骤:
步骤1,使用训练集的清晰语音数据集和噪声数据集以随机信噪比合成模拟含噪语音,并对三者做短时傅里叶变换得到短时傅里叶谱;
步骤2,利用步骤1中的清晰语音数据集和模拟含噪语音的短时傅里叶谱训练DeepXi-TCN网络;
步骤3,用步骤1合成的模拟含噪语音所对应的清晰语音和噪声的短时傅立叶谱生成理想的映射信噪比,并通过K-means聚类生成有限个聚类中心,作为先验信噪比模板;
步骤4,利用先验信噪比模板给步骤1合成的模拟含噪语音的每帧打标签,用以训练DQN网络初始化参数;
步骤5,正式训练阶段如图2所示,通过DQN网络在帧层面挑选已完成训练的DeepXi-TCN网络推断的信噪比或者先验信噪比模板,计算出与PESQ值相关的奖励,进行强化学习反馈迭代,从而更新网络参数;
步骤6,将步骤1得到的模拟含噪语音的短时傅里叶谱输入完成训练的模型,并将得到的增强语音的短时傅里叶谱进行逆短时傅里叶变换,得到增强语音的时域信号。
一、Deep Xi混合方法
时频域的信号模型可由短时傅里叶变换(Short Time Fourier Transform,STFT)获得:
Yl[k]=Sl[k]+Dl[k] (1)
其中Yl[k],Sl[k]和Dl[k]分别是含噪语音,清晰语音和噪声的短时傅里叶变换复系数。l是时间帧索引,k是离散频率索引。应用Deep Xi框架的标准假设,Sl[k]和Dl[k]在时间和频率帧上是统计独立的,并且遵循条件零均值高斯分布,频谱方差分别为λs[l,k]和λd[l,k]。设R=|Yl[k]|,先验信噪比ξ和后验信噪比γ被定义为:
Deep Xi框架由以下内容简述。理论上,先验信噪比的范围是[0,+∞],而DNN要求训练目标是在一个有限的区间内。所以需要一个适当的映射。10log10(ξl[k])服从以下高斯分布:
均值和方差分别为μk和σk 2。被映射的信噪比由下式给出:
Deep Xi-TCN的网络是将传统Deep Xi框架中的ResLSTM网络换成时间卷积网络(Temporal ConvolutionNetwork,TCN)的方法,其结构如图4所示,它由一个全连接层FC连接输入的频谱和若干个残差块,然后用Sigmoidal单元的全连接层连接残差块和输出层O。TCN网络的输入是第l帧的含噪语音频谱Rl,通过一个256节点的激活函数为ReLU的全连接层,连接到40个残差块上。每个残差块包含三个一维因果扩张卷积单元,维度分别为(1,df,1),(k,df,d),(1,dmod el,1)。其中第一第二个单元的输出维度df=64,第三个单元的输出维度dmod el=256,第二个单元的核尺寸k=3,扩展率其中mod()是模数操作。最大扩张率设置为16,也就是说d的维度会随着残差块标签的增加以1,2,4,8,16循环。因果扩张卷积单元的存在可以使网络使用上下文(如果是因果网络则只有上文)的信息,利用时间上的关联性得到更好的结果。最后一个残差块连接节点为256激活函数为sigmoid的输出层,输出第l帧的映射的先验信噪比
在估计了先验的信噪比估计后,需要一个相应的增益函数来恢复估计的信号。最小均方误差对数频谱振幅(MMSE-LSA)估计器将清晰语音和增强语音的对数频谱之间的MSE最小化,这是性能最好的增益函数之一。瞬时后验信噪比是由瞬时先验信噪比估计出来的γ=ξ+1,增益函数由下式给出
二、XiDQN模型框架
本发明提出的强化学习方法旨在提高PESQ得分。深度Q网络(Deep Q Network,DQN)被用来从噪声语音的归一化功率谱中识别清晰的语音,并选择最高的奖励先验信噪比,因此被称为XiDQN模型,奖励目标使用PESQ得分。
结合图1、2和3,下面详细描述初始化阶段和训练阶段两部分的流程。
在初始化阶段,Deep Xi-TCN网络得到了一个帧级映射的先验信噪比,并被视为一个候选动作,表示为为了形成一个完整的动作模板,通过K-means聚类算法在理想的先验信噪比上形成M个候选动作,先验信噪比由训练集中的清晰语音和噪声的功率谱之间的比率产生。通过这种方式,产生了具有M+1个候选动作的有限动作模板DQN网络可以被看作是一个动作值函数Q(Rl,al),其中Rl=[Rl[0],Rl[1],...,Rl[K]]T是噪声语音的幅度谱,al=[al[0],al[1],...,al[K]]T是先验信噪比,K是频率点的数量。为了在训练前对DQN网络有合理的初始化参数,本实施例在初始化阶段对网络进行预训练。
DQN的初始化参数Θq是以下列方式训练的。首先,计算训练集的先验信噪比,并将其映射到通过均方误差法则去判断每帧所有频点的理想信噪比和模板信噪比之间的距离,取距离最小的模板的编号为相应帧的标签,如下式(7)。从1到M的索引号被用作训练集中相应帧的标签。
其中⊙是哈达玛积。这个过程可以被看作是一个分类任务。网络参数由反向传播更新。每个全连接层的权重和偏置用正态分布初始化。
在训练阶段,DQN的参数Θq被训练的目标是最大化与PESQ相关的奖励。在训练过程中,使用了双Q学习策略,该策略将选择与评估解耦,以防止高估。此方法无需额外的网络或参数。本实施例有两个具有不同更新速率的DQN网络:在每个迭代中更新的网络被称为评估DQN(Eval.DQN),而定期复制Eval.DQN参数的网络被称为目标DQN(TargetDQN)。含噪语音振幅频谱同时输入两个网络,由评估DQN和目标DQN分别生成Q′(Rl,al)和Q(Rl,al)。除了更新率之外,这两个DQN之间的另一个区别是,Target DQN直接遵循DQN的标准过程来选择动作,而评估DQN则以概率∈随机挑选动作。在做出行动选择后,两者都产生各自的估计语音和然后根据他们的PESQ之间的差异计算奖励,并以自我优化的方式更新DQN参数。请注意,图1集中于对特定帧的行动选择,而忽略了上下文窗口大小和块处理。下文描述训练细节和奖励设置。
用Q Learning策略挑选合适的帧级别的行为al如下式
其中⊙是哈达玛积。GMMSE-LSA(.)输入向量或者矩阵返回对应的向量和矩阵的每个频率点的MMSE-LSA增益,如式(6)。Y=[Yl-P,..,Yl,...,Yl+P]是含噪语音频谱,2P+1是上下文窗长的大小。是用DQN推断的先验信噪比矩阵,所以是推断的清晰语音频谱。是通过逆傅里叶变换(inverse short timeFourier transform,iSTFT)还原的清晰语音的时域波形,需要用于接下来奖励的计算。
奖励的设置很重要。为了对不同信噪比和不同噪声类型进行适当的奖励,需要对奖励的范围进行约束。评价网络和目标网络之间的相对PESQ值被用作奖励:
其中α>0是放缩参数。和是根据目标DQN和评价DQN的估计语音计算出的PESQ值。DQN分别计算的PESQ值。考虑到先验信噪比是随时间变化的,而且PESQ值不能在一帧内计算,因此需要对多帧计算随时间变化的奖励。在奖励计算中利用时间权重El∈[0,1],即
其中Q(Rl,al)是目标DQN估计的Q值,是评估DQN的期望的Q值。当(此时rl<0)时,目标DQN的最大Q值减去rl,奖励目标DQN挑选的信噪比行为比评估DQN的好。另外,为了给评估DQN的Q值设定一个上限,其输出层的激活函数为softmax。相应地,也将被归一化以满足
为了最小化公式(15),本发明使用RMSProp算法与标准的小批量随机梯度下降(Stochastic Gradient Descent,SGD)。
三、数据集和实验参数
本发明提出的方法命名为XiDQN,将其性能与Deep Xi-TCN方法进行比较。在实验中,清晰的语音语料包括TIMIT语音数据集(6289个语料)和Librispeech数据集的train-clean-100集(28539个语料)。噪声音频包括Nonspeech数据集、环境背景噪声数据集和MUSAN语料库的噪声部分。清晰的语音和噪声被分为训练集、验证集和测试集,比例分别为0.7、0.1和0.2。此外,白噪声被添加到训练集的噪声部分。所有的语音和噪声都统一为16kHz的采样率(采样频率高于16kHz的录音被降采样为16kHz)。噪声语音信号的生成规则如下:每个清晰的语音与一个随机选择的噪声信号混合,混合信噪比从-10dB到15dB,增量为1dB随机采样。
模板中的先验信噪比候选人的数量是32。如图5所示,框架中使用的DQN由两个完全连接的隐藏层组成,有66个单元和sigmoid激活函数。输出层的激活函数是softmax。公式(9)中的可调节比例参数被设置为20。上下文的半窗口大小P被设置为15。训练中使用了dropout技术以避免过拟合。STFT的帧大小为512,有256个样本的位移。贪婪参数∈从0.20到0.01线性变化。学习率采用1cycle学习率法设置,用于训练加速,在0.00001和0.0005之间增加,然后减少。
四、实验结果
图6显示了训练期间从目标DQN的估计语音中计算出的PESQ分数的变化。为了进行比较,还描述了从训练的Deep Xi-TCN计算出的固定平均PESQ分数。一个小批量的8个训练音频被用来迭代更新评估DQN,它的参数每更新20次会定期复制给目标DQN。从图6可以看出,PESQ得分随着迭代次数的增加而增加,并在大约160次迭代后超过了Deep Xi-TCN的得分。XiDQN在收敛后比Deep Xi-TCN有大约0.11的整体PESQ改善。需要注意的是,PESQ分数的收敛行为并不像Deep Xi的学习曲线那样平滑,因为PESQ是通过从训练数据集中随机选择的样本计算的。
在测试集上,除了PESQ之外,还使用STOI作为评估指标。表1列出了在-6dB、0dB、6dB和12dB信噪比条件下增强语音的PESQ和STOI(%)得分。可以看出XiDQN在STOI上的优势,尽管与PESQ的优势相比相形见绌。请注意,在低信噪比下,XiDQN方法比Deep Xi-TCN有更明显的改进,这表明当噪声能量相对较高时,XiDQN网络所做的动作选择会带来明显的增益。
表1测试集的PESQ和STOI(%)分数
图7显示了在0dB信噪比下处理过的语音的频谱图例子。通过比较其中的(c)和(d)图,可以看出所提出的XiDQN的改善。这两幅图中的左边2个虚线框显示了XiDQN更有效的噪声抑制,而右边的虚线框显示了XiDQN更清楚地保留了辅音音节。
Claims (5)
1.基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,其特征在于,该方法包括以下步骤:
步骤1,使用训练集中的清晰语音和噪声以随机信噪比合成模拟含噪语音,并对三者做短时傅里叶变换分别得到清晰语音短时傅里叶谱、噪声短时傅里叶谱和模拟含噪语音短时傅里叶谱;
步骤2,使用所述清晰语音短时傅里叶谱和模拟含噪语音短时傅里叶谱训练Deep Xi-TCN网络;
步骤3,利用所述清晰语音短时傅里叶谱幅度和噪声短时傅立叶谱幅度相除,并将其范围映射到[0,1],生成训练集的映射信噪比,然后通过K-means聚类生成有限个聚类中心,作为先验信噪比模板;
步骤4,利用所述先验信噪比模板给所述模拟含噪语音的每帧打标签,用以训练DQN网络初始化参数;
步骤5,正式训练阶段,通过所述DQN网络在帧层面挑选信噪比模板,信噪比模板为步骤2完成训练的Deep Xi-TCN网络推断的信噪比或者步骤3生成的先验信噪比模板;然后计算出与PESQ值相关的奖励,进行强化学习迭代,更新所述DQN网络参数;
步骤6,将测试集清晰语音和噪声合成的含噪语音短时傅里叶谱输入步骤5完成训练的DQN网络,并将得到的增强语音的短时傅里叶谱进行逆短时傅里叶变换,得到增强语音的时域信号。
2.根据权利要求1所述的基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,其特征在于,步骤2中,所述Deep Xi-TCN网络的输入数据首先经过一个全连接输入层,然后通过若干个残差块,再通过一个全连接输出层输出估计的映射信噪比;其中每个残差块包括三层激活函数为ReLU并且带层正则化的一维卷积网络,可实现时频域块的二维特征提取。
4.根据权利要求1所述的基于PESQ驱动的强化学习估计先验信噪比的语音增强方法,其特征在于,步骤5中存在两个具有不同更新速率的DQN网络:在每个迭代中更新的网络被称为评估DQN网络,而定期复制其参数的网络被称为目标DQN网络;利用双Q策略计算出与PESQ值相关的奖励,奖励设置如下:
评估DQN网络和目标DQN网络之间的相对PESQ值其中α>0是放缩参数,和是根据目标DQN网络和评估DQN网络的估计语音计算出的PESQ值;考虑到先验信噪比是随时间变化的,而且PESQ值不能在一帧内计算,因此需要对多帧计算随时间变化的奖励,在奖励计算中利用时间权重El∈[0,1],即
通过对比目前进行迭代的评估DQN网络的推断结果和滞后更新的目标DQN网络的推断结果,结果更好则网络的对应节点获得相应的奖励,反之则惩罚。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111516319.6A CN114141266A (zh) | 2021-12-08 | 2021-12-08 | 基于pesq驱动的强化学习估计先验信噪比的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111516319.6A CN114141266A (zh) | 2021-12-08 | 2021-12-08 | 基于pesq驱动的强化学习估计先验信噪比的语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114141266A true CN114141266A (zh) | 2022-03-04 |
Family
ID=80385769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111516319.6A Pending CN114141266A (zh) | 2021-12-08 | 2021-12-08 | 基于pesq驱动的强化学习估计先验信噪比的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114141266A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117174105A (zh) * | 2023-11-03 | 2023-12-05 | 深圳市龙芯威半导体科技有限公司 | 一种基于改进型深度卷积网络的语音降噪与去混响方法 |
-
2021
- 2021-12-08 CN CN202111516319.6A patent/CN114141266A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117174105A (zh) * | 2023-11-03 | 2023-12-05 | 深圳市龙芯威半导体科技有限公司 | 一种基于改进型深度卷积网络的语音降噪与去混响方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fu et al. | Metricgan+: An improved version of metricgan for speech enhancement | |
CN109859767B (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 | |
CN110390950B (zh) | 一种基于生成对抗网络的端到端语音增强方法 | |
Gao et al. | Densely connected progressive learning for lstm-based speech enhancement | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN107452389A (zh) | 一种通用的单声道实时降噪方法 | |
CN104157293B (zh) | 一种增强声环境中目标语音信号拾取的信号处理方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
Zhang et al. | Time-frequency attention for monaural speech enhancement | |
CN111968666A (zh) | 基于深度域自适应网络的助听器语音增强方法 | |
Wang et al. | A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation. | |
CN113936681A (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
Li et al. | Densely connected network with time-frequency dilated convolution for speech enhancement | |
CN110998723B (zh) | 使用神经网络的信号处理装置及信号处理方法、记录介质 | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
CN112331181A (zh) | 一种基于多说话人条件下目标说话人语音提取方法 | |
Lin et al. | Speech enhancement using forked generative adversarial networks with spectral subtraction | |
Ueda et al. | Single-channel dereverberation for distant-talking speech recognition by combining denoising autoencoder and temporal structure normalization | |
CN114141266A (zh) | 基于pesq驱动的强化学习估计先验信噪比的语音增强方法 | |
Yu et al. | A novel target decoupling framework based on waveform-spectrum fusion network for monaural speech enhancement | |
Zhou et al. | Speech denoising using Bayesian NMF with online base update | |
Elshamy et al. | DNN-based cepstral excitation manipulation for speech enhancement | |
Sivapatham et al. | Gammatone filter bank-deep neural network-based monaural speech enhancement for unseen conditions | |
CN116935879A (zh) | 一种基于深度学习的两阶段网络降噪和去混响方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |