CN112289337A - 一种滤除机器学习语音增强后的残留噪声的方法及装置 - Google Patents
一种滤除机器学习语音增强后的残留噪声的方法及装置 Download PDFInfo
- Publication number
- CN112289337A CN112289337A CN202011207590.7A CN202011207590A CN112289337A CN 112289337 A CN112289337 A CN 112289337A CN 202011207590 A CN202011207590 A CN 202011207590A CN 112289337 A CN112289337 A CN 112289337A
- Authority
- CN
- China
- Prior art keywords
- signal
- noise
- speech signal
- original
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000001914 filtration Methods 0.000 title claims abstract description 44
- 238000010801 machine learning Methods 0.000 title claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims abstract description 78
- 230000006870 function Effects 0.000 claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 claims abstract description 34
- 230000002708 enhancing effect Effects 0.000 claims abstract description 16
- 230000009467 reduction Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请实施例公开了一种滤除机器学习语音增强后的残留噪声的方法及装置,方法包括:根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率;根据所述后验存在概率,确定第一语音信号中的残留噪声信号的功率谱;其中,所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到;根据所述残留噪声信号的功率谱,确定所述第一语音信号的增益函数;根据所述增益函数,滤除所述第一语音信号中的残留噪声信号。本申请实施例通过更加准确地估计干净语音信号的后验存在概率,从而更为准确地估计残留噪声信号的功率谱,因此能够更有效地滤除残留噪声信号。
Description
技术领域
本申请涉及机器学习语音增强领域。尤其涉及一种滤除机器学习语音增强后的残留噪声的方法及装置。
背景技术
随着互联网及人工智能技术的发展,数字语音通信设备吗,例如,耳机、移动手机、助听器等设备得到了人们越来越多的使用和关注。然而这些设备的应用场景通常包含各类环境噪声,会严重影响语音通话质量及人机语音交互性能。这些噪声可大致分为平稳噪声和非平稳噪声。平稳噪声包括空调噪声、马路噪声等,非平稳噪声包括风噪、类语音噪声、鸣笛噪声等。语音增强算法的目的是降低各类环境噪声并尽可能地保护目标语音的质量及可懂度。
传统语音增强方法大多采用增益函数进行语音增强。对这类语音增强方法而言,纯净语音功率谱(Power Spectral Density,PSD)以及噪声功率谱的估计是计算增益函数的必要条件。其中,由于噪声的种类较多,对噪声功率谱的估计一直以来都是该领域研究的重点与难点。目前较典型的噪声功率谱估计方法包括最小统计(Minimum Statistics,MS)方法,基于语音存在概率(Speech Presence Probability,SPP)的噪声功率谱估计方法以及基于最小均方误差(Minimum Mean-Square Error,MMSE)的噪声功率谱估计方法等。尽管现存的噪声功率谱估计方法对非平稳噪声具有快速的跟踪性能,但在噪声的非平稳性较高时,仍然存在较大的跟踪延迟,造成噪声谱估计误差,最终影响语音增强的效果。
近年来,基于机器学习的语音增强算法是该领域研究的热点。该类算法基于数据驱动,将大量带噪语音信号数据作为深度神经网络的输入,即可通过训练的模型,获得增强信号或增益函数。但上述基于机器学习的语音增强算法存在一个缺陷,即恢复的语音存在大量的非平稳残留噪声,影响语音听感。
发明内容
由于现有方法存在上述问题,本申请实施例提出一种滤除机器学习语音增强后的残留噪声的方法及装置。
第一方面,本申请实施例提出一种滤除机器学习语音增强后的残留噪声的方法,包括:
根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率;
根据所述后验存在概率,确定第一语音信号中的残留噪声信号的功率谱;其中,所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到;
根据所述残留噪声信号的功率谱,确定所述第一语音信号的增益函数;
根据所述增益函数,滤除所述第一语音信号中的残留噪声信号。
在一种可能的实现中,所述根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率,包括:
根据所述原始带噪语音信号和所述第一语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率。
在一种可能的实现中,所述根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率,包括:
根据所述干净语音信号的第一先验不存在概率、所述干净语音信号的第一先验存在概率、所述原始带噪语音信号中原始噪声信号的功率谱、所述原始带噪语音信号的第一先验信噪比和原始带噪语音信号,确定所述干净语音信号的后验存在概率;其中,所述第一先验信噪比为先验知识未知时,所述干净语音信号功率与所述原始带噪语音信号中原始噪声信号功率的比值。
在一种可能的实现中,所述根据所述原始带噪语音信号和所述第一语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率,包括:
根据所述神经网络,确定所述原始带噪语音信号的谱增益函数;
根据所述谱增益函数,确定后验信噪比;其中,所述后验信噪比为原始带噪语音信号功率与经过神经网络去除掉的噪声信号功率的比值;
根据所述干净语音信号的第二先验不存在概率、所述干净语音信号的第二先验存在概率、所述原始带噪语音信号的第二先验信噪比和所述后验信噪比,确定所述干净语音信号的后验存在概率;其中,所述第二先验信噪比为先验知识未知时,所述第一语音信号功率与经过神经网络去除掉的噪声信号功率的比值。
在一种可能的实现中,根据所述残留噪声信号的功率谱,确定所述第一语音信号的增益函数,包括:
根据所述残留噪声信号的功率谱,利用决策导向Decision-Directed算法,确定所述第一语音信号的第三先验信噪比;其中,所述第三先验信噪比为先验知识未知时,所述第一语音信号中的纯净语音信号功率与残留噪声信号功率的比值;
根据所述第三先验信噪比和预设先验信噪比,确定所述增益函数。
在一种可能的实现中,所述根据所述增益函数,滤除所述第一语音信号中的残留噪声信号,包括:
将所述增益函数的频谱与所述第一语音信号的频谱相乘,获得降噪信号的频谱;
根据所述降噪信号的频谱,确定降噪信号。
第二方面,本申请实施例提出一种滤除机器学习语音增强后的残留噪声的装置,包括:
确定模块和滤除模块;
所述确定模块,根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率;
所述确定模块,还用于根据所述后验存在概率和第一语音信号,确定残留噪声信号的功率谱;其中,所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到,所述第一语音信号包括残留噪声信号;
所述确定模块,还用于根据所述残留噪声信号的功率谱,确定所述第一语音信号的增益函数;
所述滤除模块,用于根据所述增益函数,滤除所述第一语音信号中的残留噪声信号。
第三方面,本申请实施例还提出一种滤除机器学习语音增强后的残留噪声的装置,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行:
根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率;
根据所述后验存在概率,确定第一语音信号中的残留噪声信号的功率谱;其中,所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到;
根据所述残留噪声信号的功率谱,确定所述第一语音信号的增益函数;
根据所述增益函数,滤除所述第一语音信号中的残留噪声信号。
第四方面,本申请实施例还提出一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下步骤:
根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率;
根据所述后验存在概率,确定第一语音信号中的残留噪声信号的功率谱;其中,所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到;
根据所述残留噪声信号的功率谱,确定所述第一语音信号的增益函数;
根据所述增益函数,滤除所述第一语音信号中的残留噪声信号。
由上述技术方案可知,本申请实施例通过原始带噪语音信号或者通过原始带噪语音信号和通过神经网络对所述原始带噪语音信号进行增强后的第一语音信号可以更加准确地估计干净语音信号的后验存在概率,从而更为准确地估计残留噪声信号的功率谱,因此能够更有效地去除残留噪声信号,显著提高了语音质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的方法的流程示意图;
图2为本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的方法的另一流程示意图;
图3为本申请实施例提供的DARCN语音增强后的残留噪声信号在800Hz处的功率谱,以及采用传统噪声功率谱估计方法估计的残留噪声信号的功率谱和本申请提出的两种方法估计的残留噪声信号的功率谱;
图4为本申请实施例提供的DARCN语音增强前后的语音语谱图,以及采用传统后滤波方案和本申请提出的两种方法处理后的语音语谱图;
图5为本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的方法的又一流程示意图;
图6为本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本申请的技术方案,而不能以此来限制本申请的保护范围。
需要说明的是,本申请实施例的说明书和权利要求书中的术语“第一”、“第二”和“第三”是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一先验信噪比、第二先验信噪比和第三先验信噪比是用于区别不同的先验信噪比,而不是用于描述目标对象的特定顺序。
基于机器学习的语音增强算法将大量带噪语音信号数据输入深度神经网络,即可通过训练的模型,获得增强信号或增益函数。典型的机器学习神经网络包括前馈多层感知网络,即全连接(Fully-Connected,FC)模型、循环神经网络(Recurrent Neural Network,RNN)模型、卷积神经网络(Convolutional Neural Networks,CNN)模型、以及生成对抗式网络(Generative Adversarial Networks,GAN)模型等。其中,长短期记忆(Long Short-TermMemory,LSTM)网络是RNN模型中应用最为广泛的一种模型,具有较强的泛化能力,但该模型参数量较大。相比之下,CNN模型由于共享卷积核的机制,参数量较小,适用于具有低功耗低延迟要求的便携式产品。目前基于卷积编解码(Convolutional Encoder-Decoder,CED)结构的神经网络是较为热门的一类CNN模型,包括卷积循环神经网络(ConvolutionalRecurrent Neural Networks,CRN)、门残差神经网络(Gated Residual Networks,GRN)、密集连接式神经网络(Densely Connected Networks,DCN)和动态注意力机制卷积循环神经网络(Dynamic Attention Recurrent Convolutional Networks,DARCN)等。但通过上述神经网络恢复的语音存在大量的非平稳残留噪声,影响语音听感。
在一个可能的实施例中,假设原始带噪语音信号为x(n)=s(n)+d(n),其中,n为离散时间采样点,s(n)为干净语音信号,d(n)为原始噪声信号。经过短时傅里叶变换后,原始带噪语音信号的频谱可以表示为:
X(k,l)=S(k,l)+D(k,l) (1)
其中,k和l表示第k个频点和第l帧。假设用函数表示深度神经网络(DeepNeural Networks,DNN)单通道语音增强处理过程,则经过DNN增强后的语音信号,即第一语音信号(第一语音信号包括残留噪声信号),可以表示为:
图1示出了本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的方法的流程示意图。在该流程示意图中,首先通过原始带噪语音信号估计干净语音信号的后验存在概率(即下文中的第一种方法),再结合DNN增强后语音信号估计残留噪声信号的功率谱,从而计算基于决策导向(Decision-Directed,DD)算法的增益函数,最终将该增益函数应用到DNN增强后语音信号,获得降噪信号频谱Z(k,l)。
图2示出了本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的方法的另一流程示意图。在该流程示意图中,首先通过原始带噪语音信号和DNN增强后语音信号估计干净语音信号的后验存在概率(即下文中的第二种方法),再根据上述后验存在概率估计残留噪声信号的功率谱,从而计算基于DD算法的增益函数,最终将该增益函数应用到DNN增强后语音信号,获得降噪信号频谱Z(k,l)。
接下来,详细介绍估计干净语音信号的后验存在概率的方法。
第一种方法:根据原始带噪语音信号X(k,l)估计原始带噪语音信号中干净语音信号的后验存在概率。
针对原始带噪语音信号X(k,l),根据干净语音信号在第k个频点第l帧是否存在定义两个假设,分别表示干净语音信号不存在的假设:
Η0(k,l):X(k,l)=D(k,l)
(3)
Η1(k,l):X(k,l)=S(k,l)+D(k,l)
根据最大似然准则以及贝叶斯原理,可以得到干净语音信号的后验存在概率:
其中,P(Η0)和P(Η1)分别表示干净语音信号的第一先验不存在概率和干净语音信号的第一先验存在概率,在先验知识未知时,令P(Η0)=P(Η1)=0.5。为原始带噪语音信号的第一先验信噪比,上述第一先验信噪比为先验知识未知时,干净语音信号S(k,l)功率与原始带噪语音信号中原始噪声信号D(k,l)功率的比值,令 为估计的原始噪声信号的功率谱。利用公式(4)中的干净语音信号的后验存在概率和第一语音信号,即可估计第一语音信号的残留噪声周期图:
其中,α为平滑因子,令α=0.8。
第二种方法:根据原始带噪语音信号X(k,l)和第一语音信号(即DNN增强后的语音信号Y(k,l))估计干净语音信号的后验存在概率。
根据干净语音信号在第k个频点第l帧是否存在重新定义两个假设,分别表示干净语音信号不存在的假设:
其中,V(k,l)表示经过DNN去除掉的噪声信号。假设第一语音信号与去除掉的噪声信号不相关,则可以将DNN模块作为谱增益函数M(k,l),其表达式为:
其中,γ(k,l)=|X(k,l)|2/|V(k,l)|2为后验信噪比。通过公式(8)计算该后验信噪比为:
根据后验信噪比可以计算出干净语音信号的后验存在概率为:
其中,P(Η'0)和P(Η'1)分别表示干净语音信号先验不存在概率和干净语音信号先验存在概率,在先验知识未知时,另P(Η'0)=P(Η'1)=0.5。为原始带噪语音信号的第二先验信噪比,上述第二先验信噪比为先验知识未知时,第一语音信号Y(k,l)功率与经过神经网络去除掉的噪声信号V(k,l)功率的比值,令将由公式(10)得到的P(Η'1|X)代入公式(5)和(6),即根据后验存在概率和第一语音信号获得残留噪声信号的功率谱,其中,公式(5)中的P(Η1|X)=P(Η'1|X)。
在本申请实施例中,利用上述两种方法估计出残留噪声信号的功率谱后,利用DD算法,根据残留噪声信号的功率谱,估计第一语音信号的第三先验信噪比上述第三先验信噪比为第一语音信号Y(k,l)中的纯净语音信号功率和残留噪声信号功率的比值,具体地,
其中,αDD为第一平滑因子,取值为0.9。然后,根据第三先验信噪比和预设先验信噪比确定增益函数,具体地,
其中,ξmin为预设先验信噪比,在本申请实施例中,预设先验信噪比为最小先验信噪比,令ξmin=0.1。将增益函数GDD(k,l)应用在第一语音信号上,即将增益函数GDD(k,l)的频谱与第一语音信号的频谱相乘,可获得最终的降噪信号频谱Z(k,l)。通过逆傅里叶变换和重叠相加法,可获得最终的降噪信号z(n)。
图3为本申请实施例提供的DARCN语音增强后的残留噪声信号在800Hz处的功率谱,以及采用传统噪声功率谱估计方法估计的残留噪声信号的功率谱和本申请提出的两种方法估计的残留噪声信号的功率谱。其中,图3(a)的噪声类型为NOISEX-92数据库中的f16噪声,信噪比为-5dB;图3(b)的噪声类型为白噪声,信噪比为0dB;图3(c)的噪声类型为NOISEX-92数据库中的f16噪声,信噪比为5dB;图3(d)的噪声类型为白噪声,信噪比为10dB。由图3可以看出,经过DARCN处理后的语音信号存在高度非平稳态残留噪声信号。若采用传统的噪声功率估计方法进行估计,跟踪速度缓慢,造成残留噪声信号被严重低估。若采用本申请提出的方案进行估计,可以较快速地跟踪残留噪声信号的功率谱,估计的准确性明显提升。
图4为本申请实施例提供的DARCN语音增强前后的语音语谱图,以及采用传统后滤波方案和本申请提出的两种方法处理后的语音语谱图。其中,图4(a)为干净语音信号S(k,l)的语谱图;图4(b)为原始带噪语音信号X(k,l)的语谱图,噪声为NOISEX-92数据库中的f16噪声,信噪比为0dB;图4(c)为DARCN增强后的语音Y(k,l)的语谱图;图4(d)为针对图4(c)的语音采用传统后滤波方案处理后的语谱图;图4(e)为针对图4(c)的语音采用本申请提出的第一种方法处理后的语谱图;图4(f)为针对图4(c)的语音采用本申请提出的第二种方法处理后的语谱图。对比图4(b)和图4(c)可以看出,经过DARCN语音增强处理后的语音噪声明显降低了,但是仍有残留噪声信号。从图4(d)中可以看出,经过传统后滤波方案处理后的语音信号,残留噪声信号仍然存在。从图4(e)和图4(f)可以看出,本申请提出的两种方法能够明显降低残留噪声信号,两者语谱结构相对于图4(d)更为清晰。
显然,本申请提出的两种方法相对于传统后滤波方案可以更加准确地估计干净语音信号的后验存在概率,从而更为准确地估计残留噪声信号的功率谱,因此能够更有效地去除残留噪声信号,显著提高了语音质量。
图5为本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的方法的又一流程示意图,该流程示意图包括:S501—S504,具体包括:
S501,根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率。
在本申请实施例中,可以通过两种方法,确定原始带噪语音信号中干净语音信号的后验存在概率。其中一种方法是根据原始带噪语音信号,确定原始带噪语音信号中干净语音信号的后验存在概率;另一种方法是根据原始带噪语音信号和通过神经网络对所述原始带噪语音信号进行增强后的第一语音信号,确定原始带噪语音信号中干净语音信号的后验存在概率。第一种方法具体为,根据干净语音信号的第一先验不存在概率、干净语音信号的第一先验存在概率、原始带噪语音信号中原始噪声信号的功率谱、原始带噪语音信号的第一先验信噪比和原始带噪语音信号,确定干净语音信号的后验存在概率;其中,第一先验信噪比为先验知识未知时,干净语音信号功率与原始带噪语音信号中原始噪声信号功率的比值。第二种方法具体为,根据神经网络,确定原始带噪语音信号的谱增益函数;根据谱增益函数,确定后验信噪比;其中,后验信噪比为原始带噪语音信号功率与经过神经网络去除掉的噪声信号功率的比值;根据干净语音信号的第二先验不存在概率、干净语音信号的第二先验存在概率、原始带噪语音信号的第二先验信噪比和后验信噪比,确定干净语音信号的后验存在概率;其中,第二先验信噪比为先验知识未知时,第一语音信号功率与经过神经网络去除掉的噪声信号功率的比值。
S502,根据所述后验存在概率,确定第一语音信号中的残留噪声信号的功率谱;其中,所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到。
S503,根据所述残留噪声信号的功率谱,确定所述第一语音信号的增益函数。
在本申请实施例中,首先,根据残留噪声信号的功率谱,利用决策导向Decision-Directed算法,确定第一语音信号的第三先验信噪比;其中,第三先验信噪比为先验知识未知时,第一语音信号中的纯净语音信号功率与残留噪声信号功率的比值;然后根据第三先验信噪比和预设先验信噪比,确定增益函数。
S504,根据所述增益函数,滤除所述第一语音信号中的残留噪声信号。
在本申请实施例中,将增益函数的频谱与残留噪声信号的频谱相乘,获得降噪信号的频谱;根据降噪信号的频谱,确定降噪信号。
图6为本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的装置的结构示意图,该结构示意图包括:确定模块601和滤除模块602;
所述确定模块601,用于根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率;
所述确定模块601,还用于根据所述后验存在概率,确定第一语音信号中的残留噪声信号的功率谱;其中,所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到;
所述确定模块601,还用于根据所述残留噪声信号的功率谱,确定第一语音信号的增益函数;
所述滤除模块602,用于根据所述增益函数,滤除所述第一语音信号中的残留噪声信号。
本申请实施例提供一种滤除机器学习语音增强后的残留噪声的装置,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行:
根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率;根据所述后验存在概率,确定第一语音信号中的残留噪声信号的功率谱;其中,所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到;根据所述残留噪声信号的功率谱,确定所述第一语音信号的增益函数;根据所述增益函数,滤除所述第一语音信号中的残留噪声信号。
本申请实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下步骤:
根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率;根据所述后验存在概率,确定第一语音信号中的残留噪声信号的功率谱;其中,所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到;根据所述残留噪声信号的功率谱,确定所述第一语音信号的增益函数;根据所述增益函数,滤除所述第一语音信号中的残留噪声信号。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种滤除机器学习语音增强后的残留噪声的方法,其特征在于,包括:
根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率;
根据所述后验存在概率,确定第一语音信号中的残留噪声信号的功率谱;其中,所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到;
根据所述残留噪声信号的功率谱,确定所述第一语音信号的增益函数;
根据所述增益函数,滤除所述第一语音信号中的残留噪声信号。
2.根据权利要求1所述的方法,其特征在于,所述根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率,包括:
根据所述原始带噪语音信号和所述第一语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率。
3.根据权利要求1或2所述的方法,其特征在于,所述根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率,包括:
根据所述干净语音信号的第一先验不存在概率、所述干净语音信号的第一先验存在概率、所述原始带噪语音信号中原始噪声信号的功率谱、所述原始带噪语音信号的第一先验信噪比和原始带噪语音信号,确定所述干净语音信号的后验存在概率;其中,所述第一先验信噪比为先验知识未知时,所述干净语音信号功率与所述原始带噪语音信号中原始噪声信号功率的比值。
4.根据权利要求2所述的方法,其特征在于,所述根据所述原始带噪语音信号和所述第一语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率,包括:
根据所述神经网络,确定所述原始带噪语音信号的谱增益函数;
根据所述谱增益函数,确定后验信噪比;其中,所述后验信噪比为原始带噪语音信号功率与经过神经网络去除掉的噪声信号功率的比值;
根据所述干净语音信号的第二先验不存在概率、所述干净语音信号的第二先验存在概率、所述原始带噪语音信号的第二先验信噪比和所述后验信噪比,确定所述干净语音信号的后验存在概率;其中,所述第二先验信噪比为先验知识未知时,所述第一语音信号功率与经过神经网络去除掉的噪声信号功率的比值。
5.根据权利要求1所述的方法,其特征在于,根据所述残留噪声信号的功率谱,确定所述第一语音信号的增益函数,包括:
根据所述残留噪声信号的功率谱,利用决策导向Decision-Directed算法,确定所述第一语音信号的第三先验信噪比;其中,所述第三先验信噪比为先验知识未知时,所述第一语音信号中的纯净语音信号功率与残留噪声信号功率的比值;
根据所述第三先验信噪比和预设先验信噪比,确定所述增益函数。
6.根据权利要求1所述的方法,其特征在于,所述根据所述增益函数,滤除所述第一语音信号中的残留噪声信号,包括:
将所述增益函数的频谱与所述第一语音信号的频谱相乘,获得降噪信号的频谱;
根据所述降噪信号的频谱,确定降噪信号。
7.一种滤除机器学习语音增强后的残留噪声的装置,其特征在于,包括:
确定模块和滤除模块;
所述确定模块,用于根据原始带噪语音信号,确定所述原始带噪语音信号中干净语音信号的后验存在概率;
所述确定模块,还用于根据所述后验存在概率,确定第一语音信号中的残留噪声信号的功率谱;其中,所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到;
所述确定模块,还用于根据所述残留噪声信号的功率谱,确定所述第一语音信号的增益函数;
所述滤除模块,用于根据所述增益函数,滤除所述第一语音信号中的残留噪声信号。
8.一种滤除机器学习语音增强后的残留噪声的装置,其特征在于,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行:
如权利要求1-6任一项所述的滤除机器学习语音增强后的残留噪声的方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一所述的滤除机器学习语音增强后的残留噪声的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011207590.7A CN112289337B (zh) | 2020-11-03 | 2020-11-03 | 一种滤除机器学习语音增强后的残留噪声的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011207590.7A CN112289337B (zh) | 2020-11-03 | 2020-11-03 | 一种滤除机器学习语音增强后的残留噪声的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112289337A true CN112289337A (zh) | 2021-01-29 |
CN112289337B CN112289337B (zh) | 2023-09-01 |
Family
ID=74350416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011207590.7A Active CN112289337B (zh) | 2020-11-03 | 2020-11-03 | 一种滤除机器学习语音增强后的残留噪声的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112289337B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992121A (zh) * | 2021-03-01 | 2021-06-18 | 德鲁动力科技(成都)有限公司 | 基于注意力残差学习的语音增强方法 |
CN113345460A (zh) * | 2021-08-05 | 2021-09-03 | 北京世纪好未来教育科技有限公司 | 音频信号处理方法、装置、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1763846A (zh) * | 2005-11-23 | 2006-04-26 | 北京中星微电子有限公司 | 一种语音增益因子估计装置和方法 |
WO2006114101A1 (en) * | 2005-04-26 | 2006-11-02 | Aalborg Universitet | Detection of speech present in a noisy signal and speech enhancement making use thereof |
CN103531204A (zh) * | 2013-10-11 | 2014-01-22 | 深港产学研基地 | 语音增强方法 |
CN103559887A (zh) * | 2013-11-04 | 2014-02-05 | 深港产学研基地 | 用于语音增强系统的背景噪声估计方法 |
CN108735213A (zh) * | 2018-05-29 | 2018-11-02 | 太原理工大学 | 一种基于相位补偿的语音增强方法及系统 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN109767781A (zh) * | 2019-03-06 | 2019-05-17 | 哈尔滨工业大学(深圳) | 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质 |
CN109767783A (zh) * | 2019-02-15 | 2019-05-17 | 深圳市汇顶科技股份有限公司 | 语音增强方法、装置、设备及存储介质 |
CN109817234A (zh) * | 2019-03-06 | 2019-05-28 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
CN110634500A (zh) * | 2019-10-14 | 2019-12-31 | 达闼科技成都有限公司 | 一种先验信噪比的计算方法、电子设备及存储介质 |
CN110767244A (zh) * | 2018-07-25 | 2020-02-07 | 中国科学技术大学 | 语音增强方法 |
CN111445919A (zh) * | 2020-03-13 | 2020-07-24 | 紫光展锐(重庆)科技有限公司 | 结合ai模型的语音增强方法、系统、电子设备和介质 |
-
2020
- 2020-11-03 CN CN202011207590.7A patent/CN112289337B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006114101A1 (en) * | 2005-04-26 | 2006-11-02 | Aalborg Universitet | Detection of speech present in a noisy signal and speech enhancement making use thereof |
CN1763846A (zh) * | 2005-11-23 | 2006-04-26 | 北京中星微电子有限公司 | 一种语音增益因子估计装置和方法 |
CN103531204A (zh) * | 2013-10-11 | 2014-01-22 | 深港产学研基地 | 语音增强方法 |
CN103559887A (zh) * | 2013-11-04 | 2014-02-05 | 深港产学研基地 | 用于语音增强系统的背景噪声估计方法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
CN108735213A (zh) * | 2018-05-29 | 2018-11-02 | 太原理工大学 | 一种基于相位补偿的语音增强方法及系统 |
CN110767244A (zh) * | 2018-07-25 | 2020-02-07 | 中国科学技术大学 | 语音增强方法 |
CN109767783A (zh) * | 2019-02-15 | 2019-05-17 | 深圳市汇顶科技股份有限公司 | 语音增强方法、装置、设备及存储介质 |
US20200265857A1 (en) * | 2019-02-15 | 2020-08-20 | Shenzhen GOODIX Technology Co., Ltd. | Speech enhancement method and apparatus, device and storage mediem |
CN109767781A (zh) * | 2019-03-06 | 2019-05-17 | 哈尔滨工业大学(深圳) | 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质 |
CN109817234A (zh) * | 2019-03-06 | 2019-05-28 | 哈尔滨工业大学(深圳) | 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质 |
CN110634500A (zh) * | 2019-10-14 | 2019-12-31 | 达闼科技成都有限公司 | 一种先验信噪比的计算方法、电子设备及存储介质 |
CN111445919A (zh) * | 2020-03-13 | 2020-07-24 | 紫光展锐(重庆)科技有限公司 | 结合ai模型的语音增强方法、系统、电子设备和介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992121A (zh) * | 2021-03-01 | 2021-06-18 | 德鲁动力科技(成都)有限公司 | 基于注意力残差学习的语音增强方法 |
CN113345460A (zh) * | 2021-08-05 | 2021-09-03 | 北京世纪好未来教育科技有限公司 | 音频信号处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112289337B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN111899752B (zh) | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 | |
CN110634497B (zh) | 降噪方法、装置、终端设备及存储介质 | |
US12073828B2 (en) | Method and apparatus for speech source separation based on a convolutional neural network | |
CN110379412B (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
JP4861645B2 (ja) | スピーチノイズサプレッサ、スピーチノイズ抑圧方法、および、スピーチ信号におけるノイズ抑圧方法 | |
CN103456310B (zh) | 一种基于谱估计的瞬态噪声抑制方法 | |
CN111418010A (zh) | 一种多麦克风降噪方法、装置及终端设备 | |
CN112581973B (zh) | 一种语音增强方法及系统 | |
CN105280193B (zh) | 基于mmse误差准则的先验信噪比估计方法 | |
JPH08221094A (ja) | 音声信号の雑音低減方法及び装置 | |
KR101877127B1 (ko) | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 | |
CN112289337B (zh) | 一种滤除机器学习语音增强后的残留噪声的方法及装置 | |
CN112602150B (zh) | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 | |
WO2022218254A1 (zh) | 语音信号增强方法、装置及电子设备 | |
CN112309417A (zh) | 风噪抑制的音频信号处理方法、装置、系统和可读介质 | |
CN111341351B (zh) | 基于自注意力机制的语音活动检测方法、装置及存储介质 | |
US9172791B1 (en) | Noise estimation algorithm for non-stationary environments | |
EP2774147B1 (en) | Audio signal noise attenuation | |
CN112201269B (zh) | 基于改进噪声估计的mmse-lsa语音增强方法 | |
WO2024017110A1 (zh) | 语音降噪方法、模型训练方法、装置、设备、介质及产品 | |
CN115440240A (zh) | 语音降噪的训练方法、语音降噪系统及语音降噪方法 | |
CN112652321B (zh) | 一种基于深度学习相位更加友好的语音降噪系统及方法 | |
CN110648681B (zh) | 语音增强的方法、装置、电子设备及计算机可读存储介质 | |
CN113611319A (zh) | 基于语音成分实现的风噪抑制方法、装置、设备及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |