CN109346097A - 一种基于Kullback-Leibler差异的语音增强方法 - Google Patents
一种基于Kullback-Leibler差异的语音增强方法 Download PDFInfo
- Publication number
- CN109346097A CN109346097A CN201811246250.8A CN201811246250A CN109346097A CN 109346097 A CN109346097 A CN 109346097A CN 201811246250 A CN201811246250 A CN 201811246250A CN 109346097 A CN109346097 A CN 109346097A
- Authority
- CN
- China
- Prior art keywords
- signal
- difference
- reconstruction
- atom
- decomposition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 32
- 230000009467 reduction Effects 0.000 claims abstract description 12
- 230000000694 effects Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 14
- 230000003044 adaptive effect Effects 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 2
- 238000009394 selective breeding Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 22
- 230000009466 transformation Effects 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 5
- 239000004568 cement Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000009131 signaling function Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于Kullback‑Leibler(KL)差异的语音增强方法并且确定该方法的最佳分解次数:具体是先将含噪语音信号做分帧处理,并对每一帧信号分别处理,利用KL差异原理选出最佳原子;根据这些原子构造出最佳有理正交基,并与权重系数组合得到重构信号;接着将N次分解得到的重构信号叠加得到最终降噪后的语音信号;最后,利用RMSE衰减差值作为代价函数确定最佳分解次数。本方法利用KL差异选择原则,自适应的选出最佳原子并构造基函数,极大的降低了人为选择参数导致不确定性的缺陷,在低信噪比时有更好的降噪性能。其次,根据代价函数确定最佳分解次数,有效降低了计算复杂度。该方法可广泛应用于语音降噪等领域。
Description
技术领域
本发明涉及一种基于Kullback-Leibler(KL)差异的语音增强方法,应用于无线电话通信、场景录音和军事窃听等技术领域。
背景技术
语音信号处理的目的是要得到某些语音特征参数以便高效的传输或存储,或者是通过某种处理运算可以达到某种用途的要求,例如人工语音合成、辨别出讲话者,讲话的内容等。语音增强是语音信号处理的一个重要方面。语音增强的一个主要目的是从混杂着噪声的语音信号中尽可能地提取出纯净的原始语音信号,然而,由于在通常情况下干扰都是随机的,从混杂着噪声的语音信号中提取出完全纯净的语音信号几乎是不可能的,尤其是在低信噪比的情况下更是十分困难。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受;二是,提高语音的可懂度,使说话人易于辨识。
近年来语音增强算法层出不穷,也得到了普遍的应用。这些方法主要是利用语音信号的某些特性,对其参数进行相关处理以达到消除噪声,逼近纯净语音信号的功能。现有已经提出来的语音增强方法主要包括:傅里叶变换及在其基础上衍生出来的短时傅里叶变换、小波变换。
传统的傅里叶变换去噪方法是将一个信号分离为无穷多正弦信号的叠加。它将含有噪声的语音信号从时域变换到频域,然后对频域信号进行相关处理,用滤波器将噪声信号的频率进行滤除,保留剩余成分,然后对其做傅里叶逆变换便得到降噪后的语音信号。但是傅里叶变换对信号的要求十分严格,通常它只能对线性平稳的信号有较好的处理效果,而语音信号一般都是非线性和非平稳的,因此得不到理想的降噪效果。
为了克服傅里叶变换不适合于非线性非稳定信号的缺点,衍生出了短时傅里叶变换的方法。短时傅里叶变换是常用的一种时频分析方法。它主要是通过对语音信号加上窗函数来使非平稳信号在一段时间内变的相对平稳,之后对加窗后的分段信号分别做傅里叶变换,方法同传统的傅里叶变换方法一致。在短时傅里叶变换过程中,窗的长度决定了频谱图的时间分辨率和频率分辨率,窗越长,截取的信号越长,傅里叶变换后频率分辨率越高,时间分辨率越差;相反,窗越短,截取的信号越短,变换后的频率分辨率越差,时间分辨率越好。测不准原理指出:不可能在时间和频率两个空间同时以任意精度逼近被测信号,因此在信号处理时必须对时间或频率精度进行取舍。所以,在短时傅里叶变换进行降噪过程中,频率分辨率和时间分辨率不能兼得。
小波变换在短时傅里叶变换的时间分辨率和频率分辨率不能兼得的情况下应运而生。小波变换在语音增强过程中的步骤主要分为:首先选择一个小波基函数并确定一个小波分解的层次N,并对信号进行N层小波分解计算;然后对第一层到第N层的每一层高频系数,选择一个阈值进行阈值量化处理;最后便是小波的重构,根据小波分解的第N层的低频系数和经过量化处理后的第一层到第N层的高频系数进行信号的小波重构。至此便可以得到增强后的语音信号。在该语音增强方法中,小波基函数、阈值选取和分解层数的选择都对信号的降噪效果有着十分重要的影响。不同的语音信号的最佳小波基函数也不尽相同,而找到适合的基函数在现实中也相对比较困难;另外,阈值是另一个影响降噪效果的因素,如果阈值选取过小则会造成信号中有用信息的丢失,而如果阈值选取过大则会依然保留噪声导致降噪效果不明显;其次,降噪的好坏还和分解层数的选择有密切的关系,分解层数过少时将不能得到最好的降噪效果,但是分解层数过多时则会增加计算量,信号处理变慢。在增强过程中,这些参数的选择通常都是根据经验来进行选择,这就增加了很多人为因素并且往往初次选择这些参数可能是不准确的。另外,该方法在低信噪比的情况下降噪性能并不理想,在这一方面还有待提高。
发明内容
针对现有技术的不足,本发明的目的是提出一种基于Kullback-Leibler差异的语音增强方法,并且确定该方法的最佳分解次数,该方法克服传统方法低信噪比情况下降噪性能差、参数过多依赖经验选择的缺点,显著的提高了低信噪比情况下的降噪性能,自适应的选择参数而不依赖人为因素,并选择出最佳分解次数,降低了计算量。
为了实现上述目的,本发明的构思是:
首先对含有噪声的语音信号进行分帧处理;然后对每一帧进行KL差异算法分析,利用KL差异选择原理选出最佳原子,并用该原子计算每次分解的有理正交基将其作为基函数;随后利用权重系数与基函数重构出纯净的语音信号;另外,利用代价函数来计算分解终止条件,得到最佳分解次数避免增加计算量。
具体是首先将含有噪声的语音信号进行分帧处理,每一帧的长度大约为20~30ms;再分别对每一帧作分析处理,然后在给定的原子选择区间内,利用KL差异选择原理使得KL值最小依次选出最佳的原子a1,a2,...ak。根据这些选出的最佳原子构造出此次分解的最佳有理正交基函数Bk,并与权重系数相组合得到此次分解的重构信号下一次分解的输入信号fk+1是由上一次分解得到的重构信号变换而来,所以该方法只需给定一个输入信号,其他参数(如权重系数、原子等)均是由该算法自适应的选择的,极大的避免了人为选择的不准确性。在完成第N次分解后将这N次分解重构得到的信号进行叠加便得到最终的纯净语音信号。
另外,该方法的分解收敛次数通过代价函数来确定。在每次分解后计算出信号的最小均方误差(RMSE),下一次分解时将本次的RMSE与上一次分解的RMSE作差值,当该差值大于0时则停止分解,则上一次分解的次数即为最佳的分解次数。本方法采用KL差异原理自适应的选择原子并能在低信噪比时得到更好的降噪性能,并自适应的选出最佳分解次数避免过多分解增加计算量,降低处理速度。
根据上述发明构思,本发明采用的技术方案是:
一种基于Kullback-Leibler差异的语音增强方法,包括以下步骤:
1)、对含有噪声的语音信号进行分帧,将每一帧信号看作稳态信号;
2)、对处理后的每一帧语音信号分别进行分析处理,利用KL差异选择原理依次选出最佳的原子a1,a2,...ak,用选出的最佳原子计算有理正交基函数Bk,然后用权重系数与该基函数组合得到增强后的重构信号;
3)、将N次分解后得到的重构信号叠加得到增强后的纯净语音信号;
4)、根据代价函数得到最佳分解次数。
本发明方法与现有技术相比,具有如下的优点:
本方法利用KL差异选择原则,自适应的选出最佳原子并构造基函数,极大的减少了人为选择参数导致不确定性的缺陷,在低信噪比时有更好的降噪性能。其次,根据代价函数确定最佳分解次数,有效的降低了计算复杂度,提高了信号的处理速度。该方法可广泛的应用于语音信号处理降噪等领域。
附图说明
图1为本发明一种基于Kullback-Leibler差异的语音增强方法的流程图。
图2为本发明的通过代价函数选出最佳分解次数的示意图。
具体实施方式
为了更好地理解本发明的技术方案,以下结合附图对本发明作进一步的详细描述:
本方法的流程参见图1,一种基于Kullback-Leibler差异的语音增强方法,利用KL差异选择原理在每一次分解中选出一个使得KL差异值最小的模小于1的原子,并通过选出的原子构建有理正交基函数,再由基函数与权重系数组合重构纯净的语音信号,完成语音增强。另外,根据代价函数选择最佳分解次数。具体实施步骤如下:
1)、对原始语音信号作分帧处理,得到每一帧的长度大约为20~30ms,将该区间内的信号看作稳态信号;
2)、根据KL差异选择原则选出最佳原子并重构每次分解后的信号,其具体如下:
对于含有噪声的原始语音信号f(t)可以表示为如下形式:
f(t)=s(t)+n(t), (1)
其中,s(t)为纯净语音信号,即需要重构得到的信号,n(t)为噪声信号,以下用f替代f(t)。
对于第一次分解,令f1=f,分解后得到重构信号可以表示为:
其中
为点ak的L2单位模化了的核,ak为模小于1的原子,表示内积,z为单位圆的边界,其模为1。R1为第二阶标准误差,可进一步写成:
根据公式(2)和(4),f2可表示为:
f2即作为第二次分解时的输入信号,并对f2重复上述分解过程得到重构信号:
以此类推,经过第k次分解后,重构信号可写为:
其中Bk(z)即为有理正交基函数,可表示为:
从公式(7)和(8)可以看出,该分解算法的核心是选取最佳的原子ak。在每一次分解中,我们利用KL差异选择原理来选取最佳原子,KL差异的定义为:
其中yi为原始信号,为重构信号,M为信号长度。KL差异是衡量两个信号之间相似程度的重要标准,从公式(9)可以看出DKL值越小,两个信号越相似,表明重构出的信号越逼近原始信号。所以,在每一次分解后求解重构信号与原始信号的KL差异值并寻找使得该值最小的原子,即:
其中C为可供选择原子的集合,即:
Δm是等间隔划分区间(-1,1)的步长。
至此,我们已经选取出了最佳的原子,之后便是利用这些最佳原子重构出增强后的信号。通常情况下,我们取公式(7)右边的前半部分作为重构信号,舍弃后半部分的标准误差,则每次分解后的重构信号可用如下形式表示:
3)、将N次分解后得到的重构信号叠加得到增强后的纯净语音信号,其过程具体如下:
基函数与权重系数组合得到的重构信号如公式(12)所示,权重系数即为接下来将N次分解后的重构信号叠加即得到最终增强后的纯净语音信号,其公式表示为:
4)、根据代价函数得到最佳分解次数,具体如下:
在步骤2)、3)过程中另一个关键因素就是分解次数的选择,次数过少会导致降噪效果不理想,次数过多又会导致过大的计算量。因此,我们用代价函数来确定最佳的分解次数。
均方根误差(RMSE)是观测值与真实值偏差的平方和观测次数比值的平方根,它能够很好的反映出测量的精密程度,其定义如下:
其中n为数据长度。
本发明利用每次分解的RMSE衰减差值作为代价函数确定最佳分解次数,即:
其中i表示分解次数。由公式(14)可以得出RMSE越小,信号重构越精确,所以当ΔRi小于0时,则表明重构越接近原始信号。因此,使信号持续分解直到ΔRi大于0则停止分解,此时的分解次数i即为最佳分解次数,此时得到的重构信号也是最纯净的语音信号。
Claims (5)
1.一种基于Kullback-Leibler差异的语音增强方法,其特征在于,包括以下步骤:
1)、对含有噪声的语音信号进行分帧,将每一帧信号看作稳态信号;
2)、对处理后的每一帧语音信号分别进行分析处理,利用KL差异选择原理依次选出最佳的原子a1,a2,...ak,用选出的最佳原子计算有理正交基函数Bk,然后用权重系数与该基函数组合得到增强后的重构信号;
3)、将N次分解后得到的重构信号叠加得到增强后的纯净语音信号;
4)、根据代价函数得到最佳分解次数。
2.根据权利要求1所述的基于Kullback-Leibler差异的语音增强方法,其特征在于,上述步骤1)中所述的对含有噪声的语音信号进行分帧,每一帧信号的长度为20~30ms,将该区间内的信号看作稳态信号。
3.根据权利要求1所述的基于Kullback-Leibler差异的语音增强方法,其特征在于,上述步骤2)中所述的根据KL差异选择原则选出最佳原子并重构每次分解的增强信号,具体步骤如下:
对于含有噪声的原始语音信号f(t)表示为如下形式:
f(t)=s(t)+n(t) (1)
其中,s(t)为纯净语音信号,即需要重构得到的信号,n(t)为噪声信号,以下用f替代f(t);
对于第一次分解,令f1=f,分解后得到重构信号表示为:
其中
为点ak的L2单位模化了的核,ak为模小于1的原子,表示内积,z为单位圆的边界,其模为1;R1为第二阶标准误差,进一步写成:
根据公式(2)和(4),f2表示为:
f2即作为第二次分解时的输入信号,并对f2重复上述分解过程得到重构信号:
以此类推,经过第k次分解后,重构信号写为:
其中Bk(z)即为有理正交基函数,表示为:
从公式(7)和(8)看出,该分解算法的核心是选取最佳的原子ak;在每一次分解中,利用KL差异选择原理来选取最佳原子,KL差异的定义为:
其中yi为原始信号,为重构信号,M为信号长度;KL差异是衡量两个信号之间相似程度的重要标准,从公式(9)看出DKL值越小,两个信号越相似,表明重构出的信号越逼近原始信号;所以,在每一次分解后求解重构信号与原始信号的KL差异值并寻找使得该值最小的原子,即:
其中C为能够选择原子的集合,即:
Δm是等间隔划分区间(-1,1)的步长;
至此,已经选取出了最佳的原子,之后利用这些最佳原子重构出增强后的信号;通常情况下,取公式(7)右边的前半部分作为重构信号,舍弃后半部分的标准误差,每次分解后的重构信号用如下形式表示:
4.根据权利要求1所述的基于Kullback-Leibler差异的语音增强方法,其特征在于,上述步骤3)中所述的将N次分解后得到的重构信号叠加得到增强后的纯净语音信号,具体如下:
基函数与权重系数组合得到的重构信号如公式(12)所示,权重系数即为接下来将N次分解后的重构信号叠加即得到最终增强后的纯净语音信号,其公式表示为:
5.根据权利要求1所述的基于Kullback-Leibler差异的语音增强方法,其特征在于,上述步骤4)中所述的根据代价函数得到最佳分解次数,其具体如下:
在步骤2)、3)中另一个关键因素就是分解次数的选择,次数过少会导致降噪效果不理想,次数过多又会导致过大的计算量;因此,用代价函数来确定最佳的分解次数;
均方根误差是观测值与真实值偏差的平方和观测次数比值的平方根,它能够很好的反映出测量的精密程度,其定义如下:
其中n为数据长度;
利用每次分解的RMSE衰减差值作为代价函数确定最佳分解次数,即:
其中i表示分解次数;由公式(14)得出RMSE越小,信号重构越精确,所以当ΔRi小于0时,则表明重构越接近原始信号;因此,使信号持续分解直到ΔRi大于0则停止分解,此时的分解次数i即为最佳分解次数,此时得到的重构信号也是最纯净的语音信号。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2018102968049 | 2018-03-30 | ||
CN201810296804 | 2018-03-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109346097A true CN109346097A (zh) | 2019-02-15 |
CN109346097B CN109346097B (zh) | 2023-07-14 |
Family
ID=65311569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811246250.8A Active CN109346097B (zh) | 2018-03-30 | 2018-10-25 | 一种基于Kullback-Leibler差异的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109346097B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001003113A1 (en) * | 1999-07-01 | 2001-01-11 | Koninklijke Philips Electronics N.V. | Robust speech processing from noisy speech models |
EP1339045A1 (en) * | 2002-02-25 | 2003-08-27 | Sony International (Europe) GmbH | Method for pre-processing speech |
FR2840087A1 (fr) * | 2002-05-22 | 2003-11-28 | Centre Nat Etd Spatiales | Depollution d'image numerique bruitee et comprimee |
EP1727072A1 (en) * | 2005-05-25 | 2006-11-29 | The Babraham Institute | Signal processing, transmission, data storage and representation |
US7478043B1 (en) * | 2002-06-05 | 2009-01-13 | Verizon Corporate Services Group, Inc. | Estimation of speech spectral parameters in the presence of noise |
US8234121B1 (en) * | 2007-08-10 | 2012-07-31 | Rockwell Collins, Inc. | Voice recognition system for an avionics system using unique words to encode specific frequencies |
WO2014079483A1 (en) * | 2012-11-21 | 2014-05-30 | Huawei Technologies Co., Ltd. | Method and device for reconstructing a target signal from a noisy input signal |
CN104200812A (zh) * | 2014-07-16 | 2014-12-10 | 电子科技大学 | 一种基于稀疏分解的音频噪声实时检测方法 |
CN104505100A (zh) * | 2015-01-06 | 2015-04-08 | 中国人民解放军理工大学 | 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法 |
WO2015173192A1 (en) * | 2014-05-15 | 2015-11-19 | Thomson Licensing | Method and system of on-the-fly audio source separation |
WO2016050725A1 (en) * | 2014-09-30 | 2016-04-07 | Thomson Licensing | Method and apparatus for speech enhancement based on source separation |
CN105489226A (zh) * | 2015-11-23 | 2016-04-13 | 湖北工业大学 | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 |
CN107301153A (zh) * | 2017-05-22 | 2017-10-27 | 上海大学 | 一种基于自适应傅里叶分解的头相关传输函数建模方法 |
-
2018
- 2018-10-25 CN CN201811246250.8A patent/CN109346097B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001003113A1 (en) * | 1999-07-01 | 2001-01-11 | Koninklijke Philips Electronics N.V. | Robust speech processing from noisy speech models |
EP1339045A1 (en) * | 2002-02-25 | 2003-08-27 | Sony International (Europe) GmbH | Method for pre-processing speech |
FR2840087A1 (fr) * | 2002-05-22 | 2003-11-28 | Centre Nat Etd Spatiales | Depollution d'image numerique bruitee et comprimee |
US7478043B1 (en) * | 2002-06-05 | 2009-01-13 | Verizon Corporate Services Group, Inc. | Estimation of speech spectral parameters in the presence of noise |
EP1727072A1 (en) * | 2005-05-25 | 2006-11-29 | The Babraham Institute | Signal processing, transmission, data storage and representation |
US8234121B1 (en) * | 2007-08-10 | 2012-07-31 | Rockwell Collins, Inc. | Voice recognition system for an avionics system using unique words to encode specific frequencies |
WO2014079483A1 (en) * | 2012-11-21 | 2014-05-30 | Huawei Technologies Co., Ltd. | Method and device for reconstructing a target signal from a noisy input signal |
WO2015173192A1 (en) * | 2014-05-15 | 2015-11-19 | Thomson Licensing | Method and system of on-the-fly audio source separation |
CN104200812A (zh) * | 2014-07-16 | 2014-12-10 | 电子科技大学 | 一种基于稀疏分解的音频噪声实时检测方法 |
WO2016050725A1 (en) * | 2014-09-30 | 2016-04-07 | Thomson Licensing | Method and apparatus for speech enhancement based on source separation |
CN104505100A (zh) * | 2015-01-06 | 2015-04-08 | 中国人民解放军理工大学 | 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法 |
CN105489226A (zh) * | 2015-11-23 | 2016-04-13 | 湖北工业大学 | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 |
CN107301153A (zh) * | 2017-05-22 | 2017-10-27 | 上海大学 | 一种基于自适应傅里叶分解的头相关传输函数建模方法 |
Non-Patent Citations (2)
Title |
---|
武明勤;于凤芹;韩;: "一种基于Chirp原子分解的语音增强方法", 微电子学与计算机, no. 12 * |
鲍长春等: "基于非负矩阵分解的语音增强方法综述", 《信号处理》, no. 06 * |
Also Published As
Publication number | Publication date |
---|---|
CN109346097B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107274908B (zh) | 基于新阈值函数的小波语音去噪方法 | |
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
EP2555190B1 (en) | Method, apparatus and computer program for suppressing noise | |
CN101425292B (zh) | 一种音频信号的解码方法及装置 | |
Xia et al. | Speech enhancement with weighted denoising auto-encoder. | |
EP3040991A1 (en) | Voice activation detection method and device | |
US20040064307A1 (en) | Noise reduction method and device | |
CN101083640A (zh) | 低复杂度的降噪方法 | |
CN110428849A (zh) | 一种基于生成对抗网络的语音增强方法 | |
KR20010102017A (ko) | 음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법 | |
Ren et al. | A Causal U-Net Based Neural Beamforming Network for Real-Time Multi-Channel Speech Enhancement. | |
CN109979476A (zh) | 一种语音去混响的方法及装置 | |
Daqrouq et al. | An investigation of speech enhancement using wavelet filtering method | |
CN113823308B (zh) | 一种使用单个带噪语音样本进行语音去噪的方法 | |
CN106383107A (zh) | 一种基于平滑滤波联合vs‑lms的光谱信号降噪方法 | |
Ambikairajah et al. | Wavelet transform-based speech enhancement | |
CN111582205B (zh) | 一种基于多分辨率奇异值分解模型的降噪方法 | |
CN108280416A (zh) | 一种小波跨尺度相关滤波的宽带水声信号处理方法 | |
CN109346097A (zh) | 一种基于Kullback-Leibler差异的语音增强方法 | |
Li et al. | Noisy speech enhancement based on discrete sine transform | |
Chang et al. | Speech enhancement using warped discrete cosine transform | |
Gui et al. | Adaptive subband Wiener filtering for speech enhancement using critical-band gammatone filterbank | |
Sulong et al. | Speech enhancement based on wiener filter and compressive sensing | |
CN113066483A (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |