CN113808608B - 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置 - Google Patents

一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置 Download PDF

Info

Publication number
CN113808608B
CN113808608B CN202111093818.9A CN202111093818A CN113808608B CN 113808608 B CN113808608 B CN 113808608B CN 202111093818 A CN202111093818 A CN 202111093818A CN 113808608 B CN113808608 B CN 113808608B
Authority
CN
China
Prior art keywords
spectral density
power spectral
noise
time
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111093818.9A
Other languages
English (en)
Other versions
CN113808608A (zh
Inventor
何平
蒋升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suirui Technology Group Co Ltd
Original Assignee
Suirui Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suirui Technology Group Co Ltd filed Critical Suirui Technology Group Co Ltd
Priority to CN202111093818.9A priority Critical patent/CN113808608B/zh
Publication of CN113808608A publication Critical patent/CN113808608A/zh
Application granted granted Critical
Publication of CN113808608B publication Critical patent/CN113808608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置,属于信息处理的领域,该方法包括以下步骤:S1:对麦克风的时域信号进行短时傅里叶变换得到时频域表达;S2:进行噪音信号功率谱密度估计,其具体包括:噪音功率谱密度初估计、平稳噪音功率谱密度估计、语音功率谱密度估计以及计算平滑后的噪音功率谱密度;S3:建立维纳型噪音抑制因子,用于区分语音分量和噪音分量;S4:根据维纳型噪音抑制因子,得到目标语音的频域信号,进而获得目标语音时域信号。本发明可以有效降低语音失真,同时对原掩蔽值的误差可以有效平滑,提高原时频掩蔽估计的泛化性。

Description

一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置
技术领域
本发明属于信息处理的领域,具体涉及一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置。
背景技术
在语音会议系统等诸多应用中,麦克风采集的语音信号会被信道噪声和各种背景噪声所干扰。这些平稳噪声,传输到对方网络经过扬声器播放之后,会降低通话系统的通信质量。通过算法来抑制麦克风采集到的噪声信号,同时语音信号失真控制在非常低的水平,是目前通话系统的常规方法。
现有技术中,为了改善会议系统或者会议设备中语音通讯质量,如何抑制噪声一直是一项关键技术。传统信号处理的方法是追踪信号中的噪音功率谱密度和语音功率谱密度,然后基于维纳滤波在频域构建一个0到1的掩蔽值,对麦克风信号掩蔽之后,达到抑制背景噪声的目的。然而,纯粹采用信号处理的方法,无非有效追踪背景中的非平稳噪声,其次在强背景噪音场景下,有较大的语音失真。随着深度学习技术的发展和成熟,在噪声抑制领域应用也越来越广泛。为了解决传统信号处理方法无法处理非平稳噪声的问题,越来越多基于深度学习的方法被提出来,主要思路是通过训练带噪声数据集到纯净语音信号,直接从混合信号中估计时频掩蔽值。
目前,基于深度学习在噪声抑制的效果上优于传统信号处理方法,然而也存在一些问题;1)实际应用中数据如果和训练数据集不匹配,会存在泛化性的问题;2)采用传统信号处理方案,无法有效处理环境中普遍存在的非平稳噪声;3)基于深度学习估计时频掩蔽的方法,存在泛化性不足的风险,并且噪声抑制过于干净,存在相对较大的语音失真。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置,其基于时频掩蔽平滑策略,并设计了新的时频掩蔽,该平滑策略可以有效降低语音失真,同时对原掩蔽值的误差可以有效平滑,提高原时频掩蔽估计的泛化性。
为了实现上述目的,本发明提供的一种基于时频掩蔽平滑策略的单声道噪声抑制方法,包括以下步骤:
S1:对麦克风的时域信号进行短时傅里叶变换得到时频域表达;
S2:进行噪音信号功率谱密度估计,其具体包括:噪音功率谱密度初估计、平稳噪音功率谱密度估计、语音功率谱密度估计以及计算平滑后的噪音功率谱密度;
S3:建立维纳型噪音抑制因子,用于区分语音分量和噪音分量;
S4:根据维纳型噪音抑制因子,得到目标语音的频域信号,进而获得目标语音时域信号。
进一步地,所述步骤S1之前还包括:获取麦克风的语音信号x(n);
所述步骤S1包括:
对时域信号x(n)进行短时傅里叶变换得到时频域表达:
进一步地,所述步骤S2具体包括以下步骤:
S201:假设采用深度学习估计的时频掩蔽值为M(l,k),对每一个频带k,计算噪音功率谱密度初估计ρv(k);其中,噪音功率谱密度初估计ρv(k)的计算公式如下:
ρv(k)=αρv(k)+(1-α)(1-M(l,k))X(l,k)|2
S202:估计平稳噪音功率谱密度ρmin(k);其中,平稳噪音功率谱密度ρmin(k)的计算公式如下:
ρmin(k)=αρmin(k)+(1-α)min(ρv(k),|X(l,k)|2);
S203:估计语音功率谱密度ρy(k);其中,语音功率谱密度ρy(k)的计算公式如下:
ρy(k)=αρy(k)+(1-α)M(l,k)|X(l,k)|2
S204:计算平滑后的噪音功率谱密度ρs(k);其中,平滑后的噪音功率谱密度ρs(k)的计算公式如下:
其中,α为相邻帧间的平滑因子。
进一步地,所述相邻帧间的平滑因子α的取值为0.95。
更进一步地,所述维纳型噪音抑制因子G(l,k)的计算公式如下:
其中,公式中的第一项为语音分量,第二项为噪音分量。
本发明还提供了一种基于时频掩蔽平滑策略的单声道噪声抑制装置,包括初始化模块、信号功率谱密度估计模块、噪音抑制因子计算模块和目标语音估计模块:
初始化模块用于对麦克风的时域信号进行短时傅里叶变换得到时频域表达;
信号功率谱密度估计模块用于进行噪音信号功率谱密度估计,其具体包括:噪音功率谱密度初估计、平稳噪音功率谱密度估计、语音功率谱密度估计以及计算平滑后的噪音功率谱密度;
噪音抑制因子计算模块用于建立维纳型噪音抑制因子,用于区分语音分量和噪音分量;
目标语音估计模块用于根据维纳型噪音抑制因子,得到目标语音的频域信号,进而获得目标语音时域信号。
进一步地,所述初始化模块还用于获取麦克风的语音信号x(n);
所述初始化模块用于对时域信号x(n)进行短时傅里叶变换得到时频域表达:
进一步地,所述信号功率谱密度估计模块中,
所述噪音功率谱密度初估计包括:假设采用深度学习估计的时频掩蔽值为M(l,k),对每一个频带k,计算噪音功率谱密度初估计ρv(k);其中,噪音功率谱密度初估计ρv(k)的计算公式如下:
ρv(k)=αρv(k)+(1-α)(1-M(l,k))|X(l,k)|2
所述平稳噪音功率谱密度ρmin(k)的计算公式如下:
ρmin(k)=αρmin(k)+(1-α)min(ρv(k),|X(l,k)|2);
所述语音功率谱密度ρy(k)的计算公式如下:
ρy(k)=αρy(k)+(1-α)M(l,k)|X(l,k)|2
所述平滑后的噪音功率谱密度ρs(k)的计算公式如下:
其中,α为相邻帧间的平滑因子。
进一步地,所述相邻帧间的平滑因子α的取值为0.95。
更进一步地,所述维纳型噪音抑制因子G(l,k)的计算公式如下:
其中,公式中的第一项为语音分量,第二项为噪音分量。
本发明提供的一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置,具有如下有益效果:
1、本发明对基于深度学习得到的时频掩蔽信息再次平滑,对噪音功率谱密度估计进行3次平滑,得到更为鲁棒的噪音估计,避免语音失真。
2)本发明采用新型的维纳型噪音抑制因子,考虑了语音通讯的特点,在语音失真与噪音抑制权衡中,优先保证语音不失真,具有更好的通讯质量。
附图说明
图1为本具体实施方式中的基于时频掩蔽平滑策略的单声道噪声抑制方法的流程图。
图2为本具体实施方式中的使用的汉明窗函数的示意图。
图3为本具体实施方式中的基于时频掩蔽平滑策略的单声道噪声抑制装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合具体实施方式对本发明作进一步的详细说明。
如图1所示,本发明的一实施方式为一种基于时频掩蔽平滑策略的单声道噪声抑制方法。
具体包括以下四个实施步骤:
S1:对麦克风的时域信号进行短时傅里叶变换得到时频域表达。
在步骤S1之前,还包括获取麦克风的语音信号,获取的语音信号如下:假设x(n)代表麦克风阵元实时拾取的原始时域信号,其中,n代表时间标签。
具体地,进行短时傅里叶变换的方法如下:
对时域信号x(n)进行短时傅里叶变换得到时频域表达:
其中,N为帧长,N=512;w(n)为长度512的汉明窗,其中,n代表时间标签,即时间序号,因此w(n)代表每一个对应时间序号n上的值;l为时间帧序号,以帧为单位;k为频带序号,其中,频带是指某个频率对应的信号分量;j代表虚数单位X(l,k)为第m个麦克风信号,在第l帧,第k个频带的频谱。本发明中,使用的汉明窗函数如图2所示。
通过上述步骤S1,能够完成时域信号到时频域的变换。
S2:进行噪音信号功率谱密度估计,其具体包括:噪音功率谱密度初估计、平稳噪音功率谱密度估计、语音功率谱密度估计以及计算平滑后的噪音功率谱密度。
在本步骤中,能够对噪音功率谱密度估计进行3次平滑操作,得到鲁棒性更好的噪音估计,提高语音的真实性。
具体地,本步骤S2包括以下步骤:
S201:假设采用深度学习估计的时频掩蔽值为M(l,k),对每一个频带k,计算噪音功率谱密度初估计ρv(k)。其中,时频掩蔽值M(l,k)是采用深度学习方法估计得到的0-1之间的掩蔽值,是通过现有模型中采用的方法得到的掩蔽值。
噪音功率谱密度初估计ρv(k)的计算公式如下:
ρv(k)=αρv(k)+(1-α)(1-M(l,k))|X(l,k)|2
上述公式表示新的数据输入之后,对噪音功率谱密度的更新。
其中,|.|代表取复数的模;α为相邻帧间的平滑因子,其取值范围在0和1之间。
在本发明中,优选α=0.95,如果平滑因子的值过小会导致功率谱密度估计变化幅度过大,存在不稳定的缺陷,如果平滑因子的值过高,则能量估计过于平稳,对非平稳噪声建模能力下降。选择该优选的值能够平衡稳定性和对非平稳噪声建模能力。
该步骤能够基于时频掩蔽计算噪音功率谱密度初估计,其结果在后续步骤中用于计算噪音功率谱密度的最终结果。
S202:估计平稳噪音功率谱密度ρmin(k)。
平稳噪音功率谱密度ρmin(k)的计算公式如下:
ρmin(k)=αρmin(k)+(1-α)min(ρv(k),|X(l,k)|2)
上述公式表示新的数据输入之后,对平稳噪音功率谱密度的更新。
其中,min()代表取二者中间的小值;α为相邻帧间的平滑因子,与步骤S201中相同。
通过该步骤能够追踪信号中的较为平稳的噪音能量,其结果在后续步骤中用于计算噪音功率谱密度的最终结果。
S203:估计语音功率谱密度ρy(k)。
语音功率谱密度ρy(k)的计算公式如下:
ρy(k)=αρy(k)+(1-α)M(l,k)|X(l,k)|2
上述公式表示新的数据输入之后,对语音功率谱密度的更新。
其中,α为相邻帧间的平滑因子,与步骤S201和S202中相同。
通过该步骤S203,得到了语音功率谱密度的估计结果。该步骤的结果用以步骤S3计算维纳型噪音抑制因子。
S204:计算平滑后的噪音功率谱密度ρs(k)。
平滑后的噪音功率谱密度ρs(k)的计算公式如下:
在该步骤S203中,采用上述步骤S201和S202得到的噪音功率谱密度初估计和平稳噪音功率谱密度的几何平均值作为最终的平滑后的噪音功率谱密度。该步骤的结果用以步骤S3计算维纳型噪音抑制因子。
采用本步骤对噪音功率谱密度进行平滑,其噪音估计结果可以避免噪音功率谱密度过估计,也可以避免对非平稳噪音追踪能力不足的问题,有效平衡噪音抑制与语音失真之间的矛盾。
S3:建立维纳型噪音抑制因子,用于区分语音分量和噪音分量。
维纳型噪音抑制因子G(l,k)的计算公式如下:
其中,max()代表取二者中的大值,其中,第一项为完全根据平滑后的功率谱密度得到的抑制因子,第二项为结合掩蔽估计和平滑后的噪音功率谱密度得到的控制因子,二者选择其中的较大者,可以有效避免语音失真。
通过该步骤,能够得到的噪音抑制因子直接作为掩蔽值,用于步骤S4中以得到语音频谱估计。
如果在维纳型噪音抑制因子中,语音分量占主导,该抑制因子接近1,噪音的大部分能量被保留;反之,噪音分量占主导,该抑制因子接近0,大部分能量被抑制。因此,通过该抑制因子可以在不破坏语音的前提下,抑制背景噪音。
S4:根据维纳型噪音抑制因子,得到目标语音的频域信号,进而获得目标语音时域信号。
具体包括以下步骤:
S401:根据求解得到的分离矩阵,得到目标语音的频域估计信号:
在该步骤中,通过直接对麦克风信号频谱乘以抑制因子,可以达到抑制背景噪音,同时保留语音信号的目的。
S402:对频域估计信号进行傅里叶逆变换得到目标语音的时域信号:
在该步骤中,时域估计的信号可以通过数模转换直接转为电压信号由扬声器播放出增强后的语音。
通过该步骤S4,能够实现目标语音的时域信号的获取。
通过本发明的上述步骤S1-S4,可以实现麦克风矩阵信号的分解、信号功率谱密度估计、噪音抑制因子计算和目标语音估计,最终提取目标语音。
如图3所示,本发明的一实施方式为一种基于时频掩蔽平滑策略的单声道噪声抑制装置,包括初始化模块1、信号功率谱密度估计模块2、噪音抑制因子计算模块3和目标语音估计模块4。
初始化模块1,用于对麦克风的时域信号进行短时傅里叶变换得到时频域表达。
初始化模块1还能够用于获取每个麦克风的语音信号,获取的语音信号如下:假设x(n)代表麦克风阵元实时拾取的原始时域信号,其中,n代表时间标签。
具体地,进行短时傅里叶变换的方法如下:
对时域信号x(n)进行短时傅里叶变换得到时频域表达:
其中,N为帧长,N=512;w(n)为长度512的汉明窗,其中,n代表时间标签,即时间序号,因此w(n)代表每一个对应时间序号n上的值;l为时间帧序号,以帧为单位;k为频带序号,其中,频带是指某个频率对应的信号分量;j代表虚数单位X(l,k)为第m个麦克风信号,在第l帧,第k个频带的频谱。本发明中,使用的汉明窗函数如图2所示。
通过初始化模块1,能够完成时域信号到时频域的变换。
信号功率谱密度估计模块2,用于进行噪音信号功率谱密度估计,其具体包括:噪音功率谱密度初估计、平稳噪音功率谱密度估计、语音功率谱密度估计以及计算平滑后的噪音功率谱密度。
在信号功率谱密度估计模块2中,能够对噪音功率谱密度估计进行3次平滑操作,得到鲁棒性更好的噪音估计,提高语音的真实性。
具体地,3次平滑操作分别为:
1、假设采用深度学习估计的时频掩蔽值为M(l,k),对每一个频带k,计算噪音功率谱密度初估计ρv(k)。其中,时频掩蔽值M(l,k)是采用深度学习方法估计得到的0-1之间的掩蔽值,是通过现有模型中采用的方法得到的掩蔽值。
噪音功率谱密度初估计ρv(k)的计算公式如下:
ρv(k)=αρv(k)+(1-α)(1-M(l,k))|X(l,k)|2
上述公式表示新的数据输入之后,对噪音功率谱密度的更新。
其中,|.|代表取复数的模;α为相邻帧间的平滑因子,其取值范围在0和1之间。
在本发明中,优选α=0.95,如果平滑因子的值过小会导致功率谱密度估计变化幅度过大,存在不稳定的缺陷,如果平滑因子的值过高,则能量估计过于平稳,对非平稳噪声建模能力下降。选择该优选的值能够平衡稳定性和对非平稳噪声建模能力。
该步骤能够基于时频掩蔽计算噪音功率谱密度初估计,其结果用于计算噪音功率谱密度的最终结果。
2、平稳噪音功率谱密度估计ρmin(k):
平稳噪音功率谱密度ρmin(k)的计算公式如下:
ρmin(k)=αρmin(k)+(1-α)min(ρv(k),|X(l,k)|2)
上述公式表示新的数据输入之后,对平稳噪音功率谱密度的更新。
其中,min()代表取二者中间的小值;α为相邻帧间的平滑因子,与噪音功率谱密度初估计中相同。
通过该步骤能够追踪信号中的较为平稳的噪音能量,其结果在后续步骤中用于计算噪音功率谱密度的最终结果。
3、语音功率谱密度估计ρy(k):
语音功率谱密度ρy(k)的计算公式如下:
ρy(k)=αρy(k)+(1-α)M(l,k)|X(l,k)|2
上述公式表示新的数据输入之后,对语音功率谱密度的更新。
其中,α为相邻帧间的平滑因子,与噪音功率谱密度初估计和平稳噪音功率谱密度估计中相同。
通过估计语音功率谱密度,得到了语音功率谱密度的估计结果。该步骤的结果用以计算维纳型噪音抑制因子。
此外,对于平滑后的噪音功率谱密度ρs(k):
平滑后的噪音功率谱密度ρs(k)的计算公式如下:
采用上述得到的噪音功率谱密度初估计和平稳噪音功率谱密度的几何平均值作为最终的平滑后的噪音功率谱密度。其结果用以计算维纳型噪音抑制因子。
采用信号功率谱密度估计模块2对噪音功率谱密度进行平滑,其噪音估计结果可以避免噪音功率谱密度过估计,也可以避免对非平稳噪音追踪能力不足的问题,有效平衡噪音抑制与语音失真之间的矛盾。
分离矩阵计算模块3用于估计维纳型噪音抑制因子。
具体地,维纳型噪音抑制因子G(l,k)的计算公式如下:
其中,max()代表取二者中的大值,其中,第一项为语音分量,第二项为噪音分量。
通过分离矩阵计算模块3,能够得到的噪音抑制因子直接作为掩蔽值,用于得到语音频谱估计。
如果在维纳型噪音抑制因子中,语音分量占主导,该抑制因子接近1,噪音的大部分能量被保留;反之,噪音分量占主导,该抑制因子接近0,大部分能量被抑制。因此,通过该抑制因子可以在不破坏语音的前提下,抑制背景噪音。
目标语音估计模块4,用于根据维纳型噪音抑制因子,得到目标语音的频域信号,进而得到目标语音时域信号。
具体地,目标语音估计模块4的操作步骤如下:
首先,根据求解得到的分离矩阵,得到目标语音的频域估计信号:
在该步骤中,通过直接对麦克风信号频谱乘以抑制因子,可以达到抑制背景噪音,同时保留语音信号的目的。
其次,对频域估计信号进行傅里叶逆变换得到目标语音的时域信号:
在该步骤中,时域估计的信号可以通过数模转换直接转为电压信号由扬声器播放出增强后的语音。
通过目标语音估计模块4,能够实现目标语音的时域信号的获取。
上述实施方式中,初始化模块1、信号功率谱密度估计模块2、噪音抑制因子计算模块3和目标语音估计模块4的这4个模块缺一不可,任一模块的缺失,都会导致目标语音无法提取。
本文中应用了具体个例对发明构思进行了详细阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离该发明构思的前提下,所做的任何显而易见的修改、等同替换或其他改进,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于时频掩蔽平滑策略的单声道噪声抑制方法,其特征在于,包括以下步骤:
S1:获取麦克风的语音信号x(n),对麦克风的时域信号x(n)进行短时傅里叶变换得到时频域表达:
其中,N为帧长,N=512;w(n)为长度512的汉明窗函数;1为时间帧序号;k为频带序号;j代表虚数单位;X(l,k)为第m个麦克风信号,在第1帧,第k个频带的频谱;
S2:进行噪音信号功率谱密度估计,其具体包括:噪音功率谱密度初估计、平稳噪音功率谱密度估计、语音功率谱密度估计以及计算平滑后的噪音功率谱密度;
S3:建立维纳型噪音抑制因子,用于区分语音分量和噪音分量;
S4:根据维纳型噪音抑制因子,得到目标语音的频域信号,进而获得目标语音时域信号;
所述步骤S2具体包括以下步骤:
S201:假设采用深度学习估计的时频掩蔽值为M(l,k),对每一个频带k,计算噪音功率谱密度初估计ρv(k);其中,时频掩蔽值M(l,k)是采用深度学习方法估计得到的0-1之间的掩蔽值,噪音功率谱密度初估计ρv(k)的计算公式如下:
ρu(k)=αρv(k)+(1-a)(1-M(l,k))|X(l,k)|2
S202:估计平稳噪音功率谱密度ρmin(k);其中,平稳噪音功率谱密度ρmin(k)的计算公式如下:
ρmin(k)=αρmin(k)+(1-α)min(ρv(k),|X(l,k)|2);
S203:估计语音功率谱密度ρy(k);其中,语音功率谱密度ρy(k)的计算公式如下:
vy(k)=αρy(k)+(1-α)M(l,k)|X(l,k)|2
S204:计算平滑后的噪音功率谱密度ρs(k);其中,平滑后的噪音功率谱密度ρs(k)的计算公式如下:
其中,α为相邻帧间的平滑因子;
所述维纳型噪音抑制因子G(l,k)的计算公式如下:
其中,公式中的第一项为语音分量,第二项为噪音分量。
2.根据权利要求1所述的基于时频掩蔽平滑策略的单声道噪声抑制方法,其特征在于,所述相邻帧间的平滑因子α的取值为0.95。
3.一种基于时频掩蔽平滑策略的单声道噪声抑制装置,其特征在于,包括初始化模块、信号功率谱密度估计模块、噪音抑制因子计算模块和目标语音估计模块:
初始化模块用于获取麦克风的语音信号x(n),对麦克风的时域信号x(n)进行短时傅里叶变换得到时频域表达:
其中,N为帧长,N=512;w(n)为长度512的汉明窗函数;l为时间帧序号;k为频带序号;j代表虚数单位;X(l,k)为第m个麦克风信号,在第1帧,第k个频带的频谱;
信号功率谱密度估计模块用于进行噪音信号功率谱密度估计,其具体包括:噪音功率谱密度初估计、平稳噪音功率谱密度估计、语音功率谱密度估计以及计算平滑后的噪音功率谱密度;
噪音抑制因子计算模块用于建立维纳型噪音抑制因子,用于区分语音分量和噪音分量;
目标语音估计模块用于根据维纳型噪音抑制因子,得到目标语音的频域信号,进而获得目标语音时域信号;
所述信号功率谱密度估计模块中,
所述噪音功率谱密度初估计包括:假设采用深度学习估计的时频掩蔽值为M(l,k),对每一个频带k,计算噪音功率谱密度初估计ρv(k);其中,噪音功率谱密度初估计ρv(k)的计算公式如下:
ρv(k)=αρv(k)+(1-α)(1-M(l,k))|X(l,k)|2
所述平稳噪音功率谱密度ρmin(k)的计算公式如下:
ρmin(k)=αρmin(k)+(1-α)min(ρv(k),|X(l,k)|2);
所述语音功率谱密度ρy(k)的计算公式如下:
ρy(k)=αρy(k)+(1-α)M(l,k)|X(l,k)|2
所述平滑后的噪音功率谱密度ρs(k)的计算公式如下:
其中,α为相邻帧间的平滑因子;
所述维纳型噪音抑制因子G(l,k)的计算公式如下:
其中,公式中的第一项为语音分量,第二项为噪音分量。
4.根据权利要求3所述的基于时频掩蔽平滑策略的单声道噪声抑制装置,其特征在于,所述相邻帧间的平滑因子α的取值为0.95。
CN202111093818.9A 2021-09-17 2021-09-17 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置 Active CN113808608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111093818.9A CN113808608B (zh) 2021-09-17 2021-09-17 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111093818.9A CN113808608B (zh) 2021-09-17 2021-09-17 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置

Publications (2)

Publication Number Publication Date
CN113808608A CN113808608A (zh) 2021-12-17
CN113808608B true CN113808608B (zh) 2023-07-25

Family

ID=78939655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111093818.9A Active CN113808608B (zh) 2021-09-17 2021-09-17 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置

Country Status (1)

Country Link
CN (1) CN113808608B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1390348A (zh) * 1999-11-15 2003-01-08 诺基亚有限公司 噪声抑制器
CN104103278A (zh) * 2013-04-02 2014-10-15 北京千橡网景科技发展有限公司 一种实时语音去噪的方法和设备
CN104867499A (zh) * 2014-12-26 2015-08-26 深圳市微纳集成电路与系统应用研究院 一种用于助听器的分频段维纳滤波去噪方法和系统
CN106486131A (zh) * 2016-10-14 2017-03-08 上海谦问万答吧云计算科技有限公司 一种语音去噪的方法及装置
CN111968662A (zh) * 2020-08-10 2020-11-20 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
CN112201273A (zh) * 2019-07-08 2021-01-08 北京声智科技有限公司 一种噪声功率谱密度计算方法、系统、设备及介质
CN113160845A (zh) * 2021-03-29 2021-07-23 南京理工大学 基于语音存在概率和听觉掩蔽效应的语音增强算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3113508B1 (en) * 2014-02-28 2020-11-11 Nippon Telegraph and Telephone Corporation Signal-processing device, method, and program
US11017798B2 (en) * 2017-12-29 2021-05-25 Harman Becker Automotive Systems Gmbh Dynamic noise suppression and operations for noisy speech signals

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1390348A (zh) * 1999-11-15 2003-01-08 诺基亚有限公司 噪声抑制器
CN104103278A (zh) * 2013-04-02 2014-10-15 北京千橡网景科技发展有限公司 一种实时语音去噪的方法和设备
CN104867499A (zh) * 2014-12-26 2015-08-26 深圳市微纳集成电路与系统应用研究院 一种用于助听器的分频段维纳滤波去噪方法和系统
CN106486131A (zh) * 2016-10-14 2017-03-08 上海谦问万答吧云计算科技有限公司 一种语音去噪的方法及装置
CN112201273A (zh) * 2019-07-08 2021-01-08 北京声智科技有限公司 一种噪声功率谱密度计算方法、系统、设备及介质
CN111968662A (zh) * 2020-08-10 2020-11-20 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
CN113160845A (zh) * 2021-03-29 2021-07-23 南京理工大学 基于语音存在概率和听觉掩蔽效应的语音增强算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Implicit Wiener Filtering for Speech Enhancement In Non-Stationary Noise;Rahul Jaiswal etc;《11th International Conference on Information Science and Technology (ICIST)》;第39-47页 *

Also Published As

Publication number Publication date
CN113808608A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN108735213B (zh) 一种基于相位补偿的语音增强方法及系统
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
US9640194B1 (en) Noise suppression for speech processing based on machine-learning mask estimation
KR100304666B1 (ko) 음성 향상 방법
CN111418010A (zh) 一种多麦克风降噪方法、装置及终端设备
CN110634500B (zh) 一种先验信噪比的计算方法、电子设备及存储介质
JP2021128328A (ja) 畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法
Mirsamadi et al. Causal speech enhancement combining data-driven learning and suppression rule estimation.
CN107680609A (zh) 一种基于噪声功率谱密度的双通道语音增强方法
WO2021007841A1 (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN111755020B (zh) 一种立体声回声消除方法
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
CN107045874B (zh) 一种基于相关性的非线性语音增强方法
WO2022218254A1 (zh) 语音信号增强方法、装置及电子设备
CN107731242A (zh) 一种广义最大后验的谱幅度估计的增益函数语音增强方法
CN106328160B (zh) 一种基于双麦克的降噪方法
Garg Speech enhancement using long short term memory with trained speech features and adaptive wiener filter
Nuha et al. Noise Reduction and Speech Enhancement Using Wiener Filter
CN112151060B (zh) 单通道语音增强方法及装置、存储介质、终端
CN113808608B (zh) 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置
WO2024017110A1 (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品
CN109640242B (zh) 音频源分量及环境分量提取方法
CN111524531A (zh) 一种用于对高音质的双通道视频语音的实时降噪的方法
CN114360560A (zh) 一种基于谐波结构预测的语音增强后处理方法和装置
CN112929506A (zh) 音频信号的处理方法及装置,计算机存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant