CN114005457A - 一种基于幅度估计与相位重构的单通道语音增强方法 - Google Patents
一种基于幅度估计与相位重构的单通道语音增强方法 Download PDFInfo
- Publication number
- CN114005457A CN114005457A CN202111318155.6A CN202111318155A CN114005457A CN 114005457 A CN114005457 A CN 114005457A CN 202111318155 A CN202111318155 A CN 202111318155A CN 114005457 A CN114005457 A CN 114005457A
- Authority
- CN
- China
- Prior art keywords
- noise
- signal
- spectrum
- phase
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000001228 spectrum Methods 0.000 claims abstract description 102
- 238000001914 filtration Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000000654 additive Substances 0.000 claims description 9
- 230000000996 additive effect Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 8
- 230000001976 improved effect Effects 0.000 claims description 6
- 230000002829 reductive effect Effects 0.000 claims description 4
- 238000012896 Statistical algorithm Methods 0.000 claims description 3
- 230000002238 attenuated effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本公开实施例是关于一种基于幅度估计与相位重构的单通道语音增强方法。该方法包括:将带噪语音信号通过维纳滤波法进行预处理,以减少所述带噪语音信号的幅度谱失真;利用最小值控制的递归函数估计所述带噪语音信号的噪声功率谱,以更加准确地恢复所述带噪语音信号的幅度谱;重构所述带噪语音信号的相位谱,以改善因相位信息不准确估计而造成的失真问题;将重构的相位谱与估计的噪声功率谱相结合,以生成纯净的语音信号。本公开实施例在幅度估计过程中,利用最小值控制的递归函数方法跟踪并估计噪声功率谱,同时重构带噪语音的相位谱使其更接近纯净语音相位谱,最后生成时域增强信号,以达到最终提升语音质量与可懂度的目的。
Description
技术领域
本公开实施例涉及语音信号处理技术领域,尤其涉及一种基于幅度估计与相位重构的单通道语音增强方法。
背景技术
语音在传输过程中不可避免地会受到周围环境以及通信设备内部噪声的干扰,这往往会影响接受者的感知以及后续信号的处理,因此需要语音增强技术来对带噪信号进行预处理。语音增强在语音处理如语音识别、语音检测等中起着重要的作用,从确保更少残余噪声和语音信号失真两方面来抑制噪声信号,提高被声学噪声污染的语音质量和可懂度。语音增强的具体解决方案与很多因素密切相关,包括具体的应用场景,干扰噪声类型,噪声与纯净信号的关系如加性还是乘性,麦克风或者传感器的数量等等。语音增强任务主要分为两部分,幅度增强和相位增强。在进行语音增强之前,需对带噪语音进行预处理。当语音较短时,我们可将其视为平稳信号,利用离散傅里叶变换直接将其变换到频域。而当语音信号较长时,我们需对其进行分帧,语音活动检测(VAD,Voice activity detection)以判断该帧是否存在语音,从而对不同帧噪声抑制程度不同。
谱减法(SS,Spectral Subtraction)是最早被提出的基于频域的去噪算法之一,因其低计算复杂度而被广泛应用于语音增强中。其假设噪声为加性噪声,通过傅里叶变换将时域信号转换到频域,利用无声帧的噪声功率谱表示整个噪声的功率谱,从而从带噪语音谱中减去对噪声谱的估计,恢复出干净信号。但该方法首先不能更新噪声功率谱,导致整个语音段噪声功率谱不能被准确估计,导致增强后的信号幅度谱估计不准确。其次,该方法利用带噪语音信号的相位,在高信噪比(SNR,SIGNAL-NOISE RATIO)条件下对语音影响较小,在信噪比较低时,会造成增强信号失真。最后,不能很好地控制噪声被抑制的程度。若被减的噪声幅度谱不能被控制在合理范围内,这种方法就会引起信号失真,如保留噪声太多以致未达到所需条件、产生更令人困扰的音乐噪声。维纳滤波是最小均方误差意义上的频域增强方法,该方法虽在一定程度上可抑制音乐噪声,但对于原始噪声的消除并不彻底,并且增强后的语音还会产生白噪声。
因此,有必要改善上述相关技术方案中存在的一个或者多个问题。
需要注意的是,本部分旨在为权利要求书中陈述的本公开的技术方案提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
发明内容
本公开实施例的目的在于提供一种基于幅度估计与相位重构的单通道语音增强方法,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
本公开实施例提供一种基于幅度估计与相位重构的单通道语音增强方法,该方法包括:
将带噪语音信号通过维纳滤波法进行预处理,以减少所述带噪语音信号的幅度谱失真;
利用最小值控制的递归函数估计所述带噪语音信号的噪声功率谱,以更加准确地恢复所述带噪语音信号的幅度谱;
重构所述带噪语音信号的相位谱,以改善因相位信息不准确估计而造成的失真问题;
将重构的相位谱与估计的噪声功率谱相结合,以生成纯净的语音信号。
本公开的一实施例中,所述预处理方法为:
根据维纳滤波法通过所述带噪语音信号与期望信号得到增益函数,再将所述增益函数与所述带噪语音信号进行卷积得到增强的时域信号。
本公开的一实施例中,对所述时域信号进行分帧,且根据短时傅里叶变换将所述时域信号变换到频域。
本公开的一实施例中,在所述利用最小值控制的递归函数估计所述带噪语音信号的噪声功率谱过程中,先将所述时域信号通过原有的噪声功率谱与其局部最小值得到语音存在的概率,再通过所述语音存在的概率更新所述原有的噪声功率谱,并得到所述估计的噪声功率谱。
本公开的一实施例中,所述语音存在的概率的计算方法为:
将所述原有的带噪语音功率谱与所述局部最小值之比与一阈值进行比较,得到所述语音存在的概率,其中,所述局部最小值基于最小值统计算法寻找,即将所述原有的带噪语音功率谱进行递归比较,找到最小功率谱。
本公开的一实施例中,所述重构所述带噪语音信号的相位谱方法为:
通过构建加性共轭反对称函数来抵消噪声复频谱,在逆短时傅里叶变换期间,共轭相加在一起产生一个实值信号,通过修改共轭的角度来控制有用信号增强或噪声信号抵消的程度,同时,加性函数亦受信噪比影响,当信噪比不同时,相位补偿的程度也不同,从而改进相位信息。
本公开的一实施例中,将所述时域信号通过离散傅里叶变换方法转换到频域中,用极坐标形式表示频域中的信号,并引入过减因子以及平滑因子,所述过减因子的值通过每一帧信号的信噪比确定。
本公开的一实施例中,在低信噪比情况下,将所述过减因子的值设置较大,为了能够较大程度抑制噪声信号,从而减少音乐噪声,随着所述信噪比的提高,减小所述过减因子的值,防止过度削弱噪声,而造成幅度谱失真。
本公开的一实施例中,将所述估计的噪声功率谱与所述重构相位在频域中合成纯净语音信号,其中,利用最小值控制的递归函数更新的所述估计的噪声功率谱代替原始利用无语音活动时的平均幅度谱估计,利用所述重构相位代替原始带噪信号相位。
本公开的实施例中,通过上述基于幅度估计与相位重构的单通道语音增强方法,在幅度估计过程中,利用最小统计量控制递归平均算法(MCRA,Minimal ControlledRecursive Averaging)跟踪并估计噪声功率谱,同时重构带噪语音的相位谱使其更接近纯净语音相位谱,最后生成时域增强信号,以达到最终提升语音质量与可懂度的目的。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出基于幅度估计与相位重构的单通道语音增强方法流程图。
图2(a)示出干净语音波形图;
图2(b)示出带噪语音波形图;
图2(c)示出CSS增强的语音波形图;
图2(d)示出Wiener增强的语音波形图;
图2(e)示出Wiener+CSS增强的语音波形图;
图2(f)示出本公开方法的增强语音波形图;
图3(a)示出干净语音语谱图;
图3(b)示出带噪语音语谱图;
图3(c)示出CSS增强的语音语谱图;
图3(d)示出Wiener增强的语音语谱图;
图3(e)示出Wiener+CSS增强的语音语谱图;
图3(f)示出本公开方法的增强语音语谱图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开实施例的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
本示例实施方式中首先提供了一种基于幅度估计与相位重构的单通道语音增强方法。参考图1中所示,该基于幅度估计与相位重构的单通道语音增强方法可以包括:步骤S101~步骤S104。
步骤S101:将带噪语音信号通过维纳滤波法进行预处理,以减少所述带噪语音信号的幅度谱失真;
步骤S102:利用最小值控制的递归函数估计所述带噪语音信号的噪声功率谱,以更加准确地恢复所述带噪语音信号的幅度谱;
步骤S103:重构所述带噪语音信号的相位谱,以改善因相位信息不准确估计而造成的失真问题;
步骤S104:将重构的相位谱与估计的噪声功率谱相结合,以生成纯净的语音信号。
通过上述基于幅度估计与相位重构的单通道语音增强方法,在幅度估计过程中,利用MCRA方法跟踪并估计噪声功率谱,同时重构带噪语音的相位谱使其更接近纯净语音相位谱,最后生成时域增强信号,以达到最终提升语音质量与可懂度的目的。
下面,将参考图1对本示例实施方式中的上述基于幅度估计与相位重构的单通道语音增强方法的各个部分进行更详细的说明。
步骤S101:将带噪语音信号通过维纳滤波法进行预处理,以减少所述带噪语音信号的幅度谱失真。
具体的,假设y(n)=x(n)+s(n)为带噪语音信号,其中x(n)、s(n)分别表示干净语音信号与加性噪声的第n个样本。由于维纳滤波器在抑制存在噪声频率的同时能够保持其他频率不变,我们先将语音信号通过维纳滤波器进行预处理,以减少增强语音的幅度谱失真。
维纳滤波是一种基于均方意义下的最优滤波理论的语音增强算法。假设d(n)是期望信号,输出信号期望信号与输出信号之间的误差其中h(n)表示时域系统增益函数。再通过在频域中最小化e(n)的均方值,即E[|E(w)|2]采用下式得到:
E[|E(w)|2=E{[D(W)-H(w)Y(w)]*[D(W)-H(w)Y(w)} (1)
利用最小二乘估计法对H(w)求偏导令其为0,求得最优增益函数在噪声抑制中,假设干净语音信号x(n)和噪声信号s(n)相互独立,且噪声信号服从高斯正态分布,令期望信号d(n)=x(n),可得增益函数其中,Pdy表示期望信号与带噪信号之间的互相关功率谱,Pyy表示带噪语音信号的自相关功率谱。Pxx(w)为干净语音信号的自相关功率谱,Pss(w)为噪声信号的自相关功率谱。将所得到的增益函数与带噪语音信号进行卷积得到增强的时域信号y1(n)。
另外,由于大多数语音处理方法对于平稳噪声信号效果较好,非平稳信号在极短时间段内可看成平稳信号,因此我们将带噪语音信号分成N个不重叠的频带,根据短时傅里叶变换(STFT,short-time Fourier transform)将时域信号变换到频域可得Y(λ,k)=X(λ,k)+S(λ,k),其中λ,k分别表示帧索引和频率索引。
步骤S102:利用最小值控制的递归函数估计所述带噪语音信号的噪声功率谱,以更加准确地恢复所述带噪语音信号的幅度谱。
具体的,对于噪声功率谱不能被准确估计,我们利用基于最小值控制的递归函数(MCRA)来更新噪声功率谱,旨在更加准确地恢复增强信号的幅度谱。
具体步骤为是:MCRA算法基于以下假设,将频点k处是否存在语音的问题转换成一个检测问题。且在有语音段保持功率谱不变,无语音段进行噪声功率谱估计并将其作为初始估计值:
S(λ,k)=αsS(λ-1,k)+(1-α)Sf(λ,k) (4)
所谓的无语音段是指:
(1)频谱能量趋于零或接近噪声水平。
(2)在有语音存在时,但如请摩擦音期间的低频带以及浊音(鼻音)期间的高频带。
(3)即使是在语音活动期间,带噪语音信号在单个频带的功率通常会衰减到噪声的功率水平,即可看成无声段进行噪声估计。
计算第k个频段的带噪语音功率谱与其局部最小值得到p(λ,k),局部最小值基于最小值统计算法来寻找,即将平滑后的带噪语音功率谱S(λ,k)进行递归比较,找到最小功率谱Smin(λ,k)。Sf(λ,k)表示第k-1频点平滑的噪声语音功率谱。利用类似于后验信噪比计算方式可得将St(λ,k)与一阈值σ进行比较以判断是否存在语音,具体如下:
利用下式对语音存在的概率p(λ,k)进行时域平滑:
步骤S103:重构所述带噪语音信号的相位谱,以改善因相位信息不准确估计而造成的失真问题。
具体的,传统算法在语音增强时通常忽略了相位信息的变化,以致在低信噪比条件,造成语音失真。为了改善低信噪比下的语音质量,我们重构带噪信号的相位,使其更接近纯净信号的相位谱。
带噪语音是实值信号,其傅立叶变换是共轭对称的。我们构建加性共轭反对称函数来抵消噪声复频谱,在逆离散短时傅里叶变换(IDSTFT,Inverse Discrete short-timeFourier transform)期间,共轭相加在一起产生一个实值信号,通过修改共轭的角度来控制有用信号增强或噪声信号抵消的程度。
其中,N是帧长度,p为常数因子。重构函数不仅受共轭函数的控制,当每一帧的信噪比不同时,带噪语音补偿的幅度也不同。由反正切函数获得重构相位谱,其中Im,Re分别表示取向量的虚部以及实部运算。
步骤S104:将重构的相位谱与估计的噪声功率谱相结合,以生成纯净的语音信号。
|X1(λ,k)|2=σ|Y1(λ,k)|2-σ·ε|S1(λ,k)|2 (10)
在低信噪比情况下,我们将ε的值设置较大,为了能够较大程度抑制噪声信号,从而减少音乐噪声,但随着信噪比的提高,我们减小ε的值,防止过度削弱噪声,而造成幅度谱|X1(w)|失真。如果σ=1,|X1(λ,k)|2=|Y1(λ,k)|2-ε|S1(λ,k)|2,ε的取值如下式所示,增强信号的幅度谱仅受ε的影响。
若σ取其它值时,幅度谱受平滑因子以及过减因子的影响,ε的取值如下式所示:
通过上述基于幅度估计与相位重构的单通道语音增强方法,在幅度估计过程中,利用最小值控制的递归函数(MCRA)方法跟踪并估计噪声功率谱,同时重构带噪语音的相位谱使其更接近纯净语音相位谱,最后生成时域增强信号,以达到最终提升语音质量与可懂度的目的。
下面结合具体仿真实例,进一步阐述本实施例。
1.实验设置和评估方法
获取来自于NOIZEUS数据集中受不同噪声干扰的语音信号进行增强,干扰噪声分别是火车噪声还有babble(嘈杂语音)噪声,且分别记为Speech A和Speech B。通过不断调整常数p的值观察实验结果。发现当p=3时proposed method对于语音恢复效果最好。我们比较了谱减法、维纳滤波法以及所提议的方法。
我们分别采用PESQ以及NCM方法对语音的质量以及可懂度进行客观评价。PESQ能够对客观语音质量评估提供一个主观MOS的预测值,范围在-0.5到4.5之间,取值越接近4.5,表示语音质量越好。NCM评价是基于纯净语音信号与输出信号之间的协方差,取值与主观可懂度成正比。
2.结果分析
从图2(a)~图2(f)可以看出,Wiener增强后的信号虽优于CSS方法,但也并未完全消除背景噪声,并且会造成信号失真。而我们所提议的方法能够更好地消除背景噪声,恢复出纯净语音。图3(a)~图3(f)结果对比发现,图3(e)中谐波得到的更多的保留,且更接近干净语音信号。
表1.不同信噪比评估结果
如表1所示,我们对两种噪声分别比较CSS以及proposed method在不同信噪比下的PESQ值。结果发现,对于train噪声,在低信噪比情况下,proposed method方法相较于CSS,效果提升范围为0.06到0.1。信噪比较高时,proposed method方法相较于CSS,PESQ值可提升0.4。对于babble噪声,在低信噪比情况下PESQ的值可提升2倍,高信噪比时效果可提升0.4到0.5。
表2.分段信噪比(seg_SNR)
在分段信噪比下,我们比较原始带噪语音、CSS方法、所提议方法的PESQ值以及NCM结果。实验表明,相比于带噪语音质量,用CSS方法可以提高大约30%,但所提议方法可以提高42%,因此我们所提出的方法很大程度提高了语音质量。利用NCM测量信号可懂度发现,CSS方法降低了语音的可懂度,而所提议方法对Speech A的信号提升了0.21,对Speech B提升了0.06。
以上评估结果发现:在低信噪比情况下,该方法优于传统方法;当噪声类型不同时,语音增强的效果不同,相较于train噪声,该方法对babble噪声的效果更好。并且无论是语音质量还是可懂度,所提出的方法均优于传统方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (9)
1.一种基于幅度估计与相位重构的单通道语音增强方法,其特征在于,该方法包括:
将带噪语音信号通过维纳滤波法进行预处理,以减少所述带噪语音信号的幅度谱失真;
利用最小值控制的递归函数估计所述带噪语音信号的噪声功率谱,以更加准确地恢复所述带噪语音信号的幅度谱;
重构所述带噪语音信号的相位谱,以改善因相位信息不准确估计而造成的失真问题;
将重构的相位谱与估计的噪声功率谱相结合,以生成增强语音。
2.根据权利要求1所述基于幅度估计与相位重构的单通道语音增强方法,其特征在于,所述预处理方法为:
根据维纳滤波法通过所述带噪语音信号与期望信号得到增益函数,再将所述增益函数与所述带噪语音信号进行卷积得到增强的时域信号。
3.根据权利要求2所述基于幅度估计与相位重构的单通道语音增强方法,其特征在于,对所述时域信号进行分帧,且根据短时傅里叶变换将所述时域信号变换到频域。
4.根据权利要求3所述基于幅度估计与相位重构的单通道语音增强方法,其特征在于,在所述利用最小值控制的递归函数估计所述带噪语音信号的噪声功率谱过程中,先将所述时域信号通过原有的噪声功率谱与其局部最小值得到语音存在的概率,再通过所述语音存在的概率更新所述原有的噪声功率谱,并得到所述估计的噪声功率谱。
5.根据权利要求4所述基于幅度估计与相位重构的单通道语音增强方法,其特征在于,所述语音存在的概率的计算方法为:
将所述原有的带噪语音功率谱与所述局部最小值之比与一阈值进行比较,得到所述语音存在的概率,其中,所述局部最小值基于最小值统计算法寻找,即将所述原有的带噪语音功率谱进行递归比较,找到最小功率谱。
6.根据权利要求1所述基于幅度估计与相位重构的单通道语音增强方法,其特征在于,所述重构所述带噪语音信号的相位谱方法为:
通过构建加性共轭反对称函数来抵消噪声复频谱,在逆短时傅里叶变换期间,共轭相加在一起产生一个实值信号,通过修改共轭的角度来控制有用信号增强或噪声信号抵消的程度,同时,加性函数亦受信噪比影响,当信噪比不同时,相位补偿的程度也不同,从而改进相位信息。
7.根据权利要求4所述基于幅度估计与相位重构的单通道语音增强方法,其特征在于,将所述时域信号通过离散傅里叶变换方法转换到频域中,用极坐标形式表示频域中的信号,并引入过减因子以及平滑因子,所述过减因子的值通过每一帧信号的信噪比确定。
8.根据权利要求7所述基于幅度估计与相位重构的单通道语音增强方法,其特征在于,在低信噪比情况下,将所述过减因子的值设置较大,为了能够较大程度抑制噪声信号,从而减少音乐噪声,随着所述信噪比的提高,减小所述过减因子的值,防止过度削弱噪声,而造成幅度谱失真。
9.根据权利要求1所述基于幅度估计与相位重构的单通道语音增强方法,其特征在于,将所述估计的噪声功率谱与所述重构相位在频域中合成所述增强语音,其中,利用最小值控制的递归函数更新的所述估计的噪声功率谱代替原始利用无语音活动时的平均幅度谱估计,利用所述重构相位代替原始带噪信号相位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111318155.6A CN114005457A (zh) | 2021-11-09 | 2021-11-09 | 一种基于幅度估计与相位重构的单通道语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111318155.6A CN114005457A (zh) | 2021-11-09 | 2021-11-09 | 一种基于幅度估计与相位重构的单通道语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114005457A true CN114005457A (zh) | 2022-02-01 |
Family
ID=79928304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111318155.6A Pending CN114005457A (zh) | 2021-11-09 | 2021-11-09 | 一种基于幅度估计与相位重构的单通道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114005457A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052706A (zh) * | 2023-03-30 | 2023-05-02 | 苏州清听声学科技有限公司 | 一种基于神经网络的低复杂度语音增强方法 |
CN116403594A (zh) * | 2023-06-08 | 2023-07-07 | 澳克多普有限公司 | 基于噪声更新因子的语音增强方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4897878A (en) * | 1985-08-26 | 1990-01-30 | Itt Corporation | Noise compensation in speech recognition apparatus |
CN105427859A (zh) * | 2016-01-07 | 2016-03-23 | 深圳市音加密科技有限公司 | 一种用于对说话人识别的前端语音增强方法 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN106971740A (zh) * | 2017-03-28 | 2017-07-21 | 吉林大学 | 基于语音存在概率和相位估计的语音增强方法 |
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
CN112652322A (zh) * | 2020-12-23 | 2021-04-13 | 江苏集萃智能集成电路设计技术研究所有限公司 | 一种语音信号增强方法 |
-
2021
- 2021-11-09 CN CN202111318155.6A patent/CN114005457A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4897878A (en) * | 1985-08-26 | 1990-01-30 | Itt Corporation | Noise compensation in speech recognition apparatus |
CN105427859A (zh) * | 2016-01-07 | 2016-03-23 | 深圳市音加密科技有限公司 | 一种用于对说话人识别的前端语音增强方法 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
CN106971740A (zh) * | 2017-03-28 | 2017-07-21 | 吉林大学 | 基于语音存在概率和相位估计的语音增强方法 |
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
CN112652322A (zh) * | 2020-12-23 | 2021-04-13 | 江苏集萃智能集成电路设计技术研究所有限公司 | 一种语音信号增强方法 |
Non-Patent Citations (4)
Title |
---|
崔旭: "基于多窗谱估计的改进的维纳滤波语音增强算法", 电子世界, no. 007, 31 December 2017 (2017-12-31) * |
王秋菊: ""机载噪声环境下语音增强研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, 15 February 2018 (2018-02-15) * |
覃爱娜;戴亮;桂卫华;: "基于听觉掩蔽效应和最优平滑的语音增强算法", 计算机工程, no. 08, 15 August 2013 (2013-08-15) * |
韦怡: ""基于子带分析的耳语音增强算法研究"", 《中国优秀硕士学位论文全文数据库》, 15 February 2020 (2020-02-15), pages 3 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052706A (zh) * | 2023-03-30 | 2023-05-02 | 苏州清听声学科技有限公司 | 一种基于神经网络的低复杂度语音增强方法 |
CN116403594A (zh) * | 2023-06-08 | 2023-07-07 | 澳克多普有限公司 | 基于噪声更新因子的语音增强方法和装置 |
CN116403594B (zh) * | 2023-06-08 | 2023-08-18 | 澳克多普有限公司 | 基于噪声更新因子的语音增强方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2329550C2 (ru) | Способ и устройство для улучшения речевого сигнала в присутствии фонового шума | |
US7912567B2 (en) | Noise suppressor | |
Yamashita et al. | Nonstationary noise estimation using low-frequency regions for spectral subtraction | |
Verteletskaya et al. | Noise reduction based on modified spectral subtraction method | |
Yuo et al. | Robust features for noisy speech recognition based on temporal trajectory filtering of short-time autocorrelation sequences | |
CN114005457A (zh) | 一种基于幅度估计与相位重构的单通道语音增强方法 | |
Djendi et al. | Reducing over-and under-estimation of the a priori SNR in speech enhancement techniques | |
Wolfe et al. | Towards a perceptually optimal spectral amplitude estimator for audio signal enhancement | |
Islam et al. | Speech enhancement based on a modified spectral subtraction method | |
So et al. | Suppressing the influence of additive noise on the Kalman gain for low residual noise speech enhancement | |
Sørensen et al. | Speech enhancement with natural sounding residual noise based on connected time-frequency speech presence regions | |
Kandagatla et al. | Speech enhancement using MMSE estimation of amplitude and complex speech spectral coefficients under phase-uncertainty | |
Upadhyay et al. | Spectral subtractive-type algorithms for enhancement of noisy speech: an integrative review | |
So et al. | A non-iterative Kalman filtering algorithm with dynamic gain adjustment for single-channel speech enhancement | |
Fukane et al. | Enhancement of noisy speech signals for hearing aids | |
EP1635331A1 (en) | Method for estimating a signal to noise ratio | |
JP4125322B2 (ja) | 基本周波数抽出装置、その方法、そのプログラム並びにそのプログラムを記録した記録媒体 | |
Zhang et al. | Speech enhancement for nonstationary noise environments | |
Upadhyay et al. | Single channel speech enhancement utilizing iterative processing of multi-band spectral subtraction algorithm | |
Patil et al. | Use of baseband phase structure to improve the performance of current speech enhancement algorithms | |
Dionelis | On single-channel speech enhancement and on non-linear modulation-domain Kalman filtering | |
Yu et al. | High-Frequency Component Restoration for Kalman Filter Based Speech Enhancement | |
Esch et al. | Model-based speech enhancement exploiting temporal and spectral dependencies | |
Sunnydayal et al. | Speech enhancement using sub-band wiener filter with pitch synchronous analysis | |
Paikrao et al. | Analysis modification synthesis based Optimized Modulation Spectral Subtraction for speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |