CN112735458A - 噪声估计方法、降噪方法及电子设备 - Google Patents
噪声估计方法、降噪方法及电子设备 Download PDFInfo
- Publication number
- CN112735458A CN112735458A CN202011582654.1A CN202011582654A CN112735458A CN 112735458 A CN112735458 A CN 112735458A CN 202011582654 A CN202011582654 A CN 202011582654A CN 112735458 A CN112735458 A CN 112735458A
- Authority
- CN
- China
- Prior art keywords
- frequency point
- current frame
- noise estimation
- current
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000009467 reduction Effects 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000015654 memory Effects 0.000 claims description 31
- 230000001133 acceleration Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
本发明涉及音频处理技术领域,具体涉及噪声估计方法、降噪方法及电子设备,所述噪声估计方法包括获取待处理音频,获取所述待处理音频的基频及语音状态;计算所述待处理音频中当前帧的各个频点的信号功率;基于所述当前帧的各个频点的序号、所述基频以及所述语音状态,确定所述当前帧的各个频点的音频状态;根据所述当前帧的各个频点的音频状态以及所述各个频点的信号功率,确定所述当前帧的各个频点的噪声估计值。基于基音跟踪的方式进行噪声估计,能够保证语音质量;且还结合语音状态,保证跟踪速度,从而语音质量与跟踪速度之间的平衡,实现了快速且对语音损伤较小的噪声估计。
Description
技术领域
本发明涉及音频处理技术领域,具体涉及噪声估计方法、降噪方法及电子设备。
背景技术
在VOIP应用中,比如软件视频会议、VOIP电话会议等,降噪扮演着一个至关重要的角色,其算法性能的好坏直接影响着用户会议通话的质量。
在理论上,可以通过噪声的估计和维纳滤波的方式实现降噪目的。但在实际的会议场景中,噪声的种类多种多样,比如有电流噪声、风扇声、空调声、敲键盘声、点击鼠标声等,且噪声的组成比较复杂,因此,对噪声的估计变得尤为困难。所以,噪声估计及时性和准确性直接影响着降噪的效果。
在现有的技术中,实现噪声估计的主要手段是最小统计噪声估计方法,它利用在噪声估计窗内搜索最小值作为噪声估计量。这种噪声估计算法对窗长选择敏感,当窗长选择比较长时,对非平稳噪声的跟踪速度缓慢,容易出现噪声被低估,降噪后仍有明显噪声被感知。当窗长选择比较短时,容易将能量较小的语音估计成噪声,对语音造成了损伤,影响了会议语音的可懂度。因此,该方法难以保证噪声跟踪速度与语音质量之间的平衡。
发明内容
有鉴于此,本发明实施例提供了一种噪声估计方法、降噪方法及电子设备,以解决噪声跟踪速度与语音质量之间的平衡的问题。
根据第一方面,本发明实施例提供了一种噪声估计方法,所述方法包括:
获取待处理音频,获取所述待处理音频的基频及语音状态;
计算所述待处理音频中当前帧的各个频点的信号功率;
基于所述当前帧的各个频点的序号、所述基频以及所述语音状态,确定所述当前帧的各个频点的音频状态;
根据所述当前帧的各个频点的音频状态以及所述各个频点的信号功率,确定所述当前帧的各个频点的噪声估计值。
本发明实施例提供的噪声估计方法,在进行噪声估计时依据各个频点的音频状态以及各个频点的信号功率,即,基于基音跟踪的方式进行噪声估计,能够保证语音质量;且还结合语音状态,保证跟踪速度,从而语音质量与跟踪速度之间的平衡,实现了快速且对语音损伤较小的噪声估计。
结合第一方面,在第一方面第一实施方式中,所述基于所述当前帧的各个频点的序号、所述基频以及所述语音状态,确定所述当前帧的各个频点的音频状态,包括:
利用所述各个频点的序号以及所述基频,确定所述各个频点是否为目标语音所在的频点;
利用所述语音状态确定所述当前帧是否有语音。
本发明实施例提供的噪声估计方法,通过确定目标语音所在的频点以避免的目标语音的频点噪声损伤,同时确定当前帧是否有语音,以便后续对无语音段进行加速处理,提高噪声跟踪速度。
结合第一方面第一实施方式,在第一方面第二实施方式中,所述利用所述各个频点的序号以及所述基频,确定所述各个频点是否为目标语音所在的频点,包括:
获取所述当前帧的采样率;
基于所述采样率、所述当前帧的频点数量以及所述基频,确定基音序号;
判断所述各个频点的序号是否为所述基音序号的整数倍,以确定所述各个频点是否为目标语音所在的频点。
本发明实施例提供的噪声估计方法,将各个频点的序号与基因序号的整数倍进行比较,以确定各个频点是否对应基音频率或谐波频率,能够有效地避免了在这些频段的噪声过估,减少了对语音的损伤。
结合第一方面第一实施方式,在第一方面第三实施方式中,所述根据所述当前帧的各个频点的音频状态以及所述各个频点的信号功率,确定所述当前帧的各个频点的噪声估计值,包括:
当所述当前帧的当前频点的音频状态为目标语音所在的频点时,获取所述当前帧的上一帧中对应于所述当前频点的序号的历史噪声估计值;
基于所述历史噪声估计值以及所述当前频点的信号功率,确定所述当前频点的噪声估计值。
本发明实施例提供的噪声估计方法,对目标语音所在的频点,用上一帧的噪声估计值表示当前帧,实现对当前帧停止噪声估计的更新,从而不会对语音的关键频点造成损伤。
结合第一方面第三实施方式,在第一方面第四实施方式中,所述当前频点的噪声估计值采用如下公式表示:
N(l,k)=min{N(l-1,k),P(l,k)};
其中,N(l,k)为所述当前频点k的噪声估计值,N(l-1,k)为所述历史噪声估计值,为所述当前频点k的信号功率,l为所述当前帧在所述待处理音频中的序号。
结合第一方面第三实施方式,在第一方面第五实施方式中,所述根据所述当前帧的各个频点的音频状态以及所述各个频点的信号功率,确定所述当前帧的各个频点的噪声估计值,包括:
当所述当前帧的当前频点的音频状态为非目标语音所在的频点且所述当前帧无语音时,获取所述当前频点对应的最小信号功率估计值以及加速系数;
基于所述最小信号功率估计值、所述加速系数以及所述当前频点的信号功率,确定所述当前频点的噪声估计值。
本发明实施例提供的噪声估计方法,对于非目标语音所在的频点且当前帧无语音时,利用加速系数加速噪声的估计,提高了跟踪速度。
结合第一方面第五实施方式,在第一方面第六实施方式中,所述当前频点的噪声估计值采用如下公式表示:
N(l,k)=min{β*Pmin(l,k),P(l,k)};
其中,N(l,k)为所述当前频点k的噪声估计值,β为所述加速系数且β>0,Pmin(l,k)为所述当前频点k对应的最小信号功率估计值,P(l,k)为所述当前频点k的信号功率,l为所述当前帧在所述待处理音频中的序号。
结合第一方面第三实施方式,在第一方面第七实施方式中,所述根据所述当前帧各个频点的音频状态以及所述各个频点的信号功率,确定所述当前帧各个频点的噪声估计值,包括:
当所述当前帧的当前频点的音频状态为非目标语音所在的频点且所述当前帧有语音时,获取所述当前频点对应的最小信号功率估计值;
确定所述最小信号功率估计值为所述当前频点的噪声估计值。
本发明实施例提供的噪声估计方法,对于非目标语音所在的频点且所述当前帧有语音时,利用最小信号功率估计值确定当前频点的噪声估计,能够跟踪到一个比较接近真实水平的噪声。
根据第二方面,本发明实施例还提供了一种降噪方法,所述方法包括:
根据本发明第一方面,或第一方面任一项实施方式中所述的噪声估计方法确定待处理音频中的噪声估计值;
基于所述噪声估计值对所述待处理音频进行降噪处理,得到目标语音信号。
本发明实施例提供的降噪方法,通过信号功率、语音状态以及基频,实现联合判断,并基于不同的判断结果确定不同的噪声估计方式,既能够快速跟踪到一个比较接近真实水平的噪声,又不会对语音的关键频点造成损伤,保证了所得到的目标语音信号的质量。
根据第三方面,本发明实施例还提供了一种噪声估计装置,所述装置包括:
获取模块,用于获取待处理音频,获取所述待处理音频的基频及语音状态;
计算模块,用于计算所述待处理音频中当前帧的各个频点的信号功率;
第一确定模块,用于基于所述当前帧的各个频点的序号、所述基频以及所述语音状态,确定所述当前帧的各个频点的音频状态;
第二确定模块,用于根据所述当前帧的各个频点的音频状态以及所述各个频点的信号功率,确定所述当前帧的各个频点的噪声估计值。
本发明实施例提供的噪声估计装置,在进行噪声估计时依据各个频点的音频状态以及各个频点的信号功率,即,基于基音跟踪的方式进行噪声估计,能够保证语音质量;且还结合语音状态,保证跟踪速度,从而语音质量与跟踪速度之间的平衡,实现了快速且对语音损伤较小的噪声估计。
根据第四方面,本发明实施例还提供了一种降噪装置,所述装置包括:
噪声估计模块,用于根据本发明第一方面,或第一方面任一项实施方式中所述的噪声估计方法确定待处理音频的噪声估计值;
降噪模块,用于基于所述噪声估计值对所述待处理音频进行降噪处理,得到目标语音信号。
本发明实施例提供的降噪装置,通过信号功率、语音状态以及基频,实现联合判断,并基于不同的判断结果确定不同的噪声估计方式,既能够快速跟踪到一个比较接近真实水平的噪声,又不会对语音的关键频点造成损伤,保证了所得到的目标语音信号的质量。
根据第五方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的噪声估计方法,或执行第二方面中所述的降噪方法。
根据第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的噪声估计方法,或执行第二方面中所述的降噪方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的噪声估计方法的流程图;
图2示出了本发明实施例中噪声估计的应用场景示意图;
图3是根据本发明实施例的噪声估计方法的流程图;
图4是根据本发明实施例的噪声估计方法的流程图;
图5是根据本发明实施例的噪声估计方法的流程图;
图6是根据本发明实施例的降噪方法的流程图;
图7是根据本发明实施例的噪声估计装置的结构框图;
图8是根据本发明实施例的降噪装置的结构框图;
图9是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明实施例,提供了一种噪声估计方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种噪声估计方法,可用于电子设备,如会议终端、电脑、手机、平板电脑等,图1是根据本发明实施例的噪声估计方法的流程图,如图1所示,该流程包括如下步骤:
S11,获取待处理音频,获取待处理音频的基频及语音状态。
待处理音频可以是电子设备实时采集的,或者是电子设备从外界获取到的等等,具体可以根据实际情况进行相应的设置。
待处理音频的基频可以是电子设备获取到待处理音频之后,利用基音检测模块检测到的,也可以是电子设备从外界获取到的等等。在此对电子设备获取基频的方式,或者电子设备检测基频的方式并不做任何限定。
所述的语音状态用于表示待处理音频的各个音频帧是否存在语音,即是否为静音帧或者非静音帧。进一步地,各个音频帧是否为有效语音帧,或无效语音帧,所述的有效语音帧为有人的语音的音频帧。电子设备可以是从外界获取到待处理音频的语音状态,也可以是电子设备在获取到待处理音频之后,利用语音活动检测器检测语音状态,或者是采用其他方式获取到语音状态的。
例如,如图2所示,待处理音频输入至电子设备中,电子设备利用基音检测器检测待处理音频的基频,且利用语音活动检测器检测待处理音频的语音状态。其中,所述的基音检测器与语音活动检测器可以是电子设备中预置的软件处理模块,通过接口调用相应的模块实现相应的功能。其中,将语音状态采用语音状态标志VadFlag表示,将基音检测器输出的基频表示为PitchFreq。当VadFlag=1时,表示当前帧存在语音,当VadFlag=0时,表示当前帧不存在语音。
S12,计算待处理音频中当前帧的各个频点的信号功率。
电子设备在获取到待处理音频之后,依次计算待处理音频中的每一帧的各个频点的信号功率。例如,可以先对每一帧进行拼帧加窗;再将加窗处理后的信号帧进行傅里叶变换,换成频域信号;最后再计算每一帧在各个频点的信号功率。
具体地,电子设备对待处理音频中的当前帧x(n)(以48khz采样率为例的语音信号)拼帧加窗,考虑到语音的短视平稳性,以50%的帧移进行拼帧,并以长度N为1024点汉宁窗加窗,其表达式为:
电子设备对当前l帧加窗后信号进行快速傅里叶变换,换成频域信号Y(l,k),其表达式为:
计算当前帧(l帧)上k频点(0<k≤N)的信号功率P(l,k),其计算表达式为:
P(l,k)=α*P(l-1,k)+(1-α)*|Y(l,k)|2;
其中,为平滑系数,取值为0.93。
需要说明的是,上文所述的计算信号功率的方式仅仅是一种可行的实施方式,但是本发明的保护范围并不限于此,还可以采用其他方式计算当前帧的各个频点的信号功率。
S13,基于当前帧的各个频点的序号、基频以及语音状态,确定当前帧的各个频点的音频状态。
电子设备在获取到的基频之后,就可以利用当前帧的采样率将基频转换为基音序号,即表示基音所在的频点的序号。其中,目标语音所在的频点为基音所在的频点或谐波所在的频点。因此,电子设备可以先将基频转换为基音所在的频点序号,再利用当前帧的各个频点的序号与基音所在的频点序号,就能够确定当前帧的各个频点是否为目标语音所在的频点。
如上文所述,语音状态可以用状态标志位表示,电子设备就可以利用状态标注位的数值确定当前帧是否存在语音。进而,结合上述两个比较判断,就可以确定当前帧的各个频点的音频状态。
S14,根据当前帧的各个频点的音频状态以及各个频点的信号功率,确定当前帧的各个频点的噪声估计值。
电子设备在确定出各个频点的音频状态时,针对不同的音频状态采用不同的噪声估计方式。例如,若当前帧的当前频点为目标语音所在的频点,则在当前频点停止噪声估计;当当前帧的当前频点不存在语音,则可以在当前频点加速噪声估计;当当前帧的当前频点存在语音,则需要对当前频点进行噪声估计。
具体关于该步骤将在下文中进行详细描述。
本实施例提供的噪声估计方法,在进行噪声估计时依据各个频点的音频状态以及各个频点的信号功率,即,基于基音跟踪的方式进行噪声估计,能够保证语音质量;且还结合语音状态,保证跟踪速度,从而语音质量与跟踪速度之间的平衡,实现了快速且对语音损伤较小的噪声估计。
在本实施例中提供了一种噪声估计方法,可用于电子设备,如电脑、手机、平板电脑等,图3是根据本发明实施例的噪声估计方法的流程图,如图3所示,该流程包括如下步骤:
S21,获取待处理音频,获取待处理音频的基频及语音状态。
详细请参见图1所示实施例的S11,在此不再赘述。
S22,计算待处理音频中当前帧的各个频点的信号功率。
详细请参见图1所示实施例的S11,在此不再赘述。
S23,基于当前帧的各个频点的序号、基频以及所述语音状态,确定当前帧的各个频点的音频状态。
具体地,上述S23可以包括如下步骤:
S231,利用各个频点的序号以及基频,确定各个频点是否为目标语音所在的频点。
如上文所述,电子设备在获取到的基频之后,利用当前帧的采样率即可将基频转换为基音序号。
具体地,上述S231可以包括如下步骤:
(1)获取当前帧的采样率。
当前帧的采样率可以是设置的,也可以是电子设备从外界获取到的等等。如上述S12所示,当前帧的采样率为48khz。
(2)基于采样率、当前帧的频点数量以及所述基频,确定基音序号。
当前帧的频点数量即为傅里叶变换的点数N,电子设备利用如下公式就可以计算出基音序号:N*PitchFreq/fs
其中,N为傅里叶变换的点数,即当前帧的频点数量,fs为采样率。
(3)判断各个频点的序号是否为基音序号的整数倍,以确定各个频点是否为目标语音所在的频点。
电子设备在对各个频点进行噪声估计时,先依次判断各个频点的序号是否为基音序号的整数倍,若为基音序号的整数倍,则认为当前频点是目标语音所在的频点;若不是基音序号的整数倍,则认为当前频点不是目标语音所在的频点。
将各个频点的序号与基因序号的整数倍进行比较,以确定各个频点是否对应基音频率或谐波频率,能够有效地避免了在这些频段的噪声过估,减少了对语音的损伤。
S232,利用语音状态确定当前帧是否有语音。
进一步地,电子设备还利用各个帧的语音状态确定各个帧是否有语音,若当前帧对应的语音状态标志VadFlag的值为0,则表示当前帧不存在语音;若当前帧对应的语音状态标志VadFlag的值为1,则表示当前帧存在语音。
即,电子设备通过上述S231以S232的处理,就可以确定各个频点的音频状态。
S24,根据当前帧的各个频点的音频状态以及各个频点的信号功率,确定当前帧的各个频点的噪声估计值。
详细请参见图1所示实施例的S14,在此不再赘述。
本实施例提供的噪声估计方法,通过确定目标语音所在的频点以避免的目标语音的频点噪声损伤,同时确定当前帧是否有语音,以便后续对无语音段进行加速处理,提高噪声跟踪速度。
在本实施例中提供了一种噪声估计方法,可用于电子设备,如电脑、手机、平板电脑等,图4是根据本发明实施例的噪声估计方法的流程图,如图4所示,该流程包括如下步骤:
S31,获取待处理音频,获取待处理音频的基频及语音状态。
详细请参见图3所示实施例的S21,在此不再赘述。
S32,计算待处理音频中当前帧的各个频点的信号功率。
详细请参见图3所示实施例的S22,在此不再赘述。
S33,基于当前帧的各个频点的序号、基频以及所述语音状态,确定当前帧的各个频点的音频状态。
详细参见图3所示实施例的S23,在此不再赘述。
S34,根据当前帧的各个频点的音频状态以及各个频点的信号功率,确定当前帧的各个频点的噪声估计值。
具体地,上述S34可以包括如下步骤:
S341,当所述当前帧的当前频点的音频状态为目标语音所在的频点时,获取当前帧的上一帧中对应于当前频点的序号的历史噪声估计值。
如上文所述,电子设备在上述S33中已经确定当前帧的当前频点的音频状态,具体包括当前频点是否为目标语音所在的频点,当前频点所在的当前帧是否具有语音。
电子设备就可以基于当前频点的不同语音状态进行不同的噪声估计。具体地,当当前帧的当前频点的音频状态为目标语音所在的频点时,即当前频点的序号为基音序号的整数倍,此时需要停止噪声估计。
电子设备就需要获取当前帧的上一帧中对应于当前频点的序号的历史噪声估计值,用历史噪声估计值实现对当前频点的噪声估计。
S342,基于历史噪声估计值以及当前频点的信号功率,确定当前频点的噪声估计值。
电子设备可以取历史噪声估计值与当前频点的信号功率的最小值,作为当前频点的噪声估计值;也可以是计算历史噪声估计值与当前频点的信号功率的均值,作为当前频点的噪声估计值等等。
具体地,所述当前频点的噪声估计值采用如下公式表示:
N(l,k)=min{N(l-1,k),P(l,k)}
其中,N(l,k)为所述当前频点k的噪声估计值,N(l-1,k)为所述历史噪声估计值,为所述当前频点k的信号功率,l为所述当前帧在所述待处理音频中的序号。
S343,当所述当前帧的当前频点的音频状态为非目标语音所在的频点且当前帧无语音时,获取当前频点对应的最小信号功率估计值以及加速系数。
当当前频点为非目标语音所在的频点且当前帧无语音时,需要对当前频点加速噪声的估计。电子设备就需要对当前频点进行信号功率估计,并确定当前频点对应的最小信号功率估计值;同时利用加速系数,对当前频点进行加速噪声的估计。
其中,电子设备可以在获得当前频点的信号功率P(l,k)后,对其进行D个连续估计之后,计算最小信号功率估计值Pmin(l,k)。例如,采用如下公表达式计算当前频点对应的最小信号功率估计值Pmin(l,k):
ifmod(l/D)=0
Pmin(l,k)=min{Ptmp(l-1,k),P(l,k)}
Ptmp(l,k)=P(l,k)
else
Pmin(l,k)=min{Ptmp(l-1,k),P(l,k)}
Ptmp(l,k)=min{Ptmp(l-1,k),P(l,k)}
end
其中,D是一个比较大的值,考虑到语音说话间隙和不同会议环境混响的影响,在本实施例中D的取值可以为150,约1.5秒的时间。上式中的Ptmp(l,k)为估计过程中的一个临时变量。
S344,基于最小信号功率估计值、加速系数以及当前频点的信号功率,确定当前频点的噪声估计值。
具体地,所述当前频点的噪声估计值采用如下公式表示:
N(l,k)=min{β*Pmin(l,k),P(l,k)};
其中,N(l,k)为所述当前频点k的噪声估计值,β为所述加速系数且β>0,Pmin(l,k)为所述当前频点k对应的最小信号功率估计值,P(l,k)为所述当前频点k的信号功率,l为所述当前帧在所述待处理音频中的序号。
S345,当所述当前帧的当前频点的音频状态为非目标语音所在的频点且当前帧有语音时,获取当前频点对应的最小信号功率估计值。
电子设备在当前频点的音频状态为非目标语音所在的频点且当前帧有语音时,计算当前频点对应的最小信号功率估计值,其具体计算方式可以参见上述S343所述,在此不再赘述。
S346,确定最小信号功率估计值为当前频点的噪声估计值。
电子设备在获取到当前频点对应的最小信号功率估计值之后,将最小信号功率估计值确定为当前频点的噪声估计值。
本实施例提供的噪声估计方法,对目标语音所在的频点,用上一帧的噪声估计值表示当前帧,实现对当前帧停止噪声估计的更新,从而不会对语音的关键频点造成损伤;对于非目标语音所在的频点且当前帧无语音时,利用加速系数加速噪声的估计,提高了跟踪速度;对于非目标语音所在的频点且所述当前帧有语音时,利用最小信号功率估计值确定当前频点的噪声估计,能够跟踪到一个比较接近真实水平的噪声。
作为本实施例的一个具体应用实施例,如图5所示,所述的噪声估计方法可以包括如下步骤:
(1)电子设备计算待处理音频中当前帧的各个频点的信号功率;
(2)判断当前频点是否为目标语音所在的频点,当当前频点为目标语音所在的频点时,执行步骤(3);否则,执行步骤(4);
(3)停止噪声估计,采用上述S342确定当前频点的噪声估计值;
(4)判断当前频点是否存在语音,当当前频点不存在语音时,执行步骤(5),否则,执行步骤(6);
(5)加速噪声估计,采用上述S344确定当前频点的噪声估计值;
(6)搜索最小信号功率信号估计值,并更新噪声估计,采用上述S346确定当前频点的噪声估计值。
本实施例提供的噪声估计方法,降噪跟踪速度快:在无语音段对噪声的加速跟踪,能够快速提高噪声的估计,避免统计窗长设计比较长导致估计噪声偏小;语音可懂度高:对语音信号基音跟踪,能快速识别基音频率和谐波频率,能有效地避免了在这些频段的噪声过估,减少了对语音的损伤。
根据本发明实施例,提供了一种降噪方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种降噪方法,可用于电子设备,如电脑、手机、平板电脑等,图6是根据本发明实施例的噪声估计方法的流程图,如图6所示,该流程包括如下步骤:
S41,根据上述任一项实施方式中所述的噪声估计方法确定待处理音频中的噪声估计值。
详细请参见上述实施例的描述,在此不再赘述。
S42,基于噪声估计值对待处理音频进行降噪处理,得到目标语音信号。
电子设备在确定出当前频点的噪声估计值之后,对噪声进行抑制实现语音增强。例如,如图2所示,可以采用维纳滤波抑制函数,滤除待处理音频中的噪声估计值,从而获得降噪后的目标语音信号out(n)。
所述的维纳滤波抑制函数可以采用如下公式表示:
其中,H(l,k)为当前频点进行滤波处理后的结果。
本实施例提供的降噪方法,通过信号功率、语音状态以及基频,实现联合判断,并基于不同的判断结果确定不同的噪声估计方式,既能够快速跟踪到一个比较接近真实水平的噪声,又不会对语音的关键频点造成损伤,保证了所得到的目标语音信号的质量。
在本实施例中还提供了一种噪声估计装置,或降噪装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种噪声估计装置,如图7所示,包括:
获取模块51,用于获取待处理音频,获取所述待处理音频的基频及语音状态;
计算模块52,用于计算所述待处理音频中当前帧的各个频点的信号功率;
第一确定模块53,用于基于所述当前帧的各个频点的序号、所述基频以及所述语音状态,确定所述当前帧的各个频点的音频状态;
第二确定模块54,用于根据所述当前帧的各个频点的音频状态以及所述各个频点的信号功率,确定所述当前帧的各个频点的噪声估计值。
本实施例提供的噪声估计装置,在进行噪声估计时依据各个频点的音频状态以及各个频点的信号功率,即,基于基音跟踪的方式进行噪声估计,能够保证语音质量;且还结合语音状态,保证跟踪速度,从而语音质量与跟踪速度之间的平衡,实现了快速且对语音损伤较小的噪声估计。
本实施例提供一种降噪装置,如图8所示,包括:
噪声估计模块61,用于根据本发明第一方面,或第一方面任一项实施方式中所述的噪声估计方法确定待处理音频的噪声估计值;
降噪模块62,用于基于所述噪声估计值对所述待处理音频进行降噪处理,得到目标语音信号。
本实施例提供的降噪装置,通过信号功率、语音状态以及基频,实现联合判断,并基于不同的判断结果确定不同的噪声估计方式,既能够快速跟踪到一个比较接近真实水平的噪声,又不会对语音的关键频点造成损伤,保证了所得到的目标语音信号的质量。
本实施例中的噪声估计装置,或降噪装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种电子设备,具有上述图7所示的噪声估计装置,或图8所示的降噪装置。
请参阅图9,图9是本发明可选实施例提供的一种电子设备的结构示意图,如图9所示,该电子设备可以包括:至少一个处理器71,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口73,存储器74,至少一个通信总线72。其中,通信总线72用于实现这些组件之间的连接通信。其中,通信接口73可以包括显示屏(Display)、键盘(Keyboard),可选通信接口73还可以包括标准的有线接口、无线接口。存储器74可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器74可选的还可以是至少一个位于远离前述处理器71的存储装置。其中处理器71可以结合图7或8所描述的装置,存储器74中存储应用程序,且处理器71调用存储器74中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线72可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线72可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器74可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器74还可以包括上述种类的存储器的组合。
其中,处理器71可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器71还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器74还用于存储程序指令。处理器71可以调用程序指令,实现如本申请图1、3-4实施例中所示的噪声估计方法,或图6实施例所示的降噪方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的噪声估计方法,或降噪方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (11)
1.一种噪声估计方法,其特征在于,所述方法包括:
获取待处理音频,获取所述待处理音频的基频及语音状态;
计算所述待处理音频中当前帧的各个频点的信号功率;
基于所述当前帧的各个频点的序号、所述基频以及所述语音状态,确定所述当前帧的各个频点的音频状态;
根据所述当前帧的各个频点的音频状态以及所述各个频点的信号功率,确定所述当前帧的各个频点的噪声估计值。
2.根据权利要求1所述的方法,其特征在于,所述基于所述当前帧的各个频点的序号、所述基频以及所述语音状态,确定所述当前帧的各个频点的音频状态,包括:
利用所述各个频点的序号以及所述基频,确定所述各个频点是否为目标语音所在的频点;
利用所述语音状态确定所述当前帧是否有语音。
3.根据权利要求2所述的方法,其特征在于,所述利用所述各个频点的序号以及所述基频,确定所述各个频点是否为目标语音所在的频点,包括:
获取所述当前帧的采样率;
基于所述采样率、所述当前帧的频点数量以及所述基频,确定基音序号;
判断所述各个频点的序号是否为所述基音序号的整数倍,以确定所述各个频点是否为目标语音所在的频点。
4.根据权利要求2所述的方法,其特征在于,所述根据所述当前帧的各个频点的音频状态以及所述各个频点的信号功率,确定所述当前帧的各个频点的噪声估计值,包括:
当所述当前帧的当前频点的音频状态为目标语音所在的频点时,获取所述当前帧的上一帧中对应于所述当前频点的序号的历史噪声估计值;
基于所述历史噪声估计值以及所述当前频点的信号功率,确定所述当前频点的噪声估计值。
5.根据权利要求4所述的方法,其特征在于,所述当前频点的噪声估计值采用如下公式表示:
N(l,k)=min{N(l-1,k),P(l,k)}
其中,N(l,k)为所述当前频点k的噪声估计值,N(l-1,k)为所述历史噪声估计值,为所述当前频点k的信号功率,l为所述当前帧在所述待处理音频中的序号。
6.根据权利要求4所述的方法,其特征在于,所述根据所述当前帧的各个频点的音频状态以及所述各个频点的信号功率,确定所述当前帧的各个频点的噪声估计值,包括:
当所述当前帧的当前频点的音频状态为非目标语音所在的频点且所述当前帧无语音时,获取所述当前频点对应的最小信号功率估计值以及加速系数;
基于所述最小信号功率估计值、所述加速系数以及所述当前频点的信号功率,确定所述当前频点的噪声估计值。
7.根据权利要求6所述的方法,其特征在于,所述当前频点的噪声估计值采用如下公式表示:
N(l,k)=min{β*Pmin(l,k),P(l,k)};
其中,N(l,k)为所述当前频点k的噪声估计值,β为所述加速系数且β>0,Pmin(l,k)为所述当前频点k对应的最小信号功率估计值,P(l,k)为所述当前频点k的信号功率,l为所述当前帧在所述待处理音频中的序号。
8.根据权利要求4所述的方法,其特征在于,所述根据所述当前帧各个频点的音频状态以及所述各个频点的信号功率,确定所述当前帧各个频点的噪声估计值,包括:
当所述当前帧的当前频点的音频状态为非目标语音所在的频点且所述当前帧有语音时,获取所述当前频点对应的最小信号功率估计值;
确定所述最小信号功率估计值为所述当前频点的噪声估计值。
9.一种降噪方法,其特征在于,所述方法包括:
根据权利要求1-8中任一项所述的噪声估计方法确定待处理音频中的噪声估计值;
基于所述噪声估计值对所述待处理音频进行降噪处理,得到目标语音信号。
10.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-8中任一项所述的噪声估计方法,或权利要求9所述的降噪方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-8中任一项所述的噪声估计方法,或权利要求9所述的降噪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011582654.1A CN112735458B (zh) | 2020-12-28 | 2020-12-28 | 噪声估计方法、降噪方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011582654.1A CN112735458B (zh) | 2020-12-28 | 2020-12-28 | 噪声估计方法、降噪方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112735458A true CN112735458A (zh) | 2021-04-30 |
CN112735458B CN112735458B (zh) | 2024-08-27 |
Family
ID=75607180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011582654.1A Active CN112735458B (zh) | 2020-12-28 | 2020-12-28 | 噪声估计方法、降噪方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735458B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100017205A1 (en) * | 2008-07-18 | 2010-01-21 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
CN105513605A (zh) * | 2015-12-01 | 2016-04-20 | 南京师范大学 | 手机麦克风的语音增强系统和语音增强方法 |
WO2020107269A1 (zh) * | 2018-11-28 | 2020-06-04 | 深圳市汇顶科技股份有限公司 | 自适应语音增强方法和电子设备 |
CN111968662A (zh) * | 2020-08-10 | 2020-11-20 | 北京小米松果电子有限公司 | 音频信号的处理方法及装置、存储介质 |
-
2020
- 2020-12-28 CN CN202011582654.1A patent/CN112735458B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100017205A1 (en) * | 2008-07-18 | 2010-01-21 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
CN105513605A (zh) * | 2015-12-01 | 2016-04-20 | 南京师范大学 | 手机麦克风的语音增强系统和语音增强方法 |
WO2020107269A1 (zh) * | 2018-11-28 | 2020-06-04 | 深圳市汇顶科技股份有限公司 | 自适应语音增强方法和电子设备 |
CN111968662A (zh) * | 2020-08-10 | 2020-11-20 | 北京小米松果电子有限公司 | 音频信号的处理方法及装置、存储介质 |
Non-Patent Citations (1)
Title |
---|
覃毅: "语音增强技术的算法改进研究", 中国优秀硕士学位论文全文数据库 信息科技辑, pages 136 - 111 * |
Also Published As
Publication number | Publication date |
---|---|
CN112735458B (zh) | 2024-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634497B (zh) | 降噪方法、装置、终端设备及存储介质 | |
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
JP3484757B2 (ja) | 音声信号の雑音低減方法及び雑音区間検出方法 | |
US10839820B2 (en) | Voice processing method, apparatus, device and storage medium | |
CN110782914B (zh) | 信号处理方法、装置、终端设备及存储介质 | |
CN110556125B (zh) | 基于语音信号的特征提取方法、设备及计算机存储介质 | |
CN113539285B (zh) | 音频信号降噪方法、电子装置和存储介质 | |
WO2022218254A1 (zh) | 语音信号增强方法、装置及电子设备 | |
CN113593599A (zh) | 一种去除语音信号中噪声信号的方法 | |
WO2021007841A1 (zh) | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 | |
CN110503973B (zh) | 音频信号瞬态噪音抑制方法、系统以及存储介质 | |
JP2016042613A (ja) | 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ | |
CN112997249B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN113205824B (zh) | 声音信号处理方法、装置、存储介质、芯片及相关设备 | |
CN106997768B (zh) | 一种语音出现概率的计算方法、装置及电子设备 | |
WO2024017110A1 (zh) | 语音降噪方法、模型训练方法、装置、设备、介质及产品 | |
CN113674752B (zh) | 音频信号的降噪方法、装置、可读介质和电子设备 | |
CN110992975B (zh) | 一种语音信号处理方法、装置及终端 | |
CN110556128B (zh) | 一种语音活动性检测方法、设备及计算机可读存储介质 | |
CN111477246B (zh) | 语音处理方法、装置及智能终端 | |
CN111986694A (zh) | 基于瞬态噪声抑制的音频处理方法、装置、设备及介质 | |
CN112735458B (zh) | 噪声估计方法、降噪方法及电子设备 | |
CN111048096B (zh) | 一种语音信号处理方法、装置及终端 | |
CN114360572A (zh) | 语音去噪方法、装置、电子设备及存储介质 | |
CN116504264B (zh) | 音频处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |