CN112700787A - 一种降噪方法、非易失性可读存储介质及电子设备 - Google Patents
一种降噪方法、非易失性可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN112700787A CN112700787A CN202110310616.9A CN202110310616A CN112700787A CN 112700787 A CN112700787 A CN 112700787A CN 202110310616 A CN202110310616 A CN 202110310616A CN 112700787 A CN112700787 A CN 112700787A
- Authority
- CN
- China
- Prior art keywords
- noise
- power spectrum
- target
- frequency
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000001228 spectrum Methods 0.000 claims abstract description 193
- 238000001914 filtration Methods 0.000 claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims description 43
- 238000005070 sampling Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明涉及语音降噪技术领域,公开一种降噪方法、非易失性可读存储介质及电子设备,降噪方法包括:获取目标语音帧及其目标功率谱,过滤目标功率谱的语音功率谱,得到噪声功率谱,根据噪声功率谱,对目标语音帧进行降噪,因此,本方法能够尽量避免过滤与噪声同频段的语音信号,从而能够尽量保留正常语音,在降噪时最大程度地还原正常语音,为用户提供高质的语音,从而提高降噪效果。
Description
技术领域
本发明涉及语音降噪技术领域,具体涉及一种降噪方法、非易失性可读存储介质及电子设备。
背景技术
噪声无处不在,已影响到用户对正常语音的获取。通常,对于一些噪声,其能量集中的频段与正常语音的部分频段重合,使用传统语音降噪算法处理采集的语音信号时,虽然可以过滤掉噪声,但是也会过滤部分正常语音,导致正常语音容易失真,无法为用户提供高质的语音信号。
发明内容
本发明实施例的一个目的旨在提供一种降噪方法、非易失性可读存储介质及电子设备,其能够提高降噪效果。
在第一方面,本发明实施例提供一种降噪方法,包括:
获取目标语音帧及其目标功率谱;
过滤所述目标功率谱的语音功率谱,得到噪声功率谱;
根据所述噪声功率谱,对所述目标语音帧进行降噪。
可选地,所述过滤所述目标功率谱的语音功率谱,得到噪声功率谱包括:
根据所述目标功率谱,确定基音频率及谐波频率;
根据所述基音频率及所述谐波频率,生成掩码模板;
根据所述掩码模板,过滤所述目标功率谱的语音功率谱,得到噪声功率谱。
可选地,所述根据所述目标功率谱,确定基音频率及谐波频率包括:
根据基于倒谱的语音基音频率估计算法,在所述目标功率谱的语音频率范围内确定基音频率;
选择与所述基音频率成N倍频的频率作为谐波频率,其中,N为正整数且大于1。
可选地,所述根据所述基音频率及所述谐波频率,生成掩码模板包括:
可选地,所述根据所述掩码模板,过滤所述目标功率谱的语音功率谱,得到噪声功率谱包括:
使用所述掩码模板与所述目标功率谱作为逻辑运算,以将基音频率范围及谐波频率范围在所述目标功率谱上的功率值设置为零并得到功率缺口;
根据插值算法,修补所述功率缺口,并将修补后的目标功率谱作为噪声功率谱。
可选地,所述根据所述噪声功率谱,对所述目标语音帧进行降噪包括:
根据所述噪声功率谱,结合幅度增益算法,计算降噪增益;
将所述降噪增益与所述目标语音帧的频谱作乘法运算,得到降噪信号。
可选地,在得到噪声功率谱之前,所述方法还包括:
判断所述目标语音帧是否包含语音信号;
若是,进入过滤所述目标功率谱的语音功率谱,得到噪声功率谱的步骤;
若否,根据高通滤波算法,对所述目标语音帧进行降噪。
可选地,噪声的频段为低频段,所述判断所述目标语音帧是否包含语音信号包括:
计算所述目标语音帧的中高频段的功率总和;
判断所述功率总和是否大于第一预设阈值。
可选地,在得到噪声功率谱之前,所述方法还包括:
根据所述目标语音帧,提取语音特征;
根据所述语音特征,检测所述目标语音帧是否包含噪声信号;
若包含,进入过滤所述目标功率谱的语音功率谱,得到噪声功率谱的步骤;
若未包含,返回获取目标语音帧的步骤。
可选地,所述根据所述语音特征,检测所述目标语音帧是否包含噪声信号包括:
确定所述语音特征属于噪声特征的噪声概率;
根据所述语音特征的噪声概率,检测所述目标语音帧是否包含噪声信号。
可选地,所述噪声特征包括负斜率拟合特征,所述确定所述语音特征属于噪声特征的噪声概率包括:
根据负斜率拟合算法,求取所述目标语音帧的幅度谱与线性近似幅度谱的误差;
对所述误差作归一化处理,得到所述语音特征属于负斜率拟合特征的噪声概率。
可选地,所述根据所述语音特征的噪声概率,检测所述目标语音帧是否包含噪声信号包括:
判断所述语音特征的噪声概率是否大于预设概率阈值;
若是,确定所述目标语音帧包含噪声信号;
若否,确定所述目标语音帧未包含噪声信号。
可选地,噪声为风噪。
在第二方面,一种非易失性可读存储介质,所述非易失性可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使电子设备执行上述的降噪方法。
在第三方面,本发明实施例提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被电子设备执行时,使电子设备执行上述降噪方法。
在第四方面,本发明实施例提供一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的降噪方法。
本发明与现有技术相比至少具有以下有益效果:在本发明实施例提供的降噪方法中,首先,获取目标语音帧及其目标功率谱,其次,过滤目标功率谱的语音功率谱,得到噪声功率谱,最后,根据噪声功率谱,对目标语音帧进行降噪,因此,本方法能够尽量避免过滤与噪声同频段的语音信号,从而能够尽量保留正常语音,在降噪时最大程度地还原正常语音,为用户提供高质的语音,从而提高降噪效果。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本发明实施例提供的一种耳机的电路原理框图;
图2为本发明实施例提供的一种降噪方法的流程示意图;
图3为图2所示的S22的流程示意图;
图4a为图3所示的S221的流程示意图;
图4b为本发明实施例提供的一种掩码模板的示意图;
图4c为图2所示的S223的流程示意图;
图5为图2所示的S23的流程示意图;
图6a为本发明另一实施例提供的一种降噪方法的流程示意图;
图6b为图6a所示的S24的流程示意图;
图7a为本发明再另一实施例提供的一种降噪方法的流程示意图;
图7b为图7a所示的S27的流程示意图;
图7c为本发明实施例提供的各类风噪的频谱示意图;
图7d为本发明实施例提供的降噪仿真效果图;
图8a为本发明实施例提供的一种降噪装置的结构示意图;
图8b为图8a所示的语音过滤模块的结构示意图;
图8c为本发明另一实施例提供的一种降噪装置的结构示意图;
图8d为本发明再一实施例提供的一种降噪装置的结构示意图;
图9为本发明实施例提供的一种电子设备的电路结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,如果不冲突,本发明实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。再者,本发明所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定,仅是对功能和作用基本相同的相同项或相似项进行区分。
本文提供的降噪方法可以适用于任何合适类型电子设备,诸如耳机、手机、智能手表、平板电脑、呼叫机、音箱等电子设备,当电子设备为耳机时,耳机可以包括入耳式耳机、头戴式耳机或挂耳式耳机等。
请参阅图1,耳机100包括换能器11、ADC转换器12、采样率转换器13、控制器14及乘法器15。
换能器11用于采集声音信号,声音信号可以为噪声信号或语音信号,其中,语音信号可以为用户发出的,亦可以为其它音频源设备发出的,换能器11可以为任何合适的声电换能器件,诸如麦克风之类。
ADC转换器12用于将声音信号转换成数字信号,采样率转换器13根据预设采样率对数字信号进行采样,控制器14根据降噪算法处理采样后的数字信号,得到噪声消除信号,将噪声消除信号与采样后的数字信号在乘法器15作乘法运算,得到降噪信号。
除了本文所阐述的降噪架构,本领域技术人员还可以根据本文所揭示的技术方案,演变出其它代替的降噪架构。
作为本发明实施例另一方面,本发明实施例提供一种降噪方法。请参阅图2,降噪方法S200包括:
S21、获取目标语音帧及其目标功率谱;
在本实施例中,目标语音帧为当前需要处理的语音帧,其中,语音帧为采用分帧加窗方法处理后的每帧语音信号,语音帧包括正常语音信号或噪声信号或噪声信号与语言信号的混合信号,此处的窗函数可以选择任意合适类型的窗函数,诸如汉宁窗、三角窗、矩形窗等。可以理解的是,噪声信号可以与正常语音信号同频段,亦可以不同频段。
在本实施例中,目标功率谱为采用功率谱估计算法处理目标语音帧得到的功率谱,其中,功率谱估计算法可以为任何合适类型算法,诸如加窗平均周期图法、分段平均周期图法等。
S22、过滤目标功率谱的语音功率谱,得到噪声功率谱;
在本实施例中,语音功率谱为正常语音信号的功率谱,噪声功率谱为噪声信号的功率谱,当目标语音帧由正常语音信号与噪声信号组成时,电子设备采用功率谱估计算法处理目标语音帧后,得到的目标功率谱是由语音功率谱与噪声功率谱组合而成,后期可以将语音功率谱或噪声功率谱从目标功率谱中解析出。当目标语音帧为正常语音信号时,目标功率谱为语音功率谱,噪声功率谱几乎被滤除。当目标语音帧为噪声信号,目标功率谱为噪声功率谱。
在本实施例中,电子设备可以选择任意合适过滤算法或解析算法,从目标功率谱中过滤语音功率谱,从而得到噪声功率谱。
S23、根据噪声功率谱,对目标语音帧进行降噪。
在本实施例中,电子设备得到噪声功率谱后,便可以根据任意合适降噪算法,对目标语音帧实施降噪操作。
总体而言,由于本实施例能够先剔除语音功率谱,解析出噪声功率谱,再根据噪声功率谱降噪,因此,此种方式能够尽量避免过滤与噪声同频段的语音信号,从而能够尽量保留正常语音信号,在降噪时最大程度地还原正常语音信号,为用户提供高质的语音信号,从而提高降噪效果。
为了过滤目标功率谱中的语音功率谱,电子设备需要确定与正常语音信号关联的基音频率及谐波频率,以便能够有效地过滤语音功率谱,在一些实施例中,请参阅图3,S22包括:
S221、根据目标功率谱,确定基音频率及谐波频率;
S222、根据基音频率及谐波频率,生成掩码模板;
S223、根据掩码模板,过滤目标功率谱的语音功率谱,得到噪声功率谱。
在本实施例中,此处基音为正常语音的基音,通常,正常语音可以被视为由基音及谐波分量组成,由于基音频率与谐波频率成倍频关系,因此,当电子设备从目标功率谱中提取出基音频率后,便可以根据基音频率确定谐波频率。
在本实施例中,掩码模板用于指示电子设备在目标功率谱中过滤掉语音功率谱,并保留噪声功率谱,其中,电子设备根据业务规则,结合基因频率及谐波频率,可以构造任意掩码函数的掩码模板。
在本实施例中,电子设备利用掩码模板,结合目标功率谱作逻辑运算,以便将语音功率谱从目标功率谱中过滤掉。
因此,采用本方法,先估计出基音频率,再构建掩码模板,最后再利用掩码模板处理目标功率谱,从而能够有效地过滤掉语音功率谱。
在一些实施例中,请参阅图4a,S221包括:
S2211、根据基于倒谱的语音基音频率估计算法,在目标功率谱的语音频率范围内确定基音频率;
S2212、选择与基音频率成N倍频的频率作为谐波频率,其中,N为正整数且大于1。
通常,正常语音的语音频率范围为80Hz-500Hz,因此,电子设备可以利用基于倒谱的语音基音频率估计算法,在80Hz-500Hz内确定基音频率,由于谐波频率与基音频率成N倍频,因此,谐波频率=N*。
可以理解的是,掩码模板的掩码频率都分别与基音频率和谐波频率关联,为了提高频谱分辨率以便提高过滤语音功率谱的准确性,掩码频率可以满足以下要求,因此,在一些实施例中,请结合图4b,S222包括: 根据公式: ,生成掩码模板,其中,为增益变量,f为频率,为采样频率,M为帧长,为基音频率,N为正整数,当N≥2时,为谐波频率,为帧数,为频点的数量。
在一些实施例中,请参阅图4c,S223包括:
S2231、使用掩码模板与目标功率谱作为逻辑运算,以将基音频率范围及谐波频率范围在目标功率谱上的功率值设置为零并得到功率缺口;
S2232、根据插值算法,修补功率缺口,并将修补后的目标功率谱作为噪声功率谱。
在本实施例中,逻辑运算包括减法运算、乘法运算等任意合适运算,当掩码模板为图4b所示的掩码模板,逻辑运算可以选择乘法运算。
在基音频率范围内和谐波频率范围内的各个频点在目标功率谱中都有相应的功率值,当掩码模板与目标功率谱作逻辑运算后,便可以将基音频率范围及谐波频率范围在目标功率谱上的功率值设置为零,未在基音频率范围及谐波频率范围的频点的功率值保持不变,于是,目标功率谱在基音频率范围和谐波频率范围处,都出现功率缺口,至此,电子设备已从目标功率谱中将语音功率谱过滤掉。
举例而言,令f1属于,f2不属于且也不属于谐波频率范围,其中,请结合图4b所示的掩码模板,f1对应的增益变量为0,f2对应的增益变量为1,因此,作乘法运算时,f1在目标功率谱的功率值被设置为0,f2在目标功率谱的功率值保持不变,以此类推,当f3、f4……都属于,那么,f3、f4……在目标功率谱的功率值被设置为0,于是出现功率缺口。
为了更加准确全面地还原噪声,电子设备根据插值算法,修补功率缺口,并将修补后的目标功率谱作为噪声功率谱,可以理解的是,插值算法可以为线性插值算法等其它任何插值算法。
因此,采用本方法,其能够准确可靠地过滤语音功率谱,并且还准确可靠地还原噪声功率谱,从而为后续准确可靠地降噪作好准备。
在一些实施例中,降噪时,请参阅图5,S23包括:
S231、根据噪声功率谱,结合幅度增益算法,计算降噪增益;
S232、将降噪增益与目标语音帧的频谱作乘法运算,得到降噪信号。
在本实施例中,幅度增益算法包括维纳滤波算法、最小均方误差的短时谱估计算法、最小均方误差的对数谱估计算法等。
在本实施例中,电子设备对目标语音帧作傅里叶转换,得到目标语音帧的频谱,接着,电子设备将降噪增益与目标语音帧的频谱输入乘法器作乘法运算,得到降噪信号。
在一些实施例中,电子设备还可以将降噪信号作傅里叶逆转换,得到逆转换信号,接着,再将逆转换信号作重叠相加,得到语音叠加信号,并输出语音叠加信号,从而形成降噪后的连贯语音信号。
一般地,当语音帧未包含语音信号且仅包含噪声信号时,为了提高降噪效率,电子设备可以无需采用上文各个实施例所阐述的降噪方法,因此,在一些实施例中,在执行S22之前,请参阅图6a,降噪方法S200还包括:
S24、判断目标语音帧是否包含语音信号,若是,进入S22;若否,执行S25;
S25:根据高通滤波算法,对目标语音帧进行降噪。
在本实施例中,高通滤波算法的截止带可以由噪声的频率决定,例如,噪声为风噪,风噪的频段通常为低频段,因此,可以将高通滤波算法的截止带设置为0-1000Hz。
在本实施例中,当目标语音帧未包含语音信号时,可以无需关心采用传统降噪算法是否同时滤除语音小信号,因此,可以直接采用高通滤波算法对目标语音帧进行降噪,因此,采用本方法,其能够高效率地滤除噪声。
在一些实施例中,噪声的频段为低频段,例如,噪声为风噪、粉噪或褐噪等,其中,风噪是一种非常特别的噪声,其是由风在麦克风处形成的涡流所发出的噪声,对语音质量影响极大。通常风噪是突发性的,根据风量的大小,每次风噪的持续时间范围为几到几百毫秒,间隔时间随机,并且低频能量很大,具有高度的不平稳性和短时突变性。
因此,为了提高诸如低频噪声的降噪效率,以及提高语音帧是否包含低频噪声的效率,在一些实施例中,请参阅图6b,S24包括:
S241、计算目标语音帧的中高频段的功率总和;
S242、判断功率总和是否大于第一预设阈值。
在本实施例中,由于低频噪声的能量大多集中在低频0-1000Hz,为了判断语音帧是否包含语音信号,电子设备可以选择中高频范围1000-3000Hz的功率总和进行判断。当功率总和大于第一预设阈值时,目标语音帧包含语音信号。当功率总和小于或等于第一预设阈值时,目标语音帧为纯低频噪声信号,因此可以直接采用高通滤波器对其进行过滤。
在一些实施例中,在执行S22之前,为了提高降噪效率和语音输出效率,当目标语音帧未包含噪声信号时,电子设备可以无需对目标语音帧作降噪处理,可以另取下一帧语音帧作为新的目标语音帧进行判断,请参阅图7a,降噪方法S200还包括:
S26、根据目标语音帧,提取语音特征;
S27、根据语音特征,检测目标语音帧是否包含噪声信号,若包含,进入S22,若未包含,返回S21。
在本实施例中,语音特征用于表示目标语音帧的特征,其可甄别目标语音帧是否包含噪声信号。当判断到目标语音帧包含噪声信号时,可以采用上文各个实施例所阐述的降噪方法进行降噪,当判断到目标语音帧未包含噪声信号时,则无需降噪。因此,采用本方法,其能够高效地进行降噪。
在一些实施例中,请参阅图7b,S27包括:
S271、确定语音特征属于噪声特征的噪声概率;
S272、根据语音特征的噪声概率,检测目标语音帧是否包含噪声信号。
在本实施例中,噪声特征可以为任意类型合适特征,诸如子带质心值特征和/或频谱模板组合特征和/或负斜率拟合特征,通常,诸如风噪、粉噪、褐噪等低频噪声符合上述各个噪声特征。
下面,以噪声为风噪为例,详细阐述语音特征属于噪声特征的噪声概率的原理,但是可以理解的是,下文所作的阐述并不对本发明的保护范围构成任何不当限定:
在一些实施例中,当噪声特征为负斜率拟合特征(Negative Slope Fit, NSF)时,电子设备根据负斜率拟合算法,求取目标语音帧的幅度谱与线性近似幅度谱的误差,对误差作归一化处理,得到语音特征属于负斜率拟合特征的噪声概率。
举例而言,根据风噪的频谱特性,其大致上比较接近于的规律变化,其中f为频率,因此,如图7c所示,风噪幅度随着频率的提高而降低,亦即其幅度谱曲线斜率为负,本文用一组参数对风噪幅度谱进行近似的线性表达,即:
再用一组向量来表示:
将上式进行求解可以得出一组最优参数:
在一些实施例中,当噪声特征为子带质心值特征(Signal Sub-band Centroids,SSC)时,电子设备根据子带质心值算法,求取目标语音帧的噪声频段范围的质心值,对质心值作归一化处理,得到语音特征属于子带质心值特征的噪声概率。
举例而言,子带质心值为一定频率范围内通过能量加权平均的频率,反映的是语音信号的频率分布和能量分布的信息。在本文中,子带质心值算法中所选取的频率范围为噪声能量集中的范围,当噪声为风噪等低频噪声时,子带质心值算法中所选取的频率范围为低频段范围。
质心计算如下:
其中α为平滑因子,范围为0到1。随后对计算得到的质心进行归一化:
在一些实施例中,当噪声特征为频谱模板组合特征(Spectrum TemplateCombination, STC)时,电子设备根据频谱模板组合算法,求取目标语音帧与预设语音帧模板之间的差异度,对差异度作归一化处理,得到语音特征属于频谱模板组合特征的噪声概率。
明显有最小值为0,那么将上式推导简化得:
可以理解的解释,本实施例根据语音特征,检测目标语音帧是否包含噪声信号时,可以选择单一类语音特征进行判断,亦可以选择多类语音特征进行判断,例如,可以选择子带质心值特征、频谱模板组合特征或负斜率拟合特征进行判断,判断语音特征的噪声概率是否大于预设概率阈值,若是,确定目标语音帧包含噪声信号,若否,确定目标语音帧未包含噪声信号。或者,亦可以选择子带质心值特征和/或频谱模板组合特征和/或负斜率拟合特征进行判断。
当选择多类语音特征进行判断时,电子设备根据每类语音特征的噪声概率及其对应的预设权重,计算每类语音特征的加权值,累加每类语音特征的加权值,得到总加权值,根据总加权值与预设概率阈值,检测目标语音帧是否包含噪声信号,若是,确定目标语音帧包含噪声信号,若否,确定目标语音帧未包含噪声信号,例如,总加权值,为子带质心值特征的预设权重,为频谱模板组合特征的预设权重,为负斜率拟合特征的预设权重,各类语音特征的预设权重可以均分,亦可以由用户根据业务规则自行定义。
因此,采用本方法,其能够可靠准确地判断目标语音帧是否包含噪声信号,尤其是低频段噪声信号。
为了详细本实施例提供的降噪方法的有益效果,本文结合图7d提供的降噪效果仿真图对此作出详细说明:
如图7d所示,自上而下地列明,第一个图为纯净语音的仿真效果图,第二个图为带有风噪的语音的仿真效果图,由第一个图与第二个图作对比,可知风噪具体出现在语音信号中的位置。
第三个图为对第二个图所示的“带有风噪的语音”作了负斜率拟合计算后的效果图,由第三个图可知,风噪的频谱曲线大致上比较接近于的规律变化。
第四个图为计算目标语音帧的中高频段的功率总和后的效果图,由第四个图可知,具有风噪的语音信号的功率总和比不带风噪的语音信号的功率总和大得多。
第五个图为采用本文提供的降噪方法处理若干帧目标语音帧后的降噪效果图,由第五个图可知,采用本实施例提供的降噪方法,其能够明显地避免过滤与噪声同频段的语音信号,从而能够尽量保留正常语音,在降噪时最大程度地还原正常语音,为用户提供高质的语音。
需要说明的是,在上述各个实施方式中,上述各步骤之间并不必然存在一定的先后顺序,本领域普通技术人员,根据本发明实施方式的描述可以理解,不同实施方式中,上述各步骤可以有不同的执行顺序,亦即,可以并行执行,亦可以交换执行等等。
作为本发明实施例的另一方面,本发明实施例提供一种降噪装置。其中,降噪装置可以为软件模块,所述软件模块包括若干指令,其存储在存储器内,处理器可以访问该存储器,调用指令进行执行,以完成上述各个实施方式所阐述的降噪方法。
在一些实施方式中,降噪装置亦可以由硬件器件搭建成的,例如,降噪装置可以由一个或两个以上的芯片搭建而成,各个芯片可以互相协调工作,以完成上述各个实施方式所阐述的降噪方法。再例如,降噪装置还可以由各类逻辑器件搭建而成,诸如由通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA) 、单片机、ARM(Acorn RISC Machine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合而搭建成。
请参阅图8a,降噪装置800包括功率谱计算模块81、语音过滤模块82及降噪模块83,功率谱计算模块81用于获取目标语音帧及其目标功率谱,语音过滤模块82用于过滤目标功率谱的语音功率谱,得到噪声功率谱,降噪模块83用于根据噪声功率谱,对目标语音帧进行降噪。
综上所述,本装置能够尽量避免过滤与噪声同频段的语音信号,从而能够尽量保留正常语音,在降噪时最大程度地还原正常语音,为用户提供高质的语音。
在一些实施例中,请参阅图8b,语音过滤模块82包括频率确定单元821、掩码生成单元822及噪声过滤单元823,频率确定单元821用于根据目标功率谱,确定基音频率及谐波频率,掩码生成单元822用于根据基音频率及谐波频率,生成掩码模板,噪声过滤单元823用于根据掩码模板,过滤目标功率谱的语音功率谱,得到噪声功率谱。
在一些实施例中,频率确定单元821具体用于:根据基于倒谱的语音基音频率估计算法,在目标功率谱的语音频率范围内确定基音频率;选择与基音频率成N倍频的频率作为谐波频率,其中,N为正整数且大于1。
在一些实施例中,噪声过滤单元823具体用于:使用掩码模板与目标功率谱作为逻辑运算,以将基音频率范围及谐波频率范围在目标功率谱上的功率值设置为零并得到功率缺口;根据插值算法,修补功率缺口,并将修补后的目标功率谱作为噪声功率谱。
在一些实施例中,降噪模块83具体用于:根据噪声功率谱,结合幅度增益算法,计算降噪增益;将降噪增益与目标语音帧的频谱作乘法运算,得到降噪信号。
在一些实施例中,请参阅图8c,降噪装置800还包括语音判断模块84,用于判断目标语音帧是否包含语音信号;若是,执行语音过滤模块82;若否,根据高通滤波算法,对目标语音帧进行降噪。
在一些实施例中,噪声的频段为低频段,语音判断模块84具体用于:计算目标语音帧的中高频段的功率总和,判断功率总和是否大于第一预设阈值。
在一些实施例中,请参阅图8d,降噪装置800还包括噪声检测模块85,用于根据目标语音帧,提取语音特征;根据语音特征,检测目标语音帧是否包含噪声信号;若包含,执行语音过滤模块82;若未包含,返回功率谱计算模块81。
在一些实施例中,噪声检测模块85具体用于:确定语音特征属于噪声特征的噪声概率,根据语音特征的噪声概率,检测目标语音帧是否包含噪声信号。
在一些实施例中,噪声特征包括负斜率拟合特征,噪声检测模块85具体用于:根据负斜率拟合算法,求取目标语音帧的幅度谱与线性近似幅度谱的误差,对误差作归一化处理,得到语音特征属于负斜率拟合特征的噪声概率。
在一些实施例中,噪声检测模块85还具体用于:判断语音特征的噪声概率是否大于预设概率阈值;若是,确定目标语音帧包含噪声信号;若否,确定目标语音帧未包含噪声信号。
需要说明的是,降噪装置可执行本发明实施方式所提供的降噪方法,具备执行方法相应的功能模块和有益效果。未在降噪装置实施方式中详尽描述的技术细节,可参见本发明实施方式所提供的降噪方法。
请参阅图9,图9为本发明实施例提供的一种电子设备的电路结构示意图。如图9所示,电子设备900包括一个或多个处理器91以及存储器92。其中,图9中以一个处理器91为例。
处理器91和存储器92可以通过总线或者其他方式连接,图9中以通过总线连接为例。
存储器92作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的降噪方法对应的程序指令/模块。处理器91通过运行存储在存储器92中的非易失性软件程序、指令以及模块,从而执行降噪装置的各种功能应用以及数据处理,即实现上述方法实施例提供的降噪方法以及上述装置实施例的各个模块或单元的功能。
存储器92可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器92可选包括相对于处理器91远程设置的存储器,这些远程存储器可以通过网络连接至处理器91。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述程序指令/模块存储在所述存储器92中,当被所述一个或者多个处理器91执行时,执行上述任意方法实施例中的降噪方法。
本发明实施例还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如图9中的一个处理器91,可使得上述一个或多个处理器可执行上述任意方法实施例中的降噪方法。
本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被电子设备执行时,使所述电子设备执行任一项所述的降噪方法。
以上所描述的装置或设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元模块可以是或者也可以不是物理上分开的,作为模块单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络模块单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (15)
1.一种降噪方法,其特征在于,包括:
获取目标语音帧及其目标功率谱;
过滤所述目标功率谱的语音功率谱,得到噪声功率谱;
根据所述噪声功率谱,对所述目标语音帧进行降噪。
2.根据权利要求1所述的方法,其特征在于,所述过滤所述目标功率谱的语音功率谱,得到噪声功率谱包括:
根据所述目标功率谱,确定基音频率及谐波频率;
根据所述基音频率及所述谐波频率,生成掩码模板;
根据所述掩码模板,过滤所述目标功率谱的语音功率谱,得到噪声功率谱。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标功率谱,确定基音频率及谐波频率包括:
根据基于倒谱的语音基音频率估计算法,在所述目标功率谱的语音频率范围内确定基音频率;
选择与所述基音频率成N倍频的频率作为谐波频率,其中,N为正整数且大于1。
5.根据权利要求2所述的方法,其特征在于,所述根据所述掩码模板,过滤所述目标功率谱的语音功率谱,得到噪声功率谱包括:
使用所述掩码模板与所述目标功率谱作为逻辑运算,以将基音频率范围及谐波频率范围在所述目标功率谱上的功率值设置为零并得到功率缺口;
根据插值算法,修补所述功率缺口,并将修补后的目标功率谱作为噪声功率谱。
6.根据权利要求1所述的方法,其特征在于,所述根据所述噪声功率谱,对所述目标语音帧进行降噪包括:
根据所述噪声功率谱,结合幅度增益算法,计算降噪增益;
将所述降噪增益与所述目标语音帧的频谱作乘法运算,得到降噪信号。
7.根据权利要求1至6任一项所述的方法,其特征在于,在得到噪声功率谱之前,所述方法还包括:
判断所述目标语音帧是否包含语音信号;
若是,进入过滤所述目标功率谱的语音功率谱,得到噪声功率谱的步骤;
若否,根据高通滤波算法,对所述目标语音帧进行降噪。
8.根据权利要求7所述的方法,其特征在于,噪声的频段为低频段,所述判断所述目标语音帧是否包含语音信号包括:
计算所述目标语音帧的中高频段的功率总和;
判断所述功率总和是否大于第一预设阈值。
9.根据权利要求1至6任一项所述的方法,其特征在于,在得到噪声功率谱之前,所述方法还包括:
根据所述目标语音帧,提取语音特征;
根据所述语音特征,检测所述目标语音帧是否包含噪声信号;
若包含,进入过滤所述目标功率谱的语音功率谱,得到噪声功率谱的步骤;
若未包含,返回获取目标语音帧的步骤。
10.根据权利要求9所述的方法,其特征在于,所述根据所述语音特征,检测所述目标语音帧是否包含噪声信号包括:
确定所述语音特征属于噪声特征的噪声概率;
根据所述语音特征的噪声概率,检测所述目标语音帧是否包含噪声信号。
11.根据权利要求10所述的方法,其特征在于,所述噪声特征包括负斜率拟合特征,所述确定所述语音特征属于噪声特征的噪声概率包括:
根据负斜率拟合算法,求取所述目标语音帧的幅度谱与线性近似幅度谱的误差;
对所述误差作归一化处理,得到所述语音特征属于负斜率拟合特征的噪声概率。
12.根据权利要求10所述的方法,其特征在于,所述根据所述语音特征的噪声概率,检测所述目标语音帧是否包含噪声信号包括:
判断所述语音特征的噪声概率是否大于预设概率阈值;
若是,确定所述目标语音帧包含噪声信号;
若否,确定所述目标语音帧未包含噪声信号。
13.根据权利要求1至6任一项所述的方法,其特征在于,噪声为风噪。
14.一种非易失性可读存储介质,其特征在于,所述非易失性可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使电子设备执行如权利要求1至13任一项所述的降噪方法。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至13任一项所述的降噪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110310616.9A CN112700787B (zh) | 2021-03-24 | 2021-03-24 | 一种降噪方法、非易失性可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110310616.9A CN112700787B (zh) | 2021-03-24 | 2021-03-24 | 一种降噪方法、非易失性可读存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112700787A true CN112700787A (zh) | 2021-04-23 |
CN112700787B CN112700787B (zh) | 2021-06-25 |
Family
ID=75516796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110310616.9A Active CN112700787B (zh) | 2021-03-24 | 2021-03-24 | 一种降噪方法、非易失性可读存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112700787B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113613112A (zh) * | 2021-09-23 | 2021-11-05 | 三星半导体(中国)研究开发有限公司 | 抑制麦克风的风噪的方法和电子装置 |
CN113932912A (zh) * | 2021-10-13 | 2022-01-14 | 国网湖南省电力有限公司 | 一种变电站噪声抗干扰估计方法、系统及介质 |
CN116994597A (zh) * | 2023-09-26 | 2023-11-03 | 广州市升谱达音响科技有限公司 | 一种音频处理系统、方法及存储介质 |
CN117995215A (zh) * | 2024-04-03 | 2024-05-07 | 深圳爱图仕创新科技股份有限公司 | 语音信号的处理方法、装置、计算机设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1746974A (zh) * | 2004-09-07 | 2006-03-15 | Lg电子株式会社 | 增强语音质量的方法及其装置 |
CN102254563A (zh) * | 2010-05-19 | 2011-11-23 | 上海聪维声学技术有限公司 | 用于双麦克风数字助听器的风噪声抑制方法 |
CN102780948A (zh) * | 2011-05-11 | 2012-11-14 | 富士通株式会社 | 风噪声抑制器、半导体集成电路和风噪声抑制方法 |
CN104103278A (zh) * | 2013-04-02 | 2014-10-15 | 北京千橡网景科技发展有限公司 | 一种实时语音去噪的方法和设备 |
US20190043520A1 (en) * | 2018-03-30 | 2019-02-07 | Intel Corporation | Detection and reduction of wind noise in computing environments |
CN110970051A (zh) * | 2019-12-06 | 2020-04-07 | 广州国音智能科技有限公司 | 语音数据采集方法、终端及可读存储介质 |
CN111128213A (zh) * | 2019-12-10 | 2020-05-08 | 展讯通信(上海)有限公司 | 一种分频段进行处理的噪声抑制方法及其系统 |
CN111599372A (zh) * | 2020-04-02 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种稳定的在线多通道语音去混响方法及系统 |
-
2021
- 2021-03-24 CN CN202110310616.9A patent/CN112700787B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1746974A (zh) * | 2004-09-07 | 2006-03-15 | Lg电子株式会社 | 增强语音质量的方法及其装置 |
CN102254563A (zh) * | 2010-05-19 | 2011-11-23 | 上海聪维声学技术有限公司 | 用于双麦克风数字助听器的风噪声抑制方法 |
CN102780948A (zh) * | 2011-05-11 | 2012-11-14 | 富士通株式会社 | 风噪声抑制器、半导体集成电路和风噪声抑制方法 |
CN104103278A (zh) * | 2013-04-02 | 2014-10-15 | 北京千橡网景科技发展有限公司 | 一种实时语音去噪的方法和设备 |
US20190043520A1 (en) * | 2018-03-30 | 2019-02-07 | Intel Corporation | Detection and reduction of wind noise in computing environments |
CN110970051A (zh) * | 2019-12-06 | 2020-04-07 | 广州国音智能科技有限公司 | 语音数据采集方法、终端及可读存储介质 |
CN111128213A (zh) * | 2019-12-10 | 2020-05-08 | 展讯通信(上海)有限公司 | 一种分频段进行处理的噪声抑制方法及其系统 |
CN111599372A (zh) * | 2020-04-02 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种稳定的在线多通道语音去混响方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113613112A (zh) * | 2021-09-23 | 2021-11-05 | 三星半导体(中国)研究开发有限公司 | 抑制麦克风的风噪的方法和电子装置 |
CN113613112B (zh) * | 2021-09-23 | 2024-03-29 | 三星半导体(中国)研究开发有限公司 | 抑制麦克风的风噪的方法和电子装置 |
CN113932912A (zh) * | 2021-10-13 | 2022-01-14 | 国网湖南省电力有限公司 | 一种变电站噪声抗干扰估计方法、系统及介质 |
CN113932912B (zh) * | 2021-10-13 | 2023-09-12 | 国网湖南省电力有限公司 | 一种变电站噪声抗干扰估计方法、系统及介质 |
CN116994597A (zh) * | 2023-09-26 | 2023-11-03 | 广州市升谱达音响科技有限公司 | 一种音频处理系统、方法及存储介质 |
CN116994597B (zh) * | 2023-09-26 | 2023-12-15 | 广州市升谱达音响科技有限公司 | 一种音频处理系统、方法及存储介质 |
CN117995215A (zh) * | 2024-04-03 | 2024-05-07 | 深圳爱图仕创新科技股份有限公司 | 语音信号的处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112700787B (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112700787B (zh) | 一种降噪方法、非易失性可读存储介质及电子设备 | |
CN111418010B (zh) | 一种多麦克风降噪方法、装置及终端设备 | |
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
US10482896B2 (en) | Multi-band noise reduction system and methodology for digital audio signals | |
EP2164066B1 (en) | Noise spectrum tracking in noisy acoustical signals | |
JP6134078B1 (ja) | ノイズ抑制 | |
CN103325380B (zh) | 用于信号增强的增益后处理 | |
EP2828856B1 (en) | Audio classification using harmonicity estimation | |
US9854368B2 (en) | Method of operating a hearing aid system and a hearing aid system | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
CN103109320A (zh) | 噪声抑制装置 | |
CN110495184B (zh) | 拾音装置及拾音方法 | |
CN110556125B (zh) | 基于语音信号的特征提取方法、设备及计算机存储介质 | |
EP3349213B1 (en) | System and method for noise estimation with music detection | |
Islam et al. | Speech enhancement based on a modified spectral subtraction method | |
CN112309417A (zh) | 风噪抑制的音频信号处理方法、装置、系统和可读介质 | |
Naik et al. | A literature survey on single channel speech enhancement techniques | |
CN108053834B (zh) | 音频数据处理方法、装置、终端及系统 | |
CN111477246B (zh) | 语音处理方法、装置及智能终端 | |
Upadhyay et al. | The spectral subtractive-type algorithms for enhancing speech in noisy environments | |
GB2536727A (en) | A speech processing device | |
Upadhyay et al. | A perceptually motivated multi-band spectral subtraction algorithm for enhancement of degraded speech | |
Chin et al. | Improved voice activity detection for speech recognition system | |
Surendran et al. | Perceptual subspace speech enhancement with variance normalization | |
Upadhyay et al. | An auditory perception based improved multi-band spectral subtraction algorithm for enhancement of speech degraded by non-stationary noises |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |