CN116137154A - 语音信号的信号增强方法、装置、设备及存储介质 - Google Patents
语音信号的信号增强方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116137154A CN116137154A CN202310194932.3A CN202310194932A CN116137154A CN 116137154 A CN116137154 A CN 116137154A CN 202310194932 A CN202310194932 A CN 202310194932A CN 116137154 A CN116137154 A CN 116137154A
- Authority
- CN
- China
- Prior art keywords
- signal
- domain signal
- frequency domain
- noise ratio
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000001228 spectrum Methods 0.000 claims abstract description 38
- 230000002708 enhancing effect Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 65
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims 2
- 238000012545 processing Methods 0.000 abstract description 5
- 230000009467 reduction Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Noise Elimination (AREA)
Abstract
本发明涉及音频处理领域,公开了一种语音信号的信号增强方法、装置、设备及存储介质。该方法包括:获取第一频域信号并记录相角;获取第一频域信号的前40帧计算初始噪声方差;若初始噪声方差存在,则根据初始噪声方差生成第一频域信号对应的先验信噪比以及第一频域信号对应的后验信噪比;根据先验信噪比、后验信噪比计算第一频域信号对应的系统函数以及第一频域信号对应的语音存在概率;根据系统函数以及语音存在概率计算修正系统函数;根据修正系统函数以及相角计算修正语音增强谱;对修正语音增强谱进行傅里叶逆变换,得到第二时域信号;根据预设权系数、第二时域信号计算目标语音信号。本发明提升了语音信号的信号增强幅度。
Description
技术领域
本发明涉及音频处理领域,尤其涉及一种语音信号的信号增强方法、装置、设备及存储介质。
背景技术
迄今以来,语音信号的信号增强一直是麦克风行业的基础需求,而随着通信、自媒体行业的发展,人们更是越来越追求更高的降噪深度和更好的音质保真度。然而,传统的谱减、维纳滤波降噪算法往往降噪强度较小,仅为20多dB,语音段语音失真比较严重,同时也会带来音乐噪声的困扰,语音信号的信号增强幅度低。
发明内容
本发明的主要目的在于提高语音信号的信号增强幅度的技术问题。
本发明第一方面提供了一种语音信号的信号增强方法,所述语音信号的信号增强方法包括:
在预设条件下对待增强的语音信号执行加汉宁窗,得到第一时域信号;
对所述第一时域信号进行短时傅里叶变换,得到第一频域信号并记录相角;
获取所述第一频域信号的前40帧计算初始噪声方差;
若所述初始噪声方差存在,则根据所述初始噪声方差生成所述第一频域信号对应的先验信噪比以及所述第一频域信号对应的后验信噪比;
根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在概率;
根据所述系统函数以及所述语音存在概率计算修正系统函数;
根据所述修正系统函数以及所述相角计算修正语音增强谱;
对所述修正语音增强谱进行傅里叶逆变换,得到第二时域信号;
根据预设权系数、所述第二时域信号计算目标语音信号。
可选的,在本发明第一方面的第一种实现方式中,所述若所述初始噪声方差存在,则根据所述初始噪声方差生成所述第一频域信号对应的先验信噪比以及所述第一频域信号对应的后验信噪比的步骤包括:
若所述初始噪声方差存在,生成所述第一频域信号对应的初始先验信噪比以及所述第一频域信号对应的所述后验信噪比;
根据所述初始噪声方差以及所述后验信噪比更新所述初始先验信噪比,得到所述第一频域信号对应的所述先验信噪比。
可选的,在本发明第一方面的第二种实现方式中,所述根据所述初始噪声方差以及所述后验信噪比更新所述初始先验信噪比,得到所述第一频域信号对应的所述先验信噪比的步骤包括:
根据所述后验信噪比计算瞬时噪声方差;
根据所述瞬时噪声方差更新所述初始噪声方差;
根据更新后的所述初始噪声方差更新所述初始先验信噪比,得到所述第一频域信号对应的所述先验信噪比。
可选的,在本发明第一方面的第三种实现方式中,所述根据预设权系数、所述第二时域信号计算目标语音信号的步骤包括:
对所述第二时域信号执行加汉宁窗,得到中间序列;
将所述中间序列的前半序列与上一帧中间序列的后半序列相加,得到目标序列;
将所述目标序列除以所述预设权系数,得到所述目标语音信号。
可选的,在本发明第一方面的第四种实现方式中,所述在预设条件下对待增强的语音信号执行加汉宁窗,得到第一时域信号的步骤包括:
在帧Overlap等于50%的预设条件下对所述语音信号执行加汉宁窗,得到所述第一时域信号。
可选的,在本发明第一方面的第五种实现方式中,所述根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在概率的步骤包括:
根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在后验概率;
根据所述系统函数以及所述语音存在后验概率计算所述修正系统函数。
可选的,在本发明第一方面的第六种实现方式中,所述根据预设权系数、所述第二时域信号计算目标语音信号的步骤之后,所述方法还包括:
输出所述目标语音信号。
本发明第二方面提供了一种语音信号的信号增强装置,包括:
汉宁窗模块,用于在预设条件下对待增强的语音信号执行加汉宁窗,得到第一时域信号;
短时傅里叶变换模块,用于对所述第一时域信号进行短时傅里叶变换,得到第一频域信号并记录相角;
第一计算模块,用于获取所述第一频域信号的前40帧计算初始噪声方差;
生成模块,用于若所述初始噪声方差存在,则根据所述初始噪声方差生成所述第一频域信号对应的先验信噪比以及所述第一频域信号对应的后验信噪比;
第二计算模块,用于根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在概率;
第三计算模块,用于根据所述系统函数以及所述语音存在概率计算修正系统函数;
第四计算模块,用于根据所述修正系统函数以及所述相角计算修正语音增强谱;
短时傅里叶逆变换模块,用于对所述修正语音增强谱进行傅里叶逆变换,得到第二时域信号;
第五计算模块,用于根据预设权系数、所述第二时域信号计算目标语音信号。
本发明第三方面提供了一种语音信号的信号增强设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述语音信号的信号增强设备执行上述的语音信号的信号增强方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的语音信号的信号增强方法。
在本发明实施例中,语音信号的信号增强设备在预设条件下对待增强的语音信号执行加汉宁窗,得到第一时域信号;对所述第一时域信号进行短时傅里叶变换,得到第一频域信号并记录相角;获取所述第一频域信号的前40帧计算初始噪声方差;若所述初始噪声方差存在,则根据所述初始噪声方差生成所述第一频域信号对应的先验信噪比以及所述第一频域信号对应的后验信噪比;根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在概率;根据所述系统函数以及所述语音存在概率计算修正系统函数;根据所述修正系统函数以及所述相角计算修正语音增强谱;对所述修正语音增强谱进行傅里叶逆变换,得到第二时域信号;根据预设权系数、所述第二时域信号计算目标语音信号。由于语音信号的信号增强设备将时域信号经过短时傅里叶变换变换到频域,在确定了频域信号的的先验信噪比、后验信噪比的基础上,可利用帧间相关性估计语音存在概率辅助修正语音增强谱,得到的修正语音增强谱可进一步加大降噪深度20dB以上,同时也防止了语音段语音失真。相对于传统的谱减、维纳滤波降噪算法,本实施例提升了语音信号的信号增强效果。
附图说明
图1为本发明实施例中语音信号的信号增强方法的一个实施例示意图;
图2为本发明实施例中语音信号的信号增强方法的一个实施例参考图;
图3为本发明实施例中语音信号的信号增强装置的一个实施例示意图;
图4为本发明实施例中语音信号的信号增强设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种语音信号的信号增强方法、装置、设备及存储介质。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中语音信号的信号增强方法的一个实施例包括:
101、在预设条件下对待增强的语音信号执行加汉宁窗,得到第一时域信号;
具体的,语音信号是时域信号,现实生活中表现为连续的、平滑的波形,其横坐标为时间轴,纵坐标表示声音的强弱。常规情况下,将其保存为数字信号再进行处理。
时域(Time domain)是描述数学函数或物理信号对时间的关系。例如一个信号的时域波形可以表达信号随着时间的变化。若考虑离散时间,时域中的函数或信号,在各个离散时间点的数值均为已知。若考虑连续时间,则函数或信号在任意时间的数值均为已知。在研究时域的信号时,常会用示波器将信号转换为其时域的波形。
频域(frequency domain)是指在对函数或信号进行分析时,分析其和频率有关部分,而不是和时间有关的部分,和时域一词相对。函数或信号可以透过一对数学的运算子在时域及频域之间转换。例如傅里叶变换可以将一个时域信号转换成在不同频率下对应的振幅及相位,其频谱就是时域信号在频域下的表现,而反傅里叶变换可以将频谱再转换回时域的信号。
可选的,在帧Overlap等于50%的预设条件下对所述语音信号执行加汉宁窗,得到所述第一时域信号。
102、对所述第一时域信号进行短时傅里叶变换,得到第一频域信号并记录相角;
具体的,傅里叶变换表示能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合。频域是为了分析计算简便而提出的一种抽象,都是把信号映射到正弦波上既用三角函数的线性组合来表示。所以模拟信号和数字信号的频域分析本质是一样的,只是在表达和计算方式不同。
相位(phase)是对于一个波,特定的时刻在它循环中的位置:一种它是否在波峰、波谷或它们之间的某点的标度。相位描述信号波形变化的度量,通常以度(角度)作为单位,也称作相角。当信号波形以周期的方式变化,波形循环一周即为360°。
103、获取所述第一频域信号的前40帧计算初始噪声方差:
可选的,若所述初始噪声方差不存在,则根据所述初始噪声方差生成所述第一频域信号对应的所述先验信噪比、所述后验信噪比。
104、若所述初始噪声方差存在,则根据所述初始噪声方差生成所述第一频域信号对应的先验信噪比以及所述第一频域信号对应的后验信噪比;
信噪比,英文名称叫做SNR或S/N(SIGNAL-NOISE RATIO),又称为讯噪比。是指一个电子设备或者电子系统中信号与噪声的比例。这里面的信号指的是来自设备外部需要通过这台设备进行处理的电子信号,噪声是指经过该设备后产生的原信号中并不存在的无规则的额外信号(或信息),并且该种信号并不随原信号的变化而变化。
对于先验与后验,从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。
先验概率是指根据以往经验和分析得到的概率,如全概率公式中的,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的“因”。
后验概率是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计。
先验概率和后验概率是相对的。如果以后还有新的信息引入,更新了现在所谓的后验概率,得到了新的概率值,那么这个新的概率值被称为后验概率。先验概率的分类:利用过去历史资料计算得到的先验概率,称为客观先验概率;当历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率,称为主观先验概率。
后验概率是指通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正,而后得到的概率。先验概率和后验概率的区别:先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的;后验概率使用了有关自然状态更加全面的资料,既有先验概率资料,也有补充资料;
先验概率的计算比较简单,没有使用贝叶斯公式;
而后验概率的计算,要使用贝叶斯公式,而且在利用样本资料计算逻辑概率时,还要使用理论概率分布,需要更多的数理统计知识。
可选的,若所述初始噪声方差存在,生成所述第一频域信号对应的初始先验信噪比以及所述第一频域信号对应的所述后验信噪比;根据所述初始噪声方差以及所述后验信噪比更新所述初始先验信噪比,得到所述第一频域信号对应的所述先验信噪比。
可选的,根据所述后验信噪比计算瞬时噪声方差;根据所述瞬时噪声方差更新所述初始噪声方差;根据更新后的所述初始噪声方差更新所述初始先验信噪比,得到所述第一频域信号对应的所述先验信噪比。
105、根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在概率;
106、根据所述系统函数以及所述语音存在概率计算修正系统函数;
可选的,根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在后验概率;根据所述系统函数以及所述语音存在后验概率计算所述修正系统函数。
可选的,根据所述先验信噪比确定所述第一频域信号对应的语音存在似然概率;根据所述语音存在似然概率计算所述第一频域信号对应的语音不存在的先验概率;根据所述先验信噪比、所述后验信噪比以及所述语音不存在的先验概率计算所述语音存在后验概率;再根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数。在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个非常重要的内容,在非正式场合似然和概率(Probability)几乎是一对同义词,但是在统计学中似然和概率却是两个不同的概念。概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性,比如抛硬币,抛之前我们不知道最后是哪一面朝上,但是根据硬币的性质我们可以推测任何一面朝上的可能性均为50%,这个概率只有在抛硬币之前才是有意义的,抛完硬币后的结果便是确定的;而似然刚好相反,是在确定的结果下去推测产生这个结果的可能环境(参数),还是抛硬币的例子,假设我们随机抛掷一枚硬币1000次,结果500次人头朝上,500次数字朝上(实际情况一般不会这么理想,这里只是举个例子),我们很容易判断这是一枚标准的硬币,两面朝上的概率均为50%,这个过程就是我们根据结果来判断这个事情本身的性质(参数),也就是似然。
107、根据所述修正系统函数以及所述相角计算修正语音增强谱;
108、对所述修正语音增强谱进行傅里叶逆变换,得到第二时域信号;
109、根据预设权系数、所述第二时域信号计算目标语音信号。
可选的,对所述第二时域信号执行加汉宁窗,得到中间序列;将所述中间序列的前半序列与上一帧中间序列的后半序列相加,得到目标序列;将所述目标序列除以所述预设权系数,得到所述目标语音信号。
可选的,参考图2的流程图,以一个实例进行说明:
符号与术语:
Nk:物理量N在ωk处的幅度;
logMMSE:对数最小均方误差;
SFFT:短时傅里叶变换;
SIFFT:短时傅里叶逆变换;
SNR:信噪比;
Y:带噪信号谱;
X:纯净信号谱;
D:噪声谱;
λX:纯净信号方差;
λD:噪声信号方差;
ξ:先验SNR;
γ:后验SNR;
λ,v:中间参数;
H0:语音不存在的概率,此时Y=D;
H1:语音存在的概率,此时Y=X+D;
q:语音不存在的先验概率p(H0);
PLOC:局部小带宽(使用相邻频点共计3个点加窗平滑)语音存在似然概率;
PGLOB:局部大带宽(使用相邻15频点内共计31点加窗平滑,其中,15频点为优选值,该值是在FFT长度为256,信号采样率为16kHz的推荐值)语音存在似然概率;
PFRAME:全局语音存在似然概率。
PART1、logMMSE法计算增强信号谱:
公式2:λD=E[D2];
根据以上公式可知PART1的主要步骤是求解先验、后验SNR和系统函数G(ξk,f(γk))。
步骤一:在帧Overlap=50%的条件下加汉宁窗,并将时域音频通过SFFT转换成频域信号,同时记录相角;
步骤二:取前40帧频谱做帧间频幅平均估计初始噪声方差λD;
步骤三:根据公式5计算后验信噪比γ,先验信噪比ξ,由于λX未知,可用判决引导法由前后帧数据迭代得到,公式如下:
a∈(0.9,0.99);
步骤四:计算系统函数:
PART2、帧间相关性估计语音存在概率进行频谱修正。
信号修正,公式10可以按照下式展开:
其中,
qk的更新:
qk=1-ploc(k)*pGLOB(k)*pFRAME;
ploc,pGLOB都需要对ξ先进行加窗平滑处理得到ξ',然后按以下公式计算:(上界ξ'max=-5dB,下界ξ'min=-10dB);
pERAME=mean(ξ);
根据以上公式可知PART2的步骤如下:
步骤一、根据先验SNR计算语音存在似然概率ploc,pGLOB,pFRAME;
步骤二、更新语音不存在的先验概率q;
步骤五、计算修正语音信号增强谱。
PART3、噪声更新与信号合成:
设阈值eta=0.02,计算语音存在和语音不存在的先验SNR之比的对数均值:(mean[log(LH)])为判决条件,其满足:
步骤一、计算判决条件,满足mean[log(LH)]<eta时,根据前后帧数据迭代按照以下公式更新噪声方差:
mu∈(0.9,0.99);
这里同时设立了一个开关,可以决定是否实现以下功能:
若噪声方差长时不更新,与人类语音发音习惯相背,则说明可能;
平稳环境噪声迅速变大,噪声方差将初始化(音乐模式下建议关闭);
步骤二、对修正增强信号谱,结合之前记录的相角,做SIFFT转换成时域信号e(n),加上汉宁窗win(L)后取前半序列与上一帧加窗e(n-1)后半序列相加,除以对应权系数后输出。
权系数预设为:
本发明实施例中,语音信号的信号增强设备在预设条件下对待增强的语音信号执行加汉宁窗,得到第一时域信号;对所述第一时域信号进行短时傅里叶变换,得到第一频域信号并记录相角;获取所述第一频域信号的前40帧计算初始噪声方差;若所述初始噪声方差存在,则根据所述初始噪声方差生成所述第一频域信号对应的先验信噪比以及所述第一频域信号对应的后验信噪比;根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在概率;根据所述系统函数以及所述语音存在概率计算修正系统函数;根据所述修正系统函数以及所述相角计算修正语音增强谱;对所述修正语音增强谱进行傅里叶逆变换,得到第二时域信号;根据预设权系数、所述第二时域信号计算目标语音信号。由于语音信号的信号增强设备将时域信号经过短时傅里叶变换变换到频域,在确定了频域信号的的先验信噪比、后验信噪比的基础上,可利用帧间相关性估计语音存在概率辅助修正语音增强谱,得到的修正语音增强谱可进一步加大降噪深度20dB以上,同时也防止了语音段语音失真。相对于传统的谱减、维纳滤波降噪算法,本实施例提升了语音信号的信号增强效果。
上面对本发明实施例中语音信号的信号增强方法进行了描述,下面对本发明实施例中语音信号的信号增强装置进行描述,请参阅图3,本发明实施例中语音信号的信号增强装置一个实施例包括:
汉宁窗模块301,用于在预设条件下对待增强的语音信号执行加汉宁窗,得到第一时域信号;
短时傅里叶变换模块302,用于对所述第一时域信号进行短时傅里叶变换,得到第一频域信号并记录相角;
第一计算模块303,用于获取所述第一频域信号的前40帧计算初始噪声方差;
生成模块304,用于若所述初始噪声方差存在,则根据所述初始噪声方差生成所述第一频域信号对应的先验信噪比以及所述第一频域信号对应的后验信噪比;
第二计算模块305,用于根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在概率;
第三计算模块306,用于根据所述系统函数以及所述语音存在概率计算修正系统函数;
第四计算模块307,用于根据所述修正系统函数以及所述相角计算修正语音增强谱;
短时傅里叶逆变换模块308,用于对所述修正语音增强谱进行傅里叶逆变换,得到第二时域信号;
第五计算模块309,用于根据预设权系数、所述第二时域信号计算目标语音信号。
可选的,第一计算模块303还可以具体用于:
若所述初始噪声方差存在,生成所述第一频域信号对应的初始先验信噪比以及所述第一频域信号对应的所述后验信噪比;
根据所述初始噪声方差以及所述后验信噪比更新所述初始先验信噪比,得到所述第一频域信号对应的所述先验信噪比。
可选的,生成模块304还可以具体用于:
根据所述后验信噪比计算瞬时噪声方差;
根据所述瞬时噪声方差更新所述初始噪声方差;
根据更新后的所述初始噪声方差更新所述初始先验信噪比,得到所述第一频域信号对应的所述先验信噪比。
可选的,短时傅里叶逆变换模块308还可以具体用于:
对所述第二时域信号执行加汉宁窗,得到中间序列;
将所述中间序列的前半序列与上一帧中间序列的后半序列相加,得到目标序列;
将所述目标序列除以所述预设权系数,得到所述目标语音信号。
可选的,汉宁窗模块301还可以具体用于:
在帧Overlap等于50%的预设条件下对所述语音信号执行加汉宁窗,得到所述第一时域信号。
可选的,第三计算模块306还可以具体用于:
根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在后验概率;
根据所述系统函数以及所述语音存在后验概率计算所述修正系统函数。
可选的,第二计算模块309还可以具体用于:
输出所述目标语音信号。
本发明实施例中,语音信号的信号增强设备在预设条件下对待增强的语音信号执行加汉宁窗,得到第一时域信号;对所述第一时域信号进行短时傅里叶变换,得到第一频域信号并记录相角;获取所述第一频域信号的前40帧计算初始噪声方差;若所述初始噪声方差存在,则根据所述初始噪声方差生成所述第一频域信号对应的先验信噪比以及所述第一频域信号对应的后验信噪比;根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在概率;根据所述系统函数以及所述语音存在概率计算修正系统函数;根据所述修正系统函数以及所述相角计算修正语音增强谱;对所述修正语音增强谱进行傅里叶逆变换,得到第二时域信号;根据预设权系数、所述第二时域信号计算目标语音信号。由于语音信号的信号增强设备将时域信号经过短时傅里叶变换变换到频域,在确定了频域信号的的先验信噪比、后验信噪比的基础上,可利用帧间相关性估计语音存在概率辅助修正语音增强谱,得到的修正语音增强谱可进一步加大降噪深度20dB以上,同时也防止了语音段语音失真。相对于传统的谱减、维纳滤波降噪算法,本实施例提升了语音信号的信号增强效果。
上面图3从模块化功能实体的角度对本发明实施例中的语音信号的信号增强装置进行详细描述,下面从硬件处理的角度对本发明实施例中语音信号的信号增强设备进行详细描述。
图4是本发明实施例提供的一种语音信号的信号增强设备的结构示意图,该语音信号的信号增强设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对语音信号的信号增强设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在语音信号的信号增强设备500上执行存储介质530中的一系列指令操作。
基于语音信号的信号增强设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图4示出的语音信号的信号增强设备结构并不构成对基于语音信号的信号增强设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述语音信号的信号增强方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音信号的信号增强方法,其特征在于,所述语音信号的信号增强方法包括:
在预设条件下对待增强的语音信号执行加汉宁窗,得到第一时域信号;
对所述第一时域信号进行短时傅里叶变换,得到第一频域信号并记录相角;
获取所述第一频域信号的前40帧计算初始噪声方差;
若所述初始噪声方差存在,则根据所述初始噪声方差生成所述第一频域信号对应的先验信噪比以及所述第一频域信号对应的后验信噪比;
根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在概率;
根据所述系统函数以及所述语音存在概率计算修正系统函数;
根据所述修正系统函数以及所述相角计算修正语音增强谱;
对所述修正语音增强谱进行傅里叶逆变换,得到第二时域信号;
根据预设权系数、所述第二时域信号计算目标语音信号。
2.根据权利要求1所述的语音信号的信号增强方法,其特征在于,所述若所述初始噪声方差存在,则根据所述初始噪声方差生成所述第一频域信号对应的先验信噪比以及所述第一频域信号对应的后验信噪比的步骤包括:
若所述初始噪声方差存在,生成所述第一频域信号对应的初始先验信噪比以及所述第一频域信号对应的所述后验信噪比;
根据所述初始噪声方差以及所述后验信噪比更新所述初始先验信噪比,得到所述第一频域信号对应的所述先验信噪比。
3.根据权利要求2所述的语音信号的信号增强方法,其特征在于,所述根据所述初始噪声方差以及所述后验信噪比更新所述初始先验信噪比,得到所述第一频域信号对应的所述先验信噪比的步骤包括:
根据所述后验信噪比计算瞬时噪声方差;
根据所述瞬时噪声方差更新所述初始噪声方差;
根据更新后的所述初始噪声方差更新所述初始先验信噪比,得到所述第一频域信号对应的所述先验信噪比。
4.根据权利要求1所述的语音信号的信号增强方法,其特征在于,所述根据预设权系数、所述第二时域信号计算目标语音信号的步骤包括:
对所述第二时域信号执行加汉宁窗,得到中间序列;
将所述中间序列的前半序列与上一帧中间序列的后半序列相加,得到目标序列;
将所述目标序列除以所述预设权系数,得到所述目标语音信号。
5.根据权利要求1-4任一项所述的语音信号的信号增强方法,其特征在于,所述在预设条件下对待增强的语音信号执行加汉宁窗,得到第一时域信号的步骤包括:
在帧Overlap等于50%的预设条件下对所述语音信号执行加汉宁窗,得到所述第一时域信号。
6.根据权利要求1所述的语音信号的信号增强方法,其特征在于,所述根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在概率的步骤包括:
根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在后验概率;
根据所述系统函数以及所述语音存在后验概率计算所述修正系统函数。
7.根据权利要求1所述的语音信号的信号增强方法,其特征在于,所述根据预设权系数、所述第二时域信号计算目标语音信号的步骤之后,所述方法还包括:
输出所述目标语音信号。
8.一种语音信号的信号增强装置,其特征在于,所述语音信号的信号增强装置包括:
汉宁窗模块,用于在预设条件下对待增强的语音信号执行加汉宁窗,得到第一时域信号;
短时傅里叶变换模块,用于对所述第一时域信号进行短时傅里叶变换,得到第一频域信号并记录相角;
第一计算模块,用于获取所述第一频域信号的前40帧计算初始噪声方差;
生成模块,用于若所述初始噪声方差存在,则根据所述初始噪声方差生成所述第一频域信号对应的先验信噪比以及所述第一频域信号对应的后验信噪比;
第二计算模块,用于根据所述先验信噪比、所述后验信噪比计算所述第一频域信号对应的系统函数以及所述第一频域信号对应的语音存在概率;
第三计算模块,用于根据所述系统函数以及所述语音存在概率计算修正系统函数;
第四计算模块,用于根据所述修正系统函数以及所述相角计算修正语音增强谱;
短时傅里叶逆变换模块,用于对所述修正语音增强谱进行傅里叶逆变换,得到第二时域信号;
第五计算模块,用于根据预设权系数、所述第二时域信号计算目标语音信号。
9.一种语音信号的信号增强设备,其特征在于,所述语音信号的信号增强设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述语音信号的信号增强设备执行如权利要求1-7中任一项所述的语音信号的信号增强方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的语音信号的信号增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310194932.3A CN116137154A (zh) | 2023-02-23 | 2023-02-23 | 语音信号的信号增强方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310194932.3A CN116137154A (zh) | 2023-02-23 | 2023-02-23 | 语音信号的信号增强方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116137154A true CN116137154A (zh) | 2023-05-19 |
Family
ID=86332826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310194932.3A Pending CN116137154A (zh) | 2023-02-23 | 2023-02-23 | 语音信号的信号增强方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116137154A (zh) |
-
2023
- 2023-02-23 CN CN202310194932.3A patent/CN116137154A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101153093B1 (ko) | 다감각 음성 향상을 위한 방법 및 장치 | |
Martin | Bias compensation methods for minimum statistics noise power spectral density estimation | |
ES2678415T3 (es) | Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica | |
JP5411936B2 (ja) | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 | |
EP1891624B1 (en) | Multi-sensory speech enhancement using a speech-state model | |
US10510363B2 (en) | Pitch detection algorithm based on PWVT | |
Krishnamoorthy et al. | Enhancement of noisy speech by temporal and spectral processing | |
JP4568733B2 (ja) | 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体 | |
CN111445919B (zh) | 结合ai模型的语音增强方法、系统、电子设备和介质 | |
WO2022012195A1 (zh) | 音频信号处理方法和相关装置 | |
WO2005124739A1 (ja) | 雑音抑圧装置および雑音抑圧方法 | |
CA2750037A1 (en) | Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal | |
CN113345460A (zh) | 音频信号处理方法、装置、设备及存储介质 | |
US20070055519A1 (en) | Robust bandwith extension of narrowband signals | |
JP4757775B2 (ja) | 雑音抑圧装置 | |
EP4189677B1 (en) | Noise reduction using machine learning | |
Nongpiur et al. | Impulse-noise suppression in speech using the stationary wavelet transform | |
CN106847299B (zh) | 延时的估计方法及装置 | |
WO2018138543A1 (en) | Probabilistic method for fundamental frequency estimation | |
EP3242295A1 (en) | A signal processor | |
CN116137154A (zh) | 语音信号的信号增强方法、装置、设备及存储介质 | |
JP7152112B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP5588233B2 (ja) | 雑音抑圧装置およびプログラム | |
JP6065488B2 (ja) | 帯域拡張装置及び方法 | |
Andrianakis et al. | A speech enhancement algorithm based on a Chi MRF model of the speech STFT amplitudes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |