CN113160845A - 基于语音存在概率和听觉掩蔽效应的语音增强算法 - Google Patents
基于语音存在概率和听觉掩蔽效应的语音增强算法 Download PDFInfo
- Publication number
- CN113160845A CN113160845A CN202110334020.2A CN202110334020A CN113160845A CN 113160845 A CN113160845 A CN 113160845A CN 202110334020 A CN202110334020 A CN 202110334020A CN 113160845 A CN113160845 A CN 113160845A
- Authority
- CN
- China
- Prior art keywords
- signal
- noise
- voice
- speech
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000873 masking effect Effects 0.000 title claims abstract description 66
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims abstract description 78
- 230000003595 spectral effect Effects 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 230000008447 perception Effects 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000009499 grossing Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 230000007480 spreading Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 2
- 210000005069 ears Anatomy 0.000 abstract description 7
- 238000000034 method Methods 0.000 description 12
- 238000011410 subtraction method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于语音存在概率和听觉掩蔽效应的语音增强算法,包括:对输入的时域语音信号进行预处理,得到频域语音信号,并保留相角;对得到的频域信号进行语音存在概率计算,并得到估计的噪声功率谱;对得到的频域信号进行噪声掩蔽阈值计算,得到各个频点的谱减系数值;结合估计噪声功率谱和谱减系数进行谱减,得到纯净语音谱,然后结合保留的相角进行逆傅立叶变换,得到纯净时域语音信号。本发明利用人耳的听觉掩蔽效应,对进入人耳的噪声信号计算其掩蔽阈值,并结合噪声估计,能在消除噪声的同时,尽可能保证语音的感知质量,使得语音信号中不易出现较多突变的峰值。
Description
技术领域
本发明涉及语音信号增强技术,具体涉及一种基于语音存在概率和听觉掩蔽效应的语音增强算法。
背景技术
随着语音识别等技术的发展,其前端预处理中的语音增强领域也变得越来越重要。目前语音增强算法主要有谱减法、小波变换法、维纳滤波法等。谱减法在输入信号信噪比较高时能较好的抑制噪声,但在信噪比较低时,噪声残留较多。谱减法简单、复杂度低,但对于噪声的估计偏差较大,且对于谱减后得到的负值使用半波整流处理,导致“音乐噪声”的出现,严重影响语音的可懂度。目前有许多研究者在噪声估计方面进行了改进以解决“音乐噪声”问题。例如在平稳噪声环境下,有最小值控制的递归平均(MCRA)算法,该算法基于噪声对语音频谱的影响在频率上分布不均匀的特性,即只要某频带语音不存在的概率很高就可以对噪声功率谱进行估计更新。
在非平稳环境下,许多噪声估计算法依旧会有跟踪延迟、误差较大等问题。部分研究人员尝试在非平稳环境下,利用人耳的听觉特性进行语音增强。掩蔽效应即两个声音同时作用于人耳时,会存在相互干扰,使得另一个声音不易被察觉。包括纯音对纯音的掩蔽、噪声对纯音的掩蔽。在语音增强中,语音信号的存在使得噪声的听阈值上升,且语音信号的能量越大,噪声的掩蔽阈值就越高,越难被察觉。
发明内容
本发明目的在于克服现有谱减法中的噪声估计偏差较大导致谱减后语音失真的问题,提出一种基于语音存在概率和听觉掩蔽效应的语音增强算法,该算法在谱减时不需要完全减去噪声,而是使得残留的噪声强度在掩蔽阈值之下,使人耳无法感受到这些噪声,这样在消除噪声的同时可以减少语音失真。
本发明的目的是通过以下技术方案来实现的:一种基于语音存在概率和听觉掩蔽效应的语音增强算法,其步骤如下:
S1.对输入的时域语音信号进行预处理,得到频域语音信号,并保留相角于后续步骤使用;
S2.对S1步骤得到的频域信号进行基于谱熵比的语音存在概率计算,并得到估计的噪声功率谱;
S3.对S1步骤得到的频域信号进行噪声掩蔽阈值计算,得到各个频点的谱减系数值;
S4.结合S2的估计噪声功率谱和S3得到的谱减系数进行谱减,得到纯净语音谱,然后结合保留的相角进行逆傅立叶变换,得到纯净时域语音信号。
其中,步骤S1中输入的时域语音信号由纯净语音信号和噪声信号叠加而成,纯净语音信号和噪声信号来自THCHS30语料库。
进一步地,步骤S1包括以下子步骤:
其中μ为预加重系数,y(t)为原始语音信号,t=1,2,…,T;
S1-2.对预加重后的信号进行加窗分帧处理,得到分帧后帧长为W的语音信号y(t);
y(t)=[y1(t),y2(t),…,yfn(t)];
其中,yi(t)表示第i帧信号,i=1,2,…,fn,fn表示帧数;t=1,2,…W为帧信号点序号;
S1-3.对每帧语音信号进行傅立叶变换,将语音信号从时域变换到频域,得到长度为W的频域语音信号Y(k):
Y(k)=[Y1(k),Y2(k),…Yfn(k)];
其中,Yi(k)表示由时域信号yi(t)经傅立叶变换得到的频域信号,k=1,2,…W为频点序号。
进一步地,步骤S2包括以下子步骤:
S2-1.根据能熵比计算第l帧第k个语音频点的语音存在概率p(k,l):
其中,a为控制参数;W(k,l)为能熵比,能熵比常用来区分有无语音片段,能熵比越大,语音存在的概率也就越大;能熵比由短时谱熵H(k,l)和短时能量E(l)决定:
其中,αp为平滑常数;
其中,αd为递归平滑系数。
其中,|Y(k,l)|为第l帧第k个频点的带噪语音幅度谱。
进一步地,掩蔽效应为两个声音同时作用于人耳时,会存在相互干扰,使得另一个声音不易被察觉;语音信号的存在使得噪声的听阈值上升,且语音信号的能量越大,噪声的掩蔽阈值就越高,越难被察觉;本发明根据这个特性,在谱减法中并不完全抑制噪声,而是使得残留的噪声强度在掩蔽阈值之下,使人耳无法感受到这些噪声,这样在消除噪声的同时可以减少语音失真。
进一步地,将人耳听觉频率范围划分为若干个Bark尺度的关键子频带,并计算每个子频带中的噪声掩蔽阈值。
进一步地,步骤S3包括以下子步骤:
S3-1.采用Bark刻度来实现将线性频率映射到人的听觉感知域,在这种映射中,频率f和线性Bark刻度b的函数关系为:
其中,b为临界Bark频带序号。
S3-2.根据Bark刻度的划分,求得每个Bark带内的语音信号能量,得到临界带的能量:
其中,Bi表示第i个临界带的能量;bli,bhi为Bark域临界带宽i的下限和上限频率;P为语音信号功率谱;
S3-3.将临界带能量和扩展函数SFij相互卷积得到扩展Bark域功率谱C:
其中,扩展函数SFij是考虑到各个临界带之间对后续掩蔽阈值的计算有一定的影响,是临界带之间Bark谱对扩展普定量的描述,有如下定义:
其中,Δ=i-j表示两个临界频带号的差值,且Δ≤imax。
S3-4.考虑到有两种掩蔽情况:一种为纯音掩蔽噪声;另一种为噪声掩蔽纯音;所以需判断语音信号偏噪声特性还是偏语音特性,本发明根据语音谱平坦度SFMdB来判断,其由功率谱的几何平均值和算术平均值计算得到:
根据语音平坦度计算音调系数∈:
音调系数∈∈[0,1],其值为0时,说明频带的信号完全为噪声特性,为1时,表示频带的信号完全为纯语音特性;
S3-5.根据得到的扩展Bark域功率谱C和音调系数∈计算扩展掩蔽阈值T′:
S3-6.根据扩展掩蔽阈值T′和绝对听阈阈值计算得到最终噪声掩蔽阈值T:
Ti=max(T′i,Ta)
其中,Ta为绝对听阈,表示在安静环境下,一个纯音信号能被人耳感知所具有的最小声压级,其与频率f的关系为:
S3-7.根据最终掩蔽阈值计算谱减参数增益因子α和过减因子β:
其中,αmax,αmin为谱减参数可调的上下限,可根据实际环境进行实验确定;Tmax,Tmin为噪声掩蔽阈值的最大值和最小值。β和α使用同样的规则进行调节。
进一步地,步骤S4包括以下子步骤:
一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于语音存在概率和听觉掩蔽效应的语音增强算法。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于语音存在概率和听觉掩蔽效应的语音增强算法。
与现有技术相比,本发明的有益效果为:本发明根据改进的语音存在概率计算方法,即使在非平稳环境下也能有效跟踪噪声;利用人耳的听觉掩蔽效应,对进入人耳的噪声信号计算其掩蔽阈值,并结合噪声估计,能在消除噪声的同时,尽可能保证语音的感知质量,使得语音信号中不易出现较多突变的峰值。
附图说明
图1为本发明的方法流程图。
图2为一个计算噪声掩蔽阈值的流程图。
图3中(a)为原始语音信号、(b)为带噪语音信号、(c)为本发明算法降噪后的语音信号示意图。
具体实施方式
下面结合附图对本发明的具体实施方法做进一步详细描述。以下实施例或者附图用于说明本发明,但不用来限制本发明的范围,被描述的说明性施例仅仅是例证本发明的各个步骤。
本发明利用人耳的听觉掩蔽特性以及改进的噪声功率谱估计方法设计了一种新的语音增强算法。在听觉特性下,语音信号的存在使得噪声的听阈值上升,且语音信号的能量越大,噪声的掩蔽阈值就越高,越难被察觉。本发明根据这个特性,在谱减法中并不完全抑制噪声,而是使得残留的噪声强度在人耳的听觉掩蔽阈值之下,那么人耳便不会感受到该噪声,这样在消除噪声的同时可以减少语音失真。
传统的谱减法在进行噪声估计时通常先判断语音的有无语音片段,再估计噪声。但这种方法在非平稳环境下时,难以做到有效跟踪噪声。本发明基于时间递归的噪声谱估计方法,对其中的语音存在概率进行改进,利用能熵比进行语音存在概率值计算,并进行平滑处理。最终利用语音存在概率估计带噪信号中的噪声功率谱。本发明改进的算法能即使在非平稳环境下也能有效跟踪噪声。
如图1所示,该方法包括:
S1.对输入的时域语音信号进行预处理,得到频域语音信号,并保留相角于后续步骤使用;
S2.对S1步骤得到的频域信号进行基于谱熵比的语音存在概率计算,并得到估计的噪声功率谱;
S3.对S1步骤得到的频域信号进行噪声掩蔽阈值计算,得到各个频点的谱减系数值;
S4.结合S2的估计噪声功率谱和S3得到的谱减系数进行谱减,得到纯净语音谱,然后结合保留的相角进行逆傅立叶变换,得到纯净时域语音信号。
具体的,在本实施例中,所述的时域语音信号由纯净语音信号和噪声信号叠加而成。所述纯净语音信号和噪声信号来自THCHS30语料库。
在本实施例中,所述步骤S1包括以下子步骤:
其中μ为预加重系数,本实施例中取μ=0.97;y(t)为原始语音信号,t=1,2,…,T。
S1-2.对预加重后的信号进行加窗分帧处理,本实施例取帧长为W=320点,得到分帧后的语音信号y(t);
y(t)=[y1(t),y2(t),…,yfn(t)];
其中,yi(t)(i=1,2,…,fn)表示第帧信号,fn表示帧数,在本实施例中fn=736;t=1,2,…W为帧信号点序号。
S1-3.对每帧语音信号进行傅立叶变换,将语音信号从时域变换到频域,得到长度为W的频域语音信号Y(k):
Y(k)=[Y1(k),Y2(k),…Yfn(k)];
其中,Yi(k)表示由时域信号yi(t)经傅立叶变换得到的频域信号,k=1,2,…W为频点序号。
在本实施例中,步骤S2:对步骤S1得到的频域信号进行基于谱熵比的语音存在概率计算,并得到估计的噪声功率谱,主要包括以下子步骤:
S2-1.在本实施例中,取控制参数α=0.01,再根据能熵比计算第帧第个语音频点的语音存在概率p(k,l):
W(k,l)为能熵比,能熵比常用来区分有无语音片段,能熵比越大,语音存在的概率也就越大。能熵比由短时谱熵H(k,l)和短时能量E(l)决定:
其中,|Y(k,l)|为第l帧第k个频点的带噪语音幅度谱。
在本实施例中,步骤S3:对S1步骤得到的频域信号进行噪声掩蔽阈值计算,如图2所示,得到各个频点的谱减系数值,主要包括以下子步骤:
S3-1.采用Bark刻度来实现将线性频率映射到人的听觉感知域,在这种映射中,频率f和线性Bark刻度b的函数关系为:
在本实施例中,将0-16000Hz范围内的频率可分为22个频带。因此,临界Bark频带序号b=1,2…,22。
S3-2.根据Bark刻度的划分,求得每个Bark带内的语音信号能量,得到第i个临界带的能量:
在本实施例中,每一帧的临界带能量为22维向量;
S3-3.将临界带能量和扩展函数SFij相互卷积得到扩展Bark域功率谱C:
其中,扩展函数SFij是考虑到各个临界带之间对后续掩蔽阈值的计算有一定的影响,是临界带之间Bark谱对扩展普定量的描述,有如下定义:
其中,Δ=i-j表示两个临界频带号的差值,且Δ≤imax。
根据语音平坦度计算音调系数∈:
音调系数∈∈[0,1],其值为0时,说明频带的信号完全为噪声特性,为1时,表示频带的信号完全为纯语音特性。
S3-5.根据得到的扩展Bark域功率谱C和音调系数∈计算扩展掩蔽阈值T′:
S3-6.根据扩展掩蔽阈值T′和绝对听阈阈值计算得到最终噪声掩蔽阈值T:
Ti=max(T′i,Ta)
其中,Ta为绝对听阈,表示在安静环境下,一个纯音信号能被人耳感知所具有的最小声压级,其与频率f的关系为:
S3-7.根据最终掩蔽阈值计算谱减参数增益因子α和过减因子β:
在本实施例中,αmax=6,αmin=6,βmax=0.01,βmin=0.005;Tmax,Tmin为噪声掩蔽阈值的最大值和最小值。
在本实施例中,步骤S4:结合S2的估计噪声功率谱和S3得到的谱减系数进行谱减,得到纯净语音谱,然后结合保留的相角进行逆傅立叶变换,得到纯净时域语音信号,包括以下子步骤:
图3为本实施例仿真图,其中(a)为原始语音信号、(b)为带噪语音信号、(c)为本发明算法降噪后的语音信号示意图。可以看出,本发明改进的算法能即使在非平稳环境下也能有效跟踪噪声。
本发明还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于语音存在概率和听觉掩蔽效应的语音增强算法。
进一步的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于语音存在概率和听觉掩蔽效应的语音增强算法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,包括以下步骤:
S1.对输入的时域语音信号进行预处理,得到频域语音信号,并保留相角于后续步骤使用;
S2.对步骤S1得到的频域信号进行基于谱熵比的语音存在概率计算,并得到估计的噪声功率谱;
S3.对步骤S1得到的频域信号进行噪声掩蔽阈值计算,得到各个频点的谱减系数值;
S4.结合步骤S2的估计噪声功率谱和步骤S3得到的谱减系数进行谱减,得到纯净语音谱,然后结合保留的相角进行逆傅立叶变换,得到纯净时域语音信号。
2.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤S1中,输入的时域语音信号由纯净语音信号和噪声信号叠加而成,纯净语音信号和噪声信号来自THCHS30语料库。
3.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤S1包括以下子步骤:
其中μ为预加重系数,y(t)为原始语音信号,t=1,2,…,T;
S1-2.对预加重后的信号进行加窗分帧处理,得到分帧后帧长为W的语音信号y(t);
y(t)=[y1(t),y2(t),…,yfn(t)];
其中,yi(t)表示第i帧信号,i=1,2,…,fn,fn表示帧数;t=1,2,…W为帧信号点序号;
S1-3.对每帧语音信号进行傅立叶变换,将语音信号从时域变换到频域,得到长度为W的频域语音信号Y(k):
Y(k)=[Y1(k),Y2(k),…Yfn(k)];
其中,Yi(k)表示由时域信号yi(t)经傅立叶变换得到的频域信号,k=1,2,…W为频点序号。
4.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤S2包括以下子步骤:
S2-1.根据能熵比计算第l帧第k个语音频点的语音存在概率p(k,l):
其中,a为控制参数;W(k,l)为能熵比,能熵比由短时谱熵H(k,l)和短时能量E(l)决定:
其中,αp为平滑常数;
其中,αd为递归平滑系数;
其中,|Y(k,l)|为第l帧第k个频点的带噪语音幅度谱。
5.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,在谱减法中不完全抑制噪声,使得残留的噪声强度在掩蔽阈值之下。
6.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,估计噪声掩蔽阈值计算方法如下:
将人耳听觉频率范围划分为若干个Bark尺度的关键子频带,并计算每个子频带中的噪声掩蔽阈值。
7.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤S3包括以下子步骤:
S3-1.采用Bark刻度来实现将线性频率映射到人的听觉感知域,在这种映射中,频率f和线性Bark刻度b的函数关系为:
其中,b为临界Bark频带序号;
S3-2.根据Bark刻度的划分,求得每个Bark带内的语音信号能量,得到临界带的能量:
其中,Bi表示第i个临界带的能量;bli,bhi为Bark域临界带宽i的下限和上限频率;P为语音信号功率谱;
S3-3.将临界带能量和扩展函数SFij相互卷积得到扩展Bark域功率谱C:
其中,扩展函数SFij是临界带之间Bark谱对扩展普定量的描述,有如下定义:
其中,Δ=i-j表示两个临界频带号的差值,且Δ≤imax;
根据语音平坦度计算音调系数∈:
音调系数∈∈[0,1],其值为0时,说明频带的信号完全为噪声特性,为1时,表示频带的信号完全为纯语音特性;
S3-5.根据得到的扩展Bark域功率谱C和音调系数∈计算扩展掩蔽阈值T′:
S3-6.根据扩展掩蔽阈值T′和绝对听阈阈值计算得到最终噪声掩蔽阈值T:
Ti=max(T′i,Ta)
其中,Ta为绝对听阈,表示在安静环境下,一个纯音信号能被人耳感知所具有的最小声压级,其与频率f的关系为:
S3-7.根据最终掩蔽阈值计算谱减参数增益因子α和过减因子β:
其中,αmax,αmin为谱减参数可调的上下限,可根据实际环境进行实验确定;Tmax,Tmin为噪声掩蔽阈值的最大值和最小值;β和α使用同样的规则进行调节。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的语音增强算法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的语音增强算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110334020.2A CN113160845A (zh) | 2021-03-29 | 2021-03-29 | 基于语音存在概率和听觉掩蔽效应的语音增强算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110334020.2A CN113160845A (zh) | 2021-03-29 | 2021-03-29 | 基于语音存在概率和听觉掩蔽效应的语音增强算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113160845A true CN113160845A (zh) | 2021-07-23 |
Family
ID=76885553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110334020.2A Pending CN113160845A (zh) | 2021-03-29 | 2021-03-29 | 基于语音存在概率和听觉掩蔽效应的语音增强算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113160845A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808608A (zh) * | 2021-09-17 | 2021-12-17 | 随锐科技集团股份有限公司 | 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置 |
CN113963710A (zh) * | 2021-10-19 | 2022-01-21 | 北京融讯科创技术有限公司 | 一种语音增强方法、装置、电子设备和存储介质 |
CN115910018A (zh) * | 2022-10-31 | 2023-04-04 | 广州声博士声学技术有限公司 | 一种提高静音舱语音私密性的方法和装置 |
CN116221160A (zh) * | 2023-01-06 | 2023-06-06 | 歌尔股份有限公司 | 风扇噪声调整方法、装置、头戴显示设备及存储介质 |
WO2023220918A1 (zh) * | 2022-05-17 | 2023-11-23 | 华为技术有限公司 | 一种音频信号处理方法、装置、存储介质和车辆 |
CN117392994A (zh) * | 2023-12-12 | 2024-01-12 | 腾讯科技(深圳)有限公司 | 一种音频信号处理方法、装置、设备及存储介质 |
CN117995215A (zh) * | 2024-04-03 | 2024-05-07 | 深圳爱图仕创新科技股份有限公司 | 语音信号的处理方法、装置、计算机设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003316380A (ja) * | 2002-04-19 | 2003-11-07 | Sony Corp | 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム |
US20120035920A1 (en) * | 2010-08-04 | 2012-02-09 | Fujitsu Limited | Noise estimation apparatus, noise estimation method, and noise estimation program |
CN104464728A (zh) * | 2014-11-26 | 2015-03-25 | 河海大学 | 基于gmm噪声估计的语音增强方法 |
US20160379662A1 (en) * | 2013-11-27 | 2016-12-29 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus and server for processing noisy speech |
CN106504763A (zh) * | 2015-12-22 | 2017-03-15 | 电子科技大学 | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 |
CN106935247A (zh) * | 2017-03-08 | 2017-07-07 | 珠海中安科技有限公司 | 一种用于正压式空气呼吸器和狭小密闭空间的语音识别控制装置及方法 |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN108836628A (zh) * | 2018-04-23 | 2018-11-20 | 常州迅安科技股份有限公司 | 一种无传感器呼吸机及其恒定出风量控制方法 |
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
CN112201269A (zh) * | 2020-10-19 | 2021-01-08 | 成都明杰科技有限公司 | 基于改进噪声估计的mmse-lsa语音增强方法 |
-
2021
- 2021-03-29 CN CN202110334020.2A patent/CN113160845A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003316380A (ja) * | 2002-04-19 | 2003-11-07 | Sony Corp | 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム |
US20120035920A1 (en) * | 2010-08-04 | 2012-02-09 | Fujitsu Limited | Noise estimation apparatus, noise estimation method, and noise estimation program |
US20160379662A1 (en) * | 2013-11-27 | 2016-12-29 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus and server for processing noisy speech |
CN104464728A (zh) * | 2014-11-26 | 2015-03-25 | 河海大学 | 基于gmm噪声估计的语音增强方法 |
CN106504763A (zh) * | 2015-12-22 | 2017-03-15 | 电子科技大学 | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 |
CN106935247A (zh) * | 2017-03-08 | 2017-07-07 | 珠海中安科技有限公司 | 一种用于正压式空气呼吸器和狭小密闭空间的语音识别控制装置及方法 |
CN108836628A (zh) * | 2018-04-23 | 2018-11-20 | 常州迅安科技股份有限公司 | 一种无传感器呼吸机及其恒定出风量控制方法 |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
CN112201269A (zh) * | 2020-10-19 | 2021-01-08 | 成都明杰科技有限公司 | 基于改进噪声估计的mmse-lsa语音增强方法 |
Non-Patent Citations (1)
Title |
---|
宋知用: "《MATLAB在语音信号分析与合成中的应用》", 30 November 2013, 北京航天航空大学出版社, pages: 193 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808608A (zh) * | 2021-09-17 | 2021-12-17 | 随锐科技集团股份有限公司 | 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置 |
CN113808608B (zh) * | 2021-09-17 | 2023-07-25 | 随锐科技集团股份有限公司 | 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置 |
CN113963710A (zh) * | 2021-10-19 | 2022-01-21 | 北京融讯科创技术有限公司 | 一种语音增强方法、装置、电子设备和存储介质 |
WO2023220918A1 (zh) * | 2022-05-17 | 2023-11-23 | 华为技术有限公司 | 一种音频信号处理方法、装置、存储介质和车辆 |
CN115910018A (zh) * | 2022-10-31 | 2023-04-04 | 广州声博士声学技术有限公司 | 一种提高静音舱语音私密性的方法和装置 |
CN115910018B (zh) * | 2022-10-31 | 2023-11-24 | 广州声博士声学技术有限公司 | 一种提高静音舱语音私密性的方法和装置 |
CN116221160A (zh) * | 2023-01-06 | 2023-06-06 | 歌尔股份有限公司 | 风扇噪声调整方法、装置、头戴显示设备及存储介质 |
CN117392994A (zh) * | 2023-12-12 | 2024-01-12 | 腾讯科技(深圳)有限公司 | 一种音频信号处理方法、装置、设备及存储介质 |
CN117392994B (zh) * | 2023-12-12 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 一种音频信号处理方法、装置、设备及存储介质 |
CN117995215A (zh) * | 2024-04-03 | 2024-05-07 | 深圳爱图仕创新科技股份有限公司 | 语音信号的处理方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113160845A (zh) | 基于语音存在概率和听觉掩蔽效应的语音增强算法 | |
US11056130B2 (en) | Speech enhancement method and apparatus, device and storage medium | |
CN108831499B (zh) | 利用语音存在概率的语音增强方法 | |
US7133825B2 (en) | Computationally efficient background noise suppressor for speech coding and speech recognition | |
US6108610A (en) | Method and system for updating noise estimates during pauses in an information signal | |
CN109215677B (zh) | 一种适用于语音和音频的风噪检测和抑制方法和装置 | |
US8489396B2 (en) | Noise reduction with integrated tonal noise reduction | |
US8712074B2 (en) | Noise spectrum tracking in noisy acoustical signals | |
Shao et al. | A generalized time–frequency subtraction method for robust speech enhancement based on wavelet filter banks modeling of human auditory system | |
CN111091833A (zh) | 一种降低噪声影响的端点检测方法 | |
JP2014122939A (ja) | 音声処理装置および方法、並びにプログラム | |
CN105679330A (zh) | 基于改进子带信噪比估计的数字助听器降噪方法 | |
WO2022218254A1 (zh) | 语音信号增强方法、装置及电子设备 | |
CN114023348A (zh) | 一种基于自适应谱底优化的多带谱减法的语音增强方法 | |
CN113611319B (zh) | 基于语音成分实现的风噪抑制方法、装置、设备及系统 | |
CN111933169B (zh) | 一种二次利用语音存在概率的语音降噪方法 | |
Cao et al. | Multi-band spectral subtraction method combined with auditory masking properties for speech enhancement | |
CN112750451A (zh) | 一种提升语音听感的降噪方法 | |
Yektaeian et al. | Comparison of spectral subtraction methods used in noise suppression algorithms | |
CN112652322A (zh) | 一种语音信号增强方法 | |
CN113611320B (zh) | 风噪抑制方法、装置、音频设备及系统 | |
Singh et al. | Binary mask based method for enhancement of mixed noise speech of low SNR input | |
Kaur Ojhla et al. | A Wavelet Based Hybrid Threshold Transform Method for Speech Intelligibility and Quality in Noisy Speech Patterns of English Language | |
Selvi et al. | Speech Enhancement using Adaptive Filtering with Different Window Functions and Overlapping Sizes | |
Lan et al. | DCU-Net transient noise suppression based on joint spectrum estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |