CN113160845A - 基于语音存在概率和听觉掩蔽效应的语音增强算法 - Google Patents

基于语音存在概率和听觉掩蔽效应的语音增强算法 Download PDF

Info

Publication number
CN113160845A
CN113160845A CN202110334020.2A CN202110334020A CN113160845A CN 113160845 A CN113160845 A CN 113160845A CN 202110334020 A CN202110334020 A CN 202110334020A CN 113160845 A CN113160845 A CN 113160845A
Authority
CN
China
Prior art keywords
signal
noise
voice
speech
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110334020.2A
Other languages
English (en)
Inventor
程伊鑫
樊卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202110334020.2A priority Critical patent/CN113160845A/zh
Publication of CN113160845A publication Critical patent/CN113160845A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于语音存在概率和听觉掩蔽效应的语音增强算法,包括:对输入的时域语音信号进行预处理,得到频域语音信号,并保留相角;对得到的频域信号进行语音存在概率计算,并得到估计的噪声功率谱;对得到的频域信号进行噪声掩蔽阈值计算,得到各个频点的谱减系数值;结合估计噪声功率谱和谱减系数进行谱减,得到纯净语音谱,然后结合保留的相角进行逆傅立叶变换,得到纯净时域语音信号。本发明利用人耳的听觉掩蔽效应,对进入人耳的噪声信号计算其掩蔽阈值,并结合噪声估计,能在消除噪声的同时,尽可能保证语音的感知质量,使得语音信号中不易出现较多突变的峰值。

Description

基于语音存在概率和听觉掩蔽效应的语音增强算法
技术领域
本发明涉及语音信号增强技术,具体涉及一种基于语音存在概率和听觉掩蔽效应的语音增强算法。
背景技术
随着语音识别等技术的发展,其前端预处理中的语音增强领域也变得越来越重要。目前语音增强算法主要有谱减法、小波变换法、维纳滤波法等。谱减法在输入信号信噪比较高时能较好的抑制噪声,但在信噪比较低时,噪声残留较多。谱减法简单、复杂度低,但对于噪声的估计偏差较大,且对于谱减后得到的负值使用半波整流处理,导致“音乐噪声”的出现,严重影响语音的可懂度。目前有许多研究者在噪声估计方面进行了改进以解决“音乐噪声”问题。例如在平稳噪声环境下,有最小值控制的递归平均(MCRA)算法,该算法基于噪声对语音频谱的影响在频率上分布不均匀的特性,即只要某频带语音不存在的概率很高就可以对噪声功率谱进行估计更新。
在非平稳环境下,许多噪声估计算法依旧会有跟踪延迟、误差较大等问题。部分研究人员尝试在非平稳环境下,利用人耳的听觉特性进行语音增强。掩蔽效应即两个声音同时作用于人耳时,会存在相互干扰,使得另一个声音不易被察觉。包括纯音对纯音的掩蔽、噪声对纯音的掩蔽。在语音增强中,语音信号的存在使得噪声的听阈值上升,且语音信号的能量越大,噪声的掩蔽阈值就越高,越难被察觉。
发明内容
本发明目的在于克服现有谱减法中的噪声估计偏差较大导致谱减后语音失真的问题,提出一种基于语音存在概率和听觉掩蔽效应的语音增强算法,该算法在谱减时不需要完全减去噪声,而是使得残留的噪声强度在掩蔽阈值之下,使人耳无法感受到这些噪声,这样在消除噪声的同时可以减少语音失真。
本发明的目的是通过以下技术方案来实现的:一种基于语音存在概率和听觉掩蔽效应的语音增强算法,其步骤如下:
S1.对输入的时域语音信号进行预处理,得到频域语音信号,并保留相角于后续步骤使用;
S2.对S1步骤得到的频域信号进行基于谱熵比的语音存在概率计算,并得到估计的噪声功率谱;
S3.对S1步骤得到的频域信号进行噪声掩蔽阈值计算,得到各个频点的谱减系数值;
S4.结合S2的估计噪声功率谱和S3得到的谱减系数进行谱减,得到纯净语音谱,然后结合保留的相角进行逆傅立叶变换,得到纯净时域语音信号。
其中,步骤S1中输入的时域语音信号由纯净语音信号和噪声信号叠加而成,纯净语音信号和噪声信号来自THCHS30语料库。
进一步地,步骤S1包括以下子步骤:
S1-1.对长度为T的时域语音信号进行预加重处理,得到预加重后的信号
Figure BDA0002997440330000021
Figure BDA0002997440330000022
其中μ为预加重系数,y(t)为原始语音信号,t=1,2,…,T;
S1-2.对预加重后的信号进行加窗分帧处理,得到分帧后帧长为W的语音信号y(t);
y(t)=[y1(t),y2(t),…,yfn(t)];
其中,yi(t)表示第i帧信号,i=1,2,…,fn,fn表示帧数;t=1,2,…W为帧信号点序号;
S1-3.对每帧语音信号进行傅立叶变换,将语音信号从时域变换到频域,得到长度为W的频域语音信号Y(k):
Y(k)=[Y1(k),Y2(k),…Yfn(k)];
其中,Yi(k)表示由时域信号yi(t)经傅立叶变换得到的频域信号,k=1,2,…W为频点序号。
进一步地,步骤S2包括以下子步骤:
S2-1.根据能熵比计算第l帧第k个语音频点的语音存在概率p(k,l):
Figure BDA0002997440330000023
其中,a为控制参数;W(k,l)为能熵比,能熵比常用来区分有无语音片段,能熵比越大,语音存在的概率也就越大;能熵比由短时谱熵H(k,l)和短时能量E(l)决定:
Figure BDA0002997440330000031
S2-2.将计算得到的语音存在概率在时间上进行平滑,得到平滑后的语音存在概率
Figure BDA0002997440330000032
Figure BDA0002997440330000033
其中,αp为平滑常数;
S2-3.由平滑后的语音存在概率计算平滑因子
Figure BDA0002997440330000034
Figure BDA0002997440330000035
其中,αd为递归平滑系数。
S2-4.本发明在基于时间递归的噪声功率谱估计的基础上由上述语音存在概率进行改进;噪声功率谱估计分语音存在和不存在两种情况,两种情况都考虑时,由平滑因子计算估计噪声功率谱
Figure BDA0002997440330000036
Figure BDA0002997440330000037
其中,|Y(k,l)|为第l帧第k个频点的带噪语音幅度谱。
进一步地,掩蔽效应为两个声音同时作用于人耳时,会存在相互干扰,使得另一个声音不易被察觉;语音信号的存在使得噪声的听阈值上升,且语音信号的能量越大,噪声的掩蔽阈值就越高,越难被察觉;本发明根据这个特性,在谱减法中并不完全抑制噪声,而是使得残留的噪声强度在掩蔽阈值之下,使人耳无法感受到这些噪声,这样在消除噪声的同时可以减少语音失真。
进一步地,将人耳听觉频率范围划分为若干个Bark尺度的关键子频带,并计算每个子频带中的噪声掩蔽阈值。
进一步地,步骤S3包括以下子步骤:
S3-1.采用Bark刻度来实现将线性频率映射到人的听觉感知域,在这种映射中,频率f和线性Bark刻度b的函数关系为:
Figure BDA0002997440330000038
其中,b为临界Bark频带序号。
S3-2.根据Bark刻度的划分,求得每个Bark带内的语音信号能量,得到临界带的能量:
Figure BDA0002997440330000041
其中,Bi表示第i个临界带的能量;bli,bhi为Bark域临界带宽i的下限和上限频率;P为语音信号功率谱;
S3-3.将临界带能量和扩展函数SFij相互卷积得到扩展Bark域功率谱C:
Figure BDA0002997440330000042
其中,扩展函数SFij是考虑到各个临界带之间对后续掩蔽阈值的计算有一定的影响,是临界带之间Bark谱对扩展普定量的描述,有如下定义:
Figure BDA0002997440330000043
其中,Δ=i-j表示两个临界频带号的差值,且Δ≤imax
S3-4.考虑到有两种掩蔽情况:一种为纯音掩蔽噪声;另一种为噪声掩蔽纯音;所以需判断语音信号偏噪声特性还是偏语音特性,本发明根据语音谱平坦度SFMdB来判断,其由功率谱的几何平均值
Figure BDA0002997440330000044
和算术平均值
Figure BDA0002997440330000045
计算得到:
Figure BDA0002997440330000046
根据语音平坦度计算音调系数∈:
Figure BDA0002997440330000047
音调系数∈∈[0,1],其值为0时,说明频带的信号完全为噪声特性,为1时,表示频带的信号完全为纯语音特性;
S3-5.根据得到的扩展Bark域功率谱C和音调系数∈计算扩展掩蔽阈值T′:
Figure BDA0002997440330000048
S3-6.根据扩展掩蔽阈值T′和绝对听阈阈值计算得到最终噪声掩蔽阈值T:
Ti=max(T′i,Ta)
其中,Ta为绝对听阈,表示在安静环境下,一个纯音信号能被人耳感知所具有的最小声压级,其与频率f的关系为:
Figure BDA0002997440330000049
S3-7.根据最终掩蔽阈值计算谱减参数增益因子α和过减因子β:
Figure BDA0002997440330000051
其中,αmax,αmin为谱减参数可调的上下限,可根据实际环境进行实验确定;Tmax,Tmin为噪声掩蔽阈值的最大值和最小值。β和α使用同样的规则进行调节。
进一步地,步骤S4包括以下子步骤:
S4-1.根据S3得到的谱减参数以及S2得到的估计噪声谱,进行谱减,计算增强后的纯净语音功率谱
Figure BDA0002997440330000052
Figure BDA0002997440330000053
其中,Y(m,k)为带噪语音信号的功率谱;
Figure BDA0002997440330000054
为噪声信号的估计功率谱,由S2得到;m为帧号;k为频率;α和β由S3得到。
S4-2.根据S1保留的相角和S4-1得到的纯净语音功率谱进行逆傅立叶变换得到增强后的时域纯净语音信号
Figure BDA0002997440330000055
一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于语音存在概率和听觉掩蔽效应的语音增强算法。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于语音存在概率和听觉掩蔽效应的语音增强算法。
与现有技术相比,本发明的有益效果为:本发明根据改进的语音存在概率计算方法,即使在非平稳环境下也能有效跟踪噪声;利用人耳的听觉掩蔽效应,对进入人耳的噪声信号计算其掩蔽阈值,并结合噪声估计,能在消除噪声的同时,尽可能保证语音的感知质量,使得语音信号中不易出现较多突变的峰值。
附图说明
图1为本发明的方法流程图。
图2为一个计算噪声掩蔽阈值的流程图。
图3中(a)为原始语音信号、(b)为带噪语音信号、(c)为本发明算法降噪后的语音信号示意图。
具体实施方式
下面结合附图对本发明的具体实施方法做进一步详细描述。以下实施例或者附图用于说明本发明,但不用来限制本发明的范围,被描述的说明性施例仅仅是例证本发明的各个步骤。
本发明利用人耳的听觉掩蔽特性以及改进的噪声功率谱估计方法设计了一种新的语音增强算法。在听觉特性下,语音信号的存在使得噪声的听阈值上升,且语音信号的能量越大,噪声的掩蔽阈值就越高,越难被察觉。本发明根据这个特性,在谱减法中并不完全抑制噪声,而是使得残留的噪声强度在人耳的听觉掩蔽阈值之下,那么人耳便不会感受到该噪声,这样在消除噪声的同时可以减少语音失真。
传统的谱减法在进行噪声估计时通常先判断语音的有无语音片段,再估计噪声。但这种方法在非平稳环境下时,难以做到有效跟踪噪声。本发明基于时间递归的噪声谱估计方法,对其中的语音存在概率进行改进,利用能熵比进行语音存在概率值计算,并进行平滑处理。最终利用语音存在概率估计带噪信号中的噪声功率谱。本发明改进的算法能即使在非平稳环境下也能有效跟踪噪声。
如图1所示,该方法包括:
S1.对输入的时域语音信号进行预处理,得到频域语音信号,并保留相角于后续步骤使用;
S2.对S1步骤得到的频域信号进行基于谱熵比的语音存在概率计算,并得到估计的噪声功率谱;
S3.对S1步骤得到的频域信号进行噪声掩蔽阈值计算,得到各个频点的谱减系数值;
S4.结合S2的估计噪声功率谱和S3得到的谱减系数进行谱减,得到纯净语音谱,然后结合保留的相角进行逆傅立叶变换,得到纯净时域语音信号。
具体的,在本实施例中,所述的时域语音信号由纯净语音信号和噪声信号叠加而成。所述纯净语音信号和噪声信号来自THCHS30语料库。
在本实施例中,所述步骤S1包括以下子步骤:
S1-1.对长度为T的时域语音信号进行预加重处理,在本实施例中,语音信号长度为7.375s,采样率为16000Hz,即T=118000,最终得到预加重后的信号
Figure BDA0002997440330000061
Figure BDA0002997440330000071
其中μ为预加重系数,本实施例中取μ=0.97;y(t)为原始语音信号,t=1,2,…,T。
S1-2.对预加重后的信号进行加窗分帧处理,本实施例取帧长为W=320点,得到分帧后的语音信号y(t);
y(t)=[y1(t),y2(t),…,yfn(t)];
其中,yi(t)(i=1,2,…,fn)表示第帧信号,fn表示帧数,在本实施例中fn=736;t=1,2,…W为帧信号点序号。
S1-3.对每帧语音信号进行傅立叶变换,将语音信号从时域变换到频域,得到长度为W的频域语音信号Y(k):
Y(k)=[Y1(k),Y2(k),…Yfn(k)];
其中,Yi(k)表示由时域信号yi(t)经傅立叶变换得到的频域信号,k=1,2,…W为频点序号。
在本实施例中,步骤S2:对步骤S1得到的频域信号进行基于谱熵比的语音存在概率计算,并得到估计的噪声功率谱,主要包括以下子步骤:
S2-1.在本实施例中,取控制参数α=0.01,再根据能熵比计算第帧第个语音频点的语音存在概率p(k,l):
Figure BDA0002997440330000072
W(k,l)为能熵比,能熵比常用来区分有无语音片段,能熵比越大,语音存在的概率也就越大。能熵比由短时谱熵H(k,l)和短时能量E(l)决定:
Figure BDA0002997440330000073
S2-2.在本实施例中,取平滑常数αp=0.5。将计算得到的语音存在概率在时间上进行平滑,得到平滑后的语音存在概率
Figure BDA0002997440330000074
Figure BDA0002997440330000075
S2-3.在本实施例中,取递归平滑系数αd=0.97;由平滑后的语音存在概率计算平滑因子
Figure BDA0002997440330000076
Figure BDA0002997440330000077
S2-4.本发明在基于时间递归的噪声功率谱估计的基础上由上述语音存在概率进行改进。噪声功率谱估计分语音存在和不存在两种情况,两种情况都考虑时,由平滑因子计算估计噪声功率谱
Figure BDA0002997440330000081
Figure BDA0002997440330000082
其中,|Y(k,l)|为第l帧第k个频点的带噪语音幅度谱。
在本实施例中,步骤S3:对S1步骤得到的频域信号进行噪声掩蔽阈值计算,如图2所示,得到各个频点的谱减系数值,主要包括以下子步骤:
S3-1.采用Bark刻度来实现将线性频率映射到人的听觉感知域,在这种映射中,频率f和线性Bark刻度b的函数关系为:
Figure BDA0002997440330000083
在本实施例中,将0-16000Hz范围内的频率可分为22个频带。因此,临界Bark频带序号b=1,2…,22。
S3-2.根据Bark刻度的划分,求得每个Bark带内的语音信号能量,得到第i个临界带的能量:
Figure BDA0002997440330000084
在本实施例中,每一帧的临界带能量为22维向量;
S3-3.将临界带能量和扩展函数SFij相互卷积得到扩展Bark域功率谱C:
Figure BDA0002997440330000085
其中,扩展函数SFij是考虑到各个临界带之间对后续掩蔽阈值的计算有一定的影响,是临界带之间Bark谱对扩展普定量的描述,有如下定义:
Figure BDA0002997440330000086
其中,Δ=i-j表示两个临界频带号的差值,且Δ≤imax
S3-4.在本实施例中,根据语音谱平坦度SFMdB来判断语音是偏噪声还是语音特性,其由功率谱的几何平均值
Figure BDA0002997440330000087
和算术平均值
Figure BDA0002997440330000088
计算得到:
Figure BDA0002997440330000089
根据语音平坦度计算音调系数∈:
Figure BDA0002997440330000091
音调系数∈∈[0,1],其值为0时,说明频带的信号完全为噪声特性,为1时,表示频带的信号完全为纯语音特性。
S3-5.根据得到的扩展Bark域功率谱C和音调系数∈计算扩展掩蔽阈值T′:
Figure BDA0002997440330000092
S3-6.根据扩展掩蔽阈值T′和绝对听阈阈值计算得到最终噪声掩蔽阈值T:
Ti=max(T′i,Ta)
其中,Ta为绝对听阈,表示在安静环境下,一个纯音信号能被人耳感知所具有的最小声压级,其与频率f的关系为:
Figure BDA0002997440330000093
S3-7.根据最终掩蔽阈值计算谱减参数增益因子α和过减因子β:
Figure BDA0002997440330000094
在本实施例中,αmax=6,αmin=6,βmax=0.01,βmin=0.005;Tmax,Tmin为噪声掩蔽阈值的最大值和最小值。
在本实施例中,步骤S4:结合S2的估计噪声功率谱和S3得到的谱减系数进行谱减,得到纯净语音谱,然后结合保留的相角进行逆傅立叶变换,得到纯净时域语音信号,包括以下子步骤:
S4-1.根据S3得到的谱减参数以及步骤S2得到的估计噪声谱,进行谱减,计算增强后的纯净语音功率谱
Figure BDA0002997440330000095
Figure BDA0002997440330000096
其中,Y(m,k)为带噪语音信号的功率谱;
Figure BDA0002997440330000097
为噪声信号的估计功率谱,由步骤S2得到;m为帧号;k为频率;α和β由S3得到。
S4-2.根据S1保留的相角和S4-1得到的纯净语音功率谱进行逆傅立叶变换得到增强后的时域纯净语音信号
Figure BDA0002997440330000098
图3为本实施例仿真图,其中(a)为原始语音信号、(b)为带噪语音信号、(c)为本发明算法降噪后的语音信号示意图。可以看出,本发明改进的算法能即使在非平稳环境下也能有效跟踪噪声。
本发明还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于语音存在概率和听觉掩蔽效应的语音增强算法。
进一步的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于语音存在概率和听觉掩蔽效应的语音增强算法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,包括以下步骤:
S1.对输入的时域语音信号进行预处理,得到频域语音信号,并保留相角于后续步骤使用;
S2.对步骤S1得到的频域信号进行基于谱熵比的语音存在概率计算,并得到估计的噪声功率谱;
S3.对步骤S1得到的频域信号进行噪声掩蔽阈值计算,得到各个频点的谱减系数值;
S4.结合步骤S2的估计噪声功率谱和步骤S3得到的谱减系数进行谱减,得到纯净语音谱,然后结合保留的相角进行逆傅立叶变换,得到纯净时域语音信号。
2.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤S1中,输入的时域语音信号由纯净语音信号和噪声信号叠加而成,纯净语音信号和噪声信号来自THCHS30语料库。
3.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤S1包括以下子步骤:
S1-1.对长度为T的时域语音信号进行预加重处理,得到预加重后的信号
Figure FDA0002997440320000011
Figure FDA0002997440320000012
其中μ为预加重系数,y(t)为原始语音信号,t=1,2,…,T;
S1-2.对预加重后的信号进行加窗分帧处理,得到分帧后帧长为W的语音信号y(t);
y(t)=[y1(t),y2(t),…,yfn(t)];
其中,yi(t)表示第i帧信号,i=1,2,…,fn,fn表示帧数;t=1,2,…W为帧信号点序号;
S1-3.对每帧语音信号进行傅立叶变换,将语音信号从时域变换到频域,得到长度为W的频域语音信号Y(k):
Y(k)=[Y1(k),Y2(k),…Yfn(k)];
其中,Yi(k)表示由时域信号yi(t)经傅立叶变换得到的频域信号,k=1,2,…W为频点序号。
4.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤S2包括以下子步骤:
S2-1.根据能熵比计算第l帧第k个语音频点的语音存在概率p(k,l):
Figure FDA0002997440320000021
其中,a为控制参数;W(k,l)为能熵比,能熵比由短时谱熵H(k,l)和短时能量E(l)决定:
Figure FDA0002997440320000022
S2-2.将计算得到的语音存在概率在时间上进行平滑,得到平滑后的语音存在概率
Figure FDA0002997440320000023
Figure FDA0002997440320000024
其中,αp为平滑常数;
S2-3.由平滑后的语音存在概率计算平滑因子
Figure FDA0002997440320000025
Figure FDA0002997440320000026
其中,αd为递归平滑系数;
S2-4.噪声功率谱估计分语音存在和不存在两种情况,两种情况都考虑时,由平滑因子计算估计噪声功率谱
Figure FDA0002997440320000027
Figure FDA0002997440320000028
其中,|Y(k,l)|为第l帧第k个频点的带噪语音幅度谱。
5.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,在谱减法中不完全抑制噪声,使得残留的噪声强度在掩蔽阈值之下。
6.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,估计噪声掩蔽阈值计算方法如下:
将人耳听觉频率范围划分为若干个Bark尺度的关键子频带,并计算每个子频带中的噪声掩蔽阈值。
7.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤S3包括以下子步骤:
S3-1.采用Bark刻度来实现将线性频率映射到人的听觉感知域,在这种映射中,频率f和线性Bark刻度b的函数关系为:
Figure FDA0002997440320000031
其中,b为临界Bark频带序号;
S3-2.根据Bark刻度的划分,求得每个Bark带内的语音信号能量,得到临界带的能量:
Figure FDA0002997440320000032
其中,Bi表示第i个临界带的能量;bli,bhi为Bark域临界带宽i的下限和上限频率;P为语音信号功率谱;
S3-3.将临界带能量和扩展函数SFij相互卷积得到扩展Bark域功率谱C:
Figure FDA0002997440320000033
其中,扩展函数SFij是临界带之间Bark谱对扩展普定量的描述,有如下定义:
Figure FDA0002997440320000034
其中,Δ=i-j表示两个临界频带号的差值,且Δ≤imax
S3-4.考虑到有两种掩蔽情况:一种为纯音掩蔽噪声;另一种为噪声掩蔽纯音;所以需判断语音信号偏噪声特性还是偏语音特性,根据语音谱平坦度SFMdB来判断,其由功率谱的几何平均值
Figure FDA0002997440320000035
和算术平均值
Figure FDA0002997440320000036
计算得到:
Figure FDA0002997440320000037
根据语音平坦度计算音调系数∈:
Figure FDA0002997440320000038
音调系数∈∈[0,1],其值为0时,说明频带的信号完全为噪声特性,为1时,表示频带的信号完全为纯语音特性;
S3-5.根据得到的扩展Bark域功率谱C和音调系数∈计算扩展掩蔽阈值T′:
Figure FDA0002997440320000039
S3-6.根据扩展掩蔽阈值T′和绝对听阈阈值计算得到最终噪声掩蔽阈值T:
Ti=max(T′i,Ta)
其中,Ta为绝对听阈,表示在安静环境下,一个纯音信号能被人耳感知所具有的最小声压级,其与频率f的关系为:
Figure FDA0002997440320000041
S3-7.根据最终掩蔽阈值计算谱减参数增益因子α和过减因子β:
Figure FDA0002997440320000042
其中,αmax,αmin为谱减参数可调的上下限,可根据实际环境进行实验确定;Tmax,Tmin为噪声掩蔽阈值的最大值和最小值;β和α使用同样的规则进行调节。
8.根据权利要求1所述的基于语音存在概率和听觉掩蔽效应的语音增强算法,其特征在于,所述步骤S4包括以下子步骤:
S4-1.根据S3得到的谱减参数以及S2得到的估计噪声谱,进行谱减,计算增强后的纯净语音功率谱
Figure FDA0002997440320000043
Figure FDA0002997440320000044
其中,Y(m,k)为带噪语音信号的功率谱;
Figure FDA0002997440320000045
为噪声信号的估计功率谱,由S2得到;m为帧号;k为频率;α和β由S3得到;
S4-2.根据S1保留的相角和S4-1得到的纯净语音功率谱进行逆傅立叶变换得到增强后的时域纯净语音信号
Figure FDA0002997440320000046
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的语音增强算法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的语音增强算法。
CN202110334020.2A 2021-03-29 2021-03-29 基于语音存在概率和听觉掩蔽效应的语音增强算法 Pending CN113160845A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110334020.2A CN113160845A (zh) 2021-03-29 2021-03-29 基于语音存在概率和听觉掩蔽效应的语音增强算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110334020.2A CN113160845A (zh) 2021-03-29 2021-03-29 基于语音存在概率和听觉掩蔽效应的语音增强算法

Publications (1)

Publication Number Publication Date
CN113160845A true CN113160845A (zh) 2021-07-23

Family

ID=76885553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110334020.2A Pending CN113160845A (zh) 2021-03-29 2021-03-29 基于语音存在概率和听觉掩蔽效应的语音增强算法

Country Status (1)

Country Link
CN (1) CN113160845A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808608A (zh) * 2021-09-17 2021-12-17 随锐科技集团股份有限公司 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置
CN113963710A (zh) * 2021-10-19 2022-01-21 北京融讯科创技术有限公司 一种语音增强方法、装置、电子设备和存储介质
CN115910018A (zh) * 2022-10-31 2023-04-04 广州声博士声学技术有限公司 一种提高静音舱语音私密性的方法和装置
CN116221160A (zh) * 2023-01-06 2023-06-06 歌尔股份有限公司 风扇噪声调整方法、装置、头戴显示设备及存储介质
WO2023220918A1 (zh) * 2022-05-17 2023-11-23 华为技术有限公司 一种音频信号处理方法、装置、存储介质和车辆
CN117392994A (zh) * 2023-12-12 2024-01-12 腾讯科技(深圳)有限公司 一种音频信号处理方法、装置、设备及存储介质
CN117995215A (zh) * 2024-04-03 2024-05-07 深圳爱图仕创新科技股份有限公司 语音信号的处理方法、装置、计算机设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316380A (ja) * 2002-04-19 2003-11-07 Sony Corp 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム
US20120035920A1 (en) * 2010-08-04 2012-02-09 Fujitsu Limited Noise estimation apparatus, noise estimation method, and noise estimation program
CN104464728A (zh) * 2014-11-26 2015-03-25 河海大学 基于gmm噪声估计的语音增强方法
US20160379662A1 (en) * 2013-11-27 2016-12-29 Tencent Technology (Shenzhen) Company Limited Method, apparatus and server for processing noisy speech
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN106935247A (zh) * 2017-03-08 2017-07-07 珠海中安科技有限公司 一种用于正压式空气呼吸器和狭小密闭空间的语音识别控制装置及方法
CN108735225A (zh) * 2018-04-28 2018-11-02 南京邮电大学 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
CN108836628A (zh) * 2018-04-23 2018-11-20 常州迅安科技股份有限公司 一种无传感器呼吸机及其恒定出风量控制方法
CN110310656A (zh) * 2019-05-27 2019-10-08 重庆高开清芯科技产业发展有限公司 一种语音增强方法
CN112201269A (zh) * 2020-10-19 2021-01-08 成都明杰科技有限公司 基于改进噪声估计的mmse-lsa语音增强方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316380A (ja) * 2002-04-19 2003-11-07 Sony Corp 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム
US20120035920A1 (en) * 2010-08-04 2012-02-09 Fujitsu Limited Noise estimation apparatus, noise estimation method, and noise estimation program
US20160379662A1 (en) * 2013-11-27 2016-12-29 Tencent Technology (Shenzhen) Company Limited Method, apparatus and server for processing noisy speech
CN104464728A (zh) * 2014-11-26 2015-03-25 河海大学 基于gmm噪声估计的语音增强方法
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN106935247A (zh) * 2017-03-08 2017-07-07 珠海中安科技有限公司 一种用于正压式空气呼吸器和狭小密闭空间的语音识别控制装置及方法
CN108836628A (zh) * 2018-04-23 2018-11-20 常州迅安科技股份有限公司 一种无传感器呼吸机及其恒定出风量控制方法
CN108735225A (zh) * 2018-04-28 2018-11-02 南京邮电大学 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
CN110310656A (zh) * 2019-05-27 2019-10-08 重庆高开清芯科技产业发展有限公司 一种语音增强方法
CN112201269A (zh) * 2020-10-19 2021-01-08 成都明杰科技有限公司 基于改进噪声估计的mmse-lsa语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋知用: "《MATLAB在语音信号分析与合成中的应用》", 30 November 2013, 北京航天航空大学出版社, pages: 193 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808608A (zh) * 2021-09-17 2021-12-17 随锐科技集团股份有限公司 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置
CN113808608B (zh) * 2021-09-17 2023-07-25 随锐科技集团股份有限公司 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置
CN113963710A (zh) * 2021-10-19 2022-01-21 北京融讯科创技术有限公司 一种语音增强方法、装置、电子设备和存储介质
WO2023220918A1 (zh) * 2022-05-17 2023-11-23 华为技术有限公司 一种音频信号处理方法、装置、存储介质和车辆
CN115910018A (zh) * 2022-10-31 2023-04-04 广州声博士声学技术有限公司 一种提高静音舱语音私密性的方法和装置
CN115910018B (zh) * 2022-10-31 2023-11-24 广州声博士声学技术有限公司 一种提高静音舱语音私密性的方法和装置
CN116221160A (zh) * 2023-01-06 2023-06-06 歌尔股份有限公司 风扇噪声调整方法、装置、头戴显示设备及存储介质
CN117392994A (zh) * 2023-12-12 2024-01-12 腾讯科技(深圳)有限公司 一种音频信号处理方法、装置、设备及存储介质
CN117392994B (zh) * 2023-12-12 2024-03-01 腾讯科技(深圳)有限公司 一种音频信号处理方法、装置、设备及存储介质
CN117995215A (zh) * 2024-04-03 2024-05-07 深圳爱图仕创新科技股份有限公司 语音信号的处理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN113160845A (zh) 基于语音存在概率和听觉掩蔽效应的语音增强算法
US11056130B2 (en) Speech enhancement method and apparatus, device and storage medium
CN108831499B (zh) 利用语音存在概率的语音增强方法
US7133825B2 (en) Computationally efficient background noise suppressor for speech coding and speech recognition
US6108610A (en) Method and system for updating noise estimates during pauses in an information signal
CN109215677B (zh) 一种适用于语音和音频的风噪检测和抑制方法和装置
US8489396B2 (en) Noise reduction with integrated tonal noise reduction
US8712074B2 (en) Noise spectrum tracking in noisy acoustical signals
Shao et al. A generalized time–frequency subtraction method for robust speech enhancement based on wavelet filter banks modeling of human auditory system
CN111091833A (zh) 一种降低噪声影响的端点检测方法
JP2014122939A (ja) 音声処理装置および方法、並びにプログラム
CN105679330A (zh) 基于改进子带信噪比估计的数字助听器降噪方法
WO2022218254A1 (zh) 语音信号增强方法、装置及电子设备
CN114023348A (zh) 一种基于自适应谱底优化的多带谱减法的语音增强方法
CN113611319B (zh) 基于语音成分实现的风噪抑制方法、装置、设备及系统
CN111933169B (zh) 一种二次利用语音存在概率的语音降噪方法
Cao et al. Multi-band spectral subtraction method combined with auditory masking properties for speech enhancement
CN112750451A (zh) 一种提升语音听感的降噪方法
Yektaeian et al. Comparison of spectral subtraction methods used in noise suppression algorithms
CN112652322A (zh) 一种语音信号增强方法
CN113611320B (zh) 风噪抑制方法、装置、音频设备及系统
Singh et al. Binary mask based method for enhancement of mixed noise speech of low SNR input
Kaur Ojhla et al. A Wavelet Based Hybrid Threshold Transform Method for Speech Intelligibility and Quality in Noisy Speech Patterns of English Language
Selvi et al. Speech Enhancement using Adaptive Filtering with Different Window Functions and Overlapping Sizes
Lan et al. DCU-Net transient noise suppression based on joint spectrum estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination