CN107316648A - 一种基于有色噪声的语音增强方法 - Google Patents
一种基于有色噪声的语音增强方法 Download PDFInfo
- Publication number
- CN107316648A CN107316648A CN201710608441.3A CN201710608441A CN107316648A CN 107316648 A CN107316648 A CN 107316648A CN 201710608441 A CN201710608441 A CN 201710608441A CN 107316648 A CN107316648 A CN 107316648A
- Authority
- CN
- China
- Prior art keywords
- signal
- noise
- noisy speech
- subspace
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000000205 computational method Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 27
- 230000009467 reduction Effects 0.000 abstract description 19
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 238000003786 synthesis reaction Methods 0.000 abstract description 3
- 238000005728 strengthening Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 239000004568 cement Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 241000282373 Panthera pardus Species 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明提供一种基于有色噪声的语音增强方法,通过建立双麦克风阵列,获得两个通道的带噪语音信号,对带噪语音信号数据的协方差矩阵进行特征值分解,将带噪语音信号空间分为信号子空间和噪声子空间。通过子空间法处理得到相对纯净的语音处理信号,然后结合最小均方误差估计算法,得到增强语音。该语音增强方法适用于智能家居的双麦阵列,不仅对噪声具有较好的降噪效果而且对语音的损伤也做到了最小失真,最大限度保证了纯净语音的可懂度。此外,该方法不仅对合成的带噪语音具有良好降噪效果,且对实际的带噪语音也有较好降噪效果。
Description
技术领域
本发明涉及信号处理技术领域,具体而言,涉及一种基于有色噪声的语音增强方法。
背景技术
随着科技的进步和人民生活水平的提高,用户对居住环境提出了更高的需求,越来越注重家居生活的舒适、安全与便捷。智能家居旨在融合计算机、自动化控制、人工智能和网络通讯各项技术于一体,将家居环境下的各种设备终端,比如照明设备、音视频设备、安防系统、网络家电等家庭网络连接在一起,实现家居环境的智能控制。
语音是人与人之间最便捷的交互方式,智能语音技术对于改变家居环境下对电视、音箱、照明设备等控制方式有着重大革新意义,识赋予人与各终端设备良好沟通的重要桥梁。
发明人研究发现,在真实家居场景下,用户发出语音指令的同时,通过伴随各种各样的噪声,比如电视的声音、音乐等。通常需要进行语音增强。然而在语音增强的过程中,提高信噪比(SNR)与提高可懂度通常是相互矛盾的。在滤除噪声的同时或多或少会损伤语音信号。通常,噪声滤除的越多,语音可懂度损害就越多,特别在低SNR下这一矛盾更为突出。
传统的谱减法、维纳滤波法是在频域中进行分析的,计算量比较小,降噪效果不理想。而基于信号子空间的语音降噪算法,是将带噪语音信号投影到两个子空间中,一个是语音信号子空间,另一个是噪声子空间,通过去除噪声子空间,由语音信号子空间来重构语音信号,从而达到良好的降噪效果,但该方法属于单通道语音降噪算法,只适用于白噪声环境下的语音降噪,降噪后的语音通常伴有音乐噪声。专利CN1014660055提供了一种麦克风阵列语音增强技术,通过自适应滤波器用一个麦克风接收到的噪声抵消另一个麦克风接收到的信号中的噪声成分,保留语音成分,但是降噪的同时也会损害到语音。
发明内容
有鉴于此,本发明实施例针对语音增强过程中在滤除噪音的同时会损害语音信号,导致语音的可懂度下降的技术问题,提供一种基于有色噪声的语音增强方法。
本发明是这样实施的:
一种基于有色噪声的语音增强方法,包括以下步骤:
步骤1,建立双麦克风阵列,接收得到两个通道的带噪语音信号,带噪语音信号经过时延补偿模块,以使两个通道的带噪语音信号同步;
步骤2,得到带噪语音信号数据的协方差矩阵,并进行特征值分解,将带噪语音信号空间分为信号子空间和噪声子空间;
步骤3,采用子空间法处理得到相对纯净的语音处理信号;
步骤4,在信号子空间内对语音处理信号进行最小均方方差估计,计算最小均方误差。
在步骤1中,
S11,对麦克风接收到的两个通道的带噪语音信号分别进行预处理,预处理包括对带噪语音信号进行采样处理,然后进行分帧处理,将分帧处理后的每帧信号进行加窗处理。
S12,经预处理后的带噪语音信号经过时延补偿模块,使两个麦克风的带噪语音信号准确同步,具体为:
双麦克风阵列采集的两个通道的带噪语音信号分别为x0(n)和x1(n),进行傅立叶变换到频域,然后输入到时延估计单元计算x0(n)和x1(n)的相位差τ0和τ1,根据相位差计算出两个通道信号的相对延时ω0。
然后,进行延时-求和波束形成,表示为:
X(n)=ω0(n)x0(n-τ0)+ω1(n)x1(n-τ1),该过程可在某些程度上消除混响,并初略的对语音进行降噪。
在步骤2中,
S21,双麦克风阵列接收到带噪语音信号为X(n),计算得到带噪语音信号的协方差矩阵为:
其中,X(n)表示带噪语音信号,E[·]表示求矩阵期望,上标H表示共轭转置,Rs表示纯净语音信号的协方差矩阵,Rn表示噪声信号的协方差矩阵;。
S22,对协方差矩阵Rx进行特征值分解,表示为:
Rx=UΛxUT;
其中,Λx为Rx的K个特征值构成的K维对角阵,Λx的所有特征值中有M个较大的特征值,0<M<K,而其余K-M个特征值很小,都等于σN 2,σN 2表示噪声方差。
令U=[UsUp」,U是矩阵Rx的特征向量矩阵,因而U是正交矩阵,满足:
I=UxUx T+UpUp T
其中,I为K维单位矩阵;Us为信号子空间,包含目标语音信号和噪声;UP为噪声子空间,只包含噪声。
在步骤3中,
S31,对带噪语音信号进行KL变换,表示为:
E{UTX}=0;
cov{UTX}=diag(Λx,1+σN 2I,σN 2I);
cov{Up TX}=σN 2I;
其中,U是矩阵Rx的特征向量矩阵,UP为噪声子空间,Λx,1为Rx的特征值构成的对角阵;
向量Up TX中的语音信号能量为零,即便是噪声,在估计纯净语音信号时,此向量可以被直接去除,得到相对纯净的所述语音处理信号。
S32,将信号子空间的特征值减去噪声子空间的特征值,得到相对纯净的语音处理信号,表示为:Λs=Λx-Λn;其中,Λs为相对纯净的语音处理信号的特征值,Λx为信号子空间的特征值,Λn为噪声子空间的特征值。
在步骤4中,
S41,将噪声子空间UP的KL分量置零,表示为:
E{UTX}=0;
cov{UTX}=diag(Λx,1+σN 2I,σN 2I);
cov{Up TX}=σN 2I;
S42,在信号子空间Us内对先相对纯净的语音处理信号的KL分量进行最小均方误差估计,具体为:
先验信噪比ξk表示为:
后验信噪比γk表示为:
其中,Xk为带噪语音信号X的傅里叶变换,λs(k)为第k个频率分量下的语音方差,λn(k)为第K个频率分量下的噪声方差,Sk为纯净语音的傅里叶变化,Nk为噪声的傅里叶变换;
得到ξk和γk后,定义νk为:则语音幅度谱估计值为:
S43,MMSE增益:
S44,通过KL逆变换,输出增强语音信号。
本发明的有益效果是:该方法利用双麦阵列获得两个通道的带噪语音信号,两个麦克风的带噪语音信号通过时延补偿准备同步。然后通过子空间算法和最小均方误差估计法的结合,能够有效解决信号子空间单通道算法所产生的音乐噪声,在实现降噪的同时,有效保证语音信号的可懂度。方法简单,容易实现,且不仅对合成的带噪语音具有良好的降噪效果,对实际场景中的带噪语音也具有良好的降噪效果。此外,该语音增强方法不仅对白噪声有良好的降噪效果,且对noise92库里的其他噪声,如babble噪声、pink噪声、leopard噪声、volvo噪声等,也具有良好的降噪效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例的原理示意图;
图2为本发明实施例的步骤1的原理示意图;
图3为babble+white噪声经过最小均方误差算法、子空间算法和本实施例改进算法后的分段信噪比;
图4为leopard+white噪声经过最小均方误差算法、子空间算法和本实施例改进算法后的分段信噪比;
图5为pink+white噪声经过最小均方误差算法、子空间算法和本实施例改进算法后的分段信噪比;
图6为volvo+white噪声经过最小均方误差算法、子空间算法和本实施例改进算法后的分段信噪比;
图7为空调噪声下的带噪语音在不同算法下的增强语音谱图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
步骤1:建立双麦克风阵列,接收得到两个通道的带噪语音信号,带噪语音信号经过时延补偿模块,以使两个通道的带噪语音信号同步;
S11,对麦克风接收到的两个通道的带噪语音信号分别进行预处理,预处理包括对带噪语音信号进行采样处理,然后进行分帧处理,将分帧处理后的每帧信号进行加窗处理,步骤如下:
采样得到带噪语音信号xi,然后进行分帧处理(i=1,2),每帧N个采样点,或帧长12ms~30ms,设m帧信号是di(m,n),其中0≤n<N,0≤m;相邻两帧有M个采样点的混叠,即当前帧的前M个采样点时前一帧的最后M个采样点,每帧有L=N-M个采样点的新数据,每m帧数据为di(m,n)=xi(m*L+n)。将分帧处理后的每帧信号进行加窗处理,采用窗函数win(n),加窗后的信号为gi(m,n)=win(n)*di(m,n)。窗函数可以选择汉明窗、汉宁窗等窗函数。
S12,经预处理后的带噪语音信号经过时延补偿模块,使两个麦克风的带噪语音信号准确同步:
如图2所示,双麦克风阵列采集的两个通道的带噪语音信号分别为x0(n)和x1(n),进行傅立叶变换到频域,然后输入到时延估计单元计算x0(n)和x1(n)的相位差τ0和τ1,根据相位差τ0计算出两个通道信号的相对延时ω0,使x0(n)和x1(n)准确同步。
进行延时-求和波束形成,表示为:
X(n)=ω0(n)x0(n-τ0)+ω1(n)x1(n-τ1)。
该过程可在某些程度上消除混响,并初略的对语音进行降噪。
步骤2,得到带噪语音信号数据的协方差矩阵,并进行特征值分解,将带噪语音信号空间分为信号子空间和噪声子空间;
S21,双麦克风阵列接收到带噪语音信号为X(n),计算得到带噪语音信号的协方差矩阵为:
其中,X(n)表示带噪语音信号,E[·]表示求矩阵期望,上标H表示共轭转置,Rs表示纯净语音信号的协方差矩阵,Rn表示噪声信号的协方差矩阵;。
S22,对协方差矩阵Rx进行特征值分解,表示为:
Rx=UΛxUT;
其中,Λx为Rx的K个特征值构成的K维对角阵,Λx的所有特征值中有M个较大的特征值,0<M<K,而其余K-M个特征值很小,都等于σN 2,σN 2表示噪声方差。
令U=[UsUp」,U是矩阵Rx的特征向量矩阵,因而U是正交矩阵,满足:
I=UxUx T+UpUp T
其中,I为K维单位矩阵;Us为信号子空间,包含目标语音信号和噪声;UP为噪声子空间,只包含噪声。
步骤3,采用子空间法处理得到相对纯净的语音处理信号;
S31,对带噪语音信号进行KL变换,表示为:
E{UTX}=0;
cov{UTX}=diag(Λx,1+σN 2I,σN 2I);
cov{Up TX}=σN 2I;
其中,U是矩阵Rx的特征向量矩阵,UP为噪声子空间,Λx,1为Rx的特征值构成的对角阵;即向量Up TX中的语音信号能量为零,即便是噪声,在估计纯净语音信号时,此向量可以被直接去除。
S32,将信号子空间的特征值减去噪声子空间的特征值,得到相对纯净的语音处理信号,表示为:Λs=Λx-Λn。
其中,Λs为相对纯净的语音处理信号的特征值,Λx为信号子空间的特征值,Λn为噪声子空间的特征值。
步骤4,在信号子空间内对语音处理信号进行最小均方方差估计,计算最小均方误差。
S41,在信号子空间Us内对先相对纯净的语音处理信号的KL分量进行最小均方误差估计,具体为:
先验信噪比ξk表示为:
后验信噪比γk表示为:
其中,Xk为带噪语音信号X的傅里叶变换,λs(k)为第k个频率分量下的语音方差,λn(k)为第K个频率分量下的噪声方差,Sk为纯净语音的傅里叶变化,Nk为噪声的傅里叶变换;
得到ξk和γk后,定义νk为:则语音幅度谱估计值为:
S42,经过MMSE(最小均方误差算法)增益:
S43,通过KL逆变换,输出增强语音信号。
本发明的效果可通过以下仿真说明:
通过Matlab仿真,仿真条件为:采样频率fs=32000Hz,信号传播速度c=340m/s,帧长为256ms,步长为帧长的一半,第k个频率分量的语音存在概率假设为0.2,取前2000采样点用于噪声估计,麦克风数量M=2,阵元间距离采用信号波长的一半。仿真结果得到原始带噪语音、最小均方误差算法、子空间算法和本设计的改进算法的分段信噪比(SNRseg)。SNRseg建立在度量均方误差基础上,是基于帧的信噪比,是每一帧语音信号信噪比的均值。仿真结构如图3~6所示。如图3~6所示,相比于最小均方误差算法(MMSE)和子空间算法,本实施例提供的改进算法在四种噪声环境(babble+white噪声、leopard+white噪声、pink+white噪声、volvo+white噪声)均具有良好的信噪比值。
图7给出了空调噪声下的带噪语音经过不同算法去噪后的语音谱图。从图7可以看出,子空间算法对语音本身的损伤较大,MMSE算法虽然对有用语音失真较小,但是对低频段的噪声的降噪效果并不如意。而本实施例的改进算法不仅对噪声具有较好的降噪效果而且对语音的损伤也做到了最小失真,最大限度保证了纯净语音的可懂度。
综上,本本发明实施例提供的语音增强方法不仅对合成的带噪语音具有良好降噪效果,且对实际的带噪语音也有较好降噪效果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于有色噪声的语音增强方法,其特征在于,包括以下步骤:
步骤1,建立双麦克风阵列,接收得到两个通道的带噪语音信号,所述带噪语音信号经过时延补偿模块,以使两个通道的所述带噪语音信号同步;
步骤2,得到所述带噪语音信号数据的协方差矩阵,并进行特征值分解,将带噪语音信号空间分为信号子空间和噪声子空间;
步骤3,采用子空间法处理得到相对纯净的语音处理信号;
步骤4,在信号子空间内对所述语音处理信号进行最小均方方差估计,计算最小均方误差。
2.根据权利要求1所述的基于有色噪声的语音增强方法,其特征在于,
得到所述带噪语音信号后,对其进行预处理,包括:对带噪语音信号进行采样处理,然后进行分帧处理,将分帧处理后的每帧信号进行加窗处理。
3.根据权利要求1所述的基于有色噪声的语音增强方法,其特征在于,
步骤1中,时延补偿的具体方法为:
双麦克风阵列采集的两个通道的带噪语音信号分别为x0(n)和x1(n),进行傅立叶变换到频域,然后输入到时延估计单元计算x0(n)和x1(n)的相位差τ0和τ1,根据相位差计算出两个通道信号的相对延时ω0,然后进行延时-求和波束形成,表示为:X(n)=ω0(n)x0(n-τ0)+ω1(n)x1(n-τ1)。
4.根据权利要求1所述的基于有色噪声的语音增强方法,其特征在于,步骤2中,
S21,双麦克风阵列接收到带噪语音信号为X(n),计算得到带噪语音信号的协方差矩阵为:
其中,X(n)表示带噪语音信号,E[·]表示求矩阵期望,上标H表示共轭转置,Rs表示纯净语音信号的协方差矩阵,Rn表示噪声信号的协方差矩阵;
S22,对协方差矩阵进行特征值分解,表示为:
Rx=UΛxUT;
其中,Λx为Rx的K个特征值构成的K维对角阵,Λx的所有特征值中有M个较大的特征值,0<M<K,而其余K-M个特征值很小,都等于σN 2,σN 2表示噪声方差;
令U是矩阵Rx的特征向量矩阵,因而U是正交矩阵,满足:
I=UxUx T+UpUp T
其中,I为K维单位矩阵;Us为信号子空间,包含目标语音信号和噪声;UP为噪声子空间,只包含噪声。
5.根据权利要求1所述的基于有色噪声的语音增强方法,其特征在于,步骤3中,
对所述带噪语音信号进行KL变换,表示为:
E{UTX}=0;
cov{UTX}=diag(Λx,1+σN 2I,σN 2I);
cov{Up TX}=σN 2I;
其中,U是矩阵Rx的特征向量矩阵,UP为噪声子空间,Λx,1为Rx的特征值构成的对角阵。
6.根据权利要求1所述的基于有色噪声的语音增强方法,其特征在于,
步骤4中,将代表噪声子空间的KL分量置零,同时在信号子空间内对所述语音处理信号的KL进行最小均方误差估计。
7.根据权利要求6所述的基于有色噪声的语音增强方法,其特征在于,
最小均方误差估计的计算方法为:
先验信噪比ξk表示为:
后验信噪比γk表示为:
其中,Xk为带噪语音信号X的傅里叶变换,λs(k)为第k个频率分量下的语音方差,λn(k)为第K个频率分量下的噪声方差,Sk为纯净语音的傅里叶变化,Nk为噪声的傅里叶变换;
得到ξk和γk后,定义νk为:则语音幅度谱估计值为:
<mrow>
<mo>|</mo>
<msub>
<mover>
<mi>S</mi>
<mo>^</mo>
</mover>
<mi>k</mi>
</msub>
<mo>|</mo>
<mo>=</mo>
<mfrac>
<msub>
<mi>&xi;</mi>
<mi>k</mi>
</msub>
<mrow>
<mn>1</mn>
<mo>+</mo>
<msub>
<mi>&xi;</mi>
<mi>k</mi>
</msub>
</mrow>
</mfrac>
<mi>exp</mi>
<mo>{</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<munderover>
<mo>&Integral;</mo>
<msub>
<mi>v</mi>
<mi>k</mi>
</msub>
<mi>&infin;</mi>
</munderover>
<mfrac>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>t</mi>
</mrow>
</msup>
<mi>t</mi>
</mfrac>
<mi>d</mi>
<mi>t</mi>
<mo>}</mo>
<mo>|</mo>
<msub>
<mi>S</mi>
<mi>k</mi>
</msub>
<mo>|</mo>
<mo>;</mo>
</mrow>
其MMSE增益可表示为:
最后再经KL逆变换,输出增强语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710608441.3A CN107316648A (zh) | 2017-07-24 | 2017-07-24 | 一种基于有色噪声的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710608441.3A CN107316648A (zh) | 2017-07-24 | 2017-07-24 | 一种基于有色噪声的语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107316648A true CN107316648A (zh) | 2017-11-03 |
Family
ID=60178745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710608441.3A Pending CN107316648A (zh) | 2017-07-24 | 2017-07-24 | 一种基于有色噪声的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107316648A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108257607A (zh) * | 2018-01-24 | 2018-07-06 | 成都创信特电子技术有限公司 | 一种多通道语音信号处理方法 |
CN108538306A (zh) * | 2017-12-29 | 2018-09-14 | 北京声智科技有限公司 | 提高语音设备doa估计的方法及装置 |
CN109036452A (zh) * | 2018-09-05 | 2018-12-18 | 北京邮电大学 | 一种语音信息处理方法、装置、电子设备及存储介质 |
CN109194422A (zh) * | 2018-09-04 | 2019-01-11 | 南京航空航天大学 | 一种基于子空间的snr估计方法 |
CN110706719A (zh) * | 2019-11-14 | 2020-01-17 | 北京远鉴信息技术有限公司 | 一种语音提取方法、装置、电子设备及存储介质 |
CN110853664A (zh) * | 2019-11-22 | 2020-02-28 | 北京小米移动软件有限公司 | 评估语音增强算法性能的方法及装置、电子设备 |
CN111063368A (zh) * | 2018-10-16 | 2020-04-24 | 中国移动通信有限公司研究院 | 一种音频信号中的噪声估计方法、装置、介质和设备 |
CN111429931A (zh) * | 2020-03-26 | 2020-07-17 | 云知声智能科技股份有限公司 | 一种基于数据增强的降噪模型压缩方法及装置 |
CN113281727A (zh) * | 2021-06-02 | 2021-08-20 | 中国科学院声学研究所 | 一种基于水平线列阵的输出增强的波束形成方法及其系统 |
CN113299284A (zh) * | 2021-04-16 | 2021-08-24 | 西南大学 | 一种基于自适应滤波的语音识别装置、方法、设备及介质 |
CN113409804A (zh) * | 2020-12-22 | 2021-09-17 | 声耕智能科技(西安)研究院有限公司 | 一种基于变张成广义子空间的多通道频域语音增强算法 |
CN113689875A (zh) * | 2021-08-25 | 2021-11-23 | 湖南芯海聆半导体有限公司 | 一种面向数字助听器的双麦克风语音增强方法和装置 |
CN113823314A (zh) * | 2021-08-12 | 2021-12-21 | 荣耀终端有限公司 | 语音处理方法和电子设备 |
-
2017
- 2017-07-24 CN CN201710608441.3A patent/CN107316648A/zh active Pending
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108538306A (zh) * | 2017-12-29 | 2018-09-14 | 北京声智科技有限公司 | 提高语音设备doa估计的方法及装置 |
CN108538306B (zh) * | 2017-12-29 | 2020-05-26 | 北京声智科技有限公司 | 提高语音设备doa估计的方法及装置 |
CN108257607A (zh) * | 2018-01-24 | 2018-07-06 | 成都创信特电子技术有限公司 | 一种多通道语音信号处理方法 |
CN108257607B (zh) * | 2018-01-24 | 2021-05-18 | 成都创信特电子技术有限公司 | 一种多通道语音信号处理方法 |
CN109194422B (zh) * | 2018-09-04 | 2021-06-22 | 南京航空航天大学 | 一种基于子空间的snr估计方法 |
CN109194422A (zh) * | 2018-09-04 | 2019-01-11 | 南京航空航天大学 | 一种基于子空间的snr估计方法 |
CN109036452A (zh) * | 2018-09-05 | 2018-12-18 | 北京邮电大学 | 一种语音信息处理方法、装置、电子设备及存储介质 |
CN111063368A (zh) * | 2018-10-16 | 2020-04-24 | 中国移动通信有限公司研究院 | 一种音频信号中的噪声估计方法、装置、介质和设备 |
CN110706719A (zh) * | 2019-11-14 | 2020-01-17 | 北京远鉴信息技术有限公司 | 一种语音提取方法、装置、电子设备及存储介质 |
CN110706719B (zh) * | 2019-11-14 | 2022-02-25 | 北京远鉴信息技术有限公司 | 一种语音提取方法、装置、电子设备及存储介质 |
CN110853664A (zh) * | 2019-11-22 | 2020-02-28 | 北京小米移动软件有限公司 | 评估语音增强算法性能的方法及装置、电子设备 |
CN110853664B (zh) * | 2019-11-22 | 2022-05-06 | 北京小米移动软件有限公司 | 评估语音增强算法性能的方法及装置、电子设备 |
CN111429931A (zh) * | 2020-03-26 | 2020-07-17 | 云知声智能科技股份有限公司 | 一种基于数据增强的降噪模型压缩方法及装置 |
CN111429931B (zh) * | 2020-03-26 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种基于数据增强的降噪模型压缩方法及装置 |
CN113409804A (zh) * | 2020-12-22 | 2021-09-17 | 声耕智能科技(西安)研究院有限公司 | 一种基于变张成广义子空间的多通道频域语音增强算法 |
CN113299284A (zh) * | 2021-04-16 | 2021-08-24 | 西南大学 | 一种基于自适应滤波的语音识别装置、方法、设备及介质 |
CN113299284B (zh) * | 2021-04-16 | 2022-05-27 | 西南大学 | 一种基于自适应滤波的语音识别装置、方法、设备及介质 |
CN113281727A (zh) * | 2021-06-02 | 2021-08-20 | 中国科学院声学研究所 | 一种基于水平线列阵的输出增强的波束形成方法及其系统 |
CN113823314A (zh) * | 2021-08-12 | 2021-12-21 | 荣耀终端有限公司 | 语音处理方法和电子设备 |
CN113823314B (zh) * | 2021-08-12 | 2022-10-28 | 北京荣耀终端有限公司 | 语音处理方法和电子设备 |
CN113689875A (zh) * | 2021-08-25 | 2021-11-23 | 湖南芯海聆半导体有限公司 | 一种面向数字助听器的双麦克风语音增强方法和装置 |
CN113689875B (zh) * | 2021-08-25 | 2024-02-06 | 湖南芯海聆半导体有限公司 | 一种面向数字助听器的双麦克风语音增强方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107316648A (zh) | 一种基于有色噪声的语音增强方法 | |
CN101510426B (zh) | 一种噪声消除方法及系统 | |
CN108831495A (zh) | 一种应用于噪声环境下语音识别的语音增强方法 | |
CN110148420A (zh) | 一种适用于噪声环境下的语音识别方法 | |
CN105575397B (zh) | 语音降噪方法及语音采集设备 | |
CN106340292A (zh) | 一种基于连续噪声估计的语音增强方法 | |
CN103632675A (zh) | 个人通信中降噪和回波消除时的噪声估计 | |
CN104835503A (zh) | 一种改进gsc自适应语音增强方法 | |
CN102347028A (zh) | 双麦克风语音增强装置及方法 | |
CN109979476A (zh) | 一种语音去混响的方法及装置 | |
CN105489226A (zh) | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 | |
CN105390142A (zh) | 一种数字助听器语音噪声消除方法 | |
CN105679330A (zh) | 基于改进子带信噪比估计的数字助听器降噪方法 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN104240717B (zh) | 基于稀疏编码和理想二进制掩膜相结合的语音增强方法 | |
CN107360497A (zh) | 估算混响分量的计算方法及装置 | |
CN107045874A (zh) | 一种基于相关性的非线性语音增强方法 | |
CN105869649A (zh) | 感知滤波方法和感知滤波器 | |
CN114613384B (zh) | 一种基于深度学习多输入语音信号波束形成信息互补方法 | |
CN116665681A (zh) | 一种基于组合滤波的雷声识别方法 | |
CN111968627B (zh) | 一种基于联合字典学习和稀疏表示的骨导语音增强方法 | |
CN113066483A (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 | |
Wu et al. | A two-stage algorithm for enhancement of reverberant speech | |
CN108074580B (zh) | 一种噪声消除方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171103 |