CN103730124A - 一种基于似然比测试的噪声鲁棒性端点检测方法 - Google Patents

一种基于似然比测试的噪声鲁棒性端点检测方法 Download PDF

Info

Publication number
CN103730124A
CN103730124A CN201310751241.5A CN201310751241A CN103730124A CN 103730124 A CN103730124 A CN 103730124A CN 201310751241 A CN201310751241 A CN 201310751241A CN 103730124 A CN103730124 A CN 103730124A
Authority
CN
China
Prior art keywords
noise
signal
sigma
frame
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310751241.5A
Other languages
English (en)
Inventor
包旭雷
李为
姚国勤
朱杰
董斌
杭乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI JIAO TONG UNIVERSITY WUXI RESEARCH INSTITUTE
Shanghai Jiaotong University
Original Assignee
SHANGHAI JIAO TONG UNIVERSITY WUXI RESEARCH INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI JIAO TONG UNIVERSITY WUXI RESEARCH INSTITUTE filed Critical SHANGHAI JIAO TONG UNIVERSITY WUXI RESEARCH INSTITUTE
Priority to CN201310751241.5A priority Critical patent/CN103730124A/zh
Publication of CN103730124A publication Critical patent/CN103730124A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Noise Elimination (AREA)

Abstract

本发明公开了一种基于似然比测试的噪声鲁棒性端点检测方法,分别从信噪比的估计、阈值的鲁棒性设置和拖尾失真消除三个方面进行改进,使得提出的算法相对于现有技术在低信噪比环境下尤其是非平稳噪声环境下具有更好的检测性能。本发明所述的方法与基于谐波特征的多观测似然比测试算法具有相似的语音边界检测正确率,但却比基于谐波特征的多观测似然比测试算法具有更好的声音检测精度,从而验证本方法要比传统的方法在性能上更为优异。同时,本方法在15dB和25dB的信噪比下具有相似的性能,说明它对噪声具有很好的鲁棒性。本方法在实际环境中可以作为语音识别或者声纹识别系统的前端预处理重要的有效方法,拥有很好的应用价值。

Description

一种基于似然比测试的噪声鲁棒性端点检测方法
技术领域
本发明公开了一种基于似然比测试的噪声鲁棒性端点检测方法,涉及语音处理和信号处理领域。
背景技术
语音端点检测(VAD)是语音处理相关技术中的一个非常关键的部分,它不仅可用于语音增强中的语音/非语音检测,而且可应用于特征提取和语音信号去混响等过程中。现有的语音信号端点检测算法主要分为三大类:基于时间域的端点检测方法、基于频率域的端点检测方法和基于模型统计的端点检测方法。
实际应用中,高精度的语音端点检测对后续的语音增强、端点检测、语音识别或声纹识别都有极其重要的作用。然而,现有的语音端点检测技术仍然存在着一些问题和不足,尤其在实际信道环境下,由于语音信号清音和摩擦音成分的频谱特征与噪音具有很大相似性,而现有大部分端点检测算法都是基于语音本身音节特征实现对语音和噪音的区分,因此在检测端点的过程中,可能会丢失语音起始音或收尾音导致截断效应。同时,大多数算法无法完整保留所有语音信息,当信噪比降低时,检测性能也将明显下降。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种基于似然比测试的噪声鲁棒性端点检测方法,该方法所提出的算法分别从信噪比的估计、阈值的鲁棒性设置和拖尾失真消除三个方面进行改进,使得提出的算法相对于现有的算法在低信噪比环境下尤其是非平稳噪声环境下具有更好的检测性能。
本发明为解决上述技术问题采用以下技术方案:
一种基于似然比测试的噪声鲁棒性端点检测方法,通过维纳滤波器对带噪语音信号进行语音增强,语音增强后的带噪语音信号x(n)通过干净语音s(n)和干扰噪声d(n)叠加得到:
x(n)=s(n)+d(n)
其中,n为时间采样索引,所述干净语音信号和干扰噪声可以具备统计独立且均值为零的特性,带噪语音的傅立叶变换表示为:
H0:X(m,k)=N(m,k);H1:X(m,k)=S(m,k)+N(m,k)    (1)
其中,X(m,k)、S(m,k)和N(m,k)为每帧信号的短时傅立叶因子,m为帧索引,k为帧内的各个频段值,H0和H1分别表示非语音帧和语音帧;
干净语音信号和噪声信号的概率密度都满足高斯分布时,观测信号X(m,k)在H0和H1下的概率密度函数为
p ( X m , k | H 0 ) = 1 πσ N 2 ( m , k ) exp ( - | X ( m , k ) | 2 πσ N 2 ( m , k ) ) ;
p ( X m , k | H 1 ) = 1 π ( σ N 2 ( m , k ) + σ S 2 ( m , k ) ) exp ( - | X ( m , k ) | 2 π ( σ N 2 ( m , k ) + σ S 2 ( m , k ) ) ) - - - ( 2 )
其中 σ S 2 ( m , k ) = E { | S ( m , k ) | 2 } 为语音信号的功率谱,
σ N 2 ( m , k ) = E { | N ( m , k ) | 2 } 为噪声信号的功率谱;
该帧第k频段的似然比值为:
Λ m , k = Δ p ( X m , k | H 0 ) p ( X m , k | H 1 ) = 1 1 + ξ m , k exp ( γ m , k ξ m , k 1 + ξ m , k ) - - - ( 3 )
其中, ξ m , k = σ S 2 ( m , k ) / σ N 2 ( m , k ) , γ m , k = | X ( m , k ) | 2 / σ N 2 ( m , k ) 分别表示先验信噪比和后验信噪比,且先验信噪比ξm,k和后验信噪比γm,k在直接决策估计器中存在着以下关系:
ξ ~ m , k DD ≈ α | S ~ ( m - 1 , k ) | 2 σ N 2 ( m - 1 , k ) + ( 1 - α ) max { γ m , k , 0 } - - - ( 4 )
其中,
α是一个常数平稳因子,
Figure BDA0000450807010000028
表示前一帧的语音信号估计,
Figure BDA0000450807010000029
Figure BDA00004508070100000210
表示前一帧的噪声功率谱;
设定阈值η,将其与似然比的值相比较来确定当前帧为语音段或非语音段,当似然比的值大于阈值时,判定该帧为语音帧,当似然比的值小于阈值时,判定该帧为非语音帧,具体通过如下公式表示:
其中,K为频段总数;
m帧的对数似然比为:
l m = 1 k Σ k = 0 K - 1 log Λ m , k = 1 K Σ k = 0 K - 1 p ( X m , k | H 0 ) p ( X m , k | H 1 )
lm={lm-M,lm-M+1...lm+M}表示以lm为中心的连续2M+1帧,则以这2M+1个对数似然比为对象的判决规则为:
Figure BDA0000450807010000038
其中,fr指代每一帧,对于其中的第k频段下的对数似然比logΛm,k,将观测信号在H1和H0的概率代入其中得到:
logΛm,k≈γm,k-1-logγm,k
先验信噪比ξm,k由后验信噪比通过最大似然估计算法得到,即:
ξ m , k ML = γ m , k - 1
因此,对数似然比的值取决于噪声能量谱
Figure BDA0000450807010000034
的精度;
当信噪比低时,噪声能量谱变大,通过降低选取的阈值η来降低发声段误判概率;反之,通过增大阈值η来和高信噪比信号进行匹配;
带噪语音功率谱谱Ω(m,k)由带噪信号功率谱|X(m,k)|2平滑得到,平滑因子α(m,k)为时频相关函数,则:
Ω(m,k)=α(m,k)Ω(m,k)+(1-α(m,k))|X(m,k)|2
其中,α(m,k)是一个与时频相关的平稳因子,
Figure BDA0000450807010000036
为每帧信号最小噪声功率谱,由最小统计的噪声估计得到;
最终得出,噪声能量谱相关的阈值ηm为:
η m = α η × ( 1 K Σ k = 0 K - 1 σ N min 2 ( m , k ) ) - 1
其中,αη是该阈值的一个常系数。
作为本发明的进一步优选方案,所述平滑因子α(m,k)=0.8。
作为本发明的进一步优选方案,所述频段总数K=256。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明所提出的VAD算法与基于谐波特征的MOLRT算法具有相似的SBR正确率,但却比基于谐波特征的MOLRT算法具有更为优异的多VAcc,;本节提出的VAD算法在15dB和25dB的信噪比下具有相似的性能,说明本方法对噪声具有很好的鲁棒性。
附图说明
图1(a)是:干净语音的示意图。
图1(b)是:基于Sohn的VAD结果示意图。
图1(c)是:基于Tan的VAD结果示意图。
图1(d)是:基于本发明所述方法的VAD结果示意图。
图2(a)是:不同信噪比下的段级性能比较示意图。
图2(b)是:不同信噪比下的帧级性能比较示意图。
图2(c)是:不同信噪比下语音帧的正确个数。
图3是本发明中基于语音增强的语音端点检测框架示意图。
图4是汽车噪声环境下的语音帧正确检测数示意图。
图5是不同非平稳噪声下的性能比较示意图。
具体实施方式
现实环境中,我们人耳可以听到的带噪语音信号可以通过干净语音信号与干扰信号的叠加得到,而且噪声信号的强度将明显影响语音端点检测的性能。同时,多种科研成果已经证明了强信噪比下的语音端点检测性能要明显好于低信噪比的情况。因此,本权利书中首先通过维纳滤波器对带噪语音信号进行语音增强,这样不仅可以减弱噪声信号干净语音的影响,同时过滤后的噪声信号具有更好的平稳特性。
下面结合附图对本发明的技术方案做进一步的详细说明:
带噪语音x(n)由干净语音s(n)和干扰噪声d(n)叠加得到:
x(n)=s(n)+d(n)
其中,n为时间采样索引。
假定干净语音和干扰噪声具有统计独立和均值为零的特点,且带噪语音的傅立叶变换可以表示为
H0:X(m,k)=N(m,k);H1:X(m,k)=S(m,k)+N(m,k)
              (1)
其中,X(m,k)、S(m,k)和N(m,k)为每帧信号的短时傅立叶因子,m为帧索引,k为帧内的各个频段值,H0和H1分别表示非语音帧和语音帧。假设干净语音信号和噪声信号的概率密度都满足高斯分布,那么观测信号X(m,k)在H0和H1下的概率密度函数为
p ( X m , k | H 0 ) = 1 πσ N 2 ( m , k ) exp ( - | X ( m , k ) | 2 πσ N 2 ( m , k ) ) ;
p ( X m , k | H 1 ) = 1 π ( σ N 2 ( m , k ) + σ S 2 ( m , k ) ) exp ( - | X ( m , k ) | 2 π ( σ N 2 ( m , k ) + σ S 2 ( m , k ) ) ) - - - ( 2 )
其中 σ S 2 ( m , k ) = E { | S ( m , k ) | 2 } σ N 2 ( m , k ) = E { | N ( m , k ) | 2 } 分别为语音信号和噪声信号的功率谱。于是该帧第k频段的似然比(LR)值就为:
Λ m , k = Δ p ( X m , k | H 0 ) p ( X m , k | H 1 ) = 1 1 + ξ m , k exp ( γ m , k ξ m , k 1 + ξ m , k ) - - - ( 3 )
其中 ξ m , k = σ S 2 ( m , k ) / σ N 2 ( m , k ) , γ m , k = | X ( m , k ) | 2 / σ N 2 ( m , k ) 分别表示先验信噪比和后验信噪比,且先验信噪比ξm,k和后验信噪比γm,k在直接决策(DD)估计器中存在着以下关系:
ξ ~ m , k DD ≈ α | S ~ ( m - 1 , k ) | 2 σ N 2 ( m - 1 , k ) + ( 1 - α ) max { γ m , k , 0 } - - - ( 4 )
假设我们可以设定一个阈值η与LR的值比较来确定当前帧为语音段或非语音段,满足:
Figure BDA0000450807010000057
其中,K为频段总数,从式(5)中我们可以看出LR的值与先验信噪比、后验信噪比有密切的关系。当后验信噪比很大,即γm,k>>1时,则LR的值也因此变得很大,Λm,k>>1;而当后验信噪比γm,k≤1时,先验信噪比就成了计算LR的关键参数。
整个基于语音增强的语音端点检测系统的流程框图如图3所示,从上述推导可知m帧的对数似然比(LLR)为:
l m = 1 K Σ k = 0 K - 1 log Λ m , k = 1 K Σ k = 0 K - 1 p ( X m , k | H 0 ) p ( X m , k | H 1 ) - - - ( 6 )
假设lm={lm-M,lm-M+1...lm+M}表示以lm为中心的连续2M+1帧,则以这2M+1个LLRs为对象的判决规则为:
Figure BDA0000450807010000061
对于其中的第k频段下的对数似然比logΛm,k我们可以将观测信号在H1和H0的概率代入其中得到:
logΛm,k≈γm,k-1-logγm,k          (8)
这是因为先验信噪比ξm,k可以根据后验信噪比通过最大似然(ML)估计算法得到:
ξ m , k ML = γ m , k - 1
因此,我们可以简单地将对数似然比LLR看成是后验信噪比γm,k的函数,即LLR的值取决于噪声能量谱
另一方面,当信噪比很低时,即噪声能量谱变大时,我们需要一个较小的阈值η来降低发声段误判概率;反之我们需要大阈值η来和强信噪比信号进行匹配。从上面的分析中可以看出,对数似然比LLR主要取决于噪声能量谱的精确度。因此将阈值与当前帧的最小噪声能量谱建立某种联系,不仅可以使得VAD算法对于各种信噪比环境具有更好的鲁棒性,同时因为估计得到的最小噪声能量谱小于
Figure BDA0000450807010000063
而保证了发声段正确估计的冗余度。
假设能量谱Ω(m,k)是带噪信号功率谱|X(m,k)|2平滑得到,平滑因子α(m,k)是一个时频相关函数,则:
Ω(m,k)=α(m,k)Ω(m,k)+(1-α(m,k))|X(m,k)|2   (9)
此时,我们可以利用国外作者提出的基于最小统计的噪声估计就可以得到每帧信号最小噪声功率谱
Figure BDA0000450807010000064
我们定义噪声能量谱相关的阈值ηm为:
η m = α η × ( 1 K Σ k = 0 K - 1 σ N min 2 ( m , k ) ) - 1 - - - ( 12 )
其中αη是该阈值的一个常系数。
对所提出的VAD方法的性能进行验证:在实验中,采用录制的非广播干净语料,共2906句,采样率为fs=8kHz。将该语料与平稳、非平稳噪声混合得到不同信噪比下的带噪语音。其中平稳噪声来自于实际环境下的采集与录制,而非平稳噪声(汽车噪声和babble噪声)分别来自于http://www.freesound.com和http://spib.rice.edu/spib/data/signals/noise/babble.html。我们用长为200的汉宁窗作为分析窗和分析窗,频段总数K=256。在噪声估计中,平滑因子αp=0.8,先验的语音概率p(H1)=p(H0),并令方程(10)中的αmax=0.96,连续的LLR个数为2M+1=17。
虽然受试者操作特性(ROC)曲线在VAD算法的性能验证中是一个通用的方法,但该方法仅仅只能在帧级对VAD性能做出判断,即它只能强调正确估计了多少帧的语音/非语音帧,却对语音段/非语音段的判断毫无办法。比如,在Sohn的VAD算法中,它的ROC曲线做得相对比较完美,但是在实际情况下,基于Sohn的VAD方法却会出现很多碎片。我们以一句带噪语音来说明该情况,如图1(a)至图1(d)所示。
从图1(a)至图1(d)中,我们可以看到采用Sohn的方法在低信噪比的环境下并不能保证语音段的完整性,会出现很多细小的碎片;Tan在该方面的性能却要更好一些。但过多小碎片的存在使得这两种方法不能保证自动语音识别在噪声环境下的有效应用。因此,本节为了验证VAD算法的有效性,不仅考虑了帧级的性能,同时考虑了段级的性能。
图2(a)至图2(c)显示了在平稳噪声不同信噪比下的VAD结果。从图2(c)中我们可以看到,本文提出的算法在语音帧的检测正确个数Tp上与Sohn的VAD方法近似,且好于Tan提出的VAD方法。而图2(a)则说明了在语音段/非语音段的检测中要远远好于其他两种方法。
图4和图5给出了不同VAD算法在不同非平稳噪声下的性能。从图4中我们可以看到Sohn的方法在语音帧数的检测上具有最好的效果,然后正如上面所指出的,过分强调帧的语音帧的正确性并不能说明该VAD算法就是最优的。从图5中我们可以得出以下结论:
我们所提出的VAD算法与基于谐波特征的MOLRT算法具有相似的SBR正确率,但却比基于谐波特征的MOLRT算法具有更为优异的多VAcc,这也就说明了本节中提出的端点检测方法要比传统的方法具有更好的性能。
本节提出的VAD算法在15dB和25dB的信噪比下具有相似的性能,这也就说了本节的VAD算法对噪声具有很好的鲁棒性。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (3)

1.一种基于似然比测试的噪声鲁棒性端点检测方法,其特征在于:通过维纳滤波器对带噪语音信号进行语音增强,语音增强后的带噪语音信号x(n)通过干净语音s(n)和干扰噪声d(n)叠加得到:
x(n)=s(n)+d(n)
其中,n为时间采样索引,所述干净语音信号和干扰噪声可以具备统计独立且均值为零的特性,带噪语音的傅立叶变换表示为:
H0:X(m,k)=N(m,k);H1:X(m,k)=S(m,k)+N(m,k)        (1)
其中,X(m,k)、S(m,k)和N(m,k)为每帧信号的短时傅立叶因子,m为帧索引,k为帧内的各个频段值,H0和H1分别表示非语音帧和语音帧;
干净语音信号和噪声信号的概率密度都满足高斯分布时,观测信号X(m,k)在H0和H1下的概率密度函数为
p ( X m , k | H 0 ) = 1 πσ N 2 ( m , k ) exp ( - | X ( m , k ) | 2 πσ N 2 ( m , k ) ) ;
p ( X m , k | H 1 ) = 1 π ( σ N 2 ( m , k ) + σ S 2 ( m , k ) ) exp ( - | X ( m , k ) | 2 π ( σ N 2 ( m , k ) + σ S 2 ( m , k ) ) ) - - - ( 2 )
其中 σ S 2 ( m , k ) = E { | S ( m , k ) | 2 } 为语音信号的功率谱,
σ N 2 ( m , k ) = E { | N ( m , k ) | 2 } 为噪声信号的功率谱;
该帧第k频段的似然比值为:
Λ m , k = Δ p ( X m , k | H 0 ) p ( X m , k | H 1 ) = 1 1 + ξ m , k exp ( γ m , k ξ m , k 1 + ξ m , k ) - - - ( 3 )
其中, ξ m , k = σ S 2 ( m , k ) / σ N 2 ( m , k ) , γ m , k = | X ( m , k ) | 2 / σ N 2 ( m , k ) 分别表示先验信噪比和后验信噪比,且先验信噪比ξm,k和后验信噪比γm,k在直接决策估计器中存在着以下关系:
ξ ~ m , k DD ≈ α | S ~ ( m - 1 , k ) | 2 σ N 2 ( m - 1 , k ) + ( 1 - α ) max { γ m , k , 0 } - - - ( 4 )
其中,
α是一个常数平稳因子,
Figure FDA0000450807000000018
表示前一帧的语音信号估计,
Figure FDA0000450807000000019
Figure FDA00004508070000000110
表示前一帧的噪声功率谱;
设定阈值η,将其与似然比的值相比较来确定当前帧为语音段或非语音段,当似然比的值大于阈值时,判定该帧为语音帧,当似然比的值小于阈值时,判定该帧为非语音帧,具体通过如下公式表示:
Figure FDA0000450807000000028
其中,K为频段总数;
m帧的对数似然比为:
l m = 1 k Σ k = 0 K - 1 log Λ m , k = 1 K Σ k = 0 K - 1 p ( X m , k | H 0 ) p ( X m , k | H 1 )
lm={lm-M,lm-M+1...lm+M}表示以lm为中心的连续2M+1帧,则以这2M+1个对数似然比为对象的判决规则为:
Figure FDA0000450807000000023
其中,fr指代每一帧,对于其中的第k频段下的对数似然比logΛm,k,将观测信号在H1和H0的概率代入其中得到:
logΛm,k≈γm,k-1-logγm,k
先验信噪比ξm,k由后验信噪比通过最大似然估计算法得到,即:
ξ m , k ML = γ m , k - 1
因此,对数似然比的值取决于噪声能量谱
Figure FDA0000450807000000025
的精度;
当信噪比低时,噪声能量谱
Figure FDA0000450807000000026
变大,通过降低选取的阈值η来降低发声段误判概率;反之,通过增大阈值η来和高信噪比信号进行匹配;
带噪语音功率谱谱Ω(m,k)由带噪信号功率谱|X(m,k)|2平滑得到,平滑因子α(m,k)为时频相关函数,则:
Ω(m,k)=α(m,k)Ω(m,k)+(1-α(m,k))|X(m,k)|2
其中,α(m,k)是一个与时频相关的平稳因子,为每帧信号最小噪声功率谱,由最小统计的噪声估计得到;
最终得出,噪声能量谱相关的阈值ηm为:
η m = α η × ( 1 K Σ k = 0 K - 1 σ N min 2 ( m , k ) ) - 1
其中,αη是该阈值的一个常系数。
2.如权利要求1所述的一种基于似然比测试的噪声鲁棒性端点检测方法,其特征在于:所述平滑因子α(m,k)=0.8。
3.如权利要求1所述的一种基于似然比测试的噪声鲁棒性端点检测方法,其特征在于:所述频段总数K=256。
CN201310751241.5A 2013-12-31 2013-12-31 一种基于似然比测试的噪声鲁棒性端点检测方法 Pending CN103730124A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310751241.5A CN103730124A (zh) 2013-12-31 2013-12-31 一种基于似然比测试的噪声鲁棒性端点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310751241.5A CN103730124A (zh) 2013-12-31 2013-12-31 一种基于似然比测试的噪声鲁棒性端点检测方法

Publications (1)

Publication Number Publication Date
CN103730124A true CN103730124A (zh) 2014-04-16

Family

ID=50454170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310751241.5A Pending CN103730124A (zh) 2013-12-31 2013-12-31 一种基于似然比测试的噪声鲁棒性端点检测方法

Country Status (1)

Country Link
CN (1) CN103730124A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575406A (zh) * 2016-01-07 2016-05-11 深圳市音加密科技有限公司 一种基于似然比测试的噪声鲁棒性的检测方法
CN107170466A (zh) * 2017-04-14 2017-09-15 中国科学院计算技术研究所 基于音频的拖地声检测方法
CN107331386A (zh) * 2017-06-26 2017-11-07 上海智臻智能网络科技股份有限公司 音频信号的端点检测方法、装置、处理系统及计算机设备
CN108122552A (zh) * 2017-12-15 2018-06-05 上海智臻智能网络科技股份有限公司 语音情绪识别方法和装置
CN108198547A (zh) * 2018-01-18 2018-06-22 深圳市北科瑞声科技股份有限公司 语音端点检测方法、装置、计算机设备和存储介质
WO2020107269A1 (zh) * 2018-11-28 2020-06-04 深圳市汇顶科技股份有限公司 自适应语音增强方法和电子设备
WO2020125376A1 (zh) * 2018-12-18 2020-06-25 腾讯科技(深圳)有限公司 语音降噪的方法和装置、计算设备和计算机可读存储介质
CN112485817A (zh) * 2021-02-07 2021-03-12 中国人民解放军国防科技大学 基于无线光通信的协同定位方法和定位系统
CN113838475A (zh) * 2021-11-29 2021-12-24 成都航天通信设备有限责任公司 一种基于对数mmse估计器的语音信号增强方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050038651A1 (en) * 2003-02-17 2005-02-17 Catena Networks, Inc. Method and apparatus for detecting voice activity
US20060253283A1 (en) * 2005-05-09 2006-11-09 Kabushiki Kaisha Toshiba Voice activity detection apparatus and method
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
CN101807397A (zh) * 2010-03-03 2010-08-18 北京航空航天大学 一种基于隐半马尔可夫模型的噪声鲁棒的语音检测方法
KR20110069514A (ko) * 2009-12-17 2011-06-23 한국과학기술원 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050038651A1 (en) * 2003-02-17 2005-02-17 Catena Networks, Inc. Method and apparatus for detecting voice activity
US20060253283A1 (en) * 2005-05-09 2006-11-09 Kabushiki Kaisha Toshiba Voice activity detection apparatus and method
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
KR20110069514A (ko) * 2009-12-17 2011-06-23 한국과학기술원 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법
CN101807397A (zh) * 2010-03-03 2010-08-18 北京航空航天大学 一种基于隐半马尔可夫模型的噪声鲁棒的语音检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JONGSEO SOHN: "A Statistical Model-Based Voice Activity Detection", 《IEEE SIGNAL PROCESSING LETTERS》, vol. 6, no. 1, 31 January 1999 (1999-01-31), XP002189007, DOI: doi:10.1109/97.736233 *
XULEI BAO,JIE ZHU,NING CHEN: ""Robust Voice Activity Detection Method Based on Speech Enhancement"", 《INTELLIGENT SIGNAL PROCESSING CONFERENCE 2013 》, 3 December 2013 (2013-12-03) *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575406A (zh) * 2016-01-07 2016-05-11 深圳市音加密科技有限公司 一种基于似然比测试的噪声鲁棒性的检测方法
CN107170466A (zh) * 2017-04-14 2017-09-15 中国科学院计算技术研究所 基于音频的拖地声检测方法
CN107331386A (zh) * 2017-06-26 2017-11-07 上海智臻智能网络科技股份有限公司 音频信号的端点检测方法、装置、处理系统及计算机设备
CN107331386B (zh) * 2017-06-26 2020-07-21 上海智臻智能网络科技股份有限公司 音频信号的端点检测方法、装置、处理系统及计算机设备
CN108122552A (zh) * 2017-12-15 2018-06-05 上海智臻智能网络科技股份有限公司 语音情绪识别方法和装置
CN108198547A (zh) * 2018-01-18 2018-06-22 深圳市北科瑞声科技股份有限公司 语音端点检测方法、装置、计算机设备和存储介质
WO2020107269A1 (zh) * 2018-11-28 2020-06-04 深圳市汇顶科技股份有限公司 自适应语音增强方法和电子设备
WO2020125376A1 (zh) * 2018-12-18 2020-06-25 腾讯科技(深圳)有限公司 语音降噪的方法和装置、计算设备和计算机可读存储介质
CN112485817A (zh) * 2021-02-07 2021-03-12 中国人民解放军国防科技大学 基于无线光通信的协同定位方法和定位系统
CN112485817B (zh) * 2021-02-07 2021-04-23 中国人民解放军国防科技大学 基于无线光通信的协同定位方法和定位系统
CN113838475A (zh) * 2021-11-29 2021-12-24 成都航天通信设备有限责任公司 一种基于对数mmse估计器的语音信号增强方法及系统
CN113838475B (zh) * 2021-11-29 2022-02-15 成都航天通信设备有限责任公司 一种基于对数mmse估计器的语音信号增强方法及系统

Similar Documents

Publication Publication Date Title
CN103730124A (zh) 一种基于似然比测试的噪声鲁棒性端点检测方法
CN105575406A (zh) 一种基于似然比测试的噪声鲁棒性的检测方法
Moattar et al. A simple but efficient real-time voice activity detection algorithm
KR100330230B1 (ko) 잡음 억제 방법 및 장치
KR101247652B1 (ko) 잡음 제거 장치 및 방법
CN105023572A (zh) 一种含噪语音端点鲁棒检测方法
CN110232933B (zh) 音频检测方法、装置、存储介质及电子设备
CN103646649A (zh) 一种高效的语音检测方法
CN104021789A (zh) 一种利用短时时频值的自适应端点检测方法
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN112951259A (zh) 音频降噪方法、装置、电子设备及计算机可读存储介质
Sharma et al. Automatic identification of silence, unvoiced and voiced chunks in speech
CN113838476B (zh) 一种带噪语音的噪声估计方法和装置
Park et al. Spectral energy based voice activity detection for real-time voice interface
Tang et al. Speech Recognition in High Noise Environment.
Sorin et al. The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation
CN113744725A (zh) 一种语音端点检测模型的训练方法及语音降噪方法
CN111128244B (zh) 基于过零率检测的短波通信语音激活检测方法
Faycal et al. Comparative performance study of several features for voiced/non-voiced classification
Liu et al. Efficient voice activity detection algorithm based on sub-band temporal envelope and sub-band long-term signal variability
CN112837704A (zh) 一种基于端点检测的语音背景噪声识别方法
Li et al. Sub-band based log-energy and its dynamic range stretching for robust in-car speech recognition
CN118016079B (zh) 一种智能语音转写方法及系统
CN115359809B (zh) 针对长时情感语音的自适应二阶分段方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140416