CN105810214A - 语音激活检测方法及装置 - Google Patents

语音激活检测方法及装置 Download PDF

Info

Publication number
CN105810214A
CN105810214A CN201410853916.1A CN201410853916A CN105810214A CN 105810214 A CN105810214 A CN 105810214A CN 201410853916 A CN201410853916 A CN 201410853916A CN 105810214 A CN105810214 A CN 105810214A
Authority
CN
China
Prior art keywords
voice
signal
audio signal
threshold value
noise ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410853916.1A
Other languages
English (en)
Other versions
CN105810214B (zh
Inventor
孙廷玮
林福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN201410853916.1A priority Critical patent/CN105810214B/zh
Publication of CN105810214A publication Critical patent/CN105810214A/zh
Application granted granted Critical
Publication of CN105810214B publication Critical patent/CN105810214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种语音激活检测方法和语音激活检测装置,其中,所述语音激活检测方法包括:检测音频信号,获取所述音频信号的信噪比;比较所述音频信号的信噪比与预设阈值,根据所述比较的结果使得所述语音激活检测的结果在语音状态、等待状态和噪声状态之间转换,其中,在所述语音状态,如果所述音频信号的信噪比小于所述预设阈值,则进入等待状态;在所述等待状态,如果所述音频信号的信噪比大于或等于所述预设阈值,则返回语音状态,如果所述音频信号的信噪比小于所述预设阈值,且持续时间大于或等于第一预设时间,则进入噪声状态。本发明语音激活检测方法和语音激活检测装置的鲁棒性好。

Description

语音激活检测方法及装置
技术领域
本发明涉及通信领域,尤其涉及一种语音激活检测方法和一种语音激活检测装置。
背景技术
语音激活检测(VAD:VoiceActiveDetection)是数字语音处理技术的基础,它提供一段音频信号中是否有语音信号存在的判断。语音激活检测通常是整个语音处理过程的第一步,例如,在语音通话过程中,双方通话的时间大概只占总通话时间的一半左右,另一半处于静音状态,采用语音激活检测后,可以使得通信系统只在人说话的时候传输,而在静音的时候停止信号的传输,将静音时占用的带宽分配给其他通信业务,有效利用了有限的信道带宽资源。此外,语音激活检测还可应用于噪声抑制、说话者身份识别和语音识别等语音处理领域。
在现有的语音激活检测系统中,通常会根据预先设置的判断标准,结合语音频谱、总能量和过零率(zero-crossingrate)等来进行判断。这种方法的优点是简单方便,且当应用于具有清晰的语音信号的环境时具有较好的效果。但是,该语音激活检测方法极度依赖于音频信号中语音的强度和类型,当语音信号强度较低、噪声不平稳时,其判断准确率较低。尤其是在语言表述的最后部分,语音能量通常较低,现有的语音激活检测方法的性能会严重下降,出现误报。
总之,现有技术的语音激活检测方法在语音能量较低时检测效果不佳。
发明内容
本发明解决的问题是,现有技术的语音激活检测方法在语音能量较低时检测性能不佳。
为解决上述问题,本发明实施例提供了一种语音激活检测方法,所述语音激活检测方法包括:检测音频信号,获取所述音频信号的信噪比;比较所述音频信号的信噪比与预设阈值,根据所述比较的结果使得所述语音激活检测的结果在语音状态、等待状态和噪声状态之间转换,其中,在所述语音状态,如果所述音频信号的信噪比小于所述预设阈值,则进入等待状态;在所述等待状态,如果所述音频信号的信噪比大于或等于所述预设阈值,则返回语音状态,如果所述音频信号的信噪比小于所述预设阈值,且持续时间大于或等于第一预设时间,则进入噪声状态。
可选地,所述语音激活检测的结果还包括观察状态,根据所述比较的结果使得所述语音激活检测的结果在不同状态之间转换还包括:在所述噪声状态,如果所述音频信号的信噪比大于或等于所述预设阈值,则进入观察状态;在所述观察状态,如果所述音频信号的信噪比小于所述预设阈值,则返回噪声状态,如果所述音频信号的信噪比大于或等于所述预设阈值,且持续时间大于或等于第二预设时间,则进入语音状态。
可选地,在所述语音状态、等待状态和观察状态,所述语音激活检测的结果为是;在所述噪声状态,所述语音激活检测的结果为否。
可选地,所述第一预设时间不小于80毫秒。
可选地,在检测所述音频信号的过程中,划分时间帧,获取每个时间帧内音频信号的信噪比。
可选地,所述每个时间帧内音频信号的信噪比基于当前帧的音频功率以及噪声功率的期望值获得。
可选地,所述第二预设时间不小于三个时间帧的长度。
可选地,所述预设阈值通过对仅包含背景噪声的音频样本训练获得。
可选地,所述预设阈值通过对所述音频信号起始一预设时间段内的音频训练获得。
对应地,本发明实施例还提供了一种语音激活检测装置,所述语音激活检测装置包括:检测单元,适于检测音频信号,获取所述音频信号的信噪比;比较单元,适于比较所述音频信号的信噪比与预设阈值;状态转换单元,适于根据所述比较的结果使得所述语音激活检测的结果在语音状态、等待状态和噪声状态之间转换,其中,在所述语音状态,如果所述音频信号的信噪比小于或等于所述预设阈值,则进入等待状态;在所述等待状态,如果所述音频信号的信噪比大于或等于所述预设阈值,则返回语音状态,如果所述音频信号的信噪比小于所述预设阈值,且持续时间大于或等于第一预设时间,则进入噪声状态。
可选地,所述语音激活检测的结果还包括观察状态,所述状态转换单元根据所述比较的结果使得所述语音激活检测的结果在不同状态之间转换还包括:在所述噪声状态,如果所述音频信号的信噪比大于或等于所述预设阈值,则进入观察状态;在所述观察状态,如果所述音频信号的信噪比小于所述预设阈值,则返回噪声状态,如果所述音频信号的信噪比大于或等于所述预设阈值,且持续时间大于或等于第二预设时间,则进入语音状态。
可选地,在所述语音状态、等待状态和观察状态,所述语音激活检测的结果为是;在所述噪声状态,所述语音激活检测的结果为否。
可选地,所述第一预设时间不小于80毫秒。
可选地,所述检测单元在检测所述音频信号的过程中,划分时间帧,获取每个时间帧内音频信号的信噪比。
可选地,所述检测单元基于当前帧的音频功率以及噪声功率的期望值获取每个时间帧内音频信号的信噪比。
可选地,所述第二预设时间不小于三个时间帧的长度。
可选地,还包括阈值获取单元,适于通过对仅包含背景噪声的音频样本训练获得所述预设阈值。
可选地,还包括阈值获取单元,适于通过对所述音频信号起始一预设时间段内的音频训练获得所述预设阈值。
与现有技术相比,本发明的技术方案具有以下优点:
在本发明实施例的语音激活检测方法中,将音频信号的信噪比与预设阈值进行比较,来决定语音激活检测的结果所处的状态,在语音状态中,如果检测到音频信号的信噪比低于所述预设阈值,不是直接进入噪声状态,而是进入等待状态,如果在所述等待状态中,所述音频信号的信噪比小于预设阈值的持续时间大于或等于第一预设时间,才进入噪声状态,而如果持续时间不足第一预设时间时,即检测到所述音频信号的信噪比大于或等于所述预设值时,则返回到语音状态。由于上述方法应用了时域中语音连贯发生的自然特性,不会在一段语音的能量较低的结尾部分由于音频信号的信噪比小于预设阈值而产生的误报,而进入噪声状态,具有更好的鲁棒性,适用于不同的应用环境。
对应地,本发明实施例的语音激活检测方法也具有上述的优点。
附图说明
图1是本发明一实施例的语音激活检测方法的状态机示意图;
图2是本发明一实施例的语音激活检测装置的结构示意图。
具体实施方式
本发明的发明人研究了现有技术的语音激活检测方法,发现现有的语音激活检测方法通过数学模型,以及对大量的语音数据库进行训练,来“趋近”语音。但是其由于没有意识到语言的自然特性,不能在不同的环境中均获得较佳的性能,而依赖于背景噪声以及语音能量的大小。本发明的发明人经研究还发现,人类语言具有自然特性,例如,在一段语言的结尾部分,在时域中通常具有较低的信号能量水平,或者在声谱图中没有清晰的特征,这也是现有技术的语音激活检测方法在一段语言的结尾部分输出错误的原因。
基于以上研究,本发明的发明人提出了一种语音激活检测方法,其为语音激活检测后处理的一种拖尾算法(hangoveralgorithm)。所述语音激活检测方法通过检测音频信号,将所述音频信号的信噪比与预设阈值进行比较,来决定语音激活检测的结果所处的状态,在语音状态中,如果检测到音频信号的信噪比低于所述预设阈值,不是直接进入噪声状态,而是进入等待状态,接着,如果在所述等待状态中,所述音频信号的信噪比小于预设阈值的持续时间大于或等于第一预设时间,才进入噪声状态,而如果持续时间不足第一预设时间时,即检测到所述音频信号的信噪比大于或等于所述预设值时,则返回到语音状态。在该方法中,应用语言的自然特性,即语音的发生与时间具有强相关性。也就是说,本发明的语音激活检测方法是基于时域中语音帧连贯发生的强相关,不会在一段语音的能量较低的结尾部分产生错误结果,具有更好的鲁棒性,适用于不同的应用环境。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
需要说明的是,提供这些附图的目的是有助于理解本发明的实施例,而不应解释为对本发明的不当的限制。为了更清楚起见,图中所示尺寸并未按比例绘制,可能会做放大、缩小或其他改变。
参考图1,图1为本发明实施例的语音激活检测方法状态机(statemachine)示意图。如图1所示,本实施例中,所述语音激活检测的结果包括:噪声状态S1,观察状态S2,语音状态S3和等待状态S4,其中,所述噪声状态S1的语音激活检测的结果为否,即当前音频信号中不存在语音信号,在图1中表示为VAD=0;所述观察状态S2、语音状态S3和等待状态S4的语音激活检测的结果为是,即当前音频信号中存在语音信号,在图1中表示为VAD=1。
本实施例的语音激活检测方法中,首先检测音频信号,获取所述音频信号的信噪比SNR(SignaltoNoiseRate);接着比较所述音频信号的信噪比SNR与预设阈值T,根据所述比较的结果使得所述语音激活检测的结果在所述噪声状态S1,观察状态S2,语音状态S3和等待状态S4之间装换。本实施例中,在检测所述音频信号的过程中,在时域中划分时间帧,通过检测所述音频信号,获取每个时间帧内音频信号的信噪比。具体关于时间帧的划分可以参考现有技术。例如,在一实施例中,所述时间帧的长度为20ms。需要说明的是,所述音频信号的信噪比SNR与预设阈值的比较,也是指各时间帧内音频信号的信噪比与所述预设阈值T的比较。
本实施例中,根据所述音频信号的信噪比SNR与所述预设阈值T的比较定义拖尾参数(hangoverparameter)H,当所述音频信号的信噪比SNR大于或等于所述预设阈值T时,拖尾参数H=1,其意味着可能存在语音信号;当所述音频信号的信噪比SNR小于所述预设阈值T时,拖尾参数H=0,其意味着可能不存在语音信号。所述预设阈值T需要预先设置,并根据实际应用选择最佳值;所述音频信号的信噪比SNR的计算方法可以参考现有的时间帧计算方法;后续会进一步进行说明,此处首先对所述语音激活检测的结果在噪声状态S1,观察状态S2,语音状态S3和等待状态S4之间的转换方式进行说明。
本实施例中,在初始情况下,假设用户处于噪声环境,所述噪声环境可以为稳态或者非稳态,所述状态机处于噪声状态S1。当然,在其他实施例中,在初始情况下,也可以假设状态机处于观察状态S2、语音状态S3或者等待状态S4中,本发明对所述状态机的初始状态不作出限定。
参考图1,在所述噪声状态S1,VAD=0,语音激活检测的结果为否,即当前音频信号中不存在语音信号;通过所述拖尾参数H判断下一状态,如果在所述噪声状态S1中,检测到所述音频信号的信噪比SNR大于或等于所述预设阈值T,即H=1,则所述音频激活检测的结果转移至观察状态S2;如果在所述噪声状态S1中,所述音频信号的信噪比SNR一直小于所述预设阈值T,则所述音频激活检测的结果保持噪声状态S1。
继续参考图1,在所述观察状态S2,VAD=1,语音激活检测的结果为是,即当前音频信号中存在语音信号;通过所述拖尾参数H判断下一状态,如果在所述观察状态S2中,检测到所述音频信号的信噪比SNR大于或等于所述预设阈值T且其状态持续时间D大于或等于第二预设时间T2,即H=1且D≥T2,则所述音频激活检测的结果转移至所述语音状态S3;如果在所述观察状态S2中,检测到所述音频信号的信噪比SNR大于或等于所述预设阈值T的持续时间小于所述第二预设时间T2,即在第二预设时间T2之前检测到所述音频信号的信噪比SNR小于所述预设阈值T,则所述音频激活检测的结果返回所述噪声状态S1。
本实施中,在所述观察状态S2,不仅判断所述音频信号的信噪比SNR是否大于或等于所述预设阈值T,还判断其状态持续时间是否大于或等于预设第二时间T2,才确定是否由观察状态S2进入语音状态S3,可以有效避免由于误报而导致的状态转换,提高了语音激活检测的可靠性。本实施例中,所述第二预设时间T2设置为三个时间帧的长度,即只有在三个连续的时间帧中所述音频信号的信噪比SNR均大于或等于所述预设阈值T,所述语音激活检测的结果才由观察状态S2进入语音状态S3。在其他实施例中,所述第二预设时间T2也可以根据具体情况设置为其他值,本发明对此不作限制。
继续参考图1,在所述语音状态S3,VAD=1,语音激活检测的结果为是,即当前音频信号中存在语音信号;通过所述拖尾参数H判断下一状态,如果在所述语音状态S3中,检测到所述音频信号的信噪比SNR小于所述预设阈值T,即H=0,则所述音频激活检测的结果转移至所述等待状态S4;如果在所述语音状态S3中,所述音频信号的信噪比SNR一直大于或等于所述预设阈值T,则所述音频激活检测的结果保持在所述语音状态S3。
继续参考图1,在所述等待状态S4,VAD=1,语音激活检测的结果为是,即当前音频信号中存在语音信号;通过所述拖尾参数H判断下一状态,如果在所述等待状态S4中,检测到所述音频信号的信噪比SNR小于所述预设值T且其状态持续时间大于或等于第一预设时间T1,即H=0且D≥T1,则所述音频激活检测的结果转移至所述噪声状态S1;如果在所述等待状态S4中,检测到所述音频信号的信噪比SNR小于所述预设阈值T的持续时间小于所述第一预设时间T1,即在第一预设时间T1之前检测到所述音频信号的信噪比SNR大于或等于所述预设阈值T,则所述音频激活检测的结果返回所述语音状态S3。
本实施例中,在所述等待状态,不仅判断所述音频信号的信噪比SNR是否小于所述预设阈值T,还判断其状态持续时间是否大于预设第一时间T1,才确定是否由等待状态S4进入噪声状态S1,可以有效避免在一段语言的结尾部分,由于语音信号的能量较低而导致错误转换。本实施例中,所述第一预设时间T1大于或等于80ms,通常80ms的时长可以覆盖大部分由于语言结尾部分语音信号能量较低所导致的错误转换,大大改善了语音激活检测的性能。在其他实施例中,所述第一预设时间T1也可以根据具体应用情况设置为其他值,本发明对此不作限制。
如前所述,所述拖尾参数H基于所述音频信号的信噪比SNR与所述预设阈值T的比较结果确定,因此,所述音频信号SNR的获取对本发明的音频激活检测方法至关重要。在语音模型中,可以假设语音和噪声是独立的,且噪声环境为长期稳态而语音为短期稳态。下面对本实施例中所述音频信号的信噪比SNR的计算方法进行详细说明。
在本实施例中,每个时间帧内音频信号的信噪比基于当前帧的音频功率以及噪声功率的期望值获得。具体如公式(1)所示:
SNR = P E [ P ( noise ) ] - 1 公式(1)
其中,SNR表示当前时间帧的语音信号的信噪比,P表示当前时间帧的语音信号的功率,E[P(noise)]表示噪声功率的期望值。
采用公式(1)获得的音频信号的信噪比的期望值为0。具体地:
E [ SNR ] = E [ P E [ P ( niuse ) ] - 1 ] = 1 PSD ( noise ) E [ E [ PSD ( noise ) ] ] - 1 ] = 0 公式(2)其中,E[SNR]表示音频信号信噪比SNR的期望值,PSD(noise)噪声的功率谱密度(powerspectrumdensity)。
上述信噪比SNR的计算方法,由于其期望值为0,因此,即使在没有语音信号的等待状态S3,也可以用来计算与当前帧功率有关的信噪比。也就是说,在没有语音信号的情况下,所述信噪比SNR的值非常小。
由于所述拖尾参数H的计算也与所述预设阈值T相关,因此所述预设阈值T的取值也应当特别小心。所述预设阈值T虽然可以为经验取值,但是会导致所述语音激活检测方法的效果较差。
在本发明的一些实施例中,所述预设阈值T通过对预先录制的仅包含背景噪声的音频样本训练获得。通过对所述音频样本的计算,可以获得所述预设阈值T的各个参数。具体地,例如,可以通过计算音频样本各个时间帧的能量的均值来获得能量的初始预估阈值,具体参考公式(3):
T ( E ) = 1 v Σ m = 0 v E m 公式(3)
其中T(E)表示能量的初始预估阈值,v表示所述音频样本中时间帧的数量,Em表示音频样本第m时间帧的音频的能量。
上述计算方法可以根据具体应用环境来获得相应的预设阈值T。但是上述计算方法不能应用于实时应用(real-timeapplication)环境,因为背景噪声会随着时间变化,不再与音频样本一致。
在本发明的另一些实施例中,可以将某一段语音通话的音频信号起始一预设时间段内的音频作为音频样本,采用与上述类似的训练方法来获得预设阈值。在一具体实施例中,所述预设时间段可以为100ms,因为基于语音通话的特性,通话前的100ms通常可以作为通话者开始说话前的反应时间,从而可以认为其仅包含实时噪声信号。
需要说明的是,本发明实施例的所述音频信号信噪比的计算方法、以及所述预设阈值的计算方法均可以采用其他合适的符合设计需求的计算方法来代替,本发明的信号激活检测方法对此不作限定。
总之,本发明实施例的音频激活检测方法可以快速从非激活状态进入激活状态(从噪声装载S1进入观察状态S2),这是由于即使是误报产生的H=1,所述语音激活检测的结果也会输出为是;另外,本发明实施例的音频激活检测方法还减缓了从激活状态到非激活状态的转换(从语音状态S3进入等待状态S4),这是由于只有在H=0的持续时间大于或等于所述第一预设时间时,所述语音激活检测的结果才会输出为否,这也就减少了在通话过程中的错误否定决定。
对应地,本发明还提供了一种语音激活检测装置。参考图2,图2示出了本发明一实施例的语音激活检测装置200的结构示意图。如图2所示,所述语音激活检测装置200包括:检测单元201,适于检测音频信号,获取所述音频信号的信噪比;比较单元202,适于比较所述音频信号的信噪比与预设阈值;状态转换单元203,适于根据所述比较的结果使得所述语音激活检测的结果在语音状态、等待状态和噪声状态之间转换,其中,在所述语音状态,如果所述音频信号的信噪比小于或等于所述预设阈值,则进入等待状态;在所述等待状态,如果所述音频信号的信噪比大于或等于所述预设阈值,则返回语音状态,如果所述音频信号的信噪比小于所述预设阈值,且持续时间大于或等于第一预设时间,则进入噪声状态。在一些实施例中,所述第一预设时间不小于80毫秒。
在一些实施例中,所述语音激活检测的结果还包括观察状态,所述状态转换单元203根据所述比较的结果使得所述语音激活检测的结果在不同状态之间转换还包括:在所述噪声状态,如果所述音频信号的信噪比大于或等于所述预设阈值,则进入观察状态;在所述观察状态,如果所述音频信号的信噪比小于所述预设阈值,则返回噪声状态,如果所述音频信号的信噪比大于或等于所述预设阈值,且持续时间大于或等于第二预设时间,则进入语音状态。所述语音状态、等待状态和观察状态,所述语音激活检测的结果为是;在所述噪声状态,所述语音激活检测的结果为否。在一些实施例中,所述检测单元201在检测所述音频信号的过程中,划分时间帧,获取每个时间帧内音频信号的信噪比。且所述检测单元201基于当前帧的音频功率以及噪声功率的期望值获取每个时间帧内音频信号的信噪比。在一些实施例中,所述第二预设时间不小于三个时间帧的长度。
在一些实施例中,所述语音激活检测单元还包括阈值获取单元204,适于通过对仅包含背景噪声的音频样本训练获得所述预设阈值,或者适于通过对所述音频信号起始一预设时间段内的音频训练获得所述预设阈值。
对应于上述的语音激活检测方法,本发明实施例的语音激活检测装置也具有更好的鲁棒性,可以适用于不同的应用环境。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (18)

1.一种语音激活检测方法,其特征在于,包括:
检测音频信号,获取所述音频信号的信噪比;
比较所述音频信号的信噪比与预设阈值,根据所述比较的结果使得所述语音激活检测的结果在语音状态、等待状态和噪声状态之间转换,其中,
在所述语音状态,如果所述音频信号的信噪比小于所述预设阈值,则进入等待状态;
在所述等待状态,如果所述音频信号的信噪比大于或等于所述预设阈值,则返回语音状态,如果所述音频信号的信噪比小于所述预设阈值,且持续时间大于或等于第一预设时间,则进入噪声状态。
2.如权利要求1所述的语音激活检测方法,其特征在于,所述语音激活检测的结果还包括观察状态,根据所述比较的结果使得所述语音激活检测的结果在不同状态之间转换还包括:
在所述噪声状态,如果所述音频信号的信噪比大于或等于所述预设阈值,则进入观察状态;
在所述观察状态,如果所述音频信号的信噪比小于所述预设阈值,则返回噪声状态,如果所述音频信号的信噪比大于或等于所述预设阈值,且持续时间大于或等于第二预设时间,则进入语音状态。
3.如权利要求2所述的语音激活检测方法,其特征在于,在所述语音状态、等待状态和观察状态,所述语音激活检测的结果为是;在所述噪声状态,所述语音激活检测的结果为否。
4.如权利要求1所述的语音激活检测方法,其特征在于,所述第一预设时间不小于80毫秒。
5.如权利要求1所述的语音激活检测方法,其特征在于,在检测所述音频信号的过程中,划分时间帧,获取每个时间帧内音频信号的信噪比。
6.如权利要求5所述的语音激活检测方法,其特征在于,所述每个时间帧内音频信号的信噪比基于当前帧的音频功率以及噪声功率的期望值获得。
7.如权利要求5所述的语音激活检测方法,其特征在于,所述第二预设时间不小于三个时间帧的长度。
8.如权利要求1所述的语音激活检测方法,其特征在于,所述预设阈值通过对仅包含背景噪声的音频样本训练获得。
9.如权利要求1所述的语音激活检测方法,其特征在于,所述预设阈值通过对所述音频信号起始一预设时间段内的音频训练获得。
10.一种语音激活检测装置,其特征在于,包括:
检测单元,适于检测音频信号,获取所述音频信号的信噪比;
比较单元,适于比较所述音频信号的信噪比与预设阈值;
状态转换单元,适于根据所述比较的结果使得所述语音激活检测的结果在语音状态、等待状态和噪声状态之间转换,其中,
在所述语音状态,如果所述音频信号的信噪比小于或等于所述预设阈值,则进入等待状态;
在所述等待状态,如果所述音频信号的信噪比大于或等于所述预设阈值,则返回语音状态,如果所述音频信号的信噪比小于所述预设阈值,且持续时间大于或等于第一预设时间,则进入噪声状态。
11.如权利要求10所述的语音激活检测装置,其特征在于,所述语音激活检测的结果还包括观察状态,所述状态转换单元根据所述比较的结果使得所述语音激活检测的结果在不同状态之间转换还包括:
在所述噪声状态,如果所述音频信号的信噪比大于或等于所述预设阈值,则进入观察状态;
在所述观察状态,如果所述音频信号的信噪比小于所述预设阈值,则返回噪声状态,如果所述音频信号的信噪比大于或等于所述预设阈值,且持续时间大于或等于第二预设时间,则进入语音状态。
12.如权利要求11所述的语音激活检测装置,其特征在于,在所述语音状态、等待状态和观察状态,所述语音激活检测的结果为是;在所述噪声状态,所述语音激活检测的结果为否。
13.如权利要求10所述的语音激活检测装置,其特征在于,所述第一预设时间不小于80毫秒。
14.如权利要求10所述的语音激活检测装置,其特征在于,所述检测单元在检测所述音频信号的过程中,划分时间帧,获取每个时间帧内音频信号的信噪比。
15.如权利要求14所述的语音激活检测装置,其特征在于,所述检测单元基于当前帧的音频功率以及噪声功率的期望值获取每个时间帧内音频信号的信噪比。
16.如权利要求14所述的语音激活检测装置,其特征在于,所述第二预设时间不小于三个时间帧的长度。
17.如权利要求10所述的语音激活检测装置,其特征在于,还包括阈值获取单元,适于通过对仅包含背景噪声的音频样本训练获得所述预设阈值。
18.如权利要求10所述的语音激活检测装置,其特征在于,还包括阈值获取单元,适于通过对所述音频信号起始一预设时间段内的音频训练获得所述预设阈值。
CN201410853916.1A 2014-12-31 2014-12-31 语音激活检测方法及装置 Active CN105810214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410853916.1A CN105810214B (zh) 2014-12-31 2014-12-31 语音激活检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410853916.1A CN105810214B (zh) 2014-12-31 2014-12-31 语音激活检测方法及装置

Publications (2)

Publication Number Publication Date
CN105810214A true CN105810214A (zh) 2016-07-27
CN105810214B CN105810214B (zh) 2019-11-05

Family

ID=56464866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410853916.1A Active CN105810214B (zh) 2014-12-31 2014-12-31 语音激活检测方法及装置

Country Status (1)

Country Link
CN (1) CN105810214B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107393553A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 用于语音活动检测的听觉特征提取方法
CN108010539A (zh) * 2017-12-05 2018-05-08 广州势必可赢网络科技有限公司 一种基于语音激活检测的语音质量评估方法及装置
CN109840480A (zh) * 2019-01-04 2019-06-04 深圳大学 一种智能手表的交互方法及交互系统
CN110428853A (zh) * 2019-08-30 2019-11-08 北京太极华保科技股份有限公司 语音活性检测方法、语音活性检测装置以及电子设备
CN110648660A (zh) * 2018-06-27 2020-01-03 深圳联友科技有限公司 一种bs端的语音激活方法
CN112614506A (zh) * 2020-12-23 2021-04-06 苏州思必驰信息科技有限公司 语音激活检测方法和装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1354455A (zh) * 2000-11-18 2002-06-19 深圳市中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
CN1659625A (zh) * 2002-05-31 2005-08-24 沃伊斯亚吉公司 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件
CN101546553A (zh) * 2008-03-24 2009-09-30 中国科学院声学研究所 一种汉语普通话中平舌音和卷舌音的客观测试方法
CN101645271A (zh) * 2008-12-23 2010-02-10 中国科学院声学研究所 发音质量评估系统中的置信度快速求取方法
CN101647061A (zh) * 2007-03-19 2010-02-10 杜比实验室特许公司 用于语音增强的噪声方差估计器
CN101782941A (zh) * 2009-01-16 2010-07-21 国际商业机器公司 评价口语能力的方法和系统
CN102314884A (zh) * 2011-08-16 2012-01-11 捷思锐科技(北京)有限公司 语音激活检测方法与装置
CN102576528A (zh) * 2009-10-19 2012-07-11 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
EP2619753A1 (en) * 2010-12-24 2013-07-31 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting voice activity in input audio signal
CN103632681A (zh) * 2013-11-12 2014-03-12 广州海格通信集团股份有限公司 一种谱包络静音检测方法
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1354455A (zh) * 2000-11-18 2002-06-19 深圳市中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
CN1659625A (zh) * 2002-05-31 2005-08-24 沃伊斯亚吉公司 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件
CN101647061A (zh) * 2007-03-19 2010-02-10 杜比实验室特许公司 用于语音增强的噪声方差估计器
CN101546553A (zh) * 2008-03-24 2009-09-30 中国科学院声学研究所 一种汉语普通话中平舌音和卷舌音的客观测试方法
CN101645271A (zh) * 2008-12-23 2010-02-10 中国科学院声学研究所 发音质量评估系统中的置信度快速求取方法
CN101782941A (zh) * 2009-01-16 2010-07-21 国际商业机器公司 评价口语能力的方法和系统
CN102576528A (zh) * 2009-10-19 2012-07-11 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
EP2619753A1 (en) * 2010-12-24 2013-07-31 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting voice activity in input audio signal
CN102314884A (zh) * 2011-08-16 2012-01-11 捷思锐科技(北京)有限公司 语音激活检测方法与装置
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
CN103632681A (zh) * 2013-11-12 2014-03-12 广州海格通信集团股份有限公司 一种谱包络静音检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107393553A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 用于语音活动检测的听觉特征提取方法
CN108010539A (zh) * 2017-12-05 2018-05-08 广州势必可赢网络科技有限公司 一种基于语音激活检测的语音质量评估方法及装置
CN110648660A (zh) * 2018-06-27 2020-01-03 深圳联友科技有限公司 一种bs端的语音激活方法
CN109840480A (zh) * 2019-01-04 2019-06-04 深圳大学 一种智能手表的交互方法及交互系统
CN109840480B (zh) * 2019-01-04 2021-08-13 深圳大学 一种智能手表的交互方法及交互系统
CN110428853A (zh) * 2019-08-30 2019-11-08 北京太极华保科技股份有限公司 语音活性检测方法、语音活性检测装置以及电子设备
CN112614506A (zh) * 2020-12-23 2021-04-06 苏州思必驰信息科技有限公司 语音激活检测方法和装置

Also Published As

Publication number Publication date
CN105810214B (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN105810214A (zh) 语音激活检测方法及装置
US9953661B2 (en) Neural network voice activity detection employing running range normalization
CN106486135B (zh) 近端语音检测器、语音系统、对语音进行分类的方法
US8554557B2 (en) Robust downlink speech and noise detector
US20170208170A1 (en) Echo Path Change Detector
US6804203B1 (en) Double talk detector for echo cancellation in a speech communication system
JP6788086B2 (ja) オーディオ信号における背景雑音の推定
CN103325386A (zh) 用于信号传输控制的方法和系统
CN109036412A (zh) 语音唤醒方法和系统
CN106098076A (zh) 一种基于动态噪声估计时频域自适应语音检测方法
CN110517670A (zh) 提升唤醒性能的方法和装置
US11164590B2 (en) Estimation of background noise in audio signals
CN105529038A (zh) 对用户语音信号进行处理的方法及其系统
CN105810201A (zh) 语音活动检测方法及其系统
US7792281B1 (en) Delay estimation and audio signal identification using perceptually matched spectral evolution
CN105513614A (zh) 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法
CN106033673B (zh) 一种近端语音信号检测方法及装置
CN110364175A (zh) 语音增强方法及系统、通话设备
Doire et al. Single-channel blind estimation of reverberation parameters
CN102300014A (zh) 一种适用于有噪声环境下的声回声抵消系统双端说话检测方法
CN112216285B (zh) 多人会话检测方法、系统、移动终端及存储介质
CN103533193B (zh) 残留回波消除方法及装置
KR100866580B1 (ko) 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템
Kim et al. Voice activity detection algorithm using radial basis function network
Huang et al. A spit detection method using voice activity analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant