CN104424956A - 激活音检测方法和装置 - Google Patents

激活音检测方法和装置 Download PDF

Info

Publication number
CN104424956A
CN104424956A CN201310390795.7A CN201310390795A CN104424956A CN 104424956 A CN104424956 A CN 104424956A CN 201310390795 A CN201310390795 A CN 201310390795A CN 104424956 A CN104424956 A CN 104424956A
Authority
CN
China
Prior art keywords
frame
tonality
parameter
value
characteristic parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310390795.7A
Other languages
English (en)
Other versions
CN104424956B9 (zh
CN104424956B (zh
Inventor
朱长宝
袁浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=51843162&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN104424956(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201310390795.7A priority Critical patent/CN104424956B9/zh
Priority to KR1020167005654A priority patent/KR101831078B1/ko
Priority to PL14791094T priority patent/PL3040991T3/pl
Priority to US14/915,246 priority patent/US9978398B2/en
Priority to EP14791094.7A priority patent/EP3040991B1/en
Priority to PCT/CN2014/077704 priority patent/WO2014177084A1/zh
Priority to JP2016537092A priority patent/JP6412132B2/ja
Publication of CN104424956A publication Critical patent/CN104424956A/zh
Publication of CN104424956B publication Critical patent/CN104424956B/zh
Application granted granted Critical
Publication of CN104424956B9 publication Critical patent/CN104424956B9/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Mathematical Physics (AREA)

Abstract

本发明提供了一种激活音检测方法和装置。解决了现有VAD检测不准确的问题。该方法包括:根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果。本发明提供的技术方案适用于语音业务,实现了高准确性的VAD判决。

Description

激活音检测方法和装置
技术领域
本发明涉及通信领域,尤其涉及一种激活音检测方法和装置。 
背景技术
正常的语音通话中,用户有时在说话,有时在听,这个时候就会在通话过程出现非激活音阶段,正常情况下通话双方总的非语音激活阶段要超过通话双方总的语音编码时长的50%。在非激活音阶段,只有背景噪声,背景噪声通常没有任何有用信息。利用这一事实,在语音频信号处理过程中,通过激活音检测(VAD)算法检测出于激活音和非激活音,并采用不同的方法分别进行处理。现代的很多语音编码标准,如AMR、AMR-WB,都支持VAD功能。在效率方面,这些编码器的VAD并不能在所有的典型背景噪声下都达到很好的性能。特别是在非稳定噪声下,这些编码器的VAD效率都较低。而对于音乐信号,这些VAD有时候会出现错误检测,导致相应的处理算法出现明显的质量下降。另外,现有的VAD技术会存在判决不准确的情况,例如有的VAD技术在语音段之前几帧检测不准,有的VAD在语音段之后几帧检测不准确。 
发明内容
本发明提供了一种激活音检测方法和装置,解决了现有VAD检测不准确的问题。 
一种激活音检测方法,包括: 
根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终的联合VAD判决结果。 
优选的,该方法还包括: 
获得当前帧的子带信号及频谱幅值; 
根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值; 
根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值; 
根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。 
优选的,该方法还包括: 
获取前一帧估计得到的背景噪声能量; 
根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。 
优选的,所述获取前一帧估计得到的背景噪声能量包括: 
获得前一帧的子带信号及频谱幅值; 
根据前一帧子带信号计算得到前一帧帧能量参数、谱重心特征参数、时域稳定度特征参数的值; 
根据前一帧频谱幅值计算得到前一帧谱平坦度特征参数和调性特征参数; 
根据前一帧的帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到前一帧的背景噪声标识; 
根据前一帧调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算前一帧调性信号标志; 
根据前一帧的背景噪声标识、帧能量参数、调性信号标志、前第二帧的全带背景噪声能量,得到前一帧全带背景噪声能量。 
优选的,所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值; 
所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值,或该比值进行平滑滤波得到的值; 
所述时域稳定度特征参数是若干个相邻两帧能量幅值叠加值的方差和若干个相邻两帧能量幅值叠加值平方的期望的比值,或该比值乘上一个系数; 
所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值,或该比值乘上一个系数; 
调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关系数得到的,或继续对该相关系数进行平滑滤波得到的。 
优选的,根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志包括: 
A)在当前帧信号为非调性信号,用一个调性帧标志tonality_frame来指示当前帧是否为调性帧; 
B)在下述条件之一被满足时执行步骤C),在下述两个条件均不满足时执行步骤D): 
调性特征参数tonality_rate1的值或其平滑滤波后的值大于对应的设定的第一调性特征参数判定门限值, 
调性特征参数tonality_rate1的值或其平滑滤波后的值大于对应的设定的第二调性特征参数门限值; 
C)判断当前帧是否为调性帧,并根据判断结果设置所述调性帧标志的值,具体的: 
在满足全部以下条件时判断所述当前帧为调性帧,在任一或任意多个以下条件不满足时判断所述当前帧为非调性帧并执行步骤D: 
所述时域稳定度特征参数值小于一个设定的第一时域稳定度判定门限值, 
谱重心特征参数值大于一个设定的第一谱重心判定门限值, 
各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度判定门限 值时,判断当前帧为调性帧,设置所述调性帧标志的值; 
D)根据所述调性帧标志对调性程度特征参数tonality_degree进行更新,其中调性程度参数tonality_degree初始值在激活音检测开始工作时进行设置; 
E)根据更新后的所述调性程度特征参数tonality_degree判断所述当前帧是否为调性信号,并设置调性标志tonality_flag的值。 
优选的,在当前的调性帧标志指示所述当前帧为调性帧时,采用以下表达式对调性程度特征参数tonality_degree进行更新: 
tonality_degree=tonality_degree-1·td_scale_A+td_scale_B, 
其中,tonality_degree-1为前一帧的调性程度特征参数,其初始值取值范围为[0,1],td_scale_A为衰减系数,td_scale_B为累加系数。 
优选的,在调性程度特征参数tonality_degree大于设定的调性程度门限值时,判断当前帧为调性信号; 
在调性程度特征参数tonality_degree小于或等于设定的调性程度门限值时,判断当前帧为非调性信号。 
优选的,该方法还包括: 
在当前帧为第二帧及第二帧以后的语音帧时,通过前一联合VAD判决结果计算当前的连续激活音帧个数continuous_speech_num2,具体的: 
当联合VAD标志vad_flag标志为1时continuous_speech_num2加1; 
当vad_flag判为0时,continuous_speech_num2置0。 
优选的,在当前帧为第一帧时,所述连续激活音帧个数为0。 
优选的,所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧,所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧,所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括: 
当满足以下任意一个条件时选择至少两种已有VAD的判决结果的逻辑运算作为联合VAD判决结果,当不满足下列至少一个条件时选择所述至少 两种已有VAD判决结果中的一个已有VAD判决结果作为联合VAD判决结果,其中,所述逻辑运算是指“或”运算或者“和”运算: 
条件1:平均全带信噪比大于信噪比阈值, 
条件2:continuous_speech_num2大于连续激活音帧个数阈值且平均全带信噪比大于信噪比阈值, 
条件3:调性信号标志设置为1。 
优选的,所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧,所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧,,所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括: 
当满足以下任一条件时所述联合VAD判决结果为1,当不满足下列至少一个条件时选择所述至少两个已有VAD判决结果的逻辑运算作为输出,其中,逻辑运算是指“或”运算或者“和”运算: 
条件1:至少两个已有VAD判决结果全部为1, 
条件2:至少两个已有VAD判决结果之和大于联合判决阈值,并且调性信号标志设置为1, 
条件3:continuous_speech_num2大于连续激活音帧个数阈值且平均全带信噪比大于信噪比阈值,调性信号标志设置为1。 
本发明还提供了一种激活音检测装置,包括: 
联合判决模块,用于根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终的联合VAD判决结果。 
优选的,该装置还包括参数获取模块,所述参数获取模块包括: 
第一参数获取单元,用于获得当前帧的子带信号及频谱幅值; 
第二参数获取单元,用于根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值; 
第三参数获取单元,用于根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值; 
第四参数获取单元,用于根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。 
优选的,所述参数获取模块还包括: 
第五参数获取单元,用于获取前一帧估计得到的背景噪声能量; 
第六参数获取单元,用于根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。 
优选的,所述参数获取模块还包括: 
第七参数获取单元,用于在当前帧为第一帧时,确定所述连续激活音帧个数为0, 
在当前帧为第二帧及第二帧以后的语音帧时,通过前一联合VAD判决结果计算当前的连续激活音帧个数continuous_speech_num2,具体的: 
当联合VAD标志vad_flag标志为1时continuous_speech_num2加1; 
当vad_flag判为0时,continuous_speech_num2置0。 
本发明提供了一种激活音检测方法和装置,根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果,实现了根据多种参数综合进行VAD判决,提高了VAD判决的准确性,解决了VAD检测不准确的问题。 
附图说明
图1为本发明的实施例一提供的一种激活音检测方法的流程图; 
图2为本发明的实施例二提供的一种激活音检测方法的流程图; 
图3为本发明的实施例四提供的一种激活音检测装置的结构示意图; 
图4为图3中参数获取模块302的结构示意图。 
具体实施方式
为了解决VAD检测不准确的问题,本发明的实施例提供了一种激活音检测方法。下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。 
下面结合附图,对本发明的实施例一进行说明。 
本发明实施例提供了一种激活音检测方法,使用该方法完成VAD的流程如图1所示,包括: 
步骤101:获取至少两种已有的VAD的判决结果; 
步骤102:获得当前帧的子带信号及频谱幅值; 
本发明实施例中以帧长为20ms,采样率为32kHz的音频流为例具体说明。在其它帧长和采样率条件下,本发明实施例提供的激活音检测方法同样适用。 
将当前帧时域信号输入滤波器组单元,进行子带滤波计算,得到滤波器组子带信号。 
本发明实施例中采用一个40通道的滤波器组,本发明实施例提供的技术方案对于采用其他通道数的滤波器组同样适用。 
将当前帧时域信号输入40通道的滤波器组,进行子带滤波计算,得到16个时间样点上40个子带的滤波器组子带信号X[k,l],0≤k<40,0≤l<16,其中k为滤波器组子带的索引,其值表示系数对应的子带,l为各个子带的时间样点索引,其实现步骤如下: 
1:将最近的640个音频信号样值存储在数据缓存中。 
2:将数据缓存中的数据移40个位置,把最早的40个采样值移出数据缓 存,并把40个新的样点存入到0到39的位置上。 
将缓存中的数据x乘上窗系数,得到数组z,计算表达式如下: 
z[n]=x[n]·Wqmf[n];0≤n<640; 
其中Wqmf为滤波器组窗系数。 
采用以下的伪代码计算得到一个80点的数据u, 
采用下面的方程计算得到数组r和i: 
r [ n ] = u [ n ] - u [ 79 - n ] i [ n ] = u [ n ] + u [ 79 - n ] , 0 &le; n < 40
采用下面的方程计算得到第一个时间样点上40个复数子带样值,X[k,l]=R(k)+iI(k),0≤k<40,其中R(k)和I(k)分别为滤波器组子带信号X第l个时间样点上系数的实部和虚部,其计算表达式如下: 
R ( k ) = &Sigma; n = 0 39 r ( n ) cos [ &pi; 40 ( k + 1 2 ) n ] I ( k ) = &Sigma; n = 0 39 i ( n ) cos [ &pi; 40 ( k + 1 2 ) n ] , 0 &le; k < 40 .
3:重复2的计算过程,直到将本帧的所有数据都经过滤波器组滤波,最后的输出结果即为滤波器组子带信号X[k,l]。 
4:完成上面计算过程后,得到40个子带的16个时间样点的滤波器组子带信号X[k,l],0≤k<40,0≤l<16。 
然后,对滤波器组子带信号进行时频变换,并计算得到频谱幅值。 
其中对全部滤波器组子带或部分滤波器组子带进行时频变换,计算频谱幅值,都可以实现本发明实施例。本发明实施例所述的时频变换方法可以是DFT、FFT、DCT或DST。本发明实施例采用DFT为例,说明其具体实现方法。计算过程如下: 
对索引为0到9的每个滤波器组子带上的16个时间样点数据进行16点的DFT变换,进一步提高频谱分辨率,并计算各个频点的幅值,得到频谱幅值XDFT_AMP。 
时频变换计算表达式如下: 
X DFT [ k , j ] = &Sigma; l = 0 15 X [ k , l ] &CenterDot; e - 2 &pi;i 16 jl ; 0 &le; k < 9 ; 0 &le; j < 16 ;
计算各个频点的幅值过程如下: 
首先,计算数组XDFT[k][j]在各个点上的能量,计算表达式如下: 
XDFT_POW[k,j]=(real(XDFT[k,j])2+(image(XDFT[k,j])2;0≤k<10;0≤j<16;其中real(XDFT_POW[k,j]),image(XDFT_POW[k,j])分别表示频谱系数XDFT_POW[k,j]的实部和虚部。 
如果k为偶数,则采用以下方程计算各个频点上的频谱幅值: 
X DFT _ AMP [ 8 &CenterDot; k + j ] = X DFT _ POW [ k , j ] + X DFT _ POW [ k , 15 - j ] ; 0 &le; k < 10 ; 0 &le; j < 8 ;
如果k为奇数,则采用以下方程计算各个频点上的频谱幅值: 
X DFT _ AMP [ 8 &CenterDot; k + 7 - j ] = X DFT _ POW [ k , j ] + X DFT _ POW [ k , 15 - j ] ; 0 &le; k < 10 ; 0 &le; j < 8 ;
XDFT_AMP即为时频变换后的频谱幅值。 
步骤103:根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值,根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值; 
帧能量参数可采用现有技术方法获得,优选的,各参数采用如下方法获 得: 
所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值,具体地: 
1、根据滤波器组子带信号X[k,l]计算各滤波器组子带的能量,计算表达式如下: 
E sb [ k ] = &Sigma; l = 0 15 ( ( real ( X [ k , l ] ) ) 2 + ( image ( X [ k , l ] ) ) 2 ) ; 0 &le; k < 40 ;
2、将部分听觉比较敏感的滤波器组子带或所有的滤波器组子带的能量累加,得到帧能量参数。 
其中根据心理听觉模型,人耳对极低频(如100Hz以下)和高频(如20kHz以上)声音会比较不敏感,本发明认为按照频率从低到高排列的滤波器组子带,从第二个子带到倒数第二个子带为听觉比较敏感的主要滤波器组子带,将部分或全部听觉比较敏感的滤波器组子带能量累加得到帧能量参数1,计算表达式如下: 
E t 1 = &Sigma; n = e _ sb _ start e _ sb _ end E sb [ n ] ;
其中,e_sb_start为起始子带索引,其取值范围为[0,6]。e_sb_end为结束子带索引,其取值大于6,小于子带总数。 
帧能量参数1的值加上部分或全部在计算帧能量参数1时未使用的滤波器组子带的能量的加权值,得到帧能量参数2,其计算表达式如下: 
E t 2 = E t 1 + e _ scale 1 &CenterDot; &Sigma; n = 0 e _ sb _ start - 1 E sb [ n ] + e _ scale 2 &CenterDot; &Sigma; n = e _ sb _ end + 1 num _ band E sb [ n ] ;
其中e_scale1,e_scale2为加权比例因子,其取值范围分别为[0,1]。num_band为子带总个数。 
所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值; 
具体地, 
根据各个滤波器组子带的能量计算得到谱重心特征参数,谱重心特征参数是通过求滤波器组子带能量加权相加的和与子带能量的直接相加的和的比值或通过对其他谱重心特征参数值进行平滑滤波得到的。 
谱重心特征参数可以采用如下子步骤实现: 
1、将用于谱重心特征参数计算的子带区间划分如表1所示。 
表1 
2、采用1的谱重心特征参数计算区间划分方式和以下表达式,计算得到两个谱重心特征参数值,分别为第一区间谱重心特征参数和第二区间谱重心特征参数。 
sp _ center [ k ] = &Sigma; n = 0 spc _ end _ band ( k ) - spc _ start _ band ( k ) ( n + 1 ) &CenterDot; E sb [ n + spc _ start _ band ( k ) ] + Delta 1 &Sigma; n = 0 spc _ end _ band ( k ) - spc _ start _ band ( k ) E sb [ n + spc _ star _ band ( k ) ] + Delta 2 ; 0 &le; k < 2
Delta1,Delta2分别为一个小的偏置值,取值范围为(0,1)。其中k为谱重心编号索引。 
3、对第一区间谱重心特征参数sp_center[0]进行平滑滤波运算,得到平滑谱重心特征参数值,即第一区间谱重心特征参数值的平滑滤波值,计算过程如下: 
sp_center[2]=sp_center-1[2]·spc_sm_scale+sp_center[0]·(1-spc_sm_scale) 
其中,spc_sm_scale为谱重心参数平滑滤波比例因子,sp_center-1[2]表示 上一帧的平滑谱重心特征参数值,其初始值为1.6。 
所述时域稳定度特征参数是若干相邻两帧能量幅值叠加值的方差和若干相邻两帧能量幅值叠加值平方的期望的比值,或该比值乘上一个系数; 
具体地, 
由最新的若干帧信号的帧能量参数计算得到时域稳定度特征参数。在本发明实施例中采用最新的40帧信号的帧能量参数计算得到时域稳定度特征参数。具体计算步骤为: 
首先,计算得到最近40帧信号的能量幅值,计算方程如下: 
Amp t 1 [ n ] = E t 2 ( n ) + e _ offset ; 0 &le; n < 40 ;
其中,e_offset为一个偏置值,其取值范围为[0,0.1]。 
其次,依次将当前帧到前面第40帧的相邻两帧的能量幅值相加,得到20个幅值叠加值。具体计算方程如下: 
Ampt2(n)=Ampt1(-2n)+Ampt1(-2n-1);0≤n<20; 
其中,n=0时,Ampt1表示当前帧的能量幅值,n<0时,Ampt1表示当前帧往前的n帧的能量幅值。 
最后,通过计算最近的20个幅值叠加值的方差和平均能量的比值,得到时域稳定度特征参数ltd_stable_rate0。计算表达式如下: 
ltd _ stable _ rate 0 = &Sigma; n = 0 19 ( Amp t 2 ( n ) - 1 20 &Sigma; j = 0 19 Amp t 2 ( j ) ) 2 &Sigma; n = 0 19 Amp t 2 ( n ) 2 + Delta ;
所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值,或该比值乘上一个系数; 
具体地,将频谱幅值XDFT_AMP划分成若干个频带,并计算当前帧各个频带的谱平坦度,得到当前帧的谱平坦度特征参数。 
本发明实施例将频谱幅值划分成3个频带,并计算这3个频带的谱平坦度特征,其具体实现步骤如下: 
首先、将XDFT_AMP按照下表2的索引划分为3个频带。 
表2 
其次、分别计算各个子带的谱平坦度,得到当前帧的谱平坦度特征参数。当前帧的各个谱平坦度特征参数值的计算表达式如下: 
SMR ( k ) = ( &Pi; n &Element; Freq _ band ( k ) X DFT _ AMP ( n ) ) 1 / ( freq _ band _ end ( k ) - freq _ band _ start ( k ) + 1 ) 1 freq _ band _ end ( k ) - freq _ band _ start ( k ) + 1 &Sigma; n &Element; Freq _ band ( k ) X DFT _ AMP ( n ) ; 0 &le; k < 3
最后,对当前帧的谱平坦度特征参数进行平滑滤波,得到当前帧最终的谱平坦度特征参数。 
sSMR(k)=smr_scale·sSMR-1(k)+(1-smr_scale)·SMR(k);0≤k<3 
其中smr_scale为平滑因子,其取值范围为[0.6,1],sSMR-1(k)为上一帧的第k个谱平坦度特征参数的值。 
调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关值得到的,或继续对该相关值进行平滑滤波得到的。 
具体地,前后两帧信号的帧内频谱差分系数的相关值的计算方法如下: 
根据频谱幅值计算得到调性特征参数,其中调性特征参数可以根据所有 频谱幅值或部分频谱幅值计算得到。 
其计算步骤如下: 
1、将部分(不小于8个频谱系数)或全部频谱幅值跟相邻的频谱幅值做差分运算,并将差分结果小于0的值置0,得到一组非负的频谱差分系数。 
本发明实施例选择位置索引为3到61的频点系数为例,计算调性特征参数。具体过程如下: 
将频点3到频点61的相邻频谱幅值做差分运算,表达式如下: 
spec_dif[n-3]=XDFT_AMP(n+1)-XDFT_AMP(n);3≤n<62; 
将spec_dif中小于0的变量置零。 
2、求取步骤1计算得到的当前帧非负的频谱差分系数和前一帧非负的频谱差分系数的相关系数,得到第一调性特征参数值。计算表达式如下: 
tonality _ ratel = &Sigma; n = 0 56 spec _ dif [ n ] &CenterDot; pre _ spec _ dif [ n ] &Sigma; n = 0 56 spec _ dif [ n ] 2 &CenterDot; &Sigma; n = 0 56 pre _ spec _ dif [ n ] 2
其中,pre_spec_dif为前一帧的非负的频谱差分系数。 
3、对第一调性特征参数值进行平滑运算,得到第二调性特征参数值。计算方程如下: 
tonality_rate2=tonal_scale·tonality_rate2-1+(1-tonal_scale)·tonality_rate1 
tonal_scale为调性特征参数平滑因子,其取值范围为[0.1,1],tonality_rate2-1为前一帧的第二调性特征参数值,其初始值取值范围为[0,1]。 
步骤104:计算调性信号标志,参考本发明的实施例三中调性信号计算的流程。 
步骤105:根据前一帧估计得到的全带背景噪声能量、当前帧的帧能量参数计算得到平均全带信噪比; 
前一帧的全带背景噪声能量获得方法参见实施例2。 
根据估计得到的上一帧全带背景噪声能量(见实施例2)和当前帧的帧能量参数,计算全带信噪比SNR2: 
SNR 2 = log 2 E t 1 E t _ bg
其中Et_bg为估计得到的上一帧全带背景噪声能量,得到上一帧全带背景噪声能量原理与得到当前帧的全带背景噪声能量的原理相同。 
计算最近若干个帧的全带信噪比SNR2的平均值,得到平均全带信噪比SNR2_lt_ave。 
步骤106:获取连续激活音帧的个数; 
具体地,连续激活音帧个数continuous_speech_num2可以通过VAD判决结果进行计算,初始值设为0,当VAD标志vad_flag标志为1时continuous_speech_num2加1;vad_flag判为0时,continuous_speech_num2置0。 
步骤107:根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终的联合VAD判决结果; 
本步骤中,所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧,所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧。需要说明的是,以1、0值代表激活音帧和非激活音帧仅是一种标记方式,以其他值或其他方式标记区分VAD判决的不同结果的方案均在本发明的保护范围之内。 
下面以两种具体实现为例进行说明,具体实施过程可以有其他的联合方法。 
当满足以下任意一个条件时选择至少两种已有VAD的判决结果的逻辑运算作为联合VAD判决结果,当不满足下列至少一个条件时选择所述至少两种已有VAD判决结果中的一个已有VAD判决结果作为联合VAD判决结果,其中,所述逻辑运算是指“或”运算或者“和”运算: 
条件1:平均全带信噪比大于信噪比阈值, 
条件2:continuous_speech_num2大于连续激活音帧个数阈值且平均全带信噪比大于信噪比阈值, 
条件3:调性信号标志设置为1。 
所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧,所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧,所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括: 
当满足以下任一条件时所述联合VAD判决结果为1,当不满足下列至少一个条件时选择所述至少两个已有VAD判决结果的逻辑运算作为输出,其中,逻辑运算是指“或”运算或者“和”运算: 
条件1:至少两个已有VAD判决结果全部为1, 
条件2:至少两个已有VAD判决结果之和大于联合判决阈值,并且调性信号标志设置为1, 
条件3:continuous_speech_num2大于连续激活音帧个数阈值且平均全带信噪比大于信噪比阈值,调性信号标志设置为1。 
需要说明的是,本发明实施例中的步骤101至步骤106并无严格的时序关系(其中步骤102、103和104的时序顺序不可颠倒),只要能获得本发明实施例进行联合VAD判决时所需的连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果的方案,均属于本发明的实施例的保护范围。 
下面结合附图,对本发明的实施例二进行说明。 
如图2所示,给出了一种前一帧背景噪声能量的计算方法,前一帧的背 景噪声能量用于计算平均全带信噪比。前一帧的背景噪声能量的计算流程和当前帧的背景噪声能量的计算流程相同,为方便描述,本发明实施例给出了当前帧的全带背景噪声能量的计算方法。 
步骤201:获得当前帧的子带信号及频谱幅值,计算方法见步骤102。 
步骤202:根据子带信号计算得到当前的帧能量参数、谱重心特征参数、时域稳定度特征参数的值;根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值,计算方法见步骤103。 
步骤203:根据当前帧帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到当前帧的背景噪声标识。背景噪声标识用于表示当前帧是否是噪声信号,如果是噪声信号,则背景噪声标识设置为1,否则设置为0。 
优选的,假定当前是背景噪声信号,判断以下任一条件成立,则判断当前帧不是噪声信号: 
条件1:所述时域稳定度特征参数lt_stable_rate0大于一个设定的时域稳定度门限值; 
条件2:第一区间谱重心特征参数值的平滑滤波值大于一个设定的谱重心门限值,且时域稳定度特征参数值也大于设定的时域稳定度门限值; 
条件3:调性特征参数或其平滑滤波后的值大于一个设定的调性特征参数门限值,且时域稳定度特征参数lt_stable_rate0值大于其设定的时域稳定度门限值; 
条件4:各子带的谱平坦度特征参数或各自平滑滤波后的值均小于各自对应的设定的谱平坦度门限值; 
条件5:判断帧能量参数Et1的的值大于设定的帧能量门限值E_thr1。 
具体地,本发明实施例通过一个背景噪声标识background_flag来指示当前帧是否是背景噪声,并约定如果判断当前帧为背景噪声,则设置背景噪声标识background_flag为1,否则设置背景噪声标识background_flag为0。 
根据时域稳定度特征参数、谱重心特征参数、谱平坦度特征参数、调性 特征参数、当前帧能量参数检测当前帧是否为噪声信号。如果不是噪声信号,则将背景噪声标识background_flag置0。 
具体过程如下: 
对于条件1:判断时域稳定度特征参数lt_stable_rate0是否大于一个设定的第一时域稳定度门限值lt_stable_rate_thr1。如果是,则判断当前帧不是噪声信号,并将background_flag置0。本发明实施例中第一时域稳定度门限值lt_stable_rate_thr1取值范围为[0.8,1.6]; 
对于条件2:判断第一区间平滑谱重心特征参数值是否大于一个设定的第一谱重心门限值sp_center_thr1,并且时域稳定度特征参数lt_stable_rate0的值也大于第二时域稳定度门限值lt_stable_rate_thr2。如果是,则判断当前帧不是噪声信号,并将background_flag置0。sp_center_thr1的取值范围为[1.6,4];lt_stable_rate_thr2的取值范围为(0,0.1]。 
对于条件3:判断调性特征参数tonality_rate2的值是否大于一个第一调性特征参数门限值tonality_rate_thr1,时域稳定度特征参数lt_stable_rate0值是否大于设定的第三时域稳定度门限值lt_stable_rate_thr3,如果上述条件同时成立,则判断当前帧不是背景噪声,background_flag赋值为0。tonality_rate_thr1取值范围在[0.4,0.66]。lt_stable_rate_thr3的取值范围为[0.06,0.3]。 
对于条件4:判断第一谱平坦度特征参数sSMR[0]的值是否小于设定的第一谱平坦度门限值sSMR_thr1,判断第二谱平坦度特征参数sSMR[1]的值是否小于设定的第二谱平坦度门限值sSMR_thr2,判断第三谱平坦度特征参数sSMR[2]的值是否小于设定的第三谱平坦度门限值sSMR_thr3。如果上述条件同时成立,则判断当前帧不是背景噪声。background_flag赋值为0。门限值sSMR_thr1、sSMR_thr2、sSMR_thr3的取值范围为[0.88,0.98]。判断第一谱平坦度特征参数sSMR[0]的值是否小于设定的第四谱平坦度门限值sSMR_thr4,判断第二谱平坦度特征参数sSMR[1]的值是否小于设定的第五谱平坦度门限值sSMR_thr5,判断第二谱平坦度特征参数sSMR[1]的值是否小于设定的第六谱平坦度门限值sSMR_thr6。如果上述任一条件成立,则判断当前帧不是背景噪声。background_flag赋值为0。sSMR_thr4、sSMR_thr5、sSMR_thr6的取值范围为 [0.80,0.92] 
对于条件5:判断帧能量参数Et1的值是否大于设定的帧能量门限值E_thr1,如果上述条件成立,则判断当前帧不是背景噪声。background_flag赋值为0。E_thr1根据帧能量参数的动态范围进行取值。 
步骤204:根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算调性信号标志;该步骤见本发明的实施例三中的调性信号计算流程。 
步骤205:根据帧能量参数、背景噪声标识、调性信号标志计算当前帧背景噪声能量。 
1、如果当前帧的背景噪声标识为1,则更新背景噪声能量累加值Et_sum和背景噪声能量累计帧数NEt_counter,计算方程如下: 
Et_sum=Et_sum_-1+Et1
NEt_counter=NEt_counter_-1+1; 
其中Et_sum_-1为前一帧的背景噪声能量累加值,NEt_counter_-1为前一帧计算得到的背景噪声能量累计帧数。 
2、全带背景噪声能量由背景噪声能量累加值Et_sum和累计帧数NEt_counter的比值得到: 
E t _ bg = E t _ sum N Et _ counter
判断NEt_counter是否等于64,如果NEt_counter等于64则分别将背景噪声能量累加值Et_sum和累计帧数NEt_counter乘0.75。 
3、根据调性信号标志、帧能量参数、全带背景噪声能量的值对背景噪声能量累加值进行调整。计算过程如下: 
如果调性标志tonality_flag等于1并且帧能量参数Et1的值小于背景噪声能量特征参数Et_bg的值乘以一个增益系数gain, 
则,Et_sum=Et_sum·gain+delta; 
其中,gain的取值范围为[0.3,1]。 
下面结合附图,对本发明的实施例三进行说明。 
本发明实施例提供了一种激活音检测方法,能够与本发明的实施例一和实施例二所提供的技术方案相结合,用于计算调性信号标志,包括: 
根据调性特征参数、时域稳定度特征参数、谱平坦度特征参数、谱重心特征参数判断当前帧是否为调性信号。 
判断是否为调性信号时,执行以下操作: 
1、用一个调性帧标志tonality_frame来指示当前帧是否为调性帧; 
本发明实施例中tonality_frame的值为1表示当前帧为调性帧,0表示当前帧为非调性帧; 
2、判断调性特征参数tonality_rate1或其平滑滤波后tonality_rate2的值是否大于对应的设定的第一调性特征参数判定门限值tonality_decision_thr1或第二调性特征参数判定门限值tonality_decision_thr2,如果上述条件有一个成立则执行步骤3,否则执行步骤4; 
其中,tonality_decision_thr1的取值范围为[0.5,0.7],tonality_rate1的取值范围为[0.7,0.99]。 
3、如果时域稳定度特征参数值lt_stable_rate0小于一个设定的第一时域稳定度判定门限值lt_stable_decision_thr1;谱重心特征参数值sp_center[1]大于一个设定的第一谱重心判定门限值spc_decision_thr1,且各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度门限值,具体地,第一谱平坦度特征参数sSMR[0]小于一个设定的第一谱平坦度判定门限值sSMF_decision_thr1或第二谱平坦度参数sSMR[1]小于一个设定的第二谱平坦度判定门限值sSMF_decision_thr2或第三谱平均度参数sSMR[2]小于一个设定的第三谱平坦度判定门限值sSMF_decision_thr3;则判断当前帧为调性帧,设置调性帧标志tonality_frame的值为1,否则判断为非调性帧,设置调性帧标志tonality_frame的值为0。并继续执行步骤4。 
其中,lt_stable_decision_thr1的取值范围为[0.01,0.25],spc_decision_thr1为[1.0,1.8],sSMF_decision_thr1为[0.6,0.9],sSMF_decision_thr2[0.6,0.9],sSMF_decision_thr3[0.7,0.98]。 
4、根据调性帧标志tonality_frame对调性程度特征参数tonality_degree进行更新,其中调性程度参数tonality_degree初始值在激活音检测装置开始工作时进行设置,取值范围为[0,1]。不同的情况下,调性程度特征参数tonality_degree计算方法不同: 
如果当前的调性帧标志指示当前帧为调性帧,则采用以下表达式对调性程度特征参数tonality_degree进行更新: 
tonality_degree=tonality_degree-1·td_scale_A+td_scale_B; 
其中,tonality_degree-1为前一帧的调性程度特征参数。其初始值取值范围为[0,1]。td_scale_A为衰减系数,其取值范围为[0,1];td_scale_B为累加系数,其取值范围为[0,1]。 
5、根据更新后的调性程度特征参数tonality_degree判断当前帧是否为调性信号,并设置调性标志tonality_flag的值; 
具体地,若调性程度特征参数tonality_degree大于设定的调性程度门限值,则判断当前帧为调性信号,否则,判断当前帧为非调性信号。 
下面结合附图,对本发明的实施例四进行说明。 
本发明实施例还提供了一种激活音检测装置,如图3所示,该装置包括: 
联合判决模块301,用于根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终的联合VAD判决结果。 
优选的,该装置还包括参数获取模块302,所述参数获取模块302的结构如图4所示,包括: 
第一参数获取单元3021,用于获得当前帧的子带信号及频谱幅值; 
第二参数获取单元3022,用于根据子带信号计算得到当前帧的帧能量参 数、谱重心特征参数和时域稳定度特征参数的值; 
第三参数获取单元3023,用于根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值;具体计算方法可参照本发明的实施例三。 
第四参数获取单元3024,用于根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。 
优选的,所述参数获取模块302还包括: 
第五参数获取单元3025,用于获取前一帧估计得到的背景噪声能量;具体计算方法或参考本发明的实施例二。 
第六参数获取单元3026,用于根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。 
优选的,所述参数获取模块302还包括: 
第七参数获取单元3027,用于在当前帧为第一帧时,确定所述连续激活音帧个数为0, 
在当前帧为第二帧及第二帧以后的语音帧时,通过前一联合VAD判决结果计算当前的连续激活音帧个数continuous_speech_num2,具体的:当联合VAD标志vad_flag标志为1时continuous_speech_num2加1; 
当vad_flag判为0时,continuous_speech_num2置0。 
优选的,所述参数获取模块302还包括: 
第八参数获取单元3028,用于获取至少两种已有VAD判决结果。 
本发明的实施例提供了一种激活音检测方法和装置,根据连续激活音帧个数、平均全带信噪比、调性信号标志、至少两种已有VAD判决结果得到最终联合VAD判决结果,实现了根据多种参数综合进行VAD判决,提高了VAD判决的准确性,解决了VAD检测不准确的问题。 
本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现,所述计算机程序可以存储于一计算机可读存储介质中,所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行,在执行时,包括方法实施例的步骤之一或其组合。 
可选地,上述实施例的全部或部分步骤也可以使用集成电路来实现,这些步骤可以被分别制作成一个个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。 
上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现,它们可以集中在单个的计算装置上,也可以分布在多个计算装置所组成的网络上。 
上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器,磁盘或光盘等。 
任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。 

Claims (16)

1.一种激活音检测方法,其特征在于,包括:
根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有激活音检测(VAD)判决结果得到最终的联合VAD判决结果。
2.根据权利要求1所述的激活音检测方法,其特征在于,该方法还包括:
获得当前帧的子带信号及频谱幅值;
根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值;
根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值;
根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。
3.根据权利要求1所述的激活音检测方法,其特征在于,该方法还包括:
获取前一帧估计得到的背景噪声能量;
根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。
4.根据权利要求3所述的激活音检测方法,其特征在于,所述获取前一帧估计得到的背景噪声能量包括:
获得前一帧的子带信号及频谱幅值;
根据前一帧子带信号计算得到前一帧帧能量参数、谱重心特征参数、时域稳定度特征参数的值;
根据前一帧频谱幅值计算得到前一帧谱平坦度特征参数和调性特征参数;
根据前一帧的帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到前一帧的背景噪声标识;
根据前一帧调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算前一帧调性信号标志;
根据前一帧的背景噪声标识、帧能量参数、调性信号标志、前第二帧的全带背景噪声能量,得到前一帧全带背景噪声能量。
5.根据权利要求4所述的激活音检测方法,其特征在于,
所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值;
所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值,或该比值进行平滑滤波得到的值;
所述时域稳定度特征参数是若干个相邻两帧能量幅值叠加值的方差和若干个相邻两帧能量幅值叠加值平方的期望的比值,或该比值乘上一个系数;
所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值,或该比值乘上一个系数;
调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关系数得到的,或继续对该相关系数进行平滑滤波得到的。
6.根据权利要求2所述的激活音检测方法,其特征在于,根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志包括:
A)在当前帧信号为非调性信号,用一个调性帧标志tonality_frame来指示当前帧是否为调性帧;
B)在下述条件之一被满足时执行步骤C),在下述两个条件均不满足时执行步骤D):
调性特征参数tonality_rate1的值或其平滑滤波后的值大于对应的设定的第一调性特征参数判定门限值,
调性特征参数tonality_rate1的值或其平滑滤波后的值大于对应的设定的第二调性特征参数门限值;
C)判断当前帧是否为调性帧,并根据判断结果设置所述调性帧标志的值,具体的:
在满足全部以下条件时判断所述当前帧为调性帧,在任一或任意多个以下条件不满足时判断所述当前帧为非调性帧并执行步骤D:
所述时域稳定度特征参数值小于一个设定的第一时域稳定度判定门限值,
谱重心特征参数值大于一个设定的第一谱重心判定门限值,
各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度判定门限值时,判断当前帧为调性帧,设置所述调性帧标志的值;
D)根据所述调性帧标志对调性程度特征参数tonality_degree进行更新,其中调性程度参数tonality_degree初始值在激活音检测开始工作时进行设置;
E)根据更新后的所述调性程度特征参数tonality_degree判断所述当前帧是否为调性信号,并设置调性标志tonality_flag的值。
7.根据权利要求6所述的激活音检测方法,其特征在于,在当前的调性帧标志指示所述当前帧为调性帧时,采用以下表达式对调性程度特征参数tonality_degree进行更新:
tonality_degree=tonality_degree-1·td_scale_A+td_scale_B,
其中,tonality_degree-1为前一帧的调性程度特征参数,其初始值取值范围为[0,1],td_scale_A为衰减系数,td_scale_B为累加系数。
8.根据权利要求6所述的激活音检测方法,其特征在于,
在调性程度特征参数tonality_degree大于设定的调性程度门限值时,判断当前帧为调性信号;
在调性程度特征参数tonality_degree小于或等于设定的调性程度门限值时,判断当前帧为非调性信号。
9.根据权利要求1所述的激活音检测方法,其特征在于,该方法还包括:
在当前帧为第二帧及第二帧以后的语音帧时,通过前一联合VAD判决结果计算当前的连续激活音帧个数continuous_speech_num2,具体的:
当联合VAD标志vad_flag标志为1时continuous_speech_num2加1;
当vad_flag判为0时,continuous_speech_num2置0。
10.根据权利要求9所述的激活音检测方法,其特征在于,
在当前帧为第一帧时,所述连续激活音帧个数为0。
11.根据权利要求1所述的激活音检测方法,其特征在于,所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧,所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧,所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括:
当满足以下任意一个条件时选择至少两种已有VAD的判决结果的逻辑运算作为联合VAD判决结果,当不满足下列至少一个条件时选择所述至少两种已有VAD判决结果中的一个已有VAD判决结果作为联合VAD判决结果,其中,所述逻辑运算是指“或”运算或者“和”运算:
条件1:平均全带信噪比大于信噪比阈值,
条件2:continuous_speech_num2大于连续激活音帧个数阈值且平均全带信噪比大于信噪比阈值,
条件3:调性信号标志设置为1。
12.根据权利要求1所述的激活音检测方法,其特征在于,所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧,所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧,,所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括:
当满足以下任一条件时所述联合VAD判决结果为1,当不满足下列至少一个条件时选择所述至少两个已有VAD判决结果的逻辑运算作为输出,其中,逻辑运算是指“或”运算或者“和”运算:
条件1:至少两个已有VAD判决结果全部为1,
条件2:至少两个已有VAD判决结果之和大于联合判决阈值,并且调性信号标志设置为1,
条件3:continuous_speech_num2大于连续激活音帧个数阈值且平均全带信噪比大于信噪比阈值,调性信号标志设置为1。
13.一种激活音检测装置,其特征在于,包括:
联合判决模块,用于根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终的联合VAD判决结果。
14.根据权利要求13所述的激活音检测装置,其特征在于,该装置还包括参数获取模块,所述参数获取模块包括:
第一参数获取单元,用于获得当前帧的子带信号及频谱幅值;
第二参数获取单元,用于根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值;
第三参数获取单元,用于根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值;
第四参数获取单元,用于根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。
15.根据权利要求14所述的激活音检测装置,其特征在于,所述参数获取模块还包括:
第五参数获取单元,用于获取前一帧估计得到的背景噪声能量;
第六参数获取单元,用于根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。
16.根据权利要求14所述的激活音检测装置,其特征在于,所述参数获取模块还包括:
第七参数获取单元,用于在当前帧为第一帧时,确定所述连续激活音帧个数为0,
在当前帧为第二帧及第二帧以后的语音帧时,通过前一联合VAD判决结果计算当前的连续激活音帧个数continuous_speech_num2,具体的:
当联合VAD标志vad_flag标志为1时continuous_speech_num2加1;
当vad_flag判为0时,continuous_speech_num2置0。
CN201310390795.7A 2013-08-30 2013-08-30 激活音检测方法和装置 Active CN104424956B9 (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201310390795.7A CN104424956B9 (zh) 2013-08-30 2013-08-30 激活音检测方法和装置
EP14791094.7A EP3040991B1 (en) 2013-08-30 2014-05-16 Voice activation detection method and device
PL14791094T PL3040991T3 (pl) 2013-08-30 2014-05-16 Sposób i urządzenie do wykrywania aktywacji głosowej
US14/915,246 US9978398B2 (en) 2013-08-30 2014-05-16 Voice activity detection method and device
KR1020167005654A KR101831078B1 (ko) 2013-08-30 2014-05-16 보이스 활성화 탐지 방법 및 장치
PCT/CN2014/077704 WO2014177084A1 (zh) 2013-08-30 2014-05-16 激活音检测方法和装置
JP2016537092A JP6412132B2 (ja) 2013-08-30 2014-05-16 音声活動検出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310390795.7A CN104424956B9 (zh) 2013-08-30 2013-08-30 激活音检测方法和装置

Publications (3)

Publication Number Publication Date
CN104424956A true CN104424956A (zh) 2015-03-18
CN104424956B CN104424956B (zh) 2018-09-21
CN104424956B9 CN104424956B9 (zh) 2022-11-25

Family

ID=51843162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310390795.7A Active CN104424956B9 (zh) 2013-08-30 2013-08-30 激活音检测方法和装置

Country Status (7)

Country Link
US (1) US9978398B2 (zh)
EP (1) EP3040991B1 (zh)
JP (1) JP6412132B2 (zh)
KR (1) KR101831078B1 (zh)
CN (1) CN104424956B9 (zh)
PL (1) PL3040991T3 (zh)
WO (1) WO2014177084A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015117410A1 (zh) * 2014-07-18 2015-08-13 中兴通讯股份有限公司 激活音检测的方法及装置
CN105654947A (zh) * 2015-12-30 2016-06-08 中国科学院自动化研究所 一种获取交通广播语音中路况信息的方法及系统
WO2016206273A1 (zh) * 2015-06-26 2016-12-29 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
CN107393559A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 检校语音检测结果的方法及装置
CN109285563A (zh) * 2018-10-15 2019-01-29 华为技术有限公司 在线翻译过程中的语音数据处理方法及装置
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
CN107305774B (zh) * 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
US10755718B2 (en) * 2016-12-07 2020-08-25 Interactive Intelligence Group, Inc. System and method for neural network based speaker classification
IT201700044093A1 (it) * 2017-04-21 2018-10-21 Telecom Italia Spa Metodo e sistema di riconoscimento del parlatore
CN109427345B (zh) * 2017-08-29 2022-12-02 杭州海康威视数字技术股份有限公司 一种风噪检测方法、装置及系统
CN109801646B (zh) * 2019-01-31 2021-11-16 嘉楠明芯(北京)科技有限公司 一种基于融合特征的语音端点检测方法和装置
CN111292758B (zh) * 2019-03-12 2022-10-25 展讯通信(上海)有限公司 语音活动检测方法及装置、可读存储介质
KR20200114019A (ko) 2019-03-27 2020-10-07 주식회사 공훈 음성의 피치 정보에 기초한 화자 식별 방법 및 그 장치
WO2020252782A1 (zh) * 2019-06-21 2020-12-24 深圳市汇顶科技股份有限公司 语音检测方法、语音检测装置、语音处理芯片以及电子设备
US11823706B1 (en) * 2019-10-14 2023-11-21 Meta Platforms, Inc. Voice activity detection in audio signal
CN111739562B (zh) * 2020-07-22 2022-12-23 上海大学 一种基于数据选择性和高斯混合模型的语音活动检测方法
CN112908350B (zh) * 2021-01-29 2022-08-26 展讯通信(上海)有限公司 一种音频处理方法、通信装置、芯片及其模组设备
CN115862685B (zh) * 2023-02-27 2023-09-15 全时云商务服务股份有限公司 一种实时语音活动的检测方法、装置和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1473321A (zh) * 2000-09-09 2004-02-04 英特尔公司 用于综合电信处理的话音激活检测器
CN102044242A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法、装置和电子设备
CN102687196A (zh) * 2009-10-08 2012-09-19 西班牙电信公司 用于检测语音段的方法
CN102741918A (zh) * 2010-12-24 2012-10-17 华为技术有限公司 用于话音活动检测的方法和设备
CN103117067A (zh) * 2013-01-19 2013-05-22 渤海大学 一种低信噪比下语音端点检测方法
CN103180900A (zh) * 2010-10-25 2013-06-26 高通股份有限公司 用于话音活动检测的系统、方法和设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884255A (en) * 1996-07-16 1999-03-16 Coherent Communications Systems Corp. Speech detection system employing multiple determinants
JP4123835B2 (ja) * 2002-06-13 2008-07-23 松下電器産業株式会社 雑音抑圧装置および雑音抑圧方法
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
JP5395066B2 (ja) * 2007-06-22 2014-01-22 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
US9773511B2 (en) * 2009-10-19 2017-09-26 Telefonaktiebolaget Lm Ericsson (Publ) Detector and method for voice activity detection
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
US9165567B2 (en) * 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
WO2012083554A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. A method and an apparatus for performing a voice activity detection
JP5737808B2 (ja) * 2011-08-31 2015-06-17 日本放送協会 音響処理装置およびそのプログラム
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
US9099098B2 (en) * 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1473321A (zh) * 2000-09-09 2004-02-04 英特尔公司 用于综合电信处理的话音激活检测器
CN102687196A (zh) * 2009-10-08 2012-09-19 西班牙电信公司 用于检测语音段的方法
CN102044242A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 语音激活检测方法、装置和电子设备
CN103180900A (zh) * 2010-10-25 2013-06-26 高通股份有限公司 用于话音活动检测的系统、方法和设备
CN102741918A (zh) * 2010-12-24 2012-10-17 华为技术有限公司 用于话音活动检测的方法和设备
CN103117067A (zh) * 2013-01-19 2013-05-22 渤海大学 一种低信噪比下语音端点检测方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015117410A1 (zh) * 2014-07-18 2015-08-13 中兴通讯股份有限公司 激活音检测的方法及装置
US10339961B2 (en) 2014-07-18 2019-07-02 Zte Corporation Voice activity detection method and apparatus
RU2684194C1 (ru) * 2015-06-26 2019-04-04 ЗетТиИ Корпорейшн Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности
CN106328169A (zh) * 2015-06-26 2017-01-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
WO2016206273A1 (zh) * 2015-06-26 2016-12-29 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
US10522170B2 (en) 2015-06-26 2019-12-31 Zte Corporation Voice activity modification frame acquiring method, and voice activity detection method and apparatus
CN105654947A (zh) * 2015-12-30 2016-06-08 中国科学院自动化研究所 一种获取交通广播语音中路况信息的方法及系统
CN105654947B (zh) * 2015-12-30 2019-12-31 中国科学院自动化研究所 一种获取交通广播语音中路况信息的方法及系统
CN107393559A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 检校语音检测结果的方法及装置
CN107393559B (zh) * 2017-07-14 2021-05-18 深圳永顺智信息科技有限公司 检校语音检测结果的方法及装置
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
CN109285563A (zh) * 2018-10-15 2019-01-29 华为技术有限公司 在线翻译过程中的语音数据处理方法及装置
CN109285563B (zh) * 2018-10-15 2022-05-06 华为技术有限公司 在线翻译过程中的语音数据处理方法及装置

Also Published As

Publication number Publication date
CN104424956B9 (zh) 2022-11-25
CN104424956B (zh) 2018-09-21
WO2014177084A1 (zh) 2014-11-06
KR20160039677A (ko) 2016-04-11
EP3040991B1 (en) 2021-04-14
EP3040991A4 (en) 2016-09-14
PL3040991T3 (pl) 2021-08-02
JP6412132B2 (ja) 2018-10-24
US9978398B2 (en) 2018-05-22
EP3040991A1 (en) 2016-07-06
US20160203833A1 (en) 2016-07-14
KR101831078B1 (ko) 2018-04-04
JP2016529555A (ja) 2016-09-23

Similar Documents

Publication Publication Date Title
CN104424956A (zh) 激活音检测方法和装置
CN105261375B (zh) 激活音检测的方法及装置
CN103026407B (zh) 带宽扩展器
US9672841B2 (en) Voice activity detection method and method used for voice activity detection and apparatus thereof
CN101802909B (zh) 通过噪声水平估计调整进行的语音增强
CN112992188B (zh) 一种激活音检测vad判决中信噪比门限的调整方法及装置
CN100476949C (zh) 不利环境中的多信道语音检测
CN106328169B (zh) 一种激活音修正帧数的获取方法、激活音检测方法和装置
CN102074246B (zh) 基于双麦克风语音增强装置及方法
US20090154726A1 (en) System and Method for Noise Activity Detection
EP2710590B1 (en) Super-wideband noise supression
CN101593522A (zh) 一种全频域数字助听方法和设备
CN105989853A (zh) 一种音频质量评测方法及系统
Moritz et al. Amplitude modulation spectrogram based features for robust speech recognition in noisy and reverberant environments
Wu et al. A pitch-based method for the estimation of short reverberation time
CN100492495C (zh) 一种噪声检测装置和方法
Ding et al. Objective measures for quality assessment of noise-suppressed speech
Maganti et al. A perceptual masking approach for noise robust speech recognition
EP2760022B1 (en) Audio bandwidth dependent noise suppression
Farsi et al. A novel method to modify VAD used in ITU-T G. 729B for low SNRs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CI03 Correction of invention patent

Correction item: Claims|Description

Correct: Claims submitted on August 1, 2018|Instructions submitted on August 22, 2018

False: Claims submitted on May 15, 2018|Instructions submitted on May 16, 2014

Number: 38-02

Page: ??

Volume: 34

CI03 Correction of invention patent