CN101256772B - 确定非噪声音频信号归属类别的方法和装置 - Google Patents

确定非噪声音频信号归属类别的方法和装置 Download PDF

Info

Publication number
CN101256772B
CN101256772B CN 200710080333 CN200710080333A CN101256772B CN 101256772 B CN101256772 B CN 101256772B CN 200710080333 CN200710080333 CN 200710080333 CN 200710080333 A CN200710080333 A CN 200710080333A CN 101256772 B CN101256772 B CN 101256772B
Authority
CN
China
Prior art keywords
spectrum
audio signal
flux
var
noise audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn - After Issue
Application number
CN 200710080333
Other languages
English (en)
Other versions
CN101256772A (zh
Inventor
严勤
邓浩江
王珺
曾学文
张军
张立斌
王喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingjiang City Chengzhong Village Investment And Construction Co ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN 200710080333 priority Critical patent/CN101256772B/zh
Priority to PCT/CN2007/003985 priority patent/WO2008106852A1/zh
Publication of CN101256772A publication Critical patent/CN101256772A/zh
Application granted granted Critical
Publication of CN101256772B publication Critical patent/CN101256772B/zh
Withdrawn - After Issue legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种确定非噪声音频信号归属类别的方法和装置,其首先获取非噪声音频信号的频谱特征参数;然后,在频域范围内,根据所述非噪声音频信号的频谱特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别。可以看出,其是根据非噪声音频信号的频谱特征参数,来确定当前非噪声音频信号的归属类别的,因此本发明的实施例能够脱离编码算法而存在,从而具有独立性以及可移植性。

Description

确定非噪声音频信号归属类别的方法和装置
技术领域
本发明涉及通信领域,尤其涉及确定有用信号归属类别的技术。 
背景技术
随着宽带技术的发展,目前的音频信号也呈现多元化趋势:不仅仅限于语音、还包含音乐、清音和各种噪声等音频信号。通常将所述语音、音乐和清音音频信号,总称为非噪声音频信号;将各种噪声音频信号称为噪声音频信号。为了对不同的音频信号采取适宜的编解码算法,需要在编解码非噪声音频信号之前,确定出各种非噪声音频信号的归属类别。 
在音频信号处理领域,目前存在一些能够判别出音乐信号和语音信号的编码器,如AMR-WB(Adaptive Multi-Rate-Wideband,多速率编码标准)和SMV(Selectable Mode Vocoder,多码率模式语音编码标准)。其判别音乐信号和语音信号的基本思想如下:在对音频信号进行编解码之前,提取出编解码时所使用的时域特征参数;然后利用所述时域特征参数,将音频信号中的音乐信号和语音信号判别出来。 
可以看出,上述音频信号的判别过程只能使用编码算法涉及到的时域特征参数,因此这种确定音频信号的归属类别的方法必须依赖于编码算法而存在,不具有独立性以及可移植性。 
发明内容
本发明的实施例提供一种确定非噪声音频信号归属类别的方法和装置,其能够脱离编码算法而存在。 
本发明的实施例通过如下技术方案实现:
本发明的实施例提供一种确定非噪声音频信号归属类别的方法,其包括: 
获取非噪声音频信号的频谱特征参数,所述特征参数包括如下中的至少一个:谱波动flux;谱波动方差flux_var;谱波动方差移动平均flux_var_mov;低频带占全频带的能量比率ratio1;x%谱衰减Rolloff_x,x为大于零且小于100的数值;时域过零率zcr;谱衰减方差rolloff_var;频域过零率fzcr; 
在频域范围内,根据所述非噪声音频信号的频谱特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别,包括: 
根据获取到的如下特征参数的一个或多个:时域过零率zcr;低频带占全频带的能量比率ratio1,以及相应的特征参数阈值,对当前非噪声音频信号进行清音归属类别的判决;以及, 
根据获取到的如下特征参数中的一个或多个:谱波动flux;谱波动方差var_flux;谱波动方差移动平均flux_var_mov;时域过零率zcr,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决;以及, 
根据获取到的x%谱衰减Rolloff_x特征参数,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决;以及, 
根据获取到的如下特征参数的一个或多个:谱波动方差移动平均flux_var_mov;x%谱衰减Rolloff_x,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决。 
本发明的实施例还提供一种确定非噪声音频信号归属类别的装置,其包括: 
特征参数获取单元,用于获取非噪声音频信号的频谱特征参数,所述特征参数包括如下中的至少一个:谱波动flux;谱波动方差flux_var;谱波动方差移动平均flux_var_mov;低频带占全频带的能量比率ratio1;x%谱衰减Rolloff_x,x为大于零且小于100的数值;时域过零率zcr;谱衰减方差rolloff_var;频域过零率fzcr; 
归属类别确定单元,用于在频域范围内,根据所述非噪声音频信号的频谱特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别; 
所述归属类别确定单元包括: 
清音判别子单元,用于根据获取到的如下特征参数的一个或多个:时域过零率zcr;低频带占全频带的能量比率ratio1,以及相应的特征参数阈值,对当前非噪声音频信号进行清音归属类别的判决;以及, 
语音判别子单元,用于根据获取到的如下特征参数中的一个或多个:谱波动flux;谱波动方差var_flux;谱波动方差移动平均flux_var_mov;时域过零率zcr;x%谱衰减Rolloff_x,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决;以及, 
音乐判别子单元,用于根据获取到的如下特征参数的一个或多个:谱波动方差移动平均flux_var_mov;x%谱衰减Rolloff_x,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决。 
本发明的实施例还提供一种清音判别装置,其包括: 
第一获取单元,用于获取音频信号的频谱特征参数; 
附图说明
清音判别单元,用于根据获取到的如下特征参数的一个或多个:时域过零率zcr;低频带占全频带的能量比率ratio1,以及相应的特征参数阈值,对当前非噪声音频信号进行清音归属类别的判决,包括: 
判断下述条件中的一个或多个是否满足:时域过零率zcr是否大于时域过零率阈值THR_ZCR;低频带占全频带的能量比率ratiol是否大于低频带占全频带的能量比率阈值THR_RA; 
若其中至少一个满足条件,则确定当前非噪声帧归属于清音类别,并置清音拖尾标志为第一设定值;否则,确定当前非噪声帧不属于语音类。 
本发明的实施例还提供一种语音判别装置,其包括: 
第二获取单元,用于获取音频信号的频谱特征参数; 
语音判别单元,用于根据获取到的谱波动flux和时域过零率zcr,和如下特征参数中的一个或多个:谱波动方差var_flux,谱波动方差移动平均flux_var_mov,x%谱衰减Rolloff_x;以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决。 
本发明的实施例还提供一种音乐判别装置,其包括: 
第三获取单元,用于获取音频信号的频谱特征参数; 
音乐判别单元,用于根据获取到的如下特征参数的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决:谱波动方差移动平均flux_var_mov;x%谱衰减Rolloff_x。 
由上述本发明的实施例提供的具体实施方案可以看出,其是根据非噪声音频信号的频谱特征参数,来确定当前非噪声音频信号的归属类别的,因此本发明的实施例能够脱离编码算法而存在,从而具有独立性以及可移植性。 
图1为本发明提供的第一实施例的流程图; 
图2为本发明提供的第一实施例中的初始判决逻辑流程图; 
图3为本发明提供的第一实施例中的修定判决逻辑流程图; 
图4为本发明提供的第二实施例的结构原理图; 
图5为本发明提供的第三实施例的结构原理图; 
图6为本发明提供的第四实施例的结构原理图; 
图7为本发明提供的第五实施例的结构原理图。 
本发明提供的第一实施例是一种确定非噪声音频信号归属类别的方法,其实施过程如图1所示,包括: 
步骤S100,获取非噪声音频信号的频谱特征参数。 
对于输入的非噪声音频信号,其具有的频谱参数,主要包括:短时特征参数及其类长时特征参数。所述短时特征参数包括:谱波动(flux),95%谱衰减(spectral rolloff),x%谱衰减Rolloff_x(如50%谱衰减(Rolloff_half)),低频带占全频带的能量比率ratiol,时域过零率zcr(zero crossing rate,zcr);频域过零率fzcr;所述类长时特征则是各短时特征参数的方差和移动平均,如谱波动方差flux_var;谱波动方差移动平均flux_var_mov;谱衰减方差rolloff_var。 
在所述第一实施例中,取10帧,即100ms的时长统计上述特征参数,下面给出这些特征参数的定义和计算公式: 
定义x(i)表示一帧声音信号的第i个时域采样值,其中0≤i<M;M表示一帧信号的采样值数目;T表示帧数;U_pwi是第i帧的信号频谱;N是FFT(Fast Fourier Transform,快速傅立叶变换)的长度,flux(i)为第i帧谱波动,
Figure DEST_PATH_S07180333X20070309D000041
是第i帧谱波动移动平均,频谱移动平均和谱衰减移动平均。下面以采样率16kHz的声音信号为例,对特征参数作详细说明: 
1、谱波动flux及其衍生的谱波动方差flux_var和谱波动方差移动平均flux_var_mov。 
谱波动flux特征参数描述了帧和帧之间的变化。对音乐信号而言,flux比较低,平稳,而语音信号的flux通常比较高,变化大。其可以采用公式1计算得到;谱波动方差flux_var和谱波动方差移动平均flux_var_mov分别采用公式2和公式3计算得到: 
flux ( i ) = norm ( Σ j = N 1 , N 2 U _ pw i ( j ) - U _ pw i ( j - 1 ) ) max ( avg _ flux , norm ( Σ j = 1 N U _ pw i ( j ) - U _ pw i ( j - 1 ) ) )
                                       ..........................公式1 
flux _ var ( i ) = 1 10 Σ k = i - 10 i ( flux ( k ) - flux i ‾ ) 2
                                       ..........................公式2 
flux _ var _ mov = var _ flux i ‾ = 1 10 Σ k = i - 10 i var _ flux ( k )
                                       ..........................公式3 
其中,norm(·)是归一化函数。 
2、低频带占全频带的能量比率ratio1。 
该特征参数描述了低频段子带能量占总能量的比例。通常语音信号的ratio1比较高,音乐信号的ratio1比较低。其计算公式如公式4所示: 
ratio 1 ( i ) = Σ k = R 1 _ F 1 R 1 _ F 2 U _ pw i 2 ( k ) ( Σ k = 1 N U _ pw 2 ( k ) N + 1 ) ( R 1 _ F 2 - R 1 _ F 1 )
                                      ..........................公式4
3、95%谱衰减(Rolloff)、50%谱衰减(Rolloff_half)及谱衰减方差(rolloff_var)。 
其中,Rolloff表示占全带95%能量的点的位置;Rolloff_half表示占全带50%能量的点的位置。 
通常语音信号谱衰减的点比较低,音乐信号的谱衰减的点比较高。Rolloff和rolloff_var的计算公式分别如公式5和公式6所示: 
Rolloff ( i ) = max j ( Σ k = 1 j U _ pw i ( k ) ≤ 0.95 * Σ l = 1 N U _ pw i ( l ) )
                                 ..........................公式5 
rolloff _ var ( i ) = 1 m Σ k = i - m i ( Rolloff ( k ) - Rolloff i ‾ ) 2
                                 ..........................公式6 
Rolloff_half的计算公式如公式7所示: 
Rolloff _ half ( i ) = max j ( Σ k = 1 j U _ pw i ( k ) ≤ 0.5 * Σ l = 1 N U _ pw i ( l ) )
                                    ..........................公式7 
4、时域过零率zcr。 
该特征参数主要用来检测清音。由于语音中会间隔出现清音,故会出现较音乐高的zcr。其计算公式如公式8所示: 
zcr = 1 T &Sigma; i - 1 T - 1 II { x ( i ) x ( i - 1 ) < 0 }
                                   ..........................公式8 
公式8中,函数II{A}表示当A是truth时,II{A}是1;当A是false时,II{A}为0. 
5、频域过零率fzcr。 
所述fzcr表示一个衡量频域内,某帧信号在不同频率的能量起伏的程度。对语音信号而言,fzcr可以看作是共振峰的一种初步算法。其可以通过如下方式获得:截取非噪声音频信号帧的至少一段频谱信号;对所截取的每一段频谱信号进行归一化处理;并对归一化处理后的频谱信号,进行去掉平均值的整理 处理,并计算整理过的频谱信号的过零率。具体可以采用公式9至公式13计算得到: 
U _ avg i ( t ) = 1 N 2 ( t ) - N 1 ( t ) &Sigma; n = N 1 ( t ) N 2 ( t ) U _ pw i ( n )
                                   ..........................公式9 
对于n∈[N1(t),N2(t)],存在: 
U_movi(t,n)=U_mov Oi(n)-U_avgi(t) 
                                   ..........................公式10 
其中所述U_movOi(n)如公式11所示: 
U_movOi(n)=[U_pwi(n)+U_pwi(n-1)+U_pwi(n+1)]/3 
                                   ..........................公式11 
于是有: 
K ( t ) = 1 T &Sigma; n - 1 T - 1 II { U _ mov i ( t , n ) &times; U _ mov i ( t , n - 1 ) < 0 }
                                   ..........................公式12 
fzcr ( i ) = &Sigma; t = 1 4 K ( t )
                                   ..........................公式13 
其中所述N1和N2是频域子带起始点,例如可以为N1=[188Hz,1500Hz,2500Hz,3750Hz],N2=[1500Hz,2500Hz,3750Hz,8000Hz];所述U_pwi(n)是第i帧的信号频谱;所述U_mov(t,i)是第i帧的t子段的移动平均;所述T表示帧数。 
当获取到上述特征参数后,执行步骤S200,在频域范围内,根据所述非噪声音频信号的特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别。 
步骤S200中利用上述特征参数组合进行逻辑判断时,首先进行初步逻辑判定,将非噪声音频信号进行语音和音乐的初始分类,分成4类:清音,语音,音乐和不确定信号;然后进行修正逻辑判定,即对经过初步逻辑判定后得到的 不确定信号进一步进行判决,使之可以归属为语音或音乐。如下: 
首先进行初步逻辑判定,将非噪声音频信号进行语音和音乐的初始分类,分成4类:清音,语音,音乐和不确定信号。具体实施过程如图2所示: 
步骤S101,置语音标志和音乐标志为0,即Speech_flag=0且Music_flag=0。 
接下来同时进行如下判断: 
步骤S102,根据如下特征参数的一个或多个:时域过零率zcr,低频带占全频带的能量比率ratio1,判断当前非噪声音频信号是否归属于清音。以及, 
步骤S103,根据如下特征参数的一个或多个:谱波动flux;谱波动方差flux_var;谱波动方差移动平均flux_var_mov;时域过零率zcr,判断当前非噪声音频信号是否归属于语音。以及, 
步骤S104,根据x%谱衰减Rolloff_x,如50%谱衰减Rolloff_half特征参数,判断当前非噪声音频信号是否归属于语音。以及, 
步骤S105,根据上一帧音频信号的清音拖尾标志ZCR_hangover_flag、谱波动拖尾标志Flux_hangover_flag或谱衰减拖尾标志Rollhalf_hangover_flag,判断当前非噪声音频信号是否归属于语音。以及, 
步骤S106,根据如下特征参数的一个或多个:谱波动方差移动平均flux_var_mov;x%谱衰减Rolloff_x,判断当前非噪声音频信号是否归属于音乐。以及, 
步骤S107,根据上一帧的谱波动方差移动平均拖尾标志flux_var_mov_hangover_flag判断当前非噪声音频信号是否归属于音乐。 
上述步骤S102中,若确定出当前音频信号归属于清音,则执行步骤S108,即置清音拖尾标志ZCR_hangover_flag为第一设定值,如ZCR_hangover_flag=20。然后执行步骤S109,即输出清音标识。否则,执行步骤S113,即保持Speech_flag=0,表示当前非噪声帧为既不属于语音类。具体实现可以按照如下情况进行: 
判断下述条件中的一个或多个是否满足:时域过零率zcr是否大于时域过 零率阈值THR_ZCR;低频带占全频带的能量比率ratio1是否大于低频带占全频带的能量比率阈值THR_RA;若其中一个满足条件,则确定当前非噪声帧归属于清音类别,清音拖尾标志ZCR_hangover_flag为第一设定值,如ZCR_hangover_flag=20;否则,执行步骤S113,即保持Speech_flag=0。 
步骤S103中,若确定出当前音频信号归属于语音,则执行步骤S110,即置谱波动拖尾标志Flux_hangover_flag为第二设定值,如Flux_hangover_flag=20;然后执行步骤S112,输出语音标识,即置Speech_flag=1。否则,执行步骤S113,即保持Speech_flag=0,表示当前非噪声帧不属于语音类。具体实现可以按照如下情况进行: 
判断下述条件中的一个或多个是否满足: 
谱波动flux是否大于谱波动阈值THR_FLUX;谱波动方差flux_var是否大于谱波动方差阈值THR_FLUX_VAR;谱波动flux是否大于第一谱波动方差函数f1(flux_var),如f1(flux_var)=0.7-20*flux_var;谱波动flux是否小于第二谱波动方差函数f2(flux_var),如f2(flux_var)=8*(flux_var);zcr是否大于谱波动方差移动平均函数f(flux_var_mov),如f(flux_var_mov)=60-2609*flux_var_mov; 
若其中一个条件满足,则确定当前非噪声音频信号归属于语音类别,置谱波动拖尾标志Flux_hangover_flag为第二设定值,如Flux_hangover_flag=20;然后置Speech_flag=1;否则,执行步骤S113,即保持Speech_flag=0,表示当前非噪声帧不属于语音类。 
步骤S104中,若确定出当前音频信号归属于语音,则执行步骤S111,即置谱衰减拖尾标志Rollhalf_hangover_flag为第三设定值,如Rollhalf_hangover_flag=20;然后执行步骤S112,输出语音标识,即置Speech_flag=1。否则,执行步骤S113,即保持Speech_flag=0,表示当前非噪声帧不属于语音类。具体实现可以按照如下情况进行: 
判断下述条件中的一个或多个是否满足:
x%谱衰减Rolloff_half是否小于x%谱衰减阈值THR_ROLL;若满足,则确定当前非噪声音频信号归属于语音类别,置谱衰减拖尾标志Rollhalf_hangover_flag为第三设定值,如Rollhalf_hangover_flag=20;然后置Speech_flag=1;否则,执行步骤S113,即保持Speech_flag=0,表示当前非噪声帧为非语音类。 
步骤S105中,若确定出当前音频信号归属于语音,则执行步骤S111,输出语音标识,即置Speech_flag=1。否则,执行步骤S113,即保持Speech_flag=0,表示当前非噪声帧为非语音类。具体实现可以按照如下情况进行: 
判断是否满足下述条件中一个或多个: 
清音拖尾标志ZCR_hangover_flag是否大于0;谱波动拖尾标志Flux_hangover_flag是否大于0;以及谱衰减拖尾标志Rollhalf_hangover_flag是否大于0; 
若是,则认为当前音频信号归属于语音,于是置Speech_flag=1。否则,不处理,即保持Speech_flag=0,表示当前非噪声帧为非语音类。 
步骤S106中,若确定出当前音频信号归属于音乐,则执行步骤S114,即置谱波动方差移动平均拖尾标志flux_var_mov_hangover_flag为第四设定值,如flux_var_mov_hangover_flag=20;然后执行步骤S115,输出音乐标识,即置Music_flag=1。否则,执行步骤S116,即保持Music_flag=0,表示当前非噪声帧不属于音乐类。具体实现可以按照如下情况进行: 
判断下述条件中的一个或多个是否满足: 
谱波动方差移动平均flux_var_mov是否小于第三x%谱衰减函数f3(Rolloff_x),如f3(Rolloff_half)=0.03-1/2400*(Rolloff_half);谱波动方差移动平均flux_var_mov是否小于第五设定值,如第五设定值=0.005;谱波动方差移动平均flux_var_mov是否小于第四x%谱衰减函数f4(Rolloff_x),如f4(Rolloff_half)=1/1867*Rolloff_half-0.0486;谱波动方差移动平均flux_var_mov是否小于谱波动方差移动平均阈值THR_FLUX_VAR_MOV;
若其中一个条件满足,则确定当前非噪声音频信号归属于音乐类别,于是置谱波动方差移动平均拖尾标志flux_var_mov_hangover_flag为第四设定值,如flux_var_mov_hangover_flag=20。然后置Music_flag=1;否则,执行步骤S116,即保持Music_flag=0,表示当前非噪声帧不属于音乐类。 
步骤S107中,判断谱波动方差移动平均拖尾标志flux_var_mov_hangover_flag是否大于0;若是,则认为当前音频信号归属于音乐,于是置Music_flag=1。否则,执行步骤S116,即保持Music_flag=0,表示当前非噪声帧不属于音乐类。 
经过上述实施过程后,非噪声音频信号被判决后,可能输出如下标志: 
Speech_flag=1、Music_flag=1、Speech_flag=0和Music_flag=0。 
然后执行步骤S117,即根据所述Speech_flag和Music_flag,判断当前非噪声音频信号的归属类别: 
当Speech_flag=1且Music_flag=1时表示当前非噪声音频信号既归属于语音,又归属于音乐;或当Speech_flag=0且Music_flag=0时,表示当前非噪声音频信号既不归属于语音,又不归属于音乐,于是执行步骤S118,即判决非噪声音频信号归属于不确定信号UNCERTAIN的信息; 
当Speech_flag=1且Music_fl时,则表示非噪声音频信号归属于语音,于是执行步骤S119,判决非噪声音频信号归属于语音; 
当Speech_flag=0且Music_flag=1时,则表示非噪声音频信号归属于音乐,于是执行步骤S120,判决当前非噪声音频信号归属于音乐。 
对于判决为既不属于语音类别又不属于音乐类别的不确定音频信号UNCERTAIN,还需要进一步根据所述音频信号前的音频环境,判别出其归属类别。具体判决方法如图3所示: 
步骤S201,判断当前非噪声音频信号之前的音频环境为语音音频环境,还是音乐环境; 
如果满足Speech_continue_counter(连续语音计数器,表示所述当前非噪 声音频信号之前,连续出现的语音音频信号的个数)>THR_SPEECH阈值,则确定当前非噪声音频信号之前的音频环境为语音音频环境; 
如果满足Music_continue_counter(连续音乐计数器,表示之前连续出现的音乐音频信号的个数)>THR_MUSIC阈值,则确定当前非噪声音频信号之前的音频环境为音乐音频环境。 
如果Speech_continue_counter>THR_SPEECH阈值,或Music_continue_counter>THR_MUSIC阈值均不满足,说明当前非噪声音频信号之前的音频环境既不属于语音环境,也不属于音乐环境。于是,直接执行步骤S205,即将所述非噪声音频信号判决为不确定音频信号。 
当确定出当前非噪声音频信号之前的音频环境为语音环境时,则执行步骤S202,根据当前非噪声音频信号的flux、flux_var、flux_var_mov、Rolloff_var和fzcr中的至少一个,判断当前非噪声音频信号是否归属于语音,若是,则执行步骤S204,即确定当前非噪声音频信号为语音,并置语音信号标志Speech_flag=1;否则执行步骤S205,即确定当前非噪声音频信号为不确定音频信号。 
步骤S202的具体实施过程如下: 
判断是否满足下述条件中的至少一个:flux>THR_flux,flux_var>THR_flux_var,flux_var mov>THR_flux_var_mov,Rolloff_var>THR_Rolloff_var,fzcr<THR_fzcr; 
如果满足上述条件之一,则确定当前非噪声音频信号为语音,置语音信号标志Speech_flag=1;否则,确定当前非噪声音频信号为不确定音频信号。 
此时所述阈值THR_flux、THR_flux_var和THR_flux_var_mov可以不同于初始判断过程所设置的相应阈值。 
当确定出当前非噪声音频信号之前的音频环境为音乐环境时,则执行步骤S203,根据当前非噪声音频信号的flux_var_mov、Rolloff_var和fzcr中的至少一个,判断当前非噪声音频信号是否归属于音乐,若是,则确定当前非噪声音 频信号为音乐,并置音乐信号标志Music_flag=1;否则,执行步骤S205,即确定当前非噪声音频信号为不确定音频信号。 
步骤S204的具体实施过程如下: 
判断是否满足下述条件中的至少一个:flux_var_mov<THR_flux_var_mov,Rolloff_var<THR_Rolloff_var,fzcr>THR_fzcr; 
如果满足上述条件之一,则确定当前非噪声音频信号为音乐,置音乐信号标志Music_flag=1;否则,确定当前非噪声音频信号为不确定音频信号。 
此时所述阈值THR_flux_var_mov可以不同于初始判断过程所设置的相应阈值。 
对于步骤S101至步骤S120确定出的既属于语音类别又属于音乐类别的音频信号,以及步骤S201至步骤S205确定出的既不属于语音类别又不属于音乐类别的不确定音频信号,可以进行进一步的判决,采取的判决方法如下: 
根据当前非噪声音频信号前的音频信号,对所述不确定音频信号进行归属类别的判决。具体如下: 
将所述不确定音频信号的归属类别,判为紧邻所述不确定音频信号前的音频信号的归属类别;或,所述不确定音频信号的归属类别,判为所述不确定音频信号前的一段音频信号中,所占比重较大的信号所归属的类别。 
对于步骤S101至步骤S120确定出的既属于语音类别又属于音乐类别的音频信号,以及步骤S201至步骤S205确定出的既不属于语音类别又不属于音乐类别的不确定音频信号,也可以采用其它软决策方法,对不确定音频信号,进行归属类别的判决,例如采用GMM(高斯混合模型)判定的方法作进一步分类。 
上述实施例是以步骤S101至步骤S107同时进行判断为例进行说明的,除此之外,本发明实施例也可以采用步骤S101至步骤S107中的部分步骤来实现,每个步骤的详细情况与上述实施过程雷同,此处不进行具体说明。 
本发明提供的第二实施例是一种确定非噪声音频信号归属类别的装置,其 结构如图4所示,包括:特征参数获取单元和归属类别确定单元。所述归属类别确定单元包括:清音判别子单元、语音判别子单元和音乐判别子单元,所述归属类别确定单元还包括:一判决子单元。 
各个单元之间信号的交互关系如下: 
所述特征参数获取单元获取非噪声音频信号的特征参数;所述特征参数包括如下中的至少一个: 
谱波动flux;谱波动方差flux_var;谱波动方差移动平均flux_var_mov;低频带占全频带的能量比率ratio1;95%谱衰减Rolloff;x%谱衰减Rolloff_x,如50%谱衰减Rolloff_half;谱衰减方差rolloff_var;频谱幅度的方差magvar;时域过零率zcr;频域过零率fzcr。 
所述归属类别确定单元,在频域范围内,根据所述非噪声音频信号的特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别。具体处理如下: 
清音判别子单元,根据获取到的如下特征参数的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行清音归属类别的判决:时域过零率zcr;低频带占全频带的能量比率ratio1;具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。以及, 
语音判别子单元,根据获取到的如下特征参数中的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决:谱波动flux;谱波动方差var_flux;谱波动方差移动平均flux_var_mov;时域过零率zcr;x%谱衰减Rolloff_x,如50%谱衰减Rolloff_half;具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。以及, 
音乐判别子单元,根据获取到的如下特征参数的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决:谱波动方差移动平均flux_var_mov;x%谱衰减Rolloff_x,如50%谱衰减Rolloff_half。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。
当通过所述清音判决子单元、语音判决子单元或音乐判决子单元,判决出当前非噪声音频信号为既不归属于语音类别又不归属于音乐类别时,所述归属类别确定单元还通过所述一判决子单元,判断当前非噪声音频信号前存在语音音频环境还是音乐音频环境; 
当当前非噪声音频信号前存在语音音频环境时,根据获取到的如下特征参数中的一个或多个:谱波动flux;谱波动方差var_flux;谱波动方差移动平均flux_var_mov;谱衰减方差rolloff_var;频域过零率fzcr,以及相应的特征参数阈值,对既不属于语音又不属于音乐的当前非噪声音频信号进行语音归属类别的判决;具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。 
当当前非噪声音频信号前存在音乐音频环境时,根据获取到的如下特征参数中的一个或多个:谱波动方差移动平均flux_var_mov;谱衰减方差rolloff_var;频域过零率fzcr,以及相应的特征参数阈值,对既不属于语音又不属于音乐的当前非噪声音频信号进行语音归属类别的判决。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。 
对于通过所述清音判决子单元、语音判决子单元或音乐判决子单元,确定出的既属于语音类别又属于音乐类别的音频信号,以及当通过所述一判决子单元确定出既不属于语音类别又不属于音乐类别的不确定音频信号后,可以通过所述一判决子单元对所述音频信号进行进一步的判决,可以采取如下判决方法: 
根据当前非噪声音频信号前的音频信号,对所述不确定音频信号进行归属类别的判决。也就是说,将所述不确定音频信号的归属类别,判为紧邻所述不确定音频信号前的音频信号的归属类别;或,所述不确定音频信号的归属类别,判为所述不确定音频信号前的一段音频信号中,所占比重较大的信号所归属的类别。 
也可以采用其它软决策方法,对不确定音频信号,进行归属类别的判决,例如采用GMM(高斯混合模型)判定的方法作进一步分类。
本发明提供的第三实施例是一种清音判别装置,其结构如图5所示,包括:第一获取单元和清音判别单元。 
所述第一获取单元获取音频信号的特征参数;所述特征参数包括时域过零率zcr;和/或,低频带占全频带的能量比率ratio1。 
所述清音判别单元,根据获取到的如下特征参数的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行清音归属类别的判决:时域过零率zcr;低频带占全频带的能量比率ratio1。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。 
本发明提供的第四实施例是一种语音判别装置,其结构如图6所示,包括:第二获取单元和语音判别单元; 
所述第二获取单元获取音频信号的特征参数;所述特征参数包括如下特征参数中的一个或多个: 
谱波动flux;谱波动方差var_flux;谱波动方差移动平均flux_var_mov;时域过零率zcr;x%谱衰减Rolloff_x,如50%谱衰减Rolloff_half。 
所述语音判别单元,根据获取到的如下特征参数中的一个或多个,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决:谱波动flux;谱波动方差var_flux;谱波动方差移动平均flux_var_mov;时域过零率zcr;x%谱衰减Rolloff_x,如50%谱衰减Rolloff_half。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。 
本发明提供的第五实施例是一种音乐判别装置,其结构如图7所示,包括:第三获取单元和音乐判别单元。 
所述第三获取单元获取音频信号的特征参数;所述特征参数包括如下特征参数的一个或多个: 
谱波动方差移动平均flux_var_mov;x%谱衰减Rolloff_x,如50%谱衰减Rolloff_half。 
所述音乐判别单元,根据获取到的如下特征参数的一个或多个,以及相应 的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决:谱波动方差移动平均flux_var_mov;x%谱衰减Rolloff_x,如50%谱衰减Rolloff_half。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。 
由上述本发明的实施例提供的具体实施方案可以看出,其是根据非噪声音频信号的频谱特征参数,来确定当前非噪声音频信号的归属类别的,因此本发明的实施例能够脱离编码算法而存在,从而具有独立性以及可移植性。 
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (17)

1.一种确定非噪声音频信号归属类别的方法,其特征在于,包括:
获取非噪声音频信号的频谱特征参数,所述特征参数包括如下中的至少一个:谱波动flux;谱波动方差flux_var;谱波动方差移动平均flux_var_mov;低频带占全频带的能量比率ratio1;x%谱衰减Rolloff_x,x为大于零且小于100的数值;时域过零率zcr;谱衰减方差rolloff_var;频域过零率fzcr;
在频域范围内,根据所述非噪声音频信号的频谱特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别,包括:
根据获取到的如下特征参数的一个或多个:时域过零率zcr;低频带占全频带的能量比率ratio1,以及相应的特征参数阈值,对当前非噪声音频信号进行清音归属类别的判决;以及,
根据获取到的如下特征参数中的一个或多个:谱波动flux;谱波动方差var_flux;谱波动方差移动平均flux_var_mov;时域过零率zcr,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决;以及,
根据获取到的x%谱衰减Rolloff_x特征参数,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决;以及,
根据获取到的如下特征参数的一个或多个:谱波动方差移动平均flux_var_mov;x%谱衰减Rolloff_x,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决。
2.如权利要求1所述的方法,其特征在于,所述x为95。
3.如权利要求1所述的方法,其特征在于,所述频域过零率fzcr通过如下方式获得:
截取非噪声音频信号的至少一段频谱信号;
对所截取的每一段频谱信号进行归一化处理;并对归一化处理后的频谱信号,进行去掉平均值的整理处理,并计算整理过的频谱信号的过零率。
4.如权利要求1所述的方法,其特征在于, 
根据上一帧音频信号的清音拖尾标志、谱波动拖尾标志、谱衰减拖尾标志对当前非噪声音频信号进行语音归属类别的判决;以及,
根据上一帧音频信号的谱波动方差移动平均拖尾标志,对当前非噪声音频信号进行音乐归属类别的判决。
5.如权利要求4所述的方法,其特征在于,所述对当前非噪声音频信号进行清音归属类别的判决的过程,具体包括:
判断下述条件中的一个或多个是否满足:时域过零率zcr是否大于时域过零率阈值THR_ZCR;低频带占全频带的能量比率ratio1是否大于低频带占全频带的能量比率阈值THR_RA;
若其中至少一个满足条件,则确定当前非噪声帧归属于清音类别,并置清音拖尾标志为第一设定值;否则,确定当前非噪声帧不属于语音类。
6.如权利要求4所述的方法,其特征在于,所述根据获取到的如下特征参数中的一个或多个:谱波动flux;谱波动方差var_flux;谱波动方差移动平均flux_var_mov;时域过零率zcr,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决的过程,具体包括:
判断下述条件中的一个或多个是否满足:
谱波动flux是否大于谱波动阈值THR_FLUX;谱波动方差flux_var是否大于谱波动方差阈值THR_FLUX_VAR;谱波动flux是否大于第一谱波动方差函数f1(flux_var);谱波动flux是否小于第二谱波动方差函数f2(flux_var);zcr是否大于谱波动方差移动平均函数f(flux_var_mov);
若其中至少一个条件满足,则确定当前非噪声音频信号归属于语音类别,并置谱波动拖尾标志为第二设定值;否则,确定当前非噪声音频信号不属于语音类。
7.如权利要求4所述的方法,其特征在于,所述根据获取到的x%谱衰减Rolloff_x特征参数,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决的过程,具体包括: 
判断x%谱衰减Rolloff_x是否小于x%谱衰减阈值THR_ROLL;若是,则确定当前非噪声音频信号归属于语音类别,并置谱衰减拖尾标志为第三设定值;否则,确定当前非噪声音频信号不属于语音类。
8.如权利要求4所述的方法,其特征在于,所述根据上一帧音频信号的清音拖尾标志、谱波动拖尾标志、谱衰减拖尾标志对当前非噪声音频信号进行语音归属类别的判决的过程,具体包括:
判断下述条件中的至少一个是否满足:上一帧音频信号的清音拖尾标志是否大于0;上一帧音频信号的谱波动拖尾标志是否大于0;上一帧音频信号的谱衰减拖尾标志是否大于0;
若其中至少一个满足条件,则确定当前非噪声音频信号属于语音;如果不满足上述条件,则确定当前非噪声音频信号不属于语音。
9.如权利要求4所述的方法,其特征在于,所述根据获取到的如下特征参数的一个或多个:谱波动方差移动平均flux_var_mov;x%谱衰减Rolloff_x,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决的过程,具体包括:
判断下述条件中的一个或多个是否满足:
谱波动方差移动平均flux_var_mov是否小于第三x%谱衰减函数f3(Rolloff_x);谱波动方差移动平均flux_var_mov是否小于第五设定值,所述第五设定值为0.005;谱波动方差移动平均flux_var_mov是否小于第四x%谱衰减函数f4(Rolloff_x);谱波动方差移动平均flux_var_mov是否小于谱波动方差移动平均阈值THR_FLUX_VAR_MOV;
若其中至少一个条件满足,则确定当前非噪声音频信号归属于音乐类别,并置谱波动方差移动平均拖尾标志为第四设定值;否则,确定当前非噪声音频信号不属于音乐类。
10.如权利要求4所述的方法,其特征在于,所述根据上一帧音频信号的谱波动方差移动平均拖尾标志,对当前非噪声音频信号进行音乐归属类别的判 决的过程,还包括:
判断上一帧音频信号的谱波动方差移动平均拖尾标志是否大于0,若是,则确定当前非噪声音频信号归属于音乐;否则,确定当前非噪声音频信号不属于音乐。
11.如权利要求4所述的方法,其特征在于,当判决出当前非噪声音频信号为既不归属于语音类别又不归属于音乐类别时,还包括:
判断当前非噪声音频信号前存在语音音频环境还是音乐音频环境;
当当前非噪声音频信号前存在语音音频环境时,判断下述条件中的一个或多个是否满足:谱波动flux、谱波动方差var_flux、谱波动方差移动平均flux_var_mov、谱衰减方差rolloff_var特征参数中的一个或多个,是否大于相应的特征参数阈值;频域过零率fzcr,是否小于相应的特征参数阈值;若其中至少一个条件满足,则确定当前非噪声音频信号归属于语音;否则确定当前非噪声音频信号不归属于语音;
当当前非噪声音频信号前存在音乐音频环境时,判断是否满足下述条件中的一个或多个:谱波动方差移动平均flux_var_mov、谱衰减方差rolloff_var特征参数中的一个或多个,是否小于相应的特征参数阈值;频域过零率fzcr,是否大于相应的特征参数阈值,若其中至少一个条件满足,则确定当前非噪声音频信号归属于音乐;否则确定当前非噪声音频信号不归属于音乐。
12.如权利要求4所述的方法,其特征在于,当判决出当前非噪声音频信号既属于语音类别又属于音乐类别,或既不属于语音类别又不属于音乐类别时,还包括:
采用高斯混合模型,对既归属于语音又归属于音乐,或既归属于非语音又归属于非音乐的音频不确定音频信号,进行归属类别的判决;或,
将所述不确定音频信号的归属类别,判为紧邻所述不确定音频信号前的音频信号的归属类别;或,
将所述不确定音频信号的归属类别,判为所述不确定音频信号前的一段音 频信号中,所占比重较大的信号所归属的类别。
13.如权利要求11所述的方法,其特征在于,当判决出当前非噪声音频信号既不属于语音类别又不属于音乐类别时,还包括:
采用高斯混合模型,对既归属于语音又归属于音乐,或既归属于非语音又归属于非音乐的音频不确定音频信号,进行归属类别的判决;或,
将所述不确定音频信号的归属类别,判为紧邻所述不确定音频信号前的音频信号的归属类别;或,
将所述不确定音频信号的归属类别,判为所述不确定音频信号前的一段音频信号中,所占比重较大的信号所归属的类别。
14.一种确定非噪声音频信号归属类别的装置,其特征在于,包括:
特征参数获取单元,用于获取非噪声音频信号的频谱特征参数所述频谱特征参数包括如下中的至少一个:谱波动flux;谱波动方差flux_var;谱波动方差移动平均flux_var_mov;低频带占全频带的能量比率ratio1;x%谱衰减Rolloff_x,x为大于零且小于100的数值;时域过零率zcr;谱衰减方差rolloff_var;频域过零率fzcr;
归属类别确定单元,用于在频域范围内,根据所述非噪声音频信号的频谱特征参数,以及设定的特征参数阈值,确定当前非噪声音频信号归属类别;
所述归属类别确定单元包括:
清音判别子单元,用于根据获取到的如下特征参数的一个或多个:时域过零率zcr;低频带占全频带的能量比率ratio1,以及相应的特征参数阈值,对当前非噪声音频信号进行清音归属类别的判决;以及,
语音判别子单元,用于根据获取到的如下特征参数中的一个或多个:谱波动flux;谱波动方差var_flux;谱波动方差移动平均flux_var_mov;时域过零率zcr;x%谱衰减Rolloff_x,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决;以及,
音乐判别子单元,用于根据获取到的如下特征参数的一个或多个:谱波动方差移动平均flux_var_mov;x%谱衰减Rolloff_x,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决。
15.如权利要求14所述的装置,其特征在于,所述归属类别确定单元还包括:
一判决子单元,用于当判决出当前非噪声音频信号为既不归属于语音类别又不归属于音乐类别时,判断当前非噪声音频信号前存在语音音频环境还是音乐音频环境;
当当前非噪声音频信号前存在语音音频环境时,根据获取到的如下特征参数中的一个或多个:谱波动flux;谱波动方差var_flux;谱波动方差移动平均flux_var_mov;谱衰减方差rolloff_var;频域过零率fzcr,以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决;
当当前非噪声音频信号前存在音乐音频环境时,根据获取到的如下特征参数中的一个或多个:谱波动方差移动平均flux_var_mov;谱衰减方差rolloff_var;频域过零率fzcr,以及相应的特征参数阈值,对既不属于语音又不属于音乐的当前非噪声音频信号进行语音归属类别的判决。
16.一种语音判别装置,其特征在于,包括:
第二获取单元,用于获取音频信号的频谱特征参数;
语音判别单元,用于根据获取到的谱波动flux和时域过零率zcr,和如下特征参数中的一个或多个:谱波动方差var_flux,谱波动方差移动平均flux_var_mov,x%谱衰减Rolloff_x;以及相应的特征参数阈值,对当前非噪声音频信号进行语音归属类别的判决。
17.一种音乐判别装置,其特征在于,包括:
第三获取单元,用于获取音频信号的频谱特征参数;
音乐判别单元,用于根据获取到的如下特征参数的一个或多个:谱波动方差移动平均flux_var_mov;x%谱衰减Rolloff_x,以及相应的特征参数阈值,对当前非噪声音频信号进行音乐归属类别的判决。 
CN 200710080333 2007-03-02 2007-03-02 确定非噪声音频信号归属类别的方法和装置 Withdrawn - After Issue CN101256772B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN 200710080333 CN101256772B (zh) 2007-03-02 2007-03-02 确定非噪声音频信号归属类别的方法和装置
PCT/CN2007/003985 WO2008106852A1 (fr) 2007-03-02 2007-12-29 Méthode et dispositif de classification d'un signal audio sans bruit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710080333 CN101256772B (zh) 2007-03-02 2007-03-02 确定非噪声音频信号归属类别的方法和装置

Publications (2)

Publication Number Publication Date
CN101256772A CN101256772A (zh) 2008-09-03
CN101256772B true CN101256772B (zh) 2012-02-15

Family

ID=39737776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710080333 Withdrawn - After Issue CN101256772B (zh) 2007-03-02 2007-03-02 确定非噪声音频信号归属类别的方法和装置

Country Status (2)

Country Link
CN (1) CN101256772B (zh)
WO (1) WO2008106852A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399039B (zh) * 2007-09-30 2011-05-11 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
CN102129858B (zh) * 2011-03-16 2012-02-08 天津大学 基于Teager能量熵的音符切分方法
JP6182895B2 (ja) * 2012-05-01 2017-08-23 株式会社リコー 処理装置、処理方法、プログラム及び処理システム
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
EP2922052B1 (en) 2012-11-13 2021-10-13 Samsung Electronics Co., Ltd. Method for determining an encoding mode
CN114534130A (zh) * 2020-11-25 2022-05-27 深圳市安联消防技术有限公司 一种呼吸面具气流噪音消除方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
CN1146865C (zh) * 1997-03-25 2004-04-21 皇家菲利浦电子有限公司 检测话音启动的方法和装置
CN1175398C (zh) * 2000-11-18 2004-11-10 中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
CN1909060A (zh) * 2005-08-01 2007-02-07 三星电子株式会社 提取浊音/清音分类信息的方法和设备
CN1920947A (zh) * 2006-09-15 2007-02-28 清华大学 用于低比特率音频编码的语音/音乐检测器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58143394A (ja) * 1982-02-19 1983-08-25 株式会社日立製作所 音声区間の検出・分類方式
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
CN1146865C (zh) * 1997-03-25 2004-04-21 皇家菲利浦电子有限公司 检测话音启动的方法和装置
CN1175398C (zh) * 2000-11-18 2004-11-10 中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
CN1909060A (zh) * 2005-08-01 2007-02-07 三星电子株式会社 提取浊音/清音分类信息的方法和设备
CN1920947A (zh) * 2006-09-15 2007-02-28 清华大学 用于低比特率音频编码的语音/音乐检测器

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Eric Scheirer, Malcolm Slaneyy.CONSTRUCTION AND EVALUATION OF A ROBUSTMULTIFEATURE SPEECH/MUSIC DISCRIMINATOR.《Proc. ICASSP-97》.1997, *
Lie Lu et al.Content Analysis for Audio Classification and Segmentation.《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》.2002,第10卷(第7期), *
白亮等.音频自动分类中的特征分析和抽取.《小型微型计算机系统》.2005,第26卷(第11期), *

Also Published As

Publication number Publication date
WO2008106852A1 (fr) 2008-09-12
CN101256772A (zh) 2008-09-03

Similar Documents

Publication Publication Date Title
CN101256772B (zh) 确定非噪声音频信号归属类别的方法和装置
CN101197130B (zh) 声音活动检测方法和声音活动检测器
CN100382141C (zh) 抑制风噪声的系统和方法
EP2047457B1 (en) Systems, methods, and apparatus for signal change detection
CN1920947B (zh) 用于低比特率音频编码的语音/音乐检测器
AU672934B2 (en) Discriminating between stationary and non-stationary signals
WO2009026561A1 (en) System and method for noise activity detection
CA2382122A1 (en) Sound source classification
CN101010722A (zh) 音频信号中话音活动的检测
CN111696580B (zh) 一种语音检测方法、装置、电子设备及存储介质
JP2007041593A (ja) 音声信号のハーモニック成分を用いた有声音/無声音分離情報を抽出する方法及び装置
CN102237085A (zh) 音频信号的分类方法及装置
CN107086043A (zh) 检测音频信号的方法和装置
CN105513614A (zh) 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法
Wang et al. Joint noise and mask aware training for DNN-based speech enhancement with sub-band features
Pohjalainen et al. Multi-scale modulation filtering in automatic detection of emotions in telephone speech
CN1218945A (zh) 静态和非静态信号的鉴别
Dash et al. Mitigating information interruptions by COVID-19 face masks: a three-stage speech enhancement scheme
Singh et al. Improving Speech Quality Using Deep Neural Network-Based Manipulation of Cepstral Excitation
Mittal et al. Changes in shout features in automatically detected vowel regions
Bäckström et al. Voice activity detection
JP3849116B2 (ja) 音声検出装置及び音声検出プログラム
CN110299133A (zh) 基于关键字判定非法广播的方法
Hassan et al. A method for voiced/unvoiced classification of Noisy speech by analyzing time-domain features of spectrogram image
Alimuradov et al. A Novel Approach to Speech Signal Segmentation Based on Time-Frequency Analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201216

Address after: 214500, the first 50 meters to the west of No.3 Bridge, Jingcheng Jiangping Road, Jingjiang City, Taizhou City, Jiangsu Province

Patentee after: Jingjiang Tengfei printing and dyeing machinery manufacturing Co.,Ltd.

Address before: Unit 2414-2416, main building, no.371, Wushan Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Effective date of registration: 20201216

Address after: Unit 2414-2416, main building, no.371, Wushan Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee after: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220518

Address after: 214500 No. 28, Yingbin East Road, Jingjiang City, Taizhou City, Jiangsu Province

Patentee after: Jiangsu Huarong Investment Development Co.,Ltd.

Address before: 214500, the first 50 meters to the west of No.3 Bridge, Jingcheng Jiangping Road, Jingjiang City, Taizhou City, Jiangsu Province

Patentee before: Jingjiang Tengfei printing and dyeing machinery manufacturing Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230413

Address after: 214500 No. 28, Yingbin East Road, Jingjiang City, Taizhou City, Jiangsu Province

Patentee after: Jingjiang City Chengzhong Village Investment and Construction Co.,Ltd.

Address before: 214500 No. 28, Yingbin East Road, Jingjiang City, Taizhou City, Jiangsu Province

Patentee before: Jiangsu Huarong Investment Development Co.,Ltd.

AV01 Patent right actively abandoned
AV01 Patent right actively abandoned
AV01 Patent right actively abandoned

Granted publication date: 20120215

Effective date of abandoning: 20231121

AV01 Patent right actively abandoned

Granted publication date: 20120215

Effective date of abandoning: 20231121