CN101399039A - 一种确定非噪声音频信号类别的方法及装置 - Google Patents

一种确定非噪声音频信号类别的方法及装置 Download PDF

Info

Publication number
CN101399039A
CN101399039A CN 200710149984 CN200710149984A CN101399039A CN 101399039 A CN101399039 A CN 101399039A CN 200710149984 CN200710149984 CN 200710149984 CN 200710149984 A CN200710149984 A CN 200710149984A CN 101399039 A CN101399039 A CN 101399039A
Authority
CN
China
Prior art keywords
audio signal
noise audio
classification
signal
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200710149984
Other languages
English (en)
Other versions
CN101399039B (zh
Inventor
王珺
王喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Gaohang Intellectual Property Operation Co ltd
Suzhou Gonghu Precision Manufacturing Industry Development Co ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN 200710149984 priority Critical patent/CN101399039B/zh
Priority to PCT/CN2008/072455 priority patent/WO2009046658A1/zh
Publication of CN101399039A publication Critical patent/CN101399039A/zh
Application granted granted Critical
Publication of CN101399039B publication Critical patent/CN101399039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Abstract

本发明公开了一种确定非噪声音频信号类别的方法,首先,获取非噪声音频信号的特征参数;然后,根据所述特征参数,利用决策树初步判决所述非噪声音频信号的类别;最后,根据所述非噪声音频信号的语境和所述初步判决的结果,确定所述非噪声音频信号的类别。本发明还公开了一种确定非噪声音频信号类别的装置。本发明通过不依赖于编码器算法的非噪声音频信号的特征参数,对所述非噪声音频信号的类别进行判定,增强了算法的独立性和可移植性。

Description

一种确定非噪声音频信号类别的方法及装置
技术领域
本发明涉及无线通信技术领域,特别是涉及一种确定非噪声音频信号类别的方法及装置。
背景技术
随着无线通信技术的迅速发展,VAD(Voice Activity Detection,语音活动检测)技术得到了广泛的应用。每一种VAD方法都使用了多种特征参数,其中大部分来自或派生于编码器编码过程中产生的特征参数。例如GSM(Global System for Mobile communication,全球移动通信系统)制订了四种语音编码器规范,即GSM全速率、GSM增强全速率、GSM半速率和自适应多速率语音编码器,它们所依据的编码算法均有所区别,但是均包含了将语音信号从通信信号中检测出来的VAD模块。其中,GSM全速率、增强全速率和半速率这三种VAD算法的计算复杂度比较低,使用的参数都包含信号的能量、频谱稳定信息和基音信息等,其中,信号能量是主要判决依据,但它对噪声的敏感度比较高,后两种特征参数仅对判决阈值起作用,但对算法的依赖度比较高,即与编码算法有一定的耦合度。
ITU(International Telecommunications Union,国际电信联盟)制订了G.723.1和G.729系列编码标准,其中,G.723.1本身已经将VAD模块嵌入编码算法中,算法相对简单,性能一般;G.729则在其附件B(简称为G.729B)中融入了VAD的功能。G.729B的VAD模块采用了四维空间中的14边界决策技术,并对多边界决策结果进行平滑以保证自然语音信号的长时平稳特性,即在多维空间中(4维)由14项不等式确定的决策区域。G.729B的VAD算法用到了全带能量、低带能量、过零率和线谱对谱参数及其运行时的统计参数,与编码算法有相当的耦合度。
3GPP(the 3rd Generation Partnership Project,第三代伙伴组织计划)组织制订了AMR、AMR-WB和AMR-WB+编码标准,它们也都含有VAD模块,其基本原理都是将信号分成多个子带,在每一子带内计算子带参数,然后将这些子带参数在全带进行综合,最后在全带进行判决,其中的一个区别是AMR计算输入信号的9个子带能量,而AMR-WB和AMR-WB+则分为12个子带能量。AMR包含两种VAD算法,有着不同的复杂度和性能。AMR的VAD模块主要特点是以信噪比作为背景噪声特征参数估计和判决逻辑的核心,复杂度较低,其包含的基音检测、音调检测和复杂信号分析模块都用到了编码器本身开环基因分析模块的参数,与编码器算法的耦合度比较紧。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有语音编码标准的算法所含的VAD模块使用的特征参数与编码器算法的耦合度较紧,不利于算法的独立性和可移植性。
发明内容
本发明实施例要解决的问题是提供一种确定非噪声音频信号类别的方法及装置,采用的特征参数不依赖于编码器算法,增强了算法的独立性和可移植性。
为达到上述目的,本发明实施例的技术方案提供一种确定非噪声音频信号类别的方法,包括以下步骤:获取非噪声音频信号的特征参数;根据所述特征参数,利用决策树初步判决所述非噪声音频信号的类别;根据所述非噪声音频信号的语境和所述初步判决的结果,确定所述非噪声音频信号的类别。
本发明实施例的技术方案还提供了一种确定非噪声音频信号类别的装置,包括特征参数获取单元,用于获取非噪声音频信号的特征参数;第一判决单元,用于根据所述特征参数获取单元获取的特征参数,利用决策树初步判决所述非噪声音频信号的类别;第二判决单元,用于根据所述非噪声音频信号的语境和所述第一判决单元的初步判决的结果,确定所述非噪声音频信号的类别。
上述技术方案中的一个实施例具有如下优点:本发明实施例通过不依赖于编码器算法的非噪声音频信号的特征参数,对所述非噪声音频信号的类别进行判定,增强了算法的独立性和可移植性。
附图说明
图1是本发明实施例的一种确定非噪声音频信号类别的装置结构图;
图2是本发明实施例的一种确定非噪声音频信号类别的方法流程图;
图3是本发明实施例的一种非噪声音频信号的状态转移示意图;
图4是本发明实施例的一种多变量决策树的结构图;
图5是本发明实施例的一种非噪声音频信号的初步判决方法流程图;
图6是本发明实施例的一种短时决策树的结构示意图;
图7是本发明实施例的一种长时决策树的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述:
本发明实施例的一种确定非噪声音频信号类别的装置如图1所示,包括特征参数获取单元11、第一判决单元12、第二判决单元13和状态转移单元14。其中第一判决单元12分别与特征参数获取单元11和第二判决单元13连接,第二判决单元13和状态转移单元14连接。
特征参数获取单元11用于获取非噪声音频信号的特征参数;第一判决单元12用于根据特征参数获取单元11获取的特征参数,利用决策树初步判决所述非噪声音频信号的类别;第二判决单元13用于根据非噪声音频信号的语境和第一判决单元12的初步判决的结果,确定所述非噪声音频信号的类别;状态转移单元14用于在所述非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态。
状态转移单元14包括状态转移判断子单元141、持续时间判断子单元142和转换子单元143,其中转换子单元143分别与状态转移判断子单元141和持续时间判断子单元142连接。
状态转移判断子单元141用于根据第二判决单元13确定的非噪声音频信号的类别,与所述非噪声音频信号之前的类别,判断所述非噪声音频信号的状态是否转移;持续时间判断子单元142用于判断所述非噪声音频信号的类别持续确定为同一类型的时间是否到达预先设置的持续时间门限值;转换子单元143用于根据状态转移判断子单元141的判断结果或持续时间判断子单元142的判断结果,在所述非噪声音频信号的状态与过渡状态之间进行转换。
特征参数获取单元11获取的非噪声音频信号的特征参数包括如下参数中的至少一个:归一化帧间谱波动flux;归一化帧间谱波动的方差varflux;归一化帧间谱波动的方差滑动平均varmovflux;归一化频带谱波动fflux;归一化频带谱波动的方差varfflux;归一化频带谱波动的方差滑动平均varmovfflux;归一化子带能量标准差stdave;能量比率ratiol;能量比率的长时平均mov_ratiol;能量比率的方差var_ratiol;时域过零率zcr;谐波结构稳定性特征hss。
下面对所述非噪声音频信号的特征参数进行说明:
1.归一化帧间谱波动flux及其衍生的归一化帧间谱波动的方差varflux和归一化帧间谱波动的方差滑动平均varmovflux。
归一化帧间谱波动flux描述了非噪声音频信号的帧和帧之间频谱的变化。其中,音乐信号的flux比较低,平稳;语音信号的flux通常比较高,变化大。归一化帧间谱波动flux由公式
flux ( i ) = Σ j = FLUX _ F 1 FLUX _ F 2 | SigFpw ( i , j ) - SigFpw ( i - 1 , j ) | norm
计算得到。
其中,SigFpw为在时域范围内所述非噪声音频信号经FFT变换后得到的频谱幅度信号。
FLUX_F1和FLUX_F2为频带的边界,在16KHz采样模式下的一个实例是FLUX_F1=3,FLUX_F2=95;在8KHz采样模式下的一个实例是FLUX_F1=1,FLUX_F2=47。
norm为归一化函数,norm的一个特例是:
norm=max(ave_amp,AVE_E_FLUX)
其中,ave_amp为当前帧与前面连续多帧的平均频谱幅度。
AVE_E_FLUX用来避免出现极小分母的情况,其一个实例是AVE_E_FLUX=1000。
2.归一化频带谱波动fflux及其衍生的归一化频带谱波动的方差varfflux和归一化频带谱波动的方差滑动平均varmovfflux。
归一化频带谱波动fflux描述了非噪声音频信号的同一帧中各子带间频谱的变化。其中,音乐信号的fflux比较低,平稳;语音信号的fflux通常比较高,变化大。归一化频带谱波动fflux由公式
fflux ( i ) = Σ j = 1 FFLUX _ F 1 | SigFpw ( i , j ) - SigFpw ( i , j - 1 ) | norm
计算得到。
其中,SigFpw为在时域范围内所述非噪声音频信号经FFT变换后得到的频谱幅度信号。
FFLUX_F1为频带的边界,在16KHz采样模式下的一个实例是FFLUX_F1=63;在8KHz采样模式下的一个实例是FFLUX_F1=32。
norm为归一化函数,norm的一个特例是:
norm=max(ave_amp,AVE_E_FLUX)
其中,ave_amp为当前帧与前面连续多帧的平均频谱幅度。
AVE_E_FLUX用来避免出现极小分母的情况,其一个实例是AVE_E_FLUX=1000。
3.归一化子带能量标准差stdave。
归一化子带能量标准差stdave为归一化的几个连续帧间的子带能量的标准差的结果求平均。归一化子带能量标准差stdave由公式
stdave = ( Σ i = 0 Bcnt ( 1 Tlen * Σ j = 0 Tlen ( lev ( i , j ) - avelev ( i ) ) 2 avelev ( i ) ) ) / Bcnt
计算得到。
其中,i为子带序列号;
j为帧序列号;
Tlen为连续帧的个数:实例中的可取Tlen=4个连续帧以提取短时特征,可取Tlen=16个连续帧以提取长时特征;
Bcnt为频域划分出的子带的个数;
lev(i,j)由公式
lev ( i , j ) = Σ k = B i B i + 1 SigFpw ( k , j )
计算得到;
其中,Bi表示第i个子带的频带边界。
4.能量比率ratiol及能量比率的长时平均mov_ratiol和能量比率的方差var_ratiol。
能量比率ratiol为低带能量占全带能量的比率,语音信号的ratiol通常比较大,变化也大;大多数音乐信号的ratiol通常比较小,变化比较大。能量比率ratiol由公式
ratio 1 = Σ k = R 1 _ F 1 R 1 _ F 2 SigF ( k ) 2 ( R 1 _ F 2 - R 1 _ F 1 + 1 ) × Σ k = 1 nFFT SigF ( k ) 2
计算得到;
其中,R1_F1和R1_F2是频带边界并且满足0≤R1_F1,R1_F2≤nFFT。
5.时域过零率zcr。
在非噪声音频信号的语音中由于会间隔出现清音,所以会出现较音乐高的zcr。时域过零率zcr由公式
zcr = 1 T &Sigma; i - 1 T - 1 II { x ( i ) x ( i - 1 ) < 0 }
计算得到;
其中,当A为truth时,II{A}为1;当A为false时,II{A}为0。
6.谐波结构稳定性特征hss。
对于大多数音乐信号,其谐波结构的稳定性显著高于语音。现有技术中在计算该特征参数时,需要估计信号的谐波结构,复杂度很高。本发明实施例的一种获取所述谐波结构稳定性特征hss的方法为:
首先,根据FFT频谱信号的单调递增区间和单调递减区间,获取所述信号的本地峰值。本发明实施例将FFT频谱信号视为离散多峰值函数,搜索该函数的单调递增区间和单调递减区间,从而得到本地峰值和全局峰值,该算法只需对各频率点搜索一遍并且不需要迭代。
然后,根据多个最大的本地峰值,获取所述信号的多个归一化log峰值。本发明实施例以A个最大的本地峰值为例,求最大的A个本地峰值
Figure A200710149984D00121
及各个最大的本地峰值出现的位置,归一化并求log得到所述信号的多个归一化log峰值
Figure A200710149984D00122
归一化log峰值反映的是信号的谐波结构估计,该参数由公式
LP j i = log ( P j i ) - log ( &Sigma; j P j i ) (j=1,2…,A)计算得到。
最后,根据所述信号的多个归一化log峰值,获取所述信号的归一化log峰值的平均方差。本发明实施例中信号的归一化log峰值的平均方差VLP由公式
VLP i = &Sigma; j = 1 A &Sigma; k = i - 19 i ( LP j k - ALP j k ) 2
计算得到;
其中,ALP为A个归一化log峰值在N帧内的均值,该参数由公式
ALP j i = &Sigma; k = i - 19 i LP j k 计算得到;
为简化复杂度,ALP还可用滑动平均代替。
由于在获取非噪声音频信号的特征参数时,不是在进行编码算法过程中获取的,因此特征参数的获取不依赖于任何编码器;而且特征参数的获取也不依赖带宽,从而使得GSAD不依赖于信号采样率,增强了系统的可移植性。
本实施例通过不依赖于编码器算法的非噪声音频信号的特征参数,对所述非噪声音频信号的类别进行判定,增强了算法的独立性和可移植性。
本发明实施例的一种确定非噪声音频信号类别的方法流程如图2所示,包括以下步骤:
步骤s201,获取非噪声音频信号的特征参数。本发明实施例中,非噪声音频信号的特征参数包括如下参数中的至少一个:归一化帧间谱波动flux;归一化帧间谱波动的方差varflux;归一化帧间谱波动的方差滑动平均varmovflux;归一化频带谱波动fflux;归一化频带谱波动的方差varfflux;归一化频带谱波动的方差滑动平均varmovfflux;归一化子带能量标准差stdave;能量比率ratiol;能量比率的长时平均mov_ratiol;能量比率的方差var_ratiol;时域过零率zcr;谐波结构稳定性特征hss。
步骤s202,根据获取的特征参数,利用决策树初步判决非噪声音频信号的类别。
本发明实施例中的决策树可以为多变量决策树,也可以为单变量决策树;当决策树为单变量决策树时,可以使用多棵单变量决策树,该多棵单变量决策树可以包括短时决策树和长时决策树。
步骤s203,根据非噪声音频信号的语境和初步判决的结果,确定非噪声音频信号的类别。
本实施例中确定非噪声音频信号的类别的过程为:设置获取的非噪声音频信号的特征参数的拖尾保护值Ho,Ho为一个固定值(本实施例中Ho为50),该值在对所述非噪声音频信号的类别的判决开始时进行初始化,大于0则减1。如果拖尾保护的任何一个参数的拖尾保护值Ho大于0,则置音乐特征feature_mu或语音特征feature_sp为1。根据拖尾保护值和初步判决的结果,判定所述非噪声音频信号为语音信号、音乐信号或不确定信号。如果步骤s102中判决的结果为音乐信号,而feature_mu为0,feature_sp为1;或步骤s102中判决的结果为语音,而feature_sp为0,feature_mu为1,则置不确定标志uncertainflg为3。
在经过拖尾保护之后,还可以对中间参数进行更新。例如,当更新两个中间参数:音乐计数值music_Cnt和语音计数值speech_Cnt时,如果经过拖尾保护,判定的结果为语音信号或不确定信号,则speech_Cnt加1,music_Cnt置0,并且置speech_music_flg1为1;如果经过拖尾保护,判定的结果为音乐信号,则music_Cnt加1,speech_Cnt置0,并且置speech_music_flg1为0。其中speech_music_flg1是用来对拖尾保护判决的不确定帧(uncertainflg不为0的帧)进行判决,用变量speech_music_flg2保存前一帧的speech_music_flg1,当拖尾保护判决的结果为不确定信号时,如果speech_music_flg2为1,则判决该不确定帧为语音信号,否则判决该不确定帧为音乐信号。
步骤s204,在非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态。本发明实施例的一种非噪声音频信号的状态转移示意图如图3所示,该非噪声音频信号包括四种状态:语音状态、音乐状态、语音到音乐状态和音乐到语音状态,其中语音到音乐状态和音乐到语音状态为过渡状态。
当非噪声音频信号需要由音乐状态转换到语音状态,即当确定所述非噪声音频信号的类别为语音信号,且所述非噪声音频信号之前的类别为音乐信号时,所述非噪声音频信号由音乐状态进入音乐到语音状态;当所述非噪声音频信号的类别持续确定为语音信号的时间到达预先设置的持续时间门限值时,所述非噪声音频信号由音乐到语音状态进入语音信号状态。
当非噪声音频信号需要由语音状态转换到音乐状态,即当确定所述非噪声音频信号的类别为音乐信号,且所述非噪声音频信号之前的类别为语音信号时,所述非噪声音频信号由语音状态进入语音到音乐状态;当所述非噪声音频信号的类别持续确定为音乐信号的时间到达预先设置的持续时间门限值时,所述非噪声音频信号由语音到音乐状态进入音乐信号状态。
当非噪声音频信号需要由音乐状态转换到语音状态,即当确定所述非噪声音频信号的类别为语音信号,且所述非噪声音频信号之前的类别为音乐信号时,所述非噪声音频信号由音乐状态进入音乐到语音状态;当所述非噪声音频信号的类别持续确定为语音信号的时间没有到达预先设置的持续时间门限值时,所述非噪声音频信号由音乐到语音状态进入音乐信号状态。
当非噪声音频信号需要由语音状态转换到音乐状态,即当确定所述非噪声音频信号的类别为音乐信号,且所述非噪声音频信号之前的类别为语音信号时,所述非噪声音频信号由语音状态进入语音到音乐状态;当所述非噪声音频信号的类别持续确定为音乐信号的时间没有到达预先设置的持续时间门限值时,所述非噪声音频信号由语音到音乐状态进入语音信号状态。
在步骤s202中,当利用多变量决策树初步判决非噪声音频信号的类别时,可以利用包括多个特征参数的超平面决策树结点,初步判决所述非噪声音频信号为语音信号或音乐信号。本发明实施例的一种多变量决策树的结构如图4所示,本实施例利用一个超平面决策树结点:
判断-0.1032*varflux+0.4603*varmovflux+0.1662*varfflux+0.0973*varmovfflux+0.9109*stdave+0.2181*stdaveshort+0.2824*mov_ratiol+0.2688*ratiol-0.2851*var_ratiol-0.0053*zcr是否小于或等于1.3641完成初步判决;如果是,则判定非噪声音频信号为音乐信号,置music_flag为1;否则判定非噪声音频信号为语音信号,置speech_flag为1。
在步骤s202中,当利用单变量决策树初步判决非噪声音频信号的类别时,本发明实施例的一种非噪声音频信号的初步判决方法流程如图5所示。参照图5,本实施例包括以下步骤:
步骤s501,利用一个或多个包括一个特征参数及预先设定的与所述特征参数对应的参数门限值的决策树结点,获取当前非噪声音频信号的音乐/语音概率。本实施例中采用两棵决策树,一棵决策树为长时决策树,采用反映长时特征的参数组(如{varmovflux,varmovfflux,stdAve,mov_ratiol}),另一棵决策树为短时决策树,采用反映短时特征的参数组(如{varflux,varfflux,stdAveshort,ratiol,var_ratiol,zcr})。本实施例中短时决策树的结构如图6所示,长时决策树的结构如图7所示。以图6所示的短时决策树为例,首先判断第一层树结点:如果Varflux小于1.02311成立,则进入左边的子结点,反之进入右边的子结点。假设Varflux小于1.02311,则下一步判断Var_ratiol是否小于29.1444,如果是,则进入叶子节点,即输出音乐概率为95.7%,语音概率为4.3%;否则继续判断其右子结点,依次类推,获取在短时决策树中当前非噪声音频信号的音乐/语音概率。在图7所示的长时决策树中获取当前非噪声音频信号的音乐/语音概率的过程与图6所示的短时决策树类似。
步骤s502,选择所述短时决策树和长时决策树获取的音乐/语音概率中最大的音乐/语音概率,为当前非噪声音频信号的音乐/语音概率。
步骤s503,根据所述当前非噪声音频信号的音乐/语音概率和预先设定的概率门限值,判定所述当前非噪声音频信号为语音信号、音乐信号或不确定信号。本实施例中如果决策树输出的音乐概率(或语音概率)大于预先设定的第一概率门限值(本实施例中为0.8),且语音概率(或音乐概率)小于或等于预先设定的第二概率门限值(本实施例中为0.6),则判定所述当前非噪声音频信号为音乐信号(或语音信号),否则判定所述当前非噪声音频信号为不确定信号,置不确定标志uncertain为1。
步骤s504,根据对所述当前非噪声音频信号的判定结果,和相邻连续语音信号帧或相邻连续音乐信号帧的帧数,判定所述当前非噪声音频信号为语音信号或音乐信号。本实施例中,对每次判决,预先设置两个全局的中间参数:music_Cnt和speech_Cnt。music_Cnt为所述非噪声音频信号的当前帧的前几帧中连续判决为音乐信号的帧数;speech_Cnt为所述非噪声音频信号的当前帧的前几帧中连续判决为语音信号的帧数。对于不确定标志uncertain为1的帧,如果speech_Cnt大于1,则将当前帧判决为语音信号的帧,如果music_Cnt大于10,则将当前帧判决为音乐信号的帧。对于在步骤s503中已经确定的判决不进行改变。
本实施例通过不依赖于编码器算法的非噪声音频信号的特征参数,对所述非噪声音频信号的类别进行判定,增强了算法的独立性和可移植性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1、一种确定非噪声音频信号类别的方法,其特征在于,包括以下步骤:
获取非噪声音频信号的特征参数;
根据所述特征参数,利用决策树初步判决所述非噪声音频信号的类别;
根据所述非噪声音频信号的语境和所述初步判决的结果,确定所述非噪声音频信号的类别。
2、如权利要求1所述确定非噪声音频信号类别的方法,其特征在于,所述特征参数包括如下参数中的至少一个:
归一化帧间谱波动flux;归一化帧间谱波动的方差varflux;归一化帧间谱波动的方差滑动平均varmovflux;归一化频带谱波动fflux;归一化频带谱波动的方差varfflux;归一化频带谱波动的方差滑动平均varmovfflux;归一化子带能量标准差stdave;能量比率ratio1;能量比率的长时平均mov_ratio1;能量比率的方差var_ratio1;时域过零率zcr;谐波结构稳定性特征hss。
3、如权利要求1所述确定非噪声音频信号类别的方法,其特征在于,当所述决策树为多变量决策树时,所述利用决策树初步判决非噪声音频信号的类别,具体包括:利用包括多个特征参数的超平面决策树结点,初步判决所述非噪声音频信号为语音信号或音乐信号。
4、如权利要求1所述确定非噪声音频信号类别的方法,其特征在于,当所述决策树为单变量决策树时,所述利用决策树初步判决非噪声音频信号的类别,具体包括:
利用一个或多个包括一个特征参数及预先设定的与所述特征参数对应的参数门限值的决策树结点,获取当前非噪声音频信号的音乐/语音概率;
根据所述当前非噪声音频信号的音乐/语音概率和预先设定的概率门限值,判定所述当前非噪声音频信号为语音信号、音乐信号或不确定信号;
根据对所述当前非噪声音频信号的判定结果,和相邻连续语音信号帧或相邻连续音乐信号帧的帧数,判定所述当前非噪声音频信号为语音信号或音乐信号。
5、如权利要求4所述确定非噪声音频信号类别的方法,其特征在于,当利用多棵单变量决策树获取当前非噪声音频信号的音乐/语音概率时,在每棵单变量决策树获取到音乐/语音概率之后,还包括:选择所述多棵单变量决策树获取的音乐/语音概率中最大的音乐/语音概率为当前非噪声音频信号的音乐/语音概率。
6、如权利要求5所述确定非噪声音频信号类别的方法,其特征在于,所述多棵单变量决策树包括短时决策树和长时决策树。
7、如权利要求1所述确定非噪声音频信号类别的方法,其特征在于,所述根据非噪声音频信号的语境和初步判决的结果,确定非噪声音频信号的类别,具体包括:
根据拖尾保护值和初步判决的结果,判定所述非噪声音频信号为语音信号或音乐信号。
8、如权利要求1所述确定非噪声音频信号类别的方法,其特征在于,在确定非噪声音频信号的类别之后,还包括:在所述非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态。
9、如权利要求8所述确定非噪声音频信号类别的方法,其特征在于,所述在非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态,具体包括:
当确定所述非噪声音频信号的类别为语音信号,且所述非噪声音频信号之前的类别为音乐信号时,所述非噪声音频信号由音乐状态进入过渡状态;
当所述非噪声音频信号的类别持续确定为语音信号的时间到达预先设置的持续时间门限值时,所述非噪声音频信号由过渡状态进入语音信号状态;以及
当确定所述非噪声音频信号的类别为音乐信号,且所述非噪声音频信号之前的类别为语音信号时,所述非噪声音频信号由语音状态进入过渡状态;
当所述非噪声音频信号的类别持续确定为音乐信号的时间到达预先设置的持续时间门限值时,所述非噪声音频信号由过渡状态进入音乐信号状态。
10、如权利要求9所述确定非噪声音频信号类别的方法,其特征在于,所述在非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态,具体包括:
当确定所述非噪声音频信号的类别为语音信号,且所述非噪声音频信号之前的类别为音乐信号时,所述非噪声音频信号由音乐状态进入过渡状态;
当所述非噪声音频信号的类别持续确定为语音信号的时间没有到达预先设置的持续时间门限值时,所述非噪声音频信号由过渡状态进入音乐信号状态;以及
当确定所述非噪声音频信号的类别为音乐信号,且所述非噪声音频信号之前的类别为语音信号时,所述非噪声音频信号由语音状态进入过渡状态;
当所述非噪声音频信号的类别持续确定为音乐信号的时间没有到达预先设置的持续时间门限值时,所述非噪声音频信号由过渡状态进入语音信号状态。
11、如权利要求2所述确定非噪声音频信号类别的方法,其特征在于,获取所述谐波结构稳定性特征hss的方法包括以下步骤:
根据FFT频谱信号的单调递增区间和单调递减区间,获取所述信号的本地峰值;
根据多个最大的本地峰值,获取所述信号的多个归一化log峰值;
根据所述信号的多个归一化log峰值,获取所述信号的归一化log峰值的平均方差。
12、一种确定非噪声音频信号类别的装置,其特征在于,包括
特征参数获取单元,用于获取非噪声音频信号的特征参数;
第一判决单元,用于根据所述特征参数获取单元获取的特征参数,利用决策树初步判决所述非噪声音频信号的类别;
第二判决单元,用于根据所述非噪声音频信号的语境和所述第一判决单元的初步判决的结果,确定所述非噪声音频信号的类别。
13、如权利要求12所述确定非噪声音频信号类别的装置,其特征在于,还包括状态转移单元,用于在所述非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态。
14、如权利要求13所述确定非噪声音频信号类别的装置,其特征在于,所述状态转移单元包括:
状态转移判断子单元,用于根据所述第二判决单元确定的非噪声音频信号的类别,与所述非噪声音频信号之前的类别,判断所述非噪声音频信号的状态是否转移;
持续时间判断子单元,用于判断所述非噪声音频信号的类别持续确定为同一类型的时间是否到达预先设置的持续时间门限值;
转换子单元,用于根据所述状态转移判断子单元的判断结果或持续时间判断子单元的判断结果,在所述非噪声音频信号的状态与过渡状态之间进行转换。
15、如权利要求12至14任一项所述确定非噪声音频信号类别的装置,其特征在于,所述特征参数包括如下参数中的至少一个:
归一化帧间谱波动flux;归一化帧间谱波动的方差varflux;归一化帧间谱波动的方差滑动平均varmovflux;归一化频带谱波动fflux;归一化频带谱波动的方差varfflux;归一化频带谱波动的方差滑动平均varmovfflux;归一化子带能量标准差stdave;能量比率ratio1;能量比率的长时平均mov_ratio1;能量比率的方差var_ratio1;时域过零率zcr;谐波结构稳定性特征hss。
CN 200710149984 2007-09-30 2007-09-30 一种确定非噪声音频信号类别的方法及装置 Active CN101399039B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN 200710149984 CN101399039B (zh) 2007-09-30 2007-09-30 一种确定非噪声音频信号类别的方法及装置
PCT/CN2008/072455 WO2009046658A1 (fr) 2007-09-30 2008-09-23 Procédé et appareil de détermination du type d'un signal audio non-bruit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710149984 CN101399039B (zh) 2007-09-30 2007-09-30 一种确定非噪声音频信号类别的方法及装置

Publications (2)

Publication Number Publication Date
CN101399039A true CN101399039A (zh) 2009-04-01
CN101399039B CN101399039B (zh) 2011-05-11

Family

ID=40517544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710149984 Active CN101399039B (zh) 2007-09-30 2007-09-30 一种确定非噪声音频信号类别的方法及装置

Country Status (2)

Country Link
CN (1) CN101399039B (zh)
WO (1) WO2009046658A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104040626A (zh) * 2012-01-13 2014-09-10 高通股份有限公司 多译码模式信号分类
CN104091599A (zh) * 2013-07-18 2014-10-08 腾讯科技(深圳)有限公司 一种音频文件的处理方法及装置
CN104464722A (zh) * 2014-11-13 2015-03-25 北京云知声信息技术有限公司 基于时域和频域的语音活性检测方法和设备
CN104919524A (zh) * 2012-11-13 2015-09-16 三星电子株式会社 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备
WO2016206273A1 (zh) * 2015-06-26 2016-12-29 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
CN107564512A (zh) * 2016-06-30 2018-01-09 展讯通信(上海)有限公司 语音活动侦测方法及装置
CN110619891A (zh) * 2014-05-08 2019-12-27 瑞典爱立信有限公司 音频信号区分器和编码器
CN110970050A (zh) * 2019-12-20 2020-04-07 北京声智科技有限公司 语音降噪方法、装置、设备及介质
CN113238206A (zh) * 2021-04-21 2021-08-10 中国科学院声学研究所 一种基于判决统计量设计的信号检测方法及系统
WO2022052246A1 (zh) * 2020-09-10 2022-03-17 歌尔股份有限公司 语音信号的检测方法、终端设备及存储介质
CN114503197A (zh) * 2019-08-27 2022-05-13 杜比实验室特许公司 使用自适应平滑的对话增强

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107093991B (zh) 2013-03-26 2020-10-09 杜比实验室特许公司 基于目标响度的响度归一化方法和设备
CN113539262B (zh) * 2021-07-09 2023-08-22 广东金鸿星智能科技有限公司 一种用于电动门语音控制的声音增强及收录方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1175398C (zh) * 2000-11-18 2004-11-10 中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
CN100505040C (zh) * 2005-07-26 2009-06-24 浙江大学 基于决策树和说话人改变检测的音频分割方法
CN1920947B (zh) * 2006-09-15 2011-05-11 清华大学 用于低比特率音频编码的语音/音乐检测器
CN101256772B (zh) * 2007-03-02 2012-02-15 华为技术有限公司 确定非噪声音频信号归属类别的方法和装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104040626A (zh) * 2012-01-13 2014-09-10 高通股份有限公司 多译码模式信号分类
CN104919524B (zh) * 2012-11-13 2018-01-23 三星电子株式会社 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备
US11004458B2 (en) 2012-11-13 2021-05-11 Samsung Electronics Co., Ltd. Coding mode determination method and apparatus, audio encoding method and apparatus, and audio decoding method and apparatus
CN104919524A (zh) * 2012-11-13 2015-09-16 三星电子株式会社 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备
US10468046B2 (en) 2012-11-13 2019-11-05 Samsung Electronics Co., Ltd. Coding mode determination method and apparatus, audio encoding method and apparatus, and audio decoding method and apparatus
CN104091599A (zh) * 2013-07-18 2014-10-08 腾讯科技(深圳)有限公司 一种音频文件的处理方法及装置
CN110619891A (zh) * 2014-05-08 2019-12-27 瑞典爱立信有限公司 音频信号区分器和编码器
CN110619891B (zh) * 2014-05-08 2023-01-17 瑞典爱立信有限公司 音频信号区分器和编码器
CN104464722A (zh) * 2014-11-13 2015-03-25 北京云知声信息技术有限公司 基于时域和频域的语音活性检测方法和设备
WO2016206273A1 (zh) * 2015-06-26 2016-12-29 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
US10522170B2 (en) 2015-06-26 2019-12-31 Zte Corporation Voice activity modification frame acquiring method, and voice activity detection method and apparatus
CN107564512A (zh) * 2016-06-30 2018-01-09 展讯通信(上海)有限公司 语音活动侦测方法及装置
CN107564512B (zh) * 2016-06-30 2020-12-25 展讯通信(上海)有限公司 语音活动侦测方法及装置
CN114503197A (zh) * 2019-08-27 2022-05-13 杜比实验室特许公司 使用自适应平滑的对话增强
CN114503197B (zh) * 2019-08-27 2023-06-13 杜比实验室特许公司 使用自适应平滑的对话增强
CN110970050A (zh) * 2019-12-20 2020-04-07 北京声智科技有限公司 语音降噪方法、装置、设备及介质
WO2022052246A1 (zh) * 2020-09-10 2022-03-17 歌尔股份有限公司 语音信号的检测方法、终端设备及存储介质
CN113238206A (zh) * 2021-04-21 2021-08-10 中国科学院声学研究所 一种基于判决统计量设计的信号检测方法及系统

Also Published As

Publication number Publication date
CN101399039B (zh) 2011-05-11
WO2009046658A1 (fr) 2009-04-16

Similar Documents

Publication Publication Date Title
CN101399039B (zh) 一种确定非噪声音频信号类别的方法及装置
EP2089877B1 (en) Voice activity detection system and method
CN105529028B (zh) 语音解析方法和装置
CN106409310B (zh) 一种音频信号分类方法和装置
EP2159788B1 (en) A voice activity detecting device and method
CN1828722B (zh) 用于音频信号的改进的语音/噪音分类的复合信号激活探测
Evangelopoulos et al. Multiband modulation energy tracking for noisy speech detection
JP2005043666A (ja) 音声認識装置
CN102496363A (zh) 一种用于汉语语音合成的音调修正方法
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN100541609C (zh) 一种实现开环基音搜索的方法和装置
Górriz et al. An effective cluster-based model for robust speech detection and speech recognition in noisy environments
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
Beritelli et al. A pattern recognition approach to robust voiced/unvoiced speech classification using fuzzy logic
Orphanidou et al. Voice morphing using the generative topographic mapping
Yan et al. Full Attention Bidirectional Deep Learning Structure for Single Channel Speech Enhancement
Ting et al. An improved voice activity detection method based on spectral features and neural network
Sunnydayal et al. Speech enhancement using β-divergence based NMF with update bases
Lathia et al. Using learning vector quantizers for network bandwidth optimization in the QCELP speech coder
Sharma Non Stationary Noise Removal in Robust Speech Recognition.
CN117831540A (zh) 一种基于课程学习的说话人识别方法、装置及存储介质
Stadermann et al. Distributed speech recognition using traditional and hybrid modeling techniques.
Mahlanyane Using a low-bit rate speech enhancement variable post-filter as a speech recognition system pre-filter to improve robustness to GSM speech
Sasou et al. A waveform generation model-based approach for segregation of monaural mixed sound

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201120

Address after: No.1 Yingpan Road, Zhaiji village, Wangting Town, Xiangcheng District, Suzhou City, Jiangsu Province

Patentee after: Suzhou Gonghu precision manufacturing industry development Co.,Ltd.

Address before: Unit 2414-2416, main building, no.371, Wushan Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Effective date of registration: 20201120

Address after: Unit 2414-2416, main building, no.371, Wushan Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee after: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.