具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述:
本发明实施例的一种确定非噪声音频信号类别的装置如图1所示,包括特征参数获取单元11、第一判决单元12、第二判决单元13和状态转移单元14。其中第一判决单元12分别与特征参数获取单元11和第二判决单元13连接,第二判决单元13和状态转移单元14连接。
特征参数获取单元11用于获取非噪声音频信号的特征参数;第一判决单元12用于根据特征参数获取单元11获取的特征参数,利用决策树初步判决所述非噪声音频信号的类别;第二判决单元13用于根据非噪声音频信号的语境和第一判决单元12的初步判决的结果,确定所述非噪声音频信号的类别;状态转移单元14用于在所述非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态。
状态转移单元14包括状态转移判断子单元141、持续时间判断子单元142和转换子单元143,其中转换子单元143分别与状态转移判断子单元141和持续时间判断子单元142连接。
状态转移判断子单元141用于根据第二判决单元13确定的非噪声音频信号的类别,与所述非噪声音频信号之前的类别,判断所述非噪声音频信号的状态是否转移;持续时间判断子单元142用于判断所述非噪声音频信号的类别持续确定为同一类型的时间是否到达预先设置的持续时间门限值;转换子单元143用于根据状态转移判断子单元141的判断结果或持续时间判断子单元142的判断结果,在所述非噪声音频信号的状态与过渡状态之间进行转换。
特征参数获取单元11获取的非噪声音频信号的特征参数包括如下参数中的至少一个:归一化帧间谱波动flux;归一化帧间谱波动的方差varflux;归一化帧间谱波动的方差滑动平均varmovflux;归一化频带谱波动fflux;归一化频带谱波动的方差varfflux;归一化频带谱波动的方差滑动平均varmovfflux;归一化子带能量标准差stdave;能量比率ratiol;能量比率的长时平均mov_ratiol;能量比率的方差var_ratiol;时域过零率zcr;谐波结构稳定性特征hss。
下面对所述非噪声音频信号的特征参数进行说明:
1.归一化帧间谱波动flux及其衍生的归一化帧间谱波动的方差varflux和归一化帧间谱波动的方差滑动平均varmovflux。
归一化帧间谱波动flux描述了非噪声音频信号的帧和帧之间频谱的变化。其中,音乐信号的flux比较低,平稳;语音信号的flux通常比较高,变化大。归一化帧间谱波动flux由公式
计算得到。
其中,SigFpw为在时域范围内所述非噪声音频信号经FFT变换后得到的频谱幅度信号。
FLUX_F1和FLUX_F2为频带的边界,在16KHz采样模式下的一个实例是FLUX_F1=3,FLUX_F2=95;在8KHz采样模式下的一个实例是FLUX_F1=1,FLUX_F2=47。
norm为归一化函数,norm的一个特例是:
norm=max(ave_amp,AVE_E_FLUX)
其中,ave_amp为当前帧与前面连续多帧的平均频谱幅度。
AVE_E_FLUX用来避免出现极小分母的情况,其一个实例是AVE_E_FLUX=1000。
2.归一化频带谱波动fflux及其衍生的归一化频带谱波动的方差varfflux和归一化频带谱波动的方差滑动平均varmovfflux。
归一化频带谱波动fflux描述了非噪声音频信号的同一帧中各子带间频谱的变化。其中,音乐信号的fflux比较低,平稳;语音信号的fflux通常比较高,变化大。归一化频带谱波动fflux由公式
计算得到。
其中,SigFpw为在时域范围内所述非噪声音频信号经FFT变换后得到的频谱幅度信号。
FFLUX_F1为频带的边界,在16KHz采样模式下的一个实例是FFLUX_F1=63;在8KHz采样模式下的一个实例是FFLUX_F1=32。
norm为归一化函数,norm的一个特例是:
norm=max(ave_amp,AVE_E_FLUX)
其中,ave_amp为当前帧与前面连续多帧的平均频谱幅度。
AVE_E_FLUX用来避免出现极小分母的情况,其一个实例是AVE_E_FLUX=1000。
3.归一化子带能量标准差stdave。
归一化子带能量标准差stdave为归一化的几个连续帧间的子带能量的标准差的结果求平均。归一化子带能量标准差stdave由公式
计算得到。
其中,i为子带序列号;
j为帧序列号;
Tlen为连续帧的个数:实例中的可取Tlen=4个连续帧以提取短时特征,可取Tlen=16个连续帧以提取长时特征;
Bcnt为频域划分出的子带的个数;
lev(i,j)由公式
计算得到;
其中,Bi表示第i个子带的频带边界。
4.能量比率ratiol及能量比率的长时平均mov_ratiol和能量比率的方差var_ratiol。
能量比率ratiol为低带能量占全带能量的比率,语音信号的ratiol通常比较大,变化也大;大多数音乐信号的ratiol通常比较小,变化比较大。能量比率ratiol由公式
计算得到;
其中,R1_F1和R1_F2是频带边界并且满足0≤R1_F1,R1_F2≤nFFT。
5.时域过零率zcr。
在非噪声音频信号的语音中由于会间隔出现清音,所以会出现较音乐高的zcr。时域过零率zcr由公式
计算得到;
其中,当A为truth时,II{A}为1;当A为false时,II{A}为0。
6.谐波结构稳定性特征hss。
对于大多数音乐信号,其谐波结构的稳定性显著高于语音。现有技术中在计算该特征参数时,需要估计信号的谐波结构,复杂度很高。本发明实施例的一种获取所述谐波结构稳定性特征hss的方法为:
首先,根据FFT频谱信号的单调递增区间和单调递减区间,获取所述信号的本地峰值。本发明实施例将FFT频谱信号视为离散多峰值函数,搜索该函数的单调递增区间和单调递减区间,从而得到本地峰值和全局峰值,该算法只需对各频率点搜索一遍并且不需要迭代。
然后,根据多个最大的本地峰值,获取所述信号的多个归一化log峰值。本发明实施例以A个最大的本地峰值为例,求最大的A个本地峰值
及各个最大的本地峰值出现的位置,归一化并求log得到所述信号的多个归一化log峰值
归一化log峰值反映的是信号的谐波结构估计,该参数由公式
(j=1,2…,A)计算得到。
最后,根据所述信号的多个归一化log峰值,获取所述信号的归一化log峰值的平均方差。本发明实施例中信号的归一化log峰值的平均方差VLP由公式
计算得到;
其中,ALP为A个归一化log峰值在N帧内的均值,该参数由公式
计算得到;
为简化复杂度,ALP还可用滑动平均代替。
由于在获取非噪声音频信号的特征参数时,不是在进行编码算法过程中获取的,因此特征参数的获取不依赖于任何编码器;而且特征参数的获取也不依赖带宽,从而使得GSAD不依赖于信号采样率,增强了系统的可移植性。
本实施例通过不依赖于编码器算法的非噪声音频信号的特征参数,对所述非噪声音频信号的类别进行判定,增强了算法的独立性和可移植性。
本发明实施例的一种确定非噪声音频信号类别的方法流程如图2所示,包括以下步骤:
步骤s201,获取非噪声音频信号的特征参数。本发明实施例中,非噪声音频信号的特征参数包括如下参数中的至少一个:归一化帧间谱波动flux;归一化帧间谱波动的方差varflux;归一化帧间谱波动的方差滑动平均varmovflux;归一化频带谱波动fflux;归一化频带谱波动的方差varfflux;归一化频带谱波动的方差滑动平均varmovfflux;归一化子带能量标准差stdave;能量比率ratiol;能量比率的长时平均mov_ratiol;能量比率的方差var_ratiol;时域过零率zcr;谐波结构稳定性特征hss。
步骤s202,根据获取的特征参数,利用决策树初步判决非噪声音频信号的类别。
本发明实施例中的决策树可以为多变量决策树,也可以为单变量决策树;当决策树为单变量决策树时,可以使用多棵单变量决策树,该多棵单变量决策树可以包括短时决策树和长时决策树。
步骤s203,根据非噪声音频信号的语境和初步判决的结果,确定非噪声音频信号的类别。
本实施例中确定非噪声音频信号的类别的过程为:设置获取的非噪声音频信号的特征参数的拖尾保护值Ho,Ho为一个固定值(本实施例中Ho为50),该值在对所述非噪声音频信号的类别的判决开始时进行初始化,大于0则减1。如果拖尾保护的任何一个参数的拖尾保护值Ho大于0,则置音乐特征feature_mu或语音特征feature_sp为1。根据拖尾保护值和初步判决的结果,判定所述非噪声音频信号为语音信号、音乐信号或不确定信号。如果步骤s102中判决的结果为音乐信号,而feature_mu为0,feature_sp为1;或步骤s102中判决的结果为语音,而feature_sp为0,feature_mu为1,则置不确定标志uncertainflg为3。
在经过拖尾保护之后,还可以对中间参数进行更新。例如,当更新两个中间参数:音乐计数值music_Cnt和语音计数值speech_Cnt时,如果经过拖尾保护,判定的结果为语音信号或不确定信号,则speech_Cnt加1,music_Cnt置0,并且置speech_music_flg1为1;如果经过拖尾保护,判定的结果为音乐信号,则music_Cnt加1,speech_Cnt置0,并且置speech_music_flg1为0。其中speech_music_flg1是用来对拖尾保护判决的不确定帧(uncertainflg不为0的帧)进行判决,用变量speech_music_flg2保存前一帧的speech_music_flg1,当拖尾保护判决的结果为不确定信号时,如果speech_music_flg2为1,则判决该不确定帧为语音信号,否则判决该不确定帧为音乐信号。
步骤s204,在非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态。本发明实施例的一种非噪声音频信号的状态转移示意图如图3所示,该非噪声音频信号包括四种状态:语音状态、音乐状态、语音到音乐状态和音乐到语音状态,其中语音到音乐状态和音乐到语音状态为过渡状态。
当非噪声音频信号需要由音乐状态转换到语音状态,即当确定所述非噪声音频信号的类别为语音信号,且所述非噪声音频信号之前的类别为音乐信号时,所述非噪声音频信号由音乐状态进入音乐到语音状态;当所述非噪声音频信号的类别持续确定为语音信号的时间到达预先设置的持续时间门限值时,所述非噪声音频信号由音乐到语音状态进入语音信号状态。
当非噪声音频信号需要由语音状态转换到音乐状态,即当确定所述非噪声音频信号的类别为音乐信号,且所述非噪声音频信号之前的类别为语音信号时,所述非噪声音频信号由语音状态进入语音到音乐状态;当所述非噪声音频信号的类别持续确定为音乐信号的时间到达预先设置的持续时间门限值时,所述非噪声音频信号由语音到音乐状态进入音乐信号状态。
当非噪声音频信号需要由音乐状态转换到语音状态,即当确定所述非噪声音频信号的类别为语音信号,且所述非噪声音频信号之前的类别为音乐信号时,所述非噪声音频信号由音乐状态进入音乐到语音状态;当所述非噪声音频信号的类别持续确定为语音信号的时间没有到达预先设置的持续时间门限值时,所述非噪声音频信号由音乐到语音状态进入音乐信号状态。
当非噪声音频信号需要由语音状态转换到音乐状态,即当确定所述非噪声音频信号的类别为音乐信号,且所述非噪声音频信号之前的类别为语音信号时,所述非噪声音频信号由语音状态进入语音到音乐状态;当所述非噪声音频信号的类别持续确定为音乐信号的时间没有到达预先设置的持续时间门限值时,所述非噪声音频信号由语音到音乐状态进入语音信号状态。
在步骤s202中,当利用多变量决策树初步判决非噪声音频信号的类别时,可以利用包括多个特征参数的超平面决策树结点,初步判决所述非噪声音频信号为语音信号或音乐信号。本发明实施例的一种多变量决策树的结构如图4所示,本实施例利用一个超平面决策树结点:
判断-0.1032*varflux+0.4603*varmovflux+0.1662*varfflux+0.0973*varmovfflux+0.9109*stdave+0.2181*stdaveshort+0.2824*mov_ratiol+0.2688*ratiol-0.2851*var_ratiol-0.0053*zcr是否小于或等于1.3641完成初步判决;如果是,则判定非噪声音频信号为音乐信号,置music_flag为1;否则判定非噪声音频信号为语音信号,置speech_flag为1。
在步骤s202中,当利用单变量决策树初步判决非噪声音频信号的类别时,本发明实施例的一种非噪声音频信号的初步判决方法流程如图5所示。参照图5,本实施例包括以下步骤:
步骤s501,利用一个或多个包括一个特征参数及预先设定的与所述特征参数对应的参数门限值的决策树结点,获取当前非噪声音频信号的音乐/语音概率。本实施例中采用两棵决策树,一棵决策树为长时决策树,采用反映长时特征的参数组(如{varmovflux,varmovfflux,stdAve,mov_ratiol}),另一棵决策树为短时决策树,采用反映短时特征的参数组(如{varflux,varfflux,stdAveshort,ratiol,var_ratiol,zcr})。本实施例中短时决策树的结构如图6所示,长时决策树的结构如图7所示。以图6所示的短时决策树为例,首先判断第一层树结点:如果Varflux小于1.02311成立,则进入左边的子结点,反之进入右边的子结点。假设Varflux小于1.02311,则下一步判断Var_ratiol是否小于29.1444,如果是,则进入叶子节点,即输出音乐概率为95.7%,语音概率为4.3%;否则继续判断其右子结点,依次类推,获取在短时决策树中当前非噪声音频信号的音乐/语音概率。在图7所示的长时决策树中获取当前非噪声音频信号的音乐/语音概率的过程与图6所示的短时决策树类似。
步骤s502,选择所述短时决策树和长时决策树获取的音乐/语音概率中最大的音乐/语音概率,为当前非噪声音频信号的音乐/语音概率。
步骤s503,根据所述当前非噪声音频信号的音乐/语音概率和预先设定的概率门限值,判定所述当前非噪声音频信号为语音信号、音乐信号或不确定信号。本实施例中如果决策树输出的音乐概率(或语音概率)大于预先设定的第一概率门限值(本实施例中为0.8),且语音概率(或音乐概率)小于或等于预先设定的第二概率门限值(本实施例中为0.6),则判定所述当前非噪声音频信号为音乐信号(或语音信号),否则判定所述当前非噪声音频信号为不确定信号,置不确定标志uncertain为1。
步骤s504,根据对所述当前非噪声音频信号的判定结果,和相邻连续语音信号帧或相邻连续音乐信号帧的帧数,判定所述当前非噪声音频信号为语音信号或音乐信号。本实施例中,对每次判决,预先设置两个全局的中间参数:music_Cnt和speech_Cnt。music_Cnt为所述非噪声音频信号的当前帧的前几帧中连续判决为音乐信号的帧数;speech_Cnt为所述非噪声音频信号的当前帧的前几帧中连续判决为语音信号的帧数。对于不确定标志uncertain为1的帧,如果speech_Cnt大于1,则将当前帧判决为语音信号的帧,如果music_Cnt大于10,则将当前帧判决为音乐信号的帧。对于在步骤s503中已经确定的判决不进行改变。
本实施例通过不依赖于编码器算法的非噪声音频信号的特征参数,对所述非噪声音频信号的类别进行判定,增强了算法的独立性和可移植性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。