CN102044244B - 信号分类方法和装置 - Google Patents

信号分类方法和装置 Download PDF

Info

Publication number
CN102044244B
CN102044244B CN2009101107984A CN200910110798A CN102044244B CN 102044244 B CN102044244 B CN 102044244B CN 2009101107984 A CN2009101107984 A CN 2009101107984A CN 200910110798 A CN200910110798 A CN 200910110798A CN 102044244 B CN102044244 B CN 102044244B
Authority
CN
China
Prior art keywords
frame
signal
current demand
ratio
demand signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101107984A
Other languages
English (en)
Other versions
CN102044244A (zh
Inventor
刘媛媛
王喆
艾雅·苏谟特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN2009101107984A priority Critical patent/CN102044244B/zh
Priority to PCT/CN2010/076499 priority patent/WO2011044798A1/zh
Priority to EP10790605.9A priority patent/EP2339575B1/en
Priority to US12/979,994 priority patent/US8438021B2/en
Priority to US13/085,149 priority patent/US8050916B2/en
Publication of CN102044244A publication Critical patent/CN102044244A/zh
Application granted granted Critical
Publication of CN102044244B publication Critical patent/CN102044244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

本发明实施例公开了一种信号分类方法和装置,其中,信号分类方法包括:获得确定为前景帧的当前信号帧的频谱波动参数并缓存;根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存;获得缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。本发明实施例采用信号谱波动方差作为信号分类的参数,使用局部统计量的方法进行信号分类判决,从而以较少的参数,较简单的逻辑关系,以较低的复杂度实现了信号的分类。

Description

信号分类方法和装置
技术领域
本发明涉及通信技术领域,尤其涉及一种信号分类方法和装置。
背景技术
语音编码技术可以压缩语音信号的传输带宽,增加通信系统的容量,随着Internet的日益普及和通信领域的进一步扩展,语音编码技术成为国内和国际标准化工作中最活跃的领域之一。随着时间的推移,语音编码器正朝着多码率,宽带的方向发展,其输入信号也呈多元化趋势,不仅限于语音,还包含音乐等其它信号,而且人们对于通话质量,尤其是音乐信号的质量要求也在不断的提高。对于不同的输入信号,能够采用不同的码率,甚至不同的核心编码算法的编码器,既可以保证不同类别信号的编码质量,又可以最大限度的节省带宽,已成为语音编码器的发展趋势。因此准确的识别输入信号的类别也随之成为了业界研究的热点。
判决树是应用较为广泛的一种信号分类方法,判决树的信号分类采用长时判决树和短时判决树相结合进行信号分类判决。首先设置一个时间长度的FIFO(First-In First-Out先入先出)存储器进行短时信号特征变量缓冲,通过包括当前帧在内的前同一时间长度的短时信号特征变量来计算长时信号特征,并依据计算得出的长时信号特征进行语音音乐分类。在信号开始前同一时间安长度即FIFO存储器未存满时,先用短时信号特征进行判决。短时和长时判决采用如图1和图2所示判决树进行分类判决。
在实现本发明创造的过程中,发明人发现:采用判决树进行信号分类的方法需计算的参数和逻辑分支都比较多,复杂度较高。
发明内容
本发明实施例提供一种信号分类方法和装置,使用较少的参数、较简单的逻辑关系,以较低的复杂度实现信号的分类。
本发明实施例提供一种信号分类方法,包括:
获得当前信号帧的频谱波动参数;
若所述当前信号帧为前景帧,则将所述当前信号帧的频谱波动参数缓存在第一缓存数组;
若所述当前信号帧属于最初第一数目帧信号帧,则将所述当前信号帧的谱波动方差设置为一特定值,并将所述当前信号帧的谱波动方差缓存在第二缓存数组;否则,根据缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差,并将所述当前信号帧的谱波动方差缓存在第二缓存数组;
获得所述第二缓存数组中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
本发明实施例还提供一种信号分类方法,包括:
获得确定为前景帧的当前信号帧的频谱波动参数并缓存;
根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存;
获得缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
本发明实施例提供一种信号分类装置,包括:
第一获取模块,用于获得当前信号帧的频谱波动参数;
前景帧确定模块,用于确定所述当前信号帧为前景帧,并将确定为前景帧的所述当前信号帧的频谱波动参数缓存在第一缓存模块;
第一缓存模块,用于缓存所述前景帧确定模块缓存的所述当前信号帧的频谱波动参数;
设置模块,用于若所述当前信号帧属于最初第一数目帧信号帧,则将所述当前信号帧的谱波动方差设置为一特定值,并将所述当前信号帧的谱波动方差缓存在第二缓存模块;
第二获取模块,用于若所述当前信号帧不属于最初第一数目帧信号帧,根据所述第一缓存模块缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差,并将所述当前信号帧的谱波动方差缓存在第二缓存模块;
第二缓存模块,用于缓存所述设置模块或所述第二获取模块缓存的所述当前信号帧的谱波动方差。
第一判决模块,用于获得所述第二缓存模块中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
本发明实施例还提供一种信号分类装置,包括:
第三获取模块,用于获得确定为前景帧的当前信号帧的频谱波动参数并缓存;
第四获取模块,用于根据所述第三获取模块缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存;
第三判决模块,用于获得所述第四获取模块缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
由上述本发明实施例提供的技术方案可以看出,本发明实施例采用获得当前信号帧的频谱波动参数;若所述当前信号帧为前景帧,则将所述当前信号帧的频谱波动参数缓存在第一缓存数组;若所述当前信号帧属于最初第一数目帧信号帧,则将所述当前信号帧的谱波动方差设置为一特定值,并将所述当前信号帧的谱波动方差缓存在第二缓存数组;否则,根据缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差,并将所述当前信号帧的谱波动方差缓存在第二缓存数组,以信号谱波动方差作为信号分类的参数,使用局部统计量的方法进行信号分类判决,从而以较少的参数,较简单的逻辑关系,以较低的复杂度实现了信号的分类。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中采用短时判决树进行信号分类的示意图;
图2为现有技术中采用长时判决树进行信号分类的示意图;
图3为本发明信号分类方法一个实施例的流程图;
图4为本发明信号分类方法另一个实施例的流程图;
图5为本发明信号分类方法又一个实施例的流程图;
图6为本发明实施例中根据修正的子带信噪比和获得自适应第一阈值的流程图;
图7为本发明实施例中根据信噪比获得自适应第一阈值的流程图;
图8为本发明信号分类装置一个实施例的结构示意图;
图9为本发明信号分类装置另一个实施例的结构示意图;
图10为本发明信号分类装置又一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图3为本发明信号分类方法一个实施例的流程图,如图3所示,本发明实施例包括:
S101、获得当前信号帧的频谱波动参数。
本发明实施例中,将输入信号进行分帧处理,得到若干信号帧。当前正在处理的,需要判别信号类别的信号帧称为当前信号帧。分帧是数字信号处理中的通用概念,即将一段长信号划分为若干段短的信号。
对当前信号帧进行时频变换,得到信号频谱,根据当前信号帧与之前的若干信号帧的频谱计算当前信号帧的频谱波动参数flux。
S102、若所述当前信号帧为前景帧,则将所述当前信号帧的频谱波动参数缓存在第一缓存数组。
本发明实施例中,信号帧的类型包括前景帧和背景帧,前景帧一般指通信过程中能量较高的信号帧,如通信过程中双方或多方的语音会话或播放的音乐如彩铃等,背景帧一般是指通信过程中语音会话或者播放的音乐的噪声背景等。本发明实施例中所进行的信号分类即是区分前景帧中不同类别的信号,因此需要首先确定当前信号帧是否为前景帧。
若确定所述当前信号帧为前景帧,则缓存所述当前信号帧的频谱波动参数flux。本发明实施例中,可以设置一个频谱波动参数缓存数组flux_buf,为叙述清楚可以称为第一缓存数组。flux_buf数组在信号帧为前景帧时进行更新,第一缓存数组可以缓存第一数目帧信号帧。
需要说明的是,本发明实施例中,获得当前信号帧的频谱波动参数和确定当前信号帧为前景帧在技术实现上并不做顺序上的限定,任何对本发明实施例的简单变换均在本发明实施例的保护范围之内。
S103、若所述当前信号帧属于最初第一数目帧信号帧,则将所述当前信号帧的谱波动方差设置为一特定值,并将所述当前信号帧的谱波动方差缓存在第二缓存数组;否则,根据缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差,并将所述当前信号帧的谱波动方差缓存在第二缓存数组。
本发明实施例中,可以根据第一缓存数组是否存满,区分情况获得谱波动方差var_fluxn,其中var_fluxn表示第n帧的谱波动方差。
如设第一数目为m1,若所述当前信号帧属第1到第m1帧信号帧,则将所述当前信号帧的谱波动方差设置为一特定值;若所述当前信号帧不属于第1到第m1帧信号帧,也属于从第m1+1帧开始的信号帧,则可以根据缓存的m1个信号帧的flux获得所述当前信号帧的谱波动方差。
获得当前信号帧的谱波动方差后,需要缓存所述谱波动方差。本发明实施例中,可以设置一个谱波动方差缓存数组var_flux_buf,为叙述清楚,可以称为第二缓存数组。var_flux_buf数组在信号帧为前景帧时进行更新。
S104、获得所述第二缓存数组中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
本发明实施例中,可以将var_flux作为语音音乐分类的判决参数,当要确定某一确定为前景帧的当前信号帧是语音帧还是音乐帧时,可以通过var_flux_buf数组中缓存的包括当前信号帧在内的信号帧中var_flux大于等于某一阈值的比例进行确定,即采用局部统计量法。为叙述清楚,可以将上文提到的阈值称为第一阈值。
当第二缓存数组中缓存的包括当前信号帧在内的信号帧中var_flux大于等于第一阈值的比例大于某一阈值,则表示当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。为叙述清楚可以将前述提到的阈值称为第二阈值。
本发明实施例采用获得当前信号帧的频谱波动参数;若所述当前信号帧为前景帧,则将所述当前信号帧的频谱波动参数缓存在第一缓存数组;若所述当前信号帧属于最初第一数目帧信号帧,则将所述当前信号帧的谱波动方差设置为一特定值,并将所述当前信号帧的谱波动方差缓存在第二缓存数组;否则,根据缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差,并将所述当前信号帧的谱波动方差缓存在第二缓存数组,以信号谱波动方差作为信号分类的参数,使用局部统计量的方法进行信号分类判决,从而以较少的参数,较简单的逻辑关系,以较低的复杂度实现了信号的分类。
图4为本发明信号分类方法另一个实施例的流程图,如图4所示,本发明实施例包括:
S201、获得确定为前景帧的当前信号帧的频谱波动参数并缓存。
本发明实施例中,将输入信号进行分帧处理,得到若干信号帧。当前正在处理的,需要判别信号类别的信号帧称为当前信号帧。分帧是数字信号处理中的通用概念,即将一段长信号划分为若干段短的信号。
信号帧的类型包括前景帧和背景帧,前景帧一般指通信过程中能量较高的信号帧,如通信过程中双方或多方的语音会话或播放的音乐如彩铃等,背景帧一般是指通信过程中语音会话或者播放的音乐的噪声背景等。
本发明实施例中所进行的信号分类即是区分前景帧中不同类别的信号,因此需要确定当前信号帧是否为前景帧。另一方面本发明实施例中需要得到确定为前景帧的当前信号帧的频谱波动参数。上述二者的执行顺序在本实施例中不做限定,任何对本发明实施例的简单变换均在本发明实施例的保护范围之内。
获得当前信号帧频谱波动参数的方法包括对当前信号帧进行时频变换,得到信号频谱,根据当前信号帧与之前的若干信号帧的频谱计算当前信号帧的频谱波动参数flux。
若获得确定为前景帧的当前信号帧的频谱波动参数,则缓存。本发明实施例中,可以设置一个频谱波动参数缓存数组flux_buf,flux_buf数组在信号帧为前景帧时进行更新。
S202、根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存。
本发明实施例中,无论第一数组是否存满,都可以根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差。
获得当前信号帧的谱波动方差后,需要缓存所述谱波动方差。本发明实施例中,可以设置一个谱波动方差缓存数组var_flux_buf,var_flux_buf数组在信号帧为前景帧时进行更新。
S203、获得缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
本发明实施例中,可以将var_flux作为语音音乐分类的判决参数,当要确定某一确定为前景帧的当前信号帧是语音帧还是音乐帧时,可以通过var_flux_buf数组中缓存的包括当前信号帧在内的信号帧中var_flux大于等于某一阈值的比例进行确定,即采用局部统计量法。为叙述清楚,可以将上文提到的阈值称为第一阈值。
当包括当前信号帧在内的缓存的信号帧中var_flux大于等于第一阈值的比例大于某一阈值,则表示当前信号帧为语音帧,否则为音乐帧。为叙述清楚可以将前述提到的阈值称为第二阈值。
由上述本发明实施例提供的技术方案可以看出,本发明实施例采用获得确定为前景帧的当前信号帧的频谱波动参数并缓存,根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存,获得缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧的技术手段,以信号谱波动方差作为信号分类的参数,使用局部统计量的方法进行信号分类判决,从而以较少的参数,较简单的逻辑关系,以较低的复杂度实现了信号的分类。
图5为本发明信号分类方法又一个实施例的流程图,如图5所示,本发明实施例包括:
S301、获得当前信号帧的频谱波动参数。
本发明实施例中,将输入信号进行分帧处理,得到若干信号帧。当前正在处理的,需要判别信号类别的信号帧称为当前信号帧。分帧是数字信号处理中的通用概念,即将一段长信号划分为若干段短的信号。分帧处理可以通过多种方式进行,得到的信号帧的帧长也可以有多种选择,如5~50ms,某些实施方式中,可以取10ms的帧长。
在设定的采样率下,将每一帧信号帧进行时频变换,得到信号频谱,即N1个时频变换系数Sp n(i),其中,Sp n(i)表示第n帧的第i个时频变换系数。本发明实施例中,采样率、时频变换的方法可以有多种选择,某些实施方式中,可以为8000Hz采样,做128点FFT(Fast Fourier Transform,快速傅立叶变换)变换。
对当前信号帧进行时频变换,得到信号频谱后,根据当前信号帧与之前的若干信号帧的频谱计算当前信号帧的频谱波动参数flux。计算方式可以为多种,如某些实施方式中可以取一个频率范围,分析该段频谱的特性。之前若干帧的数目可以任意选取,如某些实施方式中可以选取之前的3帧,采用如下计算方法:
flux n = Σ m = 1 3 Σ i = k 1 k 2 ( S p n ( i ) - S p n - m ( i ) ) Σ m = 1 3 Σ i = k 1 k 2 ( S p n ( i ) + S p n - m ( i ) )
其中,fluxn表示第n帧的频谱波动参数;k1,k2表示在信号频谱中确定一段频率范围,其中1≤k1<k2≤N1,如某些实施方式中可以取k1=2,k2=48;m表示当前信号帧之前的选取帧数,如上述公式中可以取m为3。
S302、若所述当前信号帧为前景帧,则将所述当前信号帧的频谱波动参数缓存在第一缓存数组。
本发明实施例中,信号帧的类型包括前景帧和背景帧,前景帧一般指通信过程中能量较高的信号帧,如通信过程中双方或多方的语音会话或播放的音乐如彩铃等,背景帧一般是指通信过程中语音会话或者播放的音乐的噪声背景等。本发明实施例中所进行的信号分类即是区分前景帧中不同类别的信号,因此需要首先确定当前信号帧是否为前景帧。
若确定所述当前信号帧为前景帧,则缓存所述当前信号帧的频谱波动参数flux。本发明实施例中,可以设置一个频谱波动参数缓存数组flux_buf,为叙述清楚可以称为第一缓存数组。缓存数组的类型可以为多种,如某些实施方式中可以为FIFO(First-In First-Out,先入先出)数组。flux_buf数组在信号帧为前景帧时进行更新,可以用来缓存m1个信号帧的flux,其中m1可以为大于0的任意整数,如某些实施方式中可以取m1=20,为叙述清楚可以将m1称为第一数目,即第一缓存数组可以缓存第一数目帧信号帧。
本发明实施例中可以通过多种实施方式确定前景帧,包括使用MSSNR(Modified Segmental Signal Noise Ratio,修正的子带信噪比和)或snr(SignalNoise Ratio,信噪比),下面举例进行说明:
实施方式一、使用MSSNR确定前景帧的方法:
获得当前信号帧的MSSNRn,当MSSNRn≥alpha1时,确定当前信号帧为前景帧,否则为背景帧。其中,MSSNRn表示第n帧的修正的子带信噪比和,alpha1为一设定阈值,为叙述清楚,本发明实施例中将阈值alpha1称为第三阈值,alpha1的取值可以为任意数值,如某些实施方式中可以取alpha1=50。
本发明实施例中MSSNRn可以通过多种方式获得,某些实施方式中可以通过如下方式获得:
1、计算当前信号帧频谱子带能量Ei
将频谱划分为w个子带,0≤w≤N1,每个子带的能量记为Ei,i=0,1,2...w-1,
E i = 1 M i Σ k = 0 M i - 1 e I + k
其中,Mi表示第i子带中包含的频点个数,I表示第i子带起始频点的索引,eI+k表示第I+k个频点的能量。
2、更新Ei在背景帧中的长时滑动平均Ei
每当当前信号帧被确认为背景帧时,对Ei进行更新,更新方法为:
Ei=β·Ei+(1-β)·Ei i=0,1,2,...w-1
其中,β为0~1之间的小数,用于控制更新的速度。
3、计算MSSNRn
MSSNRn = Σ i = 0 w MAX ( f i · 10 · log ( E i E i ‾ ) , 0 )
其中,
Figure G2009101107984D00113
实施方式二、使用snr确定前景帧的方法:
获得当前信号帧的snrn,当snrn≥alpha2时,确定当前信号帧为前景帧,否则为背景帧。其中,snrn表示第n帧的信噪比,alpha2为一设定阈值,为叙述清楚,本发明实施例中将阈值alpha2称为第四阈值,alpha2的取值可以为任意数值,如某些实施方式中可以取alpha2=15。
本发明实施例中snrn可以通过多种方式获得,某些实施方式中可以通过如下方式获得:
1、计算当前信号帧的频谱能量Ef,
Ef = 1 Mf Σ k = 0 Mf - 1 e k
其中,Mf表示当前信号帧包含的频点个数,ek表示第k个频点的能量。
2、更新Ef在背景帧中的长时滑动平均Ef。
每当当前信号帧被确认为背景帧时,对Ef进行更新,更新方法为:
Ef=μ·Ef+(1-μ)·Ef  i=0,1,2,...Mf-1
其中,μ为0~1之间的小数,用于控制更新的速度。
3、计算snrn
sn r n = 10 · log ( Ef Ef ‾ )
需要说明的是,本发明实施例中,获得当前信号帧的频谱波动参数和确定当前信号帧为前景帧在技术实现上并不做顺序上的限定,任何对本发明实施例的简单变换均在本发明实施例的保护范围之内。如某些实施方式中也可以先确定当前信号帧为前景帧,再获得并缓存所述当前信号帧的频谱波动参数,即可以将上述步骤过程表述为:
S301’、确定当前信号帧为前景帧。
S302’、获得并缓存所述当前信号帧的频谱波动参数。
此时与上述S301中获得当前信号帧的频谱波动参数不同的是,这里可以只是获得确定为前景帧的当前信号帧的频谱波动参数,而作为背景帧的频谱波动参数不用获得,从而减少了计算量,进一步降低了复杂度。
又或者,某些实施方式中也可以先确定当前信号帧为前景帧,然后对每一帧当前信号帧获取频谱波动参数,进而缓存为前景帧的当前信号帧的频谱波动参数。
S303、获得当前信号帧的谱波动方差并缓存在第二缓存数组。
本发明实施例中,可以根据第一缓存数组是否存满,区分情况获得谱波动方差var_fluxn,其中var_fluxn表示第n帧的谱波动方差。若所述当前信号帧属于最初第一数目帧信号帧,则将所述当前信号帧的谱波动方差设置为一特定值,并将所述当前信号帧的谱波动方差缓存在第二缓存数组;否则,根据缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差,并将所述当前信号帧的谱波动方差缓存在第二缓存数组。
在flux_buf数组缓存前m1个flux时,可以将var_fluxn设置为一特定值,也就是说,若所述当前信号帧属于最初第一数目帧信号帧,则将所述当前信号帧的谱波动方差设置为一特定值,比如置为0,也即从第1到第m1帧判定为前景帧的信号帧的谱波动方差为0。
若所述当前信号帧不属于最初第一数目帧信号帧,也即从第m1+1帧开始,可以根据缓存的m1个信号帧的flux计算m1帧之后每个确定为前景帧的信号帧的谱波动方差var_fluxn。此时计算当前信号帧的谱波动方差的方法可以有多种,如某些实施方式中,可以采用如下方法:
当缓存第m1个flux时,利用缓存的m1个flux初始化flux的均值mov_fluxn
mov _ flux n = ( Σ i = 1 m 1 flux i ) / m 1
初始化后,从第m1+1个确定为前景帧的信号帧开始,mov_flux可以根据如下方法,每个前景帧更新一次:
mov_fluxn=σ*mov_fluxn-1+(1-σ)fluxn
σ为0~1的小数,用于控制更新速度。
则从第m1+1个确定为前景帧的信号帧开始,var_fluxn可以根据包括当前信号帧在内的缓存的m1帧信号帧的flux确定,可以用公式表示为:
var _ flux n = Σ k = 1 m 1 ( flux n - k - mov _ flux n ) 2 , 其中n大于m1
在本发明实施例的另外一些实施方式中,也可以不采用前述设置的方式确定第1到第m1帧判定为前景帧的信号帧的谱波动方差,而采用根据缓存的所有信号帧的谱波动参数获得当前信号帧的谱波动方差的方法,如:
当flux_buf数组缓存前s个flux时,1≤s≤m1,计算flux的均值mov_fluxn和var_fluxn
mov _ flux n = ( Σ i = 1 s flux i ) / s
var _ flux n = Σ k = 1 s ( flux n - k - mov _ flux n ) 2 , 其中n大于s。
通过上述方法,本实施方式中,无论对于第一缓存数组是否存满的情况,都是在根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差。
通过上述方式获得当前信号帧的谱波动方差后,需要缓存所述谱波动方差。本发明实施例中,可以设置一个谱波动方差缓存数组var_flux_buf,为叙述清楚,可以称为第二缓存数组。缓存数组的类型可以为多种,如某些实施方式中可以为FIFO数组。var_flux_buf数组在信号帧为前景帧时进行更新,可以用来缓存m3个信号帧的var_flux,其中m3可以为大于0的正整数,如某些实施方式中可以取m3=120。
S304、对所述第二缓存数组中缓存的前若干个谱波动方差进行加窗平滑。
某些实施方式中,可以对var_flux_buf数组缓存的var_flux的前若干个进行加窗平滑,如对第m1+1个到第m1+m2个信号帧的var_flux加一个倾斜窗,防止初始几个数值不稳定而影响语音音乐的判决。其中m2可以为大于0的正整数,如取m2=20,加窗可以表示如下:
win_var_fluxn=var_fluxn*window
其中 window = n - m 1 m 1 , n=m1+1,m1+2...,m1+m2
某些实施方式中,也可以使用hamming窗等其它类型窗。
S305、获得所述第二缓存数组中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
本发明实施例中,可以将var_flux作为语音音乐分类的判决参数,当要确定某一确定为前景帧的当前信号帧是语音帧还是音乐帧时,可以通过var_flux_buf数组中缓存的包括当前信号帧在内的所有信号帧中var_flux大于等于某一阈值的比例进行确定,即采用局部统计量法。为叙述清楚,可以将上文提到的阈值称为第一阈值。
当包括当前信号帧在内的缓存的信号帧中var_flux大于等于第一阈值的比例大于某一阈值,则表示当前信号帧为语音帧,否则为音乐帧。为叙述清楚可以将前述提到的阈值称为第二阈值,该第二阈值可以为0~1的小数,如某些实施方式中取0.5。
本发明实施例中,局部统计量法可能会存在如下几种情况:
在var_flux_buf数组存满之前,例如只缓存了m4帧var_fluxn,m4<m3,此时若要确定当前信号帧,即第m4帧信号帧的类别,则可以只计算m4帧中var_flux高于第一阈值的帧数占总帧数m4的比例R,如果R大于等于第二阈值,则判决当前信号为语音帧,否则为音乐帧。
若var_flux_buf数组已存满,则计算包括当前信号帧在内的缓存的m3帧中var_fluxn高于第一阈值的帧数占总帧数m3的比例R,如果R大于等于第二阈值,则判决当前信号帧为语音帧,否则为音乐帧。
某些实施方式中,可以在缓存前m5个信号帧时,将R设置为大于等于第二阈值的数值,从而将前m5个信号帧判别为语音帧。m5可以取任意非负整数,如某些实施方式中可以取m5=75。也即在前m5个信号帧,获得的缓存的包括当前信号帧在内的信号帧中谱波动方差大于等于第一阈值的比例R是一个预设值,从第m5+1个确定为前景帧的信号帧开始,获得的缓存的包括当前信号帧在内的信号帧中谱波动方差大于等于第一阈值的比例R是通过实际计算得来的,计算缓存的包括当前信号帧在内的信号帧中谱波动方差大于等于第一阈值的比例。通过这种方式,可以避免信号起始阶段语音信号被误判为音乐信号。
本发明实施例中,第一阈值可以为一预设的固定第一阈值,也可以为自适应第一阈值Tvar_flux n。固定第一阈值可以为介于var_flux最大和最小值之间的任意数值。Tvar_flux n可以根据背景环境自适应的调整,如根据信号信噪比的变化来进行调整,从而具备较好的对加噪信号的识别能力。Tvar_flux n可以通过多种方式获得,如某些实施方式下可以根据MSSNRn计算获得,某些实施方式中可以根据snrn计算获得,下面举例进行说明:
实施方式一、以MSSNRn确定Tvar_flux n的方法,如图6所示:
S401、根据当前信号帧更新MSSNR的最大值。
每一帧都确定一个MSSNRn的最大值maxMSSNR,当当前信号帧的MSSNRn>maxMSSNR时则将maxMSSNR更新为该当前信号帧MSSNRn的值;否则,将maxMSSNR乘以某一系数,如0.9999,作为更新后的maxMSSNR。也即根据每一帧的MSSNRn更新maxMSSNR的值。
S402、根据更新后的MSSNR的最大值确定MSSNR的阈值,即根据更新后的maxMSSNR计算MSSNRn的自适应阈值TMSSNR
TMSSNR=Cop*maxMSSNR
其中,Cop是一个0~1的小数,具体数值需要根据工作点来进行调整,如某些实施方式中Cop=0.5。工作点是用于控制语音音乐判决倾向性的外部输入。
S403、获得包括当前信号帧在内的若干帧的MSSNR中大于所述MSSNR的阈值的帧数和小于等于所述MSSNR的阈值的帧数,获得大于所述MSSNR的阈值的帧数和小于等于所述MSSNR的阈值的帧数的差异测度,并根据该差异测度获得自适应第一阈值。
本发明实施例中,可以使用包括当前信号帧及其前l-1帧在内的l帧信号帧的MSSNRn值来计算Tvar_flux n,l可以为大于0的任意正整数,如某些实施方式中l=512,方法如下:
1)l帧中MSSNRn>TMSSNR的帧数记为highbin,MSSNRn≤TMSSNR的帧数记为lowbin,即highbin+lowbin=l。
2)计算highbin和lowbin的差异测度diffhist
diff hist = high bin - low bin l = 2 * high bin l - 1
根据不同的操作点diffhist要加上相应的偏移因子
Figure G2009101107984D00172
得到偏移后的差异测度,即
diff hist avg = ρ * diff hist avg + ( 1 - ρ ) * diff hist bias
3)计算用于计算Tvar_flux n的diffhist的滑动平均值diffhist avg
diff hist avg = 0.9 * diff hist avg + 0.1 * diff hist bias
其中ρ为0~1的小数,用于控制diffhist avg的更新速度,如某些实施方式中ρ=0.9。
4)diffhist avg要被限制在一定范围-XT到XT之间,其中XT和-XT表示该限定范围的上下限,XT可以为0~1的小数,如某些实施方式中XT=0.6,限值后的diffhist avg用最终差异测度diffhist final表示。
5)var_fluxn的自适应第一阈值Tvar_flux n的计算式为,
T avr _ flux n = A * diff hist final + B
其中,
A = T op up - T op down 2 * X T
B = T op up + T op down 2
Top up和Top down是根据操作点设定的Tvar_flux n的最大值和最小值。
可见,上述方式中利用该差异测度,外部输入操作点及预先设定的谱波动方差的自适应阈值的最大值和最小值来计算谱波动方差的自适应第一阈值。
实施方式二、以snrn确定Tvar_flux n的方法,如图7所示:
S501、根据当前信号帧更新信噪比的最大值。
每一帧都确定一个snrn的最大值maxsnr,当当前信号帧snrn>maxsnr时则将maxsnr更新为该当前信号帧snrn的值;否则,将maxsnr乘以某一系数,如0.9999作为更新后的maxsnr。也即根据每一帧的snrn更新maxsnr的值。
S502、根据更新后的信噪比的最大值确定信噪比的阈值,即计算snrn的自适应阈值Tsnr
Tsnr=Cop*maxsnr
其中,Cop是一个0~1的小数,具体数值需要根据工作点来进行调整,如某些实施方式中Cop=0.5。工作点是用于控制语音音乐判决倾向性的外部输入。
S503、获得包括当前信号帧在内的若干帧的snr中大于所述snr的阈值的帧数和小于等于所述snr的阈值的帧数;获得大于所述snr的阈值的帧数和小于等于所述snr的阈值的帧数的差异测度,并根据该差异测度获得自适应第一阈值。
本发明实施例中,可以使用包括当前信号帧及其前l-1帧在内的l帧信号帧的snrn值来计算Tvar_flux n,l可以为大于0的任意正整数,如某些实施方式中l=512,方法如下:
1)l帧中snrn>Tsnr的帧数记为highbin,snrn≤Tsnr的帧数记为lowbin,即highbin+lowbin=l。
2)计算highbin和lowbin的差异测度diffhist
diff hist = high bin - low bin l = 2 * high bin l - 1
根据不同的操作点diffhist要加上相应的偏移因子
Figure G2009101107984D00182
得到偏移后的差异测度,即
diff hist bias = diff hist + ▿ op
3)计算用于计算Tvar_flux n的diffhist的滑动平均值diffhist avg
diff hist avg = ρ * diff hist avg + ( 1 - ρ ) * diff hist bias
其中ρ为0~1的小数,用于控制diffhist avg的更新速度,如某些实施方式中ρ=0.9。
4)diffhist avg要被限制在一定范围-XT到XT之间,其中XT和-XT表示该限定范围的上下限,XT可以为0~1的小数,如某些实施方式中XT=0.6,限值后的diffhist avg用最终差异测度diffhist final表示。
5)var_fluxn的自适应第一阈值Tvar_flux n的计算式为,
T var _ flux n = A * diff hist final + B
其中,
A = T op up - T op down 2 * X T
B = T op up + T op down 2
Top up和Top down是根据操作点设定的Tvar_flux n的最大值和最小值。
可见,上述方式中利用该差异测度,外部输入操作点及预先设定的谱波动方差的自适应阈值的最大值和最小值来计算谱波动方差的自适应第一阈值。
S306、结合其他参数辅助谱波动方差进行信号分类。
某些实施方式中,还可以在利用var_flux作为主参数进行信号分类时,结合其他参数进行联合判决,以进一步提高信号分类的性能。所述其他参数可以有多种选择,如过零率,峰度等。某些实施方式中可以采用参数峰度hp1或hp2进行辅助判决,为叙述清楚,可以将hp1称为第一峰度,将hp2称为第二峰度。当hp1≥T1和/或hp2≥T2时,当前信号帧为音乐帧;或者根据所述hp1获得的avg_P1大于等于T1或根据所述hp2获得的avg_P2大于等于T2,或根据所述hp1获得的avg_P1大于等于T1和根据所述hp2获得的avg_P2大于等于T2同时满足时,则当前信号帧为音乐帧,进一步说明如下:
1、对当前信号帧的频谱Sp n(i)进行平滑,
lpf _ S p n ( i ) = S p n ( i ) + S p n ( i - 1 ) i = 1 , K , N 1 - 1 lpf _ S p n ( 0 ) = S p n ( 0 ) i = 0
其中,lpf_Sp n(i)表示平滑后的频谱系数。
2、平滑后查找x个频谱峰值peak(i),i=0,1,2,3,x-1;x的取值为小于N1的正整数。
3、对这x个峰值从大到小进行排序;
4、排序后,取前N个最大的peak(i),如5个,按下式计算hp1和hp2,如果查找到的峰值小于5个,则将N设为实际查找到的峰值个数,使用这N个峰值进行如下计算,
hp 1 = 1 N Σ k = 1 N peak 2 [ k ] 1 N Σ k = 1 N | peak [ k ] | - 1
hp 2 = max ( | peak [ k ] | ) 1 N Σ k = 1 N | peak [ i ] | ) - 1
其中N为实际用来计算hp1和hp2的的峰值的个数。
某些实施方式中,也可以在查找到的x个频谱峰值中,通过其他方式取N个peak(i),而不一定通过上述排序的方式;或者排序后不取最大的前几个,而是选取几个,任何在本发明实施例基础上的简单变换均在本发明实施例的保护范围之内。
5、当hp1≥T1和/或hp2≥T2时当前信号帧为音乐帧,其中T1和T2为经验值。
也即在本发明实施例中,在利用var_fluxn作为主参数对当前信号帧进行判决之后,可以分别通过参数hp1或hp2,或根据hp1与hp2的组合进行辅助判决,从而提高本发明对某些特殊音乐种类的识别率,修正使用局部统计量方法得到的判决结果。
某些实施方式中,也可以先计算hp1和hp2的滑动平均avg_P1和avg_P2,当avg_P1≥T1和/或avg_P2≥T2时,当前信号帧判为音乐帧,其中T1和T2为经验值。从而避免突然出现的极大值或极小值影响判决结果。
avg_P1和avg_P2可以通过如下方法获得:
avg_P1=γ*avg_P1+(1-γ)*hp1
avg_P2=γ*avg_P2+(1-γ)*hp2
其中,γ可以为0~1的小数,如某些实施方式中γ=0.995。
需要说明的是,该步骤中其他参数的获得,根据其他参数进行的辅助判决也可以在S305之前进行,本发明实施例并不限制处理顺序,在本发明实施例基础上的任何简单变换均在本发明实施例的保护范围之内。
S307、对初始判决结果采用一帧拖尾,从而获得最终判决结果。
某些实施方式中,可以将前述步骤S305或S306中得到的判决结果称为当前信号帧的初始判决结果SMd_raw,可以通过采用一帧的拖尾来得到当前信号帧的最终判决结果SMd_out,避免在不同类别信号间出现频繁的切换。
此处以last_SMd_raw和last_SMd_out分别表示上一帧的初始判决结果和最终判决结果。如果last_SMd_raw=SMd_raw,则SMd_out=SMd_raw;否则SMd_out=last_SMd_out。在每帧进行最终判决判决后将last_SMd_raw和last_SMd_out分别更新为当前信号帧的判决结果。
例如,假设上一帧的初始判决结果last_SMd_raw是语音,上一帧的最终判决结果last_SMd_out是语音。如果当前信号帧的初始判决结果SMd_raw是音乐,由于last_SMd_raw与SMd_raw不相同,则当前信号帧最终判决结果SMd_out就为语音,即与last_SMd_out相同。并将last_SMd_raw更新为音乐,last_SMd_out更新为语音。
图8为本发明信号分类装置一个实施例的结构示意图,如图8所示,本发明实施例包括:
第一获取模块601,用于获得当前信号帧的频谱波动参数;
前景帧确定模块602,用于确定所述当前信号帧为前景帧,并将确定为前景帧的所述当前信号帧的的频谱波动参数缓存在第一缓存模块603;
第一缓存模块603,用于缓存所述前景帧确定模块602缓存的所述当前信号帧的频谱波动参数;
设置模块604,用于若所述当前信号帧属于最初第一数目帧信号帧,则将所述当前信号帧的谱波动方差设置为一特定值,并将所述当前信号帧的谱波动方差缓存在第二缓存模块606;
第二获取模块605,用于若所述当前信号帧不属于最初第一数目帧信号帧,根据所述第一缓存模块603缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差,并将所述当前信号帧的谱波动方差缓存在第二缓存模块606;
第二缓存模块606,用于缓存所述设置模块604或所述第二获取模块605缓存的所述当前信号帧的谱波动方差。
第一判决模块607,用于获得所述第二缓存模块606中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
本发明实施例提供的装置,采用获得当前信号帧的频谱波动参数;若所述当前信号帧为前景帧,则将所述当前信号帧的频谱波动参数缓存在第一缓存模块603;若所述当前信号帧属于最初第一数目帧信号帧,则将所述当前信号帧的谱波动方差设置为一特定值,并将所述当前信号帧的谱波动方差缓存在第二缓存模块606;否则,根据缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差,并将所述当前信号帧的谱波动方差缓存在第二缓存模块606,以信号谱波动方差作为信号分类的参数,使用局部统计量的方法进行信号分类判决,从而以较少的参数,较简单的逻辑关系,以较低的复杂度实现了信号的分类。
某些实施方式中,如图9所示的本发明信号分类装置另一实施例的结构示意图,除了包括图8所示模块,还可以进一步包括:
第二判决模块608,用于结合其他参数辅助所述第一判决模块607进行信号分类。判决修正模块609,用于对所述第一判决模块607获得的当前信号帧为语音帧或音乐帧的判决结果或所述第一判决模块607与所述第二判决模块608相结合获得的当前信号帧为语音帧或音乐帧的判决结果采用一帧拖尾,从而获得最终判决结果。加窗模块610,用于在所述第一判决模块607获得所述第二缓存模块606中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例之前,对所述第二缓存模块606中缓存的前若干个谱波动方差进行加窗平滑。
第一判决模块607可以包括:
第一阈值确定单元6071,用于确定所述第一阈值;
比例获取单元6072,用于获得所述第二缓存模块606中缓存的所有信号帧中谱波动方差大于等于所述第一阈值确定单元6071确定的第一阈值的比例;
第二阈值确定单元6073,用于确定所述第二阈值;
判断单元6074,用于比较所述比例获取单元6072获得的比例与所述第二阈值确定单元6073确定的第二阈值,若所述比例大于等于所述第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
下面结合前述方法实施例对本发明实施例提供的信号分类装置进行说明:
第一获取模块601获得当前信号帧的频谱波动参数;若前景帧确定模块602确定当前信号帧为前景帧,则将所述当前信号帧的频谱波动参数缓存在第一缓存模块603;若所述当前信号帧属于最初第一数目帧信号帧,则由设置模块604将所述当前信号帧的谱波动方差设置为一特定值,并将所述当前信号帧的谱波动方差缓存在第二缓存模块606;若所述当前信号帧不属于最初第一数目帧信号帧,则由第二获取模块605根据所述第一缓存模块603缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差,并将所述当前信号帧的谱波动方差缓存在第二缓存模块606;某些实施方式中,可以由加窗模块610对所述第二缓存模块606中缓存的前若干个谱波动方差进行加窗平滑;第一判决模块607获得所述第二缓存模块606中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧;某些实施方式中,可以由第二判决模块608结合其他参数辅助谱波动方差进行信号分类;某些实施方式中,可以由判决修正模块609对初始判决结果采用一帧拖尾,从而获得最终判决结果。
图10为本发明信号分类装置又一个实施例的结构示意图,如图10所示,本发明实施例包括:
第三获取模块701,用于获得确定为前景帧的当前信号帧的频谱波动参数并缓存;
第四获取模块702,用于根据所述第三获取模块701缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存;
第三判决模块703,用于获得所述第四获取模块702缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
本发明实施例提供的装置,采用获得确定为前景帧的当前信号帧的频谱波动参数并缓存,根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存,获得缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧的技术手段,以信号谱波动方差作为信号分类的参数,使用局部统计量的方法进行信号分类判决,从而以较少的参数,较简单的逻辑关系,以较低的复杂度实现了信号的分类。
由于前述方法实施例已对信号分类进行了比较详细的说明,上述实施例中的信号分类装置用于实现前述信号分类方法,所以对信号分类装置执行方法时的具体细节只进行简单说明,在此不再赘述,可以参考前述方法实施例的内容。
本发明实施例中以语音和音乐为例进行说明,但可以理解的,根据本发明实施例的方法也可以对其他输入信号进行分类,如语音和噪声。同时本发明在采用局部统计量的方法进行信号分类时采用了当前信号帧的频谱波动参数、谱波动方差等参数作为依据,实际实现中也可以采用当前信号帧的其他参数作为判决依据。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后所应说明的是:以上实施例仅用以说明本发明的技术方案,而非对本发明作限制性理解。尽管参照上述较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这种修改或者等同替换并不脱离本发明技术方案的精神和范围。

Claims (18)

1.一种信号分类方法,其特征在于,所述方法包括:
获得当前信号帧的频谱波动参数;
若所述当前信号帧为前景帧,则将所述当前信号帧的频谱波动参数缓存在第一缓存数组;
若所述当前信号帧属于最初第一数目帧信号帧,则将所述当前信号帧的谱波动方差设置为一特定值,并将所述当前信号帧的谱波动方差缓存在第二缓存数组;否则,根据缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差,并将所述当前信号帧的谱波动方差缓存在第二缓存数组;
获得所述第二缓存数组中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
2.根据权利要求1所述的信号分类方法,其特征在于:
所述第一阈值包括自适应第一阈值;获得自适应第一阈值的方法包括根据修正的子带信噪比和MSSNR获得或根据信噪比获得。
3.根据权利要求2所述的信号分类方法,其特征在于,根据MSSNR获得自适应第一阈值包括:
根据当前信号帧更新MSSNR的最大值;根据更新后的MSSNR的最大值确定MSSNR的阈值;获得包括当前信号帧在内的若干帧的MSSNR中大于所述MSSNR的阈值的帧数和小于等于所述MSSNR的阈值的帧数;获得大于所述MSSNR的阈值的帧数和小于等于所述MSSNR的阈值的帧数的差异测度,并根据该差异测度获得自适应第一阈值。
4.根据权利要求2所述的信号分类方法,其特征在于,使用信噪比获得自适应第一阈值包括:
根据当前信号帧更新信噪比的最大值;根据更新后的信噪比的最大值确定信噪比的阈值;获得包括当前信号帧在内的若干帧的信噪比中大于所述信噪比的阈值的帧数和小于等于所述信噪比的阈值的帧数;获得大于所述信噪比的阈值的帧数和小于等于所述信噪比的阈值的帧数的差异测度,并根据该差异测度获得自适应第一阈值。
5.根据权利要求1所述的信号分类方法,其特征在于,结合其他参数辅助谱波动方差进行信号分类,包括:
结合第一峰度和/或第二峰度进行辅助判决。
6.根据权利要求1至5任一项所述的信号分类方法,其特征在于,在获得当前信号帧为语音帧或音乐帧的判决结果后,所述方法还包括:
对所述判决结果采用一帧拖尾,从而获得最终判决结果。
7.根据权利要求1所述的信号分类方法,其特征在于:
确定当前信号帧为前景帧的方法包括使用修正的子带信噪比和MSSNR或信噪比,若MSSNR大于等于第三阈值或信噪比大于等于第四阈值,则当前信号帧为前景帧。
8.根据权利要求1所述的信号分类方法,其特征在于,在获得所述第二缓存数组中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例之前,所述方法还包括:
对所述第二缓存数组中缓存的前若干个谱波动方差进行加窗平滑。
9.一种信号分类方法,其特征在于,所述方法包括:
获得确定为前景帧的当前信号帧的频谱波动参数并缓存;
根据缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存;获得缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
10.根据权利要求9所述的信号分类方法,其特征在于:
所述第一阈值包括自适应第一阈值;获得自适应第一阈值的方法包括根据修正的子带信噪比和MSSNR获得或根据信噪比获得。
11.根据权利要求10所述的信号分类方法,其特征在于,根据MSSNR获得自适应第一阈值包括:
根据当前信号帧更新MSSNR的最大值;根据更新后的MSSNR的最大值确定MSSNR的阈值;获得包括当前信号帧在内的若干帧的MSSNR中大于所述MSSNR的阈值的帧数和小于等于所述MSSNR的阈值的帧数;获得大于所述MSSNR的阈值的帧数和小于等于所述MSSNR的阈值的帧数的差异测度,并根据该差异测度获得自适应第一阈值。
12.根据权利要求10所述的信号分类方法,其特征在于,使用信噪比获得自适应第一阈值包括:
根据当前信号帧更新信噪比的最大值;根据更新后的信噪比的最大值确定信噪比的阈值;获得包括当前信号帧在内的若干帧的信噪比中大于所述信噪比的阈值的帧数和小于等于所述信噪比的阈值的帧数;获得大于所述信噪比的阈值的帧数和小于等于所述信噪比的阈值的帧数的差异测度,并根据该差异测度获得自适应第一阈值。
13.一种信号分类装置,其特征在于,所述装置包括:
第一获取模块,用于获得当前信号帧的频谱波动参数;
前景帧确定模块,用于确定所述当前信号帧为前景帧,并将确定为前景帧的所述当前信号帧的频谱波动参数缓存在第一缓存模块;
第一缓存模块,用于缓存所述前景帧确定模块缓存的所述当前信号帧的频谱波动参数;
设置模块,用于若所述当前信号帧属于最初第一数目帧信号帧,则将所述当前信号帧的谱波动方差设置为一特定值,并将所述当前信号帧的谱波动方差缓存在第二缓存模块;
第二获取模块,用于若所述当前信号帧不属于最初第一数目帧信号帧,根据所述第一缓存模块缓存的所有信号帧的频谱波动参数获得所述当前信号帧的谱波动方差,并将所述当前信号帧的谱波动方差缓存在第二缓存模块;
第二缓存模块,用于缓存所述设置模块或所述第二获取模块缓存的所述当前信号帧的谱波动方差。
第一判决模块,用于获得所述第二缓存模块中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
14.根据权利要求13所述的信号分类装置,其特征在于,所述第一判决模块包括:
第一阈值确定单元,用于确定所述第一阈值;
比例获取单元,用于获得所述第二缓存模块中缓存的所有信号帧中谱波动方差大于等于所述第一阈值确定单元确定的第一阈值的比例;
第二阈值确定单元,用于确定所述第二阈值;
判断单元,用于比较所述比例获取单元获得的比例与所述第二阈值确定单元确定的第二阈值,若所述比例大于等于所述第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
15.根据权利要求13所述的信号分类装置,其特征在于,所述装置还包括:,包括:
第二判决模块,用于结合其他参数辅助所述第一判决模块进行信号分类。
16.根据权利要求13至15任一项所述的信号分类装置,其特征在于,所述装置还包括:
判决修正模块,用于对所述第一判决模块获得的当前信号帧为语音帧或音乐帧的判决结果或所述第一判决模块与所述第二判决模块相结合获得的当前信号帧为语音帧或音乐帧的判决结果采用一帧拖尾,从而获得最终判决结果。
17.根据权利要求13所述的信号分类装置,其特征在于,所述装置还包括:
加窗模块,用于在所述第一判决模块获得所述第二缓存模块中缓存的所有信号帧中谱波动方差大于等于第一阈值的比例之前,对所述第二缓存模块中缓存的前若干个谱波动方差进行加窗平滑。
18.一种信号分类装置,其特征在于,所述装置包括:
第三获取模块,用于获得确定为前景帧的当前信号帧的频谱波动参数并缓存;
第四获取模块,用于根据所述第三获取模块缓存的所有信号帧的频谱波动参数获得当前信号帧的谱波动方差并缓存;
第三判决模块,用于获得所述第四获取模块缓存的所有信号帧中谱波动方差大于等于第一阈值的比例,若所述比例大于等于第二阈值,则所述当前信号帧为语音帧,若所述比例小于第二阈值,则所述当前信号帧为音乐帧。
CN2009101107984A 2009-10-15 2009-10-15 信号分类方法和装置 Active CN102044244B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN2009101107984A CN102044244B (zh) 2009-10-15 2009-10-15 信号分类方法和装置
PCT/CN2010/076499 WO2011044798A1 (zh) 2009-10-15 2010-08-31 信号分类方法和装置
EP10790605.9A EP2339575B1 (en) 2009-10-15 2010-08-31 Signal classification method and device
US12/979,994 US8438021B2 (en) 2009-10-15 2010-12-28 Signal classifying method and apparatus
US13/085,149 US8050916B2 (en) 2009-10-15 2011-04-12 Signal classifying method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101107984A CN102044244B (zh) 2009-10-15 2009-10-15 信号分类方法和装置

Publications (2)

Publication Number Publication Date
CN102044244A CN102044244A (zh) 2011-05-04
CN102044244B true CN102044244B (zh) 2011-11-16

Family

ID=43875822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101107984A Active CN102044244B (zh) 2009-10-15 2009-10-15 信号分类方法和装置

Country Status (4)

Country Link
US (2) US8438021B2 (zh)
EP (1) EP2339575B1 (zh)
CN (1) CN102044244B (zh)
WO (1) WO2011044798A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3003398B2 (ja) * 1992-07-29 2000-01-24 日本電気株式会社 超伝導積層薄膜
DE112009005215T8 (de) * 2009-08-04 2013-01-03 Nokia Corp. Verfahren und Vorrichtung zur Audiosignalklassifizierung
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
FI122260B (fi) * 2010-05-10 2011-11-15 Kone Corp Menetelmä ja järjestelmä kulkuoikeuksien rajoittamiseksi
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
CN106409313B (zh) 2013-08-06 2021-04-20 华为技术有限公司 一种音频信号分类方法和装置
KR102354331B1 (ko) 2014-02-24 2022-01-21 삼성전자주식회사 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치
CN107424622B (zh) * 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
CN106328169B (zh) * 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
CN111210837B (zh) * 2018-11-02 2022-12-06 北京微播视界科技有限公司 音频处理方法和装置
CN109448389B (zh) * 2018-11-23 2021-09-10 西安联丰迅声信息科技有限责任公司 一种汽车鸣笛智能检测方法
CN115334349B (zh) * 2022-07-15 2024-01-02 北京达佳互联信息技术有限公司 音频处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1354455A (zh) * 2000-11-18 2002-06-19 深圳市中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
US6411928B2 (en) * 1990-02-09 2002-06-25 Sanyo Electric Apparatus and method for recognizing voice with reduced sensitivity to ambient noise
CN1698095A (zh) * 2003-03-06 2005-11-16 索尼株式会社 信息检测装置、方法和程序
US7080008B2 (en) * 2000-04-19 2006-07-18 Microsoft Corporation Audio segmentation and classification using threshold values
CN1920947A (zh) * 2006-09-15 2007-02-28 清华大学 用于低比特率音频编码的语音/音乐检测器

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2910417B2 (ja) 1992-06-17 1999-06-23 松下電器産業株式会社 音声音楽判別装置
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US7373209B2 (en) * 2001-03-22 2008-05-13 Matsushita Electric Industrial Co., Ltd. Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus, and methods and programs for implementing the same
US7243062B2 (en) * 2001-10-25 2007-07-10 Canon Kabushiki Kaisha Audio segmentation with energy-weighted bandwidth bias
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
KR20030070179A (ko) * 2002-02-21 2003-08-29 엘지전자 주식회사 오디오 스트림 구분화 방법
US7179980B2 (en) * 2003-12-12 2007-02-20 Nokia Corporation Automatic extraction of musical portions of an audio stream
EP1615204B1 (en) * 2004-07-09 2007-10-24 Sony Deutschland GmbH Method for classifying music
CN1815550A (zh) * 2005-02-01 2006-08-09 松下电器产业株式会社 可识别环境中的语音与非语音的方法及系统
KR101280096B1 (ko) 2005-06-29 2013-06-28 컴퓨메딕스 리미티드 전도성 브리지를 포함하는 센서 어셈블리
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
WO2007106384A1 (en) * 2006-03-10 2007-09-20 Plantronics, Inc. Music compatible headset amplifier with anti-startle feature
TW200801513A (en) 2006-06-29 2008-01-01 Fermiscan Australia Pty Ltd Improved process
TWI297486B (en) * 2006-09-29 2008-06-01 Univ Nat Chiao Tung Intelligent classification of sound signals with applicaation and method
CN101256772B (zh) * 2007-03-02 2012-02-15 华为技术有限公司 确定非噪声音频信号归属类别的方法和装置
JP4327886B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
JP4439579B1 (ja) * 2008-12-24 2010-03-24 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411928B2 (en) * 1990-02-09 2002-06-25 Sanyo Electric Apparatus and method for recognizing voice with reduced sensitivity to ambient noise
US7080008B2 (en) * 2000-04-19 2006-07-18 Microsoft Corporation Audio segmentation and classification using threshold values
CN1354455A (zh) * 2000-11-18 2002-06-19 深圳市中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
CN1698095A (zh) * 2003-03-06 2005-11-16 索尼株式会社 信息检测装置、方法和程序
CN1920947A (zh) * 2006-09-15 2007-02-28 清华大学 用于低比特率音频编码的语音/音乐检测器

Also Published As

Publication number Publication date
EP2339575B1 (en) 2017-02-22
US20110093260A1 (en) 2011-04-21
WO2011044798A1 (zh) 2011-04-21
EP2339575A4 (en) 2011-09-14
EP2339575A1 (en) 2011-06-29
US20110178796A1 (en) 2011-07-21
CN102044244A (zh) 2011-05-04
US8438021B2 (en) 2013-05-07
US8050916B2 (en) 2011-11-01

Similar Documents

Publication Publication Date Title
CN102044244B (zh) 信号分类方法和装置
CN101964189B (zh) 语音频信号切换方法及装置
CN102044243B (zh) 语音激活检测方法与装置、编码器
EP1638083B1 (en) Bandwidth extension of bandlimited audio signals
CN101320559B (zh) 一种声音激活检测装置及方法
US8909522B2 (en) Voice activity detector based upon a detected change in energy levels between sub-frames and a method of operation
CN104347067B (zh) 一种音频信号分类方法和装置
CN100580770C (zh) 基于能量及谐波的语音端点检测方法
EP2047457B1 (en) Systems, methods, and apparatus for signal change detection
KR101116363B1 (ko) 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
CN100573667C (zh) 用于语音编码和语音识别的噪音抑制器
DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
CN102714034B (zh) 信号处理的方法、装置和系统
EP2702585B1 (en) Frame based audio signal classification
CN101197135A (zh) 声音信号分类方法和装置
CN101496095B (zh) 用于信号变化检测的系统、方法及设备
EP3660845B1 (en) Method for detecting audio signal and apparatus
CN104603874A (zh) 用于语音活动性检测的方法和设备
CN1218945A (zh) 静态和非静态信号的鉴别
Mauler et al. A low delay, variable resolution, perfect reconstruction spectral analysis-synthesis system for speech enhancement
US20160133272A1 (en) Adaptive interchannel discriminative rescaling filter
CN113077812A (zh) 语音信号生成模型训练方法、回声消除方法和装置及设备
CN1134768C (zh) 由时域频谱相减进行信号噪声减小的电话机、处理器及方法
GB2389283A (en) The bandwidth of an adaptive filter is controlled by a proportional and integral (PI) controller
GB2389284A (en) The bandwidth of an adaptive filter is controlled by a proportional and derivative (PD) controller

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant