CN103000172A - 信号分类方法和装置 - Google Patents
信号分类方法和装置 Download PDFInfo
- Publication number
- CN103000172A CN103000172A CN2011102679653A CN201110267965A CN103000172A CN 103000172 A CN103000172 A CN 103000172A CN 2011102679653 A CN2011102679653 A CN 2011102679653A CN 201110267965 A CN201110267965 A CN 201110267965A CN 103000172 A CN103000172 A CN 103000172A
- Authority
- CN
- China
- Prior art keywords
- proper vector
- long
- data cell
- classification results
- sorter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种信号分类方法,包括:从待分类的信号中获取多个数据单元,一个数据单元提取m个特征参数组成一个短时特征向量,从所述多个数据单元中取一组数据单元,对该组数据单元对应的K个短时特征向量进行多种统计处理,得到一个长时特征向量,所述长时特征向量由一组统计向量Ys组成,s=1...S,其中,向量Ys的第j个元素由短时特征向量X1至Xp的第j个元素进行第s种统计处理得到,得到n组数据单元对应的n个长时特征向量;将该n个长时特征向量根据预设原则送入n个预先训练得到的分类器中,得到多个分类结果;根据多个分类结果按照预设决策融合机制得到最终分类结果。本发明还提供一种信号分类装置。
Description
技术领域
本发明涉及多媒体信号处理和模式识别领域,特别涉及一种信号分类方法和装置。
背景技术
语音信号和音乐信号各自的发声原理不同。语音信号主要是指人说话时发出的声音。音乐信号一般包含了更为广泛的类别,比如管弦乐、打击乐、声乐以及多种音源的混合。这两类信号不仅在听觉上存在差别,在不同的场合,对两类信号的处理方式也不一样。
在编解码应用中,语音信号通常采用基于线性预测的方式编码,而音乐信号则广泛地采用变换域编码方式。对于类别不确定的信号输入时,希望能够判别出信号类别后再分别采用不同的方式编码,这样可以有效地降低编码码率同时保持较高编码质量。因此对输入信号的准确分类就显得十分关键,它影响着输出音频信号码率的质量。
在噪声抑制应用中,通常希望对移动条件下的语音通话进行噪声抑制,而对于彩铃而言,通常彩铃音乐信号来自媒体服务器,没有被环境噪声污染,故而不需要进行噪声抑制。
因此,在复杂的现代通信系统中,针对类别多样的音频信号需要按照不同的方式进行处理。为了获得更好的主观体验,通常需要将音频信号区分为语音、音乐。这首先就需要一个高效、准确的信号分类算法。
目前常用的信号分类器设计方法较多,常见的有基于特征计算加概率模型的方法,以及特征计算加函数逼近方法。特征计算主要包括信号的时域、频域等参数。概率模型方法大致包括混合高斯模型、隐马尔可夫模型、支持向量机、决策树等。而神经网络则是使用非线性神经元的函数逼近方法。但实际应用于通信系统中,还有较多因素需要考虑,如分类器延时、复杂度、准确率、鲁棒性等指标。
在实时的通信中,现有的信号分类算法由于复杂度、延时和分类正确率而不能满足高效率、高质量的编码器的需求。
发明内容
本发明所要解决的技术问题是:提供一种信号分类方法和装置,以获得更稳定和更高的分类正确率,且能满足低复杂度、低延时算法的需求。
为了解决上述问题,本发明提供了一种信号分类方法,包括:
从待分类的信号中获取多个数据单元,一个数据单元提取m个特征参数组成一个短时特征向量,m为整数且大于等于1;
从所述多个数据单元中取一组数据单元,对该组数据单元中共K个数据单元对应的K个短时特征向量Xp,p=1...K进行S种统计处理,得到一个长时特征向量,所述长时特征向量由一组统计向量Ys组成,s=1...S,其中,向量Ys的第j个元素由向量X1至Xp的第j个元素进行第s种统计处理得到,所述S为整数且大于等于1,j=1...m,K大于等于1;重复执行上述步骤,直到得到n组数据单元对应的n个长时特征向量,n为整数且大于等于2;其中,各组数据单元之间包含的数据单元个数不同;
将该n个长时特征向量根据预设原则送入n个预先训练得到的分类器中,得到多个分类结果;
根据所述多个分类结果按照预设决策融合机制得到最终分类结果。
进一步的,上述方法还可具有以下特点,所述方法还包括:提取所述特征参数前,对所述待分类的信号进行高频滤波处理。
进一步的,上述方法还可具有以下特点,所述一个数据单元的m个特征参数包括如下特征参数中的一个或多个:
数据单元的对数能量,过零率、子帧对数能量、基音周期、频谱重心、频谱通量;
所述子帧对数能量为:
将所述数据单元划分为N个子帧,获取每个子帧的对数能量,得到N个对数能量,N大于1且为整数。
进一步的,上述方法还可具有以下特点,所述统计处理包括如下之一或其组合:
取最大值、最小值、方差、标准差和数学期望值。
进一步的,上述方法还可具有以下特点,所述将该n个长时特征向量根据预设原则送入n个预先训练得到的分类器中包括:
对该n个长时特征向量中任一个长时特征向量,将该长时特征向量只送入与该长时特征向量对应的一个分类器;或者,将该长时特征向量送入与该长时特征向量对应的一个分类器,及至少一个其它分类器。
进一步的,上述方法还可具有以下特点,根据所述多个分类结果按照预设决策融合机制得到最终分类结果包括:
将所述多个分类结果中,数量最多的相同的分类结果作为最终分类结果。
进一步的,上述方法还可具有以下特点,从所述待分类的信号中获取多个数据单元时,只提取能量值超过指定门限值的数据单元。
本发明还提供一种信号分类装置,包括:短时特征提取模块、长时特征提取模块、分类模块和决策融合模块,其中:
所述短时特征提取模块用于:从待分类的信号中获取多个数据单元,一个数据单元提取m个特征参数组成一个特征向量;
所述长时特征提取模块用于:从所述多个数据单元中取一组数据单元,对该组数据单元中共K个数据单元对应的K个短时特征向量Xp,p=1...K进行S种统计处理,得到一个长时特征向量,所述长时特征向量由一组统计向量Ys组成,s=1...S,其中,向量Ys的第j个元素由向量X1至Xp的第j个元素进行第s种统计处理得到,所述S为整数且大于等于1,j=1...m,K大于等于1;重复执行上述步骤,直到得到n组数据单元对应的n个长时特征向量,n为整数且大于等于2;其中,各组数据单元之间包含的数据单元个数不同;
所述分类模块用于:将该n个长时特征向量根据预设原则送入n个预先训练得到的分类器中,得到多个分类结果;
所述决策融合模块用于:根据所述多个分类结果按照预设决策融合机制得到最终分类结果。
进一步的,上述装置还可具有以下特点,所述装置还包括预处理模块,所述预处理模块用于对所述待分类的信号进行高频滤波处理后输出给所述短时特征提取模块。
进一步的,上述装置还可具有以下特点,所述数据单元的m个特征参数包括如下特征参数中的一个或多个:
数据单元的对数能量,过零率、子帧对数能量、基音周期、频谱重心、频谱通量;
所述子帧对数能量为:
将所述数据单元划分为N个子帧,获取每个子帧的对数能量,得到N个对数能量,N大于1且为整数。
进一步的,上述装置还可具有以下特点,所述长时特征提取模块进行的所述统计处理包括如下之一或其组合:
取最大值、最小值、方差、标准差和数学期望值。
进一步的,上述装置还可具有以下特点,所述分类模块将该n个长时特征向量根据预设原则送入n个预先训练得到的分类器中包括:
对该n个长时特征向量中任一个长时特征向量,将该长时特征向量只送入与该长时特征向量对应的一个分类器;或者,将该长时特征向量送入与该长时特征向量对应的一个分类器,及至少一个其它分类器。
进一步的,上述装置还可具有以下特点,所述决策融合模块是用于:
将所述多个分类结果中,数量最多的相同的分类结果的作为最终分类结果。
进一步的,上述装置还可具有以下特点,所述短时特征提取模块从所述待分类的信号中获取多个数据单元时,只提取能量值超过指定门限值的数据单元。
本发明实施例提出的信号分类方法,首先对输入信号进行预处理,提取短时特征,然后计算不同时长的长时特征,采用多棵决策树的联合分类方法,加上决策融合,得到最终分类结果。不同的时长既保证了算法的稳定性,又满足实时性的要求,多棵决策树的联合分类方法使分类结果更为准确。与现有算法相比,本发明具有低延时、低复杂度、准确率高等优点。
附图说明
图1是本发明实施例基于决策树的分类方法流程图;
图2是本发明实施例决策树分类器的示意图;
图3是本发明实施例短时特征向量提取的流程图;
图4是本发明实施例长时特征向量提取的流程图;
图5是本发明实施例蝶形交叉分类的流程图;
图6是本发明实施例决策融合流程图;
图7是本发明实施例长时特征向量提取的流程图;
图8是本发明不经过非静音判断长时特征向量提取的流程图;
图9是本发明实施例一种多棵决策树联合分类方法实施的流程图;
图10是本发明实施例另一种多棵决策树联合分类方法实施的流程图;
图11是本发明实施例另一种多棵决策树联合分类方法实施的流程图;
图12是本发明实施例信号分类装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
本发明实施例提供一种信号分类方法,包括:
从待分类的信号中获取多个数据单元,一个数据单元提取m个特征参数组成一个短时特征向量,m大于等于1且为整数;
从所述多个数据单元中取一组数据单元,对该组数据单元中共K个数据单元对应的K个短时特征向量Xp,p=1...K进行S种统计处理,得到一个长时特征向量,所述长时特征向量由一组统计向量Ys组成,s=1...S,其中,向量Ys的第j个元素由向量X1至Xp的第j个元素进行第s种统计处理得到,所述S为整数且大于等于1,j=1...m,K大于等于1;重复执行上述步骤,直到得到n组数据单元对应的n个长时特征向量,n为整数且大于等于2;其中,各组数据单元之间包含的数据单元个数不同;
将该n个长时特征向量根据预设原则送入n个预先训练得到的分类器中,得到多个分类结果,根据所述多个分类结果中得到最终分类结果。
其中,所述方法还包括:提取所述特征参数前,对所述待分类的信号进行高频滤波处理。也可以不进行高频滤波处理
其中,所述一个数据单元的m个特征参数包括如下特征参数中的一个或多个:
数据单元的对数能量,过零率、子帧对数能量、基音周期、频谱重心、频谱通量;
所述子帧对数能量为:
将所述数据单元划分为N个子帧,获取每个子帧的对数能量,得到N个对数能量,N大于1且为整数。划分时,可以将该数据单元均匀划分,也可以不均匀划分。
其中,所述统计处理包括如下之一或其组合或其变形形式:取最大值、最小值、方差、标准差和数学期望值。变形形式是指在这些处理方式的基础上进行变形,比如最大值/数学期望,缓存器中每个值减去最大值的和,等等。
比如,进行取最大值和方差两种统计处理时,可以将向量X1至Xp的第1个元素取最大值,得到统计向量Y1的第1个元素,依次类推,将向量X1至Xp的第m个元素中取最大值,得到统计向量Y1的第m个元素,从而得到统计向量Y1;可以将向量X1至Xp的第1个元素求方差,得到统计向量Y2的第1个元素,依次类推,将向量X1至Xp的第m个元素求方差,得到统计向量Y2的第m个元素,从而得到统计向量Y2。
其中,所述将该n个长时特征向量根据预设原则送入n个预先训练得到的分类器中包括:
对该n个长时特征向量中任一个长时特征向量,将该长时特征向量只送入与该长时特征向量对应的一个分类器;或者,将该长时特征向量送入与该长时特征向量对应的一个分类器,及至少一个其它分类器。
比如,三组统计向量,分别送入分类器Ta,Tb,Tc,也可以第一组送入Ta,Tb,第二组送入Tb,Tc,第三组送入Tc,Tb;或者,第一组送入Ta,Tb,Tc,第二组送入Ta,Tb,Tc,第三组送入Ta,Tb,Tc,此处仅为示例。分类器通过预先训练得到,具体的,使用已知分类结果的训练信号,提取多组数据单元及其对应的多组统计向量,训练得到多个分类器。
其中,所述根据所述多个分类结果中得到最终分类结果包括:
将所述多个分类结果中,数量最多的相同的分类结果的作为最终分类结果。
其中,从所述待分类的信号中获取多个数据单元时,只提取能量值超过指定门限值的数据单元,当然,也可以对数据单元的能量值不进行限定。
上述数据单元可以是一个数据帧,也可以是多个数据帧,或根据需要设置的一定时长的数据,本发明对此不作限定。
所述各组数据单元中,各组数据单元可以完全不重合,或者,部分重合。一种具体应用是:任意两组中,其中一组是另一组的子集。
上述信号分类方法可以适用于多种信号,包括音频信号。
下面以音频信号的分类为例进一步说明本发明。
[实施例1]
本实施例是32kHz采样率下的语音/音乐信号分类,帧长L=1280,在其它帧长和采样率条件下,本发明的方法同样适用。分类过程如图1所示,该方法包括:
在进行分类前,先进行训练得到分类器,包括:
S1,输入训练集信号,对输入信号进行预处理,滤波处理,滤波器为高通滤波器,用于滤除低频的直流成分;
本实施例中,可以滤除0-50Hz的直流成分,当然,也可以根据需要设置滤除更高或更低范围内的直流成分。
S2:对滤波后的信号提取短时特征向量,本实施例中,短时特征向量中包括如下参数:对数能量、过零率和子帧对数能量。
S3:提取n个不同时长的长时特征向量,利用不同时长的长时特征向量分别训练,得到n个分类器,本实施例中,分类器采用决策树形式,也可采取其他形式的分类器。其中一棵决策树如图2所示,图2中取值仅为示例,针对不同信号,可进行训练得到不同的决策树。
训练得到分类器后,对待分类的信号,执行如下操作:
101,输入待分类的信号,进行预处理,所述预处理包括滤波处理,滤波器为高通滤波器,用于滤除低频的直流成分;
102:对滤波后的信号提取短时特征向量,本实施例中,短时特征向量中包括如下参数:对数能量、过零率和子帧对数能量。
103,提取多组不同时长的长时特征向量,按照预设原则送入多个分类器中进行分类,得到多个分类结果;
104:针对分类的结果按照一定决策融合机制进行判决,得到最终的分类结果。
其中,步骤S2和102中特征计算包括短时特征计算,如图3所示。
201:计算对数能量,对数能量的计算方法如下:
第i帧对数能量Elog(i)定义为第i帧内所有点的平方和,再取对数值。即:
Elog(i)=log2(E1(i))
其中,x(n)表示当前帧的样点值,L表示帧长。
202:计算过零率,过零率的计算方法如下:
第i帧过零率ZCR(i)定义为第i帧内所有点分布的波形穿过零点的次数的和。即:
其中,x(n)表示当前帧的样点值,L表示帧长,其中,sign(x)是符号函数,定义如下:
203:计算子帧对数能量,计算方法如下:
第i帧第k子帧对数能量SubEnlog(i,k)定义:将第i帧均匀划分为N个子帧,即第i帧每1/N的帧长的点为一个小子帧,对每个子帧内的所有点的平方值求和,再取对数,即SubEnlog(i,k)。每个子帧对应一个值,共N个值。即:
SubEnlog(i,k)=log2(SubEn(i,k))
其中,x(n)是第i帧的信号样点值,N是子帧数,SubEnlog(i,k)表示第i帧的第k子帧的对数能量值。均匀划分为N个子帧仅为示例,也可以不均匀划分。
存储计算得到对数能量、过零率和N维子帧对数能量,即得到N+2维短时特征向量,各特征参数在向量中的位置不限定,各短时特征向量同一位置对于同一类特征参数。
步骤S3和步骤103中计算不同时长的长时特征,本实施例中计算两组不同时长Na,Nb的长时特征(其中Na>Nb>0),如图4所示,包括:
301:首先判断当前帧是否为非静音帧,非静音帧具体是指当前帧的能量超过指定门限值,否则为静音帧;
可以利用计算的对数能量Elog(i)判断是否为非静音帧,如果对数能量值Elog(i)小于特定门限Thr(在本实施例中选取0>Thr>-20),则判断为静音帧,否则为非静音帧。当然,也可以利用其它能量参数,比如不取对数,直接利用当前帧的能量值。
再判断缓存器中是否已经存入非静音帧的特征信息。
如果不是非静音帧且缓存器中已经存入非静音帧的信息,则执行303,否则执行302。
当然,也可以先判断是否非静音帧和缓存器中是否已经存入非静音帧的信息,对非静音帧计算短时特征向量,对缓存器中未存入非静音帧时的静音帧计算短时特征向量,对缓存器已存入非静音帧特征时的静音帧直接丢弃。
另外,用于判断的各帧之间可以连续也可以不连续。
302:按照一定原则将短时特征向量存入特征缓存器。缓存器的长度取较大时长Na的长度,执行步骤304;
当然,缓存器的长度也可以为Na+Nb的长度;或者,为Na和Na+Nb之间的长度。缓存器也可以更长,预留一些缓存空间。
303,丢弃该短时特征向量,执行步骤304;
从而得到长时特征矩阵:
其中,Na时长和Nb时长的长时特征向量可以根据缓存器中与当前最接近的Na个数据帧和Nb个数据帧的短时特征向量得到,即最后存入的Na个数据帧和Nb个数据帧的短时特征向量得到,也可以是缓存器中随机选择的Na个数据帧和Nb个数据帧的短时特征向量得到,Na个数据帧和Nb个数据帧可以完全不同,此时缓存器长度至少需要Na+Nb长度,也可以部分相同,此时缓存器长度大于Na,小于Na+Nb,极端情况下,Nb是Na的一个子集,此时,缓存器长度可以为Na;具体如何选取Na个数据帧和Nb个数据帧,本发明对此不作限定。
在实际应用中,如果实时对信号进行分类,则对当前数据帧,取缓存器中,计算距离当前帧最近的Na帧(包括当前帧)以及计算距离当前帧最近的Nb帧(包括当前帧)的长时特征向量,根据该长时特征向量得到当前帧的分类结果。对初始的第1...Na-1帧,由于缓存器中未存储Na帧,可以只利用已存储的数据帧进行分类计算,也可以仍然使用Na、Nb个数据帧进行计算,未存储的数据帧的短时特征向量可以由系统定义。
上述步骤304,305之间没有顺序关系。
计算上述的长时特征向量后,采用多棵决策树的联合分类方法进行分类,如图5所示。具体实现方法包括:Na时长的长时特征分别送入决策树分类器Ta和决策树分类器Tb,Nb时长的长时特征也分别送入决策树分类器Ta和决策树分类器Tb,每个长时特征沿着决策树自上而下的逻辑分支得到一个分类结果,最终得到四个分类结果daa,dab,dba,dbb,其中daa,dab,dba,dbb∈{-1,1}。
上述1,-1代表不同的分类结果,也可以使用其它标识表示不同的分类结果,比如,采取0,1表示不同分类结果,或者,采取字母A,B表示不同分类结果,如果需要分成更多类,比如3类,则可以采取-1,0,1分别表示,本发明对此不作限定。
利用分类决策融合,如图6所示,采用投票原则,即取多个分类器分类结果中相同数量最多的分类结果为最终的分类结果。具体计算公式如下:
D=sign[sum(daa,dab,dba,dbb)-1]
其中,D为最终输出类别标志,sign为符号函数,如前面所述。上式适用于使用1,-1指示两个分类结果的情形,如果使用其他标识指示不同分类结果,或者存在更多分类结果时,可相应使用其他公式计算。
[实施例2]
本实施例是32kHz采样率下的语音/音乐信号分类,帧长L=1280,在其它帧长和采样率条件下,本发明的方法同样适用。该方法包括:
401:对输入信号进行预处理,滤波处理,滤波器为高通滤波器,用于滤除低频的直流成分;
402:对滤波后的信号进行特征计算。其中包括对数能量特征、过零率特征和子帧对数能量特征。
403:基于训练集计算短时特征,然后再提取n组不同时长的长时特征向量,利用不同时长的长时特征向量分别训练,适当修剪后得到n棵决策树。其中一棵决策树如图2所示。
404:基于测试集计算短时特征后,提取n组不同时长的长时特征向量,采用n棵决策树的联合分类方法进行分类。
405:针对分类的结果按照一定决策融合机制进行判决,得到最终的分类结果。
其中步骤402中包括短时特征计算,短时特征可以包括对数能量特征、过零率特征、N维子帧对数能量特征、基音周期特征、频谱重心特征、频谱通量特征。基音周期的特征是与语音相关的,具体是指人说话时声带振动的基频的倒数。频谱重心特征具体是指一帧信号频谱能量分布的平均点。频谱通量特征具体是指一帧信号频谱分量改变快慢的测度。
上述短时特征实际应用中还可以包含其他特征,此处不逐一列举。
存储计算得到的短时特征,即得到短时特征向量。
接下来计算多个不同时长的长时特征,此处计算三个不同时长Na,Nb,Nc的长时特征(其中Na>Nb>Nc>0),在实际应用中,不限于3个,可以是多个。如图7所示:
501:首先判断当前帧是否为非静音帧,非静音帧具体是指当前帧的能量超过指定门限值,否则为静音帧;
可以利用计算的对数能量Elog(i)判断是否为非静音帧,如果对数能量值Elog(i)小于特定门限Thr(在本实施例中选取0>Thr>-20),则判断为静音帧,否则为非静音帧。当然,也可以利用其它能量参数,比如不取对数,直接利用当前帧的能量值。
再判断缓存器中是否已经存入非静音帧的特征信息。
如果不是非静音帧且缓存器中已经存入非静音帧的信息,则执行503,否则执行502。
当然,也可以先判断是否非静音帧和缓存器中是否已经存入非静音帧的信息,对非静音帧计算短时特征向量并存入缓存器,对缓存器中未存入非静音帧时的静音帧计算短时特征向量并存入缓存器,对缓存器已存入非静音帧特征时的静音帧直接丢弃。
502:按照一定原则将短时特征向量存入特征缓存器。缓存器的长度取较大时长Na的长度,执行步骤504;
503,丢弃该短时特征向量,执行步骤504;
此处不限定必需进行非静音帧的判断,在实际应用中,可以不进行非静音帧的判断,直接将计算的短时特征存入到缓存器,如图8所示。
也可以不生成长时特征矩阵,直接将各长时特征送入分类器中。
上述步骤504,505,506之间没有顺序关系。
计算上述的长时特征后,利用训练得到的分类器进行分类,如图9所示,不同时长的长时特征采用多棵决策树的联合分类方法进行分类,Na时长的长时特征分别送入决策树分类器Ta、决策树分类器Tb和决策树分类器Tc,Nb时长的长时特征也分别送入决策树分类器Ta、决策树分类器Tb和决策树分类器Tc,Nc时长的长时特征也分别送入决策树分类器Ta、决策树分类器Tb和决策树分类器Tc,沿着决策树的自上而下逻辑分支得到一个分类结果,最终得到九个分类结果daa,dab,dac,dbb,dba,dbc,dcc,dca,dcb。
上述多棵决策树的联合分类方法也可变化为多种形式,如图10和图11所示,并不限于图10,图11这两种形式。
如图10所示,不同时长的长时特征利用蝶形交叉方法进行分类,Na时长的长时特征分别送入决策树分类器Ta和决策树分类器Tb,Nb时长的长时特征分别送入决策树分类器Ta、决策树分类器Tb和决策树分类器Tc,Nc时长的长时特征分别送入决策树分类器Tb和决策树分类器Tc,沿着决策树的自上而下逻辑分支得到一个分类结果,最终得到七个分类结果daa,dab,dbb,dba,dbc,dcc,dcb。
如图11所示,不同时长的长时特征利用蝶形交叉方法进行分类,Na时长的长时特征送入决策树分类器Ta,Nb时长的长时特征决策树分类器Tb,Nc时长的长时特征送入决策树分类器Tc,沿着决策树的自上而下逻辑分支得到一个分类结果,最终得到三个分类结果daa,dbb,dcc。
利用分类决策融合,如图6所示,本发明实施例中采用投票原则,取多个分类器分类标志中相同数量最多的分类标志为最终的分类类别。具体计算公式如下:
D=sign[sum(dij)-1]
其中,dij取值为1或者-1,i,j为a,b或c.即dij∈{-1,1},且i,j∈{a,b,c},D为最终输出类别标志。在其他实施例中也可以采取其他分类决策融合原则。
本发明还提供一种信号分类装置,包括预处理模块,短时特征提取模块,长时特征提取模块,分类模块和决策融合模块,如图12所示,其中:
所述预处理模块包括对待分类信号进行高通滤波处理,具体实施的方法如前文所述,此处不再赘述;也可以不包括预处理模块。
所述短时特征提取模块用于:从待分类的信号中获取多个数据单元,一个数据单元提取m个特征参数组成一个特征向量;具体实施的方法如前文所述,此处不再赘述。
所述长时特征提取模块用于:提取n组数据单元的长时特征向量得到n个长时特征向量;具体方法如前文所述,此处不再赘述。
所述分类模块将该n个长时特征向量根据预设原则送入n个预先训练得到的分类器中,得到多个分类结果,具体实施的方法如前文所述,此处不再赘述。
所述决策融合模块用于根据所述多个分类结果按照预设决策融合机制得到最终分类结果,具体实施的方法如前文所述,此处不再赘述。
本发明实施例提出的信号分类方法可用于实时通信如无线、IP会议电视和实时广播业务的IPTV、移动流媒体、手机电视等领域的信号分类问题,以满足不同情况下的需求。
本发明采用基于决策树的分类器,结构简单,复杂度低,延时小,而蝶形交叉的分类方法使分类更为准确和稳定,与现有算法相比,能满足实时通信中低延时、低复杂度、稳定的需求。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
Claims (14)
1.一种信号分类方法,其特征在于,包括:
从待分类的信号中获取多个数据单元,一个数据单元提取m个特征参数组成一个短时特征向量,m为整数且大于等于1;
从所述多个数据单元中取一组数据单元,对该组数据单元中共K个数据单元对应的K个短时特征向量Xp,p=1...K进行S种统计处理,得到一个长时特征向量,所述长时特征向量由一组统计向量Ys组成,s=1...S,其中,向量Ys的第j个元素由向量X1至Xp的第j个元素进行第s种统计处理得到,所述S为整数且大于等于1,j=1...m,K大于等于1;重复执行上述步骤,直到得到n组数据单元对应的n个长时特征向量,n为整数且大于等于2;其中,各组数据单元之间包含的数据单元个数不同;
将该n个长时特征向量根据预设原则送入n个预先训练得到的分类器中,得到多个分类结果;
根据所述多个分类结果按照预设决策融合机制得到最终分类结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:提取所述特征参数前,对所述待分类的信号进行高频滤波处理。
3.如权利要求1所述的方法,其特征在于,所述一个数据单元的m个特征参数包括如下特征参数中的一个或多个:
数据单元的对数能量,过零率、子帧对数能量、基音周期、频谱重心、频谱通量;
所述子帧对数能量为:
将所述数据单元划分为N个子帧,获取每个子帧的对数能量,得到N个对数能量,N大于1且为整数。
4.如权利要求1所述的方法,其特征在于,所述统计处理包括如下之一或其组合:
取最大值、最小值、方差、标准差和数学期望值。
5.如权利要求1所述的方法,其特征在于,所述将该n个长时特征向量根据预设原则送入n个预先训练得到的分类器中包括:
对该n个长时特征向量中任一个长时特征向量,将该长时特征向量只送入与该长时特征向量对应的一个分类器;或者,将该长时特征向量送入与该长时特征向量对应的一个分类器,及至少一个其它分类器。
6.如权利要求1所述的方法,其特征在于,根据所述多个分类结果按照预设决策融合机制得到最终分类结果包括:
将所述多个分类结果中,数量最多的相同的分类结果作为最终分类结果。
7.如权利要求1所述的方法,其特征在于,从所述待分类的信号中获取多个数据单元时,只提取能量值超过指定门限值的数据单元。
8.一种信号分类装置,其特征在于,包括:短时特征提取模块、长时特征提取模块、分类模块和决策融合模块,其中:
所述短时特征提取模块用于:从待分类的信号中获取多个数据单元,一个数据单元提取m个特征参数组成一个特征向量;
所述长时特征提取模块用于:从所述多个数据单元中取一组数据单元,对该组数据单元中共K个数据单元对应的K个短时特征向量Xp,p=1...K进行S种统计处理,得到一个长时特征向量,所述长时特征向量由一组统计向量Ys组成,s=1...S,其中,向量Ys的第j个元素由向量X1至Xp的第j个元素进行第s种统计处理得到,所述S为整数且大于等于1,j=1...m,K大于等于1;重复执行上述步骤,直到得到n组数据单元对应的n个长时特征向量,n为整数且大于等于2;其中,各组数据单元之间包含的数据单元个数不同;
所述分类模块用于:将该n个长时特征向量根据预设原则送入n个预先训练得到的分类器中,得到多个分类结果;
所述决策融合模块用于:根据所述多个分类结果按照预设决策融合机制得到最终分类结果。
9.如权利要求8所述的装置,其特征在于,所述装置还包括预处理模块,所述预处理模块用于对所述待分类的信号进行高频滤波处理后输出给所述短时特征提取模块。
10.如权利要求8所述的装置,其特征在于,所述数据单元的m个特征参数包括如下特征参数中的一个或多个:
数据单元的对数能量,过零率、子帧对数能量、基音周期、频谱重心、频谱通量;
所述子帧对数能量为:
将所述数据单元划分为N个子帧,获取每个子帧的对数能量,得到N个对数能量,N大于1且为整数。
11.如权利要求8所述的装置,其特征在于,所述长时特征提取模块进行的所述统计处理包括如下之一或其组合:
取最大值、最小值、方差、标准差和数学期望值。
12.如权利要求8所述的装置,其特征在于,所述分类模块将该n个长时特征向量根据预设原则送入n个预先训练得到的分类器中包括:
对该n个长时特征向量中任一个长时特征向量,将该长时特征向量只送入与该长时特征向量对应的一个分类器;或者,将该长时特征向量送入与该长时特征向量对应的一个分类器,及至少一个其它分类器。
13.如权利要求8所述的装置,其特征在于,所述决策融合模块是用于:
将所述多个分类结果中,数量最多的相同的分类结果的作为最终分类结果。
14.如权利要求8所述的装置,其特征在于,所述短时特征提取模块从所述待分类的信号中获取多个数据单元时,只提取能量值超过指定门限值的数据单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102679653A CN103000172A (zh) | 2011-09-09 | 2011-09-09 | 信号分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102679653A CN103000172A (zh) | 2011-09-09 | 2011-09-09 | 信号分类方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103000172A true CN103000172A (zh) | 2013-03-27 |
Family
ID=47928669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102679653A Pending CN103000172A (zh) | 2011-09-09 | 2011-09-09 | 信号分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103000172A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413553A (zh) * | 2013-08-20 | 2013-11-27 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、编码端、解码端和系统 |
CN104732970A (zh) * | 2013-12-20 | 2015-06-24 | 中国科学院声学研究所 | 一种基于综合特征的舰船辐射噪声识别方法 |
CN104992553A (zh) * | 2015-07-29 | 2015-10-21 | 上海斐讯数据通信技术有限公司 | 一种家电红外遥控波形的复制学习方法及系统 |
WO2016149937A1 (en) * | 2015-03-26 | 2016-09-29 | Intel Corporation | Neural network classification through decomposition |
CN108201435A (zh) * | 2017-12-06 | 2018-06-26 | 深圳和而泰数据资源与云技术有限公司 | 睡眠分期确定方法、相关设备及计算机可读介质 |
CN108714026A (zh) * | 2018-03-27 | 2018-10-30 | 杭州电子科技大学 | 基于深度卷积神经网络和在线决策融合的细粒度心电信号分类方法 |
CN109545192A (zh) * | 2018-12-18 | 2019-03-29 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN110501683A (zh) * | 2019-08-19 | 2019-11-26 | 杭州电子科技大学 | 一种基于四维数据特征的海陆杂波分类方法 |
CN112529035A (zh) * | 2020-10-30 | 2021-03-19 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 识别不同电台个体种类的智能识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5497447A (en) * | 1993-03-08 | 1996-03-05 | International Business Machines Corporation | Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors |
CN1746973A (zh) * | 2004-09-06 | 2006-03-15 | 三星电子株式会社 | 分布式语音识别系统和方法 |
US20060140413A1 (en) * | 1999-11-11 | 2006-06-29 | Sony Corporation | Method and apparatus for classifying signals, method and apparatus for generating descriptors and method and apparatus for retrieving signals |
CN1920947A (zh) * | 2006-09-15 | 2007-02-28 | 清华大学 | 用于低比特率音频编码的语音/音乐检测器 |
US20080162121A1 (en) * | 2006-12-28 | 2008-07-03 | Samsung Electronics Co., Ltd | Method, medium, and apparatus to classify for audio signal, and method, medium and apparatus to encode and/or decode for audio signal using the same |
CN101546556A (zh) * | 2008-03-28 | 2009-09-30 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类系统 |
CN102089803A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 用以将信号的不同段分类的方法与鉴别器 |
-
2011
- 2011-09-09 CN CN2011102679653A patent/CN103000172A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5497447A (en) * | 1993-03-08 | 1996-03-05 | International Business Machines Corporation | Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors |
US20060140413A1 (en) * | 1999-11-11 | 2006-06-29 | Sony Corporation | Method and apparatus for classifying signals, method and apparatus for generating descriptors and method and apparatus for retrieving signals |
CN1746973A (zh) * | 2004-09-06 | 2006-03-15 | 三星电子株式会社 | 分布式语音识别系统和方法 |
CN1920947A (zh) * | 2006-09-15 | 2007-02-28 | 清华大学 | 用于低比特率音频编码的语音/音乐检测器 |
US20080162121A1 (en) * | 2006-12-28 | 2008-07-03 | Samsung Electronics Co., Ltd | Method, medium, and apparatus to classify for audio signal, and method, medium and apparatus to encode and/or decode for audio signal using the same |
CN101546556A (zh) * | 2008-03-28 | 2009-09-30 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类系统 |
CN102089803A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 用以将信号的不同段分类的方法与鉴别器 |
Non-Patent Citations (6)
Title |
---|
关欣: ""音乐信号自动分类相关算法研究"", 《中国博士学位论文全文数据库信息科技辑》 * |
劳信尧: ""基于模糊积分的多光谱遥感图像分类方法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
钱慧如: ""基于多分类器的移动通信客户信息挖掘"", 《商业现代化》 * |
陈庆轩 等: ""多分类器融合的文本分类技术研究"", 《计算机科学》 * |
高凤娥: ""分布式环境下多分类器识别和应用"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
魏利利: ""音频信号分类算法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413553B (zh) * | 2013-08-20 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、编码端、解码端和系统 |
US9812139B2 (en) | 2013-08-20 | 2017-11-07 | Tencent Technology (Shenzhen) Company Limited | Method, terminal, system for audio encoding/decoding/codec |
US9997166B2 (en) | 2013-08-20 | 2018-06-12 | Tencent Technology (Shenzhen) Company Limited | Method, terminal, system for audio encoding/decoding/codec |
CN103413553A (zh) * | 2013-08-20 | 2013-11-27 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、编码端、解码端和系统 |
CN104732970B (zh) * | 2013-12-20 | 2018-12-04 | 中国科学院声学研究所 | 一种基于综合特征的舰船辐射噪声识别方法 |
CN104732970A (zh) * | 2013-12-20 | 2015-06-24 | 中国科学院声学研究所 | 一种基于综合特征的舰船辐射噪声识别方法 |
WO2016149937A1 (en) * | 2015-03-26 | 2016-09-29 | Intel Corporation | Neural network classification through decomposition |
US10915794B2 (en) | 2015-03-26 | 2021-02-09 | Intel Corporation | Neural network classification through decomposition |
CN104992553A (zh) * | 2015-07-29 | 2015-10-21 | 上海斐讯数据通信技术有限公司 | 一种家电红外遥控波形的复制学习方法及系统 |
CN104992553B (zh) * | 2015-07-29 | 2018-05-01 | 上海斐讯数据通信技术有限公司 | 一种家电红外遥控波形的复制学习方法及系统 |
CN108201435A (zh) * | 2017-12-06 | 2018-06-26 | 深圳和而泰数据资源与云技术有限公司 | 睡眠分期确定方法、相关设备及计算机可读介质 |
CN108714026A (zh) * | 2018-03-27 | 2018-10-30 | 杭州电子科技大学 | 基于深度卷积神经网络和在线决策融合的细粒度心电信号分类方法 |
CN109545192A (zh) * | 2018-12-18 | 2019-03-29 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN109545192B (zh) * | 2018-12-18 | 2022-03-08 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN110501683A (zh) * | 2019-08-19 | 2019-11-26 | 杭州电子科技大学 | 一种基于四维数据特征的海陆杂波分类方法 |
CN110501683B (zh) * | 2019-08-19 | 2021-06-04 | 杭州电子科技大学 | 一种基于四维数据特征的海陆杂波分类方法 |
CN112529035A (zh) * | 2020-10-30 | 2021-03-19 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 识别不同电台个体种类的智能识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103000172A (zh) | 信号分类方法和装置 | |
CN103646649B (zh) | 一种高效的语音检测方法 | |
CN108122562A (zh) | 一种基于卷积神经网络和随机森林的音频分类方法 | |
CN109767785A (zh) | 基于卷积神经网络的环境噪声识别分类方法 | |
CN101546556B (zh) | 用于音频内容识别的分类系统 | |
CN102237085B (zh) | 音频信号的分类方法及装置 | |
CN108831443B (zh) | 一种基于堆叠自编码网络的移动录音设备源识别方法 | |
CN109285538A (zh) | 一种基于常q变换域的加性噪声环境下手机来源识别方法 | |
CN106504772B (zh) | 基于重要性权重支持向量机分类器的语音情感识别方法 | |
CN104318927A (zh) | 一种抗噪声的低速率语音编码方法及解码方法 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
CN111541900B (zh) | 基于gan的安防视频压缩方法、装置、设备及存储介质 | |
CN109784368A (zh) | 一种应用程序分类的确定方法和装置 | |
CN114492521A (zh) | 一种基于声振信号的随钻岩性智能识别方法与系统 | |
CN1160450A (zh) | 从连续语音中识别讲话声音的系统及其应用方法 | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
Xiao et al. | Automatic hierarchical classification of emotional speech | |
CN102063897B (zh) | 一种用于嵌入式语音合成系统的音库压缩及使用方法 | |
CN106898357B (zh) | 一种基于正态分布规律的矢量量化方法 | |
CN112133326A (zh) | 一种基于对抗神经网络的枪声数据增广与检测方法 | |
CN110136741A (zh) | 一种基于多尺度上下文的单通道语音增强方法 | |
Zhang et al. | Underwater acoustic source separation with deep Bi-LSTM networks | |
CN109460872A (zh) | 一种面向移动通信用户流失不平衡数据预测方法 | |
CN114999531A (zh) | 一种基于频谱分割与深度学习的语音情感识别方法 | |
Rao et al. | Automatic music genre classification based on linguistic frequencies using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130327 |
|
RJ01 | Rejection of invention patent application after publication |