CN101515454A - 一组用于语音、音乐、噪音自动分类的信号特征提取方法 - Google Patents

一组用于语音、音乐、噪音自动分类的信号特征提取方法 Download PDF

Info

Publication number
CN101515454A
CN101515454A CNA2008100337791A CN200810033779A CN101515454A CN 101515454 A CN101515454 A CN 101515454A CN A2008100337791 A CNA2008100337791 A CN A2008100337791A CN 200810033779 A CN200810033779 A CN 200810033779A CN 101515454 A CN101515454 A CN 101515454A
Authority
CN
China
Prior art keywords
log
voice
sigma
noise
here
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100337791A
Other languages
English (en)
Other versions
CN101515454B (zh
Inventor
杨夙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2008100337791A priority Critical patent/CN101515454B/zh
Publication of CN101515454A publication Critical patent/CN101515454A/zh
Application granted granted Critical
Publication of CN101515454B publication Critical patent/CN101515454B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明属于声音信号处理技术领域,具体是一组用于声音信号自动分类的信号特征提取方法,在所发明的信号特征提取方法的基础上可以构造一个声音信号自动分类系统用于识别一段声音信号是语音、音乐、还是噪音,语音、音乐、噪音自动分类的应用领域包括数字通信系统的声音活动检测和助听器的环境声音识别。本发明提出了三种基于分形度量的声音信号特征提取方法。

Description

一组用于语音、音乐、噪音自动分类的信号特征提取方法
技术领域
本发明属于声音信号处理领域,具体为一组信号特征提取方法,在本发明方法的基础上可以构造声音信号自动分类系统以自动识别所采集的每段声音信号是语音、音乐、还是噪音,应用领域为数字通信系统中的声音活动检测技术和助听器中的环境声音识别技术。
背景技术
声音活动检测是语音编码的前处理过程,在现代数字通信系统中广泛使用,声音活动检测的目的是识别所采集的每桢声音信号是语音、音乐、还是噪音,声音活动检测的意义如下:当通信双方有一个人在讲话时,另一方一般都是在倾听,但是通信系统在用户不讲话的一端也在不停地采集声音信号,而这时采集进来都是环境噪音和器件的自噪音,另外,用户对话过程中经常有停顿和犹豫等不讲话的片段,而这时采集进来的都是噪音信号,如果把这些无意义的噪音信号编码并通过网络传输,则会浪费大量宝贵的网络资源,因此通信系统大都采用声音活动检测技术作为前处理环节,目的是:当识别出一段采集进来的信号为语音或音乐时,对其进行编码和网络传输;当识别出采集进来的信号为噪音时,将其过滤掉,不对其进行编码和网络传输,根据统计,在全双工英文通信过程中,采集进系统的信号大约有60%以上是噪音,因此声音活动检测是现代通信系统中一个非常重要的环节,这一点在各个无线通信标准和IP语音通信标准中都有体现,如3GPP、3GPP2、H.323等。这方面已发表的工作包括国际电信联盟(ITU)G.729标准中提出的用过零点和能量作为特征的声音活动检测方法、以及黎家力在中国发明专利00127494.5“一种从噪音环境中识别出语音和音乐的声音活动检测方法”中提出的用子带能量作为声音信号特征的声音活动检测方法等。
环境声音识别对于助听器具有重要意义,很多使用助听器的用户都抱怨,在无人讲话时助听器里总有一种很嘈杂的噪音,必须拿掉助听器或手动将助听器开关关闭才能不被噪音打扰,这是因为无论环境声音是语音、音乐、还是噪音,助听器一直在不断地采集环境声音,同时助听器还有器件自噪音,所有这些采集进助听器的声音都不加区别地播放给用户听。以上问题的一种解决方案是:利用声音分类技术自动识别出采集进系统的信号是语音、音乐、还是噪音,如果是噪音就自动将助听器开关关闭,如果是语音或音乐则自动将助听器开关打开,这样就不会出现噪音一直打扰用户的情形,M.Bushler等人在Eurasip Journal on AppliedSignal Processing 2005年18卷2991到3002页的文章“Sound classification in hearing aidsinspired by auditory scene analysis”中探讨并测试了多种用于助听器环境声音分类的技术方案,这些方案由多种不同的声音信号特征提取方法以及分类方法组合而成。
以往的声音分类方法都是基于信号的能量或频率特征,但是强噪音的能量在某些时候也可能和语音或音乐相当,另外,在各种不同环境下,噪音频带范围是不固定的,很难从频率上区分一段信号是噪音还是语音或音乐。由于基于能量和频率的特征存在上述问题,本发明提出用分形特征对声音信号分类。
发明内容
本发明的目的在于提供一组用于语音、音乐、噪音自动分类的信号特征提取方法,在本发明提出的信号特征提取方法的基础上可以构造一个声音信号自动分类系统,用于解决通信系统语音编码前处理和助听器中的语音、音乐、噪音自动分类的问题。
以下先对实现本发明的技术方案所涉及、使用的一些模式识别领域的技术名词、术语作如下定义和解释。
时间序列:信号采样后的离散值,就是数字信号;本发明所说的信号指的是声音信号。
声音信号的类别:这里指语音、音乐、噪音,噪音又分为环境噪音和自噪音,自噪音指声音采集和处理设备自身的噪音,环境噪音指周围环境中除语音和音乐之外的声音。
特征提取:目的是从看似没有规律的信号波形中抽取出有规律的信息,实际上是通过一种计算方法对信号进行处理以得到一些参量,这些参量在模式识别领域称为特征,经过特征提取得到的这些参量应该具有比较明显的规律性,即:同类别信号提取出的特征参量应该具有相似性,不同类别信号的特征参量具有差异性。这里所称的“特征”是模式识别领域的一个术语,英文名称为“Feature”,它与矩阵论中所指的“特征值”不同,矩阵论中的术语“特征值”的英文名称为“Eigenvalue”。
特征向量:从一个信号中提取出的所有特征参量堆积起来构成一个向量,称为特征向量。这里所称的“特征向量”是模式识别领域的术语,英文称为“Feature Vector”,它不同于矩阵理论中所指的“特征向量”,矩阵论中所指的“特征向量”的英文名称是“Eigenvector”。
分形:数学领域的一个分支,包含很多可以用于信号分析的数学工具,这些分析工具可以用于信号的特征提取。
分形维数:一种测度,可以用于度量对象的粗糙程度,有多种计算方法,包括:毯子覆盖维、广义盒子维等。
分形布朗运动:一种随机运动,可以用一个数学模型描述,称为分形布朗运动模型。
分类器:可以看作一种映射,当输入一个特征向量时,分类器输出一个类别号;由于一个特征向量对应一个信号(一个特征向量是从一个信号中提取出来的),所以分类器输出的类别号也就是输入的特征向量对应的信号的类别号,由此可以实现信号的自动分类,声音信号的自动分类也称为声音信号的自动识别。
分类器的训练:分类器一般都有很多参数(如支持向量机),只有通过训练算法才能把分类器的参数调整为合适的值,当分类器的参数调整到合适的值后,分类器才能较好地工作(以分类正确率衡量)。
模式识别系统:至少包括特征提取和分类器这两个环节,特征提取可以从信号中计算出一些参量并形成特征向量,分类器可以把特征向量映射为某个类别号。
声音信号分类/声音信号识别:为声音信号分类(也称识别)设计的模式识别系统,可以用于通信系统语音编码前处理和助听器中的语音、音乐、噪音分类。
本发明是一组用于声音信号自动分类的信号特征提取方法,由于语音、音乐、噪音在波形粗糙程度上存在明显差异,而分形理论中有很多方法可以用于粗糙度的度量,因此本发明提出了三种基于分形理论的信号特征提取方法:基于分形布朗运动模型的特征、基于毯子覆盖维的特征、基于广义盒子维的特征;在对声音信号进行分类时,这三种特征可以单独使用、也可以两两组合使用、还可以三者一起使用;一般情况下,三种特征一起使用时声音自动分类的效果最好。
这里所述的一组用于语音、音乐、噪声自动分类的信号特征提取方法包括:
特征提取方法一:采集一段声音,对这段声音采样,得到时间序列[s1,s2,...,sN],根据分形布朗运动模型计算时间序列[s1,s2,...,sN]的特征,具体步骤为:
(1)计算差分统计量 σ k = 1 N - k Σ i = 1 N - k [ s i + k - s i - 1 N - k Σ j = 1 N - k ( s j + k - s j ) ] 2 , 这里k=1,2,...,N-2;
(2)把{σ1,σ2,...,σN-2}作为时间序列[s1,s2,...,sN]的基本特征,对基本特征{σ1,σ2,...,σN-2}进行变换,得到f(σ1,σ2,...,σN-2),f(σ1,σ2,...,σN-2)是以基本特征(σ1,σ2,...,σN-2)为输入的任何一种计算方法产生的输出,把f(σ1,σ2,...,σN-2)作为用于对时间序列[s1,s2,...,sN]进行分类的特征;
特征提取方法二:采集一段声音,对这段声音采样,得到时间序列[s1,s2,...,sN],根据分形理论中计算毯子覆盖维数的原理计算时间序列[s1,s2,...,sN]的特征,具体步骤为:
(1)令 U i 0 = L i 0 = s i C , C是一个系数且满足|siC|≥1,这里i=1,2,...,N;
(2)计算 U i r = max { U i - 1 r - 1 , U i r - 1 + 1 , U i + 1 r - 1 } L i r = min { L i - 1 r - 1 , L i r - 1 - 1 , L i + 1 r - 1 } , 这里r=1,2,...,R且i=2,3,...,N-1;
(3)计算 M r = Σ i = 2 N - 1 U i r - L i r 2 r , 这里r=1,2,...,R;
(4)把点序列[(logr,logMr):r=1,2,...,R]分割为T段,1≤T≤10,对第i段点序列,求出使得 Σ r ( log M r - K i log r - E i ) 2 最小的Ki和Ei,这里i=1,2,...,T;
(5)把{Ki|i=1,2,...,T}作为时间序列[s1,s2,...,sN]的基本特征,对基本特征{Ki|i=1,2,...,T}进行变换,得到g(K1,K2,...,KT),g(K1,K2,...,KT)是以基本特征(K1,K2,...,KT)为输入的任何一种计算方法产生的输出,把g(K1,K2,...,KT)作为用于对时间序列[s1,s2,...,sN]进行分类的特征;
特征提取方法三:采集一段声音,对这段声音采样,得到时间序列[s1,s2,...,sN],根据分形理论中计算广义盒子维数的原理计算时间序列[s1,s2,...,sN]的特征,具体步骤为:
(1)给定常数X1、X2、Y1、Y2、A、B、C、D,使得X1=min{xi|i=1,2,...,N}、X2=max{xi|i=1,2,...,N}、Y1=min{yi|i=1,2,...,N}、Y2=max{yi|i=1,2,...,N},这里 { ( x i , y i ) = ( i - A C , s i - B D ) | i = 1,2 , . . . , N } ;
(2)设定J个参数{rj|j=1,2,...,J},r1,r2,...,rJ的取值范围满足0<r1<r2<...<rJ≤max{X2-X1,Y2-Y1};
(3)对于j等于1到J的循环,完成以下计算:将包含{(xi,yi)|i=1,2,...,N}的矩形区域[X1,X2]×[Y1,Y2]划分为边长为rj的网格,计算{(xi,yi)|i=1,2,...,N}中的点落入各个网格的个数,设有K(j)个网格,则落入各个网格的点的个数记作{Mi j|i=1,2,...,K(j)};
(4)把{Mi j|j=1,2,...,i=i=1,2,...,K(j)}作为时间序列[s1,s2,...,sN]的基本特征,对基本特征{Mi j|j=1,2,...,J;i=1,2,...,K(j)}进行变换,得到h(M1 1,M2 1,...,MK(1) 1,M1 2,M2 2,...,MK(2) 2,...,M1 J,M2 J,...,MK(J) J),h(M1 1,M2 1,...,MK(1) 1,M1 2,M2 2,...,MK(2) 2,...,M1 J,M2 J,...,MK(J) J)是以基本特征(M1 1,M2 1,...,MK(1) 1,M1 2,M2 2,...,MK(2) 2,...,M1 J,M2 J,...,MK(J) J)为输入的任何一种计算方法产生的输出,把h(M1 1,M2 1,...,MK(1) 1,M1 2,M2 2,...,MK(2) 2,...,M1 J,M2 J,...,MK(J) J)作为用于对时间序列[s1,s2,...,sN]进行分类的特征;
特征提取方法一中,所述的基本特征{σ1,σ2,...,σN-2}形式上的变换可以是:f(σ1,σ2,...,σN-2)=(A1σ1+B1,A2σ2+B2,...,AN-1σN-2+BN-2),这里Ai和Bi是常系数,i=1,2,...,N-2,且 Σ i = 1 N - 2 | A i | ≠ 0 ;
特征提取方法一中,所述的基本特征{σ1,σ2,...,σN-2}形式上的变换也可以是:f(σ1,σ2,...,σN-2)=[log(A1σ1+B1),log(A2σ2+B2),..,log(AN-1σN-2+BN-2)],这里Ai和Bi是常系数,i=1,2,...,N-2,且 Σ i = 1 N - 2 | A i | ≠ 0 ;
特征提取方法二中,所述的基本特征{Ki|i=1,2,...,T}形式上的变换可以是:g(K1,K2,...,KT)=(A1K1+B1,A2K2+B2,...,ATKT+BT),这里Ai和Bi是常系数,i=1,2,...,N-1,且 Σ i = 1 T | A i | ≠ 0 ;
特征提取方法二中,所述的基本特征{Ki|i=1,2,...,T}形式上的变换也可以是:g(K1,K2,...,KT)=[log(A1K1+B1),log(A2K2+B2),...,log(ATKT+BT)],这里Ai和Bi是常系数,i=1,2,...,N-1,且 Σ i = 1 T | A i | ≠ 0 ;
特征提取方法三中,所述的基本特征{Mi j|j=1,2,...,J;i=1,2,...,K(j)}形式上的变换可以是: h ( M 1 1 , M 2 1 , . . . , M K ( 1 ) 1 , M 1 2 , M 2 2 , . . . , M K ( 2 ) 2 , . . . , M 1 J , M 2 J , . . . , M K ( J ) J ) = ( A 1 1 M 1 1 + B 1 1 , A 2 1 M 2 1 + B 2 1 , . . . , A K ( 1 ) 1 M K ( 1 ) 1 + B K ( 1 ) 1 , A 1 2 M 1 2 + B 1 2 , A 2 2 M 2 2 + B 2 2 , . . . , A K ( 2 ) 2 M K ( 2 ) 2 + B K ( 2 ) 2 , . . . , A 1 J M 1 J + B 1 J , A 2 J M 2 J + B 2 J , . . . , A K ( J ) J M K ( J ) J + B K ( J ) J ) , 这里Ai j和Bi j是常系数,j=1,2,...,J,i=1,2,...,K(j), Σ j = 1 J Σ i = 1 K ( j ) | A i j | ≠ 0 ;
特征提取方法三中,所述的基本特征{Mi j|j=1,2,...,J;i=1,2,...,K(j)}形式上的变换也可以是: h ( M 1 1 , M 2 1 , . . . , M K ( 1 ) 1 , M 1 2 , M 2 2 , . . . , M K ( 2 ) 2 , . . . , M 1 J , M 2 J , . . . , M K ( J ) J ) = [ log ( A 1 1 M 1 1 + B 1 1 ) , log ( A 2 1 M 2 1 + B 2 1 ) , . . . , log ( A K ( 1 ) 1 M K ( 1 ) 1 + B K ( 1 ) 1 ) , log ( A 1 2 M 1 2 + B 1 2 ) , log ( A 2 2 M 2 2 + B 2 2 ) , . . . , log ( A K ( 2 ) 2 M K ( 2 ) 2 + B K ( 2 ) 2 ) , . . . , log ( A 1 J M 1 J + B 1 J ) , log ( A 2 J M 2 J + B 2 J ) , . . . , log ( A K ( J ) J M K ( J ) J + B K ( J ) J ) ] , 这里Ai j和Bi j是常系数,j=1,2,...,J,i=1,2,...,K(j), Σ j = 1 J Σ i = 1 K ( j ) | A i j | ≠ 0 ;
特征提取方法三中,所述的基本特征{Mi j|j=1,2,...,J;i=1,2,...,K(j)}形式上的变换还可以是按照以下步骤计算得出的{Dq|q=0,1,...,Q}:
(a)对于j=1,2,...,J和i=1,2,...,K(j),计算 p ( j , i ) = M i j N ;
(b)计算{Zq(j)|q=0,1,...,Q;j=1,2,...,J}:如果q=1,则 Z q ( j ) = Σ i = 1 K ( j ) p ( j , i ) log p ( j , i ) ; 否则, Z q ( j ) = 1 q - 1 log Σ i = 1 K ( j ) [ p ( j , i ) ] q ;
(c)对于{(logrj,Zq(j))|j=1,2,...,J},求出使得 Σ j = 1 J [ Z q ( j ) - D q log r j ] 2 最小的Dq,这里q=0,1,...,Q。
在特征提取方法一中,基本特征的变换f(σ1,σ2,...,σN-2)=(A1σ1+B1,A2σ2+B2,...,AN-2σN-2+BN-2),当Ai=1且Bi=0时,这里i=1,2,...,N-2,基本特征的变换(A1σ1+B1,A2σ2+B2,...,AN-2σN-2+BN-2)就等于基本特征(σ1,σ2,...,σN-2);{σ1,σ2,...,σN-2}是分形布朗运动的参量,如果把时间序列[s1,s2,...,sN]看作分形布朗运动(差分序列满足高斯分布的时间序列都可以看作是分形布朗运动,根据实验观察,声音信号可以近似看作分形布朗运动),不同类别的声音信号满足不同的分形布朗运动模型,因此{σ1,σ2,...,σN-2}反映了不同类别的声音信号之间的差异。
在特征提取方法一中,基本特征(σ1,σ2,...,σN-2)、基本特征的变换f(σ1,σ2,...,σN-2)=(A1σ1+B1,A2σ2+B2,...,AN-2σN-2+BN-2),以及基本特征的变换f(σ1,σ2,...,σN-2)=[log(A1σ1+B1),log(A2σ2+B2),..,log(AN-2σN-2+BN-2)]均可以作为特征用于声音时间序列的分类;根据模式识别理论,由于f(σ1,σ2,...,σN-2)=(A1σ1+B1,A2σ2+B2,...,AN-2σN-2+BN-2)是对基本特征的线性变换,因此f(σ1,σ2,...,σN-2)=(A1σ1+B1,A2σ2+B2,...,AN-2σN-2+BN-2)在分类精度上与基本特征(σ1,σ2,...,σN-1)完全相同;基本特征经过变换得到的特征f(σ1,σ2,...,σN-2)=[log(A1σ1+B1),log(A2σ2+B2),...,log(AN-2σN-2+BN-2)]是对基本特征的非线性变换,在分类精度上与基本特征(σ1,σ2,...,σN-2)或基本特征的线性变换(A1σ1+B1,A2σ2+B2,...,AN-2σN-2+BN-2)会有差异,因为[log(A1σ1+B1),log(A2σ2+B2),...,log(AN-2σN-2+BN-2)]中的对数操作使得原来的特征分布产生了非线性变形,同时,对数操作消除了原来的特征的各个分量在数量级上的差异。
在特征提取方法二中,对于基本特征的变换g(K1,K2,...,KT)=(A1K1+B1,A2K2+B2,...,ATKT+BT),当Ai=1且Bi=0时,这里i=1,2,...,T,基本特征的变换(A1K1+B1,A2K2+B2,...,ATKT+BT)就等于基本特征(K1,K2,...,KT);当Ai=-1且Bi=1时,这里i=1,2,...,T,基本特征的变换(A1K1+B1,A2K2+B2,....,ATKT+BT)就等于毯子覆盖维(1-K1,1-K2,...,1-KT),毯子覆盖维{1-K1,1-K2,...,1-KT}是时间序列[s1,s2,...,sN]的波形粗糙程度的一种度量,不同类别声音信号的波形粗糙度不同,因此(1-K1,1-K2,...,1-KT)反映了不同类别声音信号之间的差异。
在特征提取方法三中,对于基本特征的变换 h ( M 1 1 , M 2 1 , . . . , M K ( 1 ) 1 , M 1 2 , M 2 2 , . . . , M K ( 2 ) 2 , . . . , M 1 J , M 2 J , . . . , M K ( J ) J ) = ( A 1 1 M 1 1 + B 1 1 , A 2 1 M 2 1 + B 2 1 , . . . , A K ( 1 ) 1 M K ( J ) 1 + B K ( 1 ) 1 , A 1 2 M 1 2 + B 1 2 , A 2 2 M 2 2 + B 2 2 , . . . , A K ( 2 ) 2 M K ( 2 ) 2 + B K ( 2 ) 2 , . . . , A 1 J M 1 J + B 1 J , A 2 J M 2 J + B 2 J , . . . , A K ( J ) J M K ( J ) J + B K ( J ) J ) , A i j = 1 B i j = 0 时,这里Ai j和Bi j是常系数,j=1,2,...,J,i=1,2,...,K(j),基本特征的变换就等于基本特征。
在特征提取方法三中,基本特征{Mi j|j=1,2,...,J;i=1,2,...,K(j)}是一种分形度量,基本特征的变换 h ( M 1 1 , M 2 1 , . . . , M K ( 1 ) 1 , M 1 2 , M 2 2 , . . . , M K ( 2 ) 2 , . . . , M 1 J , M 2 J , . . . , M K ( J ) J ) = ( D 0 , D 1 , . . . , D Q ) 是在分形度量{Mi j|j=1,2,...,J;i=1,2,...,K(j)}的基础上计算出的广义盒子维,广义盒子维{Dq|q=0,1,...,Q}反映了时间序列[s1,s2,...,sN]的波形粗糙程度,不同类别声音信号的波形粗糙度不同,因此{Dq|q=0,1,...,Q}反映了不同类别声音信号之间的差异。
本发明的核心内容是声音信号的三种基本特征,基本特征可以用于声音信号的分类,而基本特征的变换只是表达形式的改变,不论对基本特征采用何种形式的变换,基本特征经过形式变换后仍然可以用于声音信号的分类,只是在分类精度上与基本特征相比有可能存在差异。另外,根据模式识别理论,如果用于分类的特征是基本特征的线性变换,则其在分类精度上与基本特征完全相同。
本发明的优点:
对于声音信号自动分类而言,最困难之处是特征提取,即:如何获取可以区分不同类别信号的有规律的信息。以往的声音分类方法都是基于信号的能量或频率特征,但是强噪音的能量在某些时候也可能和语音或音乐相当,另外,在各种不同环境下,噪音频带范围是不固定的,很难从频率上区分一段信号是噪音还是语音或音乐,由于能量和频率不是反映语音、音乐、噪音本质区别最合适的物理量,因此现有特征提取方法很难获得令人满意的声音分类效果。
本发明方法的一个优点是:语音、音乐、噪音的波形在粗糙程度上有很大区别,而分形度量是一种粗糙度的度量,因此本发明提出将基于分形度量的特征用于声音信号分类;另一方面,根据观察,各类声音信号都近似满足分形布朗运动模型,分形布朗运动的差分序列满足高斯分布,而不同类别的声音信号的差分序列满足不同的高斯分布,因此本发明采用声音信号的差分序列的标准差作为区分不同类别声音信号的特征;由于本发明是基于语音、音乐、噪音有明显区别的物理量,因此基于本发明方法的声音分类效果好,经实验,对于两类的分类(语音和音乐作为一类,环境噪音和自噪音作为另一类),正确率平均达到95.60%,对于三类的分类(语音和音乐各作为一类,环境噪音和自噪音作为第三类),正确率平均达到94.56%,对于四类的分类(语音、音乐、环境噪音、自噪音各作为一类),正确率平均达到92.16%。
本发明方法的另一个优点是:对于各种环境下的强噪音和和各种频带的噪音,即使从能量和频率上不能反映出噪音、语音、音乐的差别,但是在波形粗糙度上的这几类信号的差异仍然存在,因此在这些场合下本发明提出的基于分形度量的特征提取方法相比已有的方法更为稳健,因为分形度量可以反映不同类别的声音信号在波形粗糙度上的差异;此外,由于标准差是根据对大量样本统计得到的参量,所以是比较稳定的参量,即使数据含有噪声,在计算标准差时也不会产生较大偏差,因此本发明提出的基于分形布朗运动模型的特征提取方法、以及基于毯子覆盖维和广义盒子维的特征提取方法,相对于已有的方法更为稳健。
附图说明
图1:声音信号分类系统的组成框图
图2:特征提取方法一的计算流程
图3:特征提取方法二的计算流程
图4:特征提取方法三的计算流程
具体实施方式
本发明是一组用于语音、音乐、噪音自动分类的信号特征提取方法,在本发明提出的信号特征提取方法的基础上可以构造一个声音信号自动分类系统用于语音、音乐、噪音的自动分类,本发明提出的信号特征提取方法是整个声音信号自动分类系统的一个组成部分,整个声音信号分类系统的组成见附图1,由以下部分组成:
(1)特征提取:功能是通过一系列的计算从看似无规律的声音信号中提取出有助于声音信号分类的有规律的信息,可以用软件或硬件模块实现;如附图2~4所示,本发明一共提出了三种声音信号特征提取方法,且每种声音信号特征提取方法有多种形式的实现方式;不同的声音信号特征提取方法组合在一起就构成了不同的声音信号特征提取技术方案,在对声音信号进行分类时,本发明提出的三种特征提取方法可以单独使用、也可以两两组合使用、还可以三者一起使用,这样可以构成多种声音信号特征提取的技术方案;一般情况下的最佳技术方案是:将三种特征提取方法组合起来一起使用,此时声音自动分类的效果最好;由于本发明提出的三种声音信号特征提取方法经过不同的组合后可以形成多种声音信号特征提取技术方案,且每一种声音信号特征提取方法有多种实现方式,因此后面将列举8个实施例。不同特征的组合是按照以下方式进行的:假设第一种特征为一个向量[a1,a2,...,aM],第二种特征为一个向量[b1,b2,...,bN],第三种特征为一个向量[c1,c2,...,cK],三种特征的组合就是将三个向量合并为一个如下形式的向量[a1,a2,...,aM,b1,b2,...,bN,c1,c2,...,cK];两种特征的组合方式类似。
(2)分类器:功能是根据前一步计算获得的声音信号的特征自动判断声音信号的类别,分类器可以由软件或硬件实现,分类器可以看作一个映射,将前一步计算得到的声音信号的特征输入分类器,分类器会自动输出一个类别号,这个类别号代表声音信号的类别(例如:语音、音乐、噪音);分类器输出的关于声音信号的类别信息可以用于通信系统中语音编码前处理中的声音信号分类和助听器中的环境声音识别;常用的分类器有k近邻分类器、贝叶斯分类器、神经网络、支持向量机等,在实施例中使用支持向量机作为分类器,因为支持向量机有很多开放源代码的软件实现,如LIBSVM(见http://www.csie.ntu.edu.tw/~cjlin/libsvm);支持向量机的参数需要经过训练调整到较佳值后,在分类时才能较好地工作,LIBSVM软件包里提供有训练工具,支持向量机的参数训练方法可参考Nello Cristianini和JohnShawa-Taylor合著的《An introduction to support vector machines and other kernel-based learningmethods》,本书2000年由Cambridge University Press出版。
实施例1:
步骤1:以16000Hz的采样频率采集0.5秒的声音信号,得到时间序列[s1,s2,...,sN],这里N=8000;
步骤2:对于时间序列[s1,s2,...,sN],计算基于分形布朗运动的基本特征(σ1,σ2,...,σN-2),这里 σ k = 1 N - k Σ i = 1 N - k [ s i + k - s i - 1 N - k Σ j = 1 N - k ( s j + k - s j ) ] 2 , k=1,2,...,N-2;
步骤3:对基本特征(σ1,σ2,...,σN-2)进行变换得到f(σ1,σ2,...,σN-2)=(A1σ1+B1,A2σ2+B2,...,AN-2σN-2+BN-2),这里令A1=A2=...A100=1,A101=A102=...A7998=0,B1=B2=...B7998=0,则f(σ1,σ2,...,σN-2)=(σ1,σ2,...,σ100),把f(σ1,σ2,...,σN-2)=(σ1,σ2,...,σ100)作为用于对时间序列[s1,s2,...,sN)进行分类的特征;
步骤4:把特征向量(σ1,σ2,...,σ100)输入参数已调整好的支持向量机分类器,支持向量机会输出一个类别号,这个类别号指示[s1,s2,...,sN]是属于语音、音乐、还是噪音,这里,支持向量机用开放源代码软件LIBSVM实现,源代码见http://www.csie.ntu.edu.tw/~cjlin/libsvm,LIBSVM软件包里提供有训练工具,可以完成支持向量机参数的训练。
实施例2:
步骤1:以16000Hz的采样频率采集0.5秒的声音信号,得到时间序列[s1,s2,...,sN],这里N=8000;
步骤2:与实施例1的步骤2完全相同,得到基本特征(σ1,σ2,...,σN-2);
步骤3:对基本特征f(σ1,σ2,...,σN-2)进行变换得到f(σ1,σ2,...,σN-2)=[log(A1σ1+B1),log(A2σ2+B2),...,log(AN-2σN-2+BN-2)],这里令A1=A2=...A100=1,A101=A102=...A7998=0,B1=B2=...B7998=0,则f(σ1,σ2,...,σN-2)=[log(σ1),log(σ2),...,log(σ100)],把f(σ1,σ2,...,σN-2)=[log(σ1),log(σ2),...,log(σ100)]作为用于对时间序列[s1,s2,...,sN]进行分类的特征;
步骤4:把特征向量[log(σ1),log(σ2),...,log(σ100)]输入参数已调整好的支持向量机分类器,其余与实施例1的步骤4相同。
实施例3:
步骤1:以16000Hz的采样频率采集0.5秒的声音信号,得到时间序列[s1,s2,...,sN],这里N=8000;
步骤2:对于时间序列[s1,s2,...,sN],计算基于毯子覆盖维的特征,具体步骤为:
(1)对于i等于1到N的循环,令 U i 0 = L i 0 = s i C , 这里取C=10000;
(2)对于r=1,2,...,R和i=2,3,...,N-1,计算 U i r = max { U i - 1 r - 1 , U i r - 1 + 1 , U i + 1 r - 1 } L i r = min { L i - 1 r - 1 , L i r - 1 - 1 , L i + 1 r - 1 } , 这里取R=50;
(3)计算 M r = Σ i = 2 N - 1 U i r - L i r 2 r , 这里r=1,2,...,R;
(4)把点序列[(logr,logMr):r=1,2,...,R]分割为T段,这里取T=4,对第i段点序列,求出使得 Σ r ( log M r - K i log r - E i ) 2 最小的Ki和Ei,这里i=1,2,...,T,(K1,K2,...,KT)是时间序列[s1,s2,...,sN]的基本特征;
步骤3:对基本特征(K1,K2,...,KT)进行变换得到g(K1,K2,..,KT)=(A1K1+B1,A2K2+B2,...,ATKT+BT),这里令A1=A2=A3=A4=-1,B1=B2=B3=B4=1,则g(K1,K2,...,KT)=(1-K1,1-K2,1-K3,1-K4),把g(K1,K2,...,KT)=(1-K1,1-K2,1-K3,1-K4)作为用于对时间序列[s1,s2,...,sN]进行分类的特征;
步骤4:把特征向量(1-K1,1-K2,1-K3,1-K4)输入参数已调整好的支持向量机分类器,其余与实施例1的步骤4相同。
实施例4:
步骤1:以16000Hz的采样频率采集0.5秒的声音信号,得到时间序列[s1,s2,...,sN],这里N=8000;
步骤2:与实施例3的步骤2完全相同,得到时间序列[s1,s2,...,sN]的基本特征(K1,K2,...,KT);
步骤3:对基本特征(K1,K2,...,KT)进行变换得到g(K1,K2,...,KT)=[log(A1K1+B1),log(A2K2+B2),...,log(ATKT+BT)],这里令A1=A2=A3=A4=-1,B1=B2=B3=B4=1,则g(K1,K2,...,KT)=[log(1-K1),log(1-K2),log(1-K3),log(1-K4)],把g(K1,K2,...,KT)=[log(1-K1),log(1-K2),log(1-K3),log(1-K4)]作为用于对时间序列[s1,s2,...,sN]进行分类的特征;
步骤4:把特征向量[log(1-K1),log(1-K2),log(1-K3),log(1-K4)]输入参数已调整好的支持向量机分类器,其余与实施例1的步骤4相同。
实施例5:
步骤1:以16000Hz的采样频率采集0.5秒的声音信号,得到时间序列[s1,s2,...,sN],这里N=8000;
步骤2:对于时间序列[s1,s2,...,sN],计算基于广义盒子维的特征,具体步骤如下:
(1)取X1=0、X2=1、Y1=0、Y2=1,对应地取A=1、B=min{s1,s2,...,sN}、C=N-1、D=max{s1,s2,...,sN}-min{s1,s2,...,sN},令xi=(i-A)/C和yi=(si-B)/D,这里i=1,2,...,N;
(2)令J=50;令r1=0.01;令rJ=0.1;当i=2,3,...,J-1时,计算ri=ri-1+(r50-r1)/(J-1);
(3)对于j等于1到J的循环,完成以下计算:将包含{(xi,yi)|i=1,2,...,N}的矩形区域[X1,X2]×[Y1,Y2]划分为边长为rj的网格,计算{(xi,yi)|i=1,2,...,N}中的点落入各个网格的个数,设有K(j)个网格,则落入各个网格的点的个数记作{Mi j|i=1,2,...,K(j)},[Mi j|j=1,2,...,J;i=1,2,...,K(j)]是时间序列[s1,s2,...,sN]的基本特征;
步骤3:对基本特征[Mi j|j=1,2,...,J;i=1,2,...,K(j)]进行变换得到 h ( M 1 1 , M 2 1 , . . . , M K ( 1 ) 1 , M 1 2 , M 2 2 , . . . , M K ( 2 ) 2 , . . . , M 1 J , M 2 J , . . . , M K ( J ) J ) = ( A 1 1 M 1 1 + B 1 1 , A 2 1 M 2 1 + B 2 1 , . . . , A K ( 1 ) 1 M K ( 1 ) 1 + B K ( 1 ) 1 , A 1 2 M 1 2 + B 1 2 , A 2 2 M 2 2 + B 2 2 , . . . , A K ( 2 ) 2 M K ( 2 ) 2 + B K ( 2 ) 2 , . . . , A 1 J M 1 J + B 1 J , A 2 J M 2 J + B 2 J , . . . , A K ( J ) J M K ( J ) J + B K ( J ) J ) , 这里令 A i j = 1 B i j = 0 , j=1,2,...,J,i=1,2,...,K(j),把 h ( M 1 1 , M 2 1 , . . . , M K ( 1 ) 1 , M 1 2 , M 2 2 , . . . , M K ( 2 ) 2 , . . . , M 1 J , M 2 J , . . . , M K ( J ) J ) = ( A 1 1 M 1 1 + B 1 1 , A 2 1 M 2 1 + B 2 1 , . . . , A K ( 1 ) 1 M K ( 1 ) 1 + B K ( 1 ) 1 , A 1 2 M 1 2 + B 1 2 , A 2 2 M 2 2 + B 2 2 , . . . , A K ( 2 ) 2 M K ( 2 ) 2 + B K ( 2 ) 2 , . . . , A 1 J M 1 J + B 1 J , A 2 J M 2 J + B 2 J , . . . , A K ( J ) J M K ( J ) J + B K ( J ) J ) 作为用于对时间序列[s1,s2,...,sN]进行分类的特征;
步骤4:把特征向量(A1 1M1 1+B1 1,A2 1M2 1+B2 1,...,AK(1) 1MK(1) 1+BK(1) 1,A1 2M1 2+B1 2,A2 2M2 2+B2 2,...,AK(2) 2MK(2) 2+BK(2) 2,...,A1 JM1 J+B1 J,A2 JM2 J+B2 J,...,AK(J) JMK(J) J+BK(J) J)输入参数已调整好的支持向量机分类器,其余与实施例1的步骤4相同。
实施例6:
步骤1:以16000Hz的采样频率采集0.5秒的声音信号,得到时间序列[s1,s2,...,sN],这里N=8000;
步骤2:与实施例5的步骤2完全相同,得到时间序列[s1,s2,...,sN]的基本特征[Mi j|j=1,2,...,J;i=1,2,...,K(j)];
步骤3:对基本特征[Mi j|j=1,2,...,J;i=1,2,...,K(j)]进行变换得到 h ( M 1 1 , M 2 1 , . . . , M K ( 1 ) 1 , M 1 2 , M 2 2 , . . . , M K ( 2 ) 2 , . . . , M 1 J , M 2 J , . . . , M K ( J ) J ) = [ log ( A 1 1 M 1 1 + B 1 1 ) , log ( A 2 1 M 2 1 + B 2 1 ) , . . . , log ( A K ( 1 ) 1 M K ( 1 ) 1 + B K ( 1 ) 1 ) , log ( A 1 2 M 1 2 + B 1 2 ) , log ( A 2 2 M 2 2 + B 2 2 ) , . . . , log ( A K ( 2 ) 2 M K ( 2 ) 2 + B K ( 2 ) 2 ) , . . . , log ( A 1 J M 1 J + B 1 J ) , log ( A 2 J M 2 J + B 2 J ) , . . . , log ( A K ( J ) J M K ( J ) J + B K ( J ) J ) ] , 这里令 A i j = 1 B i j = 0 , j=1,2,...,J,i=1,2,...,K(j),把 h ( M 1 1 , M 2 1 , . . . , M K ( 1 ) 1 , M 1 2 , M 2 2 , . . . , M K ( 2 ) 2 , . . . , M 1 J , M 2 J , . . . , M K ( J ) J ) = [ log ( A 1 1 M 1 1 + B 1 1 ) , log ( A 2 1 M 2 1 + B 2 1 ) , . . . , log ( A K ( 1 ) 1 M K ( 1 ) 1 + B K ( 1 ) 1 ) , log ( A 1 2 M 1 2 + B 1 2 ) , log ( A 2 2 M 2 2 + B 2 2 ) , . . . , log ( A K ( 2 ) 2 M K ( 2 ) 2 + B K ( 2 ) 2 ) , . . . , log ( A 1 J M 1 J + B 1 J ) , log ( A 2 J M 2 J + B 2 J ) , . . . , log ( A K ( J ) J M K ( J ) J + B K ( J ) J ) ] 作为用于对时间序列[s1,s2,...,sN]进行分类的特征;
步骤4:把特征向量[log(A1 1M1 1+B1 1),log(A2 1M2 1+B2 1),...,log(AK(1) 1MK(1) 1+BK(1) 1),log(A1 2M1 2+B1 2),log(A2 2M2 2+B2 2),...,log(AK(2) 2MK(2) 2+BK(2) 2),...,log(A1 JM1 J+B1 J),log(A2 JM2 J+B2 J),...,log(AK(J) JMK(J) J+BK(J) J)]输入参数已调整好的支持向量机分类器,其余与实施例1的步骤4相同。
实施例7:
步骤1:以16000Hz的采样频率采集0.5秒的声音信号,得到时间序列[s1,s2,...,sN],这里N=8000;
步骤2:与实施例5的步骤2完全相同,得到时间序列[s1,s2,...,sN]的基本特征[Mi j|j=1,2,...,J;i=1,2,...,K(j)];
步骤3:对基本特征[Mi j|j=1,2,...,J;i=1,2,...,K(j)]进行变换得到(D0,D1,...,DQ),把(D0,D1,...,DQ)作为用于对时间序列[s1,s2,...,sN]进行分类的特征,(D0,D1,...,DQ)的具体计算步骤如下:
(a)对于j=1,2,...,J和i=1,2,...,K(j),计算 p ( j , i ) = M i j N ;
(b)取Q=50,计算{Zq(j)|q=0,1,...,Q;j=1,2,...,J},Zq(j)的计算方法为:如果q=1,则 Z q ( j ) = Σ i = 1 K ( j ) p ( j , i ) log p ( j , i ) ; 否则, Z q ( j ) = 1 q - 1 log Σ i = 1 K ( j ) [ p ( j , i ) ] q ;
(c)对{(logrj,Zq(j))|j=1,2,...,J}进行最小二乘拟合,求出使得 Σ j = 1 J [ Z q ( j ) - D q log r j ] 2 最小的Dq,这里q=0,1,...,Q;
步骤4:把特征向量(D0,D1,...,DQ)输入参数已调整好的支持向量机分类器,其余与实施例1的步骤4相同。
实施例8:
步骤1:以16000Hz的采样频率采集0.5秒的声音信号,得到时间序列[s1,s2,...,sN],这里N=8000;
步骤2:按照实施例1中的步骤2到步骤3计算时间序列[s1,s2,...,sN]的特征(σ1,σ2,...,σ100);
步骤3:按照实施例3中的步骤2到步骤3计算时间序列[s1,s2,...,sN]的特征(1-K1,1-K2,1-K3,1-K4);
步骤4:按照实施例7中的步骤2到步骤3计算时间序列[s1,s2,...,sN]的特征(D0,D1,...,D50);
步骤5:将步骤2到步骤4得到的三种特征进行组合,得到(σ1,σ2,...,σ100,1-K1,1-K2,1-K3,1-K4,D0,D1,...,D50),把组合特征(σ1,σ2,...,σ100,1-K1,1-K2,1-K3,1-K4,D0,D1,...,D50)作为用于对时间序列[s1,s2,...,sN]进行分类的特征;
步骤6:把特征向量(σ1,σ2,...,σ100,1-K1,1-K2,1-K3,1-K4,D0,D1,...,D50)输入参数已调整好的支持向量机分类器,其余与实施例1的步骤4相同。
一般情况下,三种特征一起使用时声音分类的效果最好,因此对实施例8的声音信号自动分类方案进行了如下实验:首先采集了4类信号,各类信号的样本数如下表所示:
表1:各类信号的样本
  语音   音乐   环境噪音   设备自噪音
  784   770   320   571
实验过程如下:在进行声音信号自动分类前需要对分类器的参数进行训练,每类各随机取50%的信号样本作为训练样本、其余50%的样本作为测试样本,用训练样本对分类器进行训练,训练完成后,对测试样本进行分类,并计算分类正确率;以上过程重复10次,每次都随机选取各类中50%的样本作为训练样本,将10次的分类正确率求平均就是实验结果,实验结果如下表所示:
表2:两类的分类结果
Figure A20081003377900181
表3:三类的分类结果
表4:四类的分类结果
  语音   音乐   环境噪音   自噪音   平均
  92.24%   96.65%   79.87%   92.48%   92.16%
实验结果表明:在本发明方法的基础上构造的声音自动分类系统对语音、音乐、噪音的正确识别率较高。

Claims (8)

1、一组用于语音、音乐、噪音自动分类的信号特征提取方法,其特征在于,至少包括以下方法之一:
(一)采集一段声音,对这段声音采样,得到时间序列[s1,s2,...,sN],根据分形布朗运动模型计算时间序列[s1,s2,...,sN]的特征,具体步骤为:
(1)计算差分统计量 σ k = 1 N - k Σ i = 1 N - k [ s i + k - s i - 1 N - k Σ j = 1 N - k ( s j + k - s j ) ] 2 , 这里k=1,2,...,N-2;
(2)把{σ1,σ2,...,σN-2}作为时间序列[s1,s2,...,sN]的基本特征,对{σ1,σ2,...,σN-2}进行变换,得到f(σ1,σ2,...,σN-2),f(σ1,σ2,...,σN-2)是以(σ1,σ2,...,σN-2)为输入的任何一种计算方法产生的输出,把f(σ1,σ2,...,σN-2)作为用于对时间序列[s1,s2,...,sN]进行分类的特征;
(二)采集一段声音,对这段声音采样,得到时间序列[s1,s2,...,sN],根据分形理论中计算毯子覆盖维数的原理计算时间序列[s1,s2,...,sN]的特征,具体步骤为:
(1)令 U i 0 = L i 0 = s i C , C是一个系数且满足|siC|≥1,这里i=1,2,...,N;
(2)计算 U i r = max { U i - 1 r - 1 , U i r - 1 + 1 , U i + 1 r - 1 } L i r = min { L i - 1 r - 1 , L i r - 1 - 1 , L i + 1 r - 1 } , 这里r=1,2,...,R且i=2,3,...,N-1;
(3)计算 M r = Σ i = 2 N - 1 U i r - L i r 2 r , 这里r=1,2,...,R;
(4)把点序列[(logr,logMr):r=1,2,...,R]分割为T段,1≤T≤10,对第i段点序列,求出使得
Figure A2008100337790002C6
最小的Ki和Ei,这里i=1,2,...,T;
(5)把{Ki|i=1,2,...,T}作为时间序列[s1,s2,...,sN]的基本特征,对{Ki|i=1,2,...,T}进行变换,得到g(K1,K2,...,KT),g(K1,K2,...,KT)是以(K1,K2,...,KT)为输入的任何一种计算方法产生的输出,把g(K1,K2,...,KT)作为用于对时间序列[s1,s2,...,sN]进行分类的特征;
(三)采集一段声音,对这段声音采样,得到时间序列[s1,s2,...,sN],根据分形理论中计算广义盒子维数的原理计算时间序列[s1,s2,...,sN]的特征,具体步骤为:
(1)给定常数X1、X2、Y1、Y2、A、B、C、D,使得X1=min{xi|i=1,2,...,N}、X2=max{xi|i=1,2,...,N}、Y1=min{yi|i=1,2,...,N}、Y2=max{yi|i=1,2,...,N},这里 { ( x i , y i ) = ( i - A C , s i - B D ) | i = 1,2 , . . . , N } ;
(2)设定J个常数{rj|j=1,2,...,J},r1,r2,...,rJ的取值范围满足0<r1<r2<...<rJ≤max{X2-X1,Y2-Y1};
(3)对于j等于1到J的循环,完成以下计算:将包含{(xi,yi)|i=1,2,...,N}的矩形区域[X1,X2]×[Y1,Y2]划分为边长为rj的网格,计算{(xi,yi)|i=1,2,...,N}中的点落入各个网格的个数,设有K(j)个网格,则落入各个网格的点的个数记作 { M i j | i = 1,2 , . . . , K ( j ) } ;
(4)把 { M i j | j = 1,2 , . . . , J ; i = 1,2 , . . . , K ( j ) } 作为时间序列[s1,s2,...,sN]的基本特征,对 { M i j | j = 1,2 , . . . , J ; i = 1,2 , . . . , K ( j ) } 进行变换,得到h(M1 1,M2 1,...,MK(1) 1,M1 2,M2 2,...,MK(2) 2,...,M1 J,M2 J,...,MK(J) J),h(M1 1,M2 1,...,MK(1) 1,M1 2,M2 2,...,MK(2) 2,...,M1 J,M2 J,...,MK(J) J)是以(M1 1,M2 1,...,MK(1) 1,M1 2,M2 2,...,MK(2) 2,...,M1 J,M2 J,...,MK(J) J)为输入的任何一种计算方法产生的输出,把h(M1 1,M2 1,...,MK(1) 1,M1 2,M2 2,...,MK(2) 2,...,M1 J,M2 J,...,MK(J) J)作为用于对时间序列[s1,s2,...,sN]进行分类的特征。
2、根据权利要求1所述的一组用于语音、音乐、噪音自动分类的信号特征提取方法,其特征在于:方法(一)的步骤(2)中,所述的基本特征的变换f(σ1,σ2,...,σN-2)=(A1σ1+B1,A2σ2+B2,...,AN-2σN-2+BN-2),这里Ai和Bi是常系数,i=1,2,...,N-2,且 Σ i = 1 N - 2 | A i | ≠ 0 .
3、根据权利要求1所述的一组用于语音、音乐、噪音自动分类的信号特征提取方法,其特征在于:方法(一)的步骤(2)中,所述的基本特征的变换f(σ1,σ2,...,σN-2)=[log(A1σ1+B1),log(A2σ2+B2),...,log(AN-2σN-2+BN-2)],这里Ai和Bi是常系数,i=1,2,...,N-2,且 Σ i = 1 N - 2 | A i | ≠ 0 .
4、根据权利要求1所述的一组用于语音、音乐、噪音自动分类的信号特征提取方法,其特征在于:方法(二)的步骤(5)中,所述的基本特征的变换g(K1,K2,...,KT)=(A1K1+B1,A2K2+B2,...,ATKT+BT),这里Ai和Bi是常系数,i=1,2,...,N-1,且 Σ i = 1 T | A i | ≠ 0 .
5、根据权利要求1所述的一组用于语音、音乐、噪音自动分类的信号特征提取方法,其特征在于:方法(二)的步骤(5)中,所述的基本特征的变换g(K1,K2,...,KT)=[log(A1K1+B1),log(A2K2+B2),...,log(ATKT+BT)],这里Ai和Bi是常系数,i=1,2,...,N-1,且 Σ i = 1 T | A i | ≠ 0 .
6、根据权利要求1所述的一组用于语音、音乐、噪音自动分类的信号特征提取方法,其特征在于:方法(三)的步骤(4)中,所述的基本特征的变换 h ( M 1 1 , M 2 1 , . . . , M K ( 1 ) 1 , M 1 2 , M 2 2 , . . . , M K ( 2 ) 2 , . . . , M 1 J , M 2 J , . . . , M K ( J ) J ) = ( A 1 1 M 1 1 + B 1 1 , A 2 1 M 2 1 + B 2 1 , . . . , A K ( 1 ) 1 M K ( 1 ) 1 + B K ( 1 ) 1 , A 1 2 M 1 2 + B 1 2 , A 2 2 M 2 2 + B 2 2 , . . . , A K ( 2 ) 2 M K ( 2 ) 2 + B K ( 2 ) 2 , . . . , A 1 J M 1 J + B 1 J , A 2 J M 2 J + B 2 J , . . . , A K ( J ) J M K ( J ) J + B K ( J ) J ) , 这里Ai j和Bi j是常系数,j=1,2,...,J,i=1,2,...,K(j), Σ j = 1 J Σ i = 1 K ( j ) | A i j | ≠ 0 .
7、根据权利要求1所述的一组用于语音、音乐、噪音自动分类的信号特征提取方法,其特征在于:方法(三)的步骤(4)中,所述的基本特征的变换 h ( M 1 1 , M 2 1 , . . . , M K ( 1 ) 1 , M 1 2 , M 2 2 , . . . , M K ( 2 ) 2 , . . . , M 1 J , M 2 J , . . . , M K ( J ) J ) = [ log ( A 1 1 M 1 1 + B 1 1 ) , log ( A 2 1 M 2 1 + B 2 1 ) , . . . , log ( A K ( 1 ) 1 M K ( 1 ) 1 + B K ( 1 ) 1 ) , log ( A 1 2 M 1 2 + B 1 2 ) , log ( A 2 2 M 2 2 + B 2 2 ) , . . . , log ( A K ( 2 ) 2 M K ( 2 ) 2 + B K ( 2 ) 2 ) , . . . , log ( A 1 J M 1 J + B 1 J ) , log ( A 2 J M 2 J + B 2 J ) , . . . , log ( A K ( J ) J M K ( J ) J + B K ( J ) J ) ] , 这里Ai j和Bi j是常系数,j=1,2,...,J,i=1,2,...,K(j), Σ j = 1 J Σ i = 1 K ( j ) | A i j | ≠ 0 .
8、根据权利要求1所述的一组用于语音、音乐、噪音自动分类的信号特征提取方法,其特征在于:方法(三)的步骤(4)中,所述的基本特征的变换 h ( M 1 1 , M 2 1 , . . . , M K ( 1 ) 1 , M 1 2 , M 2 2 , . . . , M K ( 2 ) 2 , . . . , M 1 J , M 2 J , . . . , M K ( J ) J ) = ( D 0 , D 1 , . . . , D Q ) , {Dq|q=0,1,...,Q}的具体计算步骤为:
(a)对于j=1,2,...,J和i=1,2,...,K(j),计算 p ( j , i ) = M i j N ;
(b)计算{Zq(j)|q=0,1,...,Q;j=1,2,...,J}:如果q=1,则 Z q ( j ) = Σ i = 1 K ( j ) p ( j , i ) log p ( j , i ) ; 否则, Z q ( j ) = 1 q - 1 log Σ i = 1 K ( j ) [ p ( j , i ) ] q ;
(c)对于{(logrj,Zq(j))|j=1,2,...,J},求出使得 Σ j = 1 J [ Z q ( j ) - D q log r j ] 2 最小的Dq,这里q=0,1,...,Q。
CN2008100337791A 2008-02-22 2008-02-22 用于语音、音乐、噪音自动分类的信号特征提取方法 Expired - Fee Related CN101515454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100337791A CN101515454B (zh) 2008-02-22 2008-02-22 用于语音、音乐、噪音自动分类的信号特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100337791A CN101515454B (zh) 2008-02-22 2008-02-22 用于语音、音乐、噪音自动分类的信号特征提取方法

Publications (2)

Publication Number Publication Date
CN101515454A true CN101515454A (zh) 2009-08-26
CN101515454B CN101515454B (zh) 2011-05-25

Family

ID=41039882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100337791A Expired - Fee Related CN101515454B (zh) 2008-02-22 2008-02-22 用于语音、音乐、噪音自动分类的信号特征提取方法

Country Status (1)

Country Link
CN (1) CN101515454B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102237085A (zh) * 2010-04-26 2011-11-09 华为技术有限公司 音频信号的分类方法及装置
CN104321815A (zh) * 2012-03-21 2015-01-28 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
CN107342088A (zh) * 2017-06-19 2017-11-10 联想(北京)有限公司 一种声音信息的转换方法、装置及设备
CN107564512A (zh) * 2016-06-30 2018-01-09 展讯通信(上海)有限公司 语音活动侦测方法及装置
CN108353228A (zh) * 2015-11-19 2018-07-31 香港科技大学 一种信号分离的方法、系统和存储介质
CN110047514A (zh) * 2019-05-30 2019-07-23 腾讯音乐娱乐科技(深圳)有限公司 一种伴奏纯净度评估方法以及相关设备
CN110115049A (zh) * 2016-12-27 2019-08-09 大北欧听力公司 基于记录对象声音的声音信号建模
CN111201802A (zh) * 2017-10-17 2020-05-26 科利耳有限公司 听力假体中的层次环境分类
CN111800720A (zh) * 2020-07-06 2020-10-20 惠州市锦好医疗科技股份有限公司 基于大数据和云空间的数字助听器参数调整方法和装置
US11722826B2 (en) 2017-10-17 2023-08-08 Cochlear Limited Hierarchical environmental classification in a hearing prosthesis

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1175398C (zh) * 2000-11-18 2004-11-10 中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
KR100677396B1 (ko) * 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
KR100800873B1 (ko) * 2005-10-28 2008-02-04 삼성전자주식회사 음성 신호 검출 시스템 및 방법

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102237085B (zh) * 2010-04-26 2013-08-14 华为技术有限公司 音频信号的分类方法及装置
CN102237085A (zh) * 2010-04-26 2011-11-09 华为技术有限公司 音频信号的分类方法及装置
CN104321815B (zh) * 2012-03-21 2018-10-16 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
CN104321815A (zh) * 2012-03-21 2015-01-28 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
US9761238B2 (en) 2012-03-21 2017-09-12 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency for bandwidth extension
US10339948B2 (en) 2012-03-21 2019-07-02 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency for bandwidth extension
CN108353228A (zh) * 2015-11-19 2018-07-31 香港科技大学 一种信号分离的方法、系统和存储介质
CN108353228B (zh) * 2015-11-19 2021-04-16 香港科技大学 一种信号分离的方法、系统和存储介质
CN107564512B (zh) * 2016-06-30 2020-12-25 展讯通信(上海)有限公司 语音活动侦测方法及装置
CN107564512A (zh) * 2016-06-30 2018-01-09 展讯通信(上海)有限公司 语音活动侦测方法及装置
CN110115049B (zh) * 2016-12-27 2022-07-01 大北欧听力公司 基于记录对象声音的声音信号建模
CN110115049A (zh) * 2016-12-27 2019-08-09 大北欧听力公司 基于记录对象声音的声音信号建模
US11140495B2 (en) 2016-12-27 2021-10-05 Gn Hearing A/S Sound signal modelling based on recorded object sound
CN107342088A (zh) * 2017-06-19 2017-11-10 联想(北京)有限公司 一种声音信息的转换方法、装置及设备
CN111201802A (zh) * 2017-10-17 2020-05-26 科利耳有限公司 听力假体中的层次环境分类
US11337011B2 (en) 2017-10-17 2022-05-17 Cochlear Limited Hierarchical environmental classification in a hearing prosthesis
US11722826B2 (en) 2017-10-17 2023-08-08 Cochlear Limited Hierarchical environmental classification in a hearing prosthesis
CN110047514A (zh) * 2019-05-30 2019-07-23 腾讯音乐娱乐科技(深圳)有限公司 一种伴奏纯净度评估方法以及相关设备
CN111800720A (zh) * 2020-07-06 2020-10-20 惠州市锦好医疗科技股份有限公司 基于大数据和云空间的数字助听器参数调整方法和装置

Also Published As

Publication number Publication date
CN101515454B (zh) 2011-05-25

Similar Documents

Publication Publication Date Title
CN101515454B (zh) 用于语音、音乐、噪音自动分类的信号特征提取方法
CN109767785A (zh) 基于卷积神经网络的环境噪声识别分类方法
CN103730131B (zh) 语音质量评估的方法和装置
CN110428842A (zh) 语音模型训练方法、装置、设备及计算机可读存储介质
CN107305774A (zh) 语音检测方法和装置
CN107835496A (zh) 一种垃圾短信的识别方法、装置和服务器
CN108600135A (zh) 一种信号调制方式的识别方法
CN112270931B (zh) 一种基于孪生卷积神经网络进行欺骗性语音检测的方法
CN105701470A (zh) 一种基于最优小波包分解的模拟电路故障特征提取方法
CN102623009A (zh) 一种基于短时分析的异常情绪自动检测和提取方法和系统
CN102543079A (zh) 一种实时的音频信号分类方法及设备
CN109741759B (zh) 一种面向特定鸟类物种的声学自动检测方法
CN107315111A (zh) 一种电能质量扰动分类方法及系统
Yousefi et al. Assessing speaker engagement in 2-person debates: Overlap detection in United States Presidential debates.
CN106548136A (zh) 一种无线信道场景分类方法
CN115457980A (zh) 一种无参考语音的自动化语音质量评估方法及系统
CN105916090A (zh) 一种基于智能化语音识别技术的助听器系统
CN106710588A (zh) 语音数据句类识别方法和装置及系统
CN112383488A (zh) 一种适用于加密与非加密数据流的内容识别方法
CN107221338A (zh) 声波提取装置以及提取方法
CN104091104B (zh) 多格式音频感知哈希认证的特征值提取及认证方法
CN108055096B (zh) 基于信号和噪声特征检测的频谱感知方法
CN110046655A (zh) 一种基于集成学习的音频场景识别方法
CN114580476A (zh) 一种无人机信号的识别模型构建方法及相应识别方法和系统
CN103559886A (zh) 基于组稀疏低秩表达的语音信号增强方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
DD01 Delivery of document by public notice

Addressee: Yang Su

Document name: Notification to Pay the Fees

DD01 Delivery of document by public notice

Addressee: Yang Su

Document name: Notification of Termination of Patent Right

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110525

Termination date: 20160222

CF01 Termination of patent right due to non-payment of annual fee