CN101847412B - 音频信号的分类方法及装置 - Google Patents

音频信号的分类方法及装置 Download PDF

Info

Publication number
CN101847412B
CN101847412B CN2009101291573A CN200910129157A CN101847412B CN 101847412 B CN101847412 B CN 101847412B CN 2009101291573 A CN2009101291573 A CN 2009101291573A CN 200910129157 A CN200910129157 A CN 200910129157A CN 101847412 B CN101847412 B CN 101847412B
Authority
CN
China
Prior art keywords
sound signal
classify
subband
waiting
spectral tilt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101291573A
Other languages
English (en)
Other versions
CN101847412A (zh
Inventor
许丽净
吴顺妹
陈立维
张清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN2009101291573A priority Critical patent/CN101847412B/zh
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to BRPI1013585A priority patent/BRPI1013585A2/pt
Priority to KR1020117024685A priority patent/KR101327895B1/ko
Priority to PCT/CN2010/071373 priority patent/WO2010108458A1/zh
Priority to EP10755458.6A priority patent/EP2413313B1/en
Priority to JP2012501127A priority patent/JP2012522255A/ja
Priority to AU2010227994A priority patent/AU2010227994B2/en
Priority to SG2011070166A priority patent/SG174597A1/en
Publication of CN101847412A publication Critical patent/CN101847412A/zh
Priority to US13/246,485 priority patent/US8682664B2/en
Application granted granted Critical
Publication of CN101847412B publication Critical patent/CN101847412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Stereophonic System (AREA)
  • Auxiliary Devices For Music (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuits Of Receivers In General (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明的实施例公开了一种音频信号的分类方法及装置,涉及通信技术领域,解决了现有技术中在对音频信号的类型进行分类时,分类复杂度高问题。本发明实施例在接收到待分类音频信号后,获取待分类音频信号在至少一个子带中的音调特征参数;根据获取的特征参数判定所述待分类音频信号的类型。本发明实施例主要应用于对音频信号进行分类时的场景,实现可通过较简单的方法完成对音频信号的分类。

Description

音频信号的分类方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种音频信号的分类方法及装置。
背景技术
语音编码器擅长于在中低码率下对语音类型的音频信号进行编码,而对音乐类型的音频信号编码效果则欠佳;音频编码器适用于在高码率下对语音类型和音乐类型的音频信号进行编码,但在中低码率下对语音类型的音频信号编码效果不够理想。为了使语音音频混合的音频信号在中低码率下能够取得良好的编码效果,一个适用于在中低码率下的语音音频编码器的编码过程主要包括:首先利用信号分类模块判别音频信号的类型,再根据判别出来的音频信号的类型选择对应的编码方法,对于语音类型的音频信号选择语音编码器,对于音乐类型的音频信号选择音频编码器。
在现有技术当中,对于上述判别音频信号的类型的方法主要包括:
1、利用窗函数将输入信号划分为一系列的重叠的帧;
2、利用快速傅里叶变换(FFT)计算每帧的频谱系数;
3、根据每帧的频谱系数,对于每个段计算五个方面的特征参数:谐波、噪音、拖尾、拖延及节奏;
4、基于上述特征参数的值,把音频信号分为六类:语音类型、音乐类型、噪音类型、短序列、待定序列、及短待定序列。
在实现上述判别音频信号的类型的过程中,发明人发现现有技术中至少存在如下问题:该方法在分类的过程中需要计算多方面的特征参数,对于音频信号的分类也较复杂,由此而导致了分类复杂度较高。
发明内容
本发明的实施例提供一种音频信号的分类方法及装置,降低音频信号分类复杂度,减少运算量。
为达到上述目的,本发明的实施例采用如下技术方案:
一种音频信号的分类的方法,包括:
获取待分类音频信号在至少一个子带中的音调特征参数;
根据获取的特征参数判定所述待分类音频信号的类型。
一种音频信号的分类的装置,包括:
音调获取模块,用于获取待分类音频信号在至少一个子带中的音调特征参数;
分类模块,用于根据获取的特征参数判定所述待分类音频信号的类型。
本发明实施例提供的方案通过采用音频信号的音调特性对音频信号进行分类的技术手段,克服了现有技术中在对音频信号分类时分类复杂的技术问题,进而达到了降低音频信号分类复杂度,减少分类时所需要的运算量的技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1音频信号的分类方法的流程图;
图2为本发明实施例2音频信号的分类方法的流程图;
图3为本发明实施例3音频信号的分类方法的流程图;
图4为本发明实施例4音频信号的分类装置的框图;
图5为本发明实施例5音频信号的分类装置的框图;
图6为本发明实施例6音频信号的分类装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种音频信号的分类方法及装置,该方法的具体执行过程包括:获取待分类音频信号在至少一个子带中的音调特征参数;根据获取的特征参数判定所述待分类音频信号的类型。
该方法通过包括如下模块的装置实现:音调获取模块和分类模块。其中,该音调获取模块用于获取待分类音频信号在至少一个子带中的音调特征参数;分类模块用于根据获取的特征参数判定所述待分类音频信号的类型。
本发明实施例提供音频信号的分类方法及装置,通过获取音调特征参数便可以判断出待分类音频信号的类型,需要计算的特征参数的方面少,分类方法简单,降低了分类过程中的运算量。
实施例1
本实施例提供一种音频信号的分类方法,如图1所示,该方法包括如下步骤:
501,接收到当前一帧音频信号,该音频信号即为待分类音频信号。
具体为:设采样频率为48kHz,帧长N=1024个样本点,接收到的当前一帧音频信号为第k帧音频信号。
下述为计算当前一帧音频信号的音调特征参数的过程。
502,计算该当前一帧音频信号的功率谱密度。
具体为:对第k帧音频信号的时域数据进行加汉宁窗的加窗处理。
可通过如下汉宁窗的公式计算:
h ( l ) = 8 3 · 0.5 · [ 1 - cos ( 2 π · l N ) ] , 0 ≤ l ≤ N - 1 - - - ( 1 )
其中,N代表帧长,h(l)代表第k帧音频信号的第1个样本点的汉宁窗数据。
对加窗后的第k帧音频信号的时域数据进行长度为N的FFT变换(因为FFT变换是关于N/2对称的,所以实际计算长度为N/2的FFT变换即可),并利用FFT变换系数计算该第k帧音频信号中第k’个功率谱密度。
该第k帧音频信号中第k’个功率谱密度可通过如下计算公式计算:
X ( k ′ ) = 10 · log 10 | 1 N N l = 0 N - 1 { h ( l ) · s ( l ) · e [ - j k ′ l · 2 π / N ] } | 2 = 20 · log 10 | 1 N Σ l = 0 N - 1 { h ( l ) · s ( l ) · e [ - j k ′ l · 2 π / N ] } | dB - - - ( 2 )
0≤k′≤N/2,0≤l≤N-1
其中s(l)代表第k帧音频信号的原始输入样本点,X(k’)代表第k帧音频信号中第k’个功率谱密度。
对计算出的功率谱密度X(k’)进行校正,使得该功率谱密度的最大值为参考声压级(96dB)。
503,利用上述功率谱密度检测在频率区域的每个子带中是否有音调的存在,并统计在对应子带中存在的音调的个数,将该音调个数作为在该子带中的子带音调个数。
具体为:将频率区域划分为四个频率子带,分别用sb0、sb1、sb2及sb3表示这四个频率子带。如果功率谱密度X(k’)与相邻的第若干个功率谱密度之间满足一定的条件,该一定条件在本实施例中可以为如下公式(3)的所示的条件,则认为与该X(k’)对应的子带中含有音调,并对该音调的个数进行统计,得出在该子带中的子带音调个数NTk_i,该NTk_i代表第k帧音频信号在子带sbi(i代表子带的编号,并且i=0,1,2,3)中的子带音调个数。
X(k′-1)<X(k′)≤X(k′+1) and X(k′)-X(k′+j)≥7dB    (3)
其中,j的取值规定如下:
j = - 2 , + 2 for 2 &le; k &prime; < 63 - 3 , - 2 , + 2 , + 3 for 63 &le; k &prime; < 127 - 6 , &CenterDot; &CenterDot; &CenterDot; , - 2 , + 2 , &CenterDot; &CenterDot; &CenterDot; , + 6 for 127 &le; k &prime; < 255 - 12 , &CenterDot; &CenterDot; &CenterDot; , - 2 , + 2 , &CenterDot; &CenterDot; &CenterDot; , + 12 for 255 &le; k &prime; < 500
在本实施例中,已知功率谱密度的系数个数(即长度)为N/2,对应于上述j的取值规定,对于k’值的取值区间的意义进一步说明如下:
sb0:对应2≤k’<63,对应的功率谱密度系数为第0个到第(N/16-1)个,对应的频率范围是[0kHz,3kHz);
sb1:对应63≤k’<127,对应的功率谱密度系数为第N/16个到第(N/8-1)个,对应的频率范围是[3kHz,6kHz);
sb2:对应127≤k’<255,对应的功率谱密度系数为第N/8个到第(N/4-1)个,对应的频率范围是[6kHz,12kHz);
sb3:对应255≤k’<500,对应的功率谱密度系数为第N/4个到第N/2个,对应的频率范围是[12kHz,24kHz)。
其中,sb0及sb1对应低频子带部分;sb2对应较高频子带部分;sb3对应高频子带部分。
具体统计NTk_i的过程如下:
对于子带sb0,使k’在大于等于2小于63的区间内逐一取值,对于每一个k’的取值,判断其是否满足公式(3)的条件,在遍历完整个k’的取值区间后,统计满足条件的k’的个数,该满足条件的k’个数,即为第k帧音频信号在子带sb0中的存在的子带音调个数NTk_0
例如:若当k’=3,k’=5,k’=10时,公式(3)成立,则认为在子带sb0中有3个子带音调,即NTk_0=3。
同样地,对于子带sb1,使k’在大于等于63小于127的区间内逐一取值,对于每一个k’的取值,判断其是否满足公式(3)的条件,在遍历完整个k’的取值区间后,统计满足条件的k’的个数,该满足条件的k’个数,即为第k帧音频信号在子带sb1中的存在的子带音调个数NTk_1
同样地,对于子带sb2,使k’在大于等于127小于255的区间内逐一取值,对于每一个k’的取值,判断其是否满足公式(3)的条件,在遍历完整个k’的取值区间后,统计满足条件的k’的个数,该满足条件的k’个数,即为第k帧音频信号在子带sb2中的存在的子带音调个数NTk_2
利用同样的方法,也可统计该第k帧音频信号在子带sb3中的存在的子带音调个数NTk_3
504,计算当前一帧音频信号的总音调个数。
具体为:根据503统计出的NTk_i计算第k帧音频信号在四个子带sb0、sb1、sb2及sb3中的子带音调个数之和。
该第k帧音频信号在四个子带sb0、sb1、sb2及sb3中的子带音调个数之和即为该第k帧音频信号的中的音调个数,具体可通过如下公式计算:
NT k _ sum = &Sigma; i = 0 3 NT k _ i - - - ( 4 )
其中,NTk_sum代表第k帧音频信号的总音调个数。
505,计算在规定帧数内当前一帧音频信号在对应子带中的子带音调个数均值。
具体为:设该规定帧数为M,在该M帧内包括第k帧音频信号和第k帧的前(M-1)帧音频信号,根据M的值与k的值之间关系计算第k帧音频信号在这M帧音频信号每个子带中的子带音调个数均值。
该子带音调个数均值具体可通过如下公式(5)计算:
ave _ NT i = &Sigma; j = 0 k NT j _ i k + 1 ifk < ( M - 1 ) &Sigma; j = k - M + 1 k NT j _ i M ifk &GreaterEqual; ( M - 1 ) - - - ( 5 )
其中,NTj-i代表第j帧音频信号在子带i中的子带音调个数,ave_NTi代表在子带i中的子带音调个数均值。特别地,由公式(5)可知,在计算时需根据k的值与M的值的关系选择适当的公式进行计算。
特别地,在本实施例中根据设计的需要,不必对每个子带都计算子带音调个数均值,计算在低频子带sb0中的子带音调个数均值ave_NT0,及在较高频子带sb2中的子带音调个数ave_NT2.即可。
506,计算在规定帧数内当前一帧音频信号总的音调个数均值。
具体为:设该规定帧数为M,在该M帧内包括第k帧音频信号和第k帧的前(M-1)帧音频信号,根据M的值与k的值之间的关系计算第k帧音频信号在这M帧的音频信号内平均每帧音频信号包含的总音调个数。
该总音调个数具体可如下公式(6)计算:
ave _ NT sum = &Sigma; j = 0 k NT j _ sum k + 1 ifk < ( M - 1 ) &Sigma; j = k - M + 1 k NT j _ sum M ifk &GreaterEqual; ( M - 1 ) - - - ( 6 )
其中,NTj_sum代表第j帧总音调个数,ave_NTsum代表总的音调个数均值。特别地,由公式(6)可知,在计算时需根据k的值与M的值的关系选择适当的公式进行计算。
507,将计算出的在至少一个子带中的子带音调个数均值与总的音调个数均值之比分别作为当前一帧音频信号在对应子带中的音调特征参数。
该音调特征参数具体可通过如下公式(7)计算:
ave _ NT _ rati o i = ave _ NT i ave _ NT sum - - - ( 7 )
其中,ave_NTi代表在子带i中的子带音调个数均值,ave_NTsum代表总的音调个数均值,ave_NT_ratioi代表第k帧音频信号在子带i中的子带音调个数均值与总的音调个数均值的比值。
特别地,在本实施例中,利用205计算出来的在低频子带sb0中的子带音调个数均值ave_NT0及在较高频子带sb2中的子带音调个数均值ave_NT2,通过公式(7)可分别计算出第k帧音频信号在子带sb0中的音调特征参数ave_NT_ratio0和在子带sb2中的音调特征参数ave_NT_ratio2,并将该ave_NT_ratio0和ave_NT_ratio2作为第k帧音频信号的音调特征参数。
在本实施例中,需要考虑的音调特征参数是在低频子中和在较高频子带中的音调特征参数,但本发明的设计方案并不仅限于在本实施例中的这一个,根据设计的需要,还可以计算在其它子带中的音调特征参数。
508,根据上述过程中计算得出的音调特征参数判断当前一帧音频信号的类型。
具体为:判断507中计算得出的在子带sb0中的音调特征参数ave_NT_ratio0、在子带sb2中的音调特征参数ave_NT_ratio2是否与第一参数和第二参数满足一定关系,该一定关系在本实施例中可如下关系式(12):
(ave_NT_ratio0>α)and(ave_NT_ratio2<β)                   (12)
其中,ave_NT_ratio0代表第k帧音频信号在低频子带中的音调特征参数,ave_NT_ratio2代表第k帧音频信号在较高频子带中的音调特征参数,α代表第一系数,β代表第二系数。
如果满足上述关系式(12),则判定第k帧音频信号为语音类型的音频信号,否则为音乐类型的音频信号。
下述为当前一帧音频信号进行平滑处理的过程。
509,对于已判断出音频信号的类型的当前一帧音频信号,再判断该当前一帧音频信号的前一帧音频信号的类型是否与当前音频信号的后一帧音频信号的类型相同,如果判定为两者相同,则执行510,否则执行512。
具体为:判断第(k-1)帧音频信号的类型是否与第(k+1)帧音频信号的类型相同,如果判定的结果为第(k-1)帧音频信号的类型与第(k+1)帧音频信号的类型相同,则执行510,否则执行512。
510,判断当前一帧音频信号的类型是否与当前一帧音频信号的前一帧音频信号的类型相同,如果判定为不相同则执行511,否则执行512。
具体为:判断第k帧音频信号的类型是否与第(k-1)帧音频信号的类型相同,如果判断的结果为第k帧音频信号的类型与第(k-1)帧音频信号的类型不相同,则执行511,否则执行512。
511,将当前一帧音频信号的类型修改为前一帧音频信号的类型。
具体为:将第k帧音频信号的类型修改为第(k-1)帧音频信号的类型。
本实施例在所述当前一帧音频信号进行平滑处理的过程中,具体判断是否需要对当前一帧音频信号的类型进行平滑处理时,采用了需了解前一帧和后一帧音频信号的类型的技术方案,但该方法属于了解前后帧相关信息的过程,具体采用了解前几帧和后几帧的方法并不受本实施例所描述的限制。在该过程中具体了解至少前一帧或至少后一帧音频信号的类型的方案都适用与本发明的实施例。
512,结束流程。
在现有技术中,对音频信号的类型进行分类时需要考虑五种特征参数,在本实施例所提供的方法中,通过采用计算音频信号的音调特征参数,即可判断出大部分的音频信号的类型。与现有技术相比,分类方法简单,运算量低。
实施例2
本实施例公开一种音频信号的分类方法,如图2所示,该方法包括:
101,接收到当前一帧的音频信号,该音频信号即为待分类音频信号。
102,获取当前一帧音频信号在至少一个子带中的音调特征参数。
一般将频率区域分成4个频率子带,在每一个子带中,当前一帧音频信号都可以获取一个对应的音调特征参数。当然,根据设计的需要,也可以选择获取当前一帧音频信号在其中的一个或两个子带中的音调特征参数。
103,获取当前一帧音频信号的频谱倾斜度特征参数。
在本实施例中,102、103不限定执行的顺序,甚至可以同时执行。
104,根据在102中获取的至少一个音调特征参数和在103中获取的频谱倾斜度特征参数,判断当前一帧音频信号的类型。
本实施例提供的技术方案,通过采取根据音频信号的音调特征参数及频谱倾斜度特征参数来判断音频信号的类型的技术手段,解决了现有技术中,在对音频信号的类型进行分类时需要谐波、噪音及节奏等五种特征参数导致分类方法复杂的技术问题,进而取得了降低在对音频信号进行分类时,分类方法的复杂度,减少分类时的运算量的技术效果。
实施例3
本实施例公开一种音频信号的分类方法,如图3所示,该方法包括如下步骤:
201,接收到当前一帧音频信号,该音频信号即为待分类音频信号。
具体为:设采样频率为48kHz,帧长N=1024个样本点,接收到的当前一帧音频信号为第k帧音频信号。
下述为计算当前一帧音频信号的音调特征参数的过程。
202,计算该当前一帧音频信号的功率谱密度。
具体为:对第k帧音频信号的时域数据进行加汉宁窗的加窗处理。
可通过如下汉宁窗的公式计算:
h ( l ) = 8 3 &CenterDot; 0.5 &CenterDot; [ 1 - cos ( 2 &pi; &CenterDot; l N ) ] , 0 &le; l &le; N - 1 - - - ( 1 )
其中,N代表帧长,h(l)代表第k帧音频信号的第1个样本点的汉宁窗数据。
对加窗后的第k帧音频信号的时域数据进行长度为N的FFT变换(因为FFT变换是关于N/2对称的,所以实际计算长度为N/2的FFT变换即可),并利用FFT变换系数计算该第k帧音频信号中第k个的功率谱密度。
该第k帧音频信号中第k’个功率谱密度可通过如下计算公式计算:
X ( k &prime; ) = 10 &CenterDot; log 10 | 1 N &Sigma; l = 0 N - 1 { h ( l ) &CenterDot; s ( l ) &CenterDot; e [ - j k &prime; l &CenterDot; 2 &pi; / N ] } | 2 = 20 &CenterDot; log 10 | 1 N &Sigma; l = 0 N - 1 { h ( l ) &CenterDot; s ( l ) &CenterDot; e [ - j k &prime; l &CenterDot; 2 &pi; / N ] } | dB - - - ( 2 )
0≤k′≤N/2,0≤l≤N-1
其中s(l)代表第k帧音频信号的原始输入样本点,X(k’)代表第k帧音频信号中第k’个功率谱密度。
对计算出的功率谱密度X(k’)进行校正,使得该功率谱密度的最大值为参考声压级(96dB)。
203,利用上述功率谱密度检测在频率区域的每个子带中是否有音调的存在,并统计在对应子带中存在的音调的个数,将该音调个数作为在该子带中的子带音调个数。
具体为:将频率区域划分为四个频率子带,分别用sb0、sb1、sb2及sb3表示这四个频率子带。如果功率谱密度X(k’)与相邻的第若干个功率谱密度之间满足一定的条件,该一定条件在本实施例中可以为如下公式(3)的所示的条件,则认为与该X(k’)对应的子带中含有音调,并对该音调的个数进行统计,得出在该子带中的子带音调个数NTk_i,该NTk_i代表第k帧音频信号在子带sbi(i代表子带的编号,并且i=0,1,2,3)中的子带音调个数。
X(k′-1)<X(k′)≤X(k′+1) and X(k′)-X(k′+j)≥7dB    (3)
其中,j的取值规定如下:
- 2 , + 2 for 2 &le; k &prime; < 63 - 3 , - 2 , + 2 , + 3 for 63 &le; k &prime; < 127 - 6 , &CenterDot; &CenterDot; &CenterDot; , - 2 , + 2 , &CenterDot; &CenterDot; &CenterDot; , + 6 for 127 &le; k &prime; < 255 - 12 , &CenterDot; &CenterDot; &CenterDot; , - 2 , + 2 , &CenterDot; &CenterDot; &CenterDot; , + 12 for 255 &le; k &prime; < 500
在本实施例中,已知功率谱密度的系数个数(即长度)为N/2,对应于上述j的取值规定,对于k’值的取值区间的意义进一步说明如下:
sb0:对应2≤k’<63,对应的功率谱密度系数为第0个到第(N/16-1)个,对应的频率范围是[0kHz,3kHz);
sb1:对应63≤k’<127,对应的功率谱密度系数为第N/16个到第(N/8-1)个,对应的频率范围是[3kHz,6kHz);
sb2:对应127≤k’<255,对应的功率谱密度系数为第N/8个到第(N/4-1)个,对应的频率范围是[6kHz,12kHz);
sb3:对应255≤k’<500,对应的功率谱密度系数为第N/4个到第N/2个,对应的频率范围是[12kHz,24kHz)。
其中,sb0及sb1对应低频子带部分;sb2对应较高频子带部分;sb3对应高频子带部分。
具体统计NTk_i的过程如下:
对于子带sb0,使k’在大于等于2小于63的区间内逐一取值,对于每一个k’的取值,判断其是否满足公式(3)的条件,在遍历完整个k’的取值区间后,统计满足条件的k’的个数,该满足条件的k’个数,即为第k帧音频信号在子带sb0中的存在的子带音调个数NTk_0
例如:若当k’=3,k’=5,k’=10时,公式(3)成立,则认为在子带sb0中有3个子带音调,即NTk_0=3。
同样地,对于子带sb1,使k’在大于等于63小于127的区间内逐一取值,对于每一个k’的取值,判断其是否满足公式(3)的条件,在遍历完整个k’的取值区间后,统计满足条件的k’的个数,该满足条件的k’个数,即为第k帧音频信号在子带sb1中的存在的子带音调个数NTk_1
同样地,对于子带sb2,使k’在大于等于127小于255的区间内逐一取值,对于每一个k’的取值,判断其是否满足公式(3)的条件,在遍历完整个k’的取值区间后,统计满足条件的k’的个数,该满足条件的k’个数,即为第k帧音频信号在子带sb2中的存在的子带音调个数NTk_2
利用同样的方法,也可统计该第k帧音频信号在子带sb3中的存在的子带音调个数NTk_3
204,计算当前一帧音频信号的总音调个数。
具体为:根据203统计出的NTk_i计算第k帧音频信号在四个子带sb0、sb1、sb2及sb3中的子带音调个数之和。
该第k帧音频信号在四个子带sb0、sb1、sb2及sb3中的子带音调个数之和即为该第k帧音频信号的中的音调个数,具体可通过如下公式计算:
NT k _ sum = &Sigma; i = 0 3 NT k _ i - - - ( 4 )
其中,NTk_sum代表第k帧音频信号的总音调个数。
205,计算在规定帧数内当前一帧音频信号在对应子带中的子带音调个数均值。
具体为:设该规定帧数为M,在该M帧内包括第k帧音频信号和第k帧的前(M-1)帧音频信号,根据M的值与k的值之间关系计算第k帧音频信号在这M帧音频信号每个子带中的子带音调个数均值。
该子带音调个数均值具体可通过如下公式(5)计算:
ave _ NT i = &Sigma; j = 0 k NT j _ i k + 1 ifk < ( M - 1 ) &Sigma; j = k - M + 1 k NT j _ i M ifk &GreaterEqual; ( M - 1 ) - - - ( 5 )
其中,NTj-i代表第j帧音频信号在子带i中的子带音调个数,ave_NTi代表在子带i中的子带音调个数均值。特别地,由公式(5)可知,在计算时需根据k的值与M的值的关系选择适当的公式进行计算。
特别地,在本实施例中根据设计的需要,不必对每个子带都计算子带音调个数均值,计算在低频子带sb0中的子带音调个数均值ave_NT0,及在较高频子带sb2中的子带音调个数ave_NT2.即可。
206,计算在规定帧数内当前一帧音频信号总的音调个数均值。
具体为:设该规定帧数为M,在该M帧内包括第k帧音频信号和第k帧的前(M-1)帧音频信号,根据M的值与k的值之间的关系计算第k帧音频信号在这M帧的音频信号内平均每帧音频信号包含的总音调个数。
该总音调个数具体可如下公式(6)计算:
ave _ NT sum = &Sigma; j = 0 k NT j _ sum k + 1 ifk < ( M - 1 ) &Sigma; j = k - M + 1 k NT j _ sum M ifk &GreaterEqual; ( M - 1 ) - - - ( 6 )
其中,NTj_sum代表第j帧总音调个数,ave_NTsum代表总的音调个数均值。特别地,由公式(6)可知,在计算时需根据k的值与M的值的关系选择适当的公式进行计算。
207,将计算出的在至少一个子带中的子带音调个数均值与总的音调个数均值之比分别作为当前一帧音频信号在对应子带中的音调特征参数。
该音调特征参数具体可通过如下公式(7)计算:
ave _ NT _ ratio i = ave _ NT i ave _ NT sum - - - ( 7 )
其中,ave_NTi代表在子带i中的子带音调个数均值,ave_NTsum代表总的音调个数均值,ave_NT_ratioi代表第k帧音频信号在子带i中的子带音调个数均值与总的音调个数均值的比值。
特别地,在本实施例中,利用205计算出来的在低频子带sb0中的子带音调个数均值ave_NT0及在较高频子带sb2中的子带音调个数均值ave_NT2,通过公式(7)可分别计算出第k帧音频信号在子带sb0中的音调特征参数ave_NT_ratio0和在子带sb2中的音调特征参数ave_NT_ratio2,并将该ave_NT_ratio0和ave_NT_ratio2作为第k帧音频信号的音调特征参数。
在本实施例中,需要考虑的音调特征参数是在低频子中和在较高频子带中的音调特征参数,但本发明的设计方案并不仅限于在本实施例中的这一个,根据设计的需要,还可以计算在其它子带中的音调特征参数。
下述为计算当前一帧音频信号的频谱倾斜度特征参数的过程。
208,计算一帧音频信号的频谱倾斜度。
具体为:计算第k帧音频信号的频谱倾斜度。
该第k帧音频信号的频谱倾斜度可通过如下公式(8)计算:
spec _ til t k = r ( 1 ) r ( 0 ) = &Sigma; n = ( k - 1 ) &CenterDot; N k &CenterDot; N - 1 [ s ( n ) &CenterDot; s ( n - 1 ) ] &Sigma; n = ( k - 1 ) &CenterDot; N k &CenterDot; N - 1 [ s ( n ) &CenterDot; s ( n ) ] - - - ( 8 )
其中,s(n)代表第k帧音频信号的第n个时域样本点,r代表自相关参数,spec_tiltk代表该第k帧音频信号的频谱倾斜度。
209,根据上述计算出的一帧频谱倾斜度,计算当前一帧音频信号在规定帧数内的频谱倾斜度均值。
具体为:设该规定帧数为M,在该M帧内包括第k帧音频信号和第k帧的前(M-1)帧音频信号,根据M的值与k的值之间的关系计算在这M帧的音频信号内平均每帧音频信号的频谱倾斜度,即在这M帧的音频信号内的频谱倾斜度均值。
该频谱倾斜度均值具体可通过如下公式(9)计算:
ave _ spec _ tilt = &Sigma; j = 0 k spec _ til t j k + 1 ifk < ( M - 1 ) &Sigma; j = k - M + 1 k spec _ tilt j M ifk &GreaterEqual; ( M - 1 ) - - - ( 9 )
其中,k代表当前一帧音频信号的帧号,M代表规定帧数,spec_tiltj代表第j帧的音频信号的频谱倾斜度,ave_spec_tilt为频谱倾斜度均值。特别地,由公式(9)可知,在计算时需根据k的值与M的值的关系选择适当的公式进行计算。
210,将至少一个音频信号的频谱倾斜度与上述计算得出的频谱倾斜度均值的均方差作为该当前一帧音频信号的频谱倾斜度特征参数。
具体为:设该规定帧数为M,在该M帧内包括第k帧音频信号和第k帧的前(M-1)帧音频信号,根据M的值与k的值之间的关系计算至少一个音频信号的频谱倾斜度与频谱倾斜度均值的均方差。该均方差即为当前一帧音频信号的频谱倾斜度特征参数。
该频谱倾斜度特征参数可通过如下公式(10)计算:
dif _ spec _ tilt = &Sigma; j = 0 k [ ( spec _ tilt j - ave _ spec _ tilt ) 2 ] k + 1 ifk < ( M - 1 ) &Sigma; j = k - M + 1 k [ ( spec _ tilt j - ave _ spec _ tilt ) 2 ] M ifk &GreaterEqual; ( M - 1 ) - - - ( 10 )
其中,k代表当前一帧音频信号的帧号,ave_spec_tilt为频谱倾斜度均值,dif_spec_tilt为频谱倾斜度特征参数。特别地,由公式(10)可知,在计算时需根据k的值与M的值的关系选择适当的公式进行计算。
上述实施例中描述的计算音调特征参数的过程(202到207)和频谱倾斜度特征参数的过程(208到210)并不限定执行的顺序,甚至可以同时执行。
211,根据上述过程中计算得出的音调特征参数和频谱倾斜度特征参数判断当前一帧音频信号的类型。
具体为:判断207中计算得出的在子带sb0中的音调特征参数ave_NT_ratio0、在子带sb2中的音调特征参数ave_NT_ratio2及在210中计算得出的频谱倾斜度特征参数dif_spec_tilt是否与第一参数、第二参数和第三参数满足一定关系,该关系在本实施例中可如下关系式(11):
(ave_NT_ratio0>α)and(ave_NT_ratio2<β)and(dif_spec_tilt>γ)   (11)
其中,ave_NT_ratio0代表第k帧音频信号在低频子带中的音调特征参数,ave_NT_ratio2代表第k帧音频信号在较高频子带中的音调特征参数,dif_spec_tilt代表第k帧音频信号的频谱倾斜度特征参数,α代表第一系数,β代表第二系数,γ代表第三系数。
如果满足所述一定关系,即上述关系式(11),则判定第k帧音频信号为语音类型的音频信号,否则为音乐类型的音频信号。
下述为当前一帧音频信号进行平滑处理的过程。
212,对于已判断出音频信号的类型的当前一帧音频信号,再判断该当前一帧音频信号的前一帧音频信号的类型是否与当前音频信号的后一帧音频信号的类型相同,如果判定为两者相同,则执行213,否则执行215。
具体为:判断第(k-1)帧音频信号的类型是否与第(k+1)帧音频信号的类型相同,如果判定的结果为第(k-1)帧音频信号的类型与第(k+1)帧音频信号的类型相同,则执行213,否则执行215。
213,判断当前一帧音频信号的类型是否与当前一帧音频信号的前一帧音频信号的类型相同,如果判定为不相同则执行214,否则执行215。
具体为:判断第k帧音频信号的类型是否与第(k-1)帧音频信号的类型相同,如果判断的结果为第k帧音频信号的类型与第(k-1)帧音频信号的类型不相同,则执行214,否则执行215。
214,将当前一帧音频信号的类型修改为前一帧音频信号的类型。
具体为:将第k帧音频信号的类型修改为第(k-1)帧音频信号的类型。
在本实施例描述的对当前一帧音频信号进程平滑处理的过程中,步骤212在判断当前一帧音频信号的类型时,即第k帧音频信号的类型时,需要等待第(k+1)帧音频信号的类型判断出来后才能进行下一步骤213,在这里似乎是引入了一帧的延时用于等待判断出第(k+1)帧音频信号的类型,但通常编码器算法本身在对每帧音频信号进行编码时均会有一帧的延时,本实施例正好利用了这一帧的延时来实施平滑处理的过程,既可避免对当前一帧音频信号的类型的误判,又不会引入额外的延时,取得了可对音频信号进行实时分类的技术效果。
在对于延时上的要求不是很严格的情况下,在本实施例的当前一帧音频信号进行平滑处理的过程中,还可以通过判断当前音频信号的前三帧的类型和后三帧的类型,或者当前音频信号的前五帧的类型和后五帧的类型等来决定是否需要对当前音频信号进行平滑处理,具体需要了解的前后相关帧的个数并不受本实施例中所描述的限制。因为多了解一些前后相关信息,这样的平滑处理后的效果可能会更好。
215,流程结束。
与现有技术需要根据五种特征参数来实现对音频信号的类型进行分类相比本实施例提供的音频信号的分类方法根据两种特征参数即可实现对音频信号的类型的分类,分类算法简单,复杂度低,降低了分类过程的运算量;同时,本实施例的方案还采用了对分类后的音频信号进行平滑处理的技术手段,取得了可提高对音频信号的类型的识别率,使得后续编码过程中能够充分发挥语音编码器及音频编码器作用的有益效果。
实施例4
对应与上述实施1,本实施例具体提供一种音频信号的分类装置,如图4所示,该装置包括:接收模块40,音调获取模块41,分类模块43,第一判断模块44,第二判断模块45,平滑模块46,第一设定模块47。
接收模块40用于接收当前一帧的音频信号,该当前一帧的音频信号即为待分类音频信号;音调获取模块41用于获取待分类音频信号在至少一个子带中的音调特征参数;分类模块43用于根据音调获取模块41获取的音调特征参数判定所述待分类音频信号的类型;第一判断模块44用于在分类模块43对待分类音频信号的类型分类后,判断在所述待分类音频信号之前的至少前一帧音频信号的类型是否与在所述待分类音频信号之后对应的至少后一帧音频信号的类型相同;第二判断模块45用于当第一判断模块44判定与在所述待分类音频信号之后对应的至少后一帧音频信号的类型相同时,判断所述待分类音频信号的类型是否与所述至少前一帧音频信号的类型不同;平滑模块46用于当第二判断模块45判定与所述至少前一帧音频信号的类型不同时,对所述待分类音频信号的类型进行平滑处理;第一设定模块47用于预先设定规定计算的帧数。
在本实施例中,若所述音调获取模块41获取的在至少一个子带中的音调特征参数为:在低频子带中的音调特征参数和在较高频子带中的音调特征参数,则所述分类模块43包括:判断单元431,分类单元432。
判断单元431用于判断所述待分类音频信号是否在低频子带中的音调特征参数大于第一系数,并且在较高频子带中的音调特征参数小于第二系数;分类单元432用于当判断单元431判定所述待分类音频信号在低频子带中的音调特征参数大于第一系数,并且在较高频子带中的音调特征参数小于第二系数时,判定所述待分类音频信号的类型为语音类型,否则为音乐类型。
其中,音调获取模块41是根据待分类音频信号在至少一个子带中的音调个数和所述待分类音频信号总的音调个数计算所述音调特征参数的。
进一步地,在本实施例中音调获取模块41包括:第一计算单元411,第二计算单元412,音调特征单元413。
第一计算单元411用于计算待分类音频信号在至少一个子带中的子带音调个数均值;第二计算单元412用于计算待分类音频信号总的音调个数均值;音调特征单元413用于将所述在至少一个子带中的子带音调个数均值与所述总的音调个数均值的比值分别作为所述待分类音频信号在对应子带中的音调特征参数。
其中,第一计算单元411计算待分类音频信号在至少一个子带中的子带音调个数均值包括:根据第一设定模块47设定的规定计算的帧数与待分类音频信号的帧号的关系计算在一个子带中的子带音调个数均值。
第二计算单元412计算待分类音频信号总的音调个数均值包括:根据第一设定模块设定的规定计算的帧数与待分类音频信号的帧号的关系计算总的音调个数均值。
本实施例提供的音频信号的分类装置通过采用获取音频信号的音调特征参数的技术手段,取得了可判断出大部分音频信号的类型的技术效果,降低了在对音频信号的分类过程中分类方法的难度,同时也减少了运算量。
实施例5
对应与上述实施2的音频信号的分类方法,本实施例公开一种音频信号的分类装置,如图5所示,该装置包括:接收模块30,音调获取模块31,频谱倾斜度获取模块32,分类模块33。
接收模块30用于接收当前一帧的音频信号;音调获取模块31用于获取待分类音频信号在至少一个子带中的音调特征参数;频谱倾斜度获取模块32用于获取待分类音频信号的频谱倾斜度特征参数;分类模块33用于根据音调获取模块31获取的所述音调特征参数和频谱倾斜度获取模块32获取的频谱倾斜度特征参数确定所述待分类音频信号的类型。
在现有技术中,在对音频信号进行分类时的需要参考音频信号的多方面的特征参数,使得分类复杂度高、运算量大,而本实施例提供的方案在对音频信号进行分类时,根据该音频信号的音调和频谱倾斜度两种特征参数即可分辨出该音频信号的类型,使对音频信号的分类变得简单,同时也减少了在分类过程中的运算量。
实施例6
本实施例具体提供一种音频信号的分类装置,如图6所示,该装置包括:接收模块40,音调获取模块41,频谱倾斜度获取模块42,分类模块43,第一判断模块44,第二判断模块45,平滑模块46,第一设定模块47和第二设定模块48。
接收模块40用于接收当前一帧的音频信号,该当前一帧的音频信号即为待分类音频信号;音调获取模块41用于获取待分类音频信号在至少一个子带中的音调特征参数;频谱倾斜度获取模块42用于获取待分类音频信号的频谱倾斜度特征参数;分类模块43用于根据音调获取模块41获取的所述音调特征参数和频谱倾斜度获取模块42获取的频谱倾斜度特征参数判断所述待分类音频信号的类型;第一判断模块44用于在分类模块43对待分类音频信号的类型分类后,判断在所述待分类音频信号之前的至少前一帧音频信号的类型是否与在所述待分类音频信号之后对应的至少后一帧音频信号的类型相同;第二判断模块45用于当第一判断模块44判定与在所述待分类音频信号之后对应的至少后一帧音频信号的类型相同时,判断所述待分类音频信号的类型是否与所述至少前一帧音频信号的类型不同;平滑模块46用于当第二判断模块45判定与所述至少前一帧音频信号的类型不同时,对所述待分类音频信号的类型进行平滑处理;第一设定模块47用于预先设定计算音调特征参数时需要规定计算的帧数;第二设定模块48用于预先设定计算频谱倾斜度特征参数时需要规定计算的帧数。
其中,音调获取模块41是根据待分类音频信号在至少一个子带中的音调个数和所述待分类音频信号总的音调个数计算所述音调特征参数的。
在本实施例中,若所述音调获取模块41获取的在至少一个子带中的音调特征参数为:在低频子带中的音调特征参数和在较高频子带中的音调特征参数,则所述分类模块43包括:判断单元431,分类单元432。
判断单元431用于当所述待分类音频信号在低频子带中的音调特征参数大于第一系数,并且在较高频子带中的音调特征参数小于第二系数时,判断所述音频信号的频谱倾斜度特征参数是否大于第三系数;分类单元432用于当判断单元判定所述待分类音频信号的频谱倾斜度特征参数大于第三系数时,判定所述待分类音频信号的类型为语音类型,否则为音乐类型。
进一步的,在本实施例中音调获取模块41包括:第一计算单元411,第二计算单元412,音调特征单元413。
第一计算单元411用于计算待分类音频信号在至少一个子带中的子带音调个数均值;第二计算单元412用于计算待分类音频信号总的音调个数均值;音调特征单元413用于将所述在至少一个子带中的子带音调个数均值与所述总的音调个数均值的比值分别作为所述待分类音频信号在对应子带中的音调特征参数。
其中,第一计算单元411计算待分类音频信号在至少一个子带中的子带音调个数均值根据第一设定模块47设定的规定计算的帧数与待分类音频信号的帧号的关系计算在一个子带中的子带音调个数均值。
第二计算单元412计算待分类音频信号总的音调个数均值包括:根据第一设定模块47设定的规定计算的帧数与待分类音频信号的帧号的关系计算总的音调个数均值。
进一步的,本实施中,频谱倾斜度获取模块42包括:第三计算单元421,频谱倾斜度特征单元422。
第三计算单元421用于计算待分类音频信号的频谱倾斜度均值;频谱倾斜度特征单元422用于将至少一个音频信号的频谱倾斜度与所述频谱倾斜度均值的均方差作为所述待分类音频信号的频谱倾斜度特征参数。
其中,第三计算单元421计算待分类音频信号的频谱倾斜度均值包括:根据第二设定模块48设定的规定计算的帧数与待分类音频信号的帧号的关系计算频谱倾斜度均值。
频谱倾斜度特征单元422计算至少一个音频信号的频谱倾斜度与所述频谱倾斜度均值的均方差包括:根据第二设定模块48设定的规定计算的帧数与待分类音频信号的帧号的关系计算频谱倾斜度特征参数。
本实施例中的第一设定模块47和第二设定模块48可以通过一个程序或者模块实现,甚至也可以设定相同的规定计算的帧数的值。
本实施例提供的方案具有如下有益效果:分类简单,复杂度低,运算量小,不为编码器引入额外的延时,可满足中低码率下的语音音频编码器在分类过程中要求的实时编码、低复杂度的需求。
本发明实施例主要运用于通信技术领域,实现对音频信号的类型进行快速,准确并实时的分类。随着网络技术的发展有可能应用到本领域的其它场景,也有可能转用到类似或者相近的技术领域上去。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台编码器执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种音频信号的分类方法,其特征在于,包括:
获取待分类音频信号在至少一个子带中的音调特征参数;
根据获取的所述音调特征参数判定所述待分类音频信号的类型,
其中,所述获取待分类音频信号在至少一个子带中的音调特征参数,包括:计算待分类音频信号在至少一个子带中的子带音调个数均值;计算待分类音频信号总的音调个数均值;将所述在至少一个子带中的子带音调个数均值与所述总的音调个数均值的比值分别作为所述待分类音频信号在对应子带中的音调特征参数;
若所述在至少一个子带中的音调特征参数为:在低频子带中的音调特征参数和在较高频子带中的音调特征参数,则所述根据获取的所述音调特征参数判定所述待分类音频信号的类型包括:
判断所述待分类音频信号是否在低频子带中的音调特征参数大于第一系数,并且在较高频子带中的音调特征参数小于第二系数;
如果所述待分类音频信号在低频子带中的音调特征参数大于第一系数,并且在较高频子带中的音调特征参数小于第二系数,则所述待分类音频信号的类型为语音类型,否则为音乐类型。
2.根据权利要求1所述的音频信号的分类方法,其特征在于,该方法还包括:
获取待分类音频信号的频谱倾斜度特征参数;
根据获取的所述频谱倾斜度特征参数确定所述判定的待分类音频信号的类型;
其中,若所述在至少一个子带中的音调特征参数为:在低频子带中的音调特征参数和在较高频子带中的音调特征参数,则所述根据获取的所述频谱倾斜度特征参数确定所述判定的待分类音频信号的类型包括:
当所述待分类音频信号在低频子带中的音调特征参数大于第一系数,并且在较高频子带中的音调特征参数小于第二系数时,判断所述待分类音频信号的频谱倾斜度特征参数是否大于第三系数;
如果所述待分类音频信号的频谱倾斜度特征参数大于第三系数,则所述待分类音频信号的类型为语音类型,否则为音乐类型。
3.根据权利要求1所述的音频信号的分类方法,其特征在于,
预先设定规定计算的帧数;所述计算待分类音频信号在至少一个子带中的子带音调个数均值包括:
根据规定计算的帧数与待分类音频信号的帧号的关系计算在一个子带中的子带音调个数均值。
4.根据权利要求1所述的音频信号的分类方法,其特征在于,预先设定规定计算的帧数;所述计算待分类音频信号总的音调个数均值包括:
根据规定计算的帧数与待分类音频信号的帧号的关系计算总的音调个数均值。
5.根据权利要求2所述的音频信号的分类方法,其特征在于,所述获取所述待分类音频信号的频谱倾斜度特征参数包括:
计算待分类音频信号的频谱倾斜度均值;
将至少一个音频信号的频谱倾斜度与所述频谱倾斜度均值的均方差作为所述待分类音频信号的频谱倾斜度特征参数。
6.根据权利要求5所述的音频信号的分类方法,其特征在于,
预先设定规定计算的帧数;所述计算待分类音频信号的频谱倾斜度均值包括:根据规定计算的帧数与待分类音频信号的帧号的关系计算频谱倾斜度均值。
7.根据权利要求5所述的音频信号的分类方法,其特征在于,
预先设定规定计算的帧数;所述将至少一个音频信号的频谱倾斜度与所述频谱倾斜度均值的均方差作为所述待分类音频信号的频谱倾斜度特征参数,包括:根据规定计算的帧数与待分类音频信号的帧号的关系计算频谱倾斜度特征参数。
8.一种音频信号的分类装置,其特征在于,包括:
音调获取模块,用于获取待分类音频信号在至少一个子带中的音调特征参数;
分类模块,用于根据获取的所述音调特征参数判定所述待分类音频信号的类型;
其中,
所述音调获取模块包括:
第一计算单元,用于计算待分类音频信号在至少一个子带中的子带音调个数均值;
第二计算单元,用于计算待分类音频信号总的音调个数均值;
音调特征单元,用于将所述在至少一个子带中的子带音调个数均值与所述总的音调个数均值的比值分别作为所述待分类音频信号在对应子带中的音调特征参数;
当所述音调获取模块获取的在至少一个子带中的音调特征参数为:在低频子带中的音调特征参数和在较高频子带中的音调特征参数时,所述分类模块包括:
判断单元,用于判断所述待分类音频信号是否在低频子带中的音调特征参数大于第一系数,并且在较高频子带中的音调特征参数小于第二系数:
分类单元,用于当判断单元判定所述待分类音频信号在低频子带中的音调特征参数大于第一系数,并且在较高频子带中的音调特征参数小于第二系数时,判定所述待分类音频信号的类型为语音类型,否则为音乐类型。
9.根据权利要求8所述的音频信号的分类装置,其特征在于,该装置还包括:
频谱倾斜度获取模块,用于获取待分类音频信号的频谱倾斜度特征参数;
则所述分类模块还用于根据所述频谱倾斜度获取模块获取的频谱倾斜度特征参数确定所述判定的待分类音频信号的类型;
其中,当所述音调获取模块获取的在至少一个子带中的音调特征参数为:在低频子带中的音调特征参数和在较高频子带中的音调特征参数时,所述分类模块包括的
判断单元还用于当所述待分类音频信号在低频子带中的音调特征参数大于第一系数,并且在较高频子带中的音调特征参数小于第二系数时,判断所述待分类音频信号的频谱倾斜度特征参数是否大于第三系数;
分类单元还用于当判断单元判定所述待分类音频信号的频谱倾斜度特征参数大于第三系数时,判定所述待分类音频信号的类型为语音类型,否则为音乐类型。
10.根据权利要求8所述的音频信号的分类装置,其特征在于,该装置还包括:
第一设定模块,用于预先设定规定计算的帧数;
所述第一计算单元计算待分类音频信号在至少一个子带中的子带音调个数均值包括:根据第一设定模块设定的规定计算的帧数与待分类音频信号的帧号的关系计算在一个子带中的子带音调个数均值。
11.根据权利要求8所述的音频信号的分类装置,其特征在于,该装置还包括:
第一设定模块,用于预先设定规定计算的帧数;
所述第二计算单元计算待分类音频信号总的音调个数均值包括:根据第一设定模块设定的规定计算的帧数与待分类音频信号的帧号的关系计算总的音调个数均值。
12.根据权利要求9所述的音频信号的分类装置,其特征在于,所述频谱倾斜度获取模块包括:
第三计算单元,用于计算待分类音频信号的频谱倾斜度均值;
频谱倾斜度特征单元,用于将至少一个音频信号的频谱倾斜度与所述频谱倾斜度均值的均方差作为所述待分类音频信号的频谱倾斜度特征参数。
13.根据权利要12所述的音频信号的分类装置,其特征在于,该装置还包括:
第二设定模块,用于预先设定规定计算的帧数;
所述第三计算单元计算待分类音频信号的频谱倾斜度均值包括:根据第二设定模块设定的规定计算的帧数与待分类音频信号的帧号的关系计算频谱倾斜度均值。
14.根据权利要求12所述的音频信号的分类装置,其特征在于,该装置还包括:
第二设定模块,用于预先设定规定计算的帧数;
所述频谱倾斜度特征单元计算至少一个音频信号的频谱倾斜度与所述频谱倾斜度均值的均方差包括:根据第二设定模块设定的规定计算的帧数与待分类音频信号的帧号的关系计算频谱倾斜度特征参数。
CN2009101291573A 2009-03-27 2009-03-27 音频信号的分类方法及装置 Active CN101847412B (zh)

Priority Applications (9)

Application Number Priority Date Filing Date Title
CN2009101291573A CN101847412B (zh) 2009-03-27 2009-03-27 音频信号的分类方法及装置
KR1020117024685A KR101327895B1 (ko) 2009-03-27 2010-03-27 오디오 신호 분류를 위한 방법 및 장치
PCT/CN2010/071373 WO2010108458A1 (zh) 2009-03-27 2010-03-27 音频信号的分类方法及装置
EP10755458.6A EP2413313B1 (en) 2009-03-27 2010-03-27 Method and device for audio signal classification
BRPI1013585A BRPI1013585A2 (pt) 2009-03-27 2010-03-27 método e dispositivo para classificação de sinal de áudio
JP2012501127A JP2012522255A (ja) 2009-03-27 2010-03-27 オーディオ信号分類の方法および装置
AU2010227994A AU2010227994B2 (en) 2009-03-27 2010-03-27 Method and device for audio signal classifacation
SG2011070166A SG174597A1 (en) 2009-03-27 2010-03-27 Method and device for audio signal classification
US13/246,485 US8682664B2 (en) 2009-03-27 2011-09-27 Method and device for audio signal classification using tonal characteristic parameters and spectral tilt characteristic parameters

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101291573A CN101847412B (zh) 2009-03-27 2009-03-27 音频信号的分类方法及装置

Publications (2)

Publication Number Publication Date
CN101847412A CN101847412A (zh) 2010-09-29
CN101847412B true CN101847412B (zh) 2012-02-15

Family

ID=42772007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101291573A Active CN101847412B (zh) 2009-03-27 2009-03-27 音频信号的分类方法及装置

Country Status (9)

Country Link
US (1) US8682664B2 (zh)
EP (1) EP2413313B1 (zh)
JP (1) JP2012522255A (zh)
KR (1) KR101327895B1 (zh)
CN (1) CN101847412B (zh)
AU (1) AU2010227994B2 (zh)
BR (1) BRPI1013585A2 (zh)
SG (1) SG174597A1 (zh)
WO (1) WO2010108458A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8682664B2 (en) 2009-03-27 2014-03-25 Huawei Technologies Co., Ltd. Method and device for audio signal classification using tonal characteristic parameters and spectral tilt characteristic parameters

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
CN104321815B (zh) 2012-03-21 2018-10-16 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
TWI648730B (zh) * 2012-11-13 2019-01-21 南韓商三星電子股份有限公司 決定編碼模式的裝置以及音訊編碼裝置
US11222697B2 (en) 2013-02-28 2022-01-11 Samsung Electronics Co., Ltd. Three-dimensional nonvolatile memory and method of performing read operation in the nonvolatile memory
US9665403B2 (en) * 2013-03-15 2017-05-30 Miosoft Corporation Executing algorithms in parallel
CN104282315B (zh) * 2013-07-02 2017-11-24 华为技术有限公司 音频信号分类处理方法、装置及设备
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
JP2015037212A (ja) * 2013-08-12 2015-02-23 オリンパスイメージング株式会社 情報処理装置、撮影機器及び情報処理方法
CN105336344B (zh) * 2014-07-10 2019-08-20 华为技术有限公司 杂音检测方法和装置
CN104700833A (zh) * 2014-12-29 2015-06-10 芜湖乐锐思信息咨询有限公司 一种大数据语音分类方法
CN109997186B (zh) * 2016-09-09 2021-10-15 华为技术有限公司 一种用于分类声环境的设备和方法
CN107492383B (zh) * 2017-08-07 2022-01-11 上海六界信息技术有限公司 直播内容的筛选方法、装置、设备及存储介质
CN111524536B (zh) * 2019-02-01 2023-09-08 富士通株式会社 信号处理方法和信息处理设备
CN111857639B (zh) * 2020-06-28 2023-01-24 浙江大华技术股份有限公司 音频输入信号的检测系统、方法、计算机设备和存储介质
CN111816170B (zh) * 2020-07-29 2024-01-19 杭州网易智企科技有限公司 一种音频分类模型的训练和垃圾音频识别方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167372A (en) * 1997-07-09 2000-12-26 Sony Corporation Signal identifying device, code book changing device, signal identifying method, and code book changing method
CN101136199A (zh) * 2006-08-30 2008-03-05 国际商业机器公司 语音数据处理方法和设备
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3102385A1 (de) * 1981-01-24 1982-09-02 Blaupunkt-Werke Gmbh, 3200 Hildesheim Schaltungsanordnung zur selbstaetigen aenderung der einstellung von tonwiedergabegeraeten, insbesondere rundfunkempfaengern
DE19505435C1 (de) * 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
JPH11202900A (ja) * 1998-01-13 1999-07-30 Nec Corp 音声データ圧縮方法及びそれを適用した音声データ圧縮システム
KR100304092B1 (ko) * 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
JP2000099069A (ja) * 1998-09-24 2000-04-07 Sony Corp 情報信号処理方法及び装置
US6694293B2 (en) 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
DE10109648C2 (de) * 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
JP2002344852A (ja) * 2001-05-14 2002-11-29 Sony Corp 情報信号処理装置および情報信号処理方法
DE10133333C1 (de) * 2001-07-10 2002-12-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines Fingerabdrucks und Verfahren und Vorrichtung zum Identifizieren eines Audiosignals
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
US20040024582A1 (en) * 2002-07-03 2004-02-05 Scott Shepard Systems and methods for aiding human translation
JP2004240214A (ja) 2003-02-06 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
FR2863080B1 (fr) * 2003-11-27 2006-02-24 Advestigo Procede d'indexation et d'identification de documents multimedias
US7026536B2 (en) * 2004-03-25 2006-04-11 Microsoft Corporation Beat analysis of musical signals
US7120576B2 (en) * 2004-07-16 2006-10-10 Mindspeed Technologies, Inc. Low-complexity music detection algorithm and system
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
TWI312982B (en) * 2006-05-22 2009-08-01 Nat Cheng Kung Universit Audio signal segmentation algorithm
US20080034396A1 (en) * 2006-05-30 2008-02-07 Lev Zvi H System and method for video distribution and billing
JP4665836B2 (ja) 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
JP2008015388A (ja) * 2006-07-10 2008-01-24 Dds:Kk 歌唱力評価方法及びカラオケ装置
EP2162880B1 (en) * 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
US8600740B2 (en) * 2008-01-28 2013-12-03 Qualcomm Incorporated Systems, methods and apparatus for context descriptor transmission
WO2009148731A1 (en) * 2008-06-02 2009-12-10 Massachusetts Institute Of Technology Fast pattern classification based on a sparse transform
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
ES2684297T3 (es) * 2008-07-11 2018-10-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Método y discriminador para clasificar diferentes segmentos de una señal de audio que comprende segmentos de voz y música
CN101847412B (zh) 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167372A (en) * 1997-07-09 2000-12-26 Sony Corporation Signal identifying device, code book changing device, signal identifying method, and code book changing method
CN101136199A (zh) * 2006-08-30 2008-03-05 国际商业机器公司 语音数据处理方法和设备
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开2004-240214A 2004.08.26

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8682664B2 (en) 2009-03-27 2014-03-25 Huawei Technologies Co., Ltd. Method and device for audio signal classification using tonal characteristic parameters and spectral tilt characteristic parameters

Also Published As

Publication number Publication date
US20120016677A1 (en) 2012-01-19
EP2413313A4 (en) 2012-02-29
SG174597A1 (en) 2011-10-28
EP2413313A1 (en) 2012-02-01
AU2010227994A1 (en) 2011-11-03
KR20120000090A (ko) 2012-01-03
AU2010227994B2 (en) 2013-11-14
BRPI1013585A2 (pt) 2016-04-12
CN101847412A (zh) 2010-09-29
US8682664B2 (en) 2014-03-25
JP2012522255A (ja) 2012-09-20
WO2010108458A1 (zh) 2010-09-30
EP2413313B1 (en) 2013-05-29
KR101327895B1 (ko) 2013-11-13

Similar Documents

Publication Publication Date Title
CN101847412B (zh) 音频信号的分类方法及装置
CN103026407B (zh) 带宽扩展器
KR100744352B1 (ko) 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
CN110536215A (zh) 音频信号处理的方法、装置、计算设置及存储介质
CN1185626C (zh) 修改语音信号的系统和方法
Maher Evaluation of a method for separating digitized duet signals
CN102237085B (zh) 音频信号的分类方法及装置
US20070083365A1 (en) Neural network classifier for separating audio sources from a monophonic audio signal
CN105261375B (zh) 激活音检测的方法及装置
RU2006129870A (ru) Классификация звуковых сигналов
CN1530929A (zh) 抑制风噪声的系统
US7783479B2 (en) System for generating a wideband signal from a received narrowband signal
CN1335980A (zh) 借助于映射矩阵的宽频带语音合成
CN106409310A (zh) 一种音频信号分类方法和装置
CN103189913A (zh) 用于分解多信道音频信号的方法、设备和机器可读存储媒体
CA2488921A1 (en) Method and apparatus for selecting an encoding rate in a variable rate vocoder
CN111696580B (zh) 一种语音检测方法、装置、电子设备及存储介质
KR100735343B1 (ko) 음성신호의 피치 정보 추출장치 및 방법
CN1044293C (zh) 背景音的编码/译码方法和设备
Fristrup et al. Characterizing acoustic features of marine animal sounds
CN101496095A (zh) 用于信号变化检测的系统、方法及设备
CN1218945A (zh) 静态和非静态信号的鉴别
US5950156A (en) High efficient signal coding method and apparatus therefor
JP3849116B2 (ja) 音声検出装置及び音声検出プログラム
CN101937675B (zh) 语音检测方法及其设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant