CN108074584A - 一种基于信号多特征统计的音频信号分类方法 - Google Patents
一种基于信号多特征统计的音频信号分类方法 Download PDFInfo
- Publication number
- CN108074584A CN108074584A CN201611048854.2A CN201611048854A CN108074584A CN 108074584 A CN108074584 A CN 108074584A CN 201611048854 A CN201611048854 A CN 201611048854A CN 108074584 A CN108074584 A CN 108074584A
- Authority
- CN
- China
- Prior art keywords
- classification
- frame
- present frame
- mdct
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000005236 sound signal Effects 0.000 title claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000003595 spectral effect Effects 0.000 claims description 50
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于信号多特征统计的音频信号分类方法,涉及音频编解码与传输领域。本发明公开的音频信号分类方法,包括:对输入的音频信号进行预处理,在时域和MDCT域提取多级音频信号特征统计,对当前帧处于分类的收敛时间帧I内采用单个音频信号统计特征分类;对处于分类的收敛时间帧I之后则采用多特征统计特性分级规则的分类方法进行分类,分类特征采用信号多特征统计特征判断;当前帧经过多特征统计特性分级规则分类后,根据当前帧之前的信号帧分类类型历史状态更新当前帧信号分类类别。本发明使得简单实时的信号分类也具有较高的准确性。
Description
一、技术领域
本发明涉及音频编解码与传输领域,尤其涉及一种基于信号多特征统计的音频信号分类方法。
二、背景技术
在音频信号进行编码、传输或其他处理前对信号进行分类,可以有效地提高编码和传输的效率,由于多媒体音频信号的传输是在基于实时传输的模式框架下,对音频信号的实时分类是一个重要的研究内容。
国内外对音频信号分类的研究大多集中在长时间的分类上,如1秒或10秒时长的低能量率分类和1秒或10秒时长的短时能量进行分类等。在分类器的设计上普遍采用基于统计的分类方法,如支持向量机的分类器,神经网络分类器等。由于处理时间比较长,这些方法在音频实时分类上实用性不高。
目前对音频分类的算法基本是在时域或频域中实现的,而现在流行的编码方式,如MP3,AAC等都利用MDCT变换处理,为了减少额外运算操作,直接提取MDCT域和时域上的特征进行分析,能有效地提高特征提取效率。配合适当的分类规则可以设计出快速音频信号实时分类的分类方法。
三、发明内容
1、发明目的:本发明的目的是提供一种基于信号多特征统计的音频信号分类方法,进行快速的实时分类,减少额外运算,提高音频信号实时分类的精确度,发挥音频信号分类对音频编码与音频传输重要作用。
2、技术方案:为实现上述发明目的,本发明公开一种基于信号多特征统计的音频信号分类方法,包括:
对输入的音频信号进行分帧及高通滤波处理后,进行当前帧静音检测,计算MDCT变换,在时域和MDCT域提取音频特征,当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类,若所述当前帧处于分类的收敛时间帧I之后则采用多特征统计特性分级规则的分类方法进行分类,且所述当前帧经过多特征统计特性分级规则分类后,根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类别。
进一步地,上述方法中,采用短时过零率进行当前帧静音检测,所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。
通过对处理后的每帧音频信号进行MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
进一步地所述方法中,当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类,单一特征采用MDCT频谱子带能量,所述当前帧单一特征第一能量子带大于所述第二设定值,设置当前帧为语音帧。
所述当前帧处于分类的收敛时间帧I后时采用多特征统计特性分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
所述当前帧进行单特征统计特性分类,单特征统计特性分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为准语音帧,反之设置所述当前帧为准音乐帧。
进一步地,所述方法中,对单特征统计特性分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
所述通过存储分类结果的历史状态,结合当前帧的分类结果,利用出现频率最高的分类类型作为当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。
所述的第一设定值和第二设置是给定的阈值,相应设定值是一系列给定的阈值。
本发明技术方案通过简单的多特征统计特性分级规则提高音频信号实时分类准确性,从而大大提高音频编解码效率,本发明技术方案可以用于实时双向通信如无线、IP会议电视和实时广播业务等音频编解码领域的音频信号分类判决。
四、附图说明
图1是用于语音频编码器的音频信号分类应用框图。
图2是一种基于信号多特征统计统计特性的音频信号分类方法结构框图。
图3是音频信号静音判断框图。
图4是分类的收敛时间帧I内单一特征分类框图。
图5是分类的收敛时间帧I后单一特征单特征统计特性分类框图。
图6是类语音信号分级规则分类框图。
图7是类音乐信号分级规则分类框图。
图8是分类结果修正模块框图。
五、具体实施方式
本发明的主要构思是,对语音频编解码器可以采用一种实时的音频信号分类方法进行编码前语音频信号类别判决(如图1),在此基础上根据判决类似选择适用于语音或者音频的编码器,从而提高语音频编解码器的对不同类型信号的编码效率,具体过程如下:
步骤1、信号分帧及高通滤波处理,滤除不必要低频信号;静音检测,采用短时过零率进行当前帧静音检测,当所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。;
步骤2、MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和;
步骤3、信号分类的收敛时间帧I内时单一特征信号类别分类;
步骤4、信号分类的收敛时间帧I后时采用多特征统计特性分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和;
步骤5、信号类别单特征统计特性分类,单特征统计特性分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为类语音帧,反之设置所述当前帧为类音乐帧。
步骤6、信号类别单特征统计特性分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
步骤7、通过存储分类结果的历史状态,结合当前帧的分类结果,利用出现频率最高的分类类型作为当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。
下面结合附图及实施例对本发明方案做进一步详细说明。
一种基于信号多特征统计的音频信号分类方法,如图2所示,包括彼此连接的预处理模块、特征提取模块、多特征统计特性分级规则分类模块和分类结果修正模块。下面介绍各模块的功能。
预处理模块,首先是将音频流x(n)进行信号分帧和高通滤波,其次是采用短时平均过零率进行静音检测,如图3所示,当短时平均过零率大于第一设定值时,即图示201,判断该帧为非静音帧,执行203,进入204;否则则执行202,判断为静音帧。短时平均过零率计算采用如下公式1:
(公式1)
其中N是帧长度,sgn[·]为符号函数,即:
(公式2)
窗函数h(n)为矩形窗,即:
(公式3)
特征提取模块,用于预处理后进行MDCT变化和时域及其MDCT域特征提取。首先采用MDCT(Modified Discrete Cosine Transform)变换得到频域系数:
将N点当前帧时域数据x(n)与上一帧N点时域数据x(n-N)叠组成2N点时域数据进行MDCT变换,对于本实施例,采用16kHz采样信号,N取320。
(公式4)
其中w(n)表示sin窗函数,表达式为:
(公式5)
时域及其MDCT频域特征提取:
(1)短时过零率Zn,判断阈值为和
(2)MDCT频谱谐波结构稳定性HSS:
步骤1、搜索每帧MDCT频谱中每一个峰值点记为Pl,Pl表示该帧的第l个峰值;
步骤2、变换Pl成标准的对数尺度上,记为LPl,变换如公式6所示:
(公式6)
其中L为最后一个峰值;
步骤3、计算每个LPl的方差即为HSS,HSS的判断阈值记为 和
(3)MDCT频谱子带能量Eb
所述MDCT频谱子带是指MDCT频谱系数等间距分为M个子带,本实施例M为32,子带能量如公式7计算所得:
(公式7)
其中j是子带序号,Eb的第一个子带能量的判断阈值记为
(4)MDCT频谱子带能量变化统计值CSF
计算MDCT频谱流量SF(j):
(公式8)
其中Eb(i,j)为时间帧第i帧的第j个子带能量,Q为计算的频谱流量的时间帧数,本实施例中Q取6。
计算SF(j)中超过设定值THRSF个数CSF,对应的判断阈值为设定值 和
(5)MDCT频谱质心变化值δc:
步骤1、计算各帧MDCT频谱质心值:
(公式9)
其中F(k)=k+1,p(n)的计算如公式10:
p(k)=Ω(k)/max(Ω(k)) (公式10)
其中Ω(k)=abs(X(k))。
步骤2、计算MDCT频谱质心变化值:
(公式11)
O为要计算的相邻帧数。本实施例中O取4。δc的判断阈值记为和
(6)MDCT频谱系数前四个参数绝对值之和El
计算MDCT频谱系数前四个参数绝对值之和,其结果记为El,其判断阈值标志为 和
多特征统计特性分级规则分类模块,是一种基于多特征统计特性分级的规则分类方法,具体包含以下过程:
所述当前帧处于分类的收敛时间帧I内时采用单一特征分类301模块,单一特征采用MDCT频谱子带能量Eb,如图4所示,执行302,即MDCT频谱子带能量第一能量子带Eb(0)大于则执行304,判定为语音信号帧,反之执行303,为音乐信号帧。
所述当前帧处于分类的收敛时间帧I后时采用单一特征分类401模块,单一特征采用MDCT频谱子带能量Eb,如图5所示,执行402,即MDCT频谱变换系数第一能量子带Eb(0)大于则判定为准语音信号帧,反之为准音乐信号帧。
所述对单特征统计特性分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
所述准语音分级规则分类过程如图6所示,具体过程如下:
比较MDCT频谱子带能量变化统计值CSF与CSF第二判断阈值大小,执行502,若大于则输出当前帧为语音信号帧,执行510,否则进入第二级503;
第二级503判断比较MDCT频谱子带能量变化统计值CSF与CSF第三判断阈值大小,若小于则输出当前帧为音乐信号帧,执行509,否则进入第三级504;
第三级504判断比较MDCT频谱质心变化值δc与δc第三判断阈值若大于则输出当前帧为语音信号帧,执行510,否则进入第四级505;
第四级505判断比较MDCT频谱系数前四个参数绝对值之和El与El第二判断阈值大小,若大于则输出当前帧为音乐信号帧,执行509,否则进入第五级506;
第五级506判断比较MDCT频谱系数前四个参数绝对值之和El与El第三判断阈值大小,若小于则输出当前帧为语音信号帧,执行510,否则进入第六级507;
第六级507判断比较MDCT频谱谐波结构稳定性HSS与HSS第三判断阈值和第七判断阈值大小,若HSS属于区间,则判定为音乐信号帧,执行509,否则进入第七级508;
第七级508判断比较MDCT频谱谐波结构稳定性HSS与HSS第二判断阈值和第六判断阈值大小,同时比较短时过零率Zn与Zn第一判断阈值和第三判断阈值大小,若HSS属于区间且Zn属于区间,则判断为音乐信号帧,执行509,反之则判断为语音信号帧,执行510,准语音信号分级规则分类模块输出音频信号分类结果。
所述准音乐分级规则分类过程如图7所示,具体过程如下:
比较MDCT频谱质心变化值δc与δc第一判断阈值执行602,若大于则输出当前帧为语音信号帧,执行609,否则进入第二级603;
第二级603判断比较MDCT频谱质心变化值δc与δc第二判断阈值若小于或等于则输出当前帧为音乐信号帧,执行608,否则进入第三级604;
第三级604判断比较MDCT频谱谐波结构稳定性HSS与HSS第四判断阈值和第二判断阈值大小,同时比较短时过零率Zn与Zn第一判断阈值和第二判断阈值大小,若HSS属于区间且Zn属于区间,则输出当前帧为音乐信号帧,执行608,否则进入第四级605;
第四级605判断比较MDCT频谱谐波结构稳定性HSS与HSS第五判断阈值大小,若大于则输出当前帧为语音信号帧,执行609,否则进入第五级606;
第五级606判断比较MDCT频谱谐波结构稳定性HSS与HSS第一判断阈值大小,同时比较MDCT频谱子带能量变化统计值CSF与CSF第一判断阈值大小,若HSS大于且CSF大于则输出当前帧为语音信号帧,执行609,否则进入第六级607;
第六级607判断比较MDCT频谱系数前四个参数绝对值之和El与El第一判断阈值大小,同时比较MDCT频谱子带能量变化统计值CSF与CSF第四判断阈值大小,若El小于且CSF大于则判断为语音信号帧,执行609,反之则判断为音乐信号帧,执行608,准音乐信号分级规则分类模块输出音频信号分类结果。
分类结果修正模块,其特征在于,通过存储分类结果的历史状态,即存储当前帧的前T-1帧的原始分类结果及当前帧的分类结果701,若当前帧为静音帧702或者历史分类原始分类结果中仅有两帧为非静音帧703则维持原分类结果,执行705,反之统计出现频率最高的音频信号分类结果作为当前帧的分类结果,执行704,并输出分类结果,执行706,本实施例中T取10,分类结果修正模块框图如图8所示。
其中,所述的一种基于信号多特征统计的音频信号分类方法中所涉及的音频特征参数对应的多级判定阈值,其数值如表1所示。
下面对本发明技术方案的分类效果进行评估。
本次评估使用EBU SQAM的语音频素材,中文采用国家标准GSBM 6001-89_音质评价样件《美谈不美》的中文样本,共71个音频样本。信号为原始音频信号,信号采样率为16KHz,每帧长度为20ms。评估结果见表2。
表1 音频特征参数对应的多级判定阈值
表2 音频信号分类效果测试结果
信号类别 | 正确率% |
音乐 | |
单频音频 | 99.6 |
电子乐器 | 96.9 |
弦乐器 | 96.6 |
管乐器 | 97.8 |
打击乐器 | 94.5 |
风琴类乐器 | 95.0 |
语音 | |
男声 | 95.6 |
女声 | 96.9 |
本发明所述技术方案对语音的正确分辨率平均为96.22%,音乐的正确分辨率平均为96.23%,分类效果好。本发明技术方案在现有语音频编解码器通用的MDCT域进行音频特征的提取,避免了额外变换的复杂运算,使音频信号分类更为快速;对音频信号的分类处理是实时的,可有效地提高音频传输、音频编码等音频信号处理的效率。
Claims (9)
1.一种基于信号多特征统计的音频信号分类方法,其特征在于,包括:
对输入的音频信号进行分帧及高通滤波处理后,进行当前帧静音检测,计算MDCT变换,在时域和MDCT域提取音频特征,当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类,若所述当前帧处于分类的收敛时间帧I之后则采用多特征统计特性分级规则的分类方法进行分类,且所述当前帧经过多特征统计特性分级规则分类后,根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类型。
2.根据权利要求1所述的方法,其特征在于,采用短时过零率进行当前帧静音检测,所述当前帧短时过零率大于所述第一设定值,设置当前帧为非静音帧。
3.根据权利要求1所述的方法,其特征在于,通过对处理后的每帧音频信号进行MDCT变换,在时域与MDCT域中提取一系列的音频特征,音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
4.根据权利要求1所述的方法,其特征在于,当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类,单一特征采用MDCT频谱子带能量,所述当前帧单一特征第一能量子带大于所述第二设定值,设置当前帧为语音帧。
5.根据权利要求1所述的方法,其特征在于,当所述当前帧处于分类的收敛时间帧I后时采用多特征统计特性分级规则进行多级特征分类,多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。
6.根据权利要求5所述的方法,其特征在于,将所述当前帧进行单特征统计特性分类,单特征统计特性分类特征采用MDCT频谱子带能量的第一子带进行判别,大于所述第二设定值,设置当前帧为准语音帧,反之设置所述当前帧为准音乐帧。
7.根据权利要求5或6所述的方法,其特征在于,对单特征统计特性分类后的信号帧按照多特征结合的方法进行精细分类,精细分类每级判断的音频特征分别与相应设定值比较判断信号类型,分级分类过程不改变分级特征判断顺序。
8.根据权利要求1所述的方法,其特征在于,通过存储分类结果的历史状态,结合当前帧的分类结果,利用出现频率最高的分类类型作为当前帧的分类结果,若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。
9.根据权利要求1或2或4或7所述的方法,其特征在于,第一设定值和第二设置是给定的阈值,相应设定值是一系列给定的阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611048854.2A CN108074584A (zh) | 2016-11-18 | 2016-11-18 | 一种基于信号多特征统计的音频信号分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611048854.2A CN108074584A (zh) | 2016-11-18 | 2016-11-18 | 一种基于信号多特征统计的音频信号分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108074584A true CN108074584A (zh) | 2018-05-25 |
Family
ID=62161577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611048854.2A Pending CN108074584A (zh) | 2016-11-18 | 2016-11-18 | 一种基于信号多特征统计的音频信号分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108074584A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161728A (zh) * | 2019-12-26 | 2020-05-15 | 珠海格力电器股份有限公司 | 一种智能设备的唤醒方法、装置、设备及介质 |
CN112908305A (zh) * | 2021-01-30 | 2021-06-04 | 云知声智能科技股份有限公司 | 一种提升语音识别准确性的方法和设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102237085A (zh) * | 2010-04-26 | 2011-11-09 | 华为技术有限公司 | 音频信号的分类方法及装置 |
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
US20140046658A1 (en) * | 2011-04-28 | 2014-02-13 | Telefonaktiebolaget L M Ericsson (Publ) | Frame based audio signal classification |
-
2016
- 2016-11-18 CN CN201611048854.2A patent/CN108074584A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102237085A (zh) * | 2010-04-26 | 2011-11-09 | 华为技术有限公司 | 音频信号的分类方法及装置 |
US20140046658A1 (en) * | 2011-04-28 | 2014-02-13 | Telefonaktiebolaget L M Ericsson (Publ) | Frame based audio signal classification |
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161728A (zh) * | 2019-12-26 | 2020-05-15 | 珠海格力电器股份有限公司 | 一种智能设备的唤醒方法、装置、设备及介质 |
CN111161728B (zh) * | 2019-12-26 | 2022-08-30 | 珠海格力电器股份有限公司 | 一种智能设备的唤醒方法、装置、设备及介质 |
CN112908305A (zh) * | 2021-01-30 | 2021-06-04 | 云知声智能科技股份有限公司 | 一种提升语音识别准确性的方法和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102543079A (zh) | 一种实时的音频信号分类方法及设备 | |
CN103646649B (zh) | 一种高效的语音检测方法 | |
CN101599271B (zh) | 一种数字音乐情感的识别方法 | |
CN109524014A (zh) | 一种基于深度卷积神经网络的声纹识别分析方法 | |
CN102446504B (zh) | 语音/音乐识别方法及装置 | |
CN101221762A (zh) | 一种mp3压缩域音频分割方法 | |
CN106504772A (zh) | 基于重要性权重支持向量机分类器的语音情感识别方法 | |
CN103871423A (zh) | 一种基于nmf非负矩阵分解的音频分离方法 | |
CN103000172A (zh) | 信号分类方法和装置 | |
CN108364641A (zh) | 一种基于长时帧背景噪声估计的语音情感特征提取方法 | |
Zhou et al. | Dynamic Margin Softmax Loss for Speaker Verification. | |
CN113707175B (zh) | 基于特征分解分类器与自适应后处理的声学事件检测系统 | |
Eshaghi et al. | Voice activity detection based on using wavelet packet | |
CN108074584A (zh) | 一种基于信号多特征统计的音频信号分类方法 | |
Thambi et al. | Random forest algorithm for improving the performance of speech/non-speech detection | |
Jing et al. | Speaker recognition based on principal component analysis of LPCC and MFCC | |
Qi et al. | A novel two-step SVM classifier for voiced/unvoiced/silence classification of speech | |
CN102610234B (zh) | 信号复杂度和编码速率选择的映射实现方法 | |
Yadav et al. | Speaker identification system using wavelet transform and VQ modeling technique | |
Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
Velayatipour et al. | A review on speech-music discrimination methods | |
Ravindran et al. | Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
Büker et al. | Double compressed AMR audio detection using long-term features and deep neural networks | |
Sharma et al. | Non intrusive codec identification algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180525 |
|
WD01 | Invention patent application deemed withdrawn after publication |