CN1897109B - 一种基于mfcc的单一音频信号识别方法 - Google Patents

一种基于mfcc的单一音频信号识别方法 Download PDF

Info

Publication number
CN1897109B
CN1897109B CN200610021070A CN200610021070A CN1897109B CN 1897109 B CN1897109 B CN 1897109B CN 200610021070 A CN200610021070 A CN 200610021070A CN 200610021070 A CN200610021070 A CN 200610021070A CN 1897109 B CN1897109 B CN 1897109B
Authority
CN
China
Prior art keywords
audio
signal
short
single audio
frequency signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200610021070A
Other languages
English (en)
Other versions
CN1897109A (zh
Inventor
解梅
许刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN200610021070A priority Critical patent/CN1897109B/zh
Publication of CN1897109A publication Critical patent/CN1897109A/zh
Application granted granted Critical
Publication of CN1897109B publication Critical patent/CN1897109B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

一种基于MFCC的单一音频信号识别方法,属于电子信息技术中的信号处理技术领域,涉及基于内容的音频信号检索、识别方法。首先对待测试单一音频信号进行端点检测,包括滤波、分帧、计算平均短时能量和计算过零率;然后计算待测试单一音频信号的均值MEL倒谱系数;最后根据待测试单一音频信号的均值MEL倒谱系数和标准音频信号特征库,采取最近邻识别算法识别待测单一音频信号。本发明采用MEL倒谱系数作为音频信号的识别特征进行单一音频信号的识别,可以适用于各种声音,大大地提高音频识别的通用性。

Description

一种基于MFCC的单一音频信号识别方法
技术领域
一种基于MFCC的单一音频信号识别方法,属于电子信息技术中的信号处理技术领域,涉及基于内容的音频信号检索、识别方法。
背景技术
基于内容的音频检索是一个新兴的研究领域,在国内外仍处于研究、探索阶段,因此在基于内容的音频检索领域中仍然存在许多问题。音频包括语音和非语音(Non-speech)两类信号。一直以来,音频信号的处理主要集中于语音识别、说话者识别等语音处理方面的研究,如在语音识别方面IBM的ViaVoice已趋于成熟。但是,对于基于内容的音频信息识别技术的研究还不多。如何提取音频中的声学特征(能量、过零率、MFCC系数)和感知特征(音调、音高;旋律、节奏),使得无序的音频数据变得有序,是基于内容的音频检索技术能否得以实用的关键所在。只有在基于音频物理特征(采样率、时间刻度、样本、格式、编码)的识别技术方面有所突破,才可能在更高层次的基于知识辅助的音频检索方面做出更深入地研究。目前国内研究仅限于音乐分析,音频事件提取和查询方面。真正基于内容的音频识别工作是由美国Muscle Fish公司完成的,他们研究的系统可以对音频进行识别和分类,有较高的准确率。基于内容的音频检索尚有大量问题需要进一步深入研究。
在音频检索系统中,音频特征的选取是识别的关键技术,其目的就是要找出一种可以将不同声音分类的标志,作为识别的依据。由于原始音频数据除了含有采样频率、量化精度、编码方法等有限的注册信息外,本身仅仅是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,因而音频的检索和内容过滤等应用都受到极大的限制。迄今为止,大都以特定环境下的响度、音调、亮度、谐度等作为识别特征。因此如何选取音频的特征点是当前研究的一个重要内容。
基于MFCC的音频识别算法,是以均值MFCC作为特征点,进行音频识别。因为MFCC作为识别特征已在语音识别的过程中有了广泛的应用,对于不同的非语音音频信号,MFCC仍有着显著的差异,可以作为音频信号的识别特征。
其中,MFCC(Mel-frequency cepstrum cofficients)是建立在傅立叶和倒谱分析基础上的,反应了音频信号的频域特征。对短时音频帧中的采样点进行傅立叶变换,得到这个短时音频帧在每个频率上的能量大小。如果要将整个频率带线性划分成若干个子带,每个子带的宽度可以取为
Figure G2006100210700D00021
如果整个频率带被划分为n个子带,分别计算这n个子带上的总能量,就构成了这个短时音频帧的n个Mel系数.对提取出来的Mel系数再计算其对应的倒谱系数,就是Mel倒谱系数.倒频谱分析是一种非线性信号处理技术,其基本要领是由Bogert,Healy和Tukey在1963年引入的.它是同态系统理论的基础,是专门处理通过卷积组合在一起的信号的,后来被应用到语音信号的处理中.语音指人类发音器官发出的具有区别意义功能的声音,不能把语音看成纯粹的自然物质;语音是最直接地记录思维活动的符号体系,是语言交际工具的声音形式,其频率的范围介于300~3400赫兹间.
现在通常使用的音频特征有:
带宽(bandwidth)均值:带宽是衡量音频频域范围的指标,其定义为:其中FC(frequency centroid)为频率中心,它是度量声音亮度(brightness)的指标,其定义为:
Figure G2006100210700D00023
一般地,语音的带宽范围在300HZ~3.4KHZ左右,而音乐的带宽范围比较宽,可以在22.05kHZ左右。
短时平均能量:在一个短时音频帧内,采样点信号所聚集的平均能量。计算公式为:
Figure G2006100210700D00024
其中,x(n)表示第m个短时帧信号中第n个采样信号值,w(n)是长度为N的窗口函数(常用海明窗、汉宁窗等)。
响度:人耳感觉到声音的强弱,依赖于听者的主观听觉,一般声强大的响度也大。声强也叫声音的能流密度,是描述声音强弱的物理量,其单位是瓦特/米2。人耳的响度感觉与音调等也有关系。
以上音频特征的选取都具备一个共同的特点:这些特征都是针对一个特定的环境,对特定环境内的特定声音(少量种类的声音)进行的特征提取并进行识别。一旦环境变化,其提取准确率就会发生较大的波动,甚至不能再作为音频特征进行识别,使整个音频识别系统的性能下降,因此缺乏对各种环境的适应性,方法鲁棒性不好。
发明内容
本发明的任务是提供一种通用的单一音频特征的选取方法,即本发明的方法,可以适用于各种声音,大大地提高音频识别的通用性。这里的声音包括两种含义,在物理学上是指声波,即由振动物体所产生并在媒质中传播的一种波,具有一定的能量。在生理学上则是指声波作用于听觉器官所引起的一种主观感觉。人耳不是对所有物体的振动都能听得见。物体振动次数过低或过高,人耳都不能感受。人耳可感受声音频率的范围介于60~20000赫兹间。
一种基于MFCC的单一音频信号识别方法,如图1所示,假定所识别的音频类型有c种,每种类型分别标记为w1,w2,...wi,...wc(wi可以是鸟声、喇叭声等任何一种,i=1,2,...,c);并假定已建立标准的音频信号库,音频信号库中每一种类型的参考音频信号由一系列的音频例子组成,其特征是,包括如下步骤:
步骤一、对待测试单一音频信号进行端点检测,包括如下具体步骤:
第一步:对待测试单一音频信号进行滤波处理,即根据采样率的不同,选择适当的参数,将入耳能感知的音频信号以外的声音滤除(人耳可感知声音频率为60Hz~20KHz)。
第二步:选择适当的阈值,检测待测单一音频信号的起始点和结束点.首先对待测单一音频信号按照每个短时音频帧约为250毫秒进行分帧处理,分帧处理的目的是保持音频信号的短时稳定性,为保证其连续性,对音频帧进行迭加处理,音频帧间的迭加率为50%~80%;然后对短时帧音频信号进行平均短时能量的计算,并判断:如果AMP>AMP1,判断为信号部分,AMP<AMP1,判断为噪音,AMP1为阈值,通常取值范围为5~20;对短时帧音频信号进行短时过零率的计算,并判断:如果ZCR>ZCR1,判断为信号部分,ZCR<ZCR1,判断为噪音,ZCR1为阈值,通常取值范围为5左右;根据平均短时能量和过零率的计算和判断确定待测单一音频信号的起始点和结束点.
短时帧:将离散单一音频信号分成一定长度单位进行处理,即将离散音频采样点分成一个个音频帧。一般一个“短时”音频帧持续时间长度约为几十毫秒个到几百个毫秒。相邻帧间的迭加率一般为50%-80%。
短时平均能量:指在一个短时音频帧内采样点信号所聚集的平均能量。本发明采用的计算公式为:其中,Em是短时平均能量,N是短时帧的数目,m是采样点迭加数目,n是采样点的数目,x(n)是待测音频信号,w(n-m)为窗口函数。
过零率:一个短时帧内,离散采样信号值由正到负和由负到正变化的次数,这个量大概能够反映信号在短时帧内的平均频率。本发明采用的计算公式为:
Figure G2006100210700D00032
其中,Zm是短时过零率。
步骤二、计算待测试单一音频信号的均值MEL倒谱系数
将60Hz~20KHz的频带按照MEL频率平均划分为24个子带;计算每个短时帧的每个频率子带的能量总和,分别得到每个短时帧的每个频率子带的Mel系数;对提取出来的Mel系数计算其对应的倒谱系数,就得到每个短时帧的每个频率子带的Mel倒谱系数;将所有短时音频帧同一频带的Mel倒谱系数进行求均值,便得到待测单一音频信号的均值Mel倒谱系数。
MEL频率与线形频率的关系为: Mef ( f ) = 2595 lg ( 1 + f 500 ) .
步骤三、训练音频信号特征库的建立
对标准音频信号库中的每个音频例子,计算其均值MEL倒谱系数,具体方法如同步骤二,由此建立训练音频信号特征库{y1,y2,...,yN}。
步骤四、采用最近邻识别算法识别待测单一音频信号
对于c个音频类型w1,w2,...wi,...wc,标准音频信号库中的音频训练样本为{y1,y2,...,yN},计算未知待测样本x(即待测单一音频信号)与各训练样本类间的最短距离:
Figure G2006100210700D00042
其中i=1,2,...c;j=1,2,...N,将最短距离的一类作为识别结果。
需要说明的是,本发明标准音频信号为单一音频例子。标准音频信号库的建立,可以根据不同应用情况灵活进行,即可以采用已有的标准音频库,也可以对需要识别的音频信号进行分类录制。若采用对需要识别的音频信号进行分类录制的方法建立标准音频信号库,录制时,应尽量减少环境噪声;对录制音频信号进行处理时,可使用GOLDWAVE等处理工具。
本发明中所述音频例子为:在连续音频数据流的特征发生突变时,将其切分成的若干长短不一音频单元。这些长短不一的音频单元好比视频中最小物理单元“镜头”,通常使用“音频例子(Audio Clip)”来指代这些长短不一的音频单元。音频例子长度一般为1-4秒。
本发明创新之处在于,采用MEL倒谱系数作为音频信号的识别特征进行单一音频信号的识别.
本发明的有益效果是:可以适用于各种声音,大大地提高音频识别的通用性。
附图说明
图1:本发明所述一种基于MFCC的单一音频信号识别方法的流程示意图。
具体实施方式
一种基于MFCC的单一音频信号识别方法,如图1所示,假定所识别的音频类型有c种,每种类型分别标记为w1,w2,...wi,...wc(wi可以是鸟声、喇叭声等任何一种,i=1,2,...,c);并假定已建立标准的音频信号库,音频信号库中每一种类型的参考音频信号由一系列的音频例子组成,其特征是,包括如下步骤:
步骤一、对待测试单一音频信号进行端点检测,包括如下具体步骤:
第一步:对待测试单一音频信号进行滤波处理,即根据采样率的不同,选择适当的参数,将人耳能感知的音频信号以外的声音滤除(人耳可感知声音频率为60Hz~20KHz)。
第二步:选择适当的阈值,检测待测单一音频信号的起始点和结束点。首先对待测单一音频信号按照每个短时音频帧约为250毫秒进行分帧处理,分帧处理的目的是保持音频信号的短时稳定性,为保证其连续性,对音频帧进行迭加处理,音频帧间的迭加率为50%~80%;然后对短时帧音频信号进行平均短时能量的计算,并判断:如果AMP>AMP1,判断为信号部分,AMP<AMP1,判断为噪音,AMP1为阈值,通常取值范围为5~20;对短时帧音频信号进行短时过零率的计算,并判断:如果ZCR>ZCR1,判断为信号部分,ZCR<ZCR1,判断为噪音,ZCR1为阈值,通常取值范围为5左右;根据平均短时能量和过零率的计算和判断确定待测单一音频信号的起始点和结束点。
短时帧:将离散单一音频信号分成一定长度单位进行处理,即将离散音频采样点分成一个个音频帧。一般一个“短时”音频帧持续时间长度约为几十毫秒个到几百个毫秒。相邻帧间的迭加率一般为50%-80%。
短时平均能量:指在一个短时音频帧内采样点信号所聚集的平均能量。本发明采用的计算公式为:其中,Em是短时平均能量,N是短时帧的数目,m是采样点迭加数目,n是采样点的数目,x(n)是待测音频信号,w(n-m)为窗口函数。
过零率:一个短时帧内,离散采样信号值由正到负和由负到正变化的次数,这个量大概能够反映信号在短时帧内的平均频率。本发明采用的计算公式为:其中,Zm是短时过零率。
步骤二、计算待测试单一音频信号的均值MEL倒谱系数
将60Hz~20KHz的频带按照MEL频率平均划分为24个子带;计算每个短时帧的每个频率子带的能量总和,分别得到每个短时帧的每个频率子带的Mel系数;对提取出来的Mel系数计算其对应的倒谱系数,就得到每个短时帧的每个频率子带的Mel倒谱系数;将所有短时音频帧同一频带的Mel倒谱系数进行求均值,便得到待测单一音频信号的均值Mel倒谱系数。
MEL频率与线形频率的关系为: Mef ( f ) = 2595 lg ( 1 + f 500 ) .
步骤三、训练音频信号特征库的建立
对标准音频信号库中的每个音频例子,计算其均值MEL倒谱系数,具体方法如同步骤二,由此建立训练音频信号特征库{y1,y2,...,yN}。
步骤四、采用最近邻识别算法识别待测单一音频信号
对于c个音频类型w1,w2,...wi,...wc,标准音频信号库中的音频训练样本为{y1,y2,...,yN},计算未知待测样本x(即待测单一音频信号)与各训练样本类间的最短距离:其中i=1,2,...c;j=1,2,...N,将最短距离的一类作为识别结果。

Claims (3)

1.一种基于MFCC的单一音频信号识别方法,假定所识别的音频类型有c种,每种类型分别标记为w1,w2,...wi,...wc,i=1,2,...,c;并假定已建立标准的音频信号库,音频信号库中每一种类型的参考音频信号由一系列的音频例子组成,其特征是,包括如下步骤:
步骤一、对待测试单一音频信号进行端点检测,包括如下具体步骤:
第一步:对待测试单一音频信号进行滤波处理,即根据采样率的不同,选择适当的参数,将人耳能感知的音频信号以外的声音滤除;
第二步:选择适当的阈值,检测待测单一音频信号的起始点和结束点;
首先对待测单一音频信号按照每个短时音频帧约为250毫秒进行分帧处理,为保证其连续性,对音频帧进行迭加处理,音频帧间的迭加率为50%~80%;然后对短时帧音频信号进行平均短时能量的计算,并判断:如果AMP>AMP1,判断为信号部分,AMP<AMP1,判断为噪音,AMP1为阈值,通常取值范围为5~20;对短时帧音频信号进行短时过零率的计算,并判断:如果ZCR>ZCR1,判断为信号部分,ZCR<ZCR1,判断为噪音,ZCR1为阈值,通常取值范围为5左右;根据平均短时能量和过零率的计算和判断确定待测单一音频信号的起始点和结束点;
步骤二、计算待测试单一音频信号的均值MEL倒谱系数:
将60Hz~20KHz的频带按照MEL频率平均划分为24个子带;计算每个短时帧的每个频率子带的能量总和,分别得到每个短时帧的每个频率子带的Mel系数;对提取出来的Mel系数计算其对应的倒谱系数,就得到每个短时帧的每个频率子带的Mel倒谱系数;将所有短时音频帧同一频带的Mel倒谱系数进行求均值,便得到待测单一音频信号的均值Mel倒谱系数;
步骤三、标准音频信号特征库的建立:
对标准音频信号库中的每个音频例子,计算其均值MEL倒谱系数,具体方法如同步骤二,由此建立训练音频信号特征库{y1,y2,...,yN};
步骤四、采用最近邻识别算法识别待测单一音频信号
对于c个音频类型w1,w2,...wi,...wc,标准音频信号库中的音频训练样本为{y1,y2,...,yN},计算未知待测样本x与各训练样本类间的最短距离:其中i=1,2,...c;j=1,2,...N,将最短距离的一类作为识别结果。
2.根据权利要求1所述的一种基于MFCC的单一音频信号识别方法,其特征是,所述步骤一中第二步中短时平均能量的计算公式为:其中,Em是短时平均能量,N是短时帧的数目,m是采样点迭加数目,n是采样点的数目,x(n)是待测音频信号,w(n-m)为窗口函数。
3.根据权利要求1所述的一种基于MFCC的单一音频信号识别方法,其特征是,所述步骤一中第二步中过零率的计算公式为:其中,Zm是短时过零率,m是采样点迭加数目,n是采样点的数目,x(n)是待测音频信号,w(n-m)为窗口函数。
CN200610021070A 2006-06-01 2006-06-01 一种基于mfcc的单一音频信号识别方法 Expired - Fee Related CN1897109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200610021070A CN1897109B (zh) 2006-06-01 2006-06-01 一种基于mfcc的单一音频信号识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610021070A CN1897109B (zh) 2006-06-01 2006-06-01 一种基于mfcc的单一音频信号识别方法

Publications (2)

Publication Number Publication Date
CN1897109A CN1897109A (zh) 2007-01-17
CN1897109B true CN1897109B (zh) 2010-05-12

Family

ID=37609612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610021070A Expired - Fee Related CN1897109B (zh) 2006-06-01 2006-06-01 一种基于mfcc的单一音频信号识别方法

Country Status (1)

Country Link
CN (1) CN1897109B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030369B (zh) * 2007-03-30 2011-06-29 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
CN101308651B (zh) * 2007-05-17 2011-05-04 展讯通信(上海)有限公司 音频暂态信号的检测方法
CN101829689B (zh) * 2010-03-31 2012-06-27 北京科技大学 一种基于声信号的热轧带钢甩尾故障识别方法
CN102375834B (zh) * 2010-08-17 2016-01-20 腾讯科技(深圳)有限公司 音频文件检索方法、系统和音频文件类型识别方法、系统
CN102231277A (zh) * 2011-06-29 2011-11-02 电子科技大学 基于声纹识别的移动终端隐私保护方法
CN102254558B (zh) * 2011-07-01 2012-10-03 重庆邮电大学 基于端点检测的智能轮椅语音识别的控制方法
CN102253993B (zh) * 2011-07-08 2013-08-21 北京航空航天大学 一种基于词汇树的音频片段检索算法
CN103996399B (zh) * 2014-04-21 2017-07-28 深圳市北科瑞声科技股份有限公司 语音检测方法和系统
CN104183245A (zh) * 2014-09-04 2014-12-03 福建星网视易信息系统有限公司 一种演唱者音色相似的歌星推荐方法与装置
CN105760403A (zh) * 2014-12-19 2016-07-13 北京四维图新科技股份有限公司 一种筛选电话号码的方法及装置
CN108694416A (zh) * 2018-05-23 2018-10-23 重庆科技学院 基于多特征融合算法的振动光纤入侵事件检测方法
CN110753288B (zh) * 2018-07-23 2021-08-17 中国电信股份有限公司 音箱音量自动调节的方法和系统
CN109766929A (zh) * 2018-12-24 2019-05-17 重庆第二师范学院 一种基于svm的音频分类方法及系统
CN110109338B (zh) * 2019-05-31 2021-03-30 福建瑞达精工股份有限公司 一种钟表起闹点的校准方法
CN110910897B (zh) * 2019-12-05 2023-06-09 四川超影科技有限公司 一种用于电机异常声音识别的特征提取方法
CN112927713B (zh) * 2019-12-06 2024-06-14 腾讯科技(深圳)有限公司 音频特征点的检测方法、装置和计算机存储介质
CN111369982B (zh) * 2020-03-13 2024-06-25 北京远鉴信息技术有限公司 音频分类模型的训练方法、音频分类方法、装置及设备
CN113299281A (zh) * 2021-05-24 2021-08-24 青岛科技大学 基于声学文本融合的驾驶员尖锐高音识别预警方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1241662A2 (en) * 2001-03-14 2002-09-18 Texas Instruments Incorporated Method of speech recognition with compensation for both channel distortion and background noise
US20040148160A1 (en) * 2003-01-23 2004-07-29 Tenkasi Ramabadran Method and apparatus for noise suppression within a distributed speech recognition system
US20040199381A1 (en) * 2003-04-01 2004-10-07 International Business Machines Corporation Restoration of high-order Mel Frequency Cepstral Coefficients
US20050228662A1 (en) * 2004-04-13 2005-10-13 Bernard Alexis P Middle-end solution to robust speech recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1241662A2 (en) * 2001-03-14 2002-09-18 Texas Instruments Incorporated Method of speech recognition with compensation for both channel distortion and background noise
US20040148160A1 (en) * 2003-01-23 2004-07-29 Tenkasi Ramabadran Method and apparatus for noise suppression within a distributed speech recognition system
US20040199381A1 (en) * 2003-04-01 2004-10-07 International Business Machines Corporation Restoration of high-order Mel Frequency Cepstral Coefficients
US20050228662A1 (en) * 2004-04-13 2005-10-13 Bernard Alexis P Middle-end solution to robust speech recognition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张一清,李轶.基于矢量量化方法的说话人识别技术.杭州电子科技大学学报25 4.2005,25(4),58-61.
张一清,李轶.基于矢量量化方法的说话人识别技术.杭州电子科技大学学报25 4.2005,25(4),58-61. *

Also Published As

Publication number Publication date
CN1897109A (zh) 2007-01-17

Similar Documents

Publication Publication Date Title
CN1897109B (zh) 一种基于mfcc的单一音频信号识别方法
CN110019931B (zh) 音频分类方法、装置、智能设备和存储介质
CN101599271B (zh) 一种数字音乐情感的识别方法
Hoyt et al. Detection of human speech in structured noise
Hu et al. Pitch‐based gender identification with two‐stage classification
Tran et al. Sound event recognition with probabilistic distance SVMs
CN101023469B (zh) 数字滤波方法和装置
US20070083365A1 (en) Neural network classifier for separating audio sources from a monophonic audio signal
CN110111773A (zh) 基于卷积神经网络的音乐信号多乐器识别方法
Dua et al. Performance evaluation of Hindi speech recognition system using optimized filterbanks
AU2014204540B1 (en) Audio Signal Processing Methods and Systems
Chaki Pattern analysis based acoustic signal processing: a survey of the state-of-art
CN106997765A (zh) 人声音色的定量表征方法
CN111696580A (zh) 一种语音检测方法、装置、电子设备及存储介质
Meng et al. Automatic music transcription based on convolutional neural network, constant Q transform and MFCC
Valero et al. Narrow-band autocorrelation function features for the automatic recognition of acoustic environments
Benetos et al. Auditory spectrum-based pitched instrument onset detection
Goto A predominant-f0 estimation method for real-world musical audio signals: MAP estimation for incorporating prior knowledge about f0s and tone models
Rao Audio signal processing
CN111681674A (zh) 一种基于朴素贝叶斯模型的乐器种类识别方法和系统
Ricard Towards computational morphological description of sound
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
Dixon Multiphonic note identification
Camarena-Ibarrola et al. Speaker identification using entropygrams and convolutional neural networks
Sunouchi et al. Diversity-Robust Acoustic Feature Signatures Based on Multiscale Fractal Dimension for Similarity Search of Environmental Sounds

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100512

Termination date: 20130601