CN104616664B - 一种基于声谱图显著性检测的音频识别方法 - Google Patents
一种基于声谱图显著性检测的音频识别方法 Download PDFInfo
- Publication number
- CN104616664B CN104616664B CN201510054228.3A CN201510054228A CN104616664B CN 104616664 B CN104616664 B CN 104616664B CN 201510054228 A CN201510054228 A CN 201510054228A CN 104616664 B CN104616664 B CN 104616664B
- Authority
- CN
- China
- Prior art keywords
- width
- sonograph
- smr
- smrp
- mrow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000000926 separation method Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 22
- 102100028186 ATP-binding cassette sub-family C member 5 Human genes 0.000 claims description 8
- 101710150022 ATP-binding cassette sub-family C member 5 Proteins 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000010586 diagram Methods 0.000 abstract description 6
- 238000012512 characterization method Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 6
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000000860 cochlear nerve Anatomy 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
发明公开了一种基于声谱图显著性检测的音频识别方法,其特征是如下步骤进行:1获取不同声源的声谱图并进行特征提取,获得基本特征集合;2、利用GBVS算法获得显著性图,再利用主图分离方法提取主图;3、提取层次对比图;4、获得PCA特征图;5建立不同声源的GCNN声源模型;6、利用GCNN声源模型识别待测试声谱图的声源。本发明能有效表征复杂环境下未知音频类型的特征信息,同时能够实现快速自动的音频识别。
Description
技术领域
本发明属于音频识别领域,具体地说是一种基于声谱图显著性检测的音频识别方法。
背景技术
随着互联网的高速发展,涌现大量的音频、视频和图像信息。但是音频信息的研究速度远远比不上视频和图像的研究,而且对大量音频信息的识别工作,单靠人工标注是一件庞大而又繁琐的工程,因此,实现对音频信号的自动识别,是音频领域的研究重点。
目前存在的音频信号的自动识别方法主要通过提取特征和选择分类器两大步骤进行,其中研究提取音频信号的声音特征为传统常用的音频识别方法。然而对大量未知复杂的音频数据,若不先对音频进行细化分类,针对不同类型的音频数据采取不同的处理过程,传统的音频识别方法存在明显不足。尤其是原始音频具有极其复杂的表示方式,缺少语义背景内容和结构化的组织,在间断、多源和噪声干扰等复杂的环境下如何选择能够准确表示此类音频的特征信息,并且运用何种识别方法将未知音频正确分类识别是音频识别的重要研究问题。
近年来,随着人类听觉神经科学认识的逐渐深入,越来越多的研究者将注意力放在基于声谱图的时频模型上。研究结果认为:声谱图中的时频结构反映了信号时域和空域结构,可以形成声学感知的稀疏基函数。这与大脑听觉感知系统有效去除冗余,利用较少的神经元表达更多的外界声音信息的思想一致。德国奥登堡大学的Kleinschmidt提出适合自动音频识别的新特征:声谱图中的局部时频结构特征。研究者认为该特征与听觉神经元的时频感受野特性相似,具有有效表达如共振峰的声学参数、较少加性噪声的影响和很好的泛化性。但是,该局部时频结构是通过研究者在声谱图中人工选取的,针对多声源和加性噪声存在的声谱图中,如何让计算机自动有效提取分离出主要声源的局部时频结构仍待解决。麻省理工学院的Schutte利用boosting分类器通过声谱图的局部时频结构识别音频。然而boosting分类器太过依赖人为设定和调节阈值,通过该方法对识别复杂环境下未知音频类型的音频数据来说并不实用。
发明内容
本发明是为了克服现有技术存在的不足之处,提供一种可靠、自动化、快速且强大的基于声谱图显著性检测的音频识别方法,以期能有效表征复杂环境下未知音频类型的特征信息,同时能够实现快速自动的音频识别。
本发明为解决技术问题采用如下技术方案:
本发明一种基于声谱图显著性检测的音频识别方法的特点是如下步骤进行:
步骤1、获取像素为M×N的n种不同声源的声谱图,每种声谱图获取m幅,从而获得m×n幅声谱图D={d1,d2,…,di,…,dm×n};di表示第i幅声谱图;i∈[1,m×n];
对所述m×n幅声谱图D分别进行特征提取,获得基本特征集合;所述基本特征集合包括:RGBY色度特征集合C={C1,C2,…,Ci,…,Cm×n}、方向特征集合O={O1,O2,…,Oi,…,Om×n}和亮度特征集合I={I1,I2,…,Ii,…,Im×n};Ci表示第i幅声谱图di的RGBY色度特征;Oi表示第i幅声谱图di的方向特征;Ii表示第i幅声谱图di的亮度特征;
步骤2、根据所述基本特征集合利用GBVS算法对所述第i幅声谱图di进行显著性提取,获得第i幅显著性图Si;根据所述第i幅显著性图Si利用主图分离方法提取所述第i幅声谱图di的主图SMi,所述第i幅主图SMi是由R基色图R(SMi)、G基色图G(SMi)和B基色图B(SMi)构成的像素为l×l的三维基色图;从而获得m×n幅声谱图D的主图集合SM={SM1,SM2,…,SMi,…,SMm×n};l<M,l<N;
步骤3、利用式(1)提取所述第i幅主图SMi的层次对比图SMRi,从而获得m×n幅声谱图D的层次对比图集合SMR={SMR1,SMR2,…,SMRi,…,SMRm×n}:
步骤4、利用式(2)获得所述第i幅层次对比图SMRi的PCA特征图SMRPi,从而获得m×n幅声谱图D的PCA特征图集合SMRP={SMRP1,SMRP2,…,SMRPi,…,SMRPm×n}:
SMRPi=(dimj(Ai))TSMRi (2)
式(2)中,Ai表示所述第i幅层次对比图SMRi的协方差矩阵,dimj(Ai)表示所述协方差矩阵Ai的前j个特征向量所组成的矩阵;并有:
式(3)中,表示第i幅层次对比图SMRi中第α个像素值;α∈[1,l];
以所述第i幅层次对比图SMRi和第i幅PCA特征图SMRPi作为特征描述集表征所述第i幅声谱图di的声源,从而获得所述m×n幅声谱图D中n类声源的所有特征描述集表征,所述n类声源中的每类声源均包含m个特征描述集;
步骤5、建立n种不同声源的GCNN声源模型;
步骤5.1、在深度卷积神经网络CNN中增加内部输入层,从而形成所述改进的深度卷积神经网络GCNN:
所述深度卷积神经网络CNN包含外部输入层、p个卷积层{C1,C2,…,Cp}、p个降采样层{S1,S2,…,Sp}以及全连接softmax分类层;所述p个卷积层{C1,C2,…,Cp}中的每个卷积层与p个降采样层{S1,S2,…,Sp}中的每个降采样层为互相交错设置,所述外部输入层连接第1个卷积层C1;第p个降采样层Sp连接所述全连接softmax分类层;
在所述第1个卷积层C1与第1个降采样层S1之间设置所述内部输入层,从而构成所述改进的卷积神经网络GCNN;
步骤5.2、以所述层次对比图集合SMR={SMR1,SMR2,…,SMRi,…,SMRm×n}作为所述外部输入层的输入;以所述PCA特征图集合SMRP={SMRP1,SMRP2,…,SMRPi,…,SMRPm×n}作为所述内部输入层的输入;通过所述改进的深度卷积神经网络GCNN进行训练和建模,从而获得n种不同声源的GCNN声源模型;
步骤6、利用所述n种不同声源的GCNN声源模型识别待测试声谱图d'的声源:
步骤6.1、对所述待测试声谱图d'按照步骤2-步骤4依次进行处理,获得所述待测试声谱图d'的层次对比图SMRd'和PCA特征图SMRPd';
步骤6.2、以所述待测试声谱图d'的层次对比图SMRd'作为所述外部输入层的输入图像;以所述待测试声谱图d'的PCA特征图SMRPd'作为所述内部输入层的输入图像;从而利用所述n种不同声源的GCNN声源模型识别所述待测试声谱图d'所属的声源。
本发明所述的基于声谱图显著性检测的音频识别方法的特点也在于,
所述步骤2中的主图分离方法是按如下步骤进行:
步骤2.1、假设所述第i幅显著性图Si中包含Q个注意焦点,将所述Q个注意焦点进行降序排序获得注意焦点集合FOA={FOA1,FOA2,…,FOAq,…,FOAQ};FOAq表示第q个注意焦点;获取所述注意焦点集合FOA中每个注意焦点在所述第i幅显著性图Si中各自的位置L={L1,L2,…,Lq,…,LQ};Lq表示所述第q个注意焦点FOAq在所述第i幅显著性图Si中的位置;1≤q≤Q;
步骤2.2、初始化q=1;
步骤2.3、利用所述第q个注意焦点FOAq在显著性图中的位置Lq,获得所述第q个注意焦点FOAq在所述第i幅声谱图di中所对应的位置Lq';
步骤2.4、提取所述对应的位置Lq'的色度特征,所述色度特征包括:红色特征Rq、绿色特征Gq、蓝色特征Bq和黄色特征Yq;
步骤2.5、判断所述红色特征Rq是否满足在所述色度特征中为最大值,且所述色特征Gq、蓝色特征Bq和黄色特征Yq均为0;若满足,则执行步骤2.6,否则,判断q=Q是否成立;若成立,则表示所述第i幅显著性图Si中没有有效声源;否则,将q+1的值赋给q,并返回步骤2.3执行;
步骤2.6、从与所述第i幅显著性图Si所对应的第i幅声谱图di中分离出以l×l为边长,并以对应的位置Lq'为中心的正方框,判断所述正方框是否超出所述第i幅声谱图di的边界,若超出,则以所述超出的边界作为所述正方框的边,形成新的l×l的矩形框,以所述新的l×l的矩形框作为所述第i幅声谱图di的主图SMi;否则,以所述正方框作为所述第i幅声谱图di的主图SMi。
与现有技术相比,本发明的有益效果体现在:
1、本发明提出通过音频的声音信号与声谱图之间的相关性,将问题转化为泛化的声谱图求解问题,并将音频声源拓展到二维的声谱图图像显著性中,从而能自动挖掘和保留声谱图中可表征待识别声源的有效特征信息,并建立了有效的主图分离方法,再通过最大化突显主图的声纹结构,将主图进行特征降维,去除原有特征空间中包含的冗余信息,并利用改进的卷积神经网络实现建模与识别,解决了未知音频类型的音频特征信息表示与识别的问题,以及当前无法有效地在复杂环境下利用图像处理技术实现对未知音频自动识别的难题;并提高复杂环境下音频识别效率。
2、本发明引入了一种依据声谱图的图像显著性检测返回结果中注意焦点的降序位置来估计声谱图主要声源的方法,获得了本发明所述的声谱图中主要声源区域的定位与分离,克服了在声谱图声源分析中,主要声源区域仍需人工标注的缺陷;同时本发明将最有效的主要声源区域特征融入到主图分离方法中,降低了加性噪声、多声源、声源拼接或失真等声音信号对声源的干扰,从而提高了主图模型的泛化能力。
3、本发明在改进的卷积神经网络建立过程中,根据声谱图中主要声源区域的整体特征和局部特征的隶属关系,增加全局特征的比重,不同声源的整体描述特征中存在的差异能够得到保留,从而能够更为准确的建立声源模型。
4、本发明的音频识别方法在包含加性噪声、多声源及声源拼接等复杂背景的350条4类声源的音频样本数据中训练4类声源模型,并进行了测试,测试结果显示了本发明方法的有效性以及相比传统方法的优越性,表明了本方法在复杂环境下依然具有很高的实用价值。
附图说明
图1为本发明的流程图;
图2为本发明中的主图分离方法流程图;
图3a为本发明中仅采用GBVS算法得到的主图矩形框示意图;
图3b为本发明中采用GBVS算法和主图分离方法得到的主图矩形框示意图;
图4为本发明中层次对比图的示意图。
具体实施方式
本实施例中,如图1所示,一种基于声谱图显著性检测的音频识别方法是如下步骤进行:
步骤1、获取像素为M×N的n种不同声源的声谱图,每种声谱图获取m幅,从而获得m×n幅声谱图D={d1,d2,…,di,…,dm×n};di表示第i幅声谱图;i∈[1,m×n];
对m×n幅声谱图D分别进行特征提取,获得基本特征集合;基本特征集合包括:RGBY色度特征集合C={C1,C2,…,Ci,…,Cm×n}、方向特征集合O={O1,O2,…,Oi,…,Om×n}和亮度特征集合I={I1,I2,…,Ii,…,Im×n};Ci表示第i幅声谱图di的RGBY色度特征;Oi表示第i幅声谱图di的方向特征;Ii表示第i幅声谱图di的亮度特征;本实施例中,方向特征采用[0°,45°,90°,135°]表示,亮度特征采用灰度值来描述;
步骤2、根据基本特征集合利用经典的GBVS算法对第i幅声谱图di进行显著性提取,获得第i幅显著性图Si;根据第i幅显著性图Si利用主图分离方法提取第i幅声谱图di的主图SMi,第i幅主图SMi是由R基色图R(SMi)、G基色图G(SMi)和B基色图B(SMi)构成的像素为l×l的三维基色图;从而获得m×n幅声谱图D的主图集合SM={SM1,SM2,…,SMi,…,SMm×n};l<M,l<N;
以第i幅声谱图di的显著性提取为例,介绍经典GBVS算法:
步骤2.1、在不同尺度下对第i幅声谱图di分别提取Ci、Oi和Ii三个基本特征,并以各特征的所有像素点连接为边分别构建不同尺度下三个基本特征的全连接有向图GA;
步骤2.2、按照式(1)依次计算各有向图中两两像素点间的不相似性距离t:
式(1)中,t((x,y)→(u,v))表示有向图GA中两个像素点(x,y)与(u,v)之间的不相似距离,GA(x,y)为有向图GA中像素点(x,y)的像素值;
步骤2.3、利用式(2)分别计算不同尺度下有向图的有向边权重wA:
wA((x,y)→(u,v))=t((x,y)→(u,v))·F(x-u,y-v) (2)
式(2)中,wA((x,y)→(u,v))表示像素点(x,y)到像素点(u,v)的有向边权重,F(·)为归一化函数,并有:
步骤2.4、对不同尺度下各有向图分别以有向图的像素点为状态,有向边的权重wA为转移概率构建马尔可夫链,并通过比较各马尔可夫链平衡状态下的停留时间得出不同尺度下各有向图的特征显著图A;
步骤2.5、对不同尺度下的各特征显著图A,利用式(4)计算有向边权重wN构建各特征显著图A的全连接有向图GN:
wN((x,y)→(u,v))=A(u,v)·F(x-u,y-v) (4)
式(4)中,A(u,v)为有向图GA中点(u,v)的特征显著性值;
步骤2.6、以有向图GN的像素点为状态,有向边的权重wN为转移概率构建马尔可夫链,并通过马尔可夫链的平衡状态得到不同尺度经过整合规格化后的各特征显著图G′N;
步骤2.7、利用式(5)计算第i幅声谱图di的显著性图Si:
Si=(G′NC+G′NO+G′NI)/3 (5)
式(5)中,G′NC、G′NO和G′NI分别为各显著性图G′N中色度特征Ci、方向特征Oi和亮度特征Ii对应的显著性图;特征显著图Si中显著性值即为人们通常所关注的注意焦点;
GBVS算法的优势不仅在于研究图像的色图、方向和亮度特征,更在于考虑全局的显著性对比,可有效分析声谱图全局中较为突显的声源区域,而本发明中主图分离方法就是在GBVS算法的基础上结合了声谱图中主要声源结构的特性,使得声谱图中主要声源区域得以被自动定位与分离;
其中主图分离方法,如图2所示,是按如下步骤进行:
步骤2.8、假设第i幅显著性图Si中包含Q个注意焦点,将Q个注意焦点进行降序排序获得注意焦点集合FOA={FOA1,FOA2,…,FOAq,…,FOAQ};FOAq表示第q个注意焦点;获取注意焦点集合FOA中每个注意焦点在第i幅显著性图Si中各自的位置L={L1,L2,…,Lq,…,LQ};Lq表示第q个注意焦点FOAq在第i幅显著性图Si中的位置,该位置即为显著性图Si中以注意焦点FOAq为显著性值的显著性点坐标;1≤q≤Q;
步骤2.9、初始化q=1;
步骤2.10、由于显著性图与声谱图的像素点之间具有一一映射关系,利用第q个注意焦点FOAq在显著性图中的位置Lq,获得第q个注意焦点FOAq在第i幅声谱图di中所对应的位置Lq';
步骤2.11、提取对应的位置Lq'的色度特征,色度特征包括:红色特征Rq、绿色特征Gq、蓝色特征Bq和黄色特征Yq;
步骤2.12、判断红色特征Rq是否满足在色度特征中为最大值,且绿色特征Gq、蓝色特征Bq和黄色特征Yq均为0;由于主要声源在声谱图中表现为能量最大即红色特征,当判断红色特征最大且其他色度特征均为零时,则声谱图中该位置有且只有红色特征,那么声谱图中该位置即为主要声源所在位置;若满足,则执行步骤2.13,否则,判断q=Q是否成立;若成立,则表示第i幅显著性图Si中没有有效声源,即第i幅声谱图di对应的声源失真或为噪声,无识别价值;否则,将q+1的值赋给q,并返回步骤2.10执行;
步骤2.13、从与第i幅显著性图Si所对应的第i幅声谱图di中分离出以l×l为边长,并以对应的位置Lq'为中心的正方框,判断正方框是否超出第i幅声谱图di的边界,若超出,则以超出的边界作为正方框的边,形成新的l×l的矩形框,以新的l×l的矩形框作为第i幅声谱图di的主图SMi;否则,以正方框作为第i幅声谱图di的主图SMi;
由于突显的声源区域中可能存在环境中的异常噪声,如图3a所示,在该声谱图中,单以GBVS算法计算出显著性图中的最大注意焦点为中心,不采用本发明中的主图分离模型进行注意焦点的判断,直接选取的矩形框不是主要声源的局部声谱图;然而,如图3b所示,在以GBVS算法计算该显著性图后,采用本发明中的主图分离模型调整而选取的矩形框为主要声源的局部声谱图,该主要声源的局部声谱图才为主图;
步骤3、利用式(1)提取第i幅主图SMi的层次对比图SMRi,层次对比图SMRi为l×l像素,从而获得m×n幅声谱图D的层次对比图集合SMR={SMR1,SMR2,…,SMRi,…,SMRm×n}:
式(6)表示层次对比图SMRi是由主图SMi的R基色图R(SMi)进行归一化去噪后形成的,如图4所示,层次对比图可以有效突显主要声源的声纹结构;
步骤4、利用式(2)获得第i幅层次对比图SMRi的PCA特征图SMRPi,从而获得m×n幅声谱图D的PCA特征图集合SMRP={SMRP1,SMRP2,…,SMRPi,…,SMRPm×n}:
SMRPi=(dimj(Ai))TSMRi (7)
式(7)中,Ai表示第i幅层次对比图SMRi的协方差矩阵,dimj(Ai)表示协方差矩阵Ai的前j个特征向量所组成的矩阵;并有:
式(8)中,表示第i幅层次对比图SMRi中第α个像素值;α∈[1,l];
以第i幅层次对比图SMRi和第i幅PCA特征图SMRPi作为特征描述集表征所述第i幅声谱图di的声源,从而获得m×n幅声谱图D中n类声源的所有特征描述集表征,n类声源中的每类声源均包含m个特征描述集;
步骤5、建立n种不同声源的GCNN声源模型;
步骤5.1、在深度卷积神经网络CNN中增加内部输入层,从而形成改进的深度卷积神经网络GCNN:
深度卷积神经网络CNN包含外部输入层、p个卷积层{C1,C2,…,Cp}、p个降采样层{S1,S2,…,Sp}以及全连接softmax分类层;p个卷积层{C1,C2,…,Cp}中的每个卷积层与p个降采样层{S1,S2,…,Sp}中的每个降采样层为互相交错设置,外部输入层连接第1个卷积层C1;第p个降采样层Sp连接全连接softmax分类层;
在第1个卷积层C1与第1个降采样层S1之间设置内部输入层,从而构成改进的卷积神经网络GCNN;
步骤5.2、以层次对比图集合SMR={SMR1,SMR2,…,SMRi,…,SMRm×n}作为外部输入层的输入;以PCA特征图集合SMRP={SMRP1,SMRP2,…,SMRPi,…,SMRPm×n}作为内部输入层的输入;通过改进的深度卷积神经网络GCNN进行训练和建模,从而获得n种不同声源的GCNN声源模型;
步骤6、利用n种不同声源的GCNN声源模型识别待测试声谱图d'的声源:
步骤6.1、对待测试声谱图d'按照步骤2-步骤4依次进行处理,获得待测试声谱图d'的层次对比图SMRd'和PCA特征图SMRPd';
步骤6.2、以待测试声谱图d'的层次对比图SMRd'作为外部输入层的输入图像;以待测试声谱图d'的PCA特征图SMRPd'作为内部输入层的输入图像;从而利用n种不同声源的GCNN声源模型识别待测试声谱图d'所属的声源。
Claims (2)
1.一种基于声谱图显著性检测的音频识别方法,其特征是如下步骤进行:
步骤1、获取像素为M×N的n种不同声源的声谱图,每种声谱图获取m幅,从而获得m×n幅声谱图D={d1,d2,…,di,…,dm×n};di表示第i幅声谱图;i∈[1,m×n];
对所述m×n幅声谱图D分别进行特征提取,获得基本特征集合;所述基本特征集合包括:RGBY色度特征集合C={C1,C2,…,Ci,…,Cm×n}、方向特征集合O={O1,O2,…,Oi,…,Om×n}和亮度特征集合I={I1,I2,…,Ii,…,Im×n};Ci表示第i幅声谱图di的RGBY色度特征;Oi表示第i幅声谱图di的方向特征;Ii表示第i幅声谱图di的亮度特征;
步骤2、根据所述基本特征集合利用GBVS算法对所述第i幅声谱图di进行显著性提取,获得第i幅显著性图Si;根据所述第i幅显著性图Si利用主图分离方法提取所述第i幅声谱图di的主图SMi,所述第i幅主图SMi是由R基色图R(SMi)、G基色图G(SMi)和B基色图B(SMi)构成的像素为l×l的三维基色图;从而获得m×n幅声谱图D的主图集合SM={SM1,SM2,…,SMi,…,SMm×n};l<M,l<N;
步骤3、利用式(1)提取所述第i幅主图SMi的层次对比图SMRi,从而获得m×n幅声谱图D的层次对比图集合SMR={SMR1,SMR2,…,SMRi,…,SMRm×n}:
步骤4、利用式(2)获得所述第i幅层次对比图SMRi的PCA特征图SMRPi,从而获得m×n幅声谱图D的PCA特征图集合SMRP={SMRP1,SMRP2,…,SMRPi,…,SMRPm×n}:
SMRPi=(dimj(Ai))TSMRi (2)
式(2)中,Ai表示所述第i幅层次对比图SMRi的协方差矩阵,dimj(Ai)表示所述协方差矩阵Ai的前j个特征向量所组成的矩阵;并有:
<mrow>
<msub>
<mi>A</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>l</mi>
</mfrac>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>&alpha;</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>l</mi>
</msubsup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>d</mi>
<mi>&alpha;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>)</mo>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>d</mi>
<mi>&alpha;</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
式(3)中,表示第i幅层次对比图SMRi中第α个像素值;α∈[1,l];
以所述第i幅层次对比图SMRi和第i幅PCA特征图SMRPi作为特征描述集表征所述第i幅声谱图di的声源,从而获得所述m×n幅声谱图D中n类声源的所有特征描述集表征,所述n类声源中的每类声源均包含m个特征描述集;
步骤5、建立n种不同声源的GCNN声源模型;
步骤5.1、在深度卷积神经网络CNN中增加内部输入层,从而形成改进的深度卷积神经网络GCNN:
所述深度卷积神经网络CNN包含外部输入层、p个卷积层{C1,C2,…,Cp}、p个降采样层{S1,S2,…,Sp}以及全连接softmax分类层;所述p个卷积层{C1,C2,…,Cp}中的每个卷积层与p个降采样层{S1,S2,…,Sp}中的每个降采样层为互相交错设置,所述外部输入层连接第1个卷积层C1;第p个降采样层Sp连接所述全连接softmax分类层;
在所述第1个卷积层C1与第1个降采样层S1之间设置所述内部输入层,从而构成所述改进的深度卷积神经网络GCNN;
步骤5.2、以所述层次对比图集合SMR={SMR1,SMR2,…,SMRi,…,SMRm×n}作为所述外部输入层的输入;以所述PCA特征图集合SMRP={SMRP1,SMRP2,…,SMRPi,…,SMRPm×n}作为所述内部输入层的输入;通过所述改进的深度卷积神经网络GCNN进行训练和建模,从而获得n种不同声源的GCNN声源模型;
步骤6、利用所述n种不同声源的GCNN声源模型识别待测试声谱图d'的声源:
步骤6.1、对所述待测试声谱图d'按照步骤2-步骤4依次进行处理,获得所述待测试声谱图d'的层次对比图SMRd'和PCA特征图SMRPd';
步骤6.2、以所述待测试声谱图d'的层次对比图SMRd'作为所述外部输入层的输入图像;以所述待测试声谱图d'的PCA特征图SMRPd'作为所述内部输入层的输入图像;从而利用所述n种不同声源的GCNN声源模型识别所述待测试声谱图d'所属的声源。
2.根据权利要求1所述的基于声谱图显著性检测的音频识别方法,其特征是,所述步骤2中的主图分离方法是按如下步骤进行:
步骤2.1、假设所述第i幅显著性图Si中包含Q个注意焦点,将所述Q个注意焦点进行降序排序获得注意焦点集合FOA={FOA1,FOA2,…,FOAq,…,FOAQ};FOAq表示第q个注意焦点;获取所述注意焦点集合FOA中每个注意焦点在所述第i幅显著性图Si中各自的位置L={L1,L2,…,Lq,…,LQ};Lq表示所述第q个注意焦点FOAq在所述第i幅显著性图Si中的位置;1≤q≤Q;
步骤2.2、初始化q=1;
步骤2.3、利用所述第q个注意焦点FOAq在显著性图中的位置Lq,获得所述第q个注意焦点FOAq在所述第i幅声谱图di中所对应的位置Lq';
步骤2.4、提取所述对应的位置Lq'的色度特征,所述色度特征包括:红色特征Rq、绿色特征Gq、蓝色特征Bq和黄色特征Yq;
步骤2.5、判断所述红色特征Rq是否满足在所述色度特征中为最大值,且所述色特征Gq、蓝色特征Bq和黄色特征Yq均为0;若满足,则执行步骤2.6,否则,判断q=Q是否成立;若成立,则表示所述第i幅显著性图Si中没有有效声源;否则,将q+1的值赋给q,并返回步骤2.3执行;
步骤2.6、从与所述第i幅显著性图Si所对应的第i幅声谱图di中分离出以l×l为边长,并以对应的位置Lq'为中心的正方框,判断所述正方框是否超出所述第i幅声谱图di的边界,若超出,则以所述超出的边界作为所述正方框的边,形成新的l×l的矩形框,以所述新的l×l的矩形框作为所述第i幅声谱图di的主图SMi;否则,以所述正方框作为所述第i幅声谱图di的主图SMi。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510054228.3A CN104616664B (zh) | 2015-02-02 | 2015-02-02 | 一种基于声谱图显著性检测的音频识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510054228.3A CN104616664B (zh) | 2015-02-02 | 2015-02-02 | 一种基于声谱图显著性检测的音频识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104616664A CN104616664A (zh) | 2015-05-13 |
CN104616664B true CN104616664B (zh) | 2017-08-25 |
Family
ID=53151085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510054228.3A Expired - Fee Related CN104616664B (zh) | 2015-02-02 | 2015-02-02 | 一种基于声谱图显著性检测的音频识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104616664B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105489228A (zh) * | 2015-12-08 | 2016-04-13 | 杭州百世伽信息科技有限公司 | 一种基于频域图处理的干罗音识别方法 |
CN105957538B (zh) * | 2016-05-09 | 2019-06-11 | 大连民族大学 | 基于显著性的复调音乐主旋律提取方法 |
CN106128465A (zh) * | 2016-06-23 | 2016-11-16 | 成都启英泰伦科技有限公司 | 一种声纹识别系统及方法 |
CN107895571A (zh) * | 2016-09-29 | 2018-04-10 | 亿览在线网络技术(北京)有限公司 | 无损音频文件识别方法及装置 |
CN106782568A (zh) * | 2016-11-22 | 2017-05-31 | 合肥星服信息科技有限责任公司 | 一种频率极值和均值结合的声纹过滤方法 |
CN108205535A (zh) * | 2016-12-16 | 2018-06-26 | 北京酷我科技有限公司 | 情感标注的方法及其系统 |
CN108206027A (zh) * | 2016-12-20 | 2018-06-26 | 北京酷我科技有限公司 | 一种音频质量评价方法及系统 |
CN106710589B (zh) | 2016-12-28 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法及装置 |
CN108257614A (zh) * | 2016-12-29 | 2018-07-06 | 北京酷我科技有限公司 | 音频数据标注的方法及其系统 |
CN106919710A (zh) * | 2017-03-13 | 2017-07-04 | 东南大学 | 一种基于卷积神经网络的方言分类方法 |
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN107143649B (zh) * | 2017-05-26 | 2018-11-06 | 合肥工业大学 | 一种拥堵工况辨识与自动变速换挡修正系统及其方法 |
CN107293290A (zh) * | 2017-07-31 | 2017-10-24 | 郑州云海信息技术有限公司 | 建立语音声学模型的方法和装置 |
CN107464568B (zh) * | 2017-09-25 | 2020-06-30 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
CN109949264A (zh) * | 2017-12-20 | 2019-06-28 | 深圳先进技术研究院 | 一种图像质量评价方法、设备及存储设备 |
CN110889008B (zh) * | 2018-09-10 | 2021-11-09 | 珠海格力电器股份有限公司 | 一种音乐推荐方法、装置、计算装置和存储介质 |
CN111508504B (zh) * | 2020-04-08 | 2022-06-07 | 郑州大学 | 基于听觉中枢感知机理的说话人识别方法 |
CN115148220A (zh) * | 2021-03-31 | 2022-10-04 | 广东高云半导体科技股份有限公司 | 一种音频检测系统及音频检测方法 |
CN117238320B (zh) * | 2023-11-16 | 2024-01-09 | 天津大学 | 一种基于多特征融合卷积神经网络的噪声分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604012A (zh) * | 2008-06-11 | 2009-12-16 | 索尼株式会社 | 信号处理装置、信号处理方法以及程序 |
CN102522082A (zh) * | 2011-12-27 | 2012-06-27 | 重庆大学 | 一种公共场所异常声音的识别与定位方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
-
2015
- 2015-02-02 CN CN201510054228.3A patent/CN104616664B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604012A (zh) * | 2008-06-11 | 2009-12-16 | 索尼株式会社 | 信号处理装置、信号处理方法以及程序 |
CN102522082A (zh) * | 2011-12-27 | 2012-06-27 | 重庆大学 | 一种公共场所异常声音的识别与定位方法 |
Non-Patent Citations (2)
Title |
---|
何佳若等.声信号的可视化特征提取方法.《电声技术》.2011,第35卷(第7期),61-64,74. * |
刘鹏.基于声谱图的公共场所异常声音特征提取及识别研究.《万方数据库知识服务平台》.2012,1-61. * |
Also Published As
Publication number | Publication date |
---|---|
CN104616664A (zh) | 2015-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104616664B (zh) | 一种基于声谱图显著性检测的音频识别方法 | |
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
WO2021134871A1 (zh) | 基于局部二值模式和深度学习的合成人脸图像取证方法 | |
CN107451607B (zh) | 一种基于深度学习的典型人物的身份识别方法 | |
CN110852316B (zh) | 一种采用密集结构卷积网络的图像篡改检测和定位方法 | |
WO2016165082A1 (zh) | 基于深度学习的图像隐写检测方法 | |
CN105354581B (zh) | 融合颜色特征与卷积神经网络的彩色图像特征提取方法 | |
CN103093250B (zh) | 一种基于新Haar-like特征的Adaboost人脸检测方法 | |
CN106096561A (zh) | 基于图像块深度学习特征的红外行人检测方法 | |
CN109815785A (zh) | 一种基于双流卷积神经网络的人脸情绪识别方法 | |
CN108960404B (zh) | 一种基于图像的人群计数方法及设备 | |
WO2017024692A1 (zh) | 一种单测量节点模拟电路故障诊断方法 | |
CN107463920A (zh) | 一种消除局部遮挡物影响的人脸识别方法 | |
CN105160310A (zh) | 基于3d卷积神经网络的人体行为识别方法 | |
CN106228547A (zh) | 一种基于视觉颜色理论和同质抑制的轮廓与边界检测算法 | |
CN104966085A (zh) | 一种基于多显著特征融合的遥感图像感兴趣区域检测方法 | |
CN101551853A (zh) | 复杂静态彩色背景下的人耳检测方法 | |
CN106408030A (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
CN108647695A (zh) | 基于协方差卷积神经网络的低对比度图像显著性检测方法 | |
CN104778466B (zh) | 一种联合多种上下文线索的图像关注区域检测方法 | |
CN109410184A (zh) | 基于稠密对抗网络半监督学习的直播色情图像检测方法 | |
CN107463954A (zh) | 一种模糊异谱图像的模板匹配识别方法 | |
CN110348494A (zh) | 一种基于双通道残差神经网络的人体动作识别方法 | |
CN106372630A (zh) | 一种基于深度学习的人脸方向检测方法 | |
CN116229319A (zh) | 多尺度特征融合课堂行为检测方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170825 |