CN104616664B

CN104616664B - 一种基于声谱图显著性检测的音频识别方法

Info

Publication number: CN104616664B
Application number: CN201510054228.3A
Authority: CN
Inventors: 陈雁翔; 弓彦婷; 任洪梅; 王猛
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2015-02-02
Filing date: 2015-02-02
Publication date: 2017-08-25
Anticipated expiration: 2035-02-02
Also published as: CN104616664A

Abstract

发明公开了一种基于声谱图显著性检测的音频识别方法，其特征是如下步骤进行：1获取不同声源的声谱图并进行特征提取，获得基本特征集合；2、利用GBVS算法获得显著性图，再利用主图分离方法提取主图；3、提取层次对比图；4、获得PCA特征图；5建立不同声源的GCNN声源模型；6、利用GCNN声源模型识别待测试声谱图的声源。本发明能有效表征复杂环境下未知音频类型的特征信息，同时能够实现快速自动的音频识别。

Description

一种基于声谱图显著性检测的音频识别方法

技术领域

本发明属于音频识别领域，具体地说是一种基于声谱图显著性检测的音频识别方法。

背景技术

随着互联网的高速发展，涌现大量的音频、视频和图像信息。但是音频信息的研究速度远远比不上视频和图像的研究，而且对大量音频信息的识别工作，单靠人工标注是一件庞大而又繁琐的工程，因此，实现对音频信号的自动识别，是音频领域的研究重点。

目前存在的音频信号的自动识别方法主要通过提取特征和选择分类器两大步骤进行，其中研究提取音频信号的声音特征为传统常用的音频识别方法。然而对大量未知复杂的音频数据，若不先对音频进行细化分类，针对不同类型的音频数据采取不同的处理过程，传统的音频识别方法存在明显不足。尤其是原始音频具有极其复杂的表示方式，缺少语义背景内容和结构化的组织，在间断、多源和噪声干扰等复杂的环境下如何选择能够准确表示此类音频的特征信息，并且运用何种识别方法将未知音频正确分类识别是音频识别的重要研究问题。

近年来，随着人类听觉神经科学认识的逐渐深入，越来越多的研究者将注意力放在基于声谱图的时频模型上。研究结果认为：声谱图中的时频结构反映了信号时域和空域结构，可以形成声学感知的稀疏基函数。这与大脑听觉感知系统有效去除冗余，利用较少的神经元表达更多的外界声音信息的思想一致。德国奥登堡大学的Kleinschmidt提出适合自动音频识别的新特征：声谱图中的局部时频结构特征。研究者认为该特征与听觉神经元的时频感受野特性相似，具有有效表达如共振峰的声学参数、较少加性噪声的影响和很好的泛化性。但是，该局部时频结构是通过研究者在声谱图中人工选取的，针对多声源和加性噪声存在的声谱图中，如何让计算机自动有效提取分离出主要声源的局部时频结构仍待解决。麻省理工学院的Schutte利用boosting分类器通过声谱图的局部时频结构识别音频。然而boosting分类器太过依赖人为设定和调节阈值，通过该方法对识别复杂环境下未知音频类型的音频数据来说并不实用。

发明内容

本发明是为了克服现有技术存在的不足之处，提供一种可靠、自动化、快速且强大的基于声谱图显著性检测的音频识别方法，以期能有效表征复杂环境下未知音频类型的特征信息，同时能够实现快速自动的音频识别。

本发明为解决技术问题采用如下技术方案：

本发明一种基于声谱图显著性检测的音频识别方法的特点是如下步骤进行：

步骤1、获取像素为M×N的n种不同声源的声谱图，每种声谱图获取m幅，从而获得m×n幅声谱图D＝{d₁,d₂,…,d_i,…,d_m×n}；d_i表示第i幅声谱图；i∈[1,m×n]；

对所述m×n幅声谱图D分别进行特征提取，获得基本特征集合；所述基本特征集合包括：RGBY色度特征集合C＝{C₁,C₂,…,C_i,…,C_m×n}、方向特征集合O＝{O₁,O₂,…,O_i,…,O_m×n}和亮度特征集合I＝{I₁,I₂,…,I_i,…,I_m×n}；C_i表示第i幅声谱图d_i的RGBY色度特征；O_i表示第i幅声谱图d_i的方向特征；I_i表示第i幅声谱图d_i的亮度特征；

步骤2、根据所述基本特征集合利用GBVS算法对所述第i幅声谱图d_i进行显著性提取，获得第i幅显著性图S_i；根据所述第i幅显著性图S_i利用主图分离方法提取所述第i幅声谱图d_i的主图SM_i，所述第i幅主图SM_i是由R基色图R(SM_i)、G基色图G(SM_i)和B基色图B(SM_i)构成的像素为l×l的三维基色图；从而获得m×n幅声谱图D的主图集合SM＝{SM₁,SM₂,…,SM_i,…,SM_m×n}；l＜M,l＜N；

步骤3、利用式(1)提取所述第i幅主图SM_i的层次对比图SMR_i，从而获得m×n幅声谱图D的层次对比图集合SMR＝{SMR₁,SMR₂,…,SMR_i,…,SMR_m×n}：

步骤4、利用式(2)获得所述第i幅层次对比图SMR_i的PCA特征图SMRP_i，从而获得m×n幅声谱图D的PCA特征图集合SMRP＝{SMRP₁,SMRP₂,…,SMRP_i,…,SMRP_m×n}：

SMRP_i＝(dim_j(A_i))^TSMR_i (2)

式(2)中，A_i表示所述第i幅层次对比图SMR_i的协方差矩阵，dim_j(A_i)表示所述协方差矩阵A_i的前j个特征向量所组成的矩阵；并有：

式(3)中，表示第i幅层次对比图SMR_i中第α个像素值；α∈[1,l]；

以所述第i幅层次对比图SMR_i和第i幅PCA特征图SMRP_i作为特征描述集表征所述第i幅声谱图d_i的声源，从而获得所述m×n幅声谱图D中n类声源的所有特征描述集表征，所述n类声源中的每类声源均包含m个特征描述集；

步骤5、建立n种不同声源的GCNN声源模型；

步骤5.1、在深度卷积神经网络CNN中增加内部输入层，从而形成所述改进的深度卷积神经网络GCNN：

所述深度卷积神经网络CNN包含外部输入层、p个卷积层{C₁,C₂,…,C_p}、p个降采样层{S₁,S₂,…,S_p}以及全连接softmax分类层；所述p个卷积层{C₁,C₂,…,C_p}中的每个卷积层与p个降采样层{S₁,S₂,…,S_p}中的每个降采样层为互相交错设置，所述外部输入层连接第1个卷积层C₁；第p个降采样层S_p连接所述全连接softmax分类层；

在所述第1个卷积层C₁与第1个降采样层S₁之间设置所述内部输入层，从而构成所述改进的卷积神经网络GCNN；

步骤5.2、以所述层次对比图集合SMR＝{SMR₁,SMR₂,…,SMR_i,…,SMR_m×n}作为所述外部输入层的输入；以所述PCA特征图集合SMRP＝{SMRP₁,SMRP₂,…,SMRP_i,…,SMRP_m×n}作为所述内部输入层的输入；通过所述改进的深度卷积神经网络GCNN进行训练和建模，从而获得n种不同声源的GCNN声源模型；

步骤6、利用所述n种不同声源的GCNN声源模型识别待测试声谱图d'的声源：

步骤6.1、对所述待测试声谱图d'按照步骤2-步骤4依次进行处理，获得所述待测试声谱图d'的层次对比图SMR_d'和PCA特征图SMRP_d'；

步骤6.2、以所述待测试声谱图d'的层次对比图SMR_d'作为所述外部输入层的输入图像；以所述待测试声谱图d'的PCA特征图SMRP_d'作为所述内部输入层的输入图像；从而利用所述n种不同声源的GCNN声源模型识别所述待测试声谱图d'所属的声源。

本发明所述的基于声谱图显著性检测的音频识别方法的特点也在于，

所述步骤2中的主图分离方法是按如下步骤进行：

步骤2.1、假设所述第i幅显著性图S_i中包含Q个注意焦点，将所述Q个注意焦点进行降序排序获得注意焦点集合FOA＝{FOA₁，FOA₂，…，FOA_q,…,FOA_Q}；FOA_q表示第q个注意焦点；获取所述注意焦点集合FOA中每个注意焦点在所述第i幅显著性图S_i中各自的位置L＝{L₁,L₂,…,L_q,…,L_Q}；L_q表示所述第q个注意焦点FOA_q在所述第i幅显著性图S_i中的位置；1≤q≤Q；

步骤2.2、初始化q＝1；

步骤2.3、利用所述第q个注意焦点FOA_q在显著性图中的位置L_q，获得所述第q个注意焦点FOA_q在所述第i幅声谱图d_i中所对应的位置L_q'；

步骤2.4、提取所述对应的位置L_q'的色度特征，所述色度特征包括：红色特征R_q、绿色特征G_q、蓝色特征B_q和黄色特征Y_q；

步骤2.5、判断所述红色特征R_q是否满足在所述色度特征中为最大值，且所述色特征G_q、蓝色特征B_q和黄色特征Y_q均为0；若满足，则执行步骤2.6，否则，判断q＝Q是否成立；若成立，则表示所述第i幅显著性图S_i中没有有效声源；否则，将q+1的值赋给q，并返回步骤2.3执行；

步骤2.6、从与所述第i幅显著性图S_i所对应的第i幅声谱图d_i中分离出以l×l为边长，并以对应的位置L_q'为中心的正方框，判断所述正方框是否超出所述第i幅声谱图d_i的边界，若超出，则以所述超出的边界作为所述正方框的边，形成新的l×l的矩形框，以所述新的l×l的矩形框作为所述第i幅声谱图d_i的主图SM_i；否则，以所述正方框作为所述第i幅声谱图d_i的主图SM_i。

与现有技术相比，本发明的有益效果体现在：

1、本发明提出通过音频的声音信号与声谱图之间的相关性，将问题转化为泛化的声谱图求解问题，并将音频声源拓展到二维的声谱图图像显著性中，从而能自动挖掘和保留声谱图中可表征待识别声源的有效特征信息，并建立了有效的主图分离方法，再通过最大化突显主图的声纹结构，将主图进行特征降维，去除原有特征空间中包含的冗余信息，并利用改进的卷积神经网络实现建模与识别，解决了未知音频类型的音频特征信息表示与识别的问题，以及当前无法有效地在复杂环境下利用图像处理技术实现对未知音频自动识别的难题；并提高复杂环境下音频识别效率。

2、本发明引入了一种依据声谱图的图像显著性检测返回结果中注意焦点的降序位置来估计声谱图主要声源的方法，获得了本发明所述的声谱图中主要声源区域的定位与分离，克服了在声谱图声源分析中，主要声源区域仍需人工标注的缺陷；同时本发明将最有效的主要声源区域特征融入到主图分离方法中，降低了加性噪声、多声源、声源拼接或失真等声音信号对声源的干扰，从而提高了主图模型的泛化能力。

3、本发明在改进的卷积神经网络建立过程中，根据声谱图中主要声源区域的整体特征和局部特征的隶属关系，增加全局特征的比重，不同声源的整体描述特征中存在的差异能够得到保留，从而能够更为准确的建立声源模型。

4、本发明的音频识别方法在包含加性噪声、多声源及声源拼接等复杂背景的350条4类声源的音频样本数据中训练4类声源模型，并进行了测试，测试结果显示了本发明方法的有效性以及相比传统方法的优越性，表明了本方法在复杂环境下依然具有很高的实用价值。

附图说明

图1为本发明的流程图；

图2为本发明中的主图分离方法流程图；

图3a为本发明中仅采用GBVS算法得到的主图矩形框示意图；

图3b为本发明中采用GBVS算法和主图分离方法得到的主图矩形框示意图；

图4为本发明中层次对比图的示意图。

具体实施方式

本实施例中，如图1所示，一种基于声谱图显著性检测的音频识别方法是如下步骤进行：

对m×n幅声谱图D分别进行特征提取，获得基本特征集合；基本特征集合包括：RGBY色度特征集合C＝{C₁,C₂,…,C_i,…,C_m×n}、方向特征集合O＝{O₁,O₂,…,O_i,…,O_m×n}和亮度特征集合I＝{I₁,I₂,…,I_i,…,I_m×n}；C_i表示第i幅声谱图d_i的RGBY色度特征；O_i表示第i幅声谱图d_i的方向特征；I_i表示第i幅声谱图d_i的亮度特征；本实施例中，方向特征采用[0°,45°,90°,135°]表示，亮度特征采用灰度值来描述；

步骤2、根据基本特征集合利用经典的GBVS算法对第i幅声谱图d_i进行显著性提取，获得第i幅显著性图S_i；根据第i幅显著性图S_i利用主图分离方法提取第i幅声谱图d_i的主图SM_i，第i幅主图SM_i是由R基色图R(SM_i)、G基色图G(SM_i)和B基色图B(SM_i)构成的像素为l×l的三维基色图；从而获得m×n幅声谱图D的主图集合SM＝{SM₁,SM₂,…,SM_i,…,SM_m×n}；l＜M,l＜N；

以第i幅声谱图d_i的显著性提取为例，介绍经典GBVS算法：

步骤2.1、在不同尺度下对第i幅声谱图d_i分别提取C_i、O_i和I_i三个基本特征，并以各特征的所有像素点连接为边分别构建不同尺度下三个基本特征的全连接有向图G_A；

步骤2.2、按照式(1)依次计算各有向图中两两像素点间的不相似性距离t：

式(1)中，t((x,y)→(u,v))表示有向图G_A中两个像素点(x,y)与(u,v)之间的不相似距离，G_A(x,y)为有向图G_A中像素点(x,y)的像素值；

步骤2.3、利用式(2)分别计算不同尺度下有向图的有向边权重w_A：

w_A((x,y)→(u,v))＝t((x,y)→(u,v))·F(x-u,y-v) (2)

式(2)中，w_A((x,y)→(u,v))表示像素点(x,y)到像素点(u,v)的有向边权重，F(·)为归一化函数，并有：

步骤2.4、对不同尺度下各有向图分别以有向图的像素点为状态，有向边的权重w_A为转移概率构建马尔可夫链，并通过比较各马尔可夫链平衡状态下的停留时间得出不同尺度下各有向图的特征显著图A；

步骤2.5、对不同尺度下的各特征显著图A，利用式(4)计算有向边权重w_N构建各特征显著图A的全连接有向图G_N：

w_N((x,y)→(u,v))＝A(u,v)·F(x-u,y-v) (4)

式(4)中，A(u,v)为有向图G_A中点(u,v)的特征显著性值；

步骤2.6、以有向图G_N的像素点为状态，有向边的权重w_N为转移概率构建马尔可夫链，并通过马尔可夫链的平衡状态得到不同尺度经过整合规格化后的各特征显著图G′_N；

步骤2.7、利用式(5)计算第i幅声谱图d_i的显著性图S_i：

S_i＝(G′_NC+G′_NO+G′_NI)/3 (5)

式(5)中,G′_NC、G′_NO和G′_NI分别为各显著性图G′_N中色度特征C_i、方向特征O_i和亮度特征I_i对应的显著性图；特征显著图S_i中显著性值即为人们通常所关注的注意焦点；

GBVS算法的优势不仅在于研究图像的色图、方向和亮度特征，更在于考虑全局的显著性对比，可有效分析声谱图全局中较为突显的声源区域，而本发明中主图分离方法就是在GBVS算法的基础上结合了声谱图中主要声源结构的特性，使得声谱图中主要声源区域得以被自动定位与分离；

其中主图分离方法，如图2所示，是按如下步骤进行：

步骤2.8、假设第i幅显著性图S_i中包含Q个注意焦点，将Q个注意焦点进行降序排序获得注意焦点集合FOA＝{FOA₁，FOA₂，…，FOA_q,…,FOA_Q}；FOA_q表示第q个注意焦点；获取注意焦点集合FOA中每个注意焦点在第i幅显著性图S_i中各自的位置L＝{L₁,L₂,…,L_q,…,L_Q}；L_q表示第q个注意焦点FOA_q在第i幅显著性图S_i中的位置，该位置即为显著性图S_i中以注意焦点FOA_q为显著性值的显著性点坐标；1≤q≤Q；

步骤2.9、初始化q＝1；

步骤2.10、由于显著性图与声谱图的像素点之间具有一一映射关系，利用第q个注意焦点FOA_q在显著性图中的位置L_q，获得第q个注意焦点FOA_q在第i幅声谱图d_i中所对应的位置L_q'；

步骤2.11、提取对应的位置L_q'的色度特征，色度特征包括：红色特征R_q、绿色特征G_q、蓝色特征B_q和黄色特征Y_q；

步骤2.12、判断红色特征R_q是否满足在色度特征中为最大值，且绿色特征G_q、蓝色特征B_q和黄色特征Y_q均为0；由于主要声源在声谱图中表现为能量最大即红色特征，当判断红色特征最大且其他色度特征均为零时，则声谱图中该位置有且只有红色特征，那么声谱图中该位置即为主要声源所在位置；若满足，则执行步骤2.13，否则，判断q＝Q是否成立；若成立，则表示第i幅显著性图S_i中没有有效声源，即第i幅声谱图d_i对应的声源失真或为噪声，无识别价值；否则，将q+1的值赋给q，并返回步骤2.10执行；

步骤2.13、从与第i幅显著性图S_i所对应的第i幅声谱图d_i中分离出以l×l为边长，并以对应的位置L_q'为中心的正方框，判断正方框是否超出第i幅声谱图d_i的边界，若超出，则以超出的边界作为正方框的边，形成新的l×l的矩形框，以新的l×l的矩形框作为第i幅声谱图d_i的主图SM_i；否则，以正方框作为第i幅声谱图d_i的主图SM_i；

由于突显的声源区域中可能存在环境中的异常噪声，如图3a所示，在该声谱图中，单以GBVS算法计算出显著性图中的最大注意焦点为中心，不采用本发明中的主图分离模型进行注意焦点的判断，直接选取的矩形框不是主要声源的局部声谱图；然而，如图3b所示，在以GBVS算法计算该显著性图后，采用本发明中的主图分离模型调整而选取的矩形框为主要声源的局部声谱图，该主要声源的局部声谱图才为主图；

步骤3、利用式(1)提取第i幅主图SM_i的层次对比图SMR_i，层次对比图SMR_i为l×l像素，从而获得m×n幅声谱图D的层次对比图集合SMR＝{SMR₁,SMR₂,…,SMR_i,…,SMR_m×n}：

式(6)表示层次对比图SMR_i是由主图SM_i的R基色图R(SM_i)进行归一化去噪后形成的，如图4所示，层次对比图可以有效突显主要声源的声纹结构；

步骤4、利用式(2)获得第i幅层次对比图SMR_i的PCA特征图SMRP_i，从而获得m×n幅声谱图D的PCA特征图集合SMRP＝{SMRP₁,SMRP₂,…,SMRP_i,…,SMRP_m×n}：

SMRP_i＝(dim_j(A_i))^TSMR_i (7)

式(7)中，A_i表示第i幅层次对比图SMR_i的协方差矩阵，dim_j(A_i)表示协方差矩阵A_i的前j个特征向量所组成的矩阵；并有：

式(8)中，表示第i幅层次对比图SMR_i中第α个像素值；α∈[1,l]；

以第i幅层次对比图SMR_i和第i幅PCA特征图SMRP_i作为特征描述集表征所述第i幅声谱图d_i的声源，从而获得m×n幅声谱图D中n类声源的所有特征描述集表征，n类声源中的每类声源均包含m个特征描述集；

步骤5、建立n种不同声源的GCNN声源模型；

步骤5.1、在深度卷积神经网络CNN中增加内部输入层，从而形成改进的深度卷积神经网络GCNN：

深度卷积神经网络CNN包含外部输入层、p个卷积层{C₁,C₂,…,C_p}、p个降采样层{S₁,S₂,…,S_p}以及全连接softmax分类层；p个卷积层{C₁,C₂,…,C_p}中的每个卷积层与p个降采样层{S₁,S₂,…,S_p}中的每个降采样层为互相交错设置，外部输入层连接第1个卷积层C₁；第p个降采样层S_p连接全连接softmax分类层；

在第1个卷积层C₁与第1个降采样层S₁之间设置内部输入层，从而构成改进的卷积神经网络GCNN；

步骤5.2、以层次对比图集合SMR＝{SMR₁,SMR₂,…,SMR_i,…,SMR_m×n}作为外部输入层的输入；以PCA特征图集合SMRP＝{SMRP₁,SMRP₂,…,SMRP_i,…,SMRP_m×n}作为内部输入层的输入；通过改进的深度卷积神经网络GCNN进行训练和建模，从而获得n种不同声源的GCNN声源模型；

步骤6、利用n种不同声源的GCNN声源模型识别待测试声谱图d'的声源：

步骤6.1、对待测试声谱图d'按照步骤2-步骤4依次进行处理，获得待测试声谱图d'的层次对比图SMR_d'和PCA特征图SMRP_d'；

步骤6.2、以待测试声谱图d'的层次对比图SMR_d'作为外部输入层的输入图像；以待测试声谱图d'的PCA特征图SMRP_d'作为内部输入层的输入图像；从而利用n种不同声源的GCNN声源模型识别待测试声谱图d'所属的声源。

Claims

1.一种基于声谱图显著性检测的音频识别方法，其特征是如下步骤进行：

SMRP_i＝(dim_j(A_i))^TSMR_i (2)

<mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>l</mi> </mfrac> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>&alpha;</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </msubsup> <mrow> <mo>(</mo> <msubsup> <mi>d</mi> <mi>&alpha;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msubsup> <mi>d</mi> <mi>&alpha;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

步骤5、建立n种不同声源的GCNN声源模型；

在所述第1个卷积层C₁与第1个降采样层S₁之间设置所述内部输入层，从而构成所述改进的深度卷积神经网络GCNN；

2.根据权利要求1所述的基于声谱图显著性检测的音频识别方法，其特征是，所述步骤2中的主图分离方法是按如下步骤进行：

步骤2.2、初始化q＝1；