CN110148428A

CN110148428A - 一种基于子空间表示学习的声学事件识别方法

Info

Publication number: CN110148428A
Application number: CN201910447562.3A
Authority: CN
Inventors: 韩纪庆; 史秋莹; 罗辉; 郑铁然; 郑贵滨
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-08-20
Anticipated expiration: 2039-05-27
Also published as: CN110148428B

Abstract

一种基于子空间表示学习的声学事件识别方法，涉及声音信号处理技术领域，为解决现有技术在AER任务中，语义特征提取时不能兼顾原始信号本质内容和时序结构的问题，包括：步骤1、信号预处理，步骤2、帧级特征提取，步骤3、子声学事件特征提取，步骤4、子声学事件特征的时序扩展，步骤5、子声学事件特征间的整体语义特征提取，步骤6、声学事件的识别，本发明提取语义特征时，能够兼顾原始信号的整体内容信息和全局时序结构。

Description

一种基于子空间表示学习的声学事件识别方法

技术领域

本发明涉及声音信号处理技术领域，具体为一种基于子空间表示学习的声学事件识别方法。

背景技术

声学事件是人类感知周围环境的重要媒介。声学事件识别(Audio EventRecognition, AER)是利用计算机通过模拟人类听觉机理来判断声学事件类别的过程。由于存在许多潜在的应用，如环境监测、噪音控制等，AER在最近几年受到了越来越多研究者的重视。

为了使计算机具备类似于人耳对声学事件的认知与理解能力，对声学事件信号提取语义特征是AER任务中一个重要且极具挑战的部分。一般的，语义特征本质上是所对应声学事件信号的压缩与抽象，对其基本要求是能保持声学事件信号的本质内容。同时，由于声学事件信号往往由多个具有一定持续时长和明确语义的子声学事件构成，且这些子声学事件发生的前后顺序具有一种不可打乱的结构属性，所以，在提取语义特征时也要兼顾考虑这种全局性的、特定的时序结构信息。因此，在AER任务中，如何提取能够兼顾原始信号本质内容和时序结构的整体语义特征，就成为一个既迫切又富有挑战性的研究问题。

发明内容

本发明的目的是：针对现有技术在AER任务中，语义特征提取时不能兼顾原始信号本质内容和时序结构的问题，提出一种基于子空间表示学习的声学事件识别方法。

本发明采用如下技术方案实现：一种基于子空间表示学习的声学事件识别方法，包括以下步骤：

步骤1、信号预处理：首先对原始声学事件信号进行训练集和测试集的分割，然后将分割后的声学事件信号转换为单信道信号，最后对上述单信道信号进行采样；

步骤2、帧级特征提取：首先将采样后的单信道信号切分为多个音频帧，并对多个音频帧分别提取梅尔倒谱系数特征，得到帧级特征；

步骤3、子声学事件特征提取：先对步骤2中得到的帧级特征进行聚类，得到多个聚类中心，再根据相邻的多个帧级特征与聚类中心的距离统计声学事件信号的局部语义特性，即得到子声学事件特征；

步骤4、子声学事件特征的时序扩展：对子声学事件特征利用时域变换平均的方法进行平滑，并利用卡方核对平滑后的子声学事件特征进行非线性扩展；

步骤5、子声学事件特征间的整体语义特征提取：将步骤4中得到的子声学事件特征用向量x_i表示，且x_i∈R^D，将N个特征向量x_i拼接成矩阵X用于描述由N个子声学事件构成的声学事件信号，其中X∈R^D×N，i＝1,...,N，子声学事件间蕴含的整体语义特征可由如下目标函数实现：

其中，u∈R^D×d，u是一个d维子空间S的基，uu^TX为X在子空间S上的投影；

步骤6、声学事件的识别：对于训练集和测试集中的每一个声学事件信号，先对其分别进行上述步骤1至步骤5中所述的预处理及特征提取过程，再利用训练集中所有样本的语义特征作为SVM的输入进行训练，然后利用测试集完成模型的测试，最后利用训练好的SVM分类器，完成声学事件识别任务。

进一步的，所述步骤1中分割比例为训练集占总声学事件信号数量的75％，测试集占总声学事件信号数量的25％。

进一步的，所述步骤1采样信号为频率16000Hz的单信道信号。

进一步的，所述步骤2中梅尔倒谱系数特征的提取步骤为：使用长为25毫秒的汉明窗以及10毫秒的窗移，并得到40维的梅尔倒谱稀疏特征，然后提取MFCCs的一阶差分和二阶差分，最终得到原始信号的帧级特征，其特征维度为120维。

进一步的，所述步骤3的具体步骤为：首先使用K-means聚类方法将帧级特征进行聚类，聚类中心个数设置为2000，再对每20帧的帧级特征进行直方图统计特征的提取，即得到子声学事件特征。

进一步的，所述步骤5还包括如下步骤：首先利用截断式SVD将X分解为三部分，表达式为：

X＝A∑B^T

其中，A包含X的左奇异向量，B包含右奇异向量，且∑包含所有的奇异值，其中右奇异向量包含了X与时域相关主成分，则投影系数应满足：

u^TX＝B^T

最终，子空间的基u可以表示为：

u＝pinv(X)^TB

其中，pinv(·)代表矩阵的Moore-Penrose伪逆。

本发明采用上述技术方案，具有如下有益效果：本发明沿用了子空间对于保证子声学事件特征本质内容的优势，进一步设计一种使得子空间能够刻画子声学事件间时序结构的机制，首先，通过最小化子声学事件特征与其在子空间内投影之间的误差，使得该子空间具有能最大化保留原始信号整体内容的能力；其次，通过建立子声学事件特征在该子空间内的投影系数与其时域主成分之间的联系，使得该子空间具有能反映全局时序结构的能力；最后，将学习到的子空间作为原始信号的语义特征表示，并进一步用于AER任务中。本发明提取语义特征时，能够兼顾原始信号的整体内容信息和全局时序结构。

具体实施方式

具体实施方式一：下面具体说明本实施方式，本实施方式，一种基于子空间表示学习的声学事件识别方法，包括以下步骤：

分割比例为训练集占总声学事件信号数量的75％，测试集占总声学事件信号数量的 25％；再将声学事件信号转换为单信道信号；最后对声学事件信号进行采样处理，产生采样频率为16000Hz的单信道信号。

步骤2、帧级特征提取：首先将采样后的单信道信号切分为多个音频帧，并对多个音频帧分别提取AER任务中经典的梅尔倒谱系数特征，得到帧级特征；

为刻画原始信号的包络信息，首先将原始信号分割为多个音频帧，并对其分别提取 AER任务中经典的梅尔倒谱系数(Mel Frequency Cepstral Coefficients，MFCCs)特征。具体的，使用长为25毫秒的汉明窗以及10毫秒的窗移，并得到40维的梅尔倒谱稀疏特征。在此基础上，为刻画相邻的几个音频帧间的局部动态变化，提取MFCCs的一阶差分和二阶差分，最终得到原始信号的帧级特征，其特征维度为120维。

步骤3、子声学事件特征提取：先对步骤2中得到的帧级特征进行聚类，得到多个聚类中心，再根据相邻的多个帧级特征与聚类中心的距离统计声学事件信号的局部语义特性，并认为这样的局部语义特征可近似表示一个子声学事件，即子声学事件特征；

为刻画具有一定时长和明确语义的子声学事件，帧级特征往往因其包含信息过少而存在一定局限性。为此，将相邻的多个帧级特征进一步抽象为段级特征是一种常用的子声学事件特征提取方法。具体的，本发明选取经典的音频词袋特征(Bag of Audio Word，BoAW)，特征先对步骤2中得到的帧级特征进行聚类操作，得到多个聚类中心，再根据相邻的多个帧级特征与聚类中心的距离统计声学事件信号的局部语义特性，并认为这样的局部语义特征可近似表示一个子声学事件，即子声学事件特征。

在提取音频词袋特征时，首先使用经典的K-means聚类方法将帧级特征进行聚类，聚类中心个数设置为2000，再对每20帧的帧级特征进行直方图统计特征的提取，并认为每20帧所提取的统计特征都可近似表示一个子声学事件的局部语义特征，即子声学事件特征。

为突显子声学事件间所蕴含的时序结构变化，对子事件特征进行时域平滑操作是一种常用的方法，具体的，本发明采用时域变化平均的方法对步骤3中提取到的子声学事件特征进行平滑。进一步，上述时序结构变化在AER任务中往往是非线性的，为了考虑这种非线性变化的可能性，本发明利用卡方核对平滑后的子声学事件特征进行非线性扩展，其中，卡方核的扩展系数设置为1，同质程度设置为0.5。

其中，u∈R^D×d，u是一个d维子空间S的基，uu^TX为X在子空间S上的投影；在上述目标函数中，为最大化的保留X中的本质内容，本发明利用表示学习机制来最小化X 和其在子空间S上投影uu^TX之间的误差，且为刻画原始信号最具代表性的全局内容信息，本发明认为其存在与一个一维子空间的基内。

此外，为进一步约束上述目标函数所学习到的整体语义特征对时序结构信息的描述，对上述目标函数进行重新考虑。具体的，上述目标函数的基本目标是保证子声学事件特征序列x₁,...,x_N的正交投影uu^Tx₁,...,uu^Tx_N中尽量保留x₁,...,x_N中的本质内容，且任意正交投影 uu^Tx_i可以看作是对子空间基u进行u^Tx_i倍的扩展(u^Tx_i一般称为投影系数)，那么，不难发现，在uu^Tx₁,...,uu^Tx_N中，子空间的基u随着x₁,...,x_N的时序演变保持不变，而投影系数u^Tx₁,...,u^Tx_N随段落的改变而发生变化。因此，若信号X的子声学事件特征间存在时序结构的变化，投影系数是刻画这一动态变化的一个有效途径。此外，利用奇异值分解(Singular Vector Decomposition,SVD)对信号进行主成分提取也是刻画信号时序结构变化的一个经典方法。那么，学习子空间S的一种途径是将投影系数和反映时序变化的主成分之间建立联系。

具体的，首先，利用截断式SVD将X分解为三部分，可表示如下：

X＝A∑B^T

其中，A包含X的左奇异向量，B包含右奇异向量，且∑包含所有的奇异值。其中右奇异向量包含了X与时域相关主成分，所以，一种求解子空间S的方法是让投影系数满足：

u^TX＝B^T

最终，子空间的基u可以表示为：

u＝pinv(X)^TB

其中，pinv(·)代表矩阵的Moore-Penrose伪逆。

声学事件信号的整体语义特征一般建立在具有明确语义的子声学事件基础上，且其提取过程本质上是对多个子声学事件所具有的局部语义特征的进一步抽象。本发明将子声学事件所具有的局部语义特征统称为子声学事件特征。在上述整体语义提取过程中，为了保持这些子声学事件特征中蕴含的本质内容，直接、有效的方式是找到该子声学事件特征空间的一个最大子集，即子空间。然而，其在反映子声学事件间存在的时序结构方面仍存在缺陷。

为解决这一问题，本发明沿用了子空间对于保证子声学事件特征本质内容的优势，进一步设计一种使得子空间能够刻画子声学事件间时序结构的机制，并提供一种基于子空间表示学习(Subspace rePresentation leArning,SPA)的整体语义特征提取方法。首先，通过最小化子声学事件特征与其在子空间内投影之间的误差，使得该子空间具有能最大化保留原始信号整体内容的能力；其次，通过建立子声学事件特征在该子空间内的投影系数与其时域主成分之间的联系，使得该子空间具有能反映全局时序结构的能力；最后，将学习到的子空间作为原始信号的语义特征表示，并进一步用于AER任务中。本发明所提出的方法对于提取可兼顾原始信号整体内容信息和全局时序结构的语义特征十分有效。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.一种基于子空间表示学习的声学事件识别方法，其特征在于包括以下步骤：

步骤2、帧级特征提取：将采样后的单信道信号切分为多个音频帧，并对多个音频帧分别提取梅尔倒谱系数特征，得到帧级特征；

2.根据权利要求1所述的一种基于子空间表示学习的声学事件识别方法，其特征在于：所述步骤1中分割比例为训练集占总声学事件信号数量的75％，测试集占总声学事件信号数量的25％。

3.根据权利要求1所述的一种基于子空间表示学习的声学事件识别方法，其特征在于：所述步骤1采样信号为频率16000Hz的单信道信号。

4.根据权利要求1所述的一种基于子空间表示学习的声学事件识别方法，其特征在于所述步骤2中梅尔倒谱系数特征的提取步骤为：使用长为25毫秒的汉明窗以及10毫秒的窗移，并得到40维的梅尔倒谱稀疏特征，然后提取MFCCs的一阶差分和二阶差分，最终得到原始信号的帧级特征，其特征维度为120维。

5.根据权利要求1所述的一种基于子空间表示学习的声学事件识别方法，其特征在于所述步骤3的具体步骤为：首先使用K-means聚类方法将帧级特征进行聚类，聚类中心个数设置为2000，再对每20帧的帧级特征进行直方图统计特征的提取，即得到子声学事件特征。

6.根据权利要求1所述的一种基于子空间表示学习的声学事件识别方法，其特征在于所述步骤5还包括如下步骤：首先利用截断式SVD将X分解为三部分，表达式为：

X＝A∑B^T

u^TX＝B^T

子空间的基u可以表示为：

u＝pinv(X)^TB

其中，pinv(·)代表矩阵的Moore-Penrose伪逆。