CN108615532A

CN108615532A - 一种应用于声场景的分类方法及装置

Info

Publication number: CN108615532A
Application number: CN201810413386.7A
Authority: CN
Inventors: 王谋; 张晓雷; 王逸平
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-05-03
Filing date: 2018-05-03
Publication date: 2018-10-02
Anticipated expiration: 2038-05-03
Also published as: CN108615532B

Abstract

本申请提供了一种应用于声场景的分类方法及装置，提取目标信号所述目标信号包括待分类音频的左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差，并依据所述目标信号，获取所述目标信号的统计特征，依据所述统计特征，形成超矢量，再对所述超矢量进行谱聚类，得到所述待分类音频的声学场景，可以看出，基于目标信号，形成超矢量，并对所述超矢量进行谱聚类，得到所述待分类音频的声学场景，因此，采用的是一种无监督的分类方式实现声学场景的分类。

Description

一种应用于声场景的分类方法及装置

技术领域

本申请涉及电子信息领域，尤其涉及一种应用于声场景的分类方法及装置。

背景技术

声音包含着大量的环境信息，所以，分析和理解非语音的音频，比如环境声音并从中提取有用信息十分重要。

声学场景分类(Acoustic scene classification，ASC)通过分析音频片段，从而识别出这个音频录制时所处的环境，给其赋予相应环境语义标签，如火车，公园或者地铁等。声学场景分类的主要研究目标是让计算机能够像人类的听觉系统一样，通过分析声音来理解周围的环境。有了环境信息以后，就可以在需要针对环境变化而提供不同服务的系统设计上提供一个较好的先验信息，如语音识别、语音增强、机器人应用等，从而可以提供更智能更人性化的服务。

目前应用的关于声学场景分类的方法多数都使用的是有监督的方法，即使用已经含有标签的数据提取特征，训练一个分类器，然后用训练获得的分类器对新的样本进行分类。然而，随着社会和科技的快速发展，每天都有大量的音频产生，如音视频联合监控的应用等。有监督的方法显然不再适用，它严重依赖数据及其对应标签的质量。当需要处理大量没有标签的音频时，面临以下几个问题：1)音频的标注需要耗费大量的人力物力，尤其是针对大规模的音频；2)标签的准确度问题，不同人对同一段音频的场景的感知也有所不同，况且，面对大规模长时间的标注任务，工作人员难免因为疲倦、粗心等各种因素干扰而不能对音频进行正确标记；3)一个音频可能对应多个标注，根据不同声学场景的分类方法，我们对同一个音频给出不同的标记，比如，一个办公室的音频，我们也可以将之标记为室内音频。

发明内容

申请人在研究的过程中发现，无监督学习并不依赖于数据集的标签，是通过聚类学习算法来自动地确定数据集的标记和类型的分类方法。因此，无监督的分类方法，适用于对大量无标签的音频进行分类。所以，如何使用无监督的分类方法，实现声学场景的分类，成为目前亟待解决的问题。

本申请提供了一种应用于声场景的分类方法及装置，目的在于解决如何使用无监督的分类方法实现声学场景的分类的问题。

为了实现上述目的，本申请提供了以下技术方案：

一种应用于声场景的分类方法，包括：

提取目标信号，所述目标信号包括待分类音频的左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差；

依据所述目标信号，获取所述目标信号的统计特征；

依据所述统计特征，形成超矢量；

对所述超矢量进行谱聚类，得到所述待分类音频的声学场景。

可选的，所述依据所述目标信号，获取所述目标信号的统计特征包括：

依据所述目标信号中的任意一个信号，训练该信号的通用背景模型UBM；

对于所述目标信号中的任意一个信号，计算该目标信号在UBM下的统计量，所述统计量包括高斯混合模型GMM的零阶和一阶充分统计量；

所述依据所述统计特征，形成超矢量包括：

将所述目标信号中的所有信号的统计量形成所述超矢量。

可选的，所述依据所述目标信号中的任意一个信号，训练该信号的通用背景模型UBM包括：

对于所述目标信号中的任意一个信号，提取梅尔频率倒谱系数MFCC特征及其一阶差分和二阶差分，并将该信号的MFCC特征及其一阶差分和二阶差分作为输入，训练该信号的通用背景模型UBM。

可选的，所述对所述超矢量进行谱聚类，得到所述待分类音频的声学场景包括：

用Cosine核计算所述超矢量的邻接矩阵W；

依据所述邻接矩阵构造对角矩阵拉普拉斯矩阵；

依据所述对角矩阵拉普拉斯矩阵的前k个最小特征值及对应的特征向量构建矩阵；

对所述矩阵的每一行进行聚类，得到所述矩阵对应的类别，所述类别为所述待分类音频的声学场景。

可选的，在所述依据所述目标信号，获取所述目标信号的统计特征之前，还包括：

对所述目标信号进行预处理，所述预处理包括：预加重、分帧和加窗；

所述依据所述目标信号，获取所述目标信号的统计特征包括：

依据进行所述预处理后的目标信号，获取所述预处理后的目标信号的统计特征。

一种应用于声场景的分类装置，包括：

信号提取模块，用于提取目标信号，所述目标信号包括待分类音频的左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差；

第一处理模块，用于依据所述目标信号，获取所述目标信号的统计特征；

第二处理模块，用于依据所述统计特征，形成超矢量；

聚类模块，用于对所述超矢量进行谱聚类，得到所述待分类音频的声学场景。

可选的，所述第一处理模块用于依据所述目标信号，获取所述目标信号的统计特征包括：

所述第一处理模块具体用于，依据所述目标信号中的任意一个信号，训练该信号的通用背景模型UBM；对于所述目标信号中的任意一个信号，计算该目标信号在UBM下的统计量，所述统计量包括高斯混合模型GMM的零阶和一阶充分统计量；

第二处理模块用于依据所述统计特征，形成超矢量包括：

第二处理模块具体用于，将所述目标信号中的所有信号的统计量形成所述超矢量。

可选的，所述第一处理模块用于依据所述目标信号中的任意一个信号，训练该信号的通用背景模型UBM包括：

所述第一处理模块具体用于，对于所述目标信号中的任意一个信号，提取梅尔频率倒谱系数MFCC特征及其一阶差分和二阶差分，并将该信号的MFCC特征及其一阶差分和二阶差分作为输入，训练该信号的通用背景模型UBM。

可选的，所述聚类模块用于对所述超矢量进行谱聚类，得到所述待分类音频的声学场景包括：

所述聚类模块具体用于，用Cosine核计算所述超矢量的邻接矩阵W；依据所述邻接矩阵构造对角矩阵拉普拉斯矩阵；依据所述对角矩阵拉普拉斯矩阵的前k个最小特征值及对应的特征向量构建矩阵；对所述矩阵的每一行进行聚类，得到所述矩阵对应的类别，所述类别为所述待分类音频的声学场景。

可选的，还包括：

预处理模块，用于在所述第一处理模块依据所述目标信号，获取所述目标信号的统计特征之前，对所述目标信号进行预处理，所述预处理包括：预加重、分帧和加窗；

所述第一处理模块用于依据所述目标信号，获取所述目标信号的统计特征包括：

所述第一处理模块具体用于，依据进行所述预处理后的目标信号，获取所述预处理后的目标信号的统计特征。

本申请所述的应用于声场景的分类方法及装置，提取目标信号所述目标信号包括待分类音频的左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差，并依据所述目标信号，获取所述目标信号的统计特征，依据所述统计特征，形成超矢量，再对所述超矢量进行谱聚类，得到所述待分类音频的声学场景，可以看出，基于目标信号，形成超矢量，并对所述超矢量进行谱聚类，得到所述待分类音频的声学场景，因此，采用的是一种无监督的分类方式实现声学场景的分类。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种应用于声场景的分类方法的流程图；

图2为本申请实施例公开的应用于声场景的分类方法中的谱聚类方法的流程图；

图3为本申请实施例公开的一种应用于声场景的分类装置的结构示意图。

具体实施方式

在现有技术中，获取的音频通常为立体声音频，即左右两个声音通道的信号不同，不同的信号通过人的两耳感知到差异，达到立体声的效果。因此，本申请的实施例中，以立体声音频为例进行说明，但不作为对于音频的限定，其它类型的音频也可以使用本申请所述的方法进行分类。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

图1为本申请实施例公开的一种应用于声场景的分类方法，包括以下步骤：

S101：提取待分类音频的多个通道信号：左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差。

为了便于后续描述，本实施例中，将提取的上述四个信号中的任意一个信号称为目标信号。

S102：对提取的目标信号进行预处理。

本实施例中，预处理包括：对每个目标信号进行预加重(为便于信号的传输或记录，而对其某些频谱分量的幅值相对于其它分量的幅值预先有意予以增强的措施)、分帧和加窗。

S103：从预处理后的目标信号中提取特征。

本实施例中，从每个目标信号中提取梅尔频率倒谱系数MFCC特征(包含对数能量和零阶谱系数)及其一阶差分和二阶差分。

S104：对于每个目标信号(即目标信号中的任意一个信号)，将从该目标信号中提取的特征作为输入，用来训练一个通用背景模型(UBM)。

即一个目标信号得到一个对应的UBM，四个目标信号共得到四个UBM。

其中，使用特征训练UBM的方式可以参见现有技术，这里不再赘述。

S105：对于每个目标信号，将从该目标信号中提取的特征作为输入，计算该目标信号在UBM下的高斯混合模型GMM的Baum-Welch统计量，即零阶和一阶充分统计量。

即任意一个目标信号均可以得到对应的在UBM下的GMM的Baum-Welch统计量。

其中，使用特征计算GMM的Baum-Welch统计量的方式可以参见现有技术，这里不再赘述。

S106：多通道特征融合：即将四路目标信号的统计特征并在一起，形成新的超矢量。

其中，任意一路目标信号的统计特征包括在UBM下的GMM的Baum-Welch统计量。

S107：声学场景聚类：利用谱聚类算法对上述得到的超矢量进行聚类，其中，谱聚类中用Cosine核函数计算邻接矩阵。

其中，谱聚类算法可以参见现有技术，这里不再赘述。

从图1所示的过程可以看出：

1、本申请实施例所述的方法充分利用了立体声音频的信息，即左右两个通道的差异性，即相比之前直接将左右音频进行平均相比，隐式地利用了双耳时差和双耳级差的特征。

2、本申请实施例所述的方法，通过在UBM下的GMM提取Baum-Welch统计量构造新的统计量，相比传统的声学特征，能够更加有效地刻画音频特征的分布，更加便于后期的聚类。

3、本申请实施例所述的方法是一种无监督的声学场景分类方法，不依赖于音频的标签，相比有监督的方法更加具有普适性。

4、本申请实施例所述的方法可为语音增强、声音事件检测、复杂音频内容分析与检索等应用提供有用的先验信息。

图2为图1中的S107的具体实现过程，即谱聚类具体算法步骤如下：

S201：假设得到的超矢量为V＝v₁,v₂,...,v_N，用Cosine核计算超矢量的邻接矩阵W，W的具体定义如下：

S202：构造对角矩阵拉普拉斯矩阵L_sys＝I-D^-1/2WD^-1/2，其中，I为单位矩阵，D为对角矩阵，W为邻接矩阵。

S203：求解L_sys的前k个最小特征值及对应的特征向量u₁,u₂,...,u_k,并构建矩阵U＝u₁,u₂,...,u_k。k为大于0的整数。

S204：用K-means算法对U的每一行进行聚类，u_k所对应的类别即为音频对应的声学场景类别。

根据S204得到的聚类结果，即可将相同声场景下的音频聚集在一起。

图3为本申请实施例提供的一种应用于声场景的分类装置，包括：信号提取模块、第一处理模块、第二处理模块和聚类模块，可选的，还可以包括预处理模块。

其中，信号提取模块用于提取目标信号，所述目标信号包括待分类音频的左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差。第一处理模块用于依据所述目标信号，获取所述目标信号的统计特征。第二处理模块用于依据所述统计特征，形成超矢量。聚类模块用于对所述超矢量进行谱聚类，得到所述待分类音频的声学场景。

具体的，第一处理模块对于所述目标信号中的任意一个信号，提取梅尔频率倒谱系数MFCC特征及其一阶差分和二阶差分，并将该信号的MFCC特征及其一阶差分和二阶差分作为输入，训练该信号的通用背景模型UBM。并对于所述目标信号中的任意一个信号，计算该目标信号在UBM下的统计量，所述统计量包括高斯混合模型GMM的零阶和一阶充分统计量。第二处理模块将所述目标信号中的所有信号的统计量形成所述超矢量。

聚类模块用Cosine核计算所述超矢量的邻接矩阵W；依据所述邻接矩阵构造对角矩阵拉普拉斯矩阵；依据所述对角矩阵拉普拉斯矩阵的前k个最小特征值及对应的特征向量构建矩阵；对所述矩阵的每一行进行聚类，得到所述矩阵对应的类别，所述类别为所述待分类音频的声学场景(如图2所示)。

可选的，预处理模块用于在所述第一处理模块依据所述目标信号，获取所述目标信号的统计特征之前，对所述目标信号进行预处理，所述预处理包括：预加重、分帧和加窗。在预处理模块进行预处理的情况下，第一处理模块的处理对象为进行预处理后的目标信号，即依据进行所述预处理后的目标信号，获取所述预处理后的目标信号的统计特征。

图3所示的分类装置，创新性地提出依据立体声音频的不同通道信号提取出的目标信号，基于该目标信号，提取统计特征、形成超矢量，并针对超矢量进行聚类分析，得到立体声音频的声场景分类结果。而聚类这种非监督的分类方法，适用于对大量无标签的音频进行分类的场景。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种应用于声场景的分类方法，其特征在于，包括：

依据所述目标信号，获取所述目标信号的统计特征；

依据所述统计特征，形成超矢量；

2.根据权利要求1所述的方法，其特征在于，所述依据所述目标信号，获取所述目标信号的统计特征包括：

所述依据所述统计特征，形成超矢量包括：

将所述目标信号中的所有信号的统计量形成所述超矢量。

3.根据权利要求2所述的方法，其特征在于，所述依据所述目标信号中的任意一个信号，训练该信号的通用背景模型UBM包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述超矢量进行谱聚类，得到所述待分类音频的声学场景包括：

用Cosine核计算所述超矢量的邻接矩阵W；

依据所述邻接矩阵构造对角矩阵拉普拉斯矩阵；

5.根据权利要求1-4任一项所述的方法，其特征在于，在所述依据所述目标信号，获取所述目标信号的统计特征之前，还包括：

6.一种应用于声场景的分类装置，其特征在于，包括：

第二处理模块，用于依据所述统计特征，形成超矢量；

7.根据权利要求6所述的装置，其特征在于，所述第一处理模块用于依据所述目标信号，获取所述目标信号的统计特征包括：

第二处理模块用于依据所述统计特征，形成超矢量包括：

8.根据权利要求7所述的装置，其特征在于，所述第一处理模块用于依据所述目标信号中的任意一个信号，训练该信号的通用背景模型UBM包括：

9.根据权利要求6所述的装置，其特征在于，所述聚类模块用于对所述超矢量进行谱聚类，得到所述待分类音频的声学场景包括：

10.根据权利要求6-9任一项所述的装置，其特征在于，还包括：