CN109461458A

CN109461458A - 一种基于生成对抗网络的音频异常检测方法

Info

Publication number: CN109461458A
Application number: CN201811259893.6A
Authority: CN
Inventors: 陈雁翔; 周杰; 武广; 赵鹏铖; 丁凯旋; 凡双根
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-03-12
Anticipated expiration: 2038-10-26
Also published as: CN109461458B

Abstract

本发明公开了一种基于GAN的音频异常检测方法，包括以下步骤：1收集音频数据集，并对所得音频数据集中每个音频文件进行端点检测，获取空音位置并删除相应空音，从而得到预处理后的音频文件；2预训练分类器；3训练生成对抗网络；4使用生成对抗网络。本发明利用图像异常检测中深度学习的方法来检测音频异常检测，转换了原有思路，扩宽了音频异常检测的方法，快速有效地在复杂种类音频中识别出异常音频，从而实现对音频异常的高识别准确率的快速检测。

Description

一种基于生成对抗网络的音频异常检测方法

技术领域

本发明属于音频异常检测领域，具体地说是一种基于GAN的音频异常检测方法。

背景技术

随着互联网的高速发展，涌现出大量的音频，图像等信息。但是音频信息的研究速度远远比不上图像的研究，而且对大量音频异常检测工作，由于数据的不均衡造成了较大困难。此外单靠人工标注也是一件庞大而又繁琐的工程，因此，如何在大量未标记的音频数据中发现异常类音频，是音频异常检测的研究重点。

目前存在的异常音频信号的自动检测方法主要通过能量以及频谱等方法来识别异常。但是，现实生活中异常数据相较于正常数据较少且异常类太多，因此上述方法效果并不是很优秀。现在，对于图像异常检测方法越来越多且效果明显。因此，可以考虑把因音频文件转换为LMS声谱图，利用图像异常检测方法检测音频异常。

发明内容

本发明为克服现有技术方法存在的不足之处，提供一种基于生成对抗网络的音频异常检测方法，以期能快速有效地在复杂种类音频中识别出异常音频，从而提高识别准确率。

本发明为解决技术问题采用如下技术方案：

本发明一种基于生成对抗网络的音频异常检测方法的特点是如下步骤进行：

步骤1、收集音频数据集，并对所得音频数据集中每个音频文件进行端点检测，获取空音位置并删除相应空音，从而得到预处理后的音频文件；

对所述预处理后的音频文件按照一定时间长度进行分割，得到分割后的音频文件后，再通过LMS算法转换为LMS声谱图图片，从而得到LMS声谱图图片集，记为K＝{K₁,K₂,…,K_i,…,K_n}；K_i表示第i类LMS声谱图图片，且每类LMS声谱图图片均包含t张图片；n表示LMS声谱图图片的类别总数；i＝1,2,…,n；

步骤2、预训练分类器

步骤2.1、获取其他图片集作为预训练数据集；

步骤2.2、令生成对抗网络是由生成器和鉴别器组成，且生成器是由多层卷积层、隐藏层和多层反卷积层组成；所述鉴别器中包括多层卷积层、分类器以及Sigmod层；所述分类器是由多层卷积层构成的网络，将所述预训练数据集作为所述分类器的输入，经过多层卷积处理后得到特征图；

步骤2.3、利用K值最近领域法将所述特征图进行分类，得到多个类簇；

步骤3、训练生成对抗网络

步骤3.1、从所述LMS声谱图图片集中选取r类正常图片作为正常类图片集S，其余正常图片和异常图片作为混合类图片集X′，r＜n；将所述正常类图片集S中的每一类LMS声谱图图片都按一定比例分为前部分和后部分，并将r类LMS声谱图图片的前部分作为正常类训练图片集X，并记为X＝{x₁,x₂,…,x_j,…,x_q}；x_j表示所述正常类训练图片集X中第j张图片，j＝1,2,…,q，且q＜r×t；将r类LMS声谱图图片的后部分作为正常类评测图片集Y；定义当前迭代次数为h，并初始化h＝1；

步骤3.2、在第h次迭代中将所述正常类训练图片集X中所有q张图片分批输入到所述生成器中，经过多层卷积处理后得到第h次迭代的隐变量集其中表示第h次迭代的第j张图片所得到的隐变量子集；

步骤3.3、将所述第h次迭代的隐变量集Z_h再经过反卷积处理得到第h次迭代的重构图片集表示第h次迭代的第j张图片所对应的重构图片；

步骤3.4、计算第j张图片x_j与其对应的第h次迭代的重构图片之间的距离，从而得到正常类训练图片集X与第h次迭代的重构图片集之间的距离集

步骤3.5、在第h次迭代中将所述正常类训练图片集X作为所述分类器的输入，经过多层卷积后得到第h次迭代的特征图集其中f_h ^j表示第h次迭代的第j张图片的特征图子集；

利用K值最近领域法将所述第h次迭代的特征图集F_h进行分类，得到m个簇并作为m个标准簇；

步骤3.6、将第h次迭代的重构图片集输入所述分类器中，得到第h次迭代的重构图片集的特征图集表示第h次迭代的第j个重构图片的特征图子集；

步骤3.7、分别计算所述m个标准簇与所述第h次迭代的第j个重构图片的特征图子集的欧氏距离并选取最小的欧氏距离所对应的标准簇作为第h次迭代的第j个重构图片的特征图子集所在的类；

步骤3.8、计算第j张图片x_j的第h次迭代的特征图子集与第h次迭代的第j个重构图片的特征图子集的距离从而得到所述第h次迭代的特征图集F_h与所述第h次迭代的重构图片集的特征图集之间的距离集合f(·)表示卷积过程函数；

步骤3.9、所述第h次迭代的特征图集F_h经过所述鉴别器中的多层卷积处理后再输入所述Sigmoid层中进行判定，得到的判定结果为“1”，表示所输入的图像属于正常类训练图片集X；

所述第h次迭代的重构图片集的特征图集经过所述鉴别器中的多层卷积处理后再输入所述Sigmoid层进行判定，得到的判定结果为“0”，表示所输入的图像属于第h次迭代的重构图片集

计算判定结果的交叉熵函数

步骤3.10、利用式(1)计算损失函数L：

式(1)中，α、β和η均为权重，且α+β+η＝1；

步骤3.11、将h+1赋值给h，并返回执行步骤3.2顺序执行，直到所述损失函数收敛至稳定值为止；

步骤3.12、计算标准阈值；

将所述正常类评测图片集Y输入到所述分类器中，得到正常类评测图片集Y的特征图集F_Y；计算所述正常类评测图片集Y的特征图集F_Y中的每个特征图子集与m个标准簇的欧氏距离，并选取最小的欧氏距离所对应的标准簇作为特征图集F_Y中的特征图子集所在的类；

当特征图集F_Y中所有特征图子集分类完成后，m个标准簇中均包含有多个特征子集，在每一个标准簇的多个特征子集中选取最大欧氏距离作为相应标准簇的标准阈值；从而得到m个标准簇的标准阈值T；

步骤4、使用生成对抗网络；

步骤4.1、将所述混合类图片集X′输入所述生成器中，得到相应的重构数据集

步骤4.2、将所述混合类图片集X′及其重构数据集分别输入所述分类器中，得到相应的混合特征图集F′和混合重构特征图集F′；

计算混合特征图集F′中第s个混合特征图子集与m个标准簇的欧氏距离，并选取最小的欧氏距离所对应的标准簇作为第s个混合特征图子集所在的类；

计算混合重构特征图集中每个混合重构特征图子集与m个标准簇的欧氏距离，并选取最小的欧氏距离所对应的标准簇作为相应混合重构特征图子集所在的类；

若任意第s个混合特征图子集的最小的欧式距离大于所在的类的标准簇的标准阈值，且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值，则判定第s个混合特征图子集为异常音频；

若任意第s个混合特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值，且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值，则判定第s个混合特征图子集为正常音频。

与已有技术相比，本发明有益效果体现在：

1、本发明生成对抗网络即GAN网络的作用就是生成与训练数据分布接近的图片，而且基于GAN的异常检测方法基本思想是One-Class，即训练时只使用一类来训练网络，这样使得GAN网络的参数只会生成正常类分布的图像。利用这种特性，使得输入为异常类时，生成的图片分布却近似于正常类，从而得出判别；因此本发明利用One-Class的方法，减少了对于异常数据量的需求；利用LMS声谱图，把音频数据转换为图像数据，这样扩大了对音频异常检测的方法与思路，使得音频异常可以与图像异常一样使用图像的检测方法进行检测；利用较为成熟与丰富的图像异常检测方法，使得音频异常检测的准确率更高。

2、本发明利用了深度学习中的GAN，这在原来的音频异常检测中暂未用过；利用GAN只生成训练数据相似图像的重构图像这一特性结合One-Class的思想可以实现检测多类异常，与以往方法和发明相比，减少了人力与花费的时间；此外分类速度较快，结构简单。

附图说明

图1为本发明中音频数据转换为图像数据流程图；

图2为本发明的流程图；

图3为本发明中GAN的结构示意图。

具体实施方式

本实施例中，一种基于生成对抗网络的音频异常检测方法是如下步骤进行：

对预处理后的音频文件按照一定时间长度进行分割，得到分割后的音频文件后，再通过LMS算法转换为LMS声谱图图片，从而得到LMS声谱图图片集，记为K＝{K₁,K₂,…,K_i,…,K_n}；K_i表示第i类LMS声谱图图片，且每类LMS声谱图图片均包含t张图片；n表示LMS声谱图图片的类别总数；i＝1,2,…,n；

上述流程如图1所示，在具体实施例中，对端点检测后的音频文件按照单位长度为1秒进行分割；之后生成标准尺度为640×480的LMS声谱图图片集。训练网络时尺寸修改为32×32。

步骤2、预训练分类器

步骤2.1、获取其他图片集作为预训练数据集；

具体实例中，使用CIFAR-10数据集作为预训练数据集。CIFAR-10数据集包含10个类的60000张32x32的彩色图像，每个类有6000张图像。有50000张训练图像和10000张测试图像，每一类图片中的每张图片的标签相同，且背景纹理较为复杂。因此，大多数分类器如果可以较好的分类CIFAR-10，对于其他普通的数据集效果会很好。

步骤2.2、令生成对抗网络是由生成器和鉴别器组成，且生成器是由多层卷积层、隐藏层和多层反卷积层组成；鉴别器中包括多层卷积层、分类器以及Sigmod层；分类器是由多层卷积层构成的网络，整个网络如图3所示。将预训练数据集作为分类器的输入，经过多层卷积处理后得到特征图；

具体实施例中，把CIFAR-10图片集按照64张图片一组输入分类器训练，遍历5次后分类器趋于稳定。

步骤2.3、利用K值最近领域法将特征图进行分类，得到多个类簇；

步骤3、训练生成对抗网络

步骤3.1、从LMS声谱图图片集中选取r类正常图片作为正常类图片集S，其余正常图片和异常图片作为混合类图片集X′，r＜n；将正常类图片集S中的每一类LMS声谱图图片都按一定比例分为前部分和后部分，并将r类LMS声谱图图片的前部分作为正常类训练图片集X，并记为X＝{x₁,x₂,…,x_j,…,x_q}；x_j表示正常类训练图片集X中第j张图片，j＝1,2,…,q，且q＜r×t；将r类LMS声谱图图片的后部分作为正常类评测图片集Y；定义当前迭代次数为h，并初始化h＝1；

步骤3.2、在第h次迭代中将正常类训练图片集X中所有q张图片分批输入到生成器中，经过多层卷积处理后得到第h次迭代的隐变量集其中表示第h次迭代的第j张图片所得到的隐变量子集；

步骤3.3、将第h次迭代的隐变量集Z_h再经过反卷积处理得到第h次迭代的重构图片集表示第h次迭代的第j张图片所对应的重构图片；

具体实施例中，迭代次数为15次。正常类图片集S大概在5000张左右，混合类图片集X′大概为1000张。以64张32×32的LMS图片为一批次输入生成器中，输入通道为3，卷积核包括4×4,3×3两种，利用LeakyReLU激活函数。经过多层卷积后，得到了64×100×1×1的隐变量集Z。隐变量集Z再经过反卷积后得到64×32×32的重构图片集。

步骤3.5、在第h次迭代中将正常类训练图片集X作为分类器的输入，经过多层卷积后得到第h次迭代的特征图集其中表示第h次迭代的第j张图片的特征图子集；

利用K值最近领域法将第h次迭代的特征图集F_h进行分类，得到m个簇并作为m个标准簇；具体实施例中，一般选取5个类簇。

步骤3.6、将第h次迭代的重构图片集输入分类器中，得到第h次迭代的重构图片集的特征图集表示第h次迭代的第j个重构图片的特征图子集；

步骤3.7、分别计算m个标准簇与第h次迭代的第j个重构图片的特征图子集的欧氏距离并选取最小的欧氏距离所对应的标准簇作为第h次迭代的第j个重构图片的特征图子集所在的类；

步骤3.8、计算第j张图片x_j的第h次迭代的特征图子集与第h次迭代的第j个重构图片的特征图子集的距离从而得到第h次迭代的特征图集F_h与第h次迭代的重构图片集的特征图集之间的距离集合f(·)表示卷积过程函数；

步骤3.9、第h次迭代的特征图集F_h经过鉴别器中的多层卷积处理后再输入Sigmoid层中进行判定，得到的判定结果为“1”，表示所输入的图像属于正常类训练图片集X；

第h次迭代的重构图片集的特征图集经过鉴别器中的多层卷积处理后再输入Sigmoid层进行判定，得到的判定结果为“0”，表示所输入的图像属于第h次迭代的重构图片集

计算判定结果的交叉熵函数

步骤3.10、利用式(1)计算损失函数L：

式(1)中，α、β和η均为权重，且α+β+η＝1；

步骤3.11、将h+1赋值给h，并返回执行步骤3.2顺序执行，直到损失函数收敛至稳定值为止；

步骤3.12、计算标准阈值；

将正常类评测图片集Y输入到分类器中，得到正常类评测图片集Y的特征图集F_Y；计算正常类评测图片集Y的特征图集F_Y中的每个特征图子集与m个标准簇的欧氏距离，并选取最小的欧氏距离所对应的标准簇作为特征图集F_Y中的特征图子集所在的类；

当特征图集F_Y中所有特征图子集分类完成后，m个标准簇中均包含有多个特征子集，在每一个标准簇的多个特征子集中选取最大欧氏距离作为相应标准簇的标准阈值；从而得到m个标准簇的标准阈值集T；

步骤4、使用生成对抗网络；

步骤4.1、将混合类图片集X′输入生成器中，得到相应的重构数据集

步骤4.2、将混合类图片集X′及其重构数据集分别输入分类器中，得到相应的混合特征图集F′和混合重构特征图集

上述流程如图2所示。具体实施例中，把混合类图片集X′分批次输入生成器中。首先经过卷积后得到了64×100×1×1的隐变量集。隐变量集在经过反卷积后得到64×32×32的重构数据集之后将混合类图片集X′与重构数据集依次输送入分类器中，经过卷积后得到64×128×4×4的特征图集，分类器将其分类后，计算分类后的特征集与原类簇的欧氏距离。按照上述步骤判定，当输入为正常类图片时，二者的欧氏距离都会小于阈值，给与判定结果为1。反之，当输入为异常类数据时，由于网络只生成分布符合正常类的数据，因此只有重构数据集得到的欧氏距离小于标准阈值，异常类图片集得到的欧氏距离大于标准阈值，判定输出为0。判定结果为1时，为正常音频；0判定为异常音频。

Claims

1.一种基于生成对抗网络的音频异常检测方法，其特征是如下步骤进行：

步骤2、预训练分类器

步骤2.1、获取其他图片集作为预训练数据集；

步骤3、训练生成对抗网络

步骤3.5、在第h次迭代中将所述正常类训练图片集X作为所述分类器的输入，经过多层卷积后得到第h次迭代的特征图集其中表示第h次迭代的第j张图片的特征图子集；

计算判定结果的交叉熵函数

步骤3.10、利用式(1)计算损失函数L：

式(1)中，α、β和η均为权重，且α+β+η＝1；

步骤3.12、计算标准阈值；

步骤4、使用生成对抗网络；

步骤4.2、将所述混合类图片集X′及其重构数据集分别输入所述分类器中，得到相应的混合特征图集F′和混合重构特征图集