CN109461458B - 一种基于生成对抗网络的音频异常检测方法 - Google Patents

一种基于生成对抗网络的音频异常检测方法 Download PDF

Info

Publication number
CN109461458B
CN109461458B CN201811259893.6A CN201811259893A CN109461458B CN 109461458 B CN109461458 B CN 109461458B CN 201811259893 A CN201811259893 A CN 201811259893A CN 109461458 B CN109461458 B CN 109461458B
Authority
CN
China
Prior art keywords
picture
iteration
feature map
standard
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811259893.6A
Other languages
English (en)
Other versions
CN109461458A (zh
Inventor
陈雁翔
周杰
武广
赵鹏铖
丁凯旋
凡双根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201811259893.6A priority Critical patent/CN109461458B/zh
Publication of CN109461458A publication Critical patent/CN109461458A/zh
Application granted granted Critical
Publication of CN109461458B publication Critical patent/CN109461458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于GAN的音频异常检测方法,包括以下步骤:1收集音频数据集,并对所得音频数据集中每个音频文件进行端点检测,获取空音位置并删除相应空音,从而得到预处理后的音频文件;2预训练分类器;3训练生成对抗网络;4使用生成对抗网络。本发明利用图像异常检测中深度学习的方法来检测音频异常检测,转换了原有思路,扩宽了音频异常检测的方法,快速有效地在复杂种类音频中识别出异常音频,从而实现对音频异常的高识别准确率的快速检测。

Description

一种基于生成对抗网络的音频异常检测方法
技术领域
本发明属于音频异常检测领域,具体地说是一种基于GAN的音频异常检测方法。
背景技术
随着互联网的高速发展,涌现出大量的音频,图像等信息。但是音频信息的研究速度远远比不上图像的研究,而且对大量音频异常检测工作,由于数据的不均衡造成了较大困难。此外单靠人工标注也是一件庞大而又繁琐的工程,因此,如何在大量未标记的音频数据中发现异常类音频,是音频异常检测的研究重点。
目前存在的异常音频信号的自动检测方法主要通过能量以及频谱等方法来识别异常。但是,现实生活中异常数据相较于正常数据较少且异常类太多,因此上述方法效果并不是很优秀。现在,对于图像异常检测方法越来越多且效果明显。因此,可以考虑把因音频文件转换为LMS声谱图,利用图像异常检测方法检测音频异常。
发明内容
本发明为克服现有技术方法存在的不足之处,提供一种基于生成对抗网络的音频异常检测方法,以期能快速有效地在复杂种类音频中识别出异常音频,从而提高识别准确率。
本发明为解决技术问题采用如下技术方案:
本发明一种基于生成对抗网络的音频异常检测方法的特点是如下步骤进行:
步骤1、收集音频数据集,并对所得音频数据集中每个音频文件进行端点检测,获取空音位置并删除相应空音,从而得到预处理后的音频文件;
对所述预处理后的音频文件按照一定时间长度进行分割,得到分割后的音频文件后,再通过LMS算法转换为LMS声谱图图片,从而得到LMS声谱图图片集,记为K={K1,K2,…,Ki,…,Kn};Ki表示第i类LMS声谱图图片,且每类LMS声谱图图片均包含t张图片;n表示LMS声谱图图片的类别总数;i=1,2,…,n;
步骤2、预训练分类器
步骤2.1、获取其他图片集作为预训练数据集;
步骤2.2、令生成对抗网络是由生成器和鉴别器组成,且生成器是由多层卷积层、隐藏层和多层反卷积层组成;所述鉴别器中包括多层卷积层、分类器以及Sigmod层;所述分类器是由多层卷积层构成的网络,将所述预训练数据集作为所述分类器的输入,经过多层卷积处理后得到特征图;
步骤2.3、利用K值最近领域法将所述特征图进行分类,得到多个类簇;
步骤3、训练生成对抗网络
步骤3.1、从所述LMS声谱图图片集中选取r类正常图片作为正常类图片集S,其余正常图片和异常图片作为混合类图片集X′,r<n;将所述正常类图片集S中的每一类LMS声谱图图片都按一定比例分为前部分和后部分,并将r类LMS声谱图图片的前部分作为正常类训练图片集X,并记为X={x1,x2,…,xj,…,xq};xj表示所述正常类训练图片集X中第j张图片,j=1,2,…,q,且q<r×t;将r类LMS声谱图图片的后部分作为正常类评测图片集Y;定义当前迭代次数为h,并初始化h=1;
步骤3.2、在第h次迭代中将所述正常类训练图片集X中所有q张图片分批输入到所述生成器中,经过多层卷积处理后得到第h次迭代的隐变量集
Figure BDA0001843658040000021
其中
Figure BDA0001843658040000022
表示第h次迭代的第j张图片所得到的隐变量子集;
步骤3.3、将所述第h次迭代的隐变量集Zh再经过反卷积处理得到第h次迭代的重构图片集
Figure BDA0001843658040000023
表示第h次迭代的第j张图片所对应的重构图片;
步骤3.4、计算第j张图片xj与其对应的第h次迭代的重构图片
Figure BDA0001843658040000024
之间的距离,从而得到正常类训练图片集X与第h次迭代的重构图片集
Figure BDA0001843658040000025
之间的距离集
Figure BDA0001843658040000026
步骤3.5、在第h次迭代中将所述正常类训练图片集X作为所述分类器的输入,经过多层卷积后得到第h次迭代的特征图集
Figure BDA0001843658040000027
其中fh j表示第h次迭代的第j张图片的特征图子集;
利用K值最近领域法将所述第h次迭代的特征图集Fh进行分类,得到m个簇并作为m个标准簇;
步骤3.6、将第h次迭代的重构图片集
Figure BDA0001843658040000028
输入所述分类器中,得到第h次迭代的重构图片集
Figure BDA0001843658040000029
的特征图集
Figure BDA00018436580400000210
Figure BDA00018436580400000211
表示第h次迭代的第j个重构图片
Figure BDA00018436580400000212
的特征图子集;
步骤3.7、分别计算所述m个标准簇与所述第h次迭代的第j个重构图片
Figure BDA00018436580400000213
的特征图子集
Figure BDA00018436580400000214
的欧氏距离
Figure BDA00018436580400000215
并选取最小的欧氏距离所对应的标准簇作为第h次迭代的第j个重构图片
Figure BDA00018436580400000216
的特征图子集
Figure BDA00018436580400000217
所在的类;
步骤3.8、计算第j张图片xj的第h次迭代的特征图子集
Figure BDA0001843658040000031
与第h次迭代的第j个重构图片
Figure BDA0001843658040000032
的特征图子集
Figure BDA0001843658040000033
的距离
Figure BDA0001843658040000034
从而得到所述第h次迭代的特征图集Fh与所述第h次迭代的重构图片集
Figure BDA0001843658040000035
的特征图集
Figure BDA0001843658040000036
之间的距离集合
Figure BDA0001843658040000037
f(·)表示卷积过程函数;
步骤3.9、所述第h次迭代的特征图集Fh经过所述鉴别器中的多层卷积处理后再输入所述Sigmoid层中进行判定,得到的判定结果为“1”,表示所输入的图像属于正常类训练图片集X;
所述第h次迭代的重构图片集
Figure BDA0001843658040000038
的特征图集
Figure BDA0001843658040000039
经过所述鉴别器中的多层卷积处理后再输入所述Sigmoid层进行判定,得到的判定结果为“0”,表示所输入的图像属于第h次迭代的重构图片集
Figure BDA00018436580400000310
计算判定结果的交叉熵函数
Figure BDA00018436580400000311
步骤3.10、利用式(1)计算损失函数L:
Figure BDA00018436580400000312
式(1)中,α、β和η均为权重,且α+β+η=1;
步骤3.11、将h+1赋值给h,并返回执行步骤3.2顺序执行,直到所述损失函数收敛至稳定值为止;
步骤3.12、计算标准阈值;
将所述正常类评测图片集Y输入到所述分类器中,得到正常类评测图片集Y的特征图集FY;计算所述正常类评测图片集Y的特征图集FY中的每个特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为特征图集FY中的特征图子集所在的类;
当特征图集FY中所有特征图子集分类完成后,m个标准簇中均包含有多个特征子集,在每一个标准簇的多个特征子集中选取最大欧氏距离作为相应标准簇的标准阈值;从而得到m个标准簇的标准阈值T;
步骤4、使用生成对抗网络;
步骤4.1、将所述混合类图片集X′输入所述生成器中,得到相应的重构数据集
Figure BDA00018436580400000313
步骤4.2、将所述混合类图片集X′及其重构数据集
Figure BDA00018436580400000314
分别输入所述分类器中,得到相应的混合特征图集F′和混合重构特征图集F′;
计算混合特征图集F′中第s个混合特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为第s个混合特征图子集所在的类;
计算混合重构特征图集
Figure BDA0001843658040000041
中每个混合重构特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为相应混合重构特征图子集所在的类;
若任意第s个混合特征图子集的最小的欧式距离大于所在的类的标准簇的标准阈值,且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,则判定第s个混合特征图子集为异常音频;
若任意第s个混合特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,则判定第s个混合特征图子集为正常音频。
与已有技术相比,本发明有益效果体现在:
1、本发明生成对抗网络即GAN网络的作用就是生成与训练数据分布接近的图片,而且基于GAN的异常检测方法基本思想是One-Class,即训练时只使用一类来训练网络,这样使得GAN网络的参数只会生成正常类分布的图像。利用这种特性,使得输入为异常类时,生成的图片分布却近似于正常类,从而得出判别;因此本发明利用One-Class的方法,减少了对于异常数据量的需求;利用LMS声谱图,把音频数据转换为图像数据,这样扩大了对音频异常检测的方法与思路,使得音频异常可以与图像异常一样使用图像的检测方法进行检测;利用较为成熟与丰富的图像异常检测方法,使得音频异常检测的准确率更高。
2、本发明利用了深度学习中的GAN,这在原来的音频异常检测中暂未用过;利用GAN只生成训练数据相似图像的重构图像这一特性结合One-Class的思想可以实现检测多类异常,与以往方法和发明相比,减少了人力与花费的时间;此外分类速度较快,结构简单。
附图说明
图1为本发明中音频数据转换为图像数据流程图;
图2为本发明的流程图;
图3为本发明中GAN的结构示意图。
具体实施方式
本实施例中,一种基于生成对抗网络的音频异常检测方法是如下步骤进行:
步骤1、收集音频数据集,并对所得音频数据集中每个音频文件进行端点检测,获取空音位置并删除相应空音,从而得到预处理后的音频文件;
对预处理后的音频文件按照一定时间长度进行分割,得到分割后的音频文件后,再通过LMS算法转换为LMS声谱图图片,从而得到LMS声谱图图片集,记为K={K1,K2,…,Ki,…,Kn};Ki表示第i类LMS声谱图图片,且每类LMS声谱图图片均包含t张图片;n表示LMS声谱图图片的类别总数;i=1,2,…,n;
上述流程如图1所示,在具体实施例中,对端点检测后的音频文件按照单位长度为1秒进行分割;之后生成标准尺度为640×480的LMS声谱图图片集。训练网络时尺寸修改为32×32。
步骤2、预训练分类器
步骤2.1、获取其他图片集作为预训练数据集;
具体实例中,使用CIFAR-10数据集作为预训练数据集。CIFAR-10数据集包含10个类的60000张32x32的彩色图像,每个类有6000张图像。有50000张训练图像和10000张测试图像,每一类图片中的每张图片的标签相同,且背景纹理较为复杂。因此,大多数分类器如果可以较好的分类CIFAR-10,对于其他普通的数据集效果会很好。
步骤2.2、令生成对抗网络是由生成器和鉴别器组成,且生成器是由多层卷积层、隐藏层和多层反卷积层组成;鉴别器中包括多层卷积层、分类器以及Sigmod层;分类器是由多层卷积层构成的网络,整个网络如图3所示。将预训练数据集作为分类器的输入,经过多层卷积处理后得到特征图;
具体实施例中,把CIFAR-10图片集按照64张图片一组输入分类器训练,遍历5次后分类器趋于稳定。
步骤2.3、利用K值最近领域法将特征图进行分类,得到多个类簇;
步骤3、训练生成对抗网络
步骤3.1、从LMS声谱图图片集中选取r类正常图片作为正常类图片集S,其余正常图片和异常图片作为混合类图片集X′,r<n;将正常类图片集S中的每一类LMS声谱图图片都按一定比例分为前部分和后部分,并将r类LMS声谱图图片的前部分作为正常类训练图片集X,并记为X={x1,x2,…,xj,…,xq};xj表示正常类训练图片集X中第j张图片,j=1,2,…,q,且q<r×t;将r类LMS声谱图图片的后部分作为正常类评测图片集Y;定义当前迭代次数为h,并初始化h=1;
步骤3.2、在第h次迭代中将正常类训练图片集X中所有q张图片分批输入到生成器中,经过多层卷积处理后得到第h次迭代的隐变量集
Figure BDA0001843658040000061
其中
Figure BDA0001843658040000062
表示第h次迭代的第j张图片所得到的隐变量子集;
步骤3.3、将第h次迭代的隐变量集Zh再经过反卷积处理得到第h次迭代的重构图片集
Figure BDA0001843658040000063
表示第h次迭代的第j张图片所对应的重构图片;
具体实施例中,迭代次数为15次。正常类图片集S大概在5000张左右,混合类图片集X′大概为1000张。以64张32×32的LMS图片为一批次输入生成器中,输入通道为3,卷积核包括4×4,3×3两种,利用LeakyReLU激活函数。经过多层卷积后,得到了64×100×1×1的隐变量集Z。隐变量集Z再经过反卷积后得到64×32×32的重构图片集。
步骤3.4、计算第j张图片xj与其对应的第h次迭代的重构图片
Figure BDA0001843658040000064
之间的距离,从而得到正常类训练图片集X与第h次迭代的重构图片集
Figure BDA0001843658040000065
之间的距离集
Figure BDA0001843658040000066
步骤3.5、在第h次迭代中将正常类训练图片集X作为分类器的输入,经过多层卷积后得到第h次迭代的特征图集
Figure BDA0001843658040000067
其中
Figure BDA0001843658040000068
表示第h次迭代的第j张图片的特征图子集;
利用K值最近领域法将第h次迭代的特征图集Fh进行分类,得到m个簇并作为m个标准簇;具体实施例中,一般选取5个类簇。
步骤3.6、将第h次迭代的重构图片集
Figure BDA0001843658040000069
输入分类器中,得到第h次迭代的重构图片集
Figure BDA00018436580400000610
的特征图集
Figure BDA00018436580400000611
表示第h次迭代的第j个重构图片
Figure BDA00018436580400000612
的特征图子集;
步骤3.7、分别计算m个标准簇与第h次迭代的第j个重构图片
Figure BDA00018436580400000613
的特征图子集
Figure BDA00018436580400000614
的欧氏距离
Figure BDA00018436580400000615
并选取最小的欧氏距离所对应的标准簇作为第h次迭代的第j个重构图片
Figure BDA00018436580400000616
的特征图子集
Figure BDA00018436580400000617
所在的类;
步骤3.8、计算第j张图片xj的第h次迭代的特征图子集
Figure BDA00018436580400000618
与第h次迭代的第j个重构图片
Figure BDA00018436580400000619
的特征图子集
Figure BDA00018436580400000620
的距离
Figure BDA00018436580400000621
从而得到第h次迭代的特征图集Fh与第h次迭代的重构图片集
Figure BDA00018436580400000622
的特征图集
Figure BDA00018436580400000623
之间的距离集合
Figure BDA00018436580400000624
f(·)表示卷积过程函数;
步骤3.9、第h次迭代的特征图集Fh经过鉴别器中的多层卷积处理后再输入Sigmoid层中进行判定,得到的判定结果为“1”,表示所输入的图像属于正常类训练图片集X;
第h次迭代的重构图片集
Figure BDA0001843658040000071
的特征图集
Figure BDA0001843658040000072
经过鉴别器中的多层卷积处理后再输入Sigmoid层进行判定,得到的判定结果为“0”,表示所输入的图像属于第h次迭代的重构图片集
Figure BDA0001843658040000073
计算判定结果的交叉熵函数
Figure BDA0001843658040000074
步骤3.10、利用式(1)计算损失函数L:
Figure BDA0001843658040000075
式(1)中,α、β和η均为权重,且α+β+η=1;
步骤3.11、将h+1赋值给h,并返回执行步骤3.2顺序执行,直到损失函数收敛至稳定值为止;
步骤3.12、计算标准阈值;
将正常类评测图片集Y输入到分类器中,得到正常类评测图片集Y的特征图集FY;计算正常类评测图片集Y的特征图集FY中的每个特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为特征图集FY中的特征图子集所在的类;
当特征图集FY中所有特征图子集分类完成后,m个标准簇中均包含有多个特征子集,在每一个标准簇的多个特征子集中选取最大欧氏距离作为相应标准簇的标准阈值;从而得到m个标准簇的标准阈值集T;
步骤4、使用生成对抗网络;
步骤4.1、将混合类图片集X′输入生成器中,得到相应的重构数据集
Figure BDA0001843658040000076
步骤4.2、将混合类图片集X′及其重构数据集
Figure BDA0001843658040000077
分别输入分类器中,得到相应的混合特征图集F′和混合重构特征图集
Figure BDA0001843658040000078
计算混合特征图集F′中第s个混合特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为第s个混合特征图子集所在的类;
计算混合重构特征图集
Figure BDA0001843658040000079
中每个混合重构特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为相应混合重构特征图子集所在的类;
若任意第s个混合特征图子集的最小的欧式距离大于所在的类的标准簇的标准阈值,且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,则判定第s个混合特征图子集为异常音频;
若任意第s个混合特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,则判定第s个混合特征图子集为正常音频。
上述流程如图2所示。具体实施例中,把混合类图片集X′分批次输入生成器中。首先经过卷积后得到了64×100×1×1的隐变量集。隐变量集在经过反卷积后得到64×32×32的重构数据集
Figure BDA0001843658040000081
之后将混合类图片集X′与重构数据集
Figure BDA0001843658040000082
依次输送入分类器中,经过卷积后得到64×128×4×4的特征图集,分类器将其分类后,计算分类后的特征集与原类簇的欧氏距离。按照上述步骤判定,当输入为正常类图片时,二者的欧氏距离都会小于阈值,给与判定结果为1。反之,当输入为异常类数据时,由于网络只生成分布符合正常类的数据,因此只有重构数据集得到的欧氏距离小于标准阈值,异常类图片集得到的欧氏距离大于标准阈值,判定输出为0。判定结果为1时,为正常音频;0判定为异常音频。

Claims (1)

1.一种基于生成对抗网络的音频异常检测方法,其特征是如下步骤进行:
步骤1、收集音频数据集,并对所得音频数据集中每个音频文件进行端点检测,获取空音位置并删除相应空音,从而得到预处理后的音频文件;
对所述预处理后的音频文件按照一定时间长度进行分割,得到分割后的音频文件后,再通过LMS算法转换为LMS声谱图图片,从而得到LMS声谱图图片集,记为K={K1,K2,…,Ki,…,Kn};Ki表示第i类LMS声谱图图片,且每类LMS声谱图图片均包含t张图片;n表示LMS声谱图图片的类别总数;i=1,2,…,n;
步骤2、预训练分类器
步骤2.1、获取其他图片集作为预训练数据集;
步骤2.2、令生成对抗网络是由生成器和鉴别器组成,且生成器是由多层卷积层、隐藏层和多层反卷积层组成;所述鉴别器中包括多层卷积层、分类器以及Sigmod层;所述分类器是由多层卷积层构成的网络,将所述预训练数据集作为所述分类器的输入,经过多层卷积处理后得到特征图;
步骤2.3、利用K值最近领域法将所述特征图进行分类,得到多个类簇;
步骤3、训练生成对抗网络
步骤3.1、从所述LMS声谱图图片集中选取r类正常图片作为正常类图片集S,其余正常图片和异常图片作为混合类图片集X′,r<n;将所述正常类图片集S中的每一类LMS声谱图图片都按一定比例分为前部分和后部分,并将r类LMS声谱图图片的前部分作为正常类训练图片集X,并记为X={x1,x2,…,xj,…,xq};xj表示所述正常类训练图片集X中第j张图片,j=1,2,…,q,且q<r×t;将r类LMS声谱图图片的后部分作为正常类评测图片集Y;定义当前迭代次数为h,并初始化h=1;
步骤3.2、在第h次迭代中将所述正常类训练图片集X中所有q张图片分批输入到所述生成器中,经过多层卷积处理后得到第h次迭代的隐变量集
Figure FDA0001843658030000011
其中
Figure FDA0001843658030000012
表示第h次迭代的第j张图片所得到的隐变量子集;
步骤3.3、将所述第h次迭代的隐变量集Zh再经过反卷积处理得到第h次迭代的重构图片集
Figure FDA0001843658030000013
Figure FDA0001843658030000014
表示第h次迭代的第j张图片所对应的重构图片;
步骤3.4、计算第j张图片xj与其对应的第h次迭代的重构图片
Figure FDA0001843658030000015
之间的距离,从而得到正常类训练图片集X与第h次迭代的重构图片集
Figure FDA0001843658030000021
之间的距离集
Figure FDA0001843658030000022
步骤3.5、在第h次迭代中将所述正常类训练图片集X作为所述分类器的输入,经过多层卷积后得到第h次迭代的特征图集
Figure FDA0001843658030000023
其中
Figure FDA0001843658030000024
表示第h次迭代的第j张图片的特征图子集;
利用K值最近领域法将所述第h次迭代的特征图集Fh进行分类,得到m个簇并作为m个标准簇;
步骤3.6、将第h次迭代的重构图片集
Figure FDA0001843658030000025
输入所述分类器中,得到第h次迭代的重构图片集
Figure FDA0001843658030000026
的特征图集
Figure FDA0001843658030000027
Figure FDA0001843658030000028
表示第h次迭代的第j个重构图片
Figure FDA0001843658030000029
的特征图子集;
步骤3.7、分别计算所述m个标准簇与所述第h次迭代的第j个重构图片
Figure FDA00018436580300000210
的特征图子集
Figure FDA00018436580300000211
的欧氏距离
Figure FDA00018436580300000212
并选取最小的欧氏距离所对应的标准簇作为第h次迭代的第j个重构图片
Figure FDA00018436580300000213
的特征图子集
Figure FDA00018436580300000214
所在的类;
步骤3.8、计算第j张图片xj的第h次迭代的特征图子集
Figure FDA00018436580300000215
与第h次迭代的第j个重构图片
Figure FDA00018436580300000216
的特征图子集
Figure FDA00018436580300000217
的距离
Figure FDA00018436580300000218
从而得到所述第h次迭代的特征图集Fh与所述第h次迭代的重构图片集
Figure FDA00018436580300000219
的特征图集
Figure FDA00018436580300000220
之间的距离集合
Figure FDA00018436580300000221
f(·)表示卷积过程函数;
步骤3.9、所述第h次迭代的特征图集Fh经过所述鉴别器中的多层卷积处理后再输入Sigmoid层中进行判定,得到的判定结果为“1”,表示所输入的图像属于正常类训练图片集X;
所述第h次迭代的重构图片集
Figure FDA00018436580300000222
的特征图集
Figure FDA00018436580300000223
经过所述鉴别器中的多层卷积处理后再输入所述Sigmoid层进行判定,得到的判定结果为“0”,表示所输入的图像属于第h次迭代的重构图片集
Figure FDA00018436580300000224
计算判定结果的交叉熵函数
Figure FDA00018436580300000225
步骤3.10、利用式(1)计算损失函数L:
Figure FDA00018436580300000226
式(1)中,α、β和η均为权重,且α+β+η=1;
步骤3.11、将h+1赋值给h,并返回执行步骤3.2顺序执行,直到所述损失函数收敛至稳定值为止;
步骤3.12、计算标准阈值;
将所述正常类评测图片集Y输入到所述分类器中,得到正常类评测图片集Y的特征图集FY;计算所述正常类评测图片集Y的特征图集FY中的每个特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为特征图集FY中的特征图子集所在的类;
当特征图集FY中所有特征图子集分类完成后,m个标准簇中均包含有多个特征子集,在每一个标准簇的多个特征子集中选取最大欧氏距离作为相应标准簇的标准阈值;从而得到m个标准簇的标准阈值T;
步骤4、使用生成对抗网络;
步骤4.1、将所述混合类图片集X′输入所述生成器中,得到相应的重构数据集
Figure FDA0001843658030000031
步骤4.2、将所述混合类图片集X′及其重构数据集
Figure FDA0001843658030000032
分别输入所述分类器中,得到相应的混合特征图集F′和混合重构特征图集
Figure FDA0001843658030000033
计算混合特征图集F′中第s个混合特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为第s个混合特征图子集所在的类;
计算混合重构特征图集
Figure FDA0001843658030000034
中每个混合重构特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为相应混合重构特征图子集所在的类;
若任意第s个混合特征图子集的最小的欧式距离大于所在的类的标准簇的标准阈值,且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,则判定第s个混合特征图子集为异常音频;
若任意第s个混合特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,则判定第s个混合特征图子集为正常音频。
CN201811259893.6A 2018-10-26 2018-10-26 一种基于生成对抗网络的音频异常检测方法 Active CN109461458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811259893.6A CN109461458B (zh) 2018-10-26 2018-10-26 一种基于生成对抗网络的音频异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811259893.6A CN109461458B (zh) 2018-10-26 2018-10-26 一种基于生成对抗网络的音频异常检测方法

Publications (2)

Publication Number Publication Date
CN109461458A CN109461458A (zh) 2019-03-12
CN109461458B true CN109461458B (zh) 2022-09-13

Family

ID=65608570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811259893.6A Active CN109461458B (zh) 2018-10-26 2018-10-26 一种基于生成对抗网络的音频异常检测方法

Country Status (1)

Country Link
CN (1) CN109461458B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949305B (zh) * 2019-03-29 2021-09-28 北京百度网讯科技有限公司 产品表面缺陷检测方法、装置及计算机设备
CN110751960B (zh) * 2019-10-16 2022-04-26 北京网众共创科技有限公司 噪声数据的确定方法及装置
TWI761715B (zh) * 2019-10-21 2022-04-21 緯創資通股份有限公司 缺陷檢測視覺化方法及其系統
CN111062918B (zh) * 2019-12-10 2023-11-21 歌尔股份有限公司 一种基于计算机视觉的异常检测方法及装置
CN111724770B (zh) * 2020-05-19 2022-04-01 中国电子科技网络信息安全有限公司 一种基于深度卷积生成对抗网络的音频关键词识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910495A (zh) * 2017-04-26 2017-06-30 中国科学院微电子研究所 一种应用于异常声音检测的音频分类系统和方法
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
CN108182949A (zh) * 2017-12-11 2018-06-19 华南理工大学 一种基于深度变换特征的高速公路异常音频事件分类方法
CN108470208A (zh) * 2018-02-01 2018-08-31 华南理工大学 一种基于原始生成对抗网络模型的分组卷积方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017048730A1 (en) * 2015-09-14 2017-03-23 Cogito Corporation Systems and methods for identifying human emotions and/or mental health states based on analyses of audio inputs and/or behavioral data collected from computing devices
CN106847294B (zh) * 2017-01-17 2018-11-30 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910495A (zh) * 2017-04-26 2017-06-30 中国科学院微电子研究所 一种应用于异常声音检测的音频分类系统和方法
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
CN108182949A (zh) * 2017-12-11 2018-06-19 华南理工大学 一种基于深度变换特征的高速公路异常音频事件分类方法
CN108470208A (zh) * 2018-02-01 2018-08-31 华南理工大学 一种基于原始生成对抗网络模型的分组卷积方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度卷积生成对抗网络的语音生成技术;朱纯等;《仪表技术》;20180215(第02期);全文 *
基于生成对抗网络的语音增强算法研究;柯健等;《信息技术与网络安全》;20180510(第05期);全文 *

Also Published As

Publication number Publication date
CN109461458A (zh) 2019-03-12

Similar Documents

Publication Publication Date Title
CN109461458B (zh) 一种基于生成对抗网络的音频异常检测方法
US11823046B2 (en) Identifying subject matter of a digital image
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN110245655B (zh) 一种基于轻量级图像金字塔网络的单阶段物体检测方法
CN108427920B (zh) 一种基于深度学习的边海防目标检测方法
CN106683048B (zh) 一种图像超分辨率方法及设备
CN109035149B (zh) 一种基于深度学习的车牌图像去运动模糊方法
CN113052211B9 (zh) 一种基于特征的秩和通道重要性的剪枝方法
CN108229550B (zh) 一种基于多粒度级联森林网络的云图分类方法
CN110197205B (zh) 一种多特征来源残差网络的图像识别方法
CN110580501A (zh) 一种基于变分自编码对抗网络的零样本图像分类方法
CN109919252B (zh) 利用少数标注图像生成分类器的方法
CN111861906A (zh) 一种路面裂缝图像虚拟增广模型建立及图像虚拟增广方法
CN109284779A (zh) 基于深度全卷积网络的物体检测方法
CN111145145B (zh) 一种基于MobileNets的图像表面缺陷检测方法
CN110751212A (zh) 一种移动设备上高效的细粒度图像识别方法
CN111815526B (zh) 基于图像滤波和cnn的有雨图像雨条纹去除方法及系统
CN113077444A (zh) 一种基于cnn的超声无损检测图像缺陷分类方法
Wang et al. Efficient yolo: A lightweight model for embedded deep learning object detection
Pichel et al. A new approach for sparse matrix classification based on deep learning techniques
CN112347910A (zh) 一种基于多模态深度学习的信号指纹识别方法
CN114329031A (zh) 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法
Ghayoumi et al. Local sensitive hashing (LSH) and convolutional neural networks (CNNs) for object recognition
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
CN110866552A (zh) 基于全卷积空间传播网络的高光谱图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant