CN109461458A - 一种基于生成对抗网络的音频异常检测方法 - Google Patents

一种基于生成对抗网络的音频异常检测方法 Download PDF

Info

Publication number
CN109461458A
CN109461458A CN201811259893.6A CN201811259893A CN109461458A CN 109461458 A CN109461458 A CN 109461458A CN 201811259893 A CN201811259893 A CN 201811259893A CN 109461458 A CN109461458 A CN 109461458A
Authority
CN
China
Prior art keywords
class
picture
pictures
times iteration
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811259893.6A
Other languages
English (en)
Other versions
CN109461458B (zh
Inventor
陈雁翔
周杰
武广
赵鹏铖
丁凯旋
凡双根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201811259893.6A priority Critical patent/CN109461458B/zh
Publication of CN109461458A publication Critical patent/CN109461458A/zh
Application granted granted Critical
Publication of CN109461458B publication Critical patent/CN109461458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于GAN的音频异常检测方法,包括以下步骤:1收集音频数据集,并对所得音频数据集中每个音频文件进行端点检测,获取空音位置并删除相应空音,从而得到预处理后的音频文件;2预训练分类器;3训练生成对抗网络;4使用生成对抗网络。本发明利用图像异常检测中深度学习的方法来检测音频异常检测,转换了原有思路,扩宽了音频异常检测的方法,快速有效地在复杂种类音频中识别出异常音频,从而实现对音频异常的高识别准确率的快速检测。

Description

一种基于生成对抗网络的音频异常检测方法
技术领域
本发明属于音频异常检测领域,具体地说是一种基于GAN的音频异常检测方法。
背景技术
随着互联网的高速发展,涌现出大量的音频,图像等信息。但是音频信息的研究速度远远比不上图像的研究,而且对大量音频异常检测工作,由于数据的不均衡造成了较大困难。此外单靠人工标注也是一件庞大而又繁琐的工程,因此,如何在大量未标记的音频数据中发现异常类音频,是音频异常检测的研究重点。
目前存在的异常音频信号的自动检测方法主要通过能量以及频谱等方法来识别异常。但是,现实生活中异常数据相较于正常数据较少且异常类太多,因此上述方法效果并不是很优秀。现在,对于图像异常检测方法越来越多且效果明显。因此,可以考虑把因音频文件转换为LMS声谱图,利用图像异常检测方法检测音频异常。
发明内容
本发明为克服现有技术方法存在的不足之处,提供一种基于生成对抗网络的音频异常检测方法,以期能快速有效地在复杂种类音频中识别出异常音频,从而提高识别准确率。
本发明为解决技术问题采用如下技术方案:
本发明一种基于生成对抗网络的音频异常检测方法的特点是如下步骤进行:
步骤1、收集音频数据集,并对所得音频数据集中每个音频文件进行端点检测,获取空音位置并删除相应空音,从而得到预处理后的音频文件;
对所述预处理后的音频文件按照一定时间长度进行分割,得到分割后的音频文件后,再通过LMS算法转换为LMS声谱图图片,从而得到LMS声谱图图片集,记为K={K1,K2,…,Ki,…,Kn};Ki表示第i类LMS声谱图图片,且每类LMS声谱图图片均包含t张图片;n表示LMS声谱图图片的类别总数;i=1,2,…,n;
步骤2、预训练分类器
步骤2.1、获取其他图片集作为预训练数据集;
步骤2.2、令生成对抗网络是由生成器和鉴别器组成,且生成器是由多层卷积层、隐藏层和多层反卷积层组成;所述鉴别器中包括多层卷积层、分类器以及Sigmod层;所述分类器是由多层卷积层构成的网络,将所述预训练数据集作为所述分类器的输入,经过多层卷积处理后得到特征图;
步骤2.3、利用K值最近领域法将所述特征图进行分类,得到多个类簇;
步骤3、训练生成对抗网络
步骤3.1、从所述LMS声谱图图片集中选取r类正常图片作为正常类图片集S,其余正常图片和异常图片作为混合类图片集X′,r<n;将所述正常类图片集S中的每一类LMS声谱图图片都按一定比例分为前部分和后部分,并将r类LMS声谱图图片的前部分作为正常类训练图片集X,并记为X={x1,x2,…,xj,…,xq};xj表示所述正常类训练图片集X中第j张图片,j=1,2,…,q,且q<r×t;将r类LMS声谱图图片的后部分作为正常类评测图片集Y;定义当前迭代次数为h,并初始化h=1;
步骤3.2、在第h次迭代中将所述正常类训练图片集X中所有q张图片分批输入到所述生成器中,经过多层卷积处理后得到第h次迭代的隐变量集其中表示第h次迭代的第j张图片所得到的隐变量子集;
步骤3.3、将所述第h次迭代的隐变量集Zh再经过反卷积处理得到第h次迭代的重构图片集表示第h次迭代的第j张图片所对应的重构图片;
步骤3.4、计算第j张图片xj与其对应的第h次迭代的重构图片之间的距离,从而得到正常类训练图片集X与第h次迭代的重构图片集之间的距离集
步骤3.5、在第h次迭代中将所述正常类训练图片集X作为所述分类器的输入,经过多层卷积后得到第h次迭代的特征图集其中fh j表示第h次迭代的第j张图片的特征图子集;
利用K值最近领域法将所述第h次迭代的特征图集Fh进行分类,得到m个簇并作为m个标准簇;
步骤3.6、将第h次迭代的重构图片集输入所述分类器中,得到第h次迭代的重构图片集的特征图集 表示第h次迭代的第j个重构图片的特征图子集;
步骤3.7、分别计算所述m个标准簇与所述第h次迭代的第j个重构图片的特征图子集的欧氏距离并选取最小的欧氏距离所对应的标准簇作为第h次迭代的第j个重构图片的特征图子集所在的类;
步骤3.8、计算第j张图片xj的第h次迭代的特征图子集与第h次迭代的第j个重构图片的特征图子集的距离从而得到所述第h次迭代的特征图集Fh与所述第h次迭代的重构图片集的特征图集之间的距离集合f(·)表示卷积过程函数;
步骤3.9、所述第h次迭代的特征图集Fh经过所述鉴别器中的多层卷积处理后再输入所述Sigmoid层中进行判定,得到的判定结果为“1”,表示所输入的图像属于正常类训练图片集X;
所述第h次迭代的重构图片集的特征图集经过所述鉴别器中的多层卷积处理后再输入所述Sigmoid层进行判定,得到的判定结果为“0”,表示所输入的图像属于第h次迭代的重构图片集
计算判定结果的交叉熵函数
步骤3.10、利用式(1)计算损失函数L:
式(1)中,α、β和η均为权重,且α+β+η=1;
步骤3.11、将h+1赋值给h,并返回执行步骤3.2顺序执行,直到所述损失函数收敛至稳定值为止;
步骤3.12、计算标准阈值;
将所述正常类评测图片集Y输入到所述分类器中,得到正常类评测图片集Y的特征图集FY;计算所述正常类评测图片集Y的特征图集FY中的每个特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为特征图集FY中的特征图子集所在的类;
当特征图集FY中所有特征图子集分类完成后,m个标准簇中均包含有多个特征子集,在每一个标准簇的多个特征子集中选取最大欧氏距离作为相应标准簇的标准阈值;从而得到m个标准簇的标准阈值T;
步骤4、使用生成对抗网络;
步骤4.1、将所述混合类图片集X′输入所述生成器中,得到相应的重构数据集
步骤4.2、将所述混合类图片集X′及其重构数据集分别输入所述分类器中,得到相应的混合特征图集F′和混合重构特征图集F′;
计算混合特征图集F′中第s个混合特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为第s个混合特征图子集所在的类;
计算混合重构特征图集中每个混合重构特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为相应混合重构特征图子集所在的类;
若任意第s个混合特征图子集的最小的欧式距离大于所在的类的标准簇的标准阈值,且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,则判定第s个混合特征图子集为异常音频;
若任意第s个混合特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,则判定第s个混合特征图子集为正常音频。
与已有技术相比,本发明有益效果体现在:
1、本发明生成对抗网络即GAN网络的作用就是生成与训练数据分布接近的图片,而且基于GAN的异常检测方法基本思想是One-Class,即训练时只使用一类来训练网络,这样使得GAN网络的参数只会生成正常类分布的图像。利用这种特性,使得输入为异常类时,生成的图片分布却近似于正常类,从而得出判别;因此本发明利用One-Class的方法,减少了对于异常数据量的需求;利用LMS声谱图,把音频数据转换为图像数据,这样扩大了对音频异常检测的方法与思路,使得音频异常可以与图像异常一样使用图像的检测方法进行检测;利用较为成熟与丰富的图像异常检测方法,使得音频异常检测的准确率更高。
2、本发明利用了深度学习中的GAN,这在原来的音频异常检测中暂未用过;利用GAN只生成训练数据相似图像的重构图像这一特性结合One-Class的思想可以实现检测多类异常,与以往方法和发明相比,减少了人力与花费的时间;此外分类速度较快,结构简单。
附图说明
图1为本发明中音频数据转换为图像数据流程图;
图2为本发明的流程图;
图3为本发明中GAN的结构示意图。
具体实施方式
本实施例中,一种基于生成对抗网络的音频异常检测方法是如下步骤进行:
步骤1、收集音频数据集,并对所得音频数据集中每个音频文件进行端点检测,获取空音位置并删除相应空音,从而得到预处理后的音频文件;
对预处理后的音频文件按照一定时间长度进行分割,得到分割后的音频文件后,再通过LMS算法转换为LMS声谱图图片,从而得到LMS声谱图图片集,记为K={K1,K2,…,Ki,…,Kn};Ki表示第i类LMS声谱图图片,且每类LMS声谱图图片均包含t张图片;n表示LMS声谱图图片的类别总数;i=1,2,…,n;
上述流程如图1所示,在具体实施例中,对端点检测后的音频文件按照单位长度为1秒进行分割;之后生成标准尺度为640×480的LMS声谱图图片集。训练网络时尺寸修改为32×32。
步骤2、预训练分类器
步骤2.1、获取其他图片集作为预训练数据集;
具体实例中,使用CIFAR-10数据集作为预训练数据集。CIFAR-10数据集包含10个类的60000张32x32的彩色图像,每个类有6000张图像。有50000张训练图像和10000张测试图像,每一类图片中的每张图片的标签相同,且背景纹理较为复杂。因此,大多数分类器如果可以较好的分类CIFAR-10,对于其他普通的数据集效果会很好。
步骤2.2、令生成对抗网络是由生成器和鉴别器组成,且生成器是由多层卷积层、隐藏层和多层反卷积层组成;鉴别器中包括多层卷积层、分类器以及Sigmod层;分类器是由多层卷积层构成的网络,整个网络如图3所示。将预训练数据集作为分类器的输入,经过多层卷积处理后得到特征图;
具体实施例中,把CIFAR-10图片集按照64张图片一组输入分类器训练,遍历5次后分类器趋于稳定。
步骤2.3、利用K值最近领域法将特征图进行分类,得到多个类簇;
步骤3、训练生成对抗网络
步骤3.1、从LMS声谱图图片集中选取r类正常图片作为正常类图片集S,其余正常图片和异常图片作为混合类图片集X′,r<n;将正常类图片集S中的每一类LMS声谱图图片都按一定比例分为前部分和后部分,并将r类LMS声谱图图片的前部分作为正常类训练图片集X,并记为X={x1,x2,…,xj,…,xq};xj表示正常类训练图片集X中第j张图片,j=1,2,…,q,且q<r×t;将r类LMS声谱图图片的后部分作为正常类评测图片集Y;定义当前迭代次数为h,并初始化h=1;
步骤3.2、在第h次迭代中将正常类训练图片集X中所有q张图片分批输入到生成器中,经过多层卷积处理后得到第h次迭代的隐变量集其中表示第h次迭代的第j张图片所得到的隐变量子集;
步骤3.3、将第h次迭代的隐变量集Zh再经过反卷积处理得到第h次迭代的重构图片集表示第h次迭代的第j张图片所对应的重构图片;
具体实施例中,迭代次数为15次。正常类图片集S大概在5000张左右,混合类图片集X′大概为1000张。以64张32×32的LMS图片为一批次输入生成器中,输入通道为3,卷积核包括4×4,3×3两种,利用LeakyReLU激活函数。经过多层卷积后,得到了64×100×1×1的隐变量集Z。隐变量集Z再经过反卷积后得到64×32×32的重构图片集。
步骤3.4、计算第j张图片xj与其对应的第h次迭代的重构图片之间的距离,从而得到正常类训练图片集X与第h次迭代的重构图片集之间的距离集
步骤3.5、在第h次迭代中将正常类训练图片集X作为分类器的输入,经过多层卷积后得到第h次迭代的特征图集其中表示第h次迭代的第j张图片的特征图子集;
利用K值最近领域法将第h次迭代的特征图集Fh进行分类,得到m个簇并作为m个标准簇;具体实施例中,一般选取5个类簇。
步骤3.6、将第h次迭代的重构图片集输入分类器中,得到第h次迭代的重构图片集的特征图集表示第h次迭代的第j个重构图片的特征图子集;
步骤3.7、分别计算m个标准簇与第h次迭代的第j个重构图片的特征图子集的欧氏距离并选取最小的欧氏距离所对应的标准簇作为第h次迭代的第j个重构图片的特征图子集所在的类;
步骤3.8、计算第j张图片xj的第h次迭代的特征图子集与第h次迭代的第j个重构图片的特征图子集的距离从而得到第h次迭代的特征图集Fh与第h次迭代的重构图片集的特征图集之间的距离集合f(·)表示卷积过程函数;
步骤3.9、第h次迭代的特征图集Fh经过鉴别器中的多层卷积处理后再输入Sigmoid层中进行判定,得到的判定结果为“1”,表示所输入的图像属于正常类训练图片集X;
第h次迭代的重构图片集的特征图集经过鉴别器中的多层卷积处理后再输入Sigmoid层进行判定,得到的判定结果为“0”,表示所输入的图像属于第h次迭代的重构图片集
计算判定结果的交叉熵函数
步骤3.10、利用式(1)计算损失函数L:
式(1)中,α、β和η均为权重,且α+β+η=1;
步骤3.11、将h+1赋值给h,并返回执行步骤3.2顺序执行,直到损失函数收敛至稳定值为止;
步骤3.12、计算标准阈值;
将正常类评测图片集Y输入到分类器中,得到正常类评测图片集Y的特征图集FY;计算正常类评测图片集Y的特征图集FY中的每个特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为特征图集FY中的特征图子集所在的类;
当特征图集FY中所有特征图子集分类完成后,m个标准簇中均包含有多个特征子集,在每一个标准簇的多个特征子集中选取最大欧氏距离作为相应标准簇的标准阈值;从而得到m个标准簇的标准阈值集T;
步骤4、使用生成对抗网络;
步骤4.1、将混合类图片集X′输入生成器中,得到相应的重构数据集
步骤4.2、将混合类图片集X′及其重构数据集分别输入分类器中,得到相应的混合特征图集F′和混合重构特征图集
计算混合特征图集F′中第s个混合特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为第s个混合特征图子集所在的类;
计算混合重构特征图集中每个混合重构特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为相应混合重构特征图子集所在的类;
若任意第s个混合特征图子集的最小的欧式距离大于所在的类的标准簇的标准阈值,且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,则判定第s个混合特征图子集为异常音频;
若任意第s个混合特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,则判定第s个混合特征图子集为正常音频。
上述流程如图2所示。具体实施例中,把混合类图片集X′分批次输入生成器中。首先经过卷积后得到了64×100×1×1的隐变量集。隐变量集在经过反卷积后得到64×32×32的重构数据集之后将混合类图片集X′与重构数据集依次输送入分类器中,经过卷积后得到64×128×4×4的特征图集,分类器将其分类后,计算分类后的特征集与原类簇的欧氏距离。按照上述步骤判定,当输入为正常类图片时,二者的欧氏距离都会小于阈值,给与判定结果为1。反之,当输入为异常类数据时,由于网络只生成分布符合正常类的数据,因此只有重构数据集得到的欧氏距离小于标准阈值,异常类图片集得到的欧氏距离大于标准阈值,判定输出为0。判定结果为1时,为正常音频;0判定为异常音频。

Claims (1)

1.一种基于生成对抗网络的音频异常检测方法,其特征是如下步骤进行:
步骤1、收集音频数据集,并对所得音频数据集中每个音频文件进行端点检测,获取空音位置并删除相应空音,从而得到预处理后的音频文件;
对所述预处理后的音频文件按照一定时间长度进行分割,得到分割后的音频文件后,再通过LMS算法转换为LMS声谱图图片,从而得到LMS声谱图图片集,记为K={K1,K2,…,Ki,…,Kn};Ki表示第i类LMS声谱图图片,且每类LMS声谱图图片均包含t张图片;n表示LMS声谱图图片的类别总数;i=1,2,…,n;
步骤2、预训练分类器
步骤2.1、获取其他图片集作为预训练数据集;
步骤2.2、令生成对抗网络是由生成器和鉴别器组成,且生成器是由多层卷积层、隐藏层和多层反卷积层组成;所述鉴别器中包括多层卷积层、分类器以及Sigmod层;所述分类器是由多层卷积层构成的网络,将所述预训练数据集作为所述分类器的输入,经过多层卷积处理后得到特征图;
步骤2.3、利用K值最近领域法将所述特征图进行分类,得到多个类簇;
步骤3、训练生成对抗网络
步骤3.1、从所述LMS声谱图图片集中选取r类正常图片作为正常类图片集S,其余正常图片和异常图片作为混合类图片集X′,r<n;将所述正常类图片集S中的每一类LMS声谱图图片都按一定比例分为前部分和后部分,并将r类LMS声谱图图片的前部分作为正常类训练图片集X,并记为X={x1,x2,…,xj,…,xq};xj表示所述正常类训练图片集X中第j张图片,j=1,2,…,q,且q<r×t;将r类LMS声谱图图片的后部分作为正常类评测图片集Y;定义当前迭代次数为h,并初始化h=1;
步骤3.2、在第h次迭代中将所述正常类训练图片集X中所有q张图片分批输入到所述生成器中,经过多层卷积处理后得到第h次迭代的隐变量集其中表示第h次迭代的第j张图片所得到的隐变量子集;
步骤3.3、将所述第h次迭代的隐变量集Zh再经过反卷积处理得到第h次迭代的重构图片集 表示第h次迭代的第j张图片所对应的重构图片;
步骤3.4、计算第j张图片xj与其对应的第h次迭代的重构图片之间的距离,从而得到正常类训练图片集X与第h次迭代的重构图片集之间的距离集
步骤3.5、在第h次迭代中将所述正常类训练图片集X作为所述分类器的输入,经过多层卷积后得到第h次迭代的特征图集其中表示第h次迭代的第j张图片的特征图子集;
利用K值最近领域法将所述第h次迭代的特征图集Fh进行分类,得到m个簇并作为m个标准簇;
步骤3.6、将第h次迭代的重构图片集输入所述分类器中,得到第h次迭代的重构图片集的特征图集 表示第h次迭代的第j个重构图片的特征图子集;
步骤3.7、分别计算所述m个标准簇与所述第h次迭代的第j个重构图片的特征图子集的欧氏距离并选取最小的欧氏距离所对应的标准簇作为第h次迭代的第j个重构图片的特征图子集所在的类;
步骤3.8、计算第j张图片xj的第h次迭代的特征图子集与第h次迭代的第j个重构图片的特征图子集的距离从而得到所述第h次迭代的特征图集Fh与所述第h次迭代的重构图片集的特征图集之间的距离集合f(·)表示卷积过程函数;
步骤3.9、所述第h次迭代的特征图集Fh经过所述鉴别器中的多层卷积处理后再输入所述Sigmoid层中进行判定,得到的判定结果为“1”,表示所输入的图像属于正常类训练图片集X;
所述第h次迭代的重构图片集的特征图集经过所述鉴别器中的多层卷积处理后再输入所述Sigmoid层进行判定,得到的判定结果为“0”,表示所输入的图像属于第h次迭代的重构图片集
计算判定结果的交叉熵函数
步骤3.10、利用式(1)计算损失函数L:
式(1)中,α、β和η均为权重,且α+β+η=1;
步骤3.11、将h+1赋值给h,并返回执行步骤3.2顺序执行,直到所述损失函数收敛至稳定值为止;
步骤3.12、计算标准阈值;
将所述正常类评测图片集Y输入到所述分类器中,得到正常类评测图片集Y的特征图集FY;计算所述正常类评测图片集Y的特征图集FY中的每个特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为特征图集FY中的特征图子集所在的类;
当特征图集FY中所有特征图子集分类完成后,m个标准簇中均包含有多个特征子集,在每一个标准簇的多个特征子集中选取最大欧氏距离作为相应标准簇的标准阈值;从而得到m个标准簇的标准阈值T;
步骤4、使用生成对抗网络;
步骤4.1、将所述混合类图片集X′输入所述生成器中,得到相应的重构数据集
步骤4.2、将所述混合类图片集X′及其重构数据集分别输入所述分类器中,得到相应的混合特征图集F′和混合重构特征图集
计算混合特征图集F′中第s个混合特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为第s个混合特征图子集所在的类;
计算混合重构特征图集中每个混合重构特征图子集与m个标准簇的欧氏距离,并选取最小的欧氏距离所对应的标准簇作为相应混合重构特征图子集所在的类;
若任意第s个混合特征图子集的最小的欧式距离大于所在的类的标准簇的标准阈值,且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,则判定第s个混合特征图子集为异常音频;
若任意第s个混合特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,且第s个混合重构特征图子集的最小的欧式距离小于所在的类的标准簇的标准阈值,则判定第s个混合特征图子集为正常音频。
CN201811259893.6A 2018-10-26 2018-10-26 一种基于生成对抗网络的音频异常检测方法 Active CN109461458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811259893.6A CN109461458B (zh) 2018-10-26 2018-10-26 一种基于生成对抗网络的音频异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811259893.6A CN109461458B (zh) 2018-10-26 2018-10-26 一种基于生成对抗网络的音频异常检测方法

Publications (2)

Publication Number Publication Date
CN109461458A true CN109461458A (zh) 2019-03-12
CN109461458B CN109461458B (zh) 2022-09-13

Family

ID=65608570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811259893.6A Active CN109461458B (zh) 2018-10-26 2018-10-26 一种基于生成对抗网络的音频异常检测方法

Country Status (1)

Country Link
CN (1) CN109461458B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949305A (zh) * 2019-03-29 2019-06-28 北京百度网讯科技有限公司 产品表面缺陷检测方法、装置及计算机设备
CN110751960A (zh) * 2019-10-16 2020-02-04 北京网众共创科技有限公司 噪声数据的确定方法及装置
CN111062918A (zh) * 2019-12-10 2020-04-24 歌尔股份有限公司 一种基于计算机视觉的异常检测方法及装置
CN111724770A (zh) * 2020-05-19 2020-09-29 中国电子科技网络信息安全有限公司 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN112700399A (zh) * 2019-10-21 2021-04-23 纬创资通股份有限公司 缺陷检测视觉化方法及其系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076740A1 (en) * 2015-09-14 2017-03-16 Cogito Corporation Systems and methods for identifying human emotions and/or mental health states based on analyses of audio inputs and/or behavioral data collected from computing devices
CN106910495A (zh) * 2017-04-26 2017-06-30 中国科学院微电子研究所 一种应用于异常声音检测的音频分类系统和方法
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
CN108182949A (zh) * 2017-12-11 2018-06-19 华南理工大学 一种基于深度变换特征的高速公路异常音频事件分类方法
US20180204121A1 (en) * 2017-01-17 2018-07-19 Baidu Online Network Technology (Beijing) Co., Ltd Audio processing method and apparatus based on artificial intelligence
CN108470208A (zh) * 2018-02-01 2018-08-31 华南理工大学 一种基于原始生成对抗网络模型的分组卷积方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076740A1 (en) * 2015-09-14 2017-03-16 Cogito Corporation Systems and methods for identifying human emotions and/or mental health states based on analyses of audio inputs and/or behavioral data collected from computing devices
US20180204121A1 (en) * 2017-01-17 2018-07-19 Baidu Online Network Technology (Beijing) Co., Ltd Audio processing method and apparatus based on artificial intelligence
CN106910495A (zh) * 2017-04-26 2017-06-30 中国科学院微电子研究所 一种应用于异常声音检测的音频分类系统和方法
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
CN108182949A (zh) * 2017-12-11 2018-06-19 华南理工大学 一种基于深度变换特征的高速公路异常音频事件分类方法
CN108470208A (zh) * 2018-02-01 2018-08-31 华南理工大学 一种基于原始生成对抗网络模型的分组卷积方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱纯等: "基于深度卷积生成对抗网络的语音生成技术", 《仪表技术》 *
柯健等: "基于生成对抗网络的语音增强算法研究", 《信息技术与网络安全》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949305A (zh) * 2019-03-29 2019-06-28 北京百度网讯科技有限公司 产品表面缺陷检测方法、装置及计算机设备
CN110751960A (zh) * 2019-10-16 2020-02-04 北京网众共创科技有限公司 噪声数据的确定方法及装置
CN110751960B (zh) * 2019-10-16 2022-04-26 北京网众共创科技有限公司 噪声数据的确定方法及装置
CN112700399A (zh) * 2019-10-21 2021-04-23 纬创资通股份有限公司 缺陷检测视觉化方法及其系统
CN112700399B (zh) * 2019-10-21 2023-12-19 纬创资通股份有限公司 缺陷检测视觉化方法及其系统
CN111062918A (zh) * 2019-12-10 2020-04-24 歌尔股份有限公司 一种基于计算机视觉的异常检测方法及装置
WO2021114896A1 (zh) * 2019-12-10 2021-06-17 歌尔股份有限公司 一种基于计算机视觉的异常检测方法、装置及电子设备
CN111062918B (zh) * 2019-12-10 2023-11-21 歌尔股份有限公司 一种基于计算机视觉的异常检测方法及装置
US12002195B2 (en) 2019-12-10 2024-06-04 Goertek Inc. Computer vision-based anomaly detection method, device and electronic apparatus
CN111724770A (zh) * 2020-05-19 2020-09-29 中国电子科技网络信息安全有限公司 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN111724770B (zh) * 2020-05-19 2022-04-01 中国电子科技网络信息安全有限公司 一种基于深度卷积生成对抗网络的音频关键词识别方法

Also Published As

Publication number Publication date
CN109461458B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN109461458A (zh) 一种基于生成对抗网络的音频异常检测方法
CN108664971B (zh) 基于2d卷积神经网络的肺结节检测方法
CN107194433A (zh) 一种基于深度自编码网络的雷达一维距离像目标识别方法
CN110533606B (zh) 基于生成式对抗网络的安检x光违禁品图像数据增强方法
CN112686894B (zh) 基于生成式对抗网络的fpcb板缺陷检测方法及装置
CN104537647A (zh) 一种目标检测方法及装置
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN104166859A (zh) 基于ssae和fsals-svm极化sar图像分类
CN108229550A (zh) 一种基于多粒度级联森林网络的云图分类方法
CN108629369A (zh) 一种基于Trimmed SSD的尿沉渣有形成分自动识别方法
CN108478216A (zh) 一种基于卷积神经网络的癫痫病发作前期智能预测方法
CN107219510B (zh) 基于无限最大间隔线性判别投影模型的雷达目标识别方法
CN109376787A (zh) 流形学习网络及基于其的计算机视觉图像集分类方法
CN106271881A (zh) 一种基于SAEs和K‑means的刀具破损监测方法
CN109420622A (zh) 基于卷积神经网络的烟叶分拣方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN114997211A (zh) 一种基于改进对抗网络和注意力机制的跨工况故障诊断方法
CN104504391B (zh) 一种基于稀疏特征和马尔科夫随机场的高光谱图像分类方法
CN103679269A (zh) 基于主动学习的分类器样本选择方法及其装置
CN111144462A (zh) 一种雷达信号的未知个体识别方法及装置
CN114064459A (zh) 基于生成对抗网络和集成学习的软件缺陷预测方法
Jevnisek et al. Aggregating layers for deepfake detection
CN112146880B (zh) 一种对不同转速下滚动轴承内部结构故障的智能化诊断方法
CN114118149A (zh) 基于有限元仿真和对称特征迁移的感应电机故障诊断系统
CN113486202A (zh) 小样本图像分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant