CN117079665A - 基于孪生注意力对抗网络的工业设备异常声信号检测方法及系统 - Google Patents
基于孪生注意力对抗网络的工业设备异常声信号检测方法及系统 Download PDFInfo
- Publication number
- CN117079665A CN117079665A CN202310804729.3A CN202310804729A CN117079665A CN 117079665 A CN117079665 A CN 117079665A CN 202310804729 A CN202310804729 A CN 202310804729A CN 117079665 A CN117079665 A CN 117079665A
- Authority
- CN
- China
- Prior art keywords
- twin
- attention
- domain
- network
- gef
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 58
- 230000005236 sound signal Effects 0.000 title claims description 30
- 238000001514 detection method Methods 0.000 title claims description 29
- 230000008485 antagonism Effects 0.000 title description 4
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 33
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 9
- 238000012795 verification Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000009826 distribution Methods 0.000 claims description 20
- 230000007246 mechanism Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 230000005856 abnormality Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 5
- 238000009776 industrial production Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 101800000535 3C-like proteinase Proteins 0.000 description 1
- 101800002396 3C-like proteinase nsp5 Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开基于孪生注意力对抗网络的工业设备异常声信号检测方法及系统,方法包括:对原始声信号进行对数梅尔能量特征提取;构建共享自动编码器架构的孪生网络;孪生编码器共享权重,提取源域和目标域对数梅尔能量的特征表示;构建域鉴别器,对齐源域和目标域的特征表示,以学习其不变特征表示;孪生解码器实现对源域和目标域的良好重建;构建整体损失函数,利用反向传播和Adam优化训练孪生注意力对抗网络;将训练集和验证集输入到孪生注意力对抗网络中进行训练,通过重构误差计算异常分数继而得到阈值,根据阈值输出工业设备的状态;将测试集输入到训练好的孪生注意力对抗网络中,计算异常分数和确定阈值,根据阈值确定工业设备的状态。
Description
技术领域
本发明属于域漂移情景下的异常声信号检测技术领域,具体涉及一种基于孪生注意力对抗网络的工业设备异常声信号检测方法及系统。
背景技术
随着智能制造时代的到来,受人工智能算法、信息物理融合系统、云计算、大数据和物联网等支撑技术推动。现代工业生产过程(如航空航天、设备制造、纺织等)正朝着智能、高效、集成化发展。然而,现代工业设备的组成和结构愈加繁杂,各部件之间的关联也愈加紧密,倘若设备的某个部件发生异常现象,也许会直接影响产品的生产,导致不必要的经济损失甚至人员伤亡。因此,采取一定的异常检测技术十分必要。在众多异常检测信号采集方式中,声信号具有采集装备安装简单、成本低和无需接触式测量等优势,因而,工业设备异常声信号检测获得了研究学者的广泛关注。异常声音检测(ASD)是指识别机器发出的声音是否正常或异常。异常声音可能是由诸如磨损、机器的故障或不良操作之类的异常事件引起的。异常声信号检测不仅保证工业生产过程的安全稳定性能,同时也提高了工业生产效率。
由于在实际的工业生产中很少能获取到异常的声信号数据,因此通常采用无监督的异常声信号检测方法。然而,不仅仅是工业设备声信号的异常状态情况,当工业设备的操作条件和环境发生变化时(即运行速度、机器负载、环境噪声、粘度等方面会存在差异),源域(正常场景)和目标域(漂移场景)的数据分布会发生变化,这对与异常声信号检测来说也非常具有挑战性。
本领域提出了许多方法来减少源域和目标域之间的分布差异。漂移学习是近年来的一个突破,它可以处理样本之间的分布差异,但存在负面影响转移现象。GAN主要通过两个领域之间的对抗性训练机制来拟合概率分布,但其训练需要达到“纳什均衡”。此外,孪生网络的特殊结构可以在域漂移条件下较好地处理特征表示,这进一步提高了模型的表示能力。基于此,孪生对抗网络在计算机视觉领域应运而生,它通常是通过博弈游戏训练域分类器以区分从源域和目标域提取的数据。因此,将孪生对抗网络应用于域漂移情景下的异常声信号检测,可以更好地满足实际工业应用的需求。
然而,各种工业设备声信号的不同频域特征具有不同的效果,因此需要筛选出有用的频谱特征并过滤掉无用的信息。倘若直接将提取的频域特征输入到模型中进行训练,虽然能取得一定的检测性能,但可能会限制模型的检测性能以及降低模型的鲁棒性。
发明内容
针对现有技术存在的上述问题,本发明提出了一种基于孪生注意力对抗网络的工业设备异常声信号检测方法及系统。本发明首先通过提取源域和目标域正常声信号的对数梅尔能量特征;然后,对所提取的两个域的特征分别到两个相同的具有基于频域的注意力机制的编码器中;紧接着,构建域鉴别器以对其源域和目标域的特征表示,孪生解码器实现对源域和目标域的良好重建;再构建整体损失函数,利用反向传播和Adam优化训练孪生注意力对抗网络;最后,通过重构误差计算异常分数继而得到阈值,并根据阈值输出工业设备的状态。
本发明解决其技术问题所采用的技术方案,使用孪生注意力对抗网络模型,其具体如下:
基于孪生注意力对抗网络的工业设备异常声信号检测方法,其包括如下步骤:
(一)模型训练阶段
步骤1-1:对源域和目标域原始声信号进行对数梅尔能量特征提取;优选的,包括预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和对数变换,获得其对数梅尔能量特征FM。
步骤1-2:构建一个共享自动编码器架构的孪生网络,由编码器和解码器构成。
步骤1-3:孪生编码器共享权重,并包括基于频域的注意力机制,用于较好地提取源域和目标域对数梅尔能量的特征表示。
步骤1-4:构建域鉴别器,对齐源域和目标域的特征表示,以学习其不变特征表示。
步骤1-5:孪生解码器实现对源域和目标域的良好重建,计算公式如下:
其中xs、xt分别是源域、目标域的对数梅尔能力特征,分别是xs、xt的重建,WGD是解码器的可学习的权重参数,ns、nt分别是源域和目标域的输入对数梅尔能量特征的数量。
步骤1-6:构建整体损失函数,利用反向传播和Adam优化训练孪生注意力对抗网络,计算公式如下:
LSAAN(xs,xt,wD,WGEF,wGD)=LD+LM+Lr
其中xs、xt分别是源域、目标域的对数梅尔能力特征,WD、WGEF和WGD分别表示鉴别器D、编码GEF和解码器GD的可学习权重参数,LD、LM分别是编码器、解码器的标准交叉熵损失函数,Lr为重建损失函数。
步骤1-7:将训练集Xtrain和验证集Xval输入到训练好的孪生注意力对抗网络中,通过重构误差计算异常分数继而得到阈值,最终根据阈值输出工业设备的状态。
(二)异常检测阶段
对于一个采集到的未知声信号数据,进行如下处理判断其异常与否:
步骤2-1:按(一)中步骤1-1提取对数梅尔能量特征FM。
步骤2-2:将步骤2-1提取的对数梅尔能量特征FM输入孪生注意力对抗网络中,得到异常分数Aθ。
步骤2-3:通过阈值(H)判定,大于阈值为异常声信号,反之为正常声信号:
本发明能够在源域和目标域数据分布不一致的情况下对异常声信号进行有效检测,对于域漂移场景具有良好的泛化性。
优选的,步骤1-1具体如下:
步骤1-1、对于预加重,由H(x)=1-αx-1计算,x为输入信号,H(x)为预加重之后的输出,α为预加重系数,取0.97;
步骤1-2、对于分帧,帧长为N,帧移为
步骤1-3、对于加窗,选择汉明窗ω(n),计算公式为x(n)=ω(n)s(n),其中,s(n)为窗的宽度,是N的第n个采样点;
步骤1-4、对于快速傅里叶变换,可将上述步骤处理得到的信号转换至频域,计算公式为其中x(n)为输入声信号,j为虚数单位,X(k)为x(n)对应的频域信号,N为傅里叶变换的点数,通常取512;
步骤1-5、对于梅尔滤波器组,主要是对步骤1-4获得的频域信息进行加权,获得每个梅尔频率段的能量,以达到去除噪声并提取有用信号的目的,设共有M个三角滤波器,则第m个梅尔滤波器的频响Hm(k)计算公式为,其中f(m)为中心频率:
步骤1.6、对于对数运算,对步骤1-5获得的梅尔频率段能量再取对数,得到每帧信号经过第m个梅尔滤波器滤波后的对数梅尔能量,计算公式为:
优选的,步骤1-3具体实现如下:
步骤1-3.1、基于频域的注意力机制的工作原理大致如下,首先,将输入的X通过具有n个隐藏单元的全连接层,再经过sigmoid激活函数计算得到输入数据的频谱注意力权重紧接着,对该权重进行归一化获得归一化后的频谱注意力权重Wn,t;最后,将和输入的的X相乘获得加权特征/>相关过程的计算公式如下:
其中,X为输入的声信号频谱特征,Vn和bn分别表示全连接层的第n个隐藏单元的权重和偏置,Nf是Mel bin的数量,代表逐元素乘法;
步骤1-3.2、提取源域和目标域对数梅尔能量的特征表示分别用GEF(xs)和GEF(xt)获得,其中,GEF(.)表示孪生编码器。
优选的,步骤1-4具体实现如下:
步骤1-4.1、构建域鉴别器,并试图从两个GEF的输出中区分源特征和目标特征,计算公式是标准二进制交叉熵损失,相关计算如下:
LD(D(xs,xt,WD))=E[logD(GEF(xs))]+E[log(1-D(GEF(xt)))]
其中xs、xt分别是源域、目标域的对数梅尔能力特征,D和GEF分别代表鉴别器和编码器,WD和WGEF分别代表D和GEF可学习的权重参数;
步骤1-4.2、对齐源域和目标域的特征表示,计算公式是最大均值差异,旨在匹配源域和目标域的数据分布,其中,‖.‖2代表l2正则化:
优选的,步骤1-7具体如下:
步骤1-7.1、将训练集按照步骤1-1处理,获得训练集对应的源域和目标域的对数梅尔能量特征;
步骤1-7.2、将步骤1-7.1获得的特征输入到孪生注意力对抗网络中,孪生注意力对抗网络由GEF、GD、D组成,其中,GEF由基于频域的注意力机制模块和6个Dense层组成,每个Dense层后是批归一化和Relu激活函数;GD由6个Dense层组成,特别地,最后一个Dense后直接输出,因为直接输出预测结果即可无需分类转换。D由两个Dense组成,每个Dense层后是批归一化、Elu激活和Dropout正则化;
步骤1-7.3、按照步骤1-6进行优化,进行孪生注意力对抗网络的训练,异常分数是正常样本与异常样本之间的差值的绝对值之和的平均,计算异常分数的公式如下:
其中,xk为k时刻的对数梅尔能量特征,为重建的信号特征,K为时间帧的数量,D=F×P,F和P分别表示梅尔滤波器组和上下文窗口的数量,‖.‖2代表l2正则化;
步骤1-7.4、根据阈值(H)判定工业设备的状态,阈值的定义如下,假设Aθ服从gamma分布,gamma分布的参数由Aθ直方图估计给出。异常分数检测阈值确定为gamma分布的第90个百分数位,如果声信号片段的异常分数大于此阈值则判断为异常,否则判断为正常。
本发明还公开了一种基于孪生注意力对抗网络的工业设备异常声信号检测系统,其具体包括如下模块:
模型训练模块:对原始声信号进行对数梅尔能量特征提取;构建共享自动编码器架构的孪生网络;采用孪生编码器共享权重,包括基于频域的注意力机制,用于提取源域和目标域对数梅尔能量的特征表示;构建域鉴别器,对齐源域和目标域的特征表示,以学习其不变特征表示;孪生解码器实现对源域和目标域的重建;构建整体损失函数,利用反向传播和Adam优化训练孪生注意力对抗网络;将训练集和验证集输入到训练好的孪生注意力对抗网络中,通过重构误差计算异常分数继而得到阈值,根据阈值输出工业设备的状态;
异常检测模块:对于采集到的未知声信号数据,进行如下处理判断其异常与否:提取对数梅尔能量特征FM,将提取的对数梅尔能量特征FM输入孪生注意力对抗网络中,得到异常分数Aθ;通过阈值H的判定,大于阈值为异常声信号,反之为正常声信号。
对于本发明中的专业术语进行说明:
傅里叶变换是一种数字信号处理技术,它能够将一个时域信号转换到频域上进行表述和分析。通过傅里叶变换,可以得到信号的频率组成以及各频率分量的振幅和相位信息。值得注意的是,快速傅里叶变换算法通过利用信号的周期性和对称性,将计算过程优化,大幅缩短了计算时间。
对数梅尔能量(Log Mel-band Energies)是声学信号领域常用的特征提取方法,它是直接从滤波器组能量获得的对数能量。因为它可以有效地捕捉到音频信号中的频率信息,具有较高的鲁棒性和稳定性,因此可以更准确地识别出异常声信号。
基于频域的注意力机制(Frequency-based Attention Mechanism,FAM)是注意力机制的一种,可以学习每个频率分量的重要性,避免了直接使用整条序列的频谱导致的信息丢失问题,从而生成更利于网络训练的特征表示。因此,基于频谱的注意力机制被广泛应用于自然语言处理、语音识别、计算机视觉等领域。
本发明有益效果如下:
对于实际的工业应用场景,尤其是因操作条件和环境发生变化导致的源域和目标域数据分布不一致场景,本发明通过孪生注意力对抗网络,减少了源域和目标域之间的数据分布差异,有效地学习源域和目标域的不变特征表示,本发明适应性强,可更好地适应实际工业场景中的各种工业设备(如阀门、泵、风扇、滑轨、变速箱等);本发明稳定性高,通过孪生注意力对抗可以在不断学习和适应的过程中逐渐增强模型的鲁棒性和稳定性;本发明可扩展性强,可适应不同的数据分布和任务要求,具有较高的可扩展性和灵活性。
相较于直接将提取的对数梅尔能量特征输入到模型中进行训练,本发明结合基于频域的注意力机制,可以有效地提取所需的声信号对数梅尔能量频率成分,不仅可以增强特征表达能力,提高检测性能,而且减少了模型复杂度并加快了模型训练速度,对于实际的工业应用场景具有优势。
附图说明
图1为本发明优选实施例基于孪生注意力对抗网络的工业设备异常声信号检测方法流程框架图;
图2为本发明优选实施例对数梅尔能量提取过程(Mpro)图;
图3为本发明优选实施例孪生注意力对抗网络的结构图;
图4为本发明优选实施例基于孪生注意力对抗网络的工业设备异常声信号检测方法流程图;
图5为本发明优选实施例工业设备图;
图6本发明优选实施例基于孪生注意力对抗网络的工业设备异常声信号检测系统框图。
具体实施方式
下面以工业设备公开数据集MIMII DUE为例,使用基于孪生注意力对抗网络的异常声信号检测方法,对本发明作进一步说明,以下描述仅作展示说明,不对本发明作任何形式上的限制。
本实施例中,采用故障工业机器调查和检查的声音数据集MIMII DUE,包含valve、pump、fan、slider和gearbox工业设备类型,每种工业设备由三个部分(00、01和02)组成,对于每个部分,训练集中提供约1000个源域中的正常声音片段和目标域中的三个正常声音片段,测试集中分别提供约100个源域和目标域中的正常和异常声音片段。采样率为16KHz,时长为10s,采样编码为16bit有符号整数PCM。此外,每个声信号片段混合了多个真实工厂记录的背景噪声和模拟真实环境的机器声音,其中,真实情况包括污染、泄漏、旋转不平衡、铁轨损坏等。
如图1-5所示,本实施例一种基于孪生注意力对抗网络的工业设备异常声信号检测方法,具体包括:
一、模型训练阶段:
步骤1:对源域和目标域原始声信号数据进行对数梅尔能量特征提取,包括预加重、分帧、加窗、快速傅里叶变换和对数梅尔滤波,获得其对数梅尔能量特征FM。本步骤具体如下:
步骤1.1:对于预加重,其计算公式为H(x)=1-αx-1,x为输入信号,α为预加重系数,取0.97;
步骤1.2:对于分帧,帧长为N,帧移为N取64毫秒;
步骤1.3:对于加窗,选择汉明窗ω(n),计算公式为x(n)=ω(n)s(n),其中,s(n)为窗的宽度是N的第n个采样点;
步骤1.4:对于快速傅里叶变换,计算公式为其中x(n)为输入声信号,X(k)为x(n)对应的频域信号,N为傅里叶变换的点数,取512;
步骤1.5:对于梅尔滤波器组,主要是对步骤1.4获得的频域信息进行加权,获得每个梅尔频率段的能量,即Hm(k),其计算公式为:
其中f(m)为中心频率;
步骤1.6:对于对数运算,对步骤1.5获得的梅尔频率段能量再取对数,得到每帧信号经过第m个梅尔滤波器滤波后的对数梅尔能量,计算公式为:
步骤2:构建一个共享自动编码器架构的孪生网络,由编码器和解码器构成。
步骤3:孪生编码器共享权重,并包括基于频域的注意力机制,用于较好地提取源域和目标域对数梅尔能量的特征表示,本步骤具体实现如下:
步骤3.1:通过基于频域的注意力机制,将输入的对数梅尔能量特征进行加权处理,计算公式如下:
其中,X为输入的声信号频谱特征,Vn和bn分别表示全连接层的第n个隐藏单元的权重和偏置,Nf是Mel bin的数量,代表逐元素乘法;
步骤3.2:提取源域和目标域对数梅尔能量的特征表示分别用GEF(xs)和GEF(xt)获得,其中,GEF(.)表示孪生编码器。
步骤4:构建域鉴别器,对齐源域和目标域的特征表示,以学习其不变特征表示;本步骤具体如下:
步骤4.1:构建域鉴别器,并试图从两个GEF的输出中区分源特征和目标特征,计算公式是标准二进制交叉熵损失,计算公式如下:
LD(D(xs,xt,WD))=E[logD(GEF(xs))]+E[log(1-D(GEF(xt)))]
步骤4.2:对齐源域和目标域的特征表示,计算公式是最大均值差异,旨在匹配源域和目标域的数据分布,计算公式如下:
步骤5:孪生解码器实现对源域和目标域的良好重建,计算公式如下:
步骤6.构建整体损失函数,利用反向传播和Adam优化训练孪生注意力对抗网络,相关计算公式如下:
LSAAN(xs,xt,WD,WGEFWGD)=LD+LM+Lr
步骤7.将训练集Xtrain和验证集Xval输入到训练好的孪生注意力对抗网络中,通过重构误差计算异常分数继而得到阈值,最终根据阈值输出工业设备的状态;本步骤具体如下:
步骤7.1:将训练集按照步骤1处理,获得训练集对应的源域和目标域的对数梅尔能量特征;
步骤7.2:将步骤7.1获得的特征输入到孪生注意力对抗网络中,孪生注意力对抗网络由GEF、GD、D组成,其中,GEF接收640维的特征向量,并将其映射为16维的特征,该网络由基于频域的注意力机制模块和6个Dense层组成,每个Dense层后是批归一化和Relu激活函数;GD接收16维的特征向量,并将其映射为640维的特征,该网络由6个Dense层组成,特别地,最后一个Dense后直接输出,因为直接输出预测结果即可无需分类转换。D由两个Dense组成,每个Dense层后是批归一化、Elu激活和Dropout正则化,Dropout=0.5。
将训练集Xtrain输入堆叠自动编码器进行训练,SAE由5个结构相同的AE组成,单个AE的编码器由5层全连接层构成,维度为512-512-512-512-32,解码器则相反,维度为32-512-512-512-512,使用Adam优化器,学习率设置为0.001,epoch设置为100,batchsize设置为512,当验证损失10个epoch内停止改善,会保存最佳模型并提前停止训练过程。
步骤7.3:按照步骤6进行优化,进行孪生注意力对抗网络的训练,异常分数是正常样本与异常样本之间的差值的绝对值之和的平均,计算异常分数的公式如下:
其中,xk为k时刻的对数梅尔能量特征,为重建的信号特征,K为时间帧的数量,D=F×P,F和P分别表示梅尔滤波器组和上下文窗口的数量,‖.‖2代表l2正则化;
步骤7.4:根据阈值(H)判定工业设备的状态,阈值的定义如下,假设Aθ服从gamma分布,gamma分布的参数由Aθ直方图估计给出。异常分数检测阈值确定为gamma分布的第90个百分数位,如果声信号片段的异常分数大于此阈值则判断为异常,否则判断为正常。
二、异常检测阶段:
步骤1:按模型训练阶段中相同的方式提取对应源域和目标域中的对数梅尔能量特征FM。
步骤2:将步骤1提取的对数梅尔能量特征FM输入孪生注意力对抗网络中,得到异常分数Aθ。
步骤3:通过阈值(H)判定,大于阈值为异常声信号,反之为正常声信号,表示为:
如图6所示,本实施例公开了一种基于孪生注意力对抗网络的工业设备异常声信号检测系统,其基于上述方法实施例,具体包括如下模块:
模型训练模块:对原始声信号进行对数梅尔能量特征提取;构建共享自动编码器架构的孪生网络;采用孪生编码器共享权重,包括基于频域的注意力机制,用于提取源域和目标域对数梅尔能量的特征表示;构建域鉴别器,对齐源域和目标域的特征表示,以学习其不变特征表示;孪生解码器实现对源域和目标域的重建;构建整体损失函数,利用反向传播和Adam优化训练孪生注意力对抗网络;将训练集和验证集输入到训练好的孪生注意力对抗网络中,通过重构误差计算异常分数继而得到阈值,根据阈值输出工业设备的状态;
异常检测模块:对于采集到的未知声信号数据,进行如下处理判断其异常与否:提取对数梅尔能量特征FM,将提取的对数梅尔能量特征FM输入孪生注意力对抗网络中,得到异常分数Aθ;通过阈值H的判定,大于阈值为异常声信号,反之为正常声信号。
本实施例其他内容可参考上述方法实施例。
本发明未述及之处可适用于现有技术。
以上对本发明的具体实施方式进行了描述,以便于本技术领域人员理解本发明,但本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (7)
1.基于孪生注意力对抗网络的工业设备异常声信号检测方法,其特征在于具体包括如下步骤:
(一)模型训练阶段
步骤1-1、对原始声信号进行对数梅尔能量特征提取;
步骤1-2、构建共享自动编码器架构的孪生网络;
步骤1-3、采用孪生编码器共享权重,包括基于频域的注意力机制,用于提取源域和目标域对数梅尔能量的特征表示;
步骤1-4、构建域鉴别器,对齐源域和目标域的特征表示,以学习其不变特征表示;
步骤1-5、孪生解码器实现对源域和目标域的重建,计算公式如下:
其中xs、xt分别是源域、目标域的对数梅尔能量特征,分别是xs、xt的重建特征,WGD是解码器的可学习权重参数,ns、nt分别是源域和目标域的输入对数梅尔能量特征的数量;
步骤1-6、构建整体损失函数,利用反向传播和Adam优化训练孪生注意力对抗网络,计算公式如下:
LSAAN(xs,xt,WD,WGEF,WGD)=LD+LM+Lr
其中xs、xt分别是源域、目标域的对数梅尔能量特征,WD、WGEF和WGD分别表示鉴别器D、编码器GEF和解码器GD的可学习权重参数,LD、LM分别是编码器、解码器的标准交叉熵损失函数,Lr为重建损失函数;
步骤1-7、将训练集Xtrain和验证集Xval输入到训练好的孪生注意力对抗网络中,通过重构误差计算异常分数继而得到阈值,根据阈值输出工业设备的状态;
(二)异常检测阶段
对于采集到的未知声信号数据,进行如下处理判断其异常与否:
步骤2-1、按(一)模型训练阶段中的步骤1-1提取对数梅尔能量特征FM;
步骤2-2、将提取的对数梅尔能量特征FM输入孪生注意力对抗网络中,得到异常分数Aθ;
步骤2-3、通过阈值H的判定,大于阈值为异常声信号,反之为正常声信号,表示为:
2.如权利要求1所述基于孪生注意力对抗网络的工业设备异常声信号检测方法,其特征在于,步骤1-1中,对原始声信号进行对数梅尔能量特征提取具体包括预加重、分帧、加窗、快速傅里叶变换FFT和对数梅尔滤波。
3.如权利要求2所述基于孪生注意力对抗网络的工业设备异常声信号检测方法,其特征在于,步骤1-1具体如下:
步骤1-1、对于预加重,由H(x)=1-αx-1计算,x为输入信号,H(x)为预加重之后的输出,α为预加重系数;
步骤1-2、对于分帧,帧长为N,帧移为
步骤1-3、对于加窗,选择汉明窗ω(n),计算公式为x(n)=ω(n)s(n),其中,s(n)为窗的宽度,是N的第n个采样点;
步骤1-4、对于快速傅里叶变换,将步骤1-1至步骤1-3处理得到的信号转换至频域,计算公式为其中x(n)为输入声信号,j为虚数单位,X(k)为x(n)对应的频域信号,N为傅里叶变换的点数;
步骤1-5、对于梅尔滤波器组,对步骤1-4获得的频域信息进行加权,获得每个梅尔频率段的能量,共设有M个三角滤波器,则第m个梅尔滤波器的频响Hm(k)计算公式为,其中f(m)为中心频率:
步骤1.6、对于对数梅尔滤波运算,对步骤1-5获得的梅尔频率段能量取对数,得到每帧信号经过第m个梅尔滤波器滤波后的对数梅尔能量,计算公式为:
4.如权利要求1-3任一项所述基于孪生注意力对抗网络的工业设备异常声信号检测方法,其特征在于,步骤1-3具体实现如下:
步骤1-3.1、将输入的X通过具有n个隐藏单元的全连接层,经过sigmoid激活函数计算得到输入数据的频谱注意力权重对该权重进行归一化获得归一化后的频谱注意力权重Wn,t;将和输入的的X相乘获得加权特征/>计算公式如下:
其中,X为输入的声信号频谱特征,Vn和bn分别表示全连接层的第n个隐藏单元的权重和偏置,Nf是Mel bin的数量,代表逐元素乘法;
步骤1-3.2、提取源域和目标域对数梅尔能量的特征表示分别用GEF(xs)和GEF(xt)获得,其中,GEF(.)表示孪生编码器。
5.如权利要求1-3任一项所述基于孪生注意力对抗网络的工业设备异常声信号检测方法,其特征在于,步骤1-4具体实现如下:
步骤1-4.1、构建域鉴别器,并从两个GEF的输出中区分源特征和目标特征,计算式如下:
LD(D(xs,xt,WD))=E[logD(GEF(xs))]+E[log(1-D(GEF(xt)))]
其中xs和xt分别是源域和目标域的对数梅尔能量特征,WD和WGEF分别代表鉴别器D和编码器GEF的可学习权重参数;
步骤1-4.2、对齐源域和目标域的特征表示,计算公式是最大均值差异,旨在匹配源域和目标域的数据分布,其中,‖.‖2代表l2正则化:
其中xs和xt分别是源域和目标域的对数梅尔能量特征,WGEF表示编码器GEF的可学习权重参数,ns、nt分别是源域和目标域的输入对数梅尔能量特征的数量。
6.如权利要求1-3任一项所述基于孪生注意力对抗网络的工业设备异常声信号检测方法,其特征在于,步骤1-7具体如下:
步骤1-7.1、将训练集按照步骤1-1处理,获得训练集对应的源域和目标域的对数梅尔能量特征;
步骤1-7.2、将步骤1-7.1获得的特征输入到孪生注意力对抗网络中,孪生注意力对抗网络由GEF、GD、D组成,其中,GEF由基于频域的注意力机制模块和6个Dense层组成,每个Dense层后是批归一化和Relu激活函数;GD由6个Dense层组成,最后一个Dense后直接输出;D由两个Dense组成,每个Dense层后是批归一化、Elu激活和Dropout正则化;
步骤1-7.3、按照步骤1-6进行优化,进行孪生注意力对抗网络的训练,异常分数是正常样本与异常样本之间的差值的绝对值之和的平均,计算异常分数的公式如下:
其中,xk为k时刻的对数梅尔能量特征,为重建的信号特征,K为时间帧的数量,D=F×P,F和P分别表示梅尔滤波器组和上下文窗口的数量,‖.‖2代表l2正则化;
步骤1-7.4、根据阈值H判定工业设备的状态,阈值的定义如下:假设Aθ服从gamma分布,gamma分布的参数由Aθ直方图估计给出;异常分数检测阈值确定为gamma分布的第90个百分数位,如果声信号片段的异常分数大于此阈值则判断为异常,否则判断为正常。
7.基于孪生注意力对抗网络的工业设备异常声信号检测系统,其特征在于具体包括如下模块:
模型训练模块:对原始声信号进行对数梅尔能量特征提取;构建共享自动编码器架构的孪生网络;采用孪生编码器共享权重,包括基于频域的注意力机制,用于提取源域和目标域对数梅尔能量的特征表示;构建域鉴别器,对齐源域和目标域的特征表示,以学习其不变特征表示;孪生解码器实现对源域和目标域的重建;构建整体损失函数,利用反向传播和Adam优化训练孪生注意力对抗网络;将训练集和验证集输入到训练好的孪生注意力对抗网络中,通过重构误差计算异常分数继而得到阈值,根据阈值输出工业设备的状态;
异常检测模块:对于采集到的未知声信号数据,进行如下处理判断其异常与否:提取对数梅尔能量特征FM,将提取的对数梅尔能量特征FM输入孪生注意力对抗网络中,得到异常分数Aθ;通过阈值H的判定,大于阈值为异常声信号,反之为正常声信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310804729.3A CN117079665A (zh) | 2023-07-03 | 2023-07-03 | 基于孪生注意力对抗网络的工业设备异常声信号检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310804729.3A CN117079665A (zh) | 2023-07-03 | 2023-07-03 | 基于孪生注意力对抗网络的工业设备异常声信号检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117079665A true CN117079665A (zh) | 2023-11-17 |
Family
ID=88706826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310804729.3A Pending CN117079665A (zh) | 2023-07-03 | 2023-07-03 | 基于孪生注意力对抗网络的工业设备异常声信号检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079665A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556365A (zh) * | 2024-01-12 | 2024-02-13 | 山东建筑大学 | 一种流程数据漂移检测模型训练、漂移检测方法及装置 |
-
2023
- 2023-07-03 CN CN202310804729.3A patent/CN117079665A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556365A (zh) * | 2024-01-12 | 2024-02-13 | 山东建筑大学 | 一种流程数据漂移检测模型训练、漂移检测方法及装置 |
CN117556365B (zh) * | 2024-01-12 | 2024-04-09 | 山东建筑大学 | 一种流程数据漂移检测模型训练、漂移检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Garcia-Romero et al. | MagNetO: X-vector Magnitude Estimation Network plus Offset for Improved Speaker Recognition. | |
CN117079665A (zh) | 基于孪生注意力对抗网络的工业设备异常声信号检测方法及系统 | |
CN109061591B (zh) | 一种基于序贯聚类的时频线谱检测方法 | |
Mallidi et al. | Autoencoder based multi-stream combination for noise robust speech recognition | |
Müller et al. | Analysis of feature representations for anomalous sound detection | |
CN115758082A (zh) | 一种轨道交通变压器故障诊断方法 | |
CN116935892A (zh) | 一种基于音频关键特征动态聚合的工业阀门异常检测方法 | |
CN113793620B (zh) | 基于场景分类的语音降噪方法、装置、设备及存储介质 | |
CN112151067B (zh) | 一种基于卷积神经网络的数字音频篡改被动检测方法 | |
CN111341351B (zh) | 基于自注意力机制的语音活动检测方法、装置及存储介质 | |
CN112233696A (zh) | 基于人工智能和大数据的油田抽油机异音检测及上报系统 | |
CN116386669A (zh) | 基于分组自动编码器的机器运行声学状态监测方法和系统 | |
CN115452378A (zh) | 基于功率正则化倒谱系数的滚动轴承故障声纹识别方法 | |
CN113569989B (zh) | 用于舞台装备故障诊断的ti-tsdcn模型构建方法 | |
Reshma et al. | A survey on speech emotion recognition | |
CN115293214A (zh) | 一种基于样本扩充网络的水声目标识别模型优化方法 | |
Lu et al. | Detecting Unknown Speech Spoofing Algorithms with Nearest Neighbors | |
CN114664311A (zh) | 一种记忆网络增强的变分推断无声攻击检测方法 | |
CN115064182A (zh) | 自适应梅尔滤波器在强噪声环境下风机故障特征识别方法 | |
Morovati | Increase the accuracy of speech signal categories in high noise environments | |
CN116230012B (zh) | 一种基于元数据对比学习预训练的两阶段异音检测方法 | |
CN116662776A (zh) | 一种带式输送机监控数据冗余过滤方法 | |
CN117316178A (zh) | 电力设备声纹识别方法、装置、设备及介质 | |
CN114049887A (zh) | 用于音视频会议的实时语音活动检测方法及系统 | |
Seyedin et al. | Feature extraction based on DCT and MVDR spectral estimation for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |