CN116701992A - 基于图注意力网络和时间卷积网络的多模态异常检测方法 - Google Patents
基于图注意力网络和时间卷积网络的多模态异常检测方法 Download PDFInfo
- Publication number
- CN116701992A CN116701992A CN202310555050.5A CN202310555050A CN116701992A CN 116701992 A CN116701992 A CN 116701992A CN 202310555050 A CN202310555050 A CN 202310555050A CN 116701992 A CN116701992 A CN 116701992A
- Authority
- CN
- China
- Prior art keywords
- mode
- network
- feature extraction
- anomaly detection
- extraction module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 67
- 238000000605 extraction Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012360 testing method Methods 0.000 claims abstract description 28
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 230000005856 abnormality Effects 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 230000002159 abnormal effect Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 230000001419 dependent effect Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 14
- 239000004973 liquid crystal related substance Substances 0.000 description 12
- 238000004519 manufacturing process Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 208000003464 asthenopia Diseases 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 229910000679 solder Inorganic materials 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于图注意力网络和时间卷积网络的多模态异常检测方法,属于多模态数据异常检测技术领域,包括:基于若干传感器获取多模态数据集,对多模态数据集进行预处理,并将预处理后的多模态数据集划分为训练集和测试集;基于图注意力网络和多头注意力机制构造用于提取空间相关特征的空间特征提取模块,基于时间卷积生成对抗网络构造时间特征提取模块,根据空间特征提取模块和时间特征提取模块构建多模态异常检测模型;通过训练集对多模态异常检测模型进行训练及参数优化,得到目标网络;将测试集输入到目标网络中,通过目标网络进行多模态异常检测。本申请提供的方法,在实验数据集上有着明显的优势,适用于多模态异常检测的工作。
Description
技术领域
本申请涉及一种基于图注意力网络和时间卷积网络的多模态异常检测方法,属于多模态数据异常检测技术领域。
背景技术
近年来,随着工业领域迎来了大数据时代,制造业工厂也渐渐地扩大。为了提升生产设备的安全性、可靠性、可维护性,工厂通常对设备安装各类传感器来实时监测设备生产数据。这些传感器记录着大量有关工业机械性能和功能的关键数据。在早期,传感器通常只是收集单一模态的数据,在需要对生产过程进行实时监测的情况下,通常采用人工排查的方式进行检测,这样会消耗大量的人力物力,并且长时间的观察会导致视觉疲劳,从而大大降低的检测的效率。而随着工业制造规模越来越大,由传感器收集到的工业过程数据更多的是按照时间序列(Time Seriers)的形式呈现出来,例如设备的振动频率、设备温度等,这些时序数据中包含着大量的有效数据以及偶尔出现的异常数据,这也为人们更加方便的在时间尺度上检测设备性能的好坏。
但是随着生产设备越来越精密,这些收集到的单模态时序数据扩展到了多模态时序数据。多模态数据狭义上是指不同存在形式或信息来源的数据的组合,例如文本、图片、视频、音频等混合数据。广义上是指对同一个描述对象,通过不同领域或者视角获取到的数据,并且把这些数据的每一个领域或视角叫做一个模态。这些多模态时序数据使工业流程中出现的异常数据愈加难以检测,而传统的单模态异常检测方法受到了巨大的局限性,对于单模态异常检测方法而言,数据维度、模态的增加使其忽略了其中最关键的关联信息。其次,随着数据模态、维度的增加,及时地对数据进行检测,并对设备异常做出预警,也是提高工业设备安全性和高效性的关键。因此,对生产过程中传感器所产生的多模态多维度时序数据进行异常检测具有非常重要的意义。
异常检测(Anomaly detection)旨在检测与大多数数据实例明显不同的过程,其在数据挖掘、计算机视觉和机器学习等各个领域发挥着巨大的作用。随着深度学习在学习复杂数据(如高维数据、时序数据、图像数据和视频数据等)表征方面得到了广泛的应用,其在异常检测中的应用也得到了广泛的认可。基于深度学习的异常检测方法,旨在通过神经网络学习特征表示或异常分数,以便进行异常检测。在解决各种现实应用中具有挑战性的检测问题方面(如卫星图像分析、医疗状况监控、工业故障诊断),基于深度学习的异常检测方法明显比常规的异常检测方法具有更好的性能。Dan等人提出了使用三个自动编码器网络进行独立训练,分别对视频数据相应的外观、运动以及外观-运动的联合表示进行低维特征提取,然后分别使用三个一类支持向量机组成的集合在这些学习的特征表示中的每一个上独立地进行训练以完成异常评分,但是该方法的特征提取和异常评分完全分离,导致异常检测效果不佳。M Hasan等人提出了一种CNN-AE,它通过局部时空特征来学习全连接的自动编码器,再构建一个完全卷积前馈自动编码器来学习局部特征和分类器。Kaize等人提出了GCN-AE,该方法利用图卷积网络对图结构和节点属性进行建模,再利用GCN和AE相结合通过图结构和属性的重构误差来实现异常检测。这两个方法虽然可以通过不同结构的神经网络检测出高维数据中的异常值,但是它们通过数据压缩所得到的表示只是对潜在规律的一般概括,这些规律对于检测不规律性没有优化。Schlegl T等人第一次提出了一种基于生成对抗网络的异常检测方法(AnoGAN),它旨在通过学习生成对抗网络的潜在特征空间G,使得潜在空间能够很好地捕捉给定数据集的正态性,然后将真实数据和生成数据之间的某种形式的残差定义为异常分数。Houssam等人提出了一种EBGAN,它是建立在双向生成对抗网络(BiGAN)的基础上。BiGAN是将编码器和解码器分开训练,再通过一个判别器将编码器和解码器的输入输出(X和Z)同时输入判别器,当判别器分不清输入的数据是来自编码器还是解码器时,就证明编码器的输入和解码器的输出很接近。而EBGAN在BiGAN基础上改变了判别器的结构,EBGAN将判别器D改成一个自动编码器AE的结构,判别器不需要是判断输入数据的真实性,而是将数据重构回去,然后根据重构的损失或误差进行评分。但是这种基于生成对抗网络的异常评分可能是次优的,它们更多的是为了生成数据而不是异常检测。
多模态数据通常包含多种相互关联的信息,合理的利用这些信息进行特征提取,可以充分地获得每个模态的优点。多模态异常检测相比于传统的单模态异常检测可以提取到更多特征,并且可以对这些特征进行整合或更有效的信息提取。因此,多模态的异常检测具有更好的效果,并且更加符合现实世界的需求。薛其威等人提出了一种基于多模态特征融合的车辆检测方法。该算法对摄像机和毫米波雷达两种模态进行融合,构造了多模态特征融合模块来提取出重要的特征,最终在复杂道路上对车辆进行检测。M Li等人针对工厂中表面组装技术(SMT)过程中,锡膏印刷的缺陷问题提出了一种多模态数据的异常检测模型MM-DNN,该模型对SMT的尺寸和图像两种模态的数据分别使用多层感知器(MLP)和神经网络(CNN)提取出预测特征和相关联特征,再使用多模态特征融合方法Soft-HGR将两种相关联特征进行融合,最后将其与预测特征串联起来送入两层MLP进行预测。这类多模态异常检测方法没有直接地考虑不同模态之间的相关特征,而是将不同模态中提取出的特征进行特征融合,而在特征融合的过程中会导致深层的关键特征消失。
由于各个模态并不完全是独立的,因此,提取各个模态之间的相关特征是多模态异常检测的重中之重。但对于工业制造领域中的工业大数据来说是一件极其复杂的事情,因此,一个具有良好的多模态特征提取的异常检测模型能够极大地提高异常检测的效率和准确率。
发明内容
本申请的目的在于提供一种基于图注意力网络和时间卷积网络的多模态异常检测方法,针对多模态异常检测需要考虑各个模态的复杂相关性这一问题,克服现有技术的不足,使用图注意力网络、多头注意力机制、生成对抗网络和时间卷积网络等技术,充分考虑多模态时间序列数据的时空相关性,能够更精准的完成对多模态时序数据的异常检测任务。
为实现上述目的,本申请第一方面提供了一种基于图注意力网络和时间卷积网络的多模态异常检测方法,包括:
基于若干传感器获取多模态数据集,对所述多模态数据集进行预处理,并将预处理后的所述多模态数据集划分为训练集和测试集;
基于图注意力网络和多头注意力机制构造用于提取空间相关特征的空间特征提取模块,基于时间卷积生成对抗网络构造时间特征提取模块,根据所述空间特征提取模块和所述时间特征提取模块构建多模态异常检测模型,其中,所述空间特征提取模块包括全局关系注意力模块、模态内关系注意力模块和模态间关系注意力模块,所述时间特征提取模块包括时间卷积网络结构的生成器和判别器;
通过所述训练集对所述多模态异常检测模型进行训练及参数优化,得到目标网络;
将测试集输入到所述目标网络中,通过所述目标网络进行多模态异常检测。
在一种实施方式中,所述对所述多模态数据集进行预处理包括:
对所述多模态数据集进行最大最小值归一化处理;
对最大最小值归一化处理后的所述多模态数据集进行显著化处理。
在一种实施方式中,所述将预处理后的所述多模态数据集划分为训练集和测试集包括:
根据所述显著化处理的结果得到所述多模态数据集中异常样本与正常样本的比例;
根据所述比例将所述多模态数据集划分为训练集和测试集。
在一种实施方式中,所述基于图注意力网络和多头注意力机制构造用于提取空间相关特征的空间特征提取模块包括:
通过时间嵌入向量对每个传感器所对应的特征进行表示;
根据所述时间嵌入向量计算出每个传感器与它对应的依赖候选集中所有传感器的第一余弦相似度值,并根据所述第一余弦相似度值构造出全局邻接矩阵;
构造出每个传感器的模态间依赖候选集和模态内依赖候选集,根据所述时间嵌入向量计算出每个传感器与它对应的模态间依赖候选集中所有传感器的第二余弦相似度值、以及每个传感器与它对应的模态内依赖候选集中所有传感器的第三余弦相似度值,并分别根据所述第二余弦相似度值和所述第三余弦相似度值构造出模态间邻接矩阵和模态内邻接矩阵;
根据所述全局邻接矩阵、所述模态间邻接矩阵和所述模态内邻接矩阵得到所述空间特征提取模块。
在一种实施方式中,所述根据所述全局邻接矩阵、所述模态间邻接矩阵和所述模态内邻接矩阵得到所述空间特征提取模块包括:
分别根据所述全局邻接矩阵、所述模态间邻接矩阵和所述模态内邻接矩阵得到所述全局关系注意力模块、所述模态内关系注意力模块和所述模态间关系注意力模块的特征表示;
将各所述特征表示进行拼接,得到最终的空间相关特征表示作为所述空间特征提取模块。
在一种实施方式中,所述时间特征提取模块具体用于:
将所述空间特征提取模块提取的空间相关特征输入至时间卷积网络结构的判别器中,得到第一数值;
将潜在空间的随机向量输入到时间卷积网络结构的生成器中,获得生成的空间相关特征,作为生成样本;
将所述生成样本输入到所述时间卷积网络结构的判别器中,得到第二数值,根据所述第一数值和第二数值判断相应的空间相关特征是否为真实样本,其中,所述第一数值和所述第二数值的数值范围均为0-1。
在一种实施方式中,所述通过所述训练集对所述多模态异常检测模型进行训练及参数优化包括:
通过极大极小博弈对所述多模态异常检测模型进行训练及参数优化,得到目标网络。
在一种实施方式中,所述通过所述目标网络进行多模态异常检测包括:
通过所述生成器计算测试集的重建损失;
通过所述判别器计算测试集的判别损失;
根据所述重建损失和所述判别损失构建判别和重建联合的异常评分函数;
根据所述异常评分函数判断所述测试集是否为异常。
本申请第二方面提供了一种电子设备,包括:存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。
本申请第三方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。
由上可见,本申请提供了一种基于图注意力网络和时间卷积网络的多模态异常检测方法,基于图注意力网络和时间卷积生成对抗网络构造了空间相关特征提取模块和时间相关特征提取模块;利用图注意力网络将传感器数据以图结构的方式进行了学习;利用多头注意力机制构造了三个关系注意力模块,分别为全局关系注意力模块、模态内关系注意力模块和模态间关系注意力模块,以保证了充分提取出多模态数据中各个模态的空间相关特征。此外,采用了无监督学习中常见的生成对抗网络框架,使用时间卷积网络作为生成器和判别器,既可以在没有标签的数据集上完成无监督训练,也使其能够充分提取出时序数据最原始的时间相关特征,更好地识别异常。本申请所提供的方法的效果在实验数据集上有着明显的优势,适用于多模态异常检测的工作。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种多模态异常检测方法的流程示意图;
图2为本申请实施例提供的一种空间特征提取模块示意图;
图3为本申请实施例提供的一种多模态数据时间嵌入结构示意图;
图4为本申请实施例提供的一种时间特征提取模块示意图;
图5为本申请实施例提供的一种多模态异常检测过程示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
实施例一
本申请实施例提供了一种基于图注意力网络和时间卷积网络的多模态异常检测方法,如图1所示,该多模态异常检测方法包括:
S100基于若干传感器获取多模态数据集,对所述多模态数据集进行预处理,并将预处理后的所述多模态数据集划分为训练集和测试集;
在一种实施方式中,通过若干数量或种类的传感器对工业过程中产生的多模态数据进行采集并将其作为数据样本,以得到所述多模态数据集,其中,数据样本为时序数据(即以时间序列的形式呈现的数据),且数据样本中包括大量的有效数据以及部分的异常数据。
可选的,所述对所述多模态数据集进行预处理包括:
S110对所述多模态数据集进行最大最小值归一化处理,计算公式如下:
其中,x为时序数据,max(Xtrain)和min(Xtrain)分别代表多模态数据集中的最大值和最小值,通过使用最大最小值归一化方法对多模态数据集进行预处理,可以提高多模态数据集的精度,同时提升后续训练过程中求得最优解的速度。
S120对最大最小值归一化处理后的所述多模态数据集进行显著化处理,计算公式如下:
A(f)=Amplitude(F(x))
P(f)=Phrase(F(x))
L(f)=log(A(f))
AL(f)=hn(f)·L(f)
R(f)=L(f)-AL(f)
S(x)=||F-1(exp(R(f)+iP(f)))||
其中,A(f)是振幅谱,P(f)是相位谱,F(x)表示对时序数据x进行傅里叶变换,hn(f)是局部均值滤波器,R(f)为谱残差,S(x)为显著图,通过使用光谱残差算法对步骤S110中得到的多模态数据集进行显著化处理,可以使多模态数据集中的异常变得更加的明显。
可选的,所述将预处理后的所述多模态数据集划分为训练集和测试集包括:
根据所述显著化处理的结果得到所述多模态数据集中不同模态数据集的异常样本与正常样本的比例,根据所述比例将所述多模态数据集划分为训练集和测试集。
S200基于图注意力网络和多头注意力机制构造用于提取空间相关特征的空间特征提取模块,基于时间卷积生成对抗网络构造时间特征提取模块,根据所述空间特征提取模块和所述时间特征提取模块构建多模态异常检测模型,其中,所述空间特征提取模块包括全局关系注意力模块、模态内关系注意力模块和模态间关系注意力模块,所述时间特征提取模块包括时间卷积网络结构的生成器和判别器;
可选的,如图2-3所示,所述基于图注意力网络和多头注意力机制构造用于提取空间相关特征的空间特征提取模块包括:
S210通过时间嵌入向量对每个传感器所对应的特征进行表示;
具体的,对于每个传感器对应的单变量时间序列引入一个时间嵌入向量 来表示相应特征。
S220根据所述时间嵌入向量计算出每个传感器与它对应的依赖候选集中所有传感器的第一余弦相似度值,并根据所述第一余弦相似度值构造出全局邻接矩阵;
具体的,根据步骤S210中得到的时间嵌入向量,在候选集中选出与传感器i相互依赖的其它传感器,其中,候选集/>是包含除了自身以外的所有节点,即/> 本实施例选择计算两个传感器对应的时序嵌入向量之间余弦相似度作为所述第一余弦相似度值,余弦相似度计算公式如下:
其中,eij表示传感器i和传感器j对应的时间序列嵌入向量之间的相似度。
根据所述第一余弦相似度值从大到小进行排序,并选取出前K个相似度值,其中,该K值可以根据经验和实际需要确定,通过K值可以有效地控制邻接矩阵Aall(即全局邻接矩阵)的稀疏度。邻接矩阵Aall表示为:
S230构造出每个传感器的模态间依赖候选集和模态内依赖候选集,根据所述时间嵌入向量计算出每个传感器与它对应的模态间依赖候选集中所有传感器的第二余弦相似度值、以及每个传感器与它对应的模态内依赖候选集中所有传感器的第三余弦相似度值,并分别根据所述第二余弦相似度值和所述第三余弦相似度值构造出模态间邻接矩阵和模态内邻接矩阵;
具体的,对每个传感器i,选择其模态内的依赖候选集和模态间的依赖候选集/>其中,/>包含了与节点i所属模态相同的节点,/>包含了与节点i所属模态不同的节点。然后通过与步骤S220中相同的余弦相似度计算公式得到第二余弦相似度值和第三余弦相似度值,此处不再赘述。
进一步的,分别将第二余弦相似度值和第三余弦相似度值从大到小进行排序,并选取出前K个相似度值。再次构造出两个邻接矩阵:模态间邻接矩阵和模态内邻接矩阵,分别表示为:
S240根据所述全局邻接矩阵、所述模态间邻接矩阵和所述模态内邻接矩阵得到所述空间特征提取模块,具体包括以下步骤:
S241分别根据所述全局邻接矩阵、所述模态间邻接矩阵和所述模态内邻接矩阵得到所述全局关系注意力模块、所述模态内关系注意力模块和所述模态间关系注意力模块的特征表示;
具体的,全局关系注意力模块的初始输入为H0=(XtWin)∥V, 表示在t时刻的输入,本实施例通过多头注意力机制聚合其邻居节点来更新每个节点的特征表示,公式如下:
其中,是第j个节点在第l层的表示,/>是l+1层中第i个节点的特征,S表示多头注意力机制中头的数量,||表示拼接操作,/>表示第l层的第s个注意力头的权重矩阵,/>是由学习到的邻接矩阵Aall得到的节点i的邻接节点集合。
表示由节点i和节点j在第l层的第s个注意力头处之间的注意力系数,其计算公式如下:
其中,表示连接操作,gi表示将传感器嵌入vi和对应的变换特征连接起来,a表示注意力机制的学习系数向量,LeakyReLU(·)是非线性激活函数。
同样的计算模态内和模态间的关系注意力模块的特征表示,公式如下:
其中,和/>是节点i在l+1层的特征,/>和/>是节点i的模态内和模态间的邻居节点,/>和/>是节点i和节点j之间第l层的注意力分数,/>是节点j在l层的特征表示。
S242将各所述特征表示进行拼接,得到最终的空间相关特征表示作为所述空间特征提取模块。
具体的,将步骤S241中得到的三种特征表示和/>进行拼接操作,得到最终的l+1层空间相关特征表示/>其计算公式如下:
其中,表示第l+1层的权重矩阵,/>表示第l+1层的偏置向量。
本实施例利用图注意力网络将传感器数据以图结构的方式进行了学习,利用多头注意力机制构造了三个关系注意力模块,分别为全局关系注意力模块、模态内关系注意力模块和模态间关系注意力模块,以分别提取三种不同的空间相关特征:全局空间相关性、模态内相关性和模态间相关性,保证了充分提取出多模态数据中各个模态的空间相关特征。
可选的,如图4所示,所述基于时间卷积生成对抗网络构造时间特征提取模块包括:
基于时间卷积生成对抗网络得到时间卷积网络结构的生成器和判别器,并将该时间卷积网络结构的生成器和判别器作为多模态异常检测模型的生成器和判别器,以使多模态异常检测模型能够充分提取出时序数据最原始的时间相关特征,进而判断出输入的待检测样本是真实样本还是生成的虚假样本,在一种实施方式中,述时间特征提取模块具体用于:
S250将所述空间特征提取模块提取的空间相关特征输入至时间卷积网络结构的判别器中,得到第一数值;
具体的,将步骤S242中最终得到的空间相关特征表示输入到时间卷积网络结构的判别器中,得到一个0-1之间的数值;
根据步骤S242中得到的l+1层空间相关特征表示得到最终的图级别输入HL,将HL输入到判别器中,即可得到第一数值,判别器的计算公式如下:
p=sigmoid(Φ*(ReLU(Hl)))
其中,Φ是内核大小,*是卷积操作,0<p<1。当判别器输出的值越接近1时,代表相应的输入样本为真实样本;反之,则是生成样本。
S260将潜在空间的随机向量输入到时间卷积网络结构的生成器中,获得生成的空间相关特征,作为生成样本;
具体的,从潜在空间中选出随机向量Z作为输入,输入到以时间卷积网络为结构的生成器中,其中Z=(z1,z2,...,zT),输出为虚假样本值,计算公式如下:
Zl+1=ReLU(Φ*(ReLU(Zl)))
S270将所述生成样本输入到所述时间卷积网络结构的判别器中,得到第二数值,根据所述第一数值和第二数值判断相应的空间相关特征是否为真实样本,其中,所述第一数值和所述第二数值的数值范围均为0-1。
具体的,将步骤S260中生成器生成的样本输入到时间卷积网络结构的判别器中,判别器接收生成样本并对其进行判别,得到一个0-1之间的数值,作为第二数值,其具体计算公式与步骤S250中相同,此处不做赘述。
S300通过所述训练集对所述多模态异常检测模型进行训练及参数优化,得到目标网络;
可选的,基于所述训练集,通过极大极小博弈对所述多模态异常检测模型进行训练及参数优化,得到目标网络,目标网络函数的计算过程如下:
其目的是让生成器和判别器相互对抗,判别器D希望最大化目标函数使得D(H)接近于1(真实样本),D(G(z))接近于0(生成样本);生成器G希望最小化目标函数使得D(G(z))接近于1,D(H)接近于0,本实施例通过采用无监督学习的生成对抗网络结构,将时间卷积网络作为生成器和判别器,这样既可以在没有标签的数据集上完成无监督训练,也可以保证了时序数据最原始的时间相关特征。
S400将测试集输入到所述目标网络中,通过所述目标网络进行多模态异常检测。
可选的,如图5所示,所述通过所述目标网络进行多模态异常检测包括:
S410通过所述生成器计算测试集的重建损失;
具体的,在潜在空间中,找到一个最优的随机向量Zk,使得Xtest与Zk之间的损失最小。计算公式如下:
此时得到的Zk被记录为测试集中测试样本的潜在空间中的对应映射,则测试样本在t时刻的重建损失计算公式如下:
其中,表示在t时刻N个变量的测量值。
S420通过所述判别器计算测试集的判别损失,测试样本在t时刻的判别损失计算公式如下:
S430根据所述重建损失和所述判别损失构建判别和重建联合的异常评分函数,以便更好地识别异常,其计算公式如下:
S440根据所述异常评分函数得到异常评分,进而判断评判测试样本是否为异常。
由上可见,本申请实施例提供了一种基于图注意力网络和时间卷积网络的多模态异常检测方法,基于图注意力网络和时间卷积生成对抗网络构造了空间相关特征提取模块和时间相关特征提取模块;利用图注意力网络将传感器数据以图结构的方式进行了学习;利用多头注意力机制构造了三个关系注意力模块,分别为全局关系注意力模块、模态内关系注意力模块和模态间关系注意力模块,以保证了充分提取出多模态数据中各个模态的空间相关特征。此外,采用了无监督学习中常见的生成对抗网络框架,使用时间卷积网络作为生成器和判别器,既可以在没有标签的数据集上完成无监督训练,也使其能够充分提取出时序数据最原始的时间相关特征,更好地识别异常。本申请实施例提供方法的效果在实验数据集上有着明显的优势,适用于多模态异常检测的工作。
实施例二
本申请实施例提供了一种电子设备,该电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,其中,存储器用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器和处理器通过总线连接。具体地,处理器通过运行存储在存储器的上述计算机程序时实现上述实施例一中的任一步骤。
应当理解,在本申请实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器、快闪存储器和随机存储器,并向处理器提供指令和数据。存储器的一部分或全部还可以包括非易失性随机存取存储器。
由上可见,本申请实施例提供的电子设备通过运行计算机程序实现如实施例一所述的基于图注意力网络和时间卷积网络的多模态异常检测方法,基于图注意力网络和时间卷积生成对抗网络构造了空间相关特征提取模块和时间相关特征提取模块;利用图注意力网络将传感器数据以图结构的方式进行了学习;利用多头注意力机制构造了三个关系注意力模块,分别为全局关系注意力模块、模态内关系注意力模块和模态间关系注意力模块,以保证了充分提取出多模态数据中各个模态的空间相关特征。此外,采用了无监督学习中常见的生成对抗网络框架,使用时间卷积网络作为生成器和判别器,既可以在没有标签的数据集上完成无监督训练,也使其能够充分提取出时序数据最原始的时间相关特征,更好地识别异常。
应当理解,上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于以计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例所提供的方法及其细节举例可结合至实施例提供的装置和设备中,相互参照,不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于图注意力网络和时间卷积网络的多模态异常检测方法,其特征在于,包括:
基于若干传感器获取多模态数据集,对所述多模态数据集进行预处理,并将预处理后的所述多模态数据集划分为训练集和测试集;
基于图注意力网络和多头注意力机制构造用于提取空间相关特征的空间特征提取模块,基于时间卷积生成对抗网络构造时间特征提取模块,根据所述空间特征提取模块和所述时间特征提取模块构建多模态异常检测模型,其中,所述空间特征提取模块包括全局关系注意力模块、模态内关系注意力模块和模态间关系注意力模块,所述时间特征提取模块包括时间卷积网络结构的生成器和判别器;
通过所述训练集对所述多模态异常检测模型进行训练及参数优化,得到目标网络;
将测试集输入到所述目标网络中,通过所述目标网络进行多模态异常检测。
2.如权利要求1所述的多模态异常检测方法,其特征在于,所述对所述多模态数据集进行预处理包括:
对所述多模态数据集进行最大最小值归一化处理;
对最大最小值归一化处理后的所述多模态数据集进行显著化处理。
3.如权利要求2所述的基于图注意力网络和时间卷积网络的多模态异常检测方法,其特征在于,所述将预处理后的所述多模态数据集划分为训练集和测试集包括:
根据所述显著化处理的结果得到所述多模态数据集中异常样本与正常样本的比例;
根据所述比例将所述多模态数据集划分为训练集和测试集。
4.如权利要求1所述的多模态异常检测方法,其特征在于,所述基于图注意力网络和多头注意力机制构造用于提取空间相关特征的空间特征提取模块包括:
通过时间嵌入向量对每个传感器所对应的特征进行表示;
根据所述时间嵌入向量计算出每个传感器与它对应的依赖候选集中所有传感器的第一余弦相似度值,并根据所述第一余弦相似度值构造出全局邻接矩阵;
构造出每个传感器的模态间依赖候选集和模态内依赖候选集,根据所述时间嵌入向量计算出每个传感器与它对应的模态间依赖候选集中所有传感器的第二余弦相似度值、以及每个传感器与它对应的模态内依赖候选集中所有传感器的第三余弦相似度值,并分别根据所述第二余弦相似度值和所述第三余弦相似度值构造出模态间邻接矩阵和模态内邻接矩阵;
根据所述全局邻接矩阵、所述模态间邻接矩阵和所述模态内邻接矩阵得到所述空间特征提取模块。
5.如权利要求4所述的多模态异常检测方法,其特征在于,所述根据所述全局邻接矩阵、所述模态间邻接矩阵和所述模态内邻接矩阵得到所述空间特征提取模块包括:
分别根据所述全局邻接矩阵、所述模态间邻接矩阵和所述模态内邻接矩阵得到所述全局关系注意力模块、所述模态内关系注意力模块和所述模态间关系注意力模块的特征表示;
将各所述特征表示进行拼接,得到最终的空间相关特征表示作为所述空间特征提取模块。
6.如权利要求1所述的多模态异常检测方法,其特征在于,所述时间特征提取模块具体用于:
将所述空间特征提取模块提取的空间相关特征输入至时间卷积网络结构的判别器中,得到第一数值;
将潜在空间的随机向量输入到时间卷积网络结构的生成器中,获得生成的空间相关特征,作为生成样本;
将所述生成样本输入到所述时间卷积网络结构的判别器中,得到第二数值,根据所述第一数值和第二数值判断相应的空间相关特征是否为真实样本,其中,所述第一数值和所述第二数值的数值范围均为0-1。
7.如权利要求1所述的多模态异常检测方法,其特征在于,所述通过所述训练集对所述多模态异常检测模型进行训练及参数优化包括:
通过极大极小博弈对所述多模态异常检测模型进行训练及参数优化,得到目标网络。
8.如权利要求1所述的多模态异常检测方法,其特征在于,所述通过所述目标网络进行多模态异常检测包括:
通过所述生成器计算测试集的重建损失;
通过所述判别器计算测试集的判别损失;
根据所述重建损失和所述判别损失构建判别和重建联合的异常评分函数;
根据所述异常评分函数判断所述测试集是否为异常。
9.一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310555050.5A CN116701992A (zh) | 2023-05-17 | 2023-05-17 | 基于图注意力网络和时间卷积网络的多模态异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310555050.5A CN116701992A (zh) | 2023-05-17 | 2023-05-17 | 基于图注意力网络和时间卷积网络的多模态异常检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116701992A true CN116701992A (zh) | 2023-09-05 |
Family
ID=87836543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310555050.5A Pending CN116701992A (zh) | 2023-05-17 | 2023-05-17 | 基于图注意力网络和时间卷积网络的多模态异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701992A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033981A (zh) * | 2023-10-07 | 2023-11-10 | 广东电网有限责任公司阳江供电局 | 一种海缆故障检测方法、装置、设备和介质 |
CN117057929A (zh) * | 2023-10-11 | 2023-11-14 | 中邮消费金融有限公司 | 异常用户行为检测方法、装置、设备及存储介质 |
-
2023
- 2023-05-17 CN CN202310555050.5A patent/CN116701992A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033981A (zh) * | 2023-10-07 | 2023-11-10 | 广东电网有限责任公司阳江供电局 | 一种海缆故障检测方法、装置、设备和介质 |
CN117033981B (zh) * | 2023-10-07 | 2024-02-09 | 广东电网有限责任公司阳江供电局 | 一种海缆故障检测方法、装置、设备和介质 |
CN117057929A (zh) * | 2023-10-11 | 2023-11-14 | 中邮消费金融有限公司 | 异常用户行为检测方法、装置、设备及存储介质 |
CN117057929B (zh) * | 2023-10-11 | 2024-01-26 | 中邮消费金融有限公司 | 异常用户行为检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tang et al. | Convolutional neural network‐based data anomaly detection method using multiple information for structural health monitoring | |
US11714397B2 (en) | System and method for generating machine learning model with trace data | |
CN116701992A (zh) | 基于图注意力网络和时间卷积网络的多模态异常检测方法 | |
US11715190B2 (en) | Inspection system, image discrimination system, discrimination system, discriminator generation system, and learning data generation device | |
CN109491338B (zh) | 一种基于稀疏gmm的多模过程质量相关的故障诊断方法 | |
Zhang et al. | Triplet metric driven multi-head GNN augmented with decoupling adversarial learning for intelligent fault diagnosis of machines under varying working condition | |
Escobar et al. | Machine learning and pattern recognition techniques for information extraction to improve production control and design decisions | |
CN109871002B (zh) | 基于张量标签学习的并发异常状态识别与定位系统 | |
Jiang | A machine vision anomaly detection system to industry 4.0 based on variational fuzzy autoencoder | |
Goldman et al. | Explaining learning models in manufacturing processes | |
CN116994044A (zh) | 一种基于掩码多模态生成对抗网络的图像异常检测模型的构建方法 | |
CN116610998A (zh) | 一种基于多模态数据融合的开关柜故障诊断方法和系统 | |
Zhang et al. | Attention-based interpretable prototypical network towards small-sample damage identification using ultrasonic guided waves | |
Huang et al. | Attention-augmented recalibrated and compensatory network for machine remaining useful life prediction | |
Sun et al. | A continual learning framework for adaptive defect classification and inspection | |
US20230260259A1 (en) | Method and device for training a neural network | |
CN117034099A (zh) | 一种系统日志异常检测方法 | |
Wang et al. | A denoising semi-supervised deep learning model for remaining useful life prediction of turbofan engine degradation | |
Zhang et al. | A Flexible Monitoring Framework via Dynamic-Multilayer Graph Convolution Network | |
EP4086811A1 (en) | Problematic behavior classification system and method based on deep neural network algorithm | |
Liu et al. | Component detection for power line inspection using a graph-based relation guiding network | |
Upadhyay et al. | Artificial intelligence application to D and D—20492 | |
DE102020215191A1 (de) | Detektion anomaler bewegungsabläufe repetitiver menschlicher aktivitäten | |
Monaco et al. | Simulation of waves propagation into composites thin shells by FEM methodologies for training of deep neural networks aimed at damage reconstruction | |
CN110728310A (zh) | 一种基于超参数优化的目标检测模型融合方法及融合系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |