CN113240011B - 一种深度学习驱动的异常识别与修复方法及智能化系统 - Google Patents

一种深度学习驱动的异常识别与修复方法及智能化系统 Download PDF

Info

Publication number
CN113240011B
CN113240011B CN202110528781.1A CN202110528781A CN113240011B CN 113240011 B CN113240011 B CN 113240011B CN 202110528781 A CN202110528781 A CN 202110528781A CN 113240011 B CN113240011 B CN 113240011B
Authority
CN
China
Prior art keywords
data
abnormal
distribution
repair
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110528781.1A
Other languages
English (en)
Other versions
CN113240011A (zh
Inventor
于瑞强
郇长武
宋晓霞
杜星学
李锐
徐国智
董仁玮
赵轩臣
孙汉福
刘效强
赵勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YANTAI HAIYI SOFTWARE CO Ltd
Original Assignee
YANTAI HAIYI SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YANTAI HAIYI SOFTWARE CO Ltd filed Critical YANTAI HAIYI SOFTWARE CO Ltd
Priority to CN202110528781.1A priority Critical patent/CN113240011B/zh
Publication of CN113240011A publication Critical patent/CN113240011A/zh
Application granted granted Critical
Publication of CN113240011B publication Critical patent/CN113240011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及数据处理领域,具体涉及一种深度学习驱动的异常识别与修复方法及智能化系统。包括以下步骤:S1:数据结构识别,S2:数据特征变换,S3:训练异常检测和修复神经网络,S4:异常数据识别与异常修复,S5:数据特征还原。采用深度学习方法,对每个特征使用双分量混合模型,其中一个分量用于解释干净单元(即正常值),另一个分量用于解释异常单元(即异常值);通过降低异常单元的影响来模拟潜在的正常数据分布,为数据单元提供异常值分数和对单元修复的估计;将变分自编码器和生成对抗网络两个深度生成模型进行结合,有利于生成更好的修复结果;最终实现利用无监督学习方式对混合属性数据进行cell‑level(单元级别)的异常识别及修复。

Description

一种深度学习驱动的异常识别与修复方法及智能化系统
技术领域
本发明涉及数据处理领域,具体涉及一种深度学习驱动的异常识别与修复方法及智能化系统。
背景技术
随着大数据时代的到来,在如何有效充分地利用海量数据进行数据挖掘和利用、并发挥数据潜在价值的问题中,数值治理发挥着巨大的作用。数据治理有助于提高数据质量,增强数据的可用性,保证数据的规范性、一致性和完整性。另外,实际数据中,异常数据是普遍存在且无规律可言的。这些异常数据导致在开展数据分析、运用数据决策时存在较大的阻碍甚至是风险,严重影响了数据价值的发挥,增加了数据治理的难度。而传统上异常数据的识别往往是基于领域经验总结成的规则开展的,普遍存在规则无法满足异常识别要求的问题;而对于数据修复,更是只有依靠简单粗暴的经验值设定、或者由人工逐条干预修订。这远远无法满足大数据时代下海量数据的高性能、高效率、高价值应用的需求。
异常识别在生产中应用广泛,采用的技术主要有基于规则处理、基于统计学处理和基于机器学习处理,在机器学习处理方法中,根据数据的标签情况,又分为有监督、半监督和无监督三种情况。
基于规则的方法需要通过设计算法自动提取或专家手工制定来获取规则,然后判断行为是否和异常规则相似,这种方法缺点是耗时较长、受限于专家知识、规则库需要经常更新等。3σ准则、箱型图、Grubbs检验和时间序列建模等基于统计学的方法虽然对低维数据友好,但是对假设依赖比较严重。
使用机器学习进行异常识别的方法包括基于统计分布、基于距离、基于密度、基于聚类和基于树的无监督方法;one-class SVM、支持向量数据描述(Support Vector DataDescription,SVDD)、高斯混合模型(Gaussian Mixture Model,GMM)和自编码器(AutoEncoder,AE)等半监督方法,但是需要标注正常数据;有监督方法如逻辑回归(Logistic Regression,LR)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)和神经网络(Neural Network,NN)等,但是需要解决数据标注问题,且要注意类别不均衡现象,不适用于识别新类别。
目前基于深度学习的异常识别大致分为有监督的深度异常识别、半监督的深度异常识别、One-class神经网络(One-class neural networks,OC-NN)、混合深度异常识别和无监督的深度异常识别。其中在无监督模型中,变分自编码器(VariationalAutoencoders,VAE)和生成对抗网络(Generative Adversarial Networks,GAN)作为强大的深度生成模型,用于异常识别主要是通过网络学习正常数据的分布,然后通过判断生成的结果与原始输入数据的差异,差异较大的为异常来实现。而相关深度学习方法存在的问题包括:(1)所采用的基于变分自编码器的生成网络在训练过程中无法自动识别潜在的离群值来提高鲁棒性,(2)GAN训练过程中的鲁棒性、可靠性有待进一步加强。
而异常数据的修复问题一直是一个难题,目前鲜见自动化修复方法。
根据异常识别与修复任务的实际需求以及对现有相关技术的分析,发现需要解决的问题主要包括:
异常识别中标记数据难以获取,标记缺失的问题。无论是在传统机器学习还是深度学习中,最为成熟、可靠、可信性最高的往往是有监督算法,而有监督算法都需要对数据进行明确的标记。也就是说,如果希望有监督学习算法高效的识别异常数据,前提就是需要对训练数据进行明确的标注哪些是正常的、哪些是异常的、属于什么异常等。但是在数据量巨大的情况下进行标注是明显不现实的。本方案针对该问题进行需要研究在无标注的情况下,使用无监督的方法进行异常识别。
混合属性数据的异常检测问题。对于机器学习而言,单纯的分类型数据可以通过基于frequent pattern的算法处理,而单纯的数值型数据则有基于密度、距离、分布、划分等多种算法来识别异常数据。但对于混合型数据,分类型或者数值型的算法均无法奏效,而这种数据却又是最常见的,因此本方案需要研究基于混合属性数据的异常学习解决方案,以解决混合属性数据的异常识别问题,提高数据治理的智能化水平。
以往大多数方法只是检测到了数据集中哪些行是异常值,而没有细分到哪些单元格是异常的,这意味着通常很难正确地修复异常单元,例如列数很多的情况下。本方案针对该问题需研究细粒度(cell-level)的异常识别和修复方法。
异常数据的恢复一直是一个难题,尤其是对于混合属性的异常数据修复更是很少有好的解决方法。传统的大多数方法只是对数据中的异常值进行了识别,而数据的修复需要人员进行手工修复。然而在海量数据的处理中手工修复工作量过于巨大,因此必须考虑自动化手段实现异常数据的智能修复。事实上在数据治理领域,鲜见基于无监督人工智能算法实现智能的异常数据修复。本方案针对该问题需在异常识别的基础上,给出合理的修复建议。
发明内容
针对现有技术存在的问题,本发明的目的在于:提供一种可用于结构化混合属性数据异常检测与修复的RV-GNet深度学习网络,结合了变分自编码器(VariationalAutoencoder,VAE)和生成对抗网络(Generative Adversarial Networks,GAN)两种深度生成模型,通过结合两者的优点使得在生成结果合理的前提下做到模型的稳定与输出结果质量上的保证。
结合数据特点对VAE进行了鲁棒性改进并调整相关损失函数。对每个特征使用双分量混合模型,其中一个分量用于解释干净单元(即正常值),另一个分量用于解释异常单元(即异常值);通过降低异常单元的影响来模拟潜在的正常数据分布,为数据单元提供异常值分数和对单元修复的估计。从而有效地提升了模型的抗干扰能力和数据生成效果。
利用无监督深度学习网络实现结构化混合属性数据的cell-level异常检测并实现数据的修复。不仅仅可以应用于数据治理领域,也可以用于涉及纯分类型、纯数值型、以及混合型数据各种业务的异常数据识别和修复。
为达到上述目的,本发明采取的技术方案是:一种深度学习驱动的异常识别与修复方法,包括以下步骤:
S1:数据结构识别,对输入数据的属性类型进行识别和标记,基于一个列表,描述数据集的所有属性以及每个属性对应的数据类型;
S2:数据特征变换,对原始输入数据进行特征变换形成统一的标准化数值向量作为神经网络的输入;
S3:异常检测和修复神经网络,正常数据表示为服从某一种分布,则明显有别于这个分布的数据可视为异常数据,用神经网络来学习正常数据的分布,从而用这个分布来做异常识别,当输入的是异常数据时,神经网络根据其对于正常数据的分布学习而尝试输出一个服从正常分布的建议数据,达到修复异常数据的目的;
S4:异常数据识别与异常修复,标准化数值向量输入到神经网络后,神经网络对每个特征使用一个双分量混合模型,其中一个分量用于解释正常单元,另一个分量用于解释异常单元;通过降低异常单元的影响来模拟潜在的正常数据分布,为数据单元提供异常值分数和对单元修复的估计;
S5:数据特征还原,作为数据特征变换过程的逆过程,数据特征还原阶段是将神经网络的输出结果还原成原始数据的格式。
上述的深度学习驱动的异常识别与修复方法,在所述步骤S2中,对于具有n∈{1,...,N}个实例(row)和d∈{1,...,D}个特征(column)的表格数据集X,其中数据集中的每个单元xnd(第n行d列)可以是连续型数据,即xnd∈R,也可以是分类型数据即xnd∈{1,..,Cd},其中Cd是分类型特征d的取值空间。
上述的深度学习驱动的异常识别与修复方法,在所述步骤S2中还包括不同属性类型进行特征变换的过程:
对于分类离散型属性:使用Index映射、Embedding或者ONE-HOT等技术对分类数据进行编码,使得分类属性可以利用数值表示;
对于数值连续型属性:使用z-score方法进行标准化处理,
Figure GDA0004039986910000021
x为原始数值属性的值,z为经过转换后的z-score,μ为总体样本空间的均值,σ则为总体样本空间的标准差。
上述的深度学习驱动的异常识别与修复方法,在所述步骤S3中,设置有网络结构模型,所述网络结构模型包括编码器Encoder,解码器Decoder和/或生成器Generator,以及判别器Discriminator。
上述的深度学习驱动的异常识别与修复方法,所述网络结构模型中,输入真实的训练数据x经过网络的Encoder实现从真实数据x到向量z的映射,网络学习到了真实数据的分布概率函数q(z|x),得到潜在表示z;再将z输入到Decoder/Generator学习从向量z到真实数据x的映射即概率分布p(x|z),通过反复学习使得生成器的生成结果
Figure GDA0004039986910000031
越来越接近真实值;
从某个初始分布中随机采样得到潜在表示z_p,将其输入到Decoder/Generator得到生成的结果x_p;判别器将真实数据样本(x)和生成数据(
Figure GDA0004039986910000032
和x_p)作为输入,并输出判断结果概率值,概率值的高低代表输入到判别器的样本是真实样本的概率,通过反复训练,提高判别器区分真实和生成数据的能力,促进生成器生成与真实数据更为相似的数据。
上述的深度学习驱动的异常识别与修复方法,所述编码器用于获得现实数据的潜在表示,将真实数据进行数据变换之后的标准向量作为输入,拟合专属于输入数据所服从的正态分布q(z|x)的均值和方差,输出包括两部分:数据的均值(μ)和与方差有关的值(logσ),选择拟合logσ而不是直接拟合σ2,是因为方差总是非负的,需要加激活函数进行处理,而logσ可正可负,不需要加激活函数;然后与从单位高斯随机采样的ε相结合,最终得到服从正态分布的潜在表示z,即:
μ,logσ=Enc(x)
Figure GDA0004039986910000033
Enc表示编码器。
所述解码器Decoder和/或生成器Generator用于对潜在表示进行解码,从而输出生成的结果,解码器的输入包括两部分:一个是所述编码器的输出z,即真实输入数据的潜在表示;另一个是通过正态分布得到的潜在表示z_p,输出的结果为:
Figure GDA0004039986910000034
x_p=Dec(z_p)
Dec表示解码器。
所述判别器Discriminator用于判断输入数据的真假,通过反向传播优化生成器,使得生成器生成的结果更好;判别器网络有三个输入,分别是原始的真实数据和解码器的两个生成结果,即:
真实数据集中的原始数据;
原始数据经过编码器-解码器之后生成的数据;
从某个初始分布中随机采样得到潜在表示,将其输入解码器中生成的数据。
网络训练到最后,判别器能更精细的鉴别输入判别器中的数据种类,并且原始数据经过编码器得到的潜在表示与从某个初始分布中随机采样得到潜在表示不断逼近,最后接近一致。
上述的深度学习驱动的异常识别与修复方法,还包括损失函数,所述损失函数包括:
重建损失Reconstruction_Loss,测量通过编码器-解码器结构重建后的数据的质量,对于正常数据来说,重建数据和原始数据应该尽可能相似,基于混合属性的数据异常识别和修复任务中的重构损失为:
Figure GDA0004039986910000035
Figure GDA0004039986910000041
φ为编码器,θ为解码器;πnd(xn)表示单元xnd是正常样本的预测概率,α是反映我们对数据清洁度的信念的参数;混合变量wnd充当一个门(gate)来确定单元xnd应该由正常分量(pθ(xnd|zn),wnd=1)还是异常分量(p0(xnd),wnd=0)来建模;
KL_Loss,确保编码器学习到的分布q(z|x)类似于真实的先验分布,实现异常识别和修复,在原有的潜在表示z的KL散度损失的基础上,增加了权重w的KL散度损失,公式如下:
Figure GDA0004039986910000042
Figure GDA0004039986910000043
权重w的KL散度损失(即LKL_w)中的两个参数均为关于权重的伯努利分布,即:
qπ(wn|xn)=Bernoulli(wndnd(xn)),wnd∈{0,1}
Figure GDA0004039986910000044
对抗性损失Adversarial_Loss,使生成的结果更真实,与真实数据无法区分,指导生成器更好地恢复训练数据的分布,使生成的数据与真实数据无法区分,为了避免原始GAN具有模式崩溃和训练不稳定等问题,使用WGAN所提出的损失函数来定义生成器和判别器之间的对抗关系,并使用WGAN-GP进行优化,生成器和判别器的损失函数分别为:
Figure GDA0004039986910000045
Figure GDA0004039986910000046
其中,
Figure GDA0004039986910000047
Figure GDA0004039986910000048
是沿着生成数据(解码器的两个输出)和真实数据之间的直线均匀采样;
优化编码器的目标函数如下:
Lenc=Lrec+LKL_z+LKL_w
优化编码器/生成器的目标函数如下:
Ldec=Lrec+Ladv_g
优化判别器目标函数如下:
Ldis=Ladv_d
上述的深度学习驱动的异常识别与修复方法,在所述步骤S4中,所述正常单元和异常单元的分量分别表示为:
pθ(xnd|zn),wnd=1
p0(xnd),wnd=0
对于异常单元,用均匀分布来表示分类型特征,用高斯分布来表示连续型特征:
Figure GDA0004039986910000051
p0(xnd)=N(xnd|0,S),S>1
使用基于混合模型的异常值得分如下:
Cell:logπnd(xn)
Figure GDA0004039986910000052
异常值得分越小意味着异常的概率越大,
神经网络对混合型数据的修复为:
Figure GDA0004039986910000053
上标i表示修复的单元,o对应于异常的单元,对于分类型属性,修复结果为最高概率类别;对于连续型属性,修复结果为高斯似然的均值;
最终输出异常得分和模型的修复建议数据,实现对异常数据的识别和修复,以达到数据治理。
上述的深度学习驱动的异常识别与修复方法,在所述步骤S5中,所述还原过程包括:
分类型属性:根据分类属性的编码过程进行解码,生成原始分类属性值;
连续型属性:反向标准化过程生成原始值。
上述的任一项所述的深度学习驱动的异常识别与修复方法的智能化系统,包括:
数据管理模块:基于无监督机器学习开展智能化数据治理的基础就是数据,进行数据治理数据的元数据管理、数据集成管理,负责数据的组织,并依托元数据管理功能完成算法所需要的数据结构标识;
数据预处理模块:提供多种数据变换手段,完成数据的预处理,将原始的混合数据类型的记录(row)统一转换为数值型的向量(Vector),形成深度学习神经网络可以识别的输入,所述数据预处理过程中可以开展的操作包括且不限于:
为分类型属性数据提供不同编码手段;
为数值型数据提供z-score标准化手段;
对日期数据提供转换为数值型的手段;
对于存在相互关系的数值型字段,提供关系变换手段,形成可以表达关系的多个数值型属性;
深度学习模型管理模块:在模型在生产环境里启用之前,先用历史数据依据上述算法对模型进行多轮次训练,将训练好的、满足精度要求的模型保存为异常识别与修复模型,共生产过程加载使用;
异常识别与修复模块:本模块加载深度学习模型管理模块训练好的异常识别与修复模型,接收数据预处理模块提供的数据,开展输入数据的异常识别,给不同输入记录row中的不同属性列cell的进行异常评分,并给出建议值;
数据特征还原模块:对异常检测和修复之后的向量进行数据预处理的逆变换,将数据特征还原到原始状态:原来是分类型的数据还要从向量中的数值表示还原到对应的分类值;数值型数据也要进行z-score的逆变换才可以恢复到原始数据的分布空间,形成最终业务可以解读的数据。
本发明一种深度学习驱动的异常识别与修复方法的有益效果是:采用深度学习方法,对每个特征使用双分量混合模型,其中一个分量用于解释干净单元(即正常值),另一个分量用于解释异常单元(即异常值);通过降低异常单元的影响来模拟潜在的正常数据分布,为数据单元提供异常值分数和对单元修复的估计;将变分自编码器和生成对抗网络两个深度生成模型进行结合,有利于生成更好的修复结果;最终实现对于混合属性数据的基于无监督和cell-level的异常识别及修复。
附图说明
图1为本发明异常识别和修复网络整体结构示意图;
图2为本发明异常识别和修复网络中Encoder、Decoder/Generator、Discriminator的具体网络结构;
图3为相关参数表;
图4为本发明异常识别与修复模型流程示意图;
图5为本发明智能化系统工作流程示意图。
具体实施方式
为方便本领域技术人员更好的理解本技术方案,下面结合附图及具体实施方式对本方案进行详细说明。
如图1-5所示,一种深度学习驱动的异常识别与修复方法,包括以下步骤:
S1:数据结构识别,对输入数据的属性类型进行识别和标记,基于一个列表,描述数据集的所有属性以及每个属性对应的数据类型;
S2:数据特征变换,对原始输入数据进行特征变换形成统一的标准化数值向量作为神经网络的输入;
S3:异常检测和修复神经网络,正常数据表示为服从某一种分布,则明显有别于这个分布的数据可视为异常数据,用神经网络来学习正常数据的分布,从而用这个分布来做异常识别,当输入的是异常数据时,神经网络根据其对于正常数据的分布学习而尝试输出一个服从正常分布的建议数据,达到修复异常数据的目的;
S4:异常数据识别与异常修复,标准化数值向量输入到神经网络后,神经网络对每个特征使用一个双分量混合模型,其中一个分量用于解释正常单元,另一个分量用于解释异常单元;通过降低异常单元的影响来模拟潜在的正常数据分布,为数据单元提供异常值分数和对单元修复的估计;
S5:数据特征还原,作为数据特征变换过程的逆过程,数据特征还原阶段是将神经网络的输出结果还原成原始数据的格式。
(1)数据结构识别
本发明方法具备处理混合属性数据的能力。所谓混合属性,即允许数据的类型是数值型、分类型、布尔型、时间类型等。这些不同类型的属性,处理方法也不同,因此需要对输入数据的属性类型进行识别和标记,基于一个列表,描述数据集的所有属性以及每个属性对应的数据类型。
(2)数据特征变换
对于原始输入的混合属性数据,可能既包含了分类型(离散)属性(如农村、城区等)又包含有数值(连续)型属性(如5.5、10、20等)。这种原始形态的数据无法直接输入到深度神经网络。为此需要对原始输入数据进行特征变换形成统一的标准化数值向量作为神经网络的输入。
对于具有n∈{1,...,N}个实例(row)和d∈{1,...,D}个特征(column)的表格数据集X,其中数据集中的每个单元xnd(第n行d列)可以是连续型数据,即xnd∈R,也可以是分类型数据即xnd∈{1,..,Cd},其中Cd是分类型特征d的取值空间。
不同属性类型进行特征变换的过程如下:
对于分类(离散)型属性:使用Index映射、Embedding或者ONE-HOT等技术对分类数据进行编码。使得分类属性可以利用数值表示。
对于数值(连续)型属性:使用z-score方法进行标准化处理,
Figure GDA0004039986910000061
这里的x为原始数值属性的值,z为经过转换后的z-score,μ为总体样本空间的均值,σ则为总体样本空间的标准差。
(3)RV-GNet网络
本方法采用变分自编码器与生成对抗网络融合的网络结构开展异常检测和修复,网络结构使用基于深度学习的无监督方法来实现cell-level(即单元格)的异常识别和修复。从业务本质上来说,正常数据可以表示为服从某一种分布,则明显有别于这个分布的数据可视为异常数据,因此可以用神经网络来找到正常数据的分布,从而用这个分布来做异常识别。此外,当输入的是异常数据时,神经网络也会根据其对于正常数据的分布学习而尝试输出一个服从正常分布的建议数据,从而达到修复异常数据的目的。
在神经网络异常识别和修复阶段中,本文使用的神经网络的网络结构如图1所示。模型的网络结构包含三个组成部分:编码器Encoder,解码器Decoder(也是生成器Generator),以及判别器Discriminator。
模型概述为:输入数据(即真实的训练数据)x经过网络的Encoder实现从真实数据x到向量z的映射,即网络学习到了真实数据的分布概率函数q(z|x),得到潜在表示z;再将z输入到Decoder/Generator学习从向量z到真实数据x的映射即概率分布p(x|z),从而通过反复学习使得生成器的生成结果
Figure GDA0004039986910000071
越来越接近真实值;
另外,从某个初始分布(如正态分布)中随机采样得到潜在表示z_p,将其输入到Decoder/Generator得到生成的结果x_p;判别器将真实数据样本(x)和生成数据(
Figure GDA0004039986910000072
和x_p)作为输入,并输出判断结果(即概率值),而概率值的高低代表输入到判别器的样本是真实样本的概率,通过反复训练,提高判别器区分真实和生成数据的能力,促进生成器生成与真实数据更为相似的数据。
a.编码器Encoder
编码器的作用是获得现实数据的潜在表示。将真实数据进行数据变换之后的标准向量作为输入,拟合专属于输入数据所服从的正态分布q(z|x)的均值和方差,输出包括两部分:数据的均值(μ)和与方差有关的值(logσ),选择拟合logσ而不是直接拟合σ2,是因为方差总是非负的,需要加激活函数进行处理,而logσ可正可负,因此不需要加激活函数。然后与从单位高斯随机采样的ε相结合,最终得到服从正态分布的潜在表示z,即:
μ,logσ=Enc(x)
Figure GDA0004039986910000073
其中,Enc表示编码器。
编码器网络结构与参数分别见图2、图3.
b.解码器Decoder/生成器Generator
解码器的作用是对潜在表示进行解码,从而输出生成的结果。解码器的输入包括两部分:一个是上述编码器的输出z,即真实输入数据的潜在表示;另一个是通过正态分布得到的潜在表示z_p。输出的结果为:
Figure GDA0004039986910000074
x_p=Dec(z_p)
其中,Dec表示解码器。
解码器网络结构与参数分别见图2、图3.
需要注意的是,解码器为了处理混合类型的数据,需要针对不同的特征类型选择不同的条件似然p(x|z)。具体来说:
①分类型数据的特征需要经过一层网络和Softmax之后输出结果:
pθ(xnd|zn)=f(ad(zn))
②连续型数据的特征需要经过另一层网络之后输出结果:
pθ(xnd|zn)=N(xnd|md(zn),σd)
其中,md(zn)表示高斯似然的均值,f表示Softmax函数,ad(zn)表示每个类别的概率的未归一化向量。
将两种数据类型的结果拼接以后的输出才是解码器最终的输出。
c.判别器Discriminator
作为一种基于深度学习的优秀的生成式模型,GAN其通过生成器网络和判别器网络进行对抗博弈来学习数据分布,从而达到生成真实样本的目的,已经成为最有前景的无监督方法之一。上述解码器网络作为生成器实现了数据生成,而判别器的作用是判断输入数据的真假,从而通过反向传播优化生成器,从而使得生成器生成的结果更好。本文中,我们的判别器网络有三个输入,分别是原始的真实数据和解码器的两个生成结果,即:
真实数据集中的原始数据(真实数据);
原始数据经过编码器-解码器之后生成的数据(重建数据);
从某个初始分布(如正态分布)中随机采样得到潜在表示,将其输入解码器中生成的数据(生成数据)。
最终,判别器能更精细的鉴别输入判别器中的数据种类(真实数据、重建数据、与生成数据),并且原始数据经过编码器得到的潜在表示与从某个初始分布中随机采样得到潜在表示不断逼近,最后接近一致。
判别器网络结构与参数分别见图2、图3.
d.损失函数
本文的损失函数包括以下三种类型的损失:(1)重建损失(Reconstruction_Loss),目的是测量通过编码器-解码器结构重建后的数据的质量;(2)KL_Loss,目的是确保编码器学习到的分布q(z|x)类似于真实的先验分布;(3)对抗性损失(Adversarial_Loss),目的是使生成的结果更真实,与真实数据无法区分。
i.重建损失(Reconstruction_Loss)
重建损失的作用是保证生成的结果近似于原来的真实输入数据。对于正常数据来说,重建数据和原始数据应该尽可能相似。因此本文在基于混合属性的数据异常识别和修复任务中的重构损失为:
Figure GDA0004039986910000081
Figure GDA0004039986910000082
其中,φ为编码器,θ为解码器;πnd(xn)表示单元xnd是正常样本的预测概率,α是反映我们对数据清洁度的信念的参数;混合变量wnd充当一个门(gate)来确定单元xnd应该由正常分量(pθ(xnd|zn),wnd=1)还是异常分量(p0(xnd),wnd=0)来建模。
ii.KL_Loss
本文中,为了实现异常识别和修复的目的,我们在原有的潜在表示z的KL散度损失的基础上,增加了权重w的KL散度损失,公式如下:
Figure GDA0004039986910000083
Figure GDA0004039986910000084
其中,权重w的KL散度损失(即LKL_w)中的两个参数均为关于权重的伯努利分布,即:
qπ(wn|xn)=Bernoulli(wndnd(xn)),wnd∈{0,1}
Figure GDA0004039986910000085
iii.对抗性损失(Adversarial_Loss)
本文中,对抗性损失被用来指导生成器更好地恢复训练数据的分布,使生成的数据与真实数据无法区分。同时为了避免原始GAN具有模式崩溃和训练不稳定等问题,因此使用WGAN所提出的损失函数来定义生成器和判别器之间的对抗关系,并使用WGAN-GP进行优化,生成器和判别器的损失函数分别为:
Figure GDA0004039986910000091
Figure GDA0004039986910000092
其中,
Figure GDA0004039986910000093
Figure GDA0004039986910000094
是沿着生成数据(解码器的两个输出)和真实数据之间的直线均匀采样。λgp是梯度惩罚的系数,根据经验设定为10。
iv.总体目标函数
最后,优化编码器的目标函数如下:
Lenc=Lrec+LKL_z+LKL_w
优化解码器/生成器的目标函数如下:
Ldec=Lrec+Ladv_g
优化判别器目标函数如下:
Ldis=Ladv_d
(4)异常数据识别与异常修复
标准化数据输入到神经网络后,神经网络对每个特征使用一个双分量混合模型,其中一个分量用于解释正常单元,另一个分量用于解释异常单元;通过降低异常单元的影响来模拟潜在的正常数据分布,为数据单元提供异常值分数和对单元修复的估计。正常单元和异常单元的分量分别表示为:
pθ(xnd|zn),wnd=1
p0(xnd),wnd=0
对于异常单元来说,我们用均匀分布来表示分类型特征,用高斯分布来表示连续型特征,即:
Figure GDA0004039986910000095
p0(xnd)=N(xnd|0,S),S>1
我们使用基于混合模型的异常值得分如下:
Cell:logπnd(xn)
Figure GDA0004039986910000096
异常值得分越小意味着异常的概率越大。
神经网络对混合型数据的修复为:
Figure GDA0004039986910000097
其中上标i表示修复的单元,o对应于异常的单元。具体来说,对于分类型属性,修复结果为最高概率类别;对于连续型属性,修复结果为高斯似然的均值。
最终输出异常得分和模型的修复建议数据,实现对异常数据的识别和修复,达到数据治理的目的。
(5)数据特征还原
作为数据特征变换过程的逆过程,数据特征还原阶段是将神经网络的输出结果(标准化数据)还原成原始数据的格式。针对混合类型的数据,标准化的还原过程如下:
分类型属性:根据分类属性的编码过程进行解码,生成原始分类属性值;
连续型属性:反向标准化过程生成原始值。
实验数据以及算法效果说明:
将上述算法在某电网公司的数据治理试点项目中予以验证。项目中需要对电力客户的基础档案开展异常数据识别,并对问题数据进行修正。鉴于该电网电力客户数量超过一千万,无法依托人工开展异常数据的识别和修复,为此采用深度学习算法进行。
该项目中数据均根据需要进行脱敏,部分数据如下表所示:
Figure GDA0004039986910000101
Figure GDA0004039986910000111
其中,第一列为当前记录唯一标识,不纳入异常检测范围。
将算法在项目中进行应用之后,在不需要人工干预的情况下,经过训练之后的模型在实验中取得了令人满意的效果。可以有效的对存在异常的数据单元(cell)通过评分进行识别,进而基于学习结果进行修正。部分检测出来的异常数据以及修复结果如下表:
Figure GDA0004039986910000112
从上表可知:共列出了三条异常记录,每条异常记录由三行数据构成:第一行表示该条记录(row)的每个单元格(cell)异常值得分;第二行代表的是输入的真实数据,第三行表示的是RV-GNet神经网络输出的生成数据。从每一条异常记录的每个单元(cell)的异常评分结果可知,在模型充分学习了业务真实数据的分布之后,对于正常的cell其评分结果相对较高,而对于异常cell,其评分结果远远低于正常值。因此可以将评分远低于正常水品的cell设置为异常数据。
为了使结果便于观察,将三条记录的异常数据元的异常得分、修复前数据、修复后结果列出见下表:
Figure GDA0004039986910000113
Figure GDA0004039986910000121
结果分析如下:
第一组数据中,分类属性“城乡类别”与分类属性“用户分类”和分类属性“用电类别”有关,因此当“用户分类”和“用电类别”分别为“城网低压居民”和“城镇居民生活用电”时,“城乡类别”=“农村”为异常单元,修复结果改为“城区”;修改结果与业务事实相吻合;
第二组数据中:实际业务数据中数值型属性“运行容量”与数值型属性“合同容量”有关,业务数据表明绝大多数的数据“运行容量”应该与“合同容量”相符,因此数据修复结果改为8;
第三组数据中,分类属性“接线方式”和分类属性“电压等级”有关。业务系统中当电压等级为"380v"时“接线方式”为“三相四线”;而电压等级为"220v"时“接线方式”为“单相”。当前记录的电压等级为"380v",其接线方式“单相”为异常单元,修复结果改为“三相四线”,符合业务规范;
从上述修复结果和分析可以看出,本方法所设计的模型可以较为准确的识别异常单元(cell),并可以依据数据分布对异常进行修复,其异常定位与数据修复的效果较为理想。
如图5所示,在此方法基础上,本发明还提供了一个智能化软件系统,依托无监督学习方法开展数据的智能化治理。
本软件系统的构成如下:
数据管理模块:基于无监督机器学习开展智能化数据治理的基础就是数据。为此在系统中设置有数据管理模块,负责需要进行数据治理数据的元数据管理、数据集成管理,也就是负责数据的组织,并依托元数据管理功能完成算法所需要的数据结构标识。
数据预处理模块:本模块提供多种数据变换手段,完成数据的预处理,从而将原始的混合数据类型的记录(row)统一转换为数值型的向量(Vector),形成深度学习神经网络可以识别的输入。数据预处理过程中可以开展的操作包括且不限于:
为分类型属性数据提供不同编码手段,例如Index、One-hot、Embedding等;
为数值型数据提供z-score标准化手段;
对日期数据提供转换为数值型的手段;
对于存在相互关系的数值型字段,提供关系变换手段,形成可以表达关系的多个数值型属性。
深度学习模型管理模块:实际生产环境中,数据是持续产生的,需要在很短的时间内就判别出异常数据并完成修复,因此如果进行在线的模型训练和异常识别与修正肯定是无法满足实际要求的。本系统设置有一个深度学习模型管理模块,在模型在生产环境里启用之前,先用历史数据依据上述算法对模型进行多轮次训练。这个过程比较耗时,可以离线进行。将训练好的、满足精度要求的模型保存为异常识别与修复模型,共生产过程加载使用。一旦生产数据分布变化导致模型精度性能下降,则可以根据需要重新训练新模型。采用这种措施避免了模型训练对正常生产过程的干扰。
异常识别与修复模块:本模块加载深度学习模型管理模块训练好的异常识别与修复模型,然后接收数据预处理模块提供的数据,开展输入数据的异常识别,给不同输入记录row中的不同属性列cell的进行异常评分,并给出建议值。
数据特征还原模块:因为输入到深度学习模型中的数据都是经过转换处理之后的,与原始值存在极大的差异。因此异常检测和修复之后,还需要对该向量进行数据预处理的逆变换,将数据特征还原到原始状态:原来是分类型的数据还要从向量中的数值表示还原到对应的分类值;数值型数据也要进行z-score的逆变换才可以恢复到原始数据的分布空间。从而形成最终业务可以解读的数据。
本发明采用深度学习方法,对每个特征使用双分量混合模型,其中一个分量用于解释干净单元(即正常值),另一个分量用于解释异常单元(即异常值);通过降低异常单元的影响来模拟潜在的正常数据分布,为数据单元提供异常值分数和对单元修复的估计;将变分自编码器和生成对抗网络两个深度生成模型进行结合,有利于生成更好的修复结果;最终实现对于混合属性数据的基于无监督和cell-level的异常识别及修复。
上述实施例只是为了说明本发明的结构构思和特点,其目的在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限定本发明的保护范围。凡是根据本发明内容的实质所做出的等效变化或修饰,都应该涵盖在本发明的保护范围之内。

Claims (10)

1.一种深度学习驱动的异常识别与修复方法,其特征在于:包括以下步骤:
S1:数据结构识别,对输入数据的属性类型进行识别和标记,基于一个列表,描述数据集的所有属性以及每个属性对应的数据类型;
S2:数据特征变换,对原始输入数据进行特征变换形成统一的标准化数值向量作为神经网络的输入;
S3:训练异常检测和修复神经网络,正常数据表示为服从某一种分布,则明显有别于这个分布的数据可视为异常数据,用神经网络来学习正常数据的分布,从而用这个分布来做异常识别,当输入的是异常数据时,神经网络根据其对于正常数据的分布学习而尝试输出一个服从正常分布的建议数据,达到修复异常数据的目的;
S4:异常数据识别与异常修复,标准化数值向量输入到神经网络后,神经网络对每个特征使用一个双分量混合模型,其中一个分量用于解释正常单元,另一个分量用于解释异常单元;通过降低异常单元的影响来模拟潜在的正常数据分布,为数据单元提供异常值分数和对单元修复的估计;
S5:数据特征还原,作为数据特征变换过程的逆过程,数据特征还原阶段是将神经网络的输出结果还原成原始数据的格式。
2.根据权利要求1所述的深度学习驱动的异常识别与修复方法,其特征是:在所述步骤S2中,对于具有n∈{1,...,N}个实例row和d∈{1,...,D}个特征column的表格数据集X,其中数据集中的每个单元xnd第n行d列可以是连续型数据,即xnd∈R,也可以是分类型数据即xnd∈{1,..,Cd},其中Cd是分类型特征d的取值空间。
3.根据权利要求2所述的深度学习驱动的异常识别与修复方法,其特征是:在所述步骤S2中还包括不同属性类型进行特征变换的过程:
对于分类离散型属性:使用Index映射、Embedding或者ONE-HOT对分类数据进行编码,使得分类属性可以利用数值表示;
对于数值连续型属性:使用z-score方法进行标准化处理,
Figure FDA0004039986900000011
x为原始数值属性的值,z为经过转换后的z-score,μ为总体样本空间的均值,σ则为总体样本空间的标准差。
4.根据权利要求1所述的深度学习驱动的异常识别与修复方法,其特征是:在所述步骤S3中,设置有网络结构模型,所述网络结构模型包括编码器Encoder,解码器Decoder或生成器Generator,以及判别器Discriminator。
5.根据权利要求4所述的深度学习驱动的异常识别与修复方法,其特征是:所述网络结构模型中,输入真实的训练数据x经过网络的Encoder实现从真实数据x到向量z的映射,网络学习到了真实数据的分布概率函数q(z|x),得到潜在表示z;再将z输入到Decoder/Generator学习从向量z到真实数据x的映射即概率分布p(x|z),通过反复学习使得生成器的生成结果
Figure FDA0004039986900000012
越来越接近真实值;
从某个初始分布中随机采样得到潜在表示z_p,将其输入到Decoder/Generator得到生成的结果x_p;判别器将真实数据样本(x)和生成数据
Figure FDA0004039986900000013
和x_p作为输入,并输出判断结果概率值,概率值的高低代表输入到判别器的样本是真实样本的概率,通过反复训练,提高判别器区分真实和生成数据的能力,促进生成器生成与真实数据更为相似的数据。
6.根据权利要求5所述的深度学习驱动的异常识别与修复方法,其特征是:所述编码器用于获得现实数据的潜在表示,将真实数据进行数据变换之后的标准向量作为输入,拟合专属于输入数据所服从的正态分布q(z|x)的均值和方差,输出包括两部分:数据的均值(μ)和与方差有关的值logσ,选择拟合logσ而不是直接拟合σ2,是因为方差总是非负的,需要加激活函数进行处理,而logσ可正可负,不需要加激活函数;然后与从单位高斯随机采样的ε相结合,最终得到服从正态分布的潜在表示z,即:
μ,logσ=Enc(x)
Figure FDA0004039986900000021
Enc表示编码器,
所述解码器Decoder或生成器Generator用于对潜在表示进行解码,从而输出生成的结果,解码器的输入包括两部分:一个是所述编码器的输出z,即真实输入数据的潜在表示;另一个是通过正态分布得到的潜在表示z_p,输出的结果为:
Figure FDA0004039986900000022
x_p=Dec(z_p)
Dec表示解码器,
所述判别器Discriminator用于判断输入数据的真假,通过反向传播优化生成器,使得生成器生成的结果更好;判别器网络有三个输入,分别是原始的真实数据和解码器的两个生成结果,即:
真实数据集中的原始数据;
原始数据经过编码器-解码器之后生成的数据;
从某个初始分布中随机采样得到潜在表示,将其输入解码器中生成的数据,
网络训练到最后,判别器能更精细的鉴别输入判别器中的数据种类,并且原始数据经过编码器得到的潜在表示与从某个初始分布中随机采样得到潜在表示不断逼近,最后接近一致。
7.根据权利要求6所述的深度学习驱动的异常识别与修复方法,其特征是:网络的训练还包括损失函数,所述损失函数包括:
(1)重建损失Reconstruction_Loss,测量通过编码器-解码器结构重建后的数据的质量,对于正常数据来说,重建数据和原始数据相似,基于混合属性的数据异常识别和修复任务中的重构损失为:
Figure FDA0004039986900000023
Figure FDA0004039986900000024
φ为编码器,θ为解码器;πnd(xn)表示单元xnd是正常样本的预测概率,α是反映对数据清洁度的信念的参数;混合变量wnd充当一个门gate来确定单元xnd应该由正常分量(pθ(xnd|zn),wnd=1)还是异常分量(p0(xnd),wnd=0)来建模;
(2)KL_Loss,确保编码器学习到的分布q(z|x)类似于真实的先验分布,实现异常识别和修复,在原有的潜在表示z的KL散度损失的基础上,增加了权重w的KL散度损失,公式如下:
Figure FDA0004039986900000025
Figure FDA0004039986900000026
权重w的KL散度损失即LKL_w中的两个参数均为关于权重的伯努利分布,即:
qπ(wn|xn)=Bernoulli(wnd|πnd(xn)),wnd∈{0,1}
Figure FDA0004039986900000031
(3)对抗性损失Adversarial_Loss,使生成的结果更真实,与真实数据无法区分,指导生成器更好地恢复训练数据的分布,使生成的数据与真实数据无法区分,为了避免原始GAN具有模式崩溃和训练不稳定,使用WGAN所提出的损失函数来定义生成器和判别器之间的对抗关系,并使用WGAN-GP进行优化,生成器和判别器的损失函数分别为:
Figure FDA0004039986900000032
Figure FDA0004039986900000033
其中,
Figure FDA0004039986900000034
Figure FDA0004039986900000035
是沿着生成数据解码器的两个输出和真实数据之间的直线均匀采样;
优化编码器的目标函数如下:
Lenc=Lrec+LKL_z+LKL_w
优化解码器/生成器的目标函数如下:
Ldec=Lrec+Ladv_g
优化判别器目标函数如下:
Ldis=Ladv_d。
8.根据权利要求1所述的深度学习驱动的异常识别与修复方法,其特征是:在所述步骤S4中,所述正常单元和异常单元的分量分别表示为:
pθ(xnd|zn),wnd=1
p0(xnd),wnd=0
对于异常单元,用均匀分布来表示分类型特征,用高斯分布来表示连续型特征:
Figure FDA0004039986900000036
p0(xnd)=N(xnd|0,S),S>1
使用基于混合模型的异常值得分如下:
Cell:logπnd(xn)
Row:
Figure FDA0004039986900000037
异常值得分越小意味着异常的概率越大,
神经网络对混合型数据的修复为:
Figure FDA0004039986900000038
上标i表示修复的单元,o对应于异常的单元,对于分类型属性,修复结果为最高概率类别;对于连续型属性,修复结果为高斯似然的均值;
最终输出异常得分和模型的修复建议数据,实现对异常数据的识别和修复,以达到数据治理。
9.根据权利要求1所述的深度学习驱动的异常识别与修复方法,其特征是:在所述步骤S5中,所述还原过程包括:
分类型属性:根据分类属性的编码过程进行解码,生成原始分类属性值;
连续型属性:反向标准化过程生成原始值。
10.一种如权利要求1-9任一项所述的深度学习驱动的异常识别与修复方法的智能化系统,包括:
数据管理模块:基于无监督机器学习开展智能化数据治理的基础就是数据,进行数据治理的元数据管理、数据集成管理,负责数据的组织,并依托元数据管理功能完成算法所需要的数据结构标识;
数据预处理模块:提供多种数据变换手段,完成数据的预处理,将原始的混合数据类型的记录row统一转换为数值型的向量Vector,形成深度学习神经网络可以识别的输入,所述数据预处理过程中可以开展的操作包括且不限于:
为分类型属性数据提供不同编码手段;
为数值型数据提供z-score标准化手段;
对日期数据提供转换为数值型的手段;
对于存在相互关系的数值型字段,提供关系变换手段,形成可以表达关系的多个数值型属性;
深度学习模型管理模块:在模型在生产环境里启用之前,先用历史数据依据权利要求1-9所述对模型进行多轮次训练,将训练好的、满足精度要求的模型保存为异常识别与修复模型,供生产过程加载使用;
异常识别与修复模块:本模块加载深度学习模型管理模块训练好的异常识别与修复模型,接收数据预处理模块提供的数据,开展输入数据的异常识别,给不同输入记录row中的不同属性列的数据单元cell进行异常评分,并给出建议值;
数据特征还原模块:对异常检测和修复之后的向量进行数据预处理的逆变换,将数据特征还原到原始状态:原来是分类型的数据还要从向量中的数值表示还原到对应的分类值;数值型数据也要进行z-score的逆变换才可以恢复到原始数据的分布空间,形成最终业务可以解读的数据。
CN202110528781.1A 2021-05-14 2021-05-14 一种深度学习驱动的异常识别与修复方法及智能化系统 Active CN113240011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110528781.1A CN113240011B (zh) 2021-05-14 2021-05-14 一种深度学习驱动的异常识别与修复方法及智能化系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110528781.1A CN113240011B (zh) 2021-05-14 2021-05-14 一种深度学习驱动的异常识别与修复方法及智能化系统

Publications (2)

Publication Number Publication Date
CN113240011A CN113240011A (zh) 2021-08-10
CN113240011B true CN113240011B (zh) 2023-04-07

Family

ID=77134410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110528781.1A Active CN113240011B (zh) 2021-05-14 2021-05-14 一种深度学习驱动的异常识别与修复方法及智能化系统

Country Status (1)

Country Link
CN (1) CN113240011B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705490B (zh) * 2021-08-31 2023-09-12 重庆大学 基于重构和预测的异常检测方法
CN113949549B (zh) * 2021-10-08 2022-08-23 东北大学 一种面向入侵和攻击防御的实时流量异常检测方法
CN114925808B (zh) * 2022-04-15 2023-10-10 北京理工大学 一种基于云网端资源中不完整时间序列的异常检测方法
CN115221233A (zh) * 2022-09-21 2022-10-21 华中科技大学 基于深度学习的变电站多类带电检测数据异常检测方法
CN116146515A (zh) * 2022-11-15 2023-05-23 安徽智质工程技术有限公司 一种水泥厂离心风机设备异常检测方法
CN116186501B (zh) * 2023-04-20 2023-07-28 四川中电启明星信息技术有限公司 一种用户电表采集数据修复方法、系统、电子设备及介质
CN116304604B (zh) * 2023-05-12 2023-08-18 合肥工业大学 多变量时间序列数据异常检测、模型训练方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874778A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 异常订单检测方法及装置
CN111461565A (zh) * 2020-04-09 2020-07-28 国网山东省电力公司 一种电力调控下的电源侧发电性能评估方法
CN112529678A (zh) * 2020-12-23 2021-03-19 华南理工大学 一种基于自监督判别式网络的金融指数时序异常检测方法
CN112766425A (zh) * 2021-03-25 2021-05-07 浙江师范大学 一种基于最优传输的深度缺失聚类机器学习方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11258827B2 (en) * 2018-10-19 2022-02-22 Oracle International Corporation Autonomous monitoring of applications in a cloud environment
CN109948117B (zh) * 2019-03-13 2023-04-07 南京航空航天大学 一种对抗网络自编码器的卫星异常检测方法
WO2020255224A1 (ja) * 2019-06-17 2020-12-24 日本電信電話株式会社 異常検知装置、学習装置、異常検知方法、学習方法、異常検知プログラム、及び学習プログラム
US20210049452A1 (en) * 2019-08-15 2021-02-18 Intuit Inc. Convolutional recurrent generative adversarial network for anomaly detection
CN110544168A (zh) * 2019-08-19 2019-12-06 同济大学 一种基于生成对抗网络的弱监督互联网金融反欺诈方法
US10956808B1 (en) * 2020-03-12 2021-03-23 Fractal Analytics Private Limited System and method for unsupervised anomaly detection
CN112014821B (zh) * 2020-08-27 2022-05-17 电子科技大学 一种基于雷达宽带特征的未知车辆目标识别方法
CN112465124B (zh) * 2020-12-15 2023-03-10 武汉智能装备工业技术研究院有限公司 孪生深度时空神经网络模型获取/故障诊断方法、装置
CN112688928A (zh) * 2020-12-18 2021-04-20 中国科学院信息工程研究所 结合自编码器和wgan的网络攻击流量数据增强方法及系统
CN112733954A (zh) * 2021-01-20 2021-04-30 湖南大学 一种基于生成对抗网络的异常流量检测方法
CN112597831A (zh) * 2021-02-22 2021-04-02 杭州安脉盛智能技术有限公司 一种基于变分自编码器和对抗网络的信号异常检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874778A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 异常订单检测方法及装置
CN111461565A (zh) * 2020-04-09 2020-07-28 国网山东省电力公司 一种电力调控下的电源侧发电性能评估方法
CN112529678A (zh) * 2020-12-23 2021-03-19 华南理工大学 一种基于自监督判别式网络的金融指数时序异常检测方法
CN112766425A (zh) * 2021-03-25 2021-05-07 浙江师范大学 一种基于最优传输的深度缺失聚类机器学习方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
彭中联等."基于改进CGANs的入侵检测方法研究".《信息网络安全》.2020,全文. *

Also Published As

Publication number Publication date
CN113240011A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN113240011B (zh) 一种深度学习驱动的异常识别与修复方法及智能化系统
CN107832353B (zh) 一种社交媒体平台虚假信息识别方法
US11301759B2 (en) Detective method and system for activity-or-behavior model construction and automatic detection of the abnormal activities or behaviors of a subject system without requiring prior domain knowledge
CN109711483B (zh) 一种基于Sparse Autoencoder的电力系统运行方式聚类方法
CN109902740B (zh) 一种基于多算法融合并行的再学习工业控制入侵检测方法
CN113361559B (zh) 基于深宽度联合神经网络的多模态数据知识信息提取方法
CN111598179A (zh) 电力监控系统用户异常行为分析方法、存储介质和设备
CN112966088B (zh) 未知意图的识别方法、装置、设备及存储介质
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
CN113157886A (zh) 一种自动问答生成方法、系统、终端及可读存储介质
CN112907222B (zh) 一种多源异构电网运监业务数据融合方法
CN114626426A (zh) 基于K-means优化算法的工业设备行为检测方法
CN109635008B (zh) 一种基于机器学习的设备故障检测方法
CN116894113A (zh) 基于深度学习的数据安全分类方法及数据安全管理系统
CN114418111A (zh) 标签预测模型训练及样本筛选方法、装置、存储介质
CN113723497A (zh) 基于混合特征提取及Stacking模型的异常用电检测方法、装置、设备及存储介质
CN114625831A (zh) 一种面向智能电网负荷辨识的分类评价反馈方法
CN112348275A (zh) 一种基于在线增量学习的区域生态环境变化预测方法
CN117993868B (zh) 基于双模态注意力的电网工程项目审计预警方法及系统
Wang et al. Fault diagnosis of ship ballast water system based on support vector machine optimized by improved sparrow search algorithm
CN117611957B (zh) 基于统一正负伪标签的无监督视觉表征学习方法及系统
Xuejun et al. Lstm network for carrier module detection data classification
CN117496131B (zh) 一种电力作业现场安全行为识别方法及系统
CN113761788B (zh) 基于深度学习的scopf快速计算方法及装置
CN114936615B (zh) 一种基于表征一致性校对的小样本日志信息异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant