CN113240011A - 一种深度学习驱动的异常识别与修复方法及智能化系统 - Google Patents

一种深度学习驱动的异常识别与修复方法及智能化系统 Download PDF

Info

Publication number
CN113240011A
CN113240011A CN202110528781.1A CN202110528781A CN113240011A CN 113240011 A CN113240011 A CN 113240011A CN 202110528781 A CN202110528781 A CN 202110528781A CN 113240011 A CN113240011 A CN 113240011A
Authority
CN
China
Prior art keywords
data
abnormal
repair
distribution
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110528781.1A
Other languages
English (en)
Other versions
CN113240011B (zh
Inventor
于瑞强
郇长武
宋晓霞
杜星学
李锐
徐国智
董仁玮
赵轩臣
孙汉福
刘效强
赵勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YANTAI HAIYI SOFTWARE CO Ltd
Original Assignee
YANTAI HAIYI SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YANTAI HAIYI SOFTWARE CO Ltd filed Critical YANTAI HAIYI SOFTWARE CO Ltd
Priority to CN202110528781.1A priority Critical patent/CN113240011B/zh
Publication of CN113240011A publication Critical patent/CN113240011A/zh
Application granted granted Critical
Publication of CN113240011B publication Critical patent/CN113240011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及数据处理领域,具体涉及一种深度学习驱动的异常识别与修复方法及智能化系统。包括以下步骤:S1:数据结构识别,S2:数据特征变换,S3:训练异常检测和修复神经网络,S4:异常数据识别与异常修复,S5:数据特征还原。采用深度学习方法,对每个特征使用双分量混合模型,其中一个分量用于解释干净单元(即正常值),另一个分量用于解释异常单元(即异常值);通过降低异常单元的影响来模拟潜在的正常数据分布,为数据单元提供异常值分数和对单元修复的估计;将变分自编码器和生成对抗网络两个深度生成模型进行结合,有利于生成更好的修复结果;最终实现利用无监督学习方式对混合属性数据进行cell‑level(单元级别)的异常识别及修复。

Description

一种深度学习驱动的异常识别与修复方法及智能化系统
技术领域
本发明涉及数据处理领域,具体涉及一种深度学习驱动的异常识别与修复 方法及智能化系统。
背景技术
随着大数据时代的到来,在如何有效充分地利用海量数据进行数据挖掘和利 用、并发挥数据潜在价值的问题中,数值治理发挥着巨大的作用。数据治理有 助于提高数据质量,增强数据的可用性,保证数据的规范性、一致性和完整性。 另外,实际数据中,异常数据是普遍存在且无规律可言的。这些异常数据导致 在开展数据分析、运用数据决策时存在较大的阻碍甚至是风险,严重影响了数 据价值的发挥,增加了数据治理的难度。而传统上异常数据的识别往往是基于 领域经验总结成的规则开展的,普遍存在规则无法满足异常识别要求的问题; 而对于数据修复,更是只有依靠简单粗暴的经验值设定、或者由人工逐条干预 修订。这远远无法满足大数据时代下海量数据的高性能、高效率、高价值应用 的需求。
异常识别在生产中应用广泛,采用的技术主要有基于规则处理、基于统计学 处理和基于机器学习处理,在机器学习处理方法中,根据数据的标签情况,又 分为有监督、半监督和无监督三种情况。
基于规则的方法需要通过设计算法自动提取或专家手工制定来获取规则,然 后判断行为是否和异常规则相似,这种方法缺点是耗时较长、受限于专家知识、 规则库需要经常更新等。3σ准则、箱型图、Grubbs检验和时间序列建模等基于 统计学的方法虽然对低维数据友好,但是对假设依赖比较严重。
使用机器学习进行异常识别的方法包括基于统计分布、基于距离、基于密度、 基于聚类和基于树的无监督方法;one-class SVM、支持向量数据描述(Support Vector DataDescription,SVDD)、高斯混合模型(Gaussian Mixture Model,GMM) 和自编码器(AutoEncoder,AE)等半监督方法,但是需要标注正常数据;有监 督方法如逻辑回归(Logistic Regression,LR)、支持向量机(Support Vector Machine, SVM)、随机森林(Random Forest,RF)和神经网络(Neural Network,NN)等,但 是需要解决数据标注问题,且要注意类别不均衡现象,不适用于识别新类别。
目前基于深度学习的异常识别大致分为有监督的深度异常识别、半监督的深 度异常识别、One-class神经网络(One-class neural networks,OC-NN)、混合深 度异常识别和无监督的深度异常识别。其中在无监督模型中,变分自编码器 (VariationalAutoencoders,VAE)和生成对抗网络(Generative Adversarial Networks,GAN)作为强大的深度生成模型,用于异常识别主要是通过网络学 习正常数据的分布,然后通过判断生成的结果与原始输入数据的差异,差异较 大的为异常来实现。而相关深度学习方法存在的问题包括:(1)所采用的基于 变分自编码器的生成网络在训练过程中无法自动识别潜在的离群值来提高鲁棒 性,(2)GAN训练过程中的鲁棒性、可靠性有待进一步加强。
而异常数据的修复问题一直是一个难题,目前鲜见自动化修复方法。
根据异常识别与修复任务的实际需求以及对现有相关技术的分析,发现需 要解决的问题主要包括:
异常识别中标记数据难以获取,标记缺失的问题。无论是在传统机器学习 还是深度学习中,最为成熟、可靠、可信性最高的往往是有监督算法,而有监 督算法都需要对数据进行明确的标记。也就是说,如果希望有监督学习算法高 效的识别异常数据,前提就是需要对训练数据进行明确的标注哪些是正常的、 哪些是异常的、属于什么异常等。但是在数据量巨大的情况下进行标注是明显 不现实的。本方案针对该问题进行需要研究在无标注的情况下,使用无监督的 方法进行异常识别。
混合属性数据的异常检测问题。对于机器学习而言,单纯的分类型数据可 以通过基于frequent pattern的算法处理,而单纯的数值型数据则有基于密度、距 离、分布、划分等多种算法来识别异常数据。但对于混合型数据,分类型或者 数值型的算法均无法奏效,而这种数据却又是最常见的,因此本方案需要研究 基于混合属性数据的异常学习解决方案,以解决混合属性数据的异常识别问题, 提高数据治理的智能化水平。
以往大多数方法只是检测到了数据集中哪些行是异常值,而没有细分到哪 些单元格是异常的,这意味着通常很难正确地修复异常单元,例如列数很多的 情况下。本方案针对该问题需研究细粒度(cell-level)的异常识别和修复方法。
异常数据的恢复一直是一个难题,尤其是对于混合属性的异常数据修复更 是很少有好的解决方法。传统的大多数方法只是对数据中的异常值进行了识别, 而数据的修复需要人员进行手工修复。然而在海量数据的处理中手工修复工作 量过于巨大,因此必须考虑自动化手段实现异常数据的智能修复。事实上在数 据治理领域,鲜见基于无监督人工智能算法实现智能的异常数据修复。本方案 针对该问题需在异常识别的基础上,给出合理的修复建议。
发明内容
针对现有技术存在的问题,本发明的目的在于:提供一种可用于结构化混 合属性数据异常检测与修复的RV-GNet深度学习网络,结合了变分自编码器 (VariationalAutoencoder,VAE)和生成对抗网络(Generative Adversarial Networks,GAN)两种深度生成模型,通过结合两者的优点使得在生成结果合 理的前提下做到模型的稳定与输出结果质量上的保证。
结合数据特点对VAE进行了鲁棒性改进并调整相关损失函数。对每个特征 使用双分量混合模型,其中一个分量用于解释干净单元(即正常值),另一个分 量用于解释异常单元(即异常值);通过降低异常单元的影响来模拟潜在的正常 数据分布,为数据单元提供异常值分数和对单元修复的估计。从而有效地提升 了模型的抗干扰能力和数据生成效果。
利用无监督深度学习网络实现结构化混合属性数据的cell-level异常检测 并实现数据的修复。不仅仅可以应用于数据治理领域,也可以用于涉及纯分类 型、纯数值型、以及混合型数据各种业务的异常数据识别和修复。
为达到上述目的,本发明采取的技术方案是:一种深度学习驱动的异常识 别与修复方法,包括以下步骤:
S1:数据结构识别,对输入数据的属性类型进行识别和标记,基于一个列 表,描述数据集的所有属性以及每个属性对应的数据类型;
S2:数据特征变换,对原始输入数据进行特征变换形成统一的标准化数值 向量作为神经网络的输入;
S3:异常检测和修复神经网络,正常数据表示为服从某一种分布,则明显 有别于这个分布的数据可视为异常数据,用神经网络来学习正常数据的分布, 从而用这个分布来做异常识别,当输入的是异常数据时,神经网络根据其对于 正常数据的分布学习而尝试输出一个服从正常分布的建议数据,达到修复异常 数据的目的;
S4:异常数据识别与异常修复,标准化数值向量输入到神经网络后,神经 网络对每个特征使用一个双分量混合模型,其中一个分量用于解释正常单元, 另一个分量用于解释异常单元;通过降低异常单元的影响来模拟潜在的正常数 据分布,为数据单元提供异常值分数和对单元修复的估计;
S5:数据特征还原,作为数据特征变换过程的逆过程,数据特征还原阶段 是将神经网络的输出结果还原成原始数据的格式。
上述的深度学习驱动的异常识别与修复方法,在所述步骤S2中,对于具有 n∈{1,...,N}个实例(row)和d∈{1,...,D}个特征(column)的表格数据集X, 其中数据集中的每个单元xnd(第n行d列)可以是连续型数据,即xnd∈R,也可 以是分类型数据即xnd∈{1,..,Cd},其中Cd是分类型特征d的取值空间。
上述的深度学习驱动的异常识别与修复方法,在所述步骤S2中还包括不同 属性类型进行特征变换的过程:
对于分类离散型属性:使用Index映射、Embedding或者ONE-HOT等技术对分类数据进行编码,使 得分类属性可以利用数值表示;
对于数值连续型属性:使用z-score方法进行标准化处理,
Figure RE-GDA0003125584580000021
x为原始数值属性的值,z为经过转换后的z-score,μ为总体样本空间的 均值,σ则为总体样本空间的标准差。
上述的深度学习驱动的异常识别与修复方法,在所述步骤S3中,设置有网 络结构模型,所述网络结构模型包括编码器Encoder,解码器Decoder和/或生成 器Generator,以及判别器Discriminator。
上述的深度学习驱动的异常识别与修复方法,所述网络结构模型中,输入 真实的训练数据x经过网络的Encoder实现从真实数据x到向量z的映射,网络 学习到了真实数据的分布概率函数q(z|x),得到潜在表示z;再将z输入到 Decoder/Generator学习从向量z到真实数据x的映射即概率分布p(x|z),通过反 复学习使得生成器的生成结果
Figure BDA0003066261120000041
越来越接近真实值;
从某个初始分布中随机采样得到潜在表示z_p,将其输入到 Decoder/Generator得到生成的结果x_p;判别器将真实数据样本(x)和生成数 据(
Figure BDA0003066261120000042
和x_p)作为输入,并输出判断结果概率值,概率值的高低代表输入到判 别器的样本是真实样本的概率,通过反复训练,提高判别器区分真实和生成数 据的能力,促进生成器生成与真实数据更为相似的数据。
上述的深度学习驱动的异常识别与修复方法,所述编码器用于获得现实数据 的潜在表示,将真实数据进行数据变换之后的标准向量作为输入,拟合专属于 输入数据所服从的正态分布q(z|x)的均值和方差,输出包括两部分:数据的均值 (μ)和与方差有关的值(logσ),选择拟合logσ而不是直接拟合σ2,是因为 方差总是非负的,需要加激活函数进行处理,而logσ可正可负,不需要加激活 函数;然后与从单位高斯随机采样的ε相结合,最终得到服从正态分布的潜在 表示z,即:
μ,logσ=Enc(x)
Figure BDA0003066261120000043
Enc表示编码器。
所述解码器Decoder和/或生成器Generator用于对潜在表示进行解码,从而 输出生成的结果,解码器的输入包括两部分:一个是所述编码器的输出z,即真 实输入数据的潜在表示;另一个是通过正态分布得到的潜在表示z_p,输出的结 果为:
Figure BDA0003066261120000044
x_p=Dec(z_p)
Dec表示解码器。
所述判别器Discriminator用于判断输入数据的真假,通过反向传播优化生成器,使得生成器生成的结果更好;判别器网络有三个输入,分别是原始的真实 数据和解码器的两个生成结果,即:
真实数据集中的原始数据;
原始数据经过编码器-解码器之后生成的数据;
从某个初始分布中随机采样得到潜在表示,将其输入解码器中生成的 数据。
网络训练到最后,判别器能更精细的鉴别输入判别器中的数据种类,并且原 始数据经过编码器得到的潜在表示与从某个初始分布中随机采样得到潜在表示 不断逼近,最后接近一致。
上述的深度学习驱动的异常识别与修复方法,还包括损失函数,所述损失函 数包括:
重建损失Reconstruction_Loss,测量通过编码器-解码器结构重建后的数据的质量,对于正常数据来说,重建数据和原始数据应该尽可能相似,基于混合属 性的数据异常识别和修复任务中的重构损失为:
Figure BDA0003066261120000051
Figure BDA0003066261120000052
φ为编码器,θ为解码器;πnd(xn)表示单元xnd是正常样本的预测概率,α 是反映我们对数据清洁度的信念的参数;混合变量wnd充当一个门(gate)来确 定单元xnd应该由正常分量(pθ(xnd|zn),wnd=1)还是异常分量(p0(xnd),wnd=0) 来建模;
KL_Loss,确保编码器学习到的分布q(z|x)类似于真实的先验分布,实现异常 识别和修复,在原有的潜在表示z的KL散度损失的基础上,增加了权重w的 KL散度损失,公式如下:
Figure BDA0003066261120000053
Figure BDA0003066261120000054
权重w的KL散度损失(即LKL_w)中的两个参数均为关于权重的伯努利分布, 即:
qπ(wn|xn)=Bernoulli(wndnd(xn)),wnd∈{0,1}
Figure BDA0003066261120000055
对抗性损失Adversarial_Loss,使生成的结果更真实,与真实数据无法区分, 指导生成器更好地恢复训练数据的分布,使生成的数据与真实数据无法区分, 为了避免原始GAN具有模式崩溃和训练不稳定等问题,使用WGAN所提出的 损失函数来定义生成器和判别器之间的对抗关系,并使用WGAN-GP进行优化, 生成器和判别器的损失函数分别为:
Figure BDA0003066261120000061
Figure BDA0003066261120000062
其中,
Figure BDA0003066261120000063
Figure BDA0003066261120000064
是沿着生成数据(解码器的两个输出)和真实数据之间的直线 均匀采样;
优化编码器的目标函数如下:
Lenc=Lrec+LKL_z+LKL_w
优化编码器/生成器的目标函数如下:
Ldec=Lrec+Ladv_g
优化判别器目标函数如下:
Ldis=Ladv_d
上述的深度学习驱动的异常识别与修复方法,在所述步骤S4中,所述正常 单元和异常单元的分量分别表示为:
pθ(xnd|zn),wnd=1
p0(xnd),wnd=0
对于异常单元,用均匀分布来表示分类型特征,用高斯分布来表示连续型特 征:
Figure BDA0003066261120000065
p0(xnd)=N(xnd|0,S),S>1
使用基于混合模型的异常值得分如下:
Cell:logπnd(xn)
Figure BDA0003066261120000066
异常值得分越小意味着异常的概率越大,
神经网络对混合型数据的修复为:
Figure BDA0003066261120000071
上标i表示修复的单元,o对应于异常的单元,对于分类型属性,修复结果 为最高概率类别;对于连续型属性,修复结果为高斯似然的均值;
最终输出异常得分和模型的修复建议数据,实现对异常数据的识别和修复, 以达到数据治理。
上述的深度学习驱动的异常识别与修复方法,在所述步骤S5中,所述还原 过程包括:
分类型属性:根据分类属性的编码过程进行解码,生成原始分类属性值;
连续型属性:反向标准化过程生成原始值。
上述的任一项所述的深度学习驱动的异常识别与修复方法的智能化系统,
包括:
数据管理模块:基于无监督机器学习开展智能化数据治理的基础就是数据, 进行数据治理数据的元数据管理、数据集成管理,负责数据的组织,并依托元 数据管理功能完成算法所需要的数据结构标识;
数据预处理模块:提供多种数据变换手段,完成数据的预处理,将原始的混 合数据类型的记录(row)统一转换为数值型的向量(Vector),形成深度学习神经 网络可以识别的输入,所述数据预处理过程中可以开展的操作包括且不限于:
为分类型属性数据提供不同编码手段;
为数值型数据提供z-score标准化手段;
对日期数据提供转换为数值型的手段;
对于存在相互关系的数值型字段,提供关系变换手段,形成可以表达关系的 多个数值型属性;
深度学习模型管理模块:在模型在生产环境里启用之前,先用历史数据依据 上述算法对模型进行多轮次训练,将训练好的、满足精度要求的模型保存为异 常识别与修复模型,共生产过程加载使用;
异常识别与修复模块:本模块加载深度学习模型管理模块训练好的异常识别 与修复模型,接收数据预处理模块提供的数据,开展输入数据的异常识别,给 不同输入记录row中的不同属性列cell的进行异常评分,并给出建议值;
数据特征还原模块:对异常检测和修复之后的向量进行数据预处理的逆变 换,将数据特征还原到原始状态:原来是分类型的数据还要从向量中的数值表 示还原到对应的分类值;数值型数据也要进行z-score的逆变换才可以恢复到原 始数据的分布空间,形成最终业务可以解读的数据。
本发明一种深度学习驱动的异常识别与修复方法的有益效果是:采用深度 学习方法,对每个特征使用双分量混合模型,其中一个分量用于解释干净单元 (即正常值),另一个分量用于解释异常单元(即异常值);通过降低异常单元 的影响来模拟潜在的正常数据分布,为数据单元提供异常值分数和对单元修复 的估计;将变分自编码器和生成对抗网络两个深度生成模型进行结合,有利于 生成更好的修复结果;最终实现对于混合属性数据的基于无监督和cell-level的 异常识别及修复。
附图说明
图1为本发明异常识别和修复网络整体结构示意图;
图2为本发明异常识别和修复网络中Encoder、Decoder/Generator、Discriminator的具体网络结构;
图3为相关参数表;
图4为本发明异常识别与修复模型流程示意图;
图5为本发明智能化系统工作流程示意图。
具体实施方式
为方便本领域技术人员更好的理解本技术方案,下面结合附图及具体实施 方式对本方案进行详细说明。
如图1-5所示,一种深度学习驱动的异常识别与修复方法,包括以下步骤:
S1:数据结构识别,对输入数据的属性类型进行识别和标记,基于一个列 表,描述数据集的所有属性以及每个属性对应的数据类型;
S2:数据特征变换,对原始输入数据进行特征变换形成统一的标准化数值 向量作为神经网络的输入;
S3:异常检测和修复神经网络,正常数据表示为服从某一种分布,则明显 有别于这个分布的数据可视为异常数据,用神经网络来学习正常数据的分布, 从而用这个分布来做异常识别,当输入的是异常数据时,神经网络根据其对于 正常数据的分布学习而尝试输出一个服从正常分布的建议数据,达到修复异常 数据的目的;
S4:异常数据识别与异常修复,标准化数值向量输入到神经网络后,神经 网络对每个特征使用一个双分量混合模型,其中一个分量用于解释正常单元, 另一个分量用于解释异常单元;通过降低异常单元的影响来模拟潜在的正常数 据分布,为数据单元提供异常值分数和对单元修复的估计;
S5:数据特征还原,作为数据特征变换过程的逆过程,数据特征还原阶段是将 神经网络的输出结果还原成原始数据的格式。
(1)数据结构识别
本发明方法具备处理混合属性数据的能力。所谓混合属性,即允许数据的类 型是数值型、分类型、布尔型、时间类型等。这些不同类型的属性,处理方法 也不同,因此需要对输入数据的属性类型进行识别和标记,基于一个列表,描 述数据集的所有属性以及每个属性对应的数据类型。
(2)数据特征变换
对于原始输入的混合属性数据,可能既包含了分类型(离散)属性(如农村、 城区等)又包含有数值(连续)型属性(如5.5、10、20等)。这种原始形态的 数据无法直接输入到深度神经网络。为此需要对原始输入数据进行特征变换形 成统一的标准化数值向量作为神经网络的输入。
对于具有n∈{1,...,N}个实例(row)和d∈{1,...,D}个特征(column)的 表格数据集X,其中数据集中的每个单元xnd(第n行d列)可以是连续型数据, 即xnd∈R,也可以是分类型数据即xnd∈{1,..,Cd},其中Cd是分类型特征d的 取值空间。
不同属性类型进行特征变换的过程如下:
对于分类(离散)型属性:使用Index映射、Embedding或者ONE-HOT等 技术对分类数据进行编码。使得分类属性可以利用数值表示。
对于数值(连续)型属性:使用z-score方法进行标准化处理,
Figure BDA0003066261120000091
这里的x为原始数值属性的值,z为经过转换后的z-score,μ为总体样本 空间的均值,σ则为总体样本空间的标准差。
(3)RV-GNet网络
本方法采用变分自编码器与生成对抗网络融合的网络结构开展异常检测和 修复,网络结构使用基于深度学习的无监督方法来实现cell-level(即单元格) 的异常识别和修复。从业务本质上来说,正常数据可以表示为服从某一种分布, 则明显有别于这个分布的数据可视为异常数据,因此可以用神经网络来找到正 常数据的分布,从而用这个分布来做异常识别。此外,当输入的是异常数据时, 神经网络也会根据其对于正常数据的分布学习而尝试输出一个服从正常分布的 建议数据,从而达到修复异常数据的目的。
在神经网络异常识别和修复阶段中,本文使用的神经网络的网络结构如图1 所示。模型的网络结构包含三个组成部分:编码器Encoder,解码器Decoder (也是生成器Generator),以及判别器Discriminator。
模型概述为:输入数据(即真实的训练数据)x经过网络的Encoder实现从 真实数据x到向量z的映射,即网络学习到了真实数据的分布概率函数q(z|x), 得到潜在表示z;再将z输入到Decoder/Generator学习从向量z到真实数据x的 映射即概率分布p(x|z),从而通过反复学习使得生成器的生成结果
Figure BDA0003066261120000092
越来越接近 真实值;
另外,从某个初始分布(如正态分布)中随机采样得到潜在表示z_p,将其 输入到Decoder/Generator得到生成的结果x_p;判别器将真实数据样本(x)和 生成数据(
Figure BDA0003066261120000101
和x_p)作为输入,并输出判断结果(即概率值),而概率值的高 低代表输入到判别器的样本是真实样本的概率,通过反复训练,提高判别器区 分真实和生成数据的能力,促进生成器生成与真实数据更为相似的数据。
a.编码器Encoder
编码器的作用是获得现实数据的潜在表示。将真实数据进行数据变换之后的 标准向量作为输入,拟合专属于输入数据所服从的正态分布q(z|x)的均值和方差, 输出包括两部分:数据的均值(μ)和与方差有关的值(logσ),选择拟合log σ而不是直接拟合σ2,是因为方差总是非负的,需要加激活函数进行处理,而 logσ可正可负,因此不需要加激活函数。然后与从单位高斯随机采样的ε相结 合,最终得到服从正态分布的潜在表示z,即:
μ,logσ=Enc(x)
Figure BDA0003066261120000102
其中,Enc表示编码器。
编码器网络结构与参数分别见图2、图3.
b.解码器Decoder/生成器Generator
解码器的作用是对潜在表示进行解码,从而输出生成的结果。解码器的输入 包括两部分:一个是上述编码器的输出z,即真实输入数据的潜在表示;另一个 是通过正态分布得到的潜在表示z_p。输出的结果为:
Figure BDA0003066261120000103
x_p=Dec(z_p)
其中,Dec表示解码器。
解码器网络结构与参数分别见图2、图3.
需要注意的是,解码器为了处理混合类型的数据,需要针对不同的特征类型 选择不同的条件似然p(x|z)。具体来说:
①分类型数据的特征需要经过一层网络和Softmax之后输出结果:
pθ(xnd|zn)=f(ad(zn))
②连续型数据的特征需要经过另一层网络之后输出结果:
pθ(xnd|zn)=N(xnd|md(zn),σd)
其中,md(zn)表示高斯似然的均值,f表示Softmax函数,ad(zn)表示每个类别的 概率的未归一化向量。
将两种数据类型的结果拼接以后的输出才是解码器最终的输出。
c.判别器Discriminator
作为一种基于深度学习的优秀的生成式模型,GAN其通过生成器网络和判别 器网络进行对抗博弈来学习数据分布,从而达到生成真实样本的目的,已经成 为最有前景的无监督方法之一。上述解码器网络作为生成器实现了数据生成, 而判别器的作用是判断输入数据的真假,从而通过反向传播优化生成器,从而 使得生成器生成的结果更好。本文中,我们的判别器网络有三个输入,分别是 原始的真实数据和解码器的两个生成结果,即:
真实数据集中的原始数据(真实数据);
原始数据经过编码器-解码器之后生成的数据(重建数据);
从某个初始分布(如正态分布)中随机采样得到潜在表示,将其输入解码器 中生成的数据(生成数据)。
最终,判别器能更精细的鉴别输入判别器中的数据种类(真实数据、重建数 据、与生成数据),并且原始数据经过编码器得到的潜在表示与从某个初始分布 中随机采样得到潜在表示不断逼近,最后接近一致。
判别器网络结构与参数分别见图2、图3.
d.损失函数
本文的损失函数包括以下三种类型的损失:(1)重建损失 (Reconstruction_Loss),目的是测量通过编码器-解码器结构重建后的数据的质 量;(2)KL_Loss,目的是确保编码器学习到的分布q(z|x)类似于真实的先验分布; (3)对抗性损失(Adversarial_Loss),目的是使生成的结果更真实,与真实数据 无法区分。
i.重建损失(Reconstruction_Loss)
重建损失的作用是保证生成的结果近似于原来的真实输入数据。对于正常数 据来说,重建数据和原始数据应该尽可能相似。因此本文在基于混合属性的数 据异常识别和修复任务中的重构损失为:
Figure BDA0003066261120000111
Figure BDA0003066261120000112
其中,φ为编码器,θ为解码器;πnd(xn)表示单元xnd是正常样本的预测概 率,α是反映我们对数据清洁度的信念的参数;混合变量wnd充当一个门(gate) 来确定单元xnd应该由正常分量(pθ(xnd|zn),wnd=1)还是异常分量(p0(xnd), wnd=0)来建模。
ii.KL_Loss
本文中,为了实现异常识别和修复的目的,我们在原有的潜在表示z的KL 散度损失的基础上,增加了权重w的KL散度损失,公式如下:
Figure BDA0003066261120000121
Figure BDA0003066261120000122
其中,权重w的KL散度损失(即LKL_w)中的两个参数均为关于权重的伯努利 分布,即:
qπ(wn|xn)=Bernoulli(wndnd(xn)),wnd∈{0,1}
Figure BDA0003066261120000123
iii.对抗性损失(Adversarial_Loss)
本文中,对抗性损失被用来指导生成器更好地恢复训练数据的分布,使生成 的数据与真实数据无法区分。同时为了避免原始GAN具有模式崩溃和训练不稳 定等问题,因此使用WGAN所提出的损失函数来定义生成器和判别器之间的对 抗关系,并使用WGAN-GP进行优化,生成器和判别器的损失函数分别为:
Figure BDA0003066261120000124
Figure BDA0003066261120000125
其中,
Figure BDA0003066261120000126
Figure BDA0003066261120000127
是沿着生成数据(解码器的两个输出)和真实数据之间的直线均匀采样。λgp是梯度惩罚的系数,根据经验设定为10。
iv.总体目标函数
最后,优化编码器的目标函数如下:
Lenc=Lrec+LKL_z+LKL_w
优化解码器/生成器的目标函数如下:
Ldec=Lrec+Ladv_g
优化判别器目标函数如下:
Ldis=Ladv_d
(4)异常数据识别与异常修复
标准化数据输入到神经网络后,神经网络对每个特征使用一个双分量混合模 型,其中一个分量用于解释正常单元,另一个分量用于解释异常单元;通过降 低异常单元的影响来模拟潜在的正常数据分布,为数据单元提供异常值分数和 对单元修复的估计。正常单元和异常单元的分量分别表示为:
pθ(xnd|zn),wnd=1
p0(xnd),wnd=0
对于异常单元来说,我们用均匀分布来表示分类型特征,用高斯分布来表示 连续型特征,即:
Figure BDA0003066261120000131
p0(xnd)=N(xnd|0,S),S>1
我们使用基于混合模型的异常值得分如下:
Cell:logπnd(xn)
Figure BDA0003066261120000132
异常值得分越小意味着异常的概率越大。
神经网络对混合型数据的修复为:
Figure BDA0003066261120000133
其中上标i表示修复的单元,o对应于异常的单元。具体来说,对于分类型 属性,修复结果为最高概率类别;对于连续型属性,修复结果为高斯似然的均 值。
最终输出异常得分和模型的修复建议数据,实现对异常数据的识别和修复, 达到数据治理的目的。
(5)数据特征还原
作为数据特征变换过程的逆过程,数据特征还原阶段是将神经网络的输出结 果(标准化数据)还原成原始数据的格式。针对混合类型的数据,标准化的还 原过程如下:
分类型属性:根据分类属性的编码过程进行解码,生成原始分类属性值;
连续型属性:反向标准化过程生成原始值。
实验数据以及算法效果说明:
将上述算法在某电网公司的数据治理试点项目中予以验证。项目中需要对 电力客户的基础档案开展异常数据识别,并对问题数据进行修正。鉴于该电网 电力客户数量超过一千万,无法依托人工开展异常数据的识别和修复,为此采 用深度学习算法进行。
该项目中数据均根据需要进行脱敏,部分数据如下表所示:
Figure BDA0003066261120000141
Figure BDA0003066261120000151
其中,第一列为当前记录唯一标识,不纳入异常检测范围。
将算法在项目中进行应用之后,在不需要人工干预的情况下,经过训练之 后的模型在实验中取得了令人满意的效果。可以有效的对存在异常的数据单元 (cell)通过评分进行识别,进而基于学习结果进行修正。部分检测出来的异常数 据以及修复结果如下表:
Figure BDA0003066261120000161
从上表可知:共列出了四条异常记录,每条异常记录由三行数据构成:第一 行表示该条记录(row)的每个单元格(cell)异常值得分;第二行代表的是输入的 真实数据,第三行表示的是RV-GNet神经网络输出的生成数据。从每一条异常 记录的每个单元(cell)的异常评分结果可知,在模型充分学习了业务真实数据的 分布之后,对于正常的cell其评分结果相对较高,而对于异常cell,其评分结果 远远低于正常值。因此可以将评分远低于正常水品的cell设置为异常数据。
为了使结果便于观察,将三条记录的异常数据元的异常得分、修复前数据、 修复后结果列出见下表:
Figure BDA0003066261120000171
结果分析如下:
第一组数据中,分类属性“城乡类别”与分类属性“用户分类”和分类属 性“用电类别”有关,因此当“用户分类”和“用电类别”分别为“城网低压 居民”和“城镇居民生活用电”时,“城乡类别”=“农村”为异常单元,修复 结果改为“城区”;修改结果与业务事实相吻合;
第二组数据中:实际业务数据中数值型属性“运行容量”与数值型属性“合 同容量”有关,业务数据表明绝大多数的数据“运行容量”应该与“合同容量” 相符,因此数据修复结果改为8;
第三组数据中,分类属性“接线方式”和分类属性“电压等级”有关。业 务系统中当电压等级为"380v"时“接线方式”为“三相四线”;而电压等级为 "220v"时“接线方式”为“单相”。当前记录的电压等级为"380v",其接线方式“单 相”为异常单元,修复结果改为“三相四线”,符合业务规范;
第四组数据中,数值属性”综合倍率“的原始输入为30。但是实际业务系 统中,系统容量和用电类别等其他属性的用户,其综合倍率均为1,因此判断” 综合倍率“为异常单元,将结果修复为1,符合业务事实。
从上述修复结果和分析可以看出,本方法所设计的模型可以较为准确的识 别异常单元(cell),并可以依据数据分布对异常进行修复,其异常定位与数据 修复的效果较为理想。
如图5所示,在此方法基础上,本发明还提供了一个智能化软件系统,依 托无监督学习方法开展数据的智能化治理。
本软件系统的构成如下:
数据管理模块:基于无监督机器学习开展智能化数据治理的基础就是数据。 为此在系统中设置有数据管理模块,负责需要进行数据治理数据的元数据管理、 数据集成管理,也就是负责数据的组织,并依托元数据管理功能完成算法所需 要的数据结构标识。
数据预处理模块:本模块提供多种数据变换手段,完成数据的预处理,从 而将原始的混合数据类型的记录(row)统一转换为数值型的向量(Vector),形成 深度学习神经网络可以识别的输入。数据预处理过程中可以开展的操作包括且 不限于:
为分类型属性数据提供不同编码手段,例如Index、One-hot、Embedding 等;
为数值型数据提供z-score标准化手段;
对日期数据提供转换为数值型的手段;
对于存在相互关系的数值型字段,提供关系变换手段,形成可以表达关系 的多个数值型属性。
深度学习模型管理模块:实际生产环境中,数据是持续产生的,需要在很 短的时间内就判别出异常数据并完成修复,因此如果进行在线的模型训练和异 常识别与修正肯定是无法满足实际要求的。本系统设置有一个深度学习模型管 理模块,在模型在生产环境里启用之前,先用历史数据依据上述算法对模型进 行多轮次训练。这个过程比较耗时,可以离线进行。将训练好的、满足精度要 求的模型保存为异常识别与修复模型,共生产过程加载使用。一旦生产数据分 布变化导致模型精度性能下降,则可以根据需要重新训练新模型。采用这种措 施避免了模型训练对正常生产过程的干扰。
异常识别与修复模块:本模块加载深度学习模型管理模块训练好的异常识 别与修复模型,然后接收数据预处理模块提供的数据,开展输入数据的异常识 别,给不同输入记录row中的不同属性列cell的进行异常评分,并给出建议值。
数据特征还原模块:因为输入到深度学习模型中的数据都是经过转换处理 之后的,与原始值存在极大的差异。因此异常检测和修复之后,还需要对该向 量进行数据预处理的逆变换,将数据特征还原到原始状态:原来是分类型的数 据还要从向量中的数值表示还原到对应的分类值;数值型数据也要进行z-score 的逆变换才可以恢复到原始数据的分布空间。从而形成最终业务可以解读的数 据。
本发明采用深度学习方法,对每个特征使用双分量混合模型,其中一个分量 用于解释干净单元(即正常值),另一个分量用于解释异常单元(即异常值); 通过降低异常单元的影响来模拟潜在的正常数据分布,为数据单元提供异常值 分数和对单元修复的估计;将变分自编码器和生成对抗网络两个深度生成模型 进行结合,有利于生成更好的修复结果;最终实现对于混合属性数据的基于无 监督和cell-level的异常识别及修复。
上述实施例只是为了说明本发明的结构构思和特点,其目的在于让本领域内 的普通技术人员能够了解本发明的内容并据以实施,并不能以此限定本发明的 保护范围。凡是根据本发明内容的实质所做出的等效变化或修饰,都应该涵盖 在本发明的保护范围之内。

Claims (10)

1.一种深度学习驱动的异常识别与修复方法,其特征在于:包括以下步骤:
S1:数据结构识别,对输入数据的属性类型进行识别和标记,基于一个列表,描述数据集的所有属性以及每个属性对应的数据类型;
S2:数据特征变换,对原始输入数据进行特征变换形成统一的标准化数值向量作为神经网络的输入;
S3:训练异常检测和修复神经网络,正常数据表示为服从某一种分布,则明显有别于这个分布的数据可视为异常数据,用神经网络来学习正常数据的分布,从而用这个分布来做异常识别,当输入的是异常数据时,神经网络根据其对于正常数据的分布学习而尝试输出一个服从正常分布的建议数据,达到修复异常数据的目的;
S4:异常数据识别与异常修复,标准化数值向量输入到神经网络后,神经网络对每个特征使用一个双分量混合模型,其中一个分量用于解释正常单元,另一个分量用于解释异常单元;通过降低异常单元的影响来模拟潜在的正常数据分布,为数据单元提供异常值分数和对单元修复的估计;
S5:数据特征还原,作为数据特征变换过程的逆过程,数据特征还原阶段是将神经网络的输出结果还原成原始数据的格式。
2.根据权利要求1所述的深度学习驱动的异常识别与修复方法,其特征是:在所述步骤S2中,对于具有n∈{1,...,N}个实例(row)和d∈{1,...,D}个特征(column)的表格数据集X,其中数据集中的每个单元xnd(第n行d列)可以是连续型数据,即xnd∈R,也可以是分类型数据即xnd∈{1,..,Cd},其中Cd是分类型特征d的取值空间。
3.根据权利要求2所述的深度学习驱动的异常识别与修复方法,其特征是:在所述步骤S2中还包括不同属性类型进行特征变换的过程:
对于分类离散型属性:使用Index映射、Embedding或者ONE-HOT等技术对分类数据进行编码,使得分类属性可以利用数值表示;
对于数值连续型属性:使用z-score方法进行标准化处理,
Figure FDA0003066261110000011
x为原始数值属性的值,z为经过转换后的z-score,μ为总体样本空间的均值,σ则为总体样本空间的标准差。
4.根据权利要求1所述的深度学习驱动的异常识别与修复方法,其特征是:在所述步骤S3中,设置有网络结构模型,所述网络结构模型包括编码器Encoder,解码器Decoder和/或生成器Generator,以及判别器Discriminator。
5.根据权利要求4所述的深度学习驱动的异常识别与修复方法,其特征是:所述网络结构模型中,输入真实的训练数据x经过网络的Encoder实现从真实数据x到向量z的映射,网络学习到了真实数据的分布概率函数q(z|x),得到潜在表示z;再将z输入到Decoder/Generator学习从向量z到真实数据x的映射即概率分布p(x|z),通过反复学习使得生成器的生成结果
Figure FDA0003066261110000022
越来越接近真实值;
从某个初始分布中随机采样得到潜在表示z_p,将其输入到Decoder/Generator得到生成的结果x_p;判别器将真实数据样本(x)和生成数据(
Figure FDA0003066261110000023
和x_p)作为输入,并输出判断结果概率值,概率值的高低代表输入到判别器的样本是真实样本的概率,通过反复训练,提高判别器区分真实和生成数据的能力,促进生成器生成与真实数据更为相似的数据。
6.根据权利要求5所述的深度学习驱动的异常识别与修复方法,其特征是:所述编码器用于获得现实数据的潜在表示,将真实数据进行数据变换之后的标准向量作为输入,拟合专属于输入数据所服从的正态分布q(z|x)的均值和方差,输出包括两部分:数据的均值(μ)和与方差有关的值(logσ),选择拟合logσ而不是直接拟合σ2,是因为方差总是非负的,需要加激活函数进行处理,而logσ可正可负,不需要加激活函数;然后与从单位高斯随机采样的ε相结合,最终得到服从正态分布的潜在表示z,即:
μ,logσ=Enc(x)
Figure FDA0003066261110000021
Enc表示编码器,
所述解码器Decoder和/或生成器Generator用于对潜在表示进行解码,从而输出生成的结果,解码器的输入包括两部分:一个是所述编码器的输出z,即真实输入数据的潜在表示;另一个是通过正态分布得到的潜在表示z_p,输出的结果为:
Figure FDA0003066261110000031
x_p=Dec(z_p)
Dec表示解码器,
所述判别器Discriminator用于判断输入数据的真假,通过反向传播优化生成器,使得生成器生成的结果更好;判别器网络有三个输入,分别是原始的真实数据和解码器的两个生成结果,即:
真实数据集中的原始数据;
原始数据经过编码器-解码器之后生成的数据;
从某个初始分布中随机采样得到潜在表示,将其输入解码器中生成的数据,
网络训练到最后,判别器能更精细的鉴别输入判别器中的数据种类,并且原始数据经过编码器得到的潜在表示与从某个初始分布中随机采样得到潜在表示不断逼近,最后接近一致。
7.根据权利要求6所述的深度学习驱动的异常识别与修复方法,其特征是:网络的训练还包括损失函数,所述损失函数包括:
(1)重建损失Reconstruction_Loss,测量通过编码器-解码器结构重建后的数据的质量,对于正常数据来说,重建数据和原始数据应该尽可能相似,基于混合属性的数据异常识别和修复任务中的重构损失为:
Figure FDA0003066261110000032
Figure FDA0003066261110000033
φ为编码器,θ为解码器;πnd(xn)表示单元xnd是正常样本的预测概率,α是反映我们对数据清洁度的信念的参数;混合变量wnd充当一个门(gate)来确定单元xnd应该由正常分量(pθ(xnd|zn),wnd=1)还是异常分量(p0(xnd),wnd=0)来建模;
(2)KL_Loss,确保编码器学习到的分布q(z|x)类似于真实的先验分布,实现异常识别和修复,在原有的潜在表示z的KL散度损失的基础上,增加了权重w的KL散度损失,公式如下:
Figure FDA0003066261110000041
Figure FDA0003066261110000042
权重w的KL散度损失(即LKL_w)中的两个参数均为关于权重的伯努利分布,即:
qπ(wn|xn)=Bernoulli(wndnd(xn)),wnd∈{0,1}
Figure FDA0003066261110000043
(3)对抗性损失Adversarial_Loss,使生成的结果更真实,与真实数据无法区分,指导生成器更好地恢复训练数据的分布,使生成的数据与真实数据无法区分,为了避免原始GAN具有模式崩溃和训练不稳定等问题,使用WGAN所提出的损失函数来定义生成器和判别器之间的对抗关系,并使用WGAN-GP进行优化,生成器和判别器的损失函数分别为:
Figure FDA0003066261110000044
Figure FDA0003066261110000045
其中,
Figure FDA0003066261110000046
Figure FDA0003066261110000047
是沿着生成数据(解码器的两个输出)和真实数据之间的直线均匀采样;
优化编码器的目标函数如下:
Lenc=Lrec+LKL_z+LKL_w
优化解码器/生成器的目标函数如下:
Ldec=Lrec+Ladv_g
优化判别器目标函数如下:
Ldis=Ladv_d
8.根据权利要求1所述的深度学习驱动的异常识别与修复方法,其特征是:在所述步骤S4中,所述正常单元和异常单元的分量分别表示为:
pθ(xnd|zn),wnd=1
p0(xnd),wnd=0
对于异常单元,用均匀分布来表示分类型特征,用高斯分布来表示连续型特征:
Figure FDA0003066261110000051
p0(xnd)=N(xnd|0,S),S>1
使用基于混合模型的异常值得分如下:
Cell:logπnd(xn)
Row:
Figure FDA0003066261110000052
异常值得分越小意味着异常的概率越大,
神经网络对混合型数据的修复为:
Figure FDA0003066261110000053
上标i表示修复的单元,o对应于异常的单元,对于分类型属性,修复结果为最高概率类别;对于连续型属性,修复结果为高斯似然的均值;
最终输出异常得分和模型的修复建议数据,实现对异常数据的识别和修复,以达到数据治理。
9.根据权利要求1所述的深度学习驱动的异常识别与修复方法,其特征是:在所述步骤S5中,所述还原过程包括:
分类型属性:根据分类属性的编码过程进行解码,生成原始分类属性值;
连续型属性:反向标准化过程生成原始值。
10.一种如权利要求1-9任一项所述的深度学习驱动的异常识别与修复方法的智能化系统,包括:
数据管理模块:基于无监督机器学习开展智能化数据治理的基础就是数据,进行数据治理数据的元数据管理、数据集成管理,负责数据的组织,并依托元数据管理功能完成算法所需要的数据结构标识;
数据预处理模块:提供多种数据变换手段,完成数据的预处理,将原始的混合数据类型的记录(row)统一转换为数值型的向量(Vector),形成深度学习神经网络可以识别的输入,所述数据预处理过程中可以开展的操作包括且不限于:
为分类型属性数据提供不同编码手段;
为数值型数据提供z-score标准化手段;
对日期数据提供转换为数值型的手段;
对于存在相互关系的数值型字段,提供关系变换手段,形成可以表达关系的多个数值型属性;
深度学习模型管理模块:在模型在生产环境里启用之前,先用历史数据依据上述算法对模型进行多轮次训练,将训练好的、满足精度要求的模型保存为异常识别与修复模型,共生产过程加载使用;
异常识别与修复模块:本模块加载深度学习模型管理模块训练好的异常识别与修复模型,接收数据预处理模块提供的数据,开展输入数据的异常识别,给不同输入记录row中的不同属性列cell的进行异常评分,并给出建议值;
数据特征还原模块:对异常检测和修复之后的向量进行数据预处理的逆变换,将数据特征还原到原始状态:原来是分类型的数据还要从向量中的数值表示还原到对应的分类值;数值型数据也要进行z-score的逆变换才可以恢复到原始数据的分布空间,形成最终业务可以解读的数据。
CN202110528781.1A 2021-05-14 2021-05-14 一种深度学习驱动的异常识别与修复方法及智能化系统 Active CN113240011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110528781.1A CN113240011B (zh) 2021-05-14 2021-05-14 一种深度学习驱动的异常识别与修复方法及智能化系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110528781.1A CN113240011B (zh) 2021-05-14 2021-05-14 一种深度学习驱动的异常识别与修复方法及智能化系统

Publications (2)

Publication Number Publication Date
CN113240011A true CN113240011A (zh) 2021-08-10
CN113240011B CN113240011B (zh) 2023-04-07

Family

ID=77134410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110528781.1A Active CN113240011B (zh) 2021-05-14 2021-05-14 一种深度学习驱动的异常识别与修复方法及智能化系统

Country Status (1)

Country Link
CN (1) CN113240011B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705490A (zh) * 2021-08-31 2021-11-26 重庆大学 基于重构和预测的异常检测方法
CN113949549A (zh) * 2021-10-08 2022-01-18 东北大学 一种面向入侵和攻击防御的实时流量异常检测方法
CN114925808A (zh) * 2022-04-15 2022-08-19 北京理工大学 一种基于云网端资源中不完整时间序列的异常检测方法
CN115221233A (zh) * 2022-09-21 2022-10-21 华中科技大学 基于深度学习的变电站多类带电检测数据异常检测方法
CN116186501A (zh) * 2023-04-20 2023-05-30 四川中电启明星信息技术有限公司 一种用户电表采集数据修复方法、系统、电子设备及介质
CN116304604B (zh) * 2023-05-12 2023-08-18 合肥工业大学 多变量时间序列数据异常检测、模型训练方法和系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948117A (zh) * 2019-03-13 2019-06-28 南京航空航天大学 一种对抗网络自编码器的卫星异常检测方法
CN110544168A (zh) * 2019-08-19 2019-12-06 同济大学 一种基于生成对抗网络的弱监督互联网金融反欺诈方法
CN110874778A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 异常订单检测方法及装置
US20200128047A1 (en) * 2018-10-19 2020-04-23 Oracle International Corporation Autonomous monitoring of applications in a cloud environment
CN111461565A (zh) * 2020-04-09 2020-07-28 国网山东省电力公司 一种电力调控下的电源侧发电性能评估方法
CN112014821A (zh) * 2020-08-27 2020-12-01 电子科技大学 一种基于雷达宽带特征的未知车辆目标识别方法
WO2020255224A1 (ja) * 2019-06-17 2020-12-24 日本電信電話株式会社 異常検知装置、学習装置、異常検知方法、学習方法、異常検知プログラム、及び学習プログラム
US20210049452A1 (en) * 2019-08-15 2021-02-18 Intuit Inc. Convolutional recurrent generative adversarial network for anomaly detection
CN112465124A (zh) * 2020-12-15 2021-03-09 武汉智能装备工业技术研究院有限公司 孪生深度时空神经网络模型获取/故障诊断方法、装置
CN112529678A (zh) * 2020-12-23 2021-03-19 华南理工大学 一种基于自监督判别式网络的金融指数时序异常检测方法
US10956808B1 (en) * 2020-03-12 2021-03-23 Fractal Analytics Private Limited System and method for unsupervised anomaly detection
CN112597831A (zh) * 2021-02-22 2021-04-02 杭州安脉盛智能技术有限公司 一种基于变分自编码器和对抗网络的信号异常检测方法
CN112688928A (zh) * 2020-12-18 2021-04-20 中国科学院信息工程研究所 结合自编码器和wgan的网络攻击流量数据增强方法及系统
CN112733954A (zh) * 2021-01-20 2021-04-30 湖南大学 一种基于生成对抗网络的异常流量检测方法
CN112766425A (zh) * 2021-03-25 2021-05-07 浙江师范大学 一种基于最优传输的深度缺失聚类机器学习方法及系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874778A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 异常订单检测方法及装置
US20200128047A1 (en) * 2018-10-19 2020-04-23 Oracle International Corporation Autonomous monitoring of applications in a cloud environment
CN109948117A (zh) * 2019-03-13 2019-06-28 南京航空航天大学 一种对抗网络自编码器的卫星异常检测方法
WO2020255224A1 (ja) * 2019-06-17 2020-12-24 日本電信電話株式会社 異常検知装置、学習装置、異常検知方法、学習方法、異常検知プログラム、及び学習プログラム
US20210049452A1 (en) * 2019-08-15 2021-02-18 Intuit Inc. Convolutional recurrent generative adversarial network for anomaly detection
CN110544168A (zh) * 2019-08-19 2019-12-06 同济大学 一种基于生成对抗网络的弱监督互联网金融反欺诈方法
US10956808B1 (en) * 2020-03-12 2021-03-23 Fractal Analytics Private Limited System and method for unsupervised anomaly detection
CN111461565A (zh) * 2020-04-09 2020-07-28 国网山东省电力公司 一种电力调控下的电源侧发电性能评估方法
CN112014821A (zh) * 2020-08-27 2020-12-01 电子科技大学 一种基于雷达宽带特征的未知车辆目标识别方法
CN112465124A (zh) * 2020-12-15 2021-03-09 武汉智能装备工业技术研究院有限公司 孪生深度时空神经网络模型获取/故障诊断方法、装置
CN112688928A (zh) * 2020-12-18 2021-04-20 中国科学院信息工程研究所 结合自编码器和wgan的网络攻击流量数据增强方法及系统
CN112529678A (zh) * 2020-12-23 2021-03-19 华南理工大学 一种基于自监督判别式网络的金融指数时序异常检测方法
CN112733954A (zh) * 2021-01-20 2021-04-30 湖南大学 一种基于生成对抗网络的异常流量检测方法
CN112597831A (zh) * 2021-02-22 2021-04-02 杭州安脉盛智能技术有限公司 一种基于变分自编码器和对抗网络的信号异常检测方法
CN112766425A (zh) * 2021-03-25 2021-05-07 浙江师范大学 一种基于最优传输的深度缺失聚类机器学习方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
季琳雅等: "基于对抗自编码网络的水利数据补全方法", 《计算机工程》 *
彭中联等: ""基于改进CGANs的入侵检测方法研究"" *
李晔等: "基于密度峰值的混合型数据聚类算法设计", 《计算机应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705490A (zh) * 2021-08-31 2021-11-26 重庆大学 基于重构和预测的异常检测方法
CN113705490B (zh) * 2021-08-31 2023-09-12 重庆大学 基于重构和预测的异常检测方法
CN113949549A (zh) * 2021-10-08 2022-01-18 东北大学 一种面向入侵和攻击防御的实时流量异常检测方法
CN114925808A (zh) * 2022-04-15 2022-08-19 北京理工大学 一种基于云网端资源中不完整时间序列的异常检测方法
CN114925808B (zh) * 2022-04-15 2023-10-10 北京理工大学 一种基于云网端资源中不完整时间序列的异常检测方法
CN115221233A (zh) * 2022-09-21 2022-10-21 华中科技大学 基于深度学习的变电站多类带电检测数据异常检测方法
CN116186501A (zh) * 2023-04-20 2023-05-30 四川中电启明星信息技术有限公司 一种用户电表采集数据修复方法、系统、电子设备及介质
CN116304604B (zh) * 2023-05-12 2023-08-18 合肥工业大学 多变量时间序列数据异常检测、模型训练方法和系统

Also Published As

Publication number Publication date
CN113240011B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN113240011B (zh) 一种深度学习驱动的异常识别与修复方法及智能化系统
CN101968853B (zh) 基于改进的免疫算法优化支持向量机参数的表情识别方法
CN111314353B (zh) 一种基于混合采样的网络入侵检测方法及系统
CN109902740B (zh) 一种基于多算法融合并行的再学习工业控制入侵检测方法
CN111710150A (zh) 一种基于对抗自编码网络的异常用电数据检测方法
CN109711483B (zh) 一种基于Sparse Autoencoder的电力系统运行方式聚类方法
CN110929843A (zh) 一种基于改进深度自编码网络的异常用电行为辨识方法
CN113361559B (zh) 基于深宽度联合神经网络的多模态数据知识信息提取方法
CN112907222B (zh) 一种多源异构电网运监业务数据融合方法
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
CN111008224A (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN113971735A (zh) 一种深度图像聚类方法、系统、设备、介质及终端
CN112966088A (zh) 未知意图的识别方法、装置、设备及存储介质
CN114896392A (zh) 工单数据的聚类方法、装置、电子设备及存储介质
CN115600602B (zh) 一种长文本的关键要素抽取方法、系统及终端设备
CN109635008B (zh) 一种基于机器学习的设备故障检测方法
CN114418111A (zh) 标签预测模型训练及样本筛选方法、装置、存储介质
CN114332491A (zh) 一种基于特征重构的显著性目标检测算法
CN113723497A (zh) 基于混合特征提取及Stacking模型的异常用电检测方法、装置、设备及存储介质
CN112348275A (zh) 一种基于在线增量学习的区域生态环境变化预测方法
CN112463894A (zh) 一种基于条件互信息和交互信息的多标签特征选择方法
CN115392615B (zh) 基于信息增强生成对抗网络的数据缺失值补全方法及系统
CN111126620B (zh) 一种用于时间序列的特征指纹生成方法及应用
CN117725454B (zh) 一种输电线路缺陷特征分布学习方法
Xuejun et al. Lstm network for carrier module detection data classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant