CN113240011B

CN113240011B - 一种深度学习驱动的异常识别与修复方法及智能化系统

Info

Publication number: CN113240011B
Application number: CN202110528781.1A
Authority: CN
Inventors: 于瑞强; 郇长武; 宋晓霞; 杜星学; 李锐; 徐国智; 董仁玮; 赵轩臣; 孙汉福; 刘效强; 赵勇
Original assignee: YANTAI HAIYI SOFTWARE CO Ltd
Current assignee: YANTAI HAIYI SOFTWARE CO Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2023-04-07
Anticipated expiration: 2041-05-14
Also published as: CN113240011A

Abstract

本发明涉及数据处理领域，具体涉及一种深度学习驱动的异常识别与修复方法及智能化系统。包括以下步骤：S1：数据结构识别，S2：数据特征变换，S3：训练异常检测和修复神经网络，S4：异常数据识别与异常修复，S5：数据特征还原。采用深度学习方法，对每个特征使用双分量混合模型，其中一个分量用于解释干净单元(即正常值)，另一个分量用于解释异常单元(即异常值)；通过降低异常单元的影响来模拟潜在的正常数据分布，为数据单元提供异常值分数和对单元修复的估计；将变分自编码器和生成对抗网络两个深度生成模型进行结合，有利于生成更好的修复结果；最终实现利用无监督学习方式对混合属性数据进行cell‑level(单元级别)的异常识别及修复。

Description

一种深度学习驱动的异常识别与修复方法及智能化系统

技术领域

本发明涉及数据处理领域，具体涉及一种深度学习驱动的异常识别与修复方法及智能化系统。

背景技术

随着大数据时代的到来，在如何有效充分地利用海量数据进行数据挖掘和利用、并发挥数据潜在价值的问题中，数值治理发挥着巨大的作用。数据治理有助于提高数据质量，增强数据的可用性，保证数据的规范性、一致性和完整性。另外，实际数据中，异常数据是普遍存在且无规律可言的。这些异常数据导致在开展数据分析、运用数据决策时存在较大的阻碍甚至是风险，严重影响了数据价值的发挥，增加了数据治理的难度。而传统上异常数据的识别往往是基于领域经验总结成的规则开展的，普遍存在规则无法满足异常识别要求的问题；而对于数据修复，更是只有依靠简单粗暴的经验值设定、或者由人工逐条干预修订。这远远无法满足大数据时代下海量数据的高性能、高效率、高价值应用的需求。

异常识别在生产中应用广泛，采用的技术主要有基于规则处理、基于统计学处理和基于机器学习处理，在机器学习处理方法中，根据数据的标签情况，又分为有监督、半监督和无监督三种情况。

基于规则的方法需要通过设计算法自动提取或专家手工制定来获取规则，然后判断行为是否和异常规则相似，这种方法缺点是耗时较长、受限于专家知识、规则库需要经常更新等。3σ准则、箱型图、Grubbs检验和时间序列建模等基于统计学的方法虽然对低维数据友好，但是对假设依赖比较严重。

使用机器学习进行异常识别的方法包括基于统计分布、基于距离、基于密度、基于聚类和基于树的无监督方法；one-class SVM、支持向量数据描述(Support Vector DataDescription,SVDD)、高斯混合模型(Gaussian Mixture Model,GMM)和自编码器(AutoEncoder,AE)等半监督方法，但是需要标注正常数据；有监督方法如逻辑回归(Logistic Regression,LR)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)和神经网络(Neural Network,NN)等，但是需要解决数据标注问题，且要注意类别不均衡现象，不适用于识别新类别。

目前基于深度学习的异常识别大致分为有监督的深度异常识别、半监督的深度异常识别、One-class神经网络(One-class neural networks,OC-NN)、混合深度异常识别和无监督的深度异常识别。其中在无监督模型中，变分自编码器(VariationalAutoencoders,VAE)和生成对抗网络(Generative Adversarial Networks，GAN)作为强大的深度生成模型，用于异常识别主要是通过网络学习正常数据的分布，然后通过判断生成的结果与原始输入数据的差异，差异较大的为异常来实现。而相关深度学习方法存在的问题包括：(1)所采用的基于变分自编码器的生成网络在训练过程中无法自动识别潜在的离群值来提高鲁棒性，(2)GAN训练过程中的鲁棒性、可靠性有待进一步加强。

而异常数据的修复问题一直是一个难题，目前鲜见自动化修复方法。

根据异常识别与修复任务的实际需求以及对现有相关技术的分析，发现需要解决的问题主要包括：

异常识别中标记数据难以获取，标记缺失的问题。无论是在传统机器学习还是深度学习中，最为成熟、可靠、可信性最高的往往是有监督算法，而有监督算法都需要对数据进行明确的标记。也就是说，如果希望有监督学习算法高效的识别异常数据，前提就是需要对训练数据进行明确的标注哪些是正常的、哪些是异常的、属于什么异常等。但是在数据量巨大的情况下进行标注是明显不现实的。本方案针对该问题进行需要研究在无标注的情况下，使用无监督的方法进行异常识别。

混合属性数据的异常检测问题。对于机器学习而言，单纯的分类型数据可以通过基于frequent pattern的算法处理，而单纯的数值型数据则有基于密度、距离、分布、划分等多种算法来识别异常数据。但对于混合型数据，分类型或者数值型的算法均无法奏效，而这种数据却又是最常见的，因此本方案需要研究基于混合属性数据的异常学习解决方案，以解决混合属性数据的异常识别问题，提高数据治理的智能化水平。

以往大多数方法只是检测到了数据集中哪些行是异常值，而没有细分到哪些单元格是异常的，这意味着通常很难正确地修复异常单元，例如列数很多的情况下。本方案针对该问题需研究细粒度(cell-level)的异常识别和修复方法。

异常数据的恢复一直是一个难题，尤其是对于混合属性的异常数据修复更是很少有好的解决方法。传统的大多数方法只是对数据中的异常值进行了识别，而数据的修复需要人员进行手工修复。然而在海量数据的处理中手工修复工作量过于巨大，因此必须考虑自动化手段实现异常数据的智能修复。事实上在数据治理领域，鲜见基于无监督人工智能算法实现智能的异常数据修复。本方案针对该问题需在异常识别的基础上，给出合理的修复建议。

发明内容

针对现有技术存在的问题，本发明的目的在于：提供一种可用于结构化混合属性数据异常检测与修复的RV-GNet深度学习网络，结合了变分自编码器(VariationalAutoencoder，VAE)和生成对抗网络(Generative Adversarial Networks，GAN)两种深度生成模型，通过结合两者的优点使得在生成结果合理的前提下做到模型的稳定与输出结果质量上的保证。

结合数据特点对VAE进行了鲁棒性改进并调整相关损失函数。对每个特征使用双分量混合模型，其中一个分量用于解释干净单元(即正常值)，另一个分量用于解释异常单元(即异常值)；通过降低异常单元的影响来模拟潜在的正常数据分布，为数据单元提供异常值分数和对单元修复的估计。从而有效地提升了模型的抗干扰能力和数据生成效果。

利用无监督深度学习网络实现结构化混合属性数据的cell-level异常检测并实现数据的修复。不仅仅可以应用于数据治理领域，也可以用于涉及纯分类型、纯数值型、以及混合型数据各种业务的异常数据识别和修复。

为达到上述目的，本发明采取的技术方案是：一种深度学习驱动的异常识别与修复方法，包括以下步骤：

S1：数据结构识别，对输入数据的属性类型进行识别和标记，基于一个列表，描述数据集的所有属性以及每个属性对应的数据类型；

S2：数据特征变换，对原始输入数据进行特征变换形成统一的标准化数值向量作为神经网络的输入；

S3：异常检测和修复神经网络，正常数据表示为服从某一种分布，则明显有别于这个分布的数据可视为异常数据，用神经网络来学习正常数据的分布，从而用这个分布来做异常识别，当输入的是异常数据时，神经网络根据其对于正常数据的分布学习而尝试输出一个服从正常分布的建议数据，达到修复异常数据的目的；

S4：异常数据识别与异常修复，标准化数值向量输入到神经网络后，神经网络对每个特征使用一个双分量混合模型，其中一个分量用于解释正常单元，另一个分量用于解释异常单元；通过降低异常单元的影响来模拟潜在的正常数据分布，为数据单元提供异常值分数和对单元修复的估计；

S5：数据特征还原，作为数据特征变换过程的逆过程，数据特征还原阶段是将神经网络的输出结果还原成原始数据的格式。

上述的深度学习驱动的异常识别与修复方法，在所述步骤S2中，对于具有n∈{1，...，N}个实例(row)和d∈{1，...，D}个特征(column)的表格数据集X，其中数据集中的每个单元x_nd(第n行d列)可以是连续型数据，即x_nd∈R，也可以是分类型数据即x_nd∈{1，..，C_d}，其中C_d是分类型特征d的取值空间。

上述的深度学习驱动的异常识别与修复方法，在所述步骤S2中还包括不同属性类型进行特征变换的过程：

对于分类离散型属性：使用Index映射、Embedding或者ONE-HOT等技术对分类数据进行编码，使得分类属性可以利用数值表示；

对于数值连续型属性：使用z-score方法进行标准化处理，

x为原始数值属性的值，z为经过转换后的z-score，μ为总体样本空间的均值，σ则为总体样本空间的标准差。

上述的深度学习驱动的异常识别与修复方法，在所述步骤S3中，设置有网络结构模型，所述网络结构模型包括编码器Encoder，解码器Decoder和/或生成器Generator，以及判别器Discriminator。

上述的深度学习驱动的异常识别与修复方法，所述网络结构模型中，输入真实的训练数据x经过网络的Encoder实现从真实数据x到向量z的映射，网络学习到了真实数据的分布概率函数q(z|x)，得到潜在表示z；再将z输入到Decoder/Generator学习从向量z到真实数据x的映射即概率分布p(x|z)，通过反复学习使得生成器的生成结果

越来越接近真实值；

从某个初始分布中随机采样得到潜在表示z_p，将其输入到Decoder/Generator得到生成的结果x_p；判别器将真实数据样本(x)和生成数据(

和x_p)作为输入，并输出判断结果概率值，概率值的高低代表输入到判别器的样本是真实样本的概率，通过反复训练，提高判别器区分真实和生成数据的能力，促进生成器生成与真实数据更为相似的数据。

上述的深度学习驱动的异常识别与修复方法，所述编码器用于获得现实数据的潜在表示，将真实数据进行数据变换之后的标准向量作为输入，拟合专属于输入数据所服从的正态分布q(z|x)的均值和方差，输出包括两部分：数据的均值(μ)和与方差有关的值(logσ)，选择拟合logσ而不是直接拟合σ²，是因为方差总是非负的，需要加激活函数进行处理，而logσ可正可负，不需要加激活函数；然后与从单位高斯随机采样的ε相结合，最终得到服从正态分布的潜在表示z，即：

μ，logσ＝Enc(x)

Enc表示编码器。

所述解码器Decoder和/或生成器Generator用于对潜在表示进行解码，从而输出生成的结果，解码器的输入包括两部分：一个是所述编码器的输出z，即真实输入数据的潜在表示；另一个是通过正态分布得到的潜在表示z_p，输出的结果为：

x_p＝Dec(z_p)

Dec表示解码器。

所述判别器Discriminator用于判断输入数据的真假，通过反向传播优化生成器，使得生成器生成的结果更好；判别器网络有三个输入，分别是原始的真实数据和解码器的两个生成结果，即：

真实数据集中的原始数据；

原始数据经过编码器-解码器之后生成的数据；

从某个初始分布中随机采样得到潜在表示，将其输入解码器中生成的数据。

网络训练到最后，判别器能更精细的鉴别输入判别器中的数据种类，并且原始数据经过编码器得到的潜在表示与从某个初始分布中随机采样得到潜在表示不断逼近，最后接近一致。

上述的深度学习驱动的异常识别与修复方法，还包括损失函数，所述损失函数包括：

重建损失Reconstruction_Loss，测量通过编码器-解码器结构重建后的数据的质量，对于正常数据来说，重建数据和原始数据应该尽可能相似，基于混合属性的数据异常识别和修复任务中的重构损失为：

φ为编码器，θ为解码器；π_nd(x_n)表示单元x_nd是正常样本的预测概率，α是反映我们对数据清洁度的信念的参数；混合变量w_nd充当一个门(gate)来确定单元x_nd应该由正常分量(p_θ(x_nd|z_n)，w_nd＝1)还是异常分量(p₀(x_nd)，w_nd＝0)来建模；

KL_Loss，确保编码器学习到的分布q(z|x)类似于真实的先验分布，实现异常识别和修复，在原有的潜在表示z的KL散度损失的基础上，增加了权重w的KL散度损失，公式如下：

权重w的KL散度损失(即L_{KL_w})中的两个参数均为关于权重的伯努利分布，即：

q_π(w_n|x_n)＝Bernoulli(w_nd|π_nd(x_n)),w_nd∈{0,1}

对抗性损失Adversarial_Loss，使生成的结果更真实，与真实数据无法区分，指导生成器更好地恢复训练数据的分布，使生成的数据与真实数据无法区分，为了避免原始GAN具有模式崩溃和训练不稳定等问题，使用WGAN所提出的损失函数来定义生成器和判别器之间的对抗关系，并使用WGAN-GP进行优化，生成器和判别器的损失函数分别为：

其中，

和

是沿着生成数据(解码器的两个输出)和真实数据之间的直线均匀采样；

优化编码器的目标函数如下：

L_enc＝L_rec+L_{KL_z}+L_{KL_w}

优化编码器/生成器的目标函数如下：

L_dec＝L_rec+L_{adv_g}

优化判别器目标函数如下：

L_dis＝L_{adv_d}。

上述的深度学习驱动的异常识别与修复方法，在所述步骤S4中，所述正常单元和异常单元的分量分别表示为：

p_θ(x_nd|z_n),w_nd＝1

p₀(x_nd),w_nd＝0

对于异常单元，用均匀分布来表示分类型特征，用高斯分布来表示连续型特征：

p₀(x_nd)＝N(x_nd|0,S),S＞1

使用基于混合模型的异常值得分如下：

Cell:logπ_nd(x_n)

异常值得分越小意味着异常的概率越大，

神经网络对混合型数据的修复为：

上标i表示修复的单元，o对应于异常的单元，对于分类型属性，修复结果为最高概率类别；对于连续型属性，修复结果为高斯似然的均值；

最终输出异常得分和模型的修复建议数据，实现对异常数据的识别和修复，以达到数据治理。

上述的深度学习驱动的异常识别与修复方法，在所述步骤S5中，所述还原过程包括：

分类型属性：根据分类属性的编码过程进行解码，生成原始分类属性值；

连续型属性：反向标准化过程生成原始值。

上述的任一项所述的深度学习驱动的异常识别与修复方法的智能化系统，包括：

数据管理模块：基于无监督机器学习开展智能化数据治理的基础就是数据，进行数据治理数据的元数据管理、数据集成管理，负责数据的组织，并依托元数据管理功能完成算法所需要的数据结构标识；

数据预处理模块：提供多种数据变换手段，完成数据的预处理，将原始的混合数据类型的记录(row)统一转换为数值型的向量(Vector),形成深度学习神经网络可以识别的输入，所述数据预处理过程中可以开展的操作包括且不限于：

为分类型属性数据提供不同编码手段；

为数值型数据提供z-score标准化手段；

对日期数据提供转换为数值型的手段；

对于存在相互关系的数值型字段，提供关系变换手段，形成可以表达关系的多个数值型属性；

深度学习模型管理模块：在模型在生产环境里启用之前，先用历史数据依据上述算法对模型进行多轮次训练，将训练好的、满足精度要求的模型保存为异常识别与修复模型，共生产过程加载使用；

异常识别与修复模块：本模块加载深度学习模型管理模块训练好的异常识别与修复模型，接收数据预处理模块提供的数据，开展输入数据的异常识别，给不同输入记录row中的不同属性列cell的进行异常评分，并给出建议值；

数据特征还原模块：对异常检测和修复之后的向量进行数据预处理的逆变换，将数据特征还原到原始状态：原来是分类型的数据还要从向量中的数值表示还原到对应的分类值；数值型数据也要进行z-score的逆变换才可以恢复到原始数据的分布空间，形成最终业务可以解读的数据。

本发明一种深度学习驱动的异常识别与修复方法的有益效果是：采用深度学习方法，对每个特征使用双分量混合模型，其中一个分量用于解释干净单元(即正常值)，另一个分量用于解释异常单元(即异常值)；通过降低异常单元的影响来模拟潜在的正常数据分布，为数据单元提供异常值分数和对单元修复的估计；将变分自编码器和生成对抗网络两个深度生成模型进行结合，有利于生成更好的修复结果；最终实现对于混合属性数据的基于无监督和cell-level的异常识别及修复。

附图说明

图1为本发明异常识别和修复网络整体结构示意图；

图2为本发明异常识别和修复网络中Encoder、Decoder/Generator、Discriminator的具体网络结构；

图3为相关参数表；

图4为本发明异常识别与修复模型流程示意图；

图5为本发明智能化系统工作流程示意图。

具体实施方式

为方便本领域技术人员更好的理解本技术方案，下面结合附图及具体实施方式对本方案进行详细说明。

如图1-5所示，一种深度学习驱动的异常识别与修复方法，包括以下步骤：

(1)数据结构识别

本发明方法具备处理混合属性数据的能力。所谓混合属性，即允许数据的类型是数值型、分类型、布尔型、时间类型等。这些不同类型的属性，处理方法也不同，因此需要对输入数据的属性类型进行识别和标记，基于一个列表，描述数据集的所有属性以及每个属性对应的数据类型。

(2)数据特征变换

对于原始输入的混合属性数据，可能既包含了分类型(离散)属性(如农村、城区等)又包含有数值(连续)型属性(如5.5、10、20等)。这种原始形态的数据无法直接输入到深度神经网络。为此需要对原始输入数据进行特征变换形成统一的标准化数值向量作为神经网络的输入。

对于具有n∈{1，...，N}个实例(row)和d∈{1，...，D}个特征(column)的表格数据集X，其中数据集中的每个单元x_nd(第n行d列)可以是连续型数据，即x_nd∈R，也可以是分类型数据即x_nd∈{1，..，C_d}，其中C_d是分类型特征d的取值空间。

不同属性类型进行特征变换的过程如下：

对于分类(离散)型属性：使用Index映射、Embedding或者ONE-HOT等技术对分类数据进行编码。使得分类属性可以利用数值表示。

对于数值(连续)型属性：使用z-score方法进行标准化处理，

这里的x为原始数值属性的值，z为经过转换后的z-score，μ为总体样本空间的均值，σ则为总体样本空间的标准差。

(3)RV-GNet网络

本方法采用变分自编码器与生成对抗网络融合的网络结构开展异常检测和修复，网络结构使用基于深度学习的无监督方法来实现cell-level(即单元格)的异常识别和修复。从业务本质上来说，正常数据可以表示为服从某一种分布，则明显有别于这个分布的数据可视为异常数据，因此可以用神经网络来找到正常数据的分布，从而用这个分布来做异常识别。此外，当输入的是异常数据时，神经网络也会根据其对于正常数据的分布学习而尝试输出一个服从正常分布的建议数据，从而达到修复异常数据的目的。

在神经网络异常识别和修复阶段中，本文使用的神经网络的网络结构如图1所示。模型的网络结构包含三个组成部分：编码器Encoder，解码器Decoder(也是生成器Generator)，以及判别器Discriminator。

模型概述为：输入数据(即真实的训练数据)x经过网络的Encoder实现从真实数据x到向量z的映射，即网络学习到了真实数据的分布概率函数q(z|x)，得到潜在表示z；再将z输入到Decoder/Generator学习从向量z到真实数据x的映射即概率分布p(x|z)，从而通过反复学习使得生成器的生成结果

越来越接近真实值；

另外，从某个初始分布(如正态分布)中随机采样得到潜在表示z_p，将其输入到Decoder/Generator得到生成的结果x_p；判别器将真实数据样本(x)和生成数据(

和x_p)作为输入，并输出判断结果(即概率值)，而概率值的高低代表输入到判别器的样本是真实样本的概率，通过反复训练，提高判别器区分真实和生成数据的能力，促进生成器生成与真实数据更为相似的数据。

a.编码器Encoder

编码器的作用是获得现实数据的潜在表示。将真实数据进行数据变换之后的标准向量作为输入，拟合专属于输入数据所服从的正态分布q(z|x)的均值和方差，输出包括两部分：数据的均值(μ)和与方差有关的值(logσ)，选择拟合logσ而不是直接拟合σ²，是因为方差总是非负的，需要加激活函数进行处理，而logσ可正可负，因此不需要加激活函数。然后与从单位高斯随机采样的ε相结合，最终得到服从正态分布的潜在表示z，即：

μ，logσ＝Enc(x)

其中，Enc表示编码器。

编码器网络结构与参数分别见图2、图3.

b.解码器Decoder/生成器Generator

解码器的作用是对潜在表示进行解码，从而输出生成的结果。解码器的输入包括两部分：一个是上述编码器的输出z，即真实输入数据的潜在表示；另一个是通过正态分布得到的潜在表示z_p。输出的结果为：

x_p＝Dec(z_p)

其中，Dec表示解码器。

解码器网络结构与参数分别见图2、图3.

需要注意的是，解码器为了处理混合类型的数据，需要针对不同的特征类型选择不同的条件似然p(x|z)。具体来说：

①分类型数据的特征需要经过一层网络和Softmax之后输出结果：

p_θ(x_nd|z_n)＝f(a_d(z_n))

②连续型数据的特征需要经过另一层网络之后输出结果：

p_θ(x_nd|z_n)＝N(x_nd|m_d(z_n),σ_d)

其中，m_d(z_n)表示高斯似然的均值，f表示Softmax函数，a_d(z_n)表示每个类别的概率的未归一化向量。

将两种数据类型的结果拼接以后的输出才是解码器最终的输出。

c.判别器Discriminator

作为一种基于深度学习的优秀的生成式模型，GAN其通过生成器网络和判别器网络进行对抗博弈来学习数据分布，从而达到生成真实样本的目的，已经成为最有前景的无监督方法之一。上述解码器网络作为生成器实现了数据生成，而判别器的作用是判断输入数据的真假，从而通过反向传播优化生成器，从而使得生成器生成的结果更好。本文中，我们的判别器网络有三个输入，分别是原始的真实数据和解码器的两个生成结果，即：

真实数据集中的原始数据(真实数据)；

原始数据经过编码器-解码器之后生成的数据(重建数据)；

从某个初始分布(如正态分布)中随机采样得到潜在表示，将其输入解码器中生成的数据(生成数据)。

最终，判别器能更精细的鉴别输入判别器中的数据种类(真实数据、重建数据、与生成数据)，并且原始数据经过编码器得到的潜在表示与从某个初始分布中随机采样得到潜在表示不断逼近，最后接近一致。

判别器网络结构与参数分别见图2、图3.

d.损失函数

本文的损失函数包括以下三种类型的损失：(1)重建损失(Reconstruction_Loss)，目的是测量通过编码器-解码器结构重建后的数据的质量；(2)KL_Loss，目的是确保编码器学习到的分布q(z|x)类似于真实的先验分布；(3)对抗性损失(Adversarial_Loss)，目的是使生成的结果更真实，与真实数据无法区分。

i.重建损失(Reconstruction_Loss)

重建损失的作用是保证生成的结果近似于原来的真实输入数据。对于正常数据来说，重建数据和原始数据应该尽可能相似。因此本文在基于混合属性的数据异常识别和修复任务中的重构损失为：

其中，φ为编码器，θ为解码器；π_nd(x_n)表示单元x_nd是正常样本的预测概率，α是反映我们对数据清洁度的信念的参数；混合变量w_nd充当一个门(gate)来确定单元x_nd应该由正常分量(p_θ(x_nd|z_n)，w_nd＝1)还是异常分量(p₀(x_nd)，w_nd＝0)来建模。

ii.KL_Loss

本文中，为了实现异常识别和修复的目的，我们在原有的潜在表示z的KL散度损失的基础上，增加了权重w的KL散度损失，公式如下：

其中，权重w的KL散度损失(即L_{KL_w})中的两个参数均为关于权重的伯努利分布，即：

q_π(w_n|x_n)＝Bernoulli(w_nd|π_nd(x_n)),w_nd∈{0,1}

iii.对抗性损失(Adversarial_Loss)

本文中，对抗性损失被用来指导生成器更好地恢复训练数据的分布，使生成的数据与真实数据无法区分。同时为了避免原始GAN具有模式崩溃和训练不稳定等问题，因此使用WGAN所提出的损失函数来定义生成器和判别器之间的对抗关系，并使用WGAN-GP进行优化，生成器和判别器的损失函数分别为：

其中，

和

是沿着生成数据(解码器的两个输出)和真实数据之间的直线均匀采样。λ_gp是梯度惩罚的系数，根据经验设定为10。

iv.总体目标函数

最后，优化编码器的目标函数如下：

L_enc＝L_rec+L_{KL_z}+L_{KL_w}

优化解码器/生成器的目标函数如下：

L_dec＝L_rec+L_{adv_g}

优化判别器目标函数如下：

L_dis＝L_{adv_d}

(4)异常数据识别与异常修复

标准化数据输入到神经网络后，神经网络对每个特征使用一个双分量混合模型，其中一个分量用于解释正常单元，另一个分量用于解释异常单元；通过降低异常单元的影响来模拟潜在的正常数据分布，为数据单元提供异常值分数和对单元修复的估计。正常单元和异常单元的分量分别表示为：

p_θ(x_nd|z_n),w_nd＝1

p₀(x_nd),w_nd＝0

对于异常单元来说，我们用均匀分布来表示分类型特征，用高斯分布来表示连续型特征，即：

p₀(x_nd)＝N(x_nd|0,S),S＞1

我们使用基于混合模型的异常值得分如下：

Cell:logπ_nd(x_n)

异常值得分越小意味着异常的概率越大。

神经网络对混合型数据的修复为：

其中上标i表示修复的单元，o对应于异常的单元。具体来说，对于分类型属性，修复结果为最高概率类别；对于连续型属性，修复结果为高斯似然的均值。

最终输出异常得分和模型的修复建议数据，实现对异常数据的识别和修复，达到数据治理的目的。

(5)数据特征还原

作为数据特征变换过程的逆过程，数据特征还原阶段是将神经网络的输出结果(标准化数据)还原成原始数据的格式。针对混合类型的数据，标准化的还原过程如下：

连续型属性：反向标准化过程生成原始值。

实验数据以及算法效果说明：

将上述算法在某电网公司的数据治理试点项目中予以验证。项目中需要对电力客户的基础档案开展异常数据识别，并对问题数据进行修正。鉴于该电网电力客户数量超过一千万，无法依托人工开展异常数据的识别和修复，为此采用深度学习算法进行。

该项目中数据均根据需要进行脱敏，部分数据如下表所示：

其中，第一列为当前记录唯一标识，不纳入异常检测范围。

将算法在项目中进行应用之后，在不需要人工干预的情况下，经过训练之后的模型在实验中取得了令人满意的效果。可以有效的对存在异常的数据单元(cell)通过评分进行识别，进而基于学习结果进行修正。部分检测出来的异常数据以及修复结果如下表：

从上表可知：共列出了三条异常记录，每条异常记录由三行数据构成：第一行表示该条记录(row)的每个单元格(cell)异常值得分；第二行代表的是输入的真实数据，第三行表示的是RV-GNet神经网络输出的生成数据。从每一条异常记录的每个单元(cell)的异常评分结果可知，在模型充分学习了业务真实数据的分布之后，对于正常的cell其评分结果相对较高，而对于异常cell，其评分结果远远低于正常值。因此可以将评分远低于正常水品的cell设置为异常数据。

为了使结果便于观察，将三条记录的异常数据元的异常得分、修复前数据、修复后结果列出见下表：

结果分析如下：

第一组数据中，分类属性“城乡类别”与分类属性“用户分类”和分类属性“用电类别”有关，因此当“用户分类”和“用电类别”分别为“城网低压居民”和“城镇居民生活用电”时，“城乡类别”＝“农村”为异常单元，修复结果改为“城区”；修改结果与业务事实相吻合；

第二组数据中：实际业务数据中数值型属性“运行容量”与数值型属性“合同容量”有关，业务数据表明绝大多数的数据“运行容量”应该与“合同容量”相符，因此数据修复结果改为8；

第三组数据中，分类属性“接线方式”和分类属性“电压等级”有关。业务系统中当电压等级为"380v"时“接线方式”为“三相四线”；而电压等级为"220v"时“接线方式”为“单相”。当前记录的电压等级为"380v",其接线方式“单相”为异常单元，修复结果改为“三相四线”，符合业务规范；

从上述修复结果和分析可以看出，本方法所设计的模型可以较为准确的识别异常单元(cell)，并可以依据数据分布对异常进行修复，其异常定位与数据修复的效果较为理想。

如图5所示，在此方法基础上，本发明还提供了一个智能化软件系统，依托无监督学习方法开展数据的智能化治理。

本软件系统的构成如下：

数据管理模块：基于无监督机器学习开展智能化数据治理的基础就是数据。为此在系统中设置有数据管理模块，负责需要进行数据治理数据的元数据管理、数据集成管理，也就是负责数据的组织，并依托元数据管理功能完成算法所需要的数据结构标识。

数据预处理模块：本模块提供多种数据变换手段，完成数据的预处理，从而将原始的混合数据类型的记录(row)统一转换为数值型的向量(Vector)，形成深度学习神经网络可以识别的输入。数据预处理过程中可以开展的操作包括且不限于：

为分类型属性数据提供不同编码手段，例如Index、One-hot、Embedding等；

为数值型数据提供z-score标准化手段；

对日期数据提供转换为数值型的手段；

对于存在相互关系的数值型字段，提供关系变换手段，形成可以表达关系的多个数值型属性。

深度学习模型管理模块：实际生产环境中，数据是持续产生的，需要在很短的时间内就判别出异常数据并完成修复，因此如果进行在线的模型训练和异常识别与修正肯定是无法满足实际要求的。本系统设置有一个深度学习模型管理模块，在模型在生产环境里启用之前，先用历史数据依据上述算法对模型进行多轮次训练。这个过程比较耗时，可以离线进行。将训练好的、满足精度要求的模型保存为异常识别与修复模型，共生产过程加载使用。一旦生产数据分布变化导致模型精度性能下降，则可以根据需要重新训练新模型。采用这种措施避免了模型训练对正常生产过程的干扰。

异常识别与修复模块：本模块加载深度学习模型管理模块训练好的异常识别与修复模型，然后接收数据预处理模块提供的数据，开展输入数据的异常识别，给不同输入记录row中的不同属性列cell的进行异常评分，并给出建议值。

数据特征还原模块：因为输入到深度学习模型中的数据都是经过转换处理之后的，与原始值存在极大的差异。因此异常检测和修复之后，还需要对该向量进行数据预处理的逆变换，将数据特征还原到原始状态：原来是分类型的数据还要从向量中的数值表示还原到对应的分类值；数值型数据也要进行z-score的逆变换才可以恢复到原始数据的分布空间。从而形成最终业务可以解读的数据。

本发明采用深度学习方法，对每个特征使用双分量混合模型，其中一个分量用于解释干净单元(即正常值)，另一个分量用于解释异常单元(即异常值)；通过降低异常单元的影响来模拟潜在的正常数据分布，为数据单元提供异常值分数和对单元修复的估计；将变分自编码器和生成对抗网络两个深度生成模型进行结合，有利于生成更好的修复结果；最终实现对于混合属性数据的基于无监督和cell-level的异常识别及修复。

上述实施例只是为了说明本发明的结构构思和特点，其目的在于让本领域内的普通技术人员能够了解本发明的内容并据以实施，并不能以此限定本发明的保护范围。凡是根据本发明内容的实质所做出的等效变化或修饰，都应该涵盖在本发明的保护范围之内。

Claims

1.一种深度学习驱动的异常识别与修复方法，其特征在于：包括以下步骤：

S3：训练异常检测和修复神经网络，正常数据表示为服从某一种分布，则明显有别于这个分布的数据可视为异常数据，用神经网络来学习正常数据的分布，从而用这个分布来做异常识别，当输入的是异常数据时，神经网络根据其对于正常数据的分布学习而尝试输出一个服从正常分布的建议数据，达到修复异常数据的目的；

2.根据权利要求1所述的深度学习驱动的异常识别与修复方法，其特征是：在所述步骤S2中，对于具有n∈{1，...，N}个实例row和d∈{1，...，D}个特征column的表格数据集X，其中数据集中的每个单元x_nd第n行d列可以是连续型数据，即x_nd∈R，也可以是分类型数据即x_nd∈{1，..，C_d}，其中C_d是分类型特征d的取值空间。

3.根据权利要求2所述的深度学习驱动的异常识别与修复方法，其特征是：在所述步骤S2中还包括不同属性类型进行特征变换的过程：

对于分类离散型属性：使用Index映射、Embedding或者ONE-HOT对分类数据进行编码，使得分类属性可以利用数值表示；

对于数值连续型属性：使用z-score方法进行标准化处理，

4.根据权利要求1所述的深度学习驱动的异常识别与修复方法，其特征是：在所述步骤S3中，设置有网络结构模型，所述网络结构模型包括编码器Encoder，解码器Decoder或生成器Generator，以及判别器Discriminator。

5.根据权利要求4所述的深度学习驱动的异常识别与修复方法，其特征是：所述网络结构模型中，输入真实的训练数据x经过网络的Encoder实现从真实数据x到向量z的映射，网络学习到了真实数据的分布概率函数q(z|x)，得到潜在表示z；再将z输入到Decoder/Generator学习从向量z到真实数据x的映射即概率分布p(x|z)，通过反复学习使得生成器的生成结果

越来越接近真实值；

从某个初始分布中随机采样得到潜在表示z_p，将其输入到Decoder/Generator得到生成的结果x_p；判别器将真实数据样本(x)和生成数据

和x_p作为输入，并输出判断结果概率值，概率值的高低代表输入到判别器的样本是真实样本的概率，通过反复训练，提高判别器区分真实和生成数据的能力，促进生成器生成与真实数据更为相似的数据。

6.根据权利要求5所述的深度学习驱动的异常识别与修复方法，其特征是：所述编码器用于获得现实数据的潜在表示，将真实数据进行数据变换之后的标准向量作为输入，拟合专属于输入数据所服从的正态分布q(z|x)的均值和方差，输出包括两部分：数据的均值(μ)和与方差有关的值logσ，选择拟合logσ而不是直接拟合σ²，是因为方差总是非负的，需要加激活函数进行处理，而logσ可正可负，不需要加激活函数；然后与从单位高斯随机采样的ε相结合，最终得到服从正态分布的潜在表示z，即：

μ，logσ＝Enc(x)

Enc表示编码器，

所述解码器Decoder或生成器Generator用于对潜在表示进行解码，从而输出生成的结果，解码器的输入包括两部分：一个是所述编码器的输出z，即真实输入数据的潜在表示；另一个是通过正态分布得到的潜在表示z_p，输出的结果为：

x_p＝Dec(z_p)

Dec表示解码器，

真实数据集中的原始数据；

原始数据经过编码器-解码器之后生成的数据；

从某个初始分布中随机采样得到潜在表示，将其输入解码器中生成的数据，

7.根据权利要求6所述的深度学习驱动的异常识别与修复方法，其特征是：网络的训练还包括损失函数，所述损失函数包括：

(1)重建损失Reconstruction_Loss，测量通过编码器-解码器结构重建后的数据的质量，对于正常数据来说，重建数据和原始数据相似，基于混合属性的数据异常识别和修复任务中的重构损失为：

φ为编码器，θ为解码器；π_nd(x_n)表示单元x_nd是正常样本的预测概率，α是反映对数据清洁度的信念的参数；混合变量w_nd充当一个门gate来确定单元x_nd应该由正常分量(p_θ(x_nd|z_n)，w_nd＝1)还是异常分量(p₀(x_nd)，w_nd＝0)来建模；

(2)KL_Loss，确保编码器学习到的分布q(z|x)类似于真实的先验分布，实现异常识别和修复，在原有的潜在表示z的KL散度损失的基础上，增加了权重w的KL散度损失，公式如下：

权重w的KL散度损失即L_{KL_w}中的两个参数均为关于权重的伯努利分布，即：

qπ(wn|xn)＝Bernoulli(wnd|πnd(xn)),wnd∈{0,1}

(3)对抗性损失Adversarial_Loss，使生成的结果更真实，与真实数据无法区分，指导生成器更好地恢复训练数据的分布，使生成的数据与真实数据无法区分，为了避免原始GAN具有模式崩溃和训练不稳定，使用WGAN所提出的损失函数来定义生成器和判别器之间的对抗关系，并使用WGAN-GP进行优化，生成器和判别器的损失函数分别为：