CN111738346A - 一种生成式对抗网络估值的不完整数据聚类方法 - Google Patents

一种生成式对抗网络估值的不完整数据聚类方法 Download PDF

Info

Publication number
CN111738346A
CN111738346A CN202010597430.1A CN202010597430A CN111738346A CN 111738346 A CN111738346 A CN 111738346A CN 202010597430 A CN202010597430 A CN 202010597430A CN 111738346 A CN111738346 A CN 111738346A
Authority
CN
China
Prior art keywords
data
attribute
interval
clustering
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010597430.1A
Other languages
English (en)
Inventor
张利
侯晴
王彦捷
宣伟宏
张皓博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University
Original Assignee
Liaoning University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University filed Critical Liaoning University
Priority to CN202010597430.1A priority Critical patent/CN111738346A/zh
Publication of CN111738346A publication Critical patent/CN111738346A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种生成式对抗网络估值的不完整数据聚类方法,步骤如下:(1)确定最近邻样本;(2)生成式对抗网络估值填补缺失数据,区间化填补数据;(3)提出生成对抗网络估值的区间数据模糊C均值聚类;(4)利用步骤(3)中聚类方法对步骤(2)中得到的区间型数据集进行聚类,得到聚类结果,与四种经典方法进行实验结果对比,以此验证本发明的有效性。利用UCI数据库中的生物数据集鸢尾花Iris、医学数据集成年人肝病Bpua和医疗数据集乳腺癌症Breast,在四种缺失率的情况下与四种经典方法进行实验,验证本发明方法有更高的聚类准确率。

Description

一种生成式对抗网络估值的不完整数据聚类方法
技术领域
本发明涉及一种生成式对抗网络估值的不完整数据聚类方法,属于不完整数据聚类技术领域。
背景技术
在信息时代数据量激增,每时每刻都能产生大量数据,如何对数据进行高效处理和利用成为一个研究热点,聚类分析作为一种无监督算法在数据分析领域有着愈发重要的意义。模糊C均值方法(FCM)区别于传统的硬划分,隶属度取值不只局限在0和1两个值,充分表现了事物之间的模糊性与相似性,成为一种有效且广泛应用的聚类分析方法。但是FCM方法存在一定的局限性,FCM算法不能直接对不完整数据进行聚类分析。然而现实世界中不完整数据的产生问题无法避免,数据采集失败、数据存储泄露、噪声干扰等经常会有属性数据丢失,造成不完整数据集,为数据聚类分析带来困难。如何充分挖掘不完整数据中的有效信息至关重要,要对不完整数据集进行高效的聚类分析是一个必须解决的难题,因此对不完整数据的模糊聚类研究具有重要的实际意义。
发明内容
为了解决上述存在的问题,本发明提供一种生成式对抗网络估值的不完整数据聚类方法。
本发明的目的是通过以下技术方案实现的:一种生成式对抗网络估值的不完整数据聚类方法,其步骤为:
一种生成式对抗网络估值的不完整数据聚类方法,其特征在于,其步骤为:
1)确定最近邻样本:根据最近邻规则为不完整数据的选取相应的训练样本集;不完整数据样本集中的不完整数据样本xa与数据样本xb的相似性度量公式如公式(1):
Figure BDA0002557884490000011
其中,xia是样本xa的第i个属性,xib是样本xb的第i个属性;
Ii表达式为式(2):
Figure BDA0002557884490000021
其中,n表示数据集中样本总数;
通过属性相关的相似度计算公式(1)和(2),得到不完整数据样本的最近邻样本,构成缺失数据的训练样本集,计算不完整数据样本和其最近邻样本之间相似度;
2)生成对抗网络填补缺失数据,区间化填补数据:将VAE作为生成对抗网络GAN的生成器,与GAN的判别器融合建立不完整数据填补模型网络的拓扑结构,将最近邻样本集的属性中值作为不完整数据构造特征标签,训练样本集训练网络,完成不完整数据对缺失属性的估值填补,得到完整的数值型数据集;
变分自动编码器中的隐变量z由变分分布q(z|x)进行选择,通过假设简单的高斯分布,及贝叶斯算法计算其中的KL散度:
Figure BDA0002557884490000022
最大似然估计的混合损失函数的优化目标函数:
Figure BDA0002557884490000023
其中,x为输入样本,z为隐变量,z~p(z),x|z~pθ(xz),z满足高斯分布p(z),从z中采样通过神经网络计算pθ(x|z)进而生成数据;
不完整数据区间化填补:利用上述模型填补缺失数据属性,得到完整的数值型数据集,进一步将得到的数值型数据区间化,由属性误差均值绝对值确定区间大小;假设缺失属性估值为x,对完整数据的估值误差取平均值为e,则缺失属性区间为[x-e,x+e];
3)生成对抗网络估值的区间型数据模糊C均值聚类:首先对步骤2)得到的缺失属性区间利用近邻样本属性极值进行约束,然后对区间型数据进行模糊聚类分析;
3.1)最近邻样本属性极值对区间的约束:在最近邻样本集中,选取缺失属性的数据,以缺失属性的最小值与最大值构造属性区间[Min,Max],将由属性误差均值绝对值构造的属性区间[x-e,x+e]与属性最小值最大值构造的属性区间[Min,Max]取交,得到新的区间[min,max]作为属性估值区间;如果,两个区间不存在交集,说明不完整数据样本点很可能是离群点,此时直接取属性误差均值绝对值构造的属性区间即可完成区间估计;
3.2)设属性维度为s区间数据集
Figure BDA0002557884490000031
数据
Figure BDA0002557884490000032
对于任意的j(1≤j≤s),
Figure BDA0002557884490000033
区间型模糊C均值算法的目标函数公式为:
Figure BDA0002557884490000034
Figure BDA0002557884490000035
Figure BDA0002557884490000036
Figure BDA0002557884490000037
表示第i个聚类中心,
Figure BDA0002557884490000038
为聚类中心矩阵,
Figure BDA0002557884490000039
Figure BDA00025578844900000310
利用拉格朗日乘子法迭代计算得到聚类中心更新公式为:
Figure BDA00025578844900000311
Figure BDA00025578844900000312
若存在区间型数据样本
Figure BDA00025578844900000313
在某个聚类中心的区间值内,其隶属度设为1,反之,则其隶属度为0,不属于该类,隶属度矩阵U(c×n)更新公式为:
Figure BDA00025578844900000314
否则:
Figure BDA00025578844900000315
4)利用生成对抗网络估值的区间型模糊C均值聚类方法对步骤2)中得到的区间型数据集进行聚类,得到聚类结果。
所述的步骤4)中,具体步骤如下:
4.1)构造对不完整数据样本的最近邻样本集:依据最近邻规则选择最近邻样本,确定最近邻样本数q,构建不完整数据的q个最近邻样本集;
4.2)输入样本归一化:将所有的数据均转化为区间[0,1]之间的数,从而消除各维度间数量级的差别;
4.3)数据填补模型初始化:对模型中的各网络参数进行初始化,权值,偏置值,最大迭代次数,训练误差;
4.4)训练模型:使用训练样本集对模型进行训练;
4.5)填补缺失属性:生成对抗网络模型对不完整数据中的各个缺失数据属性进行估值预测,同时得到网络对于数据集中的完整属性的估值误差;
4.6)区间化数据集:根据区间型转化规则,将数值型数据集中的数据全部转化为区间型,进而构造区间型矩阵:
4.7)初始化区间型FCM算法参数:初始化隶属度矩阵,并对聚类类别数
Figure BDA0002557884490000041
迭代次数G、终止阈值ε、模糊指标m进行设置;
4.8)按照公式(9)和公式(10)更新聚类中心矩阵:依据U(l-1)对聚类中心矩阵V(l)进行更新;
4.9)按照公式(11)和公式(12)更新隶属度矩阵:语句V(l)对隶属度矩阵U(l)进行更新;
4.10)算法条件判断:当迭代次数达到最大,或max|U(l+1)-U(l)|≤ε时,算法迭代停止;否则l=l+1,返回4.8)。
本发明创造的有益效果为:本发明采用上述方案,通过相似度计算公式来计算待填补样本和其他样本之间的距离,利用构成的近邻样本作为不完整数据填补模型的训练样本,训练完成后用生成对抗网络模型填补缺失数据。同时,为了解决不完整数据的不确定性问题,区间化填补缺失数据,形成完整的区间数据集。为进一步减小区间化填补数据的误差,对区间大小进行优化。本发明在区间型数据集上对数据进行模糊聚类分析。
附图说明
图1是VAE网络结构模型图。
图2是GAN网络模型结构图。
图3是IVAEGAN模型结构图。
具体实施方式
一种自适应区间的不完整数据加权聚类方法,其步骤为:
1)确定最近邻样本:根据最近邻规则为不完整数据的选取相应的训练样本集。不完整数据样本集中的不完整数据样本xa与数据样本xb,存在缺失属性或者不存在缺失属性均可,相似性度量公式如公式(1):
Figure BDA0002557884490000051
其中,xia和xib分别是样本xa和样本xb的第i个属性;
Ii表达式为式(2):
Figure BDA0002557884490000052
n表示数据集中样本总数。
通过属性相关的相似度计算公式(1)和(2),可以得到不完整数据样本的最近邻样本,构成缺失数据的训练样本集。具体的不完整数据样本和其最近邻样本之间相似度的计算过程为:假设有一个包含有5个数据属性值的不完整数据样本表示为xa=(5,?,?,3,?),其中“?”表示丢失的数据属性值,它的最近邻数据样本之一表示为xb=(5,8,?,2,6),其相似度的计算过程如式(3)所示:
Figure BDA0002557884490000053
2)生成对抗网络填补缺失数据,区间化填补数据:将VAE的特征提取、数据生成与GAN的数据判别融合构造不完整数据填补模型。将最近邻样本集的属性中值作为不完整数据构造特征标签。改进后的网络模型IVAEGAN的拓扑结构如图3所示。完成不完整数据对缺失属性的估值填补,得到完整的数值型数据集。
变分自动编码器中的隐变量z由变分分布q(z|x)进行选择。通过假设简单的高斯分布,及贝叶斯算法计算其中的KL散度:
Figure BDA0002557884490000061
最大似然估计的混合损失函数的优化目标函数:
Figure BDA0002557884490000062
其中,x为输入样本,z为隐变量,z~p(z),x|z~pθ(x|z),z满足高斯分布p(z),从z中采样通过神经网络计算pθ(x|z)进而生成数据。
不完整数据区间化填补:利用上述模型填补缺失数据属性,得到完整的数值型数据集,为了表达缺失数据的不确定性,进一步将得到的数值型数据区间化。由属性误差均值绝对值确定区间大小。假设缺失属性估值为x,对完整数据的估值误差取平均值为e,则缺失属性区间为[x-e,x+e]。
3)生成对抗网络区间型数据模糊C均值聚类:为进一步减小区间填补误差,首先步骤2)得到的缺失属性区间利用近邻样本属性极值进行约束,在对区间型数据进行模糊聚类分析。
3.1)最近邻样本属性极值对区间的约束。在最近邻样本集中,选取缺失属性的数据,以缺失属性的最小值与最大值构造属性区间[Min,Max]。将由属性误差均值绝对值构造的属性区间[x-e,x+e]与属性最小值最大值构造的属性区间[Min,Max]取交,得到新的区间[min,max]作为属性估值区间。如果,两个区间不存在交集,说明不完整数据样本点很可能是离群点,此时直接取属性误差均值绝对值构造的属性区间即可完成区间估计。
3.2)设属性维度为s区间数据集
Figure BDA0002557884490000063
数据
Figure BDA0002557884490000064
对于任意的j(1≤j≤s),
Figure BDA0002557884490000065
区间型模糊C均值算法的目标函数公式为:
Figure BDA0002557884490000066
Figure BDA0002557884490000067
Figure BDA0002557884490000071
Figure BDA0002557884490000072
表示第i个聚类中心,
Figure BDA0002557884490000073
为聚类中心矩阵,
Figure BDA0002557884490000074
Figure BDA0002557884490000075
利用拉格朗日乘子法迭代计算得到聚类中心更新公式为:
Figure BDA0002557884490000076
Figure BDA0002557884490000077
若存在区间型数据样本
Figure BDA0002557884490000078
在某个聚类中心的区间值内,其隶属度设为1,反之,则其隶属度为0,不属于该类,公式为:
Figure BDA0002557884490000079
否则:
Figure BDA00025578844900000710
4)利用生成对抗网络估值的区间型模糊C均值聚类方法对步骤2)中得到的区间型数据集进行聚类,得到聚类结果,具体步骤如下:
4.1)构造对不完整数据样本的最近邻样本集。依据最近邻规则选择最近邻样本,构建不完整数据的最近邻样本集。
4.2)输入样本归一化。将所有的数据均转化为区间[0,1]之间的数,从而消除各维度间数量级的差别。
4.3)模型初始化。对IVAEGAN模型中的各网络参数进行初始化,权值,偏置值,最大迭代次数,训练误差。
4.4)训练模型。使用训练样本集对IVAEGAN模型进行训练。
4.5)填补缺失属性。本发明提出的模型对不完整数据中的各个缺失数据属性进行估值预测,同时得到网络对于数据集中的完整属性的估值误差。
4.6)区间型化数据集。根据发明提出的区间型转化规则,将数值型数据集中的数据全部转化为区间型,进而构造区间型矩阵。
4.7)初始化区间型FCM算法参数。初始化隶属度矩阵,并对聚类类别数
Figure BDA0002557884490000081
迭代次数G、终止阈值ε、模糊指标m进行设置。
4.8)更新聚类中心矩阵。依据U(l-1)对聚类中心矩阵V(l)进行更新;
4.9)更新隶属度矩阵。语句V(l)对隶属度矩阵U(l)进行更新;
4.10)算法条件判断。当迭代次数达到最大,或max|U(l+1)-U(l)|≤ε时,算法迭代停止;否则l=l+1,返回4.8)。
实施例1:
一、本发明方案的理论依据:
1、模糊C均值算法(FCM)
FCM算法主要由三个部分组成:模糊隶属度函数、目标函数、分区矩阵。首先,建立模糊聚类的目标函数,利用迭代优化思想,进行目标函数最小化。其次,在目标函数的迭代优化过程中,对满足条件的样本进行分类,优化目标函数值不断减小达到聚类的效果。最后,模糊隶属度矩阵U(c×n)根据不同数据样本的属性及类别进行不断更新以达到分类的目的。其中,数据样本的数量为n,聚类中心的数量为c。对于某一样本,它可以从属于多个类别,但不能属于目标类别集合以外的类别。隶属度矩阵中的元素uij满足以下条件:
Figure BDA0002557884490000082
uij∈[0,1] (14)
Figure BDA0002557884490000083
FCM算法的极小化目标函数为:
Figure BDA0002557884490000084
其中,m为模糊加权系数,通常m∈(1,+∞),本发明设置m=2。数据xj到聚类中心vi之间的欧氏距离为
Figure BDA0002557884490000091
||·||2表示为范数,聚类中心V={v1,v2,...,vc},隶属度矩阵为U(c×n),J(U,V)表示样本数据到聚类原型的加权距离平方和。
FCM利用拉格朗日乘子法,聚类中心与隶属度更新公式如(17)和(18):
Figure BDA0002557884490000092
Figure BDA0002557884490000093
2、区间型模糊C均值
区间模糊C均值的数据均是区间表示。设属性维度为s区间数据集
Figure BDA0002557884490000094
数据
Figure BDA0002557884490000095
对于任意的j(1≤j≤s),
Figure BDA0002557884490000096
区间型模糊C均值算法的目标函数公式为:
Figure BDA0002557884490000097
Figure BDA0002557884490000098
Figure BDA0002557884490000099
其中
Figure BDA00025578844900000910
表示第i个聚类中心,
Figure BDA00025578844900000911
为聚类中心矩阵,表示为
Figure BDA00025578844900000912
Figure BDA00025578844900000913
公式(19)达到极小值的条件为:
Figure BDA0002557884490000101
Figure BDA0002557884490000102
若存在区间型数据样本
Figure BDA0002557884490000103
在某个聚类中心的区间值内,其隶属度设为1,反之则其隶属度为0不属于该类,公式为:
Figure BDA0002557884490000104
否则
Figure BDA0002557884490000105
3、变分自动编码器VAE
变分自动编码器作为一种生成模型,其网络模型结构由编码器、解码器两部分组成。其中编码器需要学习后验分布的近似值,编码器为了学习这种分布采用变分法而没有采用计算复杂的马尔科夫蒙特卡洛算法,即编码器通过变分推断来获得后验分布的近似值。自动编码器的模型结构图如图1所示,x为输入样本,
Figure BDA0002557884490000106
为生成样本,z为隐变量,z~p(z),x|z~pθ(x|z),z满足高斯分布p(z),从z中采样通过神经网络计算pθ(x|z)进而生成数据。
(1)编码器
编码器作为数据的输入端,输入层对数据样本直接输入传导入隐含层。输入层的节点数与数据的属性维数相等。隐含层对输入数据通过激活函数开始计算得出数据的均值和中心构成隐变量z,在训练的数据集中每个数据样本点都存在着一个相应的隐变量,保留着样本的均值和方差信息。
(2)解码器
解码器通过对隐含层中计算得到的隐变量进行矩阵加权计算得到输出结果,然后将得到的结果输出。
4、生成对抗网络(GAN)
生成对抗网络由两个模型组成:生成器和鉴别器。这两个模型通常由神经网络来实现,但它们可以用任何形式的可微系统来实现,该系统将数据从一个空间映射到另一个空间。生成器试图捕获真实示例的分布,以便生成新的数据示例。鉴别器通常是一个二进制分类器,尽可能准确地将生成的示例与真实示例区分开来。GAN优化问题是一个极大极小优化问题。优化终止于相对于生成器的最小值和相对于鉴别器的最大值的鞍点,即优化的目标是达到纳什均衡。然后,可以认为生成器捕获了真实示例的真实分布。
生成器与判别器进行对抗博弈,生成器要生成接近真实的数据,判别器对生成的数据的真伪进行判断,相互提高并获取平衡的最大值。
生成器的损失函数为:
LG=E[log(D(G(z)))] (26)
判别器的损失函数为:
LD=E[log(D(x))]+E[log(1-D(G(z)))] (27)
其中,x为输入样本,z为隐变量。
二、本发明技术方案的实现过程:
1.确定最近邻样本:根据最近邻原则选取近邻样本,提出相似度计算公式计算缺失样本和其他样本之间的距离,根据样本数据之间得到的相似度距离来确定不完整样本的
Figure BDA0002557884490000111
的q个近邻样本。对计算得到的距离进行从小到大的排序,距离最近的q个样本组成该待填补样本的邻域样本集;
2.生成对抗模型填补缺失数据:将VAE作为GAN的生成器,与GAN的判别器融合构造不完整数据填补模型。训练网络,完成缺失数据的填补。区间化填补缺失数据,更好表达缺失数据的不确定性,把数据改成区间的形式进行填补;
3.提出生成对抗模型填补缺失数据的区间型模糊C均值聚类方法(IVAEGAN-IFCM),对步骤2的区间型数据进行区间优化,减少区间填补误差。再对区间型数据进行模糊聚类分析。
4.生成对抗网络区间型数据模糊C均值聚类方法与四种不完整数据聚类方法进行对比。方法评价标准选取平均聚类错分数、迭代次数进行分析,实验对比使用三个数据集:Iris、Breast、Bupa在缺失比例5%,10%,15%和20%的十次均值。实验结果如下所示。其中最优结果为黑体标记,次优结果用下划线标记。
表1 Iris平均聚类错分数
Figure BDA0002557884490000121
表2 Breast平均聚类错分数
Figure BDA0002557884490000122
表3 Bupa平均聚类错分数
Figure BDA0002557884490000123
表4不完整数据集Iris的聚类错分数标准差
Figure BDA0002557884490000124
表5不完整数据集Bupa的聚类错分数标准差
Figure BDA0002557884490000131
表6不完整数据集Breast的聚类错分数标准差
Figure BDA0002557884490000132
由表1至表3可以得出,各个数据集在不同缺失率的情况下,从全局上看,本发明所提出的IVAEGAN-IFCM算法与其他四种对比算法相比,得到的结果是相对来说最好的。从表4到6中的聚类错分数标准差来看,提出的IVAEGAN-IFCM算法在不同数据集的不同缺失率条件下,都能保持较低的聚类错分数标准差,体现了算法稳定性。
对于平均误分数这一评价指标而言。当各个数据集在不同的非零缺失率的情况下,从整体上看,本发明所提出的算法相比于其他四种对比算法,能够得到相对来说更好的实验结果。
本发明提出的不完整数据聚类方法可应用在模式识别领域中,解决缺失数据情况下设备的故障诊断问题,在设备诊断过程中,可以对正常、亚健康、故障工况下的设备各参数运行数据进行聚类分析,得到聚类中心。在设备智能诊断过程中,设备运行的新数据将会与训练得到的聚类中心进行相似度检验,通过相似度的高低来决定设备处于何种工况类别。

Claims (2)

1.一种生成式对抗网络估值的不完整数据聚类方法,其特征在于,其步骤为:
1)确定最近邻样本:根据最近邻规则为不完整数据的选取相应的训练样本集;不完整数据样本集中的不完整数据样本xa与数据样本xb的相似性度量公式如公式(1):
Figure FDA0002557884480000011
其中,xia是样本xa的第i个属性,xib是样本xb的第i个属性;
Ii表达式为式(2):
Figure FDA0002557884480000012
其中,n表示数据集中样本总数;
通过属性相关的相似度计算公式(1)和(2),得到不完整数据样本的最近邻样本,构成缺失数据的训练样本集,计算不完整数据样本和其最近邻样本之间相似度;
2)生成对抗网络填补缺失数据,区间化填补数据:将VAE作为生成对抗网络GAN的生成器,与GAN的判别器融合建立不完整数据填补模型网络的拓扑结构,将最近邻样本集的属性中值作为不完整数据构造特征标签,训练样本集训练网络,完成不完整数据对缺失属性的估值填补,得到完整的数值型数据集;
变分自动编码器中的隐变量z由变分分布q(z|x)进行选择,通过假设简单的高斯分布,及贝叶斯算法计算其中的KL散度:
Figure FDA0002557884480000013
最大似然估计的混合损失函数的优化目标函数:
Figure FDA0002557884480000014
其中,x为输入样本,z为隐变量,z~p(z),x|z~pθ(x|z),z满足高斯分布p(z),从z中采样通过神经网络计算pθ(x|z)进而生成数据;
不完整数据区间化填补:利用上述模型填补缺失数据属性,得到完整的数值型数据集,进一步将得到的数值型数据区间化,由属性误差均值绝对值确定区间大小;假设缺失属性估值为x,对完整数据的估值误差取平均值为e,则缺失属性区间为[x-e,x+e];
3)生成对抗网络估值的区间型数据模糊C均值聚类:首先对步骤2)得到的缺失属性区间利用近邻样本属性极值进行约束,然后对区间型数据进行模糊聚类分析;
3.1)最近邻样本属性极值对区间的约束:在最近邻样本集中,选取缺失属性的数据,以缺失属性的最小值与最大值构造属性区间[Min,Max],将由属性误差均值绝对值构造的属性区间[x-e,x+e]与属性最小值最大值构造的属性区间[Min,Max]取交,得到新的区间[min,max]作为属性估值区间;如果,两个区间不存在交集,说明不完整数据样本点很可能是离群点,此时直接取属性误差均值绝对值构造的属性区间即可完成区间估计;
3.2)设属性维度为s区间数据集
Figure FDA0002557884480000021
数据
Figure FDA0002557884480000022
对于任意的j(1≤j≤s),
Figure FDA0002557884480000023
区间型模糊C均值算法的目标函数公式为:
Figure FDA0002557884480000024
Figure FDA0002557884480000025
Figure FDA0002557884480000026
Figure FDA0002557884480000027
表示第i个聚类中心,
Figure FDA0002557884480000028
为聚类中心矩阵,
Figure FDA0002557884480000029
Figure FDA00025578844800000210
利用拉格朗日乘子法迭代计算得到聚类中心更新公式为:
Figure FDA00025578844800000211
Figure FDA00025578844800000212
若存在区间型数据样本
Figure FDA00025578844800000213
在某个聚类中心的区间值内,其隶属度设为1,反之,则其隶属度为0,不属于该类,隶属度矩阵U(c×n)更新公式为:
Figure FDA0002557884480000031
否则:
Figure FDA0002557884480000032
4)利用生成对抗网络估值的区间型模糊C均值聚类方法对步骤2)中得到的区间型数据集进行聚类,得到聚类结果。
2.根据权利要求1所述的生成对抗网络估值的区间型数据模糊C均值聚类方法,其特征在于:所述的步骤4)中,具体步骤如下:
4.1)构造对不完整数据样本的最近邻样本集:依据最近邻规则选择最近邻样本,确定最近邻样本数q,构建不完整数据的q个最近邻样本集;
4.2)输入样本归一化:将所有的数据均转化为区间[0,1]之间的数,从而消除各维度间数量级的差别;
4.3)数据填补模型初始化:对模型中的各网络参数进行初始化,权值,偏置值,最大迭代次数,训练误差;
4.4)训练模型:使用训练样本集对模型进行训练;
4.5)填补缺失属性:生成对抗网络模型对不完整数据中的各个缺失数据属性进行估值预测,同时得到网络对于数据集中的完整属性的估值误差;
4.6)区间化数据集:根据区间型转化规则,将数值型数据集中的数据全部转化为区间型,进而构造区间型矩阵:
4.7)初始化区间型FCM算法参数:初始化隶属度矩阵,并对聚类类别数
Figure FDA0002557884480000033
迭代次数G、终止阈值ε、模糊指标m进行设置;
4.8)按照公式(9)和公式(10)更新聚类中心矩阵:依据U(l-1)对聚类中心矩阵V(l)进行更新;
4.9)按照公式(11)和公式(12)更新隶属度矩阵:语句V(l)对隶属度矩阵U(l)进行更新;
4.10)算法条件判断:当迭代次数达到最大,或max|U(l+1)-U(l)|≤ε时,算法迭代停止;否则l=l+1,返回4.8)。
CN202010597430.1A 2020-06-28 2020-06-28 一种生成式对抗网络估值的不完整数据聚类方法 Pending CN111738346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010597430.1A CN111738346A (zh) 2020-06-28 2020-06-28 一种生成式对抗网络估值的不完整数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010597430.1A CN111738346A (zh) 2020-06-28 2020-06-28 一种生成式对抗网络估值的不完整数据聚类方法

Publications (1)

Publication Number Publication Date
CN111738346A true CN111738346A (zh) 2020-10-02

Family

ID=72651383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010597430.1A Pending CN111738346A (zh) 2020-06-28 2020-06-28 一种生成式对抗网络估值的不完整数据聚类方法

Country Status (1)

Country Link
CN (1) CN111738346A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259247A (zh) * 2020-10-22 2021-01-22 平安科技(深圳)有限公司 对抗网络训练、医疗数据补充方法、装置、设备及介质
CN112990380A (zh) * 2021-05-11 2021-06-18 物鼎安全科技(武汉)有限公司 物联网缺失数据的填充方法及系统
KR20220061034A (ko) * 2020-11-05 2022-05-12 광주과학기술원 퍼지 멤버십 메트릭스에 기반하는 벡터 양자화 변분 오토인코더

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259247A (zh) * 2020-10-22 2021-01-22 平安科技(深圳)有限公司 对抗网络训练、医疗数据补充方法、装置、设备及介质
CN112259247B (zh) * 2020-10-22 2022-08-23 平安科技(深圳)有限公司 对抗网络训练、医疗数据补充方法、装置、设备及介质
KR20220061034A (ko) * 2020-11-05 2022-05-12 광주과학기술원 퍼지 멤버십 메트릭스에 기반하는 벡터 양자화 변분 오토인코더
KR102593573B1 (ko) 2020-11-05 2023-10-25 광주과학기술원 퍼지 멤버십 메트릭스에 기반하는 벡터 양자화 변분 오토인코딩장치
CN112990380A (zh) * 2021-05-11 2021-06-18 物鼎安全科技(武汉)有限公司 物联网缺失数据的填充方法及系统

Similar Documents

Publication Publication Date Title
CN110120097B (zh) 大场景机载点云语义建模方法
CN109145939B (zh) 一种小目标敏感的双通道卷积神经网络语义分割方法
CN111738346A (zh) 一种生成式对抗网络估值的不完整数据聚类方法
Hwang et al. Uncertain fuzzy clustering: Interval type-2 fuzzy approach to $ c $-means
CN110188228B (zh) 基于草图检索三维模型的跨模态检索方法
Bataineh et al. A Comparison Study between Various Fuzzy Clustering Algorithms.
CN110110802A (zh) 基于高阶条件随机场的机载激光点云分类方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN112464004A (zh) 一种多视角深度生成图像聚类方法
CN108763793A (zh) 一种加权模糊型d-s证据理论框架
CN109034231A (zh) 信息反馈rbf网络估值的不完整数据模糊聚类方法
CN117746260B (zh) 遥感数据智能解析方法及系统
CN113505477A (zh) 一种基于svae-wgan的过程工业软测量数据补充方法
Shin et al. Incremental deep learning for robust object detection in unknown cluttered environments
CN111222847A (zh) 基于深度学习与非监督聚类的开源社区开发者推荐方法
CN111311702A (zh) 一种基于BlockGAN的图像生成和识别模块及方法
CN108985455A (zh) 一种计算机应用神经网络预测方法及系统
CN115905903A (zh) 基于图注意力自动编码器的多视图聚类方法及系统
CN115273645B (zh) 一种室内面要素自动聚类的地图制图方法
CN111353525A (zh) 一种不均衡不完整数据集的建模及缺失值填补方法
Cebeci et al. Validation of fuzzy and possibilistic clustering results
CN112905907B (zh) 一种系统进化移植分区时序网络的动态社区发现方法
Sengupta et al. An improved fuzzy clustering method using modified Fukuyama-Sugeno cluster validity index
KR102276369B1 (ko) 3차원 포인트 클라우드 신뢰도 판단 시스템 및 방법
Mousavi A New Clustering Method Using Evolutionary Algorithms for Determining Initial States, and Diverse Pairwise Distances for Clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201002