CN103177088A - 一种生物医学空缺数据弥补方法 - Google Patents

一种生物医学空缺数据弥补方法 Download PDF

Info

Publication number
CN103177088A
CN103177088A CN2013100749167A CN201310074916A CN103177088A CN 103177088 A CN103177088 A CN 103177088A CN 2013100749167 A CN2013100749167 A CN 2013100749167A CN 201310074916 A CN201310074916 A CN 201310074916A CN 103177088 A CN103177088 A CN 103177088A
Authority
CN
China
Prior art keywords
data
sample
cluster
missing data
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100749167A
Other languages
English (en)
Other versions
CN103177088B (zh
Inventor
罗森林
韩龙飞
潘丽敏
张铁梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201310074916.7A priority Critical patent/CN103177088B/zh
Publication of CN103177088A publication Critical patent/CN103177088A/zh
Application granted granted Critical
Publication of CN103177088B publication Critical patent/CN103177088B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于EM聚类-BP神经网络的空缺数据弥补方法,属于生物医学技术领域。本发明首先采用处理不完全数据问题中很重要的迭代算法EM算法,通过EM聚类,将不同缺失数据划分到不同的簇中,完成初步弥补;然后通过BP神经网络方法对每个簇中的完全数据建模,并完成对各个簇中缺失数据的精确弥补。在一定程度上加强弥补算法对任意缺失机制的适用性,并提高弥补的准确性,可适用于生物医学空缺数据弥补领域。

Description

一种生物医学空缺数据弥补方法
技术领域
本发明涉及一种生物医学空缺数据弥补方法,属于生物医学技术领域。
背景技术
近年来,随着计算机科学技术的不断发展,数据挖掘技术被广泛应用于各领域之中。数据挖掘总体过程包括问题理解、数据采集和理解、预处理、数据挖掘、模型评估和知识应用,数据挖掘的成功与否和适用性能在很大程度上取决于数据质量。然而,在针对生物医学数据挖掘各个环节过程中,数据不完全的现象是不可避免的,存在着不同程度的空缺数据,也称为空缺值。为了能在生物医学研究领域中有效地应用数据挖掘的方法和系统,就必须面对数据不完整的挑战。
对生物医学研究领域来说,空缺值产生有多方面原因:有些医学筛查数据属性的内容没有;有些数据当时被认为是不必要的;由于误解或检测设备失灵导致相关数据没有记录下来;与其他记录内容不一致而被删除;历史记录或对数据的修改被忽略了或者属性的值根本不能直接观测到等。
面对生物医学研究过程中存在的缺失值,虽然现在已经有很多数据填充方法,但并不存在一种可以适合于任何问题的空缺值填充方法。无论哪种填充方法都无法避免主观因素的存在,并且在空缺值过多的情形下将系统完备化是不可行的。在空缺值弥补技术的研究趋势主要呈现以下两个方面:1.构建空缺值弥补模型,该模型可以较好的适用于生物医学领域中任何空缺数据弥补问题,具有很好的普适性;2.基于数据挖掘和统计理论提出更为合适的算法,能够预测数据中存在的空缺值,并且具有较小的误差。综观现有生物医学空缺数据弥补方法,通常使用的方法有:
1.MI填补算法:该方法针对大部分简单填充方法的填充数据唯一且填充后的数据集不能表现出原有数据集的不确定性,导致结果产生较大的偏差问题而由Rubin提出,该方法是建立在贝叶斯理论基础之上,用EM算法来实现对缺失数据的处理。其主要思想是:首先为每个缺失值构造一套可能的估计值,这些值反映了缺失模型的不确定性,这样就形成若干个完整数据集;然后对每个完整数据集分别使用相同的方法处理;最后综合来自各个填充数据集的结果,得到对目标变量的统计推断。
2.KNN填补算法:该方法采用数据挖掘中分类思想,通过搜索模式空间,找出最接近空缺数据的k个完全数据,并通过完全数据的加权平均计算空缺数据的空缺值。该方法的主要思想是:首先将数据集分为完全数据集和缺失数据集两个部分;然后计算缺失数据集中的每个样本其与完全数据集中各样本的相似性,找到与缺失数据样本最近邻的k个数据;最后将缺失数据样本与完全数据样本的距离的倒数作为样本间的权重,根据各完全数据计算缺失数据的估计值。
3.关联规则填补算法:该方法由Agrawal等人于1993年提出,其主要思想是:首先找出所有的频繁项集;然后由频繁项集生成强关联规则;最后利用通过对提取出的关联规则进行排序或分组,取优先权最高的规则进行填补。
4.K-means填补算法:该方法的主要思想是首先通过计算完全数据集中各样本间的距离将数据样本分成不同簇,并使同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异;然后计算缺失数据集中各缺失数据与各聚类簇的聚类,并将该缺失数据分到对应的聚类簇中;最后采用不同核函数对缺失数据进行弥补。
5.SVR(支持向量回归)算法:支持向量回归方法就是针对传统回归分析的局限性,该方法与SVM方法相同,采用结构风险最小化原则,将求解过程转化为一个二次型寻优问题。SVR算法采用核函数的映射方法,将实际问题通过非线性变换转换到高维的特征空间,并在高维空间中构造线性判别函数来实现原空间中的非线性判别函数。通过近似核函数的非线性回归特征空间的线性回归进行空缺值弥补。
综上所述,现有算法仅针对可忽略的缺失机制下进行研究,不适用于任意缺失机制,提出的各方法不具有代表性;同时,针对生物医学空缺数据弥补的准确性也不甚理想,仍待进一步提高。
发明内容
本发明的目的是为解决生物医学数据中存在空缺值的问题,提出一种基于EM聚类-BP神经网络的空缺数据弥补方法。
本发明的设计原理为:首先,采用处理不完全数据问题中很重要的迭代算法EM算法,通过EM聚类,将不同缺失数据划分到不同的簇中,完成初步弥补;然后通过BP神经网络方法对每个簇中的完全数据建模,并完成对各个簇中缺失数据的精确弥补。其主要思想是针对不同缺失数据的缺失特点将缺失数据划分到具有相应特点的聚类簇中,然后根据BP神经网络算法估计完全数据属性的权重,计算含缺失数据的对应属性缺失值的预测值,在一定程度上加强弥补算法对任意缺失机制的适用性,并提高弥补的准确性。
本发明的技术方案是通过如下步骤实现的:
步骤1,将N个被评估对象作为样本集S,其中每个对象包含M个影响2型糖尿病发病的关键属性;将关键属性作为列,不同样本对应的属性值作为行,建立样本集S的矩阵表示[s(a+c)b];并采用EM聚类方法对样本集S进行聚类,得到k个聚类簇。具体实现方法为:
步骤1.1,首先将N个对象根据是否含有缺失数据分为两个样本集:完全数据集X和缺失数据集Y。
所述完全数据集X为M个关键属性对应的数据均无缺失的对象集合。集合中所有对象关键属性的数据构成矩阵[xab],其中矩阵的行数a表示完全数据样本对象,列数b表示完全数据样本各属性对应的数据,b=1,2,...,M。
所述缺失数据集Y为M个关键属性对应的数据中存在一个或多个缺失的对象集合。集合中所有对象的关键属性数据形成一个矩阵[ycb],行数c表示缺失数据样本对象,列数b表示缺失数据样本各属性对应的数据。
步骤1.2,设置聚类簇个数k(k≤N),由于样本集S中任意第i个样本ni(1≤i≤N),均服从k个聚类簇的混合概率分布:
n i ~ p ( n i | Θ ) = Σ j = 1 k π j p ( n i | θ j )
其中Θ=(π1,π2,…,πk,θ1,θ2,…,θk)表示k个聚类簇的混合概率分布参数,θj表示第j个聚类簇的概率分布参数,πj表示ni来自第j个聚类簇的可能性,j=1,2,…,k,π12+...+πk=1。
因此,设定一组参数值
Figure BDA00002899453100032
作为样本集S的初始混合概率分布参数估计值。
步骤1.3,将步骤1.2给定的初始混合概率分布参数估计值Θ0代入缺失数据集Y,获得ycb的后验分布概率为:
p ( y cb | x ab , Θ 0 ) = π k 0 p y cb ( x ab | θ k o ) Σ k = 1 M π k 0 p k ( x ab | θ k o ) 其中xab∈X,ycb∈Y
由于样本集间各样本的独立性,得到数据集Y的后验分布函数为:
p ( Y | X , Θ 0 ) = Π b = 1 M p ( y cb | x ab , Θ o )
步骤1.4,根据步骤1.3获得的后验分布函数,对完全数据的对数似然函数lnL(Θ|X,Y)关于缺失数据求期望,并将得到M个对应每一列的期望值,用于代替缺失数据集Y中相应列数的各个缺失数据,得到新样本集Y'。
所述lnL(Θ|X,Y)为完全数据关于缺失数据的对数似然函数,其中 ln L ( Θ | X , Y ) = ln p ( x , y | Θ ) = Σ b = 1 M ln p ( x ab | y cb ) p ( y cb )
步骤1.5,根据步骤1.4计算获得的样本集Y'以及完全数据集X,重新计算样本集S的最大似然参数Q(Θ,Θ0):
Q(Θ,Θ0)=∑ln(L(Θ|X,Y)p(Y|X,Θ0))
步骤1.6,将Q(Θ,Θ0)极大化,得到Θ1,满足Q(Θ1,Θ0)=maxQ(Θ,Θ0),用Θ1代替Θ0,代入步骤1.3。
步骤1.7,执行步骤1.3至步骤1.6的迭代过程α次,直至‖Q(Θα+1α)-Q(Θαα-1)‖<ε,停止迭代。最终得到的Θα即为k个聚类簇的混合概率分布参数估计值Θ。其中ε为依据聚类准确度设定的精度值。
步骤1.8,利用混合概率分布参数估计值Θ,分别计算各样本对象属于聚类簇j的后验条件概率密度值,即各对象隶属于每个簇的隶属概率。按照样本与聚类簇的隶属概率最大的原则,把样本集S中的各个样本分入k个聚类簇。
步骤2,对步骤1得到的每个聚类簇中的完全数据集分别采用BP神经网络方法对M个影响2型糖尿病发病的关键属性进行神经网络模型训练,获得M*k个BP神经网络模型,并对每个聚类簇中的缺失数据集中不同属性的缺失数据选取对应BP神经网络模型,计算该缺失数据的估计值。
第j个聚类簇中属性m的BP神经网络模型的具体构建过程如下:
步骤2.1,将聚类簇中的数据划分为完全数据集X′和缺失数据集Y′;并针对完全数据集X′,将X′中的各样本中非属性m对应的数值组成向量其中t为完全数据集X′的样本个数。随机设置权值矩阵Wt*(m-1)中各元素值,且要求权值矩阵中各元素取值区间(-1,1)中。
步骤2.2,对于数据集X′中的每一个样本u,将各个样本t的属性m对应数值作为实际输出,并将其他属性对应数值作为输入值。计算BP神经网络的隐藏层每个节点g输出
Figure BDA00002899453100052
其中g=1,…,M-1,u=1,…,t,wug为权值矩阵对应各元素值。
步骤2.3,以每个隐藏层节点作为输出层输入,计算各节点输出层
Figure BDA00002899453100053
节点的输出 h o ( u ) = 1 / [ 1 + e - 3.5 h g ( u ) ] , o = 1 , . . . , h .
步骤2.4,根据第t个样本的属性m对应的数值和实际输出层的输出值计算输出误差χt,误差为属性m对应数值与实际输出值差值的绝对值,然后根据所有以获得的各样本的输出误差计算全局误差,全局误差计算公式为:
Figure BDA00002899453100055
将全局误差与设定的误差阈值Es比较,若全局误差大于误差阈值,执行步骤2.5;若全局误差小于误差阈值,则结束。
步骤2.5,首先则调整学习因子h的数值,其中学习因子h的调整公式为:h=h+c,其中c为调整步长,一般取值在0~1之间。然后利用输出误差调整权值矩阵,调整公式为:Wt*(m-1)(1)=Wt*(m-1)(0)+ΔWt*(m-1)(1),其中ΔWt*(m-1)(1)为权值矩阵变化量,ΔWt*(m-1)(1)=h*χt*hg(u)+a*ΔWt*(m-1)(0),其中h为学习因子,a为动量因子,h和a的大小影响着神经网络模型的收敛速度。
步骤2.6,执行步骤2.2到步骤2.5的迭代过程σ次,直至全局误差小于误差阈值,停止迭代;否则,在迭代过程中执行步骤2.5时,使学习因子h=h+c*(Eσ-1-Eσ-2)/Eσ-1,使权值矩阵Wt*(m-1)(σ)=Wt*(m-1)(σ-1)+ΔWt*(m-1)(σ)。最后获得第j聚类簇对应的BP神经网络模型。
步骤2.7,将缺失数据集Y′带入到对应BP神经网络模型中,计算属性m对应缺失数据的估计值,并将该估计值作为空缺数据对应的填补值。
有益效果
相比于MI等基于统计学的填补算法,本发明采用的基于EM聚类-BP神经网络的弥补算法具有更好的填补准确度,其弥补的平均绝对误差和平均相对误差更小,可以更好的适用于生物医学领域。
与KNN、关联规则以及k-means等基于数据挖掘技术的填补算法相比,本发明采用的基于EM聚类-BP神经网络弥补算法的适用性更强,针对不同缺失数据的特点,通过聚类的方法实现对不同缺失特点数据的弥补,具有更强的针对性和适用性,并可实现处理过程中的并行化,提高空缺数据的弥补速度。
附图说明
图1为本发明的基于EM聚类-BP神经网络的弥补算法原理图;
图2为具体实施方式中SVR方法的不敏感因子的参数选择的过程;
图3为具体实施方式中SVR方法的惩罚因子的参数选择的过程;
图4为具体实施方式中BP神经网络算法的模型基本形式;
图5为具体实施方式中基于EM聚类-BP神经网络的弥补算法在不同缺失比下腹围的弥补准确度;
图6为具体实施方式中SVR方法和基于EM聚类-BP神经网络的弥补算法在不同缺失比下腹围的弥补准确度;
具体实施方式
为了更好的说明本发明的目的和优点,下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。
分别以2001年2月至2007年9月从北京市西城区和海淀区科研院所59839人整群抽样横断面数据作为输入,设计并部署3项测试:(1)针对59839条横截面数据构建基于EM聚类-BP神经网络的弥补模型的可行性进行测试;(2)针对59839条横截面数据在不同缺失比例下的弥补准确度的有效性测试;(3)针对59839条横截面数据的在SVR和基于EM聚类-BP神经网络的弥补算法的弥补准确度的有效性测试。
下面将对上述3个测试流程逐一进行说明,所有测试均在同一台计算机上完成,具体配置为:Intel双核CPU(主频1.8G),1G内存,WindowsXP SP3操作系统。
在上述测试1和测试2中,均使用基于EM聚类和BP神经网络的建模方法和过程。基于EM聚类-BP神经网络的弥补算法原理图如图1所示。
另外,在上述测试3中,使用步进法作为SVR参数选择的方法。其中SVR空缺数据弥补方法的不敏感系数和惩罚因子选择的流程如图2和图3所示。
1.针对59839条横截面数据构建基于EM聚类-BP神经网络的弥补模型的可行性测试
该数据源来自于2001年2月至2007年9月从北京市60259人整群抽样横断面健康调查,包含101维属性。经过预处理以后,筛选出12维59839条数据构成试验数据源。数据特点如下表1所示:
表 错误!文档中没有指定样式的文字。性别分布特性
Figure BDA00002899453100071
EM聚类试验目的通过设置簇的个数使聚类的效果最好,对数似然比最小。该测试把EM聚类的簇个数选定为3和4。然后对每个聚类簇中的完全数据进行BP神经网络建模,共获得3*12+4*12共84个SVR回归模型;最后对不同缺失数据选取对应的弥补模型进行空缺值弥补。其实验具体流程为:
步骤1,设置聚类的簇的个数为3或4。
步骤2,根据设置的聚类个数进行EM聚类。
步骤3,对不同聚类簇中的完全数据集进行BP神经网络建模,获得84个EM-BP神经网络模型,其每个BP神经网络模型基本形式如图4所示。
步骤4,针对不同聚类簇中的不同缺失数据,采用不同BP神经网络模型进行弥补,并计算弥补的平均绝对误差和平均相对误差。
通过上述实验步骤,可以实现对空缺数据的弥补。
2.针对59839条横截面数据在不同缺失比例下的弥补准确度的有效性测试
针对59839条横截面数据,通过随机抽样的方法构建不同(1%、5%、10%、20%和50%)缺失比例的数据,然后按照测试1的训练过程获得不同缺失比例的SVR回归模型,其中聚类簇个数根据测试1计算的对数似然比的大小设定为3。最后共获得3*12*5=180个EM-BP神经网络模型,最后计算弥补的平均绝对误差和平均相对误差,其计算结果如图5所示。
3.针对59839条横截面数据的在SVR和基于EM聚类-BP神经网络的弥补算法的弥补准确度的有效性测试
针对59839条横截面数据,按照测试2获得的不同缺失比例数据中的完全数据集直接进行SVR回归建模,最后获得1*5=5个回归模型。最后计算弥补的平均绝对误差和平均相对误差,并与基于EM聚类-BP神经网络的弥补算法计算结果相比较,证明基于EM聚类-BP神经网络的弥补算法在不同缺失比例下弥补准确度更好。SVR方法和基于EM聚类-BP神经网络的弥补算法计算结果对比图如图6所示。
测试结果
对于测试(1),腹围缺失弥补的平均绝对误差和平均相对误差分别为4.36cm和4.85%,同时,在其他属性上的弥补准确度都要小于腹围弥补准确度。很明显,EM-BP方法在生物医学领域尤其是2型糖尿病领域具有较好的填补准确度。
对于测试(2),基于EM聚类-BP神经网络的弥补算法在不同缺失比例下腹围的弥补准确度见图4所示。其中聚类最优个数为3。人群聚类结果如表2所示:
表2 不同缺失比例下聚类结果
Figure BDA00002899453100081
Figure BDA00002899453100091
通过图5可以看出,随着缺失比例的增加,基于EM聚类-BP神经网络的弥补算法弥补的误差会有一定程度的变大,但是在高缺失比下仍有不错的效果。
对于测试(3),通过与SVR算法在不同缺失比下腹围的弥补准确度的对比发现,如图6所示。基于EM聚类-BP神经网络的弥补算法无论在平均绝对误差和平均相对误差计算结果上均好于SVR算法,证明基于EM聚类-BP神经网络的弥补算法在不同缺失比例下弥补准确度的有效性。
本发明以2型糖尿病腹围缺失数据弥补为例,提出了一种基于EM聚类-BP神经网络的生物医学空缺数据弥补计算方法,通过不同数据缺失比的弥补实验,基于EM聚类-BP神经网络的弥补算法均有较低的平均绝对误差和平均相对误差,该方法可以满足实际生物信息采样数据缺失的空缺值弥补计算,具有较好的效果,为生物信息采集数据空缺值弥补提供了技术和方法基础。

Claims (5)

1.一种生物医学空缺数据弥补方法,其特征在于:针对不同缺失数据的缺失特点将缺失数据划分到具有相应特点的聚类簇中,然后根据BP神经网络算法估计完全数据属性的权重,计算含缺失数据的对应属性缺失值的预测值,实现弥补算法对任意缺失机制的适用性,并提高弥补的准确性。包括如下步骤:
步骤1,将N个被评估对象作为样本集S,其中每个对象包含M个影响2型糖尿病发病的关键属性;将关键属性作为列,不同样本对应的属性值作为行,建立样本集S的矩阵表示[s(a+c)b];并采用EM聚类方法对样本集S进行聚类,得到k个聚类簇。
步骤2,对步骤1得到的每个聚类簇中的完全数据集分别采用BP神经网络方法M个影响2型糖尿病发病的关键属性进行BP神经网络模型训练,获得M*k个模型,并对每个聚类簇中的缺失数据集中不同属性的缺失数据选取对应BP神经网络模型,计算该缺失数据的估计值。
2.根据权利要求1所述针对含空缺值的数据的EM聚类方法,具体实现方法为:
步骤1.1,首先将N个对象根据是否含有缺失数据分为两个样本集:完全数据集X和缺失数据集Y。
所述完全数据集X为M个关键属性对应的数据均无缺失的对象集合。集合中所有对象关键属性的数据构成矩阵[xab],其中矩阵的行数a表示完全数据样本对象,列数b表示完全数据样本各属性对应的数据,b=1,2,...,M。
所述缺失数据集Y为M个关键属性对应的数据中存在一个或多个缺失的对象集合。集合中所有对象的关键属性数据形成一个矩阵[ycb],行数c表示缺失数据样本对象,列数b表示缺失数据样本各属性对应的数据。
步骤1.2,设置聚类簇个数k(k≤N),由于样本集S中任意第i个样本ni(1≤i≤N),均服从k个聚类簇的混合概率分布:
n i ~ p ( n i | &Theta; ) = &Sigma; j = 1 k &pi; j p ( n i | &theta; j )
步骤1.3,将步骤1.2给定的初始混合概率分布参数估计值Θ0代入缺失数据集Y,获得ycb的后验分布概率为:
p ( y cb | x ab , &Theta; 0 ) = &pi; k 0 p y cb ( x ab | &theta; k o ) &Sigma; k = 1 M &pi; k 0 p k ( x ab | &theta; k o ) 其中xab∈X,ycb∈Y
由于样本集间各样本的独立性,得到数据集Y的后验分布函数为:
p ( Y | X , &Theta; 0 ) = &Pi; b = 1 M p ( y cb | x ab , &Theta; o )
步骤1.4,根据步骤1.3获得的后验分布函数,对完全数据的对数似然函数lnL(Θ|X,Y)关于缺失数据求期望,并将得到M个对应每一列的期望值,用于代替缺失数据集Y中相应列数的各个缺失数据,得到新样本集Y'。
所述lnL(Θ|X,Y)为完全数据关于缺失数据的对数似然函数,其中 ln L ( &Theta; | X , Y ) = ln p ( x , y | &Theta; ) = &Sigma; b = 1 M ln p ( x ab | y cb ) p ( y cb )
步骤1.5,根据步骤1.4计算获得的样本集Y'以及完全数据集X,重新计算样本集S的最大似然参数Q(Θ,Θ0):
Q(Θ,Θ0)=∑ln(L(Θ|X,Y)p(Y|X,Θ0))
步骤1.6,将Q(Θ,Θ0)极大化,得到Θ1,满足Q(Θ1,Θ0)=maxQ(Θ,Θ0),用Θ1代替Θ0,代入步骤1.3。
步骤1.7,执行步骤1.3至步骤1.6的迭代过程α次,直至
Figure FDA00002899453000024
停止迭代。最终得到的Θα即为k个聚类簇的混合概率分布参数估计值Θ。其中ε为依据聚类准确度设定的精度值。
步骤1.8,利用混合概率分布参数估计值Θ,分别计算各样本对象属于聚类簇j的后验条件概率密度值,即各对象隶属于每个簇的隶属概率。按照样本与聚类簇的隶属概率最大的原则,把样本集S中的各个样本分入k个聚类簇。
3.根据权利要求2所述的针对空缺数据的EM聚类方法,其特征在于:步骤1.2中其中Θ=(π1,π2,…,πk,θ1,θ2,…,θk)表示k个聚类簇的混合概率分布参数,θj表示第j个聚类簇的概率分布参数,πj表示ni来自第j个聚类簇的可能性,j=1,2,…,k,π12+...+πk=1。
因此,设定一组参数值
Figure FDA00002899453000031
作为样本集S的初始混合概率分布参数估计值。
4.根据权利要求2所述的EM聚类方法,其特征在于:采用EM方法将求得对数似然函数的期望代替缺失数据,并估计缺失数据所属聚类簇的概率。该方法可应用于含缺失数据的聚类中,结果具有很好的解释性。
5.根据权利要求1中所述的一种BP神经网络方法,其特征在于:所述步骤2中,第j个聚类簇中对于属性m的BP神经网络模型的具体构建过程如下:
步骤2.1,将聚类簇中的数据划分为完全数据集X′和缺失数据集Y′;并针对完全数据集X′,将X′中的各样本中非属性m对应的数值组成向量其中t为完全数据集X′的样本个数。然后对权值矩阵中的各个元素分别设置一个在区间(-1,1)内的随机值。
步骤2.2,将各个样本t的属性m对应数值作为实际输出,并将其他属性对应数值作为输入值。然后计算BP神经网络的隐藏层每个节点g输出值。
步骤2.3,以每个隐藏层节点作为输出层输入,计算各节点输出层节点的输出值。
步骤2.4,根据以获得的各样本的输出误差计算全局误差。
步骤2.5,将全局误差与误差阈值比较,若全局误差大于误差阈值,则根据输出误差调整权值矩阵,重复步骤2.2至步骤2.4;若全局误差小于误差阈值,则结束。
CN201310074916.7A 2013-03-08 2013-03-08 一种生物医学空缺数据弥补方法 Expired - Fee Related CN103177088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310074916.7A CN103177088B (zh) 2013-03-08 2013-03-08 一种生物医学空缺数据弥补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310074916.7A CN103177088B (zh) 2013-03-08 2013-03-08 一种生物医学空缺数据弥补方法

Publications (2)

Publication Number Publication Date
CN103177088A true CN103177088A (zh) 2013-06-26
CN103177088B CN103177088B (zh) 2016-05-18

Family

ID=48636949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310074916.7A Expired - Fee Related CN103177088B (zh) 2013-03-08 2013-03-08 一种生物医学空缺数据弥补方法

Country Status (1)

Country Link
CN (1) CN103177088B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
CN104252515A (zh) * 2013-12-04 2014-12-31 深圳市华傲数据技术有限公司 一种数据生成方法和装置
CN104598618A (zh) * 2015-01-30 2015-05-06 武汉理工大学 一种基于完备相容类的云平台不完备大数据填补方法
CN104679868A (zh) * 2015-03-06 2015-06-03 四川深度信息技术有限责任公司 一种基于数据间关联关系的遗漏数据填补方法
WO2015081724A1 (zh) * 2013-12-04 2015-06-11 深圳市华傲数据技术有限公司 一种数据生成方法和装置
CN105372989A (zh) * 2015-08-25 2016-03-02 国网山西省电力公司晋城供电公司 一种调度控制系统不完整数据参数的估计方法和装置
CN106096324A (zh) * 2016-08-26 2016-11-09 清华大学 基于k近邻回归的输变电主设备负荷数据缺失填补算法
CN107169520A (zh) * 2017-05-19 2017-09-15 济南浪潮高新科技投资发展有限公司 一种大数据缺失属性补全方法
CN107273429A (zh) * 2017-05-19 2017-10-20 哈工大大数据产业有限公司 一种基于深度学习的缺失值填充方法及系统
CN107833153A (zh) * 2017-12-06 2018-03-23 广州供电局有限公司 一种基于k‑means聚类的电网负荷缺失数据补全方法
CN108710649A (zh) * 2018-04-29 2018-10-26 蚌埠医学院 一种医学空缺数据弥补方法
CN109002513A (zh) * 2018-07-04 2018-12-14 深圳软通动力科技有限公司 一种数据聚类方法及装置
CN110097920A (zh) * 2019-04-10 2019-08-06 大连理工大学 一种基于近邻稳定性的代谢组学数据缺失值填充方法
CN110275868A (zh) * 2019-06-21 2019-09-24 厦门嵘拓物联科技有限公司 一种智能工厂中多模态制造数据预处理的方法
CN110473627A (zh) * 2019-06-21 2019-11-19 四川大学 一种基于代价敏感的自适应神经模糊推理糖尿病预测算法
CN110674621A (zh) * 2018-07-03 2020-01-10 北京京东尚科信息技术有限公司 一种属性信息填充方法和装置
CN111046977A (zh) * 2019-12-30 2020-04-21 成都康赛信息技术有限公司 基于em算法和knn算法的数据预处理方法
CN111400571A (zh) * 2020-01-22 2020-07-10 哈尔滨工业大学 基于关联规则的社交网络用户信息填充方法
CN108959395B (zh) * 2018-06-04 2020-11-06 广西大学 一种面向多源异构大数据的层次约减联合清洗方法
CN112084577A (zh) * 2020-08-24 2020-12-15 智慧航海(青岛)科技有限公司 一种基于仿真试验数据的数据处理方法
WO2021016995A1 (zh) * 2019-08-01 2021-02-04 深圳大学 数据处理方法、装置、计算机设备和存储介质
CN112416920A (zh) * 2020-12-01 2021-02-26 北京理工大学 一种面向mes的数据清洗方法及系统
CN113239022A (zh) * 2021-04-19 2021-08-10 浙江大学 医疗诊断缺失数据补全方法及补全装置、电子设备、介质
CN116823338A (zh) * 2023-08-28 2023-09-29 国网山东省电力公司临沂供电公司 电力用户经济属性缺失值的推断方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI819436B (zh) * 2021-12-15 2023-10-21 緯創資通股份有限公司 預測模型建構方法、狀態預測方法及其裝置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000028473A1 (en) * 1998-11-09 2000-05-18 Royal Holloway University Of London Data classification apparatus and method thereof
WO2001016880A2 (en) * 1999-08-30 2001-03-08 Synes Nv Topographic map and methods and systems for data processing therewith
CN102495919A (zh) * 2011-11-18 2012-06-13 华南农业大学 一种生态系统碳交换影响因素提取方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000028473A1 (en) * 1998-11-09 2000-05-18 Royal Holloway University Of London Data classification apparatus and method thereof
WO2001016880A2 (en) * 1999-08-30 2001-03-08 Synes Nv Topographic map and methods and systems for data processing therewith
CN102495919A (zh) * 2011-11-18 2012-06-13 华南农业大学 一种生态系统碳交换影响因素提取方法及系统

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015081724A1 (zh) * 2013-12-04 2015-06-11 深圳市华傲数据技术有限公司 一种数据生成方法和装置
CN104252515A (zh) * 2013-12-04 2014-12-31 深圳市华傲数据技术有限公司 一种数据生成方法和装置
CN104252515B (zh) * 2013-12-04 2017-06-16 深圳市华傲数据技术有限公司 一种数据生成方法和装置
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
CN104598618B (zh) * 2015-01-30 2018-03-27 武汉理工大学 一种基于完备相容类的云平台不完备大数据填补方法
CN104598618A (zh) * 2015-01-30 2015-05-06 武汉理工大学 一种基于完备相容类的云平台不完备大数据填补方法
CN104679868A (zh) * 2015-03-06 2015-06-03 四川深度信息技术有限责任公司 一种基于数据间关联关系的遗漏数据填补方法
CN104679868B (zh) * 2015-03-06 2017-09-26 四川深度信息技术有限责任公司 一种基于数据间关联关系的遗漏数据填补方法
CN105372989B (zh) * 2015-08-25 2018-12-18 国网山西省电力公司晋城供电公司 一种调度控制系统不完整数据参数的估计方法和装置
CN105372989A (zh) * 2015-08-25 2016-03-02 国网山西省电力公司晋城供电公司 一种调度控制系统不完整数据参数的估计方法和装置
CN106096324A (zh) * 2016-08-26 2016-11-09 清华大学 基于k近邻回归的输变电主设备负荷数据缺失填补算法
CN107169520A (zh) * 2017-05-19 2017-09-15 济南浪潮高新科技投资发展有限公司 一种大数据缺失属性补全方法
CN107273429A (zh) * 2017-05-19 2017-10-20 哈工大大数据产业有限公司 一种基于深度学习的缺失值填充方法及系统
CN107833153A (zh) * 2017-12-06 2018-03-23 广州供电局有限公司 一种基于k‑means聚类的电网负荷缺失数据补全方法
CN107833153B (zh) * 2017-12-06 2020-11-03 广州供电局有限公司 一种基于k-means聚类的电网负荷缺失数据补全方法
CN108710649A (zh) * 2018-04-29 2018-10-26 蚌埠医学院 一种医学空缺数据弥补方法
CN108959395B (zh) * 2018-06-04 2020-11-06 广西大学 一种面向多源异构大数据的层次约减联合清洗方法
CN110674621A (zh) * 2018-07-03 2020-01-10 北京京东尚科信息技术有限公司 一种属性信息填充方法和装置
CN109002513A (zh) * 2018-07-04 2018-12-14 深圳软通动力科技有限公司 一种数据聚类方法及装置
CN110097920A (zh) * 2019-04-10 2019-08-06 大连理工大学 一种基于近邻稳定性的代谢组学数据缺失值填充方法
CN110097920B (zh) * 2019-04-10 2022-09-20 大连理工大学 一种基于近邻稳定性的代谢组学数据缺失值填充方法
CN110275868A (zh) * 2019-06-21 2019-09-24 厦门嵘拓物联科技有限公司 一种智能工厂中多模态制造数据预处理的方法
CN110473627A (zh) * 2019-06-21 2019-11-19 四川大学 一种基于代价敏感的自适应神经模糊推理糖尿病预测算法
WO2021016995A1 (zh) * 2019-08-01 2021-02-04 深圳大学 数据处理方法、装置、计算机设备和存储介质
CN111046977A (zh) * 2019-12-30 2020-04-21 成都康赛信息技术有限公司 基于em算法和knn算法的数据预处理方法
CN111400571B (zh) * 2020-01-22 2021-11-19 哈尔滨工业大学 基于关联规则的社交网络用户信息填充方法
CN111400571A (zh) * 2020-01-22 2020-07-10 哈尔滨工业大学 基于关联规则的社交网络用户信息填充方法
CN112084577A (zh) * 2020-08-24 2020-12-15 智慧航海(青岛)科技有限公司 一种基于仿真试验数据的数据处理方法
CN112084577B (zh) * 2020-08-24 2023-11-17 智慧航海(青岛)科技有限公司 一种基于仿真试验数据的数据处理方法
CN112416920A (zh) * 2020-12-01 2021-02-26 北京理工大学 一种面向mes的数据清洗方法及系统
CN112416920B (zh) * 2020-12-01 2023-01-24 北京理工大学 一种面向mes的数据清洗方法及系统
CN113239022A (zh) * 2021-04-19 2021-08-10 浙江大学 医疗诊断缺失数据补全方法及补全装置、电子设备、介质
CN113239022B (zh) * 2021-04-19 2023-04-07 浙江大学 医疗诊断缺失数据补全方法及补全装置、电子设备、介质
CN116823338A (zh) * 2023-08-28 2023-09-29 国网山东省电力公司临沂供电公司 电力用户经济属性缺失值的推断方法
CN116823338B (zh) * 2023-08-28 2023-11-17 国网山东省电力公司临沂供电公司 电力用户经济属性缺失值的推断方法

Also Published As

Publication number Publication date
CN103177088B (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN103177088A (zh) 一种生物医学空缺数据弥补方法
CN107256393A (zh) 基于深度学习的一维生理信号的特征提取与状态识别
CN102626557B (zh) 基于ga-bp算法的分子蒸馏工艺参数优化方法
Han et al. Evaluation of agricultural land suitability based on RS, AHP, and MEA: A case study in Jilin Province, China
CN102227731A (zh) 基因聚类程序、基因聚类方法及基因聚类分析装置
CN110765418B (zh) 一种流域水沙研究模型的智能集合评估方法和系统
CN107798426A (zh) 基于原子分解和交互式模糊满意度的风功率区间预测方法
CN108197425B (zh) 一种基于非负矩阵分解的智能电网数据分解方法
CN106897797A (zh) 一种基于社会网络聚类的股票指数跟踪预测方法及系统
CN109816167A (zh) 径流预报方法及径流预报装置
CN105974495A (zh) 利用分类拟合法预判目标区域未来平均云量的方法
CN109460789A (zh) 一种基于贝叶斯最大熵的土壤水分融合方法
CN109816010A (zh) 一种用于航班延误预测的基于选择性集成的cart增量学习分类方法
CN105447844A (zh) 一种复杂多变量数据的特征选择新方法
Lu et al. Mapping the soil texture in the Heihe River basin based on fuzzy logic and data fusion
CN108205718A (zh) 一种粮食作物抽样测产方法及系统
Wang et al. Statistical analysis and modeling of the geometry and topology of plant roots
CN107016260A (zh) 一种基于跨平台基因表达数据的基因调控网络重建方法
Zhou et al. The analytic hierarchy process with personalized individual semantics
CN107274024A (zh) 一种气象台站测量日总辐射曝辐量预测优化方法
Liu et al. Linear Combination of Saved Checkpoints Makes Consistency and Diffusion Models Better
Carrassi et al. The maximum likelihood ensemble filter performances in chaotic systems
CN115481366A (zh) 一种基于空间降尺度回归模型的耕地资源生产潜力测算方法
Cheng et al. Fast clustering of male lower body based on GA-BP neural network
Cui et al. Optimization of Parameters Related to Grain Growth of Spring Wheat in Dryland Based on the Next-Generation APSIM

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160518

Termination date: 20170308

CF01 Termination of patent right due to non-payment of annual fee