CN103177088B - 一种生物医学空缺数据弥补方法 - Google Patents

一种生物医学空缺数据弥补方法 Download PDF

Info

Publication number
CN103177088B
CN103177088B CN201310074916.7A CN201310074916A CN103177088B CN 103177088 B CN103177088 B CN 103177088B CN 201310074916 A CN201310074916 A CN 201310074916A CN 103177088 B CN103177088 B CN 103177088B
Authority
CN
China
Prior art keywords
data
sample
attribute
cluster
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310074916.7A
Other languages
English (en)
Other versions
CN103177088A (zh
Inventor
罗森林
韩龙飞
潘丽敏
张铁梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201310074916.7A priority Critical patent/CN103177088B/zh
Publication of CN103177088A publication Critical patent/CN103177088A/zh
Application granted granted Critical
Publication of CN103177088B publication Critical patent/CN103177088B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于EM聚类-BP神经网络的空缺数据弥补方法,属于生物医学技术领域。本发明首先采用处理不完全数据问题中很重要的迭代算法EM算法,通过EM聚类,将不同缺失数据划分到不同的簇中,完成初步弥补;然后通过BP神经网络方法对每个簇中的完全数据建模,并完成对各个簇中缺失数据的精确弥补。在一定程度上加强弥补算法对任意缺失机制的适用性,并提高弥补的准确性,可适用于生物医学空缺数据弥补领域。

Description

一种生物医学空缺数据弥补方法
技术领域
本发明涉及一种生物医学空缺数据弥补方法,属于生物医学技术领域。
背景技术
近年来,随着计算机科学技术的不断发展,数据挖掘技术被广泛应用于各领域之中。数据挖掘总体过程包括问题理解、数据采集和理解、预处理、数据挖掘、模型评估和知识应用,数据挖掘的成功与否和适用性能在很大程度上取决于数据质量。然而,在针对生物医学数据挖掘各个环节过程中,数据不完全的现象是不可避免的,存在着不同程度的空缺数据,也称为空缺值。为了能在生物医学研究领域中有效地应用数据挖掘的方法和系统,就必须面对数据不完整的挑战。
对生物医学研究领域来说,空缺值产生有多方面原因:有些医学筛查数据属性的内容没有;有些数据当时被认为是不必要的;由于误解或检测设备失灵导致相关数据没有记录下来;与其他记录内容不一致而被删除;历史记录或对数据的修改被忽略了或者属性的值根本不能直接观测到等。
面对生物医学研究过程中存在的缺失值,虽然现在已经有很多数据填充方法,但并不存在一种可以适合于任何问题的空缺值填充方法。无论哪种填充方法都无法避免主观因素的存在,并且在空缺值过多的情形下将系统完备化是不可行的。在空缺值弥补技术的研究趋势主要呈现以下两个方面:1.构建空缺值弥补模型,该模型可以较好的适用于生物医学领域中任何空缺数据弥补问题,具有很好的普适性;2.基于数据挖掘和统计理论提出更为合适的算法,能够预测数据中存在的空缺值,并且具有较小的误差。综观现有生物医学空缺数据弥补方法,通常使用的方法有:
1.MI填补算法:该方法针对大部分简单填充方法的填充数据唯一且填充后的数据集不能表现出原有数据集的不确定性,导致结果产生较大的偏差问题而由Rubin提出,该方法是建立在贝叶斯理论基础之上,用EM算法来实现对缺失数据的处理。其主要思想是:首先为每个缺失值构造一套可能的估计值,这些值反映了缺失模型的不确定性,这样就形成若干个完整数据集;然后对每个完整数据集分别使用相同的方法处理;最后综合来自各个填充数据集的结果,得到对目标变量的统计推断。
2.KNN填补算法:该方法采用数据挖掘中分类思想,通过搜索模式空间,找出最接近空缺数据的k个完全数据,并通过完全数据的加权平均计算空缺数据的空缺值。该方法的主要思想是:首先将数据集分为完全数据集和缺失数据集两个部分;然后计算缺失数据集中的每个样本其与完全数据集中各样本的相似性,找到与缺失数据样本最近邻的k个数据;最后将缺失数据样本与完全数据样本的距离的倒数作为样本间的权重,根据各完全数据计算缺失数据的估计值。
3.关联规则填补算法:该方法由Agrawal等人于1993年提出,其主要思想是:首先找出所有的频繁项集;然后由频繁项集生成强关联规则;最后利用通过对提取出的关联规则进行排序或分组,取优先权最高的规则进行填补。
4.K-means填补算法:该方法的主要思想是首先通过计算完全数据集中各样本间的距离将数据样本分成不同簇,并使同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异;然后计算缺失数据集中各缺失数据与各聚类簇的聚类,并将该缺失数据分到对应的聚类簇中;最后采用不同核函数对缺失数据进行弥补。
5.SVR(支持向量回归)算法:支持向量回归方法就是针对传统回归分析的局限性,该方法与SVM方法相同,采用结构风险最小化原则,将求解过程转化为一个二次型寻优问题。SVR算法采用核函数的映射方法,将实际问题通过非线性变换转换到高维的特征空间,并在高维空间中构造线性判别函数来实现原空间中的非线性判别函数。通过近似核函数的非线性回归特征空间的线性回归进行空缺值弥补。
综上所述,现有算法仅针对可忽略的缺失机制下进行研究,不适用于任意缺失机制,提出的各方法不具有代表性;同时,针对生物医学空缺数据弥补的准确性也不甚理想,仍待进一步提高。
发明内容
本发明的目的是为解决生物医学数据中存在空缺值的问题,提出一种基于EM聚类-BP神经网络的空缺数据弥补方法。
本发明的设计原理为:首先,采用处理不完全数据问题中很重要的迭代算法EM算法,通过EM聚类,将不同缺失数据划分到不同的簇中,完成初步弥补;然后通过BP神经网络方法对每个簇中的完全数据建模,并完成对各个簇中缺失数据的精确弥补。其主要思想是针对不同缺失数据的缺失特点将缺失数据划分到具有相应特点的聚类簇中,然后根据BP神经网络算法估计完全数据属性的权重,计算含缺失数据的对应属性缺失值的预测值,在一定程度上加强弥补算法对任意缺失机制的适用性,并提高弥补的准确性。
本发明的技术方案是通过如下步骤实现的:
步骤1,将N个被评估对象作为样本集S,其中每个对象包含M个影响2型糖尿病发病的关键属性;将关键属性作为列,不同样本对应的属性值作为行,建立样本集S的矩阵表示[s(a+c)b];并采用EM聚类方法对样本集S进行聚类,得到k个聚类簇。具体实现方法为:
步骤1.1,首先将N个对象根据是否含有缺失数据分为两个样本集:完全数据集X和缺失数据集Y。
所述完全数据集X为M个关键属性对应的数据均无缺失的对象集合。集合中所有对象关键属性的数据构成矩阵[xab],其中矩阵的行数a表示完全数据样本对象,列数b表示完全数据样本各属性对应的数据,b=1,2,...,M。
所述缺失数据集Y为M个关键属性对应的数据中存在一个或多个缺失的对象集合。集合中所有对象的关键属性数据形成一个矩阵[ycb],行数c表示缺失数据样本对象,列数b表示缺失数据样本各属性对应的数据。
步骤1.2,设置聚类簇个数k(k≤N),由于样本集S中任意第i个样本ni(1≤i≤N),均服从k个聚类簇的混合概率分布:
n i ~ p ( n i | Θ ) = Σ j = 1 k π j p ( n i | θ j )
其中Θ=(π1,π2,...,πk,θ1,θ2,...,θk)表示k个聚类簇的混合概率分布参数,θj表示第j个聚类簇的概率分布参数,πj表示ni来自第j个聚类簇的可能性,j=1,2,…,k,π12+...+πk=1。
因此,设定一组参数值作为样本集S的初始混合概率分布参数估计值。
步骤1.3,将步骤1.2给定的初始混合概率分布参数估计值Θ0代入缺失数据集Y,获得ycb的后验分布概率为:
p ( y c b | x a b , Θ 0 ) = π k 0 p y c b ( x a b | θ k o ) Σ k = 1 M π k 0 p k ( x a b | θ k o ) 其中xab∈X,ycb∈Y
由于样本集间各样本的独立性,得到数据集Y的后验分布函数为:
p ( Y | X , Θ 0 ) = Π b = 1 M p ( y c b | x a b , Θ o )
步骤1.4,根据步骤1.3获得的后验分布函数,对完全数据的对数似然函数lnL(Θ|X,Y)关于缺失数据求期望,并将得到M个对应每一列的期望值,用于代替缺失数据集Y中相应列数的各个缺失数据,得到新样本集Y'。
所述lnL(Θ|X,Y)为完全数据关于缺失数据的对数似然函数,其中 ln L ( Θ | X , Y ) = ln p ( x , y | Θ ) = Σ b = 1 M ln p ( x a b | y c b ) p ( y c b )
步骤1.5,根据步骤1.4计算获得的样本集Y'以及完全数据集X,重新计算样本集S的最大似然参数Q(Θ,Θ0):
Q(Θ,Θ0)=∑ln(L(Θ|X,Y)p(Y|X,Θ0))
步骤1.6,将Q(Θ,Θ0)极大化,得到Θ1,满足Q(Θ1,Θ0)=maxQ(Θ,Θ0),用Θ1代替Θ0,代入步骤1.3。
步骤1.7,执行步骤1.3至步骤1.6的迭代过程α次,直至||Q(Θα+1α)-Q(Θαα-1)||<ε,停止迭代。最终得到的Θα即为k个聚类簇的混合概率分布参数估计值Θ。其中ε为依据聚类准确度设定的精度值。
步骤1.8,利用混合概率分布参数估计值Θ,分别计算各样本对象属于聚类簇j的后验条件概率密度值,即各对象隶属于每个簇的隶属概率。按照样本与聚类簇的隶属概率最大的原则,把样本集S中的各个样本分入k个聚类簇。
步骤2,对步骤1得到的每个聚类簇中的完全数据集分别采用BP神经网络方法对M个影响2型糖尿病发病的关键属性进行神经网络模型训练,获得M*k个BP神经网络模型,并对每个聚类簇中的缺失数据集中不同属性的缺失数据选取对应BP神经网络模型,计算该缺失数据的估计值。
第j个聚类簇中属性m的BP神经网络模型的具体构建过程如下:
步骤2.1,将聚类簇中的数据划分为完全数据集X'和缺失数据集Y';并针对完全数据集X',将X'中的各样本中非属性m对应的数值组成向量x′t,其中t为完全数据集X'的样本个数。随机设置权值矩阵Wt*(m-1)中各元素值,且要求权值矩阵中各元素取值区间(-1,1)中。
步骤2.2,对于数据集X'中的每一个样本u,将各个样本t的属性m对应数值作为实际输出,并将其他属性对应数值作为输入值。计算BP神经网络的隐藏层每个节点g输出其中g=1,…,M-1,u=1,…,t,wug为权值矩阵对应各元素值。
步骤2.3,以每个隐藏层节点作为输出层输入,计算各节点输出层节点的输出 h o ( u ) = 1 / &lsqb; 1 + e - 3.5 h g ( u ) &rsqb; , o = 1 , ... , h .
步骤2.4,根据第t个样本的属性m对应的数值和实际输出层的输出值计算输出误差χt,误差为属性m对应数值与实际输出值差值的绝对值,然后根据所有以获得的各样本的输出误差计算全局误差,全局误差计算公式为:将全局误差与设定的误差阈值Es比较,若全局误差大于误差阈值,执行步骤2.5;若全局误差小于误差阈值,则结束。
步骤2.5,首先则调整学习因子h的数值,其中学习因子h的调整公式为:h=h+c,其中c为调整步长,一般取值在0~1之间。然后利用输出误差调整权值矩阵,调整公式为:Wt*(m-1)(1)=Wt*(m-1)(0)+ΔWt*(m-1)(1),其中ΔWt*(m-1)(1)为权值矩阵变化量,ΔWt*(m-1)(1)=h*χt*hg(u)+a*ΔWt*(m-1)(0),其中h为学习因子,a为动量因子,h和a的大小影响着神经网络模型的收敛速度。
步骤2.6,执行步骤2.2到步骤2.5的迭代过程σ次,直至全局误差小于误差阈值,停止迭代;否则,在迭代过程中执行步骤2.5时,使学习因子h=h+c*(Eσ-1-Eσ-2)/Eσ-1,使权值矩阵Wt*(m-1)(σ)=Wt*(m-1)(σ-1)+ΔWt*(m-1)(σ)。最后获得第j聚类簇对应的BP神经网络模型。
步骤2.7,将缺失数据集Y'带入到对应BP神经网络模型中,计算属性m对应缺失数据的估计值,并将该估计值作为空缺数据对应的填补值。
有益效果
相比于MI等基于统计学的填补算法,本发明采用的基于EM聚类-BP神经网络的弥补算法具有更好的填补准确度,其弥补的平均绝对误差和平均相对误差更小,可以更好的适用于生物医学领域。
与KNN、关联规则以及k-means等基于数据挖掘技术的填补算法相比,本发明采用的基于EM聚类-BP神经网络弥补算法的适用性更强,针对不同缺失数据的特点,通过聚类的方法实现对不同缺失特点数据的弥补,具有更强的针对性和适用性,并可实现处理过程中的并行化,提高空缺数据的弥补速度。
附图说明
图1为本发明的基于EM聚类-BP神经网络的弥补算法原理图;
图2为具体实施方式中SVR方法的不敏感因子的参数选择的过程;
图3为具体实施方式中SVR方法的惩罚因子的参数选择的过程;
图4为具体实施方式中BP神经网络算法的模型基本形式;
图5为具体实施方式中基于EM聚类-BP神经网络的弥补算法在不同缺失比下腹围的弥补准确度;
图6为具体实施方式中SVR方法和基于EM聚类-BP神经网络的弥补算法在不同缺失比下腹围的弥补准确度;
具体实施方式
为了更好的说明本发明的目的和优点,下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。
分别以2001年2月至2007年9月从北京市西城区和海淀区科研院所59839人整群抽样横断面数据作为输入,设计并部署3项测试:(1)针对59839条横截面数据构建基于EM聚类-BP神经网络的弥补模型的可行性进行测试;(2)针对59839条横截面数据在不同缺失比例下的弥补准确度的有效性测试;(3)针对59839条横截面数据的在SVR和基于EM聚类-BP神经网络的弥补算法的弥补准确度的有效性测试。
下面将对上述3个测试流程逐一进行说明,所有测试均在同一台计算机上完成,具体配置为:Intel双核CPU(主频1.8G),1G内存,WindowsXPSP3操作系统。
在上述测试1和测试2中,均使用基于EM聚类和BP神经网络的建模方法和过程。基于EM聚类-BP神经网络的弥补算法原理图如图1所示。
另外,在上述测试3中,使用步进法作为SVR参数选择的方法。其中SVR空缺数据弥补方法的不敏感系数和惩罚因子选择的流程如图2和图3所示。
1.针对59839条横截面数据构建基于EM聚类-BP神经网络的弥补模型的可行性测试
该数据源来自于2001年2月至2007年9月从北京市60259人整群抽样横断面健康调查,包含101维属性。经过预处理以后,筛选出12维59839条数据构成试验数据源。数据特点如下表1所示:
表1性别分布特性
EM聚类试验目的通过设置簇的个数使聚类的效果最好,对数似然比最小。该测试把EM聚类的簇个数选定为3和4。然后对每个聚类簇中的完全数据进行BP神经网络建模,共获得3*12+4*12共84个SVR回归模型;最后对不同缺失数据选取对应的弥补模型进行空缺值弥补。其实验具体流程为:
步骤1,设定缺失比例为1%,将59839条样本根据是否含有缺失数据分为两个样本集:59241条完全数据集和598条缺失数据集;设置EM聚类簇的个数为3或4,59839条样本集的初始混合概率分布参数估计值为(0.1,0.39,0.51,0.145,0.323,0.425)或者(0.39,0.29,0.03,0.29,0.753,0.813,0.413,0.898);根据设置的聚类个数进行EM聚类,根据发明内容步骤1的描述,分别设置EM聚类迭代过程次数α=100,设置聚类准确度设定的精度值ε为1.0E-06,循环执行步骤1.3至1.6,直至满足步骤1.7的条件,停止迭代,完成EM聚类过程,最终将59839条数据划分至3个或者4个聚类簇中,当聚类簇个数设定为3时,每个聚类簇分别含有30423、10201和19215条样本,当聚类簇个数为4时,每个聚类簇分别含有14455、21957、9916和13511条样本;
步骤2,对不同聚类簇中的完全数据集进行BP神经网络建模,获得84个EM-BP神经网络模型,其每个BP神经网络模型基本形式如图4所示,对于其中任意一个BP神经网络模型,设定隐含层数为1,隐含层节点数g为20,循环执行步骤2.2至2.5,直至满足步骤2.6的停止条件,这里迭代次数设定为1000次,最终获得各个神经网络的各节点的权值;
步骤3,针对不同聚类簇中的不同缺失属性,采用该聚类簇下的以缺失属性为因变量训练获得的BP神经网络模型对缺失样本进行弥补,获得缺失值的估计值,然后根据该样本的真实值,计算弥补后的平均绝对误差和平均相对误差。
通过上述实验步骤,可以实现对空缺数据的弥补。
2.针对59839条横截面数据在不同缺失比例下的弥补准确度的有效性测试
针对59839条横截面数据,通过随机抽样的方法构建不同(1%、5%、10%、20%和50%)缺失比例的数据,然后按照测试1的训练过程获得不同缺失比例的SVR回归模型,其中聚类簇个数根据测试1计算的对数似然比的大小设定为3。最后共获得3*12*5=180个EM-BP神经网络模型,最后计算弥补的平均绝对误差和平均相对误差,其计算结果如图5所示。
3.针对59839条横截面数据的在SVR和基于EM聚类-BP神经网络的弥补算法的弥补准确度的有效性测试
针对59839条横截面数据,按照测试2获得的不同缺失比例数据中的完全数据集直接进行SVR回归建模,最后获得1*5=5个回归模型。最后计算弥补的平均绝对误差和平均相对误差,并与基于EM聚类-BP神经网络的弥补算法计算结果相比较,证明基于EM聚类-BP神经网络的弥补算法在不同缺失比例下弥补准确度更好。SVR方法和基于EM聚类-BP神经网络的弥补算法计算结果对比图如图6所示。
测试结果
对于测试(1),腹围缺失弥补的平均绝对误差和平均相对误差分别为4.36cm和4.85%,同时,在其他属性上的弥补准确度都要小于腹围弥补准确度。很明显,EM-BP方法在生物医学领域尤其是2型糖尿病领域具有较好的填补准确度。
对于测试(2),基于EM聚类-BP神经网络的弥补算法在不同缺失比例下腹围的弥补准确度见图4所示。其中聚类最优个数为3。人群聚类结果如表2所示:
表2不同缺失比例下聚类结果
通过图5可以看出,随着缺失比例的增加,基于EM聚类-BP神经网络的弥补算法弥补的误差会有一定程度的变大,但是在高缺失比下仍有不错的效果。
对于测试(3),通过与SVR算法在不同缺失比下腹围的弥补准确度的对比发现,如图6所示。基于EM聚类-BP神经网络的弥补算法无论在平均绝对误差和平均相对误差计算结果上均好于SVR算法,证明基于EM聚类-BP神经网络的弥补算法在不同缺失比例下弥补准确度的有效性。
本发明以2型糖尿病腹围缺失数据弥补为例,提出了一种基于EM聚类-BP神经网络的生物医学空缺数据弥补计算方法,通过不同数据缺失比的弥补实验,基于EM聚类-BP神经网络的弥补算法均有较低的平均绝对误差和平均相对误差,该方法可以满足实际生物信息采样数据缺失的空缺值弥补计算,具有较好的效果,为生物信息采集数据空缺值弥补提供了技术和方法基础。

Claims (5)

1.一种生物医学空缺数据弥补方法,其特征在于:针对不同缺失数据的缺失特点将缺失数据划分到具有相应特点的聚类簇中,然后根据BP神经网络算法估计完全数据属性的权重,计算含缺失数据的对应属性缺失值的预测值,包括如下步骤:
步骤1,将N个被评估对象作为样本集S,每个对象包含M个影响2型糖尿病发病的关键属性,其中,可以根据样本集S每个对象的M个关键属性中是否含有缺失值将样本集S分为两个样本集:完全数据集X和缺失数据集Y;将关键属性作为列,不同样本对应的属性值作为行,建立样本集S的矩阵表示[s(a+c)M],其中矩阵的行数a表示完全数据集样本对象的个数,c表示缺失数据集样本对象的个数,saM表示完全数据集X,scM表示缺失数据集Y;
步骤2,采用一种针对含空缺数据的EM聚类方法,实现EM聚类方法对样本集S的聚类,可将样本集S中的N个被评估对象划分到k个聚类簇中,即隶属于样本集S的完全数据集X和缺失数据集Y均可被划分到k个聚类簇中;其中,每个聚类簇ki中会包含ai个完全数据,记为Xi,包含bi个缺失数据,记为Yi
步骤3,对步骤2得到的每个聚类簇ki中的完全数据集Xi(1≤i≤k),分别以属性vm(1≤m≤M)为因变量,以其他属性为自变量,采用一种BP神经网络方法,分别对M个影响2型糖尿病发病的关键属性进行BP神经网络模型训练,获得M*k个神经网络模型;
步骤4,对每个聚类簇中的所述缺失样本集Yi(1≤i≤k)中的不同属性vm,选取M*k个模型中以vm为因变量、Yi隶属聚类簇ki的BP神经网络模型,以其他属性对应值为自变量作为模型的输入,计算缺失样本集Yi中属性vm为缺失的各样本对应属性vm的估计值。
2.根据权利要求1所述的一种生物医学空缺数据弥补方法,其中步骤2中的针对含空缺数据的EM聚类方法,具体实现方法为:
步骤2.1,首先将N个对象根据是否含有缺失数据分为两个样本集:完全数据集X和缺失数据集Y;
所述完全数据集X为M个关键属性对应的数据均无缺失的对象集合,集合中所有对象关键属性的数据构成矩阵[xab],其中矩阵的行数a表示完全数据样本对象,列数b表示完全数据样本各属性对应的数据,b=1,2,...,M;
所述缺失数据集Y为M个关键属性对应的数据中存在一个或多个缺失的对象集合;集合中所有对象的关键属性数据形成一个矩阵[ycb],行数c表示缺失数据样本对象,列数b表示缺失数据样本各属性对应的数据;
步骤2.2,设置聚类簇个数k(k≤N),由于样本集S中任意第i个样本ni(1≤i≤N),均服从k个聚类簇的混合概率分布:
n i ~ p ( n i | &Theta; ) = &Sigma; j = 1 k &pi; j p ( n i | &theta; j )
步骤2.3,将步骤2.2给定的初始混合概率分布参数估计值Θ0代入缺失数据集Y,获得ycb的后验分布概率为:
p ( y c b | x a b , &Theta; 0 ) = &pi; k 0 p y c b ( x a b | &theta; k o ) &Sigma; k = 1 M &pi; k 0 p k ( x a b | &theta; k o ) 其中xab∈X,ycb∈Y
由于样本集间各样本的独立性,得到数据集Y的后验分布函数为:
p ( Y | X , &Theta; 0 ) = &Pi; b = 1 M p ( y c b | x a b , &Theta; o )
步骤2.4,根据步骤2.3获得的后验分布函数,对完全数据的对数似然函数lnL(Θ|X,Y)关于缺失数据求期望,并将得到M个对应每一列的期望值,用于代替缺失数据集Y中相应列数的各个缺失数据,得到新样本集Y';
所述lnL(Θ|X,Y)为完全数据关于缺失数据的对数似然函数,其中
ln L ( &Theta; | X , Y ) = ln p ( x , y | &Theta; ) = &Sigma; b = 1 M ln p ( x a b | y c b ) p ( y c b )
步骤2.5,根据步骤2.4计算获得的样本集Y'以及完全数据集X,重新计算样本集S的最大似然参数Q(Θ,Θ0):
Q(Θ,Θ0)=Σln(L(Θ|X,Y)p(Y|X,Θ0))
步骤2.6,将Q(Θ,Θ0)Q(Θ,Θ0)极大化,得到Θ1,满足Q(Θ10)=maxQ(Θ,Θ0),用Θ1代替Θ0,代入步骤2.3;
步骤2.7,执行步骤2.3至步骤2.6的迭代过程α次,直至||Q(Θα+1α)-Q(Θαα-1)||<ε||Q(Θi+1i)-Q(Θii-1)||≤ε,停止迭代,最终得到的Θα即为Θik个聚类簇的混合概率分布参数估计值Θ,其中ε为依据聚类准确度设定的精度值;
步骤2.8,利用混合概率分布参数估计值Θ,分别计算各样本对象属于聚类簇j的后验条件概率密度值,即各对象隶属于每个簇的隶属概率,按照样本与聚类簇的隶属概率最大的原则,把样本集S中的各个样本分入k个聚类簇。
3.根据权利要求2所述的一种生物医学空缺数据弥补方法,其中针对空缺数据的EM聚类方法,其特征在于:步骤2.2中其中Θ=(π12,…,πk12,…,θk)表示k个聚类簇的混合概率分布参数,θj表示第j个聚类簇的概率分布参数,πj表示ni来自第j个聚类簇的可能性,j=1,2,…,k,π12+...+πk=1,因此,设定一组参数值作为样本集S的初始混合概率分布参数估计值。
4.根据权利要求2所述的一种生物医学空缺数据弥补方法,其中针对空缺数据的EM聚类方法,其特征在于:采用EM方法将求得对数似然函数的期望代替缺失数据,并估计缺失数据所属聚类簇的概率。
5.根据权利要求1所述的一种生物医学空缺数据弥补方法,其中步骤3中的一种BP神经网络方法,其特征在于:第j个聚类簇中对于属性m的BP神经网络模型的具体构建过程如下:
步骤3.1,将聚类簇中的数据划分为完全数据集X'和缺失数据集Y';并针对完全数据集X',将X'中的各样本中非属性m对应的数值组成向量x′t,其中t为完全数据集X'的样本个数;然后对权值矩阵中的各个元素分别设置一个在区间(-1,1)内的随机值;
步骤3.2,将各个样本t的属性m对应数值作为实际输出,并将其他属性对应数值作为输入值;然后计算BP神经网络的隐藏层每个节点g输出值;
步骤3.3,以每个隐藏层节点作为输出层输入,计算各节点输出层节点的输出值;
步骤3.4,根据以获得的各样本的输出误差计算全局误差;
步骤3.5,将全局误差与误差阈值比较,若全局误差大于误差阈值,则根据输出误差调整权值矩阵,重复步骤3.2至步骤3.4;若全局误差小于误差阈值,则结束。
CN201310074916.7A 2013-03-08 2013-03-08 一种生物医学空缺数据弥补方法 Expired - Fee Related CN103177088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310074916.7A CN103177088B (zh) 2013-03-08 2013-03-08 一种生物医学空缺数据弥补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310074916.7A CN103177088B (zh) 2013-03-08 2013-03-08 一种生物医学空缺数据弥补方法

Publications (2)

Publication Number Publication Date
CN103177088A CN103177088A (zh) 2013-06-26
CN103177088B true CN103177088B (zh) 2016-05-18

Family

ID=48636949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310074916.7A Expired - Fee Related CN103177088B (zh) 2013-03-08 2013-03-08 一种生物医学空缺数据弥补方法

Country Status (1)

Country Link
CN (1) CN103177088B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI819436B (zh) * 2021-12-15 2023-10-21 緯創資通股份有限公司 預測模型建構方法、狀態預測方法及其裝置

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252660B (zh) * 2013-12-04 2018-03-20 深圳市华傲数据技术有限公司 一种属性集推荐方法和装置
CN104252515B (zh) * 2013-12-04 2017-06-16 深圳市华傲数据技术有限公司 一种数据生成方法和装置
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
CN104598618B (zh) * 2015-01-30 2018-03-27 武汉理工大学 一种基于完备相容类的云平台不完备大数据填补方法
CN104679868B (zh) * 2015-03-06 2017-09-26 四川深度信息技术有限责任公司 一种基于数据间关联关系的遗漏数据填补方法
CN105372989B (zh) * 2015-08-25 2018-12-18 国网山西省电力公司晋城供电公司 一种调度控制系统不完整数据参数的估计方法和装置
CN106096324A (zh) * 2016-08-26 2016-11-09 清华大学 基于k近邻回归的输变电主设备负荷数据缺失填补算法
CN107169520A (zh) * 2017-05-19 2017-09-15 济南浪潮高新科技投资发展有限公司 一种大数据缺失属性补全方法
CN107273429B (zh) * 2017-05-19 2018-04-13 哈工大大数据产业有限公司 一种基于深度学习的缺失值填充方法及系统
CN107833153B (zh) * 2017-12-06 2020-11-03 广州供电局有限公司 一种基于k-means聚类的电网负荷缺失数据补全方法
CN108710649A (zh) * 2018-04-29 2018-10-26 蚌埠医学院 一种医学空缺数据弥补方法
CN108959395B (zh) * 2018-06-04 2020-11-06 广西大学 一种面向多源异构大数据的层次约减联合清洗方法
CN110674621B (zh) * 2018-07-03 2024-06-18 北京京东尚科信息技术有限公司 一种属性信息填充方法和装置
CN109002513B (zh) * 2018-07-04 2022-07-19 深圳软通动力科技有限公司 一种数据聚类方法及装置
CN110097920B (zh) * 2019-04-10 2022-09-20 大连理工大学 一种基于近邻稳定性的代谢组学数据缺失值填充方法
CN110275868A (zh) * 2019-06-21 2019-09-24 厦门嵘拓物联科技有限公司 一种智能工厂中多模态制造数据预处理的方法
CN110473627B (zh) * 2019-06-21 2020-09-18 四川大学 一种基于代价敏感的自适应神经模糊推理糖尿病预测方法
WO2021016995A1 (zh) * 2019-08-01 2021-02-04 深圳大学 数据处理方法、装置、计算机设备和存储介质
CN111046977A (zh) * 2019-12-30 2020-04-21 成都康赛信息技术有限公司 基于em算法和knn算法的数据预处理方法
CN111400571B (zh) * 2020-01-22 2021-11-19 哈尔滨工业大学 基于关联规则的社交网络用户信息填充方法
CN112084577B (zh) * 2020-08-24 2023-11-17 智慧航海(青岛)科技有限公司 一种基于仿真试验数据的数据处理方法
CN112416920B (zh) * 2020-12-01 2023-01-24 北京理工大学 一种面向mes的数据清洗方法及系统
CN113239022B (zh) * 2021-04-19 2023-04-07 浙江大学 医疗诊断缺失数据补全方法及补全装置、电子设备、介质
CN116823338B (zh) * 2023-08-28 2023-11-17 国网山东省电力公司临沂供电公司 电力用户经济属性缺失值的推断方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000028473A1 (en) * 1998-11-09 2000-05-18 Royal Holloway University Of London Data classification apparatus and method thereof
WO2001016880A2 (en) * 1999-08-30 2001-03-08 Synes Nv Topographic map and methods and systems for data processing therewith
CN102495919A (zh) * 2011-11-18 2012-06-13 华南农业大学 一种生态系统碳交换影响因素提取方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000028473A1 (en) * 1998-11-09 2000-05-18 Royal Holloway University Of London Data classification apparatus and method thereof
WO2001016880A2 (en) * 1999-08-30 2001-03-08 Synes Nv Topographic map and methods and systems for data processing therewith
CN102495919A (zh) * 2011-11-18 2012-06-13 华南农业大学 一种生态系统碳交换影响因素提取方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI819436B (zh) * 2021-12-15 2023-10-21 緯創資通股份有限公司 預測模型建構方法、狀態預測方法及其裝置

Also Published As

Publication number Publication date
CN103177088A (zh) 2013-06-26

Similar Documents

Publication Publication Date Title
CN103177088B (zh) 一种生物医学空缺数据弥补方法
Daraio et al. Testing whether two-stage estimation is meaningful in non-parametric models of production
CN106845717A (zh) 一种基于多模型融合策略的能源效率评价方法
Zhou et al. An analysis on technical efficiency in post-reform China
CN102626557B (zh) 基于ga-bp算法的分子蒸馏工艺参数优化方法
CN109816167A (zh) 径流预报方法及径流预报装置
Liang et al. Modeling and regionalization of China’s PM2. 5 using spatial-functional mixture models
CN107169612A (zh) 基于神经网络的风电机有功功率预测及误差订正方法
Ohlsson et al. Inherited wealth over the path of development: Sweden, 1810–2010
Doğan et al. Spatial autoregressive models with unknown heteroskedasticity: A comparison of Bayesian and robust GMM approach
Slavinskaite et al. Financial innovation management: Impact of fiscal decentralization on economic growth of the Baltic countries
CN103106329B (zh) 一种用于svr短期负荷预测的训练样本分组构造方法
CN105975986A (zh) 基于改进遗传算法的全极化sar图像监督分类方法
CN107274024A (zh) 一种气象台站测量日总辐射曝辐量预测优化方法
CN110084428B (zh) 基于决策者偏好方案计算的水资源配置方法及系统
CN115481366A (zh) 一种基于空间降尺度回归模型的耕地资源生产潜力测算方法
Jurun et al. Cluster and multicriterial comparative regional analysis–case study of Croatian counties
Liu et al. Linear Combination of Saved Checkpoints Makes Consistency and Diffusion Models Better
Wang et al. Variable selection in macroeconomic forecasting with many predictors
Pan et al. Identifying latent groups in spatial panel data using a Markov random field constrained product partition model
Jokela et al. Progress in the lattice evaluation of entanglement entropy of three-dimensional Yang-Mills theories and holographic bulk reconstruction
Fang et al. Research on the Impact of Monetary Policy on CPI in China based on TVP-VAR Model
CN116667326B (zh) 一种电动汽车充电负荷预测方法
Jing et al. Research on Guangxi Yulin's Poverty Return Identification Based on Integrated Learning
Hu Data Assimilation and Extremes in a Conceptual Atmospheric Model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160518

Termination date: 20170308