CN103177088A

CN103177088A - 一种生物医学空缺数据弥补方法

Info

Publication number: CN103177088A
Application number: CN2013100749167A
Authority: CN
Inventors: 罗森林; 韩龙飞; 潘丽敏; 张铁梅
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-03-08
Filing date: 2013-03-08
Publication date: 2013-06-26
Anticipated expiration: 2033-03-08
Also published as: CN103177088B

Abstract

本发明涉及一种基于EM聚类-BP神经网络的空缺数据弥补方法，属于生物医学技术领域。本发明首先采用处理不完全数据问题中很重要的迭代算法EM算法，通过EM聚类，将不同缺失数据划分到不同的簇中，完成初步弥补；然后通过BP神经网络方法对每个簇中的完全数据建模，并完成对各个簇中缺失数据的精确弥补。在一定程度上加强弥补算法对任意缺失机制的适用性，并提高弥补的准确性，可适用于生物医学空缺数据弥补领域。

Description

一种生物医学空缺数据弥补方法

技术领域

本发明涉及一种生物医学空缺数据弥补方法，属于生物医学技术领域。

背景技术

近年来，随着计算机科学技术的不断发展，数据挖掘技术被广泛应用于各领域之中。数据挖掘总体过程包括问题理解、数据采集和理解、预处理、数据挖掘、模型评估和知识应用，数据挖掘的成功与否和适用性能在很大程度上取决于数据质量。然而，在针对生物医学数据挖掘各个环节过程中，数据不完全的现象是不可避免的，存在着不同程度的空缺数据，也称为空缺值。为了能在生物医学研究领域中有效地应用数据挖掘的方法和系统，就必须面对数据不完整的挑战。

对生物医学研究领域来说，空缺值产生有多方面原因：有些医学筛查数据属性的内容没有；有些数据当时被认为是不必要的；由于误解或检测设备失灵导致相关数据没有记录下来；与其他记录内容不一致而被删除；历史记录或对数据的修改被忽略了或者属性的值根本不能直接观测到等。

面对生物医学研究过程中存在的缺失值，虽然现在已经有很多数据填充方法，但并不存在一种可以适合于任何问题的空缺值填充方法。无论哪种填充方法都无法避免主观因素的存在，并且在空缺值过多的情形下将系统完备化是不可行的。在空缺值弥补技术的研究趋势主要呈现以下两个方面：1.构建空缺值弥补模型，该模型可以较好的适用于生物医学领域中任何空缺数据弥补问题，具有很好的普适性；2.基于数据挖掘和统计理论提出更为合适的算法，能够预测数据中存在的空缺值，并且具有较小的误差。综观现有生物医学空缺数据弥补方法，通常使用的方法有：

1.MI填补算法：该方法针对大部分简单填充方法的填充数据唯一且填充后的数据集不能表现出原有数据集的不确定性，导致结果产生较大的偏差问题而由Rubin提出，该方法是建立在贝叶斯理论基础之上，用EM算法来实现对缺失数据的处理。其主要思想是：首先为每个缺失值构造一套可能的估计值，这些值反映了缺失模型的不确定性，这样就形成若干个完整数据集；然后对每个完整数据集分别使用相同的方法处理；最后综合来自各个填充数据集的结果，得到对目标变量的统计推断。

2.KNN填补算法：该方法采用数据挖掘中分类思想，通过搜索模式空间，找出最接近空缺数据的k个完全数据，并通过完全数据的加权平均计算空缺数据的空缺值。该方法的主要思想是：首先将数据集分为完全数据集和缺失数据集两个部分；然后计算缺失数据集中的每个样本其与完全数据集中各样本的相似性，找到与缺失数据样本最近邻的k个数据；最后将缺失数据样本与完全数据样本的距离的倒数作为样本间的权重，根据各完全数据计算缺失数据的估计值。

3.关联规则填补算法：该方法由Agrawal等人于1993年提出，其主要思想是：首先找出所有的频繁项集；然后由频繁项集生成强关联规则；最后利用通过对提取出的关联规则进行排序或分组，取优先权最高的规则进行填补。

4.K-means填补算法：该方法的主要思想是首先通过计算完全数据集中各样本间的距离将数据样本分成不同簇，并使同一个簇中的对象之间具有很高的相似度，而不同簇中的对象高度相异；然后计算缺失数据集中各缺失数据与各聚类簇的聚类，并将该缺失数据分到对应的聚类簇中；最后采用不同核函数对缺失数据进行弥补。

5.SVR（支持向量回归）算法：支持向量回归方法就是针对传统回归分析的局限性，该方法与SVM方法相同，采用结构风险最小化原则，将求解过程转化为一个二次型寻优问题。SVR算法采用核函数的映射方法，将实际问题通过非线性变换转换到高维的特征空间，并在高维空间中构造线性判别函数来实现原空间中的非线性判别函数。通过近似核函数的非线性回归特征空间的线性回归进行空缺值弥补。

综上所述，现有算法仅针对可忽略的缺失机制下进行研究，不适用于任意缺失机制，提出的各方法不具有代表性；同时，针对生物医学空缺数据弥补的准确性也不甚理想，仍待进一步提高。

发明内容

本发明的目的是为解决生物医学数据中存在空缺值的问题，提出一种基于EM聚类-BP神经网络的空缺数据弥补方法。

本发明的设计原理为：首先，采用处理不完全数据问题中很重要的迭代算法EM算法，通过EM聚类，将不同缺失数据划分到不同的簇中，完成初步弥补；然后通过BP神经网络方法对每个簇中的完全数据建模，并完成对各个簇中缺失数据的精确弥补。其主要思想是针对不同缺失数据的缺失特点将缺失数据划分到具有相应特点的聚类簇中，然后根据BP神经网络算法估计完全数据属性的权重，计算含缺失数据的对应属性缺失值的预测值，在一定程度上加强弥补算法对任意缺失机制的适用性，并提高弥补的准确性。

本发明的技术方案是通过如下步骤实现的：

步骤1，将N个被评估对象作为样本集S，其中每个对象包含M个影响2型糖尿病发病的关键属性；将关键属性作为列，不同样本对应的属性值作为行，建立样本集S的矩阵表示[s_(a+c)b]；并采用EM聚类方法对样本集S进行聚类，得到k个聚类簇。具体实现方法为：

步骤1.1，首先将N个对象根据是否含有缺失数据分为两个样本集：完全数据集X和缺失数据集Y。

所述完全数据集X为M个关键属性对应的数据均无缺失的对象集合。集合中所有对象关键属性的数据构成矩阵[x_ab]，其中矩阵的行数a表示完全数据样本对象，列数b表示完全数据样本各属性对应的数据，b＝1,2,...,M。

所述缺失数据集Y为M个关键属性对应的数据中存在一个或多个缺失的对象集合。集合中所有对象的关键属性数据形成一个矩阵[y_cb]，行数c表示缺失数据样本对象，列数b表示缺失数据样本各属性对应的数据。

步骤1.2，设置聚类簇个数k（k≤N），由于样本集S中任意第i个样本n_i（1≤i≤N），均服从k个聚类簇的混合概率分布：

n_{i} ~ p (n_{i} | Θ) = Σ_{j = 1}^{k} π_{j} p (n_{i} | θ_{j})

其中Θ＝(π₁，π₂，…，π_k，θ₁，θ₂，…，θ_k)表示k个聚类簇的混合概率分布参数，θ_j表示第j个聚类簇的概率分布参数，π_j表示n_i来自第j个聚类簇的可能性，j=1,2,…,k，π₁+π₂+...+π_k=1。

因此，设定一组参数值

作为样本集S的初始混合概率分布参数估计值。

步骤1.3，将步骤1.2给定的初始混合概率分布参数估计值Θ⁰代入缺失数据集Y，获得y_cb的后验分布概率为：

p (y_{cb} | x_{ab}, Θ^{0}) = \frac{π_{k}^{0} p_{y_{cb}} (x_{ab} | θ_{k}^{o})}{Σ_{k = 1}^{M} π_{k}^{0} p_{k} (x_{ab} | θ_{k}^{o})}

其中x_ab∈X，y_cb∈Y

由于样本集间各样本的独立性，得到数据集Y的后验分布函数为：

p (Y | X, Θ^{0}) = Π_{b = 1}^{M} p (y_{cb} | x_{ab}, Θ^{o})

步骤1.4，根据步骤1.3获得的后验分布函数，对完全数据的对数似然函数lnL(Θ|X，Y)关于缺失数据求期望，并将得到M个对应每一列的期望值，用于代替缺失数据集Y中相应列数的各个缺失数据，得到新样本集Y＇。

所述lnL(Θ|X，Y)为完全数据关于缺失数据的对数似然函数，其中

\ln L (Θ | X, Y) = \ln p (x, y | Θ) = Σ_{b = 1}^{M} \ln p (x_{ab} | y_{cb}) p (y_{cb})

步骤1.5，根据步骤1.4计算获得的样本集Y＇以及完全数据集X，重新计算样本集S的最大似然参数Q(Θ,Θ⁰)：

Q(Θ,Θ⁰)=∑ln(L(Θ|X，Y)p(Y|X,Θ⁰))

步骤1.6，将Q(Θ,Θ⁰)极大化，得到Θ¹，满足Q(Θ¹，Θ⁰)=maxQ(Θ，Θ⁰)，用Θ¹代替Θ⁰，代入步骤1.3。

步骤1.7，执行步骤1.3至步骤1.6的迭代过程α次，直至‖Q(Θ^α+1,Θ^α)-Q(Θ^α,Θ^α-1)‖<ε，停止迭代。最终得到的Θ^α即为k个聚类簇的混合概率分布参数估计值Θ。其中ε为依据聚类准确度设定的精度值。

步骤1.8，利用混合概率分布参数估计值Θ，分别计算各样本对象属于聚类簇j的后验条件概率密度值，即各对象隶属于每个簇的隶属概率。按照样本与聚类簇的隶属概率最大的原则，把样本集S中的各个样本分入k个聚类簇。

步骤2，对步骤1得到的每个聚类簇中的完全数据集分别采用BP神经网络方法对M个影响2型糖尿病发病的关键属性进行神经网络模型训练，获得M*k个BP神经网络模型，并对每个聚类簇中的缺失数据集中不同属性的缺失数据选取对应BP神经网络模型，计算该缺失数据的估计值。

第j个聚类簇中属性m的BP神经网络模型的具体构建过程如下：

步骤2.1，将聚类簇中的数据划分为完全数据集X′和缺失数据集Y′；并针对完全数据集X′，将X′中的各样本中非属性m对应的数值组成向量其中t为完全数据集X′的样本个数。随机设置权值矩阵W_t*(m-1)中各元素值，且要求权值矩阵中各元素取值区间(-1,1)中。

步骤2.2，对于数据集X′中的每一个样本u，将各个样本t的属性m对应数值作为实际输出，并将其他属性对应数值作为输入值。计算BP神经网络的隐藏层每个节点g输出

其中g=1,…,M-1，u=1,…,t，w_ug为权值矩阵对应各元素值。

步骤2.3，以每个隐藏层节点作为输出层输入，计算各节点输出层

节点的输出

h_{o} (u) = 1 / [1 + e^{- 3.5 h_{g} (u)}], o = 1, . . ., h .

步骤2.4，根据第t个样本的属性m对应的数值和实际输出层的输出值计算输出误差χ_t，误差为属性m对应数值与实际输出值差值的绝对值，然后根据所有以获得的各样本的输出误差计算全局误差，全局误差计算公式为：

将全局误差与设定的误差阈值E_s比较，若全局误差大于误差阈值，执行步骤2.5；若全局误差小于误差阈值，则结束。

步骤2.5，首先则调整学习因子h的数值，其中学习因子h的调整公式为：h＝h+c，其中c为调整步长，一般取值在0～1之间。然后利用输出误差调整权值矩阵，调整公式为：W_t*(m-1)(1)＝W_t*(m-1)(0)+ΔW_t*(m-1)(1)，其中ΔW_t*(m-1)(1)为权值矩阵变化量，ΔW_t*(m-1)(1)＝h*χ_t*h_g(u)+a*ΔW_t*(m-1)(0)，其中h为学习因子，a为动量因子，h和a的大小影响着神经网络模型的收敛速度。

步骤2.6，执行步骤2.2到步骤2.5的迭代过程σ次，直至全局误差小于误差阈值，停止迭代；否则，在迭代过程中执行步骤2.5时，使学习因子h＝h+c*(E_σ-1-E_σ-2)/E_σ-1，使权值矩阵W_t*(m-1)(σ)＝W_t*(m-1)(σ-1)+ΔW_t*(m-1)(σ)。最后获得第j聚类簇对应的BP神经网络模型。

步骤2.7，将缺失数据集Y′带入到对应BP神经网络模型中，计算属性m对应缺失数据的估计值，并将该估计值作为空缺数据对应的填补值。

有益效果

相比于MI等基于统计学的填补算法，本发明采用的基于EM聚类-BP神经网络的弥补算法具有更好的填补准确度，其弥补的平均绝对误差和平均相对误差更小，可以更好的适用于生物医学领域。

与KNN、关联规则以及k-means等基于数据挖掘技术的填补算法相比，本发明采用的基于EM聚类-BP神经网络弥补算法的适用性更强，针对不同缺失数据的特点，通过聚类的方法实现对不同缺失特点数据的弥补，具有更强的针对性和适用性，并可实现处理过程中的并行化，提高空缺数据的弥补速度。

附图说明

图1为本发明的基于EM聚类-BP神经网络的弥补算法原理图；

图2为具体实施方式中SVR方法的不敏感因子的参数选择的过程；

图3为具体实施方式中SVR方法的惩罚因子的参数选择的过程；

图4为具体实施方式中BP神经网络算法的模型基本形式；

图5为具体实施方式中基于EM聚类-BP神经网络的弥补算法在不同缺失比下腹围的弥补准确度；

图6为具体实施方式中SVR方法和基于EM聚类-BP神经网络的弥补算法在不同缺失比下腹围的弥补准确度；

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。

分别以2001年2月至2007年9月从北京市西城区和海淀区科研院所59839人整群抽样横断面数据作为输入，设计并部署3项测试：(1)针对59839条横截面数据构建基于EM聚类-BP神经网络的弥补模型的可行性进行测试；(2)针对59839条横截面数据在不同缺失比例下的弥补准确度的有效性测试；(3)针对59839条横截面数据的在SVR和基于EM聚类-BP神经网络的弥补算法的弥补准确度的有效性测试。

下面将对上述3个测试流程逐一进行说明，所有测试均在同一台计算机上完成，具体配置为：Intel双核CPU（主频1.8G），1G内存，WindowsXP SP3操作系统。

在上述测试1和测试2中，均使用基于EM聚类和BP神经网络的建模方法和过程。基于EM聚类-BP神经网络的弥补算法原理图如图1所示。

另外，在上述测试3中，使用步进法作为SVR参数选择的方法。其中SVR空缺数据弥补方法的不敏感系数和惩罚因子选择的流程如图2和图3所示。

1.针对59839条横截面数据构建基于EM聚类-BP神经网络的弥补模型的可行性测试

该数据源来自于2001年2月至2007年9月从北京市60259人整群抽样横断面健康调查，包含101维属性。经过预处理以后，筛选出12维59839条数据构成试验数据源。数据特点如下表1所示：

表错误!文档中没有指定样式的文字。性别分布特性

EM聚类试验目的通过设置簇的个数使聚类的效果最好，对数似然比最小。该测试把EM聚类的簇个数选定为3和4。然后对每个聚类簇中的完全数据进行BP神经网络建模，共获得3*12+4*12共84个SVR回归模型；最后对不同缺失数据选取对应的弥补模型进行空缺值弥补。其实验具体流程为：

步骤1，设置聚类的簇的个数为3或4。

步骤2，根据设置的聚类个数进行EM聚类。

步骤3，对不同聚类簇中的完全数据集进行BP神经网络建模，获得84个EM-BP神经网络模型，其每个BP神经网络模型基本形式如图4所示。

步骤4，针对不同聚类簇中的不同缺失数据，采用不同BP神经网络模型进行弥补，并计算弥补的平均绝对误差和平均相对误差。

通过上述实验步骤，可以实现对空缺数据的弥补。

2.针对59839条横截面数据在不同缺失比例下的弥补准确度的有效性测试

针对59839条横截面数据，通过随机抽样的方法构建不同（1%、5%、10%、20%和50%）缺失比例的数据，然后按照测试1的训练过程获得不同缺失比例的SVR回归模型，其中聚类簇个数根据测试1计算的对数似然比的大小设定为3。最后共获得3*12*5=180个EM-BP神经网络模型，最后计算弥补的平均绝对误差和平均相对误差，其计算结果如图5所示。

3.针对59839条横截面数据的在SVR和基于EM聚类-BP神经网络的弥补算法的弥补准确度的有效性测试

针对59839条横截面数据，按照测试2获得的不同缺失比例数据中的完全数据集直接进行SVR回归建模，最后获得1*5=5个回归模型。最后计算弥补的平均绝对误差和平均相对误差，并与基于EM聚类-BP神经网络的弥补算法计算结果相比较，证明基于EM聚类-BP神经网络的弥补算法在不同缺失比例下弥补准确度更好。SVR方法和基于EM聚类-BP神经网络的弥补算法计算结果对比图如图6所示。

测试结果

对于测试(1)，腹围缺失弥补的平均绝对误差和平均相对误差分别为4.36cm和4.85%，同时，在其他属性上的弥补准确度都要小于腹围弥补准确度。很明显，EM-BP方法在生物医学领域尤其是2型糖尿病领域具有较好的填补准确度。

对于测试(2)，基于EM聚类-BP神经网络的弥补算法在不同缺失比例下腹围的弥补准确度见图4所示。其中聚类最优个数为3。人群聚类结果如表2所示：

表2 不同缺失比例下聚类结果

通过图5可以看出，随着缺失比例的增加，基于EM聚类-BP神经网络的弥补算法弥补的误差会有一定程度的变大，但是在高缺失比下仍有不错的效果。

对于测试(3)，通过与SVR算法在不同缺失比下腹围的弥补准确度的对比发现，如图6所示。基于EM聚类-BP神经网络的弥补算法无论在平均绝对误差和平均相对误差计算结果上均好于SVR算法，证明基于EM聚类-BP神经网络的弥补算法在不同缺失比例下弥补准确度的有效性。

本发明以2型糖尿病腹围缺失数据弥补为例，提出了一种基于EM聚类-BP神经网络的生物医学空缺数据弥补计算方法，通过不同数据缺失比的弥补实验，基于EM聚类-BP神经网络的弥补算法均有较低的平均绝对误差和平均相对误差，该方法可以满足实际生物信息采样数据缺失的空缺值弥补计算，具有较好的效果，为生物信息采集数据空缺值弥补提供了技术和方法基础。

Claims

1.一种生物医学空缺数据弥补方法，其特征在于：针对不同缺失数据的缺失特点将缺失数据划分到具有相应特点的聚类簇中，然后根据BP神经网络算法估计完全数据属性的权重，计算含缺失数据的对应属性缺失值的预测值，实现弥补算法对任意缺失机制的适用性，并提高弥补的准确性。包括如下步骤：

步骤1，将N个被评估对象作为样本集S，其中每个对象包含M个影响2型糖尿病发病的关键属性；将关键属性作为列，不同样本对应的属性值作为行，建立样本集S的矩阵表示[s_(a+c)b]；并采用EM聚类方法对样本集S进行聚类，得到k个聚类簇。

步骤2，对步骤1得到的每个聚类簇中的完全数据集分别采用BP神经网络方法M个影响2型糖尿病发病的关键属性进行BP神经网络模型训练，获得M*k个模型，并对每个聚类簇中的缺失数据集中不同属性的缺失数据选取对应BP神经网络模型，计算该缺失数据的估计值。

2.根据权利要求1所述针对含空缺值的数据的EM聚类方法，具体实现方法为：

n_{i} ~ p (n_{i} | Θ) = Σ_{j = 1}^{k} π_{j} p (n_{i} | θ_{j})

p (y_{cb} | x_{ab}, Θ^{0}) = \frac{π_{k}^{0} p_{y_{cb}} (x_{ab} | θ_{k}^{o})}{Σ_{k = 1}^{M} π_{k}^{0} p_{k} (x_{ab} | θ_{k}^{o})}

其中x_ab∈X，y_cb∈Y

p (Y | X, Θ^{0}) = Π_{b = 1}^{M} p (y_{cb} | x_{ab}, Θ^{o})

\ln L (Θ | X, Y) = \ln p (x, y | Θ) = Σ_{b = 1}^{M} \ln p (x_{ab} | y_{cb}) p (y_{cb})

Q(Θ,Θ⁰)=∑ln(L(Θ|X，Y)p(Y|X,Θ⁰))

步骤1.6，将Q(Θ，Θ⁰)极大化，得到Θ¹，满足Q(Θ¹，Θ⁰)＝maxQ(Θ，Θ⁰)，用Θ¹代替Θ⁰，代入步骤1.3。

步骤1.7，执行步骤1.3至步骤1.6的迭代过程α次，直至

停止迭代。最终得到的Θ^α即为k个聚类簇的混合概率分布参数估计值Θ。其中ε为依据聚类准确度设定的精度值。

3.根据权利要求2所述的针对空缺数据的EM聚类方法，其特征在于：步骤1.2中其中Θ＝(π₁，π₂，…，π_k，θ₁，θ₂，…，θ_k)表示k个聚类簇的混合概率分布参数，θ_j表示第j个聚类簇的概率分布参数，π_j表示n_i来自第j个聚类簇的可能性，j=1,2,…,k，π₁+π₂+...+π_k=1。

因此，设定一组参数值

作为样本集S的初始混合概率分布参数估计值。

4.根据权利要求2所述的EM聚类方法，其特征在于：采用EM方法将求得对数似然函数的期望代替缺失数据，并估计缺失数据所属聚类簇的概率。该方法可应用于含缺失数据的聚类中，结果具有很好的解释性。

5.根据权利要求1中所述的一种BP神经网络方法，其特征在于：所述步骤2中，第j个聚类簇中对于属性m的BP神经网络模型的具体构建过程如下：

步骤2.1，将聚类簇中的数据划分为完全数据集X′和缺失数据集Y′；并针对完全数据集X′，将X′中的各样本中非属性m对应的数值组成向量其中t为完全数据集X′的样本个数。然后对权值矩阵中的各个元素分别设置一个在区间（-1,1）内的随机值。

步骤2.2，将各个样本t的属性m对应数值作为实际输出，并将其他属性对应数值作为输入值。然后计算BP神经网络的隐藏层每个节点g输出值。

步骤2.3，以每个隐藏层节点作为输出层输入，计算各节点输出层节点的输出值。

步骤2.4，根据以获得的各样本的输出误差计算全局误差。

步骤2.5，将全局误差与误差阈值比较，若全局误差大于误差阈值，则根据输出误差调整权值矩阵，重复步骤2.2至步骤2.4；若全局误差小于误差阈值，则结束。