CN106777938A

CN106777938A - 一种基于自适应权重的微阵列缺失值估计方法

Info

Publication number: CN106777938A
Application number: CN201611110461.XA
Authority: CN
Inventors: 王爱国; 吴玺; 陈烨; 丁会通; 安宁
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2016-12-06
Filing date: 2016-12-06
Publication date: 2017-05-31

Abstract

本发明公开了一种基于自适应权重的微阵列缺失值估计方法，其特征包括：一，无需人工调参即可自动填补缺失值；二，采用基于2范数正则化的加权多元线性回归模型；三，模型权重可以根据算法自适应调整。本发明能有效挖掘微阵列数据中的数据结构关系，从而能有效的利用微阵列数据中的观测值来准确地估计缺失值。

Description

一种基于自适应权重的微阵列缺失值估计方法

技术领域

本发明涉及基因表达信息挖掘领域，具体地说是一种基于自适应权重的微阵列缺失值估计方法。

背景技术

微阵列技术可以在不同实验条件下同时检测成千上万个基因表达水平值，研究者根据微阵列提供的数据并结合生物学知识可以获取一些有价值的潜在生物信息。研究微阵列数据大量采用了机器学习算法，其中主要包括分类分析和聚类分析等。然而在微阵列技术应用过程中的各个实验步骤都可能存在人为或者非人为的因素：例如微阵列芯片的使用步骤不规范，微阵列芯片的表面有划痕或者灰尘，或者在实验过程中存在某些系统性错误，这些问题都可能造成微阵列芯片的基因表达数据存在不同程度的缺失值，从而导致很多机器学习算法无法实施，因此微阵列数据中缺失值的处理是十分必要的。

处理缺失值的一种简单方法是重复试验，但是由于微阵列芯片价格昂贵，并且重复试验后微阵列数据可能仍然存在缺失值，所以这种方法一般不推荐使用。另外一些简单的算法，例如直接将所有包含缺失值的整个基因表达数据剔除，或者利用基因观测值的平均值或零值填充该基因的缺失值,但是这些算法的缺点显而易见，因为直接删除整个不完整基因可能会造成大量有价值的信息丢失，如果利用基因观测值的平均值或者零值填充该基因的缺失值，则没有充分利用数据结构所包含的信息。为了解决以上这些问题一些更复杂的缺失值填补算法相继提出，其中基于最近邻概念的缺失值填补算法的研究较为广泛。KNNimpute是较早提出的基于最近邻概念的缺失值填补算法，并且实验结果表明KNNimpute优于行平均值填补算法以及基于奇异值分解的填补算法SVDimpute。在KNNimpute的基础上SKNNimpute提出，该算法有选择性的将包含最少量丢失值的基因作为目标基因并填充缺失值，并且该填充后的基因被应用到其它目标基因缺失值的填补过程中。LSimpute算法在基于最近邻概念的基础上结合了一元线性回归模型，相对于KNNimpute算法的精度有所提升，在LSimpute的基础上结合多元线性回归模型的填补算法LLSimpute提出，在LLSimpute的基础上一种迭代的局部最小二乘填补算法ILLSimpute提出，同样基于LLSimpute一种连续的局部最小二乘填补算法SLLSimpute提出。另外一些不是基于最近邻概念的填补算法但是应用同样广泛的有基于贝叶斯定理的缺失值填补算法贝叶斯主成分分析(BPCAimpute)，以及基于支持向量机的缺失值填补算法支持向量回归(SVRimpute)。

但是基于最近邻概念的算法都存在一些弊端,这些弊端是由于最近邻算法本身的特性所导致的。第一个弊端是最近邻算法中的参数对于算法效果有直接的影响，并且目前没有一种可以推理的方法来判定最优的参数。第二个弊端是以上这些算法都没有考虑到缺失值的预测值可能产生严重的偏置，原因主要是因为数据集中各样本之间关联性是不同的。基于最近邻概念的填补算法也称为热卡填补算法，热卡填补算法的一个重要特点是缺失值是利用同一数据集中的其它观测数据并采用某种方式填充的，基于最近邻概念的缺失值填充算法都是利用与缺失值所在属性中的其它观测数据填充的，因此这些算法的缺失值填充模型是相同的，但是不同的算法的填充模型参数是各不相同的，也就是说多元线性回归模型容易导致过拟合问题。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于自适应权重的微阵列缺失值估计方法，以期能有效挖掘微阵列数据中的数据结构关系，在避免人工干预的前提下自动预测微阵列数据中的缺失值，从而提高估计的准确性。

本发明为解决技术问题采用如下技术方案：

本发明一种基于自适应权重的微阵列缺失值估计方法，是应用于由n个基因组成的微阵列数据集中，所述微阵列数据集记为G＝{g₁,g₂,…,g_i,…g_n}；g_i表示第i个基因；1≤i≤n；并有：表示第i个基因在第j个实验条件下的表达数据，1≤j≤m；由n个基因在第j个实验条件下的表达数据组成第j个样本，记为s_j；其特点是，所述微阵列缺失值填补估计方法是按照如下步骤进行：

步骤1、定义循环次数为c，并初始化c＝1

步骤2、选取第c次循环下的微阵列数据集G^(c)中所有具有缺失值的基因，并构成第c次循环下的不完整基因集F^(c)，并将剩下的没有缺失值的基因构成第c次循环下的完整基因集H^(c)；

步骤3、选择所述第c次循环下的不完整基因集F^(c)中丢失率最小的不完整基因作为目标基因若存在多个不完整基因的最小丢失率相同，则随机选取任意一个最小丢失率的不完整基因作为目标基因

步骤4、从所述第c次循环下的微阵列数据集G^(c)中找出所述目标基因的所有相似基因，构成相似基因集表示所述目标基因的第v个相似基因；1≤v≤V；

步骤5、计算第c次循环下的第v个相似基因对于目标基因的相似度从而获得所有相似基因对于目标基因的相似度

步骤6、自适应确定第v个相似基因的权重并构建加权回归模型用于填补目标基因中的所有缺失值；

步骤7、将填补后的目标基因加入所述完整基因集H^(c)中，从而更新所述第c次循环下的完整基因集H^(c)，得到第c+1次循环下的完整基因集H^(c+1)；

步骤8、将所述目标基因从所述第c次循环下的不完整基因集F^(c)中删除，从而更新所述第c次循环下的不完整基因集F^(c)，得到第c+1次循环下的不完整基因集F^(c+1)；

步骤9、判断所述不完整基因集F^(c+1)中是否存在具有缺失值的基因，若存在，则将c+1赋值给c后，再返回步骤3执行；否则，表示缺失值填补完成。

本发明所述的微阵列缺失值估计方法的特点也在于，

所述步骤3的丢失率为具有缺失值的基因中所有缺失表达数据的总个数与样本总个数m之比。

所述步骤4中的相似基因集G^′(c)是按如下步骤进行：

步骤4.1、在所述第c次循环下的微阵列数据集G^(c)中寻找满足式(1)所有基因，并构成第c次循环下的包含有K^(c)个基因的初步筛选基因集：

式(1)中，表示第c次循环下的目标基因的缺失值位置，表示第c次循环下的微阵列数据集G^(c)中第i个基因g_i的缺失值位置；

步骤4.2、在所述包含有K^(c)个基因的初步筛选基因集中寻找满足式(2)的所有基因，并构成所述相似基因集G^′(c)：

式(2)中，表示所述第c次循环下的初步筛选基因集中任意第k个基因g_k的缺失率。

所述步骤5中的相似度w_v是按如下步骤获得：

步骤5.1、利用式(3)计算第v个相似基因与目标基因之间的相似性距离

式(3)中，表示所述第v个相似基因中所有未缺失值的总个数，表示所述目标基因中所有未缺失值的总个数，表示所述第c次循环下的目标基因的未缺失值位置，表示所述第v个相似基因的未缺失值位置，表示所述第c次循环下的目标基因在第j个实验条件下的表达数据，表示所述第v个相似基因在第j个实验条件下的表达数据；

步骤5.2、利用式(4)对相似性距离进行尺度伸缩处理，得到标准化相似性距离w_v：

式(4)中，表示第c次循环下所有相似基因与目标基因之间最小的相似性距离；σ是标准差，取值范围为[0,1]。

所述步骤6中的加权回归模型是按如下步骤构建：

步骤6.1、通过最小化式(5)的值以获得第v个相似基因的权重向量从而获得所有相似基因的权重向量作为回归系数向量

式(4)中，表示所述第c次循环下的目标基因的所有未缺失值组成的向量，表示所述第v个相似基因的所有未缺失值组成的向量；λ表示回归系数向量β的二范数惩罚因子，并有：

式(6)中，A表示I表示对角元素全为1的对角矩阵；W表示由组成的对角矩阵；[*]⁺表示矩阵*的伪逆矩阵；

步骤6.2、利用式(7)计算所述目标基因的缺失值的估计值

式(9)中，表示与所述目标基因缺失值所对应的第v个相似基因中表达数据所组成的向量。

与已有技术相比，本发明有益效果体现在：

1、本发明提出基于自适应权重的微阵列缺失值估计方法，该算法始终选择当前丢失率最小的不完整基因作为目标基因，目标基因选定之后，在同一数据集中寻找所有完整的基因或者不完整但是满足设定条件的基因作为相似基因，而不需要通过某种相似性度量标准来筛选相似基因，因此该缺失值填补方法不需要手动调节参数，从而方便了研究和使用。

2、本发明在目标基因和所有相似基因选定之后，通过加权的多元线性回归模型并结合2范数正则化计算出相应的回归系数作为填充模型参数并计算得到缺失值的估计值，从而避免了多元线性回归模型所产生的过拟合问题，提高了缺失值估计精度。

附图说明

图1是本发明方法流程图。

具体实施方式

本实施例中，一种基于自适应权重的微阵列缺失值估计方法，是应用于由n个基因组成的微阵列数据集中，所述微阵列数据集记为G＝{g₁,g₂,…,g_i,…g_n}；g_i表示第i个基因；1≤i≤n；并有：表示第i个基因在第j个实验条件下的表达数据，1≤j≤m；由n个基因在第j个实验条件下的表达数据组成第j个样本，记为s_j；具体的说，如图1所示，该微阵列缺失值填补估计方法是按照如下步骤进行：

步骤1、定义循环次数为c，并初始化c＝1

步骤3、选择所述第c次循环下的不完整基因集F^(c)中丢失率最小的不完整基因作为目标基因该目标基因的缺失值估计完成之后可以用于后续其它目标基因的缺失值估计；若存在多个不完整基因的最小丢失率相同，则随机选取任意一个最小丢失率的不完整基因作为目标基因

步骤4、从所述第c次循环下微阵列数据集G^(c)中找出所述目标基因的所有相似基因，构成相似基因集表示所述目标基因的第v个相似基因；1≤v≤V；相似基因的数量由算法自动确定，无需人工干预。

步骤4.1、在所述第c次循环下的微阵列数据集G^(c)中寻找满足式(1)所有基因，并构成第c次循环下的包含有K^(c)个基因的初步筛选基因集，经过该步骤得到的基因满足与目标基因缺失值所在相同样本上不存在缺失值：

式(3)中，表示所述第v个相似基因中所有未缺失值的总个数，表示所述目标基因中所有未缺失值的总个数，这两个数值之比为了自适应调整相似基因与目标基因之间的相似性，表示所述第c次循环下的目标基因的未缺失值位置，表示所述第v个相似基因的未缺失值位置，表示所述第c次循环下的目标基因在第j个实验条件下的表达数据，表示所述第v个相似基因在第j个实验条件下的表达数据；

步骤5.2、利用式(4)对相似性距离进行尺度伸缩处理，以适应后续的多元线性回归模型的计算，得到标准化相似性距离w_v：

式(4)中，表示第c次循环下所有相似基因与目标基因之间最小的相似性距离，目的是为了对相似基因的权重系数进行标准化；σ是标准差，取值范围为[0,1]。

式(4)中，表示所述第c次循环下的目标基因的所有未缺失值组成的向量，表示所述第v个相似基因的所有未缺失值组成的向量；λ表示回归系数向量β的二范数惩罚因子，主要的作用是防止多元线性回归模型计算结果产生过拟合的现象，并有：

步骤6.2、利用式(7)计算所述目标基因的缺失值的估计值

步骤9、判断所述不完整基因集F^(c+1)中是否存在具有缺失值的基因，若存在，则将c+1赋值给c后，再返回步骤3执行；否则，表示缺失值填补完成，并且返回一个完整的微阵列数据集。

Claims

1.一种基于自适应权重的微阵列缺失值估计方法，是应用于由n个基因组成的微阵列数据集中，所述微阵列数据集记为G＝{g₁,g₂,…,g_i,…g_n}；g_i表示第i个基因；1≤i≤n；并有：表示第i个基因在第j个实验条件下的表达数据，1≤j≤m；由n个基因在第j个实验条件下的表达数据组成第j个样本，记为s_j；其特征是，所述微阵列缺失值填补估计方法是按照如下步骤进行：

步骤1、定义循环次数为c，并初始化c＝1

2.根据权利要求1所述的微阵列缺失值估计方法，其特征是，所述步骤3的丢失率为具有缺失值的基因中所有缺失表达数据的总个数与样本总个数m之比。

3.根据权利要求1所述的微阵列缺失值估计方法，其特征是，所述步骤4中的相似基因集G^′(c)是按如下步骤进行：

i d x (g_{t}^{(c)}) \cap i d x (g_{i}^{(c)}) = φ - - - (1)

r_{k}^{(c)} < \frac{Σ_{k = 1}^{K^{(c)}} r_{k}^{(c)}}{K^{(c)}} - - - (2)

4.根据权利要求1所述的微阵列缺失值估计方法，其特征是，所述步骤5中的相似度w_v是按如下步骤获得：

d_{v}^{(c)} = \frac{l_{v}^{(c)}}{l_{t}^{(c)}} \sqrt{Σ_{j = 1}^{o b s (g_{t}^{(c)}) \cap o b s (g_{v}^{' (c)})} {(s_{j}^{t (c)} - s_{j}^{(v) (c)})}^{2}} - - - (3)

w_{v}^{(c)} = \exp (\frac{- (d_{v}^{(c)} - d_{m i n}^{(c)})}{2 σ^{2}}) - - - (4)

5.根据权利要求1所述的微阵列缺失值估计方法，其特征是，所述步骤6中的加权回归模型是按如下步骤构建：

\underset{{β_{1}^{(c)}, β_{2}^{(c)}, ..., β_{V}^{(c)}}}{m i n} [{(o b s (g_{t}^{(c)}) - Σ_{v = 1}^{V} β_{v}^{(c)} w_{v}^{(c)} o b s (g_{v}^{' (c)}))}^{2} + λ | | β | |_{2}] - - - (5)

β = {[{AWW}^{T} A^{T} - λ I]}^{+} A W o b s (g_{t}^{(c)}) - - - (6)

步骤6.2、利用式(7)计算所述目标基因的缺失值的估计值

m i s s (g_{t}^{(c)}) = β [m i s s (g_{1}^{' (c)}), m i s s (g_{2}^{' (c)}), ..., m i s s (g_{v}^{' (c)}), ..., m i s s (g_{V}^{' (c)})] - - - (7)