CN107133496A

CN107133496A - 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法

Info

Publication number: CN107133496A
Application number: CN201710355356.0A
Authority: CN
Inventors: 陈晋音; 郑海斌; 熊晖; 吴洋洋; 李南; 应时彦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2017-09-05
Anticipated expiration: 2037-05-19
Also published as: CN107133496B

Abstract

一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法，包括以下步骤：第一步，基于流形学习的癌症关联基因特征粗提取，第二步，基于闭环深度卷积双网络结构的基因特征精细提取，过程如下：采用正向卷积神经网络和反向卷积神经网络相结合的双网络结构，利用卷积神经网络的特征提取能力对基因表达数据集进行深度抽象，最终投影出关键特征；反向卷积神经网络实现关键特征的逆投影。本发明提供一种最大程度保留基因特征并实现快速降维的基于流形学习与闭环深度卷积双网络模型的基因特征提取方法。

Description

基于流形学习与闭环深度卷积双网络模型的基因特征提取方法

技术领域

本发明涉及基因特征提取技术领域，尤其是一种基因特征提取方法。

背景技术

精准医疗的时代已经逐渐到来，针对癌症的准确诊断与精准治疗首当其冲。在中国，每分钟有6人被诊断为恶性肿瘤，中国居民一生罹患癌症的概率为22％，癌症已经成为中国居民首要死因，预防和治疗癌症是各学科科学家关注的焦点。随着基因测序费用的降低，通过对正常人员与患癌人员的基因表达数据测序与比对，可以得到患癌风险评估报告，这也是目前较先进的早期发现癌症的手段。同时，也通过对患癌病人跟踪检测基因表达数据从而分析其治疗进程和效果。因此，通过分析基因数据从而实现对癌症的患病风险和癌症精准治疗提供可靠依据。

基因数据集分类的最大难点在于高维度和小样本之间的不平衡问题。同时高噪声、高变异、分布不均衡也是造成分类器处理基因表达数据性能不佳的主要原因。如何更进一步提取特征信息，降低计算复杂度是基因分类的基础工作。

近几年涌现出大量通过将原始数据投影到低维新空间的映射来构造和计算嵌入子空间的方法，大致分为以下几类：

(a)基于因子分量分析的基因特征提取方法。常用的方法有主分量分析 (PCA)，因子分析(FA)，独立分量分析(ICA)，线性判别分析(LDA)、偏最小二乘(PLS)等。其中PCA是一种分析事物主要矛盾的统计方法，本质上是基于目标统计特性对样本进行最优正交变换，多用于降维、可视化、去噪、减小计算等。但PCA的原理是基于样本集总体散度最大化原则，这同时会导致类内散度的增加，加剧类别划分难度。Li等人提出首先相对宽松地剔除噪声基因，适当增加被选基因数量，进而利用二维主元分析法(2D-PCA)技术进行二次基因特征提取，并采用SVM分类。而Taguchi等利用PCA面向ALS进行特征提取，将特征而不是样本嵌入到低维空间，从而证实了29个关键候选基因。

(b)基于傅里叶与小波包变化的基因特征提取方法。基因表达谱数据可以理解为一组信号或一组时间序列，从而可以采用诸多信号处理方法用来处理，如离散余弦变换、傅里叶变换和小波包变换等。郭志鹏等人提出基于分数阶傅立叶变换的肿瘤基因表达谱分类的方法，通过分数阶傅立叶变换提取基因表达谱数据的全局特征，并选择最优阶次，结合支持向量机实现了对肿瘤及肿瘤亚型的分类。

(c)基于流形学习的基因表达谱特征提取方法。流形学习算法是一种用来维数约减的非线性方法，并且因为其在探测嵌入在高维空间中低维流形的能力和灵活性而被广泛应用。具有代表性的流形学习算法包括等距映射(Isometric Mapping, Isomap)、局部线性嵌入方法(Locally Linear Embedding,LLE)、Laplacian特征映射 (LaplacianEigenmap,LE)。其中，LLE运用线性系数，来表达局部几何，该系数能够重建一个给定的样本点利用其近邻点，然后寻找一个低维空间，在该空间中这些线性系数仍然可以用来重建相应的点；ISOMAP作为MDS的变种，能够保存点对之间的全局的测地线距离。Geng X等提出了另一种基于Isomap的监督算法 SIsomap，该方法同样是修改了Isomap算法的第一步，用已知的样本所属类别信息重新定义了样本间的距离。

除了上述方法，常用的降维方法还有信噪比(SNR)、遗传算法等。SNR多用于二分类问题，针对两类样本计算出每个维度相应的样本表达差值，差值越大，则该基因维度所包含的分类信息越多。通过SNR值对各维度基因进行排序，从中筛选出特征基因。遗传算法是一种基于群智能的搜索启发式算法，通过模拟自然种群繁殖过程进行随机寻优。针对基因数据，利用样本信息熵计算出各特征的可分度，以此作为遗传算法的适应度函数，再采用特定的遗传操作如交叉、突变、选择等实现优化，从而选取较优特征基因子集。

发明内容

为了克服已有基因特征提取方法的降维速度较慢、无法最大程度保留基因特征的不足，本发明提供一种最大程度保留基因特征并实现快速降维的基于流形学习与闭环深度卷积双网络模型的基因特征提取方法。

本发明解决其技术问题所采用的技术方案是：

一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法，所述提取方法包括以下步骤：

第一步，基于流形学习的癌症关联基因特征粗提取，过程如下：

1.1运用自适应密度聚类算法对基因表达数据做初始聚类处理，实现聚类中心的自动确定，对于聚类完成的每个类在类内降维为线性模型；

1.2建立局部线性模型间的最小穿越树MST，将每个小线性模型根据它的聚类中心构成一个树的框架，采用其聚类中心作为线性模型代表，将所有聚类中心建立一个MST树，不断迭代相邻两个线性模型映射到同一线性模型构建遍历的骨架；

1.3遍历流形的全局MST，沿着MST的框架将一个线性模型映射到另一个线性模型上，把已遍历过的映射合并为整块的线性模型映射到新的线性模型的方向上，最终流形形成在高维空间中的低维表示；

1.4通过在全局超线性模型上运行独立分量分析ICA，再对高维空间的低维线性模型降维，将低维线性模型在低维空间中显示；

第二步，基于闭环深度卷积双网络结构的基因特征精细提取，过程如下：

采用正向卷积神经网络和反向卷积神经网络相结合的双网络结构，利用卷积神经网络的特征提取能力对基因表达数据集进行深度抽象，最终投影出关键特征；反向卷积神经网络实现关键特征的逆投影。

进一步，所述第二步中，将网络内部的线性过滤核替换为RBF核函数，通过设置RBF的超参数实现对CNN卷积运算的调控。

再进一步，所述第一步中，对于高维样本基因数据M，M含有P个检测对象，每一个对象p为一个人所检测的N维基因序列，目标是找到N维流形中流形为M 的n维内在结构的样本，n<<N。首先，对流形M中的数据对象运用自适应密度聚类算法进行聚类，按基因序列近似程度对所有样本划分。其次，建立局部线性模型间的最小穿越树MST，将拓扑结构中有序排列的这些线性模型用高维空间数据构造一个低维的全局流形，通过构造一个最小跨越树穿越超平面中心实现。

基因特征粗提取的过程如下：

(a)计算n×n的矩阵D(i,j)＝d(x_i,x_j)，其中d是x_i、x_j间距离；

(b)构造MST的矩阵S＝{D_new}，S是通过减去连边值判断三个节点之间是否成环来删除连边d，遵循使MST连边权重最小原则；

(c)若已对所有节点组合可能判断成环，输出矩阵S，此时，聚类中心a可以看成MST的一个节点a，而节点之间的连线则为MST的树枝；再次，遍历流形的全局MST，即通过沿着超线性模型的MST遍历，并合并该超线性模型。

所述步骤(c)中，遍历的是聚类中心构成的MST节点，映射时应对节点所在的线性模型的每一个数据点进行操作。

所述步骤(c)中，在遍历过程中存在前向映射和返回映射，所述前向映射过程为：当从一个线性模型P_pre到另一个线性模型P_new时，若新的线性模型P_new还没被遍历过，将之前访问P_pre的映射到这个线性模型的平面P_new；所述返回映射过程为：若一个线性模型已经访问过，我们要把已经过映射到当前P_new所在平面的所有线性模型旋转回到P_pre原始所在的平面。

所述第二步中，基因特征精细提取包括如下步骤：

2.1设计闭环双深度卷积神经网络结构

设置正则化系数λ、训练次数E、迭代数T和学习率r，选择卷积层和池化层层数，将卷积层中采用RBF核，参照公式(1)：

其中，i,j表示特征投影中的像素位置目录，k表示卷积核层数；

构建反卷积网络将CNN处理后的特征矩阵逆投影到原始空间，定义由y到z 的过程为正向传播过程，z到y’的过程为反馈过程；其中D为反卷积层采用卷积层滤波核的转置矩阵作为参数，U为反池化层；将CNN投影结果还原到原空间，将卷积层RBF核的转置矩阵作为反卷积层的初始参数，并采用逐对训练方法训练反卷积神经网络；反池化层与池化层是个互逆的过程，在每次最大池化时，记录下最大值所在的相对坐标以及除最大值外的局部平均值；然后在反池化时，将特征逆投影到原始矩阵，而矩阵的其他位填充记录下的平均值；

2.2闭环双深度卷积神经网络初始化

采用正态分布逐层初始化特征投影z和卷积核矩阵W，z～N(0,1),W～N(0,1)，输入流形学习降维后的基因数据集，对每个样本进行统一切割形成新的矩阵，并利用进行标准化处理：

2.3闭环双深度卷积神经网络训练

构建损失函数，在参数训练过程中，按照公式(3)构建损失函数，加入特征投影作为惩罚项，最后用梯度下降法学习参数；

loss＝||y-y'||²+λ||z||² (3)

其中y和y'分别表示输入和重构输入，z表示输出特征；

计算z的反向投影结果y'，将重构误差e＝||y-y'||正向传播回投影层，输出g＝R(e)，修正z，z＝z-r*g，池化过程：记录最大值所在坐标和局部平均值 (p,s,ave)＝P(z)；反池化过程：将池化的结果(p,s,ave)反池化操作，更新z，

z＝U(p,s,ave)；当z训练完成时，固定特征投影z，训练卷积核参数矩阵W，训练结束后输出特征投影以及池化坐标。

本发明的技术构思为：相比浅层机器学习算法，卷积神经网络能自动学习过滤核并抽象出数据的潜在特征。凭借其卓越的特征提取能力，CNN已经被大规模用于图像处理和分类领域，在基因表达数据的特征提取方面尚无太多应用。传统 CNN采用线性卷积核，线性模型的局限在于抽象能力低，无法完全提取出数据的局部特征。Lin等提出NIN模型，在传统过滤核的基础上添加了双层神经网络，从而将线性映射转化为非线性，提高了信息局部抽象能力。但因为采用ReLU激活函数，在训练过程中置0区域的神经元将会阻碍梯度的传导。针对这个问题，Chang 等人在NIN模型的基础上提出MNIN(Maxout Network inNetwork)模型，利用 Maxout强大的拟合能力来取代ReLU，同时利用批标准化对每层过滤核的输出进行标准化，降低了饱和程度。

人体的基因表达包含有约22000个基因，如何从中提取出某种癌症强关联的基因特征？把原始的高维基因表达数据的“维度灾难”通过一种有效的降维方法投映到低维的空间，从而提取我们所需要的与癌症相关的低维特征信息。本发明拟采用基因特征粗提取与精细捕捉相结合的方法进行提取，框架示意图如图1所示。

本发明的有益效果主要表现在：最大程度保留基因特征并实现快速降维。

附图说明

图1是高纬基因表达谱特征提取框架图。

图2是闭环双卷积深度网络模型结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法，包括基于流形学习的癌症关联基因特征粗提取、基于闭环深度卷积双网络结构的基因特征向量精细捕捉，在最大程度保留癌症关联基因特征的前提下实现快速降维。

基因特征粗提取采用基于流形学习的特征提取方法。基因数据特征是采样于一个高维的外围欧式空间的一个低维子流形的假设，流形存在一定的低维内在结构。但普通的降维方法存在对流形产生扭曲、展开后结构发生“畸形”、正确率较低、可信度较差等不足，因此本发明设计了一种基于自适应密度聚类的非线性流形学习降维方法进行基因表达数据的降维，将流形近似为一系列的线性模型，利用平行映射将局部线性模型合并得到一个全局稳定且局部变换的流形。方法包括四个主要步骤：(a)运用一种自适应密度聚类算法对基因表达数据做初始聚类处理，实现聚类中心的自动确定，对于聚类完成的每个类在类内降维为线性模型，其中ICA对每个聚类降维的步骤实际上是将每个类先由高维降至低维，形成线性模型。(b)建立局部线性模型间的最小穿越树MST，将每个小线性模型根据它的聚类中心构成一个树的框架，采用其聚类中心作为线性模型代表，将所有聚类中心建立一个MST树，不断迭代相邻两个线性模型映射到同一线性模型构建遍历的骨架。(c)遍历流形的全局MST，设计一种快速遍历含有两个以上子树的MST 的方法，即沿着MST的框架将一个线性模型映射到另一个线性模型上，把已遍历过的映射合并为整块的线性模型映射到新的线性模型的方向上，最终流形形成在高维空间中的低维表示。(d)通过在全局超线性模型上运行ICA再对高维空间的低维线性模型降维，将低维线性模型在低维空间中显示，也就真正实现了对基因表达数据从高维到低维的降维。

设计一种闭环深度卷积双网络模型，实现基因特征精细提取。通过正向卷积神经网络(Convolutional Neural Network,CNN)和反向卷积神经网络

(Deconvolution Neural Network,DCNN)相结合的双网络结构，实现高维基因数据特征精细提取。利用卷积神经网络的特征提取能力对基因表达数据集进行深度抽象，最终投影出关键特征；反向卷积神经网络实现关键特征的逆投影。一方面对模型训练起反馈作用，另一方面更有助于深入了解基因特征与提取结果的联系。为了提高卷积神经网络的局部抽象能力，将网络内部的线性过滤核替换为RBF核函数，通过设置RBF的超参数实现对CNN卷积运算的调控。相比开环系统，闭环双网络结构可以通过反馈机制微调系统内部参数，同时抑制噪声干扰。训练完成后，也可以将反馈部分用于特征投影的可视化，方便研究人员了解基因表达谱与提取特征的联系。

为实现基于流形学习的基因特征粗提取，提出了一种于自适应密度聚类的非线性流形学习降维方法。对于高维样本基因数据M，M含有P个检测对象，每一个对象p为一个人所检测的N维基因序列，目标是找到N维流形中流形为M的n维内在结构的样本，n<<N。首先，对流形M中的数据对象运用自适应密度聚类算法进行聚类，按基因序列近似程度对所有样本划分。其次，建立局部线性模型间的最小穿越树MST，将拓扑结构中有序排列的这些线性模型用高维空间数据构造一个低维的全局流形，通过构造一个最小跨越树穿越超平面中心实即：(a)计算n×n的矩阵D(i,j)＝d(x_i,x_j)，其中d是x_i、x_j间距离；(b)构造MST的矩阵S＝{D_new}， S是通过减去连边值判断三个节点之间是否成环来删除连边d，遵循使 MST连边权重最小原则；(c)若已对所有节点组合可能判断成环，输出矩阵S，此时，聚类中心a可以看成MST的一个节点a，而节点之间的连线则为MST的树枝。再次，遍历流形的全局MST，即通过沿着超线性模型的MST遍历，并合并该超线性模型。在此步骤中遍历的是聚类中心构成的MST节点，映射时应对节点所在的线性模型的每一个数据点进行操作。此外，在遍历过程中存在前向映射和返回映射。设计前向映射：当从一个线性模型P_pre到另一个线性模型P_new时，若新的线性模型P_new还没被遍历过，将之前访问P_pre的映射到这个线性模型的平面P_new。返回映射：若一个线性模型已经访问过，我们要把已经过映射到当前P_new所在平面的所有线性模型旋转回到P_pre原始所在的平面。

设计一种基于闭环双深度卷积神经网络模型的基因特征精细提取方法。包含关键内容：深度卷积神经网络模型构建、初始化与训练。

闭环双深度卷积神经网络结构设计：设置正则化系数λ、训练次数E、迭代数T和学习率r，选择卷积层和池化层层数。为了提高CNN的局部抽象能力，将卷积层中的线性过滤核替换为RBF核。采用类似于支持向量机中非线性转换的思路，通过把原始数据和线性权重向高维度投影，使数据向线性模型转化，再进行加权，最后利用RBF核函数求出加权和，如公式(1)。一方面RBF输出结果局限于[0,1],省略了激活函数非线性映射和归一化的过程，大大简化了计算，另一方面，可以通过调节RBF函数的参数来调控卷积运算，相比NIN模型，不需要额外对卷积核神经网络进行训练。

其中i,j表示特征投影中的像素位置目录，k表示卷积核层数。

为了形成反馈回路，本发明构建反卷积网络将CNN处理后的特征矩阵逆投影到原始空间，从而进一步微调网络结构参数。如图2，定义由y到z的过程为正向传播过程，z到y’的过程为反馈过程。其中D为反卷积层(deconvolution)采用卷积层滤波核的转置矩阵作为参数，U为反池化层(unpooling)。将CNN投影结果还原到原空间，目的在于观察特征投影对原样本数据的哪些部分敏感。将卷积层RBF 核的转置矩阵作为反卷积层的初始参数，并采用逐对训练方法训练反卷积神经网络。反池化层与池化层是个互逆的过程。在每次最大池化时，记录下最大值所在的相对坐标以及除最大值外的局部平均值。然后在反池化时，将特征逆投影到原始矩阵，而矩阵的其他位填充记录下的平均值。相比用0填充，可以更好地还原池化前的数据分布。

闭环双深度卷积神经网络初始化。采用正态分布逐层初始化特征投影z和卷积核矩阵W，z～N(0,1),W～N(0,1)。输入流形学习降维后的基因数据集，对每个样本进行统一切割形成新的矩阵，并利用Batch Normalization进行标准化处理。

闭环双深度卷积神经网络训练。构建损失函数，在参数训练过程中，按照公式(3)构建损失函数，为了避免过拟合，加入特征投影作为惩罚项，最后用梯度下降法(SGD)学习参数。

loss＝||y-y'||²+λ||z||² (3)

其中y和y'分别表示输入和重构输入，z表示输出特征。

计算z的反向投影结果y'，将重构误差e＝||y-y'||正向传播回投影层，输出 g＝R(e)，修正z，z＝z-r*g，池化过程：记录最大值所在坐标和局部平均值 (p,s,ave)＝P(z)；反池化过程：将池化的结果(p,s,ave)反池化操作，更新z， z＝U(p,s,ave)；当z训练完成时，固定特征投影z，训练卷积核参数矩阵W，训练结束后输出特征投影以及池化坐标。

Claims

1.一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法，其特征在于：所述提取方法包括以下步骤：

2.如权利要求1所述的一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法，其特征在于：所述第二步中，将网络内部的线性过滤核替换为RBF核函数，通过设置RBF的超参数实现对CNN卷积运算的调控。

3.如权利要求1或2所述的一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法，其特征在于：所述第一步中，对于高维样本基因数据M，M含有P个检测对象，每一个对象p为一个人所检测的N维基因序列，目标是找到N维流形中流形为M的n维内在结构的样本，n<<N。首先，对流形M中的数据对象运用自适应密度聚类算法进行聚类，按基因序列近似程度对所有样本划分。其次，建立局部线性模型间的最小穿越树MST，将拓扑结构中有序排列的这些线性模型用高维空间数据构造一个低维的全局流形，通过构造一个最小跨越树穿越超平面中心实现。

4.如权利要求1或2所述的一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法，其特征在于：基因特征粗提取的过程如下：

(a)计算n×n的矩阵D(i,j)＝d(x_i,x_j)，其中d是x_i、x_j间距离；

5.如权利要求4所述的一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法，其特征在于：所述步骤(c)中，遍历的是聚类中心构成的MST节点，映射时应对节点所在的线性模型的每一个数据点进行操作。

6.如权利要求4所述的一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法，其特征在于：所述步骤(c)中，在遍历过程中存在前向映射和返回映射，所述前向映射过程为：当从一个线性模型P_pre到另一个线性模型P_new时，若新的线性模型P_new还没被遍历过，将之前访问P_pre的映射到这个线性模型的平面P_new；所述返回映射过程为：若一个线性模型已经访问过，我们要把已经过映射到当前P_new所在平面的所有线性模型旋转回到P_pre原始所在的平面。

7.如权利要求1或2所述的一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法，其特征在于：所述第二步中，基因特征精细提取包括如下步骤：

2.1设计闭环双深度卷积神经网络结构

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>f</mi> <mi>k</mi> </msub> <mo>=</mo> <mi>&Sigma;</mi> <mi>K</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>K</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mrow> <mo>-</mo> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> </msup> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

构建反卷积网络将CNN处理后的特征矩阵逆投影到原始空间，定义由y到z的过程为正向传播过程，z到y’的过程为反馈过程；其中D为反卷积层采用卷积层滤波核的转置矩阵作为参数，U为反池化层；将CNN投影结果还原到原空间，将卷积层RBF核的转置矩阵作为反卷积层的初始参数，并采用逐对训练方法训练反卷积神经网络；反池化层与池化层是个互逆的过程，在每次最大池化时，记录下最大值所在的相对坐标以及除最大值外的局部平均值；然后在反池化时，将特征逆投影到原始矩阵，而矩阵的其他位填充记录下的平均值；

2.2闭环双深度卷积神经网络初始化

2.3闭环双深度卷积神经网络训练

loss＝||y-y'||²+λ||z||² (3)

其中y和y'分别表示输入和重构输入，z表示输出特征；

计算z的反向投影结果y'，将重构误差e＝||y-y'||正向传播回投影层，输出g＝R(e)，修正z，z＝z-r*g，池化过程：记录最大值所在坐标和局部平均值(p,s,ave)＝P(z)；反池化过程：将池化的结果(p,s,ave)反池化操作，更新z，z＝U(p,s,ave)；当z训练完成时，固定特征投影z，训练卷积核参数矩阵W，训练结束后输出特征投影以及池化坐标。