CN107133496A - 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法 - Google Patents
基于流形学习与闭环深度卷积双网络模型的基因特征提取方法 Download PDFInfo
- Publication number
- CN107133496A CN107133496A CN201710355356.0A CN201710355356A CN107133496A CN 107133496 A CN107133496 A CN 107133496A CN 201710355356 A CN201710355356 A CN 201710355356A CN 107133496 A CN107133496 A CN 107133496A
- Authority
- CN
- China
- Prior art keywords
- mrow
- gene expression
- msub
- linear model
- closed loop
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2134—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23211—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法,包括以下步骤:第一步,基于流形学习的癌症关联基因特征粗提取,第二步,基于闭环深度卷积双网络结构的基因特征精细提取,过程如下:采用正向卷积神经网络和反向卷积神经网络相结合的双网络结构,利用卷积神经网络的特征提取能力对基因表达数据集进行深度抽象,最终投影出关键特征;反向卷积神经网络实现关键特征的逆投影。本发明提供一种最大程度保留基因特征并实现快速降维的基于流形学习与闭环深度卷积双网络模型的基因特征提取方法。
Description
技术领域
本发明涉及基因特征提取技术领域,尤其是一种基因特征提取方法。
背景技术
精准医疗的时代已经逐渐到来,针对癌症的准确诊断与精准治疗首当其冲。 在中国,每分钟有6人被诊断为恶性肿瘤,中国居民一生罹患癌症的概率为22%, 癌症已经成为中国居民首要死因,预防和治疗癌症是各学科科学家关注的焦点。 随着基因测序费用的降低,通过对正常人员与患癌人员的基因表达数据测序与比 对,可以得到患癌风险评估报告,这也是目前较先进的早期发现癌症的手段。同 时,也通过对患癌病人跟踪检测基因表达数据从而分析其治疗进程和效果。因此, 通过分析基因数据从而实现对癌症的患病风险和癌症精准治疗提供可靠依据。
基因数据集分类的最大难点在于高维度和小样本之间的不平衡问题。同时高 噪声、高变异、分布不均衡也是造成分类器处理基因表达数据性能不佳的主要原 因。如何更进一步提取特征信息,降低计算复杂度是基因分类的基础工作。
近几年涌现出大量通过将原始数据投影到低维新空间的映射来构造和计算嵌 入子空间的方法,大致分为以下几类:
(a)基于因子分量分析的基因特征提取方法。常用的方法有主分量分析 (PCA),因子分析(FA),独立分量分析(ICA),线性判别分析(LDA)、 偏最小二乘(PLS)等。其中PCA是一种分析事物主要矛盾的统计方法,本质上 是基于目标统计特性对样本进行最优正交变换,多用于降维、可视化、去噪、减 小计算等。但PCA的原理是基于样本集总体散度最大化原则,这同时会导致类内 散度的增加,加剧类别划分难度。Li等人提出首先相对宽松地剔除噪声基因,适 当增加被选基因数量,进而利用二维主元分析法(2D-PCA)技术进行二次基因特征提取,并采用SVM分类。而Taguchi等利用PCA面向ALS进行特征提取,将特征而 不是样本嵌入到低维空间,从而证实了29个关键候选基因。
(b)基于傅里叶与小波包变化的基因特征提取方法。基因表达谱数据可以理 解为一组信号或一组时间序列,从而可以采用诸多信号处理方法用来处理,如离 散余弦变换、傅里叶变换和小波包变换等。郭志鹏等人提出基于分数阶傅立叶变 换的肿瘤基因表达谱分类的方法,通过分数阶傅立叶变换提取基因表达谱数据的 全局特征,并选择最优阶次,结合支持向量机实现了对肿瘤及肿瘤亚型的分类。
(c)基于流形学习的基因表达谱特征提取方法。流形学习算法是一种用来维 数约减的非线性方法,并且因为其在探测嵌入在高维空间中低维流形的能力和灵 活性而被广泛应用。具有代表性的流形学习算法包括等距映射(Isometric Mapping, Isomap)、局部线性嵌入方法(Locally Linear Embedding,LLE)、Laplacian特征映射 (LaplacianEigenmap,LE)。其中,LLE运用线性系数,来表达局部几何,该系数能 够重建一个给定的样本点利用其近邻点,然后寻找一个低维空间,在该空间中这 些线性系数仍然可以用来重建相应的点;ISOMAP作为MDS的变种,能够保存点 对之间的全局的测地线距离。Geng X等提出了另一种基于Isomap的监督算法 SIsomap,该方法同样是修改了Isomap算法的第一步,用已知的样本所属类别信息 重新定义了样本间的距离。
除了上述方法,常用的降维方法还有信噪比(SNR)、遗传算法等。SNR多 用于二分类问题,针对两类样本计算出每个维度相应的样本表达差值,差值越大, 则该基因维度所包含的分类信息越多。通过SNR值对各维度基因进行排序,从中 筛选出特征基因。遗传算法是一种基于群智能的搜索启发式算法,通过模拟自然 种群繁殖过程进行随机寻优。针对基因数据,利用样本信息熵计算出各特征的可 分度,以此作为遗传算法的适应度函数,再采用特定的遗传操作如交叉、突变、 选择等实现优化,从而选取较优特征基因子集。
发明内容
为了克服已有基因特征提取方法的降维速度较慢、无法最大程度保留基因特 征的不足,本发明提供一种最大程度保留基因特征并实现快速降维的基于流形学 习与闭环深度卷积双网络模型的基因特征提取方法。
本发明解决其技术问题所采用的技术方案是:
一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法,所述提 取方法包括以下步骤:
第一步,基于流形学习的癌症关联基因特征粗提取,过程如下:
1.1运用自适应密度聚类算法对基因表达数据做初始聚类处理,实现聚类中心 的自动确定,对于聚类完成的每个类在类内降维为线性模型;
1.2建立局部线性模型间的最小穿越树MST,将每个小线性模型根据它的聚 类中心构成一个树的框架,采用其聚类中心作为线性模型代表,将所有聚类中心 建立一个MST树,不断迭代相邻两个线性模型映射到同一线性模型构建遍历的 骨架;
1.3遍历流形的全局MST,沿着MST的框架将一个线性模型映射到另一个线 性模型上,把已遍历过的映射合并为整块的线性模型映射到新的线性模型的方向 上,最终流形形成在高维空间中的低维表示;
1.4通过在全局超线性模型上运行独立分量分析ICA,再对高维空间的低维线 性模型降维,将低维线性模型在低维空间中显示;
第二步,基于闭环深度卷积双网络结构的基因特征精细提取,过程如下:
采用正向卷积神经网络和反向卷积神经网络相结合的双网络结构,利用卷积 神经网络的特征提取能力对基因表达数据集进行深度抽象,最终投影出关键特征; 反向卷积神经网络实现关键特征的逆投影。
进一步,所述第二步中,将网络内部的线性过滤核替换为RBF核函数,通过 设置RBF的超参数实现对CNN卷积运算的调控。
再进一步,所述第一步中,对于高维样本基因数据M,M含有P个检测对象, 每一个对象p为一个人所检测的N维基因序列,目标是找到N维流形中流形为M 的n维内在结构的样本,n<<N。首先,对流形M中的数据对象运用自适应密度 聚类算法进行聚类,按基因序列近似程度对所有样本划分。其次,建立局部线性 模型间的最小穿越树MST,将拓扑结构中有序排列的这些线性模型用高维空间数 据构造一个低维的全局流形,通过构造一个最小跨越树穿越超平面中心实现。
基因特征粗提取的过程如下:
(a)计算n×n的矩阵D(i,j)=d(xi,xj),其中d是xi、xj间距离;
(b)构造MST的矩阵S={Dnew},S是通过减去连边值判断三个 节点之间是否成环来删除连边d,遵循使MST连边权重最小原则;
(c)若已对所有节点组合可能判断成环,输出矩阵S,此时,聚类中心a可 以看成MST的一个节点a,而节点之间的连线则为MST的树枝;再次,遍历流 形的全局MST,即通过沿着超线性模型的MST遍历,并合并该超线性模型。
所述步骤(c)中,遍历的是聚类中心构成的MST节点,映射时应对节点所 在的线性模型的每一个数据点进行操作。
所述步骤(c)中,在遍历过程中存在前向映射和返回映射,所述前向映射过 程为:当从一个线性模型Ppre到另一个线性模型Pnew时,若新的线性模型Pnew还没 被遍历过,将之前访问Ppre的映射到这个线性模型的平面Pnew;所述返回映射过程 为:若一个线性模型已经访问过,我们要把已经过映射到当前Pnew所在平面的所 有线性模型旋转回到Ppre原始所在的平面。
所述第二步中,基因特征精细提取包括如下步骤:
2.1设计闭环双深度卷积神经网络结构
设置正则化系数λ、训练次数E、迭代数T和学习率r,选择卷积层和池化层 层数,将卷积层中采用RBF核,参照公式(1):
其中,i,j表示特征投影中的像素位置目录,k表示卷积核层数;
构建反卷积网络将CNN处理后的特征矩阵逆投影到原始空间,定义由y到z 的过程为正向传播过程,z到y’的过程为反馈过程;其中D为反卷积层采用卷积 层滤波核的转置矩阵作为参数,U为反池化层;将CNN投影结果还原到原空间, 将卷积层RBF核的转置矩阵作为反卷积层的初始参数,并采用逐对训练方法训练 反卷积神经网络;反池化层与池化层是个互逆的过程,在每次最大池化时,记录 下最大值所在的相对坐标以及除最大值外的局部平均值;然后在反池化时,将特 征逆投影到原始矩阵,而矩阵的其他位填充记录下的平均值;
2.2闭环双深度卷积神经网络初始化
采用正态分布逐层初始化特征投影z和卷积核矩阵W,z~N(0,1),W~N(0,1), 输入流形学习降维后的基因数据集,对每个样本进行统一切割形成新的矩阵,并 利用进行标准化处理:
2.3闭环双深度卷积神经网络训练
构建损失函数,在参数训练过程中,按照公式(3)构建损失函数,加入特征 投影作为惩罚项,最后用梯度下降法学习参数;
loss=||y-y'||2+λ||z||2 (3)
其中y和y'分别表示输入和重构输入,z表示输出特征;
计算z的反向投影结果y',将重构误差e=||y-y'||正向传播回投影层,输出g=R(e),修正z,z=z-r*g,池化过程:记录最大值所在坐标和局部平均值 (p,s,ave)=P(z);反池化过程:将池化的结果(p,s,ave)反池化操作,更新z,
z=U(p,s,ave);当z训练完成时,固定特征投影z,训练卷积核参数矩阵W,训练结束后输出特征投影以及池化坐标。
本发明的技术构思为:相比浅层机器学习算法,卷积神经网络能自动学习过 滤核并抽象出数据的潜在特征。凭借其卓越的特征提取能力,CNN已经被大规模 用于图像处理和分类领域,在基因表达数据的特征提取方面尚无太多应用。传统 CNN采用线性卷积核,线性模型的局限在于抽象能力低,无法完全提取出数据的 局部特征。Lin等提出NIN模型,在传统过滤核的基础上添加了双层神经网络,从 而将线性映射转化为非线性,提高了信息局部抽象能力。但因为采用ReLU激活函 数,在训练过程中置0区域的神经元将会阻碍梯度的传导。针对这个问题,Chang 等人在NIN模型的基础上提出MNIN(Maxout Network inNetwork)模型,利用 Maxout强大的拟合能力来取代ReLU,同时利用批标准化对每层过滤核的输出进 行标准化,降低了饱和程度。
人体的基因表达包含有约22000个基因,如何从中提取出某种癌症强关联的基因特征?把原始的高维基因表达数据的“维度灾难”通过一种有效的降维方法投映 到低维的空间,从而提取我们所需要的与癌症相关的低维特征信息。本发明拟采 用基因特征粗提取与精细捕捉相结合的方法进行提取,框架示意图如图1所示。
本发明的有益效果主要表现在:最大程度保留基因特征并实现快速降维。
附图说明
图1是高纬基因表达谱特征提取框架图。
图2是闭环双卷积深度网络模型结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于流形学习与闭环深度卷积双网络模型的基因特征 提取方法,包括基于流形学习的癌症关联基因特征粗提取、基于闭环深度卷积双 网络结构的基因特征向量精细捕捉,在最大程度保留癌症关联基因特征的前提下 实现快速降维。
基因特征粗提取采用基于流形学习的特征提取方法。基因数据特征是采样于 一个高维的外围欧式空间的一个低维子流形的假设,流形存在一定的低维内在结 构。但普通的降维方法存在对流形产生扭曲、展开后结构发生“畸形”、正确率较 低、可信度较差等不足,因此本发明设计了一种基于自适应密度聚类的非线性流 形学习降维方法进行基因表达数据的降维,将流形近似为一系列的线性模型,利 用平行映射将局部线性模型合并得到一个全局稳定且局部变换的流形。方法包括 四个主要步骤:(a)运用一种自适应密度聚类算法对基因表达数据做初始聚类处 理,实现聚类中心的自动确定,对于聚类完成的每个类在类内降维为线性模型, 其中ICA对每个聚类降维的步骤实际上是将每个类先由高维降至低维,形成线性 模型。(b)建立局部线性模型间的最小穿越树MST,将每个小线性模型根据它 的聚类中心构成一个树的框架,采用其聚类中心作为线性模型代表,将所有聚类 中心建立一个MST树,不断迭代相邻两个线性模型映射到同一线性模型构建遍历 的骨架。(c)遍历流形的全局MST,设计一种快速遍历含有两个以上子树的MST 的方法,即沿着MST的框架将一个线性模型映射到另一个线性模型上,把已遍历 过的映射合并为整块的线性模型映射到新的线性模型的方向上,最终流形形成在 高维空间中的低维表示。(d)通过在全局超线性模型上运行ICA再对高维空间的 低维线性模型降维,将低维线性模型在低维空间中显示,也就真正实现了对基因 表达数据从高维到低维的降维。
设计一种闭环深度卷积双网络模型,实现基因特征精细提取。通过正向卷积 神经网络(Convolutional Neural Network,CNN)和反向卷积神经网络
(Deconvolution Neural Network,DCNN)相结合的双网络结构,实现高维基因数据 特征精细提取。利用卷积神经网络的特征提取能力对基因表达数据集进行深度抽 象,最终投影出关键特征;反向卷积神经网络实现关键特征的逆投影。一方面对 模型训练起反馈作用,另一方面更有助于深入了解基因特征与提取结果的联系。 为了提高卷积神经网络的局部抽象能力,将网络内部的线性过滤核替换为RBF核 函数,通过设置RBF的超参数实现对CNN卷积运算的调控。相比开环系统,闭环 双网络结构可以通过反馈机制微调系统内部参数,同时抑制噪声干扰。训练完成 后,也可以将反馈部分用于特征投影的可视化,方便研究人员了解基因表达谱与 提取特征的联系。
为实现基于流形学习的基因特征粗提取,提出了一种于自适应密度聚类的非 线性流形学习降维方法。对于高维样本基因数据M,M含有P个检测对象,每一个 对象p为一个人所检测的N维基因序列,目标是找到N维流形中流形为M的n维内在 结构的样本,n<<N。首先,对流形M中的数据对象运用自适应密度聚类算法进行 聚类,按基因序列近似程度对所有样本划分。其次,建立局部线性模型间的最小 穿越树MST,将拓扑结构中有序排列的这些线性模型用高维空间数据构造一个低 维的全局流形,通过构造一个最小跨越树穿越超平面中心实即:(a)计算n×n的 矩阵D(i,j)=d(xi,xj),其中d是xi、xj间距离;(b)构造MST的矩阵S={Dnew}, S是通过减去连边值判断三个节点之间是否成环来删除连边d,遵循使 MST连边权重最小原则;(c)若已对所有节点组合可能判断成环,输出矩阵S, 此时,聚类中心a可以看成MST的一个节点a,而节点之间的连线则为MST的树枝。 再次,遍历流形的全局MST,即通过沿着超线性模型的MST遍历,并合并该超线 性模型。在此步骤中遍历的是聚类中心构成的MST节点,映射时应对节点所在的 线性模型的每一个数据点进行操作。此外,在遍历过程中存在前向映射和返回映 射。设计前向映射:当从一个线性模型Ppre到另一个线性模型Pnew时,若新的线性 模型Pnew还没被遍历过,将之前访问Ppre的映射到这个线性模型的平面Pnew。返回 映射:若一个线性模型已经访问过,我们要把已经过映射到当前Pnew所在平面的 所有线性模型旋转回到Ppre原始所在的平面。
设计一种基于闭环双深度卷积神经网络模型的基因特征精细提取方法。包含 关键内容:深度卷积神经网络模型构建、初始化与训练。
闭环双深度卷积神经网络结构设计:设置正则化系数λ、训练次数E、迭代 数T和学习率r,选择卷积层和池化层层数。为了提高CNN的局部抽象能力,将 卷积层中的线性过滤核替换为RBF核。采用类似于支持向量机中非线性转换的思 路,通过把原始数据和线性权重向高维度投影,使数据向线性模型转化,再进行 加权,最后利用RBF核函数求出加权和,如公式(1)。一方面RBF输出结果局 限于[0,1],省略了激活函数非线性映射和归一化的过程,大大简化了计算,另一方 面,可以通过调节RBF函数的参数来调控卷积运算,相比NIN模型,不需要额 外对卷积核神经网络进行训练。
其中i,j表示特征投影中的像素位置目录,k表示卷积核层数。
为了形成反馈回路,本发明构建反卷积网络将CNN处理后的特征矩阵逆投影 到原始空间,从而进一步微调网络结构参数。如图2,定义由y到z的过程为正向传 播过程,z到y’的过程为反馈过程。其中D为反卷积层(deconvolution)采用卷积 层滤波核的转置矩阵作为参数,U为反池化层(unpooling)。将CNN投影结果还 原到原空间,目的在于观察特征投影对原样本数据的哪些部分敏感。将卷积层RBF 核的转置矩阵作为反卷积层的初始参数,并采用逐对训练方法训练反卷积神经网 络。反池化层与池化层是个互逆的过程。在每次最大池化时,记录下最大值所在 的相对坐标以及除最大值外的局部平均值。然后在反池化时,将特征逆投影到原 始矩阵,而矩阵的其他位填充记录下的平均值。相比用0填充,可以更好地还原池 化前的数据分布。
闭环双深度卷积神经网络初始化。采用正态分布逐层初始化特征投影z和卷积 核矩阵W,z~N(0,1),W~N(0,1)。输入流形学习降维后的基因数据集,对每个样本 进行统一切割形成新的矩阵,并利用Batch Normalization进行标准化处理。
闭环双深度卷积神经网络训练。构建损失函数,在参数训练过程中,按照公 式(3)构建损失函数,为了避免过拟合,加入特征投影作为惩罚项,最后用梯度 下降法(SGD)学习参数。
loss=||y-y'||2+λ||z||2 (3)
其中y和y'分别表示输入和重构输入,z表示输出特征。
计算z的反向投影结果y',将重构误差e=||y-y'||正向传播回投影层,输出 g=R(e),修正z,z=z-r*g,池化过程:记录最大值所在坐标和局部平均值 (p,s,ave)=P(z);反池化过程:将池化的结果(p,s,ave)反池化操作,更新z, z=U(p,s,ave);当z训练完成时,固定特征投影z,训练卷积核参数矩阵W,训练结 束后输出特征投影以及池化坐标。
Claims (7)
1.一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法,其特征在于:所述提取方法包括以下步骤:
第一步,基于流形学习的癌症关联基因特征粗提取,过程如下:
1.1运用自适应密度聚类算法对基因表达数据做初始聚类处理,实现聚类中心的自动确定,对于聚类完成的每个类在类内降维为线性模型;
1.2建立局部线性模型间的最小穿越树MST,将每个小线性模型根据它的聚类中心构成一个树的框架,采用其聚类中心作为线性模型代表,将所有聚类中心建立一个MST树,不断迭代相邻两个线性模型映射到同一线性模型构建遍历的骨架;
1.3遍历流形的全局MST,沿着MST的框架将一个线性模型映射到另一个线性模型上,把已遍历过的映射合并为整块的线性模型映射到新的线性模型的方向上,最终流形形成在高维空间中的低维表示;
1.4通过在全局超线性模型上运行独立分量分析ICA,再对高维空间的低维线性模型降维,将低维线性模型在低维空间中显示;
第二步,基于闭环深度卷积双网络结构的基因特征精细提取,过程如下:
采用正向卷积神经网络和反向卷积神经网络相结合的双网络结构,利用卷积神经网络的特征提取能力对基因表达数据集进行深度抽象,最终投影出关键特征;反向卷积神经网络实现关键特征的逆投影。
2.如权利要求1所述的一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法,其特征在于:所述第二步中,将网络内部的线性过滤核替换为RBF核函数,通过设置RBF的超参数实现对CNN卷积运算的调控。
3.如权利要求1或2所述的一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法,其特征在于:所述第一步中,对于高维样本基因数据M,M含有P个检测对象,每一个对象p为一个人所检测的N维基因序列,目标是找到N维流形中流形为M的n维内在结构的样本,n<<N。首先,对流形M中的数据对象运用自适应密度聚类算法进行聚类,按基因序列近似程度对所有样本划分。其次,建立局部线性模型间的最小穿越树MST,将拓扑结构中有序排列的这些线性模型用高维空间数据构造一个低维的全局流形,通过构造一个最小跨越树穿越超平面中心实现。
4.如权利要求1或2所述的一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法,其特征在于:基因特征粗提取的过程如下:
(a)计算n×n的矩阵D(i,j)=d(xi,xj),其中d是xi、xj间距离;
(b)构造MST的矩阵S={Dnew},S是通过减去连边值判断三个节点之间是否成环来删除连边d,遵循使MST连边权重最小原则;
(c)若已对所有节点组合可能判断成环,输出矩阵S,此时,聚类中心a可以看成MST的一个节点a,而节点之间的连线则为MST的树枝;再次,遍历流形的全局MST,即通过沿着超线性模型的MST遍历,并合并该超线性模型。
5.如权利要求4所述的一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法,其特征在于:所述步骤(c)中,遍历的是聚类中心构成的MST节点,映射时应对节点所在的线性模型的每一个数据点进行操作。
6.如权利要求4所述的一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法,其特征在于:所述步骤(c)中,在遍历过程中存在前向映射和返回映射,所述前向映射过程为:当从一个线性模型Ppre到另一个线性模型Pnew时,若新的线性模型Pnew还没被遍历过,将之前访问Ppre的映射到这个线性模型的平面Pnew;所述返回映射过程为:若一个线性模型已经访问过,我们要把已经过映射到当前Pnew所在平面的所有线性模型旋转回到Ppre原始所在的平面。
7.如权利要求1或2所述的一种基于流形学习与闭环深度卷积双网络模型的基因特征提取方法,其特征在于:所述第二步中,基因特征精细提取包括如下步骤:
2.1设计闭环双深度卷积神经网络结构
设置正则化系数λ、训练次数E、迭代数T和学习率r,选择卷积层和池化层层数,将卷积层中采用RBF核,参照公式(1):
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>f</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<mi>&Sigma;</mi>
<mi>K</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mo>,</mo>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>K</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>x</mi>
<mn>2</mn>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msup>
<mi>e</mi>
<mfrac>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mn>2</mn>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mo>-</mo>
<msup>
<mi>&sigma;</mi>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
</msup>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,i,j表示特征投影中的像素位置目录,k表示卷积核层数;
构建反卷积网络将CNN处理后的特征矩阵逆投影到原始空间,定义由y到z的过程为正向传播过程,z到y’的过程为反馈过程;其中D为反卷积层采用卷积层滤波核的转置矩阵作为参数,U为反池化层;将CNN投影结果还原到原空间,将卷积层RBF核的转置矩阵作为反卷积层的初始参数,并采用逐对训练方法训练反卷积神经网络;反池化层与池化层是个互逆的过程,在每次最大池化时,记录下最大值所在的相对坐标以及除最大值外的局部平均值;然后在反池化时,将特征逆投影到原始矩阵,而矩阵的其他位填充记录下的平均值;
2.2闭环双深度卷积神经网络初始化
采用正态分布逐层初始化特征投影z和卷积核矩阵W,z~N(0,1),W~N(0,1),输入流形学习降维后的基因数据集,对每个样本进行统一切割形成新的矩阵,并利用进行标准化处理:
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
</msub>
<mo>-</mo>
<mi>E</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>V</mi>
<mi>a</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
2.3闭环双深度卷积神经网络训练
构建损失函数,在参数训练过程中,按照公式(3)构建损失函数,加入特征投影作为惩罚项,最后用梯度下降法学习参数;
loss=||y-y'||2+λ||z||2 (3)
其中y和y'分别表示输入和重构输入,z表示输出特征;
计算z的反向投影结果y',将重构误差e=||y-y'||正向传播回投影层,输出g=R(e),修正z,z=z-r*g,池化过程:记录最大值所在坐标和局部平均值(p,s,ave)=P(z);反池化过程:将池化的结果(p,s,ave)反池化操作,更新z,z=U(p,s,ave);当z训练完成时,固定特征投影z,训练卷积核参数矩阵W,训练结束后输出特征投影以及池化坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710355356.0A CN107133496B (zh) | 2017-05-19 | 2017-05-19 | 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710355356.0A CN107133496B (zh) | 2017-05-19 | 2017-05-19 | 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107133496A true CN107133496A (zh) | 2017-09-05 |
CN107133496B CN107133496B (zh) | 2020-08-25 |
Family
ID=59732398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710355356.0A Active CN107133496B (zh) | 2017-05-19 | 2017-05-19 | 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107133496B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844795A (zh) * | 2017-11-18 | 2018-03-27 | 中国人民解放军陆军工程大学 | 基于主成分分析的卷积神经网络特征提取方法 |
CN108989090A (zh) * | 2018-06-22 | 2018-12-11 | 北京理工大学 | 基于微分流形的网络状态模型构建方法和状态评估方法 |
CN110244557A (zh) * | 2019-04-30 | 2019-09-17 | 国网浙江省电力有限公司电力科学研究院 | 一种工业过程多阶惯性闭环系统的闭环建模方法 |
CN110265140A (zh) * | 2019-01-17 | 2019-09-20 | 中国医药大学附设医院 | 足畸形检测模型、足畸形检测系统及足畸形检测方法 |
CN110738248A (zh) * | 2019-09-30 | 2020-01-31 | 朔黄铁路发展有限责任公司 | 状态感知数据特征提取方法及装置、系统性能评估方法 |
CN110797080A (zh) * | 2019-10-18 | 2020-02-14 | 湖南大学 | 基于跨物种迁移学习预测合成致死基因 |
CN111564183A (zh) * | 2020-04-24 | 2020-08-21 | 西北工业大学 | 融合基因本体和神经网络的单细胞测序数据降维方法 |
CN113096828A (zh) * | 2021-04-19 | 2021-07-09 | 梅里医疗科技(洋浦)有限责任公司 | 基于癌症基因组大数据核心算法的诊断、预测以及大健康管理平台 |
CN113160889A (zh) * | 2021-01-28 | 2021-07-23 | 清华大学 | 一种基于cfDNA组学特性的癌症无创早筛方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101635027A (zh) * | 2009-09-03 | 2010-01-27 | 西安交通大学 | 一种基于En-ULLELDA的多视角车型识别方法 |
CN102184349A (zh) * | 2011-04-29 | 2011-09-14 | 河海大学 | 基于流形学习的基因表达数据的聚类系统及方法 |
CN102867191A (zh) * | 2012-09-04 | 2013-01-09 | 广东群兴玩具股份有限公司 | 一种基于流形子空间学习的降维方法 |
CN103077512A (zh) * | 2012-10-18 | 2013-05-01 | 北京工业大学 | 基于主成分析的数字图像的特征提取与匹配方法及装置 |
CN104700089A (zh) * | 2015-03-24 | 2015-06-10 | 江南大学 | 一种基于Gabor小波和SB2DLPP的人脸识别方法 |
CN105023023A (zh) * | 2015-07-15 | 2015-11-04 | 福州大学 | 一种用于计算机辅助诊断的乳腺b超图像特征自学习提取方法 |
US20170046616A1 (en) * | 2015-08-15 | 2017-02-16 | Salesforce.Com, Inc. | Three-dimensional (3d) convolution with 3d batch normalization |
CN106529588A (zh) * | 2016-11-02 | 2017-03-22 | 浙江工业大学 | 一种基于自适应密度聚类的非线性流行学习降维方法 |
-
2017
- 2017-05-19 CN CN201710355356.0A patent/CN107133496B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101635027A (zh) * | 2009-09-03 | 2010-01-27 | 西安交通大学 | 一种基于En-ULLELDA的多视角车型识别方法 |
CN102184349A (zh) * | 2011-04-29 | 2011-09-14 | 河海大学 | 基于流形学习的基因表达数据的聚类系统及方法 |
CN102867191A (zh) * | 2012-09-04 | 2013-01-09 | 广东群兴玩具股份有限公司 | 一种基于流形子空间学习的降维方法 |
CN103077512A (zh) * | 2012-10-18 | 2013-05-01 | 北京工业大学 | 基于主成分析的数字图像的特征提取与匹配方法及装置 |
CN104700089A (zh) * | 2015-03-24 | 2015-06-10 | 江南大学 | 一种基于Gabor小波和SB2DLPP的人脸识别方法 |
CN105023023A (zh) * | 2015-07-15 | 2015-11-04 | 福州大学 | 一种用于计算机辅助诊断的乳腺b超图像特征自学习提取方法 |
US20170046616A1 (en) * | 2015-08-15 | 2017-02-16 | Salesforce.Com, Inc. | Three-dimensional (3d) convolution with 3d batch normalization |
CN106529588A (zh) * | 2016-11-02 | 2017-03-22 | 浙江工业大学 | 一种基于自适应密度聚类的非线性流行学习降维方法 |
Non-Patent Citations (2)
Title |
---|
JACOB R.GARDNER ET AL: "Deep Manifold Traversal:Changing Labels with Convolutional Features", 《ARXIV:1511.06421V3》 * |
丁娇: "基于流形学习算法的植物叶片图像识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844795B (zh) * | 2017-11-18 | 2018-09-04 | 中国人民解放军陆军工程大学 | 基于主成分分析的卷积神经网络特征提取方法 |
CN107844795A (zh) * | 2017-11-18 | 2018-03-27 | 中国人民解放军陆军工程大学 | 基于主成分分析的卷积神经网络特征提取方法 |
CN108989090A (zh) * | 2018-06-22 | 2018-12-11 | 北京理工大学 | 基于微分流形的网络状态模型构建方法和状态评估方法 |
CN108989090B (zh) * | 2018-06-22 | 2020-11-20 | 北京理工大学 | 基于微分流形的网络状态模型构建方法和状态评估方法 |
CN110265140A (zh) * | 2019-01-17 | 2019-09-20 | 中国医药大学附设医院 | 足畸形检测模型、足畸形检测系统及足畸形检测方法 |
CN110244557B (zh) * | 2019-04-30 | 2022-03-15 | 国网浙江省电力有限公司电力科学研究院 | 一种工业过程多阶惯性闭环系统的闭环建模方法 |
CN110244557A (zh) * | 2019-04-30 | 2019-09-17 | 国网浙江省电力有限公司电力科学研究院 | 一种工业过程多阶惯性闭环系统的闭环建模方法 |
CN110738248A (zh) * | 2019-09-30 | 2020-01-31 | 朔黄铁路发展有限责任公司 | 状态感知数据特征提取方法及装置、系统性能评估方法 |
CN110738248B (zh) * | 2019-09-30 | 2022-09-27 | 朔黄铁路发展有限责任公司 | 状态感知数据特征提取方法及装置、系统性能评估方法 |
CN110797080A (zh) * | 2019-10-18 | 2020-02-14 | 湖南大学 | 基于跨物种迁移学习预测合成致死基因 |
CN111564183B (zh) * | 2020-04-24 | 2021-04-20 | 西北工业大学 | 融合基因本体和神经网络的单细胞测序数据降维方法 |
CN111564183A (zh) * | 2020-04-24 | 2020-08-21 | 西北工业大学 | 融合基因本体和神经网络的单细胞测序数据降维方法 |
CN113160889A (zh) * | 2021-01-28 | 2021-07-23 | 清华大学 | 一种基于cfDNA组学特性的癌症无创早筛方法 |
CN113096828A (zh) * | 2021-04-19 | 2021-07-09 | 梅里医疗科技(洋浦)有限责任公司 | 基于癌症基因组大数据核心算法的诊断、预测以及大健康管理平台 |
CN113096828B (zh) * | 2021-04-19 | 2022-06-10 | 西康软件有限责任公司 | 基于癌症基因组大数据核心算法的诊断、预测以及大健康管理平台 |
Also Published As
Publication number | Publication date |
---|---|
CN107133496B (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133496A (zh) | 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法 | |
CN111353463B (zh) | 基于随机深度残差网络的高光谱图像分类方法 | |
CN109949255A (zh) | 图像重建方法及设备 | |
CN106023065A (zh) | 一种基于深度卷积神经网络的张量型高光谱图像光谱-空间降维方法 | |
CN112465827A (zh) | 一种基于逐类卷积操作的轮廓感知多器官分割网络构建方法 | |
CN103593674B (zh) | 一种颈部淋巴结超声图像特征选择方法 | |
Li et al. | Classification of breast mass in two‐view mammograms via deep learning | |
CN106599051A (zh) | 一种基于生成图像标注库的图像自动标注的方法 | |
CN105260738A (zh) | 基于主动学习的高分辨率遥感影像变化检测方法及系统 | |
CN109192298A (zh) | 基于脑网络的深度脑疾病诊断算法 | |
CN109977955A (zh) | 一种基于深度学习的宫颈癌前病变识别的方法 | |
CN116051574A (zh) | 一种半监督分割模型构建与图像分析方法、设备及系统 | |
CN101625755A (zh) | 基于分水岭-量子进化聚类算法的图像分割方法 | |
JP7492640B1 (ja) | 脳ネットワークデータ特徴抽出方法および装置 | |
Qu et al. | A VGG attention vision transformer network for benign and malignant classification of breast ultrasound images | |
CN109492796A (zh) | 一种城市空间形态自动分区方法与系统 | |
CN106570183A (zh) | 一种彩色图像检索和分类方法 | |
CN106157330A (zh) | 一种基于目标联合外观模型的视觉跟踪方法 | |
CN115985503B (zh) | 基于集成学习的癌症预测系统 | |
CN115100467A (zh) | 一种基于核注意力网络的病理全切片图像分类方法 | |
CN110349170A (zh) | 一种全连接crf级联fcn和k均值脑肿瘤分割算法 | |
CN111524140B (zh) | 基于cnn和随机森林法的医学图像语义分割方法 | |
CN109978074A (zh) | 基于深度多任务学习的图像美感和情感联合分类方法及系统 | |
CN105512670A (zh) | 基于keca特征降维和聚类的hrct周围神经分割 | |
Wang et al. | CWC-transformer: a visual transformer approach for compressed whole slide image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |