CN107220525B - 基于rnn的基因调控网络构建与动态差异性分析方法 - Google Patents
基于rnn的基因调控网络构建与动态差异性分析方法 Download PDFInfo
- Publication number
- CN107220525B CN107220525B CN201710355357.5A CN201710355357A CN107220525B CN 107220525 B CN107220525 B CN 107220525B CN 201710355357 A CN201710355357 A CN 201710355357A CN 107220525 B CN107220525 B CN 107220525B
- Authority
- CN
- China
- Prior art keywords
- gene
- network
- node
- dynamic
- regulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 163
- 230000033228 biological regulation Effects 0.000 title claims abstract description 71
- 238000004458 analytical method Methods 0.000 title claims abstract description 46
- 238000010276 construction Methods 0.000 title claims abstract description 19
- 230000008859 change Effects 0.000 claims abstract description 14
- 230000014509 gene expression Effects 0.000 claims description 58
- 230000006870 function Effects 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 37
- 230000001105 regulatory effect Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 21
- 206010028980 Neoplasm Diseases 0.000 claims description 19
- 201000011510 cancer Diseases 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 8
- 108700005075 Regulator Genes Proteins 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 5
- 238000012933 kinetic analysis Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000002411 adverse Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 3
- 230000003851 biochemical process Effects 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 230000003828 downregulation Effects 0.000 claims description 3
- 230000001819 effect on gene Effects 0.000 claims description 3
- 238000010201 enrichment analysis Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 230000036961 partial effect Effects 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 230000003827 upregulation Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 108700019961 Neoplasm Genes Proteins 0.000 description 3
- 102000048850 Neoplasm Genes Human genes 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001000171 Chira Species 0.000 description 1
- 101000883798 Homo sapiens Probable ATP-dependent RNA helicase DDX53 Proteins 0.000 description 1
- 102100038236 Probable ATP-dependent RNA helicase DDX53 Human genes 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008236 biological pathway Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000004186 co-expression Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011223 gene expression profiling Methods 0.000 description 1
- 238000011337 individualized treatment Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003446 memory effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000000455 protein structure prediction Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000000107 tumor biomarker Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于RNN的基因调控网络构建与动态差异性分析方法,包括以下步骤:第一步、基于deepRNN的基因动态调控网络构建;第二步、基于亚型内动态调控网络的时序变化演化分析;第三步、基于亚型间动态调控网络的网络差异演化分析,不同亚型网络的演化分析包括动力学分析、差异性分析和扰动分析。本发明提供一种精确性较好的基于RNN的基因调控网络构建与动态差异性分析方法。
Description
技术领域
本发明涉及一种基于RNN的基因调控网络构建与动态差异性分析方法。
背景技术
基因调控网络的建模与演化分析能够很好的挖掘基因表达数据中的深层信息,是当前生物信息学研究的重要领域和关键问题。二十世纪90年代以来,随着基因芯片技术的发展和二代测序技术的兴起,基因调控网络建模的研究取得了巨大进展。
基因调控网络建模主要根据基因表达数据推理网络中的调控关系,并表示为拓扑结构,属于依靠数据挖掘进行的逆向工程研究。构建基因调控网络首先需要确定网络模型,然后根据模型选择合适的建模算法。经典的网络模型包括布尔网络、关联网络、微分方程、贝叶斯网络。
(a)布尔网络。布尔网络对基因状态做了相应简化,用布尔函数代替了微分和导数描述基因间的相互关系。该模型的缺点在于不精确性,仅仅通过使用固定的逻辑规则刻画和反映基因间相互作用,并不能准确描述真实的基因调控网络拓扑结构,而且对基因数据进行离散化时不可避免的会造成很多重要的表达信息丢失。Kauffman等人最先提出了布尔网络的分析框架模型,随后Akusu等人对布尔网络在推理过程中的最少样本数进行证明。Liang等人设计了REVEAL算法,在原有的离散化模型上尽可能少的减少信息损失。此外,Lyla等人提出了一种新的概率布尔网络(PBN),这是对传统布尔网络的拓展,同时量化基因间作用关系和灵敏度从而解决模型选择过程中的不确定性,提高了模型的精确性。
(b)关联网络。关联网络的建模主要通过基因表达数据间的关联度实现。通常使用互信息、皮尔森相关系数等测度计算基因间的相似度,若基因对间的相似度高于某一阈值,则该基因对在网络中直接连通。Butte等人首先利用互信息计算所有基因对之间的关联度,然后设置互信息阈值。后来发现,若基因对间具有相同或相近的调控机制,则两个基因的关联度较高,尤其是同一转录因子的靶基因或同一条生物通路上的基因。Margolin等人提出ARCANE方法,通过信息论构建关联网络,该方法的优点是模型的建立简单易操作,但是构建的网络存在很多假阳性的边。为降低所构建网络结构的假阳性率,得到接近真实拓扑的调控网络,一般在计算基因对间的关联度时隔绝其它基因的影响。
(c)贝叶斯网络。贝叶斯网络(BN)通过局部概率的乘积来近似描述整体网络结构的复杂概率分布,属于概率图模型,将节点之间的连边表示为节点间存在的概率依赖关系。动态贝叶斯网络(DBN)是对静态贝叶斯网络模型的扩展,通过引入时间因素形成动态变化网络,更加真实地表示随机系统的动态性。基因调控网络本质上是一个复杂而连续的动态网络系统,所以在具体建模的时候,往往对DBN进行简化从而降低计算复杂度。DBN克服了静态BN有向无环的不足,更好地刻画了基因调控网络的动态特性,提高了模型的预测精度。Norbert为了能够从基因扰动型实验数据中学习动态贝叶斯网络,利用离散化方法来对基因表达数据进行预处理,结合基因调控的负反馈与时延因素提出新的数据整合模型,利用并行算法加速构建基因调控网络。
随着2006年Hinton教授在《科学》上的一篇文章,深度学习拉开帷幕,并在各个领域表现不俗。同时,学术界和行业都强调了深度学习的洞察力在生物信息学中的应用,例如基于深度学习的蛋白质结构预测、基因调控码学习、基因表达预测、癌症分类预测、复杂疾病分类、多平台癌症数据综合分析等。
Guillen等人设计基于多层感知器的深度学习算法捕获基因表达特征进行癌症分类,表明了神经网络可以高效率地对不同的样本进行分类,在最后的预测结果中实现了较高精度。Bhat等人通过深度生成学习检测癌症,使用对抗性特征学习过程挖掘数据特征,然后使用常规分类器进行分类。最终试验通过指定适当的超参数,在两个不同数据集上执行得相当好。Danaee等人使用堆叠去噪自动编码器(SDAE)从高维基因表达谱中提取深度功能特征,通过分析SDAE连接矩阵确定了一组高度互动的基因用于癌症生物标志物检测。Chira等人使用基因表达值随时间推移的模式开发基于形状的聚类模型,并且进一步结合基因表达水平与输出值之间的相关关系,考虑共同表达模式与测量输出的关系,以指导结果的生物学解释。Singh等人提供层叠特征选择与堆叠稀疏自动编码器(SSAE)从数据中学习高级特征,每层执行特征选择是一种启发式的,可以在每个阶段获得相关特征,并且在调整过程中减少计算量,该算法在GEMLeR数据库的36个数据集上进行了测试,其中35个数据集的效果超越了GEMLeR基准测试结果。Liang等人提出了一种多峰深度信念网络(DBN)的新学习模型,从多平台观测数据对癌症患者进行聚类,并为个性化癌症治疗提供了有效指导。同时应用对比度发散(CD)学习算法,以无监督的方式推断多模态DBN模型参数。Xie等人基于多层感知器和堆叠去噪自动编码器(MLP-SAE)的深度学习回归模型预测变异基因型的基因表达,其中堆叠去噪自动编码器用于训练回归模型以提取有效特征,并利用多层感知器进行反向传播,同时通过添加dropout防止过拟合。Chen等人设计了一种深度学习方法(D-GEX),充分捕捉基因表达间的非线性相关关系,利用大约1000个标记基因推断剩余的靶基因表达,旨在降低基因表达谱测定成本。
发明内容
为了克服已有基因调控网络建模及差异性分析方法的精确性较差的不足,本发明提供一种精确性较好的基于RNN的基因调控网络构建与动态差异性分析方法。
本发明解决其技术问题所采用的技术方案是:
一种基于RNN的基因调控网络构建与动态差异性分析方法,包括以下步骤:
第一步、基于deepRNN的基因动态调控网络构建
基因表达数据表示为其中表示第j个样本的第i个基因在tk时刻的表达量,在t0时刻输入的样本基因表达数据矩阵表示为输入序列表示为X={Vi|i∈[1,n]};输出的调控权值矩阵包括了节点度值、连边权重及调控方向,输出矩阵W={ωij|i∈[1,n],j∈[1,n],s=sa,t=tk}实质是一个上三角矩阵,包含样本sa的信息基因在tk时刻的调控关系,在某一时刻的前后短时间段内,在基因A的表达作用于基因B时不受基因B的反作用;若|ωij|<threshold则表示该基因对之间无连边;否则当ωij>0表示基因i对基因j上调,当ωij<0表示下调;若i=j则表示基因的自调控;
第二步、基于亚型内动态调控网络的时序变化演化分析
定义C1亚型在t0时刻的有向加权图拓扑结构表示为即将信息基因抽象成节点集合V,将基因间的关系或作用描绘成边集合E,其中表示基因i以权重ωij对基因j的作用,为+(上调)或者-(下调);使用真阳率、假阳率、阳性预测率、准确率对调控网络的性能进行定量评价;
第三步、基于亚型间动态调控网络的网络差异演化分析
不同亚型网络的演化分析包括动力学分析、差异性分析和扰动分析,
所述动力学分析使用差分方程对离散的网络动力学行为进行分析,对于不同亚型的动态调控网络,分析同一时间段关联基因对的节点度值、连边权重、表达变化量相对比率;通过提取不同亚型网络的关联特征,并以此为基础构建多网络协同演化模型;
所述差异性分析对相同时间窗口内不同亚型间的两个基因调控网络作基于节点局部结构特征的减法运算,检测网络结构间存在的差异边,根据差异网络鉴别关键枢纽基因,然后利用GO信息和KEGG通路功能富集性分析检验所发现基因集的显著性,得到癌症亚型相关控制基因作为进一步生物实验的检验标记;
所述扰动控制分析中,关键枢纽基因节点在细胞生化过程中具有以下特征:同功能中心,即该节点附近的基因属于某类功能的基因集;同驱动中心,即受到该节点表达调控的同距离区间内的基因具有类似的生化功能,对于关键枢纽节点的调控输入一个随机扰动ΥPer,对不同网络在同距离区间内的同功能基因集取交集,得到亚型网络间的动态调控差异节点。
进一步,所述第一步中,基于deepRNN的基因动态调控网络构建包括以下步骤:
1.1 预处理,首先,提取亚型网络之间的信息基因,然后,将同一亚型内部的样本按照百分比随机分为训练集80%,验证集10%,测试集10%,进一步,将同一样本的基因表达按照时间序列展开作为输入向量:
1.2 激活函数与损失函数,采用ReLU非饱和激活函数,值域为[0,+∞),公式如下:
deepRNN由一个输入层、一个或多个循环体隐藏层和一个输出层组成,所有隐藏的层都有相同数量的隐藏单元,将上一时刻的状态与当前时刻的输入拼接成一个大的向量作为循环体中神经网络的输入,得到第l层的第j个单元的信号输出为:
1.3 dropout方法,在训练过程中,对于每个训练样本的隐藏单元及其边缘将会以概率为p被暂时丢弃;因此前向传播和后向传播将在一个特别“薄”的稀疏网络上进行;对于deepRNN,只在同一时刻的不同层循环体之间使用dropout,即仅在同一时刻t中,从h1到hlast的不同层循环体之间使用dropout;将在区间[0%,25%]之间比较不同程度的正则化效果,寻找最优dropout比率;
1.4 加速梯度优化和权重初始化,拟采用动量法进行加速优化,即通过在迭代过程中累积损失函数的梯度方向来代替梯度进行参数更新,对于神经网络参数Θ的损失函数L(·),动量计算公式如下:
其中,μ∈[0,1]是动量系数,η是学习率;
隐藏层单位的权重使用均匀分布进行采样,定义如下:
其中ni,no分别表示隐藏单元的扇入扇出个数;
1.5 输出,在循环体中的神经网络供给当前时刻的输出后,将会使用另外一个全连接神经网络实现将当前时刻的状态转化为最终的输出。
再进一步,所述第二步中,网络的拓扑属性是描述网络本身及其内部节点或边结构特征的测度,包括:
聚类系数,体现部分节点间存在的密集连接性质,在有向网络中,标准化的聚类系数被定义为:
其中kout表示节点v的出度,n表示所有v所指向的节点彼此存在的边数,
介数表明一个节点在其他节点彼此连接中所起的作用,标准化至[0,1]区间的计算公式如下:
其中σij是节点i到节点j的最短路径条数,σivj表示σij中通过节点v的路径条数;
紧密度是描述一个节点到网络中其他所有节点平均距离的指标,定量衡量节点接近网络“中心”的程度,节点v的紧密度Cv计算公式如下:
其中dvj表示节点v到节点j的最短距离(路径中所经过边的权重之和最小)。紧密度越小,节点越接近中心。
基于网络结构的拓扑属性变化在时间序列上对时间窗口Δt进行微分展开,得到动态调控网络的时空演化测度Γ'(·)的计算公式如下:
其中Θ表示函数参数,ωCC、ωB、ωC分别为对应指标的影响权重;
通过分析动态网络在不同时刻的节点指标(CCv、Bv、Cv),挖掘在不同时间窗口内的关键调控基因节点,解释其在生命活动过程中扮演的重要性。
所述第三步中,所述动力学分析过程中,动力差异计算公式如下:
所述第三步中,所述差异性分析过程中,检测网络结构间存在的差异边的计算公式如下:
所述第三步中,所述扰动控制分析中,得到亚型网络间的动态调控差异节点,表达式为:
本发明的技术构思为:分析同一癌症亚型和不同癌症亚型的基因调控差异,针对表达数据中癌症基因间的高度非线性相关性,基于深层循环神经网络(deep recurrentneural network,deepRNN)对不同癌症亚型在用药后的连续时序变化下的基因表达数据构建调控网络,分析亚型间的表达差异性。
在基因表达数据的癌症关联基因特征提取后,完成癌症亚型的聚类分析,针对不同的亚型聚类结果分别构建对应的基因调控网络分析其差异性。本项目提出基于深层循环神经网络(deepRNN)的基因调控网络建模方法,利用深层循环神经网络的时序处理特性,预测基因动态调控网络的节点度值与连边权重。其次,纵向分析不同时间窗口中相同亚型调控网络的节点与连边变化,挖掘相关基因在癌症演化过程中的调控功能,以及对病症发展的后续阶段进行预测。最终,横向分析不同亚型间的调控网络差异,并对时间序列下的协同演化过程中的差异变化进行生物学意义上的解释,为个性化临床治疗方案提供科学合理的指导。
本发明的有益效果主要表现在:精确性较好。
附图说明
图1是基因表达动态时序网络及差异性演化分析示意图。
图2是基于deepRNN的基因调控时序网络构建框图。
图3是亚型内部时序展开动态调控网络构建示意图。
图4是不同亚型间的基因调控网络渐变演化示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种基于RNN的基因调控网络构建与动态差异性分析方法,分析同一癌症亚型和不同癌症亚型的基因调控差异,针对表达数据中癌症基因间的高度非线性相关性,基于深层循环神经网络(deep recurrent neural network,deepRNN)对不同癌症亚型在用药后的连续时序变化下的基因表达数据构建调控网络,分析亚型间的表达差异性;
如图1所示,首先,在t0时刻的癌症样本被聚类为C1、C2、C3三种亚型,其余三个黑点表示奇异样本。对于C1类簇,基于deepRNN的调控网络构建如蓝色虚线框中的t0时刻网络,显示根据A-H的8个信息基因构建调控网络,并通过真阳率、假阳率、阳性预测率、准确率对网络性能进行定量评价;然后,在后续的数据流输入后,网络的节点度值、连边权重值及节点位置发生迁移,得到了诸如t1、t2…tl的动态演化调控网络,从而设计基于多层次动力系统模型的分析方法揭示基因间调控过程中的逻辑关系;最后,进行不同亚型在网络间的横向分析,对于不同亚型间的两个基因调控网络作基于节点局部结构特征的减法运算,检测网络结构间存在的差异边,得到差异网络进而鉴别关键枢纽基因,同时利用GO信息和KEGG通路功能富集性分析检验所发现基因集的显著性,最终识别出癌症亚型相关控制基因作为进一步生物实验的检验标记。
为了验证本项目提出的算法在处理真实癌症基因表达数据的实时性、有效性和可靠性,并且获得算法的优化参数,本项目将先对常用基因表达数据库(如GEO、TCGA、SMD、GXD、GENT等)中的癌症表达标准数据进行有针对性的分类与分析,验证算法性能。
所述基因调控网络构建与动态差异性分析方法包括以下步骤:
第一步、基于deepRNN的基因动态调控网络构建
基因的表达具有时空性,是基因与外界环境相互作用的结果,会根据当前的表达状况决定未来的表达,所以适合利用deepRNN的历史记忆效应,学习训练隐藏层参数,最终以矩阵形式输出调控网络权值。如图2所示为按时序展开的循环神经网络的构建及调控权重的训练过程。
基因表达数据表示为其中表示第j个样本的第i个基因在tk时刻的表达量。如上图所示,在t0时刻输入的样本基因表达数据矩阵表示为输入序列表示为X={Vi|i∈[1,n]};输出的调控权值矩阵包括了节点度值、连边权重及调控方向,输出矩阵W={ωij|i∈[1,n],j∈[1,n],s=sa,t=tk}实质是一个上三角矩阵,包含样本sa的信息基因在tk时刻的调控关系,当然是基于以下前提:即在某一时刻的前后短时间段内,在基因A的表达作用于基因B时不受基因B的反作用。若|ωij|<threshold则表示该基因对之间无连边;否则当ωij>0表示基因i对基因j上调,当ωij<0表示下调;若i=j则表示基因的自调控。下面介绍如何利用deepRNN对基因表达数据进行基因动态调控网络的构建:
1.1 预处理。首先,提取亚型网络之间的信息基因,一方面是因为样本的过长输入时间序列间隔会导致优化时的“梯度弥散”问题;另一方面也是因为在某一调控过程中的无关基因相当于噪声,使用强有力的控制基因能够更好的挖掘调控关系。然后,将同一亚型内部的样本按照百分比随机分为训练集80%,验证集10%,测试集10%。进一步,将同一样本的基因表达按照时间序列展开作为输入向量:表示第cx类亚型中具有mcx个样本,提取其中的ninf个信息基因,按照不同时刻k的展开。
1.2 激活函数与损失函数。激活函数作为非线性处理单元(如Sigmoid、tanh函数),实现的功能是将来自前一层的输入线性组合结果动态范围压缩到特定值域。为了缓解深度神经网络的“梯度弥散”问题,加快训练收敛速度,拟采用ReLU这类非饱和激活函数(值域为[0,+∞)),公式如下:
deepRNN由一个输入层、一个或多个循环体隐藏层和一个输出层组成。所有隐藏的层都有相同数量的隐藏单元,将上一时刻的状态与当前时刻的输入拼接成一个大的向量作为循环体中神经网络的输入,得到第l层的第j个单元的信号输出为:
其中H是隐藏单元个数,表示与第j个隐藏单元uj相连接的需要被训练的权重和偏差。为了处理长期依赖问题,隐藏层单元使用三门结构(输入门、遗忘门、输出门)的长短时记忆单元(Long Short Term Memory,LSTM)单元,当误差从输出层反向传播回来时,可以使用LSTM的记忆元保存信息。在训练时,将每个输出单元的均方误差作为损失函数,即:
1.3 dropout方法。dropout是对神经网络进行模型平均和正则化的技术。在训练过程中,对于每个训练样本的隐藏单元及其边缘将会以概率为p被暂时丢弃。因此前向传播和后向传播将在一个特别“薄”的稀疏网络上进行。对于deepRNN,一般只在同一时刻的不同层循环体之间使用dropout,即仅在同一时刻t中,从h1到hlast的不同层循环体之间使用dropout,这样能够使得网络更加健壮。参考相关文献,将在区间[0%,25%]之间比较不同程度的正则化效果,寻找最优dropout比率。
1.4加速梯度优化和权重初始化。拟采用动量法进行加速优化,即通过在迭代过程中累积损失函数的梯度方向来代替梯度进行参数更新。对于神经网络参数Θ的损失函数L(·),动量计算公式如下:
其中,μ∈[0,1]是动量系数,η是学习率,在训练过程中随着错误率变化而不断减小,使用动量法在训练深度神经网络时能够提高收敛速度。深度网络的权重使用归一法进行初始化,旨在稳定训练过程中的激活和反向传播梯度的差异。隐藏层单位的权重使用均匀分布进行采样,定义如下:
其中ni,no分别表示隐藏单元的扇入扇出个数。
1.5 输出。在循环体中的神经网络供给当前时刻的输出后,将会使用另外一个全连接神经网络实现将当前时刻的状态转化为最终的输出。
第二步、基于亚型内动态调控网络的时序变化演化分析
通过基因表达数据构建动态基因调控网络来体现真实的动态调控过程能够更精准地反映调控机理,理解基因之间的相互作用机制。如图3所示为某一亚型样本内部的信息基因以时间序列展开后的动态调控网络构建示意图。
定义C1亚型在t0时刻的有向加权图拓扑结构表示为即将信息基因抽象成节点集合V,将基因间的关系或作用描绘成边集合E,其中表示基因i以权重ωij对基因j的作用,:可以为+(上调)或者-(下调)。可以使用真阳率、假阳率、阳性预测率、准确率对调控网络的性能进行定量评价。
网络的拓扑属性是描述网络本身及其内部节点或边结构特征的测度。主要包括以下几项:
聚类系数。聚类系数体现了部分节点间存在的密集连接性质,在有向网络中,标准化的聚类系数被定义为:
其中kout表示节点v的出度,n表示所有v所指向的节点彼此存在的边数。
介数。介数表明了一个节点在其他节点彼此连接中所起的作用,标准化至[0,1]区间的计算公式如下:
其中σij是节点i到节点j的最短路径条数,σivj表示σij中通过节点v的路径条数。介数越高,意味着节点在保持网络连接紧密性中越重要。
紧密度。紧密度是描述一个节点到网络中其他所有节点平均距离的指标,可以定量衡量节点接近网络“中心”的程度。节点v的紧密度Cv计算公式如下:
其中dvj表示节点v到节点j的最短距离(路径中所经过边的权重之和最小)。紧密度越小,节点越接近中心。
为了描述调控网络的动力学性质,基于网络结构的拓扑属性变化在时间序列上对时间窗口Δt进行微分展开,得到动态调控网络的时空演化测度Γ'(·)的计算公式如下:
其中Θ表示函数参数,ωCC、ωB、ωC分别为对应指标的影响权重。
通过分析动态网络在不同时刻的节点指标(CCv、Bv、Cv),挖掘在不同时间窗口内的关键调控基因节点,解释其在生命活动过程中扮演的重要性。
第三步、基于亚型间动态调控网络的网络差异演化分析
亚型间的网络分析是为了充分挖掘历史表达数据的时空特性、调控的变化规律、以及调控网络中节点和连边的迁移演化,从而提高网络建模算法的准确度和可靠性,并对基因表达表达变化和网络动态演化进行预测。如图4所示为不同亚型间的基因调控网络渐变演化示意图,其中差异网络是由不同亚型间的两个基因调控网络作基于节点局部结构特征的减法运算得到的。
不同亚型网络的演化分析包括动力学分析、差异性分析和扰动分析。
动力学分析。由于基因表达数据采样的时间间隔较长,使用差分方程对离散的网络动力学行为进行分析。对于不同亚型的动态调控网络,分析同一时间段关联基因对的节点度值、连边权重、表达变化量相对比率,动力差异计算公式如下:
其中Θ表示节点度值、连边权重、表达变化量相对比率三项指标,表示Cx类亚型样本sx在时间窗口ta内的对应指标值,ωΘ表示对应于Θ的权重,ζ表示网络间的全局耦合强度。通过提取不同亚型网络的关联特征,并以此为基础构建多网络协同演化模型,该模型将为后续网络差异的演化分析及精准亚型个体化治疗提供理论基础和实践依据。
差异性分析。对相同时间窗口内不同亚型间的两个基因调控网络作基于节点局部结构特征的减法运算,检测网络结构间存在的差异边,计算公式如下:
其中表示Cx类亚型的样本sx在ta时间窗口内的基因i对基因j的调控权重。根据差异网络鉴别关键枢纽基因,然后利用GO信息和KEGG通路功能富集性分析检验所发现基因集的显著性,得到癌症亚型相关控制基因作为进一步生物实验的检验标记。
扰动控制分析。关键枢纽基因节点在细胞生化过程中具有以下特征:同功能中心,即该节点附近的基因属于某类功能的基因集;同驱动中心,即受到该节点表达调控的同距离区间内的基因具有类似的生化功能。对于关键枢纽节点的调控输入一个随机扰动ΥPer,对不同网络在同距离区间内的同功能基因集取交集,得到亚型网络间的动态调控差异节点。具体表达式为:
Claims (4)
1.一种基于RNN的基因调控网络构建与动态差异性分析方法,其特征在于:包括以下步骤:
第一步、基于deepRNN的基因动态调控网络构建
基因表达数据表示为其中表示第j个样本的第i个基因在tk时刻的表达量,在t0时刻输入的样本基因表达数据矩阵表示为输入序列表示为X={Vi|i∈[1,n]};输出的调控权值矩阵包括了节点度值、连边权重及调控方向,输出矩阵W={ωij|i∈[1,n],j∈[1,n],s=sa,t=tk}实质是一个上三角矩阵,包含样本sa的信息基因在tk时刻的调控关系,在某一时刻的前后短时间段内,在基因A的表达作用于基因B时不受基因B的反作用;若|ωij|<threshold则表示该基因对之间无连边;否则当ωij>0表示基因i对基因j上调,当ωij<0表示下调;若i=j则表示基因的自调控;
第二步、基于亚型内动态调控网络的时序变化演化分析
定义C1亚型在t0时刻的有向加权图拓扑结构表示为即将信息基因抽象成节点集合V,将基因间的关系或作用描绘成边集合E,表示基因i以权重ωij对基因j的作用,为+上调或者-下调;使用真阳率、假阳率、阳性预测率、准确率对调控网络的性能进行定量评价;
第三步、基于亚型间动态调控网络的网络差异演化分析
不同亚型网络的演化分析包括动力学分析、差异性分析和扰动分析,
所述动力学分析使用差分方程对离散的网络动力学行为进行分析,对于不同亚型的动态调控网络,分析同一时间段关联基因对的节点度值、连边权重、表达变化量相对比率;通过提取不同亚型网络的关联特征,并以此为基础构建多网络协同演化模型;
所述差异性分析对相同时间窗口内不同亚型间的两个基因调控网络作基于节点局部结构特征的减法运算,检测网络结构间存在的差异边,根据差异网络鉴别关键枢纽基因,然后利用GO信息和KEGG通路功能富集性分析检验所发现基因集的显著性,得到癌症亚型相关控制基因作为进一步生物实验的检验标记;
所述扰动控制分析中,关键枢纽基因节点在细胞生化过程中具有以下特征:同功能中心,即该节点附近的基因属于某类功能的基因集;同驱动中心,即受到该节点表达调控的同距离区间内的基因具有类似的生化功能,对于关键枢纽节点的调控输入一个随机扰动ΥPer,对不同网络在同距离区间内的同功能基因集取交集,得到亚型网络间的动态调控差异节点;
所述第一步中,基于deepRNN的基因动态调控网络构建包括以下步骤:
1.1预处理,首先,提取亚型网络之间的信息基因,然后,将同一亚型内部的样本按照百分比随机分为训练集80%,验证集10%,测试集10%,进一步,将同一样本的基因表达按照时间序列展开作为输入向量:表示第cx类亚型中具有mcx个样本,提取其中的ninf个信息基因,按照不同时刻k的展开;
1.2激活函数与损失函数,采用ReLU非饱和激活函数,值域为[0,+∞),公式如下:
deepRNN由一个输入层、一个或多个循环体隐藏层和一个输出层组成,所有隐藏的层都有相同数量的隐藏单元,将上一时刻的状态与当前时刻的输入拼接成一个大的向量作为循环体中神经网络的输入,得到第l层的第j个单元的信号输出为:
1.3 dropout方法,在训练过程中,对于每个训练样本的隐藏单元及其边缘将会以概率为p被暂时丢弃;因此前向传播和后向传播将在一个特别“薄”的稀疏网络上进行;对于deepRNN,只在同一时刻的不同层循环体之间使用dropout,即仅在同一时刻t中,从h1到hlast的不同层循环体之间使用dropout;将在区间[0%,25%]之间比较不同程度的正则化效果,寻找最优dropout比率;
1.4加速梯度优化和权重初始化,拟采用动量法进行加速优化,即通过在迭代过程中累积损失函数的梯度方向来代替梯度进行参数更新,对于神经网络参数Θ的损失函数L(·),动量计算公式如下:
其中,μ∈[0,1]是动量系数,η是学习率;
隐藏层单位的权重使用均匀分布进行采样,定义如下:
其中ni,no分别表示隐藏单元的扇入扇出个数;
1.5输出,在循环体中的神经网络供给当前时刻的输出后,将会使用另外一个全连接神经网络实现将当前时刻的状态转化为最终的输出;
所述第二步中,网络的拓扑属性是描述网络本身及其内部节点或边结构特征的测度,包括:
聚类系数,体现部分节点间存在的密集连接性质,在有向网络中,标准化的聚类系数被定义为:
其中kout表示节点v的出度,n表示所有v所指向的节点彼此存在的边数,
介数表明一个节点在其他节点彼此连接中所起的作用,标准化至[0,1]区间的计算公式如下:
其中σij是节点i到节点j的最短路径条数,σivj表示σij中通过节点v的路径条数;
紧密度是描述一个节点到网络中其他所有节点平均距离的指标,定量衡量节点接近网络“中心”的程度,节点v的紧密度Cv计算公式如下:
其中dvj表示节点v到节点j的最短距离,即路径中所经过边的权重之和最小;紧密度越小,节点越接近中心;
基于网络结构的拓扑属性变化在时间序列上对时间窗口Δt进行微分展开,得到动态调控网络的时空演化测度Γ'(·)的计算公式如下:
其中Θ表示函数参数,ωCC、ωB、ωC分别为对应指标的影响权重;
通过分析动态网络在不同时刻的节点指标CCv、Bv、Cv,挖掘在不同时间窗口内的关键调控基因节点,解释其在生命活动过程中扮演的重要性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710355357.5A CN107220525B (zh) | 2017-05-19 | 2017-05-19 | 基于rnn的基因调控网络构建与动态差异性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710355357.5A CN107220525B (zh) | 2017-05-19 | 2017-05-19 | 基于rnn的基因调控网络构建与动态差异性分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107220525A CN107220525A (zh) | 2017-09-29 |
CN107220525B true CN107220525B (zh) | 2021-06-18 |
Family
ID=59944302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710355357.5A Active CN107220525B (zh) | 2017-05-19 | 2017-05-19 | 基于rnn的基因调控网络构建与动态差异性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107220525B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992945B (zh) * | 2017-12-14 | 2020-03-24 | 浙江工业大学 | 基于深度学习和进化计算的特征基因选择方法 |
CN108549832B (zh) * | 2018-01-21 | 2021-11-30 | 西安电子科技大学 | 基于全连接神经网络的低截获雷达信号分类方法 |
CN108090326A (zh) * | 2018-02-09 | 2018-05-29 | 国家卫生计生委科学技术研究所 | 单细胞网络调控关系的构建方法 |
CN108846261B (zh) * | 2018-04-26 | 2020-05-29 | 浙江工业大学 | 基于可视图算法的基因表达时序数据分类方法 |
CN109243523B (zh) * | 2018-08-24 | 2021-06-11 | 东北大学 | 一种基于乳腺癌疾病的调控网络构建及分析方法 |
CN109215735A (zh) * | 2018-09-21 | 2019-01-15 | 西南民族大学 | 一种构建基因调控网络的方法 |
CN109360607B (zh) * | 2018-10-16 | 2021-05-04 | 武汉大学 | 一种动态基因调控网的网络演化分析方法及装置 |
CN110309528A (zh) * | 2019-04-15 | 2019-10-08 | 南京航空航天大学 | 一种基于机器学习的雷达方案设计方法 |
CN110322930B (zh) * | 2019-06-06 | 2021-12-03 | 大连理工大学 | 基于水平关系的代谢组学网络标志物识别方法 |
CN110310707A (zh) * | 2019-07-08 | 2019-10-08 | 西北工业大学 | 基于时序数据的表型本体构建方法 |
CN110941928B (zh) * | 2019-11-26 | 2022-05-24 | 哈尔滨理工大学 | 一种基于dropout-SAE和Bi-LSTM的滚动轴承剩余寿命预测方法 |
CN111192631B (zh) * | 2020-01-02 | 2023-07-21 | 中国科学院计算技术研究所 | 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统 |
CN111508555A (zh) * | 2020-04-15 | 2020-08-07 | 淮南师范学院 | 一组用于度量生物分子集的网络拓扑学特性的方法 |
CN111816246B (zh) * | 2020-05-27 | 2023-01-10 | 上海大学 | 从差异网络中识别驱动基因的方法 |
CN112037850B (zh) * | 2020-09-04 | 2021-08-27 | 中国科学院重庆绿色智能技术研究院 | 基于动量加速的缺失蛋白质间相互作用预测装置和方法 |
CN113032776B (zh) * | 2021-02-08 | 2022-08-05 | 浙江工业大学 | 面向特征嵌入中毒攻击的检测方法、装置和系统 |
CN112885404B (zh) * | 2021-03-29 | 2023-11-21 | 哈尔滨理工大学 | 一种多层布尔网络的模型辨识方法及系统 |
EP4202941A1 (en) * | 2021-12-21 | 2023-06-28 | Dassault Systèmes | Inferrence of a gene expression profile |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093119A (zh) * | 2013-01-24 | 2013-05-08 | 南京大学 | 一种利用网络结构信息识别显著生物通路的方法 |
-
2017
- 2017-05-19 CN CN201710355357.5A patent/CN107220525B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093119A (zh) * | 2013-01-24 | 2013-05-08 | 南京大学 | 一种利用网络结构信息识别显著生物通路的方法 |
Non-Patent Citations (3)
Title |
---|
基于ReLU激活函数的轧制力神经网络预报模型;刘杰辉等;《锻压技术》;20161030;第41卷(第10期);第162-165页 * |
基因调控网络构建及在癌症基因预测中的应用;杨博;《中国博士学位论文全文数据库基础科学辑》;20121015(第10期);第65、69页 * |
基因调控网络的随机动力学分析;张文兵;《中国博士学位论文全文数据库基础科学辑》;20121015(第10期);第8-9、17页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107220525A (zh) | 2017-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220525B (zh) | 基于rnn的基因调控网络构建与动态差异性分析方法 | |
Lobo et al. | Evolving spiking neural networks for online learning over drifting data streams | |
Wu et al. | Beyond sparsity: Tree regularization of deep models for interpretability | |
Cheraghi et al. | Application of machine learning techniques for selecting the most suitable enhanced oil recovery method; challenges and opportunities | |
Ajagekar et al. | Quantum computing assisted deep learning for fault detection and diagnosis in industrial process systems | |
Luo et al. | Using spotted hyena optimizer for training feedforward neural networks | |
CN110021341A (zh) | 一种基于异构网络的gpcr药物和靶向通路的预测方法 | |
Nayak et al. | A comprehensive review and performance analysis of firefly algorithm for artificial neural networks | |
Zhou et al. | Deep collaborative multi-task network: A human decision process inspired model for hierarchical image classification | |
Alhroob et al. | Adaptive fuzzy map approach for accruing velocity of big data relies on fireflies algorithm for decentralized decision making | |
Huang et al. | Prediction of mean and RMS wind pressure coefficients for low-rise buildings using deep neural networks | |
CN115130651A (zh) | 一种记忆环路多层异构机制启发的脉冲神经网络 | |
Li et al. | Urban air pollution forecasting using artificial intelligencebased tools | |
Puri et al. | Review on missing value imputation techniques in data mining | |
Zhang et al. | Learning latent embedding of multi-modal single cell data and cross-modality relationship simultaneously | |
CN113361476B (zh) | 一种基于人工智能技术的张衡一号震前异常信号识别方法 | |
Mi et al. | A semi-supervised concept-cognitive computing system for dynamic classification decision making with limited feedback information | |
Jin | Application and Optimization of Long Short-term Memory in Time Series Forcasting | |
Xia et al. | Remaining useful life estimation based on selective ensemble of deep neural networks with diversity | |
Voleti | Unfolding the evolution of machine learning and its expediency | |
Patel et al. | Introduction to machine learning and its application | |
Moradbeiky et al. | Open Hybrid Model: A New Ensemble Model for Software Development Cost Estimation. | |
Patel et al. | Decorate ensemble of artificial neural networks with high diversity for classification | |
Ding et al. | SNN-AAD: active anomaly detection method for multivariate time series with sparse neural network | |
CN118228133A (zh) | 基于关系门控智能体与时域注意力的群体行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |