CN108491686B - 一种基于双向XGBoost的基因调控网络构建方法 - Google Patents

一种基于双向XGBoost的基因调控网络构建方法 Download PDF

Info

Publication number
CN108491686B
CN108491686B CN201810277009.5A CN201810277009A CN108491686B CN 108491686 B CN108491686 B CN 108491686B CN 201810277009 A CN201810277009 A CN 201810277009A CN 108491686 B CN108491686 B CN 108491686B
Authority
CN
China
Prior art keywords
gene
regulation
genes
time
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810277009.5A
Other languages
English (en)
Other versions
CN108491686A (zh
Inventor
李敏
郑瑞清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201810277009.5A priority Critical patent/CN108491686B/zh
Publication of CN108491686A publication Critical patent/CN108491686A/zh
Application granted granted Critical
Publication of CN108491686B publication Critical patent/CN108491686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Abstract

本发明公开了一种基于双向XGBoost的基因调控网络构建方法,针对时间序列基因表达数据的特点,分析t时刻基因的表达值与其他基因t时刻点前与后的关系,建立local‑in和local‑out双向模型;在单个模型中,将基因调控网络构建划分为多个回归方程,充分考虑高阶时滞的情形,采用XGBoost对单个回归方程中特征的权重进行评价,最终获得调控关系的排序;采用归一化残差对每个独立回归方程中的特征进行二次加权,并融双向模型对同一对调控关系的权重,作为最终每对基因调控关系的打分值。本发明适用于时间序列基因表达数据下的不同规模大小的基因调控网络的构建,并能有效提高网络推断的准确性。

Description

一种基于双向XGBoost的基因调控网络构建方法
技术领域
本发明涉及生物信息学领域,涉及复杂生物网络的构建方法。
背景技术
生物的生命活动是基于大量的生物分子的相互作用,包括细胞之间的信号传导、蛋白质之间的相互作用和基因互相之间影响,很多复杂的联系可以通过生物网络的方式进行抽象表示。在众多的生物网络中,基因调控网络表示生物体内控制基因表达含量的一种机制。根据基因调控网络,孤立的研究其中一个孤立基因往往不能反映其复杂的变化,一个基因的表达量受到其他基因表达含量的影响,包括促进和抑制关系。基因调控发在生物转录、翻译等多个阶段,受到特定的环境、时间的影响,是一个及其复杂的过程。在生物体内,一个基因的表达程度一般采用基因转录产物mRNA在细胞中的丰度表示。随着高通量检测技术的发展,大量的基因表达数据得以产生,为研究基因调控机制提供了丰富的数据基础。基于基因表达数据,首先可以分析不同基因之间相互的关联性,并分析在特定环境条件下基因的差异表达。而时间序列下的基因表达数据(简称时序基因表达数据)的出现,为研究基因表达水平随着时间动态变化过程提供了可能,也为构建基因调控网络提供了可能,因为从本质上来讲,基因调控网络是反映基因表达水平连续变化的一个动态系统。研究基因调控网络,除了了解基因相互之间的影响,也为研究疾病的产生机理、药物靶标的设计提供了帮助。
目前基于基因表达数据构建基因调控网络的方法主要有以下几类:
(1)关联性分析:此类方法对基因之间的相互关系进行评价,并通过一个阈值过滤相关性较低的调控关系。常见的关联性分析方法包括皮尔逊相关系数、互信息等。相比皮尔逊相关系数,互信息更能反映调控的非线性关系。此类方法主要发展的方向是通过多元变量分析过滤间接的调控关系,例如条件互信息、偏相关系数。此类方法计算速度比较快,模型相对也比较简单。
(2)图模型:将概率理论或者其他模型与图论相结合,描述基因之间的相互调控关系。其中贝叶斯网络是典型的概率图模型。其基本思想是利用一个联合分布来刻画调控网络中的边。针对时序数据,研究者还进一步提出了动态贝叶斯网络模型(DBN),克服了贝叶斯网络无环的约束,与真实的基因调控关系更加接近。另一类图模型是布尔网络。与贝叶斯网络相似,布尔网络也是有向图模型,在布尔网络中,对基因的表达值采用离散值0-1的方式进行表示,通过布尔函数描述基因相互之间的关系。图模型构建的基因调控网络有比较好的解释性,但受限于图结构的学习和各类参数的学习,这类模型往往计算速度比较慢,无法应付大规模的调控网络构建。
(3)特征选择模型:此类模型一般将基因调控网络划分为多个特征选择问题,对于每个基因挑选重要的调控因子。特征选择模型常见的有基于线性回归方程的Lasso、Ridge、ENet,也有基于回归树和核函数的非线性模型,例如随机森林、支持向量机。此类模型效果一般取决于假设的模型和采用的特征选择方法,不同的方法之间结果可能差别比较大。
尽管目前已经有大量的基因调控网络构建方法,但这些方法受限于网络规模和计算模型,在构建能力和精度上仍存在诸多不足。同时,这些方法在时序基因表达数据上应用还比较简单。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种基于双向XGBoost的基因调控网络构建方法(BiXGBoost),能充分利用时间序列下基因表达数据的特征,构建更加精确的基因调控网络。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于双向XGBoost的基因调控网络构建方法,包括以下步骤:
步骤1、根据时序基因表达数据,依次选取每一个基因作为特定基因,针对每一个特定基因分别构建一个双向模型,一个双向模型包括一个local-in模型和一个local-out模型,在local-in模型中,特定基因为调控目标基因,其他基因为其候选调控基因;在local-out模型中,特定基因为调控基因,其他基因为其候选调控目标基因;
local-in模型表示为以下回归方程:
Figure GDA0003053735520000021
其中,
Figure GDA0003053735520000022
表示除特定基因Gi以外的其他基因在t-p至t-1时刻的表达值集合,fi()表示特定基因Gi在t时刻的表达值
Figure GDA0003053735520000023
与Gp之间存在的函数关系,p表示时滞系数,T为时序基因表达数据中时间片的个数,∈i表示随机误差;该回归方程以其他基因在t-p至t-1时刻的表达值为自变量,以特定基因Gi在t时刻的表达值
Figure GDA0003053735520000024
为因变量,表示其他基因在t-p至t-1时刻的表达值对于特定基因在t时刻的表达值的影响程度,用于为特定基因选择调控基因,在基因调控网络中产生调控基因->Gi这样的有向边,->表示调控关系;
local-out模型表示为以下回归方程:
Figure GDA0003053735520000025
其中,
Figure GDA0003053735520000031
表示除特定基因Gi以外的其他基因在t+1至t+p时刻的表达值集合;该回归方程以其他基因在t+1至t+p时刻的表达值为自变量,以特定基因Gi在t时刻的表达值
Figure GDA0003053735520000032
为因变量,表示特定基因在t时刻的表达值对于其他基因在t+1至t+p时刻的表达值的影响程度,用于为特定基因选择调控目标基因,在基因调控网络中产生Gj->调控目标基因这样的有向边;t+p小于时序基因表达数据中的最大时间点,即t+p<T;
步骤2、使用XGBoost对回归方程建立梯度提升回归树;在回归树的建立过程中,以回归方程的因变量,即特定基因Gi在t时刻的表达值
Figure GDA0003053735520000039
的样本空间为根节点,以回归方程的自变量,即其他基因的表达值作为特征,在每个节点上,选择带惩罚的方差降低最多的特征(候选基因)作为分裂特征,根据分裂特征的布尔函数对节点进行划分;对每个特征统计其在建立回归树的过程中被选择作为分裂特征的次数,作为该特征的重要性打分,并将其作为特定基因Gi与该特征对应的候选基因之间的调控关系的初步权重值;
步骤3、对每个独立的回归方程计算残差值,并对残差值进行归一化处理;将归一化处理后的残差值作为评价每个独立的回归方程的权重,将每个独立的回归方程的权重乘以每个回归方程中调控关系的初步权重值作为每个回归方程中的调控关系的最后打分;最终结合双向模型中同一对调控关系的两次打分进行最终打分,得到该对调控关系的全局权重;
步骤4、对调控关系的全局权重由大到小进行排序,选取排名靠前的M个调控关系,在相应基因之间建立一条边,从而形成基因调控网络。
进一步地,所述步骤3中残差值为均方误差,回归方程中的调控关系的最后打分通过以下方法计算:
对任意一个基因Gi建立的回归方程计算均方误差SSEi,并进行归一化,得到nSSEi
Figure GDA0003053735520000033
Figure GDA0003053735520000034
其中,
Figure GDA0003053735520000035
表示特定基因Gi在t时刻的表达值
Figure GDA0003053735520000036
(时序基因表达数据中真实的表达值),
Figure GDA0003053735520000037
表示由回归树得到
Figure GDA0003053735520000038
的估计值;
并采用以下方式计算基因Gi与基因Gj之间的调控关系的最后打分:
I(i,j)=nSSEi·nwi,j
其中,nwi,j表示调控关系的初步权重值wi,j归一化后的值,nwi,j=wi,j/∑all jwi,j
进一步地,所述步骤3中分别根据local-in模型和local-out模型的回归方程,计算基因Gi与基因Gj之间的调控关系的最后打分I1(i,j)和I2(i,j),按以下方式计算基因Gi与基因Gj之间的调控关系的全局权重:
Figure GDA0003053735520000041
进一步地,所述步骤3中分别根据local-in模型和local-out模型的回归方程,计算基因Gi与基因Gj之间的调控关系的最后打分I1(i,j)和I2(i,j),按以下方式计算基因Gi与基因Gj之间的调控关系的全局权重:
Figure GDA0003053735520000042
进一步地,所述步骤2中,对于第m棵回归树,其优化目标函数为:
Figure GDA0003053735520000043
其中,fm(Gt)表示m棵回归树叠加产生结果,
Figure GDA0003053735520000044
Figure GDA0003053735520000045
T表示叶子结点的数量,γ为超参,w表示叶子结点的权重,λ为系数,G={Gt},t表示时序基因表达数据中的不同时间点;
Figure GDA0003053735520000046
表示第m-1棵回归树的损失函数,Tm(Gt;θ)表示当前回归树,即第m棵回归树的结果;gt表示在时间点t上在第m棵回归树结果上的一阶梯度,
Figure GDA0003053735520000047
ht是对应的二阶梯度,
Figure GDA0003053735520000048
在local-in模型中Gt表示时间点t对应的
Figure GDA0003053735520000049
Figure GDA00030537355200000410
在local-out模型中表示时间点t对应的Gp+
进一步地,所述步骤2中,节点划分的标准定义为:
Figure GDA00030537355200000411
其中,G是当前树的节点的一阶梯度的和,H是当前树的节点的二阶梯度的和,L和R分别表示当前节点划分后的左子节点和右子节点的集合,
Figure GDA00030537355200000412
通过最大化Lsplit来选取特征作为分裂特征。
在基因调控网络中,每一条有向边Gi->Gj,Gi就表示调控因子,Gj表示调控目标,->调控关系。传统方法在分析一个基因集合中基因相互之间的调控关系时,对于特定基因,只考虑了其候选调控基因;本发明与传统方法相比,对于一个特定基因,还考虑了其候选调控目标基因;本方法综合考虑local-in和local-out双向模型,对调控关系进行打分。
本方法对于基因调控网络的构建是将网络构建的划分为多个独立的回归问题,对于每个基因建立回归方程,对其候选的调控因子(local-in)或者调控目标基因(local-out)。本方法输入为一个基因集合,依次选择一个基因作为因变量,其他基因作为自变量,根据local-in和local-out分别建立两个回归方程,用于选择其潜在的调控因子和调控目标。
本方法选择一种快速的、基于梯度提升回归树的机器学习方法XGBoost作为回归方程中特征选择的方法。XGBoost全称eXtreme Gradient Boosting,它是GradientBoosting Machine的一个c++实现,在计算速度和准确率上,较梯度提升回归树GBRT/GBDT有明显的提升。XGBoost利用所有的特征,以boosting(提升)的方式,建立多个回归树;回归树在进行回归过程中,树里面的节点是根据一个特征的布尔函数进行分裂(即因变量的样本空间是根据特征x>a或x<a进行划分),以树其中一个节点为例,在分裂前节点的方差为S,根据特征分裂成两个节点后方差分为S1和S2,根据max(S-S1-S2)的原则选择特征作为分裂特征。本发明针对特定基因Gi,采用梯度提升决策树方法XGBoost分别对其local-in模型和local-out模型中的每个候选调控基因/候选调控目标基因的重要性进行评价。在local-in中,对于特定基因,以剩余的基因作为候选调控基因,采用XGBoost评价这些候选调控基因的重要性;在local-out模型中,对于特定基因,以剩余基因作为候选调控目标基因,采用XGBoost评价这些候选调控目标基因的重要性。本方法采用目前快速高效的XGBoost建立梯度提升回归树,选择带惩罚的方差降低准则作为回归树节点划分的标准。在每个节点上,回归树将选择带惩罚的方差降低最多的特征(候选基因)作为分裂特征。最后,根据XGBoost建立的多棵回归树,将特征在建立回归树的过程中被选择作为分裂特征的次数作为该特征的重要性评价指标,将得到的重要性打分作为相应调控关系的初步权重值。
有益效果:
本发明的方法采用双向模型充分利用了时间序列的特征,并且采用更加有效的特征评价方法XGBoost作为特征评价方法,有效提高了基因调控网络推断的准确性。
附图说明
图1本发明BiXGBoost的流程图;
图2为双向模型示意图;
图3为方法采用双向模型与单独的随机森林或者XGBoost方法在AUROC上带来的提升。
图4为方法采用双向模型与单独的随机森林或者XGBoost方法在AUPR上带来的提升。
图5为方法BiXGBoost、GENIE3-lag和Jump3在三个数据集的整体效果对比。
具体实施方式
以下结合附图和具体实施方式对本发明进行进一步具体说明,
本发明公开了一种基于双向XGBoost的基因调控网络构建方法,针对时间序列基因表达数据的特点,分析t时刻基因的表达值与其他基因t时刻点前与后的关系,建立local-in和local-out双向模型;在单个模型中,将基因调控网络构建划分为多个回归方程,充分考虑高阶时滞的情形,采用XGBoost对单个回归方程中特征的权重进行评价,最终获得调控关系的排序;采用归一化残差对每个独立回归方程中的特征进行二次加权,并融双向模型对同一对调控关系的权重,作为最终每对基因调控关系的打分值。本发明适用于时间序列基因表达数据下的不同规模大小的基因调控网络的构建,并能有效提高网络推断的准确性。
一、双向模型建立
对于一个包含N个基因、T个时间片的时序基因表达数据,使用
Figure GDA0003053735520000061
表示基因Gi在时刻t下的表达值,本方法采用双向模型对特定基因表达水平
Figure GDA0003053735520000062
进行建模:
local-in模型:将基因Gi的表达值
Figure GDA0003053735520000063
认为是其他候选调控因子在时刻t前的影响(该模型用于分析基因Gj在t时刻的表达值
Figure GDA0003053735520000064
受到了哪些基因t时刻前的表达值的影响),因此建立如下模型,
Figure GDA0003053735520000065
其中
Figure GDA0003053735520000066
表示除特定基因Gi以外的其他基因在t-p~t-1时刻的表达值集合,∈i表示随机误差,服从均值为0的高斯分布,fi()表示
Figure GDA0003053735520000067
与Gp之间存在的函数关系,p表示时滞系数(在本方法中默认取2),意味着最多p个时间点前的表达值会对当前时刻的基因表达值产生影响。local-in模型用于针对特定基因Gi选择调控基因,因此将在基因调控网络中产生调控基因->Gi这样的有向边,->表示调控关系。
local-out模型:该模型对于基因Gj在t时刻的表达值
Figure GDA0003053735520000068
去分析该基因表达值将对t时刻后的哪些基因的表达值产生影响,建立如下模型:
Figure GDA00030537355200000610
其中
Figure GDA0003053735520000069
表示除特定基因Gi以外的其他基因在t+1~t+p时刻的表达值集合,hj()表示
Figure GDA0003053735520000071
与Gp+之间存在的函数关系。local-out利用时间序列的特性针对特定基因Gj选择调控目标基因,因此将在基因调控网络中产生Gj->调控目标基因这样的有向边。
双向模型的整个结构如图2所示。
二、利用XGBoost进行特征选择
XGBoost是一个快速的、基于梯度提升树的特征选择方法。在双向模型中,其中无论local-in还是local-out,都将基因调控网络的构建问题划分为多个独立回归的问题。XGBoost通过多个回归树,采用梯度提升的方式,对回归方程进行建模,其中对于第m棵回归树,其优化目标函数为:
Figure GDA0003053735520000072
其中,fm(Gt)表示m棵回归树叠加产生结果,
Figure GDA0003053735520000073
Figure GDA0003053735520000074
T表示叶子结点的数量,γ为超参,w表示叶子结点(样本)的权重,λ为系数(T的取值是在树构建过程中自动计算;w的取值可由用户设置,默认相等;γ和λ是正则化系数,由用户自己设置),G={Gt},t表示时序基因表达数据中的不同时间点;
Figure GDA0003053735520000075
表示第m-1棵回归树的损失函数,Tm(Gt;θ)表示当前回归树,即第m棵回归树的结果;gt表示在时间点t上在第m棵回归树结果上的一阶梯度,
Figure GDA0003053735520000076
ht是对应的二阶梯度,
Figure GDA0003053735520000077
在local-in模型中Gt表示时间点t对应的
Figure GDA0003053735520000078
在local-out模型中表示时间点t对应的Gp+
单一回归树中利用特征集对回归的目标变量的样本空间(因变量的样本空间,即公式中
Figure GDA00030537355200000711
在时序基因表达数据中的所有的样本值)进行划分。在常规的回归树中是通过方差的减少来控制。在XGBoost种,划分的标准定义为
Figure GDA0003053735520000079
其中G是当前树的节点的一阶梯度的和,H是当前树的节点的二阶梯度的和,L和R分别表示当前节点划分后的左子节点和右子节点的集合,
Figure GDA00030537355200000710
通过最大化
Figure GDA0003053735520000081
来选取最合适的特征。同时,XGBoost通过选择子样本和子特征的随机化方法避免结果的过拟合。与传统的随机森林方法相比,XGBoost基于梯度提升的方式,将多个弱回归树通过boosting模式进行加强,模型的能力将优于随机森林。
本方法使用XGBoost对回归方程建模并进行特征选择;特征选择使指对于一个特定基因Gi,以其他基因的表达值作为特征,对每个特征统计其在构建回归树的过程中被选择作为分裂特征的次数,作为该特征的重要性,并根据XGBoost提供的特征重要性,对调控关系的重要性进行评价。
三、全局调控关系排名
在步骤一和二中,调控网络构建的问题被划分为双向、同时多个独立子回归的问题。在每个独立回归中,方法采用XGBoost进行特征选择,但由于回归的独立性(依次选择一个特定基因Gi分析,获得Gi->其他基因和其他基因->Gi的重要性,但不同Gi之间是独立关系),无法对多个独立回归的调控关系的重要性进行全局排序。在此步骤中,本方法通过以下方式对调控关系进行全局打分:
1)对于每个以基因Gi建立的XGBoost模型计算均方误差SSEi,以此来代表此XGBoost回归方程拟合的优劣,根据双向模型中其中之一的所有的均方误对其进行归一化,
Figure GDA0003053735520000082
Figure GDA0003053735520000083
其中,
Figure GDA0003053735520000084
表示特定基因Gi在t时刻的表达值
Figure GDA0003053735520000085
(时序基因表达数据中真实的表达值),
Figure GDA0003053735520000086
表示由回归树得到
Figure GDA0003053735520000087
的估计值,即优化目标函数中的fm(Gt);
假设在第二步获得的基因Gi和基因Gj的调控关系的重要性为wi,j,通过nwi,j=wi,j/∑all jwi,j作为归一化后的权重nwi,j,则计算所得的基因Gi和基因Gj调控关系权重为,I(i,j)=nSSEi·nwi,j
2)根据local-in和local-out模型,将获得两个基因Gi和基因Gj的调控关系重要性I1(i,j)和I2(i,j),通过以下方式计算调控关系的全局重要性:
Figure GDA0003053735520000088
对调控关系的重要性进行排序,以便从全局角度比较基因之间调控关系的重要性;选取排名靠前的M个调控关系,在相应节点之间建立一条边,从而形成与基因调控网络。
四、实验验证
为了验证本方法的有效性,我们在不同规模的数据集上进行了测试,同时在基因调控网络构建挑战赛DREAM4的仿真数据和大肠杆菌真实数据上进行了测试,并和经典的GEINE3-lag和Jump3进行比较分析。DREAM4数据集是目前验证基因调控网络构建准确性的标准仿真数据集之一。其中,该数据集包含了InSilico_Size10和InSilico_Size100两种规模的时序表达数据。InSilico_Size10数据中包含了5个不同的网络,每个网络基因数目为10,同时每个网络对应的时间序列数据包含5个样本,每个样本包含21个时间片。InSilico_Size100数据也包含5个不同的网络,每个网络包含100个基因,每个网络对应的时间序列数据包含10个样本,每个样本包含21个时间片。DREAM4数据中不包含调控因子。此外,在实验室中,我们还选择了一个真实的大肠杆菌数据。此数据的表达数据由GEO数据库GSE20305表达数据提供。GSE20305基因表达数据是大肠杆菌对于不同的外部环境的时序表达数据,考虑到时间片的数量,我们选择了热刺激、冷刺激和氧化刺激三种环境下的表达数据,每个样本包含了8个时间片。大肠杆菌对应的标准网络由DREAM5和RegulonDB提供。大肠杆菌数据集包含163个调控因子和1484个目标基因。
为了评价本方法中双向模型的有效性以及同其他类似方法GEINE3-lag和Jump3对比,我们采用AUROC和AUPR值两个指标进行比较。AUROC和AUPR分别表示ROC曲线和PR曲线的线下面积。ROC曲线的纵坐标为TPR(真阳率),横坐标为FPR(假阳率),PR曲线的纵坐标为Precision(精确率),横坐标为Recall(召回率):
Figure GDA0003053735520000091
Figure GDA0003053735520000092
Figure GDA0003053735520000093
Recall=TPR
TP为真阳数,TN为真阴性,FP为假阳性,FN为假阴性。此外,通过变异率CV,我们对双向模型对多次试验结果的波动进行评价:
Figure GDA0003053735520000094
其中σ表示多次试验AUROC或者AUPR的方差,μ表示多次试验结果平均值。由于在DREAM4 InSilico_Size10、DREAM4 InSilico_Size100和大肠杆菌中有多个网络,因此我们定义了总体值Overall Score,对三个数据的总体结果进行评价:
Figure GDA0003053735520000101
Figure GDA0003053735520000102
Figure GDA0003053735520000103
其中s表示数据中网络的个数。
图3和图4表示采用双向基础上的随机森林、XGBoost在DREAM4 InSilico_Size10的五个网络上AUROC和AUPR结果的变化。BiRF表示双向模型+随机森林,BiXGBoost表示双向模型+XGBoost,RF和XGBoost分别表示没有添加双向模型。从图中,可以看到加入双向模型,AUROC和AUPR都有了明显的提高。此外,表1表示,在加入了双向模型后,与单独使用随机森林或XGBoost相比,在多次试验的结果上的稳定性并高了,差异率有了明显的降低。
表1单独使用随机森林方法、XGBoost方法、加入了双向模型后的方法的CVAUROC和CVAUPR的结果
Figure GDA0003053735520000104
表2本方法BiXGBoost与经典的GEINE3-lag、Jump3方法在DREAM4公开数据集上AUROC和AUPR的结果
Figure GDA0003053735520000105
Figure GDA0003053735520000111
表3本方法BiXGBoost与经典的GEINE3-lag、Jump3方法在大肠杆菌数据集上AUROC和AUPR的结果
Figure GDA0003053735520000112
表2和表3分别显示了方法BiXGBoost和GEINE3-lag、Jump3方法在三个数据集上AUROC和AUPR。在DREAM4 InSilico_Size10数据集上,BiXGBoost的AUPR一致的优于其他两个方法,AUROC也仅在第3个网络上略低。在DREAM4 InSilico_Size100中,BiXGBoost在网络2-5的AUPR有了一致的提高,AUROC也有略微的提高。在大肠杆菌数据集中,BiXGBoost的AUROC有了接近10%的提高,同时AUPR在cold和heat条件下也有了提高。图5我们在三个数据集上计算了Overall Score,结果表明在三个数据集上,BiXGBoost的整体效果一致优于GEINE3-lag和Jump3。

Claims (5)

1.一种基于双向XGBoost的基因调控网络构建方法,其特征在于,包括以下步骤:
步骤1、根据时序基因表达数据,依次选取每一个基因作为特定基因,针对每一个特定基因分别构建一个双向模型,一个双向模型包括一个local-in模型和一个local-out模型,在local-in模型中,特定基因为调控目标基因,其他基因为其候选调控基因;在local-out模型中,特定基因为调控基因,其他基因为其候选调控目标基因;
local-in模型表示为以下回归方程:
Figure FDA0003053735510000011
其中,
Figure FDA0003053735510000012
表示除特定基因Gi以外的其他基因在t-p至t-1时刻的表达值集合,N表示时序基因表达数据中基因的个数,fi( )表示特定基因Gi在t时刻的表达值
Figure FDA0003053735510000013
与Gp之间存在的函数关系,p表示时滞系数,T为时序基因表达数据中时间片的个数,∈i表示随机误差;该回归方程以其他基因在t-p至t-1时刻的表达值为自变量,以特定基因Gi在t时刻的表达值
Figure FDA0003053735510000014
为因变量,表示其他基因在t-p至t-1时刻的表达值对于特定基因在t时刻的表达值的影响程度,用于为特定基因选择调控基因,在基因调控网络中产生调控基因->Gi这样的有向边,->表示调控关系;
local-out模型表示为以下回归方程:
Figure FDA0003053735510000015
其中,
Figure FDA0003053735510000016
表示除特定基因Gi以外的其他基因在t+1至t+p时刻的表达值集合;该回归方程以其他基因在t+1至t+p时刻的表达值为自变量,以特定基因Gi在t时刻的表达值
Figure FDA0003053735510000017
为因变量,表示特定基因在t时刻的表达值对于其他基因在t+1至t+p时刻的表达值的影响程度,用于为特定基因选择调控目标基因,在基因调控网络中产生Gj->调控目标基因这样的有向边;t+p<T;
步骤2、使用XGBoost对回归方程建立梯度提升回归树;在回归树的建立过程中,以回归方程的因变量,即特定基因Gi在t时刻的表达值
Figure FDA0003053735510000018
的样本空间为根节点,以回归方程的自变量,即其他基因的表达值作为特征,在每个节点上,选择带惩罚的方差降低最多的特征作为分裂特征,根据分裂特征的布尔函数对节点进行划分;对每个特征统计其在建立回归树的过程中被选择作为分裂特征的次数,作为该特征的重要性打分,并将其作为特定基因Gi与该特征对应的候选基因之间的调控关系的初步权重值;
步骤3、对每个独立的回归方程计算残差值,并对残差值进行归一化处理;将归一化处理后的残差值作为评价每个独立的回归方程的权重,将每个独立的回归方程的权重乘以每个回归方程中调控关系的初步权重值作为每个回归方程中的调控关系的最后打分;最终结合双向模型中同一对调控关系的两次打分进行最终打分,得到该对调控关系的全局权重;
步骤4、对调控关系的全局权重由大到小进行排序,选取排名靠前的M个调控关系,在相应基因之间建立一条边,从而形成基因调控网络。
2.根据权利要求1所述的基于双向XGBoost的基因调控网络构建方法,其特征在于,所述步骤3中残差值为均方误差,回归方程中的调控关系的最后打分通过以下方法计算:
对任意一个基因Gi建立的回归方程计算均方误差SSEi,并进行归一化,得到nSSEi
Figure FDA0003053735510000021
Figure FDA0003053735510000022
其中,
Figure FDA0003053735510000023
表示特定基因Gi在t时刻的表达值
Figure FDA0003053735510000024
Figure FDA0003053735510000025
表示由回归树得到
Figure FDA0003053735510000026
的估计值;
并采用以下方式计算基因Gi与基因Gj之间的调控关系的最后打分:
I(i,j)=nSSEi·nwi,j
其中,nwi,j表示调控关系的初步权重值wi,j归一化后的值,nwi,j=wi,j/∑alljwi,j
3.根据权利要求2所述的基于双向XGBoost的基因调控网络构建方法,其特征在于,所述步骤3中分别根据local-in模型和local-out模型的回归方程,计算基因Gi与基因Gj之间的调控关系的最后打分I1(i,j)和I2(i,j),按以下方式计算基因Gi与基因Gj之间的调控关系的全局权重:
Figure FDA0003053735510000027
4.根据权利要求2所述的基于双向XGBoost的基因调控网络构建方法,其特征在于,所述步骤2中,对于第m棵回归树,其优化目标函数为:
Figure FDA0003053735510000028
其中,fm(Gt)表示m棵回归树叠加产生结果,
Figure FDA0003053735510000029
Figure FDA00030537355100000210
f0(Gt)=0,
Figure FDA00030537355100000211
T表示叶子结点的数量,γ为超参,w表示叶子结点的权重,λ为系数,G={Gt},t表示时序基因表达数据中的不同时间点;
Figure FDA0003053735510000031
表示第m-1棵回归树的损失函数,Tm(Gt;θ)表示当前回归树,即第m棵回归树的结果;gt表示在时间点t上在第m棵回归树结果上的一阶梯度,
Figure FDA0003053735510000032
ht是对应的二阶梯度,
Figure FDA0003053735510000033
在local-in模型中Gt表示时间点t对应的
Figure FDA0003053735510000034
Figure FDA0003053735510000035
在local-out模型中表示时间点t对应的Gp +
5.根据权利要求4所述的基于双向XGBoost的基因调控网络构建方法,其特征在于,所述步骤2中,节点划分的标准定义为:
Figure FDA0003053735510000036
其中,G是当前树的节点的一阶梯度的和,H是当前树的节点的二阶梯度的和,L和R分别表示当前节点划分后的左子节点和右子节点的集合,
Figure FDA0003053735510000037
通过最大化
Figure FDA0003053735510000038
来选取特征作为分裂特征。
CN201810277009.5A 2018-03-30 2018-03-30 一种基于双向XGBoost的基因调控网络构建方法 Active CN108491686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810277009.5A CN108491686B (zh) 2018-03-30 2018-03-30 一种基于双向XGBoost的基因调控网络构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810277009.5A CN108491686B (zh) 2018-03-30 2018-03-30 一种基于双向XGBoost的基因调控网络构建方法

Publications (2)

Publication Number Publication Date
CN108491686A CN108491686A (zh) 2018-09-04
CN108491686B true CN108491686B (zh) 2021-06-18

Family

ID=63317109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810277009.5A Active CN108491686B (zh) 2018-03-30 2018-03-30 一种基于双向XGBoost的基因调控网络构建方法

Country Status (1)

Country Link
CN (1) CN108491686B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215740A (zh) * 2018-11-06 2019-01-15 中山大学 基于Xgboost的全基因组RNA二级结构预测方法
CN111223523B (zh) * 2020-01-06 2023-10-03 中南大学 基于多时滞因果熵的基因调控网络构建方法及系统
CN113541993B (zh) * 2020-04-21 2023-08-18 中国移动通信集团四川有限公司 网络评估方法及装置、网络指标处理方法、设备和介质
CN111583990B (zh) * 2020-04-22 2023-12-15 大连海事大学 一种结合稀疏回归和淘汰规则的基因调控网络推断方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1717585A (zh) * 2002-11-25 2006-01-04 Gni美国公司 利用微分方程从时序基因表达数据推断基因调控网络
CN1914510A (zh) * 2003-12-12 2007-02-14 Gni株式会社 应用推导方法和生物学约束条件估计基因网络
CN101719195A (zh) * 2009-12-03 2010-06-02 上海大学 一种逐步回归基因调控网络的推断方法
CN107586852A (zh) * 2017-11-06 2018-01-16 福建医科大学附属协和医院 基于22个基因的胃癌腹膜转移预测模型及其应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1717585A (zh) * 2002-11-25 2006-01-04 Gni美国公司 利用微分方程从时序基因表达数据推断基因调控网络
CN1914510A (zh) * 2003-12-12 2007-02-14 Gni株式会社 应用推导方法和生物学约束条件估计基因网络
CN101719195A (zh) * 2009-12-03 2010-06-02 上海大学 一种逐步回归基因调控网络的推断方法
CN107586852A (zh) * 2017-11-06 2018-01-16 福建医科大学附属协和医院 基于22个基因的胃癌腹膜转移预测模型及其应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A comprehensive genomic pan-cancer classification using The Cancer Genome Atlas gene expression data;Yuanyuan Li et al;《BMC Genomics》;20171231;全文 *
基于组合模型的转录调控网络构建算法研究;刘晓燕 等;《计算机科学与探索》;20170609;全文 *
重采样条件互信息构建基因调控网络算法研究;刘飞;《生物医学工程学杂志》;20161031;第33卷(第5期);全文 *

Also Published As

Publication number Publication date
CN108491686A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
US20210383890A1 (en) Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
CN108491686B (zh) 一种基于双向XGBoost的基因调控网络构建方法
CA2894317C (en) Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
Maraziotis A semi-supervised fuzzy clustering algorithm applied to gene expression data
Chapman et al. Statistical learning theory for high dimensional prediction: Application to criterion-keyed scale development.
US8200589B2 (en) System and method for network association inference, validation and pruning based on integrated constraints from diverse data
CN110222838B (zh) 文档排序方法、装置、电子设备及存储介质
Gonzalez Psychometric and machine learning approaches to reduce the length of scales
Zhou et al. Random following ant colony optimization: Continuous and binary variants for global optimization and feature selection
Tembusai et al. K-nearest neighbor with K-fold cross validation and analytic hierarchy process on data classification
CN113393057A (zh) 一种基于深度融合机器学习模型的小麦产量集成预测方法
CN112215259A (zh) 基因选择方法和装置
Che et al. PFBNet: a priori-fused boosting method for gene regulatory network inference
Aushev et al. Likelihood-free inference with deep Gaussian processes
Mitchell et al. Nowcasting Euro area GDP growth using Bayesian quantile regression
CN109409522B (zh) 一种基于集成学习的生物网络推理算法
CN112529141A (zh) 一种基于改进免疫算法的学习路径生成方法
CN116993548A (zh) 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统
Suleiman et al. Student’s academic performance prediction using factor analysis based neural network
US20230214668A1 (en) Hyperparameter adjustment device, non-transitory recording medium in which hyperparameter adjustment program is recorded, and hyperparameter adjustment program
CN114974581A (zh) 高血糖危象长期死亡风险预测与评估方法
CN113780394A (zh) 一种强分类器模型的训练方法、装置及设备
CN113837474A (zh) 区域土壤重金属污染指数预测方法及装置
CN112529403B (zh) 一种运用神经网络算法确定建设用地面积影响因素权重值的方法
Muraro et al. Inference of the genetic network regulating lateral root initiation in Arabidopsis thaliana

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant