CN108491686B

CN108491686B - 一种基于双向XGBoost的基因调控网络构建方法

Info

Publication number: CN108491686B
Application number: CN201810277009.5A
Authority: CN
Inventors: 李敏; 郑瑞清
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2021-06-18
Anticipated expiration: 2038-03-30
Also published as: CN108491686A

Abstract

本发明公开了一种基于双向XGBoost的基因调控网络构建方法，针对时间序列基因表达数据的特点，分析t时刻基因的表达值与其他基因t时刻点前与后的关系，建立local‑in和local‑out双向模型；在单个模型中，将基因调控网络构建划分为多个回归方程，充分考虑高阶时滞的情形，采用XGBoost对单个回归方程中特征的权重进行评价，最终获得调控关系的排序；采用归一化残差对每个独立回归方程中的特征进行二次加权，并融双向模型对同一对调控关系的权重，作为最终每对基因调控关系的打分值。本发明适用于时间序列基因表达数据下的不同规模大小的基因调控网络的构建，并能有效提高网络推断的准确性。

Description

一种基于双向XGBoost的基因调控网络构建方法

技术领域

本发明涉及生物信息学领域，涉及复杂生物网络的构建方法。

背景技术

生物的生命活动是基于大量的生物分子的相互作用，包括细胞之间的信号传导、蛋白质之间的相互作用和基因互相之间影响，很多复杂的联系可以通过生物网络的方式进行抽象表示。在众多的生物网络中，基因调控网络表示生物体内控制基因表达含量的一种机制。根据基因调控网络，孤立的研究其中一个孤立基因往往不能反映其复杂的变化，一个基因的表达量受到其他基因表达含量的影响，包括促进和抑制关系。基因调控发在生物转录、翻译等多个阶段，受到特定的环境、时间的影响，是一个及其复杂的过程。在生物体内，一个基因的表达程度一般采用基因转录产物mRNA在细胞中的丰度表示。随着高通量检测技术的发展，大量的基因表达数据得以产生，为研究基因调控机制提供了丰富的数据基础。基于基因表达数据，首先可以分析不同基因之间相互的关联性，并分析在特定环境条件下基因的差异表达。而时间序列下的基因表达数据(简称时序基因表达数据)的出现，为研究基因表达水平随着时间动态变化过程提供了可能，也为构建基因调控网络提供了可能，因为从本质上来讲，基因调控网络是反映基因表达水平连续变化的一个动态系统。研究基因调控网络，除了了解基因相互之间的影响，也为研究疾病的产生机理、药物靶标的设计提供了帮助。

目前基于基因表达数据构建基因调控网络的方法主要有以下几类：

(1)关联性分析：此类方法对基因之间的相互关系进行评价，并通过一个阈值过滤相关性较低的调控关系。常见的关联性分析方法包括皮尔逊相关系数、互信息等。相比皮尔逊相关系数，互信息更能反映调控的非线性关系。此类方法主要发展的方向是通过多元变量分析过滤间接的调控关系，例如条件互信息、偏相关系数。此类方法计算速度比较快，模型相对也比较简单。

(2)图模型：将概率理论或者其他模型与图论相结合，描述基因之间的相互调控关系。其中贝叶斯网络是典型的概率图模型。其基本思想是利用一个联合分布来刻画调控网络中的边。针对时序数据，研究者还进一步提出了动态贝叶斯网络模型(DBN)，克服了贝叶斯网络无环的约束，与真实的基因调控关系更加接近。另一类图模型是布尔网络。与贝叶斯网络相似，布尔网络也是有向图模型，在布尔网络中，对基因的表达值采用离散值0-1的方式进行表示，通过布尔函数描述基因相互之间的关系。图模型构建的基因调控网络有比较好的解释性，但受限于图结构的学习和各类参数的学习，这类模型往往计算速度比较慢，无法应付大规模的调控网络构建。

(3)特征选择模型：此类模型一般将基因调控网络划分为多个特征选择问题，对于每个基因挑选重要的调控因子。特征选择模型常见的有基于线性回归方程的Lasso、Ridge、ENet，也有基于回归树和核函数的非线性模型，例如随机森林、支持向量机。此类模型效果一般取决于假设的模型和采用的特征选择方法，不同的方法之间结果可能差别比较大。

尽管目前已经有大量的基因调控网络构建方法，但这些方法受限于网络规模和计算模型，在构建能力和精度上仍存在诸多不足。同时，这些方法在时序基因表达数据上应用还比较简单。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种基于双向XGBoost的基因调控网络构建方法(BiXGBoost)，能充分利用时间序列下基因表达数据的特征，构建更加精确的基因调控网络。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于双向XGBoost的基因调控网络构建方法，包括以下步骤：

步骤1、根据时序基因表达数据，依次选取每一个基因作为特定基因，针对每一个特定基因分别构建一个双向模型，一个双向模型包括一个local-in模型和一个local-out模型，在local-in模型中，特定基因为调控目标基因，其他基因为其候选调控基因；在local-out模型中，特定基因为调控基因，其他基因为其候选调控目标基因；

local-in模型表示为以下回归方程：

其中，

表示除特定基因G_i以外的其他基因在t-p至t-1时刻的表达值集合，fⁱ()表示特定基因G_i在t时刻的表达值

与G^p之间存在的函数关系，p表示时滞系数，T为时序基因表达数据中时间片的个数，∈_i表示随机误差；该回归方程以其他基因在t-p至t-1时刻的表达值为自变量，以特定基因G_i在t时刻的表达值

为因变量，表示其他基因在t-p至t-1时刻的表达值对于特定基因在t时刻的表达值的影响程度，用于为特定基因选择调控基因，在基因调控网络中产生调控基因-＞G_i这样的有向边，-＞表示调控关系；

local-out模型表示为以下回归方程：

其中，

表示除特定基因G_i以外的其他基因在t+1至t+p时刻的表达值集合；该回归方程以其他基因在t+1至t+p时刻的表达值为自变量，以特定基因G_i在t时刻的表达值

为因变量，表示特定基因在t时刻的表达值对于其他基因在t+1至t+p时刻的表达值的影响程度，用于为特定基因选择调控目标基因，在基因调控网络中产生G_j-＞调控目标基因这样的有向边；t+p小于时序基因表达数据中的最大时间点，即t+p＜T；

步骤2、使用XGBoost对回归方程建立梯度提升回归树；在回归树的建立过程中，以回归方程的因变量，即特定基因G_i在t时刻的表达值

的样本空间为根节点，以回归方程的自变量，即其他基因的表达值作为特征，在每个节点上，选择带惩罚的方差降低最多的特征(候选基因)作为分裂特征，根据分裂特征的布尔函数对节点进行划分；对每个特征统计其在建立回归树的过程中被选择作为分裂特征的次数，作为该特征的重要性打分，并将其作为特定基因G_i与该特征对应的候选基因之间的调控关系的初步权重值；

步骤3、对每个独立的回归方程计算残差值，并对残差值进行归一化处理；将归一化处理后的残差值作为评价每个独立的回归方程的权重，将每个独立的回归方程的权重乘以每个回归方程中调控关系的初步权重值作为每个回归方程中的调控关系的最后打分；最终结合双向模型中同一对调控关系的两次打分进行最终打分，得到该对调控关系的全局权重；

步骤4、对调控关系的全局权重由大到小进行排序，选取排名靠前的M个调控关系，在相应基因之间建立一条边，从而形成基因调控网络。

进一步地，所述步骤3中残差值为均方误差，回归方程中的调控关系的最后打分通过以下方法计算：

对任意一个基因G_i建立的回归方程计算均方误差SSE_i，并进行归一化，得到nSSE_i：

其中，

表示特定基因G_i在t时刻的表达值

(时序基因表达数据中真实的表达值)，

表示由回归树得到

的估计值；

并采用以下方式计算基因G_i与基因G_j之间的调控关系的最后打分：

I(i，j)＝nSSE_i·nw_i，j

其中，nw_i，j表示调控关系的初步权重值w_i，j归一化后的值，nw_i，j＝w_i，j/∑_{all j}w_i，j。

进一步地，所述步骤3中分别根据local-in模型和local-out模型的回归方程，计算基因G_i与基因G_j之间的调控关系的最后打分I₁(i，j)和I₂(i，j)，按以下方式计算基因G_i与基因G_j之间的调控关系的全局权重：

进一步地，所述步骤2中，对于第m棵回归树，其优化目标函数为：

其中，f_m(G_t)表示m棵回归树叠加产生结果，

T表示叶子结点的数量，γ为超参，w表示叶子结点的权重，λ为系数，G＝{G_t}，t表示时序基因表达数据中的不同时间点；

表示第m-1棵回归树的损失函数，T_m(G_t；θ)表示当前回归树，即第m棵回归树的结果；g_t表示在时间点t上在第m棵回归树结果上的一阶梯度，

h_t是对应的二阶梯度，

在local-in模型中G_t表示时间点t对应的

在local-out模型中表示时间点t对应的G^p+。

进一步地，所述步骤2中，节点划分的标准定义为：

其中，G是当前树的节点的一阶梯度的和，H是当前树的节点的二阶梯度的和，L和R分别表示当前节点划分后的左子节点和右子节点的集合，

通过最大化L_split来选取特征作为分裂特征。

在基因调控网络中，每一条有向边G_i-＞G_j，G_i就表示调控因子，G_j表示调控目标，-＞调控关系。传统方法在分析一个基因集合中基因相互之间的调控关系时，对于特定基因，只考虑了其候选调控基因；本发明与传统方法相比，对于一个特定基因，还考虑了其候选调控目标基因；本方法综合考虑local-in和local-out双向模型，对调控关系进行打分。

本方法对于基因调控网络的构建是将网络构建的划分为多个独立的回归问题，对于每个基因建立回归方程，对其候选的调控因子(local-in)或者调控目标基因(local-out)。本方法输入为一个基因集合，依次选择一个基因作为因变量，其他基因作为自变量，根据local-in和local-out分别建立两个回归方程，用于选择其潜在的调控因子和调控目标。

本方法选择一种快速的、基于梯度提升回归树的机器学习方法XGBoost作为回归方程中特征选择的方法。XGBoost全称eXtreme Gradient Boosting，它是GradientBoosting Machine的一个c++实现，在计算速度和准确率上，较梯度提升回归树GBRT/GBDT有明显的提升。XGBoost利用所有的特征，以boosting(提升)的方式，建立多个回归树；回归树在进行回归过程中，树里面的节点是根据一个特征的布尔函数进行分裂(即因变量的样本空间是根据特征x＞a或x＜a进行划分)，以树其中一个节点为例，在分裂前节点的方差为S，根据特征分裂成两个节点后方差分为S1和S2，根据max(S-S1-S2)的原则选择特征作为分裂特征。本发明针对特定基因G_i，采用梯度提升决策树方法XGBoost分别对其local-in模型和local-out模型中的每个候选调控基因/候选调控目标基因的重要性进行评价。在local-in中，对于特定基因，以剩余的基因作为候选调控基因，采用XGBoost评价这些候选调控基因的重要性；在local-out模型中，对于特定基因，以剩余基因作为候选调控目标基因，采用XGBoost评价这些候选调控目标基因的重要性。本方法采用目前快速高效的XGBoost建立梯度提升回归树，选择带惩罚的方差降低准则作为回归树节点划分的标准。在每个节点上，回归树将选择带惩罚的方差降低最多的特征(候选基因)作为分裂特征。最后，根据XGBoost建立的多棵回归树，将特征在建立回归树的过程中被选择作为分裂特征的次数作为该特征的重要性评价指标，将得到的重要性打分作为相应调控关系的初步权重值。

有益效果：

本发明的方法采用双向模型充分利用了时间序列的特征，并且采用更加有效的特征评价方法XGBoost作为特征评价方法，有效提高了基因调控网络推断的准确性。

附图说明

图1本发明BiXGBoost的流程图；

图2为双向模型示意图；

图3为方法采用双向模型与单独的随机森林或者XGBoost方法在AUROC上带来的提升。

图4为方法采用双向模型与单独的随机森林或者XGBoost方法在AUPR上带来的提升。

图5为方法BiXGBoost、GENIE3-lag和Jump3在三个数据集的整体效果对比。

具体实施方式

以下结合附图和具体实施方式对本发明进行进一步具体说明，

本发明公开了一种基于双向XGBoost的基因调控网络构建方法，针对时间序列基因表达数据的特点，分析t时刻基因的表达值与其他基因t时刻点前与后的关系，建立local-in和local-out双向模型；在单个模型中，将基因调控网络构建划分为多个回归方程，充分考虑高阶时滞的情形，采用XGBoost对单个回归方程中特征的权重进行评价，最终获得调控关系的排序；采用归一化残差对每个独立回归方程中的特征进行二次加权，并融双向模型对同一对调控关系的权重，作为最终每对基因调控关系的打分值。本发明适用于时间序列基因表达数据下的不同规模大小的基因调控网络的构建，并能有效提高网络推断的准确性。

一、双向模型建立

对于一个包含N个基因、T个时间片的时序基因表达数据，使用

表示基因G_i在时刻t下的表达值，本方法采用双向模型对特定基因表达水平

进行建模：

local-in模型：将基因G_i的表达值

认为是其他候选调控因子在时刻t前的影响(该模型用于分析基因G_j在t时刻的表达值

受到了哪些基因t时刻前的表达值的影响)，因此建立如下模型，

其中

表示除特定基因G_i以外的其他基因在t-p～t-1时刻的表达值集合，∈_i表示随机误差，服从均值为0的高斯分布，fⁱ()表示

与G^p之间存在的函数关系，p表示时滞系数(在本方法中默认取2)，意味着最多p个时间点前的表达值会对当前时刻的基因表达值产生影响。local-in模型用于针对特定基因G_i选择调控基因，因此将在基因调控网络中产生调控基因-＞G_i这样的有向边，-＞表示调控关系。

local-out模型：该模型对于基因G_j在t时刻的表达值

去分析该基因表达值将对t时刻后的哪些基因的表达值产生影响，建立如下模型：

其中

表示除特定基因G_i以外的其他基因在t+1～t+p时刻的表达值集合，h^j()表示

与G^p+之间存在的函数关系。local-out利用时间序列的特性针对特定基因G_j选择调控目标基因，因此将在基因调控网络中产生G_j-＞调控目标基因这样的有向边。

双向模型的整个结构如图2所示。

二、利用XGBoost进行特征选择

XGBoost是一个快速的、基于梯度提升树的特征选择方法。在双向模型中，其中无论local-in还是local-out，都将基因调控网络的构建问题划分为多个独立回归的问题。XGBoost通过多个回归树，采用梯度提升的方式，对回归方程进行建模，其中对于第m棵回归树，其优化目标函数为：

其中，f_m(G_t)表示m棵回归树叠加产生结果，

T表示叶子结点的数量，γ为超参，w表示叶子结点(样本)的权重，λ为系数(T的取值是在树构建过程中自动计算；w的取值可由用户设置，默认相等；γ和λ是正则化系数，由用户自己设置)，G＝{G_t}，t表示时序基因表达数据中的不同时间点；

h_t是对应的二阶梯度，

在local-in模型中G_t表示时间点t对应的

在local-out模型中表示时间点t对应的G^p+。

单一回归树中利用特征集对回归的目标变量的样本空间(因变量的样本空间，即公式中

在时序基因表达数据中的所有的样本值)进行划分。在常规的回归树中是通过方差的减少来控制。在XGBoost种，划分的标准定义为

其中G是当前树的节点的一阶梯度的和，H是当前树的节点的二阶梯度的和，L和R分别表示当前节点划分后的左子节点和右子节点的集合，

通过最大化

来选取最合适的特征。同时，XGBoost通过选择子样本和子特征的随机化方法避免结果的过拟合。与传统的随机森林方法相比，XGBoost基于梯度提升的方式，将多个弱回归树通过boosting模式进行加强，模型的能力将优于随机森林。

本方法使用XGBoost对回归方程建模并进行特征选择；特征选择使指对于一个特定基因G_i，以其他基因的表达值作为特征，对每个特征统计其在构建回归树的过程中被选择作为分裂特征的次数，作为该特征的重要性，并根据XGBoost提供的特征重要性，对调控关系的重要性进行评价。

三、全局调控关系排名

在步骤一和二中，调控网络构建的问题被划分为双向、同时多个独立子回归的问题。在每个独立回归中，方法采用XGBoost进行特征选择，但由于回归的独立性(依次选择一个特定基因G_i分析，获得G_i-＞其他基因和其他基因-＞G_i的重要性，但不同G_i之间是独立关系)，无法对多个独立回归的调控关系的重要性进行全局排序。在此步骤中，本方法通过以下方式对调控关系进行全局打分：

1)对于每个以基因G_i建立的XGBoost模型计算均方误差SSE_i，以此来代表此XGBoost回归方程拟合的优劣，根据双向模型中其中之一的所有的均方误对其进行归一化，

其中，

表示特定基因G_i在t时刻的表达值

(时序基因表达数据中真实的表达值)，

表示由回归树得到

的估计值，即优化目标函数中的f_m(G_t)；

假设在第二步获得的基因G_i和基因G_j的调控关系的重要性为w_i，j，通过nw_i，j＝w_i，j/∑_{all j}w_i，j作为归一化后的权重nw_i，j，则计算所得的基因G_i和基因G_j调控关系权重为，I(i，j)＝nSSE_i·nw_i，j。

2)根据local-in和local-out模型，将获得两个基因G_i和基因G_j的调控关系重要性I₁(i，j)和I₂(i，j)，通过以下方式计算调控关系的全局重要性：

对调控关系的重要性进行排序，以便从全局角度比较基因之间调控关系的重要性；选取排名靠前的M个调控关系，在相应节点之间建立一条边，从而形成与基因调控网络。

四、实验验证

为了验证本方法的有效性，我们在不同规模的数据集上进行了测试，同时在基因调控网络构建挑战赛DREAM4的仿真数据和大肠杆菌真实数据上进行了测试，并和经典的GEINE3-lag和Jump3进行比较分析。DREAM4数据集是目前验证基因调控网络构建准确性的标准仿真数据集之一。其中，该数据集包含了InSilico_Size10和InSilico_Size100两种规模的时序表达数据。InSilico_Size10数据中包含了5个不同的网络，每个网络基因数目为10，同时每个网络对应的时间序列数据包含5个样本，每个样本包含21个时间片。InSilico_Size100数据也包含5个不同的网络，每个网络包含100个基因，每个网络对应的时间序列数据包含10个样本，每个样本包含21个时间片。DREAM4数据中不包含调控因子。此外，在实验室中，我们还选择了一个真实的大肠杆菌数据。此数据的表达数据由GEO数据库GSE20305表达数据提供。GSE20305基因表达数据是大肠杆菌对于不同的外部环境的时序表达数据，考虑到时间片的数量，我们选择了热刺激、冷刺激和氧化刺激三种环境下的表达数据，每个样本包含了8个时间片。大肠杆菌对应的标准网络由DREAM5和RegulonDB提供。大肠杆菌数据集包含163个调控因子和1484个目标基因。

为了评价本方法中双向模型的有效性以及同其他类似方法GEINE3-lag和Jump3对比，我们采用AUROC和AUPR值两个指标进行比较。AUROC和AUPR分别表示ROC曲线和PR曲线的线下面积。ROC曲线的纵坐标为TPR(真阳率)，横坐标为FPR(假阳率)，PR曲线的纵坐标为Precision(精确率)，横坐标为Recall(召回率)：

Recall＝TPR

TP为真阳数，TN为真阴性，FP为假阳性，FN为假阴性。此外，通过变异率CV，我们对双向模型对多次试验结果的波动进行评价：

其中σ表示多次试验AUROC或者AUPR的方差，μ表示多次试验结果平均值。由于在DREAM4 InSilico_Size10、DREAM4 InSilico_Size100和大肠杆菌中有多个网络，因此我们定义了总体值Overall Score，对三个数据的总体结果进行评价：

其中s表示数据中网络的个数。

图3和图4表示采用双向基础上的随机森林、XGBoost在DREAM4 InSilico_Size10的五个网络上AUROC和AUPR结果的变化。BiRF表示双向模型+随机森林，BiXGBoost表示双向模型+XGBoost，RF和XGBoost分别表示没有添加双向模型。从图中，可以看到加入双向模型，AUROC和AUPR都有了明显的提高。此外，表1表示，在加入了双向模型后，与单独使用随机森林或XGBoost相比，在多次试验的结果上的稳定性并高了，差异率有了明显的降低。

表1单独使用随机森林方法、XGBoost方法、加入了双向模型后的方法的CVAUROC和CVAUPR的结果

表2本方法BiXGBoost与经典的GEINE3-lag、Jump3方法在DREAM4公开数据集上AUROC和AUPR的结果

表3本方法BiXGBoost与经典的GEINE3-lag、Jump3方法在大肠杆菌数据集上AUROC和AUPR的结果

表2和表3分别显示了方法BiXGBoost和GEINE3-lag、Jump3方法在三个数据集上AUROC和AUPR。在DREAM4 InSilico_Size10数据集上，BiXGBoost的AUPR一致的优于其他两个方法，AUROC也仅在第3个网络上略低。在DREAM4 InSilico_Size100中，BiXGBoost在网络2-5的AUPR有了一致的提高，AUROC也有略微的提高。在大肠杆菌数据集中，BiXGBoost的AUROC有了接近10％的提高，同时AUPR在cold和heat条件下也有了提高。图5我们在三个数据集上计算了Overall Score，结果表明在三个数据集上，BiXGBoost的整体效果一致优于GEINE3-lag和Jump3。

Claims

1.一种基于双向XGBoost的基因调控网络构建方法，其特征在于，包括以下步骤：

local-in模型表示为以下回归方程：

其中，

表示除特定基因G_i以外的其他基因在t-p至t-1时刻的表达值集合，N表示时序基因表达数据中基因的个数，fⁱ( )表示特定基因G_i在t时刻的表达值

为因变量，表示其他基因在t-p至t-1时刻的表达值对于特定基因在t时刻的表达值的影响程度，用于为特定基因选择调控基因，在基因调控网络中产生调控基因->G_i这样的有向边，->表示调控关系；

local-out模型表示为以下回归方程：

其中，

为因变量，表示特定基因在t时刻的表达值对于其他基因在t+1至t+p时刻的表达值的影响程度，用于为特定基因选择调控目标基因，在基因调控网络中产生G_j->调控目标基因这样的有向边；t+p＜T；

的样本空间为根节点，以回归方程的自变量，即其他基因的表达值作为特征，在每个节点上，选择带惩罚的方差降低最多的特征作为分裂特征，根据分裂特征的布尔函数对节点进行划分；对每个特征统计其在建立回归树的过程中被选择作为分裂特征的次数，作为该特征的重要性打分，并将其作为特定基因G_i与该特征对应的候选基因之间的调控关系的初步权重值；

2.根据权利要求1所述的基于双向XGBoost的基因调控网络构建方法，其特征在于，所述步骤3中残差值为均方误差，回归方程中的调控关系的最后打分通过以下方法计算：

其中，

表示特定基因G_i在t时刻的表达值

表示由回归树得到

的估计值；

I(i,j)＝nSSE_i·nw_i,j

其中，nw_i,j表示调控关系的初步权重值w_i,j归一化后的值，nw_i,j＝w_i,j/∑_alljw_i,j。

3.根据权利要求2所述的基于双向XGBoost的基因调控网络构建方法，其特征在于，所述步骤3中分别根据local-in模型和local-out模型的回归方程，计算基因G_i与基因G_j之间的调控关系的最后打分I₁(i,j)和I₂(i,j)，按以下方式计算基因G_i与基因G_j之间的调控关系的全局权重：