CN113066522A

CN113066522A - 一种基于模块化识别的基因网络推理方法

Info

Publication number: CN113066522A
Application number: CN202110309281.9A
Authority: CN
Inventors: 张蔚; 李心语; 张建明; 李光
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-07-02
Anticipated expiration: 2041-03-23
Also published as: CN113066522B

Abstract

本发明公开了一种基于模块化识别的基因网络推理方法。该方法将n个基因的表达信息作为训练集，其中每个基因有m个样本；采用ICA‑FDR算法对基因进行模块识别并将n个基因划分至不同基因模块中；基因模块内部的调控关系采用以梯度提升树为基础的算法进行推理，基因模块间的调控关系采用以稀疏回归为基础的算法进行推理，得出每个基因对的相关性得分；针对每个基因模块内与模块间推理得到的相关性得分分别进行归一化处理后合并，并按照得分降序排序得到最终基因调控网络。本发明为基因模块识别与基因网络推理提供了一个无缝衔接的融合框架，提高了基因模块识别的准确性，增加了基因调控网络功能的可解释性。

Description

一种基于模块化识别的基因网络推理方法

技术领域

本发明属于生物信息学中的基因调控网络推理领域，尤其涉及一种基于模块化识别的基因网络推理方法。

背景技术

如何在转录水平上准确阐明调控因子与目标基因之间的调控关系，是近年来计算生物学和生物信息学的核心挑战之一。更准确地识别转录调控因子与目标基因之间的调控关系对于探究细胞生长和分裂、细胞分化和发育等活动规律至关重要。此外，基因调控网络对于现代医学研究提供了有力帮助，能够从生命活动最底层—基因控制的角度模拟和预测致病基因，这将有助于医护人员对病人精准地实施靶向治疗，并有助于相应药物的研发。然而，基因调控网络推理方法大部分针对整个基因网络进行推理，但是这些方法仅推断了基因网络的拓扑结构却缺乏了明确的生物学解释，从而限制了基因网络在致病基因预测和基因治疗等领域的应用。研究表明基因调控网络结构具有模块性。在一定程度上，基因调控网络的模块化分析可以辅助我们理解整体网络的动力学性质，探索某些未知的基因功能模块，并指导基因网络的重构。然而，目前大多数经典基因模块识别的算法应用的先决条件是需要知道基因网络的拓扑结构，无法由数据驱动角度切入研究基因模块。

发明内容

基于背景技术存在的问题，本发明提出了一种基于模块化识别的高效基因网络推理方法。对基因组学和转录组学数据的深入挖掘，结合基因网络固有的模块特点，从数据驱动推理出具有社区结构的基因调控网络，为基因模块识别与基因网络推理提供了一个无缝衔接的融合框架。

为了解决上述问题，本发明采用如下技术方案：一种基于模块化识别的基因网络推理方法，该方法包括以下步骤：

S1:针对基因调控网络的推理问题，该方法从数据驱动角度切入进行基因调控网络的推理过程。假设研究对象为包含n个基因的基因调控网络，每个基因有m个表达数据样本。该方法将大小为m×n的基因表达矩阵X作为训练数据集。

S2:采用ICA-FDR算法对基因的表达矩阵进行分析，识别表达功能相近的基因。采用FastICA算法将表达矩阵X分解为混合矩阵A和源矩阵S。源矩阵S蕴含了基因数据之间的功能相似性信息，对源矩阵S进行FDR计算分析，将n个基因划分至不同的基因模块中，完成基因模块识别。

S3:针对每个基因模块内基因之间的较为紧密的调控关系，该方法采用以梯度提升树为基础的算法进行子网络推理。梯度提升树算法计算每一个基因模块中调控因子与目标基因之间的相关性得分，并根据相关性得分进行降序排列，存在调控关系的可能性较大的调控边将集中在得分列表前端。

S4:针对两个基因分别属于不同基因模块之间的基因对，该方法采用以稀疏线性回归为基础的算法进行模块间网络推理。采用稀疏线性回归算法计算调控因子与目标基因之间的相关性得分，并根据相关性得分进行降序排列，存在调控关系的可能性较大的调控边将集中在得分列表前端。

S5:对模块内基因子网络的调控边得分与模块间网络的调控边得分进行归一化处理后合并，并按降序重新排列合并后的得分列表，得到总相关性得分列表。

S6:根据基因调控网络的复杂度及研究需求，选取经验阈值，将相关性得分大于等于此阈值的调控边保留，小于此阈值的调控边舍弃，完成基因调控网络推理过程。

进一步地，所述步骤S1中的基因表达矩阵的数据种类具体包括但不限于：

S11:时序微阵列表达数据；

S12:单细胞RNA测序(scRNA-seq)数据；

S13:基因表达仿真数据。

进一步地，所述步骤S2中ICA-FDR算法的基本步骤包括：

S21:确定基因模块的数量n_comps，对基因表达矩阵进行白化预处理，采用FastICA算法寻找一个迭代优化方向ω，使得此方向迭代的非高斯性最大。迭代收敛后，将表达矩阵X分解为混合矩阵A和源矩阵S，X＝A×S，源矩阵中即包含基因与基因模块之间的关联信息。

S22:采用错误发现率(FDR)分析源矩阵S，将表达功能相近的基因划分至同一基因模块中。

进一步地，所述步骤S21中的具体计算方法的步骤为：

S211:对表达矩阵进行白化预处理的计算公式为：

其中，x代表基因的表达向量，若基因向量的协方差矩阵为E{xx^T}，那么其特征分解式为E{xx^T}＝EDE^T。其中，E是协方差矩阵E{xx^T}的特征向量组成的矩阵，D＝diag(d₁,...,d_n)是其特征值的对角矩阵。白化处理使学习过程的参数减少至二分之一，使原始矩阵的复杂度由n²变为

S212:经过白化处理后，采用FastICA找到一个最优优化方向ω使得非高斯性J_G(ω)最大化，非高斯性由负熵衡量：

J_G(ω)＝H(ω_gauss)-H(ω)

上式中ω_gauss是高斯分布，H(·)代表熵值，当J_G(ω)越大非高斯性将越大。若设ν是单位方差并且零均值的高斯变量，G(·)是用于提高参数估计鲁棒性的非二次函数，例如：

G₂(u)＝-exp(-u²/2)

其中，a₁是任意常数；那么非高斯性的具体计算式为：

进一步地，所述步骤S22中的具体计算方法为：

S221:对于源矩阵S当中的基因数据进行统计学假设检验，分析每个基因模块中基因的集中程度并得到P-value，对所有候选基因的P-value进行升序排列，P-value的序号记为i，并计算相应的Q值：

上式中p_ik代表在第k个基因模块中，升序排列后的第i个P-value，n是候选基因个数。

S222:根据基因数量规模及基因模块的个数选取阈值q_cuoff，将每个基因模块中Q值小于此阈值q_cuoff的基因分配给此基因模块。一个基因可能属于多个基因模块，即允许存在基因模块重叠现象。

进一步地，所述步骤S4中稀疏线性回归建模方法为：

S41:针对分别属于不同模块的两个基因之间的调控关系，建立如下稀疏线性回归模型：

E_t＝α_r1,tE_r1+α_r2,tE_r2+…+α_rt,tE_rt+β_t

定义基因集合为G＝{g₁,g₂,…,g_n}，其中E_t代表被调控目标基因g_t的数据表达向量，并且g_t∈G。与基因g_t不属于同一模块的潜在调控因子集合表示为G^-t，其表达式为G^-t＝{g_r1,g_r2,…,g_rt}，那么E_r1,E_r2,…,E_rt为潜在调控因子G^-t的表达数据向量。α_rt,t代表潜在调控因子g_rt对目标基因g_t的回归系数，β_t代表回归过程中的噪声向量。

S42:采用稀疏线性回归的相关目标函数来进行α,β参数的拟合，收敛后α即为调控因子与目标基因之间的相关性得分。稀疏线性回归的相关目标函数包括但不仅限于L1、L2等。

进一步地，所述步骤S5所采用的相关性得分归一化方法为最大最小归一化，其计算公式为：

式中s_i代表调控边i所对应的相关性得分，s为相关性得分向量。采用此归一化方法分别处理所有模块内子网络和模块间网络的相关性得分列表。

进一步地，根据步骤S2识别出的基因模块，采用Frr指标评价基因模块识别的准确性；根据步骤S5得到的总相关性得分列表，采用AUROC与AUPR指标评价基因网络推理的准确性。

进一步地，评估模块识别的准确性，采用Frr指标将识别结果与真实基因模块进行对比，计算方法如下：

其中Recovery代表真实基因模块拟合模块识别结果的程度，Relevance代表模块识别结果拟合真实基因模块的程度，具体公式如下：

其中，

和M分别代表真实基因模块集合与识别模块集合，Jaccard(·)则用来度量两个基因模块集合之间的相似度，Jaccard距离越大，真实模块与识别模块之间的相似度越低。

进一步地，评估基因调控网络推理的准确性，根据总相关性评分表绘制ROC曲线与PR曲线。给定一个分数阈值，评分表中的推理结果与真实基因调控网络对比，可以分为四类：真阳性(True Positive,TP)，真阴性(True Negative,TN)，假阳性(False Positive,FP)，假阴性(False Negative,FN)。其中：

随着阈值变化，ROC曲线表现了FPR和TPR之间的变化趋势，PR曲线表示了recall和precision的变化趋势，分别计算ROC与PR的曲线下面积得到AUROC与AUPR，参数越大则表明推理结果越准确。

与现有技术相比，本发明的有益效果是：

(1)提供了一种具有基因模块识别功能的基因调控网络推理算法。采用以ICA为基础的统计学分析将功能相近的基因划分至同一模块，为研究人员进一步研究基因调控网络背后更深层次的生物物理意义提供了有效参考，增加了基因调控网络的生物学可解释性。

(2)集成梯度提升树准确性与稀疏线性回归高效性的优势，对基因模块内信息交流较为频繁的模块内网络采用梯度提升树算法进行推理，对基因模块间调控关系较为稀疏的网络采用稀疏线性回归的高效算法进行推理。本发明进一步提升了基因调控网络推理的速度与准确性。

附图说明

图1是本发明具体实施例中基于模块化识别的基因网络推理流程图；

图2是本发明具体实施例中基于ICA-FDR算法的基因模块识别原理示意图；

图3是本发明具体实施例中SCODE数据集基因网络推理的ROC曲线与PR曲线。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于任何熟悉本技术领域的技术人员理解本发明，但本发明的保护范围不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

本实施例运行的硬件环境：笔记本电脑一台，CPU：2.6GHz，RAM：8.0GB；软件环境：Python 3.6，R 3.3.3；操作平台：Win10。

本实施例在时序数据集与单细胞数据集上测试了所提出方法的效果，数据集包括：BEELINE项目中的gonadal sex determination(GSD)数据集、SCODE项目中的PrE、MEF、DE三个真实单细胞数据集、DREAM5挑战中的E.coli和Yeast数据集。实验数据集的详细信息如表1所示。

表1实验数据集详细信息

本实施例提出的一种基于模块化识别的基因网络推理方法，流程图如附图1所示，以时序数据的DREAM5的E.coli数据集为例说明本方法的实现流程，具体包含以下步骤：

S1:对DREAM5的E.coli公共数据集进行数据预处理，E.coli的基因调控网络为包含4511个基因的基因调控网络，每个基因有805个基因表达数据样本。因此将大小为m×n＝805×4511的基因表达矩阵X作为训练数据集。此外，E.coli数据属于时序微阵列表达数据，表达数据如图1中流程A所示。

S2:采用ICA-FDR算法对基因的表达矩阵进行分析，识别表达功能相近的基因。采用FastICA算法将表达矩阵X分解为混合矩阵A和源矩阵S。源矩阵S蕴含了基因数据之间的功能相似性信息，对源矩阵S进行FDR计算分析，将n＝4511个基因划分至不同的基因子集(基因模块)中。其具体技术方案为：

S21:根据E.coli网络数据集中存在4511个基因，此基因调控网络规模较大，因此确定基因模块的数量n_comps＝80，并对基因表达矩阵进行白化预处理，采用FastICA算法寻找一个迭代优化方向ω，使得此方向迭代的非高斯性最大。迭代收敛后，将表达矩阵分解为混合矩阵和源矩阵X＝A×S，源矩阵S中即包含基因与基因模块之间的关联信息。矩阵中基因表达值可由公式表示为：

上式中x_ij代表基因j在样本i的表达值，a_ik代表样本i对模块k的贡献度，s_kj则代表基因j在基因模块k中的激活水平。

S211:对表达矩阵进行白化预处理的计算公式为：

其中，x代表基因的表达向量，若基因向量的协方差矩阵为E{xx^T}，那么其特征分解式为E{xx^T}＝EDE^T。其中，E是协方差矩阵E{xx^T}的特征向量组成的矩阵，D＝diag(d₁,...,d_n)是其特征值的对角矩阵。白化处理使学习过程的参数减少至二分之一，使原始矩阵的复杂度由4511²变为

J_G(ω)＝H(ω_gauss)-H(ω)

上式中ω_gauss是高斯分布，H(·)代表熵值，当J_G(ω)越大非高斯性将越大。本方法具体表达式为：

上式中，ν是单位方差并且零均值的高斯变量，G(·)是用于提高参数估计鲁棒性的非二次函数，例如：

G₂(u)＝-exp(-u²/2)

其中，a₁是任意常数。

S22:采用错误发现率(FDR)分析源矩阵S，将表达功能相近的基因划分至同一基因模块中，其具体技术方案为：

上式中p_ik代表在第k个基因模块中，升序排列后的第i个P-value，n是候选基因个数，在此实例中即为n＝4511。

S222:根据E.coli基因数量规模及基因模块的个数选取阈值q_cuoff，将每个基因模块中Q值小于此阈值q_cuoff的基因分配给此基因模块。一个基因可能属于多个基因模块，即允许存在基因模块重叠现象。此实例中对E.coli网络选取阈值为：q_cutoff＝1×10^-3。

综上所述，ICA-FDR算法进行基因模块识别的原理如图2所示。

S3:采用ICA-FDR2算法对基因表达矩阵进行分析，作为ICA-FDR算法的对比实验。

ICA-FDR2算法具体为：采用ICA算法生成每个基因模块的过程中，将根据基因权重的正负，分别将其划入不同的基因模块，后续FDR分析同步骤S22。即ICA-FDR2生成的基因模块数量为ICA-FDR的2倍。

S4:针对每个基因模块内基因之间的较为紧密的调控关系，该方法采用以梯度提升树为基础的算法进行子网络推理。梯度提升树算法计算每一个基因模块中调控因子与目标基因之间的相关性得分，并根据相关性得分进行降序排列，存在调控关系的可能性较大的调控边将集中在得分列表前端，如图1中流程C所示。

在基于梯度提升树回归的基因调控网络推理方法中，目标基因j的行为受其他调控因子控制的数学模型描述如下式：

上式中，

代表在样本s中的基因表达向量，因此基因j即为目标基因，m代表样本个数；

为除目标基因j之外的所有此模块内的基因在样本s中的表达向量，这些基因均为j的潜在调控因子；k_n代表目标基因j所在基因模块的基因数量，即

中共有(k_n-1)个基因；ε_s代表均值为0的随机噪声；f(·)函数由决策树集合的建立方法决定。对于每个树节点φ，分支后的方差的减少值计算如下：

I(φ)＝SVar(S)-S_lVar(S_l)-S_rVar(S_r)

上式中S是在树节点φ中包含的样本集合，S_l和S_r分别代表左子树与右子树样本集合，Var(·)代表树分枝方差。

S5:针对两个基因分别属于不同基因模块之间的基因对，该方法采用以稀疏线性回归为基础的算法进行模块间网络推理。采用稀疏线性回归算法计算调控因子与目标基因之间的相关性得分，并根据相关性得分进行降序排列，存在调控关系的可能性较大的调控边将集中在得分列表前端，如图1中流程D所示。稀疏线性回归的模块间推理具体技术方案为：

S51:针对分别属于不同模块的两个基因之间的调控关系，建立如下稀疏线性回归模型：

E_t＝α_r1,tE_r1+α_r2,tE_r2+…+α_rt,tE_rt+β_t

S52:采用稀疏线性回归的相关目标函数进行α,β参数的拟合，收敛后α即为调控因子与目标基因之间的相关性得分。稀疏线性回归的相关目标函数包括但不仅限于L1、L2等，在此实例中目标函数的表达式为：

S6:对模块内基因子网络的调控边得分与模块间网络的调控边得分进行归一化处理后合并，并按降序重新排列合并后的得分列表，得到总相关性得分列表。所采用的相关性得分归一化方法为最大最小归一化，如图1中流程E所示，其计算公式为：

上式中s_i代表调控边i所对应的相关性得分，s为相关性得分向量。采用此归一化方法分别处理所有模块内子网络和模块间网络的相关性得分列表。

S7:根据基因调控网络的复杂度及研究需求，选取合适的阈值分数，将相关性得分大于等于此阈值的调控边保留，小于此阈值的调控边舍弃，完成基因调控网络推理过程。

S8:根据步骤S2识别出的基因模块，采用Frr指标评价基因模块识别的准确性；根据步骤S6得到的总相关性得分列表，采用AUROC与AUPR指标评价基因网络推理的准确性。具体技术方案为：

S81:评估模块识别的准确性，采用Frr指标将识别结果与真实基因模块进行对比，计算方法如下：

其中，

S82:评估基因调控网络推理的准确性，根据总相关性评分表绘制ROC曲线与PR曲线。给定一个分数阈值，评分表中的推理结果与真实基因调控网络对比，可以分为四类：真阳性(True Positive,TP)，真阴性(True Negative,TN)，假阳性(False Positive,FP)，假阴性(False Negative,FN)。其中：

随着阈值变化，ROC曲线表现了FPR和TPR之间的变化趋势，PR曲线表示了recall和precision的变化趋势，分别计算ROC与PR的曲线下面积得到AUROC与AUPR，数值越大则表明推理结果越准确。

本发明的主要贡献是为基因模块识别与基因网络推理提出了一个无缝的框架，实现了基于已识别的基因模块执行基因网络推断。

为了从基因表达数据中检测出功能相近的基因并划分至同一模块，在本发明方法中应用了基于ICA的分解算法。为了检验本发明的ICA-FDR算法模块识别的准确度，选取了若干模块识别算法包括：ICA-FDR2、ICA-zscore、PCA、K-means，在不同数据集上进行实验并用Frr指标将识别结果与数据集提供的真实基因模块(模块金标准)进行对比，实验结果如表2-4所示：

表2 DREAM5网络基因模块识别Frr评估结果

如上表中，最优Frr值由加粗字体表示，Minimal，Strict和Interconnected是基因模块金标准的三种不同的模块定义。从表2中可以看出，在三种基因模块定义下，基于ICA或PCA分解的方法均明显优于K-means聚类。从三种模块定义的角度进行分析，Minimal和Strict下获得的Frr指标又明显高于Interconnected组。

为了直观展示模块识别的效果，以E.coli网络为例对ICA-FDR识别出的不同基因调控模块进行不同形状的标注。如图1所示，节点代表基因，而边则代表两个基因之间的调控关系。

表3 BEELINE网络基因模块识别Frr评估结果

表4 SCODE网络基因模块识别Frr评估结果

表3和表4分别是在BEELINE合成数据集和SCODE真实单细胞数据集上测试的结果，Frr指标表明ICA-FDR算法与PCA分解和k均值聚类相比，在检测基因模块准确性方面具有明显优势，与DREAM5数据集的结果基本保持一致。由此可见，本发明为基因模块识别提供了一种数据驱动的解决方案，即使没有精确的生物学注释，也可以直接从基因表达数据中挖掘功能模块，对于加深网络调控机制的理解至关重要。

为了检验本发明提出的方法的准确性，需要将本方法推理得出的基因调控网络与金标准网络进行对比，金标准网络即为数据集所对应的真实基因调控网络，其中标注了哪些基因之间存在调控关系。绘制推理结果ROC与PR曲线并计算曲线下面积，面积取值范围为[0,1]，面积越大表明推理效果越好。

对比方法选用了以线性回归为基础的Ridge、Linear Regression、TIGRESS，在DREAM5Challenge中被提出的以GBDT框架为基础的GRNBoost2算法、基于互信息的CLR算法。将表1中的8个基因网络进行基因网络推理，以ROC与PR曲线下面积AUROC与AUPR两个指标衡量网络推理准确性及有效性，实验结果如下表所示：

表5DREAM5基因网络推理结果对比

目前在基因网络推理领域，基于GBDT框架的GRNBoost2算法的准确度在众多测试集上表现良好，可以视为顶级基因网络推理算法。在计算时间上，DREAM5 E.coli网络花费了41h 46min来完成GRNBoost2推理过程，而本方法只花费了1h 8min；使用GRNBoost2推理，DREAM5 Yeast网络花费了33h 36min完成GRNBoost2的推理过程，而本方法仅花费了1h9min。从表5中的准确性测试表明，本方法与GRNBoost2算法相比AUROC与AUPR几乎处于同一水平。因此，与GRNBoost2相比，本方法显著降低了算法复杂度，提高了网络推理的速度，并且未引起网络推理准确性的明显下降。

表6 BEELINE基因网络推理结果对比

表7 SCODE基因网络推理结果对比

表6将本方法与其他经典网络推理算法进行对比，结果表明在BEELINE网络中，本方法可以在这4种方法中达到较高的准确度，并基本与GRNBoost2算法推理效果持平。针对SCODE项目中真实单细胞数据集的基因网络推理，AUPR和AUROC计算结果表明，本算法在PrE和MEF网络上可以达到最优效果。图3详细绘制了几种对比算法的PR和ROC曲线，PR曲线的形状表明，与其他算法相比由本方法推断的降序得分列表的顶部具有更多符合真实网络结构的调控关系。对于涉及人类干细胞分化的DE数据集，本方法的准确性指数低于现有的GRNBoost2，其原因可能因为人类基因调控是较为复杂生理过程，导致推理准确度普遍较低。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于模块化识别的基因网络推理方法，其特征在于，包括以下步骤：

S1:针对基因调控网络的推理问题，从数据驱动角度切入进行基因调控网络的推理过程。假设研究对象为包含n个基因的基因调控网络，每个基因有m个表达数据样本，将大小为m×n的基因表达矩阵X作为训练数据集。

S3:针对每个基因模块内基因之间的较为紧密的调控关系，采用以梯度提升树为基础的算法进行子网络推理。梯度提升树算法计算每一个基因模块中调控因子与目标基因之间的相关性得分，并根据相关性得分进行降序排列，存在调控关系的可能性较大的调控边将集中在得分列表前端。

S4:针对两个基因分别属于不同基因模块之间的基因对，采用以稀疏线性回归为基础的算法进行模块间网络推理。采用稀疏线性回归算法计算调控因子与目标基因之间的相关性得分，并根据相关性得分进行降序排列，存在调控关系的可能性较大的调控边将集中在得分列表前端。

2.根据权利要求1所述的一种基于模块化识别的基因网络推理方法，其特征在于，所述步骤S1中的基因表达矩阵的数据种类具体包括但不限于：

S11:时序微阵列表达数据；

S12:单细胞RNA测序(scRNA-seq)数据；

S13:基因表达仿真数据。

3.根据权利要求1所述的一种基于模块化识别的基因网络推理方法，其特征在于，所述步骤S2中ICA-FDR算法的基本步骤包括：

4.根据权利要求3所述的一种基于模块化识别的基因网络推理方法，其特征在于，所述步骤S21中的具体计算方法的步骤为：

S211:对表达矩阵进行白化预处理的计算公式为：

其中，x代表基因的表达向量，若基因向量的协方差矩阵为E{xx^T}，那么其特征分解式为E{xx^T}＝EDE^T。其中，E是协方差矩阵E{xx^T}的特征向量组成的矩阵，D＝diag(d₁,...,d_n)是其特征值的对角矩阵。

J_G(ω)＝H(ω_gauss)-H(ω)

上式中ω_gauss是高斯分布，H(·)代表熵值，当J_G(ω)越大非高斯性将越大。

若设ν是单位方差并且零均值的高斯变量，G(·)是用于提高参数估计鲁棒性的非二次函数，非高斯性的具体计算式为：

5.根据权利要求3所述的一种基于模块化识别的基因网络推理方法，其特征在于，所述步骤S22中的具体计算方法为：

6.根据权利要求1所述的一种基于模块化识别的基因网络推理方法，其特征在于，所述步骤S4中稀疏线性回归建模方法为：

E_t＝α_r1,tE_r1+α_r2,tE_r2+…+α_rt,tE_rt+β_t

S42:采用稀疏线性回归的相关目标函数来进行α,β参数的拟合，收敛后α即为调控因子与目标基因之间的相关性得分。

7.根据权利要求1所述的一种基于模块化识别的基因网络推理方法，其特征在于，所述步骤S5所采用的相关性得分归一化方法为最大最小归一化，其计算公式为：

式中s_i代表调控边i所对应的相关性得分，s为相关性得分向量。

8.根据权利要求1所述的一种基于模块化识别的基因网络推理方法，其特征在于，根据步骤S2识别出的基因模块，采用Frr指标评价基因模块识别的准确性；根据步骤S5得到的总相关性得分列表，采用AUROC与AUPR指标评价基因网络推理的准确性。

9.根据权利要求8所述的一种基于模块化识别的基因网络推理方法，其特征在于，评估模块识别的准确性，采用Frr指标将识别结果与真实基因模块进行对比，计算方法如下：

其中，

10.根据权利要求8所述的一种基于模块化识别的基因网络推理方法，其特征在于，评估基因调控网络推理的准确性，根据总相关性评分表绘制ROC曲线与PR曲线。给定一个分数阈值，评分表中的推理结果与真实基因调控网络对比，可以分为四类：真阳性(TruePositive,TP)，真阴性(True Negative,TN)，假阳性(False Positive,FP)，假阴性(FalseNegative,FN)。其中：