CN110504004A

CN110504004A - 一种基于复杂网络结构可控性基因的识别方法

Info

Publication number: CN110504004A
Application number: CN201910576809.1A
Authority: CN
Inventors: 金海燕; 曹甜; 王炳波; 王婉宁
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-11-26
Anticipated expiration: 2039-06-28
Also published as: CN110504004B

Abstract

本发明提供了一种基于复杂网络结构可控性基因识别方法，在于构建可控性节点分类框架，将基因分成控制角色差异的不同类型，通过统计显著性识别新的基因，基于可控性节点分类框架的基因识别方法考虑了网络中的全局信息，从多个控制层面实现了基因的分类，并且将该框架应用于组织特异的调控网络中，能够系统性地检测出具有显著生物意义的基因，为进一步的基因研究提供工具平台。

Description

一种基于复杂网络结构可控性基因的识别方法

技术领域

本发明属于生物信息学领域，涉及一种基于复杂网络结构可控性基因识别方法。

背景技术

基因是决定生物外在表征的内在因素并具有重要的生物意义。对这些有生物意义的基因的鉴定有两种方法。第一种方法是实验技术，如基因敲除技术，通过使特定基因的功能丧失作用，观察生物体的生命活动是否出现异常，进而推测出该基因的生物功能。实验技术昂贵且耗时，而且并不适用于所有生物体。第二种方法是生物信息学计算方法，通过基于生物网络的计算方法来分析基因的重要性。与实验技术相比，计算方法更高效，也更便宜。随着高通量技术的发展，可以很容易获得大量的基因交互数据和表达数据，从而构建各类生物网络。因此，如何从生物网络中识别这些基因成为了研究的热点。

复杂网络的发展为生物基因的研究提供了新的思路。一个生物系统可以建模为一个复杂网络。以基因调控网络为例，最常用的网络建模为有向图。网络中的节点代表基因，节点之间的有向边代表基因间的调控关系。在计算方法上，大量基于复杂网络拓扑结构的方法已经被广泛研究。这些方法大多通过度量网络节点的中心性来识别重要基因。最典型的是度中心性方法，一个节点的度中心性被定义为与之直接相连的节点的个数，根据中心性致命性规则，基因的度越大认为该基因越重要。据此对网络中的基因进行排序，排名靠前的基因作为候选基因。这些方法在不同的网络中有着一定的有效性，但是考虑的信息比较局限，忽略了节点的邻居节点之间的相互作用，因此在很大程度上对于复杂的网络不适应。

发明内容

本发明的目的提供一种基于复杂网络结构可控性基因识别方法，在于构建可控性节点分类框架，将基因分成控制角色差异的不同类型，通过统计显著性识别新的基因。

一种基于复杂网络结构可控性基因识别方法，包括如下步骤：

步骤1：读取组织特异调控网络的数据

原始数据中每行包含两列数据，分别表示调控基因和被调控基因；

步骤2：利用四种不同的节点分类方法分别对网络中的节点做分类

第一种是基于可控性的节点分类方法；

第二种是基于控制能力的节点分类方法；

第三种是基于控制功能来源的节点分类方法；

第四种是基于控制边鲁棒性的节点分类方法；

步骤3：将步骤2中四种分类结果结合起来，对网络中的每个节点的类型用一个四维向量来表示，形成可控性节点分类框架；

步骤4：在多个金标准数据集上利用统计显著性公式找出一类具有显著生物意义的基因作为候选基因；

步骤5：利用相关性度量指标从步骤4中的候选基因中筛选出特异基因。

步骤1具体为：

读取组织t的基因调控网络数据，原始网络数据包含两列，第一列是调控基因第二列是被调控基因，进行ID映射以及转化为邻接矩阵并保存。用N×N阶的邻接矩阵A＝(a_ij)_N×N来表示：

其中，＜i,j＞表示网络中基因i调控基因j的一条有向边，E是网络中的边集。

步骤2中，

根据基于可控性的节点分类方法，将网络中的节点分为三种类型，即c_r＝{0,1,2}。实现步骤如下：

a.对于原始网络N，利用匈牙利算法计算控制网络所需的最小驱动节点集的大小，记为N_D；

b.删除网络N中的节点i以及节点i所有的连边关系，得到新的的网络N'；

c.对于网络N'，利用匈牙利算法计算控制网络所需的最小驱动节点集的大小，记为N_D'；

d.若N_D'>N_D，节点i的类型c_r记为0；若N_D'<N_D，节点i的类型 c_r记为1；若N_D'＝N_D，节点i的类型c_r记为2；

e.重复步骤(b)到(d)，直到得到网络N中所有节点的类型。

步骤2中，

根据基于控制能力的节点分类方法，将网络中的节点分为三种类型，即c_c＝{0,1,2}。节点i的控制能力的定义如下：

其中，∑MDS(i)是包含节点i的不同最小驱动节点集的个数，∑MDS是所有最小驱动节点集个数。

a.若φ(i)＝1，即节点i在所有的最小驱动节点集中都出现，节点i 的类型c_c记为0。

b.若φ(i)＝0，即节点i在所有的最小驱动节点集中都不出现，节点i的类型c_c记为1。

c.若0＜φ(i)＜1，即节点i在部分的最小驱动节点集中出现，节点 i的类型c_c记为2。

已有研究证明，φ(i)＝1的节点的充要条件是入度为零，因此只需找出φ(i)＝0的节点，剩余的节点为0＜φ(i)＜1。φ(i)＝0的节点是二分图中始终匹配的节点，具体识别过程如下：

a)利用匈牙利算法获取网络的一个最大匹配MMS，并将二分图的in集合中的匹配点集合记为M；

b)随机选择M中的一个节点i，找出out集合中与节点i匹配的节点j；

c)暂时删除节点i及其匹配的边，检查是否存在从节点j开始，在未匹配节点处结束的增广路径；

d)如果没有增广路径，说明节点i总是匹配的。否则，节点i 是可替换的。

步骤2中，

根据基于控制功能来源的节点分类方法，将网络中的节点分为三种类型，即c_s＝{0,1,2}。

a.若网络中节点i的入度为零，则节点i的类型c_s记为0。

b.若网络中节点i的出度为零，则节点i的类型c_s记为1。

c.若网络中节点i的入度和出度均不为零，则节点i的类型c_s记为 2。

6.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法，其特征在于，所述步骤2中，

根据基于控制边鲁棒性的节点分类方法，将网络中的节点分为四种类型，即c_l＝{0,1,2,3}。首先给出critical边的识别过程：

b.删除网络中的连边e，得到新的的网络N'；

d.若N_D'＞N_D，则边e的类型记为critical类型；否则为其他类型。

然后给出节点的分类方法：

a)若网络中节点i有critical类型的输入边和输出边，则节点i 的类型c_l记为0。

b)若网络中节点i只有critical类型的输出边，则节点i的类型c_l记为1。

c)若网络中节点i只有critical类型的输入边，则节点i的类型c_l记为2。

d)若网络中节点i没有critical类型的边，则节点i的类型c_l记为 3。

步骤3具体为：

构建四维向量，形成可控性节点分类框架，根据上述四种节点分类方法，将网络中的节点类型用一个四维向量来表示c_i＝(c_r,c_c,c_s,c_l)。

步骤4具体为：

根据统计显著性公式计算每种类型的基因所具有的的生物意义，公式如下：

其中，N表示网络中的基因总数，M表示该网络中属于某类金标准数据集的基因总数，n表示通过可控性节点分类框架得到的属于同一类型的基因集合，k表示n中属于M的基因数。p值小于0.05表示具有统计意义，p值小于0.01表示显著富集。

步骤5具体为：

识别出组织t上的d的特异基因。识别步骤如下：

a.在组织网络t上分别识别出一组(2,2,2,3)类型的基因作为候选基因和d的模块；

b.对于候选基因中的每一个基因i，计算基因i与模块的相关性，计算公式如下：

其中，edge(i,d)表示d所在网络中基因i和模块d的连边数目， edge(i,rand)表示该网络中基因i和随机模块rand的连边数目，实验产生个10000随机模块来模拟计算edge(i,d)的平均值和标准差。

c.对于相关性大于阈值2.0的基因作为d的特异基因。

本发明的有益效果为：基于可控性节点分类框架的基因识别方法考虑了网络中的全局信息，从多个控制层面实现了基因的分类，并且将该框架应用于组织特异的调控网络中，能够系统性地检测出具有显著生物意义的基因，为进一步的基因研究提供工具平台。

附图说明

图1是本发明一种基于复杂网络结构可控性基因识别方法基于可控性的节点分类方法流程图；

图2是本发明一种基于复杂网络结构可控性基因识别方法基于控制能力的节点分类方法流程图；

图3是本发明一种基于复杂网络结构可控性基因识别方法基于控制功能来源的节点分类方法流程图；

图4是本发明一种基于复杂网络结构可控性基因识别方法基于控制边鲁棒性的节点分类方法流程图；

图5是本发明一种基于复杂网络结构可控性基因识别方法整体算法流程图；

图6是本发明一种基于复杂网络结构可控性基因识别方法实施例原始网络数据图；

图7是本发明一种基于复杂网络结构可控性基因识别方法实施例每个基因的ID；

图8是本发明一种基于复杂网络结构可控性基因识别方法实施例中ID映射结果；

图9是本发明一种基于复杂网络结构可控性基因识别方法实施例中将网络存储为邻接矩阵的结果；

图10是本发明一种基于复杂网络结构可控性基因识别方法实施例中将基因类型用一个四维向量表示；

图11是本发明一种基于复杂网络结构可控性基因识别方法实施例中显著生物意义的基因类型；

图12是本发明一种基于复杂网络结构可控性基因识别方法实施例中为不同基因类型在8个金标准数据集上的p值；

图13是本发明一种基于复杂网络结构可控性基因识别方法实施例根据分类方法得到的(2,2,2,3)类型的基因；

图14是本发明一种基于复杂网络结构可控性基因识别方法实施例中筛选出的特异基因。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

一种基于复杂网络结构可控性基因识别方法，如图5所示，包括如下步骤：

步骤1：读取组织特异调控网络的数据

第一种是基于可控性的节点分类方法；

第二种是基于控制能力的节点分类方法；

第三种是基于控制功能来源的节点分类方法；

第四种是基于控制边鲁棒性的节点分类方法；

步骤1具体为：

步骤2中，

e.重复步骤(b)到(d)，直到得到网络N中所有节点的类型。

步骤2中，

c.若0＜φ(i)＜1，即节点i在部分的最小驱动节点集中出现，节点i的类型c_c记为2。

步骤2中，

a.若网络中节点i的入度为零，则节点i的类型c_s记为0。

b.若网络中节点i的出度为零，则节点i的类型c_s记为1。

步骤2中，

b.删除网络中的连边e，得到新的的网络N'；

然后给出节点的分类方法：

步骤3具体为：

步骤4具体为：

步骤5具体为：

识别出组织t上的d的特异基因。识别步骤如下：

c.对于相关性大于阈值2.0的基因作为d的特异基因。

基于复杂网络结构可控性的基因识别方法实例

下面通过对一个组织的基因调控网络的操作实例来说明基于复杂网络结构可控性的基因识别方法的实现过程。

首先在matlab中读入原始网络数据，并对数据做ID映射处理和邻接矩阵保存。图6是原始网络数据，第一列是调控基因，第二列是被调控基因；图7是每个基因的ID；图8是ID映射结果；图9是将网络存储为邻接矩阵的结果。

结果如图10所示，第一列是基因，第二列是执行步骤2的分类结果，第三列是执行步骤3的分类结果，第四列是执行步骤4的分类结果，第五列是执行步骤5的分类结果，最终的基因类型用一个四维向量表示。

实验结果显示将网络中的基因分成了10类，得到每种类型的基因在多个金标准数据集上的统计显著性结果，找出一类新的有显著生物意义的基因类型，即(2,2,2,3)类型，如图11所示。

图12为不同基因类型在8个金标准数据集上的p值

将得到的组织网络上的(2,2,2,3)类型的基因作为候选基因。根据基因度量指标，从候选基因中筛选出所需基因，即特异基因。结果如图：图13是根据分类方法得到的(2,2,2,3)类型的基因，图14是筛选出的特异基因。

Claims

1.一种基于复杂网络结构可控性基因识别方法，其特征在于，包括如下步骤：

步骤1：读取组织特异调控网络的数据

第一种是基于可控性的节点分类方法；

第二种是基于控制能力的节点分类方法；

第三种是基于控制功能来源的节点分类方法；

第四种是基于控制边鲁棒性的节点分类方法；

2.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法，其特征在于，所述步骤1具体为：

3.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法，其特征在于，所述步骤2中，

d.若N_D'>N_D，节点i的类型c_r记为0；若N_D'<N_D，节点i的类型c_r记为1；若N_D'＝N_D，节点i的类型c_r记为2；

e.重复步骤(b)到(d)，直到得到网络N中所有节点的类型。

4.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法，其特征在于，所述步骤2中，

a.若φ(i)＝1，即节点i在所有的最小驱动节点集中都出现，节点i的类型c_c记为0。

d)如果没有增广路径，说明节点i总是匹配的。否则，节点i是可替换的。

5.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法，其特征在于，所述步骤2中，

a.若网络中节点i的入度为零，则节点i的类型c_s记为0。

b.若网络中节点i的出度为零，则节点i的类型c_s记为1。

c.若网络中节点i的入度和出度均不为零，则节点i的类型c_s记为2。

b.删除网络中的连边e，得到新的的网络N'；

然后给出节点的分类方法：

a)若网络中节点i有critical类型的输入边和输出边，则节点i的类型c_l记为0。

d)若网络中节点i没有critical类型的边，则节点i的类型c_l记为3。

7.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法，其特征在于，所述步骤3具体为：

8.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法，其特征在于，所述步骤4具体为：

其中，N表示网络中的基因总数，M表示金标准数据集的基因总数，n表示属于同一类型的基因集合，k表示n中属于M的基因数。p值小于0.05表示具有统计意义，p值小于0.01表示显著富集。

9.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法，其特征在于，所述步骤5具体为：

识别出组织t上的d的特异基因。识别步骤如下：

其中，edge(i,d)表示d所在网络中基因i和模块d的连边数目，edge(i,rand)表示该网络中基因i和随机模块rand的连边数目，实验产生个10000随机模块来模拟计算edge(i,d)的平均值和标准差。

c.对于相关性大于阈值2.0的基因作为d的特异基因。