CN110504004A - 一种基于复杂网络结构可控性基因的识别方法 - Google Patents
一种基于复杂网络结构可控性基因的识别方法 Download PDFInfo
- Publication number
- CN110504004A CN110504004A CN201910576809.1A CN201910576809A CN110504004A CN 110504004 A CN110504004 A CN 110504004A CN 201910576809 A CN201910576809 A CN 201910576809A CN 110504004 A CN110504004 A CN 110504004A
- Authority
- CN
- China
- Prior art keywords
- node
- network
- gene
- type
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 157
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000001105 regulatory effect Effects 0.000 claims abstract description 22
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 5
- 230000008520 organization Effects 0.000 claims description 5
- 108700005075 Regulator Genes Proteins 0.000 claims description 4
- 230000003416 augmentation Effects 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 3
- 230000002068 genetic effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 3
- 238000000205 computational method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003209 gene knockout Methods 0.000 description 1
- 238000013090 high-throughput technology Methods 0.000 description 1
- 230000000415 inactivating effect Effects 0.000 description 1
- 231100000225 lethality Toxicity 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种基于复杂网络结构可控性基因识别方法,在于构建可控性节点分类框架,将基因分成控制角色差异的不同类型,通过统计显著性识别新的基因,基于可控性节点分类框架的基因识别方法考虑了网络中的全局信息,从多个控制层面实现了基因的分类,并且将该框架应用于组织特异的调控网络中,能够系统性地检测出具有显著生物意义的基因,为进一步的基因研究提供工具平台。
Description
技术领域
本发明属于生物信息学领域,涉及一种基于复杂网络结构可控性基因识别方法。
背景技术
基因是决定生物外在表征的内在因素并具有重要的生物意义。对这些有生物意义的基因的鉴定有两种方法。第一种方法是实验技术,如基因敲除技术,通过使特定基因的功能丧失作用,观察生物体的生命活动是否出现异常,进而推测出该基因的生物功能。实验技术昂贵且耗时,而且并不适用于所有生物体。第二种方法是生物信息学计算方法,通过基于生物网络的计算方法来分析基因的重要性。与实验技术相比,计算方法更高效,也更便宜。随着高通量技术的发展,可以很容易获得大量的基因交互数据和表达数据,从而构建各类生物网络。因此,如何从生物网络中识别这些基因成为了研究的热点。
复杂网络的发展为生物基因的研究提供了新的思路。一个生物系统可以建模为一个复杂网络。以基因调控网络为例,最常用的网络建模为有向图。网络中的节点代表基因,节点之间的有向边代表基因间的调控关系。在计算方法上,大量基于复杂网络拓扑结构的方法已经被广泛研究。这些方法大多通过度量网络节点的中心性来识别重要基因。最典型的是度中心性方法,一个节点的度中心性被定义为与之直接相连的节点的个数,根据中心性致命性规则,基因的度越大认为该基因越重要。据此对网络中的基因进行排序,排名靠前的基因作为候选基因。这些方法在不同的网络中有着一定的有效性,但是考虑的信息比较局限,忽略了节点的邻居节点之间的相互作用,因此在很大程度上对于复杂的网络不适应。
发明内容
本发明的目的提供一种基于复杂网络结构可控性基因识别方法,在于构建可控性节点分类框架,将基因分成控制角色差异的不同类型,通过统计显著性识别新的基因。
一种基于复杂网络结构可控性基因识别方法,包括如下步骤:
步骤1:读取组织特异调控网络的数据
原始数据中每行包含两列数据,分别表示调控基因和被调控基因;
步骤2:利用四种不同的节点分类方法分别对网络中的节点做分类
第一种是基于可控性的节点分类方法;
第二种是基于控制能力的节点分类方法;
第三种是基于控制功能来源的节点分类方法;
第四种是基于控制边鲁棒性的节点分类方法;
步骤3:将步骤2中四种分类结果结合起来,对网络中的每个节点的类型用一个四维向量来表示,形成可控性节点分类框架;
步骤4:在多个金标准数据集上利用统计显著性公式找出一类具有显著生物意义的基因作为候选基因;
步骤5:利用相关性度量指标从步骤4中的候选基因中筛选出特异基因。
步骤1具体为:
读取组织t的基因调控网络数据,原始网络数据包含两列,第一列是调控基因第二列是被调控基因,进行ID映射以及转化为邻接矩阵并保存。用N×N阶的邻接矩阵A=(aij)N×N来表示:
其中,<i,j>表示网络中基因i调控基因j的一条有向边,E是网络中的边集。
步骤2中,
根据基于可控性的节点分类方法,将网络中的节点分为三种类型,即cr={0,1,2}。实现步骤如下:
a.对于原始网络N,利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND;
b.删除网络N中的节点i以及节点i所有的连边关系,得到新的的网络N';
c.对于网络N',利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND';
d.若ND'>ND,节点i的类型cr记为0;若ND'<ND,节点i的类型 cr记为1;若ND'=ND,节点i的类型cr记为2;
e.重复步骤(b)到(d),直到得到网络N中所有节点的类型。
步骤2中,
根据基于控制能力的节点分类方法,将网络中的节点分为三种类型,即cc={0,1,2}。节点i的控制能力的定义如下:
其中,∑MDS(i)是包含节点i的不同最小驱动节点集的个数,∑MDS是所有最小驱动节点集个数。
a.若φ(i)=1,即节点i在所有的最小驱动节点集中都出现,节点i 的类型cc记为0。
b.若φ(i)=0,即节点i在所有的最小驱动节点集中都不出现,节点i的类型cc记为1。
c.若0<φ(i)<1,即节点i在部分的最小驱动节点集中出现,节点 i的类型cc记为2。
已有研究证明,φ(i)=1的节点的充要条件是入度为零,因此只需找出φ(i)=0的节点,剩余的节点为0<φ(i)<1。φ(i)=0的节点是二分图中始终匹配的节点,具体识别过程如下:
a)利用匈牙利算法获取网络的一个最大匹配MMS,并将二分图的in集合中的匹配点集合记为M;
b)随机选择M中的一个节点i,找出out集合中与节点i匹配的节点j;
c)暂时删除节点i及其匹配的边,检查是否存在从节点j开始,在未匹配节点处结束的增广路径;
d)如果没有增广路径,说明节点i总是匹配的。否则,节点i 是可替换的。
步骤2中,
根据基于控制功能来源的节点分类方法,将网络中的节点分为三种类型,即cs={0,1,2}。
a.若网络中节点i的入度为零,则节点i的类型cs记为0。
b.若网络中节点i的出度为零,则节点i的类型cs记为1。
c.若网络中节点i的入度和出度均不为零,则节点i的类型cs记为 2。
6.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤2中,
根据基于控制边鲁棒性的节点分类方法,将网络中的节点分为四种类型,即cl={0,1,2,3}。首先给出critical边的识别过程:
a.对于原始网络N,利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND;
b.删除网络中的连边e,得到新的的网络N';
c.对于网络N',利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND';
d.若ND'>ND,则边e的类型记为critical类型;否则为其他类型。
然后给出节点的分类方法:
a)若网络中节点i有critical类型的输入边和输出边,则节点i 的类型cl记为0。
b)若网络中节点i只有critical类型的输出边,则节点i的类型cl记为1。
c)若网络中节点i只有critical类型的输入边,则节点i的类型cl记为2。
d)若网络中节点i没有critical类型的边,则节点i的类型cl记为 3。
步骤3具体为:
构建四维向量,形成可控性节点分类框架,根据上述四种节点分类方法,将网络中的节点类型用一个四维向量来表示ci=(cr,cc,cs,cl)。
步骤4具体为:
根据统计显著性公式计算每种类型的基因所具有的的生物意义,公式如下:
其中,N表示网络中的基因总数,M表示该网络中属于某类金标准数据集的基因总数,n表示通过可控性节点分类框架得到的属于同一类型的基因集合,k表示n中属于M的基因数。p值小于0.05表示具有统计意义,p值小于0.01表示显著富集。
步骤5具体为:
识别出组织t上的d的特异基因。识别步骤如下:
a.在组织网络t上分别识别出一组(2,2,2,3)类型的基因作为候选基因和d的模块;
b.对于候选基因中的每一个基因i,计算基因i与模块的相关性,计算公式如下:
其中,edge(i,d)表示d所在网络中基因i和模块d的连边数目, edge(i,rand)表示该网络中基因i和随机模块rand的连边数目,实验产生个10000随机模块来模拟计算edge(i,d)的平均值和标准差。
c.对于相关性大于阈值2.0的基因作为d的特异基因。
本发明的有益效果为:基于可控性节点分类框架的基因识别方法考虑了网络中的全局信息,从多个控制层面实现了基因的分类,并且将该框架应用于组织特异的调控网络中,能够系统性地检测出具有显著生物意义的基因,为进一步的基因研究提供工具平台。
附图说明
图1是本发明一种基于复杂网络结构可控性基因识别方法基于可控性的节点分类方法流程图;
图2是本发明一种基于复杂网络结构可控性基因识别方法基于控制能力的节点分类方法流程图;
图3是本发明一种基于复杂网络结构可控性基因识别方法基于控制功能来源的节点分类方法流程图;
图4是本发明一种基于复杂网络结构可控性基因识别方法基于控制边鲁棒性的节点分类方法流程图;
图5是本发明一种基于复杂网络结构可控性基因识别方法整体算法流程图;
图6是本发明一种基于复杂网络结构可控性基因识别方法实施例原始网络数据图;
图7是本发明一种基于复杂网络结构可控性基因识别方法实施例每个基因的ID;
图8是本发明一种基于复杂网络结构可控性基因识别方法实施例中ID映射结果;
图9是本发明一种基于复杂网络结构可控性基因识别方法实施例中将网络存储为邻接矩阵的结果;
图10是本发明一种基于复杂网络结构可控性基因识别方法实施例中将基因类型用一个四维向量表示;
图11是本发明一种基于复杂网络结构可控性基因识别方法实施例中显著生物意义的基因类型;
图12是本发明一种基于复杂网络结构可控性基因识别方法实施例中为不同基因类型在8个金标准数据集上的p值;
图13是本发明一种基于复杂网络结构可控性基因识别方法实施例根据分类方法得到的(2,2,2,3)类型的基因;
图14是本发明一种基于复杂网络结构可控性基因识别方法实施例中筛选出的特异基因。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种基于复杂网络结构可控性基因识别方法,如图5所示,包括如下步骤:
步骤1:读取组织特异调控网络的数据
原始数据中每行包含两列数据,分别表示调控基因和被调控基因;
步骤2:利用四种不同的节点分类方法分别对网络中的节点做分类
第一种是基于可控性的节点分类方法;
第二种是基于控制能力的节点分类方法;
第三种是基于控制功能来源的节点分类方法;
第四种是基于控制边鲁棒性的节点分类方法;
步骤3:将步骤2中四种分类结果结合起来,对网络中的每个节点的类型用一个四维向量来表示,形成可控性节点分类框架;
步骤4:在多个金标准数据集上利用统计显著性公式找出一类具有显著生物意义的基因作为候选基因;
步骤5:利用相关性度量指标从步骤4中的候选基因中筛选出特异基因。
步骤1具体为:
读取组织t的基因调控网络数据,原始网络数据包含两列,第一列是调控基因第二列是被调控基因,进行ID映射以及转化为邻接矩阵并保存。用N×N阶的邻接矩阵A=(aij)N×N来表示:
其中,<i,j>表示网络中基因i调控基因j的一条有向边,E是网络中的边集。
步骤2中,
根据基于可控性的节点分类方法,将网络中的节点分为三种类型,即cr={0,1,2}。实现步骤如下:
a.对于原始网络N,利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND;
b.删除网络N中的节点i以及节点i所有的连边关系,得到新的的网络N';
c.对于网络N',利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND';
d.若ND'>ND,节点i的类型cr记为0;若ND'<ND,节点i的类型 cr记为1;若ND'=ND,节点i的类型cr记为2;
e.重复步骤(b)到(d),直到得到网络N中所有节点的类型。
步骤2中,
根据基于控制能力的节点分类方法,将网络中的节点分为三种类型,即cc={0,1,2}。节点i的控制能力的定义如下:
其中,∑MDS(i)是包含节点i的不同最小驱动节点集的个数,∑MDS是所有最小驱动节点集个数。
a.若φ(i)=1,即节点i在所有的最小驱动节点集中都出现,节点i 的类型cc记为0。
b.若φ(i)=0,即节点i在所有的最小驱动节点集中都不出现,节点i的类型cc记为1。
c.若0<φ(i)<1,即节点i在部分的最小驱动节点集中出现,节点i的类型cc记为2。
已有研究证明,φ(i)=1的节点的充要条件是入度为零,因此只需找出φ(i)=0的节点,剩余的节点为0<φ(i)<1。φ(i)=0的节点是二分图中始终匹配的节点,具体识别过程如下:
a)利用匈牙利算法获取网络的一个最大匹配MMS,并将二分图的in集合中的匹配点集合记为M;
b)随机选择M中的一个节点i,找出out集合中与节点i匹配的节点j;
c)暂时删除节点i及其匹配的边,检查是否存在从节点j开始,在未匹配节点处结束的增广路径;
d)如果没有增广路径,说明节点i总是匹配的。否则,节点i 是可替换的。
步骤2中,
根据基于控制功能来源的节点分类方法,将网络中的节点分为三种类型,即cs={0,1,2}。
a.若网络中节点i的入度为零,则节点i的类型cs记为0。
b.若网络中节点i的出度为零,则节点i的类型cs记为1。
c.若网络中节点i的入度和出度均不为零,则节点i的类型cs记为 2。
步骤2中,
根据基于控制边鲁棒性的节点分类方法,将网络中的节点分为四种类型,即cl={0,1,2,3}。首先给出critical边的识别过程:
a.对于原始网络N,利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND;
b.删除网络中的连边e,得到新的的网络N';
c.对于网络N',利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND';
d.若ND'>ND,则边e的类型记为critical类型;否则为其他类型。
然后给出节点的分类方法:
a)若网络中节点i有critical类型的输入边和输出边,则节点i 的类型cl记为0。
b)若网络中节点i只有critical类型的输出边,则节点i的类型cl记为1。
c)若网络中节点i只有critical类型的输入边,则节点i的类型cl记为2。
d)若网络中节点i没有critical类型的边,则节点i的类型cl记为 3。
步骤3具体为:
构建四维向量,形成可控性节点分类框架,根据上述四种节点分类方法,将网络中的节点类型用一个四维向量来表示ci=(cr,cc,cs,cl)。
步骤4具体为:
根据统计显著性公式计算每种类型的基因所具有的的生物意义,公式如下:
其中,N表示网络中的基因总数,M表示该网络中属于某类金标准数据集的基因总数,n表示通过可控性节点分类框架得到的属于同一类型的基因集合,k表示n中属于M的基因数。p值小于0.05表示具有统计意义,p值小于0.01表示显著富集。
步骤5具体为:
识别出组织t上的d的特异基因。识别步骤如下:
a.在组织网络t上分别识别出一组(2,2,2,3)类型的基因作为候选基因和d的模块;
b.对于候选基因中的每一个基因i,计算基因i与模块的相关性,计算公式如下:
其中,edge(i,d)表示d所在网络中基因i和模块d的连边数目, edge(i,rand)表示该网络中基因i和随机模块rand的连边数目,实验产生个10000随机模块来模拟计算edge(i,d)的平均值和标准差。
c.对于相关性大于阈值2.0的基因作为d的特异基因。
基于复杂网络结构可控性的基因识别方法实例
下面通过对一个组织的基因调控网络的操作实例来说明基于复杂网络结构可控性的基因识别方法的实现过程。
首先在matlab中读入原始网络数据,并对数据做ID映射处理和邻接矩阵保存。图6是原始网络数据,第一列是调控基因,第二列是被调控基因;图7是每个基因的ID;图8是ID映射结果;图9是将网络存储为邻接矩阵的结果。
结果如图10所示,第一列是基因,第二列是执行步骤2的分类结果,第三列是执行步骤3的分类结果,第四列是执行步骤4的分类结果,第五列是执行步骤5的分类结果,最终的基因类型用一个四维向量表示。
实验结果显示将网络中的基因分成了10类,得到每种类型的基因在多个金标准数据集上的统计显著性结果,找出一类新的有显著生物意义的基因类型,即(2,2,2,3)类型,如图11所示。
图12为不同基因类型在8个金标准数据集上的p值
将得到的组织网络上的(2,2,2,3)类型的基因作为候选基因。根据基因度量指标,从候选基因中筛选出所需基因,即特异基因。结果如图:图13是根据分类方法得到的(2,2,2,3)类型的基因,图14是筛选出的特异基因。
Claims (9)
1.一种基于复杂网络结构可控性基因识别方法,其特征在于,包括如下步骤:
步骤1:读取组织特异调控网络的数据
原始数据中每行包含两列数据,分别表示调控基因和被调控基因;
步骤2:利用四种不同的节点分类方法分别对网络中的节点做分类
第一种是基于可控性的节点分类方法;
第二种是基于控制能力的节点分类方法;
第三种是基于控制功能来源的节点分类方法;
第四种是基于控制边鲁棒性的节点分类方法;
步骤3:将步骤2中四种分类结果结合起来,对网络中的每个节点的类型用一个四维向量来表示,形成可控性节点分类框架;
步骤4:在多个金标准数据集上利用统计显著性公式找出一类具有显著生物意义的基因作为候选基因;
步骤5:利用相关性度量指标从步骤4中的候选基因中筛选出特异基因。
2.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤1具体为:
读取组织t的基因调控网络数据,原始网络数据包含两列,第一列是调控基因第二列是被调控基因,进行ID映射以及转化为邻接矩阵并保存。用N×N阶的邻接矩阵A=(aij)N×N来表示:
其中,<i,j>表示网络中基因i调控基因j的一条有向边,E是网络中的边集。
3.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤2中,
根据基于可控性的节点分类方法,将网络中的节点分为三种类型,即cr={0,1,2}。实现步骤如下:
a.对于原始网络N,利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND;
b.删除网络N中的节点i以及节点i所有的连边关系,得到新的的网络N';
c.对于网络N',利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND';
d.若ND'>ND,节点i的类型cr记为0;若ND'<ND,节点i的类型cr记为1;若ND'=ND,节点i的类型cr记为2;
e.重复步骤(b)到(d),直到得到网络N中所有节点的类型。
4.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤2中,
根据基于控制能力的节点分类方法,将网络中的节点分为三种类型,即cc={0,1,2}。节点i的控制能力的定义如下:
其中,∑MDS(i)是包含节点i的不同最小驱动节点集的个数,∑MDS是所有最小驱动节点集个数。
a.若φ(i)=1,即节点i在所有的最小驱动节点集中都出现,节点i的类型cc记为0。
b.若φ(i)=0,即节点i在所有的最小驱动节点集中都不出现,节点i的类型cc记为1。
c.若0<φ(i)<1,即节点i在部分的最小驱动节点集中出现,节点i的类型cc记为2。
已有研究证明,φ(i)=1的节点的充要条件是入度为零,因此只需找出φ(i)=0的节点,剩余的节点为0<φ(i)<1。φ(i)=0的节点是二分图中始终匹配的节点,具体识别过程如下:
a)利用匈牙利算法获取网络的一个最大匹配MMS,并将二分图的in集合中的匹配点集合记为M;
b)随机选择M中的一个节点i,找出out集合中与节点i匹配的节点j;
c)暂时删除节点i及其匹配的边,检查是否存在从节点j开始,在未匹配节点处结束的增广路径;
d)如果没有增广路径,说明节点i总是匹配的。否则,节点i是可替换的。
5.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤2中,
根据基于控制功能来源的节点分类方法,将网络中的节点分为三种类型,即cs={0,1,2}。
a.若网络中节点i的入度为零,则节点i的类型cs记为0。
b.若网络中节点i的出度为零,则节点i的类型cs记为1。
c.若网络中节点i的入度和出度均不为零,则节点i的类型cs记为2。
6.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤2中,
根据基于控制边鲁棒性的节点分类方法,将网络中的节点分为四种类型,即cl={0,1,2,3}。首先给出critical边的识别过程:
a.对于原始网络N,利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND;
b.删除网络中的连边e,得到新的的网络N';
c.对于网络N',利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND';
d.若ND'>ND,则边e的类型记为critical类型;否则为其他类型。
然后给出节点的分类方法:
a)若网络中节点i有critical类型的输入边和输出边,则节点i的类型cl记为0。
b)若网络中节点i只有critical类型的输出边,则节点i的类型cl记为1。
c)若网络中节点i只有critical类型的输入边,则节点i的类型cl记为2。
d)若网络中节点i没有critical类型的边,则节点i的类型cl记为3。
7.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤3具体为:
构建四维向量,形成可控性节点分类框架,根据上述四种节点分类方法,将网络中的节点类型用一个四维向量来表示ci=(cr,cc,cs,cl)。
8.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤4具体为:
根据统计显著性公式计算每种类型的基因所具有的的生物意义,公式如下:
其中,N表示网络中的基因总数,M表示金标准数据集的基因总数,n表示属于同一类型的基因集合,k表示n中属于M的基因数。p值小于0.05表示具有统计意义,p值小于0.01表示显著富集。
9.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤5具体为:
识别出组织t上的d的特异基因。识别步骤如下:
a.在组织网络t上分别识别出一组(2,2,2,3)类型的基因作为候选基因和d的模块;
b.对于候选基因中的每一个基因i,计算基因i与模块的相关性,计算公式如下:
其中,edge(i,d)表示d所在网络中基因i和模块d的连边数目,edge(i,rand)表示该网络中基因i和随机模块rand的连边数目,实验产生个10000随机模块来模拟计算edge(i,d)的平均值和标准差。
c.对于相关性大于阈值2.0的基因作为d的特异基因。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910576809.1A CN110504004B (zh) | 2019-06-28 | 2019-06-28 | 一种基于复杂网络结构可控性基因的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910576809.1A CN110504004B (zh) | 2019-06-28 | 2019-06-28 | 一种基于复杂网络结构可控性基因的识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110504004A true CN110504004A (zh) | 2019-11-26 |
CN110504004B CN110504004B (zh) | 2022-02-22 |
Family
ID=68586024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910576809.1A Active CN110504004B (zh) | 2019-06-28 | 2019-06-28 | 一种基于复杂网络结构可控性基因的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110504004B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632732A (zh) * | 2020-12-23 | 2021-04-09 | 航天信息股份有限公司 | 一种用于测评系统脆弱性的方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130245959A1 (en) * | 2012-03-14 | 2013-09-19 | Board Of Regents, The University Of Texas System | Computer-Implementable Algorithm for Biomarker Discovery Using Bipartite Networks |
CN104021199A (zh) * | 2014-06-16 | 2014-09-03 | 西安电子科技大学 | 基于节点支配能力相似性的功能模块检测方法 |
WO2017185834A1 (zh) * | 2016-04-27 | 2017-11-02 | 王�忠 | 识别生物分子网络中关键模块或关键节点的方法 |
CN108009061A (zh) * | 2017-12-04 | 2018-05-08 | 东北大学 | 一种改变复杂网络中节点控制类别的方法 |
CN108647487A (zh) * | 2018-04-13 | 2018-10-12 | 华东师范大学 | G蛋白偶联受体-配体相互作用关系的预测方法及预测系统 |
-
2019
- 2019-06-28 CN CN201910576809.1A patent/CN110504004B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130245959A1 (en) * | 2012-03-14 | 2013-09-19 | Board Of Regents, The University Of Texas System | Computer-Implementable Algorithm for Biomarker Discovery Using Bipartite Networks |
CN104021199A (zh) * | 2014-06-16 | 2014-09-03 | 西安电子科技大学 | 基于节点支配能力相似性的功能模块检测方法 |
WO2017185834A1 (zh) * | 2016-04-27 | 2017-11-02 | 王�忠 | 识别生物分子网络中关键模块或关键节点的方法 |
CN108009061A (zh) * | 2017-12-04 | 2018-05-08 | 东北大学 | 一种改变复杂网络中节点控制类别的方法 |
CN108647487A (zh) * | 2018-04-13 | 2018-10-12 | 华东师范大学 | G蛋白偶联受体-配体相互作用关系的预测方法及预测系统 |
Non-Patent Citations (2)
Title |
---|
LIU Y Y ,ET AL.: "Controllability of complex networks", 《NATURE》 * |
侯绿林: "复杂网络可控性研究现状综述", 《物理学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632732A (zh) * | 2020-12-23 | 2021-04-09 | 航天信息股份有限公司 | 一种用于测评系统脆弱性的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110504004B (zh) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Flagel et al. | The unreasonable effectiveness of convolutional neural networks in population genetic inference | |
US12046327B1 (en) | Identity-by-descent relatedness based on focal and reference segments | |
Zhang et al. | An end-to-end deep learning architecture for graph classification | |
Ciriello et al. | AlignNemo: a local network alignment method to integrate homology and topology | |
CN112925909B (zh) | 一种考虑局部不变性约束的图卷积文献分类方法及系统 | |
CN114091603A (zh) | 一种空间转录组细胞聚类、分析方法 | |
Wei et al. | CALLR: a semi-supervised cell-type annotation method for single-cell RNA sequencing data | |
Chang et al. | A general probabilistic framework for detecting community structure in networks | |
CN109727637B (zh) | 基于混合蛙跳算法识别关键蛋白质的方法 | |
CN116129992A (zh) | 基于图神经网络的基因调控网络构建方法及系统 | |
Xu et al. | Reconstruction of the protein-protein interaction network for protein complexes identification by walking on the protein pair fingerprints similarity network | |
CN118571328A (zh) | 一种基于图对比学习的单细胞多组学数据整合方法和系统 | |
Srivastava et al. | NetSeekR: a network analysis pipeline for RNA-Seq time series data | |
CN117912570B (zh) | 一种基于基因共表达网络的分类特征确定方法及系统 | |
CN110504004A (zh) | 一种基于复杂网络结构可控性基因的识别方法 | |
CN118887992A (zh) | 一种基于图网络的基因多组学数据融合分析方法及系统 | |
Mesa et al. | Hidden Markov models for gene sequence classification: Classifying the VSG gene in the Trypanosoma brucei genome | |
Alkan et al. | RedNemo: topology-based PPI network reconstruction via repeated diffusion with neighborhood modifications | |
CN107516020A (zh) | 序列位点重要度的确定方法、装置、设备及存储介质 | |
Cai et al. | Realize generative yet complete latent representation for incomplete multi-view learning | |
Zhu et al. | Generalized gene adjacencies, graph bandwidth, and clusters in yeast evolution | |
Romero et al. | Feature extraction using spectral clustering for gene function prediction using hierarchical multi-label classification | |
Grady | Efficient network domination for life science applications | |
Samee et al. | K4. Gene network construction and pathways analysis for high throughput microarrays | |
CN118098356A (zh) | 基于GraphSAGE的空间转录组解卷积确定细胞类型的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |