CN110504004A - 一种基于复杂网络结构可控性基因的识别方法 - Google Patents

一种基于复杂网络结构可控性基因的识别方法 Download PDF

Info

Publication number
CN110504004A
CN110504004A CN201910576809.1A CN201910576809A CN110504004A CN 110504004 A CN110504004 A CN 110504004A CN 201910576809 A CN201910576809 A CN 201910576809A CN 110504004 A CN110504004 A CN 110504004A
Authority
CN
China
Prior art keywords
node
gene
network
type
denoted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910576809.1A
Other languages
English (en)
Other versions
CN110504004B (zh
Inventor
金海燕
曹甜
王炳波
王婉宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201910576809.1A priority Critical patent/CN110504004B/zh
Publication of CN110504004A publication Critical patent/CN110504004A/zh
Application granted granted Critical
Publication of CN110504004B publication Critical patent/CN110504004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基于复杂网络结构可控性基因识别方法,在于构建可控性节点分类框架,将基因分成控制角色差异的不同类型,通过统计显著性识别新的基因,基于可控性节点分类框架的基因识别方法考虑了网络中的全局信息,从多个控制层面实现了基因的分类,并且将该框架应用于组织特异的调控网络中,能够系统性地检测出具有显著生物意义的基因,为进一步的基因研究提供工具平台。

Description

一种基于复杂网络结构可控性基因的识别方法
技术领域
本发明属于生物信息学领域,涉及一种基于复杂网络结构可控性基因识别方法。
背景技术
基因是决定生物外在表征的内在因素并具有重要的生物意义。对这些有生物意义的基因的鉴定有两种方法。第一种方法是实验技术,如基因敲除技术,通过使特定基因的功能丧失作用,观察生物体的生命活动是否出现异常,进而推测出该基因的生物功能。实验技术昂贵且耗时,而且并不适用于所有生物体。第二种方法是生物信息学计算方法,通过基于生物网络的计算方法来分析基因的重要性。与实验技术相比,计算方法更高效,也更便宜。随着高通量技术的发展,可以很容易获得大量的基因交互数据和表达数据,从而构建各类生物网络。因此,如何从生物网络中识别这些基因成为了研究的热点。
复杂网络的发展为生物基因的研究提供了新的思路。一个生物系统可以建模为一个复杂网络。以基因调控网络为例,最常用的网络建模为有向图。网络中的节点代表基因,节点之间的有向边代表基因间的调控关系。在计算方法上,大量基于复杂网络拓扑结构的方法已经被广泛研究。这些方法大多通过度量网络节点的中心性来识别重要基因。最典型的是度中心性方法,一个节点的度中心性被定义为与之直接相连的节点的个数,根据中心性致命性规则,基因的度越大认为该基因越重要。据此对网络中的基因进行排序,排名靠前的基因作为候选基因。这些方法在不同的网络中有着一定的有效性,但是考虑的信息比较局限,忽略了节点的邻居节点之间的相互作用,因此在很大程度上对于复杂的网络不适应。
发明内容
本发明的目的提供一种基于复杂网络结构可控性基因识别方法,在于构建可控性节点分类框架,将基因分成控制角色差异的不同类型,通过统计显著性识别新的基因。
一种基于复杂网络结构可控性基因识别方法,包括如下步骤:
步骤1:读取组织特异调控网络的数据
原始数据中每行包含两列数据,分别表示调控基因和被调控基因;
步骤2:利用四种不同的节点分类方法分别对网络中的节点做分类
第一种是基于可控性的节点分类方法;
第二种是基于控制能力的节点分类方法;
第三种是基于控制功能来源的节点分类方法;
第四种是基于控制边鲁棒性的节点分类方法;
步骤3:将步骤2中四种分类结果结合起来,对网络中的每个节点的类型用一个四维向量来表示,形成可控性节点分类框架;
步骤4:在多个金标准数据集上利用统计显著性公式找出一类具有显著生物意义的基因作为候选基因;
步骤5:利用相关性度量指标从步骤4中的候选基因中筛选出特异基因。
步骤1具体为:
读取组织t的基因调控网络数据,原始网络数据包含两列,第一列是调控基因第二列是被调控基因,进行ID映射以及转化为邻接矩阵并保存。用N×N阶的邻接矩阵A=(aij)N×N来表示:
其中,<i,j>表示网络中基因i调控基因j的一条有向边,E是网络中的边集。
步骤2中,
根据基于可控性的节点分类方法,将网络中的节点分为三种类型,即cr={0,1,2}。实现步骤如下:
a.对于原始网络N,利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND
b.删除网络N中的节点i以及节点i所有的连边关系,得到新的的网络N';
c.对于网络N',利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND';
d.若ND'>ND,节点i的类型cr记为0;若ND'<ND,节点i的类型 cr记为1;若ND'=ND,节点i的类型cr记为2;
e.重复步骤(b)到(d),直到得到网络N中所有节点的类型。
步骤2中,
根据基于控制能力的节点分类方法,将网络中的节点分为三种类型,即cc={0,1,2}。节点i的控制能力的定义如下:
其中,∑MDS(i)是包含节点i的不同最小驱动节点集的个数,∑MDS是所有最小驱动节点集个数。
a.若φ(i)=1,即节点i在所有的最小驱动节点集中都出现,节点i 的类型cc记为0。
b.若φ(i)=0,即节点i在所有的最小驱动节点集中都不出现,节点i的类型cc记为1。
c.若0<φ(i)<1,即节点i在部分的最小驱动节点集中出现,节点 i的类型cc记为2。
已有研究证明,φ(i)=1的节点的充要条件是入度为零,因此只需找出φ(i)=0的节点,剩余的节点为0<φ(i)<1。φ(i)=0的节点是二分图中始终匹配的节点,具体识别过程如下:
a)利用匈牙利算法获取网络的一个最大匹配MMS,并将二分图的in集合中的匹配点集合记为M;
b)随机选择M中的一个节点i,找出out集合中与节点i匹配的节点j;
c)暂时删除节点i及其匹配的边,检查是否存在从节点j开始,在未匹配节点处结束的增广路径;
d)如果没有增广路径,说明节点i总是匹配的。否则,节点i 是可替换的。
步骤2中,
根据基于控制功能来源的节点分类方法,将网络中的节点分为三种类型,即cs={0,1,2}。
a.若网络中节点i的入度为零,则节点i的类型cs记为0。
b.若网络中节点i的出度为零,则节点i的类型cs记为1。
c.若网络中节点i的入度和出度均不为零,则节点i的类型cs记为 2。
6.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤2中,
根据基于控制边鲁棒性的节点分类方法,将网络中的节点分为四种类型,即cl={0,1,2,3}。首先给出critical边的识别过程:
a.对于原始网络N,利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND
b.删除网络中的连边e,得到新的的网络N';
c.对于网络N',利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND';
d.若ND'>ND,则边e的类型记为critical类型;否则为其他类型。
然后给出节点的分类方法:
a)若网络中节点i有critical类型的输入边和输出边,则节点i 的类型cl记为0。
b)若网络中节点i只有critical类型的输出边,则节点i的类型cl记为1。
c)若网络中节点i只有critical类型的输入边,则节点i的类型cl记为2。
d)若网络中节点i没有critical类型的边,则节点i的类型cl记为 3。
步骤3具体为:
构建四维向量,形成可控性节点分类框架,根据上述四种节点分类方法,将网络中的节点类型用一个四维向量来表示ci=(cr,cc,cs,cl)。
步骤4具体为:
根据统计显著性公式计算每种类型的基因所具有的的生物意义,公式如下:
其中,N表示网络中的基因总数,M表示该网络中属于某类金标准数据集的基因总数,n表示通过可控性节点分类框架得到的属于同一类型的基因集合,k表示n中属于M的基因数。p值小于0.05表示具有统计意义,p值小于0.01表示显著富集。
步骤5具体为:
识别出组织t上的d的特异基因。识别步骤如下:
a.在组织网络t上分别识别出一组(2,2,2,3)类型的基因作为候选基因和d的模块;
b.对于候选基因中的每一个基因i,计算基因i与模块的相关性,计算公式如下:
其中,edge(i,d)表示d所在网络中基因i和模块d的连边数目, edge(i,rand)表示该网络中基因i和随机模块rand的连边数目,实验产生个10000随机模块来模拟计算edge(i,d)的平均值和标准差。
c.对于相关性大于阈值2.0的基因作为d的特异基因。
本发明的有益效果为:基于可控性节点分类框架的基因识别方法考虑了网络中的全局信息,从多个控制层面实现了基因的分类,并且将该框架应用于组织特异的调控网络中,能够系统性地检测出具有显著生物意义的基因,为进一步的基因研究提供工具平台。
附图说明
图1是本发明一种基于复杂网络结构可控性基因识别方法基于可控性的节点分类方法流程图;
图2是本发明一种基于复杂网络结构可控性基因识别方法基于控制能力的节点分类方法流程图;
图3是本发明一种基于复杂网络结构可控性基因识别方法基于控制功能来源的节点分类方法流程图;
图4是本发明一种基于复杂网络结构可控性基因识别方法基于控制边鲁棒性的节点分类方法流程图;
图5是本发明一种基于复杂网络结构可控性基因识别方法整体算法流程图;
图6是本发明一种基于复杂网络结构可控性基因识别方法实施例原始网络数据图;
图7是本发明一种基于复杂网络结构可控性基因识别方法实施例每个基因的ID;
图8是本发明一种基于复杂网络结构可控性基因识别方法实施例中ID映射结果;
图9是本发明一种基于复杂网络结构可控性基因识别方法实施例中将网络存储为邻接矩阵的结果;
图10是本发明一种基于复杂网络结构可控性基因识别方法实施例中将基因类型用一个四维向量表示;
图11是本发明一种基于复杂网络结构可控性基因识别方法实施例中显著生物意义的基因类型;
图12是本发明一种基于复杂网络结构可控性基因识别方法实施例中为不同基因类型在8个金标准数据集上的p值;
图13是本发明一种基于复杂网络结构可控性基因识别方法实施例根据分类方法得到的(2,2,2,3)类型的基因;
图14是本发明一种基于复杂网络结构可控性基因识别方法实施例中筛选出的特异基因。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种基于复杂网络结构可控性基因识别方法,如图5所示,包括如下步骤:
步骤1:读取组织特异调控网络的数据
原始数据中每行包含两列数据,分别表示调控基因和被调控基因;
步骤2:利用四种不同的节点分类方法分别对网络中的节点做分类
第一种是基于可控性的节点分类方法;
第二种是基于控制能力的节点分类方法;
第三种是基于控制功能来源的节点分类方法;
第四种是基于控制边鲁棒性的节点分类方法;
步骤3:将步骤2中四种分类结果结合起来,对网络中的每个节点的类型用一个四维向量来表示,形成可控性节点分类框架;
步骤4:在多个金标准数据集上利用统计显著性公式找出一类具有显著生物意义的基因作为候选基因;
步骤5:利用相关性度量指标从步骤4中的候选基因中筛选出特异基因。
步骤1具体为:
读取组织t的基因调控网络数据,原始网络数据包含两列,第一列是调控基因第二列是被调控基因,进行ID映射以及转化为邻接矩阵并保存。用N×N阶的邻接矩阵A=(aij)N×N来表示:
其中,<i,j>表示网络中基因i调控基因j的一条有向边,E是网络中的边集。
步骤2中,
根据基于可控性的节点分类方法,将网络中的节点分为三种类型,即cr={0,1,2}。实现步骤如下:
a.对于原始网络N,利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND
b.删除网络N中的节点i以及节点i所有的连边关系,得到新的的网络N';
c.对于网络N',利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND';
d.若ND'>ND,节点i的类型cr记为0;若ND'<ND,节点i的类型 cr记为1;若ND'=ND,节点i的类型cr记为2;
e.重复步骤(b)到(d),直到得到网络N中所有节点的类型。
步骤2中,
根据基于控制能力的节点分类方法,将网络中的节点分为三种类型,即cc={0,1,2}。节点i的控制能力的定义如下:
其中,∑MDS(i)是包含节点i的不同最小驱动节点集的个数,∑MDS是所有最小驱动节点集个数。
a.若φ(i)=1,即节点i在所有的最小驱动节点集中都出现,节点i 的类型cc记为0。
b.若φ(i)=0,即节点i在所有的最小驱动节点集中都不出现,节点i的类型cc记为1。
c.若0<φ(i)<1,即节点i在部分的最小驱动节点集中出现,节点i的类型cc记为2。
已有研究证明,φ(i)=1的节点的充要条件是入度为零,因此只需找出φ(i)=0的节点,剩余的节点为0<φ(i)<1。φ(i)=0的节点是二分图中始终匹配的节点,具体识别过程如下:
a)利用匈牙利算法获取网络的一个最大匹配MMS,并将二分图的in集合中的匹配点集合记为M;
b)随机选择M中的一个节点i,找出out集合中与节点i匹配的节点j;
c)暂时删除节点i及其匹配的边,检查是否存在从节点j开始,在未匹配节点处结束的增广路径;
d)如果没有增广路径,说明节点i总是匹配的。否则,节点i 是可替换的。
步骤2中,
根据基于控制功能来源的节点分类方法,将网络中的节点分为三种类型,即cs={0,1,2}。
a.若网络中节点i的入度为零,则节点i的类型cs记为0。
b.若网络中节点i的出度为零,则节点i的类型cs记为1。
c.若网络中节点i的入度和出度均不为零,则节点i的类型cs记为 2。
步骤2中,
根据基于控制边鲁棒性的节点分类方法,将网络中的节点分为四种类型,即cl={0,1,2,3}。首先给出critical边的识别过程:
a.对于原始网络N,利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND
b.删除网络中的连边e,得到新的的网络N';
c.对于网络N',利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND';
d.若ND'>ND,则边e的类型记为critical类型;否则为其他类型。
然后给出节点的分类方法:
a)若网络中节点i有critical类型的输入边和输出边,则节点i 的类型cl记为0。
b)若网络中节点i只有critical类型的输出边,则节点i的类型cl记为1。
c)若网络中节点i只有critical类型的输入边,则节点i的类型cl记为2。
d)若网络中节点i没有critical类型的边,则节点i的类型cl记为 3。
步骤3具体为:
构建四维向量,形成可控性节点分类框架,根据上述四种节点分类方法,将网络中的节点类型用一个四维向量来表示ci=(cr,cc,cs,cl)。
步骤4具体为:
根据统计显著性公式计算每种类型的基因所具有的的生物意义,公式如下:
其中,N表示网络中的基因总数,M表示该网络中属于某类金标准数据集的基因总数,n表示通过可控性节点分类框架得到的属于同一类型的基因集合,k表示n中属于M的基因数。p值小于0.05表示具有统计意义,p值小于0.01表示显著富集。
步骤5具体为:
识别出组织t上的d的特异基因。识别步骤如下:
a.在组织网络t上分别识别出一组(2,2,2,3)类型的基因作为候选基因和d的模块;
b.对于候选基因中的每一个基因i,计算基因i与模块的相关性,计算公式如下:
其中,edge(i,d)表示d所在网络中基因i和模块d的连边数目, edge(i,rand)表示该网络中基因i和随机模块rand的连边数目,实验产生个10000随机模块来模拟计算edge(i,d)的平均值和标准差。
c.对于相关性大于阈值2.0的基因作为d的特异基因。
基于复杂网络结构可控性的基因识别方法实例
下面通过对一个组织的基因调控网络的操作实例来说明基于复杂网络结构可控性的基因识别方法的实现过程。
首先在matlab中读入原始网络数据,并对数据做ID映射处理和邻接矩阵保存。图6是原始网络数据,第一列是调控基因,第二列是被调控基因;图7是每个基因的ID;图8是ID映射结果;图9是将网络存储为邻接矩阵的结果。
结果如图10所示,第一列是基因,第二列是执行步骤2的分类结果,第三列是执行步骤3的分类结果,第四列是执行步骤4的分类结果,第五列是执行步骤5的分类结果,最终的基因类型用一个四维向量表示。
实验结果显示将网络中的基因分成了10类,得到每种类型的基因在多个金标准数据集上的统计显著性结果,找出一类新的有显著生物意义的基因类型,即(2,2,2,3)类型,如图11所示。
图12为不同基因类型在8个金标准数据集上的p值
将得到的组织网络上的(2,2,2,3)类型的基因作为候选基因。根据基因度量指标,从候选基因中筛选出所需基因,即特异基因。结果如图:图13是根据分类方法得到的(2,2,2,3)类型的基因,图14是筛选出的特异基因。

Claims (9)

1.一种基于复杂网络结构可控性基因识别方法,其特征在于,包括如下步骤:
步骤1:读取组织特异调控网络的数据
原始数据中每行包含两列数据,分别表示调控基因和被调控基因;
步骤2:利用四种不同的节点分类方法分别对网络中的节点做分类
第一种是基于可控性的节点分类方法;
第二种是基于控制能力的节点分类方法;
第三种是基于控制功能来源的节点分类方法;
第四种是基于控制边鲁棒性的节点分类方法;
步骤3:将步骤2中四种分类结果结合起来,对网络中的每个节点的类型用一个四维向量来表示,形成可控性节点分类框架;
步骤4:在多个金标准数据集上利用统计显著性公式找出一类具有显著生物意义的基因作为候选基因;
步骤5:利用相关性度量指标从步骤4中的候选基因中筛选出特异基因。
2.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤1具体为:
读取组织t的基因调控网络数据,原始网络数据包含两列,第一列是调控基因第二列是被调控基因,进行ID映射以及转化为邻接矩阵并保存。用N×N阶的邻接矩阵A=(aij)N×N来表示:
其中,<i,j>表示网络中基因i调控基因j的一条有向边,E是网络中的边集。
3.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤2中,
根据基于可控性的节点分类方法,将网络中的节点分为三种类型,即cr={0,1,2}。实现步骤如下:
a.对于原始网络N,利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND
b.删除网络N中的节点i以及节点i所有的连边关系,得到新的的网络N';
c.对于网络N',利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND';
d.若ND'>ND,节点i的类型cr记为0;若ND'<ND,节点i的类型cr记为1;若ND'=ND,节点i的类型cr记为2;
e.重复步骤(b)到(d),直到得到网络N中所有节点的类型。
4.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤2中,
根据基于控制能力的节点分类方法,将网络中的节点分为三种类型,即cc={0,1,2}。节点i的控制能力的定义如下:
其中,∑MDS(i)是包含节点i的不同最小驱动节点集的个数,∑MDS是所有最小驱动节点集个数。
a.若φ(i)=1,即节点i在所有的最小驱动节点集中都出现,节点i的类型cc记为0。
b.若φ(i)=0,即节点i在所有的最小驱动节点集中都不出现,节点i的类型cc记为1。
c.若0<φ(i)<1,即节点i在部分的最小驱动节点集中出现,节点i的类型cc记为2。
已有研究证明,φ(i)=1的节点的充要条件是入度为零,因此只需找出φ(i)=0的节点,剩余的节点为0<φ(i)<1。φ(i)=0的节点是二分图中始终匹配的节点,具体识别过程如下:
a)利用匈牙利算法获取网络的一个最大匹配MMS,并将二分图的in集合中的匹配点集合记为M;
b)随机选择M中的一个节点i,找出out集合中与节点i匹配的节点j;
c)暂时删除节点i及其匹配的边,检查是否存在从节点j开始,在未匹配节点处结束的增广路径;
d)如果没有增广路径,说明节点i总是匹配的。否则,节点i是可替换的。
5.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤2中,
根据基于控制功能来源的节点分类方法,将网络中的节点分为三种类型,即cs={0,1,2}。
a.若网络中节点i的入度为零,则节点i的类型cs记为0。
b.若网络中节点i的出度为零,则节点i的类型cs记为1。
c.若网络中节点i的入度和出度均不为零,则节点i的类型cs记为2。
6.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤2中,
根据基于控制边鲁棒性的节点分类方法,将网络中的节点分为四种类型,即cl={0,1,2,3}。首先给出critical边的识别过程:
a.对于原始网络N,利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND
b.删除网络中的连边e,得到新的的网络N';
c.对于网络N',利用匈牙利算法计算控制网络所需的最小驱动节点集的大小,记为ND';
d.若ND'>ND,则边e的类型记为critical类型;否则为其他类型。
然后给出节点的分类方法:
a)若网络中节点i有critical类型的输入边和输出边,则节点i的类型cl记为0。
b)若网络中节点i只有critical类型的输出边,则节点i的类型cl记为1。
c)若网络中节点i只有critical类型的输入边,则节点i的类型cl记为2。
d)若网络中节点i没有critical类型的边,则节点i的类型cl记为3。
7.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤3具体为:
构建四维向量,形成可控性节点分类框架,根据上述四种节点分类方法,将网络中的节点类型用一个四维向量来表示ci=(cr,cc,cs,cl)。
8.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤4具体为:
根据统计显著性公式计算每种类型的基因所具有的的生物意义,公式如下:
其中,N表示网络中的基因总数,M表示金标准数据集的基因总数,n表示属于同一类型的基因集合,k表示n中属于M的基因数。p值小于0.05表示具有统计意义,p值小于0.01表示显著富集。
9.根据权利要求1所述的一种基于复杂网络结构可控性基因识别方法,其特征在于,所述步骤5具体为:
识别出组织t上的d的特异基因。识别步骤如下:
a.在组织网络t上分别识别出一组(2,2,2,3)类型的基因作为候选基因和d的模块;
b.对于候选基因中的每一个基因i,计算基因i与模块的相关性,计算公式如下:
其中,edge(i,d)表示d所在网络中基因i和模块d的连边数目,edge(i,rand)表示该网络中基因i和随机模块rand的连边数目,实验产生个10000随机模块来模拟计算edge(i,d)的平均值和标准差。
c.对于相关性大于阈值2.0的基因作为d的特异基因。
CN201910576809.1A 2019-06-28 2019-06-28 一种基于复杂网络结构可控性基因的识别方法 Active CN110504004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910576809.1A CN110504004B (zh) 2019-06-28 2019-06-28 一种基于复杂网络结构可控性基因的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910576809.1A CN110504004B (zh) 2019-06-28 2019-06-28 一种基于复杂网络结构可控性基因的识别方法

Publications (2)

Publication Number Publication Date
CN110504004A true CN110504004A (zh) 2019-11-26
CN110504004B CN110504004B (zh) 2022-02-22

Family

ID=68586024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910576809.1A Active CN110504004B (zh) 2019-06-28 2019-06-28 一种基于复杂网络结构可控性基因的识别方法

Country Status (1)

Country Link
CN (1) CN110504004B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632732A (zh) * 2020-12-23 2021-04-09 航天信息股份有限公司 一种用于测评系统脆弱性的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130245959A1 (en) * 2012-03-14 2013-09-19 Board Of Regents, The University Of Texas System Computer-Implementable Algorithm for Biomarker Discovery Using Bipartite Networks
CN104021199A (zh) * 2014-06-16 2014-09-03 西安电子科技大学 基于节点支配能力相似性的功能模块检测方法
WO2017185834A1 (zh) * 2016-04-27 2017-11-02 王�忠 识别生物分子网络中关键模块或关键节点的方法
CN108009061A (zh) * 2017-12-04 2018-05-08 东北大学 一种改变复杂网络中节点控制类别的方法
CN108647487A (zh) * 2018-04-13 2018-10-12 华东师范大学 G蛋白偶联受体-配体相互作用关系的预测方法及预测系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130245959A1 (en) * 2012-03-14 2013-09-19 Board Of Regents, The University Of Texas System Computer-Implementable Algorithm for Biomarker Discovery Using Bipartite Networks
CN104021199A (zh) * 2014-06-16 2014-09-03 西安电子科技大学 基于节点支配能力相似性的功能模块检测方法
WO2017185834A1 (zh) * 2016-04-27 2017-11-02 王�忠 识别生物分子网络中关键模块或关键节点的方法
CN108009061A (zh) * 2017-12-04 2018-05-08 东北大学 一种改变复杂网络中节点控制类别的方法
CN108647487A (zh) * 2018-04-13 2018-10-12 华东师范大学 G蛋白偶联受体-配体相互作用关系的预测方法及预测系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU Y Y ,ET AL.: "Controllability of complex networks", 《NATURE》 *
侯绿林: "复杂网络可控性研究现状综述", 《物理学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632732A (zh) * 2020-12-23 2021-04-09 航天信息股份有限公司 一种用于测评系统脆弱性的方法及系统

Also Published As

Publication number Publication date
CN110504004B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
Zhang et al. An end-to-end deep learning architecture for graph classification
Xu Understanding graph embedding methods and their applications
CN106991296B (zh) 基于随机化贪心特征选择的集成分类方法
Tuo et al. Hierarchical feature selection with subtree based graph regularization
JP6240804B1 (ja) 改良した情報測定とgaに基づくフィルター式特徴選択アルゴリズム
CN110827921B (zh) 一种单细胞聚类方法、装置、电子设备及存储介质
Kanawati Seed-centric approaches for community detection in complex networks
CN112232413A (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
Yu et al. Predicting protein complex in protein interaction network-a supervised learning based method
Sree et al. Identification of protein coding regions in genomic DNA using unsupervised FMACA based pattern classifier
CN112925909B (zh) 一种考虑局部不变性约束的图卷积文献分类方法及系统
Wei et al. CALLR: a semi-supervised cell-type annotation method for single-cell RNA sequencing data
Zarei et al. Detecting community structure in complex networks using genetic algorithm based on object migrating automata
Yones et al. Genome-wide pre-miRNA discovery from few labeled examples
Wu et al. Simplifying and empowering transformers for large-graph representations
Nguyen et al. Subgraph mining in a large graph: A review
CN110504004A (zh) 一种基于复杂网络结构可控性基因的识别方法
Zhang et al. iDHS-DASTS: identifying DNase I hypersensitive sites based on LASSO and stacking learning
CN115394348A (zh) 基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质
CN115331754A (zh) 基于哈希算法的分子分类方法
Sikandar et al. Combining sequence entropy and subgraph topology for complex prediction in protein protein interaction (PPI) network
Makarenkov et al. Inferring multiple consensus trees and supertrees using clustering: A review
Romero et al. Feature extraction using spectral clustering for gene function prediction using hierarchical multi-label classification
Wang et al. Semisupervised Bacterial Heuristic Feature Selection Algorithm for High‐Dimensional Classification with Missing Labels
Sathishkumar et al. An efficient artificial bee colony and fuzzy C means based co-regulated biclustering from gene expression data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant