CN112802543B - 一种基于概率图的基因调控网络分析方法 - Google Patents

一种基于概率图的基因调控网络分析方法 Download PDF

Info

Publication number
CN112802543B
CN112802543B CN202110048797.2A CN202110048797A CN112802543B CN 112802543 B CN112802543 B CN 112802543B CN 202110048797 A CN202110048797 A CN 202110048797A CN 112802543 B CN112802543 B CN 112802543B
Authority
CN
China
Prior art keywords
vertex
probability
centrality
reachable
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110048797.2A
Other languages
English (en)
Other versions
CN112802543A (zh
Inventor
王之琼
隋玲
曲璐渲
信俊昌
王炜祎祺
李婵
殷文强
Original Assignee
东北大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东北大学 filed Critical 东北大学
Priority to CN202110048797.2A priority Critical patent/CN112802543B/zh
Publication of CN112802543A publication Critical patent/CN112802543A/zh
Application granted granted Critical
Publication of CN112802543B publication Critical patent/CN112802543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于概率图的基因调控网络分析方法,属于基因调控网络分析技术领域。包括:输入概率图,其每个顶点代表一个基因,顶点间的有向边代表基因间存在的调控关系,边上的概率值表示基因间调控关系的强度;在表示基因调控网络的概率图上计算各顶点的中心性,包括度中心性、紧密中心性和中介中心性,对中介中心性计算方法进行了优化;根据概率图上各顶点的中心性,筛选出关键节点;输入源顶点集合和目的顶点,根据实际需要可选择精确计算方法或者近似计算方法计算属于源顶点集合的各源顶点到目的顶点且经过关键节点的可达概率,并根据可达概率对各源顶点进行排序。该方法可以更高效、可靠地分析基因调控网络,大大提高分析结果的准确度。

Description

一种基于概率图的基因调控网络分析方法
技术领域
本发明涉及基因调控网络分析技术领域,尤其涉及一种基于概率图的基因调控网络分析方法。
背景技术
某个基因的表达水平受到其他基因的影响,这个基因的表达水平又会影响其他基因的表达水平,这种基因间相互制约的调控关系构成了复杂的基因调控网络。根据数学算法和已知的经验知识发掘数据关系信息,建立基因调控网络模型,研究网络特性,认识调控关系和机制,对生物学发展产生深远的影响。研究分析基因表达数据之间的关系,构建合适的基因调控网络模型来模拟生物系统的行为,从中发现生物学规律,进而认识生命现象的本质,成为了生物信息学研究的重要内容。
如何精确分析基因调控网络是一项极具挑战性的任务,现有的基因调控网络分析方法都是直接对基因调控网络进行分析,或将其定义为一个确定图。由于在数据采集过程中存在固有的噪声、不完全性、时延等问题,而且基因之间的调控关系是通过实验观察到的,具有不确定性,传统的图模型无法准确描述基因之间的调控关系,从而导致基因调控网络的分析结果准确率不够。
目前有很多基于概率图的可达查询、最短路径查询等概率图查询研究成果。但是由于基因调控网络具有网络结构特殊、调控关系复杂等特点,使用现有的对普通概率图查询的算法并不能适用于基因调控网络,从而不能有效地查询出基因间的调控关系。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于概率图的基因调控网络分析方法,考虑基因调控网络的独有的特点,提出了适用于基因调控网络的概率图查询算法,通过使用概率图定义的基因调控网络,可得到更准确的分析结果。
为解决上述技术问题,本发明所采取的技术方案是:
一种基于概率图的基因调控网络分析方法,包括以下步骤:
步骤1:输入概率图并利用该概率图表示基因调控网络;
概率图的每一个顶点代表一个基因,顶点间的有向边代表基因间存在的调控关系,边上的概率值表示基因间调控关系的强度;
步骤2:在表示基因调控网络的概率图上计算各顶点的中心性,包括度中心性、紧密中心性和中介中心性;
步骤3:根据概率图上各顶点的中心性,筛选出关键节点;
步骤4:输入源顶点集合S和目的顶点t,计算属于源顶点集合S的各源顶点s到目的顶点t且经过关键节点的可达概率,并根据可达概率对各源顶点s进行排序。
进一步地,根据所述的基于概率图的基因调控网络分析方法,所述步骤2包括如下步骤:
步骤2.1:对概率图进行采样,得到多个基于概率图的可能世界;
步骤2.2:在得到的各可能世界上计算各顶点的度中心性、紧密中心性与中介中心性;
步骤2.3:根据各顶点在各可能世界上的紧密中心性与中介中心性,分别在各可能世界上对所有顶点的紧密中心性和中介中心性进行排序;
步骤2.4:计算各顶点在所有可能世界上的度中心性的平均值、紧密中心性的排序次序的平均值和中介中心性的排序次序的平均值;
步骤2.5:取各顶点在所有可能世界上的度中心性的平均值、紧密中心性的排序次序的平均值和中介中心性的排序次序的平均值,分别作为概率图上对应顶点的度中心性、紧密中心性和中介中心性。
进一步地,根据所述的基于概率图的基因调控网络分析方法,在步骤2.1中所述采样的方法为:通过线性同余发生器生成随机数,用确定性算法对概率图上的每条边生成[0,1]之间的随机数后,判断当前边的存在概率是否大于该随机数,若大于则保留该条边,否则删除该条边;当所有边都生成随机数并判断是否保留后,视为完成一次采样,得到一个可能世界。
进一步地,根据所述的基于概率图的基因调控网络分析方法,在步骤2.2中,所述中介中心性的计算方法包括:首先判断待计算中心性的顶点的出度是否为零:若是,则顶点的中介中心性为零;若否,则将概率图的边进行方向反转,在反转后的概率图上计算与顶点可达的顶点集合,在概率图上查找以集合中的顶点为根的最短路径,并根据最短路径计算每一最短路径上其他顶点到作为根的顶点的依赖分数,最后将所有的依赖分数相加得到的结果作为顶点的中介中心性。
进一步地,根据所述的基于概率图的基因调控网络分析方法,所述步骤3包括如下步骤:
步骤3.1:分别对概率图上顶点的各中心性进行排序并用曲线表示,得到3条曲线,计算各曲线的斜率,选取各曲线上斜率趋于0的顶点的中心性作为阈值;
步骤3.2:筛选其各中心性均大于阈值的顶点,作为该概率图的关键节点。
进一步地,根据所述的基于概率图的基因调控网络分析方法,在步骤4中,所述计算各源顶点s到目的顶点t且经过关键节点的可达概率的方法包括:
步骤I.1:根据步骤3筛选到的关键节点,计算关键节点之间的可达概率,且根据关键节点之间的可达概率构建概率子图,并采用紧密结构存储;
步骤I.2:查找出与源顶点可达的所有关键节点,并计算源顶点到这些关键节点的可达概率;再查找出能够到达目的顶点的关键节点,并计算这些关键节点到目的顶点的可达概率;再根据关键节点概率子图查询出这些关键节点之间的可达概率;最后根据源顶点、关键节点以及目的顶点之间的可达概率,构建概率查询子图;
步骤I.3:在概率查询子图上计算各源顶点到目的顶点的可达概率。
进一步地,根据所述的基于概率图的基因调控网络分析方法,步骤I.1中所述的紧密结构是一个带权有向无环图,其中顶点为关键节点,有向边为关键节点在概率图上的指向关系,边上的权值是一个数组,数组中只存储0和1两个值,数组的长度为采样的次数,表示在第次采样中的图中该边不存在,表示第次采样中的图中该边存在。
进一步地,根据所述的基于概率图的基因调控网络分析方法,在步骤4中,所述计算各源顶点s到目的顶点t且经过关键节点的可达概率的方法包括:
步骤J.1:根据基因调控网络上关键基因的特性,将关键节点分为多个独立的关键子图,筛选到达源顶点或者目的顶点的路径距离小于路径距离阈值且可达概率大于可达概率阈值的关键节点,作为该源顶点或者目的顶点在各关键子图的代表,称为代表关键节点;
步骤J.2:计算各源顶点经过代表关键节点与目的顶点的可达概率。
采用上述技术方案所产生的有益效果在于:本发明提供的基于概率图的基因调控网络分析方法,结合度中心性、中介中心性和紧密中心性的计算方法,在概率图上计算各节点的中心值,查找出了概率图上的关键节点。根据查找到的关键节点,提出了经过关键节点的源节点到目的节点的可达概率的计算方法,并提出了近似方法优化了可达概率的计算效率。提高了基因调控网络分析结果的准确性,并采用更高效的方法得到查询结果,在实际的药靶定位中,可以更准确地查找到对特定基因用药效果更好的靶向基因。
附图说明
图1为本发明基于概率图的基因调控网络分析方法流程图;
图2为本发明方法中概率图上关键节点查找方法的流程图;
图3为本发明方法中基因对调控关系精确查询方法的流程图;
图4为本发明实方法中基因对调控关系近似查询方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,基于概率图的基因调控网络分析方法,如图1所示,包括以下步骤:
步骤1:输入概率图并利用该概率图表示基因调控网络;
概率图的每一个顶点代表一个基因,顶点间的有向边代表基因间存在的调控关系,边上的概率值表示基因间调控关系的强度。
用概率图对基因调控网络建模具有重要意义。概率图是其边上的权值表示存在概率的图。概率图可以用一个确定图并在边上增加存在概率来表示。与普通的图结构相比,概率图由于其具有概率特征的独特结构,使其可以模拟许多现实世界中的情景,通过分析这些概率图数据,可以找到许多更有价值的信息。比如推断基因之间的相似性,哪些基因对其他基因的影响特别大,某基因组对另一基因组的调控关系等等。
步骤2:在表示基因调控网络的概率图上计算各顶点的中心性,如图2所示,计算过程如下:
步骤2.1:对概率图进行采样,得到多个基于概率图的可能世界。
所述可能世界为概率图的一个实例,一个M条边的概率图有2M个可能世界。本实施方式采用蒙特·卡罗(Monte Carlo)方法进行采样:通过线性同余发生器生成随机数,用确定性算法对概率图上的每条边生成[0,1]之间的随机数后,判断当前边的存在概率是否大于该随机数,若大于则保留该条边,否则删除该条边。当所有边都生成随机数并判断是否保留后,则为一次采样,得到一个可能世界。实施例一中,选取乳腺癌相关基因调控网络,表示该基因调控网络的概率图大小为顶点数V=547,边数E=3503,设定采样的次数N=10000,采样次数由技术人员根据概率图的大小和实际经验进行确定,实施例一中经过10000次采样后,得到10000个可能世界。
步骤2.2:在得到的各可能世界上计算各顶点的度中心性、紧密中心性与中介中心性,得到各可能世界上各顶点的中心值。
度中心性以顶点的直接邻居数量作为量度,认为直接邻居数量越多,顶点越重要。顶点u的度中心性归一化表示为:
式中k(u)为顶点u的入度和出度和,n为顶点总数。
紧密中心性计量一个顶点到所有其他顶点的紧密性,即顶点距离的倒数,一个拥有高紧密性中心性的顶点拥有到其他顶点的距离最小值。常用的紧密中心性采用归一化的中心性公式进行计算,即计算顶点u到其他顶点的平均距离的倒数:
式中v为概率图G中除u的其他任意顶点,d(u,v)表示顶点u到顶点v的最短路径距离。
中介中心性用于寻找连接图的两个部分的桥梁顶点。本实施方式中,中介中心性的计算方法包括:首先判断待计算中心性的顶点u的出度是否为零:若是,则顶点u的中介中心性为零;若否,则将概率图的边进行方向反转,在反转后的概率图上采用BFS(BreadthFirst Search,广度优先搜索)或DFS(Depth First Search,深度优先搜索)方法计算与顶点u可达的顶点集合RF(u),查找以RF(u)集合中的顶点为根的最短路径,并根据最短路径计算每一最短路径上其他顶点到作为根的顶点的依赖分数,最后将所有的依赖分数相加得到的结果作为顶点u的中介中心性。
在本实施方式中,采用随机近似(Randomized-Approximate Brandes)方法计算依赖分数。该方法定义了任意起始顶点v对另一个顶点u的依赖分数(dependency score)为:
任何顶点的中介中心性都可以用依赖分数来表示:
式中σvt表示顶点v到顶点t之间最短路径数量,σvt(u)是其中经过顶点u的路径数量,V(G)是概率图G的顶点集合。
步骤2.3:根据各顶点在各可能世界上的紧密中心性与中介中心性,分别在各可能世界上对所有顶点的紧密中心性和中介中心性进行排序,可以根据实际需求进行降序或者升序等排序方式。
步骤2.4:计算各顶点在所有可能世界上的度中心性的平均值、紧密中心性的排序次序的平均值和中介中心性的排序次序的平均值。
步骤2.5:取各顶点在所有可能世界上的度中心性的平均值、紧密中心性的排序次序的平均值和中介中心性的排序次序的平均值,分别作为概率图上对应顶点的度中心性、紧密中心性和中介中心性。
步骤3:根据概率图上各顶点的中心性,筛选出关键节点;
步骤3.1:分别对概率图上顶点的各中心性进行排序并用曲线表示,得到3条曲线,计算各曲线的斜率,选取各曲线上斜率趋于0的顶点的中心性作为阈值;
在实施例一中,度中心性阈值(threshold-d)为0.0135,紧密中心性阈值(threshold-c)为0.0014,中介中心性阈值(threshold-b)为0.2679。
步骤3.2:筛选其各中心性均大于阈值的顶点,作为该概率图的关键节点;
在实施例一中,筛选同时满足度中心性大于度中心性阈值0.0135、紧密中心性大于紧密中心性阈值0.0014、且中介中心性大于中介中心性阈值0.2679的顶点作为关键节点,共筛选出34个乳腺癌相关基因调控网络的关键基因,如表1所示:
表1乳腺癌相关基因调控网络的关键基因表
COL1A1 MMP2 VCAN SRPX2 NEK2 CEP55 BUB1B
FAP KIF2C COL8A2 PRRX1 RACGAP top2A COL10A1
UBE2C KIF4A CCDC80 DACT1 LOX BNC2 MIR100H
COL5A1 COL6A3 FSTL1 PTTG1 DLGAP5 TPX2 KIF11
COL5A2 MSRB3 CCNB2 CDCA3 DNM3OS ESPL1
步骤4:输入源顶点集合S,目的顶点t,计算属于源顶点集合S的各源顶点s到目的顶点t且经过关键节点的可达概率,并根据可达概率对各源顶点s进行排序。可以根据实际需求对各源顶点s进行降序、升序或者其他种类的排序。
本实施方式提供两种方法计算各源顶点s到目的顶点t且经过关键节点的可达概率,本领域技术人员可以选择方法一或者方法二计算各源顶点s到目的顶点t且经过关键节点的可达概率。
利用方法一可以精确计算各源顶点s到目的顶点t且经过关键节点的可达概率,如图3所示,方法一包括如下步骤:
步骤I.1:根据步骤3筛选到的关键节点,计算关键节点之间的可达概率,且根据关键节点之间的可达概率构建概率子图,并采用紧密结构存储;
所述的紧密结构是一个带权有向无环图,其中顶点为关键节点,有向边为关键节点在概率图上的指向关系,边上的权值是一个数组b,数组中只存储0和1两个值,数组的长度为采样的次数,b[i]=0表示在第i次采样中的图中该边不存在,b[i]=1表示第i次采样中的图中该边存在。
步骤I.2:查找出与源顶点可达的所有关键节点,并计算源顶点到这些关键节点的可达概率;再查找出能够到达目的顶点的关键节点,并计算这些关键节点到目的顶点的可达概率;最后根据关键节点概率子图查询出这些关键节点之间的可达概率。根据源顶点、关键节点以及目的顶点之间的可达概率,构建概率查询子图。
步骤I.3:在概率查询子图上计算各源顶点到目的顶点的可达概率;
采用递归分层抽样法(Recursive Stratified Sampling)计算概率图的可达概率:选择r条边(e1,...er),并决定它的状态(0or 1),对于剩下的概率图的总边数-r条边,设置这些边的状态为*,表示“它们的状态未知”,则将整个可能世界空间Ω分为2r个子空间使Xi=(Xi,1,Xi,2,...,Xi,j,...,Xi,r)表示在第i层选择第r条边的状态向量,在第i层的可能世界概率为:
式中GP是Ωi中的一个可能世界,pj是边ej在概率图G上的存在概率。
在实施例一中,根据输入的概率图的尺寸设定选取的边数r为10。
利用方法二可以近似计算各源顶点s到目的顶点t且经过关键节点的可达概率,在保证计算结果准确率的情况下,提高计算效率,如图4所示,方法二包括如下步骤:
步骤J.1:根据基因调控网络上关键基因的特性,将关键节点分为多个独立的关键子图,在概率图上查找与源顶点或者目的顶点可达的关键节点的过程中,根据概率图的大小选择合适的路径距离阈值和可达概率阈值,筛选到达源顶点或者目的顶点的路径距离小于路径距离阈值且可达概率大于可达概率阈值的关键节点,作为该源顶点或目的顶点在各关键子图的代表,称为代表关键节点。
例如,在实施例一中,根据经验设定路径距离阈值λ为15,可达概率阈值β为0.5,则筛选到达源顶点或目的顶点的距离小于15且可达概率大于0.5的关键节点作为源顶点或目的顶点在各关键子图的代表,称为代表关键节点。
步骤J.2:由于各代表关键节点之间相互独立,则直接用概率公式计算各源顶点经过代表关键节点与目的顶点的可达概率。
计算源顶点s到目的顶点t之间拥有m条独立路径的可达概率公式为:
式中pi为第i条独立路径的存在概率,即,组成该路径的边概率的乘积。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (7)

1.一种基于概率图的基因调控网络分析方法,其特征在于:包括以下步骤:
步骤1:输入概率图并利用该概率图表示基因调控网络;
概率图的每一个顶点代表一个基因,顶点间的有向边代表基因间存在的调控关系,边上的概率值表示基因间调控关系的强度;
步骤2:在表示基因调控网络的概率图上计算各顶点的中心性,包括度中心性、紧密中心性和中介中心性;
步骤3:根据概率图上各顶点的中心性,筛选出关键节点;
步骤4:输入源顶点集合S和目的顶点t,计算属于源顶点集合S的各源顶点s到目的顶点t且经过关键节点的可达概率,并根据可达概率对各源顶点s进行排序;
所述计算各源顶点s到目的顶点t且经过关键节点的可达概率的方法包括:
步骤I.1:根据步骤3筛选到的关键节点,计算关键节点之间的可达概率,且根据关键节点之间的可达概率构建概率子图,并采用紧密结构存储;
步骤I.2:查找出与源顶点可达的所有关键节点,并计算源顶点到这些关键节点的可达概率;再查找出能够到达目的顶点的关键节点,并计算这些关键节点到目的顶点的可达概率;再根据关键节点概率子图查询出这些关键节点之间的可达概率;最后根据源顶点、关键节点以及目的顶点之间的可达概率,构建概率查询子图;
步骤I.3:在概率查询子图上计算各源顶点到目的顶点的可达概率。
2.根据权利要求1所述的基于概率图的基因调控网络分析方法,其特征在于:所述步骤2包括如下步骤:
步骤2.1:对概率图进行采样,得到多个基于概率图的可能世界;
步骤2.2:在得到的各可能世界上计算各顶点的度中心性、紧密中心性与中介中心性;
步骤2.3:根据各顶点在各可能世界上的紧密中心性与中介中心性,分别在各可能世界上对所有顶点的紧密中心性和中介中心性进行排序;
步骤2.4:计算各顶点在所有可能世界上的度中心性的平均值、紧密中心性的排序次序的平均值和中介中心性的排序次序的平均值;
步骤2.5:取各顶点在所有可能世界上的度中心性的平均值、紧密中心性的排序次序的平均值和中介中心性的排序次序的平均值,分别作为概率图上对应顶点的度中心性、紧密中心性和中介中心性。
3.根据权利要求2所述的基于概率图的基因调控网络分析方法,其特征在于:在步骤2.1中所述采样的方法为:通过线性同余发生器生成随机数,用确定性算法对概率图上的每条边生成[0,1]之间的随机数后,判断当前边的存在概率是否大于该随机数,若大于则保留该条边,否则删除该条边;当所有边都生成随机数并判断是否保留后,视为完成一次采样,得到一个可能世界。
4.根据权利要求2所述的基于概率图的基因调控网络分析方法,其特征在于:在步骤2.2中,所述中介中心性的计算方法包括:首先判断待计算中心性的顶点u的出度是否为零:若是,则顶点u的中介中心性为零;若否,则将概率图的边进行方向反转,在反转后的概率图上计算与顶点u可达的顶点集合RF(u),在概率图上查找以RF(u)集合中的顶点为根的最短路径,并根据最短路径计算每一最短路径上其他顶点到作为根的顶点的依赖分数,最后将所有的依赖分数相加得到的结果作为顶点u的中介中心性。
5.根据权利要求1所述的基于概率图的基因调控网络分析方法,其特征在于:所述步骤3包括如下步骤:
步骤3.1:分别对概率图上顶点的各中心性进行排序并用曲线表示,得到3条曲线,计算各曲线的斜率,选取各曲线上斜率趋于0的顶点的中心性作为阈值;
步骤3.2:筛选其各中心性均大于阈值的顶点,作为该概率图的关键节点。
6.根据权利要求1所述的基于概率图的基因调控网络分析方法,其特征在于:步骤I.1中所述的紧密结构是一个带权有向无环图,其中顶点为关键节点,有向边为关键节点在概率图上的指向关系,边上的权值是一个数组b,数组中只存储0和1两种值,数组的长度为采样的次数,b[i]=0表示在第i次采样中的图中该边不存在,b[i]=1表示第i次采样中的图中该边存在。
7.根据权利要求1所述的基于概率图的基因调控网络分析方法,其特征在于:在步骤4中,所述计算各源顶点s到目的顶点t且经过关键节点的可达概率的方法包括:
步骤J.1:根据基因调控网络上关键基因的特性,将关键节点分为多个独立的关键子图,筛选到达源顶点或者目的顶点的路径距离小于路径距离阈值且可达概率大于可达概率阈值的关键节点,作为该源顶点或者目的顶点在各关键子图的代表,称为代表关键节点;
步骤J.2:计算各源顶点经过代表关键节点与目的顶点的可达概率。
CN202110048797.2A 2021-01-14 2021-01-14 一种基于概率图的基因调控网络分析方法 Active CN112802543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110048797.2A CN112802543B (zh) 2021-01-14 2021-01-14 一种基于概率图的基因调控网络分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110048797.2A CN112802543B (zh) 2021-01-14 2021-01-14 一种基于概率图的基因调控网络分析方法

Publications (2)

Publication Number Publication Date
CN112802543A CN112802543A (zh) 2021-05-14
CN112802543B true CN112802543B (zh) 2024-04-30

Family

ID=75810763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110048797.2A Active CN112802543B (zh) 2021-01-14 2021-01-14 一种基于概率图的基因调控网络分析方法

Country Status (1)

Country Link
CN (1) CN112802543B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1592852A (zh) * 2001-09-26 2005-03-09 Gni株式会社 应用产生自多重破坏表达文库的基因调控网络的生物发现
AR108031A1 (es) * 2016-01-07 2018-07-11 Ascus Biosciences Inc Métodos para mejorar la producción de leche mediante la administración de consorcios microbianos
CN109243523A (zh) * 2018-08-24 2019-01-18 东北大学 一种基于乳腺癌疾病的调控网络构建及分析方法
CN109360607A (zh) * 2018-10-16 2019-02-19 武汉大学 一种动态基因调控网的网络演化分析方法及装置
CN110136779A (zh) * 2019-05-30 2019-08-16 上海大学 一种生物网络关键差异节点的样本特征提取及预测方法
CN111462824A (zh) * 2020-06-04 2020-07-28 东北大学 一种面向基因调控网络的可达概率查询方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1592852A (zh) * 2001-09-26 2005-03-09 Gni株式会社 应用产生自多重破坏表达文库的基因调控网络的生物发现
AR108031A1 (es) * 2016-01-07 2018-07-11 Ascus Biosciences Inc Métodos para mejorar la producción de leche mediante la administración de consorcios microbianos
CN109243523A (zh) * 2018-08-24 2019-01-18 东北大学 一种基于乳腺癌疾病的调控网络构建及分析方法
CN109360607A (zh) * 2018-10-16 2019-02-19 武汉大学 一种动态基因调控网的网络演化分析方法及装置
CN110136779A (zh) * 2019-05-30 2019-08-16 上海大学 一种生物网络关键差异节点的样本特征提取及预测方法
CN111462824A (zh) * 2020-06-04 2020-07-28 东北大学 一种面向基因调控网络的可达概率查询方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《主成分分析法在基因调控网络中的应用研究》;何明霞等;《生物数学学报》;第32卷(第03期);353-358 *
Chromatin regulators mediate anthracycline sensitivity in breast cancer;Jose A.Seoane等;《naturemedicine》;1721-1725 *

Also Published As

Publication number Publication date
CN112802543A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN107391512B (zh) 知识图谱预测的方法和装置
Shi et al. A genetic algorithm for detecting communities in large-scale complex networks
CN103745258A (zh) 基于最小生成树聚类的遗传算法的复杂网络社区挖掘方法
CN109686402B (zh) 基于动态加权相互作用网络中关键蛋白质识别方法
CN101814063A (zh) 基于距离权重的全局k-均值聚类算法
CN107092812B (zh) 一种在ppi网络中基于遗传算法识别关键蛋白质的方法
CN112232413A (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
Ma et al. Decomposition-based multiobjective evolutionary algorithm for community detection in dynamic social networks
CN112116952B (zh) 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法
CN110879856A (zh) 一种基于多特征融合的社交群体分类方法及系统
CN111445008A (zh) 一种基于知识蒸馏的神经网络搜索方法及系统
Harris et al. A memetic algorithm for the quadratic assignment problem with parallel local search
Laassem et al. Label propagation algorithm for community detection based on Coulomb’s law
Hu et al. A new algorithm CNM-Centrality of detecting communities based on node centrality
CN106600119B (zh) 基于k均值的电力用户聚类方法及装置
Cheung et al. Simultaneous detection of multiple change points and community structures in time series of networks
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN113065037A (zh) 一种基于密度峰值优化的标签传播社团检测方法及装置
CN112802543B (zh) 一种基于概率图的基因调控网络分析方法
CN109033746B (zh) 一种基于节点向量的蛋白质复合物识别方法
CN111949530B (zh) 测试结果的预测方法、装置、计算机设备及存储介质
CN112765414A (zh) 一种图嵌入向量的生成方法及基于图嵌入的社区发现方法
CN111488991A (zh) 结合遗传和离散差分的布谷鸟算法的通信社区检测方法
Liu et al. Identification of essential proteins by using complexes and biological information on dynamic PPI Network
CN111383052A (zh) 一种智能柜选址模型建模方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant