CN112802543A - 一种基于概率图的基因调控网络分析方法 - Google Patents
一种基于概率图的基因调控网络分析方法 Download PDFInfo
- Publication number
- CN112802543A CN112802543A CN202110048797.2A CN202110048797A CN112802543A CN 112802543 A CN112802543 A CN 112802543A CN 202110048797 A CN202110048797 A CN 202110048797A CN 112802543 A CN112802543 A CN 112802543A
- Authority
- CN
- China
- Prior art keywords
- vertex
- probability
- centrality
- calculating
- reachable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000003012 network analysis Methods 0.000 title claims abstract description 27
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000012163 sequencing technique Methods 0.000 claims abstract description 9
- 230000001105 regulatory effect Effects 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 21
- 230000001419 dependent effect Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000014509 gene expression Effects 0.000 description 4
- 206010006187 Breast cancer Diseases 0.000 description 3
- 208000026310 Breast neoplasm Diseases 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 102100026802 72 kDa type IV collagenase Human genes 0.000 description 1
- 102100024479 Cell division cycle-associated protein 3 Human genes 0.000 description 1
- 102100031219 Centrosomal protein of 55 kDa Human genes 0.000 description 1
- 101710092479 Centrosomal protein of 55 kDa Proteins 0.000 description 1
- 102100020736 Chromosome-associated kinesin KIF4A Human genes 0.000 description 1
- 102100023708 Coiled-coil domain-containing protein 80 Human genes 0.000 description 1
- 102100033601 Collagen alpha-1(I) chain Human genes 0.000 description 1
- 102100031457 Collagen alpha-1(V) chain Human genes 0.000 description 1
- 102100036217 Collagen alpha-1(X) chain Human genes 0.000 description 1
- 102100031502 Collagen alpha-2(V) chain Human genes 0.000 description 1
- 102100040496 Collagen alpha-2(VIII) chain Human genes 0.000 description 1
- 102100024338 Collagen alpha-3(VI) chain Human genes 0.000 description 1
- 102000015983 Dact1 Human genes 0.000 description 1
- 102100037980 Disks large-associated protein 5 Human genes 0.000 description 1
- 102100029378 Follistatin-related protein 1 Human genes 0.000 description 1
- 102100033201 G2/mitotic-specific cyclin-B2 Human genes 0.000 description 1
- 101000627872 Homo sapiens 72 kDa type IV collagenase Proteins 0.000 description 1
- 101000980907 Homo sapiens Cell division cycle-associated protein 3 Proteins 0.000 description 1
- 101001139157 Homo sapiens Chromosome-associated kinesin KIF4A Proteins 0.000 description 1
- 101000978383 Homo sapiens Coiled-coil domain-containing protein 80 Proteins 0.000 description 1
- 101000941708 Homo sapiens Collagen alpha-1(V) chain Proteins 0.000 description 1
- 101000875027 Homo sapiens Collagen alpha-1(X) chain Proteins 0.000 description 1
- 101000941594 Homo sapiens Collagen alpha-2(V) chain Proteins 0.000 description 1
- 101000749886 Homo sapiens Collagen alpha-2(VIII) chain Proteins 0.000 description 1
- 101000909506 Homo sapiens Collagen alpha-3(VI) chain Proteins 0.000 description 1
- 101000856043 Homo sapiens Dapper homolog 1 Proteins 0.000 description 1
- 101000951365 Homo sapiens Disks large-associated protein 5 Proteins 0.000 description 1
- 101001062535 Homo sapiens Follistatin-related protein 1 Proteins 0.000 description 1
- 101000713023 Homo sapiens G2/mitotic-specific cyclin-B2 Proteins 0.000 description 1
- 101001008953 Homo sapiens Kinesin-like protein KIF11 Proteins 0.000 description 1
- 101001050567 Homo sapiens Kinesin-like protein KIF2C Proteins 0.000 description 1
- 101000794228 Homo sapiens Mitotic checkpoint serine/threonine-protein kinase BUB1 beta Proteins 0.000 description 1
- 101001069727 Homo sapiens Paired mesoderm homeobox protein 1 Proteins 0.000 description 1
- 101001087372 Homo sapiens Securin Proteins 0.000 description 1
- 101000851593 Homo sapiens Separin Proteins 0.000 description 1
- 101000601441 Homo sapiens Serine/threonine-protein kinase Nek2 Proteins 0.000 description 1
- 101000629629 Homo sapiens Sushi repeat-containing protein SRPX2 Proteins 0.000 description 1
- 101000830894 Homo sapiens Targeting protein for Xklp2 Proteins 0.000 description 1
- 101000807354 Homo sapiens Ubiquitin-conjugating enzyme E2 C Proteins 0.000 description 1
- 101000860430 Homo sapiens Versican core protein Proteins 0.000 description 1
- 101000740482 Homo sapiens Zinc finger protein basonuclin-2 Proteins 0.000 description 1
- 102100027629 Kinesin-like protein KIF11 Human genes 0.000 description 1
- 102100023424 Kinesin-like protein KIF2C Human genes 0.000 description 1
- 101150082088 MSRB3 gene Proteins 0.000 description 1
- 102100028720 Methionine-R-sulfoxide reductase B3 Human genes 0.000 description 1
- 102100030144 Mitotic checkpoint serine/threonine-protein kinase BUB1 beta Human genes 0.000 description 1
- 102100033786 Paired mesoderm homeobox protein 1 Human genes 0.000 description 1
- 102100033004 Securin Human genes 0.000 description 1
- 102100036750 Separin Human genes 0.000 description 1
- 102100037703 Serine/threonine-protein kinase Nek2 Human genes 0.000 description 1
- 102100026826 Sushi repeat-containing protein SRPX2 Human genes 0.000 description 1
- 102100024813 Targeting protein for Xklp2 Human genes 0.000 description 1
- 101100123309 Thermotoga maritima (strain ATCC 43589 / DSM 3109 / JCM 10099 / NBRC 100826 / MSB8) gyrA gene Proteins 0.000 description 1
- 102100037256 Ubiquitin-conjugating enzyme E2 C Human genes 0.000 description 1
- 102100028437 Versican core protein Human genes 0.000 description 1
- 102100037208 Zinc finger protein basonuclin-2 Human genes 0.000 description 1
- 108010029483 alpha 1 Chain Collagen Type I Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000857 drug effect Effects 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 101150044508 key gene Proteins 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于概率图的基因调控网络分析方法,属于基因调控网络分析技术领域。包括:输入概率图,其每个顶点代表一个基因,顶点间的有向边代表基因间存在的调控关系,边上的概率值表示基因间调控关系的强度;在表示基因调控网络的概率图上计算各顶点的中心性,包括度中心性、紧密中心性和中介中心性,对中介中心性计算方法进行了优化;根据概率图上各顶点的中心性,筛选出关键节点;输入源顶点集合和目的顶点,根据实际需要可选择精确计算方法或者近似计算方法计算属于源顶点集合的各源顶点到目的顶点且经过关键节点的可达概率,并根据可达概率对各源顶点进行排序。该方法可以更高效、可靠地分析基因调控网络,大大提高分析结果的准确度。
Description
技术领域
本发明涉及基因调控网络分析技术领域,尤其涉及一种基于概率图的基因调控网络分析方法。
背景技术
某个基因的表达水平受到其他基因的影响,这个基因的表达水平又会影响其他基因的表达水平,这种基因间相互制约的调控关系构成了复杂的基因调控网络。根据数学算法和已知的经验知识发掘数据关系信息,建立基因调控网络模型,研究网络特性,认识调控关系和机制,对生物学发展产生深远的影响。研究分析基因表达数据之间的关系,构建合适的基因调控网络模型来模拟生物系统的行为,从中发现生物学规律,进而认识生命现象的本质,成为了生物信息学研究的重要内容。
如何精确分析基因调控网络是一项极具挑战性的任务,现有的基因调控网络分析方法都是直接对基因调控网络进行分析,或将其定义为一个确定图。由于在数据采集过程中存在固有的噪声、不完全性、时延等问题,而且基因之间的调控关系是通过实验观察到的,具有不确定性,传统的图模型无法准确描述基因之间的调控关系,从而导致基因调控网络的分析结果准确率不够。
目前有很多基于概率图的可达查询、最短路径查询等概率图查询研究成果。但是由于基因调控网络具有网络结构特殊、调控关系复杂等特点,使用现有的对普通概率图查询的算法并不能适用于基因调控网络,从而不能有效地查询出基因间的调控关系。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于概率图的基因调控网络分析方法,考虑基因调控网络的独有的特点,提出了适用于基因调控网络的概率图查询算法,通过使用概率图定义的基因调控网络,可得到更准确的分析结果。
为解决上述技术问题,本发明所采取的技术方案是:
一种基于概率图的基因调控网络分析方法,包括以下步骤:
步骤1:输入概率图并利用该概率图表示基因调控网络;
概率图的每一个顶点代表一个基因,顶点间的有向边代表基因间存在的调控关系,边上的概率值表示基因间调控关系的强度;
步骤2:在表示基因调控网络的概率图上计算各顶点的中心性,包括度中心性、紧密中心性和中介中心性;
步骤3:根据概率图上各顶点的中心性,筛选出关键节点;
步骤4:输入源顶点集合S和目的顶点t,计算属于源顶点集合S的各源顶点s到目的顶点t且经过关键节点的可达概率,并根据可达概率对各源顶点s进行排序。
进一步地,根据所述的基于概率图的基因调控网络分析方法,所述步骤2包括如下步骤:
步骤2.1:对概率图进行采样,得到多个基于概率图的可能世界;
步骤2.2:在得到的各可能世界上计算各顶点的度中心性、紧密中心性与中介中心性;
步骤2.3:根据各顶点在各可能世界上的紧密中心性与中介中心性,分别在各可能世界上对所有顶点的紧密中心性和中介中心性进行排序;
步骤2.4:计算各顶点在所有可能世界上的度中心性的平均值、紧密中心性的排序次序的平均值和中介中心性的排序次序的平均值;
步骤2.5:取各顶点在所有可能世界上的度中心性的平均值、紧密中心性的排序次序的平均值和中介中心性的排序次序的平均值,分别作为概率图上对应顶点的度中心性、紧密中心性和中介中心性。
进一步地,根据所述的基于概率图的基因调控网络分析方法,在步骤2.1中所述采样的方法为:通过线性同余发生器生成随机数,用确定性算法对概率图上的每条边生成[0,1]之间的随机数后,判断当前边的存在概率是否大于该随机数,若大于则保留该条边,否则删除该条边;当所有边都生成随机数并判断是否保留后,视为完成一次采样,得到一个可能世界。
进一步地,根据所述的基于概率图的基因调控网络分析方法,在步骤2.2中,所述中介中心性的计算方法包括:首先判断待计算中心性的顶点的出度是否为零:若是,则顶点的中介中心性为零;若否,则将概率图的边进行方向反转,在反转后的概率图上计算与顶点可达的顶点集合,在概率图上查找以集合中的顶点为根的最短路径,并根据最短路径计算每一最短路径上其他顶点到作为根的顶点的依赖分数,最后将所有的依赖分数相加得到的结果作为顶点的中介中心性。
进一步地,根据所述的基于概率图的基因调控网络分析方法,所述步骤3包括如下步骤:
步骤3.1:分别对概率图上顶点的各中心性进行排序并用曲线表示,得到3条曲线,计算各曲线的斜率,选取各曲线上斜率趋于0的顶点的中心性作为阈值;
步骤3.2:筛选其各中心性均大于阈值的顶点,作为该概率图的关键节点。
进一步地,根据所述的基于概率图的基因调控网络分析方法,在步骤4中,所述计算各源顶点s到目的顶点t且经过关键节点的可达概率的方法包括:
步骤I.1:根据步骤3筛选到的关键节点,计算关键节点之间的可达概率,且根据关键节点之间的可达概率构建概率子图,并采用紧密结构存储;
步骤I.2:查找出与源顶点可达的所有关键节点,并计算源顶点到这些关键节点的可达概率;再查找出能够到达目的顶点的关键节点,并计算这些关键节点到目的顶点的可达概率;再根据关键节点概率子图查询出这些关键节点之间的可达概率;最后根据源顶点、关键节点以及目的顶点之间的可达概率,构建概率查询子图;
步骤I.3:在概率查询子图上计算各源顶点到目的顶点的可达概率。
进一步地,根据所述的基于概率图的基因调控网络分析方法,步骤I.1中所述的紧密结构是一个带权有向无环图,其中顶点为关键节点,有向边为关键节点在概率图上的指向关系,边上的权值是一个数组,数组中只存储0和1两个值,数组的长度为采样的次数,表示在第次采样中的图中该边不存在,表示第次采样中的图中该边存在。
进一步地,根据所述的基于概率图的基因调控网络分析方法,在步骤4中,所述计算各源顶点s到目的顶点t且经过关键节点的可达概率的方法包括:
步骤J.1:根据基因调控网络上关键基因的特性,将关键节点分为多个独立的关键子图,筛选到达源顶点或者目的顶点的路径距离小于路径距离阈值且可达概率大于可达概率阈值的关键节点,作为该源顶点或者目的顶点在各关键子图的代表,称为代表关键节点;
步骤J.2:计算各源顶点经过代表关键节点与目的顶点的可达概率。
采用上述技术方案所产生的有益效果在于:本发明提供的基于概率图的基因调控网络分析方法,结合度中心性、中介中心性和紧密中心性的计算方法,在概率图上计算各节点的中心值,查找出了概率图上的关键节点。根据查找到的关键节点,提出了经过关键节点的源节点到目的节点的可达概率的计算方法,并提出了近似方法优化了可达概率的计算效率。提高了基因调控网络分析结果的准确性,并采用更高效的方法得到查询结果,在实际的药靶定位中,可以更准确地查找到对特定基因用药效果更好的靶向基因。
附图说明
图1为本发明基于概率图的基因调控网络分析方法流程图;
图2为本发明方法中概率图上关键节点查找方法的流程图;
图3为本发明方法中基因对调控关系精确查询方法的流程图;
图4为本发明实方法中基因对调控关系近似查询方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,基于概率图的基因调控网络分析方法,如图1所示,包括以下步骤:
步骤1:输入概率图并利用该概率图表示基因调控网络;
概率图的每一个顶点代表一个基因,顶点间的有向边代表基因间存在的调控关系,边上的概率值表示基因间调控关系的强度。
用概率图对基因调控网络建模具有重要意义。概率图是其边上的权值表示存在概率的图。概率图可以用一个确定图并在边上增加存在概率来表示。与普通的图结构相比,概率图由于其具有概率特征的独特结构,使其可以模拟许多现实世界中的情景,通过分析这些概率图数据,可以找到许多更有价值的信息。比如推断基因之间的相似性,哪些基因对其他基因的影响特别大,某基因组对另一基因组的调控关系等等。
步骤2:在表示基因调控网络的概率图上计算各顶点的中心性,如图2所示,计算过程如下:
步骤2.1:对概率图进行采样,得到多个基于概率图的可能世界。
所述可能世界为概率图的一个实例,一个M条边的概率图有2M个可能世界。本实施方式采用蒙特·卡罗(Monte Carlo)方法进行采样:通过线性同余发生器生成随机数,用确定性算法对概率图上的每条边生成[0,1]之间的随机数后,判断当前边的存在概率是否大于该随机数,若大于则保留该条边,否则删除该条边。当所有边都生成随机数并判断是否保留后,则为一次采样,得到一个可能世界。实施例一中,选取乳腺癌相关基因调控网络,表示该基因调控网络的概率图大小为顶点数V=547,边数E=3503,设定采样的次数N=10000,采样次数由技术人员根据概率图的大小和实际经验进行确定,实施例一中经过10000次采样后,得到10000个可能世界。
步骤2.2:在得到的各可能世界上计算各顶点的度中心性、紧密中心性与中介中心性,得到各可能世界上各顶点的中心值。
度中心性以顶点的直接邻居数量作为量度,认为直接邻居数量越多,顶点越重要。顶点u的度中心性归一化表示为:
式中k(u)为顶点u的入度和出度和,n为顶点总数。
紧密中心性计量一个顶点到所有其他顶点的紧密性,即顶点距离的倒数,一个拥有高紧密性中心性的顶点拥有到其他顶点的距离最小值。常用的紧密中心性采用归一化的中心性公式进行计算,即计算顶点u到其他顶点的平均距离的倒数:
式中v为概率图G中除u的其他任意顶点,d(u,v)表示顶点u到顶点v的最短路径距离。
中介中心性用于寻找连接图的两个部分的桥梁顶点。本实施方式中,中介中心性的计算方法包括:首先判断待计算中心性的顶点u的出度是否为零:若是,则顶点u的中介中心性为零;若否,则将概率图的边进行方向反转,在反转后的概率图上采用BFS(BreadthFirst Search,广度优先搜索)或DFS(Depth First Search,深度优先搜索)方法计算与顶点u可达的顶点集合RF(u),查找以RF(u)集合中的顶点为根的最短路径,并根据最短路径计算每一最短路径上其他顶点到作为根的顶点的依赖分数,最后将所有的依赖分数相加得到的结果作为顶点u的中介中心性。
在本实施方式中,采用随机近似(Randomized-Approximate Brandes)方法计算依赖分数。该方法定义了任意起始顶点v对另一个顶点u的依赖分数(dependency score)为:
任何顶点的中介中心性都可以用依赖分数来表示:
式中σvt表示顶点v到顶点t之间最短路径数量,σvt(u)是其中经过顶点u的路径数量,V(G)是概率图G的顶点集合。
步骤2.3:根据各顶点在各可能世界上的紧密中心性与中介中心性,分别在各可能世界上对所有顶点的紧密中心性和中介中心性进行排序,可以根据实际需求进行降序或者升序等排序方式。
步骤2.4:计算各顶点在所有可能世界上的度中心性的平均值、紧密中心性的排序次序的平均值和中介中心性的排序次序的平均值。
步骤2.5:取各顶点在所有可能世界上的度中心性的平均值、紧密中心性的排序次序的平均值和中介中心性的排序次序的平均值,分别作为概率图上对应顶点的度中心性、紧密中心性和中介中心性。
步骤3:根据概率图上各顶点的中心性,筛选出关键节点;
步骤3.1:分别对概率图上顶点的各中心性进行排序并用曲线表示,得到3条曲线,计算各曲线的斜率,选取各曲线上斜率趋于0的顶点的中心性作为阈值;
在实施例一中,度中心性阈值(threshold-d)为0.0135,紧密中心性阈值(threshold-c)为0.0014,中介中心性阈值(threshold-b)为0.2679。
步骤3.2:筛选其各中心性均大于阈值的顶点,作为该概率图的关键节点;
在实施例一中,筛选同时满足度中心性大于度中心性阈值0.0135、紧密中心性大于紧密中心性阈值0.0014、且中介中心性大于中介中心性阈值0.2679的顶点作为关键节点,共筛选出34个乳腺癌相关基因调控网络的关键基因,如表1所示:
表1乳腺癌相关基因调控网络的关键基因表
COL1A1 | MMP2 | VCAN | SRPX2 | NEK2 | CEP55 | BUB1B |
FAP | KIF2C | COL8A2 | PRRX1 | RACGAP | top2A | COL10A1 |
UBE2C | KIF4A | CCDC80 | DACT1 | LOX | BNC2 | MIR100H |
COL5A1 | COL6A3 | FSTL1 | PTTG1 | DLGAP5 | TPX2 | KIF11 |
COL5A2 | MSRB3 | CCNB2 | CDCA3 | DNM3OS | ESPL1 |
步骤4:输入源顶点集合S,目的顶点t,计算属于源顶点集合S的各源顶点s到目的顶点t且经过关键节点的可达概率,并根据可达概率对各源顶点s进行排序。可以根据实际需求对各源顶点s进行降序、升序或者其他种类的排序。
本实施方式提供两种方法计算各源顶点s到目的顶点t且经过关键节点的可达概率,本领域技术人员可以选择方法一或者方法二计算各源顶点s到目的顶点t且经过关键节点的可达概率。
利用方法一可以精确计算各源顶点s到目的顶点t且经过关键节点的可达概率,如图3所示,方法一包括如下步骤:
步骤I.1:根据步骤3筛选到的关键节点,计算关键节点之间的可达概率,且根据关键节点之间的可达概率构建概率子图,并采用紧密结构存储;
所述的紧密结构是一个带权有向无环图,其中顶点为关键节点,有向边为关键节点在概率图上的指向关系,边上的权值是一个数组b,数组中只存储0和1两个值,数组的长度为采样的次数,b[i]=0表示在第i次采样中的图中该边不存在,b[i]=1表示第i次采样中的图中该边存在。
步骤I.2:查找出与源顶点可达的所有关键节点,并计算源顶点到这些关键节点的可达概率;再查找出能够到达目的顶点的关键节点,并计算这些关键节点到目的顶点的可达概率;最后根据关键节点概率子图查询出这些关键节点之间的可达概率。根据源顶点、关键节点以及目的顶点之间的可达概率,构建概率查询子图。
步骤I.3:在概率查询子图上计算各源顶点到目的顶点的可达概率;
采用递归分层抽样法(Recursive Stratified Sampling)计算概率图的可达概率:选择r条边(e1,...er),并决定它的状态(0or 1),对于剩下的概率图的总边数-r条边,设置这些边的状态为*,表示“它们的状态未知”,则将整个可能世界空间Ω分为2r个子空间使Xi=(Xi,1,Xi,2,...,Xi,j,...,Xi,r)表示在第i层选择第r条边的状态向量,在第i层的可能世界概率为:
式中GP是Ωi中的一个可能世界,pj是边ej在概率图G上的存在概率。
在实施例一中,根据输入的概率图的尺寸设定选取的边数r为10。
利用方法二可以近似计算各源顶点s到目的顶点t且经过关键节点的可达概率,在保证计算结果准确率的情况下,提高计算效率,如图4所示,方法二包括如下步骤:
步骤J.1:根据基因调控网络上关键基因的特性,将关键节点分为多个独立的关键子图,在概率图上查找与源顶点或者目的顶点可达的关键节点的过程中,根据概率图的大小选择合适的路径距离阈值和可达概率阈值,筛选到达源顶点或者目的顶点的路径距离小于路径距离阈值且可达概率大于可达概率阈值的关键节点,作为该源顶点或目的顶点在各关键子图的代表,称为代表关键节点。
例如,在实施例一中,根据经验设定路径距离阈值λ为15,可达概率阈值β为0.5,则筛选到达源顶点或目的顶点的距离小于15且可达概率大于0.5的关键节点作为源顶点或目的顶点在各关键子图的代表,称为代表关键节点。
步骤J.2:由于各代表关键节点之间相互独立,则直接用概率公式计算各源顶点经过代表关键节点与目的顶点的可达概率。
计算源顶点s到目的顶点t之间拥有m条独立路径的可达概率公式为:
式中pi为第i条独立路径的存在概率,即,组成该路径的边概率的乘积。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (8)
1.一种基于概率图的基因调控网络分析方法,其特征在于:包括以下步骤:
步骤1:输入概率图并利用该概率图表示基因调控网络;
概率图的每一个顶点代表一个基因,顶点间的有向边代表基因间存在的调控关系,边上的概率值表示基因间调控关系的强度;
步骤2:在表示基因调控网络的概率图上计算各顶点的中心性,包括度中心性、紧密中心性和中介中心性;
步骤3:根据概率图上各顶点的中心性,筛选出关键节点;
步骤4:输入源顶点集合S和目的顶点t,计算属于源顶点集合S的各源顶点s到目的顶点t且经过关键节点的可达概率,并根据可达概率对各源顶点s进行排序。
2.根据权利要求1所述的基于概率图的基因调控网络分析方法,其特征在于:所述步骤2包括如下步骤:
步骤2.1:对概率图进行采样,得到多个基于概率图的可能世界;
步骤2.2:在得到的各可能世界上计算各顶点的度中心性、紧密中心性与中介中心性;
步骤2.3:根据各顶点在各可能世界上的紧密中心性与中介中心性,分别在各可能世界上对所有顶点的紧密中心性和中介中心性进行排序;
步骤2.4:计算各顶点在所有可能世界上的度中心性的平均值、紧密中心性的排序次序的平均值和中介中心性的排序次序的平均值;
步骤2.5:取各顶点在所有可能世界上的度中心性的平均值、紧密中心性的排序次序的平均值和中介中心性的排序次序的平均值,分别作为概率图上对应顶点的度中心性、紧密中心性和中介中心性。
3.根据权利要求2所述的基于概率图的基因调控网络分析方法,其特征在于:在步骤2.1中所述采样的方法为:通过线性同余发生器生成随机数,用确定性算法对概率图上的每条边生成[0,1]之间的随机数后,判断当前边的存在概率是否大于该随机数,若大于则保留该条边,否则删除该条边;当所有边都生成随机数并判断是否保留后,视为完成一次采样,得到一个可能世界。
4.根据权利要求2所述的基于概率图的基因调控网络分析方法,其特征在于:在步骤2.2中,所述中介中心性的计算方法包括:首先判断待计算中心性的顶点u的出度是否为零:若是,则顶点u的中介中心性为零;若否,则将概率图的边进行方向反转,在反转后的概率图上计算与顶点u可达的顶点集合RF(u),在概率图上查找以RF(u)集合中的顶点为根的最短路径,并根据最短路径计算每一最短路径上其他顶点到作为根的顶点的依赖分数,最后将所有的依赖分数相加得到的结果作为顶点u的中介中心性。
5.根据权利要求1所述的基于概率图的基因调控网络分析方法,其特征在于:所述步骤3包括如下步骤:
步骤3.1:分别对概率图上顶点的各中心性进行排序并用曲线表示,得到3条曲线,计算各曲线的斜率,选取各曲线上斜率趋于0的顶点的中心性作为阈值;
步骤3.2:筛选其各中心性均大于阈值的顶点,作为该概率图的关键节点。
6.根据权利要求1所述的基于概率图的基因调控网络分析方法,其特征在于:在步骤4中,所述计算各源顶点s到目的顶点t且经过关键节点的可达概率的方法包括:
步骤I.1:根据步骤3筛选到的关键节点,计算关键节点之间的可达概率,且根据关键节点之间的可达概率构建概率子图,并采用紧密结构存储;
步骤I.2:查找出与源顶点可达的所有关键节点,并计算源顶点到这些关键节点的可达概率;再查找出能够到达目的顶点的关键节点,并计算这些关键节点到目的顶点的可达概率;再根据关键节点概率子图查询出这些关键节点之间的可达概率;最后根据源顶点、关键节点以及目的顶点之间的可达概率,构建概率查询子图;
步骤I.3:在概率查询子图上计算各源顶点到目的顶点的可达概率。
7.根据权利要求6所述的基于概率图的基因调控网络分析方法,其特征在于:步骤I.1中所述的紧密结构是一个带权有向无环图,其中顶点为关键节点,有向边为关键节点在概率图上的指向关系,边上的权值是一个数组b,数组中只存储0和1两个值,数组的长度为采样的次数,b[i]=0表示在第i次采样中的图中该边不存在,b[i]=1表示第i次采样中的图中该边存在。
8.根据权利要求1所述的基于概率图的基因调控网络分析方法,其特征在于:在步骤4中,所述计算各源顶点s到目的顶点t且经过关键节点的可达概率的方法包括:
步骤J.1:根据基因调控网络上关键基因的特性,将关键节点分为多个独立的关键子图,筛选到达源顶点或者目的顶点的路径距离小于路径距离阈值且可达概率大于可达概率阈值的关键节点,作为该源顶点或者目的顶点在各关键子图的代表,称为代表关键节点;
步骤J.2:计算各源顶点经过代表关键节点与目的顶点的可达概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110048797.2A CN112802543B (zh) | 2021-01-14 | 2021-01-14 | 一种基于概率图的基因调控网络分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110048797.2A CN112802543B (zh) | 2021-01-14 | 2021-01-14 | 一种基于概率图的基因调控网络分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112802543A true CN112802543A (zh) | 2021-05-14 |
CN112802543B CN112802543B (zh) | 2024-04-30 |
Family
ID=75810763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110048797.2A Active CN112802543B (zh) | 2021-01-14 | 2021-01-14 | 一种基于概率图的基因调控网络分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112802543B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030219764A1 (en) * | 2001-09-26 | 2003-11-27 | Seiya Imoto | Biological discovery using gene regulatory networks generated from multiple-disruption expression libraries |
AR108031A1 (es) * | 2016-01-07 | 2018-07-11 | Ascus Biosciences Inc | Métodos para mejorar la producción de leche mediante la administración de consorcios microbianos |
CN109243523A (zh) * | 2018-08-24 | 2019-01-18 | 东北大学 | 一种基于乳腺癌疾病的调控网络构建及分析方法 |
CN109360607A (zh) * | 2018-10-16 | 2019-02-19 | 武汉大学 | 一种动态基因调控网的网络演化分析方法及装置 |
CN110136779A (zh) * | 2019-05-30 | 2019-08-16 | 上海大学 | 一种生物网络关键差异节点的样本特征提取及预测方法 |
CN111462824A (zh) * | 2020-06-04 | 2020-07-28 | 东北大学 | 一种面向基因调控网络的可达概率查询方法 |
-
2021
- 2021-01-14 CN CN202110048797.2A patent/CN112802543B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030219764A1 (en) * | 2001-09-26 | 2003-11-27 | Seiya Imoto | Biological discovery using gene regulatory networks generated from multiple-disruption expression libraries |
CN1592852A (zh) * | 2001-09-26 | 2005-03-09 | Gni株式会社 | 应用产生自多重破坏表达文库的基因调控网络的生物发现 |
AR108031A1 (es) * | 2016-01-07 | 2018-07-11 | Ascus Biosciences Inc | Métodos para mejorar la producción de leche mediante la administración de consorcios microbianos |
CN109243523A (zh) * | 2018-08-24 | 2019-01-18 | 东北大学 | 一种基于乳腺癌疾病的调控网络构建及分析方法 |
CN109360607A (zh) * | 2018-10-16 | 2019-02-19 | 武汉大学 | 一种动态基因调控网的网络演化分析方法及装置 |
CN110136779A (zh) * | 2019-05-30 | 2019-08-16 | 上海大学 | 一种生物网络关键差异节点的样本特征提取及预测方法 |
CN111462824A (zh) * | 2020-06-04 | 2020-07-28 | 东北大学 | 一种面向基因调控网络的可达概率查询方法 |
Non-Patent Citations (2)
Title |
---|
JOSE A.SEOANE等: "Chromatin regulators mediate anthracycline sensitivity in breast cancer", 《NATUREMEDICINE》, pages 1721 - 1725 * |
何明霞等: "《主成分分析法在基因调控网络中的应用研究》", 《生物数学学报》, vol. 32, no. 03, pages 353 - 358 * |
Also Published As
Publication number | Publication date |
---|---|
CN112802543B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391512B (zh) | 知识图谱预测的方法和装置 | |
CN103745258A (zh) | 基于最小生成树聚类的遗传算法的复杂网络社区挖掘方法 | |
CN109686402B (zh) | 基于动态加权相互作用网络中关键蛋白质识别方法 | |
CN107092812B (zh) | 一种在ppi网络中基于遗传算法识别关键蛋白质的方法 | |
Ma et al. | Decomposition-based multiobjective evolutionary algorithm for community detection in dynamic social networks | |
Trivodaliev et al. | Exploring function prediction in protein interaction networks via clustering methods | |
Zarei et al. | Detecting community structure in complex networks using genetic algorithm based on object migrating automata | |
CN114840857A (zh) | 基于深度强化学习与多级覆盖策略的智能合约模糊测试方法及系统 | |
Liu et al. | Evolutionary multi-objective optimization in searching for various antimicrobial peptides [feature] | |
Moitra et al. | Persistent homology on streaming data | |
Shirmohammady et al. | PPI-GA: a novel clustering algorithm to identify protein complexes within protein-protein interaction networks using genetic algorithm | |
Li et al. | A community merger of optimization algorithm to extract overlapping communities in networks | |
Lei et al. | Clustering PPI data based on Improved functional-flow model through Quantum-behaved PSO | |
CN112802543B (zh) | 一种基于概率图的基因调控网络分析方法 | |
Peng et al. | Predicting protein functions through non-negative matrix factorization regularized by protein-protein interaction network and gene functional information | |
Nejad et al. | Solving a traveling salesman problem using meta-heuristics | |
Zhang et al. | Data integration of hybrid microarray and single cell expression data to enhance gene network inference | |
Patra et al. | Disjoint motif discovery in biological network using pattern join method | |
CN112765414A (zh) | 一种图嵌入向量的生成方法及基于图嵌入的社区发现方法 | |
Liu et al. | Identification of essential proteins by using complexes and biological information on dynamic PPI Network | |
Parsa et al. | An EDA-based community detection in complex networks | |
Long et al. | A unified community detection algorithm in large-scale complex networks | |
CN111488991A (zh) | 结合遗传和离散差分的布谷鸟算法的通信社区检测方法 | |
Bütün et al. | A multi-objective genetic algorithm for community discovery | |
Fu et al. | Weighted network overlapping community partition based on node membership |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |