CN111462824A - 一种面向基因调控网络的可达概率查询方法 - Google Patents

一种面向基因调控网络的可达概率查询方法 Download PDF

Info

Publication number
CN111462824A
CN111462824A CN202010500098.2A CN202010500098A CN111462824A CN 111462824 A CN111462824 A CN 111462824A CN 202010500098 A CN202010500098 A CN 202010500098A CN 111462824 A CN111462824 A CN 111462824A
Authority
CN
China
Prior art keywords
graph
nodes
edge
target
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010500098.2A
Other languages
English (en)
Other versions
CN111462824B (zh
Inventor
王之琼
丁子恒
张钊源
刘可伊
汪翰文
王炜祎祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202010500098.2A priority Critical patent/CN111462824B/zh
Publication of CN111462824A publication Critical patent/CN111462824A/zh
Application granted granted Critical
Publication of CN111462824B publication Critical patent/CN111462824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Physiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)

Abstract

本发明提供一种面向基因调控网络的可达概率查询方法,属于医学信息学技术领域,该方法针对基因调控网络复杂特性而设计了具有新意的图缩减算法,针对不确定图上点与边不同的特征所设计的不同的缩减方式,提高了图缩减的效率和适用范围;此外相较于传统的可能世界与可达概率计算分离的算法,本申请提供的可达概率查询算法将二者合二为一,大大降低了时间复杂度和空间复杂度。本申请针对基因调控网络所设计的高效、快速且精准的查询方法,为明确致病基因与致病基因、致病基因与靶向药物之间的关系提供了一种有效可行的办法。

Description

一种面向基因调控网络的可达概率查询方法
技术领域
本发明涉及医学信息学技术领域,尤其涉及一种面向基因调控网络的可达概率查询方法。
背景技术
随着基因调控网络概念的诞生和多种基因调控网络构建方法的提出,基因调控网络的构建技术日趋成熟。在构建好基因调控网络后,急需设计高效、快速且精准的查询方法,以明确致病基因与致病基因、致病基因与靶向药物之间的关系,以及多个基因对致病基因的联合调控作用,并以此来研究相应的靶向药物或通过基因调控抑制致病基因的医疗方法。由此可见,设计一种适应于相应基因调控网络、并能快速精准的可达查询算法,对于基因调控网络相关技术应用于医疗及其它各个邻域是至关重要的。
目前大部分的基因调控网络构建技术都是以贝叶斯网络这一概率图模型(不确定图模型)来表示复杂的基因调控网络,而目前基于概率图的可达查询方法虽在一定程度上解决了不确定图上两点间的概率表示,但因为基因调控网络本身的复杂性,这些方法不能直接用于基因调控网络进行查询。例如,基本随机算法是概率图上可达概率表示的基本算法,但对于规模庞大的基因调控网络而言太过耗时;生成子图的相关算法因其要对概率图生成大量子图,对于基因调控网络情况多样的特征而言得到的结果和所用时间并不稳定;基于距离阈值的可达查询算法在基因调控网络上没有太多应用。因此,迫切需要一种基于基因调控网络的准确高效的可达查询技术。
发明内容
针对上述现有技术的不足,本发明提供一种面向基因调控网络的可达概率查询方法。
为解决上述技术问题,本发明所采取的技术方案是:一种面向基因调控网络的可达概率查询方法,其流程如图1所示,包括如下步骤:
步骤1:利用贝叶斯网络构建基因间的调控网络,得到一个有向无环不确定图,其中顶点表示基因,边表示两个基因之间的相互作用,边权值表示基因之间存在相互作用的可能性;
步骤2:对不确定图进行缩减,分为3个缩减过程,对应三种不同图缩减手段,旨在减小图的规模且不会影响结果的准确性,并且可以针对不用的基因调控网络而选用相应的过程。所述3个缩减过程合并使用或者分别独立使用。
图缩减过程1:去除所有出度为0的非目标、非源节点,其流程如下:
S1.1:遍历不确定图,找到所有出度为0的非目标、非源节点;
S1.2:将这些节点及其邻边从不确定图中删除;
S1.3:若由于S1.2中的删除操作,使得有其他节点的出度变为0,则继续将这些节点按照S1.2处理;
S1.4:重复S1.2和S1.3,直至没有出度为0的非目标、非源节点。
该图缩减过程的目的为:出度为0的非目标、非源节点,与目标节点间一定不存在通路,所以不会对可达概率的计算产生任何影响。
图缩减过程2:去掉所有入度为0的非目标、非源节点,其流程如下:
S2.1:遍历不确定图,找到所有入度为0的非目标、非源节点;
S2.2:将这些节点及其邻边从不确定图中删除;
S2.3:若由于S2.2中的删除操作,使得有其他节点的入度变为0,则继续将这些节点按照步S2.2处理;
S2.4:重复S2.2和S2.3,直至没有入度为0的非目标、非源节点。
该图缩减过程的目的为:入度为0的非目标、非源节点,在可达查询时无法从任何路径到达,所以不会对可达情况产生任何影响。
图缩减过程3:去掉所有出入度均为1的非目标、非源节点,其流程如下:
S3.1:遍历不确定图,找到所有出入度均为1的非目标、非源节点;
S3.2:将这些节点及其邻边从不确定图中删除,建立新边或与已有边进行合并,代替这些节点及其邻边;
S3.3:计算并更新上述新边或已有边的存在概率;
S3.4:若由于S3.2中的删除操作,使得有其他节点的出入度均变为1,则继续将这些节点按照S3.2和S3.3处理;
S3.5:重复S3.2至S3.4,直至没有出入度均为1的非目标、非源节点。
该图缩减过程的目的为:出入度均为1的非目标、非源节点,边结构较为简单,可以删去该节点及其邻边,增加一条新边或合并到已有边,新边或已有边的两端分别为该节点的父节点和子节点。
步骤3:生成可能世界图与图搜索并行的可达查询,包括如下步骤:
步骤3.1:输入缩减后的图,设定抽样次数为N,记搜索成功次数为M,M初始化为0;
步骤3.2:从源点出发开始搜索,采取广度或深度优先遍历,遍历节点与它的邻接点之间的边,生成0-1之间的随机数;
步骤3.3:比较随机数与边的存在概率,若存在概率大于随机数则边存在,将存在边的相关节点纳入广度或深度优先遍历的待搜索节点集中;若存在概率小于随机数则认为边不存在,忽略该边以及该边的相关节点;
步骤3.4:重复步骤3.1和步骤3.3,若目标节点被纳入待搜索节点集,则记为搜索成功一次,M=M+1,该步骤结束;若尚未搜索到目标节点且待搜索节点集为空,则认为搜索失败,该步骤结束;
步骤3.5:重复步骤3.1至步骤3.4N次,计算查询结果为可达概率
Figure BDA0002524473390000031
步骤3的目的:传统基于蒙特卡洛法的不确定图可达查询算法往往需要生成很多个可能世界图,再在可能世界图中进行图搜索算法,两者分开进行,且生成的可能世界图中往往会有大量的边不会在可达查询过程中涉及,占用了较多内存的同时也浪费了大量的时间。本算法将选择将两个步骤相结合,即生成可能世界图与图搜索并行的可达查询,以下是具体介绍,首先介绍了可能世界图,然后是本算法的操作步骤。
所述可能世界图:可能世界模型是一种被用来描述概率数据库的模型。用它表达不确定图具体如下:给出一个不确定有向图,赋予每边一个存在概率,假设不同边的分布是独立的,一个不确定图的可能世界是一个确定图,称为可能世界图,它是不确定图中所有边(取决于它们的存在性)组合的一个实例.一个可能图的概率是其所有存在边概率和其不存在边的不存在概率的乘积.给定不确定图两顶点s和d,从s到d的可达概率是部分可能图概率的和,在这些可能图中,s和d必须是连通的。
采用上述技术方案所产生的有益效果在于:
(1)本发明提供了针对基因调控网络复杂特性而设计的具有新意的图缩减算法,运用了离散数学相关知识,设计了各种图的缩减操作,大大简化了后续可达查询所需步骤;
(2)本发明提供的图缩减算法包含了三个过程,是针对不确定图上点与边不同的特征所设计的不同的缩减方式,三个过程可以分别独立使用也可以合并使用,提高了图缩减的效率和适用范围;
(3)本发明提供的可达概率查询算法,相较于传统的可能世界与可达概率计算分离的算法,本文中的可达查询算法将二者合二为一,大大降低了时间复杂度和空间复杂度。
(4)本发明所提供的基于基因调控网络的可达概率查询方法,是为基因调控网络所设计的高效、快速且精准的查询方法,为明确致病基因与致病基因、致病基因与靶向药物之间的关系提供了一种有效可行的办法,并为研究相应的靶向药物或通过基因调控抑制致病基因的医疗方法提供了基础。除此之外,本方法还具有一定的泛用性,对于涉及概率图上可达概率查询的相关邻域都能加以应用。
附图说明
图1为本发明实施例中对不确定图进行缩减的流程图;
图2为本发明实施例中图缩减过程1的流程图;
图3为本发明实施例中图缩减过程2的流程图;
图4为本发明实施例中图缩减过程3的流程图;
图5为本发明实施例中综合使用图缩减过程1、2、3的不确定图的示意图;
图6为本发明实施例中可能图搜索与查询并行算法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例以乳腺癌基因调控网络的可达查询为例,如图1所示,本实施例的方法如下所述:
步骤1:利用贝叶斯网络构建乳腺癌基因间的调控网络,得到一个有向无环不确定图,其中顶点表示乳腺癌基因,边表示两个乳腺癌基因之间的相互作用,边权值表示乳腺癌基因之间存在相互作用的可能性;
本实施例中使用到的图结构均使用邻接表存储,邻接表中每个元素除保存该节点的边表头指针外,还拥有该节点的父节点链表,用于保存该节点的所有父节点。
所述利用贝叶斯网络构建乳腺癌基因间的调控网络,得到的有向无环不确定图中,所有边构成边集E,所有顶点构成顶点集V,给定两点进行可达查询,两点间所有通路包含的所有边构成一个路径边集合E0,所有顶点构成路径顶点集合V0,显然,E0在E的相对补集CEE0中的边,与V0在V的相对补集CVV0中的点,不会对给定两点的可达情况产生任何影响,算法应当将这些点去除。
对于任一单一节点,它的父节点记作father,它的子节点记作son,该节点与其父节点father间的边e1的存在概率记作P1,与其子节点son间的边e2的存在概率记作P2,分以下两种情况进行边的更新操作:
情况1.若father节点与son节点间不存在边,则新建一条有向边e,方向为从father节点指向son节点;
该新建边e存在当且仅当边e1与e2同时存在,又由于e1与e2是否存在相互独立,所以边e存在概率的计算公式为P=P1×P2
情况2.若father节点与son节点间已经存在边e且存在概率为Pe,则需要重新计算边e的存在概率;
此时father节点与son节点存在两条通路,一条通路为已存在的边e,另一条通路为从father出发经过单一节点后到达son节点,将这个经过单一节点的通路按上述情况1中的描述,变成一条存在概率P=P1×P2的边,此时father节点与son节点间存在有两条边,father节点与son节点连通当且仅当这两条边至少有一边存在。由于这两条边的存在相互独立,可以计算出连通概率为P连通=1-(1-Pe)×(1-P1×P2),将边e的存在概率更新为该连通概率即可。
更新操作结束后,将单一节点及边e1与e2删除即完成图缩减算法三的操作。
经过上述三个算法处理后,不确定图结构将呈现类似于“格”(格是一种特殊的偏序集,对其中任意两个元素都可取最小上界和最大下界,此处仅考虑格所展现的几何样貌,不考虑格的实际数学意义)的结构,其中源节点和目标节点分别为“格”的上下两端,图中的任何节点都对源节点与目标节点的可达查询结果有影响。图中的简单结构被进一步整合,除源节点和目标节点外,其他节点的度数都不小于3,呈现较为复杂的结构。
步骤2:对不确定图进行缩减,分为3个缩减过程,对应三种不同图缩减手段,旨在减小图的规模且不会影响结果的准确性,并且可以针对不用的基因调控网络而选用相应的过程。本实施例中将三个过程合并使用,更能体现本发明的效率优势。
图缩减过程1:去除所有出度为0的非目标、非源节点,其流程如图2所示,步骤如下:
S1.1:遍历不确定图,找到所有出度为0的非目标、非源节点;
S1.2:将这些节点及其邻边从不确定图中删除;
S1.3:若由于S1.2中的删除操作,使得有其他节点的出度变为0,则继续将这些节点按照S1.2处理;
S1.4:重复S1.2和S1.3,直至没有出度为0的非目标、非源节点。
本实施例中:S1.1:通过遍历邻接表的顶点数组,将边表指针域为空(代表出度为0)的点入队列;S1.2:遍历队首元素的父节点,删除父节点边集中与队首元素连通的边,队首元素出队列;S1.3:若上述父节点出度也变为0,则该节点入队列;S1.4:重复S1.2和S1.3直到队列为空时停止。
图缩减过程2:去掉所有入度为0的非目标、非源节点,其流程如图3所示,步骤如下:
S2.1:遍历不确定图,找到所有入度为0的非目标、非源节点;
S2.2:将这些节点及其邻边从不确定图中删除;
S2.3:若由于S2.2中的删除操作,使得有其他节点的入度变为0,则继续将这些节点按照步S2.2处理;
S2.4:重复S2.2和S2.3,直至没有入度为0的非目标、非源节点。
本实施例中:S2.1:遍历邻接表的顶点数组,将父节点链表为空(代表入度为0)的点入队列;S2.2:遍历队首元素的子节点,删除子节点的父节点链表中代表队首元素的节点,队首元素出队列;S2.3:若上述子节点出度也变为0,则该节点入队列;S2.4:重复S2.2和S2.3直到队列为空时停止。
图缩减过程3:去掉所有出入度均为1的非目标、非源节点,其流程如图4所示,步骤如下:
S3.1:遍历不确定图,找到所有出入度均为1的非目标、非源节点;
S3.2:将这些节点及其邻边从不确定图中删除,建立新边或与已有边进行合并,代替这些节点及其邻边;
S3.3:计算并更新上述新边或已有边的存在概率;
S3.4:若由于S3.2中的删除操作,使得有其他节点的出入度均变为1,则继续将这些节点按照S3.2和S3.3处理;
S3.5:重复S3.2至S3.4,直至没有出入度均为1的非目标、非源节点。
本实施例中:S3.1:遍历邻接表的顶点数组,找到所有出入度均为1的非目标、非源节点,加入队列中;S3.2:记队首元素的父节点为father、子节点为son,再分别记录该节点与father节点间的边存在概率P1,与son节点间的边存在概率P2,队首元素出队列;S3.3:按照如上提出的边的更新方式,对边进行更新:若father节点与son节点间存在边e,则更新边e的存在概率;若father节点与son节点间不存在边,则新建一条有向边并确定其方向和存在概率。更新结束后将该节点及相应边从邻接表中删除;S3.4:若father节点或son节点的出入度均变为1,且不在队列中,则加入队列;S3.5:重复S3.2至S3.4,直至队列为空时停止。本实施例执行完图缩减过程1、2、3的不确定图的示意图如图5所示。
设单次抽样过程中,判定边存在情况的次数称为边生成次数Ne,搜索时经过得所有顶点在不确定图中的所拥有的邻边的数量(不论这些邻边在可能图中是否存在,边存在概率是不确定图的固有属性,可能图中边的存在或不存在,只是属性的实例化表现方式),称为边搜索次数Ns,所有生成而未被搜索的边称为无用边,构成集合Vn,不确定图中的边数量记为NE。无用边意味着该边的生成与否,对这次搜索的结果不产生任何影响,生成无用边耗费的时间就是额外浪费的时间。搜索率越大,意味着单次抽样的效率越高,生成无用边的数量越少。其中,搜索率η的计算公式如下:
Figure BDA0002524473390000061
在传统的基于蒙特卡洛抽样法的不确定图可达查询算法中,需要生成一定数量的可能世界图,然后再在可能世界图上执行图搜索算法对给定两点进行可达查询,统计两点可达的可能世界图数量,以频率代替概率得到两点可达概率。在生成可能世界图的过程中,需要基于完整的不确定图,对图中的所有边根据它们的边存在概率的进行判断,所以每次抽样的边生成次数Ne=NE,这导致在该算法中的单次抽样搜索率计算方式变换为
Figure BDA0002524473390000071
无用边数量|Vn|=NE-Ns。在这个可能世界图上进行查询过程中,很少会经过可能图的所有边,原因在于当搜索到目标节点时,搜索算法就会停止,或者当源节点与目标节点位于可能图的不同连通分量中时,搜索算法最多只能搜索源节点所在连通分量内的顶点,导致Ns总是小于NE,因此传统查询算法的搜索率往往偏低,即:生成时考虑所有边,但搜索时只搜索了部分边。
本算法将生成可能世界图与图搜索相融合的方式有效地解决了这个问题。算法不采取生成完整可能世界图的方式,而是直接在不确定图上进行搜索。每次搜索时从源点出发,根据源点邻边的存在概率与0-1的随机数判断各个邻边是否存在,然后从存在的邻边开始,以宽度或深度优先搜索继续向外搜索。由于边的生成是在搜索时进行的,且每次只对当前搜索到的节点的邻边进行生成,因而Ne≡Ns,这使得每次的抽样的搜索率η=1恒成立,大大增加了抽样的效率。
步骤3:生成可能世界图与图搜索并行的可达查询,其流程如图6所示,步骤如下:
步骤3.1:输入缩减后的图,设定抽样次数为N,记搜索成功次数为M,M初始化为0;
步骤3.2:从源点出发开始搜索,采取广度或深度优先遍历,遍历节点与它的邻接点之间的边,生成0-1之间的随机数;
步骤3.3:比较随机数与边的存在概率,若存在概率大于随机数则边存在,将存在边的相关节点纳入广度或深度优先遍历的待搜索节点集中;若存在概率小于随机数则认为边不存在,忽略该边以及该边的相关节点;
步骤3.4:重复步骤3.2和步骤3.3,若目标节点被纳入待搜索节点集,则记为搜索成功一次,V=V+1,该步骤结束;若尚未搜索到目标节点且待搜索节点集为空,则认为搜索失败,该步骤结束;
步骤3.5:重复步骤3.2至步骤3.4N次,计算查询结果为可达概率
Figure BDA0002524473390000072
本实施例中:1.设定目标抽样次数N,初始化可达次数M=0;
2.将源点入栈,栈顶元素出栈,遍历栈顶元素的邻边,生成0-1随机数判断这些边是否存在;
3.对于存在的边,若为目标节点则返回OK,否则入栈;
4.循环2、3直至返回OK,M=M+1,或栈空返回NO,M不变;
5.循环2-4,直至抽样次数达到N,计算可达概率
Figure BDA0002524473390000081
本实施例中,基于乳腺癌基因调控网络生成的概率图进行可达查询的结果如下表1所示:
表1乳腺癌基因间可达概率查询结果
Figure BDA0002524473390000082
如上表所示,本发明基于基因调控网络的特性(大多点之间的概率均为0),本实施例主要对比基本随机算法和本发明的方法查询到可达概率所消耗的时间(实验数据为多次实验所得到的平均值),可以明显看出本发明的方法耗时较短。
选取某一组点多次重复实验,比较算法的准确率。本实施例选取第1组起点SMARCD1和终点STK11,进行了10次实验,每次实验的结果和分析如表2所示。
表2第1组点多次实验结果统计表
Figure BDA0002524473390000083
Figure BDA0002524473390000091
从上述实验可以看出,本发明的方法在所得到结果期望稳定的基础上,所得到的方差更小,代表所得到可达概率更稳定更可靠,准确度更高。

Claims (6)

1.一种面向基因调控网络的可达概率查询方法,其特征在于,包括如下步骤:
步骤1:利用贝叶斯网络构建基因间的调控网络,得到一个有向无环不确定图,其中顶点表示基因,边表示两个基因之间的相互作用,边权值表示基因之间存在相互作用的可能性;
步骤2:对不确定图进行缩减;
步骤3:生成可能世界图与图搜索并行的可达查询。
2.根据权利要求1所述的一种面向基因调控网络的可达概率查询方法,其特征在于:所述步骤2包含3个缩减过程,分别为:
图缩减过程1:去除所有出度为0的非目标、非源节点;
图缩减过程2:去掉所有入度为0的非目标、非源节点;
图缩减过程3:去掉所有出入度均为1的非目标、非源节点;
所述3个缩减过程合并使用或者分别独立使用。
3.根据权利要求2所述的一种面向基因调控网络的可达概率查询方法,其特征在于:所述图缩减过程1的步骤如下:
S1.1:遍历不确定图,找到所有出度为0的非目标、非源节点;
S1.2:将这些节点及其邻边从不确定图中删除;
S1.3:若由于S1.2中的删除操作,使得有其他节点的出度变为0,则继续将这些节点按照S1.2处理;
S1.4:重复S1.2和S1.3,直至没有出度为0的非目标、非源节点。
4.根据权利要求2所述的一种面向基因调控网络的可达概率查询方法,其特征在于:所述图缩减过程2的步骤如下:
S2.1:遍历不确定图,找到所有入度为0的非目标、非源节点;
S2.2:将这些节点及其邻边从不确定图中删除;
S2.3:若由于S2.2中的删除操作,使得有其他节点的入度变为0,则继续将这些节点按照步S2.2处理;
S2.4:重复S2.2和S2.3,直至没有入度为0的非目标、非源节点。
5.根据权利要求2所述的一种面向基因调控网络的可达概率查询方法,其特征在于:所述图缩减过程3的步骤如下:
S3.1:遍历不确定图,找到所有出入度均为1的非目标、非源节点;
S3.2:将这些节点及其邻边从不确定图中删除,建立新边或与已有边进行合并,代替这些节点及其邻边;
S3.3:计算并更新上述新边或已有边的存在概率;
S3.4:若由于S3.2中的删除操作,使得有其他节点的出入度均变为1,则继续将这些节点按照S3.2和S3.3处理;
S3.5:重复S3.2至S3.4,直至没有出入度均为1的非目标、非源节点。
6.根据权利要求1所述的一种面向基因调控网络的可达概率查询方法,其特征在于:所述步骤3的过程如下:
步骤3.1:输入缩减后的图,设定抽样次数为N,记搜索成功次数为M,M初始化为0;
步骤3.2:从源点出发开始搜索,采取广度或深度优先遍历,遍历节点与它的邻接点之间的边,生成0-1之间的随机数;
步骤3.3:比较随机数与边的存在概率,若存在概率大于随机数则边存在,将存在边的相关节点纳入广度或深度优先遍历的待搜索节点集中;若存在概率小于随机数则认为边不存在,忽略该边以及该边的相关节点;
步骤3.4:重复步骤3.1和步骤3.3,若目标节点被纳入待搜索节点集,则记为搜索成功一次,M=M+1,该步骤结束;若尚未搜索到目标节点且待搜索节点集为空,则认为搜索失败,该步骤结束;
步骤3.5:重复步骤3.1至步骤3.4N次,计算查询结果为可达概率
Figure FDA0002524473380000021
CN202010500098.2A 2020-06-04 2020-06-04 一种面向基因调控网络的可达概率查询方法 Active CN111462824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010500098.2A CN111462824B (zh) 2020-06-04 2020-06-04 一种面向基因调控网络的可达概率查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010500098.2A CN111462824B (zh) 2020-06-04 2020-06-04 一种面向基因调控网络的可达概率查询方法

Publications (2)

Publication Number Publication Date
CN111462824A true CN111462824A (zh) 2020-07-28
CN111462824B CN111462824B (zh) 2023-08-08

Family

ID=71680330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010500098.2A Active CN111462824B (zh) 2020-06-04 2020-06-04 一种面向基因调控网络的可达概率查询方法

Country Status (1)

Country Link
CN (1) CN111462824B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786197A (zh) * 2021-02-03 2021-05-11 成都中医药大学 一种基于网络辨证的中医病机网络构建方法及系统
CN112802543A (zh) * 2021-01-14 2021-05-14 东北大学 一种基于概率图的基因调控网络分析方法
CN115080807A (zh) * 2022-07-20 2022-09-20 北京达佳互联信息技术有限公司 数据查询方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100262574A1 (en) * 2009-04-13 2010-10-14 Palo Alto Research Center Incorporated System and method for combining breadth-first and depth-first search strategies with applications to graph-search problems with large encoding sizes

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100262574A1 (en) * 2009-04-13 2010-10-14 Palo Alto Research Center Incorporated System and method for combining breadth-first and depth-first search strategies with applications to graph-search problems with large encoding sizes

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BERNHARD K. AICHERNIG等: "Probabilistic black-box reachability checking (extended version)" *
翟秋瑛: "基于可达性的不确定图查询研究" *
袁野;王国仁;: "基于阈值的概率图可达查询" *
谢盼: "面向数字化学习环境构建的Web服务组合方法研究" *
谢盼;周东岱;钟绍春;张琢;: "面向数字化学习支撑环境构建的Web服务组合方法研究" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112802543A (zh) * 2021-01-14 2021-05-14 东北大学 一种基于概率图的基因调控网络分析方法
CN112802543B (zh) * 2021-01-14 2024-04-30 东北大学 一种基于概率图的基因调控网络分析方法
CN112786197A (zh) * 2021-02-03 2021-05-11 成都中医药大学 一种基于网络辨证的中医病机网络构建方法及系统
CN112786197B (zh) * 2021-02-03 2023-08-18 成都中医药大学 一种基于网络辨证的中医病机网络构建方法及系统
CN115080807A (zh) * 2022-07-20 2022-09-20 北京达佳互联信息技术有限公司 数据查询方法、装置及电子设备

Also Published As

Publication number Publication date
CN111462824B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN111462824A (zh) 一种面向基因调控网络的可达概率查询方法
Skinderowicz An improved ant colony system for the sequential ordering problem
Jozefowiez et al. Multi-objective meta-heuristics for the traveling salesman problem with profits
CN109411033B (zh) 一种基于复杂网络的药物疗效筛选方法
CN111709560A (zh) 一种基于改进蚁群算法的解决车辆路径问题方法
CN109840551B (zh) 一种用于机器学习模型训练的优化随机森林参数的方法
Meyer Average-case complexity of single-source shortest-paths algorithms: lower and upper bounds
CN113703391A (zh) 一种基于随机信息素优化精英蚁群算法的加工路径规划方法
Fu et al. Dynamic programming driven memetic search for the steiner tree problem with revenues, budget, and hop constraints
Yuen et al. A non-revisiting genetic algorithm
Peters et al. Preferences single-peaked on a tree: Multiwinner elections and structural results
Michelakos et al. A hybrid classification algorithm evaluated on medical data
Zheng et al. Approximation Guarantees for the Non-Dominated Sorting Genetic Algorithm II (NSGA-II)
Fortier et al. Learning Bayesian classifiers using overlapping swarm intelligence
CN110222023A (zh) 基于Spark与蚁群优化的多目标并行属性约简方法
Marinescu et al. AND/OR tree search for constraint optimization
Liu et al. Analysis and prediction of trajectories using bayesian network
CN114996278A (zh) 一种基于强化学习的路网最短路径距离计算方法
Xiong et al. Mining simple path traversal patterns in knowledge graph
CN114611831A (zh) 一种基于改进初始解算法的医药物流车辆路径优化方法
CN114662012A (zh) 一种面向基因调控网络的社区查询分析方法
Drugan Stochastic pareto local search for many objective quadratic assignment problem instances
CN112598153A (zh) 一种基于天牛须搜索算法的旅行商问题求解方法
Daly et al. Using ant colony optimization in learning Bayesian network equivalence classes
Seridi et al. Multiobjective path relinking for biclustering: Application to microarray data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant