CN114662012A - 一种面向基因调控网络的社区查询分析方法 - Google Patents

一种面向基因调控网络的社区查询分析方法 Download PDF

Info

Publication number
CN114662012A
CN114662012A CN202210372499.3A CN202210372499A CN114662012A CN 114662012 A CN114662012 A CN 114662012A CN 202210372499 A CN202210372499 A CN 202210372499A CN 114662012 A CN114662012 A CN 114662012A
Authority
CN
China
Prior art keywords
nodes
community
node
degree
gene regulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210372499.3A
Other languages
English (en)
Inventor
王之琼
殷文强
李婵
曲璐渲
信俊昌
王炜祎祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202210372499.3A priority Critical patent/CN114662012A/zh
Publication of CN114662012A publication Critical patent/CN114662012A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明提供一种面向基因调控网络的社区查询分析方法,涉及计算机技术领域。该方法首先读取基因调控网络数据,统计基因调控网络基本信息;再确定基因调控网络对应的距离范数评价模型;根据是否输入阈值p来决定对基因调控网络对应的距离范数评价模型进行常规核分解或p限制核分解;最后根根据用户输入的查询节点和条件在核分解后的基因调控网络上进行社区查询,并对查询结果进行评价。通过定义的有向图上的距离范数模型来进行社区查询,提高返回社区查询结果的质量。

Description

一种面向基因调控网络的社区查询分析方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种面向基因调控网络的社区查询分析方法。
背景技术
在现实世界中,许多复杂的系统都可以用网络来表示,或以网络的形式存在,或能被转化成网络。随着信息技术的飞速发展,各种各样的复杂网络在实际应用中越来越普遍。如基因调控网络:在网络中某个基因的表达水平受到其他基因的影响,这个基因的表达水平又会影响其他基因的表达水平,这种基因间相互制约的调控关系构成了复杂的基因调控网络。研究和分析基因调控网络,了解调控关系和机制,对生物学发展产生深远的影响。
社区查询是当前复杂网络分析的热门话题,社区查询已经应用于绝大多数的真实的复杂网络上。复杂网络的社区是一组节点组成的感应子图(induced subgraph),子图内的节点紧密连接。社区一般带有比较重要的实际意义,如在基因调控网络中,一个社区可能是一个联合给药的靶点基因团,或是一个基因聚类分析的模块。
美国专利“US20140354649A1提供了一种把k-core模型应用在大型的动态网络上进行查询的方法”,该方法描述了在插入新边或删除现有边时并行识别k-core子图和维护k-core子图的步骤。从而能够以可扩展且有效的方式识别和监控大规模图数据。
中国专利“CN104462260A提供一种基于k-core的社区搜索算法”,该方法包含对图生成最大生成树MST;在最大生成树MST上找出连接所有查询节点的子树;搜索得到包含查询节点的子树,返回最大k-core.
目前有很多社区模型,但是针对到具体的基因调控网络来说查询的社区效果不是特别理想。当前的无向图距离范数模型,对hub节点(度分布很大的节点)基因有更高的优先级倾斜(hub节点及其周围节点的通过模型的筛选更有优势)。
专利US20140354649A1和专利CN104462260A提供的方法都是以原有的k-core模型为基础,而k-core模型主要是应用于无向图的,在有向图上表现不佳,且也不具有距离范数模型的特点,也就是说不能满足模型在基因调控网络社区分析中对hub节点的优先级倾斜。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种面向基因调控网络的社区查询分析方法,提出一种适用于有向的基因调控网络的模型,同时对hub节点筛选优先级倾斜,进而满足基因的部分分析需求。
为解决上述技术问题,本发明所采取的技术方案是:一种面向基因调控网络的社区查询分析方法,包括以下步骤:
步骤1:读取基因调控网络数据,并对基因调控网络基本信息进行统计;基因调控网络基本信息包括网络最大可达路径长度、边数、点数以及网络中节点的最大出入度;所述基因调控网络为有向图模型,图中的每一个顶点代表一个基因,顶点间的有向边代表基因间存在的调控关系;
在已经读取的基因调控网络数据的基础上,根据是否输入阈值p来决定是否进行p限制核分解,如果输入p则执行步骤3,按限定条件k,l,h进行p限制核分解;否则执行步骤2,按限定条件k,l,h进行常规核分解;p限制核分解与常规核分解的区别是,两者都是根据基因调控网络对应的(k,l)-h-core距离范数评价模型限定了网络中每个节点在距离h内的出入度至少为k,l,但是p限制核分解进一步限定了网络中节点的直接邻居占比至少为k*p和l*p;
步骤2:对基因调控网络对应的距离范数评价模型(k,l)-h-core进行常规核分解;
步骤2.1:定义有向图的距离范数评价模型(k,l)-h-core;将原有的应用于无向图的距离范数模型修改应用于有向图的距离范数模型(k,l)-h-core,同时考虑模型内节点的出度和入度;
首先确定节点v在距离h内的入度indegh(v)和节点v在距离h内的出度outdegh(v)的定义;其中,indegh(v)为节点v在距离h内的入度节点数,outdegh(v)为节点v在距离h内的出度节点数;
再给出应用于有向图的距离范数模型(k,l)-h-core的定义:给出一个距离阈值h∈N+,一个整数k≥0,一个整数l≥0,h距离范围内的(k,l)-core就是该基因调控网络满足条件的最大子图,使得子图内的任意一节点v满足,indegh(v)≥k,outdegh(v)≥l;
步骤2.2:根据应用于有向图的距离范数评价模型(k,l)-h-core的定义,以及读取用户输入的查询节点和设定的限定条件k,l,h值,将不满足限定条件的节点加入待删除队列;
遍历基因调控网络中的每个节点,计算节点在距离h内的出度outdegh(v)和入度indegh(v),将那些入度indegh(v)不满足限定条件k的节点,和出度outdegh(v)不满足限定条件l的点加入待删除队列;
步骤2.3:如果待删除队列不为空,则依次将待删除的节点出队,然后将待删除的节点加入已删除的节点集合中;根据已删除的节点集合中新加入的已删除的节点,重新计算那些因为受已删除节点影响的节点在距离h范围内的出度outdegh(v)和入度indegh(v),然后重复执行步骤2.2;
采用剪枝策略通过下界公式(1)重新计算受已删除节点影响的节点在距离h范围内的出度outdegh(v)和入度indegh(v);
cur_outdegh(v)>=bf_outdegh(v)-outdegh-1(u) (1)
步骤3:对基因调控网络对应的距离范数评价模型(k,l)-h-core进行p限制核分解;
步骤3.1:定义p限制核分解的(k,l)-h-core;给出一个距离阈值h∈N+,一个比例阈值p∈[0,1],一个整数k≥0,一个整数l≥0,h距离范围内的p限制(k,l)-core就是该基因调控网络满足条件的最大子图,使得子图内的任意一节点v满足,indegh(v)≥k,outdegh(v)≥l,indeg1(v)≥k*p,outdeg1(v)≥l*p,其中,indeg1(v)和outdeg1(v)分别为节点v在距离1内的入度和出度;
步骤3.2:根据p限制核分解的(k,l)-h-core的定义,以及读取用户输入的查询节点和设定的限定条件k,l,h值,将不满足限定条件的节点加入待删除队列;
遍历基因调控网络中的每个节点,计算节点在距离h内的出度outdegh(v)和入度indegh(v),将那些入度indegh(v)不满足限定条件k的节点,和出度outdegh(v)不满足限定条件l的点加入待删除队列;将满足indeg1(v)<k*p或outdeg1(v)<l*p的点加入待删除队列;
步骤3.3:如果待删除队列不为空,则依次将待删除的节点出队,然后将待删除的节点加入已删除的节点集合中;根据已删除的节点集合中新加入的已删除的节点,重新计算那些因为受已删除节点影响的节点在距离h范围内的出度outdegh(v)和入度indegh(v),并根据已删除节点直接影响的邻居计算indeg1(v)和outdeg1(v),然后重复执行步骤3.2;
受已删除节点影响的节点在距离h范围内的出度outdegh(v)和入度indegh(v)仍然采用剪枝策略通过公式(1)重新计算;
步骤4:根据用户输入的查询节点和条件在核分解后的基因调控网络上进行社区查询,如果没有满足条件的社区,提示用户,否则输出满足条件的社区;
步骤4.1:先判断查询节点是否在已经删除的节点集合中,如果在,则已经没有满足条件的社区了,查询结束,否则将查询节点加入查询队列继续执行步骤4.2;
步骤4.2:判断查询队列是否为空,如果查询队列为空,则查询结束,执行步骤4.4,如果查询队列不为空,则执行步骤4.3;
步骤4.3:依次将查询队列内的节点出队,然后把出队的节点加入已经访问的节点集合中,遍历该出队列节点的直接入度和出度的邻居节点集合,如果该出队列节点的邻居节点未在已删除节点中,则判断该邻居节点是否在已经访问的节点集合中,没有则加入查询队列,并判断出队的节点和其邻居节点这两点组成的边是否在已访问的边的集合中,没有则加入到已访问的边集合中,然后重新执行步骤4.2;
步骤4.4:输出已经访问的边的集合,即是表示的社区查询结果;最后计算社区查询结果的基本信息,辅助社区查询结果的分析和统计;
步骤5:采用社区中不可达路径的占比、社区成员出度和入度为0的节点占比以及社区成员的相似性作为社区查询结果的评价指标对社区查询结果进行评价;
所述社区中不可达路径占比如下公式所示:
Figure BDA0003589371530000041
其中,URP为社区中不可达路径占比,C表示社区,
Figure BDA0003589371530000042
社区中出度为0和入度为0的节点占比即为社区中出度为0的节点占总节点数的比例,和入度为0的节点占总节点数的比例;
所述社区成员的相似性包括社区成员的入度相似性CMS in和社区成员的出度相似性CMS out;一个社区C的CMS in和CMS out计算如下公式所示:
Figure BDA0003589371530000043
Figure BDA0003589371530000044
其中,CMS_in(C)、CMS_out(C)分别表示社区C成员的入度相似性和出度相似性,in(u)、in(v)分别表示节点u、v的入度节点集,Out(u)、Out(v)分别表示节点u、v的出度节点集;
最后输出社区查询结果,以及该社区查询结果相关的基本信息和统计指标。
采用上述技术方案所产生的有益效果在于:本发明提供的一种面向基因调控网络的社区查询分析方法,将基因调控网络原有基于无向图的距离范数模型(k,h)-core(只限制出度至少为k)修改成了应用于有向基因调控网络的距离范数模型(k,l)-h-core模型(同时限制出度至少为k和入度至少为l),以解决“当前很多社区模型中针对到具体的基因调控网络来说查询的社区效果不是特别理想的问题”。现有的无向图距离范数模型,对hub节点(度分布很大的节点)基因有更高的优先级倾斜(hub节点及其周围节点的通过模型的筛选更有优势),这样的特点更容易得到社区查询结果且社区中更关注hub节点,但是该模型应用到有向图上单纯的忽略边的方向效果不佳,本发明方法通过定义的有向图上的距离范数模型来进行社区查询,提高返回社区查询结果的质量,并根据此模型提出了一些剪枝策略和扩展查询。
附图说明
图1为本发明实施例提供的一种面向基因调控网络的社区查询分析方法的流程图;
图2为本发明实施例提供的应用于有向图的距离范数模型示意图;
图3为本发明实施例提供的采用两种不同方法对三个基因调控网络的社区查询的CMS结果对比图,其中,(a)为社区成员的入度相似性CMS in的对比图;(b)为社区成员的出度相似性CMS out的对比图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,一种面向基因调控网络的社区查询分析方法,如图1所示,包括以下步骤:
步骤1:读取基因调控网络数据,并对基因调控网络基本信息进行统计;基因调控网络基本信息包括网络最大可达路径长度、边数、点数以及网络中节点的最大出入度;
所述基因调控网络为有向图模型,图中的每一个顶点代表一个基因,顶点间的有向边代表基因间存在的调控关系,边上可能会有一些其他的属性值,如概率值表示基因间调控关系调控概率,调控关系正负值表示的促进还是抑制调控关系,本算法的模型定义是有向图模型,会分别考虑出入度的边,所以较原有算法,能够将边上的权值在读取的时候进行保留,虽然不会处理这些属性值,但是会将其保留并在查询时候展示给用户供用户分析;
在已经读取的基因调控网络的基础上,根据是否输入阈值p来决定是否进行p限制核分解(p-constrained core decomposition),如果输入p则执行步骤3,按限定条件k,l,h进行p限制核分解;否则执行步骤2,按限定条件k,l,h进行常规核分解;p限制核分解与常规核分解的区别是,两者都是根据基因调控网络对应的(k,l)-h-core距离范数评价模型限定了网络中每个节点在距离h内的出入度至少为k,l,但是p限制核分解进一步限定了网络中节点的直接邻居占比至少为k*p和l*p;
本实施例选用Ecoli、Breast_cancer和Ecoli_mutifactorial三个不同规模的基因调控网络,这三个网络的基本信息如表1所示:
表1三个不同规模的基因调控网络的基本信息
网络名称 点数 边数 平均可达路径 最大入度/出度
Ecoli 64 224 3.7 6/13
Breast_cancer 574 3502 4.5 9/108
Ecoli_mutifactorial 1564 3648 2.4 11/430
步骤2:对基因调控网络对应的距离范数评价模型(k,l)-h-core进行常规核分解(core decomposition);
步骤2.1:定义有向图的距离范数评价模型(k,l)-h-core;将原有的应用于无向图的距离范数模型修改应用于有向图的距离范数模型(k,l)-h-core,同时考虑模型内节点的出度和入度;
首先确定节点v在距离h内的入度indegh(v)和节点v在距离h内的出度outdegh(v)的定义;其中,indegh(v)为节点v在距离h内的入度节点数,outdegh(v)为节点v在距离h内的出度节点数;
如图2所示,indegh(x)就是点x在距离h内的入度节点数(即h-neighborhood里的入度),例如indeg1(v)就是节点v在距离1内的入度节点数,以图中x点为例,x点在h=1条件下的入度为1(只有点F),此时indeg1(x)就是传统意义上x点的入度。在h=2的情况下,x在第一层邻居入度节点只有F,而在2-neighborhood此时会有两种情况,1-neighborhood F入度和出度的点A和B,这个时候考虑到基因调控网络中的调控信息的方向性,很自然的忽略方向不一致的边F->B(因为此时对于x来说,B作为x的2-neighborhood点,此时很难通过F影响到x),此时indeg2(x)=2(点F和点A)。同理outdegh(x)的计算方式相同,outdeg1(x)=1,outdeg2(x)=2(点E和D)。
再给出应用于有向图的距离范数模型(k,l)-h-core的定义:给出一个距离阈值h∈N+,一个整数k≥0,一个整数l≥0,h距离范围内的(k,l)-core(也就是(k,l)-h-core)就是该基因调控网络满足条件的最大子图,使得子图内的任意一节点v满足,indegh(v)≥k,outdegh(v)≥l;
步骤2.2:根据应用于有向图的距离范数评价模型(k,l)-h-core的定义,以及读取用户输入的查询节点和设定的限定条件k,l,h值,本实施例设定h=2,k=4,l=4,将不满足限定条件的节点加入待删除队列;
遍历基因调控网络中的每个节点,计算节点在距离h内的出度outdegh(v)和入度indegh(v),将那些入度indegh(v)不满足限定条件k的节点,和出度outdegh(v)不满足限定条件l的点加入待删除队列;
步骤2.3:如果待删除队列不为空,则依次将待删除的节点出队,然后将待删除的节点加入已删除的节点集合中;根据已删除的节点集合中新加入的已删除的节点,重新计算那些因为受已删除节点影响的节点在距离h范围内的出度outdegh(v)和入度indegh(v),然后重复执行步骤2.2;
采用剪枝策略通过下界公式(1)重新计算受已删除节点影响的节点在距离h范围内的出度outdegh(v)和入度indegh(v),根据提出的下界公式(1)减少了重复计算次数,加快分解过程;
本实施例以计算节点在h距离内的出度为例,设删除的节点为u,受影响的节点为v,v受影响之前的在h距离范围内的出度值为bf_outdegh(v),当前更新后节点v出度的实际值为cur_outdegh(v),当节点v和节点u距离为1时,此时只有两种情况,第一种就是节点u在h-1距离范围内的子节点全是通过u与v连接,这个情况下cur_outdegh(v)=bf_outdegh(v)-outdegh-1(u),第二种为节点u的子节点不全是通过u与节点v进行连接,也就是节点v与u的子节点有其他连接途经,当第二种情况时,存在过删的情况,所以cur_outdegh(v)>bf_outdegh(v)-outdegh-1(u);当节点v和节点u距离大于1时,节点v距离u的子节点中距离超过h的节点均为过删节点,仍然有cur_outdegh(v)>=bf_outdegh(v)-outdegh-1(u)。所以有:
cur_outdegh(v)>=bf_outdegh(v)-outdegh-1(u) (1)
所以根据公式(1)能得出点v在点u删除后的真实的outdegh(v)的下界,即下界为bf_outdegh(v)-outdegh-1(u),当删除节点u时,如果点v此时的下界bf_outdegh(v)-outdegh-1(u)仍不小于限定条件,那么我们可以直接进行下界替换而不用计算此时的outdegh(v),因为此时真实的outdegh(v)一定也是大于限定条件的,而下界小于限定条件的情况,真实值outdegh(v)不一定小于限定条件,需要重新进行计算。
步骤3:对基因调控网络对应的距离范数评价模型(k,l)-h-core进行p限制核分解(core decomposition);
步骤3.1:定义p限制核分解的(k,l)-h-core;给出一个距离阈值h∈N+,一个比例阈值p∈[0,1],一个整数k≥0,一个整数l≥0,h距离范围内的p限制(k,l)-core就是该基因调控网络满足条件的最大子图,使得子图内的任意一节点v满足,indegh(v)≥k,outdegh(v)≥l,indeg1(v)≥k*p,outdeg1(v)≥l*p;
步骤3.2:根据p限制核分解的(k,l)-h-core的定义,以及读取用户输入的查询节点和设定的限定条件k,l,h值,将不满足限定条件的节点加入待删除队列;
遍历基因调控网络中的每个节点,计算节点在距离h内的出度outdegh(v)和入度indegh(v),将那些入度indegh(v)不满足限定条件k的节点,和出度outdegh(v)不满足限定条件l的点加入待删除队列;将满足indeg1(v)<k*p或outdeg1(v)<l*p的点加入待删除队列;
步骤3.3:如果待删除队列不为空,则依次将待删除的节点出队,然后将待删除的节点加入已删除的节点集合中;根据已删除的节点集合中新加入的已删除的节点,重新计算那些因为受已删除节点影响的节点在距离h范围内的出度outdegh(v)和入度indegh(v),并根据已删除节点直接影响的邻居计算indeg1(v)和outdeg1(v),然后重复执行步骤3.2;
受已删除节点影响的节点在距离h范围内的出度outdegh(v)和入度indegh(v)仍然采用剪枝策略通过下界公式(1)重新计算;
步骤4:根据用户输入的查询节点和条件在核分解后的基因调控网络上进行社区查询,如果没有满足条件的社区,提示用户,否则输出满足条件的社区;
步骤4.1:先判断查询节点是否在已经删除的节点集合中,如果在,则已经没有满足条件的社区了,查询结束,否则将查询节点加入查询队列继续执行步骤4.2;
步骤4.2:判断查询队列是否为空,如果查询队列为空,则查询结束,执行步骤4.4,如果查询队列不为空,则执行步骤4.3;
步骤4.3:依次将查询队列内的节点出队,然后把出队的节点加入已经访问的节点集合中,遍历该出队列节点的直接入度和出度的邻居节点集合,如果该出队列节点的邻居节点未在已删除节点中,则判断该邻居节点是否在已经访问的节点集合中,没有则加入查询队列,并判断出队的节点和其邻居节点这两点组成的边是否在已访问的边的集合中,没有则加入到已访问的边集合中,然后重新执行步骤4.2;
步骤4.4:输出已经访问的边的集合,即是表示的社区查询结果;最后计算社区查询结果的基本信息,辅助社区查询结果的分析和统计;
步骤5:采用社区中不可达路径的占比、社区成员出度和入度为0的节点占比和社区成员的相似性作为社区查询结果的评价指标对社区查询结果进行评价;
社区中不可达路径占比的计算如下公式所示:
Figure BDA0003589371530000081
其中,URP为社区中不可达路径占比,C表示社区,
Figure BDA0003589371530000082
社区中出度为0和入度为0的节点占比即为社区中出度为0的节点占总节点数的比例,和入度为0的节点占总节点数的比例;
所述社区成员的相似性包括社区成员的入度相似性CMS(community membersimilarity)in和社区成员的出度相似性CMS out;一个社区C的CMS in和CMS out计算如下公式所示:
Figure BDA0003589371530000083
Figure BDA0003589371530000084
其中,CMS_in(C)、CMS_out(C)分别表示社区C成员的入度相似性和出度相似性,in(u)、in(v)分别表示节点u、v的入度节点集,Out(u)、Out(v)分别表示节点u、v的出度节点集;
最后输出社区查询结果,以及该社区查询结果相关的基本信息和统计指标,如图3的CMS为例所示。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (8)

1.一种面向基因调控网络的社区查询分析方法,其特征在于:
读取基因调控网络数据,统计基因调控网络基本信息;
确定基因调控网络对应的距离范数评价模型;
对基因调控网络对应的距离范数评价模型进行核分解;
根据用户输入的查询节点和条件在核分解后的基因调控网络上进行社区查询。
2.根据权利要求1所述的一种面向基因调控网络的社区查询分析方法,其特征在于:包括以下步骤:
步骤1:读取基因调控网络数据,并对基因调控网络基本信息进行统计;
在已经读取的基因调控网络数据的基础上,根据是否输入阈值p来决定是否进行p限制核分解,如果输入p则执行步骤3,按限定条件k,l,h进行p限制核分解;否则执行步骤2,按限定条件k,l,h进行常规核分解;
步骤2:对基因调控网络对应的距离范数评价模型(k,l)-h-core进行常规核分解;
步骤3:对基因调控网络对应的距离范数评价模型(k,l)-h-core进行p限制核分解;
p限制核分解与常规核分解的区别是,两者都是根据基因调控网络对应的(k,l)-h-core距离范数评价模型限定了网络中每个节点在距离h内的出入度至少为k,l,但是p限制核分解进一步限定了网络中节点的直接邻居占比至少为k*p和l*p;
步骤4:根据用户输入的查询节点和条件在核分解后的基因调控网络上进行社区查询,如果没有满足条件的社区,提示用户,否则输出满足条件的社区;
步骤5:最输出社区查询结果,以及该社区查询结果相关的基本信息和统计指标。
3.根据权利要求2所述的一种面向基因调控网络的社区查询分析方法,其特征在于:步骤1所述基因调控网络基本信息包括网络最大可达路径长度、边数、点数以及网络中节点的最大出入度;所述基因调控网络为有向图模型,图中的每一个顶点代表一个基因,顶点间的有向边代表基因间存在的调控关系。
4.根据权利要求3所述的一种面向基因调控网络的社区查询分析方法,其特征在于:所述步骤2的具体方法为:
步骤2.1:定义有向图的距离范数评价模型(k,l)-h-core;将原有的应用于无向图的距离范数模型修改应用于有向图的距离范数模型(k,l)-h-core,同时考虑模型内节点的出度和入度;
首先确定节点v在距离h内的入度indegh(v)和节点v在距离h内的出度outdegh(v)的定义;其中,indegh(v)为节点v在距离h内的入度节点数,outdegh(v)为节点v在距离h内的出度节点数;
再给出应用于有向图的距离范数模型(k,l)-h-core的定义:给出一个距离阈值h∈N+,一个整数k≥0,一个整数l≥0,h距离范围内的(k,l)-core就是该基因调控网络满足条件的最大子图,使得子图内的任意一节点v满足,indegh(v)≥k,outdegh(v)≥l;
步骤2.2:根据应用于有向图的距离范数评价模型(k,l)-h-core的定义,以及读取用户输入的查询节点和设定的限定条件k,l,h值,将不满足限定条件的节点加入待删除队列;
遍历基因调控网络中的每个节点,计算节点在距离h内的出度outdegh(v)和入度indegh(v),将那些入度indegh(v)不满足限定条件k的节点,和出度outdegh(v)不满足限定条件l的点加入待删除队列;
步骤2.3:如果待删除队列不为空,则依次将待删除的节点出队,然后将待删除的节点加入已删除的节点集合中;根据已删除的节点集合中新加入的已删除的节点,重新计算那些因为受已删除节点影响的节点在距离h范围内的出度outdegh(v)和入度indegh(v),然后重复执行步骤2.2;
采用剪枝策略通过下界公式(1)重新计算受已删除节点影响的节点在距离h范围内的出度outdegh(v)和入度indegh(v);
cur_outdegh(v)>=bf_outdegh(v)-outdegh-1(u) (1)。
5.根据权利要求4所述的一种面向基因调控网络的社区查询分析方法,其特征在于:所述步骤3的具体方法为:
步骤3.1:定义p限制核分解的(k,l)-h-core;给出一个距离阈值h∈N+,一个比例阈值p∈[0,1],一个整数k≥0,一个整数l≥0,h距离范围内的p限制(k,l)-core就是该基因调控网络满足条件的最大子图,使得子图内的任意一节点v满足,indegh(v)≥k,outdegh(v)≥l,indeg1(v)≥k*p,outdeg1(v)≥l*p,其中,indeg1(v)和outdeg1(v)分别为节点v在距离1内的入度和出度;
步骤3.2:根据p限制核分解的(k,l)-h-core的定义,以及读取用户输入的查询节点和设定的限定条件k,l,h值,将不满足限定条件的节点加入待删除队列;
遍历基因调控网络中的每个节点,计算节点在距离h内的出度outdegh(v)和入度indegh(v),将那些入度indegh(v)不满足限定条件k的节点,和出度outdegh(v)不满足限定条件l的点加入待删除队列;将满足indeg1(v)<k*p或outdeg1(v)<l*p的点加入待删除队列;
步骤3.3:如果待删除队列不为空,则依次将待删除的节点出队,然后将待删除的节点加入已删除的节点集合中;根据已删除的节点集合中新加入的已删除的节点,重新计算那些因为受已删除节点影响的节点在距离h范围内的出度outdegh(v)和入度indegh(v),并根据已删除节点直接影响的邻居计算indeg1(v)和outdeg1(v),然后重复执行步骤3.2;
受已删除节点影响的节点在距离h范围内的出度outdegh(v)和入度indegh(v)仍然采用剪枝策略通过下界公式(1)重新计算。
6.根据权利要求5所述的一种面向基因调控网络的社区查询分析方法,其特征在于:所述步骤4的具体方法为:
步骤4.1:先判断查询节点是否在已经删除的节点集合中,如果在,则已经没有满足条件的社区了,查询结束,否则将查询节点加入查询队列继续执行步骤4.2;
步骤4.2:判断查询队列是否为空,如果查询队列为空,则查询结束,执行步骤4.4,如果查询队列不为空,则执行步骤4.3;
步骤4.3:依次将查询队列内的节点出队,然后把出队的节点加入已经访问的节点集合中,遍历该出队列节点的直接入度和出度的邻居节点集合,如果该出队列节点的邻居节点未在已删除节点中,则判断该邻居节点是否在已经访问的节点集合中,没有则加入查询队列,并判断出队的节点和其邻居节点这两点组成的边是否在已访问的边的集合中,没有则加入到已访问的边集合中,然后重新执行步骤4.2;
步骤4.4:输出已经访问的边的集合,即是表示的社区查询结果;最后计算社区查询结果的基本信息,辅助社区查询结果的分析和统计。
7.根据权利要求2-6任一项所述的一种面向基因调控网络的社区查询分析方法,其特征在于:所述方法还采用社区中不可达路径的占比、社区成员出度和入度为0的节点占比以及社区成员的相似性作为社区查询结果的评价指标对社区查询结果进行评价。
8.根据权利要求7所述的一种面向基因调控网络的社区查询分析方法,其特征在于:
所述社区中不可达路径占比如下公式所示:
Figure FDA0003589371520000031
其中,URP为社区中不可达路径占比,C表示社区,
Figure FDA0003589371520000032
社区中出度为0和入度为0的节点占比即为社区中出度为0的节点占总节点数的比例,和入度为0的节点占总节点数的比例;
所述社区成员的相似性包括社区成员的入度相似性CMS in和社区成员的出度相似性CMS out;一个社区C的CMS in和CMS out计算如下公式所示:
Figure FDA0003589371520000033
Figure FDA0003589371520000034
其中,CMS_in(C)、CMS_out(C)分别表示社区C成员的入度相似性和出度相似性,in(u)、in(v)分别表示节点u、v的入度节点集,Out(u)、Out(v)分别表示节点u、v的出度节点集。
CN202210372499.3A 2022-04-11 2022-04-11 一种面向基因调控网络的社区查询分析方法 Pending CN114662012A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210372499.3A CN114662012A (zh) 2022-04-11 2022-04-11 一种面向基因调控网络的社区查询分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210372499.3A CN114662012A (zh) 2022-04-11 2022-04-11 一种面向基因调控网络的社区查询分析方法

Publications (1)

Publication Number Publication Date
CN114662012A true CN114662012A (zh) 2022-06-24

Family

ID=82036217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210372499.3A Pending CN114662012A (zh) 2022-04-11 2022-04-11 一种面向基因调控网络的社区查询分析方法

Country Status (1)

Country Link
CN (1) CN114662012A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080807A (zh) * 2022-07-20 2022-09-20 北京达佳互联信息技术有限公司 数据查询方法、装置及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080807A (zh) * 2022-07-20 2022-09-20 北京达佳互联信息技术有限公司 数据查询方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN112181971B (zh) 一种基于边缘的联邦学习模型清洗和设备聚类方法、系统
CN104137095B (zh) 用于演进分析的系统
CN107423820B (zh) 结合实体层次类别的知识图谱表示学习方法
CN114662012A (zh) 一种面向基因调控网络的社区查询分析方法
CN114168608B (zh) 一种用于更新知识图谱的数据处理系统
Zhang et al. An affinity propagation clustering algorithm for mixed numeric and categorical datasets
CN106845536A (zh) 一种基于图像缩放的并行聚类方法
Souravlas et al. A parallel algorithm for community detection in social networks, based on path analysis and threaded binary trees
CN111666468A (zh) 一种基于团簇属性在社交网络中搜索个性化影响力社区的方法
CN114048331A (zh) 一种基于改进型kgat模型的知识图谱推荐方法及系统
CN111368891A (zh) 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法
CN107730306B (zh) 基于多维偏好模型的电影评分预测与偏好估计方法
CN110580252B (zh) 多目标优化下的空间对象索引与查询方法
CN111078896A (zh) 基于prmatc算法的知识库补全方法
CN107229704A (zh) 一种基于ksp算法的资源描述框架查询方法和系统
Shen et al. Approximate covering detection among content-based subscriptions using space filling curves
CN109033746B (zh) 一种基于节点向量的蛋白质复合物识别方法
CN108614932B (zh) 基于边图的线性流重叠社区发现方法、系统及存储介质
CN114385845A (zh) 基于图聚类的影像分类管理方法及系统
Broutin et al. Partial match queries in random quadtrees
CN108287868A (zh) 一种数据库查询、数据块划分方法和装置
WO2021232442A1 (zh) 基于动态网格哈希索引的密度聚类方法及装置
CN113204642A (zh) 文本聚类方法、装置、存储介质和电子设备
CN109117436A (zh) 基于主题模型的同义词自动发现方法及其系统
CN111680196A (zh) 一种基于二分图蝴蝶结构的关键节点搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination