CN113470737A - 一种基于高阶结构的生物网络聚类方法和系统 - Google Patents

一种基于高阶结构的生物网络聚类方法和系统 Download PDF

Info

Publication number
CN113470737A
CN113470737A CN202110752037.XA CN202110752037A CN113470737A CN 113470737 A CN113470737 A CN 113470737A CN 202110752037 A CN202110752037 A CN 202110752037A CN 113470737 A CN113470737 A CN 113470737A
Authority
CN
China
Prior art keywords
network
clustering
module
order
biological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110752037.XA
Other languages
English (en)
Inventor
胡伦
张俊
周喜
蒋同海
赵博伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Technical Institute of Physics and Chemistry of CAS
Original Assignee
Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Technical Institute of Physics and Chemistry of CAS filed Critical Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority to CN202110752037.XA priority Critical patent/CN113470737A/zh
Publication of CN113470737A publication Critical patent/CN113470737A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于高阶结构的生物网络聚类方法和系统,包括网络构建模块、模型构建模块、网络聚类模块、冗余删除模块以及结果展示模块。利用生物网络中丰富的高阶结构信息以识别其中的功能模块,结合高阶马尔可夫随机过程的优势,能够针对各种类型的网络模体进行聚类分析。本发明有着优秀的表现,基于高阶结构信息的聚类结果为生物网络分析提供了新的思路,如重叠蛋白复合物的识别和新信号通路的推断,同时也揭示了生物网络中所呈现的丰富的组织结构。本发明直接作用在蛋白质相互作用网络、基因共表达网络等生物网络上,效果准确度高,是一个非常可靠的生物网络聚类方法和系统。

Description

一种基于高阶结构的生物网络聚类方法和系统
技术领域
本发明涉及计算机数据处理技术领域,特别涉及到一种基于高阶结构的生物网络聚类方法和系统。
背景技术
生物网络中的聚类分析涉及到从生物学角度识别有意义的功能模块,为理解复杂的生物系统提供有价值的见解。大多数聚类算法仅在个体生物实体及其连接层使用低阶连接模式来进行聚类分析。虽然链接是网络的基本单元,但考虑低阶连接模式可能不足以充分利用生物网络中可用的结构信息,从而限制了聚类精度的进一步提高。现有的聚类技术在个体生物分子及其连接层面利用了低阶连接模式,但很少有技术能在小网络或模体结构层面考虑到高阶连接模式。
发明内容
本发明目的在于,针对目前的缺陷和不足,提供一种基于高阶结构的生物网络聚类方法和系统,包括网络构建模块、模型构建模块、网络聚类模块、冗余删除模块和结果展示模块,利用生物网络中丰富的高阶结构信息以识别其中的功能模块,结合高阶马尔可夫随机过程的优势,能够针对各种类型的网络模体进行聚类分析。本发明有着可靠的表现,基于高阶结构信息的聚类结果为生物网络分析提供了新的思路,如重叠蛋白复合物的识别和新信号通路的推断,同时也揭示了生物网络中所呈现的丰富的组织结构。本发明直接作用在蛋白质相互作用网络、基因共表达网络等生物网络上,效果准确度高,是一个非常优秀的生物网络聚类方法和系统。
本发明所述的一种基于高阶结构的生物网络聚类方法,按下列步骤进行:
a、在生物信息背景下,用一个包括节点和链接的二元组来表示生物网络,节点用来表示单个的生物分子,链接则用来描述它们之间的连接关系;
b、构建出用张量表示的高阶网络模体,并将随机游走理论应用到高阶结构信息的张量上,形成了一个转移概率张量,建立高阶马尔可夫链模型;
c、对一组网络模体中的每个模体分别进行聚类处理,将对应的高阶马尔可夫链用一阶马尔可夫链近似表示,使用马尔可夫聚类算法进行聚类处理,将每次聚类的结果加入到一个集合中;
d、通过步骤c得到的聚类结果,将其中冗余部分删除,利用了领域亲和力来验证聚类结果中的簇是否冗余,得到了最终的结果。
一种基于高阶结构的生物网络聚类系统,该系统包括:网络构建模块、模型构建模块、网络聚类模块、冗余删除模块和结果展示模块组成,其中:
网络构建模块:将生物网络构建成图,使用一个二元组表示;
模型构建模块:根据网络构建模块中的图,构建使用张量表示的高阶网络模体,将随机游走理论推广到表示高阶结构信息的张量上,形成一个转移概率张量,构建出高阶马尔可夫链模型;
网络聚类模块:对一组网络模体中的每个模体进行聚类,根据模型构建模块中的高阶马尔可夫链,从空间性随机行走的静止分布中推导出一个等价的一阶马尔可夫链,使用马尔可夫聚类算法进行聚类,将结果放入一个集合中;
冗余删除模块:根据网络聚类模块中得到的集合,删除冗余部分,得到最终结果;
结果展示模块,根据冗余删除模块得到的结果进行输出展示。
本发明所述的一种基于高阶结构的生物网络聚类方法和系统,包括网络构建模块、模型构建模块、网络聚类模块、冗余删除模块和结果展示模块。其中所述的网络构建模块将生物网络构建成图,模型构建模块基于图使用张量表示高阶网络模体,将随机游走理论应用到表示高阶结构信息的张量上,形成一个转移概率张量,构建出相应的高阶马尔科夫链模型,网络聚类模块对网络中的每个生物分子进行聚类,将高阶马尔科夫链从空间性随机行走的静止分布中推导出一个等价的一阶马尔科夫链,并使用马尔科夫聚类算法进行聚类,将结果保存到一组集合中,冗余删除模块则是针对网络聚类模块中所得到的结果,将其冗余部分删除,内容展示模块将最后的聚类结果进行输出并展示。本发明直接作用在蛋白质相互作用网络、基因共表达网络等生物网络上,效果准确度高,是一个非常优秀的生物网络聚类方法和系统。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种基于高阶结构的生物网络聚类方法和系统,其设计目标是能够有效地对生物网络进行聚类处理。提出充分利用生物网络中可用的高阶结构信息,使得聚类的精度进一步得到提升;为每个网络模体识别相应的聚类结果,然后通过后处理步骤删除冗余,增加了发现重叠簇的概率。解决现有技术在生物网络聚类分析时存在的缺陷。
附图说明
图1为本发明的逻辑结构图;
图2为本发明生物网络中的三种代表性模体图,其中a为三角形模体;b为反馈模体;c为四边形模体。
具体实施方式
为使本发明的目的、技术方案及优点更加清晰明白,以下参照附图并举实施例,对本发明作进一步详细说明。
实施例
a、在生物信息背景下,用一个包括节点和链接的二元组来表示生物网络,节点用来表示单个的生物分子,链接则用来描述它们之间的连接关系;
b、构建出用张量表示的高阶网络模体,并将随机游走理论应用到高阶结构信息的张量上,形成了一个转移概率张量,建立高阶马尔可夫链模型;
c、对一组网络模体中的每个模体分别进行聚类处理,将对应的高阶马尔可夫链用一阶马尔可夫链近似表示,使用马尔可夫聚类算法进行聚类处理,将每次聚类的结果加入到一个集合中;
d、通过步骤c得到的聚类结果,将其中冗余部分删除,利用了领域亲和力来验证聚类结果中的簇是否冗余,得到了最终的结果;
一种基于高阶结构的生物网络聚类系统,该系统包括:网络构建模块、模型构建模块、网络聚类模块、冗余删除模块和结果展示模块组成,其中:
网络构建模块:将生物网络构建成图,使用一个二元组表示;
模型构建模块:根据网络构建模块中的图构建了使用张量表示的高阶网络模体,将随机游走理论推广到表示高阶结构信息的张量上,形成一个转移概率张量,构建出高阶马尔可夫链模型;
网络聚类模块:对一组网络模体中的每个模体进行聚类,根据模型构建模块中的高阶马尔可夫链,从空间性随机行走的静止分布中推导出一个等价的一阶马尔可夫链,使用马尔可夫聚类算法进行聚类,将结果放入一个集合中;
冗余删除模块:根据网络聚类模块中得到的集合,删除冗余部分,得到最终结果;
结果展示模块,根据冗余删除模块得到的结果进行输出展示;
如图1所示:
网络构建模块:
将生物网络中的单个分子抽象成图中的节点,它们之间的联系抽象成图中的链接,使用一个二元组G={V,E}来表示,其中V={vi}(1≤i≤nV)是全部nV个节点的集合,E={ei}(1≤i≤nE)是全部nE条链接的集合;
模型构建模块:
为了能够用数学的方法描述高阶网络模体,引入张量的概念,使用带下划线的大写字母T表示张量,使用带下划线的小写字母t表示张量中的元素,一个三角形模体可以用一个三模张量
Figure BDA0003146575740000031
表示,其中n1、n2和n3对应不同维度上元素的数量,根据二元组G,三模张量T定义为:
T=(t(i,j,k)) (1)
其中1≤i,j,k≤nV,以及
Figure BDA0003146575740000032
t(i,j,k)=1说明在节点vi、vj以及vk之间可以形成一个三角形,只需要相应地调整张量的定义,就可以很容易地扩展到具有任何结构的高阶网络模体;图2中,展示了生物网络中常见的三种代表性模体,其中a为三角形模体;b为反馈模体;c为四边形模体;
第二步,将随机游走理论应用到表示G中高阶结构信息的张量,获取转移概率张量,使用
Figure BDA0003146575740000041
表示,其中P中的元素p(i,j,k)是移动到节点vi的概率,取决于当前节点vj以及前一个节点vk,定义为:
p(i,j,k)=Prob(Zt+1=vi|Zt=vj,Zt-1=vk) (3)
Zt表示t时刻访问的节点,根据二元组G,p(i,j,k)可以用下面的式子计算;
Figure BDA0003146575740000042
在等式(4)中,P是列随机的,因此可以被看作是状态为Zt+1、Zt和Zt-1的二阶马尔可夫链,给定当前状态Zt=vj和上一个状态Zt-1=vk,从与vj和vk形成的三角形的节点中选择下一个要访问的状态;
网络聚类模块:
网络聚类模块主要分成两个部分,首先是将高阶马尔可夫链转换成等价的一阶马尔可夫链,根据空间随机游走的理论,当一个进程在t时刻访问Zt,就不用考虑它的倒数第二个状态,即Zt-1;相反,从过去状态序列中选择一个新的状态,表示为Yt,即Ht={Z1,K,Zt}概率是:
Figure BDA0003146575740000043
其中Ind{·}是指示器事件,如果Zs=vk则Ind{Zs=vk}=1,否则Ind{Zs=vk}的值是0,因此,该过程过渡到Zt+1作为具有最后两个状态Xt和Yt的二阶马尔可夫链,形式上,此随机过程的转移概率定义如下:
Figure BDA0003146575740000044
其中α是常数,ui是隐状态概率,当(vi,vj)∈Λ(j,k)时Prob(Zt+1=vi|Zt=vj,Yt=vk)=Prob(Yt=vi|Ht)以及其他情况下Prob(Zt+1=vi|Zt=vj,Yt=vk)=p(i,j,k);需要注意的是状态(vi,vj)∈Λ(j,k)表示未定义的转换;
为了近似表示由等式(3)所定义的高阶马尔可夫链,需要从空间随机游动的平稳分布推导等价的一阶马尔可夫链;具体地,假设M和x分别是一阶马尔可夫链的转移矩阵和相应的平稳分布,则M和x的方程式为:
M=P[x]+x(eT-eT P[x]) (7)
x=αPx2+α(1-||Px2||1)x+(1-α)u (8)
其中
Figure BDA0003146575740000045
因此,采用迭代不动点算法分别得到式(7)和式(8)中M和x的稳定值,从而确定一阶马尔可夫链的随机过程;
然后,对一组网络模体{T m}进行聚类,对于其中的每一个模体,使用马尔可夫聚类算法,将每次产生的结果放到一个集合C中;
先初始化一个集合C用来保存对每个网络模体进行聚类操作得到的结果;
通过等式(4)设置P,并随机初始化M与x;
设置迭代次数l,进行l次迭代:通过等式(7)固定x更新M,通过等式(8)固定M更新x;
对M使用马尔可夫聚类算法获取簇CM,并将CM放入集合C中。
冗余删除模块:
由于该集合C中有冗余的部分,需要对冗余的部分进行删除;
将集合C中所有的簇按照节点的数量从大到小排序;
集合C的大小为nC,从1到nC-1开始遍历,其中ci是集合C中的第i个簇;
如果ci没有从集合C中删除,则令j=i+1,从j到nC开始遍历,cj是集合C中的第j个簇;
计算NA(ci,cj)的值,如果值大于等于设置的邻域亲和阈值ρ,则将cj从集合C中删除,其中
Figure BDA0003146575740000051
|ci∩cj|是ci和cj共同拥有节点的数量,|ci|和|cj|分别表示ci和cj中节点的数量;
遍历结束后,集合C中所包含的簇就是最终的结果;
结果展示模块:
根据网络聚类模块以及冗余删除模块得到的结果,将以文本的形式展示,其中每一行表示一个簇,每一行中的元素为生物网络中的单个分子。
以上显示和描述了本发明的基本原理和主要特征以及本发明的特点。本发明不受上述实验特例的限制,上述实验特例和说明书中描述的只是说明本发明的原理,在不脱离本发明原理的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (2)

1.一种基于高阶结构的生物网络聚类方法,其特征在于按下列步骤进行:
a、在生物信息背景下,用一个包括节点和链接的二元组来表示生物网络,节点用来表示单个的生物分子,链接则用来描述它们之间的连接关系;
b、构建出用张量表示的高阶网络模体,并将随机游走理论应用到高阶结构信息的张量上,形成了一个转移概率张量,建立高阶马尔可夫链模型;
c、对一组网络模体中的每个模体分别进行聚类处理,将高阶马尔可夫链用一阶马尔可夫链近似表示,使用马尔可夫聚类算法进行聚类处理,将每次聚类的结果加入到一个集合中;
d、通过步骤c得到的聚类结果,将其中冗余部分删除,利用了领域亲和力来验证聚类结果中的簇是否冗余,得到了最终的结果。
2.一种基于高阶结构的生物网络聚类系统,其特征在于,该系统包括:网络构建模块、模型构建模块、网络聚类模块、冗余删除模块和结果展示模块组成,其中:
网络构建模块:将生物网络构建成图,使用一个二元组表示;
模型构建模块:根据网络构建模块中的图构建了使用张量表示的高阶网络模体,将随机游走理论推广到表示高阶结构信息的张量上,形成一个转移概率张量,构建出高阶马尔可夫链模型;
网络聚类模块:对一组网络模体中的每个模体进行聚类,根据模型构建模块中的高阶马尔可夫链,基于空间性随机行走的静止分布推导出一个等价的一阶马尔可夫链,再使用马尔可夫聚类算法进行聚类,将结果放入一个集合中;
冗余删除模块:根据网络聚类模块中得到的集合,删除冗余部分,得到最终结果;
结果展示模块:根据冗余删除模块得到的结果进行输出展示。
CN202110752037.XA 2021-07-03 2021-07-03 一种基于高阶结构的生物网络聚类方法和系统 Pending CN113470737A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110752037.XA CN113470737A (zh) 2021-07-03 2021-07-03 一种基于高阶结构的生物网络聚类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110752037.XA CN113470737A (zh) 2021-07-03 2021-07-03 一种基于高阶结构的生物网络聚类方法和系统

Publications (1)

Publication Number Publication Date
CN113470737A true CN113470737A (zh) 2021-10-01

Family

ID=77877662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110752037.XA Pending CN113470737A (zh) 2021-07-03 2021-07-03 一种基于高阶结构的生物网络聚类方法和系统

Country Status (1)

Country Link
CN (1) CN113470737A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492132A (zh) * 2018-10-26 2019-03-19 广州市香港科大霍英东研究院 异构信息网络嵌入的方法、系统、终端及存储介质
CN109637579A (zh) * 2018-12-18 2019-04-16 长沙学院 一种基于张量随机游走的关键蛋白质识别方法
CN111667886A (zh) * 2020-04-22 2020-09-15 大连理工大学 一种动态蛋白质复合物识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492132A (zh) * 2018-10-26 2019-03-19 广州市香港科大霍英东研究院 异构信息网络嵌入的方法、系统、终端及存储介质
CN109637579A (zh) * 2018-12-18 2019-04-16 长沙学院 一种基于张量随机游走的关键蛋白质识别方法
CN111667886A (zh) * 2020-04-22 2020-09-15 大连理工大学 一种动态蛋白质复合物识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LUN HU 等: "HiSCF: leveraging higher-order structures for clustering analysis in biological networks", 《SYSTEMS BIOLOGY》 *

Similar Documents

Publication Publication Date Title
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
De Campos et al. Optimization of neural networks through grammatical evolution and a genetic algorithm
Honkela et al. Variational learning and bits-back coding: an information-theoretic view to Bayesian learning
WO2020039198A1 (en) Machine learning optimisation method
CN114764549B (zh) 基于矩阵乘积态的量子线路模拟计算方法、装置
Solé et al. Ambiguity in language networks
CN112086144B (zh) 分子生成方法、装置、电子设备及存储介质
Alagukumar et al. A selective analysis of microarray data using association rule mining
Rivero et al. Dome: a deterministic technique for equation development and symbolic regression
Sekanina et al. Evolutionary design of arbitrarily large sorting networks using development
Winkler et al. New methods for the identification of nonlinear model structures based upon genetic programming techniques
Wang et al. Ppisb: a novel network-based algorithm of predicting protein-protein interactions with mixed membership stochastic blockmodel
CN112215259B (zh) 基因选择方法和装置
CN113361279A (zh) 一种基于双邻域图神经网络的医疗实体对齐方法及系统
Rajpal et al. Tangled worldview model of opinion dynamics
CN111931939A (zh) 一种单振幅量子计算模拟方法
EP3859613A1 (en) Information processing system, combinatorial optimization method, and combinatorial optimization program
CN113470737A (zh) 一种基于高阶结构的生物网络聚类方法和系统
CN116564555A (zh) 基于深度记忆交互的药物相互作用预测模型构建方法
CN116543832A (zh) 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用
Franke CHIMERA: Top-down model for hierarchical, overlapping and directed cluster structures in directed and weighted complex networks
CN114202669A (zh) 一种用于医疗图像分割的神经网络搜索方法
Zhuang et al. Drug-drug adverse reactions prediction based on signed network
CN110569358A (zh) 学习长时依赖和分层结构的文本分类模型、方法及介质
Liu et al. Discovery of deep order-preserving submatrix in DNA microarray data based on sequential pattern mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211001