CN111508555A - 一组用于度量生物分子集的网络拓扑学特性的方法 - Google Patents

一组用于度量生物分子集的网络拓扑学特性的方法 Download PDF

Info

Publication number
CN111508555A
CN111508555A CN202010293635.0A CN202010293635A CN111508555A CN 111508555 A CN111508555 A CN 111508555A CN 202010293635 A CN202010293635 A CN 202010293635A CN 111508555 A CN111508555 A CN 111508555A
Authority
CN
China
Prior art keywords
network
distance
biomolecule
measuring
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010293635.0A
Other languages
English (en)
Inventor
张际峰
窦亚光
芮羽晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huainan Normal University
Original Assignee
Huainan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huainan Normal University filed Critical Huainan Normal University
Priority to CN202010293635.0A priority Critical patent/CN111508555A/zh
Publication of CN111508555A publication Critical patent/CN111508555A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一组用于度量生物分子集合的网络拓扑学特性的新方法。属于生物信息学和生物医学领域。依据本发明中关于复杂网络中生物分子集合的拓扑学特性的度量方法步骤和实施方案,提出了“集合内距离”,“集合间距离”,及“集合在网络模块内外分布”三个度量值,用于度量生物分子集合的网络特性。通过衡量出具有特定功能的生物分子集在复杂生物网络的拓扑学特性,为特定分子集合的生物学功能研究,及基于网络数据的特定分子群大规模预测提供参考。

Description

一组用于度量生物分子集的网络拓扑学特性的方法
一.发明领域
本发明属于生物信息学和生物医学领域,更具体地说,涉及一种用于衡量生物分子集合在复杂生物网络中的拓扑学特性的方法。
二.背景技术
大数据时代的到来,要求处理信息的思路和方法不断完善更新,以适应海量数据的多角度全方位的系统分析,基于复杂网络的研究分析方法就是其中之一。复杂网络就是呈现高度复杂性的网络,钱学森先生定义它为:具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络。复杂网络的研究正渗透于生命学科、数理学科和工程学科等众多不同的领域,对复杂网络的定量与定性特征的科学理解已成为网络时代科学研究中一个极其重要的挑战性课题。复杂网络研究涉及网络拓扑特性与模型,复杂网络上的传播行为、相继故障、搜索算法和社团结构,以及复杂网络的同步与控制等。
在自然界中存在的大量复杂系统都可以通过形形色色的网络加以描述。一个典型的网络是由许多节点与节点之间的连边组成,其中节点用来代表真实系统中不同的个体,而边则用来表示个体间的关系。如神经系统可视为大量神经细胞通过神经纤维相互连接形成的复杂网络;计算机网络可以看作是自主工作的计算机通过通信介质如光缆、双绞线、同轴电缆等相互连接形成的复杂网络。类似的还有社会关系网络、疾病传播网络,交通网络、电力网络等等。
生物分子参与构建的网络多数亦属于这些复杂网络。如蛋白质与蛋白质互作网络,基因共表达网络,药物与药靶网络,疾病基因调控网络等等。尽管研究复杂网络中单一节点的性质已有不少度量的方法,如网络的中心性中的度中心性(Degree Centrality)表示连接到某节点的边数;紧密中心性(Closeness Centrality)从某节点到所有其他节点的最短路径的平均长度;中介中心性(Betweenness Centrality)某节点在多少对节点的最短路径上;及特征向量中心性(Eigenvector Centrality)一个节点的重要性既取决于其邻居节点的数量(即该节点的度),也取决于其邻居节点的重要性。此外,还有描述单一边的重要性指标如边介数(Betweenness Edge)。它们应用的一个典型例子:大量的生物分子网络拓扑学特征显示,癌症相关的基因在人类蛋白质网络中表现出较高的度中心性,这为癌症的机制研究及发现新癌症基因提供了新的研究思路。
后基因组时代的到来,研究者一次性研究获得的生物分子数目往往是几十个甚至成百上千个。这就需要研究网络拓扑学特征的对象不再是一个个独立的个体,而是一个特征群体或是集合。然而,目前研究网络中“节点集合”的网络拓扑学特征的度量指标较少。
基于此,本发明致力于提出一组用于描述“生物分子集合”在网络中的拓扑学特征的度量指标,用于表征“生物分子集合”的复杂网络特性。这些度量指标将有助于生物分子集合的特性研究,亦期借鉴于其他领域复杂网络的研究。
三.发明内容
1.发明要解决的问题
本发明要解决以下问题:第一,总体而言,提出一组用于度量复杂网络中“节点集合”的网络拓扑学特性的指标,为基于复杂网络的生物分子集合的特性研究的提供新方法;第二,具体而言,这组新方法包括解决复杂网络中生物分子集的“集合内距离”,“集合间距离”和“集合在网络模块内外分布”三种新方法。为生物分子集合的网络拓扑学特性研究提供新的研究指标。
2.技术方案
本发明提出了一组用于度量生物分子集合的复杂网络拓扑学特性的方法,具体实施方案如下:
(1)数据基础操作与分析
为完成本专利提出的一组计算与分析生物分子集合的网络拓扑学特征方法,以下基础数据需要进行前期处理和准备:
①计算待研究网络所有节点之间的网络最短路径,计算方法按照一般常规方法完成,可参考文献(Li,2013)方法实现;
②对待研究网络进行模块的划分,划分方法为一般常规方法,用Multi-StepGreedy(MSG)算法(Schuetz和Caflisch,2008)实现,仅保留节点数大于30的网络模块,用于后续研究;
③对待研究生物分子集合和复杂网络节点进行名称统一化处理。
(2)新算法使用
依据本专利提出的一组生物分子集合网络拓扑学结构的计算方法,以下为这些方法的详细介绍和实现步骤:
①度量生物分子集合在复杂网络中的“集合内距离”。针对一个有N个生物分子的集合而言(这个集合可以是基因集合,蛋白质集合,疾病名称集合,非编码RNA分子集合等),其具体公式如下:
Figure BDA0002451361070000021
其中,ASD表示集合内距离,即为一个生物分子集合在特定复杂网络的内部分子间的距离,dij表示为生物分子i和分子j在网络中的最短路径;上式表示集合内距离即为网络中集合内所有两两节点之间的最短距离的平均值。
基于上述定义和计算公式,可以选择分子集合中的所有节点,将它们的最短路径按照公式(I)的方式进行计算,最终获得待研究的集合的“集合内的距离”。
②度量生物分子集合在复杂网络中的“集合间距离”。假设网络中存在两个生物分子集合Sp和Sq,其两者间的网络距离具体计算方法如下:
Figure BDA0002451361070000031
Figure BDA0002451361070000032
其中,ESD表示两个指定集合Sp和Sq间的距离。(II)式中
Figure BDA0002451361070000033
表示在分子集合Sp中的生物分子i到生物分子集合Sq的距离,即为计算生物分子i到集合Sq每一个分子间的最短路径的平均值;(3)式中ESD则为分别计算出两个集合的每一个点到对方集合的距离求其均值,然后求和。
按照“集合间距离”的定义和计算公式,可以选择两个分子集合中的所有节点,将它们的最短路径按照公式(II-III)的方式进行计算,最终获得待研究的两个集合之间的“距离”。
③度量生物分子集合在复杂网络划分好的模块中的分布情况,即“生物分子集合在网络模块内外分布”,其具体公式如下:
SDM=E/(E+E) (IV)
其中,SDM表示生物分子集合在网络模块内外分布情况,即为一个或多个生物分子集合在特定复杂网络划分的模块中分布比例;E和E分别表示单个生物分子集合构成的全网络分布于模块内的边数和分布于模块间的边数,SDM则表示分布于内部边数在总边数中的占比。摘要附图也对此算法进行图示说明。
按照“集合在网络模块内外分布”的定义和计算公式,可以对一个或多个分子集合在模块内外的分布数目进行计算,最后累加所有的E和E,将依据公式获得最终的“集合在网络模块内外分布”。
3.有益效果
采用本发明提供的生物分子集合的网络拓扑学特征的度量新方法,除丰富了研究分子集合的网络拓扑学特征外,还具有如下具体有益效果:
(1)本发明是一组用于度量生物分子集的网络拓扑学特性的方法,其中包括提出了一种度量生物分子集合在复杂网络中的“集合内距离”的子方法,该“集合内距离”可以用于表征一个生物分子集合在网络中的聚集程度。从生物学意义的角度来看,它体现出这些生物分子集合在特定生物网络中的紧密程度和功能的相似性程度。
(2)本发明是一组用于度量生物分子集的网络拓扑学特性的方法,其中包括提出了一种度量生物分子集合间在复杂网络中的“集合间距离”的子方法,该“集合间距离”可以用于表征两个生物分子集合在网络中的距离远近。从生物学意义的角度来看,它体现出这两个生物分子集合在特定生物网络中的位置远近和功能的相关性程度。
(3)本发明是一组用于度量生物分子集的网络拓扑学特性的方法,其中包括提出了一种度量生物分子集合在复杂网络划分好的模块中的分布情况,即“生物分子集合在网络模块内外分布”的子方法,该分布情况可以用于表征生物分子集合在在模块内外的分布趋势。从生物学意义的角度来看,它体现出这个生物分子集合是承担模块内节点间的联系功能(指主要分布于模块内,如细胞凋亡功能)还是承担模块之间的连接纽带功能(指主要分布于模块之间,如各功能间的信号传导功能)。
(4)本发明是一组用于度量生物分子集的网络拓扑学特性的方法,这些网络度量的方法可以从网络拓扑学角度描述生物分子的特征,这些特征如果在特定的分子群体内具有显著的差异,它们也可以被用于这类分子的大规模的鉴定和预测。
(5)本发明是一组用于度量生物分子集的网络拓扑学特性的方法,这些网络度量的方法还可以直接应用于生物学相关的人类疾病分子集合或是药物分子集合的网络研究,为人类疾病和药物的网络研究提供网络研究新方法。(具有可推广性)。
附图说明
图1为生物分子集合在特定复杂网络模块内外分布的计算方法及实例演示图;
图2为实施例中基于本组方法进行生物分子集合的网络预测结果图;
图中的标号说明:A:基于“集合内距离”的计算方法,3个生物集合及随机集合在人类蛋白质互作网络中的集合内距离计算结果;B:基于“集合间距离”的计算方法,3个生物集合到癌症通路集合在人类蛋白质互作网络中的集合间距离示意图;C:基于“生物分子集合在网络模块内外分布”的计算方法,3个生物集合、随机集合、及KEGG生物通路基因集合在人类蛋白质互作网络模块内的分布情况比较图。
具体实施方式
为进一步了解本发明的内容,结合附图及实施例本对发明作详细描述。
实施例
在本实施例中,将详细介绍利用本组方法如何逐一计算在人类蛋白质互作网络中人类分子集合包括癌症基因、必需基因、看家基因及其他相关基因的集合内部距离、集合间距离及其在网络模块中分布的具体过程,包括相关数据的下载,整理和分析,以及获得结果,具体细节如下:
(1)下载数据
本专利涉及的数据主要包括多个分子数据集的下载:①癌症基因125个来自于文献(Vogelstein et al.,Science.2013)报道的原癌基因和抑癌基因的总和;②人类必需基因117个来自于文献(Liao and Zhang.,Proc Natl Acad Sci USA.2008)中报道的必需基因;③看家基因120个是从2篇文献(Zhu et al.,BMC Genomics.2008和Chang et al.,PLoSOne.2011)的看家基因的数据集合的交集中选出;④KEGG通路数据集及癌症通路数据集来自于KEGG数据库网站(https://www.kegg.jp/)的信息;⑤人类蛋白质互作网络数据来自于HPRD数据库(http://hprd.org/)。
(2)数据预处理和参数选择
首先,依据人类基因名称的HGNC数据库(https://www.genenames.org/),对下载的所有基因数据的名称进行统一转换,使所有基因名之间能够用于统一的计算和分析;其次,KEGG生物通路只选择基因数目大于30的集合用于随后的研究。其中,癌症通路基因集合为该数据库中所有涉及各类癌症通路的基因集合的总和;接着,利用模块划分方法Multi-Step Greedy对网络进行模块划分,保留模块基因数大于30个基因的用于后续分析;再次,对于随机集合即为从人类蛋白质互作数据集的所有基因中随机抽取120个基因,重复10000次;最后,利用编程语言R中的网络分析软件包igraph,计算出人类蛋白质互作网络任意两节点间的最短路径(又称为最短距离shortest path定义参考文献,Furlong.,TrendsGenet.2013)。为了便于计算,对于没有任何连接的节点间的距离,此处将网络中最大的最短距离赋予给它们。
(3)3个基因集合及随机集合的集合内距离计算与比较
将3个基因集合即癌症基因、看家基因和必需基因集合映射到人类蛋白质互作网络中,再从网络中随机选取120个节点,根据这些节点在网络中的最短路径,依据本专利提出的“集合内距离”的公式(I)对它们进行逐一计算,分别获得这些集合的集合内距离。距离结果绘制如图2A所示。由图2A可以看出,癌症基因集合最为紧密,其次是看家基因和必需基因,而随机基因集合内的距离最大。此结果暗示,特定的功能基因集合在网络中具有更近的集合内距离。
(4)3个基因集合与癌症通路基因集合的集合间距离计算与比较
分别将癌症基因、看家基因和必需基因3个基因集合与癌症通路基因集合一一对应,利用本专利提出的“集合间距离”的公式(II-III)对它们进行逐一计算,分别获得两两集合间距离。结果如图2B所示。由图2B可见,癌症基因集合与癌症通路基因集合间的距离最近,其次是必需基因集合与癌症通路基因集合间的距离,而看家基因与癌症通路基因集合间的距离最大。此结果暗示,功能相似或是功能相关基因集合在网络中具有更近的集合间距离。
(5)相关基因集合、KEGG基因集合及随机集合在人类蛋白质互作网络模块的分布计算与比较
基于本专利提出的“生物分子集合在网络模块内外分布”的计算公式(IV),分别对癌症基因、看家基因和必需基因,KEGG集合及10000次随机重复的随机集合合计5类集合进行集合在模块内外分布情况的考察,计算获得这些集合分布数据。结果如图2C所示。由图2C不难发现,KEGG基因集合分布比例最小,其次是3种基因集合(癌症基因、必需基因、和看家基因集合),而随机集合在模块内的分布值最大。此结果暗示,功能越专一的基因集合越易于分布于网络的模块内。

Claims (3)

1.一组用于度量生物分子集的网络拓扑学特性的方法,其特征在于:提出了一种度量生物分子集合在复杂网络的“集合内距离”的新算法;针对一个有N个生物分子的集合而言,其具体公式如下:
Figure FDA0002451361060000011
其中,ASD表示集合内距离,即为一个生物分子集合在特定复杂网络的内部分子间的距离,dij表示为生物分子i和分子j在网络中的最短路径;上式表示集合内距离即为网络中集合内所有两两节点之间的最短距离的平均值。
2.一组用于度量生物分子集的网络拓扑学特性的方法,其特征在于:提出了一种度量生物分子集合在复杂网络的“集合间距离”的新算法;针对两个集合Sp和Sq,其两者间的网络距离具体公式如下:
Figure FDA0002451361060000012
Figure FDA0002451361060000013
其中,ESD表示两个指定集合Sp和Sq间的距离。(II)式中
Figure FDA0002451361060000014
表示在分子集合Sp中的生物分子i到生物分子集合Sq的距离,即为计算生物分子i到集合Sq每一个分子间的最短路径的平均值;(III)式中ESD则为分别计算出两个集合的每一个点到对方集合的距离求其均值然后求和。
3.一组用于度量生物分子集的网络拓扑学特性的方法,其特征在于:提出了一种度量生物分子的“集合在网络模块内外分布”的新算法;其具体公式如下:
SDM=E/(E+E) (IV)
其中,SDM表示生物分子集合在网络模块内外分布情况,即为一个或多个生物分子集合在特定复杂网络划分的模块中分布比例;E和E分别表示单个生物分子集合构成的全网络分布于模块内的边数和分布于模块间的边数,摘要附图也对此算法进行图示说明。
CN202010293635.0A 2020-04-15 2020-04-15 一组用于度量生物分子集的网络拓扑学特性的方法 Pending CN111508555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010293635.0A CN111508555A (zh) 2020-04-15 2020-04-15 一组用于度量生物分子集的网络拓扑学特性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010293635.0A CN111508555A (zh) 2020-04-15 2020-04-15 一组用于度量生物分子集的网络拓扑学特性的方法

Publications (1)

Publication Number Publication Date
CN111508555A true CN111508555A (zh) 2020-08-07

Family

ID=71864107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010293635.0A Pending CN111508555A (zh) 2020-04-15 2020-04-15 一组用于度量生物分子集的网络拓扑学特性的方法

Country Status (1)

Country Link
CN (1) CN111508555A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2297359B1 (en) * 2008-05-30 2013-11-13 The University of North Carolina at Chapel Hill Gene expression profiles to predict breast cancer outcomes
CN103778349A (zh) * 2014-01-29 2014-05-07 思博奥科生物信息科技(北京)有限公司 一种基于功能模块的生物分子网络分析的方法
CN106709231A (zh) * 2016-10-19 2017-05-24 王�忠 评价生物分子网络中药物对模块间关系的影响的方法
CN106951684A (zh) * 2017-02-28 2017-07-14 北京大学 一种医学疾病诊断记录中实体消歧的方法
CN107002009A (zh) * 2014-12-04 2017-08-01 株式会社日立高新技术 生物分子测定装置及生物分子测定方法
CN107220525A (zh) * 2017-05-19 2017-09-29 浙江工业大学 基于rnn的基因调控网络构建与动态差异性分析方法
CN108121896A (zh) * 2017-12-19 2018-06-05 深圳先进技术研究院 一种基于miRNA的疾病间关系分析方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2297359B1 (en) * 2008-05-30 2013-11-13 The University of North Carolina at Chapel Hill Gene expression profiles to predict breast cancer outcomes
CN103778349A (zh) * 2014-01-29 2014-05-07 思博奥科生物信息科技(北京)有限公司 一种基于功能模块的生物分子网络分析的方法
CN107002009A (zh) * 2014-12-04 2017-08-01 株式会社日立高新技术 生物分子测定装置及生物分子测定方法
CN106709231A (zh) * 2016-10-19 2017-05-24 王�忠 评价生物分子网络中药物对模块间关系的影响的方法
CN106951684A (zh) * 2017-02-28 2017-07-14 北京大学 一种医学疾病诊断记录中实体消歧的方法
CN107220525A (zh) * 2017-05-19 2017-09-29 浙江工业大学 基于rnn的基因调控网络构建与动态差异性分析方法
CN108121896A (zh) * 2017-12-19 2018-06-05 深圳先进技术研究院 一种基于miRNA的疾病间关系分析方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FURLONG, L.I.: "Human diseases through the lens of network biology", 《TRENDS IN GENETICS》 *
JIFENG ZHANG 等: "Network Properties of Cancer Prognostic Gene Signatures in the Human Protein Interactome", 《GENES》 *
XIAOJUNLI 等: "Self-adaptive autowave pulse-coupled neural network for shortest-path problem", 《NEUROCOMPUTING》 *
唐智 等: "一种改进的基因功能网络术语相似度计算方法", 《医学信息学杂志》 *

Similar Documents

Publication Publication Date Title
US20070225956A1 (en) Causal analysis in complex biological systems
US20110231102A1 (en) Method, system and software arrangement for comparative analysis and phylogeny with whole-genome optical maps
CN110136779B (zh) 一种生物网络关键差异节点的样本特征提取及预测方法
CN114255886A (zh) 基于多组学相似度引导的药物敏感性预测方法和装置
CN106503482B (zh) 一种用于定量分析药物干预前后生物分子网络中模块变化的方法
Djeddi et al. A novel computational approach for global alignment for multiple biological networks
Thareja et al. A review of data mining optimization techniques for bioinformatics applications
Wu et al. Network-based integrative analysis of single-cell transcriptomic and epigenomic data for cell types
CN113049664B (zh) 一种基于质谱代谢组学的通路分析建模方法
CN111508555A (zh) 一组用于度量生物分子集的网络拓扑学特性的方法
Sallim et al. ACOPIN: An ACO algorithm with TSP approach for clustering proteins from protein interaction network
JP2012146066A (ja) 核酸情報処理装置およびその処理方法
Pfeifer et al. Network module detection from multi-modal node features with a greedy decision forest for actionable explainable AI
Rubel et al. Reconciling signaling pathway databases with network topologies
Sarmiento et al. Pathway-based human disease clustering tool using self-organizing maps
CN113192562B (zh) 融合多尺度模块结构信息的致病基因识别方法及系统
Zhang et al. Parallel moea based on consensus and membrane structure for inferring phylogenetic reconstruction
CN117393051A (zh) 基于双注意力和图神经网络的抗癌药物响应预测方法
Ray et al. Incorporating fuzzy semantic similarity measure in detecting human protein complexes in PPI network: A multiobjective approach
Grover et al. Phylogenetic diversity statistics for all clades in a phylogeny
Al-Janabee et al. Fuzzy C means Based Evaluation Algorithms For Cancer Gene Expression Data Clustering
Al-Janabee et al. Evaluation Algorithms Based on Fuzzy C-means for the Data Clustering of Cancer Gene Expression
Pirim Construction of gene networks using expression profiles
Wu et al. Molecular interaction networks: topological and functional characterizations
Bonnici et al. LErNet: characterization of lncRNAs via context-aware network expansion and enrichment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination