CN111667881B - 一种基于多网络拓扑结构的蛋白质功能预测方法 - Google Patents
一种基于多网络拓扑结构的蛋白质功能预测方法 Download PDFInfo
- Publication number
- CN111667881B CN111667881B CN202010497219.2A CN202010497219A CN111667881B CN 111667881 B CN111667881 B CN 111667881B CN 202010497219 A CN202010497219 A CN 202010497219A CN 111667881 B CN111667881 B CN 111667881B
- Authority
- CN
- China
- Prior art keywords
- vector
- network
- node
- protein
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于多网络拓扑结构的蛋白质功能预测方法,其属于生物信息应用的技术领域。该方法利用网络特有的拓扑结构,采用加权的方法使得网络结构更加明显,方便后续采集蛋白质网络特征节点。同时利用网络的拓扑结构信息整合多个网络,对每个蛋白质网络采用重启随机游走,获得每一个节点的一个分布,利用提取到的拓扑信息和数据的其他信息来推断节点的属性,从而捕获其与网络中其他所有节点的相关性。该方法轻松扩展到大量网络,分析每个网络中的扩散以表征每个节点的拓扑上下文。该方法解决了蛋白质功能预测中功能标签空间巨大的问题,提高了获取的压缩标签可解释性,通过本方法使得蛋白质预测功能更加完善和精确。
Description
技术领域
本发明涉及生物信息学应用领域,具体说是一种利用网络的拓扑结构信息来整合多个网络,推断节点的属性,从而实现蛋白质功能预测的方法。
背景技术
随着生物学和计算机技术的发展,生物信息学已经越来越受到重视,也因此发挥了巨大技术经济效益和社会效益。然而在人类社会信息化的高度发展下,生物信息学的传统研究方法已经不能完全适应,逐渐乏力,甚至达到了瓶颈的状态。在众多生物信息学问题中,准确地标注蛋白质功能是功能基因组学的核心任务之一,蛋白质功能标注信息存在大量缺失且功能标签空间巨大的问题。一个可靠的大规模蛋白质一蛋白质相互作用网络是生物学家的一个宝贵资源,因为它可被用来发现未知的信号通路、复合物或进行蛋白质功能预测,目前高通量实验方法可以实现大量的大规模分子和功能相互作用网络,这些网络的连通性为推断基因和蛋白质的功能注释提供了丰富的信息来源。
高通量实验方法背后的一个关键是,在相互作用网络中共同定位或具有类似拓扑作用的基因或蛋白质更有可能在功能上相互关联。这一发现使我们能够通过从相似的基因和更好理解的蛋白质中转移知识来推断未知蛋白质的特性,这一过程被称为“关联推断”。一个重要的挑战是发展原则性的方法来整合不同的信息来源,从中可以构建不同的相互作用网络。
目前的大部分工作都集中在将异构数据的集合汇总到单个集成网络中,这通常是通过贝叶斯推理将不同网络的边缘组合在一起而获得的或自适应加权平均。生成的集成网络将作为现有基于网络的推理方法例如标签传播或基于图的聚类,以从数据中得出功能见解。但是,此类方法的主要局限性在于将各种数据集投影到单个网络表示形式上会导致大量信息丢失。例如,仅存在于某些数据集中的特定于上下文的交互模式很可能会被集成网络中其他数据源的边缘所遮盖。因此利用网络拓扑结构整合多个网络信息,从而对蛋白质进行预测是非常有必要的。
发明内容
本发明为了克服上述方法的不足,为解决现有技术存在的上述缺点,本申请提供一个利用网络的拓扑结构信息来整合多个网络,实现蛋白质功能预测的方法。能更精确地预测蛋白质功能,快速了解多样化的生物网络数据的结构,并可广泛应用于其他生物网络领域中。
为实现上述目的,本申请的技术方案为:一种基于多网络拓扑结构的蛋白质功能预测方法,包括:
第一步,获取蛋白质相互作用网络。从STRING数据库下载蛋白质-蛋白质相互作用(PPI)网络的集合。
第二步,转换蛋白质相互作用网络。本申请采用加权线图算法将原始的蛋白质相互作用网络变换成其对应的加权线图,方便后续计算变换后的加权线图中节点的多种网络拓扑属性。
第三步,对每个蛋白质网络采用重启随机游走(Random Walk with Restart),获得每一个节点的一个分布,捕获该节点在网络中与其他所有节点的相关性,得到n维的网络扩散向量。
第四步,构造多项逻辑模型。构建多项逻辑模型近似随机游走后网络中每个节点对应的扩散向量,得到一个模型向量。
第五步,降低维度。对得到的n维模型向量进行降维,方便后续计算。
第六步,通过上一步得到两个降维后的向量,一个模型向量和一个扩散向量,将两者进行差异最小化,得到两个对应的低维向量,一个是表示网络特异性的参数向量,一个是表示网络特征的特征向量。
第七步,使用上一步得到的特征向量作为蛋白质功能预测的输入特征向量,与蛋白质功能进行对比,得出预测结果。
具体来说,在第一步中,虑到为了让本申请中的蛋白质功能预测的效果更好,本方法采用的是STRING数据库精选的PPI数据合集。在选择数据集时排除了构建的网络,以防止基于功能相似性的链接引起的混淆,并且为了突出本方法在多网络整合的优越性,本方法采用的PPI数据集合是由六个异源网络组成的。
在第二步中,加权线图算法使每个蛋白质网络变换成加权网络G=(V,E),该分子相互作用网络共有n个节点,每一个节点都代表一个蛋白质。
在第三步中,对每个网络采用重启随机游走,从初始节点i出发,通过该网络的邻接矩阵和转移概率矩阵共同作用,决定下一个节点j的走向。根据公式(1)确定从节点i为初始节点进行的重启随机游走
其中,pc表示该节点重启的概率,重启概率可以判断在扩散过程中,控制局部结构和全局拓扑结构信息的影响比例,重启概率较大时,说明局部的结构更为重要;
ai是一个n维向量,每一项代表着节点i出发到达节点j的概率。当j=i时,ai(j)=1;当j≠i时,ai(j)=0;
St i是一个n维分布的列向量,每一项代表着表示从节点i出发,充气随即游走t步后,可以到达该节点的概率;
公式(1)可拆分为两项的和,前一项可以看做当前节点i连接的其他节点持续更新的更新项,第二项为节点i的重启项。经过反复多次的迭代后,可以得到每个节点计算后的n维的扩散向量Si。
在第四步中,构建一个向量为模型向量,与每一个扩散向量Si相匹配,通过逻辑模型的计算,使每一个模型向量尽可能的贴近与其匹配的扩散向量,降低模型向量与扩散向量两者间的差异。利用回归模型,计算模型向量/>/>
在第五步中,通过模型的构建,将x和w设置为维度为d的向量,共有n个节点,这样就可以将最初生物网络的n×n矩阵变为n×d矩阵,起到了降维的作用。
计算出x特征向量后,可以利用每个节点的特征向量来做数据相关分析。
在第七步中,通过步骤六得到的x特征向量,作为蛋白质功能预测的输入特征向量,判断通过本方法是否将输入的蛋白质分配到了其应对的功能类别。
本发明由于采用以上技术方案,能够取得如下的技术效果:
1.本申请可以充分利用网络特有的拓扑结构,在学习最能解释所有网络拓扑模式的规范表示之前,分别分析每个网络的结构,并且采用加权的方法使得网络结构更加明显,方便后续采集蛋白质网络特征节点。
2.本申请利用网络的拓扑结构信息来整合多个网络,组合这些异构网络以提取有用的蛋白质特征表示,对每个蛋白质网络采用重启随机游走,获得每一个节点的一个分布,利用提取到的拓扑信息和数据的其他信息来推断节点的属性,从而捕获其与网络中其他所有节点的相关性。
3.本申请的方法轻松扩展到大量网络,分析每个网络中的扩散以表征每个节点的拓扑上下文。使用低维向量,即每个蛋白质一个向量来规范地表示单个网络中的高维拓扑模式。
4.本申请采用对蛋白质节点进行分类,以进行功能预测的方法而蛋白质的结构,解决了蛋白质功能预测中功能标签空间巨大的问题,提高了获取的压缩标签可解释性,通过本方法使得蛋白质预测功能更加完善和精确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简要介绍:
图1是本发明流程框架图;。
图2是本发明多项逻辑模型图。
图3是本发明与其它网络集成方法的功能预测性能对比图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述:以此为例对本申请做进一步的描述说明。显然,所描述的实施例仅仅是本发明中的一部分实施例,而不是全部实施例。
参照图1,一种基于多网络拓扑结构的蛋白质功能预测方法的设计流程,本专利利用网络的拓扑结构信息来整合多个网络,利用提取的拓扑信息和数据的其他信息来推断节点的属性,实现蛋白质预测功能。具体的操作流程图如图1所示:
首先获取合适的蛋白质相互作用网络PPI数据集;
进一步的,通过加权线图算法将原始的蛋白质相互作用网络变换成其对应的加权图;
进一步的,采用重启随机游走的方式,对每个蛋白质网络进行扩散。尽管假设所有网络都在同一节点集上定义,但是对于给定的重叠但不同的节点,则可以采用不同节点的整合,并用缺少的节点来扩充每个网络以统一节点数量。本方法比采用节点集的交集更可取,因为另一个网络中缺少的节点上的路径仍可能包含有用的拓扑信息,这些信息将由扩散过程捕获。
进一步的,获得每一个节点的一个分布,利用提取到的拓扑信息和数据的其他信息来推断节点的属性。
进一步的,对提取到的节点构造多项逻辑模型,如图2所示。通过逻辑模型的计算,使每一个模型向量尽可能的贴近与其匹配的扩散向量,降低模型向量与扩散向量两者间的差异。
进一步的,前几步中每个节点i计算一个出n维的列扩散向量Si,由于每个节点的扩散向量都是n维的,模型向量也是n维的,而且生物网络中的n非常大,蛋白质网络的维度很大,因此节点也会过多,导致后续的计算中耗时非常大,因此对前几步中求出的向量进行降维,得到n×d的生物网络矩阵。
进一步的,通过扩展,将k个网络全部降维,w向量作为该节点特征向量的参数,在不同的网络中表现不同,反映了网络的特异性,视为网络特异性上下文向量,共k×n个;x向量为节点的特征向量,在k个网络中实现共享,也就是利用x向量做到整合k个网络的目的,共n个。
进一步的,计算出x特征向量,作为输入向量,利用每个节点的特征向量来做数据相关分析,判断通过本方法是否将输入的蛋白质分配到了其应对的功能类别。
结果如图3所示,图中(a)为本方法的结果曲线图,(b)为GeneMANIA方法的结果曲线图。为了更加直观的看出本方法的优越之处,本方法使用RWR以0.5的重启概率获得了扩散状态,并使用了基于L1的距离加权表决方法进行了蛋白质功能的预测,并且在线下载了MATLAB实现GeneMANIA方法,对两种方法的预测结果进行评估,对比精确召回曲线可知,本方法最高预测正确地将35%左右的基因(平均)分配到了其功能类别,而GeneMANIA仅为28%左右。由此可见,本文提出的基于多网络拓扑结构的蛋白质功能预测方法比以前的方法获得了更高的预测性能。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。
Claims (1)
1.一种基于多网络拓扑结构的蛋白质功能预测方法,其特征在于,包括以下步骤:
S1、获取蛋白质相互作用网络:从STRING数据库下载蛋白质-蛋白质相互作用网络的集合,即PPI数据合集;所述PPI数据集合包括六个异源网络;
S2、转换蛋白质相互作用网络:采用加权线图算法将原始的蛋白质相互作用网络变换成其对应的加权线图G=(V,E),原始的蛋白质相互作用网络共有n个节点,每一个节点都代表一个蛋白质;
S3、对每个蛋白质网络采用重启随机游走,获得每一个节点的分布,捕获该节点在网络中与其他所有节点的相关性,得到n维的网络扩散向量;
对每个网络采用重启随机游走,从初始节点i出发,通过该网络的邻接矩阵和转移概率矩阵共同作用,决定下一个节点j的走向;根据公式(1)确定从节点i为初始节点进行的重启随机游走
其中,pc表示该节点重启的概率;A表示网络的转移概率矩阵,矩阵中的每一项Aij表示节点j到节点i的转移概率;
ai是一个n维向量,每一项代表着节点i出发到达节点j的概率;当j=i时,ai(j)=1;当j≠i时,ai(j)=0;
St i是一个n维分布的列向量,每一项代表着表示从节点i出发,重启随机游走t步后到达该节点的概率;
S4、构造多项逻辑模型:构建多项逻辑模型近似随机游走后网络中每个节点对应的扩散向量,得到一个模型向量;
其中:wj是网络特异性的参数向量,xi是网络特征的特征向量,将x进行转置,形成向量xT:xT,w为两个维度一样的d维向量,并且d远远小于n;即在构建的过程中对向量进行降维,通过公式(2)可以得到与每个扩散向量Si相匹配的模型向量
S5、降低维度:对得到的n维模型向量进行降维,通过模型的构建,将xT和w设置为维度为d的向量,共有n个节点,将最初生物网络的n×n矩阵变为n×d矩阵;
w表示网络特异性的参数向量,x表示网络特征的特征向量,计算出n个x特征向量后,利用每个节点的特征向量来做数据分析,从而实现整合K个网络;
S7、使用S6得到的x特征向量作为蛋白质功能预测的输入特征向量,与蛋白质功能进行对比,得出预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010497219.2A CN111667881B (zh) | 2020-06-04 | 2020-06-04 | 一种基于多网络拓扑结构的蛋白质功能预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010497219.2A CN111667881B (zh) | 2020-06-04 | 2020-06-04 | 一种基于多网络拓扑结构的蛋白质功能预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111667881A CN111667881A (zh) | 2020-09-15 |
CN111667881B true CN111667881B (zh) | 2023-06-06 |
Family
ID=72385954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010497219.2A Active CN111667881B (zh) | 2020-06-04 | 2020-06-04 | 一种基于多网络拓扑结构的蛋白质功能预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111667881B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470739B (zh) * | 2021-07-03 | 2023-04-18 | 中国科学院新疆理化技术研究所 | 一种基于混合隶属度随机块模型的蛋白质相互作用预测方法和系统 |
CN115497555B (zh) * | 2022-08-16 | 2024-01-05 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 多物种蛋白质功能预测方法、装置、设备及存储介质 |
CN115631808B (zh) * | 2022-10-25 | 2023-08-01 | 贵州大学 | 一种分子靶点快速预测及关联机理分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016134659A1 (zh) * | 2015-02-25 | 2016-09-01 | 苏州大学张家港工业技术研究院 | 一种利用文本数据构建蛋白质相互作用网络的方法 |
CN109214599A (zh) * | 2018-10-25 | 2019-01-15 | 北京师范大学 | 一种对复杂网络进行链路预测的方法 |
CN110660448A (zh) * | 2019-09-20 | 2020-01-07 | 长沙学院 | 一种基于蛋白质的拓扑与功能特征的关键蛋白识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956413B (zh) * | 2016-04-27 | 2019-08-06 | 王�忠 | 识别生物分子网络中关键模块或关键节点的方法 |
-
2020
- 2020-06-04 CN CN202010497219.2A patent/CN111667881B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016134659A1 (zh) * | 2015-02-25 | 2016-09-01 | 苏州大学张家港工业技术研究院 | 一种利用文本数据构建蛋白质相互作用网络的方法 |
CN109214599A (zh) * | 2018-10-25 | 2019-01-15 | 北京师范大学 | 一种对复杂网络进行链路预测的方法 |
CN110660448A (zh) * | 2019-09-20 | 2020-01-07 | 长沙学院 | 一种基于蛋白质的拓扑与功能特征的关键蛋白识别方法 |
Non-Patent Citations (1)
Title |
---|
复杂网络社区挖掘综述;刘大有;金弟;何东晓;黄晶;杨建宁;杨博;;计算机研究与发展(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111667881A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111667881B (zh) | 一种基于多网络拓扑结构的蛋白质功能预测方法 | |
Sheikh et al. | Genetic algorithm based clustering: a survey | |
Du et al. | Cross-network skip-gram embedding for joint network alignment and link prediction | |
CN115827908A (zh) | 用于交互式图像场景图模式搜索和分析的系统和方法 | |
Marghny et al. | An effective evolutionary clustering algorithm: Hepatitis C case study | |
Wang et al. | Graph active learning for GCN-based zero-shot classification | |
Khan et al. | Ant colony optimization based hierarchical multi-label classification algorithm | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
Ma et al. | Graph Neural Networks: Scalability | |
CN114999635A (zh) | 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法 | |
Ling et al. | Graph neural networks: Graph matching | |
Strickert et al. | Unsupervised recursive sequence processing | |
ur Rehman et al. | Multi-dimensional scaling based grouping of known complexes and intelligent protein complex detection | |
Jiang | Learning protein functions from bi-relational graph of proteins and function annotations | |
CN117370674A (zh) | 融合用户行为和知识图谱的多任务推荐算法 | |
Labroche | Online fuzzy medoid based clustering algorithms | |
Lee et al. | Combining expression data and knowledge ontology for gene clustering and network reconstruction | |
Bostani et al. | A strong coreset algorithm to accelerate OPF as a graph-based machine learning in large-scale problems | |
Fabris et al. | Dependency network methods for hierarchical multi-label classification of gene functions | |
Shokouhifar et al. | Feature selection using supervised fuzzy C-means algorithm with ant colony optimization | |
Van et al. | The conjunctive disjunctive graph node kernel for disease gene prioritization | |
Truong et al. | Discovering non-redundant overlapping biclusters on gene expression data | |
Toujani et al. | Ghhp: Genetic hybrid hierarchical partitioning for community structure in social medias networks | |
Zuo | Representation learning and forecasting for inter-related time series | |
Hu et al. | Learning deep representations in large integrated network for graph clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |