CN111667881B

CN111667881B - 一种基于多网络拓扑结构的蛋白质功能预测方法

Info

Publication number: CN111667881B
Application number: CN202010497219.2A
Authority: CN
Inventors: 邓雪纯
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2023-06-06
Anticipated expiration: 2040-06-04
Also published as: CN111667881A

Abstract

一种基于多网络拓扑结构的蛋白质功能预测方法，其属于生物信息应用的技术领域。该方法利用网络特有的拓扑结构，采用加权的方法使得网络结构更加明显，方便后续采集蛋白质网络特征节点。同时利用网络的拓扑结构信息整合多个网络，对每个蛋白质网络采用重启随机游走，获得每一个节点的一个分布，利用提取到的拓扑信息和数据的其他信息来推断节点的属性，从而捕获其与网络中其他所有节点的相关性。该方法轻松扩展到大量网络，分析每个网络中的扩散以表征每个节点的拓扑上下文。该方法解决了蛋白质功能预测中功能标签空间巨大的问题，提高了获取的压缩标签可解释性，通过本方法使得蛋白质预测功能更加完善和精确。

Description

一种基于多网络拓扑结构的蛋白质功能预测方法

技术领域

本发明涉及生物信息学应用领域，具体说是一种利用网络的拓扑结构信息来整合多个网络，推断节点的属性，从而实现蛋白质功能预测的方法。

背景技术

随着生物学和计算机技术的发展，生物信息学已经越来越受到重视，也因此发挥了巨大技术经济效益和社会效益。然而在人类社会信息化的高度发展下，生物信息学的传统研究方法已经不能完全适应，逐渐乏力，甚至达到了瓶颈的状态。在众多生物信息学问题中，准确地标注蛋白质功能是功能基因组学的核心任务之一，蛋白质功能标注信息存在大量缺失且功能标签空间巨大的问题。一个可靠的大规模蛋白质一蛋白质相互作用网络是生物学家的一个宝贵资源,因为它可被用来发现未知的信号通路、复合物或进行蛋白质功能预测，目前高通量实验方法可以实现大量的大规模分子和功能相互作用网络，这些网络的连通性为推断基因和蛋白质的功能注释提供了丰富的信息来源。

高通量实验方法背后的一个关键是，在相互作用网络中共同定位或具有类似拓扑作用的基因或蛋白质更有可能在功能上相互关联。这一发现使我们能够通过从相似的基因和更好理解的蛋白质中转移知识来推断未知蛋白质的特性，这一过程被称为“关联推断”。一个重要的挑战是发展原则性的方法来整合不同的信息来源，从中可以构建不同的相互作用网络。

目前的大部分工作都集中在将异构数据的集合汇总到单个集成网络中，这通常是通过贝叶斯推理将不同网络的边缘组合在一起而获得的或自适应加权平均。生成的集成网络将作为现有基于网络的推理方法例如标签传播或基于图的聚类，以从数据中得出功能见解。但是，此类方法的主要局限性在于将各种数据集投影到单个网络表示形式上会导致大量信息丢失。例如，仅存在于某些数据集中的特定于上下文的交互模式很可能会被集成网络中其他数据源的边缘所遮盖。因此利用网络拓扑结构整合多个网络信息，从而对蛋白质进行预测是非常有必要的。

发明内容

本发明为了克服上述方法的不足，为解决现有技术存在的上述缺点，本申请提供一个利用网络的拓扑结构信息来整合多个网络，实现蛋白质功能预测的方法。能更精确地预测蛋白质功能，快速了解多样化的生物网络数据的结构，并可广泛应用于其他生物网络领域中。

为实现上述目的，本申请的技术方案为：一种基于多网络拓扑结构的蛋白质功能预测方法，包括：

第一步，获取蛋白质相互作用网络。从STRING数据库下载蛋白质-蛋白质相互作用(PPI)网络的集合。

第二步，转换蛋白质相互作用网络。本申请采用加权线图算法将原始的蛋白质相互作用网络变换成其对应的加权线图，方便后续计算变换后的加权线图中节点的多种网络拓扑属性。

第三步，对每个蛋白质网络采用重启随机游走(Random Walk with Restart)，获得每一个节点的一个分布，捕获该节点在网络中与其他所有节点的相关性，得到n维的网络扩散向量。

第四步，构造多项逻辑模型。构建多项逻辑模型近似随机游走后网络中每个节点对应的扩散向量，得到一个模型向量。

第五步，降低维度。对得到的n维模型向量进行降维，方便后续计算。

第六步，通过上一步得到两个降维后的向量，一个模型向量和一个扩散向量，将两者进行差异最小化，得到两个对应的低维向量，一个是表示网络特异性的参数向量，一个是表示网络特征的特征向量。

第七步，使用上一步得到的特征向量作为蛋白质功能预测的输入特征向量，与蛋白质功能进行对比，得出预测结果。

具体来说，在第一步中，虑到为了让本申请中的蛋白质功能预测的效果更好，本方法采用的是STRING数据库精选的PPI数据合集。在选择数据集时排除了构建的网络，以防止基于功能相似性的链接引起的混淆，并且为了突出本方法在多网络整合的优越性，本方法采用的PPI数据集合是由六个异源网络组成的。

在第二步中，加权线图算法使每个蛋白质网络变换成加权网络G＝(V,E)，该分子相互作用网络共有n个节点，每一个节点都代表一个蛋白质。

在第三步中，对每个网络采用重启随机游走，从初始节点i出发，通过该网络的邻接矩阵和转移概率矩阵共同作用，决定下一个节点j的走向。根据公式(1)确定从节点i为初始节点进行的重启随机游走

其中，p_c表示该节点重启的概率，重启概率可以判断在扩散过程中，控制局部结构和全局拓扑结构信息的影响比例，重启概率较大时，说明局部的结构更为重要；

a_i是一个n维向量，每一项代表着节点i出发到达节点j的概率。当j＝i时，a_i(j)＝1；当j≠i时，a_i(j)＝0；

S^t _i是一个n维分布的列向量，每一项代表着表示从节点i出发，充气随即游走t步后，可以到达该节点的概率；

公式(1)可拆分为两项的和，前一项可以看做当前节点i连接的其他节点持续更新的更新项，第二项为节点i的重启项。经过反复多次的迭代后，可以得到每个节点计算后的n维的扩散向量S_i。

在第四步中，构建一个向量

为模型向量，与每一个扩散向量S_i相匹配，通过逻辑模型的计算，使每一个模型向量尽可能的贴近与其匹配的扩散向量，降低模型向量与扩散向量两者间的差异。利用回归模型，计算模型向量/>

/>

式中x,w为两个维度一样的d维向量，并且d要远远小于n。即在构建的过程中对向量进行降维，通过公式(2)可以得到与每个扩散向量S_i相匹配的模型向量

在第五步中，通过模型的构建，将x和w设置为维度为d的向量，共有n个节点，这样就可以将最初生物网络的n×n矩阵变为n×d矩阵，起到了降维的作用。

在第六步中，对上一步得到两个降维后的向量，一个模型向量

和一个扩散向量S_i，将两者进行差异最小化，得到两个对应的低维向量，一个是表示网络特异性的参数向量w，一个是表示网络特征的特征向量x公式如下：

计算出x特征向量后，可以利用每个节点的特征向量来做数据相关分析。

在第七步中，通过步骤六得到的x特征向量，作为蛋白质功能预测的输入特征向量，判断通过本方法是否将输入的蛋白质分配到了其应对的功能类别。

本发明由于采用以上技术方案，能够取得如下的技术效果：

1.本申请可以充分利用网络特有的拓扑结构，在学习最能解释所有网络拓扑模式的规范表示之前，分别分析每个网络的结构，并且采用加权的方法使得网络结构更加明显，方便后续采集蛋白质网络特征节点。

2.本申请利用网络的拓扑结构信息来整合多个网络，组合这些异构网络以提取有用的蛋白质特征表示，对每个蛋白质网络采用重启随机游走，获得每一个节点的一个分布，利用提取到的拓扑信息和数据的其他信息来推断节点的属性，从而捕获其与网络中其他所有节点的相关性。

3.本申请的方法轻松扩展到大量网络，分析每个网络中的扩散以表征每个节点的拓扑上下文。使用低维向量，即每个蛋白质一个向量来规范地表示单个网络中的高维拓扑模式。

4.本申请采用对蛋白质节点进行分类，以进行功能预测的方法而蛋白质的结构，解决了蛋白质功能预测中功能标签空间巨大的问题，提高了获取的压缩标签可解释性，通过本方法使得蛋白质预测功能更加完善和精确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简要介绍：

图1是本发明流程框架图；。

图2是本发明多项逻辑模型图。

图3是本发明与其它网络集成方法的功能预测性能对比图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述：以此为例对本申请做进一步的描述说明。显然，所描述的实施例仅仅是本发明中的一部分实施例，而不是全部实施例。

参照图1，一种基于多网络拓扑结构的蛋白质功能预测方法的设计流程，本专利利用网络的拓扑结构信息来整合多个网络，利用提取的拓扑信息和数据的其他信息来推断节点的属性，实现蛋白质预测功能。具体的操作流程图如图1所示：

首先获取合适的蛋白质相互作用网络PPI数据集；

进一步的，通过加权线图算法将原始的蛋白质相互作用网络变换成其对应的加权图；

进一步的，采用重启随机游走的方式，对每个蛋白质网络进行扩散。尽管假设所有网络都在同一节点集上定义，但是对于给定的重叠但不同的节点，则可以采用不同节点的整合，并用缺少的节点来扩充每个网络以统一节点数量。本方法比采用节点集的交集更可取，因为另一个网络中缺少的节点上的路径仍可能包含有用的拓扑信息，这些信息将由扩散过程捕获。

进一步的，获得每一个节点的一个分布，利用提取到的拓扑信息和数据的其他信息来推断节点的属性。

进一步的，对提取到的节点构造多项逻辑模型，如图2所示。通过逻辑模型的计算，使每一个模型向量尽可能的贴近与其匹配的扩散向量，降低模型向量与扩散向量两者间的差异。

进一步的，前几步中每个节点i计算一个出n维的列扩散向量S_i，由于每个节点的扩散向量都是n维的，模型向量也是n维的，而且生物网络中的n非常大，蛋白质网络的维度很大，因此节点也会过多，导致后续的计算中耗时非常大，因此对前几步中求出的向量进行降维，得到n×d的生物网络矩阵。

进一步的，得到了使用扩散向量S_i和与其相匹配的模型向量

后，利用KL-散度来计算两个向量之间的差异，x,w两个向量是由扩散向量S_i和与其相匹配的模型向量/>

经过差异最小化得到的。

进一步的，通过扩展，将k个网络全部降维，w向量作为该节点特征向量的参数，在不同的网络中表现不同，反映了网络的特异性，视为网络特异性上下文向量，共k×n个；x向量为节点的特征向量，在k个网络中实现共享，也就是利用x向量做到整合k个网络的目的，共n个。

进一步的，计算出x特征向量，作为输入向量，利用每个节点的特征向量来做数据相关分析，判断通过本方法是否将输入的蛋白质分配到了其应对的功能类别。

结果如图3所示，图中(a)为本方法的结果曲线图，(b)为GeneMANIA方法的结果曲线图。为了更加直观的看出本方法的优越之处，本方法使用RWR以0.5的重启概率获得了扩散状态，并使用了基于L1的距离加权表决方法进行了蛋白质功能的预测，并且在线下载了MATLAB实现GeneMANIA方法，对两种方法的预测结果进行评估，对比精确召回曲线可知，本方法最高预测正确地将35％左右的基因(平均)分配到了其功能类别，而GeneMANIA仅为28％左右。由此可见，本文提出的基于多网络拓扑结构的蛋白质功能预测方法比以前的方法获得了更高的预测性能。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。