CN109033746A

CN109033746A - 一种基于节点向量的蛋白质复合物识别方法

Info

Publication number: CN109033746A
Application number: CN201810693748.2A
Authority: CN
Inventors: 杨志豪; 刘晓霞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-12-18
Anticipated expiration: 2038-06-29
Also published as: CN109033746B

Abstract

一种基于节点向量的蛋白质复合物识别方法，该方法包括以下步骤：S1、采集包含蛋白质交互作用关系的蛋白质对数据集：S2、构建蛋白质交互作用关系网络；S3、网络节点向量化；S4、网络边加权；S5、选取种子节点；S6、种子节点扩张从而形成候选蛋白质复合物子图；S7、过滤候选蛋白质复合物子图并输出最终识别得到的蛋白质复合物子图。本发明适用于从已有的蛋白质交互作用关系中识别蛋白质复合物的工作，不限于蛋白质交互作用关系的来源，能够有效的识别蛋白质复合物，将有助于在蛋白质水平上揭示疾病等生命活动的基本机理。

Description

一种基于节点向量的蛋白质复合物识别方法

技术领域

本发明涉及网络数据挖掘方法领域，尤其是一种基于节点向量的蛋白质复合物识别方法。

背景技术

蛋白质复合物是一组蛋白质通过交互作用构成的一个整体以完成某种生物功能。了解蛋白质复合物的结构和功能是探索各种生命活动机制的基础，能够帮助人类在蛋白质水平上揭示疾病等生命活动的基本机理，获得关于疾病发生、细胞代谢等一系列生理过程的全面而整体的认识。蛋白质复合物识别是蛋白质复合物研究的第一步，也是蛋白质相关研究的重要基础，因此，如何有效识别蛋白质复合物具有重大的理论价值和使用价值。

当前通过实验测定的方法识别蛋白质复合物主要基于亲和纯化技术和免疫共沉淀技术，而这些方法实验步骤多、耗时且成本昂贵。随着蛋白质交互作用关系数据的飞速增加，基于蛋白质交互作用网络自动识别蛋白质复合物的计算方法成为了通过实验识别蛋白质复合物的有效补充。在蛋白质交互作用关系网络中，节点表示蛋白质，边表示蛋白质交互作用。蛋白质复合物在蛋白质交互作用关系网络中通常表现为相对独立的稠密子图，构成复合物的蛋白质之间关系紧密，具有相同的拓扑和生物特征。使用计算的方法识别蛋白质复合物与实验方法相比具有成本低、效率高的优势，将为进一步推动生命科学的发展助力，然而目前大多数研究不能在充分挖掘蛋白质交互作用网络的拓扑特点的同时把握蛋白质复合物在蛋白质交互作用网络中的特性，其识别性能并不高。

发明内容

本发明的目的是提供一种可靠性强、性能高，适用于从现有蛋白质交互作用关系中识别蛋白质复合物的基于节点向量的蛋白质复合物识别方法。

本发明解决现有技术问题所采用的技术方案：一种基于节点向量的蛋白质复合物识别方法，该方法包括以下步骤：

S1、采集包含蛋白质交互作用关系的蛋白质对数据集：从已有的蛋白质交互作用关系数据库中采集具有蛋白质交互作用关系的蛋白质对，去除重复以及具有自连接蛋白质交互作用关系的蛋白质对，并将所述蛋白质对以统一格式存储为蛋白质对数据集；

S2、构建蛋白质交互作用关系网络：使用蛋白质对数据集构建蛋白质交互作用关系网络G(V，E，W)，其中，V为节点的集合、E为边的集合、W为边的权重集：将蛋白质对数据集中每个蛋白质对中的蛋白质作为蛋白质交互作用关系网络G(V，E，W)的节点；节点间的边为该蛋白质对的蛋白质交互作用关系；将每条边的初始权重设为1；

S3、网络节点向量化：利用无监督训练模型对蛋白质交互关系网络进行图嵌入：将蛋白质交互作用网络中的每个节点表示为向量形式，作为蛋白质向量；具体方法为：对于蛋白质交互作用网络中的每个节点定义一个d维实数向量，每一维实数向量为一个变量，每个节点与从当前节点出发通过k步随机游走到达的m个节点形成节点序列，该节点序列作为当前节点的上下文，其中d、k、m为自然数；使用Skip-Gram模型，并将d维实数向量作为模型的输入变量，通过损失函数和求导公式对Skip-Gram模型中的参数与输入变量进行更新，以使当前节点的蛋白质向量与其所在节点序列中的各节点的蛋白质向量的余弦相似度在0.8到1之间；最后，将更新后得到的d维实数向量作为当前节点的蛋白质向量；

S4、网络边加权：将蛋白质交互关系网络中，每条边两端的蛋白质向量之间的夹角余弦值对该条边权值的初始权重进行更新，得到加权蛋白质交互关系网络；

S5、选取种子节点：计算每个节点v_t的度deg(v_t)，其中，t∈{1，…，|V|}，V为节点的集合，|V|为蛋白质交互作用关系网络中节点的总个数；同时求出整个网络的平均度average_degree(G(V，E，W))，提取节点度等于或大于蛋白质交互作用关系网络平均度的节点作为种子节点加入种子节点集合中，种子节点集合表示为seed_set；其中，通过以下公式计算蛋白质交互作用关系网络的平均度average_degree(G(V，E，W))：

S6、种子节点扩张从而形成候选蛋白质复合物子图：包括以下步骤：

a1、选取种子节点集合seed_set中的一个种子节点v_i作为当前种子节点，i∈{1，…，len(seed_set)},其中len(seed_set)为种子节点集合的大小；为当前种子节点初始化一个子图cluster_i，此时子图中只包含v_i，并设置当前子图初始分值为0，然后对步骤S4得到的蛋白质交互作用加权网络，使用别名采样方法为当前种子节点选择候选节点，加入当前候选节点并更新子图cluster_i及其分值score(cluster_i)；给定一个子图cluster_i，其分值的计算方法为:

其中为子图cluster_i中边的集合，表示子图cluster_i中点的集合；其中表示由子图cluster_i中所有节点构成的带权重的邻接矩阵中第m行第n列的数值，表示由子图cluster_i中所有节点构成的度权重矩阵中第m行第m列的数值；

a2、从更新的子图cluster_i中随机选择一个节点作为待扩张节点，采用基于网络权值的别名采样方法为当前待扩张节点选择候选节点，如果加入候选节点可以使当前子图的分值升高，即加入候选节点后的子图分值高于当前子图分值，则加入当前候选节点并更新子图cluster_i及其分值score(cluster_i)：

a3、从当前子图cluster_i中选取边缘节点，如果删除边缘节点可以使当前子图的分值升高，即删除所选边缘节点后的子图分值高于当前子图分值，则删除所选边缘节点并更新子图cluster_i及其分值score(cluster_i)；

a4、重复步骤a2和a3，直到子图cluster_i及其分值不再发生变化；

a5、输出当前种子节点v_i对应的子图cluster_i及其分值作为候选蛋白质复合物子图，并从种子节点集合seed_set中删除当前种子节点v_i；

a6、重复a1-a5步骤，直到seed_set为空；得到候选蛋白质复合物子图；

S7、过滤候选蛋白质复合物子图并输出最终识别得到的蛋白质复合物子图：

包括以下步骤：

b1、将所有候选蛋白质复合物子图按照其分值降序排序，得到排序后的候选蛋白质复合物子图集合C＝{C₁，C₂，C₃，…C_n}，其中n，其中n为识别出的候选蛋白质复合物子图的个数，对任意一个候选蛋白质复合物子图C_a,a∈{1，…，n}，计算该候选蛋白质复合物子图C_a与子图分值低于C_a的候选蛋白质复合物子图C_b的重合度b∈{1，…，n}，重合度计算公式为：如果C_a与C_b的重合度大于预设合并阈值，则计算合并C_a与C_b后子图的分值，如果分值大于C_a，则将C_a更新为C_a∪C_b并删除C_b，如果分值小于C_a，则删除C_b，重复此步骤直到没有候选复合物需要合并；

b2、输出更新后的节点个数大于或等于预设阈值的所有候选蛋白质复合物子图作为最终识别的蛋白质复合物子图，输出识别所得的所有蛋白质复合物子图即得到最终的蛋白质复合物。

步骤S3中的损失函数为：其中f(v)是将节点v映射为成d维向量的函数，NS(v_k)是包含节点v_k的节点序列。

在步骤S3中，d∈{32，64，128，256}，k∈{10，20，30}，m∈{10，20，30，40，50}。

在步骤b1中，预设合并阈值为0.9。

步骤b2中，预设阈值为3。

本发明的有益效果在于：本发明通过使用无监督方法获取蛋白质交互关系网络的节点向量表示并使用节点向量表示为蛋白质交互关系网络加权，能够更有效的区分哪些蛋白质交互作用关系更有可能形成蛋白质复合物。本发明利用种子节点扩张的方法形成候选蛋白质复合物子图，在扩张过程中不仅包含加入节点同时也考虑是否需要删除边缘节点来形成分值更高的子团，能够充分保证最终所形成的蛋白质复合物更加接近真实蛋白质复合物。本发明同时考虑了网络整体特征和节点之间的局部特征，并基于蛋白质复合物在蛋白质交互作用网络中的拓扑特征，提出基于子图密度和子图内外权重比例的打分策略为候选蛋白质复合物打分。本发明能够从蛋白质交互作用网络中有效自动识别蛋白质复合物，以帮助生物学家减轻实验成本，节省了人力物力。

附图说明

图1为本发明的整体流程示意图。

图2为将蛋白质交互作用网络中的节点表示为向量示意图。

图3为本发明所识别出的一个蛋白质复合物子图。

具体实施方式

以下结合附图及具体实施方式对本发明进行说明：

图1是本发明一种基于节点向量的蛋白质复合物识别方法的流程示意图。如图1所示，一种基于节点向量的蛋白质复合物识别方法，包括以下步骤：

a1、选取种子节点集合seed_set中的一个种子节点v_i作为当前种子节点，i∈{1，…，len(seed_set)},其中len(seed_set)为种子节点集合的大小，为当前种子节点初始化一个子图cluster_i，此时子图中只包含v_i，并设置当前子图初始分值为0，然后对步骤S4得到的蛋白质交互作用加权网络，使用别名采样方法为当前种子节点选择候选节点，加入当前候选节点并更新子图cluster_i及其分值score(cluster_i)；给定一个子图cluster_i，其分值的计算方法为:

其中为子图cluster_i中边的集合，表示子图cluster_i中点的集合；其中表示有子图cluster_i中所有节点构成的带权重的邻接矩阵中第m行第n列的数值，表示由子图cluster_i中所有节点构成的度权重矩阵第m行第m列的数值；

a6、重复a1-a5步骤，直到seed_set为空；得到候选蛋白质复合物子图。

包括以下步骤：

b2、输出更新后的节点个数大于或等于3的所有候选蛋白质复合物子图作为最终识别的蛋白质复合物子图，输出识别所得的所有蛋白质复合物子图即得到最终的蛋白质复合物。

实验结果与分析

本部分通过在实际蛋白质相互作用关系数据所构建的蛋白质相互作用网络上进行蛋白质复合物识别的结果，验证了本发明算法的有效性、实用性和正确性。首先介绍实验所使用的蛋白质相互作用作用关系数据；其次介绍实验结的评价指标；最后使用相关评价指标来评估本文提出的蛋白质复合物识别算法的有效性。

实验数据：

生物高通量实验产生了大量的蛋白质相互作用关系，形成了多种蛋白质关系数据库，本发明采用目前使用较多，且收到研究人员广泛关注的六种酵母菌蛋白质交互作用关系数据：DIP，BioGrid，Krogan Core，Krogan extend，Collins，Gavin，这六个蛋白质相互作用数据集是从对应的数据库下载获取，这些蛋白质交互作用关系网络的详细信息统计见表1：

表1蛋白质交互作用关系网络详细信息统计表

数据集	节点数	边数
			DIP	4928	17201
BioGrid	5640	59748
			KroganCore	2708	7123
Kroganextend	3672	14317
			Collins	1622	9074
Gavin	1855	7669

采用准确率(Precision)，召回率(Recall)，准确率和召回率的调和平均数(F-measure)，以及功能富集(P-value)四个指标对本发明的识别算法进行评价，与MCL、CMC、RRW和ClusterONE四种当前先进蛋白质复合物识别算法比较结果表明，本发明提出的蛋白质复合物识别算法获得最好的F-measure值。同时通过统计不同蛋白质复合物识别方法所识别出的蛋白质复合物的P-value值表明，本发明提出的算法识别出的蛋白质复合物的P-value值整体小于其他四种识别方法所识别出的蛋白质复合物的P-value值，从而可知本发明所识别出的蛋白质复合物较其他方法识别出的蛋白质复合物更具有一定的生物学意义。因此，实验结果表明本发明提出的蛋白质复合物识别方法是有效的。

图3为本发明所识别出的一个蛋白质复合物。

以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于节点向量的蛋白质复合物识别方法，其特征在于，该方法包括以下步骤：

S7、过滤候选蛋白质复合物子图并输出最终识别得到的蛋白质复合物子图：包括以下步骤：

b1、将所有候选蛋白质复合物子图按照其分值降序排序，得到排序后的候选蛋白质复合物子图集合C＝{C₁，C₂，C₃，…C_n}，其中n，其中n为识别出的候选蛋白质复合物子图的个数，对任意一个候选蛋白质复合物子图C_a,a∈{1，…，n}，计算该候选蛋白质复合物子图C_a与子图分值低于C_a的候选蛋白质复合物子图C_b的重合度b∈{1，…，n}，重合度计算公式为：a，b∈{1，…，n}，如果C_a与C_b的重合度大于预设合并阈值，则计算合并C_a与C_b后子图的分值，如果分值大于C_a，则将C_a更新为C_a∪C_b并删除C_b，如果分值小于C_a，则删除C_b，重复此步骤直到没有候选复合物需要合并；

2.根据权利要求1所属的一种基于节点向量的蛋白质复合物识别方法，其特征在于，步骤S3中的损失函数为：其中f(v)是将节点v映射为成d维向量的函数，NS(v_k)是包含节点v_k的节点序列。

3.根据权利要求1所述的一种基于节点向量的蛋白质复合物识别方法，其特征在于，在步骤S3中，d∈{32，64，128，256}，k∈{10，20，30}，m∈{10，20，30，40，50}。

4.根据权利要求1所述的一种基于节点向量的蛋白质复合物识别方法，其特征在于，在步骤b1中，预设合并阈值为0.9。

5.根据权利要求1所述的一种基于节点向量的蛋白质复合物识别方法，其特征在于，步骤b2中，预设阈值为3。