CN112071362B

CN112071362B - 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法

Info

Publication number: CN112071362B
Application number: CN202010767169.5A
Authority: CN
Inventors: 刘光明; 丁翠; 王彬; 李爱民; 刘雅君; 罗靖
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2024-04-09
Anticipated expiration: 2040-08-03
Also published as: CN112071362A

Abstract

本发明公开了一种融合全局和局部拓扑结构的蛋白质复合体的检测方法，步骤包括：1)获取多种用于实验测试的蛋白质互作网络数据集并对数据集进行预处理；2)将预处理得到的蛋白质互作网络数据集转换成网络对应的邻接矩阵A；3)依据蛋白质互作网络的拓扑特性对非负矩阵分解算法加以改进，构建一种蛋白质复合体检测模型；4)对步骤3所形成的模型加以多次训练和测试；5)对最终输出的蛋白质复合体进行基因的富集分析，为每个蛋白质复合体标注出其代表的生物功能。本发明融合了蛋白质互作网络的全局和局部拓扑特性，使用改进之后的非负矩阵分解算法构建蛋白质复合体检测模型，具有良好的表现优势，能够更加准确高效的检测出蛋白质复合体。

Description

一种融合全局和局部拓扑结构的蛋白质复合体的检测方法

技术领域

本发明属于生命科学研究领域，具体涉及一种融合全局和局部拓扑结构的蛋白质复合体的检测方法。

背景技术

随着后基因组时代的到来，生命科学研究的重点已经从基因组学转向了蛋白质组学。蛋白质组学的一个重要任务就是从蛋白质-蛋白质相互作用网络中检测出具有一定生物功能的蛋白质复合体。诸如酵母双杂交、微阵列、蛋白质芯片、质谱分析法等生物技术的发展，人类利用这些技术产生了大规模的蛋白质相互作用数据，通过这些相互作用数据可以直接构建蛋白质-蛋白质相互作用网络。其网络的每一个节点代表一个蛋白质，每一条边代表蛋白质和蛋白质之间的相互作用。

蛋白质-蛋白质相互作用网络是生命有机体内一种极其重要的生物分子关系网络，从蛋白质-蛋白质相互作用网络中检测出蛋白质复合体不仅能够揭示细胞组织和功能原理，而且能够预测蛋白质功能模块，在疾病致病基因预测以及药物靶点预测方面具有良好的应用前景。由于蛋白质-蛋白质相互作用网络具有稀疏性和噪声数据的局限性，本发明提出了一种融合全局和局部拓扑结构的蛋白质复合体的检测方法，相对于传统的方法，该检测方法能够更准确高效的挖掘出蛋白质复合体。

发明内容

本发明的目的是提供一种融合全局和局部拓扑结构的蛋白质复合体的检测方法，相对于传统的蛋白质复合体检测方法，本发明的方法提高了蛋白质复合体检测的准确率和精度。

本发明所采用的技术方案是，一种融合全局和局部拓扑结构的蛋白质复合体的检测方法，按照以下步骤实施：

步骤1、获取用于实验测试的蛋白质互作网络数据集，并对数据集进行预处理；

步骤2、将步骤1预处理得到的蛋白质互作网络数据集转换成网络对应的邻接矩阵A；

步骤3、依据蛋白质互作网络的拓扑特性对非负矩阵分解算法加以改进，构建一种蛋白质复合体检测模型；

步骤4、对步骤3所形成的模型进行训练和测试，并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估；

步骤5、对最终输出的蛋白质复合体进行基因的富集分析，从而检测出待测蛋白质复合体所代表的生物功能。

本发明所采用的技术方案的特点还在于，

步骤1中预处理的具体过程为：获取到的蛋白质互作网络数据集每一行有两个蛋白质节点，将每个蛋白质节点的SYMBOL字符串形式均转换成数字形式，同时保持蛋白质互作网络的整体结构不变即可。

步骤2的具体步骤为：

步骤2.1、求出步骤1预处理之后网络数据集的最大值n，构建一个n×n的初始矩阵A；

步骤2.2、按行遍历网络数据集，将每一行的两个蛋白质节点数字依次作为i、j，并且将初始矩阵A[i][j]置1，其余的置0；

步骤2.3、将初始矩阵A的主对角线元素置1，即构建出邻接矩阵A。

步骤3具体步骤为：

步骤3.1、根据步骤2求得的邻接矩阵A计算得到蛋白质间的自表示系数矩阵Z；

步骤3.2中对非负矩阵分解算法加以改进，形成一种新的蛋白质复合体检测模型，其模型对应的目标函数为：

其中，代表求解矩阵的F2范数，A代表蛋白质互作网络对应的邻接矩阵，A∈R^n×n，R表示正实数域，n代表蛋白质网络中的总节点数，Z代表蛋白质间的自表示系数矩阵，Z∈R^n×n，W代表基矩阵，W∈R^n×k，k代表蛋白质互作网络的蛋白质复合体划分种类值，H代表划分矩阵，H∈R^n×k，S代表蛋白质间的Jaccard相似度矩阵，S∈R^n×n，D代表S对应的对角矩阵，L＝D-S，是Jaccard相似度矩阵S对应的拉普拉斯矩阵，矩阵Z≥0,W≥0,H≥0，tr代表求解矩阵的迹，λ是用来平衡全局拓扑特性和局部拓扑特性的参数，T表示矩阵的转置；

步骤3.3、对步骤3.2得到的目标函数进行求解，求解的具体过程为：

首先对目标函数min J求导，结果为：

再根据KKT条件获得矩阵Z、W、H的乘性迭代公式为：

其中，表示两个矩阵之间的点乘；

步骤3.4、根据步骤3.3获得的乘性迭代公式构建新的蛋白质复合体检测模型。

步骤4的具体过程为：对步骤3形成的模型，使用蛋白质互作网络数据集进行多次训练，并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估。

步骤5的具体步骤为：

步骤5.1、将蛋白质互作网络数据作为最终模型的输入，然后对模型进行训练，输出对应的蛋白质复合体；

步骤5.2、对步骤5.1输出的蛋白质复合体使用如下所示的超几何分布公式计算相应的p-value值；

其中，t代表所有蛋白质拓扑模块中的蛋白质的数量，k表示一个蛋白质模块中的蛋白质数量，m是指某个基因本体术语所注解的蛋白质的数量，q是某个基因本体术语在一个特定的蛋白质拓扑模块中所注解的蛋白质的数量，X表示一个随机变量，x表示X的一个具体取值；

步骤5.3、对每个蛋白质复合体得到的p-value值进行排序，将最小的p-value值对应的基因本体术语作为该蛋白质复合体的功能注释。

本发明的有益效果是：本发明一种融合全局和局部拓扑结构的蛋白质复合体检测方法，使用了经典的非负矩阵分解算法和子空间聚类算法，非负矩阵分解算法是一种多变量分析方法，在大规模数据分析和处理中具有良好的表现效果。本发明通过融合子空间聚类算法和非负矩阵分解算法的方式，构建了一种新型的蛋白质复合体检测模型。相对于传统的基于生物实验的检测方法，本发明提出的方法具有更好的表现优势，能够更加准确高效的检测出蛋白质互作网络中精确的蛋白质复合体。

附图说明

图1是本发明一种融合全局和局部拓扑结构的蛋白质复合体检测方法的总流程图；

图2是本发明样本数据集collins的蛋白质网络的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1所示，为本发明一种融合全局和局部拓扑结构的蛋白质复合体检测方法的流程示意图，具体按照以下方法进行：

步骤1、获取多种用于实验测试的蛋白质互作网络数据集；图2是本发明使用的一个样本数据集collins的蛋白质互作网络的示意图，对获得的蛋白质互作网络数据集进行预处理，预处理的具体过程为：

获取到的网络数据集每一行有两个蛋白质节点，代表蛋白质互作网络中这两个蛋白质节点相互之间有连接。每个蛋白质节点均为SYMBOL字符串形式，首先需要将其转换成数字形式，也就是使用数字标注出每一个蛋白质节点，同时保持蛋白质互作网络的整体结构不变。

步骤2、将预处理得到的蛋白质互作网络数据集转换成网络对应的邻接矩阵A，蛋白质互作网络转换成对应邻接矩阵A的具体步骤为：

步骤2.1、求出预处理之后网络数据集的最大值n，构建一个n×n的初始矩阵A；

步骤2.2、按行遍历网络数据集，将每一行的两个蛋白质节点数字作为i、j，并且将初始矩阵A[i][j]置1，其余的置0；

步骤2.3、将初始矩阵A的主对角线元素置1；至此，邻接矩阵A构建完毕。

非负矩阵分解算法的具体过程为：非负矩阵分解算法是一种多变量分析方法，其基本思想是对于任意给定的一个非负矩阵A，该算法能够寻找到一个非负矩阵U和一个非负矩阵V,使得满足A≈UV，从而将一个非负的矩阵分解为左右两个非负矩阵的乘积。假设处理m个n维空间的样本数据，用X_n×m表示。该数据矩阵中各个元素都是非负的，表示为X≥0。对矩阵X_n×m进行线性分解，有X_n×m≈B_n×r×C_r×m

其中，B_n×r称为基矩阵，C_r×m为系数矩阵。由于算法实现的简便和有效性，非负矩阵分解已成为模式识别研究领域中特征提取和数据降维的一种新方法，在高维数据处理中有着广泛的应用前景。

步骤3中构建蛋白质复合体检测模型的具体步骤为：

步骤3.2、对非负矩阵分解算法加以改进，根据蛋白质互作网络的全局和局部拓扑结构构建出一种新的蛋白质复合体检测模型(INMF)，其模型的目标函数min J为：

其中，代表求解矩阵的F2范数，A代表蛋白质互作网络对应的邻接矩阵，A∈R^n×n，R表示正实数域，n代表蛋白质网络中的总节点数，Z代表蛋白质间的自表示系数矩阵，Z∈R^n×n，W代表基矩阵，W∈R^n×k，k代表蛋白质互作网络的蛋白质复合体划分种类值，H代表划分矩阵，H∈R^n×k，S代表蛋白质间的Jaccard相似度矩阵，S∈R^n×n，D代表S对应的对角矩阵，L＝D-S，是Jaccard相似度矩阵S对应的拉普拉斯矩阵，矩阵Z≥0,W≥0,H≥0，tr代表求解矩阵的迹，λ是用来平衡全局拓扑特性和局部拓扑特性的参数，T表示矩阵的转置。

步骤3.3、对步骤3.2的目标函数进行求解，具体过程为：

首先对目标函数min J求导，结果为：

再根据KKT条件获得矩阵Z、W、H的乘性迭代公式为：

其中表示两个矩阵之间的点乘。

步骤4、对步骤3形成的模型，使用蛋白质互作网络数据集进行多次训练，并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估，最终得到的模型即为F-score、Acc、MMR指标值相比于传统的非负矩阵分解算法结果较高时所对应的模型。

步骤5、对最终输出的蛋白质复合体进行基因的富集分析，为每个蛋白质复合体标注出其代表的生物功能。其具体步骤为：

本发明提供的蛋白质复合体的检测方法，同时考虑了蛋白质互作网络的全局和局部拓扑特性，相对于传统的方法，该检测方法更加简便和高效，具有良好的表现优势。如表1所示，表1为原始的非负矩阵分解算法在数据集collins上的运行结果，当k值为600的时候，结果最好。

表1.原始的非负矩阵分解算法在数据集collins上的运行结果

表2为本发明提出的模型在数据集collins上的运行结果，当k值为300的时候，结果达到最优。对比来看，本发明提出的方法相对于非负矩阵分解算法具有更好的表现优势。

表2.本发明提出的模型在数据集collins上的运行结果

本发明一种融合全局和局部拓扑结构的蛋白质复合体的检测方法，巧妙地使用蛋白质节点的高阶邻居信息和蛋白质节点的相似度矩阵重新构建网络的特征矩阵，再根据非负矩阵分解算法对特征矩阵进行分解，得到对应的划分矩阵，然后根据划分矩阵得到对应的蛋白质复合体，最后，利用基因的富集分析对每个蛋白质复合体进行功能标注。目前，传统的蛋白质复合体检测方法基本上是利用蛋白质互作网络的全局拓扑结构，只考虑了网络中蛋白质节点的一阶邻居信息，没有考虑到与其蛋白质节点没有直接联系的蛋白质节点信息，也就是蛋白质节点的高阶邻居信息。由于蛋白质互作网络具有稀疏性和噪声数据的局限性，这就导致了传统的蛋白质复合体检测方法准确率较低。本发明提供的方法不仅考虑了蛋白质节点的一节邻居信息，而且考虑了蛋白质节点的高阶邻居信息，能更加准确高效的检测出蛋白质复合体。在生物医学领域，本发明提供的方法不仅能够预测蛋白质复合体的潜在生物功能，而且在疾病致病基因预测以及药物靶点预测等方面具有良好的应用前景。

Claims

1.一种融合全局和局部拓扑结构的蛋白质复合体的检测方法，其特征在于，按照以下步骤实施：

步骤3、依据蛋白质互作网络的拓扑特性对非负矩阵分解算法加以改进，构建一种蛋白质复合体检测模型；具体步骤为：

其中，代表求解矩阵的F2范数，A代表蛋白质互作网络对应的邻接矩阵，A∈R^n×n，R表示正实数域，n代表蛋白质网络中的总节点数，Z代表蛋白质间的自表示系数矩阵，Z∈Rⁿ ^×n，W代表基矩阵，W∈R^n×k，k代表蛋白质互作网络的蛋白质复合体划分种类值，H代表划分矩阵，H∈R^n×k，S代表蛋白质间的Jaccard相似度矩阵，S∈R^n×n，D代表S对应的对角矩阵，L＝D-S，是Jaccard相似度矩阵S对应的拉普拉斯矩阵，矩阵Z≥0,W≥0,H≥0，tr代表求解矩阵的迹，λ是用来平衡全局拓扑特性和局部拓扑特性的参数，T表示矩阵的转置；

首先对目标函数min J求导，结果为：

再根据KKT条件获得矩阵Z、W、H的乘性迭代公式为：

其中，表示两个矩阵之间的点乘；

步骤3.4、根据步骤3.3获得的乘性迭代公式构建新的蛋白质复合体检测模型；

步骤5、对最终输出的蛋白质复合体进行基因的富集分析，从而检测出待测蛋白质复合体所代表的生物功能；

步骤5的具体步骤为：

2.根据权利要求1所述的一种融合全局和局部拓扑结构的蛋白质复合体的检测方法，其特征在于，所述的步骤1中预处理的具体过程为：获取到的蛋白质互作网络数据集每一行有两个蛋白质节点，将每个蛋白质节点的SYMBOL字符串形式均转换成数字形式，同时保持蛋白质互作网络的整体结构不变即可。

3.根据权利要求2所述的一种融合全局和局部拓扑结构的蛋白质复合体的检测方法，其特征在于，所述步骤2的具体步骤为：

4.根据权利要求1所述的一种融合全局和局部拓扑结构的蛋白质复合体的检测方法，其特征在于，所述步骤4的具体过程为：对步骤3形成的模型，使用蛋白质互作网络数据集进行多次训练，并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七个指标值对训练结果进行评估。