CN113470738A

CN113470738A - 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统

Info

Publication number: CN113470738A
Application number: CN202110752082.5A
Authority: CN
Inventors: 胡伦; 潘翔宇; 周喜; 蒋同海; 苏小芮
Original assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Current assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date: 2021-07-03
Filing date: 2021-07-03
Publication date: 2021-10-01
Anticipated expiration: 2041-07-03
Also published as: CN113470738B

Abstract

本发明提出了一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统，包括网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块，通过综合考量蛋白质相互作用网络中蛋白质间的相互作用关系和蛋白质间的基因本体语义相似性来实现蛋白质复合物识别。本发明直接作用于蛋白质相互作用网络，能够识别网络中的可重叠蛋白质复合物，效果准确度高，能够有效解决蛋白质相互作用网络中的蛋白质复合物识别问题。

Description

基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统

技术领域

本发明涉及计算机数据处理技术领域和计算生物学领域，特别涉及基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统。

背景技术

目前，现有的蛋白质复合物识别方法主要是基于蛋白质相互作用网络中的拓扑结构来完成复合物识别工作，即根据网络中蛋白质之间是否存在相互作用，来识别出具有某些特定结构的簇作为蛋白质复合物。描述蛋白质复合物拓扑特性的典型结构包括稠密结构、 k-cliques结构和核心附着结构。然而，仅基于特定拓扑结构的蛋白质复合物识别方法忽视了蛋白质相互作用网络中与蛋白质相关联的大量的基因本体语义信息，这些信息从三个方面描述了蛋白质的功能，即分子功能、细胞组分和生物过程。对基因本体信息的忽视会使得更具有生物学意义的蛋白质复合物无法被发现。此外，一些已知的蛋白质复合物是彼此重叠的，如果不能考虑蛋白质复合物间的重叠性，则所识别出的蛋白质复合物在准确性方面可能会有所不足。

尽管目前已经提出了一些考虑蛋白质语义信息的蛋白质复合物识别方法，但它们均未考虑基因本体语义信息中所固有的完整有向无环图关系，因此所识别的蛋白质复合物在准确性上表现欠佳。

发明内容

本发明的目的在于，针对现有技术中的缺陷和不足，提供一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统，包括网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块，通过综合考量蛋白质相互作用网络中蛋白质间的相互作用关系和蛋白质间的基因本体语义相似性来实现蛋白质复合物识别。本发明直接作用于蛋白质相互作用网络，能够识别网络中的可重叠蛋白质复合物，效果准确度高，能够有效解决蛋白质相互作用网络中的蛋白质复合物识别问题。

本发明所述的基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法，按下列步骤进行：

a、对蛋白质相互作用数据和蛋白质基因本体语义信息构建成带有属性的蛋白质相互作用网络，其中包括：将蛋白质抽象为网络中的节点，蛋白质间若存在相互作用，则相应节点间存在边，并在此基础上统计与蛋白质相关基因本体信息，获得包括所有节点构成的集合、节点之间边构成的集合以及与节点相关联的所有基因本体信息的集合；

b、根据步骤a所构建网络的拓扑信息，计算并获得网络所对应的邻接矩阵；

c、应用一种集成的基因本体语义相似性度量方法来计算蛋白质间的基因本体语义相似性，构建出蛋白质的语义相似性矩阵；

d、初始化蛋白质复合物数量，初始化蛋白质复合物集合，并随机初始化蛋白质与复合物之间的隶属度矩阵；

e、初始化模型参数和蛋白质复合物重叠程度参数，基于步骤b所得节点的邻接矩阵、步骤c所得语义相似性矩阵和步骤d所得隶属度矩阵，构建关于隶属度矩阵的目标函数；

f、求解步骤e所得目标函数的最优解，即最佳的隶属度矩阵；

g、根据步骤f所得最佳的隶属度矩阵，结合步骤e所得蛋白质复合物重叠程度参数，将每个蛋白质划分到某个或某几个蛋白质复合物中，最后剔除空的蛋白质复合物，余下的复合物即为识别出的蛋白质复合物。

一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别系统，该系统是由网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块和结果展示模块组成，其中：

网络构建模块：将包含了蛋白质相互作用信息和蛋白质基因本体语义信息构建成为一个带属性的蛋白质相互作用网络；

数据预处理模块：根据结果展示模块中得到的网络进行数据预处理，获得蛋白质的邻接矩阵和蛋白质的语义相似性矩阵；

参数定义模块：定义并初始化模型参数，初始化蛋白质复合物重叠程度参数，初始化蛋白质复合物数量，初始化蛋白质对于复合物的隶属度矩阵；

模型构建模块：根据模型参数和数据预处理模块得到的邻接矩阵、语义相似性矩阵和参数定义模块所得隶属度矩阵，构建关于隶属度矩阵的目标函数；

模型求解模块：对模型构建模块中所得目标函数进行求解，获得最佳的隶属度矩阵；

蛋白质复合物识别模块：根据模型求解模块所得的最佳的隶属度矩阵和参数定义模块初始化的蛋白质复合物重叠程度参数，进行蛋白质复合物识别；

结果展示模块：将蛋白质复合物识别模块识别出的蛋白质复合物进行输出。

本发明所述的一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统，包括网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块，其中，所述网络构建模块将蛋白质相互作用数据构建为蛋白质相互作用网络，数据预处理模块执行服务器计算指令，获得该网络的邻接矩阵和语义相似性矩阵，参数定义模块定义模型参数和蛋白质复合物重叠程度参数，构建并初始化隶属度矩阵，模型构建模块获取模型参数后在服务器构建关于隶属度矩阵的目标函数，模型求解模块在得到模型构建模块构建完成的指令后开始对目标函数进行迭代求解，计算获得最优的隶属度矩阵，蛋白质复合物识别模块在得到最优的隶属度矩阵后执行蛋白质复合物识别指令，最后将识别结果通过结果展示模块进行输出展示。本发明直接作用于蛋白质相互作用网络，能够识别网络中的可重叠蛋白质复合物，效果准确度高，能够有效解决蛋白质相互作用网络中的蛋白质复合物识别问题。

与现有技术相比，本发明具有以下有益的技术效果：

本发明所述的一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统，在算法设计过程中，考虑了网络的拓扑结构和蛋白质的基因本体语义信息来完成复合物识别任务，通过构建模糊聚类模型，将复合物识别问题转化为最优化问题来提高蛋白质复合物识别的准确性。以解决现有技术在蛋白质相互作用网络中识别复合物时的缺陷：

本发明所述的一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统，该系统功能主要由以下七个部分组成：网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块。首先，网络构建模块将蛋白质相互作用数据和蛋白质基因本体语义信息构建成为一个带属性的蛋白质相互作用网络。其次，数据预处理模块对得到的属性网络进行预处理，获得邻接矩阵和语义相似性矩阵。随后参数定义模块定义要识别的蛋白质复合物数量和隶属度矩阵，并初始化模型参数和蛋白质复合物重叠程度参数。然后，模型构建模块构建成一个关于隶属度矩阵的目标函数。接着，模型求解模块利用广义动量法和不动点迭代法对目标函数进行求解，获得最优的隶属度矩阵。最后，蛋白质复合物识别模块根据最优的隶属度矩阵和蛋白质复合物重叠程度参数，将蛋白质划分到某个或某几个蛋白质复合物中，再剔除空的蛋白质复合物，以此来实现蛋白质复合物识别目的。结果展示模块则展示了蛋白质复合物识别的结果。

附图说明

图1为本发明的逻辑结构图；

图2为本发明系统目标函数示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清晰明白，以下参照附图并举实施例，对本发明作进一步详细说明。

实施例

d、定义初始化的蛋白质复合物数量，初始化蛋白质复合物集合，并随机初始化蛋白质与复合物之间的隶属度矩阵；

结果展示模块：将蛋白质复合物识别模块识别出的蛋白质复合物进行输出；

如图1所示：系统功能主要由以下七个部分组成：网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块以及结果展示模块；

适用于基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法，包括以下步骤：

步骤一，预处理蛋白质相互作用数据和蛋白质基因本体语义信息，具体地，将蛋白质相互作用数据中的蛋白质抽象为蛋白质相互作用网络中节点，将蛋白质之间的相互作用抽象为网络中的边，统计蛋白质所包含的基因本体语义信息，整理获得所有节点构成的集合、所有边构成的集合、与节点相关联的所有基因本体语义信息的集合；

步骤二，根据步骤一构建的带属性的蛋白质相互作用网络，通过计算其拓扑结构信息获得网络所对应的邻接矩阵D；

步骤三，根据步骤一所得所有节点构成的集合和所有基因本体语义信息的集合，应用一种集成的基因本体语义相似性度方法来计算蛋白质间的基因本体语义相似性，构建蛋白质语义相似性矩阵S；

步骤四，定义并初始化的蛋白质复合物数量，初始化蛋白质复合物集合，并根据复合物初始化数量和步骤一所得的所有节点，定义蛋白质对于复合物的隶属度矩阵U，并随机初始化；

步骤五，初始化模型参数和蛋白质复合物重叠程度参数，基于步骤二所得邻接矩阵D、步骤三所得语义相似性矩阵S和步骤四所得隶属度矩阵U，构建关于隶属度矩阵的目标函数；

步骤六，求得步骤五所得目标函数的最优解，即最佳的隶属度矩阵U；

步骤七，根据步骤六所得最佳的隶属度矩阵，结合步骤五所得蛋白质复合物重叠程度参数，将每个蛋白质划分到某个或某几个蛋白质复合物中，最后剔除空的蛋白质复合物，获得最终所识别出的蛋白质复合物；

其中，系统所述的目标函数如图2所示，这里的，矩阵D和矩阵S分别为步骤三中所述的邻接矩阵和语义相似性矩阵，矩阵U为步骤四中所述的隶属度矩阵；矩阵Z中的元素

α,β,θ,

为步骤五中初始化的模型参数；该目标函数可以使得所识别的蛋白质复合物满足如下条件：

1)复合物内部的蛋白质间相互作用更加密集；

2)复合物内部的蛋白质语义密切相关；

下面对各个模块进行具体的介绍：

网络构建模块：

构建带属性的蛋白质相互作用网络，将蛋白质相互作用数据中的蛋白质抽象为网络中节点，将蛋白质之间的相互作用抽象为网络中的边，蛋白质所包含的基因本体语义信息作为网络中节点的属性；

存储网络信息，整理网络所有节点构成的集合V＝{v_i}(1≤i≤n_V)、所有边构成的集合 E＝{e_ij}、与节点相关联的基因语义信息集合Λ＝{Λ_m}{1≤m≤n_Λ}并进行存储，因为基因语义信息包括分子功能、细胞组分、生物过程三个类别，所以此处n_Λ＝3；

数据预处理模块：

获得邻接矩阵D，根据网络构建模块中的得到的节点集合和属性网络构建邻接矩阵D；其中如果两个节点i和j之间存在边e_ij，则d_ij＝1；否则d_ij＝0；

获得语义相似性矩阵；

具体的语义相似性矩阵S计算方法如下：

2-1假设t_mp和t_mq分别是基因本体语义信息集合Λ_m的第p和第q个基因本体术语，则可以通过集成的基因语义相似性度量方法计算，从而得到两个基因本体术语的语义相似度ISM(t_mp,t_mq)，接下来通过下列公式计算得到蛋白质在某个语义类别(m)上的语义相似性，

其中，若蛋白质v_i在m类别中包含第p个术语，则

同样，若蛋白质v_j在m类别中包含第q个术语，则

2-2通过将每个类别上的语义相似性相加，得到蛋白质间的语义相似性：

2-3根据蛋白质间的语义相似性获得语义相似性矩阵S，其中s_ij＝SEM(v_i,v_j)(i≠j)；

参数定义模块：

定义要识别的蛋白质复合物数量K；

定义隶属度矩阵U，并随机初始化，其中行数为节点数量n_V，列数为所定义的蛋白质复合物数量K，隶属度矩阵U中的元素u_ik表示蛋白质i对于复合物k的隶属程度；

定义模型参数

定义蛋白质复合物重叠程度参数

初始化K个为空的蛋白质复合物；

模型构建模块：

根据模型参数

数据预处理模块得到的邻接矩阵D、语义相似度矩阵S和参数定义模块得到的隶属度矩阵U，构建如图2所示的目标函数；

模型求解模块：

引入拉格朗日乘子λ、Ω来消除目标函数中的等式约束和不等式约束,其拉格朗日公式为：

通过下列Karush-Kuhn-Tucker最优化条件：

得到隶属度矩阵U的更新公式：

将广义动量法的更新公式应用到图2目标函数中得到：

从参数定义模块中随机初始化的隶属度矩阵U开始，每次迭代按公式(1-7)、(1-8)、(1-6)、(1-5)的顺序更新，得到隶属度矩阵U'^(l+1),随后将隶属度矩阵U'^(l+1)代入公式(1-9) 得到隶属度矩阵U^(l+1)；整个迭代过程将在图2中的目标函数收敛时停止，此时的隶属度矩阵U即为图2所示目标函数的最优解；

蛋白质复合物识别模块：

在本发明方法中，根据参数定义模块中的蛋白质复合物重叠程度参数

对每一个蛋白质，将其划分到其隶属度最大的

个蛋白质复合物中；具体地，将隶属度矩阵U表示为向量形式

其中的行向量u_i表示节点i对于所有K个蛋白质复合物的隶属程度分布；

本模块通过遍历隶属度矩阵U的所有行，在每行u_i中找出其元素值最大的

个蛋白质复合物，并将蛋白质v_i划分到这些蛋白质复合物中，直到所有的蛋白质都划分完毕；随后，若存在没有包含任何蛋白质的空复合物，则将其剔除。最后，将剩余蛋白质复合物存储以供结果展示模块使用；

结果展示模块：

根据蛋白质复合物识别模块得到的结果，本模块将每个蛋白质复合物作为一行，其中蛋白质作为行中的元素，将所有复合物处理为文本文件进行输出展示。

以上显示和描述了本发明的基本原理和主要特征以及本发明的特点。本发明不受上述实验特例的限制，上述实验特例和说明书中描述的只是说明本发明的原理，在不脱离本发明原理的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法，其特征在于按下列步骤进行：

a、对蛋白质相互作用数据和蛋白质基因本体语义信息构建成带有属性的蛋白质相互作用网络，其中包括：将蛋白质抽象为网络中的节点，蛋白质间若存在相互作用，则相应节点间存在边，并在此基础上统计与蛋白质相关的基因本体信息，获得包括所有节点构成的集合、节点之间边构成的集合以及与节点相关联的所有基因本体信息的集合；

c、应用一种集成的基因本体语义相似性度量方法，计算蛋白质间的基因本体语义相似性，构建蛋白质的语义相似性矩阵；

2.一种基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别系统，其特征在于该系统是由网络构建模块、数据预处理模块、参数定义模块、模型构建模块、模型求解模块、蛋白质复合物识别模块和结果展示模块组成，其中：