CN105590039B

CN105590039B - 一种基于bso优化的蛋白质复合物识别方法

Info

Publication number: CN105590039B
Application number: CN201510097724.7A
Authority: CN
Inventors: 沈显君; 胡小华; 何婷婷; 杨进才
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2015-03-05
Filing date: 2015-03-05
Publication date: 2018-04-24
Anticipated expiration: 2035-03-05
Also published as: CN105590039A

Abstract

本发明提供一种基于BSO优化的蛋白质复合物识别方法。包含有如下步骤：利用BSO算法强大的全局寻优能力，将蛋白质相互作用网络看成全网络连通图，结合蛋白质的基因本体注释功能信息和蛋白质相互作用网络拓扑结构定义蛋白质节点之间的距离，根据改进的k‑means算法进行初步的聚类。然后根据BSO算法的4个寻优原则产生新适应值，对已初步形成的蛋白质模块分别进行模块内和模块外寻优操作，循环迭代，寻找更优的全局解，最后执行后期处理过程。本发明方法能够保持群体在寻优过程中的多样性，从而避免陷入局部最优，获得全局最优模块划分，得到生物富集性显著的蛋白质复合物。

Description

一种基于BSO优化的蛋白质复合物识别方法

技术领域

本发明涉及系统生物学技术领域，具体涉及到一种基于BSO优化的蛋白质复合物识别方法。

背景技术

人类基因组计划的顺利进行标志着后基因组时代的到来。蛋白质是构成一切细胞和组织结构必不可少的成分，是生命活动最重要的物质基础，但是细胞中的每个蛋白质并不是孤立存在的，而是与其他蛋白质一起进行相互作用来行使其功能的。蛋白质相互作用在生命中起核心作用，不仅是正常生理过程如DNA复制、转录、翻译、新陈代谢、信号传导以及细胞周期控制的基础，也在病理过程中起着至关重要的作用。生物体内所有蛋白质相互作用构成蛋白质相互作用网络(Protein-Protein Interaction Network，简称为PPI网络)。从PPI网络中识别蛋白质复合物对识别疾病基因及药物靶点，深入研究人类疾病致病机理具有重要研究价值。

目前，通过从蛋白质相互作用网络(PPI)中准确识别出蛋白质复合物，进而研究疾病致病基因是当前国内外生物医学研究的热点，但由于蛋白质及其相互作用数量非常庞大，而且迄今为止仍有大量蛋白质及其相互作用功能尚未被标注，采用生物实验方法逐一测试分析，耗时长，成本昂贵，不可持续。

发明内容

本发明所要解决的技术问题是针对上述存在的不足，提出一种基于BSO(BrainStorm Optimization)优化的蛋白质复合物识别新方法，快速识别蛋白质复合物。该方法利用BSO算法强大的全局寻优能力，将蛋白质相互作用网络看成全网络连通图，结合蛋白质的基因本体(Gene Ontology，GO)注释功能信息和蛋白质相互作用网络拓扑结构定义蛋白质节点之间的距离，根据改进的k-means算法进行初步的聚类。继而根据BSO算法的4个寻优原则产生新适应值，对已初步形成的蛋白质模块分别进行模块内和模块外寻优操作，循环迭代，寻找更优的全局解。从而得到准确的蛋白质复合物划分，获得富有生物意义的蛋白质复合物。

本发明解决其技术问题所采用的技术方案是：一种基于BSO优化的蛋白质复合物识别方法。

具体步骤如下：

首先进行分组操作，将整个PPI网络看成是全连通网络，结合蛋白质拓扑结构和GO功能注释信息集定义节点间的距离，将所有的蛋白质节点进行聚类，得到初步的蛋白质聚类模块；采用K-means算法在所有节点中选择出k个初始聚类中心，比较其余节点到各个聚类中心的距离，将其归入到最近的聚类中心所在的模块中，得到初始的k个模块。

然后结合蛋白质相互作用网络的拓扑特性，创造蛋白质新个体作为BSO中的个体，对初始聚类结果进行优化；将每个蛋白质复合物看作一个群，每个蛋白质节点看作为一个个体，群中心则是初步聚类模块的聚类中心。通过选择不同于原个体的新个体，继而由新个体产生新的群，计算新群与原个体所在群的适应值，进行比较，若新群的适应值优于原有的群，则用新产生的群替代原有的群。

最后进行后期处理过程，去除在每个蛋白质复合物中与其他蛋白质节点没有相连边的孤立节点，并去除掉所有规模小于3的蛋白质模块，最后经过处理得到的蛋白质模块即为该方法识别的蛋白质复合物。

上述方案中，所述的蛋白质节点进行分组操作的具体步骤为：候选种子的选择、初始聚类中心选择策略、形成最优聚类模块。

1)候选种子的选择

将PPI网络抽象为由多个蛋白质节点和节点间相互作用所形成的网络连通图，每个蛋白质复合物都是从一个既定的节点开始，经过聚类操作得到一个模块；

定义1直接邻居集合：对于网络G中的每个节点i，其直接邻居集合为：

Neigh(i)＝{j∈V|(i,j)∈E}

定义2节点的聚类系数：对于一个节点i，令n_i表示节点i的Neigh(i)个邻居中具有相互连接的个数，则节点i的聚类系数为：

一个节点的聚类系数是直接邻居节点间所拥有的边数和Neigh(i)个节点间可能构成的最大边数的比值，节点i的聚类系数反映的是该节点的局部密度；

候选种子节点的选择方式即为：首先计算每个节点聚类系数，然后比较每个节点的聚类系数与已经设定的阈值ω，将聚类系数值大于阈值的节点加入到候选种子节点集合seed中。

2)初始聚类中心选择策略

具体方法为：假设在候选种子节点集合seed中有s个节点，计算这s个节点间的两两距离，从中选出距离最远的2个节点z₁和z₂；计算集合seed中各数据对象x_i到z₁和z₂的距离d(x_i,z₁),d(x_i,z₂)，z₃为满足max(min(d(x_i,z₁),d(x_i,z₂)))i＝1,2,···,s的数据对象x_i；z_m为满足max(min(d(x_i,z₁),d(x_i,z₂),···,d(x_i,z_m-1)))i＝1,2,···,s的数据对象x_i，x_i∈seed。依次得到k个初始聚类中心(k<s)。

3)形成最优聚类模块

根据以上定义计算的各个蛋白质间的距离，比较剩余蛋白质节点到k个初始聚类中心的距离，将其归入到最近的聚类中心所在的模块中，得到初始的k个模块。

在上述方案中，所述的创造蛋白质新个体的步骤中，若群体m的模块紧密度大于或等于平均模块紧密度，进行群内更新：

a.找到该群中某个个体o的直接和间接一级邻居节点集合S(保证集合S中的点均不在该群中)，在集合S中随机选择一个节点作为selected；

b.找到模块内除去个体o后其他节点的直接和一级间接邻居节点集合S'(保证集合S'中的节点都不在该群中)，在集合S'中随机选择一个节点作为selected；

根据随机产生的概率选择a或是b，用selected代替原有的个体o，产生新的群，计算新产生的群的模块紧密度，与原有的群进行比较，选出最优。

在上述方案中，所述的创造新蛋白质模块的步骤中，若群体m的模块紧密度小于平均模块紧密度，进行群之间更新：

a.找到该群聚类中心center不在该群内的直接和一级间接邻居节点集合t_center，在集合t_center中随机选择一个节点作为selected；

b.找到群内除去群中心后剩余节点的直接和一级间接邻居节点集合t'，t'中的节点都不在该群内，在集合t'中随机选择一个节点作为selected。

根据随机产生的概率选择a或是b，找到selected所在的群体w，考虑群体m，群体w的规模对这2个群进行合并成1个群体或是拆分重新组成新的2个群体，分别计算新产生的群与原有的群的模块紧密度，比较决定是否用新产生的群替换原有的群。

在上述方案中，所述的模块紧密度的定义为：

其中，E_i表示第i个群体中包含的边数，分子即表示群中任意节点实际组成的三角形与最多可组成的三角形之比，反映的是两个节点间边的紧密程度。

在上述方案中，所述的平均模块紧密度的定义为：

其中，D_sum表示为总的聚类个数，此标准是用来衡量每次迭代过程中聚类的总体效果，最后输出最优的结果。达到迭代的次数后，即可得到最优的蛋白质复合物。

本发明的有益效果在于：

本发明方法将蛋白质的GO注释功能信息和其拓扑结构结合定义了蛋白质之间的边权重，结合BSO算法强大的全局寻优能力，通过引入“随机噪声”，改进其个体创造过程，对已初步形成的蛋白质模块分别进行模块内和模块外寻优操作，避免了算法陷入局部最优，得到最优模块划分，获得生物富集性显著的蛋白质复合物。

附图说明

图1是本发明实施例分组操作的流程图；

图2是本发明实施例创造新蛋白质模块的流程图；

具体实施方式

下面结合具体实施方式，对本发明作进一步的说明：

如图1所示基于BSO优化的蛋白质复合物识别方法的第一个步骤，采用k-means算法的思想，在所有节点中选择出k个初始聚类中心，比较其余节点到各个聚类中心的距离，将其归入到最近的聚类中心所在的模块中。其具体实现步骤包括：

(1)候选种子的选择

将PPI网络抽象为由多个蛋白质节点和节点间的相互作用所形成的网络连通图G＝(V，E)，V为蛋白质节点的集合，E为蛋白质节点间交互的边的集合。每个蛋白质复合物都是从一个既定的节点开始，经过聚类操作得到一个模块。为了方便阐述，给出直接邻居集合和节点的聚类系数的定义如下：

Neigh(i)＝{j∈V|(i,j)∈E}

定义2节点的聚类系数：对于一个节点i，令n_i表示节点i的|Neigh(i)|个邻居中具有相互连接的个数，则节点i的聚类系数为：

一个节点的聚类系数是直接邻居节点间所拥有的边数和|Neigh(i)|个节点间可能构成的最大边数的比值，所以，节点i的聚类系数反映的是该节点的局部密度。

鉴于以上定义，候选种子节点的选择方式即为：首先计算每个节点聚类系数，然后比较每个节点的聚类系数与已经设定的阈值ω，将聚类系数值大于阈值的节点加入到候选种子节点集合seed中。

(2)初始聚类中心选择

鉴于k-means算法对初始聚类节点的敏感性，对已选择出的候选种子节点继续优化，挑选出更优的节点作为初始聚类中心。挑选的准则是基于蛋白质之间的距离，所以首先对节点间距离进行了定义。

将蛋白质网络的拓扑结构与GO功能注释信息结合，定义了节点间距离计算公式：

其中，前一部分表示蛋白质拓扑结构距离，借用了典型的Czekanowski-Dice的距离定义方法，IS(i)是PPI网络中与节点i实际有边相连的节点以及其本身的集合，Δ表示2个集合的对称差运算，∪和∩分别表示两个集合的并运算和交运算。即当2个蛋白质节点间不存在公共的邻居节点时，它们的距离取得最大值1，否则，当公共邻居节点集合完全相同时其距离取得最小值。即可反映公共邻居节点所占比例越大，这2个蛋白质节点的拓扑距离越小，功能越趋于相同。

后一部分表示为功能相似性距离。f(i)和f(j)分别为蛋白质i和蛋白质j功能注释集的条目集合。通过Uniprot蛋白质数据库(http://www.uniprot.org/)得到完整的功能注释集集合，经过处理后得到我们所需要的GO功能注释集条目。经典实验表明：功能越相似反映其功能相似性距离越小。由于当前PPI网络中包含较多的噪声数据，根据网络拓扑信息得到的距离有一定的局限性，不能仅凭其拓扑结构就断定蛋白质间的相似性，其结果可能造成检测到的复合物精度不高。融合功能注释集在一定程度上可以改善此种情况，特别是当2个蛋白质节点结构相似时，可以根据功能注释集的不同近一步进行区别。

初始聚类中心选择的实现过程即为：假设在候选种子节点集合seed中有s个节点，计算这s个节点间的距离，从中选出距离最远的2个节点z₁和z₂；计算集合seed中各数据对象x_i到z₁和z₂的距离d(x_i,z₁),d(x_i,z₂)，z₃为满足max(min(d(x_i,z₁),d(x_i,z₂)))i＝1,2,···,s的数据对象x_i；z_m为满足max(min(d(x_i,z₁),d(x_i,z₂),···,d(x_i,z_m-1)))i＝1,2,···,s的数据对象x_i，x_i∈seed。依次得到k个初始聚类中心(k<s)。

(3)形成最优聚类模块

步骤二如图2所示，在BSO算法中，创造操作时选择一个群体或两个群体中个体，通过添加“随机噪音”，创造新的个体，将新个体与旧个体分别计算得到的适应值进行比较，选择较优的结果。在本方法中，将每个蛋白质复合物看作一个群，每个蛋白质节点看作为一个个体，群中心则是初步聚类模块的聚类中心。通过选择不同于原个体的新个体，通过新个体产生新的群，计算新群与原个体所在的群的自适应值，进行比较，若新群的适应值优于原有的群，则用新产生的群替代原有的群。

创造新蛋白质模块的策略分为2种情况，具体过程如下：

若群体m的模块紧密度大于或等于平均模块紧密度，进行群内更新：

a.找到该群中某个个体i的直接和间接一级邻居节点集合S(保证集合S中的点均不在该群中)，在集合S中随机选择一个节点作为selected；

b.找到模块内除去节点i后其他节点的直接和一级间接邻居节点集合S'(保证集合S'中的节点都不在该群中)，在集合S'中随机选择一个节点作为selected。

根据产生的概率选择a或是b，用selected代替原有的个体i，产生新的群，与原有的群进行比较。

若群体m的模块紧密度小于平均模块紧密度，进行群之间更新：

a.找到该群聚类中心center不在该群内的直接和一级间接邻居节点集合tcenter，在集合tcenter中随机选择一个节点作为selected；

根据产生的概率选择a或是b，找到selected所在的群体j，考虑群体m，群体j的规模对这2个群进行合并成1个群体或是拆分重新组成新的2个群体。将新产生的群与原有的群比较。

这种选择策略遵循了头脑风暴的4个优化原则，将自身所包含的信息共享给了其他群体中的节点，保证了其多样性。

在分组过程中，只关注了各个节点与群中心的距离远近关系，并没有考虑到群中各个节点之间的关系，所以在创造新蛋白质模块的过程中定义了模块紧密度，将其作为适应值，判断新群与原群的优劣关系，用更优的群替代原有的群。

模块紧密度的定义为：

其中，E_i表示群体i中包含的边数，分子即表示群中任意节点实际组成的三角形与最多可组成的三角形之比，反映的是两个节点间边的紧密程度。

平均模块紧密度的定义为：

其中，D_sum表示为总的聚类个数。此标准是用来衡量每次迭代过程中聚类的总体效果，最后输出最优的结果。达到迭代的次数后，即可得到最优的蛋白质复合物。

步骤三为后期处理过程。由于在前面的过程中将整个蛋白质互作用网络看成是全连通图，最后的聚类结果中可能存在一些实际中不存在的边，所以我们的工作就是去除在每个蛋白质模块中与其他蛋白质节点没有相连边的孤立节点。另外，由于规模小于3的蛋白质模块意义不大，所以要去除掉所有规模小于3的蛋白质模块，最后得到的所有模块即为该算法识别的最优蛋白质复合物。

以上说明仅为本发明的应用实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明申请专利范围所作的等效变化，仍属本发明的保护范围。

Claims

1.一种基于BSO优化的蛋白质复合物识别方法，其特征在于，包含有如下步骤：

首先进行分组操作，将整个PPI网络看成是全连通网络，结合蛋白质拓扑距离和GO功能注释信息集定义节点间的距离，将所有的蛋白质节点进行聚类，得到初步的蛋白质聚类模块；借鉴K-means算法的思想：在所有节点中选择出k个初始聚类中心，比较其余节点到各个聚类中心的距离，将其归入到最近的聚类中心所在的模块中，得到初始的k个模块；

然后创造新蛋白质模块，结合蛋白质相互作用网络的拓扑特性，改进BSO算法创造新个体的过程，对初始聚类结果进行优化；将每个蛋白质模块看作一个群，每个蛋白质节点看作为一个个体，群中心则是初步聚类模块的聚类中心；通过选择不同于原个体的新个体，通过新个体产生新的群，计算新群与原个体所在群的适应值，进行比较，若新群的适应值优于原有的群，则用新产生的群替代原有的群；

最后进行后期处理过程，去除在每个蛋白质复合物中与其他蛋白质节点没有相连边的孤立节点，并去除掉所有规模小于3的蛋白质模块，最后经过处理得到的蛋白质模块即为该方法识别的最优蛋白质复合物。

2.如权利要求1所述的基于BSO优化的蛋白质复合物识别方法，其特征在于，所述的蛋白质节点进行聚类的具体步骤为：候选种子的选择、初始聚类中心选择策略、形成最优聚类模块。

3.如权利要求2所述的基于BSO优化的蛋白质复合物识别方法，其特征在于，所述的候选种子的选择，是将PPI网络抽象为由蛋白质节点和节点间的交互作用所形成的网络图，每个蛋白质复合物都是从一个既定的节点开始，经过聚类操作得到一个模块；

Neigh(i)＝{j∈V|(i,j)∈E}

<mrow> <msub> <mi>NCC</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <mo>&times;</mo> <msub> <mi>n</mi> <mi>i</mi> </msub> </mrow> <mrow> <mo>|</mo> <mi>N</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>&times;</mo> <mrow> <mo>(</mo> <mo>|</mo> <mi>N</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mfrac> </mrow>

候选种子节点的选择方式为：首先计算每个节点聚类系数，然后比较每个节点的聚类系数与已经设定的阈值ω，将聚类系数值大于阈值的节点加入到候选种子节点集合seed中。

4.如权利要求2所述的基于BSO优化的蛋白质复合物识别方法，其特征在于，所述的初始聚类中心选择策略，具体方法为：假设在候选种子节点集合seed中有s个节点，计算这s个节点间的两两距离，从中选出距离最远的2个节点z₁和z₂；计算集合seed中各数据对象x_i到z₁和z₂的距离d(x_i,z₁),d(x_i,z₂)，z₃为满足max(min(d(x_i,z₁),d(x_i,z₂)))i＝1,2,···,s的数据对象x_i；z_m为满足max(min(d(x_i,z₁),d(x_i,z₂),···,d(x_i,z_m-1)))i＝1,2,···,s的数据对象x_i，x_i∈seed，依次得到k个初始聚类中心且k<s。

5.如权利要求1所述的基于BSO优化的蛋白质复合物识别方法，其特征在于，所述的创造新蛋白质模块的步骤中，若群体m的模块紧密度大于或等于平均模块紧密度，进行群内更新：

a.找到该群中某个个体o的直接和间接一级邻居节点集合S，集合S中的点均不在该群中，在集合S中随机选择一个节点作为selected；

b.找到模块内除去个体o后其他节点的直接和一级间接邻居节点集合S'，S'中的节点都不在该群中，在集合S'中随机选择一个节点作为selected；

根据产生的概率选择a或是b，用selected代替原有的个体o，产生新的群，计算新产生的群的模块紧密度，与原有的群进行比较，选出最优。

6.如权利要求1所述的基于BSO优化的蛋白质复合物识别方法，其特征在于，所述的创造新蛋白质模块的步骤中，若群体m的模块紧密度小于平均模块紧密度，进行群之间更新：

b.找到群内除去群中心后剩余节点的直接和一级间接邻居节点集合t'，t'中的节点都不在该群内，在集合t'中随机选择一个节点作为selected；

根据产生的概率选择a或是b，找到selected所在的群体w，考虑群体m和群体w的规模对这2个群进行选择合并成1个群体或是拆分重新组成新的2个群体，分别计算新产生的群与原有的群的模块紧密度，比较决定是否用新产生的群替换原有的群。

7.如权利要求5或6所述的基于BSO优化的蛋白质复合物识别方法，其特征在于，所述的模块紧密度的定义为：

<mrow> <msub> <mi>ECCM</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>&Element;</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <mo><</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>></mo> <mo>&Element;</mo> <mi>E</mi> </mrow> </msub> <mfrac> <mrow> <mo>|</mo> <mi>N</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>N</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>{</mo> <mo>|</mo> <mi>N</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>-</mo> <mn>1</mn> <mo>|</mo> <mo>,</mo> <mo>|</mo> <mi>N</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>-</mo> <mn>1</mn> <mo>|</mo> <mo>}</mo> </mrow> </mfrac> </mrow> <msub> <mi>E</mi> <mi>i</mi> </msub> </mfrac> </mrow>

其中，E_i表示第i个群体中包含的边数，分子表示群中任意节点实际组成的三角形与最多可组成的三角形之比，反映的是两个节点间边的紧密程度。

8.如权利要求5或6所述的基于BSO优化的蛋白质复合物识别方法，其特征在于，所述的平均模块紧密度的定义为：

<mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> <mo>_</mo> <mi>E</mi> <mi>C</mi> <mi>C</mi> <mi>M</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>D</mi> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </msub> </msubsup> <msub> <mi>ECCM</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>D</mi> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </msub> </mfrac> </mrow>

其中，D_sum表示为总的聚类个数，avg_ECCM是用来衡量每次迭代过程中聚类的总体效果，最后输出聚类结果为算法全局最优解；达到迭代的最大次数或满足停机条件后，最终得到的聚类结果即为最优蛋白质复合物。