CN111916148A

CN111916148A - 蛋白质相互作用的预测方法

Info

Publication number: CN111916148A
Application number: CN202010809822.XA
Authority: CN
Inventors: 陆慧娟; 武红立
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-11-10
Anticipated expiration: 2040-08-13
Also published as: CN111916148B

Abstract

本发明公开了一种蛋白质相互作用的预测方法，包括如下步骤：获取蛋白质相互作用的数据集，针对蛋白质数据的特点，对蛋白质氨基酸序列、结构、功能及相互作用进行多特征融合与特征抽取；利用Bagging算法通过Bag of Little Bootstraps技术和分治策略来生成多个基分类器的蛋白质相互作用预测模型；利用群智能优化算法或群智能混合算法来优化分类模型的参数，以优化训练集，将所形成的训练集输入蛋白质相互作用预测模型进行训练，以完成蛋白质相互作用预测模型的训练；将待预测未知蛋白质输入已完成训练的蛋白质相互作用预测模型，所述蛋白质相互作用预测模型输出蛋白质相互作用的数据。本发明预测性能和效率高。

Description

蛋白质相互作用的预测方法

技术领域

本发明属于生物信息技术领域，具体涉及一种蛋白质相互作用的预测方法。

背景技术

近年，随着蛋白质相互作用(Protein-protein interaction,PPI)数据迅猛增长，蛋白质相互作用数据库也是爆炸式的海量剧增，成为蛋白质相互作用预测、网络构建以及生物学通路分析的主要资源，更是研究蛋白质功能的有效平台和辅助手段。因此，如何深入分析、充分运用PPI数据，以及如何高效地存储和管理PPI数据，已成为生物信息学的一个重要课题。PPI海量数据可以通过高通量实验和计算方法获取。目前在著名的PPIs数据库(Database of Interacting Proteins，DIP)中，对过去的十年间PPIs的数量增长了8倍多，而且这些数据还在海量增长。

由于利用高通量实验方法所需周期长、人力、物力消耗多，实验本身也存在其固有的困难，已远远不能满足蛋白质测序技术的飞速发展，而且获取的PPI数据还不够完善，数据量大且复杂，同时还存在很高的假阳性(false positive)和假阴性(false negative)。于是利用机器学习方法和生物信息学的手段预测蛋白质相互作用，作为生物实验方法的一种补充，具有成本低、速度快的优势，它综合了数学、统计学、信息学、化学等学科的理论和方法，基于生物学的背景知识、假设和模型，故利用计算生物学方法来预测PPI已成为了解未知性质蛋白质的重要手段。机器学习方法作为高通量方法的重要补充，可以加快重建相互作用组，一系列分类器被应用，如：决策树、随机森林、神经网络、支持向量机、极限学习机等，它们通过学习已知PPI信息与其他一些间接信息(基因本体注释、基因表达相关、序列的同源性)等，预测未知的PPI。

目前已经涌现出了很多蛋白相互作用预测方法，但他们各自的适用范围和优缺点不同。根据所使用的特征不同，归纳起来大致分为三种类型：基于结构学的PPI预测、基于遗传学的PPI预测以及基于结构学和遗传学的PPI融合预测方法。

上述方法中，目前仍存在亟待解决的难题，制约着蛋白质相互作用预测的发展：(1)蛋白质进化信息表示和特征提取；(2)蛋白质相互作用样本数据的不均衡性影响其预测性能；(3)如何有效地选择和设计蛋白质相互作用预测/分类器；(4)已有预测模型不能很好地满足蛋白质相互作用海量数据的需求。

发明内容

有鉴于此，为了解决上述现有技术问题，本发明提出了一种解决了样本数据的不均衡性并形成选择性的集成分类器的蛋白质相互作用的预测方法，预测准确度高。

本发明的技术解决方案是，提供了一种蛋白质相互作用的预测方法，包括以下步骤：

1)获取蛋白质相互作用的数据集，针对蛋白质数据的特点，对蛋白质氨基酸序列、结构、功能及相互作用进行多特征融合与特征抽取；

2)利用Bagging算法通过Bag of Little Bootstraps技术和分治策略来生成多个基分类器的蛋白质相互作用预测模型；

3)对多特征融合与特征抽取后的数据集进行主动学习采样，将主动学习中的采样策略转换为不确定条件下学习系统在模型增益与付出代价之间的决策问题，提出噪声-代价主动学习模型；利用批量选择样例的训练集构造方法，即通过选择和标记未知分布的一组样例组成的子集来控制输入的训练分布，从而生成训练集；

4)利用群智能优化算法或群智能混合算法来优化分类模型的参数，以优化训练集，将所形成的训练集输入蛋白质相互作用预测模型进行训练，以完成蛋白质相互作用预测模型的训练；

5)将待预测未知蛋白质的输入步骤3)已完成训练的蛋白质相互作用预测模型，得到蛋白质相互作用的数据。

可选的，步骤3)中所述的噪声-代价主动学习模型为：

其中，

表示学习系统的训练样例集，包含n个样例及对应标记信息；

表示从无标记样例集U中选择并标记s个样例组成的所选样例集S，E_L∪U[f(x|w)]表示把所选的s个样例加入训练集L后，参数为w的蛋白质相互作用预测模型在集合L∪S上的期望增益，C_s表示从无标记集U中选择s个样例所需要的时间代价，α为控制系数；在采样代价最小的条件，选择一组样例，标记并加入训练集，使蛋白质相互作用预测模型在更新后的训练集上期望增益最大。

可选的，将所述训练集分成多个子训练集，每个子训练集与所述多个基分类器一一对应，对所述多个基分类器进行组合和集成，通过步骤4)中群智能优化算法或群智能混合算法选择性集成输出至集成分类器，由所述集成分类器输出预测结果。

可选的，所述蛋白质相互作用预测模型还包括增量样本学习模块，所述增量样本学习模块接收增量样本，经单次增量样本集学习的基分类器学习后再通过群智能优化算法或群智能混合算法选择性集成输出至所述集成分类器。

可选的，所述的多个基分类器具有满足相异性的条件，采用输出不一致测度来度量分类器间的相异性，分类器f_m和f_n相异性测度Diversity_m,n，

其中，Dif(f_mk,f_nk)表示两个分类器对第k个样本输出的差异，当其值为0时，表示两个分类器对第k个样本的输出相同；当其值为1时，表示两个分类器对第k个样本的输出不同；由此可以得到一个输出不一致性矩阵；利用Select_m表示第m个分类与其他所有分类器的相异性；

输出不一致测度是一种基于分类器输出结果进行度量的相异性测度。

可选的，所述分类模型和所述基分类器均采用支持向量机或/和极限学习机。

本发明与现有技术相比，具有如下优点：本发明同时利用标记样本和未标记样本来构建高精度预测模型，主动选择不均衡数据中有价值的多类别样本，提高蛋白质相互作用(PPI)预测模型的性能和运算效率，结合分治策略、群体智能优化算法和蛋白质相互作用的应用特性对PPI预测模型的参数优化，通过相异性的检测来选择分类器可以利用基分类器之间的差异性和不同学习算法的互补优势，利用增量学习来达到动态预测模型的更新，从而在保证预测模型的精度和泛化能力的前提下，有效地增强模型的动态性和可解释性。

附图说明

图1是本发明蛋白质相互作用预测方法的一种实施方式流程图；

图2是本发明蛋白质相互作用预测方法的在增量样本下的流程图；

图3是本发明中基于数据不均衡性的样本选择流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行详细描述，但本发明并不仅仅限于这些实施例。本发明涵盖任何在本发明的精神和范围上做的替代、修改、等效方法以及方案。

为了使公众对本发明有彻底的了解，在以下本发明优选实施例中详细说明了具体的细节，而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。

本发明的蛋白质相互作用的预测方法，包括以下步骤：

2)利用Bagging方法通过Bag of Little Bootstraps技术和分治策略来生成多个基分类器的蛋白质相互作用预测模型；

3)对多特征融合与特征抽取后的数据集进行主动学习采样，将主动学习中的采样策略转换为学习系统在不确定条件下在模型增益与付出代价之间的决策问题，提出噪声-代价主动学习模型；利用批量选择样例的训练集构造方法，即通过选择和标记未知测试分布中的一组样例组成的子集来控制输入的训练分布，从而生成训练集；

5)将待预测未知蛋白质的输入步骤3)已完成训练的蛋白质相互作用预测模型，所述蛋白质相互作用预测模型输出蛋白质相互作用的数据。

步骤3)中所述的噪声-代价主动学习模型为：

其中，

表示学习系统的训练样例集，包含n个样例及对应标记信息；

将所述训练集分成多个子训练集，每个子训练集与所述多个基分类器一一对应，对所述多个基分类器进行组合和集成，通过步骤4)中群智能优化算法或群智能混合算法选择性集成输出至集成分类器，由所述集成分类器输出预测结果。

所述蛋白质相互作用预测模型还包括增量样本学习模块，所述增量样本学习模块接收增量样本，经单次增量样本集学习的基分类器学习后再通过群智能优化算法或群智能混合算法选择性集成输出至所述集成分类器。

所述的多个基分类器具有满足相异性的条件，采用输出不一致测度来度量分类器间的相异性，分类器f_m和f_n相异性测度Diversity_m,n，

所述分类模型和所述基分类器均采用支持向量机或/和极限学习机。

如图1所示，考虑到单一计算方法预测蛋白质相互作用遇到的准确性波动问题，项目组针对蛋白质相互作用预测模型已进行了初步研究：极限学习机是不稳定的学习算法，而支持向量机是一种相对稳定的学习算法，而集成学习算法能充分利用能充分利用各基分类器之间的差异性和不同学习算法的互补优势，从而获得更优效果。因此，本项目拟结合极限学习机和支持向量机各自的优势，针对蛋白质相互作用预测模型，利用集成学习充分利用不同学习算法的互补优势，改进现有集成学习算法以更适用于蛋白质相互作用预测模型集成，同时利用大数据分析技术和MapReduce框架分布式实现学习机/分类器的训练，从而构建蛋白质相互作用集成预测模型，同时在预测模型的参数选择和选择性集成问题上，利用改进的群体智能算法对其进行优化，以期提高预测模型的预测精度和泛化能力。

设计相异性大、泛化能力强的基分类器也是构建集成系统的关键，即基分类器的准确性和多样性是两个因素。因此，一种有效的相异性度量方法对构建集成系统也起着极其重要的作用。为了定性和定量地度量分类器间的相异性，目前已有很多方法，大多数度量方法都根据分类器间的输出标签来进行度量的，哪种相异性测度在什么情况下最适用，仍需解决。本项目拟采用输出不一致测度来度量分类器间的相异性，分类器f_m和f_n相异性测度Diversity_m,n，表示如下：

其中，Dif(f_mk,f_nk)表示两个分类器对第k个样本输出的差异，当其值为0时，表示两个分类器对第k个样本的输出相同；当其值为1时，表示两个分类器对第k个样本的输出不同。由此可以得到一个输出不一致性矩阵。利用Select_m表示第m个分类与其他所有分类器的相异性，用式(4)表示：

输出不一致测度是一种基于分类器输出结果进行度量的相异性测度。因此，我们还将在上述基础上，进一步考虑从整体上同时考虑所有分类器的测度和研究不同测度对分类/预测精度的影响，以期得到更适合于PPI集成预测的相异性测度，进而提高集成的效率和泛化性能。

目前集成学习算法有很多，其中最著名的集成学习算法是Bagging和Boosting。Bagging采用可重复取样(Bootstrap Sample)的方法，以提高不稳定的基分类器的泛化能力。而Boosting中，各分类器的训练集受之前产生的分类器的影响，在处理实际问题时可能会导致过拟合问题。因此，本项目重点研究利用Bagging方法通过Bag of LittleBootstraps技术和分治策略来生成基分类器的PPI预测模型。另外，在生成多分类器后，如果将他们全部用于构建集成分类器，预测效果可能优于单个基分类器，但其预测速度明显下降，且随着基分类器数量的增多，存储空间也会急剧增多，为了能使用少量的基分类器也能达到更好的预测性能，可以采用选择性集成学习算法，选择性集成技术可以去除集成分类器中对预测性能贡献不大的基分类器。考虑到蛋白相互作用数据不均衡，在多分类器组合/集成过程中，先利用有选择的集成方法对每个基分类器赋予初始权重，并利用群体智能算法来优化每个基分类器被赋予的权重，进而选择最优的基分类器子集。

如图2所示，构建随着细胞状态和时空条件而变化的动态蛋白质相互作用预测模型，即考虑利用增量学习来达到动态预测模型的更新，从而在保证预测模型的精度和泛化能力的前提下，有效地增强模型的动态性和可解释性。因此，如何使蛋白质相互作用预测模型具有动态学习能力，也是发明内容之一。本发明拟在分析现有蛋白质相互作用预测模型的基础上，选取有代表性的蛋白质相互作用预测模型，结合选择性集成和增量式学习，研究具有动态学习能力的基于集成式增量学习的蛋白质相互作用预测模型，以期增强蛋白质相互作用的动态性和解决PPI海量数据问题。

在进行选择性集成时，主要考虑精简局部基分类器集合(单次增量样本集学习的基分类器)和全局集成分类器(所有样本集学习的基分类器)，以提升预测性能和效率。并在上述基础上，进一步研究：增量样本集的获取、校验样本集的获取、基分类器类型选择、选择性集成的时机、选择性集成算法的选择因素对增量学习模型的影响及性能评价。

蛋白质相互作用中数据不均衡问题使得分类器过拟合或对小样本类别的预测性能贫乏。目前针对不均衡数据集分类问题的研究主要从数据集重构和算法改进两方面来展开。数据集重构主要是通过改变训练集的分布来获得平衡的数据集，包括过抽样和欠抽样两类，过抽样是通过加入新的小类别样本来达到平衡数据的目的，欠抽样是通过去除部分大类类别数据样本以平衡数据。欠抽样因为删除了部分样本，降低了计算的复杂度，缩短了训练时间，但也导致了训练样本中一些重要信息样本丢失。算法改进研究主要是改进现有学习算法或提出新的学习算法，如主动学习方法、特征选择方法、子空间方法、代价敏感学习方法、集成学习方法、随机森林和SVM后验概率方法等。如图3所示，

PPI预测可以看作一个二类分类问题，为了提高小类样本的分类/预测性能，同时尽量避免大类样本中重要信息的丢失，保证系统的整体性能，考虑到主动学习算法可以同时利用标记样本和未标记样本来构建高精度预测模型，主动选择不均衡数据中有价值的多类别样本。因此，本发明针对PPI数据的高噪声和不均衡特性，综合考虑未标记样本和已标记样本的关系，以及蛋白质相互作用的变化规律等，研究主动学习算法中采样策略和样例选择策略，以尽量标注和时间代价来获取较高精度的分类/预测模型，构造一种新的、有效的适用于PPI预测的主动学习算法，以期达到PPI非均衡数据的均衡分布，从而提高PPI预测模型的性能和运算效率。

针对PPI预测的实际问题，将主动学习中的采样策略看作是学习系统在不确定条件下在模型增益与付出代价之间的决策问题，提出噪声-代价主动学习模型。考虑到主动学习是通过迭代方式来训练分类/预测模型，利用批量选择样例的训练集构造方法，即通过选择和标记未知测试分布中的一组样例组成的子集来控制输入的训练分布，目的是在相同标记代价条件下，克服大量负例对分类模型的不利影响，从而提高分类/预测精度。噪声-代价主动学习模型的一般化形式描述如下：

其中，

表示学习系统的训练样例集，包含n个样例及对应标记信息。

表示从无标记样例集U中选择并标记s个样例组成的所选样例集S，E_L∪U[f(x|w)]表示把所选的s个样例加入训练集L后，参数为w的分类/预测模型在集合L∪S上的期望增益，C_s表示从无标记集U中选择s个样例所需要的时间代价，α为控制系数。也就是在采样代价最小的条件，选择一组样例，标记并加入训练集，使分类/预测模型在更新后的训练集上期望增益最大。利用主动学习解决PPI数据不均衡问题的PPI预测方法如图3所示。

考虑到大多数分类/预测模型(如SVM)是通过结构风险最小化策略来确定其分类界面的，因此，算法可利用分类/预测模型风险，通过最小化模型结构风险的方差来构造训练分布，并根据该分布选择样例，重构训练集，从而减少构造训练集所需迭代次数。

虽然以上将实施例分开说明和阐述，但涉及部分共通之技术，在本领域普通技术人员看来，可以在实施例之间进行替换和整合，涉及其中一个实施例未明确记载的内容，则可参考有记载的另一个实施例。

以上所述的实施方式，并不构成对该技术方案保护范围的限定。任何在上述实施方式的精神和原则之内所作的修改、等同替换和改进等，均应包含在该技术方案的保护范围之内。

Claims

1.一种蛋白质相互作用的预测方法，其特征在于：包括如下步骤：

4)利用群智能优化算法或群智能混合算法来优化分类模型的参数，以优化训练集，并将训练集输入蛋白质相互作用预测模型进行训练，以完成蛋白质相互作用预测模型的训练；

5)将待预测未知蛋白质输入步骤3)已完成训练的蛋白质相互作用预测模型，得到蛋白质相互作用的数据。

2.根据权利要求1所述的蛋白质相互作用的预测方法，其特征在于：步骤3)中所述的噪声-代价主动学习模型为：

其中，

表示学习系统的训练样例集，包含n个样例及对应标记信息；

3.根据权利要求1或2所述的蛋白质相互作用的预测方法，其特征在于：将所述训练集分成多个子训练集，每个子训练集与所述多个基分类器一一对应，对所述多个基分类器进行组合和集成，通过步骤4)中群智能优化算法或群智能混合算法选择性集成输出至集成分类器，由所述集成分类器输出预测结果。

4.根据权利要求3所述的蛋白质相互作用的预测方法，其特征在于：所述蛋白质相互作用预测模型还包括增量样本学习模块，所述增量样本学习模块接收增量样本，经单次增量样本集学习的基分类器学习后再通过群智能优化算法或群智能混合算法选择性集成输出至所述集成分类器。

5.根据权利要求3所述的蛋白质相互作用的预测方法，其特征在于：所述的多个基分类器具有满足相异性的条件，采用输出不一致测度来度量分类器间的相异性，分类器f_m和f_n相异性测度Diversity_m,n，

6.根据权利要求5所述的蛋白质相互作用的预测方法，其特征在于：所述分类模型和所述基分类器均采用支持向量机或/和极限学习机。