CN108763861A

CN108763861A - 蛋白质间相互作用的预测方法、装置、终端及介质

Info

Publication number: CN108763861A
Application number: CN201810336808.5A
Authority: CN
Inventors: 李坚强; 史晓峰; 明仲; 李赛玲
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-04-16
Filing date: 2018-04-16
Publication date: 2018-11-06

Abstract

本发明适用生物技术领域，提供了一种蛋白质间相互作用的预测方法、装置、终端及存储介质，该方法包括：当接收到对两个蛋白质之间的相互作用的进行预测的请求时，获取两个待预测蛋白质的序列，然后通过SIFT算法从两个待预测蛋白质的序列中获取两个待预测蛋白质的序列特征子，最后通过预先训练好的WELM分类器对两个待预测蛋白质的序列特征子进行相互作用预测，以确定两个蛋白质之间是否存在相互作用，从而通过评价指标较高的预先训练好的WELM分类器对待预测蛋白质的序列特征子进行预测，提高了预测结果的准确性。

Description

蛋白质间相互作用的预测方法、装置、终端及介质

技术领域

本发明属于生物技术领域，尤其涉及一种蛋白质间相互作用的预测方法、装置、终端及介质。

背景技术

目前，国内外对于蛋白质间相互作用的研究主要包括两类，分别是生物实验方法和计算学方法。最初，蛋白质间相互作用的预测都是通过实验方法来完成的，如免疫共沉淀法、蛋白质亲和色谱法和核磁共振法等，这些实验每次只能预测有限的蛋白质对，且实验周期长，花费较大，随着生物信息学的发展，高通量预测技术渐渐发展起来，相比之前的预测技术，此类方法显著的降低了预测的成本，且高通量预测技术能够更大规模的预测蛋白质间的相互作用。

现有的高通量预测技术在对大规模蛋白质间的相互作用进行预测时，常常会产生很高的假阳性和假阴性，降低了预测结果的准确性，而且在训练、寻找分类器的最佳参数时耗时较长。

发明内容

本发明的目的在于提供一种蛋白质间相互作用的预测方法、装置、终端以及介质，旨在解决由于现有技术无法提供一种有效的蛋白质间相互作用的预测方法，导致在预测蛋白质间是否有相互作用时准确性较低的问题。

一方面，本发明提供了一种蛋白质间相互作用的预测方法，所述方法包括下述步骤：

当接收到对两个蛋白质之间的相互作用进行预测的请求时，获取所述两个待预测蛋白质的序列；

通过SIFT算法从所述两个待预测蛋白质的序列中获取所述两个待预测蛋白质的序列特征子；

通过预先训练好的WELM分类器对所述两个待预测蛋白质的序列特征子进行相互作用预测，以确定所述两个蛋白质之间是否存在相互作用。

另一方面，本发明提供了一种蛋白质间相互作用的预测装置，所述装置包括：

第一序列获取单元，用于当接收到对两个蛋白质之间的相互作用进行预测的请求时，获取所述两个待预测蛋白质的序列；

第一特征获取单元，用于通过SIFT算法从所述两个待预测蛋白质的序列中获取所述两个待预测蛋白质的序列特征子；以及

第一预测单元，用于通过预先训练好的WELM分类器对所述两个待预测蛋白质的序列特征子进行相互作用预测，以确定所述两个蛋白质之间是否存在相互作用。

另一方面，本发明还提供了一种计算终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述蛋白质间相互作用的预测方法的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述蛋白质间相互作用的预测方法的步骤。

本发明在当接收到对两个蛋白质之间的相互作用的进行预测的请求时，获取两个待预测蛋白质的序列，然后通过SIFT算法从两个待预测蛋白质的序列中获取两个待预测蛋白质的序列特征子，最后通过预先训练好的WELM分类器对两个待预测蛋白质的序列特征子进行相互作用预测，以确定两个蛋白质之间是否存在相互作用，从而通过评价指标较高的预先训练好的WELM分类器对待预测蛋白质的序列特征子进行预测，提高了预测结果的准确性。

附图说明

图1是本发明实施例一提供的蛋白质间相互作用的预测方法的实现流程图；

图2是本发明实施例二提供的蛋白质间相互作用的预测装置的结构示意图；

图3是本发明实施例三提供的蛋白质间相互作用的预测装置的结构示意图；以及

图4是本发明实施例四提供的一种计算终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的蛋白质间相互作用的预测方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，当接收到对两个蛋白质之间的相互作用进行预测的请求时，获取两个待预测蛋白质的序列。

本发明实施例适用于计算终端，用以在输入待检测的两个蛋白质时预测该两个蛋白质之间是否存在相互作用。在本发明实施例中，需要预测的两个蛋白质为同源蛋白质，当接收到对两个蛋白质之间的相互作用进行预测的请求时，获取两个待预测蛋白质的序列。

在步骤S102中，通过SIFT算法从两个待预测蛋白质的序列中获取两个待预测蛋白质的序列特征子。

在本发明实施例中，SIFT(Scale-Invariant Feature Transform，尺度不变特征变换)广泛应用于计算机视觉领域一种特征提取算法，通过SIFT算法从两个待预测蛋白质的序列中获取两个待预测蛋白质的序列特征子，对蛋白质结构的旋转、尺度和视角变换具有很强的健壮性。

在步骤S103中，通过预先训练好的WELM分类器对两个待预测蛋白质的序列特征子进行相互作用预测，以确定两个蛋白质之间是否存在相互作用。

在本发明实施例中，通过预先训练WELM(Weighed Extreme Learning Machine，加权的极限学习机)分类器，以得到训练好的评价指标较高的WELM分类器，再通过该训练好的WELM分类器对两个待预测蛋白质的序列特征子进行相互作用预测，从而确定两个蛋白质之间是否存在相互作用。

在本发明实施例中，在预测两个待预测蛋白质是否存在相互作用之前，预先对WELM分类器进行训练，优选地，从预设蛋白质数据库中获取预设数量个蛋白质的序列，通过SIFT算法从预设数量个蛋白质的序列中获取预设数量个蛋白质的序列特征子，再通过PCA(principal ComponentAnalysis，主成份分析法)算法对预设数量个蛋白质的序列特征子进行降维，将降维后的序列特征子按预设规则组合成样本，以得到训练样本集，最后使用训练样本集中对初始WELM分类器进行训练，以得到预先训练好的WELM分类器，从而快速的训练出评价指标较高的WELM分类器，该预先训练好的WELM分类器拥有很好的泛化性能，进而针对不平衡数据有着更好的分类效果。优选地，在将降维后的序列特征子按预设规则组合成样本时，将每个降维后的序列特征子与其他降维后的序列特征子依次组合，从而增大完成训练后的WELM分类器的适用范围，提高了完成训练后的WELM分类器的预测准确度。作为示例地，若获取到的特征子为[1,2,3,4...N]，则按照预设规则组合后的样本集为[(1,2)(1,3)(1,4)...(1,N)(2,3)(2,4)(2,5)...(2,N)(3,4)(3,5)(3,6)...(3,N)...(N-1,N)]。

进一步优选地，在从预设蛋白质数据库中获取预设数量个蛋白质的序列之后，通过SIFT算法从预设数量个蛋白质的序列中获取预设数量个蛋白质的序列特征子之前，将预设数量个蛋白质的序列转换成PSSM(Position-Specific Scoring Matrix，特异性得分矩阵)打分矩阵，并对PSSM打分矩阵内的元素进行方阵变换和归一化，以对预设数量个蛋白质的序列进行预处理，从而为后续预测过程提供更多特征子信息，增加了样本数，提高预测结果的准确度。其中，PSSM是从相关的蛋白质数据库收集到所需的蛋白质序列后，通过PSI-BLAST(Position-Specific Iterated-BLAST)数据库对同源蛋白质序列比对获取氨基酸残基，并与SWISS-PROT数据库进行迭代对比获取的PSSM打分矩阵，该PSSM打分矩阵包含蛋白质进化信息的蛋白质序列，可提高蛋白质相互作用的预测结果，其中，SWISS-PROT是经过注释的蛋白质序列数据库，由欧洲生物信息学研究所维护。

优选地，在对WELM分类器进行训练的过程中，首先使用初始WELM分类器对每个样本之间的相互作用进行预测，然后根据每个样本的预测结果获取训练样本集中正样本被预测为正样本的次数、负样本被预测为负样本的次数、正样本被预测为负样本的次数以及负样本被预测为正样本的次数，再通过预设的分类器评价公式获取当前训练得到的WELM分类器的评价指标，当评价指标未达到预设分类器指标时，更新WELM分类器的参数，以继续对WELM分类器进行训练，通过循环更新WELM分类器的参数，获取每次更新参数对应的评价指标，直至评价指标达到预设分类器指标，则将最后一次更新的参数确定为该WELM分类器的最佳参数，即获得了评价指标较高的训练好的WELM分类器，从而减少了WELM分类器的训练时间。优选地，该预设公式为：

其中，正样本表示蛋白质之间有相互作用的样本，负样本为蛋白质之间没有相互作用的样本，Accuracy表示分类器的准确率， Sensitivity表示分类器的敏感度，Precision表示分类器的精度，MCC表示马修斯相关系数，TP表示正样本被预测为正样本的次数，TN表示负样本中的蛋白质序对被预测为负样本的次数，FP表示负样本中的蛋白质序对被预测为正样本的次数，FN表示正样本中的蛋白质序对被预测为负样本的次数。在具体实施过程中，可用五折交叉验证方式对WELM分类器进行训练，从而进一步提高了预测结果的准确性。

在本发明实施例中，当接收到对两个蛋白质之间的相互作用的进行预测的请求时，获取两个待预测蛋白质的序列，然后通过SIFT算法从两个待预测蛋白质的序列中获取两个待预测蛋白质的序列特征子，最后通过预先训练好的WELM分类器对两个待预测蛋白质的序列特征子进行相互作用预测，以确定两个蛋白质之间是否存在相互作用，从而通过评价指标较高的预先训练好的WELM分类器对待预测蛋白质的序列特征子进行预测，提高了预测结果的准确性。

实施例二：

图2示出了本发明实施例二提供的蛋白质间相互作用的预测装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

第一序列获取单元21，用于当接收到对两个蛋白质之间的相互作用进行预测的请求时，获取两个待预测蛋白质的序列；

第一特征获取单元22，用于通过SIFT算法从两个待预测蛋白质的序列中获取两个待预测蛋白质的序列特征子；以及

预测输出单元23，用于通过预先训练好的WELM分类器对两个待预测蛋白质的序列特征子进行相互作用预测，以确定两个蛋白质之间是否存在相互作用。

在本发明实施例中，蛋白质间相互作用的预测装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考实施例一的描述，在此不再赘述。

实施例三：

图3示出了本发明实施例三提供的蛋白质间相互作用的预测装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

第二序列获取单元31，用于从预设蛋白质数据库中获取预设数量个蛋白质的序列；

第二特征获取单元32，用于通过SIFT算法从预设数量个蛋白质的序列中获取预设数量个蛋白质的序列特征子；

降维组合单元33，用于通过PCA算法对预设数量个蛋白质的序列特征子进行降维，将降维后的序列特征子按预设规则组合成样本，以得到训练样本集；

分类器训练单元34，用于使用训练样本集对初始WELM分类器进行训练，以得到预先训练好的WELM分类器；

第一序列获取单元35，用于当接收到对两个蛋白质之间的相互作用进行预测的请求时，获取两个待预测蛋白质的序列；

第一特征获取单元36，用于通过SIFT算法从两个待预测蛋白质的序列中获取两个待预测蛋白质的序列特征子；以及

预测输出单元37，用于通过预先训练好的WELM分类器对两个待预测蛋白质的序列特征子进行相互作用预测，以确定两个蛋白质之间是否存在相互作用。

其中，分类器训练单元34还包括：

第二预测单元341，用于使用初始WELM分类器对对训练样本集中的每个样本进行预测；

参数获取单元342，用于根据每个样本的预测结果获取训练样本集中正样本被预测为正样本的次数、负样本被预测为负样本的次数、正样本被预测为负样本的次数以及负样本被预测为正样本的次数；

评价指标获取单元343，用于通过预设的分类器评价公式获取当前训练得到的WELM分类器的评价指标；以及

参数更新单元344，用于当评价指标未达到预设分类器指标时，更新WELM分类器的参数，以继续对WELM分类器进行训练。

在本发明实施例中，首先通过训练样本集对WELM分类器进行反复训练，以得到评价指标较高的训练好的WELM分类器，当接收到预测两个蛋白质相互作用的结果的请求时，获取两个待预测蛋白质的序列，然后通过SIFT算法从两个待预测蛋白质的序列中获取两个待预测蛋白质的序列特征子，最后通过预先训练好的WELM分类器对两个待预测蛋白质的序列特征子进行结果预测并输出，从而通过预先训练好的WELM分类器对待预测蛋白质的序列特征子进行预测，提高了预测结果的准确性。

实施例四：

图4示出了本发明实施例4提供的计算终端的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

本发明实施例的计算终端4包括处理器41、存储器42以及存储在存储器42中并可在处理器41上运行的计算机程序43。该处理器41执行计算机程序43时实现上述蛋白质间相互作用的预测方法实施例中的步骤，例如图1所示的步骤S101至S103。或者，处理器41执行计算机程序43时实现上述各个蛋白质间相互作用的预测装置实施例中各单元的功能，例如图2所示单元21至23以及图3所示单元31至37的功能。

在本发明实施例中，该处理器执行计算机程序时，当接收到对两个蛋白质之间的相互作用的进行预测的请求时，获取两个待预测蛋白质的序列，然后通过SIFT算法从两个待预测蛋白质的序列中获取两个待预测蛋白质的序列特征子，最后通过预先训练好的WELM分类器对两个待预测蛋白质的序列特征子进行相互作用预测，以确定两个蛋白质之间是否存在相互作用，从而通过评价指标较高的预先训练好的WELM分类器对待预测蛋白质的序列特征子进行预测，提高了预测结果的准确性。

该处理器执行计算机程序时实现上述蛋白质间相互作用的预测方法实施例中的步骤可参考实施例一的描述，在此不再赘述。

实施例五：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述蛋白质间相互作用的预测方法实施例中的步骤，例如，图1所示的步骤S101至S103。或者，该计算机程序被处理器执行时实现上述各个蛋白质间相互作用的预测装置实施例中各单元的功能，例如图2所示单元21至23以及图3所示单元31至37的功能。

在本发明实施例中，在计算机程序被处理器执行后，当接收到对两个蛋白质之间的相互作用的进行预测的请求时，获取两个待预测蛋白质的序列，然后通过SIFT算法从两个待预测蛋白质的序列中获取两个待预测蛋白质的序列特征子，最后通过预先训练好的WELM分类器对两个待预测蛋白质的序列特征子进行相互作用预测，以确定两个蛋白质之间是否存在相互作用，从而通过评价指标较高的预先训练好的WELM分类器对待预测蛋白质的序列特征子进行预测，提高了预测结果的准确性。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、存储介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种蛋白质间相互作用的预测方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，通过预先训练好的WELM分类器对所述两个待预测蛋白质的序列特征子进行相互作用预测的步骤之前，所述方法还包括：

从预设蛋白质数据库中获取预设数量个蛋白质的序列；

通过SIFT算法从所述预设数量个蛋白质的序列中获取所述预设数量个蛋白质的序列特征子；

通过PCA算法对所述预设数量个蛋白质的序列特征子进行降维，将所述降维后的序列特征子按预设规则组合成样本，以得到训练样本集；

使用所述训练样本集对初始WELM分类器进行训练，以得到所述预先训练好的WELM分类器。

3.如权利要求2所述的方法，其特征在于，使用所述训练样本集对初始WELM分类器进行训练，以得到所述预先训练好的WELM分类器的步骤，包括：

使用所述初始WELM分类器对所述训练样本集中每个样本之间的相互作用进行预测；

根据所述每个样本的预测结果获取所述训练样本集中正样本被预测为正样本的次数、负样本被预测为负样本的次数、正样本被预测为负样本的次数以及负样本被预测为正样本的次数；

通过预设的分类器评价公式获取当前训练得到的所述WELM分类器的评价指标；

当所述评价指标未达到预设分类器指标时，更新所述WELM分类器的参数，以继续对所述WELM分类器进行训练。

4.如权利要求2或3任一所述的方法，其特征在于，从预设蛋白质数据库中获取预设数量个蛋白质的序列的步骤之后，通过SIFT算法从所述预设数量个蛋白质的序列中获取所述预设数量个蛋白质的序列特征子的步骤之前，所述方法还包括：

将所述预设数量个蛋白质的序列转换成PSSM打分矩阵，并对所述PSSM打分矩阵内的元素进行方阵变换和归一化，以对所述预设数量个蛋白质的序列进行预处理。

5.如权利要求3所述的方法，其特征在于，所述分类器评价公式包括：

其中，Accuracy表示分类器的准确率，Sensitivity表示分类器的敏感度，Precision表示分类器的精度，MCC表示马修斯相关系数，TP表示正样本被预测为正样本的次数，TN表示负样本中的蛋白质序对被预测为负样本的次数，FP表示负样本中的蛋白质序对被预测为正样本的次数，FN表示正样本中的蛋白质序对被预测为负样本的次数。

6.一种蛋白质间相互作用的预测装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

第二序列获取单元，用于从预设蛋白质数据库中获取预设数量个蛋白质的序列；

第二特征获取单元，用于通过SIFT算法从所述预设数量个蛋白质的序列中获取所述预设数量个蛋白质的序列特征子；

降维组合单元，用于通过PCA算法对所述预设数量个蛋白质的序列特征子进行降维，将所述降维后的序列特征子按预设规则组合成样本，以得到训练样本集；以及

分类器训练单元，用于使用所述训练样本集对初始WELM分类器进行训练，以得到所述预先训练好的WELM分类器。

8.如权利要求7所述的装置，其特征在于，所述分类器训练单元，包括：

第二预测单元，用于使用所述初始WELM分类器对所述训练样本集中的每个样本进行预测；

参数获取单元，用于根据所述每个样本的预测结果获取所述训练样本集中正样本被预测为正样本的次数、负样本被预测为负样本的次数、正样本被预测为负样本的次数以及负样本被预测为正样本的次数；以及

评价指标获取单元，用于通过预设的分类器评价公式获取当前训练得到的所述WELM分类器的评价指标；

参数更新单元，用于当所述评价指标未达到预设分类器指标时，更新所述WELM分类器的参数，以继续对所述WELM分类器进行训练。

9.一种计算终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5项所述方法的步骤。