CN110444249A

CN110444249A - 一种基于计算的预测荧光蛋白质的方法

Info

Publication number: CN110444249A
Application number: CN201910749597.2A
Authority: CN
Inventors: 张健; 张馨艺; 何水龙
Original assignee: Xinyang Normal University
Current assignee: Xinyang Normal University
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-11-12
Anticipated expiration: 2039-08-14
Also published as: CN110444249B

Abstract

本发明属于生物信息学、数据挖掘及智能计算领域，具体涉及一种基于计算的预测荧光蛋白质的方法。包括如下步骤：S1：根据荧光蛋白质的生物、物理、化学属性分析，计算荧光性相关的特征；S2：对于构造的特征向量，计算每一个特征值与蛋白质类型标签之间的相关性得分并排序：S3：采用增量特征选择策略，对经过排序的特征进行选择，构建最优特征子集；S4：使用Bagging学习策略，构建基于不同训练样本的多种学习模型，进行预测。本发明的预测方法，具有较高的准确性和较好的泛化性，能够大幅度提高预测效率。

Description

一种基于计算的预测荧光蛋白质的方法

技术领域

本发明属于生物信息学、数据挖掘及智能计算领域，具体涉及一种基于计算的预测荧光蛋白质的方法。

背景技术

荧光蛋白质是自然界中广泛存在的一种可以自身发光的特殊蛋白质，其在许多生命组织或器官中都有分布。相较其它蛋白质，荧光蛋白质可以将化学能转化为光能。因为荧光很容易被观测到，荧光蛋白质可以被广泛运用到生物学研究的各个方面，例如生物发光图像、生物感应器、环境探测器等。特别地，生物学家可以将荧光蛋白质改造为“标记蛋白”，用于进行深入的蛋白质组学实验。在癌症或肿瘤研究中，荧光蛋白常常被用于记录病变组织的发展，肿瘤细胞的成长、入侵和转移。2008年，日本科学家下村修、美国科学家马丁·沙尔菲和美籍华裔科学家钱永健因在发现和研究绿色荧光蛋白方面做出贡献而共同获得诺贝尔化学奖。

传统的基于生物物理、生物化学实验的探测荧光蛋白质的方法，不仅耗时费力、价格昂贵，而且准确率较低，敏感性较差。这就对通过计算机技术解决荧光蛋白质的识别问题提出了要求。虽然解析蛋白质结构能够有效获知蛋白质功能，但这种方法效率太低，不适用于大规模的蛋白质组分析。

发明内容

为解决上述背景技术中的技术问题，本发明提供了一种基于计算的预测荧光蛋白质的方法，具有较高的准确性和较好的泛化性。

为实现上述目的，本发明采用如下技术方案：

一种基于计算的预测荧光蛋白质的方法,包括如下步骤：

S1：特征计算

根据荧光蛋白质和非荧光蛋白质的生物、物理、化学属性分析，计算荧光性相关的特征值，利用所述特征值构建特征向量集合；

荧光性相关的特征包括氨基酸构成特征，进化保守性特征，序列motif特征，二级结构特征，物理化学属性；

S2：特征排序

对于构造的特征向量集合，计算每一个特征值与蛋白质类型标签之间的相关性得分，并从高到低排序，得到排序的特征集合；所述蛋白质类型标签为荧光蛋白和非荧光蛋白两类；

S3：特征选择

采用增量特征选择策略，对经过排序的特征进行选择，构建最优特征子集；

S4：模型构建

随机从基准数据集中，每次抽取样本，然后使用支持向量机和最优特征子集训练相应的模型，重复抽取10次样本，构建10种不同的子模型，所述基准数据集是:从Uniprot数据(https://www.uniprot.org/)中，以关键词“bioluminescent proteins”搜索荧光蛋白质，剩余蛋白质中剔除描述中带有“bioluminescent”单词的蛋白质构成非荧光蛋白质；然后分别使用blastclust程序进行去冗余操作，获得同源相似性为30％以下的荧光蛋白质和非荧光蛋白质，构成基准数据集

采用以下公式计算最终的预测结果：

其中，h_t(x)代表第t个子模型(1≤t≤10)的预测概率值，x代表未知蛋白质，μ和σ分别代表10个子模型预测结果的均值和方差，H表示未知蛋白质具有荧光性的预测概率值。

进一步的，S1具体包括以下步骤：

(1)使用Composition Profiler计算荧光蛋白质和非荧光蛋白质在20种标准氨基酸构成上的相对比例。

(2)使用PSIBALST计算荧光蛋白质的进化保守性特征，根据PSIBALST软件计算得到的多序列比对图谱(MLA),大小为L×20，L为序列长度，20表示20种氨基酸；

在MLA的基础上，进一步计算WOP矩阵。WOP矩阵大小为20×20，分别计算蛋白质序列里20种氨基酸的累加得分；

(3)序列motif特征，使用MERCI计算蛋白质序列上的规律性出现的氨基酸组合。本发明统计MERCI计算得到的前10个序列motif；

(4)二级结构特征，使用PSIPRED计算蛋白质中的二级结构，二级结构特征包括螺旋、卷曲和折叠的百分比、平均长度、最长、平均和最短二级结构。

(5)氨基酸的物理化学属性影响蛋白质的结构和功能，选用9种理化属性，分别为亲水性、疏水性、极性、极化性、转化自由能特性、溶剂接触面积、正电性、柔性和激酶活性，首先收集氨基酸在这9种理化属性上的具体数值，然后进行归一化处理，计算每个特征的平均值。

进一步的，S2具体为：

使用相对熵计算每一个特征与类别标签的相关性得分，根据相关性得分由高到低进行排序，相对熵定义如下：

D_KL(P||Q+D_KL(Q||P)

其中P和Q分别为某一特征在两种不同蛋白质类别(P代表荧光蛋白质，Q代表非荧光蛋白质)下的条件概率密度函数，D_KL(P||Q)代表P相对于Q的K-L差异度；D_KL(Q||P)代表Q相对于P的K-L差异度，

计算之后，得到一组得分，

L＝{f₁，f₂，f₃，...，f_i，...}，i＝{1，2，3，...N}；

f_i代表位置为i的特征与蛋白质标签的相关性得分。

进一步的，S3具体为：逐次从排序的特征中添加特征到特征池中，使用支持向量机(LibSVM)构建相应的模型，依据某一特征添加与否对模型的影响，决定保留或者抛弃该特征。

本发明与现有技术相比，具有如下技术效果：

本发明从多种角度提取与荧光性相关的蛋白质序列特征，不仅提高了对于荧光蛋白质数学描述的正确性，同时有助于构建模型和最终预测结果的正确性；此外，采用相对熵特征排序和增量特征选择算法去除特征空间中的噪声特征，获取最优特征子集；最后，使用Bagging集成策略对多个子模型进行集成，一方面可以增加模型的多样性，提高模型的预测准确率，另一方面可以有效避免潜在的过拟合，增强模型的泛化性能。

附图说明

图1为本发明方案流程图。

图2为本发明实施例中增量特征选择策略下，在训练集中使用5折交叉验证得到预测结果的MCC和AUC折线。

图3为本发明实施例中不同类型特征在最优特征子集中的分布情况。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明，但不应理解为本发明的限制。如未特殊说明，下述实施例中所用的技术手段为本领域技术人员所熟知的常规手段，下述实施例中所用的数据、材料等，如无特殊说明，均可从商业途径得到。

实施例1

S1：特征计算

给定一个蛋白质序列集合：本发明从Uniprot数据(https://www.uniprot.org/)中，以关键词“bioluminescent proteins”搜索荧光蛋白质，剩余蛋白质中剔除描述中带有“bioluminescent”单词的蛋白质构成非荧光蛋白质；然后分别使用blastclust程序进行去冗余操作，获得同源相似性为30％以下的荧光蛋白质和非荧光蛋白质，构成基准数据集；对于其中任意一条蛋白质序列P(该蛋白质由N个氨基酸残基组成)，根据荧光蛋白质的生物、物理、化学属性分析，计算荧光性相关的特征；

荧光性相关的特征包括：

(1)氨基酸构成特征，使用Composition Profiler(下载网址为：http://www.cprofiler.org/)计算荧光蛋白质和非荧光蛋白质在20种标准氨基酸构成上的相对比例。Composition Profiler输入为荧光蛋白质和非荧光蛋白质序列，具体参数为：./cprofile.rb-Q BioluminescentProteins-O RAAC.csv-F txt-BnonBioluminescentProteins；输出为荧光蛋白质相对于非荧光蛋白质在20种氨基酸上的构成比例。

(2)进化保守性特征，使用PSIBALST在nr数据库(nr是non-redundant的缩写，意为非冗余蛋白质序列数据库，PSIBLAST可从官方网站ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+下载得到，nr数据库可从ftp://ftp.ncbi.nlm.nih.gov/blast/db/下载得到具体参数为./psiblast-comp_based_stats 1-evalue 0.001-num_iterations 3-db../database/nr-query fastas/file001.txt-out out/file001.txt-out_ascii_pssmpssm/file001.pssm)上的比对生成多序列比对图谱文件。这里使用PSIBLAST默认参数进行计算。根据PSIBALST软件计算得到的多序列比对图谱(MLA)，大小为L×20，MLA如式(1)所示；

式(1)中：S代表替代得分，A到V分别代表20种氨基酸，L为序列中氨基酸的个数，即序列长度。

在MLA的基础上，进一步累加得分，计算WOP矩阵。WOP矩阵大小为20×20，分别计算蛋白质序列里20种氨基酸的累加得分；

式子(2)中，S代表替代得分，A到V分别代表20种标准氨基酸。

(3)序列motif特征，使用MERCI(MERCI可在https://www.genome.jp/tools/motif/下载得到)计算蛋白质序列上的规律性出现的氨基酸组合。MERCI输入为荧光蛋白质和非荧光蛋白质序列，输出为荧光蛋白质里的motif出现频率的排序，本发明使用MERCI计算得到的前10个序列motif；

(4)二级结构特征，使用PSIPRED(PSIPRED可从http://bioinf.cs.ucl.ac.uk/psipred/下载)计算蛋白质中的二级结构：PSIPRED输入为荧光蛋白质和非荧光蛋白质序列，输出为这些序列中每个氨基酸的预测二级结构信息。在PSIPRED输出结果的基础上，本发明进一步计算三种二级结构(螺旋、卷曲和折叠)的百分比、平均长度、最长、平均和最短二级结构；

(5)氨基酸的物理化学属性影响蛋白质的结构和功能，选用9种理化属性，分别为亲水性、疏水性、极性、极化性、转化自由能特性、溶剂接触面积、正电性、柔性和激酶活性，首先从Wikipedia中收集氨基酸在这9种理化属性上的具体数值(具体网址：https://en.wikipedia.org/wiki/Amino_acid)，然后进行归一化处理，计算每个特征的平均值。表1给出了本发明所计算的特征向量构成；

表1.蛋白质特征向量列表

S2：特征排序

对于S1构造的448个特征向量，计算每一个特征值与该集合中蛋白质类型标签(荧光蛋白和非荧光蛋白)之间的相关性得分，具体为：

使用相对熵表示每一个特征值与类别标签(荧光蛋白和非荧光蛋白)的相关性得分，根据相关性得分由高到低进行排序，相对熵定义如式(3)：

D_KL(P||Q)+D_KL(Ql|P) 式(3)

计算之后，得到每个特征的得分，因此可得如下式子

L＝{f₁，f₂，f₃，...，f_i，...}，i＝{1，2，3，...N} 式(4)

这里，f_i代表位置为i的特征值与蛋白质标签(荧光蛋白和非荧光蛋白)的相关性得分，然后根据相关性得分的高低，将特征进行排序，得到排序的特征集合。

S3：特征选择

采用增量特征选择策略，对经过排序的特征逐个添加到特征子集中，使用支持向量机(LibSVM)构建相应的模型，选择模型预测性能达到峰值的特征集合为最优特征子集。图2给出了增量特征选择策略在构建的训练集相应的模型中使用5折交叉验证得到的MCC和AUC折线。总体而言，MCC和AUC折线的趋势符合先逐渐增加然后保持平稳波动的特点；由图2可知，当特征数目为79时，模型的预测性能达到峰值，此时MCC＝0.569，AUC＝0.861。图3给出了最优特征子集中每种类型的特征所占的百分比。采用本发明增量特征选择策略，最优特征子集中有3个(3.8％)氨基酸构成特征，61个(77.2％)进化保守性特征，6个(7.6％)序列motif特征，4个(5.1％)二级结构特征和5个(6.3％)物理化学属性特征，最终选择准确性最高的模型对应的特征集合作为最优特征子集。

S4：模型构建

使用Bagging学习策略，随机从基准数据集中，每次抽取70％的样本，然后使用支持向量机(LibSVM)和最优特征子集训练相应的模型，重复抽取10次样本，构建10个不同的子模型，采用以下公式计算最终的预测结果：

其中，h_t(x)代表第t个子模型(1≤t≤10)的预测概率值，x代表未知蛋白质的序列，μ和σ分别代表10个子模型预测结果的均值和方差，H表示未知蛋白质具有荧光性的预测概率值。

表2给出了10个子模型以及集成了这些子模型的bagging策略在训练集上的预测效果。总体上，10个子模型的预测结果MCC值范围在0.523至0.554之间，AUC值在0.832至0.867之间。相比较而言，bagging策略给出了敏感性为0.675，特异性为0.895，MCC值为0.613以及AUC值为0.924的优异的预测结果。这也证明了bagging策略的有效性，其预测结果优于任何一个子模型器；

表2. 10个子模型和bagging策略在训练集上的预测效果

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于计算的预测荧光蛋白质的方法,其特征在于，包括如下步骤：

S1：特征计算

S2：特征排序

S3：特征选择

S4：模型构建

随机从基准数据集中，每次抽取样本，然后使用支持向量机和最优特征子集训练相应的模型，重复抽取10次样本，构建10种不同的子模型，所述基准数据集是:从Uniprot数据(https://www.uniprot.org/)中，以关键词“bioluminescent proteins”搜索荧光蛋白质，剩余蛋白质中剔除描述中带有“bioluminescent”单词的蛋白质构成非荧光蛋白质；然后分别使用blastclust程序进行去冗余操作，获得同源相似性为30％以下的荧光蛋白质和非荧光蛋白质，构成基准数据集采用以下公式计算最终的预测结果：

2.根据权利要求1所述的一种基于计算的预测荧光蛋白质的方法，其特征在于，S1具体包括以下步骤：

(2)使用PSIBALST计算荧光蛋白质的进化保守性特征，根据PSIBALST软件计算得到的多序列比对图谱，大小为L×20，L为序列长度，20表示20种氨基酸；

在MLA的基础上，进一步计算WOP矩阵，WOP矩阵大小为20×20，分别计算蛋白质序列里20种氨基酸的累加得分；

(3)序列motif特征，使用MERCI计算蛋白质序列上的规律性出现的氨基酸组合，本发明统计MERCI计算得到的前10个序列motif；

(4)二级结构特征，使用PSIPRED计算蛋白质中的二级结构，二级结构特征包括螺旋、卷曲和折叠的百分比、平均长度、最长、平均和最短二级结构；

(5)氨基酸的物理化学属性影响蛋白质的结构和功能，选用9种理化属性，分别为亲水性、疏水性、极性、极化性、转化自由能特性、溶剂接触面积、正电性、柔性和激酶活性，首先收集氨基酸在这9种理化属性上的具体数值，然后进行归一化处理，计算每个理化属性的平均值。

3.根据权利要求1所述的一种基于计算的预测荧光蛋白质的方法,其特征在于，S2具体为：

D_KL(P||Q)+D_KL(Q||P)

其中P和Q分别为某一特征在两种不同蛋白质类别(P代表荧光蛋白质，Q代表非荧光蛋白质)下的条件概率密度函数，D_KL(P||Q)代表P相对于Q的K-L差异度；D_KL(Q||P)代表Q相对于P的K-L差异度，计算之后，得到一组得分L，

L＝{f₁，f₂，f₃，...，f_i，...}，i＝{1，2，3，...N}

f_i代表位置为i的特征与蛋白质标签的相关性得分。

4.根据权利要求1所述的一种基于计算的预测荧光蛋白质的方法,其特征在于，S3具体为：采用增量特征选择策略，对经过排序的特征逐个添加到特征子集中，使用支持向量机(LibSVM)构建相应的模型，选择模型预测性能达到峰值的特征集合为最优特征子集。