CN107463795A

CN107463795A - 一种识别酪氨酸翻译后修饰位点的预测算法

Info

Publication number: CN107463795A
Application number: CN201710651300.XA
Authority: CN
Inventors: 施绍萍; 曹曼; 陈国东
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2017-08-02
Filing date: 2017-08-02
Publication date: 2017-12-12

Abstract

本发明公开了一种识别酪氨酸翻译后修饰位点的预测算法，包括步骤：数据收集；数据处理；特征编码；特征优化；模型训练与评估。本发明还公开了一种预测算法的应用。从蛋白质序列信息、进化信息和物理化学属性角度全面提取酪氨酸翻译后修饰位点的特征，以Elastic Net为优化手段自动选取变量对多维特征进行筛选，去除冗余信息，且结合SVM构建酪氨酸硝基化、硫化和磷酸化位点预测模型，提升预测模型的预测能力，显著提高酪氨酸翻译后修饰位点的预测质量。开发的预测软件平台TyrPred实现了对完整蛋白质上酪氨酸硝基化、硫化和磷酸化三种修饰位点的预测分析，为酪氨酸翻译后修饰的研究提供方便、经济、快捷的研究工具和重要参考。

Description

一种识别酪氨酸翻译后修饰位点的预测算法

技术领域

本发明涉及特别用于特定应用的数字计算或数据处理设备或数据处理方法，尤其涉及一种识别酪氨酸翻译后修饰位点的预测算法。

背景技术

酪氨酸翻译后修饰包含硝基化、硫化和磷酸化三种。酪氨酸硝基化主要是组织细胞中活性氧与活性氮的相互作用，活性氧与活性氮的大量产生可直接损伤蛋白质、核酸和脂质大分子。研究表明，人类的多种疾病如动脉粥样硬化、帕金森症、慢性肾衰竭等均与酪氨酸硝基化有关。酪氨酸硫化主要是酪氨酰蛋白硫酸基转移酶催化蛋白质中酪氨酸残基发生硫化反应，这种酶能够催化3′-磷酸腺昔-5′-磷酰硫酸的硫酸基团转移到蛋白质中的酪氨酸残基上。酪氨酸硫化调节异常会导致肺病、HIV感染等。酪氨酸磷酸化在DNA修复、细胞凋亡、免疫反应等方面扮演重要角色，在细胞信号转导中酪氨酸磷酸化具有重要调节作用。蛋白酪氨酸激酶参与调节细胞增生、分化和免疫系统信号转导过程，多种具有酪氨酸激酶活性的受体的胞浆内都含有酪氨酸残基，该残基磷酸化后能介导信号传递，而酪氨酸残基硝基化后抑制了其磷酸化，导致信号过程的失控，引起炎症反应和疾病。因此，酪氨酸翻译后修饰位点的知识将有助于各种相关疾病的药物设计，这些位点的识别也是理解它们修饰动力学和分子机制的基础。

现有多种实验方法可以对酪氨酸翻译后修饰位点进行识别，但这些实验技术识别效率较低、耗时长且费用高。而采用生物信息学方法预测酪氨酸翻译后修饰位点的方法和工具，诸如：Li等基于序列信息构建的GPS-NO2预测酪氨酸硝基化位点的平台；Huang等基于二级结构、物理化学性质和自相关系数提取特征建立的识别酪氨酸硫化位点的预测器；Xue等基于GPS建立的可以分等级地预测激酶特异性磷酸化的工具；以及Gao等基于氨基酸序列相似性、无序打分和氨基酸频率等特征建立的Musite工具预测激酶特异性磷酸化位点；尚存在以下缺陷：仅能单一预测酪氨酸硝基化或硫化或磷酸化，而不能同时预测这三种修饰；构建模型时收集的训练样本比较少；未对特征进行优化和筛选，预测性能不够理想；除了GPS和Musite，其余方法都未开发相应的预测软件。

由于一个酪氨酸残基在同一时间只能发生一种修饰，而一条蛋白上的多个酪氨酸残基可以同时被修饰，酪氨酸残基可能经历连续的或级联的共价修饰，其中个别残基的修饰可能会影响其邻近残基的修饰。因此，预测完整蛋白序列上酪氨酸残基的硝基化、硫化和磷酸化对进一步的实验研究是重要和有益的。

发明内容

本发明的目的在于针对现有预测方法的不足，提供一种识别酪氨酸翻译后修饰位点的预测算法，还提供一种识别酪氨酸翻译后修饰位点的预测算法的应用。

本发明解决上述技术问题所提供的技术方案为：

一种识别酪氨酸翻译后修饰位点的预测算法，包括如下步骤：

1）数据收集

从蛋白质数据库和近几年相关文献中收集酪氨酸硝基化、硫化和磷酸化翻译后修饰的数据；

2）数据处理

去除冗余的同源性高的蛋白序列，得到非冗余的酪氨酸硝基化、硫化和磷酸化修饰的正样本数据集和负样本数据集，并参考相关文献截取序列片段；

3）特征编码

提取正样本数据集的蛋白、负样本数据集的蛋白的序列信息、进化信息和物理化学性质，对正样本蛋白、负样本蛋白进行多维特征编码；

4）特征优化

以弹性网络（Elastic Net）为优化手段，采用Elastic Net方法对多维特征编码的多维特征向量进行筛选，去除冗余信息，获得最优特征向量；

5）模型训练与评估

将最优特征向量通过支持向量机（Support Vector Machine，缩略词SVM）进行10倍交叉验证训练，对预测模型进行评价，优化参数，构建最优预测模型。

所述步骤1）中的蛋白质数据库是PhosphoSitPlus数据库、UniProtKB/Swiss-Prot数据库、SYSPTM数据库和dbPTM数据库中的至少一种。

所述PhosphoSitPlus数据库只收集其中有相关激酶注释的能发生酪氨酸磷酸化的数据。

所述步骤2）去除同源性高的蛋白序列是采用CD-HIT程序去除从几个不同的蛋白质数据库中收集的同源性即具有相同或相似性大于30%的高同源蛋白序列，所述CD-HIT是一种聚类生物序列以减少序列冗余和改进其他序列分析性能的广泛使用的程序。

所述步骤2）截取序列片段是分别以酪氨酸为中心，上游和下游分别截取相同数量的序列片段。

所述步骤3）的正样本是蛋白质数据库中收集到的经实验验证的数据标记样本。

所述步骤3）的负样本是从与正样本相同的蛋白中随机挑选出与正样本数量相同但未经实验验证的数据标记样本。

所述步骤3）多维特征编码包括如下子步骤：

3 ▪1）样本序列的序列信息编码：序列信息包括氨基酸出现频率、二进制编码，氨基酸位置权重和K-空间氨基酸对；

所述氨基酸出现频率是根据20种氨基酸在序列片段中出现的频率进行编码；

所述二进制编码是将序列中每个氨基酸都转化为一个20维的向量；

所述氨基酸位置权重是根据20种氨基酸在序列片段中不同位置的重要性进行特征编码；

所述K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频率，根据频率进行编码；

3 ▪2）样本序列的进化信息编码：基于K-近邻（k-Nearest Neighbor，缩略词KNN）分类算法的打分特征进行编码，未知的序列与已知的酪氨酸翻译后修饰序列进行相似性打分，当打分大于0.5时，认为是目标序列，当打分小于或等于0.5时，认为是非目标序列；相似性主要是基于空间距离的比对，其距离的计算方法如下：

两条序列和的距离定义为：

(1)

(2)

公式（1）、（2）中：

L：中心位点附近上游和下游的氨基酸数量；

：氨基酸相似矩阵BLOSUM62；

：序列S ₁上的氨基酸残基；

：序列S ₂上的氨基酸残基；

：置换矩阵；

：矩阵最大值；

：矩阵最小值；

3 ▪3）样本序列的物理化学性质编码：基于氨基酸分组权重进行编码是根据20种氨基酸的物理化学性质，将其分成四类：疏水组、极性组、带正电荷组和带负电荷组，然后两两一组，分为互不相邻的三组，发生则为1，反之则为0。

所述步骤4）采用Elastic Net方法对多维特征编码的多维特征向量进行筛选，包括如下子步骤：

4 ▪1）假设观测数据是经过标准化和中心化的数据，

即；

，

4 ▪2）令，，则

(3)

称函数为Elastic Net惩罚；

4 ▪3）Elastic Net通过优化调和参数筛选特征向量，t值越大，则有更多的特征向量被选择。

所述子步骤4 ▪3）的调和参数的，。

所述步骤5）的模型训练与评估是将最优特征向量通过支持向量机SVM进行10倍交叉验证训练，以灵敏度（Sn）、特异度（Sp）、准确度（Acc）和马氏相关系数（MCC）作为评价指标对预测模型进行评价。

本发明的一种识别酪氨酸翻译后修饰位点的预测算法的应用，其特征在于，基于最优模型开发方便用户使用的酪氨酸硝基化、硫化和磷酸化位点的预测软件，所述预测软件是基于支持向量机SVM构建最优模型采用MATLAB软件和C^#编程语言开发的预测软件平台TyrPred。

所述预测软件平台TyrPred在用户提交至少一条FASTA格式的未知蛋白质序列且选择要预测的翻译后修饰类型后，就高效地返回潜在的酪氨酸翻译后修饰位点的预测信息，实现对完整蛋白质上酪氨酸硝基化、硫化和磷酸化位点的高通量预测，所述预测信息包括蛋白质名称、修饰位点位置、修饰位点的侧翼残基和SVM概率值。

本发明的预测算法与现有方法相比的有益效果如下：

本发明从蛋白质序列信息、进化信息和物理化学属性角度全面提取酪氨酸翻译后修饰位点的特征，以弹性网络（Elastic Net）为优化手段，采用Elastic Net方法自动选取变量的特性对多维特征进行筛选，去除冗余信息，且结合支持向量机SVM构建酪氨酸硝基化、硫化和磷酸化位点预测模型，提升预测模型对酪氨酸翻译后修饰位点的预测能力，显著提高酪氨酸硝基化、硫化和磷酸化位点的预测质量。本发明开发的预测软件平台TyrPred实现了对完整蛋白质上酪氨酸硝基化、硫化和磷酸化三种修饰位点的预测分析，为酪氨酸翻译后修饰的研究提供方便、经济、快捷的研究工具和重要参考。

附图说明

图1是本发明的实施例1对酪氨酸翻译后修饰位点预测的整体流程图；

图2是本发明的实施例2的蛋白名为“B2RSH2”的序列发生酪氨酸硫化的位点预测结果图。

具体实施方式

为了更好地理解上述方案，下面结合具体实施例和附图对本发明作进一步说明。

实施例1

一种如图1所示的识别酪氨酸翻译后修饰位点的预测算法，具体步骤如下：

1）数据收集

从蛋白质数据库和近几年相关文献中收集酪氨酸硝基化、硫化和磷酸化翻译后修饰的数据，蛋白质数据库是PhosphoSitPlus数据库、UniProtKB/Swiss-Prot数据库、SYSPTM数据库和dbPTM数据库中的至少一种，PhosphoSitPlus数据库只收集其中有相关激酶注释的能发生酪氨酸磷酸化的数据；

2）数据处理

采用CD-HIT程序去除从几个不同的蛋白质数据库中收集的同源性即具有相同或相似性大于30%的高同源蛋白序列，得到非冗余的酪氨酸硝基化、硫化和磷酸化修饰的正样本数据集和负样本数据集，并参考相关文献分别以酪氨酸为中心，上游和下游分别截取相同数量的序列片段，本发明实施例1中酪氨酸硝基化和磷酸化的窗口大小为15，酪氨酸硫化的窗口大小为9；

3）特征编码

提取正样本数据集的蛋白、负样本数据集的蛋白的序列信息、进化信息和物理化学性质，对正样本蛋白、负样本蛋白进行多维特征编码，正样本是蛋白质数据库中收集到的经实验验证的数据标记样本；负样本是从与正样本相同的蛋白中随机挑选出与正样本数量相同但未经实验验证的数据标记样本；包括如下子步骤：

3 ▪1）样本序列的序列信息编码：序列信息包括氨基酸出现频率、二进制编码，氨基酸位置权重和K-空间氨基酸对；氨基酸出现频率是根据20种氨基酸在序列片段中出现的频率进行编码；二进制编码是将序列中每个氨基酸都转化为一个20维的向量；氨基酸位置权重是根据20种氨基酸在序列片段中不同位置的重要性进行特征编码；K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频率，根据频率进行编码；

3 ▪2）样本序列的进化信息编码：基于K-近邻分类算法的打分特征进行编码，未知的序列与已知的酪氨酸翻译后修饰序列进行相似性打分，当打分大于0.5时，认为是目标序列，当打分小于或等于0.5时，认为是非目标序列；相似性主要是基于空间距离的比对，其距离的计算方法如下：

两条序列和的距离定义为：

(1)

(2)

公式（1）、（2）中：

L：中心位点附近上游和下游的氨基酸数量；

：氨基酸相似矩阵BLOSUM62；

：序列S ₁上的氨基酸残基；

：序列S ₂上的氨基酸残基；

：置换矩阵；

：矩阵最大值；

：矩阵最小值；

4）特征优化

以Elastic Net为优化手段，采用Elastic Net方法对多维特征编码的多维特征向量进行筛选，去除冗余信息，获得最优特征向量，包括如下子步骤：

4 ▪1）假设观测数据是经过标准化和中心化的数据，即；，

4 ▪2）令，，则

(3)

称函数为Elastic Net惩罚；

4 ▪3）Elastic Net通过优化调和参数筛选特征向量，t值越大，则有更多的特征向量被选择，调和参数的，。

5）模型训练与评估

将最优特征向量通过支持向量机SVM进行10倍交叉验证训练，以灵敏度（Sn）、特异度（Sp）、准确度（Acc）和马氏相关系数（MCC）作为评价指标对预测模型进行评价，优化参数，构建最优预测模型。

实施例2

预测软件平台TyrPred应用于预测蛋白名为“B2RSH2”的酪氨酸硝基化位点和酪氨酸硫化位点。

预测软件是基于SVM构建最优模型采用MATLAB软件和C#编程语言开发的预测软件平台TyrPred。预测软件平台TyrPred在用户提交至少一条FASTA格式的未知蛋白质序列且选择要预测的翻译后修饰类型后，就高效地返回潜在的酪氨酸翻译后修饰位点的预测信息，实现同时对完整蛋白质上酪氨酸硝基化、硫化和磷酸化位点的高通量预测，预测信息包括蛋白质名称、修饰位点位置、修饰位点的侧翼残基和SVM概率值。

用户预测蛋白名为“B2RSH2”的序列的硝基化位点，只需在预测软件平台TyrPred预测界面中输入如下的B2RSH2 FASTA格式的未知蛋白质序列：

>sp|B2RSH2|GNAI1_MOUSE MGCTLSAEDKAAVERSKMIDRNLREDGEKAAREVKLLLLGAGESGKSTIVKQMKIIHEAGYSEEECKQYKAVVYSNTIQSIIAIIRAMGRLKIDFGDSARADDARQLFVLAGAAEEGFMTAELAGVIKRLWKDSGVQACFNRSREYQLNDSAAYYLNDLDRIAQPNYIPTQQDVLRTRVKTTGIVETHFTFKDLHFKMFDVGGQRSERKKWIHCFEGVTAIIFCVALSDYDLVLAEDEEMNRMHESMKLFDSICNNKWFTDTSIILFLNKKDLFEEKIKKSPLTICYPEYAGSNTYEEAAAYIQCQFEDLNKRKDTKEIYTHFTCATDTKNVQFVFDAVTDVIIKNNLKDCGLF

且选择要预测的翻译后修饰类型是硝基化（Nitration），点击“submit”键，即可预测出该蛋白在酪氨酸上发生的硝基化位点。

本方法还可以用于对酪氨酸其他修饰位点的预测，用户只需选择所需预测的修饰类型，即可预测出该蛋白质发生酪氨酸翻译后修饰的位点。

用户预测蛋白名为“B2RSH2”的序列的硫化位点，只需选择酪氨酸硫化模型（Sulfation），点击提交后，后台程序会自动进行序列的处理、特征编码、特征优化及SVM的学习，并且给出硫化位点的预测概率。

图2是蛋白名为“B2RSH2”的序列发生酪氨酸硫化的位点预测结果图。如图2所示，预测结果有五列，第一列为序号，第二列为蛋白名，第三列为硫化位点在蛋白序列的位置，第四列为以硫化位点为中心的长度为9的侧翼序列，第五列为SVM预测该位置上的氨基酸发生硫化的概率。

采用本方法构建的预测软件平台Tyrpred预测出B2RSH2蛋白质2个潜在的酪氨酸硫化位点，分别在序列位置的第167、230处。由于此时阈值为0.7，则当概率大于0.7时被认定为硫化位点，反之为非硫化位点，预测概率越大，表明该位置的氨基酸发生硫化的可能性越大。

用户可根据自己的需求调整阈值大小，确定可能的蛋白硫化位点。如，在第一行中，蛋白名为“B2RSH2”的序列位置为167，表明在该蛋白序列位置为167处的Y能发生硫化，发生硫化的概率为0.72002，以该位点为中心的长度为9的序列为AQPN-Y-IPTQ。同时，用户还可以在软件预测界面输入多条蛋白质序列，即可实现对酪氨酸修饰位点的高通量预测。研究者可根据以上提供的预测结果进一步缩小研究范围，减少实验验证酪氨酸硝基化、硫化和磷酸化位点的次数，对理解酪氨酸翻译后修饰机理和相关功能具有重要意义。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明由所提交的权利要求书确定的专利保护范围。

Claims

1.一种识别酪氨酸翻译后修饰位点的预测算法，其特征在于，包括如下步骤：

1）数据收集

2）数据处理

3）特征编码

提取正样本数据集的蛋白、负样本数据集的蛋白的序列信息、进化信息和物理化学性质，对正负样本蛋白进行多维特征编码；

4）特征优化

以Elastic Net为优化手段，采用Elastic Net方法对多维特征编码的多维特征向量进行筛选，去除冗余信息，获得最优特征向量；

5）模型训练与评估

将最优特征向量通过支持向量机SVM进行10倍交叉验证训练，对预测模型进行评价，优化参数，构建最优预测模型。

2.如权利要求1所述的识别酪氨酸翻译后修饰位点的预测算法，其特征在于，所述步骤1）中的蛋白质数据库是PhosphoSitPlus数据库、UniProtKB/Swiss-Prot数据库、SYSPTM数据库和dbPTM数据库中的至少一种，所述PhosphoSitPlus数据库只收集其中有相关激酶注释的能发生酪氨酸磷酸化的数据。

3.如权利要求1所述的识别酪氨酸翻译后修饰位点的预测算法，其特征在于，所述步骤2）去除同源性高的蛋白序列是采用CD-HIT程序去除从几个不同的蛋白质数据库中收集的同源性即具有相同或相似性大于30%的高同源蛋白序列。

4.如权利要求1或3所述的识别酪氨酸翻译后修饰位点的预测算法，其特征在于，所述步骤2）截取序列片段是分别以酪氨酸为中心，上游和下游分别截取相同数量的序列片段。

5.如权利要求1所述的识别酪氨酸翻译后修饰位点的预测算法，其特征在于，所述步骤3）的正样本是蛋白质数据库中收集到的经实验验证的数据标记样本；所述步骤3）的负样本是从与正样本相同的蛋白中随机挑选出与正样本数量相同但未经实验验证的数据标记样本。

6.如权利要求1所述的识别酪氨酸翻译后修饰位点的预测算法，其特征在于，所述步骤3）多维特征编码包括如下子步骤：

3 ▪1）样本序列的序列信息编码：序列信息包括氨基酸出现频率、二进制编码，氨基酸位置权重和K-空间氨基酸对；所述氨基酸出现频率是根据20种氨基酸在序列片段中出现的频率进行编码；所述二进制编码是将序列中每个氨基酸都转化为一个20维的向量；所述氨基酸位置权重是根据20种氨基酸在序列片段中不同位置的重要性进行特征编码；所述K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频率，根据频率进行编码；

两条序列和的距离定义为：

(1)

(2)

公式（1）、（2）中：

L：中心位点附近上游和下游的氨基酸数量；

：氨基酸相似矩阵BLOSUM62；

：序列S ₁上的氨基酸残基；

：序列S ₂上的氨基酸残基；

：置换矩阵；

：矩阵最大值；

：矩阵最小值；

7.如权利要求1所述的识别酪氨酸翻译后修饰位点的预测算法，其特征在于，所述步骤4）采用Elastic Net方法对多维特征编码的多维特征向量进行筛选，包括如下子步骤：

4 ▪1）假设观测数据是经过标准化和中心化的数据，

即；

，

4 ▪2）令，，则

(3)

称函数为Elastic Net惩罚；

8.如权利要求1或7所述的识别酪氨酸翻译后修饰位点的预测算法，其特征在于，所述子步骤4 ▪3）的调和参数的，。

9.如权利要求1所述的识别酪氨酸翻译后修饰位点的预测算法，其特征在于，所述步骤5）的模型训练与评估是将最优特征向量通过支持向量机SVM进行10倍交叉验证训练，以灵敏度（Sn）、特异度（Sp）、准确度（Acc）和马氏相关系数（MCC）作为评价指标对预测模型进行评价。

10.如权利要求1至9所述的识别酪氨酸翻译后修饰位点的预测算法的应用，其特征在于，基于最优模型开发方便用户使用的酪氨酸硝基化、硫化和磷酸化位点的预测软件，软件预测平台TyrPred是基于支持向量机SVM构建最优模型采用MATLAB软件和C#编程语言开发的预测软件平台TyrPred；所述预测软件平台TyrPred在用户提交至少一条FASTA格式的未知蛋白质序列且选择要预测的翻译后修饰类型后，就高效地返回潜在的酪氨酸翻译后修饰位点的预测信息，实现对完整蛋白质上酪氨酸硝基化、硫化和磷酸化位点的高通量预测，所述预测信息包括蛋白质名称、修饰位点位置、修饰位点的侧翼残基和SVM概率值。