CN105893787A

CN105893787A - 一种蛋白质翻译后修饰甲基化位点的预测方法

Info

Publication number: CN105893787A
Application number: CN201610447108.4A
Authority: CN
Inventors: 邱建丁; 温平平; 施绍萍; 梁汝萍
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2016-06-21
Filing date: 2016-06-21
Publication date: 2016-08-24

Abstract

本发明公开了一种蛋白质翻译后修饰甲基化位点的预测方法，属于生物信息学领域。蛋白质甲基化修饰参与细胞功能及细胞过程的许多生命活动，识别其位点对理解细胞的生命活动有十分重要的意义。本发明融合序列信息、进化信息和物理化学性质对蛋白质甲基化序列进行特征编码，采用信息增益优化特征方法并结合支持向量机构建预测模型，独立测试结果表明本方法对蛋白质甲基化位点具有良好的预测性能，同时，开发了网络预测平台，用于对蛋白质甲基化位点的在线预测。

Description

一种蛋白质翻译后修饰甲基化位点的预测方法

技术领域

本发明属于生物信息学领域，具体涉及一种蛋白质翻译后修饰甲基化位点的预测方法。

背景技术

蛋白质翻译后修饰（PTMs）对细胞的调控机制起着重要作用，影响蛋白的多种属性，包括蛋白质折叠、活性及其生物功能，因此，深入研究PTMs对于理解人类疾病发病机制具有重要作用。蛋白质甲基化是众多蛋白质翻译后修饰中最常见的一种，在甲基转移酶的催化下，甲基基团由N -腺苷基甲硫氨酸转移至相应蛋白质。蛋白质甲基化不仅对真核细胞染色质的遗传修饰具有重要作用，还对细胞分化、发育、基因表达、基因组稳定性、信号传递以及人类疾病研究等具有十分重要的作用。虽然目前有多种实验方法可以对甲基化位点进行识别，例如质谱技术、放射性化学方法和染色体免疫沉淀法等，但是，这些实验技术对甲基化位点的识别效率较低、耗时长且费用高。近年来，采用生物信息学方法预测甲基化位点越来越受欢迎，从2005年至今，已有数十种预测甲基化的方法和工具，例如，Xue等利用支持向量机构建了第一个预测甲基化位点的平台。Shao等基于贝叶斯算法提取特征建立了一种识别甲基化位点预测器。Shi等基于扩张的特征编码方案和支持向量机开发了蛋白质甲基化预测工具。最近，Lee等基于氨基酸主成分和溶剂可及表面积等特征，建立了MethK工具预测组蛋白和非组蛋白的赖氨酸甲基化位点。虽然甲基化位点预测方法取得了很大进展，但这些方法仍存在一些缺陷。如：构建模型时收集的训练样本比较少，特征编码时使用的特征比较单一，构建的模型过于简单而没有进行详细分类等。随着现代技术的快速发展，越来越多的甲基化位点被识别出来，现有模型和方法不能满足多类型和高精度的预测要求。因而发展新方法改进现有蛋白质甲基化位点的预测非常关键。本发明发展了一种基于多特征编码和信息增益优化方法构建不同物种的甲基化位点预测模型，通过独立测试集测试比对表明，本方法构建的预测模型具有稳定、准确度高等优点。本发明的预测结果可以为实验验证甲基化位点的研究提供很好的借鉴作用，对研究蛋白质甲基化的机理和生物功能有重大意义。

发明内容

本发明的目的在于提供一种蛋白质翻译后修饰甲基化位点的预测方法，它对蛋白质甲基化位点的预测具有快速、高通量和准确度高的优点。

本发明是这样实现的，一种蛋白质翻译后修饰甲基化位点的预测方法，其特征在于：首先，收集实验验证的蛋白质甲基化数据，进行序列预处理后得到正负样本序列，对样本序列进行序列信息、进化信息和物理化学性质等三方面的特征编码；然后，采用信息增益方法优化特征，再采用支持向量机进行机器学习和构建预测模型，用评价指标判断预测模型的性能；最后，构建蛋白质甲基化位点网络预测平台，用于蛋白质甲基化位点的在线预测。

本发明采用以下技术方案：基于以上所述，本发明的具体步骤为：

步骤1），收集蛋白质甲基化数据：甲基化蛋白从蛋白质数据库中收集，正样本是经实验验证标记的甲基化位点，负样本是从与正样本相同的蛋白中随机挑选的跟正样本数量相同的未标记的精氨酸和赖氨酸序列；

步骤2），样本序列预处理：将收集的正负样本序列经过cd-hit工具去除30%的同源性，再统一切割成以精氨酸或赖氨酸为中心，上游为9个氨基酸，下游为9个氨基酸，长度为19的序列；

步骤3），样本序列特征编码：对正负样本序列的序列信息、进化信息和物理化学性质进行特征编码；

步骤4），采用信息增益方法优化特征：由步骤3的特征编码得到的维数比较大，且有冗余的信息，所以，采用信息增益的方法挑选重要的维数组成新的特征，不仅能减少维数，还能提高预测的准确度；信息增益的原理是根据信息熵进行挑选，其具体步骤如下：

当一个特征向量定义为X时，其信息熵为：

(1)

[x _i]是X的数值集中的一个子集，P(x _i)是x _i的先验概率；

X在给定另一个组Y中的条件熵定义为：

(2)

P(x _i|y _j)是X给另外一个值y _i的后验概率；

通过X熵的减少量反映X提供给Y的增加熵，称作信息增益：

(3)

以上理论表明，信息熵的值越大，该特征越重要；

步骤5），构建预测模型：采用步骤4的信息增益优化方法优化步骤3的样本序列特征编码，得到最优特征向量，将最优特征向量输入支持向量机进行10倍交叉验证训练学习，以灵敏度、特异度、准确度和马氏相关系数作为评价指标对模型进行评价，筛选出最优预测模型；用筛选出的最优预测模型对独立测试集样本进行测试，验证预测模型的性能。

上述方法中，步骤3）中样本序列进行特征编码的具体实施步骤如下：

（1）样本序列的序列信息编码：序列信息包括氨基酸出现频率、二进制编码和K-空间氨基酸对；氨基酸出现频率是根据20种氨基酸在长度为19的序列中出现的频数进行编码；二进制编码是把序列中每个氨基酸都转化为一个20维的向量；K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频数，根据频数进行编码；

（2）样本序列的进化信息编码：基于K-近邻打分特征进行编码，比对未知的序列与已知的甲基化序列进行相似性打分，当打分大于0.5时认为是甲基化序列，，否则为非甲基化序列；相似性主要是基于空间距离的比对，其距离的计算方法如下：

两条序列s ₁=[s ₁(i)]和s ₂=[s ₂(i)]的距离Dist (s ₁,s ₂)定义为：

(4)

(5)

p代表蛋白序列长度，Sim是氨基酸相似矩阵BLOSUM62，a和b分别代表氨基酸残基，M是置换矩阵，max{M}是矩阵最大值，min{M}是矩阵最小值；

（3）样本序列的物理化学性质编码：把样本序列残基转化为对应的物理化学性质的数值，用支持向量机对544种氨基酸物理化学性质一一编码测试，选取其中三个预测准确度最高的物理化学性质，作为氨基酸物理化学性质编码。

本发明还涉及一种蛋白质翻译后修饰甲基化位点的预测方法的应用：采用构建的预测模型开发在线网络预测平台http://bioinfo.ncu.edu.cn/PSSMe.aspx，只需在预测平台的指定区域输入蛋白质名称或蛋白质序列，即可直接给出该蛋白质中可能出现的甲基化位点预测信息，实现对蛋白质甲基化位点的在线预测；同时，在预测平台的指定区域输入多条蛋白质序列，即可实现对蛋白质甲基化位点的高通量预测。

本发明的技术效果是：本发明先从蛋白质数据库中收集甲基化蛋白质数据，经去同源和切割预处理后得到正负样本序列，对样本序列进行序列信息、进化信息和物理化学性质特征编码，并采用信息增益方法优化特征，将最优特征向量输入支持向量机进行10倍交叉验证训练学习筛选出最优预测模型，基于最优模型开发在线网络预测平台，只需在预测平台的指定区域输入蛋白质名称或蛋白质序列，即可直接给出该蛋白质中可能出现的甲基化位点预测信息，该方法具有快速、高通量和准确性好的优点。

附图说明

图1是采用K-近邻打分特征编码区分精氨酸甲基化与非甲基化序列结果图。(a)人类、(b)老鼠和(c)大老鼠的甲基化序列打分，(e)人类、(d)老鼠和(f)大老鼠的非甲基化序列打分。

图2是采用K-近邻打分特征编码区分赖氨酸甲基化与非甲基化序列结果图。(a)人类、(b)老鼠和(c)其他真核生物的甲基化序列打分，(e)人类、(d)老鼠和(f)其他真核生物的非甲基化序列打分。

图3是信息增益优化后的特征与单个特征对不同物种模型预测准确度的比较图：(a)精氨酸人类模型，(b)精氨酸老鼠模型，(c)精氨酸大老鼠模型，(d)精氨酸混合模型，(e)赖氨酸人类模型，(f)赖氨酸老鼠模型，(g)赖氨酸其他真核生物模型，(h)赖氨酸混合模型。

图4是B4DEH8蛋白甲基化位点的预测结果图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步阐述，本发明并不限于此；

实施例1

从UniProt和PhosphoSite等蛋白质数据库中收集蛋白质甲基化数据，正样本是经实验验证标记的甲基化位点，负样本是从与正样本相同的蛋白中随机挑选的跟正样本数量相同的未标记的精氨酸（R）和赖氨酸（K）序列。将以上收集的蛋白序列经过cd-hit工具去除30%的同源性，再统一切割成以R或K为中心、上游为9个氨基酸、下游为9个氨基酸、长度为19的序列。对统一切割预处理后的正负样本序列按照以下步骤进行序列信息、进化信息和物理化学性质特征编码：

（1）样本序列的序列信息编码：序列信息包括氨基酸出现频率、二进制编码和K-空间氨基酸对；氨基酸出现频率是根据20种氨基酸在长度为19的序列中出现的频数进行编码；二进制编码是把序列中每个氨基酸都转化为一个20维的向量；K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频数，根据频数进行编码。

（2）样本序列的进化信息编码：基于K-近邻打分特征进行编码，比对未知的序列与已知的甲基化序列进行相似性打分，当打分大于0.5时认为是甲基化序列，否则为非甲基化序列。相似性主要是基于空间距离的比对，其距离的计算方法如下：

p代表蛋白序列长度，Sim是氨基酸相似矩阵BLOSUM62，a和b分别代表氨基酸残基，M是置换矩阵，max{M}是矩阵最大值，min{M}是矩阵最小值。

进化信息训练的结果如图1和图2所示，图1是精氨酸序列K-近邻打分，图2是赖氨酸序列K-近邻打分。可见，当打分大于0.5时，该序列被认为能发生甲基化，而当打分小于0.5时，则为非甲基化序列。该特征能显著区分甲基化和非甲基化位点，可用于对蛋白质甲基化位点的预测。

由以上特征编码得到的维数比较大，且有冗余信息，而采用信息增益方法挑选重要的维数组成新特征，不仅能减少维数，还能提高预测的准确度。信息增益的原理是根据信息熵进行挑选，具体步骤如下：

当一个特征向量定义为X时，其信息熵为：

[x _i]是X的数值集中的一个子集，P(x _i)是x _i的先验概率；

X在给定另一个组Y中的条件熵定义为：

P(x _i|y _j)是X给另外一个值y _i的后验概率；

通过X熵的减少量反映X提供给Y的增加熵，称作信息增益：

以上理论表明，信息熵的值越大，该特征越重要。

图3是信息增益优化后的特征与单个特征对不同物种模型预测准确度的比较。由图可见，对精氨酸人类模型，采用单个特征得到的最高预测准确度为72.65%，而采用信息增益优化后的特征得到的预测准确度为78.94%，提高了6.29%（图3a）；对精氨酸老鼠模型，采用单个特征得到的最高预测准确度为71.64%，而采用信息增益优化后的特征得到的预测准确度为77.49%，提高了5.85%（图3b）；对精氨酸大老鼠模型，采用单个特征得到的最高预测准确度为73.67%，而采用信息增益优化后的特征得到的预测准确度为80.06%，提高了6.39%（图3c）；对精氨酸混合模型，采用单个特征得到的最高预测准确度为71.49%，而采用信息增益优化后的特征得到的预测准确度为75.82%，提高了4.33%（图3d）。对赖氨酸人类模型，采用单个特征得到的最高预测准确度为67.84%，而采用信息增益优化后的特征得到的预测准确度为73.62%，提高了5.78%（图3e）；对赖氨酸老鼠模型，采用单个特征得到的最高预测准确度为68.01%，而采用信息增益优化后的特征得到的预测准确度为81.18%，提高了13.17%（图3f）；对赖氨酸老鼠模型，采用单个特征得到的最高预测准确度为67.79%，而采用信息增益优化后的特征得到的预测准确度为80.36%，提高了12.57%（图3g）；对赖氨酸混合模型，采用单个特征得到的最高预测准确度为65.78%，而采用信息增益优化后的特征得到的预测准确度为73.36%，提高了7.58%（图3h）。以上结果表明，采用信息增益的方法对特征进行优化后，对蛋白质甲基化位点的预测准确度比单个特征预测的准确度显著提高，表明信息增益能的方法可显著优化特征。

采用信息增益优化方法优化样本序列特征编码，得到最优特征向量，将最优特征向量输入支持向量机进行10倍交叉验证训练学习，以灵敏度、特异度、准确度和马氏相关系数作为评价指标对模型进行评价，筛选出最优预测模型，并用筛选出的最优预测模型对独立测试集样本进行测试，验证预测模型的性能，建立了甲基化位点物种特异性预测模型（PSSMe）。

实施例2

为了方便蛋白质甲基化位点的预测应用，基于PSSMe并采用MATLAB和C#语言联合编程，开发了在线预测平台（http://bioinfo.ncu.edu.cn/PSSMe.aspx）。只需在该网站的指定区域输入需要预测蛋白在UniProt数据库中的蛋白名称或蛋白fasta格式序列，就可以进行该蛋白可能的甲基化位点预测。例如，用户想预测蛋白名为“B4DEH8”的序列的甲基化位点，只需在网站的蛋白名处输入“B4DEH8”，点击“Load”键，PSSMe工具将自动从UniProt数据库中下载该蛋白序列并导入到指定区域，B4DEH8蛋白序列信息如下：

>tr|B4DEH8|B4DEH8_HUMAN

MEEEAEKLKELQNEVEKQMNMSPPPGNAGPVIMSIEEKMEADARSIYVGNVDYGATAEELEAHFHGCGSVNRVTILCDKFSGHPKGFAYIEFSDKESVRTSLALDESLFRGRQIKVIPKRTNRPGISTTDRGFPRARYRARTTNYNSSRSRFYSGFNSRPRGRVYRSG

当B4DEH8蛋白序列导入后，用户选择需要预测的是R甲基化还是K甲基化，即可预测出该蛋白在精氨酸或赖氨酸上发生甲基化的位点。本方法还可以用于对不同物种蛋白质甲基化位点的预测，用户只需选择所需预测的物种类型，即可预测出该物种蛋白质发生甲基化的位点。当B4DEH8蛋白质选择精氨酸人类模型时，点击提交后，后台程序会自动进行该蛋白质序列的预处理、特征编码、信息增益的特征优化及支持向量机的学习，最后给出甲基化位点的预测信息，当预测概率大于0.5时被认定为甲基化位点，反之为非甲基化位点。图4为蛋白名为“B4DEH8”的序列在精氨酸人类模型上发生甲基化的预测结果。由图可见，第一列为蛋白名，第二列为甲基化位点在蛋白序列的位置，第三列为以甲基化位点为中心的长度为19的蛋白序列，第四列为支持向量机预测该位置上的氨基酸发生甲基化的概率。采用本方法构建的PSSMe预测出B4DEH8蛋白质共有11个位置的精氨酸能发生甲基化，分别是在序列位置的第110, 112, 131, 135, 137, 141, 151, 159, 161, 163, 166处，且发生甲基化的概率分别为0.77621, 0.61148, 0.73182, 0.72489, 0.65894, 0.51302, 0.66732,0.63348, 0.86128, 0.90358, 0.72676。预测概率越大，表明该位置的精氨酸发生甲基化的可能性越大。用户可根据预测结果，方便快速地确定一些潜在的蛋白质甲基化位点，例如，第一行，B4DEH8蛋白质序列位置为110处的R能发生甲基化，发生甲基化的概率为0.77621，以该位点为中心的长度为19的序列残基为SLALDESLF-R-GRQIKDIPK。同时，当在预测平台的指定区域输入多条蛋白质序列时，还可实现对蛋白质甲基化位点的高通量预测。研究者可根据以上提供的预测结果进一步缩小研究范围，减少实验验证蛋白质甲基化位点的次数，对理解蛋白质甲基化机理和相关功能具有重要意义。

Claims

1.一种蛋白质翻译后修饰甲基化位点的预测方法，其特征在于：首先，收集实验验证的蛋白质甲基化数据，进行序列预处理后得到正负样本序列，对样本序列进行序列信息、进化信息和物理化学性质等三方面的特征编码；然后，采用信息增益方法优化特征，再采用支持向量机进行机器学习和构建预测模型，用评价指标判断预测模型的性能；最后，构建蛋白质甲基化位点网络预测平台，用于蛋白质甲基化位点的在线预测。

2.根据权利要求1所述的一种蛋白质翻译后修饰甲基化位点的预测方法，其特征在于：具体步骤为：

当一个特征向量定义为X时，其信息熵为：

(1)

[x _i]是X的数值集中的一个子集，P(x _i)是x _i的先验概率；

X在给定另一个组Y中的条件熵定义为：

(2)

P(x _i|y _j)是X给另外一个值y _i的后验概率；

通过X熵的减少量反映X提供给Y的增加熵，称作信息增益：

(3)

以上理论表明，信息熵的值越大，该特征越重要；

3.根据权利要求2所述的一种蛋白质翻译后修饰甲基化位点的预测方法，其特征在于：步骤3中样本序列特征编码的具体实施步骤如下：

(4)

(5)

4.根据权利要求1所述的一种蛋白质翻译后修饰甲基化位点的预测方法的应用，其特征在于：采用构建的预测模型开发在线网络预测平台http://bioinfo.ncu.edu.cn/PSSMe.aspx，只需在预测平台的指定区域输入蛋白质名称或蛋白质序列，即可直接给出该蛋白质中可能出现的甲基化位点预测信息，实现对蛋白质甲基化位点的在线预测；同时，在预测平台的指定区域输入多条蛋白质序列，即可实现对蛋白质甲基化位点的高通量预测。