CN107463795A - 一种识别酪氨酸翻译后修饰位点的预测算法 - Google Patents

一种识别酪氨酸翻译后修饰位点的预测算法 Download PDF

Info

Publication number
CN107463795A
CN107463795A CN201710651300.XA CN201710651300A CN107463795A CN 107463795 A CN107463795 A CN 107463795A CN 201710651300 A CN201710651300 A CN 201710651300A CN 107463795 A CN107463795 A CN 107463795A
Authority
CN
China
Prior art keywords
sequence
tyrosine
posttranslational modification
site
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710651300.XA
Other languages
English (en)
Inventor
施绍萍
曹曼
陈国东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN201710651300.XA priority Critical patent/CN107463795A/zh
Publication of CN107463795A publication Critical patent/CN107463795A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种识别酪氨酸翻译后修饰位点的预测算法,包括步骤:数据收集;数据处理;特征编码;特征优化;模型训练与评估。本发明还公开了一种预测算法的应用。从蛋白质序列信息、进化信息和物理化学属性角度全面提取酪氨酸翻译后修饰位点的特征,以Elastic Net为优化手段自动选取变量对多维特征进行筛选,去除冗余信息,且结合SVM构建酪氨酸硝基化、硫化和磷酸化位点预测模型,提升预测模型的预测能力,显著提高酪氨酸翻译后修饰位点的预测质量。开发的预测软件平台TyrPred实现了对完整蛋白质上酪氨酸硝基化、硫化和磷酸化三种修饰位点的预测分析,为酪氨酸翻译后修饰的研究提供方便、经济、快捷的研究工具和重要参考。

Description

一种识别酪氨酸翻译后修饰位点的预测算法
技术领域
本发明涉及特别用于特定应用的数字计算或数据处理设备或数据处理方法,尤其涉及一种识别酪氨酸翻译后修饰位点的预测算法。
背景技术
酪氨酸翻译后修饰包含硝基化、硫化和磷酸化三种。酪氨酸硝基化主要是组织细胞中活性氧与活性氮的相互作用,活性氧与活性氮的大量产生可直接损伤蛋白质、核酸和脂质大分子。研究表明,人类的多种疾病如动脉粥样硬化、帕金森症、慢性肾衰竭等均与酪氨酸硝基化有关。酪氨酸硫化主要是酪氨酰蛋白硫酸基转移酶催化蛋白质中酪氨酸残基发生硫化反应,这种酶能够催化3′-磷酸腺昔-5′-磷酰硫酸的硫酸基团转移到蛋白质中的酪氨酸残基上。酪氨酸硫化调节异常会导致肺病、HIV感染等。酪氨酸磷酸化在DNA修复、细胞凋亡、免疫反应等方面扮演重要角色,在细胞信号转导中酪氨酸磷酸化具有重要调节作用。蛋白酪氨酸激酶参与调节细胞增生、分化和免疫系统信号转导过程,多种具有酪氨酸激酶活性的受体的胞浆内都含有酪氨酸残基,该残基磷酸化后能介导信号传递,而酪氨酸残基硝基化后抑制了其磷酸化,导致信号过程的失控,引起炎症反应和疾病。因此,酪氨酸翻译后修饰位点的知识将有助于各种相关疾病的药物设计,这些位点的识别也是理解它们修饰动力学和分子机制的基础。
现有多种实验方法可以对酪氨酸翻译后修饰位点进行识别,但这些实验技术识别效率较低、耗时长且费用高。而采用生物信息学方法预测酪氨酸翻译后修饰位点的方法和工具,诸如:Li等基于序列信息构建的GPS-NO2预测酪氨酸硝基化位点的平台;Huang等基于二级结构、物理化学性质和自相关系数提取特征建立的识别酪氨酸硫化位点的预测器;Xue等基于GPS建立的可以分等级地预测激酶特异性磷酸化的工具;以及Gao等基于氨基酸序列相似性、无序打分和氨基酸频率等特征建立的Musite工具预测激酶特异性磷酸化位点;尚存在以下缺陷:仅能单一预测酪氨酸硝基化或硫化或磷酸化,而不能同时预测这三种修饰;构建模型时收集的训练样本比较少;未对特征进行优化和筛选,预测性能不够理想;除了GPS和Musite,其余方法都未开发相应的预测软件。
由于一个酪氨酸残基在同一时间只能发生一种修饰,而一条蛋白上的多个酪氨酸残基可以同时被修饰,酪氨酸残基可能经历连续的或级联的共价修饰,其中个别残基的修饰可能会影响其邻近残基的修饰。因此,预测完整蛋白序列上酪氨酸残基的硝基化、硫化和磷酸化对进一步的实验研究是重要和有益的。
发明内容
本发明的目的在于针对现有预测方法的不足,提供一种识别酪氨酸翻译后修饰位点的预测算法,还提供一种识别酪氨酸翻译后修饰位点的预测算法的应用。
本发明解决上述技术问题所提供的技术方案为:
一种识别酪氨酸翻译后修饰位点的预测算法,包括如下步骤:
1)数据收集
从蛋白质数据库和近几年相关文献中收集酪氨酸硝基化、硫化和磷酸化翻译后修饰的数据;
2)数据处理
去除冗余的同源性高的蛋白序列,得到非冗余的酪氨酸硝基化、硫化和磷酸化修饰的正样本数据集和负样本数据集,并参考相关文献截取序列片段;
3)特征编码
提取正样本数据集的蛋白、负样本数据集的蛋白的序列信息、进化信息和物理化学性质,对正样本蛋白、负样本蛋白进行多维特征编码;
4)特征优化
以弹性网络(Elastic Net)为优化手段,采用Elastic Net方法对多维特征编码的多维特征向量进行筛选,去除冗余信息,获得最优特征向量;
5)模型训练与评估
将最优特征向量通过支持向量机(Support Vector Machine,缩略词SVM)进行10倍交叉验证训练,对预测模型进行评价,优化参数,构建最优预测模型。
所述步骤1)中的蛋白质数据库是PhosphoSitPlus数据库、UniProtKB/Swiss-Prot数据库、SYSPTM数据库和dbPTM数据库中的至少一种。
所述PhosphoSitPlus数据库只收集其中有相关激酶注释的能发生酪氨酸磷酸化的数据。
所述步骤2)去除同源性高的蛋白序列是采用CD-HIT程序去除从几个不同的蛋白质数据库中收集的同源性即具有相同或相似性大于30%的高同源蛋白序列,所述CD-HIT是一种聚类生物序列以减少序列冗余和改进其他序列分析性能的广泛使用的程序。
所述步骤2)截取序列片段是分别以酪氨酸为中心,上游和下游分别截取相同数量的序列片段。
所述步骤3)的正样本是蛋白质数据库中收集到的经实验验证的数据标记样本。
所述步骤3)的负样本是从与正样本相同的蛋白中随机挑选出与正样本数量相同但未经实验验证的数据标记样本。
所述步骤3)多维特征编码包括如下子步骤:
3 ▪1)样本序列的序列信息编码:序列信息包括氨基酸出现频率、二进制编码,氨基酸位置权重和K-空间氨基酸对;
所述氨基酸出现频率是根据20种氨基酸在序列片段中出现的频率进行编码;
所述二进制编码是将序列中每个氨基酸都转化为一个20维的向量;
所述氨基酸位置权重是根据20种氨基酸在序列片段中不同位置的重要性进行特征编码;
所述K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频率,根据频率进行编码;
3 ▪2)样本序列的进化信息编码:基于K-近邻(k-Nearest Neighbor,缩略词KNN)分类算法的打分特征进行编码,未知的序列与已知的酪氨酸翻译后修饰序列进行相似性打分,当打分大于0.5时,认为是目标序列,当打分小于或等于0.5时,认为是非目标序列;相似性主要是基于空间距离的比对,其距离的计算方法如下:
两条序列的距离定义为:
(1)
(2)
公式(1)、(2)中:
L:中心位点附近上游和下游的氨基酸数量;
:氨基酸相似矩阵BLOSUM62;
:序列S 1上的氨基酸残基;
:序列S 2上的氨基酸残基;
:置换矩阵;
:矩阵最大值;
:矩阵最小值;
3 ▪3)样本序列的物理化学性质编码:基于氨基酸分组权重进行编码是根据20种氨基酸的物理化学性质,将其分成四类:疏水组、极性组、带正电荷组和带负电荷组,然后两两一组,分为互不相邻的三组,发生则为1,反之则为0。
所述步骤4)采用Elastic Net方法对多维特征编码的多维特征向量进行筛选,包括如下子步骤:
4 ▪1)假设观测数据是经过标准化和中心化的数据,
4 ▪2)令,则
(3)
称函数 为Elastic Net惩罚;
4 ▪3)Elastic Net通过优化调和参数筛选特征向量,t值越大,则有更多的特征向量被选择。
所述子步骤4 ▪3)的调和参数
所述步骤5)的模型训练与评估是将最优特征向量通过支持向量机SVM进行10倍交叉验证训练,以灵敏度(Sn)、特异度(Sp)、准确度(Acc)和马氏相关系数(MCC)作为评价指标对预测模型进行评价。
本发明的一种识别酪氨酸翻译后修饰位点的预测算法的应用,其特征在于,基于最优模型开发方便用户使用的酪氨酸硝基化、硫化和磷酸化位点的预测软件,所述预测软件是基于支持向量机SVM构建最优模型采用MATLAB软件和C#编程语言开发的预测软件平台TyrPred。
所述预测软件平台TyrPred在用户提交至少一条FASTA格式的未知蛋白质序列且选择要预测的翻译后修饰类型后,就高效地返回潜在的酪氨酸翻译后修饰位点的预测信息,实现对完整蛋白质上酪氨酸硝基化、硫化和磷酸化位点的高通量预测,所述预测信息包括蛋白质名称、修饰位点位置、修饰位点的侧翼残基和SVM概率值。
本发明的预测算法与现有方法相比的有益效果如下:
本发明从蛋白质序列信息、进化信息和物理化学属性角度全面提取酪氨酸翻译后修饰位点的特征,以弹性网络(Elastic Net)为优化手段,采用Elastic Net方法自动选取变量的特性对多维特征进行筛选,去除冗余信息,且结合支持向量机SVM构建酪氨酸硝基化、硫化和磷酸化位点预测模型,提升预测模型对酪氨酸翻译后修饰位点的预测能力,显著提高酪氨酸硝基化、硫化和磷酸化位点的预测质量。本发明开发的预测软件平台TyrPred实现了对完整蛋白质上酪氨酸硝基化、硫化和磷酸化三种修饰位点的预测分析,为酪氨酸翻译后修饰的研究提供方便、经济、快捷的研究工具和重要参考。
附图说明
图1是本发明的实施例1对酪氨酸翻译后修饰位点预测的整体流程图;
图2是本发明的实施例2的蛋白名为“B2RSH2”的序列发生酪氨酸硫化的位点预测结果图。
具体实施方式
为了更好地理解上述方案,下面结合具体实施例和附图对本发明作进一步说明。
实施例1
一种如图1所示的识别酪氨酸翻译后修饰位点的预测算法,具体步骤如下:
1)数据收集
从蛋白质数据库和近几年相关文献中收集酪氨酸硝基化、硫化和磷酸化翻译后修饰的数据,蛋白质数据库是PhosphoSitPlus数据库、UniProtKB/Swiss-Prot数据库、SYSPTM数据库和dbPTM数据库中的至少一种,PhosphoSitPlus数据库只收集其中有相关激酶注释的能发生酪氨酸磷酸化的数据;
2)数据处理
采用CD-HIT程序去除从几个不同的蛋白质数据库中收集的同源性即具有相同或相似性大于30%的高同源蛋白序列,得到非冗余的酪氨酸硝基化、硫化和磷酸化修饰的正样本数据集和负样本数据集,并参考相关文献分别以酪氨酸为中心,上游和下游分别截取相同数量的序列片段,本发明实施例1中酪氨酸硝基化和磷酸化的窗口大小为15,酪氨酸硫化的窗口大小为9;
3)特征编码
提取正样本数据集的蛋白、负样本数据集的蛋白的序列信息、进化信息和物理化学性质,对正样本蛋白、负样本蛋白进行多维特征编码,正样本是蛋白质数据库中收集到的经实验验证的数据标记样本;负样本是从与正样本相同的蛋白中随机挑选出与正样本数量相同但未经实验验证的数据标记样本;包括如下子步骤:
3 ▪1)样本序列的序列信息编码:序列信息包括氨基酸出现频率、二进制编码,氨基酸位置权重和K-空间氨基酸对;氨基酸出现频率是根据20种氨基酸在序列片段中出现的频率进行编码;二进制编码是将序列中每个氨基酸都转化为一个20维的向量;氨基酸位置权重是根据20种氨基酸在序列片段中不同位置的重要性进行特征编码;K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频率,根据频率进行编码;
3 ▪2)样本序列的进化信息编码:基于K-近邻分类算法的打分特征进行编码,未知的序列与已知的酪氨酸翻译后修饰序列进行相似性打分,当打分大于0.5时,认为是目标序列,当打分小于或等于0.5时,认为是非目标序列;相似性主要是基于空间距离的比对,其距离的计算方法如下:
两条序列的距离定义为:
(1)
(2)
公式(1)、(2)中:
L:中心位点附近上游和下游的氨基酸数量;
:氨基酸相似矩阵BLOSUM62;
:序列S 1上的氨基酸残基;
:序列S 2上的氨基酸残基;
:置换矩阵;
:矩阵最大值;
:矩阵最小值;
3 ▪3)样本序列的物理化学性质编码:基于氨基酸分组权重进行编码是根据20种氨基酸的物理化学性质,将其分成四类:疏水组、极性组、带正电荷组和带负电荷组,然后两两一组,分为互不相邻的三组,发生则为1,反之则为0。
4)特征优化
以Elastic Net为优化手段,采用Elastic Net方法对多维特征编码的多维特征向量进行筛选,去除冗余信息,获得最优特征向量,包括如下子步骤:
4 ▪1)假设观测数据是经过标准化和中心化的数据,即
4 ▪2)令,则
(3)
称函数为Elastic Net惩罚;
4 ▪3)Elastic Net通过优化调和参数筛选特征向量,t值越大,则有更多的特征向量被选择,调和参数
5)模型训练与评估
将最优特征向量通过支持向量机SVM进行10倍交叉验证训练,以灵敏度(Sn)、特异度(Sp)、准确度(Acc)和马氏相关系数(MCC)作为评价指标对预测模型进行评价,优化参数,构建最优预测模型。
实施例2
预测软件平台TyrPred应用于预测蛋白名为“B2RSH2”的酪氨酸硝基化位点和酪氨酸硫化位点。
预测软件是基于SVM构建最优模型采用MATLAB软件和C#编程语言开发的预测软件平台TyrPred。预测软件平台TyrPred在用户提交至少一条FASTA格式的未知蛋白质序列且选择要预测的翻译后修饰类型后,就高效地返回潜在的酪氨酸翻译后修饰位点的预测信息,实现同时对完整蛋白质上酪氨酸硝基化、硫化和磷酸化位点的高通量预测,预测信息包括蛋白质名称、修饰位点位置、修饰位点的侧翼残基和SVM概率值。
用户预测蛋白名为“B2RSH2”的序列的硝基化位点,只需在预测软件平台TyrPred预测界面中输入如下的B2RSH2 FASTA格式的未知蛋白质序列:
>sp|B2RSH2|GNAI1_MOUSE MGCTLSAEDKAAVERSKMIDRNLREDGEKAAREVKLLLLGAGESGKSTIVKQMKIIHEAGYSEEECKQYKAVVYSNTIQSIIAIIRAMGRLKIDFGDSARADDARQLFVLAGAAEEGFMTAELAGVIKRLWKDSGVQACFNRSREYQLNDSAAYYLNDLDRIAQPNYIPTQQDVLRTRVKTTGIVETHFTFKDLHFKMFDVGGQRSERKKWIHCFEGVTAIIFCVALSDYDLVLAEDEEMNRMHESMKLFDSICNNKWFTDTSIILFLNKKDLFEEKIKKSPLTICYPEYAGSNTYEEAAAYIQCQFEDLNKRKDTKEIYTHFTCATDTKNVQFVFDAVTDVIIKNNLKDCGLF
且选择要预测的翻译后修饰类型是硝基化(Nitration),点击“submit”键,即可预测出该蛋白在酪氨酸上发生的硝基化位点。
本方法还可以用于对酪氨酸其他修饰位点的预测,用户只需选择所需预测的修饰类型,即可预测出该蛋白质发生酪氨酸翻译后修饰的位点。
用户预测蛋白名为“B2RSH2”的序列的硫化位点,只需选择酪氨酸硫化模型(Sulfation),点击提交后,后台程序会自动进行序列的处理、特征编码、特征优化及SVM的学习,并且给出硫化位点的预测概率。
图2是蛋白名为“B2RSH2”的序列发生酪氨酸硫化的位点预测结果图。如图2所示,预测结果有五列,第一列为序号,第二列为蛋白名,第三列为硫化位点在蛋白序列的位置,第四列为以硫化位点为中心的长度为9的侧翼序列,第五列为SVM预测该位置上的氨基酸发生硫化的概率。
采用本方法构建的预测软件平台Tyrpred预测出B2RSH2蛋白质2个潜在的酪氨酸硫化位点,分别在序列位置的第167、230处。由于此时阈值为0.7,则当概率大于0.7时被认定为硫化位点,反之为非硫化位点,预测概率越大,表明该位置的氨基酸发生硫化的可能性越大。
用户可根据自己的需求调整阈值大小,确定可能的蛋白硫化位点。如,在第一行中,蛋白名为“B2RSH2”的序列位置为167,表明在该蛋白序列位置为167处的Y能发生硫化,发生硫化的概率为0.72002,以该位点为中心的长度为9的序列为AQPN-Y-IPTQ。同时,用户还可以在软件预测界面输入多条蛋白质序列,即可实现对酪氨酸修饰位点的高通量预测。研究者可根据以上提供的预测结果进一步缩小研究范围,减少实验验证酪氨酸硝基化、硫化和磷酸化位点的次数,对理解酪氨酸翻译后修饰机理和相关功能具有重要意义。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明由所提交的权利要求书确定的专利保护范围。

Claims (10)

1.一种识别酪氨酸翻译后修饰位点的预测算法,其特征在于,包括如下步骤:
1)数据收集
从蛋白质数据库和近几年相关文献中收集酪氨酸硝基化、硫化和磷酸化翻译后修饰的数据;
2)数据处理
去除冗余的同源性高的蛋白序列,得到非冗余的酪氨酸硝基化、硫化和磷酸化修饰的正样本数据集和负样本数据集,并参考相关文献截取序列片段;
3)特征编码
提取正样本数据集的蛋白、负样本数据集的蛋白的序列信息、进化信息和物理化学性质,对正负样本蛋白进行多维特征编码;
4)特征优化
以Elastic Net为优化手段,采用Elastic Net方法对多维特征编码的多维特征向量进行筛选,去除冗余信息,获得最优特征向量;
5)模型训练与评估
将最优特征向量通过支持向量机SVM进行10倍交叉验证训练,对预测模型进行评价,优化参数,构建最优预测模型。
2.如权利要求1所述的识别酪氨酸翻译后修饰位点的预测算法,其特征在于,所述步骤1)中的蛋白质数据库是PhosphoSitPlus数据库、UniProtKB/Swiss-Prot数据库、SYSPTM数据库和dbPTM数据库中的至少一种,所述PhosphoSitPlus数据库只收集其中有相关激酶注释的能发生酪氨酸磷酸化的数据。
3.如权利要求1所述的识别酪氨酸翻译后修饰位点的预测算法,其特征在于,所述步骤2)去除同源性高的蛋白序列是采用CD-HIT程序去除从几个不同的蛋白质数据库中收集的同源性即具有相同或相似性大于30%的高同源蛋白序列。
4.如权利要求1或3所述的识别酪氨酸翻译后修饰位点的预测算法,其特征在于,所述步骤2)截取序列片段是分别以酪氨酸为中心,上游和下游分别截取相同数量的序列片段。
5.如权利要求1所述的识别酪氨酸翻译后修饰位点的预测算法,其特征在于,所述步骤3)的正样本是蛋白质数据库中收集到的经实验验证的数据标记样本;所述步骤3)的负样本是从与正样本相同的蛋白中随机挑选出与正样本数量相同但未经实验验证的数据标记样本。
6.如权利要求1所述的识别酪氨酸翻译后修饰位点的预测算法,其特征在于,所述步骤3)多维特征编码包括如下子步骤:
3 ▪1)样本序列的序列信息编码:序列信息包括氨基酸出现频率、二进制编码,氨基酸位置权重和K-空间氨基酸对;所述氨基酸出现频率是根据20种氨基酸在序列片段中出现的频率进行编码;所述二进制编码是将序列中每个氨基酸都转化为一个20维的向量;所述氨基酸位置权重是根据20种氨基酸在序列片段中不同位置的重要性进行特征编码;所述K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频率,根据频率进行编码;
3 ▪2)样本序列的进化信息编码:基于K-近邻分类算法的打分特征进行编码,未知的序列与已知的酪氨酸翻译后修饰序列进行相似性打分,当打分大于0.5时,认为是目标序列,当打分小于或等于0.5时,认为是非目标序列;相似性主要是基于空间距离的比对,其距离的计算方法如下:
两条序列的距离定义为:
(1)
(2)
公式(1)、(2)中:
L:中心位点附近上游和下游的氨基酸数量;
:氨基酸相似矩阵BLOSUM62;
:序列S 1上的氨基酸残基;
:序列S 2上的氨基酸残基;
:置换矩阵;
:矩阵最大值;
:矩阵最小值;
3 ▪3)样本序列的物理化学性质编码:基于氨基酸分组权重进行编码是根据20种氨基酸的物理化学性质,将其分成四类:疏水组、极性组、带正电荷组和带负电荷组,然后两两一组,分为互不相邻的三组,发生则为1,反之则为0。
7.如权利要求1所述的识别酪氨酸翻译后修饰位点的预测算法,其特征在于,所述步骤4)采用Elastic Net方法对多维特征编码的多维特征向量进行筛选,包括如下子步骤:
4 ▪1)假设观测数据是经过标准化和中心化的数据,
4 ▪2)令,则
(3)
称函数 为Elastic Net惩罚;
4 ▪3)Elastic Net通过优化调和参数筛选特征向量,t值越大,则有更多的特征向量被选择。
8.如权利要求1或7所述的识别酪氨酸翻译后修饰位点的预测算法,其特征在于,所述子步骤4 ▪3)的调和参数
9.如权利要求1所述的识别酪氨酸翻译后修饰位点的预测算法,其特征在于,所述步骤5)的模型训练与评估是将最优特征向量通过支持向量机SVM进行10倍交叉验证训练,以灵敏度(Sn)、特异度(Sp)、准确度(Acc)和马氏相关系数(MCC)作为评价指标对预测模型进行评价。
10.如权利要求1至9所述的识别酪氨酸翻译后修饰位点的预测算法的应用,其特征在于,基于最优模型开发方便用户使用的酪氨酸硝基化、硫化和磷酸化位点的预测软件,软件预测平台TyrPred是基于支持向量机SVM构建最优模型采用MATLAB软件和C#编程语言开发的预测软件平台TyrPred;所述预测软件平台TyrPred在用户提交至少一条FASTA格式的未知蛋白质序列且选择要预测的翻译后修饰类型后,就高效地返回潜在的酪氨酸翻译后修饰位点的预测信息,实现对完整蛋白质上酪氨酸硝基化、硫化和磷酸化位点的高通量预测,所述预测信息包括蛋白质名称、修饰位点位置、修饰位点的侧翼残基和SVM概率值。
CN201710651300.XA 2017-08-02 2017-08-02 一种识别酪氨酸翻译后修饰位点的预测算法 Pending CN107463795A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710651300.XA CN107463795A (zh) 2017-08-02 2017-08-02 一种识别酪氨酸翻译后修饰位点的预测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710651300.XA CN107463795A (zh) 2017-08-02 2017-08-02 一种识别酪氨酸翻译后修饰位点的预测算法

Publications (1)

Publication Number Publication Date
CN107463795A true CN107463795A (zh) 2017-12-12

Family

ID=60548137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710651300.XA Pending CN107463795A (zh) 2017-08-02 2017-08-02 一种识别酪氨酸翻译后修饰位点的预测算法

Country Status (1)

Country Link
CN (1) CN107463795A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830043A (zh) * 2018-06-21 2018-11-16 苏州大学 基于结构网络模型的蛋白质功能位点预测方法
CN109308935A (zh) * 2018-09-10 2019-02-05 天津大学 一种基于支持向量机预测非编码dna的方法及应用平台
CN110349628A (zh) * 2019-06-27 2019-10-18 广东药科大学 一种蛋白质磷酸化位点识别方法、系统、装置及存储介质
CN110970090A (zh) * 2019-11-18 2020-04-07 华中科技大学 一种用于判断待处理多肽与阳性数据集肽段相似度的方法
CN111489789A (zh) * 2020-04-21 2020-08-04 华中科技大学 一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法
CN111696621A (zh) * 2020-06-03 2020-09-22 广东药科大学 一种蛋白质磷酸化修饰位点-疾病关系识别方法、系统、装置及存储介质
CN112927754A (zh) * 2020-12-30 2021-06-08 邵阳学院 一个基于双向长短时记忆和卷积神经网络的赖氨酸琥珀酰化修饰预测方法
CN113450872A (zh) * 2021-07-02 2021-09-28 南昌大学 磷酸化位点特异激酶的预测方法
WO2021196358A1 (zh) * 2020-04-02 2021-10-07 上海之江生物科技股份有限公司 微生物目标片段中特异性区域的识别方法、装置及应用
WO2023025263A1 (en) * 2021-08-25 2023-03-02 Ensem Therapeutics Holding (Singapore) Pte. Ltd. Systems and methods for post-translational modification-inspired drug design and screening

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100086943A1 (en) * 2006-11-27 2010-04-08 Cis Bio International Method for the detection of post-translational modifications
CN102818896A (zh) * 2011-06-09 2012-12-12 北京华大蛋白质研发中心有限公司 一种基于特异抗体的硝基化修饰位点的检测方法及特异识别scot硝基化位点的抗体
CN103745135A (zh) * 2013-12-11 2014-04-23 深圳先进技术研究院 基于最近邻算法的蛋白激酶特异性预测方法及装置
CN103796667A (zh) * 2011-06-22 2014-05-14 艾普莱斯制药公司 用补体抑制剂治疗慢性障碍的方法
CN105893787A (zh) * 2016-06-21 2016-08-24 南昌大学 一种蛋白质翻译后修饰甲基化位点的预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100086943A1 (en) * 2006-11-27 2010-04-08 Cis Bio International Method for the detection of post-translational modifications
CN102818896A (zh) * 2011-06-09 2012-12-12 北京华大蛋白质研发中心有限公司 一种基于特异抗体的硝基化修饰位点的检测方法及特异识别scot硝基化位点的抗体
CN103796667A (zh) * 2011-06-22 2014-05-14 艾普莱斯制药公司 用补体抑制剂治疗慢性障碍的方法
CN103745135A (zh) * 2013-12-11 2014-04-23 深圳先进技术研究院 基于最近邻算法的蛋白激酶特异性预测方法及装置
CN105893787A (zh) * 2016-06-21 2016-08-24 南昌大学 一种蛋白质翻译后修饰甲基化位点的预测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ZOU H 等: ""Regularization and variable selection via the elastic-net"", 《JOURNAL OF THE ROYAL STATISTICAL SOCIETY: SERIES B (STATISTIC METHODOLOGY) HOMPAGE》 *
施绍萍: ""基于支持向量机的蛋白质功能预测新方法研究"", 《中国博士学位论文全文数据库基础科学辑》 *
汪邦山: ""酪氨酸修饰原位相互影响的生物信息学分析"", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *
赵晓威: ""蛋白质翻译后修饰及其相互作用预测方法研究"", 《中国博士学位论文全文数据库 基础科学辑》 *
陈祥: ""蛋白质翻译后修饰位点识别研究和应用"", 《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》 *
黄淑云: ""基于序列的蛋白质功能预测研究"", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830043B (zh) * 2018-06-21 2021-03-30 苏州大学 基于结构网络模型的蛋白质功能位点预测方法
CN108830043A (zh) * 2018-06-21 2018-11-16 苏州大学 基于结构网络模型的蛋白质功能位点预测方法
CN109308935A (zh) * 2018-09-10 2019-02-05 天津大学 一种基于支持向量机预测非编码dna的方法及应用平台
CN110349628A (zh) * 2019-06-27 2019-10-18 广东药科大学 一种蛋白质磷酸化位点识别方法、系统、装置及存储介质
CN110349628B (zh) * 2019-06-27 2021-06-15 广东药科大学 一种蛋白质磷酸化位点识别方法、系统、装置及存储介质
CN110970090A (zh) * 2019-11-18 2020-04-07 华中科技大学 一种用于判断待处理多肽与阳性数据集肽段相似度的方法
WO2021196358A1 (zh) * 2020-04-02 2021-10-07 上海之江生物科技股份有限公司 微生物目标片段中特异性区域的识别方法、装置及应用
CN111489789A (zh) * 2020-04-21 2020-08-04 华中科技大学 一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法
CN111489789B (zh) * 2020-04-21 2021-10-15 华中科技大学 一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法
CN111696621A (zh) * 2020-06-03 2020-09-22 广东药科大学 一种蛋白质磷酸化修饰位点-疾病关系识别方法、系统、装置及存储介质
CN111696621B (zh) * 2020-06-03 2023-03-31 广东药科大学 一种蛋白质磷酸化修饰位点-疾病关系识别方法、系统、装置及存储介质
CN112927754A (zh) * 2020-12-30 2021-06-08 邵阳学院 一个基于双向长短时记忆和卷积神经网络的赖氨酸琥珀酰化修饰预测方法
CN113450872A (zh) * 2021-07-02 2021-09-28 南昌大学 磷酸化位点特异激酶的预测方法
CN113450872B (zh) * 2021-07-02 2022-12-02 南昌大学 磷酸化位点特异激酶的预测方法
WO2023025263A1 (en) * 2021-08-25 2023-03-02 Ensem Therapeutics Holding (Singapore) Pte. Ltd. Systems and methods for post-translational modification-inspired drug design and screening

Similar Documents

Publication Publication Date Title
CN107463795A (zh) 一种识别酪氨酸翻译后修饰位点的预测算法
Wang et al. Deep learning for plant genomics and crop improvement
Tynecki et al. PhageAI-bacteriophage life cycle recognition with machine learning and natural language processing
KR101325736B1 (ko) 바이오 마커 추출 장치 및 방법
Binder et al. Big data in medical science—a biostatistical view: Part 21 of a series on evaluation of scientific publications
Zou et al. Approaches for recognizing disease genes based on network
CN109448787B (zh) 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
CN112927757B (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
Li et al. EP3: an ensemble predictor that accurately identifies type III secreted effectors
Rasheed et al. Metagenomic taxonomic classification using extreme learning machines
Suo et al. Application of clustering analysis in brain gene data based on deep learning
Dixit et al. Machine learning in bioinformatics: A novel approach for dna sequencing
Wang et al. A brief review of machine learning methods for RNA methylation sites prediction
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
Sherkatghanad et al. Using traditional machine learning and deep learning methods for on-and off-target prediction in CRISPR/Cas9: a review
Alzubi et al. SNPs-based hypertension disease detection via machine learning techniques
CN114582429A (zh) 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置
CN113764034A (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
Raza et al. iPro-TCN: Prediction of DNA Promoters Recognition and their Strength Using Temporal Convolutional Network
Gu et al. Prediction of disease-related miRNAs by voting with multiple classifiers
Upadhyay et al. Exploratory Data Analysis and Prediction of Human Genetic Disorder and Species Using DNA Sequencing
Biharie et al. Cell type matching across species using protein embeddings and transfer learning
CN112966702A (zh) 蛋白质-配体复合物的分类方法及分类装置
Alshammari Ensemble recurrent neural network with whale optimization algorithm-based DNA sequence classification for medical applications
Mapiye et al. Phenotype Prediction of DNA Sequence Data: A Machine-and Statistical Learning Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171212

RJ01 Rejection of invention patent application after publication