CN110970090B - 一种用于判断待处理多肽与阳性数据集肽段相似度的方法 - Google Patents

一种用于判断待处理多肽与阳性数据集肽段相似度的方法 Download PDF

Info

Publication number
CN110970090B
CN110970090B CN201911126311.1A CN201911126311A CN110970090B CN 110970090 B CN110970090 B CN 110970090B CN 201911126311 A CN201911126311 A CN 201911126311A CN 110970090 B CN110970090 B CN 110970090B
Authority
CN
China
Prior art keywords
data set
positive data
positive
polypeptide
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911126311.1A
Other languages
English (en)
Other versions
CN110970090A (zh
Inventor
薛宇
蒋沛然
宁万山
傅振远
郭亚萍
谭潇丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201911126311.1A priority Critical patent/CN110970090B/zh
Publication of CN110970090A publication Critical patent/CN110970090A/zh
Application granted granted Critical
Publication of CN110970090B publication Critical patent/CN110970090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种用于判断待处理多肽与阳性数据集肽段相似度的方法,包括以下步骤:(1)收集修饰位点信息;(2)位置权重训练与矩阵突变训练;(3)数据质量权重的训练;(4)实际测试。本发明通过对判断方法整体处理流程的设计、以及关于数据质量权重的设置并控制其训练计算过程等进行改进,尤其通过引入数据质量权重,能够计算出精确的相似性的矩阵,一方面为预测待处理多肽在中心位置附近发生特定修饰的可能性大小提供了一种新方法,另一方面,通过将该方法进一步与其他基于已知方法的相似度判断方法进行并列作为备用判断方法来源,相应得到多图像表征模型的蛋白质翻译后修饰位点预测方法。

Description

一种用于判断待处理多肽与阳性数据集肽段相似度的方法
技术领域
本发明属于生物信息学领域,更具体地,涉及一种用于判断待处理多肽与阳性数据集肽段相似度的方法,能够预测蛋白质翻译后修饰位点,同时还涵盖了对应系统及基于该方法的多图像表征模型修饰位点预测方法及系统。
背景技术
蛋白质翻译后修饰是真核和原核生物最重要的机制之一,它涉及化学基团与蛋白质氨基酸侧链的连接。各种蛋白质翻译后修饰(PTM)在多种细胞过程中发挥着至关重要的作用,这些过程调节蛋白质的功能、物理化学性质、构象、稳定性和响应发育信号或环境刺激的分子相互作用。例如,蛋白质磷酸化是最普遍存在的蛋白质翻译后修饰PTM,可诱导信号转导和细胞凋亡;赖氨酸琥珀酰化在代谢途径中起着至关重要的作用;蛋白质乙酰化和甲基化参与染色质重编程和转录调控;赖氨酸泛素化介导蛋白质降解;蛋白质棕榈酰化可动态膜蛋白相互作用、转运、分选、活化等。并且,越来越多的研究发现蛋白质翻译后修饰PTM的失调与多种疾病(包括癌症)的发展和进展有关。由于各种限制,通过诸如高通量液相色谱/质谱(LC-MS)技术的传统实验技术鉴定蛋白质翻译后修饰位点仍然是低效、昂贵且耗时的。因此,开发能够识别蛋白质翻译后修饰位点的处理方法已变得越来越有必要。尽管有多种蛋白质翻译后修饰位点预测方法,例如,Xue等利用基于肽段相似度打分的方法构建了多个蛋白质修饰位点的预测器,Qiu等利用支持向量机构建多个蛋白质修饰位点的预测器,但当这些方法仍然存在一些缺陷,如:利用一种算法构建一个简化模型无法充分挖掘多类型多特征数据的信息。现有的预测方法仅考虑蛋白质的一个或几个特征,而修饰的发生往往跟蛋白质序列、结构、氨基酸理化性质等多个因素有关。此外,现有预测方法往往仅使用了传统的机器学习算法,目前基于图像的深度学习算法以及在生物信息学中展现出可喜的前景,是发展新的高精度预测方法的重要方向。
发明内容
针对现有技术的以上缺陷或改进需求,本发明的目的在于提供一种用于判断待处理多肽与阳性数据集肽段相似度的方法,其中通过对判断方法整体处理流程的设计、以及关于数据质量权重的设置并控制其训练计算过程等进行改进,尤其通过引入数据质量权重,能够计算出精确的相似性的矩阵,一方面为预测待处理多肽在中心位置附近发生特定修饰的可能性大小提供了一种新方法,另一方面,通过将该方法进一步与其他基于已知方法的相似度判断方法进行并列作为备用判断方法来源,相应得到多图像表征模型的蛋白质翻译后修饰位点预测方法,与现有技术相比能够有效解决蛋白质翻译后修饰位点预测方法无法实现有效整合多特征的预测,且无法高精度预测不同物种中的蛋白质翻译后修饰的问题。
为实现上述目的,按照本发明的一个方面,提供了一种用于判断待处理多肽与阳性数据集肽段相似度的方法,其特征在于,包括以下步骤:
(1)收集修饰位点信息:基于预先设定的某一种特定类型的蛋白质翻译后修饰,收集蛋白质翻译后这些特定类型的修饰位点信息,下载得到蛋白质的一级序列;然后,将一级序列中满足特定类型的修饰位点在蛋白质上的对应位点标记为阳性位点,将一级序列中排除这些阳性位点、且与这些阳性位点所对应的氨基酸种类相同的氨基酸位点标记为阴性位点;接着,分别以各个阳性位点和各个阴性位点为中心,对蛋白质的一级序列进行切割,形成:
(a)以某个阳性位点为中心,且包括紧邻该中心的上游n个氨基酸、及下游n个氨基酸的总长度为2n+1个氨基酸的序列,从而得到与该阳性位点相对应的阳性数据;以及
(b)以某个阴性位点为中心,且包括紧邻该中心的上游n个氨基酸、及下游n个氨基酸的总长度为2n+1个氨基酸的序列,从而得到与该阴性位点相对应的阴性数据;
由各个阳性位点相对应的阳性数据按先后顺序排列形成的数据集合即为阳性数据集,由各个阴性位点相对应的阴性数据按先后顺序排列形成的数据集合即为阴性数据集;其中,n为预先设定的大于等于1的整数;
(2)位置权重训练与矩阵突变训练:
记训练用待处理多肽为Q,将训练用待处理多肽Q与所述阳性数据集中的每个阳性数据基于位置权重和氨基酸替换得分进行相似度打分,具体计算公式如下:
S(Q,R)=∑1≤i≤LWiM(Q[i],R[i]);
其中,L=2n+1;Q[i],R[i]分别是训练用待处理多肽Q和所述阳性数据集中某个阳性数据R在位置i上的氨基酸;M(Q[i],R[i])为氨基酸Q[i],R[i]在BLOSUM62氨基酸替换矩阵中的分值,即氨基酸替换得分;Wi为训练用待处理多肽Q中位置i上的权重,即位置权重;
接着,将所述阳性数据集中的每一个阳性数据和所述阴性数据集中的每一个阴性数据分别作为训练用待处理多肽Q,与所述阳性数据集中的每个阳性数据基于位置权重和氨基酸替换得分进行相似度打分,位置权重Wi初始值为1,然后使用惩罚逻辑回归执行交叉验证训练出位置权重及氨基酸替换得分,由此训练得到与阳性数据集中的每个阳性数据相对应的位置权重及氨基酸替换得分;
(3)数据质量权重的训练:
将训练用待处理多肽Q与所述阳性数据集整体基于位置权重和氨基酸替换得分进行相似度打分,得到训练用待处理多肽Q与所述阳性数据集的整体相似性分值,具体计算公式如下:
Figure BDA0002276933790000041
其中,S(Q,Tj)为训练用待处理多肽Q和所述阳性数据集中第j个阳性数据Tj的相似度打分;N+是阳性数据集中阳性数据的总数量,1≤j≤N+;Posdqj是所述阳性数据集中阳性数据Tj的数据质量,即数据质量权重;
阳性数据集中的每个阳性数据都能够依此对应得到数据质量权重;
接着,将所述阳性数据集中的每一个阳性数据和所述阴性数据集中的每一个阴性数据分别作为训练用待处理多肽Q,与所述阳性数据集整体基于位置权重和氨基酸替换得分进行相似度打分,数据质量Posdqj的值初始化为1,执行惩罚逻辑回归交叉验证,根据预先设定的AUC值要求训练出数据质量权重Posdqj;由此训练得到与阳性数据集中的每个阳性数据相对应的数据质量权重;
(4)实际测试:
对于实际待处理多肽Q0,首先匹配长度,通过以预测位点为中心的氨基酸截取或补*,使待处理多肽的长度为2n+1,得到新的实际待处理多肽;然后,将Q更新为实际待处理多肽,基于训练得到的与阳性数据集中的每个阳性数据相对应的位置权重、氨基酸替换得分及数据质量权重,计算实际待处理多肽Q与阳性数据集整体之间的精确的相似性;用于表示精确的相似性的矩阵具体如下:
Figure BDA0002276933790000042
其中,该矩阵的21行每一行分别对应21种氨基酸A、…、*;L列每一列分别对应阳性数据集中任意一个阳性数据的2n+1个位置,共计L个;并且,记实际待处理多肽Q位于位置i的氨基酸为β,1≤i≤L,则矩阵中相应元素的计算公式为:
Figure BDA0002276933790000051
其中,N+(α,i)是所述阳性数据集中位于位置i的氨基酸为α的数量;将所述阳性数据集中位于位置i的氨基酸为α的阳性数据按顺序挑选出来得到阳性数据集子集,并且基于所述步骤(2)与所述步骤(3)的训练结果,Wi、M(β,R[i])、Posdqk分别为与该阳性数据集子集中的每个阳性数据相对应的位置权重、氨基酸替换得分及数据质量权重,1≤k≤N+(α,i),其中M(β,R[i])表示待处理多肽Q位于位置i的氨基酸β与所述阳性数据集子集中的每个阳性数据相对应的氨基酸替换得分,R[i]代表阳性数据R位于位置i的氨基酸。
作为本发明的进一步优选,所述方法还包括步骤:
(5)成像:
将Mat+(R)矩阵归一化,然后进行灰度映射或RGB彩色映射,即可显示得到用于表征实际待处理多肽Q与所述阳性数据集之间相似性的图像。
作为本发明的进一步优选,所述步骤(1)中,所述预先设定的某一种特定类型的蛋白质修饰,具体为半胱氨酸棕榈酰化修饰、法尼基化修饰、二硫键修饰、香叶酰香叶酰化修饰、谷胱甘肽化修饰、硝基化修饰及亚磺酰化修饰中的任意一种。
作为本发明的进一步优选,所述步骤(1)中,n满足1≤n≤20。
按照本发明的另一方面,提供了一种包含上述用于判断待处理多肽与阳性数据集肽段相似度的方法的多图像表征模型的蛋白质翻译后修饰位点预测方法,其特征在于,该预测方法是同时基于如上述用于判断待处理多肽与阳性数据集肽段相似度的方法、以及若干个其他的相似度判断方法在内的多种相似度判断方法,先收集修饰位点信息,接着基于各个相似度判断方法对实际待处理多肽Q进行特征编码,得到数字向量特征;然后将所述数字向量特征分别利用惩罚逻辑回归、支持向量机和随机森林验证每种相似度判断方法的AUC性能,将AUC性能大于0.5的相似度判断方法作为备用判断方法,然后再利用所述备用判断方法对实际待处理多肽Q进行特征编码,得到最终的数字向量特征;
接着,基于所述备用判断方法得到的最终的数字向量特征,将数字向量特征进行灰度映射或RGB彩色映射得到灰度图像或RGB图像,即可得到与每一种备用判断方法相对应的全部至少1个图像,每一种备用判断方法对应一个灰度图像或一个RGB图像;
然后,进行模型训练,具体是先利用多个卷积神经网络构建预测模型,每一种备用判断方法对应一个预测模型,并将阳性数据集中的每一个阳性数据和阴性数据集中的每一个阴性数据分别作为训练用肽段,利用惩罚逻辑回归对每个预测模型进行训练,得到最终模型;
最后,进行蛋白质翻译后修饰位点预测,具体是将得到的所述最终模型预测蛋白质翻译后修饰位点,从而针对任意一个实际待处理多肽得到任意一种备用判断方法的数字向量特征、及蛋白质位点是属于阳性位点还是属于阴性位点的信息。
作为本发明的进一步优选,所述若干个其他的相似度判断方法选自基于PseAAC方法的相似度判断方法、基于CKSAAP方法的相似度判断方法、基于正交二进制方法的相似度判断方法、基于AAindex方法的相似度判断方法、基于自相关特征集方法的相似度判断方法、基于PSSM方法的相似度判断方法、基于ASA方法的相似度判断方法、基于SS方法的相似度判断方法和基于BTA方法的相似度判断方法中的若干种。
按照本发明的又一方面,提供了一种用于判断待处理多肽与阳性数据集肽段相似度的系统,其特征在于,包括:
收集修饰位点信息的模块,用于:基于预先设定的某一种特定类型的蛋白质翻译后修饰,收集蛋白质翻译后这些特定类型的修饰位点信息,下载得到蛋白质的一级序列;将一级序列中满足特定类型的修饰位点在蛋白质上的对应位点标记为阳性位点,将一级序列中排除这些阳性位点、且与这些阳性位点所对应的氨基酸种类相同的氨基酸位点标记为阴性位点;分别以各个阳性位点和各个阴性位点为中心,对蛋白质的一级序列进行切割,形成:
(a)以某个阳性位点为中心,且包括紧邻该中心的上游n个氨基酸、及下游n个氨基酸的总长度为2n+1个氨基酸的序列,从而得到与该阳性位点相对应的阳性数据;以及
(b)以某个阴性位点为中心,且包括紧邻该中心的上游n个氨基酸、及下游n个氨基酸的总长度为2n+1个氨基酸的序列,从而得到与该阴性位点相对应的阴性数据;
由各个阳性位点相对应的阳性数据按先后顺序排列形成的数据集合即为阳性数据集,由各个阴性位点相对应的阴性数据按先后顺序排列形成的数据集合即为阴性数据集;其中,n为预先设定的大于等于1的整数;
位置权重训练与矩阵突变训练模块,用于:
记训练用待处理多肽为Q,将训练用待处理多肽Q与所述阳性数据集中的每个阳性数据基于位置权重和氨基酸替换得分进行相似度打分,具体计算公式如下:
S(Q,R)=∑1≤i≤LWiM(Q[i],R[i]);
其中,L=2n+1;Q[i],R[i]分别是训练用待处理多肽Q和所述阳性数据集中某个阳性数据R在位置i上的氨基酸;M(Q[i],R[i])为氨基酸Q[i],R[i]在BLOSUM62氨基酸替换矩阵中的分值,即氨基酸替换得分;Wi为训练用待处理多肽Q中位置i上的权重,即位置权重;
将所述阳性数据集中的每一个阳性数据和所述阴性数据集中的每一个阴性数据分别作为训练用待处理多肽Q,与所述阳性数据集中的每个阳性数据基于位置权重和氨基酸替换得分进行相似度打分,位置权重Wi初始值为1,然后使用惩罚逻辑回归执行交叉验证训练出位置权重及氨基酸替换得分,由此训练得到与阳性数据集中的每个阳性数据相对应的位置权重及氨基酸替换得分;
数据质量权重的训练模块,用于:
将训练用待处理多肽Q与所述阳性数据集整体基于位置权重和氨基酸替换得分进行相似度打分,得到训练用待处理多肽Q与所述阳性数据集的整体相似性分值,具体计算公式如下:
Figure BDA0002276933790000081
其中,S(Q,Tj)为训练用待处理多肽Q和所述阳性数据集中第j个阳性数据Tj的相似度打分;N+是阳性数据集中阳性数据的总数量,1≤j≤N+;Posdqj是所述阳性数据集中阳性数据Tj的数据质量,即数据质量权重;
阳性数据集中的每个阳性数据都能够依此对应得到数据质量权重;
将所述阳性数据集中的每一个阳性数据和所述阴性数据集中的每一个阴性数据分别作为训练用待处理多肽Q,与所述阳性数据集整体基于位置权重和氨基酸替换得分进行相似度打分,数据质量Posdqj的值初始化为1,执行惩罚逻辑回归交叉验证,根据预先设定的AUC值要求训练出数据质量权重Posdqj;由此训练得到与阳性数据集中的每个阳性数据相对应的数据质量权重;
实际测试模块,用于:
对于实际待处理多肽Q0,首先匹配长度,通过以预测位点为中心的氨基酸截取或补*,使待处理多肽的长度为2n+1,得到新的实际待处理多肽;将Q更新为实际待处理多肽,基于训练得到的与阳性数据集中的每个阳性数据相对应的位置权重、氨基酸替换得分及数据质量权重,计算实际待处理多肽Q与阳性数据集整体之间的精确的相似性;用于表示精确的相似性的矩阵具体如下:
Figure BDA0002276933790000091
其中,该矩阵的21行每一行分别对应21种氨基酸A、…、*;L列每一列分别对应阳性数据集中任意一个阳性数据的2n+1个位置,共计L个;并且,记实际待处理多肽Q位于位置i的氨基酸为β,1≤i≤L,则矩阵中相应元素的计算公式为:
Figure BDA0002276933790000092
其中,N+(α,i)是所述阳性数据集中位于位置i的氨基酸为α的数量;将所述阳性数据集中位于位置i的氨基酸为α的阳性数据按顺序挑选出来得到阳性数据集子集,并且基于所述位置权重训练与矩阵突变训练模块、所述数据质量权重的训练模块的训练结果,Wi、M(β,R[i])、Posdqk分别为与该阳性数据集子集中的每个阳性数据相对应的位置权重、氨基酸替换得分及数据质量权重,1≤k≤N+(α,i),其中M(β,R[i])表示待处理多肽Q位于位置i的氨基酸β与所述阳性数据集子集中的每个阳性数据相对应的氨基酸替换得分,R[i]代表阳性数据R位于位置i的氨基酸。
按照本发明的再一方面,提供了一种多图像表征模型的蛋白质翻译后修饰位点预测系统,其特征在于,该预测系统是同时基于如上述用于判断待处理多肽与阳性数据集肽段相似度的方法、以及若干个其他的相似度判断方法在内的多种相似度判断方法,包括:
收集修饰位点信息的模块,用于得到阳性数据集和阴性数据集;
数字向量特征提取及图像形成模块,用于:基于各个相似度判断方法对实际待处理多肽Q进行特征编码,得到数字向量特征;将所述数字向量特征分别利用惩罚逻辑回归、支持向量机和随机森林验证每种相似度判断方法的AUC性能,将AUC性能大于0.5的相似度判断方法作为备用判断方法,然后再利用所述备用判断方法对实际待处理多肽Q进行特征编码,得到最终的数字向量特征;
基于所述备用判断方法得到的最终的数字向量特征,将数字向量特征进行灰度映射或RGB彩色映射得到灰度图像或RGB图像,即可得到与每一种备用判断方法相对应的全部至少1个图像,每一种备用判断方法对应一个灰度图像或一个RGB图像;
该系统同时包括多个预测模型,每个预测模型利用一个卷积神经网络构建得到,每一种备用判断方法对应一个预测模型,将阳性数据集中的每一个阳性数据和阴性数据集中的每一个阴性数据分别作为训练用肽段,利用惩罚逻辑回归对每个预测模型进行训练,得到最终模型;
蛋白质翻译后修饰位点预测模块,用于将得到的所述最终模型预测蛋白质翻译后修饰位点,从而针对任意一个实际待处理多肽得到任意一种备用判断方法的数字向量特征、及蛋白质位点是属于阳性位点还是属于阴性位点的信息。
通过本发明所构思的以上技术方案,与现有技术相比,主要具备以下的技术优点:
(1)本发明为预测待处理多肽在中心位置附近发生特定修饰的可能性大小所提出的一种新的用于判断待处理多肽与阳性数据集肽段相似度的方法,在该方法中通过先收集修饰位点信息得到阳性数据集和阴性数据集,再利用它们对位置权重与矩阵突变进行训练,并进一步对数据质量权重进行训练,从而能够针对实际待处理多肽得出它与阳性数据集整体之间的精确的相似性,是一种基于组的预测系统(GPS similarity)。本发明通过Posdq矩阵区分数据集肽段的数据质量,并进一步可利用成像步骤进行可视化。
(2)另一方面,本发明提出的多图像表征模型的蛋白质翻译后修饰位点预测方法,是先收集修饰位点数据,进行数据预处理后得到阳性和阴性数据集,将序列分别按基于不同的方法的相似度判断方法进行处理,这些相似度判断方法除了包括上述基于组的预测系统(GPS similarity)的方法外,还可包括基于已知PseAAC方法、CKSAAP方法、正交二进制方法、AAindex方法、自相关特征集方法、PSSM方法、ASA方法,SS方法和BTA方法得到的相应的相似度判断方法,从中挑选出备用判断方法进行特征编码,从而对特征进行并行评估。可以利用卷积神经网络(CNN)和惩罚逻辑回归(PLR)的混合学习框架分别对每种特征构建预测模型,将每个模型的预测结果打分作为新的特征并利用惩罚逻辑回归(PLR)对其构建具有多特征算法的最终模型,用评价指标对模型进行性能评估。最后,构建蛋白质修饰位点的预测软件,用于开放预测。
(3)本发明中基于多图像表征模型的蛋白质翻译后修饰位点预测方法,通过交叉验证和独立测试比对表明,本方法构建的预测模型具有鲁棒性好、准确度高等优点。本发明的预测方法及对应系统可以对蛋白质翻译后修饰位点预测提供导向,预测结果可以为验证蛋白质翻译后修饰位点的研究提供很好的借鉴作用,对研究蛋白质翻译后修饰的机理和生物功能有重大意义。
(4)本发明中蛋白质翻译后修饰位点的预测方法,由于整合图像处理深度学习与传统机器学习的混合框架以及多种特征的使用,因此该方法可以捕获更多蛋白信息从而有助于提高预测的准确度,为实验提供精准指导,也可用于大规模快速筛选和鉴定蛋白质翻译后修饰位点。
附图说明
图1是按照本发明方法的流程图。
图2是详细的图像表征和整合算法的框架。
图3是利用本发明GPS-Palm预测人类的两个重要的蛋白质的棕榈酰化位点及其预测结果。
图4为本发明实施例GPS-Palm方法与现有技术中其他方法的受试者工作特征曲线(ROC),其中纵坐标Sn代表敏感度,横坐标1-Sp中Sp代表特异性。
图5为多图像表征模型的蛋白质翻译后修饰位点预测方法中多种相似度判断方法的AUC性能示例。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
基于本发明所新提出用于判断待处理多肽与阳性数据集肽段相似度的方法(记为GPS),将其与现有技术中已知的若干个其他的相似度判断方法(如:基于PseAAC方法的相似度判断方法、基于CKSAAP方法的相似度判断方法、基于正交二进制方法的相似度判断方法、基于AAindex方法的相似度判断方法、基于自相关特征集方法的相似度判断方法、基于PSSM方法的相似度判断方法、基于ASA方法的相似度判断方法、基于SS方法的相似度判断方法和基于BTA方法的相似度判断方法)一起,可以得到多图像表征模型的蛋白质翻译后修饰位点预测方法;其中,
所述PseAAC方法可用于表示肽段中每种氨基酸出现的频率的数字向量特征及其图像表征;PseAAC方法可参考“Accurate in silico identification of proteinsuccinylation sites using an iterative semi-supervised learning technique”(具体网址可见https://www.ncbi.nlm.nih.gov/pubmed/25843215)等相关现有技术;
所述CKSAAP方法可用于表示肽段中被k个氨基酸间隔的任意两种或者两种相同氨基酸出现的次数的数字向量特征及其图像表征,所述k大于等于0小于等于(2n-1);CKSAAP方法可参考“Prediction of Ubiquitination Sites by Using the Composition of k-Spaced Amino Acid Pairs”(具体网址可见https://www.ncbi.nlm.nih.gov/pubmed/21829559)等相关现有技术;
所述正交二进制方法可用于表示肽段中每个氨基酸二进制向量的数字向量特征及其图像表征;正交二进制方法可参考“MeMo:a web tool for prediction of proteinmethylation modifications”(具体网址可见https://www.ncbi.nlm.nih.gov/pubmed/16845004)等相关现有技术;
所述AAindex方法可用于表示肽段中每个氨基酸在AAindex数据库中理化性质下编码的数字向量特征及其图像表征;AAindex方法可参考“SuccFind:a novelsuccinylation sites online prediction tool via enhanced characteristicstrategy”(具体网址可见https://www.ncbi.nlm.nih.gov/pubmed/26261224)等相关现有技术;
所述自相关特征方法可用于表示肽段中被k个氨基酸间隔的任意两种或者两种相同氨基酸的AAindex数据库中理化性质相关性的数字向量特征及其图像表征;自相关特征方法可参考“Accurate in silico identification of protein succinylation sitesusing an iterative semi-supervised learning technique”(具体网址可见https://www.ncbi.nlm.nih.gov/pubmed/25843215)等相关现有技术;
所述PSSM方法可用于表示肽段中每个氨基酸位置分别出现特定氨基酸的概率的数字向量特征及其图像表征;PSSM方法可参考“iSuc-PseOpt:Identifying lysinesuccinylation sites in proteins by incorporating sequence-coupling effectsinto pseudo components and optimizing imbalanced training dataset”(具体网址可见https://www.ncbi.nlm.nih.gov/pubmed/26723495)等相关现有技术;
所述ASA方法可用于表示肽段中每个氨基酸的可及表面积的数字向量特征及其图像表征;所述SS方法可用于表示肽段中每个氨基酸发生α-螺旋、β-折叠和转角的概率的数字向量特征及其图像表征;所述BTA方法可用于表示肽段中每个氨基酸发生二级结构的角度的数字向量特征及其图像表征;ASA方法、SS方法、BTA方法均可参考“SucStruct:Prediction of succinylated lysine residues by using structural properties ofamino acids”(具体网址可见https://www.ncbi.nlm.nih.gov/pubmed/28363440)、“Success:evolutionary and structural properties of amino acids proveeffective for succinylation site prediction”(具体网址可见https://www.ncbi.nlm.nih.gov/pubmed/29363424)等相关现有技术。
总体来说,本发明中多特征算法模型的蛋白质翻译后修饰位点预测系统,包括:
修饰位点信息收集模块:所述修饰位点信息收集模块用于收集蛋白质翻译后特定类型的修饰位点数信息,下载得到所述蛋白质的一级序列;将所述特定类型的修饰位点在蛋白质上的对应位点作为阳性位点,将该蛋白质上与所述阳性位点相同的氨基酸位点作为阴性位点;将蛋白质的一级序列切割成以所述阳性位点或阴性位点为中心,该中心上游为n个氨基酸,该中心下游为n个氨基酸,总长度为2n+1个氨基酸的序列;
特征编码模块:所述特征编码模块用于将所述总长度为2n+1个氨基酸的序列对现有的编码方案逐个进行特征编码,利用惩罚逻辑回归,支持向量机,随机森林执行10倍交叉验证每种编码方案的AUC性能,将AUC性能大于0.5作为备用编码方案;将所述分类得到的不同类别的阳性位点和阴性位点对应的总长度为2n+1个氨基酸,通过各个所述备用编码方案得到数字向量特征;
图像表征模块:所述特征编码模块得到的数字向量特征,结合特征信息量合理布局,对现有的各个特征逐个进行数字向量向图像表征的转换。各个特征对应的图像表征,根据特征的信息组织方式,适配于RGB图像(不同通道代表不同的特征子信息)或灰度图像(单层信息);
模型训练模块:模型训练模块用于利用卷积神经网络和惩罚逻辑回归的混合学习框架分别对所述图像表征构建预测模型,得到多个预测模型;将每个预测模型的预测结果作为新的特征并利用惩罚逻辑回归构建最终模型;
蛋白质翻译后修饰位点预测模块:所述蛋白质翻译后修饰位点预测模块通过所述最终模型预测蛋白质翻译后修饰位点;所属预测能得到所述备用编码方案中的图像表征。
本发明所述多特征混合算法模型的蛋白质翻译后修饰位点预测方法含有以下步骤:
(1)收集修饰位点数据:
从相关文献以及数据库中收集蛋白质翻译后修饰位点,删除重复的冗余位点。从UniProt数据库下载蛋白质的一级序列。将实验鉴定的修饰位点视为阳性数据,而将相同蛋白质中剩余的位点视为阴性数据。将蛋白质序列切割成以位点为中心,上游为n个氨基酸,下游为n个氨基酸,总长度为2n+1个氨基酸的序列;所述n大于等于1;
(2)特征编码及其图像表征:
将步骤(1)所述蛋白质序列对以下十种编码方案逐个进行特征编码,并且利用支持向量机评估利用10倍交叉验证每种编码的AUC性能,将AUC性能大于0.5作为备用编码方案。总共十种特征编码方案:PseAAC编码方案、CKSAAP编码方案、正交二进制编码方案、AAindex编码方案、自相关特征集编码方案、PSSM编码方案、基于组的预测系统(GPSsimilarity)编码方案、ASA编码方案,SS编码方案和BTA编码方案;
第一种编码及图像表征方案,所述PseAAC编码方案,用于计算包含阳性位点或阴性位点,总长度为2n+1个氨基酸的序列中,每种氨基酸的频率;由于有些修饰位点出现在蛋白质的两端,因此“*”被添加去补齐成2n+1肽段。将“*”视为第21种氨基酸,计算包括“*”在内的21种氨基酸的频率,每个肽段被编码为21维数字向量;将21维特征向量平铺至21×21矩阵的对角线,进行归一化后得到灰度图像。
Figure BDA0002276933790000161
其中,fA,fC,…,f*别表示每个肽段中21种氨基酸的的频率;
第二种编码及图像表征方案,所述CKSAAP编码,其反映了蛋白质序列的k-间隔氨基酸对的组成(由k个其他氨基酸间隔的氨基酸对),如果氨基酸对AA在肽段上出现l次,则CAA=l。所有的k=0,1,…,kmax被评估,选择试AUC性能最好的k。结果证明,k分别为三个值(k=0,1,2),性能最好。
Figure BDA0002276933790000162
根据氨基酸对的组成情况,生成三个矩阵(k=0,1,2)。该矩阵,行和列的顺序为氨基酸字母顺序排列的(a,c,d,…,y,*)。生成的RGB图像由具有上述排列结构的由三个矩阵(k=0,1,2)组成,每个通道为一个矩阵。根据同一矩阵的最小值和最大值,将各个元素归一化为0~255;
第三种编码及图像表征方案,所述正交二进制编码方案,其中每个氨基酸由20维二进制向量表示。21种氨基酸按照简写的字母顺序排序,对于第j个氨基酸,第j位置设为1,其他位置为0,例如简写为A的氨基酸A被编码为[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],简写为C的氨基酸C被编码为[0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],将21维特征向量平铺至21×21矩阵的对角线,进行归一化后得到灰度图像。
Figure BDA0002276933790000163
其中,ei(i=1,2,3,…,21)是二进制向量的元素。整个图像代表了待编码肽段的氨基酸组成、分布和转变信息。
第四种编码及图像表征方案,所述AAindex编码方案,在AAindex数据库中有566种理化性质;对于理化性质h,每个肽段被编码为:vi=h1,h2,h3,…,h2n
选择AUC性能最好的21种理化性质,每个氨基酸此时考虑具有21种不同的理化性质,并将它们排列成如下形式,由于不同理化性质的取值范围不同,将各行归一化后得到灰度图像;
Figure BDA0002276933790000171
第五种编码及图像表征方案,自相关特征编码方案(ACF),给定理化性质h,中心位置不编码,每个肽段编码为数字向量:vi=h1,h2,h3,…,h2n
自相关函数定义为:
Figure BDA0002276933790000172
其中L为肽段长度2n+1,m如果等于0,则表示相邻2个氨基酸;rk表示被k个其他氨基酸间隔的2个氨基酸的相关性;因此,可以构建肽段的图像表征为如下形式(考虑共有21种理化性质的情况),
Figure BDA0002276933790000173
其中,i表示第i个理化性质;其中r0,r1,r2,r3,…,r2n分别是在特定理化性质下,被0,1,2,……2n个氨基酸间隔的2个氨基酸的相关性;每个理化性质独立归一化得到灰度图像;
第六种类型是PSSM编码及图像表征方案,其从PSI-BLAST生成的位置特异性评分矩阵中提取特征。利用PSI-BLAST程序包比对肽段到Swiss-Prot蛋白质序列得到PSSM矩阵。每个肽段被编码为20*(2n+1)维数字向量,并构建如下图像:
Figure BDA0002276933790000181
其中
Figure BDA0002276933790000182
分别表示肽段中每个氨基酸位置分别出现特定氨基酸的概率的数字向量特征;利用灰度图像来表示PSSM特征。将21×20维矩阵标准化至0~255,导出图像。
第七种类型是ASA编码及图像表征方案,其源自预测的氨基酸可及表面积的信息。利用SPIDER2工具预测肽段上每个氨基酸ASA值,每个肽段被编码为:Vi=(A1,A2,…,A2n+1);其中A1,A2,…,A2n+1分别表示肽段上每个氨基酸的可及表面积ASA值;随后将编码的向量平铺至矩阵对角线,并归一化,得到灰度图像;
Figure BDA0002276933790000183
第八种类型是SS编码,其中每个氨基酸由α-helix,β-strand和coil的发生率表示,其利用SPIDER2工具预测得到,每个肽段被编码为:Vi=(S1,S2,…,S2n+1)α-helix(S1,S2,…,S2n+1)β-strand(S1,S2,…,S2n+1)coil,其中S1,S2,…,S2n+1分别表示肽段中每个每个氨基酸发生α-螺旋、β-折叠或转角的概率的数字向量特征;将这三个向量组合成矩阵,其中每种类型的发生率分别归一化,即得到填充的灰度图像。
Figure BDA0002276933790000184
第九种类型是BTA编码及图像表征方案,4个角度包括
Figure BDA0002276933790000186
Ψ,Cαi-1-Cαi-Cαi+1(θ),Cαi-Cαi+1(τ)被SPIDER2工具预测得到,每个肽段被编码为:
Figure BDA0002276933790000185
其中L1,L2,…,L2n+1分别表示二级结构的角度的数字向量特征。将这四个向量组合成矩阵,其中每种类型的发生率分别归一化,即得到填充的灰度图像。
Figure BDA0002276933790000191
第十种编码及图像表征方案,即基于本发明所新提出的用于判断待处理多肽与阳性数据集肽段相似度的方法(也是种基于组的判断方法,简称为GPS),相应基于组的预测系统(GPS),评分策略的基本假设是类似的短肽表现出相似功能的生化特性。所述蛋白质编码方法用于表示待编码多肽与阳性数据集肽段的相似度,于阴性数据集肽段的相似度也被同时计算,基于的假设为相似的肽段往往具有相似的功能;含有以下步骤:
(1)收集修饰位点信息:基于预先设定的某一种特定类型的蛋白质修饰,收集蛋白质翻译后这些特定类型的修饰位点信息,下载得到蛋白质的一级序列;然后,将一级序列中满足特定类型的修饰位点在蛋白质上的对应位点标记为阳性位点,将一级序列中排除这些阳性位点、且与这些阳性位点所对应的氨基酸种类相同的氨基酸位点标记为阴性位点;接着,分别以各个阳性位点和各个阴性位点为中心,对蛋白质的一级序列进行切割,形成:
(a)以某个阳性位点为中心,且包括紧邻该中心的上游n个氨基酸、及下游n个氨基酸的总长度为2n+1个氨基酸的序列,从而得到与该阳性位点相对应的阳性数据;以及
(b)以某个阴性位点为中心,且包括紧邻该中心的上游n个氨基酸、及下游n个氨基酸的总长度为2n+1个氨基酸的序列,从而得到与该阴性位点相对应的阴性数据;
由各个阳性位点相对应的阳性数据按先后顺序排列形成的数据集合即为阳性数据集,由各个阴性位点相对应的阴性数据按先后顺序排列形成的数据集合即为阴性数据集;其中,n为预先设定的大于等于1的整数;
(2)位置权重训练与矩阵突变训练:
记训练用待处理多肽为Q,将训练用待处理多肽Q与所述阳性数据集中的每个阳性数据基于位置权重和氨基酸替换得分进行相似度打分,具体计算公式如下:
S(Q,R)=∑1≤i≤LWiM(Q[i],R[i]);
其中,L=2n+1;Q[i],R[i]分别是训练用待处理多肽Q和所述阳性数据集中某个阳性数据R在位置i上的氨基酸;M(Q[i],R[i])为氨基酸Q[i],R[i]在BLOSUM62氨基酸替换矩阵中的分值,即氨基酸替换得分;Wi为训练用待处理多肽Q中位置i上的权重,即位置权重;
接着,将所述阳性数据集中的每一个阳性数据和所述阴性数据集中的每一个阴性数据分别作为训练用待处理多肽Q,与所述阳性数据集中的每个阳性数据基于位置权重和氨基酸替换得分进行相似度打分,位置权重Wi初始值为1,然后使用惩罚逻辑回归执行交叉验证训练出位置权重及氨基酸替换得分,由此训练得到与阳性数据集中的每个阳性数据相对应的位置权重及氨基酸替换得分;当然,阳性数据作为训练用待处理多肽时的S(Q,R)与阴性数据作为训练用待处理多肽时的S(Q,R)两者训练后的目标取值互不相同,一般来说,可以通过训练使得阳性数据的S(Q,R)值高、阴性数据的S(Q,R)值低。
(3)数据质量权重的训练:
将训练用待处理多肽Q与所述阳性数据集整体基于位置权重和氨基酸替换得分进行相似度打分,得到训练用待处理多肽Q与所述阳性数据集的整体相似性分值,具体计算公式如下:
Figure BDA0002276933790000201
其中,S(Q,Tj)为训练用待处理多肽Q和所述阳性数据集中第j个阳性数据Tj的相似度打分;N+是阳性数据集中阳性数据的总数量,1≤j≤N+;Posdqj是所述阳性数据集中阳性数据Tj的数据质量,即数据质量权重;
阳性数据集中的每个阳性数据都能够依此对应得到数据质量权重;
接着,将所述阳性数据集中的每一个阳性数据和所述阴性数据集中的每一个阴性数据分别作为训练用待处理多肽Q,与所述阳性数据集整体基于位置权重和氨基酸替换得分进行相似度打分,数据质量Posdqj的值初始化为1,执行惩罚逻辑回归交叉验证,根据预先设定的AUC值要求(AUC值的要求也可以预先设定,例如可以取最优AUC值,也可以取满足预设AUC最小值要求的AUC值)训练出数据质量权重Posdqj;由此训练得到与阳性数据集中的每个阳性数据相对应的数据质量权重;当然,阳性数据作为训练用待处理多肽时的S′(Q)与阴性数据作为训练用待处理多肽时的S′(Q)两者训练后的目标取值互不相同,一般来说,可以通过训练使得阳性数据的S′(Q)值高、阴性数据的S′(Q)值低。
(4)实际测试:
对于实际待处理多肽Q0,首先匹配长度,通过以预测位点为中心的氨基酸截取或补*,使待处理多肽的长度为2n+1,得到新的实际待处理多肽;然后,将Q更新为实际待处理多肽,基于训练得到的与阳性数据集中的每个阳性数据相对应的位置权重、氨基酸替换得分及数据质量权重,计算实际待处理多肽Q与阳性数据集整体之间的精确的相似性;用于表示精确的相似性的矩阵具体如下:
Figure BDA0002276933790000211
其中,该矩阵的21行每一行分别对应21种氨基酸A、C、D、…、Y、*;L列每一列分别对应阳性数据集中任意一个阳性数据的2n+1个位置,共计L个;并且,记实际待处理多肽Q位于位置i的氨基酸为β,1≤i≤L,则矩阵中相应元素的计算公式为:
Figure BDA0002276933790000221
其中,N+(α,i)是所述阳性数据集中位于位置i的氨基酸为α的数量;将所述阳性数据集中位于位置i的氨基酸为α的阳性数据按顺序挑选出来得到阳性数据集子集,并且基于所述步骤(2)与所述步骤(3)的训练结果,Wi、M(β,R[i])、Posdqk分别为与该阳性数据集子集中的每个阳性数据相对应的位置权重、氨基酸替换得分及数据质量权重,1≤k≤N+(α,i),其中M(β,R[i])表示待编码肽段Q位于位置i的氨基酸β与所述阳性数据集子集中的每个阳性数据相对应的氨基酸替换得分,R[i]代表阳性数据R位于位置i的氨基酸。
基于得到的精确的相似性,可用图像进行表征,用于图像表征的矩阵为Mat+(R)。
相似的,对于给定的待编码肽段Q,可以得到其与阴性数据集(R’)的精确相似性矩阵Mat-(R’),随后Mat+(R)和Mat-(R′)分别按照其最大值最小值归一化,并占据RGB图像中的R通道和G通道,构成RGB格式的图像表征。
(5)模型训练:利用卷积神经网络(CNN)和惩罚逻辑回归(PLR)的混合学习框架分别对每种特征构建预测模型,得到多个预测模型,将每个模型的预测结果打分作为新的特征并利用惩罚逻辑回归(PLR)对其构建最终模型,并用评价指标对模型进行性能评估,确保模型的可靠性,准确性。
(6)预测平台的构建以及应用:
采用构建的预测模型开发本地预测软件,只需在预测软件的指定区域输入蛋白质序列,即可预测出该序列上修饰位点信息。通过预测软件,可以进行大规模批量预测,对修饰与癌症的关系进行分析,开展突变对修饰发生影响分析等。
实施例1
以蛋白质半胱氨酸为例,包含本发明用于判断待处理多肽与阳性数据集肽段相似度的方法构建名为GPS-Palm的预测模型,其流程图如图1所示。
具体步骤为:
1、收集并整合了来自科学文献的1,682种蛋白质的3,098个棕榈酰化位点,从UniProt数据库下载蛋白质的一级序列。将已鉴定的半胱氨酸棕榈酰化位点视为阳性数据,而将相同蛋白质中剩余的半胱氨酸位点视为阴性数据。将蛋白质序列切割成以位点为中心,上游为10个氨基酸,下游为10个氨基酸,长度为21的序列。
2、将蛋白质序列进行特征编码及图像表征,基于数据集,将阳性和阴性数据集用10种编码方案分别编码,通过惩罚逻辑回归,支持向量机,随机森林执行10倍交叉验证每种编码的AUC性能。最终AUC都大于0.5,因此,所有编码都有效。然后将10种编码方案的结果按照其特点生成10种图像表征,进一步提升特征的有效性。在生成GPS图像表征的过程中,采用权重、矩阵突变、数据质量判别等迭代方法,直至收敛。采用惩罚逻辑回归的方法生成数据质量权重。利用上述权重,用两层图表示相似性分数
3、开发集成卷积神经网络(CNN)和惩罚逻辑回归(PLR)的混合学习框架训练模型,其细节结构如图2所示。10个编码方案的图像表征作为并行CNN框架的输入。经过并行CNN的框架:10个特征图形中的所有的信息由CNN提取,惩罚逻辑回归用于整合各个单独的CNN模型的输出并输出最终的预测结果。采用4、6、8和10次交叉验证来评估性能。
4、仔细评估了本发明用于判断待处理多肽与阳性数据集肽段相似度的方法(GPS)的准确性和稳健性。结果显示,GPS-Palm优于所有其他已提出的其他半胱氨酸棕榈酰化位点预测模型,如跟目前性能最高的模型相比,AUC值从0.651提高到0.855的,相对改善超过30%。所有特征在一定程度上都具有信息性。除了GPS图像表征方法的的高性能(0.806)外,其他9种特征的10倍交叉验证AUC值分别为PSEAAC(0.681)、CKSAAP(0.679)、OBC(0.746)、AAIndex(0.778)、ACF(0.695)、PSSM(0.749)、ASA(0.661)、SS(0.583)和BTA(0.562)。在所有的图形显示中,GPS图像表征显示出最高的AUC值。并行CNN框架被执行来融合来自每个单一图形表示的所有信息。进行了4、6、8和10次交叉验证,对于10倍交叉验证,并行CNN的AUC值比GPS的单一图形显示增加了6.1%(0.855比0.806)。总的来说,并行CNN结合10种特征的所有有效图形显示,在棕榈酰化位点预测方面显示出显著的改进。
最后,在基准数据集上进行了4、6、8和10次交叉验证。结果的AUC值高度集中。对于4、6、8和10次交叉验证,AUC值分别为0.855、0.854、0.854和0.855。不同折数的交叉验证下,高性能和低偏差表明并行CNN模型是非常精确的和高鲁棒性的。
5、为方便广大使用者,利用Qt和Python开发了基于GPS模型棕榈酰化位点预测平台(http://gpspalm.biocuckoo.cn/userguide.php)。用户只需输入fasta格式的蛋白质序列,点击提交即可,预测结果如图3所示,ID指用户输入的蛋白质名称或ID。Position指预测的棕榈酰化位点在蛋白质上的位置。Peptide指以预测的棕榈酰化位点为中心的肽段情况。Score为该位点的得分,得分越高越可能是棕榈酰化位点。Cutoff指阈值,在阈值之上的为被预测的棕榈酰化位点。
6、将该平台应用到棕榈酰化和疾病的关系分析中,在示例面板中,GPS-Palm成功预测了最近实验发现的两个重要的棕榈酰化位点(图三)。两种底物中的这棕榈酰化位点分别在T细胞免疫反应和黑色素变性中具有重要意义。GPS-Palm软件精确预测了PD-L1中cys272的棕榈酰化。另一个预测位点cys209可能是潜在棕榈酰化位点。第二个例子,在黑素皮质素受体(MC1R)的cys315是黑素损伤的关键蛋白。MC1R的棕榈酰化依赖性激活可预防黑色素变性。在高阈值选项下,GPS-Palm成功预测了cys315是MC1R唯一潜在的棕榈酰化位点,Score值为0.9913。两个实例均证明了图形表征和并行CNN在精度和鲁棒性方面的优越性。因此,本平台可以为进一步的棕榈酰化位点识别实验提供有效的指导。
蛋白质修饰的具体类型可预先设定,例如可在若干种类型的修饰中预先取其中一种作为特定的类型;除上述实施例中所针对的半胱氨酸棕榈酰化外,还适用于法尼基化、二硫键、香叶酰香叶酰化、谷胱甘肽化、硝基化及亚磺酰化等其他修饰类型。基于预先设定的特定类型的蛋白质修饰、下载蛋白质一级序列,可基于现有数据库开展,下载蛋白质信息并已知修饰位点信息的蛋白质。此外,对于实际待处理多肽Q0,为匹配长度所采用的以预测位点为中心的氨基酸截取或补充氨基酸*,均可采用常规方法进行。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种用于判断待处理多肽与阳性数据集肽段相似度的方法,其特征在于,包括以下步骤:
(1)收集修饰位点信息:基于预先设定的某一种特定类型的蛋白质翻译后修饰,收集蛋白质翻译后这一特定类型的修饰位点信息,下载得到蛋白质的一级序列;然后,将一级序列中满足特定类型的修饰位点在蛋白质上的对应位点标记为阳性位点,将一级序列中排除这些阳性位点、且与这些阳性位点所对应的氨基酸种类相同的氨基酸位点标记为阴性位点;接着,分别以各个阳性位点和各个阴性位点为中心,对蛋白质的一级序列进行切割,形成:
(a)以某个阳性位点为中心,且包括紧邻该中心的上游n个氨基酸、及下游n个氨基酸的总长度为2n+1个氨基酸的序列,从而得到与该阳性位点相对应的阳性数据;以及
(b)以某个阴性位点为中心,且包括紧邻该中心的上游n个氨基酸、及下游n个氨基酸的总长度为2n+1个氨基酸的序列,从而得到与该阴性位点相对应的阴性数据;
由各个阳性位点相对应的阳性数据按先后顺序排列形成的数据集合即为阳性数据集,由各个阴性位点相对应的阴性数据按先后顺序排列形成的数据集合即为阴性数据集;其中,n为预先设定的大于等于1的整数;
(2)位置权重训练与矩阵突变训练:
记训练用待处理多肽为Q,将训练用待处理多肽Q与所述阳性数据集中的每个阳性数据基于位置权重和氨基酸替换得分进行相似度打分,具体计算公式如下:
S(Q,R)=∑1≤i≤L Wi M(Q[i],R[i]);
其中,L=2n+1;Q[i],R[i]分别是训练用待处理多肽Q和所述阳性数据集中某个阳性数据R在位置i上的氨基酸;M(Q[i],R[i])为氨基酸Q[i],R[i]在BLOSUM62氨基酸替换矩阵中的分值,即氨基酸替换得分;Wi为训练用待处理多肽Q中位置i上的权重,即位置权重;
接着,将所述阳性数据集中的每一个阳性数据和所述阴性数据集中的每一个阴性数据分别作为训练用待处理多肽Q,与所述阳性数据集中的每个阳性数据基于位置权重和氨基酸替换得分进行相似度打分,位置权重Wi初始值为1,然后使用惩罚逻辑回归执行交叉验证训练出位置权重及氨基酸替换得分,由此训练得到与阳性数据集中的每个阳性数据相对应的位置权重及氨基酸替换得分;
(3)数据质量权重的训练:
将训练用待处理多肽Q与所述阳性数据集整体基于位置权重和氨基酸替换得分进行相似度打分,得到训练用待处理多肽Q与所述阳性数据集的整体相似性分值,具体计算公式如下:
Figure FDA0003057521960000021
其中,S(Q,Tj)为训练用待处理多肽Q和所述阳性数据集中第j个阳性数据Tj的相似度打分;N+是阳性数据集中阳性数据的总数量,1≤j≤N+;Posdqj是所述阳性数据集中阳性数据Tj的数据质量,即数据质量权重;
阳性数据集中的每个阳性数据都能够依此对应得到数据质量权重;
接着,将所述阳性数据集中的每一个阳性数据和所述阴性数据集中的每一个阴性数据分别作为训练用待处理多肽Q,与所述阳性数据集整体基于位置权重和氨基酸替换得分进行相似度打分,数据质量Posdqj的值初始化为1,执行惩罚逻辑回归交叉验证,根据预先设定的AUC值要求训练出数据质量权重Posdqj;由此训练得到与阳性数据集中的每个阳性数据相对应的数据质量权重;
(4)实际测试:
对于实际待处理多肽Q0,首先匹配长度,通过以预测位点为中心的氨基酸截取或补*,使待处理多肽的长度为2n+1,得到新的实际待处理多肽;然后,将Q更新为实际待处理多肽,基于训练得到的与阳性数据集中的每个阳性数据相对应的位置权重、氨基酸替换得分及数据质量权重,计算实际待处理多肽Q与阳性数据集整体之间的精确的相似性;用于表示精确的相似性的矩阵具体如下:
Figure FDA0003057521960000031
其中,该矩阵的21行每一行分别对应21种氨基酸A、…、*;L列每一列分别对应阳性数据集中任意一个阳性数据的2n+1个位置,共计L个;并且,记实际待处理多肽Q位于位置i的氨基酸为β,1≤i≤L,则矩阵中相应元素的计算公式为:
Figure FDA0003057521960000032
其中,N+(α,i)是所述阳性数据集中位于位置i的氨基酸为α的数量;将所述阳性数据集中位于位置i的氨基酸为α的阳性数据按顺序挑选出来得到阳性数据集子集,并且基于所述步骤(2)与所述步骤(3)的训练结果,Wi、M(β,R[i])、Posdqk分别为与该阳性数据集子集中的每个阳性数据相对应的位置权重、氨基酸替换得分及数据质量权重,1≤k≤N+(α,i),其中M(β,R[i])表示待处理多肽Q位于位置i的氨基酸β与所述阳性数据集子集中的每个阳性数据相对应的氨基酸替换得分,R[i]代表阳性数据R位于位置i的氨基酸。
2.如权利要求1所述用于判断待处理多肽与阳性数据集肽段相似度的方法,其特征在于,所述方法还包括步骤:
(5)成像:
将Mat+(R)矩阵归一化,然后进行灰度映射或RGB彩色映射,即可显示得到用于表征实际待处理多肽Q与所述阳性数据集之间相似性的图像。
3.如权利要求1所述用于判断待处理多肽与阳性数据集肽段相似度的方法,其特征在于,所述步骤(1)中,所述预先设定的某一种特定类型的蛋白质翻译后修饰,具体为半胱氨酸棕榈酰化修饰、法尼基化修饰、二硫键修饰、香叶酰香叶酰化修饰、谷胱甘肽化修饰、硝基化修饰及亚磺酰化修饰中的任意一种。
4.如权利要求1所述用于判断待处理多肽与阳性数据集肽段相似度的方法,其特征在于,所述步骤(1)中,n满足1≤n≤20。
5.包含如权利要求1-4任意一项所述用于判断待处理多肽与阳性数据集肽段相似度的方法的多图像表征模型的蛋白质翻译后修饰位点预测方法,其特征在于,该预测方法是同时基于如权利要求1-4任意一项所述用于判断待处理多肽与阳性数据集肽段相似度的方法、以及若干个其他的相似度判断方法在内的多种相似度判断方法,先收集修饰位点信息,接着基于各个相似度判断方法对实际待处理多肽Q进行特征编码,得到数字向量特征;然后将所述数字向量特征分别利用惩罚逻辑回归、支持向量机和随机森林验证每种相似度判断方法的AUC性能,将AUC性能大于0.5的相似度判断方法作为备用判断方法,然后再利用所述备用判断方法对实际待处理多肽Q进行特征编码,得到最终的数字向量特征;
接着,基于所述备用判断方法得到的最终的数字向量特征,将数字向量特征进行灰度映射或RGB彩色映射得到灰度图像或RGB图像,即可得到与每一种备用判断方法相对应的全部至少1个图像,每一种备用判断方法对应一个灰度图像或一个RGB图像;
然后,进行模型训练,具体是先利用多个卷积神经网络构建预测模型,每一种备用判断方法对应一个预测模型,并将阳性数据集中的每一个阳性数据和阴性数据集中的每一个阴性数据分别作为训练用肽段,利用惩罚逻辑回归对每个预测模型进行训练,得到最终模型;
最后,进行蛋白质翻译后修饰位点预测,具体是将得到的所述最终模型用于预测蛋白质翻译后修饰位点,从而针对任意一个实际待处理多肽得到任意一种备用判断方法的数字向量特征、及蛋白质位点是属于阳性位点还是属于阴性位点的信息。
6.如权利要求5所述多图像表征模型的蛋白质翻译后修饰位点预测方法,其特征在于,所述若干个其他的相似度判断方法选自基于PseAAC方法的相似度判断方法、基于CKSAAP方法的相似度判断方法、基于正交二进制方法的相似度判断方法、基于AAindex方法的相似度判断方法、基于自相关特征集方法的相似度判断方法、基于PSSM方法的相似度判断方法、基于ASA方法的相似度判断方法、基于SS方法的相似度判断方法和基于BTA方法的相似度判断方法中的若干种。
7.一种用于判断待处理多肽与阳性数据集肽段相似度的系统,其特征在于,包括:
收集修饰位点信息的模块,用于:基于预先设定的某一种特定类型的蛋白质翻译后修饰,收集蛋白质翻译后这一特定类型的修饰位点信息,下载得到蛋白质的一级序列;将一级序列中满足特定类型的修饰位点在蛋白质上的对应位点标记为阳性位点,将一级序列中排除这些阳性位点、且与这些阳性位点所对应的氨基酸种类相同的氨基酸位点标记为阴性位点;分别以各个阳性位点和各个阴性位点为中心,对蛋白质的一级序列进行切割,形成:
(a)以某个阳性位点为中心,且包括紧邻该中心的上游n个氨基酸、及下游n个氨基酸的总长度为2n+1个氨基酸的序列,从而得到与该阳性位点相对应的阳性数据;以及
(b)以某个阴性位点为中心,且包括紧邻该中心的上游n个氨基酸、及下游n个氨基酸的总长度为2n+1个氨基酸的序列,从而得到与该阴性位点相对应的阴性数据;
由各个阳性位点相对应的阳性数据按先后顺序排列形成的数据集合即为阳性数据集,由各个阴性位点相对应的阴性数据按先后顺序排列形成的数据集合即为阴性数据集;其中,n为预先设定的大于等于1的整数;
位置权重训练与矩阵突变训练模块,用于:
记训练用待处理多肽为Q,将训练用待处理多肽Q与所述阳性数据集中的每个阳性数据基于位置权重和氨基酸替换得分进行相似度打分,具体计算公式如下:
S(Q,R)=∑1≤i≤L Wi M(Q[i],R[i]);
其中,L=2n+1;Q[i],R[i]分别是训练用待处理多肽Q和所述阳性数据集中某个阳性数据R在位置i上的氨基酸;M(Q[i],R[i])为氨基酸Q[i],R[i]在BLOSUM62氨基酸替换矩阵中的分值,即氨基酸替换得分;Wi为训练用待处理多肽Q中位置i上的权重,即位置权重;
将所述阳性数据集中的每一个阳性数据和所述阴性数据集中的每一个阴性数据分别作为训练用待处理多肽Q,与所述阳性数据集中的每个阳性数据基于位置权重和氨基酸替换得分进行相似度打分,位置权重Wi初始值为1,然后使用惩罚逻辑回归执行交叉验证训练出位置权重及氨基酸替换得分,由此训练得到与阳性数据集中的每个阳性数据相对应的位置权重及氨基酸替换得分;
数据质量权重的训练模块,用于:
将训练用待处理多肽Q与所述阳性数据集整体基于位置权重和氨基酸替换得分进行相似度打分,得到训练用待处理多肽Q与所述阳性数据集的整体相似性分值,具体计算公式如下:
Figure FDA0003057521960000061
其中,S(Q,Tj)为训练用待处理多肽Q和所述阳性数据集中第j个阳性数据Tj的相似度打分;N+是阳性数据集中阳性数据的总数量,1≤j≤N+;Posdqj是所述阳性数据集中阳性数据Tj的数据质量,即数据质量权重;
阳性数据集中的每个阳性数据都能够依此对应得到数据质量权重;
将所述阳性数据集中的每一个阳性数据和所述阴性数据集中的每一个阴性数据分别作为训练用待处理多肽Q,与所述阳性数据集整体基于位置权重和氨基酸替换得分进行相似度打分,数据质量Posdqj的值初始化为1,执行惩罚逻辑回归交叉验证,根据预先设定的AUC值要求训练出数据质量权重Posdqj;由此训练得到与阳性数据集中的每个阳性数据相对应的数据质量权重;
实际测试模块,用于:
对于实际待处理多肽Q0,首先匹配长度,通过以预测位点为中心的氨基酸截取或补*,使待处理多肽的长度为2n+1,得到新的实际待处理多肽;将Q更新为实际待处理多肽,基于训练得到的与阳性数据集中的每个阳性数据相对应的位置权重、氨基酸替换得分及数据质量权重,计算实际待处理多肽Q与阳性数据集整体之间的精确的相似性;用于表示精确的相似性的矩阵具体如下:
Figure FDA0003057521960000071
其中,该矩阵的21行每一行分别对应21种氨基酸A、…、*;L列每一列分别对应阳性数据集中任意一个阳性数据的2n+1个位置,共计L个;并且,记实际待处理多肽Q位于位置i的氨基酸为β,1≤i≤L,则矩阵中相应元素的计算公式为:
Figure FDA0003057521960000072
其中,N+(α,i)是所述阳性数据集中位于位置i的氨基酸为α的数量;将所述阳性数据集中位于位置i的氨基酸为α的阳性数据按顺序挑选出来得到阳性数据集子集,并且基于所述位置权重训练与矩阵突变训练模块、所述数据质量权重的训练模块的训练结果,Wi、M(β,R[i])、Posdqk分别为与该阳性数据集子集中的每个阳性数据相对应的位置权重、氨基酸替换得分及数据质量权重,1≤k≤N+(α,i),其中M(β,R[i])表示待处理多肽Q位于位置i的氨基酸β与所述阳性数据集子集中的每个阳性数据相对应的氨基酸替换得分,R[i]代表阳性数据R位于位置i的氨基酸。
8.一种多图像表征模型的蛋白质翻译后修饰位点预测系统,其特征在于,该预测系统是同时基于如权利要求1-4任意一项所述用于判断待处理多肽与阳性数据集肽段相似度的方法、以及若干个其他的相似度判断方法在内的多种相似度判断方法,包括:
收集修饰位点信息的模块,用于得到阳性数据集和阴性数据集;
数字向量特征提取及图像形成模块,用于:基于各个相似度判断方法对实际待处理多肽Q进行特征编码,得到数字向量特征;将所述数字向量特征分别利用惩罚逻辑回归、支持向量机和随机森林验证每种相似度判断方法的AUC性能,将AUC性能大于0.5的相似度判断方法作为备用判断方法,然后再利用所述备用判断方法对实际待处理多肽Q进行特征编码,得到最终的数字向量特征;
基于所述备用判断方法得到的最终的数字向量特征,将数字向量特征进行灰度映射或RGB彩色映射得到灰度图像或RGB图像,即可得到与每一种备用判断方法相对应的全部至少1个图像,每一种备用判断方法对应一个灰度图像或一个RGB图像;
该系统同时包括多个预测模型,每个预测模型利用一个卷积神经网络构建得到,每一种备用判断方法对应一个预测模型,将阳性数据集中的每一个阳性数据和阴性数据集中的每一个阴性数据分别作为训练用肽段,利用惩罚逻辑回归对每个预测模型进行训练,得到最终模型;
蛋白质翻译后修饰位点预测模块,用于将得到的所述最终模型用于预测蛋白质翻译后修饰位点,从而针对任意一个实际待处理多肽得到任意一种备用判断方法的数字向量特征、及蛋白质位点是属于阳性位点还是属于阴性位点的信息。
CN201911126311.1A 2019-11-18 2019-11-18 一种用于判断待处理多肽与阳性数据集肽段相似度的方法 Active CN110970090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911126311.1A CN110970090B (zh) 2019-11-18 2019-11-18 一种用于判断待处理多肽与阳性数据集肽段相似度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911126311.1A CN110970090B (zh) 2019-11-18 2019-11-18 一种用于判断待处理多肽与阳性数据集肽段相似度的方法

Publications (2)

Publication Number Publication Date
CN110970090A CN110970090A (zh) 2020-04-07
CN110970090B true CN110970090B (zh) 2021-06-29

Family

ID=70030940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911126311.1A Active CN110970090B (zh) 2019-11-18 2019-11-18 一种用于判断待处理多肽与阳性数据集肽段相似度的方法

Country Status (1)

Country Link
CN (1) CN110970090B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115966249B (zh) * 2023-02-15 2023-05-26 北京科技大学 基于分数阶神经网的蛋白质-atp结合位点预测方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1690207B1 (en) * 2003-12-05 2010-09-29 Council of Scientific and Industrial Research A computer based versatile method for identifying protein coding dna sequences useful as drug targets
CN103745135A (zh) * 2013-12-11 2014-04-23 深圳先进技术研究院 基于最近邻算法的蛋白激酶特异性预测方法及装置
WO2016120868A1 (en) * 2015-01-29 2016-08-04 Yeda Research And Development Co. Ltd. Crystal structure of the large ribosomal subunit from s. aureus
WO2017161188A1 (en) * 2016-03-16 2017-09-21 The Regents Of The University Of California Detection and treatment of anti-pd-1 therapy resistant metastatic melanomas
SG10201913583QA (en) * 2016-08-23 2020-02-27 Univ California Proteolytically cleavable chimeric polypeptides and methods of use thereof
CN106951735B (zh) * 2017-03-10 2019-06-04 上海交通大学 一种基于分层混合模型的信号肽及其切割位点的预测方法
CN107463795A (zh) * 2017-08-02 2017-12-12 南昌大学 一种识别酪氨酸翻译后修饰位点的预测算法
CN110033822B (zh) * 2019-03-29 2020-12-08 华中科技大学 蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统

Also Published As

Publication number Publication date
CN110970090A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
Hasan et al. NeuroPred-FRL: an interpretable prediction model for identifying neuropeptide using feature representation learning
Ferrè et al. Disulfide connectivity prediction using secondary structure information and diresidue frequencies
Hu et al. Prediction of body fluids where proteins are secreted into based on protein interaction network
CN110033822B (zh) 蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统
Chen et al. nhKcr: a new bioinformatics tool for predicting crotonylation sites on human nonhistone proteins based on deep learning
US11545236B2 (en) Methods and systems for predicting membrane protein expression based on sequence-level information
Fang et al. Identifying short disorder-to-order binding regions in disordered proteins with a deep convolutional neural network method
Zheng et al. AnnoPRO: a strategy for protein function annotation based on multi-scale protein representation and a hybrid deep learning of dual-path encoding
Khalili et al. Predicting protein phosphorylation sites in soybean using interpretable deep tabular learning network
CN110970090B (zh) 一种用于判断待处理多肽与阳性数据集肽段相似度的方法
Hong et al. A-Prot: protein structure modeling using MSA transformer
Sha et al. DeepSADPr: A hybrid-learning architecture for serine ADP-ribosylation site prediction
Roche et al. E (3) equivariant graph neural networks for robust and accurate protein-protein interaction site prediction
Zhou et al. SSH2. 0: a better tool for predicting the Hydrophobic interaction risk of monoclonal Antibody
Nabi et al. Discovering misannotated lncRNAs using deep learning training dynamics
CN114093415A (zh) 肽段可检测性预测方法
Luo et al. A Caps-UBI model for protein ubiquitination site prediction
Wang et al. Computational identification of ubiquitination sites in Arabidopsis thaliana using convolutional neural networks
Peng et al. PTM-Mamba: A PTM-aware protein language model with bidirectional gated Mamba blocks
Walsh et al. Ab initio and homology based prediction of protein domains by recursive neural networks
Bao et al. Prediction of lysine pupylation sites with machine learning methods
Fan et al. DeepKPred: Prediction and Functional Analysis of Lysine 2-Hydroxyisobutyrylation Sites Based on Deep Learning
Song et al. Predicting turns in proteins with a unified model
Saraswathi et al. Distributions of amino acids suggest that certain residue types more effectively determine protein secondary structure
Zhu et al. PPSNO: A Feature-Rich SNO Sites Predictor by Stacking Ensemble Strategy from Protein Sequence-Derived Information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant