CN105893787A - 一种蛋白质翻译后修饰甲基化位点的预测方法 - Google Patents

一种蛋白质翻译后修饰甲基化位点的预测方法 Download PDF

Info

Publication number
CN105893787A
CN105893787A CN201610447108.4A CN201610447108A CN105893787A CN 105893787 A CN105893787 A CN 105893787A CN 201610447108 A CN201610447108 A CN 201610447108A CN 105893787 A CN105893787 A CN 105893787A
Authority
CN
China
Prior art keywords
sequence
protein
prediction
feature
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610447108.4A
Other languages
English (en)
Inventor
邱建丁
温平平
施绍萍
梁汝萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN201610447108.4A priority Critical patent/CN105893787A/zh
Publication of CN105893787A publication Critical patent/CN105893787A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种蛋白质翻译后修饰甲基化位点的预测方法,属于生物信息学领域。蛋白质甲基化修饰参与细胞功能及细胞过程的许多生命活动,识别其位点对理解细胞的生命活动有十分重要的意义。本发明融合序列信息、进化信息和物理化学性质对蛋白质甲基化序列进行特征编码,采用信息增益优化特征方法并结合支持向量机构建预测模型,独立测试结果表明本方法对蛋白质甲基化位点具有良好的预测性能,同时,开发了网络预测平台,用于对蛋白质甲基化位点的在线预测。

Description

一种蛋白质翻译后修饰甲基化位点的预测方法
技术领域
本发明属于生物信息学领域,具体涉及一种蛋白质翻译后修饰甲基化位点的预测方法。
背景技术
蛋白质翻译后修饰(PTMs)对细胞的调控机制起着重要作用,影响蛋白的多种属性,包括蛋白质折叠、活性及其生物功能,因此,深入研究PTMs对于理解人类疾病发病机制具有重要作用。蛋白质甲基化是众多蛋白质翻译后修饰中最常见的一种,在甲基转移酶的催化下,甲基基团由N -腺苷基甲硫氨酸转移至相应蛋白质。蛋白质甲基化不仅对真核细胞染色质的遗传修饰具有重要作用,还对细胞分化、发育、基因表达、基因组稳定性、信号传递以及人类疾病研究等具有十分重要的作用。虽然目前有多种实验方法可以对甲基化位点进行识别,例如质谱技术、放射性化学方法和染色体免疫沉淀法等,但是,这些实验技术对甲基化位点的识别效率较低、耗时长且费用高。近年来,采用生物信息学方法预测甲基化位点越来越受欢迎,从2005年至今,已有数十种预测甲基化的方法和工具,例如,Xue等利用支持向量机构建了第一个预测甲基化位点的平台。Shao等基于贝叶斯算法提取特征建立了一种识别甲基化位点预测器。Shi等基于扩张的特征编码方案和支持向量机开发了蛋白质甲基化预测工具。最近,Lee等基于氨基酸主成分和溶剂可及表面积等特征,建立了MethK工具预测组蛋白和非组蛋白的赖氨酸甲基化位点。虽然甲基化位点预测方法取得了很大进展,但这些方法仍存在一些缺陷。如:构建模型时收集的训练样本比较少,特征编码时使用的特征比较单一,构建的模型过于简单而没有进行详细分类等。随着现代技术的快速发展,越来越多的甲基化位点被识别出来,现有模型和方法不能满足多类型和高精度的预测要求。因而发展新方法改进现有蛋白质甲基化位点的预测非常关键。本发明发展了一种基于多特征编码和信息增益优化方法构建不同物种的甲基化位点预测模型,通过独立测试集测试比对表明,本方法构建的预测模型具有稳定、准确度高等优点。本发明的预测结果可以为实验验证甲基化位点的研究提供很好的借鉴作用,对研究蛋白质甲基化的机理和生物功能有重大意义。
发明内容
本发明的目的在于提供一种蛋白质翻译后修饰甲基化位点的预测方法,它对蛋白质甲基化位点的预测具有快速、高通量和准确度高的优点。
本发明是这样实现的,一种蛋白质翻译后修饰甲基化位点的预测方法,其特征在于:首先,收集实验验证的蛋白质甲基化数据,进行序列预处理后得到正负样本序列,对样本序列进行序列信息、进化信息和物理化学性质等三方面的特征编码;然后,采用信息增益方法优化特征,再采用支持向量机进行机器学习和构建预测模型,用评价指标判断预测模型的性能;最后,构建蛋白质甲基化位点网络预测平台,用于蛋白质甲基化位点的在线预测。
本发明采用以下技术方案:基于以上所述,本发明的具体步骤为:
步骤1),收集蛋白质甲基化数据:甲基化蛋白从蛋白质数据库中收集,正样本是经实验验证标记的甲基化位点,负样本是从与正样本相同的蛋白中随机挑选的跟正样本数量相同的未标记的精氨酸和赖氨酸序列;
步骤2),样本序列预处理:将收集的正负样本序列经过cd-hit工具去除30%的同源性,再统一切割成以精氨酸或赖氨酸为中心,上游为9个氨基酸,下游为9个氨基酸,长度为19的序列;
步骤3),样本序列特征编码:对正负样本序列的序列信息、进化信息和物理化学性质进行特征编码;
步骤4),采用信息增益方法优化特征:由步骤3的特征编码得到的维数比较大,且有冗余的信息,所以,采用信息增益的方法挑选重要的维数组成新的特征,不仅能减少维数,还能提高预测的准确度;信息增益的原理是根据信息熵进行挑选,其具体步骤如下:
当一个特征向量定义为X时,其信息熵为:
(1)
[x i ]是X的数值集中的一个子集,P(x i )是x i 的先验概率;
X在给定另一个组Y中的条件熵定义为:
(2)
P(x i |y j)是X给另外一个值y i 的后验概率;
通过X熵的减少量反映X提供给Y的增加熵,称作信息增益:
(3)
以上理论表明,信息熵的值越大,该特征越重要;
步骤5),构建预测模型:采用步骤4的信息增益优化方法优化步骤3的样本序列特征编码,得到最优特征向量,将最优特征向量输入支持向量机进行10倍交叉验证训练学习,以灵敏度、特异度、准确度和马氏相关系数作为评价指标对模型进行评价,筛选出最优预测模型;用筛选出的最优预测模型对独立测试集样本进行测试,验证预测模型的性能。
上述方法中,步骤3)中样本序列进行特征编码的具体实施步骤如下:
(1)样本序列的序列信息编码:序列信息包括氨基酸出现频率、二进制编码和K-空间氨基酸对;氨基酸出现频率是根据20种氨基酸在长度为19的序列中出现的频数进行编码;二进制编码是把序列中每个氨基酸都转化为一个20维的向量;K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频数,根据频数进行编码;
(2)样本序列的进化信息编码:基于K-近邻打分特征进行编码,比对未知的序列与已知的甲基化序列进行相似性打分,当打分大于0.5时认为是甲基化序列,,否则为非甲基化序列;相似性主要是基于空间距离的比对,其距离的计算方法如下:
两条序列s 1=[s 1 (i)]和s 2=[s 2 (i)]的距离Dist (s 1,s 2)定义为:
(4)
(5)
p代表蛋白序列长度,Sim是氨基酸相似矩阵BLOSUM62,ab分别代表氨基酸残基,M是置换矩阵,max{M}是矩阵最大值,min{M}是矩阵最小值;
(3)样本序列的物理化学性质编码:把样本序列残基转化为对应的物理化学性质的数值,用支持向量机对544种氨基酸物理化学性质一一编码测试,选取其中三个预测准确度最高的物理化学性质,作为氨基酸物理化学性质编码。
本发明还涉及一种蛋白质翻译后修饰甲基化位点的预测方法的应用:采用构建的预测模型开发在线网络预测平台http://bioinfo.ncu.edu.cn/PSSMe.aspx,只需在预测平台的指定区域输入蛋白质名称或蛋白质序列,即可直接给出该蛋白质中可能出现的甲基化位点预测信息,实现对蛋白质甲基化位点的在线预测;同时,在预测平台的指定区域输入多条蛋白质序列,即可实现对蛋白质甲基化位点的高通量预测。
本发明的技术效果是:本发明先从蛋白质数据库中收集甲基化蛋白质数据,经去同源和切割预处理后得到正负样本序列,对样本序列进行序列信息、进化信息和物理化学性质特征编码,并采用信息增益方法优化特征,将最优特征向量输入支持向量机进行10倍交叉验证训练学习筛选出最优预测模型,基于最优模型开发在线网络预测平台,只需在预测平台的指定区域输入蛋白质名称或蛋白质序列,即可直接给出该蛋白质中可能出现的甲基化位点预测信息,该方法具有快速、高通量和准确性好的优点。
附图说明
图1是采用K-近邻打分特征编码区分精氨酸甲基化与非甲基化序列结果图。(a)人类、(b)老鼠和(c)大老鼠的甲基化序列打分,(e)人类、(d)老鼠和(f)大老鼠的非甲基化序列打分。
图2是采用K-近邻打分特征编码区分赖氨酸甲基化与非甲基化序列结果图。(a)人类、(b)老鼠和(c)其他真核生物的甲基化序列打分,(e)人类、(d)老鼠和(f)其他真核生物的非甲基化序列打分。
图3是信息增益优化后的特征与单个特征对不同物种模型预测准确度的比较图:(a)精氨酸人类模型,(b)精氨酸老鼠模型,(c)精氨酸大老鼠模型,(d)精氨酸混合模型,(e)赖氨酸人类模型,(f)赖氨酸老鼠模型,(g)赖氨酸其他真核生物模型,(h)赖氨酸混合模型。
图4是B4DEH8蛋白甲基化位点的预测结果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步阐述,本发明并不限于此;
实施例1
从UniProt和PhosphoSite等蛋白质数据库中收集蛋白质甲基化数据,正样本是经实验验证标记的甲基化位点,负样本是从与正样本相同的蛋白中随机挑选的跟正样本数量相同的未标记的精氨酸(R)和赖氨酸(K)序列。将以上收集的蛋白序列经过cd-hit工具去除30%的同源性,再统一切割成以R或K为中心、上游为9个氨基酸、下游为9个氨基酸、长度为19的序列。对统一切割预处理后的正负样本序列按照以下步骤进行序列信息、进化信息和物理化学性质特征编码:
(1)样本序列的序列信息编码:序列信息包括氨基酸出现频率、二进制编码和K-空间氨基酸对;氨基酸出现频率是根据20种氨基酸在长度为19的序列中出现的频数进行编码;二进制编码是把序列中每个氨基酸都转化为一个20维的向量;K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频数,根据频数进行编码。
(2)样本序列的进化信息编码:基于K-近邻打分特征进行编码,比对未知的序列与已知的甲基化序列进行相似性打分,当打分大于0.5时认为是甲基化序列,否则为非甲基化序列。相似性主要是基于空间距离的比对,其距离的计算方法如下:
两条序列s 1=[s 1 (i)]和s 2=[s 2 (i)]的距离Dist (s 1,s 2)定义为:
p代表蛋白序列长度,Sim是氨基酸相似矩阵BLOSUM62,ab分别代表氨基酸残基,M是置换矩阵,max{M}是矩阵最大值,min{M}是矩阵最小值。
进化信息训练的结果如图1和图2所示,图1是精氨酸序列K-近邻打分,图2是赖氨酸序列K-近邻打分。可见,当打分大于0.5时,该序列被认为能发生甲基化,而当打分小于0.5时,则为非甲基化序列。该特征能显著区分甲基化和非甲基化位点,可用于对蛋白质甲基化位点的预测。
(3)样本序列的物理化学性质编码:把样本序列残基转化为对应的物理化学性质的数值,用支持向量机对544种氨基酸物理化学性质一一编码测试,选取其中三个预测准确度最高的物理化学性质,作为氨基酸物理化学性质编码。
由以上特征编码得到的维数比较大,且有冗余信息,而采用信息增益方法挑选重要的维数组成新特征,不仅能减少维数,还能提高预测的准确度。信息增益的原理是根据信息熵进行挑选,具体步骤如下:
当一个特征向量定义为X时,其信息熵为:
[x i ]是X的数值集中的一个子集,P(x i )是x i 的先验概率;
X在给定另一个组Y中的条件熵定义为:
P(x i |y j)是X给另外一个值y i 的后验概率;
通过X熵的减少量反映X提供给Y的增加熵,称作信息增益:
以上理论表明,信息熵的值越大,该特征越重要。
图3是信息增益优化后的特征与单个特征对不同物种模型预测准确度的比较。由图可见,对精氨酸人类模型,采用单个特征得到的最高预测准确度为72.65%,而采用信息增益优化后的特征得到的预测准确度为78.94%,提高了6.29%(图3a);对精氨酸老鼠模型,采用单个特征得到的最高预测准确度为71.64%,而采用信息增益优化后的特征得到的预测准确度为77.49%,提高了5.85%(图3b);对精氨酸大老鼠模型,采用单个特征得到的最高预测准确度为73.67%,而采用信息增益优化后的特征得到的预测准确度为80.06%,提高了6.39%(图3c);对精氨酸混合模型,采用单个特征得到的最高预测准确度为71.49%,而采用信息增益优化后的特征得到的预测准确度为75.82%,提高了4.33%(图3d)。对赖氨酸人类模型,采用单个特征得到的最高预测准确度为67.84%,而采用信息增益优化后的特征得到的预测准确度为73.62%,提高了5.78%(图3e);对赖氨酸老鼠模型,采用单个特征得到的最高预测准确度为68.01%,而采用信息增益优化后的特征得到的预测准确度为81.18%,提高了13.17%(图3f);对赖氨酸老鼠模型,采用单个特征得到的最高预测准确度为67.79%,而采用信息增益优化后的特征得到的预测准确度为80.36%,提高了12.57%(图3g);对赖氨酸混合模型,采用单个特征得到的最高预测准确度为65.78%,而采用信息增益优化后的特征得到的预测准确度为73.36%,提高了7.58%(图3h)。以上结果表明,采用信息增益的方法对特征进行优化后,对蛋白质甲基化位点的预测准确度比单个特征预测的准确度显著提高,表明信息增益能的方法可显著优化特征。
采用信息增益优化方法优化样本序列特征编码,得到最优特征向量,将最优特征向量输入支持向量机进行10倍交叉验证训练学习,以灵敏度、特异度、准确度和马氏相关系数作为评价指标对模型进行评价,筛选出最优预测模型,并用筛选出的最优预测模型对独立测试集样本进行测试,验证预测模型的性能,建立了甲基化位点物种特异性预测模型(PSSMe)。
实施例2
为了方便蛋白质甲基化位点的预测应用,基于PSSMe并采用MATLAB和C#语言联合编程,开发了在线预测平台(http://bioinfo.ncu.edu.cn/PSSMe.aspx)。只需在该网站的指定区域输入需要预测蛋白在UniProt数据库中的蛋白名称或蛋白fasta格式序列,就可以进行该蛋白可能的甲基化位点预测。例如,用户想预测蛋白名为“B4DEH8”的序列的甲基化位点,只需在网站的蛋白名处输入“B4DEH8”,点击“Load”键,PSSMe工具将自动从UniProt数据库中下载该蛋白序列并导入到指定区域,B4DEH8蛋白序列信息如下:
>tr|B4DEH8|B4DEH8_HUMAN
MEEEAEKLKELQNEVEKQMNMSPPPGNAGPVIMSIEEKMEADARSIYVGNVDYGATAEELEAHFHGCGSVNRVTILCDKFSGHPKGFAYIEFSDKESVRTSLALDESLFRGRQIKVIPKRTNRPGISTTDRGFPRARYRARTTNYNSSRSRFYSGFNSRPRGRVYRSG
当B4DEH8蛋白序列导入后,用户选择需要预测的是R甲基化还是K甲基化,即可预测出该蛋白在精氨酸或赖氨酸上发生甲基化的位点。本方法还可以用于对不同物种蛋白质甲基化位点的预测,用户只需选择所需预测的物种类型,即可预测出该物种蛋白质发生甲基化的位点。当B4DEH8蛋白质选择精氨酸人类模型时,点击提交后,后台程序会自动进行该蛋白质序列的预处理、特征编码、信息增益的特征优化及支持向量机的学习,最后给出甲基化位点的预测信息,当预测概率大于0.5时被认定为甲基化位点,反之为非甲基化位点。图4为蛋白名为“B4DEH8”的序列在精氨酸人类模型上发生甲基化的预测结果。由图可见,第一列为蛋白名,第二列为甲基化位点在蛋白序列的位置,第三列为以甲基化位点为中心的长度为19的蛋白序列,第四列为支持向量机预测该位置上的氨基酸发生甲基化的概率。采用本方法构建的PSSMe预测出B4DEH8蛋白质共有11个位置的精氨酸能发生甲基化,分别是在序列位置的第110, 112, 131, 135, 137, 141, 151, 159, 161, 163, 166处,且发生甲基化的概率分别为0.77621, 0.61148, 0.73182, 0.72489, 0.65894, 0.51302, 0.66732,0.63348, 0.86128, 0.90358, 0.72676。预测概率越大,表明该位置的精氨酸发生甲基化的可能性越大。用户可根据预测结果,方便快速地确定一些潜在的蛋白质甲基化位点,例如,第一行,B4DEH8蛋白质序列位置为110处的R能发生甲基化,发生甲基化的概率为0.77621,以该位点为中心的长度为19的序列残基为SLALDESLF-R-GRQIKDIPK。同时,当在预测平台的指定区域输入多条蛋白质序列时,还可实现对蛋白质甲基化位点的高通量预测。研究者可根据以上提供的预测结果进一步缩小研究范围,减少实验验证蛋白质甲基化位点的次数,对理解蛋白质甲基化机理和相关功能具有重要意义。

Claims (4)

1.一种蛋白质翻译后修饰甲基化位点的预测方法,其特征在于:首先,收集实验验证的蛋白质甲基化数据,进行序列预处理后得到正负样本序列,对样本序列进行序列信息、进化信息和物理化学性质等三方面的特征编码;然后,采用信息增益方法优化特征,再采用支持向量机进行机器学习和构建预测模型,用评价指标判断预测模型的性能;最后,构建蛋白质甲基化位点网络预测平台,用于蛋白质甲基化位点的在线预测。
2.根据权利要求1所述的一种蛋白质翻译后修饰甲基化位点的预测方法,其特征在于:具体步骤为:
步骤1),收集蛋白质甲基化数据:甲基化蛋白从蛋白质数据库中收集,正样本是经实验验证标记的甲基化位点,负样本是从与正样本相同的蛋白中随机挑选的跟正样本数量相同的未标记的精氨酸和赖氨酸序列;
步骤2),样本序列预处理:将收集的正负样本序列经过cd-hit工具去除30%的同源性,再统一切割成以精氨酸或赖氨酸为中心,上游为9个氨基酸,下游为9个氨基酸,长度为19的序列;
步骤3),样本序列特征编码:对正负样本序列的序列信息、进化信息和物理化学性质进行特征编码;
步骤4),采用信息增益方法优化特征:由步骤3的特征编码得到的维数比较大,且有冗余的信息,所以,采用信息增益的方法挑选重要的维数组成新的特征,不仅能减少维数,还能提高预测的准确度;信息增益的原理是根据信息熵进行挑选,其具体步骤如下:
当一个特征向量定义为X时,其信息熵为:
(1)
[x i ]是X的数值集中的一个子集,P(x i )是x i 的先验概率;
X在给定另一个组Y中的条件熵定义为:
(2)
P(x i |y j)是X给另外一个值y i 的后验概率;
通过X熵的减少量反映X提供给Y的增加熵,称作信息增益:
(3)
以上理论表明,信息熵的值越大,该特征越重要;
步骤5),构建预测模型:采用步骤4的信息增益优化方法优化步骤3的样本序列特征编码,得到最优特征向量,将最优特征向量输入支持向量机进行10倍交叉验证训练学习,以灵敏度、特异度、准确度和马氏相关系数作为评价指标对模型进行评价,筛选出最优预测模型;用筛选出的最优预测模型对独立测试集样本进行测试,验证预测模型的性能。
3.根据权利要求2所述的一种蛋白质翻译后修饰甲基化位点的预测方法,其特征在于:步骤3中样本序列特征编码的具体实施步骤如下:
(1)样本序列的序列信息编码:序列信息包括氨基酸出现频率、二进制编码和K-空间氨基酸对;氨基酸出现频率是根据20种氨基酸在长度为19的序列中出现的频数进行编码;二进制编码是把序列中每个氨基酸都转化为一个20维的向量;K-空间氨基酸对是查找不同氨基酸对被间隔之后出现的频数,根据频数进行编码;
(2)样本序列的进化信息编码:基于K-近邻打分特征进行编码,比对未知的序列与已知的甲基化序列进行相似性打分,当打分大于0.5时认为是甲基化序列,,否则为非甲基化序列;相似性主要是基于空间距离的比对,其距离的计算方法如下:
两条序列s 1=[s 1 (i)]和s 2=[s 2 (i)]的距离Dist (s 1,s 2)定义为:
(4)
(5)
p代表蛋白序列长度,Sim是氨基酸相似矩阵BLOSUM62,ab分别代表氨基酸残基,M是置换矩阵,max{M}是矩阵最大值,min{M}是矩阵最小值;
(3)样本序列的物理化学性质编码:把样本序列残基转化为对应的物理化学性质的数值,用支持向量机对544种氨基酸物理化学性质一一编码测试,选取其中三个预测准确度最高的物理化学性质,作为氨基酸物理化学性质编码。
4.根据权利要求1所述的一种蛋白质翻译后修饰甲基化位点的预测方法的应用,其特征在于:采用构建的预测模型开发在线网络预测平台http://bioinfo.ncu.edu.cn/PSSMe.aspx,只需在预测平台的指定区域输入蛋白质名称或蛋白质序列,即可直接给出该蛋白质中可能出现的甲基化位点预测信息,实现对蛋白质甲基化位点的在线预测;同时,在预测平台的指定区域输入多条蛋白质序列,即可实现对蛋白质甲基化位点的高通量预测。
CN201610447108.4A 2016-06-21 2016-06-21 一种蛋白质翻译后修饰甲基化位点的预测方法 Pending CN105893787A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610447108.4A CN105893787A (zh) 2016-06-21 2016-06-21 一种蛋白质翻译后修饰甲基化位点的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610447108.4A CN105893787A (zh) 2016-06-21 2016-06-21 一种蛋白质翻译后修饰甲基化位点的预测方法

Publications (1)

Publication Number Publication Date
CN105893787A true CN105893787A (zh) 2016-08-24

Family

ID=56729873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610447108.4A Pending CN105893787A (zh) 2016-06-21 2016-06-21 一种蛋白质翻译后修饰甲基化位点的预测方法

Country Status (1)

Country Link
CN (1) CN105893787A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570336A (zh) * 2016-11-10 2017-04-19 中南大学 半胱氨酸中亚磺酰化硫位点的预测方法及系统
CN106650314A (zh) * 2016-11-25 2017-05-10 中南大学 预测氨基酸突变的方法及系统
CN107463802A (zh) * 2017-08-02 2017-12-12 南昌大学 一种原核蛋白质乙酰化位点的预测方法
CN107463795A (zh) * 2017-08-02 2017-12-12 南昌大学 一种识别酪氨酸翻译后修饰位点的预测算法
CN107506600A (zh) * 2017-09-04 2017-12-22 上海美吉生物医药科技有限公司 基于甲基化数据的癌症类型的预测方法及装置
CN107609351A (zh) * 2017-10-23 2018-01-19 桂林电子科技大学 一种基于卷积神经网络预测假尿苷修饰位点的方法
CN107918725A (zh) * 2017-12-28 2018-04-17 大连海事大学 一种基于机器学习选择最优特征的dna甲基化预测方法
CN109308935A (zh) * 2018-09-10 2019-02-05 天津大学 一种基于支持向量机预测非编码dna的方法及应用平台
CN110033822A (zh) * 2019-03-29 2019-07-19 华中科技大学 蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统
CN110349628A (zh) * 2019-06-27 2019-10-18 广东药科大学 一种蛋白质磷酸化位点识别方法、系统、装置及存储介质
CN111161793A (zh) * 2020-01-09 2020-05-15 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN112927754A (zh) * 2020-12-30 2021-06-08 邵阳学院 一个基于双向长短时记忆和卷积神经网络的赖氨酸琥珀酰化修饰预测方法
CN113035270A (zh) * 2019-12-24 2021-06-25 邵阳学院 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346829A (zh) * 2011-09-22 2012-02-08 重庆大学 基于集成分类的病毒检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346829A (zh) * 2011-09-22 2012-02-08 重庆大学 基于集成分类的病毒检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KE CHEN等: "Prediction of Integral Membrane Protein Type by Collocated Hydrophobic Amino Acid Pairs", 《JOURNAL OF COMPUTATIONAL CHEMISTRY》 *
PETER J.KENNELLY等: "Consensus Sequences as Substrate Specificity Determinants for Protein Kinases and Protein Phosphatases", 《THE JOURNAL OF BIOLOGICAL CHEMISTRY》 *
施绍萍: "基于支持向量机的蛋白质功能预测新方法研究", 《中国博士学位论文全文数据库-基础科学辑》 *
索生宝: "蛋白质翻译后修饰位点预测及其功能分析", 《中国优秀硕士学位论文全文数据库-基础科学辑》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570336A (zh) * 2016-11-10 2017-04-19 中南大学 半胱氨酸中亚磺酰化硫位点的预测方法及系统
CN106650314A (zh) * 2016-11-25 2017-05-10 中南大学 预测氨基酸突变的方法及系统
CN107463802A (zh) * 2017-08-02 2017-12-12 南昌大学 一种原核蛋白质乙酰化位点的预测方法
CN107463795A (zh) * 2017-08-02 2017-12-12 南昌大学 一种识别酪氨酸翻译后修饰位点的预测算法
CN107506600A (zh) * 2017-09-04 2017-12-22 上海美吉生物医药科技有限公司 基于甲基化数据的癌症类型的预测方法及装置
CN107609351A (zh) * 2017-10-23 2018-01-19 桂林电子科技大学 一种基于卷积神经网络预测假尿苷修饰位点的方法
CN107918725B (zh) * 2017-12-28 2021-09-07 大连海事大学 一种基于机器学习选择最优特征的dna甲基化预测方法
CN107918725A (zh) * 2017-12-28 2018-04-17 大连海事大学 一种基于机器学习选择最优特征的dna甲基化预测方法
CN109308935A (zh) * 2018-09-10 2019-02-05 天津大学 一种基于支持向量机预测非编码dna的方法及应用平台
CN110033822A (zh) * 2019-03-29 2019-07-19 华中科技大学 蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统
CN110349628A (zh) * 2019-06-27 2019-10-18 广东药科大学 一种蛋白质磷酸化位点识别方法、系统、装置及存储介质
CN113035270A (zh) * 2019-12-24 2021-06-25 邵阳学院 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法
CN113035270B (zh) * 2019-12-24 2022-07-19 邵阳学院 一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法
CN111161793A (zh) * 2020-01-09 2020-05-15 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN111161793B (zh) * 2020-01-09 2023-02-03 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN112927754A (zh) * 2020-12-30 2021-06-08 邵阳学院 一个基于双向长短时记忆和卷积神经网络的赖氨酸琥珀酰化修饰预测方法

Similar Documents

Publication Publication Date Title
CN105893787A (zh) 一种蛋白质翻译后修饰甲基化位点的预测方法
Ahmed et al. DeepPPSite: a deep learning-based model for analysis and prediction of phosphorylation sites using efficient sequence information
CN109637580B (zh) 一种蛋白质氨基酸关联矩阵预测方法
Cui et al. Comparative analysis and classification of cassette exons and constitutive exons
Li et al. HSM6AP: a high-precision predictor for the Homo sapiens N6-methyladenosine (m^ 6 A) based on multiple weights and feature stitching
CN108427865A (zh) 一种预测LncRNA和环境因素关联关系的方法
Chen et al. ATTIC is an integrated approach for predicting A-to-I RNA editing sites in three species
Li et al. A review from biological mapping to computation-based subcellular localization
Mu et al. iPseU-Layer: identifying RNA pseudouridine sites using layered ensemble model
Dotan et al. Effect of tokenization on transformers for biological sequences
Yosef et al. Improved network-based identification of protein orthologs
CN109378034B (zh) 一种基于距离分布估计的蛋白质预测方法
CN116307216A (zh) 神经网络模型的不确定性估计方法及其相关设备
CN111048145A (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
CN109346128A (zh) 一种基于残基信息动态选择策略的蛋白质结构预测方法
Zhou et al. Enhancing the efficiency of protein language models with minimal wet-lab data through few-shot learning
CN109390035B (zh) 一种基于局部结构比对的蛋白质构象空间优化方法
Cai et al. Prediction of protein-protein interactions in saccharomyces cerevisiae based on protein secondary structure
CN109300505B (zh) 一种基于有偏采样的蛋白质结构预测方法
Bao et al. ILSES: Identification lysine succinylation-sites with ensemble classification
CN107145764B (zh) 一种双重分布估计引导的蛋白质构象空间搜索方法
Wang et al. Recent Advances in Predicting ncRNA-Protein Interactions Based on Machine Learning
Wang et al. Prediction of lysine succinylation sites by svr and weighted down-sampling
CN117976047B (zh) 基于深度学习的关键蛋白质预测方法
Zhang et al. Simultaneously learning DNA motif along with its position and sequence rank preferences through EM algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination