CN113450872A - 磷酸化位点特异激酶的预测方法 - Google Patents

磷酸化位点特异激酶的预测方法 Download PDF

Info

Publication number
CN113450872A
CN113450872A CN202110751661.8A CN202110751661A CN113450872A CN 113450872 A CN113450872 A CN 113450872A CN 202110751661 A CN202110751661 A CN 202110751661A CN 113450872 A CN113450872 A CN 113450872A
Authority
CN
China
Prior art keywords
kinase
substrate
similarity
network
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110751661.8A
Other languages
English (en)
Other versions
CN113450872B (zh
Inventor
施绍萍
郭昕昀
张菊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN202110751661.8A priority Critical patent/CN113450872B/zh
Publication of CN113450872A publication Critical patent/CN113450872A/zh
Application granted granted Critical
Publication of CN113450872B publication Critical patent/CN113450872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/48Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving transferase
    • C12Q1/485Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving transferase involving kinase

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种磷酸化位点特异激酶的预测方法,具体步骤如下:根据数据库中的数据构建激酶‑底物异构网络,并计算赋予其边不同的权重;基于建立的网络,采用加权最大二部图匹配算法预测潜在的激酶‑底物关系;对于查询的磷酸化位点,截取其氨基酸片段并计算该片段和不同激酶催化的底物片段之间的序列相似性打分;结合预测出的激酶‑底物关系和序列相似性打分,预测所给磷酸化位点的催化激酶。本发明磷酸化位点特异激酶的预测方法,有效结合了PPI网络信息和蛋白质局部序列信息;针对查询位点给出不同阈值下各激酶的催化可能性;在不同的激酶上均获得了比现有方法更高的预测准确率。

Description

磷酸化位点特异激酶的预测方法
技术领域
本发明涉及生物信息领域,具体的说,涉及一种磷酸化位点特异激酶的预测方法。
背景技术
蛋白激酶催化的磷酸化是真核生物体内最普遍存在的翻译后修饰,几乎对所有细胞行为都起着重要的调控作用,包括DNA修复、转录调控、细胞调亡、免疫应答、新陈代谢和细胞分化。越来越多的实验研究揭示蛋白激酶能直接或间接地影响蛋白质的异常磷酸化,并牵涉很多严重疾病的发生发展。因此研究激酶对蛋白磷酸化位点的特异性作用对于理解激酶在生理和病理过程中的调控机制以及相关疾病的药物设计具有重要意义。
随着生物技术的发展,大量的磷酸化位点被实验证实并收入到磷酸化数据库中。实验方法昂贵耗时,并且目前为止高通量检测磷酸化位点激酶的实验方法鲜有报道,发现激酶信息是偶然的,因此数据库中的磷酸化位点只有小部分拥有激酶的注释,大量的位点是没有激酶标注信息的。
鉴于现存实验方法的局限性,开发预测方法更高效更全面地识别磷酸化显得十分必要。虽然已经有一些计算工具被提出,但当前可用的预测工具存在以下不足:一些工具仅能预测激酶和底物蛋白的关系,不能对磷酸化位点的催化激酶进行准确地预测;绝大部分工具基于机器学习算法,需要对样本进行特征编码,这个过程不可避免地会造成原始信息的丢失,此外,不平衡的正负样本集也会影响到机器学习的预测结果;最后,一些方法在提取PPI网络信息时只考虑局部信息而未使用全局信息,这可能导致假阳性的出现。
发明内容
针对上述现有技术中的不足,本发明提供一种通过有效结合蛋白质-蛋白质相互作用网络信息和局部序列信息,针对用户给出的磷酸化位点进行催化激酶的预测,改进现有磷酸化的整体预测质量的磷酸化位点特异激酶的预测方法。
本发明所采取的技术方案是:
一种磷酸化位点特异激酶的预测方法,
步骤S101,根据数据库中的数据构建激酶-底物异构网络,并计算赋予其边不同的权重;
步骤S102,利用步骤S101建立的网络,采用MWBM算法来预测潜在的激酶-底物关系,给出查询底物和不同激酶间相互作用的可能性打分;
步骤S103,对于查询的位点,截取其氨基酸片段并计算该片段和不同激酶催化的底物片段之间的序列相似性打分Pseq
步骤S104,结合预测出的潜在的激酶-底物关系和序列相似性打分Pseq,对查询位点的催化激酶进行预测并给出预测结果。
优选的,根据数据库中的数据构建激酶-底物异构网络步骤如下:
步骤S201,计算激酶-激酶和底物-底物相似性,为了减少由于边缘损失造成的假阴性,使用边缘聚类算法(NECC)更新蛋白质-蛋白质相互作用(PPI)网络边的权重,并与STRING数据库中已标注的PPI置信分数(CF)通过取平均数的方式结合,确定激酶-激酶相互作用网络、底物-底物相互作用网络中边的权重;
无向图G(V,E)代表PPI网络,定义v∈V为节点蛋白质,(u,v)∈E为两个节点蛋白u和v之间的相互作用关系;
ECC用来表示两个节点之间的紧密程度:
Figure BDA0003144830500000031
其中Zu,v是蛋白u和v的共同邻居集,d(x)代表了节点x的度,边缘聚类系数NECC如下式定义:
Figure BDA0003144830500000032
其中:
Figure BDA0003144830500000033
图G(V,E)中边的权重可以根据下式更新:
Figure BDA0003144830500000034
其中CF(u,v)是蛋白对(u,v)在数据库STRING中已有的置信分数;
对于任意两个蛋白质u和v,都能在图上找到他们之间的最短路径,SP(u,v)代表了最短路径中的边的集合,最终,蛋白u和v之间的相似性可以更新为:
Figure BDA0003144830500000035
W(i,j)是由式(4)计算得出的蛋白i和j之间边的权重;由于激酶和底物都是蛋白质,使用上述方法计算激酶-激酶相似性和底物-底物相似性,以激酶-激酶相似性为例,从数据库STRING中得到激酶蛋白间的相互作用网络,由式(1)至式(4)更新数据库中已有的边的权重,随后从激酶集中任选两个激酶,两者之间存在一条最短路径,利用式(5)能够计算其相似性,底物-底物相似性以相同方法计算;
步骤S202,建立激酶-底物异构网络,根据步骤S201计算的相似性,设计两个新的网络Gk(U,Ek)和GS(V,Es),在这里U代表了激酶集而Ek包含了激酶对之间所有的边,V表示底物集,Es包含了两两底物间所有的边;两个网络中,边的权重为步骤S201计算得到的相似性,如果两个节点间的相似性为0,则认为这两个节点间没有相互作用;
使用GI表示激酶-底物相互作用的网络,如果激酶ki和底物sj之间已经有实验证实的相互作用存在,那么ki和sj之间存在边eij,eij的权重为ki和sj之间已证实的相互作用发生的次数;
将Gk、GS和GI结合起来,建立激酶-底物异构网络模型。
优选的,基于相似性网络使用MWBM算法进行预测步骤如下;
根据步骤S101建立的激酶-激酶网络Gk,底物-底物网络GS和激酶-底物网络GI分别建立其邻接矩阵K、S和I;
以S为例介绍如何构建邻接矩阵,si和sj为底物集V中的两个不同底物,如果(si,sj)∈Es,那么S(i,j)=Wij,否则S(i,j)=0,激酶相似度邻接矩阵和激酶-底物相互作用邻接矩阵以相同的方法构建;在使用矩阵进行预测前,对三个邻接矩阵进行归一化,选择Laplace归一化准则对K、S实施归一化,得到归一矩阵Kn和Sn
Figure BDA0003144830500000041
Figure BDA0003144830500000042
其中,Ds对角矩阵,其对角线上的值Ds(i,i)等于矩阵S第i行元素值的和,Dk以同样的方式得到;
与K和S不同,采用对称正则化对激酶-底物相互作用矩阵I进行归一化,得到归一矩阵In
Figure BDA0003144830500000043
利用MWBM进行激酶-底物关系预测;
不同于Random Walk总是作为“扩散器”工作,很难清晰地捕获两个节点之间的局部邻域的相似性,MWBM能够直接匹配节点之间的局部邻域,更清晰地量化局部拓扑相似性。
利用MWBM预测激酶-底物关系步骤如下;
首先初始化预测矩阵T:T=In,其次,对于每一对激酶-底物关系(ki,sj);
分别提取其邻居集N(ki)={ki'|ki,i'∈Ek}和N(sj)={sj'|sj,j'∈Es};
Figure BDA0003144830500000051
其中Aij表示使用MWBM后邻居集N(ki)和N(sj)之间的最优映射,接着根据这个映射,预测矩阵T可由下式更新:
Figure BDA0003144830500000052
更新后,对于一个查询底物n,NetScore(ki,n)=T(ki,n),i=1,2,3,…,|U|为激酶ki与底物n之间关联的预测打分,所有的激酶将依据预测打分从高到低进行排序,对于一个特定的激酶k,如果其排名在第i位,最终定义:
Figure BDA0003144830500000053
优选的,提取磷酸化位点周围的氨基酸序列信息步骤如下:
步骤S301,构建数据集,对于特定的激酶k,将其包含的所有磷酸化片段序列集定义为Sp,预先定义的背景集记为Sb,值得注意的是,
Figure BDA0003144830500000054
Figure BDA0003144830500000055
步骤S302,计算序列相似性,给出两段长度均为2n+1的氨基酸序列S1和S2的局部序列相似性定义:
Figure BDA0003144830500000061
其中Sim代表标准化的氨基酸取代矩阵;
对于任意两个氨基酸a和b,
Figure BDA0003144830500000062
M是一个代替矩阵(此方法中使用BLOSUM62),针对一个查询P位点,截取得到2n+1长度的片段Pquery,计算该片段与Sp和Sb中的所有片段的相似性得分,并将得分进行降序排列;
步骤S303,计算富集分数ES,在相似性排序中,如果Pquery与Sp中的序列更为相似,那么Sp中的序列排名就会靠前,认为Pquery很有可能被Sp所对应的激酶催化;
为了确定Sp在序列顶部的富集程度,计算动态求和得分RS:
Figure BDA0003144830500000063
其中dj代表了Pquery和Sp中的片段Pj之间的相似性得分,D是所有dj的和;
RS总的变化趋势是先增后降的,规定其在动态变化的过程中达到的最大值为富集分数ES;
步骤S304估计ES的统计意义Pseq,与使用Pnet来刻画PPI相互作用信息类似,使用Pseq来描述P位点局部序列的相似性;
从背景集Sb中随机选取999个与Sp大小相同的集合Sb1~Sb999,并计算Pquery相对于这999个集合的ES,记为ES(Sb1)~ES(Sb999),将上述计算所得与ES(Sp)一起进行降序排序,假设ES(Sp)排在第L位,则定义:
Figure BDA0003144830500000071
优选的,结合激酶-底物关系打分Pnet和序列相似性打分Pseq,对查询位点的催化激酶进行预测,综合得分Pcombine为Pnet和Pseq的加权和:
Pcombine=λ×Pnet+(1-λ)×Pseq (15)
利用参数λ调整PPI网络信息Pnet和序列信息Pseq在结合时的比重,取λ为{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1},以训练集预测结果的精确度为评价标准,选取预测结果精确度最高时的值作为λ的取值,激酶k的Pcombine值越小,查询的P位点越有可能被激酶k催化。
优选的,所述的训练过程,正样本的选取为某一激酶所催化的所有磷酸化位点,而负样本则随机选择其他激酶催化的磷酸化位点以及与正样本位点同底物同氨基酸类型的非磷酸化位点,按照1:1的比例混合构建训练集。
优选的,步骤S104用户可以设置不同的阈值,低于阈值的预测分数将被输出,阈值选择0.01(高阈值)或0.02(低阈值)。
本发明相对现有技术的有益效果:
本发明磷酸化位点特异激酶的预测方法,有效结合了PPI网络信息和蛋白质局部序列信息;针对查询位点给出不同阈值下各激酶的催化可能性;在不同的激酶上均获得了比现有方法更高的预测准确率。
附图说明
图1本发明磷酸化位点特异激酶的预测方法总体流程示意图;
图2是磷酸化位点特异激酶的预测方法的实例预测图。
具体实施方式
以下参照附图及实施例对本发明进行详细的说明:
图2是使用本发明进行的实例预测,预测对象为AR蛋白质氨基酸上第16和第650个氨基酸位点,两个位点均为丝氨酸(下文用S16和S650替代);S650已有实验证实被激酶MAPK3催化,而S16目前还未有激酶催化信息;图2展示了不同激酶催化S650和S16的预测打分,分数越小则由该激酶催化的可能性就越大,注意这里仅仅显示预测打分阈值之内激酶信息。
据图2所示,对于磷酸化位点S650,本发明可以预测出其真实催化激酶MAPK3,而对于无激酶注释位点S16,预测分数总体上高于S650(催化可能性更小),但依旧能显示出潜在的催化激酶,为查询用户提供建议。
附图1和2可知,一种磷酸化位点特异激酶的预测算法,具体步骤如下:
根据数据库中的数据构建激酶-底物异构网络,并预测KSR:
步骤1)计算激酶-激酶和底物-底物相似性,为了减少由于边缘损失造成的假阴性,使用边缘聚类算法(NECC)更新蛋白质-蛋白质相互作用(PPI)网络边的权重,并与STRING数据库中已标注的PPI置信分数(CF)通过取平均数的方式结合,确定激酶-激酶相互作用网络、底物-底物相互作用网络中边的权重;
无向图G(V,E)代表PPI网络,定义v∈V为节点蛋白质,(u,v)∈E为两个节点蛋白u和v之间的相互作用关系;
ECC用来表示两个节点之间的紧密程度:
Figure BDA0003144830500000081
其中Zu,v是蛋白u和v的共同邻居集,d(x)代表了节点x的度,边缘聚类系数NECC如下式定义:
Figure BDA0003144830500000082
其中:
Figure BDA0003144830500000091
图G(V,E)中边的权重可以根据下式更新:
Figure BDA0003144830500000092
其中CF(u,v)是蛋白对(u,v)在数据库STRING中已有的置信分数;
对于任意两个蛋白质u和v,都能在图上找到他们之间的最短路径,SP(u,v)代表了最短路径中的边的集合,最终,蛋白u和v之间的相似性可以更新为:
Figure BDA0003144830500000093
W(i,j)是由式(4)计算得出的蛋白i和j之间边的权重;由于激酶和底物都是蛋白质,使用上述方法计算激酶-激酶相似性和底物-底物相似性;以激酶-激酶相似性为例,从数据库STRING中得到激酶蛋白间的相互作用网络,由式(1)至式(4)更新数据库中已有的边的权重,接着从激酶集中任选两个激酶,两者之间存在一条最短路径,利用式(5)能够计算其相似性,底物-底物相似性以相同方法计算;
步骤2)建立激酶-底物异构网络,根据步骤1)计算的相似性,设计两个新的网络Gk(U,Ek)和GS(V,Es),在这里U代表了激酶集而Ek包含了激酶对之间所有的边,V表示底物集,Es包含了两两底物间所有的边;两个网络中,边的权重为步骤1)计算得到的相似性,如果两个节点间的相似性为0,则认为这两个节点间没有相互作用;
使用GI表示激酶-底物相互作用的网络,如果激酶ki和底物sj之间已经有实验证实的相互作用存在,那么ki和sj之间存在边eij,eij的权重为ki和sj之间已证实的相互作用发生的次数;
将Gk、GS和GI结合起来,建立激酶-底物异构网络模型;
步骤3)基于相似性网络使用MWBM算法进行预测,根据步骤2)建立的激酶-激酶网络Gk,底物-底物网络GS和激酶-底物网络GI分别建立其邻接矩阵K、S和I;
以S为例介绍如何构建邻接矩阵,ai和sj为底物集V中的两个不同底物,如果(si,sj)∈Es,那么S(i,j)=Wij,否则S(i,j)=0,激酶相似度邻接矩阵和激酶-底物相互作用邻接矩阵以相同的方法构建;在使用矩阵进行预测前,对三个邻接矩阵进行归一化,选择Laplace归一化准则对K、S实施归一化,得到归一矩阵Kn和Sn
Figure BDA0003144830500000101
Figure BDA0003144830500000102
其中,Ds对角矩阵,其对角线上的值Ds(i,i)等于矩阵S第i行元素值的和,Dk以同样的方式得到;
与K和S不同,采用对称正则化对激酶-底物相互作用矩阵I进行归一化,得到归一矩阵In
Figure BDA0003144830500000103
利用MWBM进行激酶-底物关系预测;
不同于Random Walk总是作为“扩散器”工作,很难清晰地捕获两个节点之间的局部邻域的相似性,MWBM能够直接匹配节点之间的局部邻域,更清晰地量化局部拓扑相似性。
利用MWBM预测激酶-底物关系,首先初始化预测矩阵T:T=In,其次,对于每一对激酶-底物关系(ki,sj),
分别提取其邻居集N(ki)={ki'|ki,i'∈Ek}和N(sj)={sj'|sj,j'∈Es};
Figure BDA0003144830500000111
其中Aij表示使用MWBM后邻居集N(ki)和N(sj)之间的最优映射,接着根据这个映射,预测矩阵T可由下式更新:
Figure BDA0003144830500000112
更新后,对于一个查询底物n,NetScore(ki,n)=T(ki,n),i=1,2,3,…,|U|为激酶ki与底物n之间关联的预测打分,所有的激酶将依据预测打分从高到低进行排序,对于一个特定的激酶k,如果其排名在第i位,最终我们定义:
Figure BDA0003144830500000113
提取磷酸化位点周围的氨基酸序列信息:
步骤1)构建数据集,对于特定的激酶k,将其包含的所有磷酸化片段序列集定义为Sp,预先定义的背景集记为Sb,值得注意的是,
Figure BDA0003144830500000114
步骤2)计算序列相似性,给出两段长度均为2n+1的氨基酸序列S1和S2的局部序列相似性定义:
Figure BDA0003144830500000115
其中sim代表标准化的氨基酸取代矩阵;
对于任意两个氨基酸a和b,
Figure BDA0003144830500000116
M是一个代替矩阵(此方法中使用BLOSUM62),针对一个查询P位点,截取得到2n+1长度的片段Pquery,计算该片段与Sp和Sb中的所有片段的相似性得分,并将得分进行降序排列;
步骤3)计算富集分数ES,在相似性排序中,如果Pquery与Sp中的序列更为相似,则Sp中的序列排名就会靠前,认为Pquery很有可能被Sp所对应的激酶催化;
为了确定Sp在序列顶部的富集程度,计算动态求和得分RS:
Figure BDA0003144830500000121
其中dj代表了Pquery和Sp中的片段Pj之间的相似性得分,D是所有dj的和;
RS总的变化趋势是先增后降的,规定其在动态变化的过程中达到的最大值为富集分数ES;
步骤4)估计ES的统计意义Pseq,与使用Pnet来刻画PPI相互作用信息类似,使用Pseq来描述P位点局部序列的相似性;
从背景集Sb中随机选取999个与Sp大小相同的集合Sb1~Sb999,并计算Pquery相对于这999个集合的ES,记为ES(Sb1)~ES(Sb999),将上述计算所得与ES(Sp)一起进行降序排序,假设ES(Sp)排在第L位,则定义:
Figure BDA0003144830500000122
综合得分方法:
综上所述,Pnet和Pseq分别度量了PPI网络信息和磷酸化位点局部序列信息;
综合得分Pcombine为Pnet和Pseq的加权和:
Pcombine=λ×Pnet+(1-λ)×Pseq (15)。
利用参数λ调整PPI网络信息和序列信息在结合时的比重,激酶k的Pcombine值越小,查询的P位点越有可能被激酶k催化。
本发明公开了一种磷酸化位点特异激酶的预测方法,具体步骤如下:根据数据库中的数据构建激酶-底物异构网络,并计算赋予其边不同的权重;利用建立的网络,采用加权最大二部图匹配算法预测潜在的激酶-底物关系;对于查询的磷酸化位点,截取其氨基酸片段并计算该片段和不同激酶催化的底物片段之间的序列相似性打分;结合预测出的激酶-底物关系和序列相似性打分,预测所给磷酸化位点的催化激酶。该方法结合了蛋白质-蛋白质相互作用网络信息和磷酸化位点局部序列信息,提高了模型的预测性能和生物可解释性。
本发明磷酸化位点特异激酶的预测方法,有效结合了PPI网络信息和蛋白质局部序列信息;针对查询位点给出不同阈值下各激酶的催化可能性;在不同的激酶上均获得了比现有方法更高的预测准确率。
以上所述,仅是本发明的较佳实施例而已,并非对本发明的结构作任何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明的技术方案范围内。

Claims (7)

1.一种磷酸化位点特异激酶的预测方法,其特征在于,具体步骤如下:
步骤S101,根据数据库中的数据构建激酶-底物异构网络,并计算赋予其边不同的权重;
步骤S102,利用步骤S101建立的网络,采用加权最大二部图匹配(MWBM)算法来预测潜在的激酶-底物关系,给出查询底物和不同激酶间相互作用的可能性打分;
步骤S103,对于查询的位点,截取其氨基酸片段并计算该片段和不同激酶催化的底物片段之间的序列相似性打分Pseq
步骤S104,结合预测出的潜在的激酶-底物关系和序列相似性打分Pseq,对查询位点的催化激酶进行预测并给出预测结果。
2.根据权利要求1所述磷酸化位点特异激酶的预测方法,其特征在于:
根据数据库中的数据构建激酶-底物异构网络步骤如下:
步骤S201,计算激酶-激酶和底物-底物相似性,使用边缘聚类算法更新蛋白质-蛋白质相互作用(PPI)网络边的权重,并与STRING数据库中已标注的PPI置信分数(CF)通过取平均数的方式结合,确定激酶-激酶相互作用网络、底物-底物相互作用网络中边的权重;
无向图G(V,E)代表PPI网络,定义v∈V为节点蛋白质,(u,v)∈E为两个节点蛋白u和v之间的相互作用关系;
ECC用来表示两个节点之间的紧密程度:
Figure FDA0003144830490000011
其中Zu,v是蛋白u和v的共同邻居集,d(x)代表了节点X的度,边缘聚类系数NECC如下式定义:
Figure FDA0003144830490000012
其中:
Figure FDA0003144830490000021
图G(V,E)中边的权重可以根据下式更新:
Figure FDA0003144830490000022
其中CF(u,v)是蛋白对(u,v)在数据库STRING中已有的置信分数;
对于任意两个蛋白质u和v,都能在图上找到他们之间的最短路径,SP(u,v)代表了最短路径中的边的集合,最终,蛋白u和v之间的相似性可以更新为:
Figure FDA0003144830490000023
W(i,j)是由式(4)计算得出的蛋白i和j之间边的权重;由于激酶和底物都是蛋白质,使用上述方法计算激酶-激酶相似性和底物-底物相似性,以激酶-激酶相似性为例,从数据库STRING中得到激酶蛋白间的相互作用网络,由式(1)至式(4)更新数据库中已有的边的权重,随后从激酶集中任选两个激酶,两者之间存在一条最短路径,利用式(5)能够计算其相似性,底物-底物相似性以相同方法计算;
步骤S202,建立激酶-底物异构网络,根据步骤S201计算的相似性,设计两个新的网络Gk(U,Ek)和GS(V,Es),在这里U代表了激酶集而Ek包含了激酶对之间所有的边,V表示底物集,Es包含了两两底物间所有的边;两个网络中,边的权重为步骤S201计算得到的相似性,如果两个节点间的相似性为0,则认为这两个节点间没有相互作用;
使用GI表示激酶-底物相互作用的网络,如果激酶ki和底物sj之间已经有实验证实的相互作用存在,那么ki和sj之间存在边eij,eij的权重为ki和sj之间已证实的相互作用发生的次数;
将Gk、GS和GI结合起来,建立激酶-底物异构网络模型。
3.根据权利要求1所述磷酸化位点特异激酶的预测方法,其特征在于:
基于相似性网络使用MWBM算法进行预测步骤如下;
根据步骤S101建立的激酶-激酶网络Gk,底物-底物网络GS和激酶-底物网络GI分别建立其邻接矩阵K、S和I;
以S为例介绍如何构建邻接矩阵,si和sj为底物集V中的两个不同底物,如果(si,sj)∈Es,那么S(i,j)=Wij,否则S(i,j)=0,激酶相似度邻接矩阵和激酶-底物相互作用邻接矩阵以相同的方法构建;在使用矩阵进行预测前,对三个邻接矩阵进行归一化,选择Laplace归一化准则对K、S实施归一化,得到归一矩阵Kn和Sn
Figure FDA0003144830490000031
Figure FDA0003144830490000032
其中,Ds对角矩阵,其对角线上的值Ds(i,i)等于矩阵S第i行元素值的和,Dk以同样的方式得到;
与K和S不同,采用对称正则化对激酶-底物相互作用矩阵I进行归一化,得到归一矩阵In
Figure FDA0003144830490000033
利用MWBM进行激酶-底物关系预测,步骤如下;
首先初始化预测矩阵T:T=In,其次,对于每一对激酶-底物关系(ki,sj);
分别提取其邻居集N(ki)={ki′|ki,i′∈Ek}和N(sj)={sj′|Sj,j′∈Es};
Figure FDA0003144830490000034
其中Aij表示使用MWBM后邻居集N(ki)和N(sj)之间的最优映射,接着根据这个映射,预测矩阵T可由下式更新:
Figure FDA0003144830490000041
更新后,对于一个查询底物n,NetScore(ki,n)=T(ki,n),i=1,2,3,...,|U|为激酶ki与底物n之间关联的预测打分,所有的激酶将依据预测打分从高到低进行排序,对于一个特定的激酶k,如果其排名在第i位,最终定义:
Figure FDA0003144830490000042
4.根据权利要求1所述磷酸化位点特异激酶的预测方法,其特征在于:提取磷酸化位点周围的氨基酸序列信息步骤如下:
步骤S301,构建数据集,对于特定的激酶k,将其包含的所有磷酸化片段序列集定义为Sp,预先定义的背景集记为Sb,值得注意的是,
Figure FDA0003144830490000043
Figure FDA0003144830490000044
步骤S302,计算序列相似性,给出两段长度均为2n+1的氨基酸序列S1和S2的局部序列相似性定义:
Figure FDA0003144830490000045
其中sim代表标准化的氨基酸取代矩阵;
对于任意两个氨基酸a和b,
Figure FDA0003144830490000046
M是一个代替矩阵,针对一个查询P位点,截取得到2n+1长度的片段Pquery,计算该片段与Sp和Sb中的所有片段的相似性得分,并将得分进行降序排列;
步骤S303,计算富集分数ES,在相似性排序中,如果Pquery与Sp中的序列更为相似,那么Sp中的序列排名就会靠前,认为Pquery很有可能被Sp所对应的激酶催化;
为了确定Sp在序列顶部的富集程度,计算动态求和得分RS:
Figure FDA0003144830490000051
其中dj代表了Pquery和Sp中的片段Pj之间的相似性得分,D是所有dj的和;
RS总的变化趋势是先增后降的,规定其在动态变化的过程中达到的最大值为富集分数ES;
步骤S304估计ES的统计意义Pseq,与使用Pnet来刻画PPI相互作用信息类似,使用Pseq来描述P位点局部序列的相似性;
从背景集Sb中随机选取999个与Sp大小相同的集合Sb1~Sb999,并计算Pquery相对于这999个集合的ES,记为ES(Sb1)~ES(Sb999),将上述计算所得与ES(Sp)一起进行降序排序,假设ES(Sp)排在第L位,则定义:
Figure FDA0003144830490000052
5.根据权利要求1所述磷酸化位点特异激酶的预测方法,其特征在于:
结合激酶-底物关系打分Pnet和序列相似性打分Pseq,对查询位点的催化激酶进行预测,综合得分Pcombine为Pnet和Pseq的加权和:
Pcombine=λ×Pnet+(1-λ)×Pseq (15)
利用参数λ调整PPI网络信息Pnet和序列信息Pseq在结合时的比重,取λ为{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1},以训练集预测结果的精确度为评价标准,选取预测结果精确度最高时的值作为λ的取值,激酶k的Pcombine值越小,查询的P位点越有可能被激酶k催化。
6.根据权利要求1所述磷酸化位点特异激酶的预测方法,其特征在于:
所述的训练过程,正样本的选取为某一激酶所催化的所有磷酸化位点,而负样本则随机选择其他激酶催化的磷酸化位点以及与正样本位点同底物同氨基酸类型的非磷酸化位点,按照1∶1的比例混合构建训练集。
7.根据权利要求1所述磷酸化位点特异激酶的预测方法,其特征在于:步骤S104用户可以设置不同的阈值,低于阈值的预测分数将被输出,阈值选择0.01或0.02。
CN202110751661.8A 2021-07-02 2021-07-02 磷酸化位点特异激酶的预测方法 Active CN113450872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110751661.8A CN113450872B (zh) 2021-07-02 2021-07-02 磷酸化位点特异激酶的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110751661.8A CN113450872B (zh) 2021-07-02 2021-07-02 磷酸化位点特异激酶的预测方法

Publications (2)

Publication Number Publication Date
CN113450872A true CN113450872A (zh) 2021-09-28
CN113450872B CN113450872B (zh) 2022-12-02

Family

ID=77815036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110751661.8A Active CN113450872B (zh) 2021-07-02 2021-07-02 磷酸化位点特异激酶的预测方法

Country Status (1)

Country Link
CN (1) CN113450872B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102618940A (zh) * 2011-01-31 2012-08-01 艾比玛特生物医药(上海)有限公司 抗体制备方法及所得抗体和抗体库
CN103745135A (zh) * 2013-12-11 2014-04-23 深圳先进技术研究院 基于最近邻算法的蛋白激酶特异性预测方法及装置
CN104065932A (zh) * 2014-06-30 2014-09-24 东南大学 一种基于修正加权二部图的无重叠视域目标匹配方法
US20140303010A1 (en) * 2011-09-22 2014-10-09 University Of Saskatchewan Methods and Compositions for Species-Specific Kinome Microarrays
WO2016184999A1 (en) * 2015-05-20 2016-11-24 Pamgene Bv Method for predicting the response of melanoma patients to targeted pharmacotherapy
CN107463795A (zh) * 2017-08-02 2017-12-12 南昌大学 一种识别酪氨酸翻译后修饰位点的预测算法
EP3404568A1 (en) * 2017-05-19 2018-11-21 Fujitsu Limited A system and a method for discovery of predicted site-specific protein phosphorylation candidates
CN109153980A (zh) * 2015-10-22 2019-01-04 布罗德研究所有限公司 Vi-b型crispr酶和系统
CN109310332A (zh) * 2016-04-07 2019-02-05 怀特安维创新有限责任公司 用于分析数字数据的方法
CN109994200A (zh) * 2019-03-08 2019-07-09 华南理工大学 一种基于相似度融合的多组学癌症数据整合分析方法
CN110910953A (zh) * 2019-11-28 2020-03-24 长沙学院 一种基于蛋白质-域异构网络的关键蛋白预测方法
CN111328287A (zh) * 2017-07-04 2020-06-23 库瑞瓦格股份公司 新型核酸分子
CN111599405A (zh) * 2020-05-25 2020-08-28 江南大学 融合多种拓扑信息的生物网络比对方法
CN112541621A (zh) * 2020-12-02 2021-03-23 香港理工大学深圳研究院 一种移动预测方法、智能终端及存储介质
CN112582027A (zh) * 2020-12-15 2021-03-30 武汉大学 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法
CN112837752A (zh) * 2021-02-02 2021-05-25 中南大学 一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102618940A (zh) * 2011-01-31 2012-08-01 艾比玛特生物医药(上海)有限公司 抗体制备方法及所得抗体和抗体库
US20140303010A1 (en) * 2011-09-22 2014-10-09 University Of Saskatchewan Methods and Compositions for Species-Specific Kinome Microarrays
CN103745135A (zh) * 2013-12-11 2014-04-23 深圳先进技术研究院 基于最近邻算法的蛋白激酶特异性预测方法及装置
CN104065932A (zh) * 2014-06-30 2014-09-24 东南大学 一种基于修正加权二部图的无重叠视域目标匹配方法
WO2016184999A1 (en) * 2015-05-20 2016-11-24 Pamgene Bv Method for predicting the response of melanoma patients to targeted pharmacotherapy
CN109153980A (zh) * 2015-10-22 2019-01-04 布罗德研究所有限公司 Vi-b型crispr酶和系统
CN109310332A (zh) * 2016-04-07 2019-02-05 怀特安维创新有限责任公司 用于分析数字数据的方法
EP3404568A1 (en) * 2017-05-19 2018-11-21 Fujitsu Limited A system and a method for discovery of predicted site-specific protein phosphorylation candidates
CN111328287A (zh) * 2017-07-04 2020-06-23 库瑞瓦格股份公司 新型核酸分子
CN107463795A (zh) * 2017-08-02 2017-12-12 南昌大学 一种识别酪氨酸翻译后修饰位点的预测算法
CN109994200A (zh) * 2019-03-08 2019-07-09 华南理工大学 一种基于相似度融合的多组学癌症数据整合分析方法
CN110910953A (zh) * 2019-11-28 2020-03-24 长沙学院 一种基于蛋白质-域异构网络的关键蛋白预测方法
CN111599405A (zh) * 2020-05-25 2020-08-28 江南大学 融合多种拓扑信息的生物网络比对方法
CN112541621A (zh) * 2020-12-02 2021-03-23 香港理工大学深圳研究院 一种移动预测方法、智能终端及存储介质
CN112582027A (zh) * 2020-12-15 2021-03-30 武汉大学 一种基于生物蛋白质信息网络比对的同源蛋白质检测方法
CN112837752A (zh) * 2021-02-02 2021-05-25 中南大学 一种基于多网络融合和多层网络扩散的抑郁障碍基因特征挖掘方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
HONGLI MA等: "KSP: an integrated method for predicting catalyzing kinases of phosphorylation sites in proteins", 《BMC GENOMICS》 *
LYUBA V. BOZHILOVA等: "Measuring rank robustness in scored protein interaction networks", 《BMC BIOINFORMATICS》 *
QINGFENG CHEN等: "Identifying Interactions Between Kinases and Substrates Based on Protein–Protein Interaction Network", 《JOURNAL OF COMPUTATIONAL BIOLOGY》 *
SAYED MOHAMMAD EBRAHIM SAHRAEIAN等: "SMETANA: Accurate and Scalable Algorithm for Probabilistic Alignment of Large-Scale Biological Networks", 《PLOS ONE》 *
SHENG-BAO SUO等: "PSEA: Kinase-specific prediction and analysis of human phosphorylation substrates", 《SCIENTIFIC REPORTS》 *
XINYUN GUO等: "PKSPS: a novel method for predicting kinase of specific phosphorylation sites based on maximum weighted bipartite matching algorithm and phosphorylation sequence enrichment analysis", 《BRIEF BIOFORM》 *
张楠: "一个概念聚合和文档资源分类的计算模型", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张绍阳等: "基于加权二部图匹配的中文段落相似度计算", 《计算机工程与应用》 *
王冰花: "基于蛋白质磷酸化相关位点—修饰网络的翻译后修饰位点预测研究", 《中国优秀硕士学位论文全文数据库 医药卫生科学辑》 *
邓灿赏: "基于异构网络的激酶—底物关系预测算法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Also Published As

Publication number Publication date
CN113450872B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
Caye et al. TESS3: fast inference of spatial population structure and genome scans for selection
Grenier et al. Accuracy of genomic selection in a rice synthetic population developed for recurrent selection breeding
Zhu et al. DNAPred: accurate identification of DNA-binding sites from protein sequence by ensembled hyperplane-distance-based support vector machines
Liu et al. Inferring gene regulatory networks using the improved Markov blanket discovery algorithm
JP5479431B2 (ja) バイオマーカー抽出装置および方法
Gillis et al. The impact of multifunctional genes on" guilt by association" analysis
Kourmpetis et al. Bayesian Markov Random Field analysis for protein function prediction based on network data
Mistry et al. DiffSLC: A graph centrality method to detect essential proteins of a protein-protein interaction network
Nibbe et al. An integrative-omics approach to identify functional sub-networks in human colorectal cancer
CA2500761C (en) Methods and systems to identify operational reaction pathways
Chen et al. Understanding protein dispensability through machine-learning analysis of high-throughput data
Liu et al. A computational interactome for prioritizing genes associated with complex agronomic traits in rice (Oryza sativa)
Zhao et al. An efficient method for protein function annotation based on multilayer protein networks
Dou et al. Estimation of kinship coefficient in structured and admixed populations using sparse sequencing data
CN107885971B (zh) 采用改进花授粉算法识别关键蛋白质的方法
Matsouaka et al. Evaluating marker‐guided treatment selection strategies
Li et al. A Bayesian nonparametric approach for mapping dynamic quantitative traits
CN109727637B (zh) 基于混合蛙跳算法识别关键蛋白质的方法
CN106372458A (zh) 基于邻居接近中心性和直系同源信息的关键蛋白质识别方法
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
Cheng et al. Estimation of non-null SNP effect size distributions enables the detection of enriched genes underlying complex traits
CN116758995B (zh) 基因组注释方法和电子装置
St-Pierre et al. Efficient penalized generalized linear mixed models for variable selection and genetic risk prediction in high-dimensional data
KR101090892B1 (ko) 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법
CN113450872B (zh) 磷酸化位点特异激酶的预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant