CN110021343A - 一种基于多维关联特征的e3泛素连接酶-底物相互作用识别方法 - Google Patents
一种基于多维关联特征的e3泛素连接酶-底物相互作用识别方法 Download PDFInfo
- Publication number
- CN110021343A CN110021343A CN201711305220.5A CN201711305220A CN110021343A CN 110021343 A CN110021343 A CN 110021343A CN 201711305220 A CN201711305220 A CN 201711305220A CN 110021343 A CN110021343 A CN 110021343A
- Authority
- CN
- China
- Prior art keywords
- ubiquitin ligase
- protein
- proteins
- interaction
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000758 substrate Substances 0.000 title claims abstract description 82
- 108090000848 Ubiquitin Proteins 0.000 title claims abstract description 65
- 102000044159 Ubiquitin Human genes 0.000 title claims abstract description 65
- 230000003993 interaction Effects 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 26
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 84
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 84
- 102000006275 Ubiquitin-Protein Ligases Human genes 0.000 claims abstract description 26
- 108010083111 Ubiquitin-Protein Ligases Proteins 0.000 claims abstract description 26
- 238000007637 random forest analysis Methods 0.000 claims abstract description 14
- 230000037361 pathway Effects 0.000 claims description 27
- 230000006916 protein interaction Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 108010026552 Proteome Proteins 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 6
- 230000004186 co-expression Effects 0.000 claims description 4
- 238000013518 transcription Methods 0.000 claims description 4
- 230000035897 transcription Effects 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims 1
- 230000004850 protein–protein interaction Effects 0.000 abstract description 4
- 102000004190 Enzymes Human genes 0.000 abstract 1
- 108090000790 Enzymes Proteins 0.000 abstract 1
- 102100029376 Cryptochrome-1 Human genes 0.000 description 10
- 101000919351 Homo sapiens Cryptochrome-1 Proteins 0.000 description 10
- 101001026868 Homo sapiens F-box/LRR-repeat protein 3 Proteins 0.000 description 10
- 102100037315 F-box/LRR-repeat protein 3 Human genes 0.000 description 9
- 230000034512 ubiquitination Effects 0.000 description 8
- 206010006187 Breast cancer Diseases 0.000 description 5
- 208000026310 Breast neoplasm Diseases 0.000 description 5
- 230000033228 biological regulation Effects 0.000 description 4
- 238000010798 ubiquitination Methods 0.000 description 4
- 108091007025 FBXLs Proteins 0.000 description 3
- 102000036354 FBXLs Human genes 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 108010022579 ATP dependent 26S protease Proteins 0.000 description 1
- 230000033616 DNA repair Effects 0.000 description 1
- 108700033932 EC 6.2.1.45 Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108010068086 Polyubiquitin Proteins 0.000 description 1
- 102100037935 Polyubiquitin-C Human genes 0.000 description 1
- 102000018478 Ubiquitin-Activating Enzymes Human genes 0.000 description 1
- 108010091546 Ubiquitin-Activating Enzymes Proteins 0.000 description 1
- 108060008747 Ubiquitin-Conjugating Enzyme Proteins 0.000 description 1
- 102000003431 Ubiquitin-Conjugating Enzyme Human genes 0.000 description 1
- 101710132695 Ubiquitin-conjugating enzyme E2 Proteins 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000022131 cell cycle Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003527 eukaryotic cell Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000017854 proteolysis Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多维关联特征的E3泛素连接酶‑底物相互作用识别方法,该方法包括如下步骤:S1、获取多维关联特征计算所需的基础数据,收集E3泛素连接酶‑底物相互作用集合及三类不同的对照集合;S2、基于组学数据、蛋白质相互作用网络、通路多个方面计算两个蛋白质间的多维度关联特征;S3、基于所述多维关联特征对比E3泛素连接酶‑底物相互作用与三类对照样本并构建三个随机森林分类器;S4、对三个分类器进行集成,构建E3泛素连接酶‑底物相互作用识别模型。本发明能够用于E3泛素连接酶和底物间的关联特征描述,特别有益于对底物未知的E3泛素链接酶的潜在底物进行预估。
Description
技术领域
本发明涉及生物医学领域,特别涉及利用计算机技术识别潜在的 E3泛素连接酶-底物相互作用。
背景技术
蛋白质泛素化修饰是一个涉及到多分子、多环节的作用体系:泛素分子依次通过E1泛素活化酶、E2泛素结合酶和E3泛素连接酶与底物蛋白结合形成一条多泛素链,将底物蛋白泛素化并被26S蛋白酶体所识别而降解。泛素化修饰在真核细胞中普遍存在,不仅能够清除错误蛋白质,还广泛参与细胞周期、DNA修复、信号转导等生物学过程,对于癌症的发生、发展具有重要意义,是调控细胞内蛋白质降解的重要途径。在蛋白质泛素化作用中,E3泛素连接酶能特异性识别作用底物,在蛋白质泛素化体系中起核心作用。目前已经识别出的 E1泛素活化酶、E2泛素结合酶数目较少,而E3泛素连接酶。然而, E3泛素连接酶的种类多样,且与底物之间不是简单的“一对一”关联,而是“多对多”的复杂对应关系,同一种E3泛素连接酶作用于不同底物时将表现出截然不同的功能。目前,尚有很多“E3泛素连接酶-底物”相互作用对未被发现。
目前生物科学家采用分子生物学实验、蛋白质组学等技术对E3 泛素连接酶与底物间的相互作用进行筛选,取得一定研究成果。然而,实验分析方法通常成本较高,对潜在底物的经验预判不准确将导致实验资源的浪费。为了降低实验成本,促进对潜在E3泛素连接酶的底物识别,一部分研究者提出了基于蛋白质结构特征的统计分析方法。然而,此类分析方法需要根据一定数量的已知底物来推测特定E3泛素连接酶底物的氨基酸序列特征,这类方法不适用于已知底物较少或未知的E3泛素连接酶;也有一部分基于结构的分析方法更加关注于候选蛋白是否存在泛素化位点,而并未明确考虑是哪些E3泛素连接酶对其进行泛素化修饰。与E3泛素连接酶-底物间大量的未知关系形成鲜明对比的是,生物医学领域内积累了大量的组学数据和丰富的生物学知识,为从组学的角度识别潜在的E3泛素连接酶-底物相互作用提供了机遇,不过此类数据目前尚未用于对此问题的解决中。
针对于这种情况,有必要设计更为有效的基于海量组学数据和生物背景知道的计算方法,从而更加全面地识别潜在的E3泛素连接酶- 底物相互作用,为深入揭示蛋白质泛素化作用体系提供有益参考。
发明内容
(一)要解决的技术问题
本发明所述解决的技术问题是整合利用组学数据、蛋白质交互作用网络和通路信息来实现对潜在E3泛素连接酶-底物间相互作用的识别。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于多维关联特征的 E3泛素连接酶-底物相互作用识别方法,该方法包括如下步骤:
S1:获取多维关联特征计算所需的基础数据(包括蛋白质名称、蛋白质组数据集、转录组数据集、蛋白质相互作用网络、蛋白质-通路包含关系中的一种或二种以上),收集E3泛素连接酶-底物相互作用集合及三类不同的对照集合;
S2:基于组学数据、蛋白质相互作用网络、通路多个方面计算两个蛋白质间的多维度关联特征;
S3:基于所述多维关联特征对比E3泛素连接酶-底物相互作用与三类对照样本并构建三个随机森林分类器;
S4:对三个分类器进行集成,构建E3泛素连接酶-底物相互作用识别模型。
根据本发明的一种具体实施方式,所述步骤S1中E3泛素连接酶-底物相互作用集合一方面整合了E3Net、UbiNet以及hUbiquitome 三个数据库中的“E3泛素连接酶-底物”相互作用对,另一方面,采用文本挖掘的方式对Pubmed文献摘要进行挖掘,获取文献报道的“E3泛素连接酶-底物”相互作用;所述步骤S1中的三类对照集合包括:对照集合1:10000对随机组合的E3泛素连接酶和蛋白质组合对照集合2:10000对随机选取的蛋白质-蛋白质相互作用,对照集合 3:10000对随机选取的E3泛素连接酶与其他非底物蛋白质间间接调控关系。
根据本发明的一种具体实施方式,所述步骤S2进一步包括如下步骤:
S21:基于组学数据计算蛋白质间的表达关联;
S22:基于蛋白质网络计算蛋白质间的网络关联;
S23:基于通路信息计算蛋白质间的通路关联。
根据本发明的一种具体实施方式,所述步骤S3进一步包括如下步骤:
S31:基于E3泛素连接酶-底物相互作用集合和对照集合1利用随机森林算法构建分类器一;
S32:基于E3泛素连接酶-底物相互作用集合和对照集合2利用随机森林算法构建分类器二;
S33:基于E3泛素连接酶-底物相互作用集合和对照集合3利用随机森林算法构建分类器三。
根据本发明的一种具体实施方式,所述步骤S4进一步实现方法为,对分类器一、二、三进行集成如下:
其中auci代表第i个分类器的精度,probi(a,b)代表基于第i个分类器预测得到的蛋白a、b之间属于E3泛素连接酶-底物相互作用的概率值。
(三)有益效果
本发明提出的基于多维关联特征的E3泛素连接酶-底物相互作用识别方法,通过整合蛋白质在多组学数据、蛋白质网络和通路等多个方面的关联特征来全面描述E3泛素连接酶-底物的关联关系,为 E3泛素连接酶-底物的识别及关联模式的发现提供基础;基于已知的 E3泛素连接酶-底物相互作用及三类对照集合的多分类器集成识别方法可以有效提高预测精度。
附图说明
以下结合附图和实例对以上预测过程进行详细说明,以更清楚的描述本发明的特征。在以下的附图中:
图1是本发明的基于多维关联特征的E3泛素连接酶-底物相互作用识别方法的具体实施流程图;
图2是实施例中获得的E3泛素连接酶-底物相互作用关联特征分布情况;
图3是实施例中获得的FBXL家族E3泛素连接酶-底物相互作用网络。
图4是本发明的基于多维关联特征的E3泛素连接酶-底物相互作用识别方法的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
图1是本发明所提供的基于多维关联特征的E3泛素连接酶-底物相互作用识别方法的具体实施流程图。如图1所示,本发明提供一种 E3泛素连接酶-底物相互作用识别方法,图1中从上到下依次给出了四个步骤:
S1:获取多维关联特征计算所需的基础数据,收集E3泛素连接酶-底物相互作用集合及三类不同的对照集合;
S2:基于组学数据、蛋白质相互作用网络、通路多个方面计算两个蛋白质间的多维度关联特征;
S3:基于所述多维关联特征对比E3泛素连接酶-底物相互作用与三类对照样本并构建三个随机森林分类器;
S4:对三个分类器进行集成,构建E3泛素连接酶-底物相互作用识别模型。
下面通路实施例来进一步详细阐述本方面的具体实施方式。
实施例:预测FBXL家族E3泛素连接酶的潜在底物
S1:获取多维关联特征计算所需的基础数据,收集E3泛素连接酶-底物相互作用集合及三类不同的对照集合;
所述步骤S1中的基础数据的获取途径为:利用TCGA数据库获取乳腺癌中患者的转录组数据,利用CPTAC数据库获取乳腺癌患者的蛋白质组学数据,利用BioGrid数据库获取蛋白质相互作用,利用 KEGG数据库获取人体内所有通路中所包含的蛋白质。
所述步骤S1中E3泛素连接酶-底物相互作用集合整合了E3Net、 UbiNet以及hUbiquitome三个数据库中的“E3泛素连接酶-底物”相互作用对并采用文本挖掘的方式对Pubmed文献摘要进行挖掘,获取文献报道的“E3泛素连接酶-底物”相互作用;
所述步骤S1中对照集合1:10000对随机组合的E3泛素连接酶和蛋白质组合对照集合2:10000对随机选取的蛋白质-蛋白质相互作用,对照集合3:10000对随机选取的E3泛素连接酶与其他非底物蛋白质间间接调控关系。
S2:基于组学数据、蛋白质相互作用网络、通路多个方面计算两个蛋白质间的多维度关联特征;
所述步骤S2具体包括如下步骤:
S21:基于组学数据计算蛋白质间的表达关联,具体步骤包括:
S211:基于转录组数据计算两个蛋白质转录水平间的Spearman 相关系数EC1(a,b);
S212:基于蛋白质组数据计算两个蛋白质表达水平间的 Spearman相关系数EC2(a,b);
S22:基于蛋白质网络计算蛋白质间的网络关联,具体步骤包括:
S221:基于蛋白质交互作用网络G计算蛋白质a、b第一维度的网络关联中,如下:
其中Neis(a,G)、Neis(b,G)代表网络G中任意一个蛋白质a/b的邻居节点,|·|代表集合的大小;
S222:基于蛋白质交互作用网络G以及转录水平的共表达网络 GCXNR计算蛋白质a、b第二维度的网络关联,如下:
其中,HN(a,GCXNR)、HN(b,GCXNR)代表在网络GCXNR中任意蛋白质a、 b的Spearman相关系数在阈值0.4以上的所有蛋白质的集合, Neis(HN(a,GCXNR),G)代表在蛋白交互作用网络G中蛋白质集合HN(a, GCXNR)的所有邻居节点的并集;
S223:基于蛋白质交互作用网络G以及蛋白质水平的共表达网络GCXNP计算蛋白质a、b第三维度的网络关联,如下:
其中,HN(a,GCXNP)、HN(b,GCXNP)代表在网络GCXNP中任意蛋白质a、b的Spearman相关系数在阈值0.4以上的所有蛋白质的集合, Neis(HN(a,GCXNP),G)代表在蛋白交互作用网络G中蛋白质集合HN(a, GCXNP)的所有邻居节点的并集。
S23:基于通路信息计算蛋白质间的通路关联,具体步骤包括:
S231:基于乳腺癌转录组数据计算蛋白质a、b间的通路关联中的第一个维度,如下:
WC1(a,b)=max{wcr(a,Pi)|b∈Pi}
其中Pi是蛋白质b所属的任意一条通路,m代表通路Pi中的任意一个不同于a 的蛋白质,N(Pi)蛋白通路中蛋白质数目;
S232:基于蛋白质组数据计算蛋白质a、b间的通路关联中的第二个维度,如下:
WC2(a,b)=max{wcp(a,Pi)|b∈Pi}
其中
S233:基于转录组数据计算蛋白质a、b间的通路关联中的第三个维度,如下:
WC3(a,b)=max{wcr(b,Pj)|a∈Pj}
其中Pj是蛋白质a所属的任意一条通路, n代表通路Pj中的任意一个不同于b 的蛋白质;
S234:基于蛋白质组数据计算蛋白质a、b间的通路关联中的第四个维度,如下:
WC4(a,b)=max{wcp(b,Pj)|a∈Pj}
其中
在此实施例中,基于乳腺癌的多组学数据获得E3泛素连接酶- 底物相互作用集合以及三个对照集合在多维关联特征上的分布情况,如图2所示。E3泛素连接酶-底物相互作用集合呈现出具有特异性的关联模式:E3泛素连接酶-底物之间在多个维度上的关联程度平均略低于非泛素化作用介导的蛋白质-蛋白质相互作用,在蛋白水平上的通路关联性低于随机情形和间接调控,且在其他多个维度上略高于随机情形和间接调控关系;仅仅依赖组学数据时E3泛素连接酶与底物间的关联特性不具有可识别性,但是蛋白质网络和通路信息的引入提高了E3泛素连接酶与底物间关联特异性。
S3:基于所述多维关联特征对比E3泛素连接酶-底物相互作用与三类对照样本并构建三个随机森林分类器;
所述步骤S3具体包括如下步骤:
S31:基于E3泛素连接酶-底物相互作用集合和对照集合1利用随机森林算法构建分类器一;
S32:基于E3泛素连接酶-底物相互作用集合和对照集合2利用随机森林算法构建分类器二;
S33:基于E3泛素连接酶-底物相互作用集合和对照集合3利用随机森林算法构建分类器三;
S4:对三个分类器进行集成,构建E3泛素连接酶-底物相互作用识别模型。
所述步骤S4对分类器一、二、三进行集成如下
其中auci代表第i个分类器的精度,probi(a,b)代表基于第i个分类器预测得到的蛋白a、b之间属于E3泛素连接酶-底物相互作用的概率值。在此实施例中蛋白质a是FBXL家族中的任意一个E3泛素连接酶,蛋白质b是在乳腺癌的两类组学数据中均测到的任意一个蛋白质,针对所有可能的a、b组合进行计算,其中probi(a,b)>0.75的为高置信的E3泛素连接酶-底物相互作用,结果如图3所示,其中约 70%已经被证实的泛素化作用被成功召回,可见该识别方法的有效性。
具体以E3泛素连接酶FBXL3和非E3泛素连接酶蛋白质CRY1 为例,二者的在多个维度上的计算结果为:
EC1(FBXL3,CRY1)=0.4716
EC2(FBXL3,CRY1)=0.1378
NC1(FBXL3,CRY1)=0.0990
NC2(FBXL3,CRY1)=03703
NC3(FBXL3,CRY1)=0.
WC1(FBXL3,CRY1)=0.2059
WC2(FBXL3,CRY1)=0.2289
WC3(FBXL3,CRY1)=0.1437
WC4(FBXL3,CRY1)=0.0865
上述多维关联特征作为输入,获得预测结果分别是Prob=0.63 。
Claims (8)
1.一种基于多维关联特征的E3泛素连接酶-底物相互作用识别方法包括:
S1:获取多维关联·特征计算所需的基础数据,收集E3泛素连接酶-底物相互作用集合及三类不同的对照集合;
S2:基于组学数据、蛋白质相互作用网络、通路多个方面计算两个蛋白质间的多维度关联特征;
S3:基于所述多维关联特征对比E3泛素连接酶-底物相互作用与三类对照样本并构建三个随机森林分类器;
S4:对三个分类器进行集成,构建E3泛素连接酶-底物相互作用识别模型,用于对E3泛素连接酶底物的预测。
2.如权利要求1所述的一种基于多维关联特征的E3泛素连接酶-底物相互作用识别方法,其特征在于,所属步骤S1中的三类对照集合分别为:
对照集合1:5000对以上随机组合的E3泛素连接酶-非E3泛素连接酶蛋白质组合;
对照集合2:5000对以上随机选取的非E3泛素连接酶蛋白质-非E3泛素连接酶蛋白质相互作用;
对照集合3:5000对以上随机选取的E3泛素连接酶与非E3泛素连接酶蛋白质间间接调控关系,保证三个集合的条目数量相同且内容互不相互,没有重复。
3.如权利要求1所述的一种基于多维关联特征的E3泛素连接酶-底物相互作用识别方法,其特征在于,所述S2包括以下步骤:
S21:基于组学数据计算蛋白质间的表达关联;
S22:基于蛋白质网络计算蛋白质间的网络关联;
S23:基于通路信息计算蛋白质间的通路关联。
4.如权利要求3所述的方法,其特征在于,所述S21中蛋白质间的表达关联计算包含如下步骤:
S211:基于转录组数据计算两个蛋白质转录水平间的Spearman相关系数EC1(a,b)
S212:基于蛋白质组数据计算两个蛋白质表达水平间的Spearman相关系数EC2(a,b)。
5.如权利要求3所述的方法,其特征在于,所述S22中包括如下步骤:
S221:基于蛋白质交互作用网络G计算蛋白质a、b第一维度的网络关联中,如下:
其中Neis(a,G)、Neis(b,G)代表网络G中任意一个蛋白质a/b的邻居节点,|·|代表集合的大小;
S222:基于蛋白质交互作用网络G以及转录水平的共表达网络GCXNR计算蛋白质a、b第二维度的网络关联,如下:
其中,HN(a,GCXNR)、HN(b,GCXNR)代表在网络GCXNR中任意蛋白质a、b的Spearman相关系数在阈值0.4以上的所有蛋白质的集合,Neis(HN(a,GCXNR),G)代表在蛋白交互作用网络G中蛋白质集合HN(a,GCXNR)的所有邻居节点的并集;
S223:基于蛋白质交互作用网络G以及蛋白质水平的共表达网络GCXNP计算蛋白质a、b第三维度的网络关联,如下:
其中,HN(a,GCXNP)、HN(b,GCXNP)代表在网络GCXNP中任意蛋白质a、b的Spearman相关系数在阈值0.4以上的所有蛋白质的集合,Neis(HN(a,GCXNP),G)代表在蛋白交互作用网络G中蛋白质集合HN(a,GCXNP)的所有邻居节点的并集。
6.如权利要求3所述的方法,其特征在于,所述步骤S23包含如下步骤:
S231:基于转录组数据计算蛋白质a、b间的通路关联中的第一个维度,如下:
WC1(a,b)=max{wcr(a,Pi)|b∈Pi}
其中Pi是蛋白质b所属的任意一条通路,m代表通路Pi中的任意一个不同于a的蛋白质,N(Pi)蛋白通路中蛋白质数目;
S232:基于蛋白质组数据计算蛋白质a、b间的通路关联中的第二个维度,如下:
WC2(a,b)=max{wcp(a,Pi)|b∈Pi}
其中
S233:基于转录组数据计算蛋白质a、b间的通路关联中的第三个维度,如下:
WC3(a,b)=max{wcr(b,Pj)|a∈Pj}
其中Pj是蛋白质a所属的任意一条通路,n代表通路Pj中的任意一个不同于b的蛋白质;
S234:基于蛋白质组数据计算蛋白质a、b间的通路关联中的第四个维度,如下:
WC4(a,b)=max{wcp(b,Pj)|a∈Pj}
其中
7.如权利要求1所述的一种基于多维关联特征的E3泛素连接酶-底物相互作用识别方法,其特征在于,所述步骤S3包括如下步骤:
S31:基于E3泛素连接酶-底物相互作用集合和对照集合1利用随机森林算法构建分类器一;
S32:基于E3泛素连接酶-底物相互作用集合和对照集合2利用随机森林算法构建分类器二;
S33:基于E3泛素连接酶-底物相互作用集合和对照集合3利用随机森林算法构建分类器三。
8.如权利要求1所述的一种基于多维关联特征的E3泛素连接酶-底物相互作用识别方法,其特征在于,所述S4中对三类分类器的集成如下:
其中auci代表第i个分类器的精度,probi(a,b)代表基于第i个分类器预测得到的蛋白a、b之间属于E3泛素连接酶-底物相互作用的概率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711305220.5A CN110021343B (zh) | 2017-12-11 | 2017-12-11 | 一种基于多维关联特征的e3泛素连接酶-底物相互作用识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711305220.5A CN110021343B (zh) | 2017-12-11 | 2017-12-11 | 一种基于多维关联特征的e3泛素连接酶-底物相互作用识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110021343A true CN110021343A (zh) | 2019-07-16 |
CN110021343B CN110021343B (zh) | 2023-05-12 |
Family
ID=67186565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711305220.5A Active CN110021343B (zh) | 2017-12-11 | 2017-12-11 | 一种基于多维关联特征的e3泛素连接酶-底物相互作用识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110021343B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838520A (zh) * | 2021-09-27 | 2021-12-24 | 电子科技大学长三角研究院(衢州) | 一种iii型分泌系统效应蛋白识别方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102936618A (zh) * | 2012-10-19 | 2013-02-20 | 江苏大学 | 基于已知e1查找特异性介导靶蛋白泛素反应e2-e3的方法 |
CN106778065A (zh) * | 2016-12-30 | 2017-05-31 | 同济大学 | 一种基于多元数据预测dna突变影响蛋白互作的预测方法 |
-
2017
- 2017-12-11 CN CN201711305220.5A patent/CN110021343B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102936618A (zh) * | 2012-10-19 | 2013-02-20 | 江苏大学 | 基于已知e1查找特异性介导靶蛋白泛素反应e2-e3的方法 |
CN106778065A (zh) * | 2016-12-30 | 2017-05-31 | 同济大学 | 一种基于多元数据预测dna突变影响蛋白互作的预测方法 |
Non-Patent Citations (1)
Title |
---|
于晓旻: "肝素结合细胞因子影响乳腺癌细胞的增殖、侵袭和上皮细胞间质化的功能研究", 《河北医药》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838520A (zh) * | 2021-09-27 | 2021-12-24 | 电子科技大学长三角研究院(衢州) | 一种iii型分泌系统效应蛋白识别方法及装置 |
CN113838520B (zh) * | 2021-09-27 | 2024-03-29 | 电子科技大学长三角研究院(衢州) | 一种iii型分泌系统效应蛋白识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110021343B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Petegrosso et al. | Machine learning and statistical methods for clustering single-cell RNA-sequencing data | |
Liu et al. | Reconstructing cell cycle pseudo time-series via single-cell transcriptome data | |
You et al. | An improved sequence-based prediction protocol for protein-protein interactions using amino acids substitution matrix and rotation forest ensemble classifiers | |
Jabeen et al. | Machine learning-based state-of-the-art methods for the classification of rna-seq data | |
Krishnasamy et al. | A hybrid approach for data clustering based on modified cohort intelligence and K-means | |
Maulik et al. | Simulated annealing based automatic fuzzy clustering combined with ANN classification for analyzing microarray data | |
Kusuma et al. | Prediction of ATP-binding sites in membrane proteins using a two-dimensional convolutional neural network | |
Venkataramana et al. | Improving classification accuracy of cancer types using parallel hybrid feature selection on microarray gene expression data | |
Moler et al. | Integrating naive Bayes models and external knowledge to examine copper and iron homeostasis in S. cerevisiae | |
Lin et al. | Pattern classification in DNA microarray data of multiple tumor types | |
Asim et al. | EL-RMLocNet: An explainable LSTM network for RNA-associated multi-compartment localization prediction | |
Kritikos et al. | Noise reduction in protein-protein interaction graphs by the implementation of a novel weighting scheme | |
Saha et al. | Improvement of new automatic differential fuzzy clustering using SVM classifier for microarray analysis | |
Shen et al. | 'Unite and conquer': enhanced prediction of protein subcellular localization by integrating multiple specialized tools | |
CN117637035A (zh) | 一种基于图神经网络的多组学可信整合的分类模型及方法 | |
CN110021343A (zh) | 一种基于多维关联特征的e3泛素连接酶-底物相互作用识别方法 | |
Li et al. | SEPA: signaling entropy-based algorithm to evaluate personalized pathway activation for survival analysis on pan-cancer data | |
Toussi et al. | Improving protein secondary structure prediction: the evolutionary optimized classification algorithms | |
To et al. | A parallel genetic algorithm for single class pattern classification and its application for gene expression profiling in Streptomyces coelicolor | |
Keedwell et al. | Gene expression rule discovery and multi-objective ROC analysis using a neural-genetic hybrid | |
Kuan Loh et al. | A review of computational approaches to predict gene functions | |
Shi et al. | Plant6mA: A predictor for predicting N6-methyladenine sites with lightweight structure in plant genomes | |
Mohamed et al. | A novel feature selection algorithm for identifying hub genes in lung cancer | |
Halsana et al. | DensePPI: A Novel Image-Based Deep Learning Method for Prediction of Protein–Protein Interactions | |
Yu et al. | StackRAM: a cross-species method for identifying RNA N6-methyladenosine sites based on stacked ensemble |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |