CN106529203A - 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法 - Google Patents

一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法 Download PDF

Info

Publication number
CN106529203A
CN106529203A CN201611192397.4A CN201611192397A CN106529203A CN 106529203 A CN106529203 A CN 106529203A CN 201611192397 A CN201611192397 A CN 201611192397A CN 106529203 A CN106529203 A CN 106529203A
Authority
CN
China
Prior art keywords
mirna
protein
target protein
network
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611192397.4A
Other languages
English (en)
Inventor
邹小勇
钟文倩
李占潮
戴宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Pharmaceutical University
SYSU CMU Shunde International Joint Research Institute
National Sun Yat Sen University
Original Assignee
Guangdong Pharmaceutical University
SYSU CMU Shunde International Joint Research Institute
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Pharmaceutical University, SYSU CMU Shunde International Joint Research Institute, National Sun Yat Sen University filed Critical Guangdong Pharmaceutical University
Priority to CN201611192397.4A priority Critical patent/CN106529203A/zh
Publication of CN106529203A publication Critical patent/CN106529203A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明公开了一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法,包括如下步骤:首先构建三个子网络:基于HIPPIE的人类蛋白质‑蛋白质相互作用网络、基于mirTARbase的miRNA‑靶蛋白网络和基于靶蛋白重叠构造的miRNA‑miRNA网络;然后根据蛋白质的获得号和miRNA分子在miRbase数据库中的ID号,合并三个子网络,构建融合的miRNA‑靶蛋白关联关系网络;最后基于牵连犯罪原则,表征miRNA‑靶蛋白的关联特征,使用随机森林构建分类预测模型,预测潜在miRNA与靶蛋白相互作用关联关系。本发明方法能更好地研究miRNA调控靶蛋白的多对多关系,具有较好的应用价值。

Description

一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法
技术领域
本发明属于生物信息学及分子生物学技术领域。更具体地,涉及一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法。
背景技术
microRNA(miRNA)是一种长度仅为20~24nt的非编码单链小分子RNA,具有高度保守性,时序性和组织特异性。成熟的miRNA 5′端有一个磷酸基团,3′端为羟基,由具有发夹状结构的约70~90nt的单链RNA前体经过Dicer酶加工后形成。成熟的miRNA形成RNA诱导的基因沉默复合体(RNA-induced silencingcomplex,RISC)作用于靶点mRNA,通过对靶mRNA剪切或抑制其翻译过程而调控基因的表达。
miRNA功能的获得或缺失,与各种疾病的发生、发展都有着密切的关系。蛋白质功能既可以直接、也可以间接地受miRNA分子的调控。miRNA网络较于其它生物网络有以下几个优势:miRNA位于基因信号传导的上游,因而miRNA的表达变化更灵敏,且发生在蛋白质的表达变化之前。此外,miRNA可以较方便地在血液循环中检测到,因而适合于作为疾病诊断的灵敏指标,具有现实意义。因此,在miRNA调控蛋白质互作网络层面上识别miRNA和蛋白质之间关系,有助于我们更好地理解致病机理。
miRNA与靶蛋白的关联性,可以采用以下实验方法,包括:基于交联免疫沉淀的高通量测序分析交联免疫沉淀(HITS-CLIP)技术、光活性增强的核糖核苷交联免疫沉淀(PAR-CLIP)技术和CLASH(crosslinking ligation and sequencing of hybrids)技术,这些方法能得出miRNA-mRNA结合位点及与已知miRNA相互作用的mRNA。生物信息学的预测方法是分析miRNA的靶标mRNA的热力学参数及进化保守性,达到预测miRNA靶标目的,如TargetScan、PicTar、PITA、miRanda、DIANA-microT-CDS等。这些方法各有各的优缺点。实验方法可以给出miRNA与靶mRNA的调控关系,但实验价格昂贵且只能得出单个分子与单个分子的相互作用。计算方法快速且便宜,可提供大量可能的相互作用,但假阳性高且缺乏miRNA在特定的细胞或组织中对靶mRNA动态调控关系。
发明内容
本发明要解决的技术问题是克服上述现有技术的缺陷和不足,为了更好地理解miRNA与靶蛋白的“多对多”关系,从生物网络的层面,通过构建miRNA-miRNA网络、miRNA-蛋白质网络和蛋白质-蛋白质互作网络三个网络,预测miRNA的靶蛋白。
本发明的目的是提供一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法。
本发明上述目的通过以下技术方案实现:
在miRNA-蛋白质互作关系的预测模型的构建当中,如何判定miRNA与蛋白质的关联关系是关键。
本发明提出了预测miRNA与蛋白质潜在关联关系的方法,基于拓扑特征和牵连犯罪(guilt-by-association)构建人类蛋白质-蛋白质互作网络、miRNA-miRNA网络、miRNA-蛋白质网络这三个互作网络,结合随机森林算法,建立模型对特征属性进行分类判别,预测潜在的miRNA与蛋白质的关联关系。
即本发明提出了一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法,该方法的具体步骤如下:
S1.分别构建以下三个子网络:
基于HIPPIE的人类蛋白质-蛋白质相互作用网络(PPIN)、基于mirTARbase的miRNA-靶蛋白网络(miRNATarN)和基于靶蛋白重叠构造的miRNA-miRNA网络(miRNAIN);
S2.构建融合的miRNA-靶蛋白关联关系网络:
根据蛋白质的获得号和miRNA分子在miRbase数据库中的ID号,合并三个子网络,构建融合的miRNA-靶蛋白关联关系网络,包含163739条边和14265个节点;其中,153749条边表示蛋白质-蛋白质相互作用,4634条边表示miRNA-miRNA关系,5356条边表示miRNA-靶蛋白相互作用;在所有的节点中,14086个是蛋白质,179个是miRNA;
S3.表征miRNA-靶蛋白的关联特征,预测潜在miRNA与靶蛋白相互作用关联关系(使用牵连犯罪原则来描述miRNA与蛋白质的关联情况)
S31.基于牵连犯罪原则,计算miRNA与人类蛋白的网络拓扑特征
采用公式(1)计算miRNA(r)的网络拓扑结构特征、采用公式(2)计算靶蛋白p的网络拓扑结构特征、通过公式(3)得到一个1960(193+1767)维的网络拓扑特征向量来描述miRNA和其靶蛋白的关联关系:
S32.使用随机森林(RF)构建分类预测模型,预测潜在的miRNA与人类蛋白的相互作用关系。
具体所述牵连犯罪原则如图3所示,牵连犯罪原则表明,若蛋白质的邻居蛋白质大部分都与某种miRNA相互作用,那么该蛋白质更倾向于与该miRNA相互作用。在图3的PPIN中,P2蛋白质的邻居P1和P3均与mir-3相互作用(黄色实线表示),那么根据牵连犯罪原则,P2蛋白质很可能与mir-3相互作用(蓝色虚线表示)。miRNAIN代表miRNA-miRNA网络,红色实线表示miRNA间的相互作用。miRNATarN代表miRNA-靶蛋白网络,黄色实线表示实验验证的miRNA与靶蛋白之间的相互作用。
另外,优选地,步骤S1中所述基于HIPPIE的人类蛋白质-蛋白质相互作用网络(PPIN)的构建方法如下:
从HIPPIE数据库下载整个人类蛋白质-蛋白质相互作用数据,去除自相互作用、重复相互作用以及相互作用得分为0的相互作用;根据蛋白质获得号,从UniprotKB/Swiss-Prot数据库获取蛋白质序列信息(序列信息即一级结构数据),计算氨基酸组成(20维)、二肽组成(400维)、自相关描述符和组成(1221维)、转变(21维)和分布(105维)等共1767维蛋白质一级结构描述符(一级结构描述符即一级结构特征);
基于收集的信息,构建节点和边加权的人类蛋白质-蛋白质相互作用子网络;蛋白质网络中节点权重是蛋白质1767维蛋白质一级结构描述符,边权重是蛋白质相互作用信任得分;其中相互作用信任得分是蛋白质之间相互作用程度,数值介于0~1之间,数值越大,作用程度越高,数值越小,作用程度越小。
优选地,步骤S1中所述基于mirTARbase的miRNA-靶蛋白网络(miRNATarN)的构建方法如下:
从mirTARbase中搜集并整理miRNA-靶蛋白相互作用数据,根据miRNA的序列和结构信息,计算核酸序列的组成(4维)、二核苷酸序列组成(16维)、三核苷酸序列组成(64维)、基于K-mer分类的组成(90维)和伪二核苷酸组成(19维),得到193个miRNA序列结构描述符;基于收集的数据构建miRNA-靶蛋白互作网络;
在miRNA-靶蛋白互作网络中,miRNA节点权重是193维miRNA序列的结构描述符,靶蛋白节点权重是1767维蛋白质一级结构描述符;如果miRNA和靶蛋白发生相互作用,则用一条边连接,且边的权重为1。
优选地,步骤S1中所述基于靶蛋白重叠构造的miRNA-miRNA网络(miRNAIN)的构建方法如下:
大量研究表明,miRNA之间有协同调控作用,如mir-375、mir-124、let-7b共同调控Mtpn(肌侵蛋白);因此,根据miRNA-靶蛋白相互作用数据,利用靶蛋白重叠的显著性来确定miRNA之间的关联关系,构建miRNA-miRNA网络。
所述靶蛋白重叠的显著性的计算方法为:如图2所示,如果两个miRNA具有共同的靶蛋白,则这miRNA相互之间用一条边连接,且边权重为并介于[0,1]之间;其中|A|和|B|分别表示miRNA1和miRNA2的靶蛋白集的数目,|C|表示它们共同靶蛋白数目,min(|A|,|B|)表示靶蛋白集A和B之间的最小数;节点权重是193维的miRNA序列结构描述符。
优选地,S31所述基于牵连犯罪原则计算miRNA与人类蛋白的网络拓扑特征的具体方法如下:
首先,查找miRNA-miRNA网络中,节点为r的miRNA,表示为miRNA(r),其邻接miRNA总数为N;考虑miRNA(r)的节点权重,与邻接miRNA的边权重和节点权重信息,采用公式(1)计算miRNA(r)的网络拓扑结构特征;公式(1)中,Rr(i)和Rj(i)分别代表miRNA-miRNA网络中miRNA(r)及其邻接点miRNA(j)的节点权重。Er,j代表miRNA(r)与其邻接点miRNA(j)之间的边权重。根据这个公式可知,RNTFr是一个具有193维的特征向量。如果网络中的miRNA无邻接点,则定义RNTFr=Rr
其次,从人类蛋白质-蛋白质相互作用网络中查找靶蛋白p的邻接蛋白质,考虑靶蛋白p的节点权重,与邻接蛋白的边权重和节点权重,采用公式(2)计算靶蛋白p的网络拓扑结构特征;公式(2)中,Pp(i)和Pj(i)分别代表人类蛋白质-蛋白质网络中靶蛋白p和其邻接蛋白j的节点权重;Ep,j代表靶蛋白p与其邻接蛋白j之间的边权重。N是邻接点的数目。根据这个公式可知,PNTFp是一个具有1767维的特征向量。如果网络中靶蛋白p无邻接点,则定义PNTFp=Pp
最后,同时考虑miRNA和靶蛋白的网络拓扑结构信息,通过公式(3)得到一个1960(193+1767)维的网络拓扑特征向量来描述miRNA和其靶蛋白的关联关系。
另外,随机森林是一种组合方法,由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的,当测试数据进入随机森林时,让每一棵决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果。步骤S32所述使用随机森林(RF)构建分类预测模型预测潜在的miRNA与人类蛋白的相互作用关系的具体方法为(即模型构建与性能评价):
本方法使用随机森林机器学习方法作为训练模型,算法来源于scikit-learn(http://scikit-learn.org/stable/)工具包,整个程序使用python开发,采用随机森林构建分类预测模型对miRNA-蛋白质关联关系进行分类研究,10-折交叉验证评估模型精度。样本随机平均分成10份,其中1份用作测试集,剩余9份用作训练集。重复10次,使得10份中的每一份都被作为测试集。最后,整合10次重复的结果,评估模型性能。具体步骤如下:
(1)装载正负样本数据;
(2)将正负样本数据随机平均分为10等分;
(3)运行随机森林;
(4)基于10折交叉验证评估模型性能;
(5)输出结果。
识别新的miRNA-蛋白质关联关系可看做是一个网络中缺失边的预测问题,即miRNA-蛋白质网络是一个缺失了一些边的不完整的网络。本发明的目的是利用已有的关联关系中构建分类器来预测miRNA与蛋白质之间是否存在关联关系,是个二分类问题。因此,我们采用精确度(Accuracy,Acc)、敏感性(Sensitivity,Sen)、特异性(Specificity,Spe)、准确率(Precision,Pre)、马氏相关系数(Matthew'scorrelation coefficient,Mcc)以及受试者工作特征曲线(receiver operatingcharacteristic curve,ROC)和准确率-召回率曲线(precision-recall curve,PRC)评估模型性能,其定义如下:
其中,TP表示模型正确预测出的正样本数目,TN表示模型正确预测出的负样本的数目。FP表示错误预测的正样本数目。FN表示模型错误预测的负样本数目。通过改变阈值,可以获得一系列的敏感性、特异性和准确率,分别以1-特异性和敏感性为横坐标,以敏感性和准确率为纵坐标即可绘制ROC和PRC曲线,曲线下面积可用于衡量模型预测性能,面积值越接近1表示模型性能越好,0.5表示随机预测。马氏相关系数是一个以测量两类分类质量的常用的机器学习评估指标。这个系数的取值范围在-1到+1之间,系数越接近+1表示预测接近完美,但是越接近-1表示预测结果与事实毫无一致性。
本发明具有以下有益效果:
本方法提出了基于miRNA-蛋白质网络的miRNA靶蛋白预测方法,运用牵连犯罪原则,提取miRNA-蛋白质关联关系的特征,并与随机森林算法结合,建立了miRNA-靶蛋白预测方法,具有以下优势:
(1)构建miRNA-蛋白质关联关系网络:整合miRNA-miRNA网络、miRNA-靶蛋白网络、人类蛋白质-蛋白质互作网络,构建miRNA-蛋白质网络,能更好地研究miRNA调控靶蛋白的多对多关系。
(2)研究具有网络拓扑结构特征的描述符:采用牵连犯罪原则,构建了miRNA与靶蛋白关联关系的网络拓扑特征。
(3)研究了基于生物网络的分析框架:基于生物网络,研究了心脑血管疾病的相关数据集,采用机器学习方法,预测miRNA靶蛋白。该技术可推广到其他疾病中,具有较好的应用价值。
附图说明
图1为miRNA-蛋白质关联性预测方法示意图(即预测模型的结构)。
图2表示miRNA靶蛋白重叠显著性的计算方法。
图3为牵连犯罪原则示意图。
图4为实施例2中受试者操作特征曲线和精度-召回曲线(ROC和PRE曲线)。
图5为本发明方法与其它算法对比的ROC曲线。
图6为本发明方法与其它算法比较的PRC曲线。
具体实施方式
以下结合说明书附图和具体实施例来进一步说明本发明,但实施例并不对本发明做任何形式的限定。除非特别说明,本发明采用的试剂、方法和设备为本技术领域常规试剂、方法和设备。
除非特别说明,本发明所用试剂和材料均为市购。
实施例1 miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法
一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法,包括如下步骤:
1、分别构建以下三个子网络:
(1)构建基于HIPPIE的人类蛋白质-蛋白质相互作用网络(PPIN)
从HIPPIE数据库下载整个人类蛋白质-蛋白质相互作用数据,去除自相互作用、重复相互作用以及相互作用得分为0的相互作用;根据蛋白质获得号,从UniprotKB/Swiss-Prot数据库获取蛋白质序列信息(序列信息即一级结构数据),计算氨基酸组成(20维)、二肽组成(400维)、自相关描述符和组成(1221维)、转变(21维)和分布(105维)等共1767维蛋白质一级结构描述符(一级结构描述符即一级结构特征);
基于收集的信息,构建节点和边加权的人类蛋白质-蛋白质相互作用子网络;蛋白质网络中节点权重是蛋白质1767维蛋白质一级结构描述符,边权重是蛋白质相互作用信任得分;其中相互作用信任得分是蛋白质之间相互作用程度,数值介于0~1之间,数值越大,作用程度越高,数值越小,作用程度越小。
(2)构建基于mirTARbase的miRNA-靶蛋白网络(miRNATarN)
从mirTARbase中搜集并整理miRNA-靶蛋白相互作用数据,根据miRNA的序列和结构信息,计算核酸序列的组成(4维)、二核苷酸序列组成(16维)、三核苷酸序列组成(64维)、基于K-mer分类的组成(90维)和伪二核苷酸组成(19维),得到193个miRNA序列结构描述符;基于收集的数据构建miRNA-靶蛋白互作网络;
在miRNA-靶蛋白互作网络中,miRNA节点权重是193维miRNA序列的结构描述符,靶蛋白节点权重是1767维蛋白质一级结构描述符;如果miRNA和靶蛋白发生相互作用,则用一条边连接,且边的权重为1。
(3)构建基于靶蛋白重叠构造的miRNA-miRNA网络(miRNAIN)
大量研究表明,miRNA之间有协同调控作用,如mir-375、mir-124、let-7b共同调控Mtpn(肌侵蛋白);因此,根据miRNA-靶蛋白相互作用数据,利用靶蛋白重叠的显著性来确定miRNA之间的关联关系,构建miRNA-miRNA网络。
所述靶蛋白重叠的显著性的计算方法为:如图2所示,如果两个miRNA具有共同的靶蛋白,则这miRNA相互之间用一条边连接,且边权重为并介于[0,1]之间;其中|A|和|B|分别表示miRNA1和miRNA2的靶蛋白集的数目,|C|表示它们共同靶蛋白数目,min(|A|,|B|)表示靶蛋白集A和B之间的最小数;节点权重是193维的miRNA序列结构描述符。
2、构建融合的miRNA-靶蛋白关联关系网络:
根据蛋白质的获得号和miRNA分子在miRbase数据库中的ID号,合并三个子网络,构建融合的miRNA-靶蛋白关联关系网络,包含163739条边和14265个节点;其中,153749条边表示蛋白质-蛋白质相互作用,4634条边表示miRNA-miRNA关系,5356条边表示miRNA-靶蛋白相互作用;在所有的节点中,14086个是蛋白质,179个是miRNA;
3、使用牵连犯罪原则来描述miRNA与蛋白质的关联情况
表征miRNA-靶蛋白的关联特征,预测潜在miRNA与靶蛋白相互作用关联关系。
(1)首先基于牵连犯罪原则,计算miRNA与人类蛋白的网络拓扑特征
首先,采用公式(1)计算miRNA(r)的网络拓扑结构特征、采用公式(2)计算靶蛋白p的网络拓扑结构特征、通过公式(3)得到一个1960(193+1767)维的网络拓扑特征向量来描述miRNA和其靶蛋白的关联关系:
具体方法如下:
查找miRNA-miRNA网络中,节点为r的miRNA,表示为miRNA(r),其邻接miRNA总数为N;考虑miRNA(r)的节点权重,与邻接miRNA的边权重和节点权重信息,采用公式(1)计算miRNA(r)的网络拓扑结构特征;公式(1)中,Rr(i)和Rj(i)分别代表miRNA-miRNA网络中miRNA(r)及其邻接点miRNA(j)的节点权重。Er,j代表miRNA(r)与其邻接点miRNA(j)之间的边权重。根据这个公式可知,RNTFr是一个具有193维的特征向量。如果网络中的miRNA无邻接点,则定义RNTFr=Rr
其次,从人类蛋白质-蛋白质相互作用网络中查找靶蛋白p的邻接蛋白质,考虑靶蛋白p的节点权重,与邻接蛋白的边权重和节点权重,采用公式(2)计算靶蛋白p的网络拓扑结构特征;公式(2)中,Pp(i)和Pj(i)分别代表人类蛋白质-蛋白质网络中靶蛋白p和其邻接蛋白j的节点权重;Ep,j代表靶蛋白p与其邻接蛋白j之间的边权重。N是邻接点的数目。根据这个公式可知,PNTFp是一个具有1767维的特征向量。如果网络中靶蛋白p无邻接点,则定义PNTFp=Pp
最后,同时考虑miRNA和靶蛋白的网络拓扑结构信息,通过公式(3)得到一个1960(193+1767)维的网络拓扑特征向量来描述miRNA和其靶蛋白的关联关系。
其中,具体所述牵连犯罪原则如图3所示,牵连犯罪原则表明,若蛋白质的邻居蛋白质大部分都与某种miRNA相互作用,那么该蛋白质更倾向于与该miRNA相互作用。在图3的PPIN中,P2蛋白质的邻居P1和P3均与mir-3相互作用(黄色实线表示),那么根据牵连犯罪原则,P2蛋白质很可能与mir-3相互作用(蓝色虚线表示)。miRNAIN代表miRNA-miRNA网络,红色实线表示miRNA间的相互作用。miRNATarN代表miRNA-靶蛋白网络,黄色实线表示实验验证的miRNA与靶蛋白之间的相互作用。
(2)使用随机森林(RF)构建分类预测模型,预测潜在的miRNA与人类蛋白的相互作用关系。
随机森林是一种组合方法,由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的,当测试数据进入随机森林时,让每一棵决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果。步骤S32所述使用随机森林(RF)构建分类预测模型预测潜在的miRNA与人类蛋白的相互作用关系的具体方法为(即模型构建与性能评价):
本方法使用随机森林机器学习方法作为训练模型,算法来源于scikit-learn(http://scikit-learn.org/stable/)工具包,整个程序使用python开发,采用随机森林构建分类预测模型对miRNA-蛋白质关联关系进行分类研究,10-折交叉验证评估模型精度。样本随机平均分成10份,其中1份用作测试集,剩余9份用作训练集。重复10次,使得10份中的每一份都被作为测试集。最后,整合10次重复的结果,评估模型性能。具体步骤如下:
(1)装载正负样本数据;
(2)将正负样本数据随机平均分为10等分;
(3)运行随机森林;
(4)基于10折交叉验证评估模型性能;
(5)输出结果。
实施例2 以心脑血管疾病相关miRNA网络为例验证本发明的miRNA靶蛋白预测方法
1、收集数据集,构建节点和边加权的miRNA-蛋白质相互作用网络
从HIPPIE数据库收集人类蛋白质-蛋白质相互作用数据,去除自相互作用、重复相互作用以及相互作用得分为0的相互作用。根据蛋白质获得号,从UniprotKB/Swiss-Prot数据库获取蛋白质一级结构数据,计算氨基酸组成、二肽组成、自相关描述符和组成、转变和分布等蛋白质一级结构描述符。蛋白质网络中节点权重是1767维蛋白质一级结构特征,边权重是相互作用信任得分。
从mirTARbase中搜集整理了miRNA与靶蛋白相互作用数据。在miRNA-靶蛋白相互作用子网络中,miRNA节点权重是193维miRNA序列的结构描述符,靶蛋白节点权重是1767维蛋白质一级结构描述符。如果miRNA和靶蛋白发生相互作用,则用一条边连接,且边的权重为1。
从mir2Disease及Elsa Bronze-da-Rocha(Elsa Bronze-da-Rocha,MicroRNAsExpression Profiles in Cardiovascular Diseases,BioMed Research International,2014,Article ID 985408,23)收集的数据,得到与心脑血管疾病相关的200个miRNA,根据miRNA与靶蛋白相互作用数据。基于靶蛋白重叠的显著性来确定miRNA之间的关联关系。miRNA-miRNA网络中节点权重是193维miRNA序列的结构描述符,边权重为
2、基于牵连犯罪原则表征miRNA和蛋白质的网络拓扑结构特征
查找miRNA-miRNA网络中,节点为r的miRNA(表示为miRNA(r)),其邻接miRNA总数为N。考虑miRNA(r)的节点权重,与邻接miRNA的边权重和节点权重信息,计算miRNA(r)的网络拓扑结构特征。
公式中,Rr(i)和Rj(i)分别代表miRNA-miRNA网络中miRNA(r)及其邻接点miRNA(j)的节点权重。Er,j代表miRNA(r)与其邻接点miRNA(j)之间的边权重。根据这个公式可知,RNTFr是一个具有193维的特征向量。如果网络中的miRNA无邻接点,则定义RNTFr=Rr
然后我们从人类蛋白质-蛋白质互作网络中查找靶蛋白p的邻接蛋白质,考虑靶蛋白p的节点权重,与邻接蛋白的边权重和节点权重,计算靶蛋白p的网络拓扑结构特征。
公式中,Pp(i)和Pj(i)分别代表人类蛋白质-蛋白质网络中靶蛋白p和其邻接蛋白j的节点权重;Ep,j代表靶蛋白p与其邻接蛋白j之间的边权重。N是邻接点的数目。根据这个公式可知,PNTFp是一个具有1767维的特征向量。如果网络中靶蛋白p无邻接点,则定义PNTFp=Pp
最后,同时考虑miRNA和靶蛋白的网络拓扑结构信息,通过下式,得到一个1960(193+1767)维的网络拓扑特征向量来描述miRNA和其靶蛋白的关联关系:
根据蛋白质的获得号和miRNA分子在miRbase数据库中的ID号,合并三个子网络,构建融合的miRNA-靶蛋白关联关系网络,包含163739条边和14265个节点。其中,153749条边表示蛋白质-蛋白质相互作用,4634条边表示miRNA-miRNA关系,5356条表示miRNA-靶蛋白相互作用。在所有的节点中,14086个是蛋白质,179个是miRNA。
3、模型构建与性能评价
采用随机森林算法,构建模型并预测潜在miRNA-靶蛋白关联关系。训练集为从mirTARbase下载的3932条实验验证的miRNA-靶蛋白相互作用数据和1238条实验验证的非miRNA-靶蛋白相互作用数据。利用预测准确度、敏感性、特异性、精确度、马氏相关系数、受试者操作特征曲线和精度-召回曲线评估模型预测性能。
4、结果
(1)模型性能
在采用随机算法构建预测模型中,树的数目按照步长100从100到1000取整数值,每一个叶节点选择变量的数目分别按照步长21从20到27改变。采用格点搜索寻找两者的最优组合。三分之二的样本考虑为袋内样本,三分之一考虑为袋外样本。随机产生10个负样本数据集,10次统计平均结果如表1所示、最优模型的受试者操作特征曲线和精度-召回曲线如图4所示。
表1 十折交叉验证结果
本方法的准确率、敏感性、特异性、精确度分别为91.38%,93.69%,88.71%,94.04%,且ROC曲线下面积为0.9529,PRC曲线下面积为0.9656。
由以上实验结果可知,本方法基于miRNA-蛋白质网络上成功的采用牵连犯罪原则,得到较高的预测精度。
(2)模型的鲁棒性
由于网络中的一些互作关系可能不是真实存在,故而网络中的每条边都有一个在0~1之间的互作得分,分别选取蛋白质相互作用数高于0.1,0.2,……,0.8的8个数据集,输入模型,并进行10折交叉验证,结果如表2所示。
表2 蛋白质相互作用数分别高于0.1,0.2,……,0.8的8个数据集的十折交叉验证结果
由表2可以看出,当蛋白质相互作用得分阈值从0.1到0.8变化时,预测准确度高于88%,并且得到准确率,敏感度,特异性,精确度的波动范围分别是[91.17,86.69],[92.68,88.68],[88.91,83.98],[93.16,88.32],[0.8162,0.7272],模型的波动性小,抗扰动。结果表明,本方法所建立的模型对假阳性蛋白质相互作用具有很强的鲁棒性。
实施例3 与其他方法比较
目前现有技术中普遍使用的四种靶标预测方法,分别是PITA、miRanda、rna22和targetspy,这些方法只是基于序列信息进行预测,例如匹配分析,二级结构预测,遗传保守性分析等,而对于诸如基因表达、基因间相互调控的信息(如作用通路、蛋白质网络)等数据没有合理的运用。
为此,使用Mark Menor(Mark Menor,Travers Ching,Xun Zhu,et al.mirMark:asite-level and UTR-level classifier for miRNA target prediction[J].GenomeBiology,2014,15:500)等人所收集的数据集,取其中正样本253个,负样本362个作为一个独立测试集。
将本发明的方法、PITA、miRanda、rna22和targetspy分别对此数据集进行分析,结果如表3所示,ROC曲线和PRC曲线如图5及图6所示。
表3 各算法的ROC曲线下的面积
结果显示,对于现有技术中的独立测试集,本发明方法的准确率、敏感性、特异性、精确度分别是92.20%,93.99%,91.10%和86.56%,比其它四种方法高了大约30%。马氏相关系数是0.8370,比PITA高了约0.7,比miRanda高了约0.6,比rna22和targetspy高了约0.8。从表3可知,文献中的四种方法的ROC曲线下面积在0.5-0.7之间,模型的预测性能接近于随机预测,本方法曲线下的面积达到0.9以上。并且本方法PRC曲线下面积比其他四种方法大0.4,可见本方法的预测性能优越。

Claims (6)

1.一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法,其特征在于,包括如下步骤:
S1.分别构建以下三个子网络:
基于HIPPIE的人类蛋白质-蛋白质相互作用网络、基于mirTARbase的miRNA-靶蛋白网络和基于靶蛋白重叠构造的miRNA-miRNA网络;
S2.构建融合的miRNA-靶蛋白关联关系网络:
根据蛋白质的获得号和miRNA分子在miRbase数据库中的ID号,合并三个子网络,构建融合的miRNA-靶蛋白关联关系网络,包含163739条边和14265个节点;其中,153749条边表示蛋白质-蛋白质相互作用,4634条边表示miRNA-miRNA关系,5356条边表示miRNA-靶蛋白相互作用;在所有的节点中,14086个是蛋白质,179个是miRNA;
S3.表征miRNA-靶蛋白的关联特征,预测潜在miRNA与靶蛋白相互作用关联关系
S31.基于牵连犯罪原则,计算miRNA与人类蛋白的网络拓扑特征
采用公式(1)计算miRNA(r)的网络拓扑结构特征、采用公式(2)计算靶蛋白p的网络拓扑结构特征、通过公式(3)得到一个1960维的网络拓扑特征向量来描述miRNA和其靶蛋白的关联关系:
RNTF r = 1 N Σ j = 1 N R r ( i ) × E r , j × R j ( i ) , ( i = 1 , 2 , ...... , 193 ) - - - ( 1 )
PNTF p = 1 N Σ j = 1 N P p ( i ) × E p , j × P j ( i ) , ( i = 1 , 2 , ...... , 1767 ) - - - ( 2 )
RPNTF r , p = RNTF r ⊕ PNTF p - - - ( 3 ) ;
S32.使用随机森林构建分类预测模型,预测潜在的miRNA与人类蛋白的相互作用关系。
2.根据权利要求1所述的方法,其特征在于,步骤S1中所述基于HIPPIE的人类蛋白质-蛋白质相互作用网络的构建方法如下:
从HIPPIE数据库下载整个人类蛋白质-蛋白质相互作用数据,去除自相互作用、重复相互作用以及相互作用得分为0的相互作用;根据蛋白质获得号,从UniprotKB/Swiss-Prot数据库获取蛋白质序列信息,计算氨基酸组成、二肽组成、自相关描述符和组成、转变和分布共1767维蛋白质一级结构描述符;
基于收集的信息,构建节点和边加权的人类蛋白质-蛋白质相互作用子网络;蛋白质网络中节点权重是蛋白质1767维蛋白质一级结构描述符,边权重是蛋白质相互作用信任得分;其中相互作用信任得分是蛋白质之间相互作用程度,数值介于0~1之间,数值越大,作用程度越高,数值越小,作用程度越小。
3.根据权利要求1所述的方法,其特征在于,步骤S1中所述基于mirTARbase的miRNA-靶蛋白网络的构建方法如下:
从mirTARbase中搜集并整理miRNA-靶蛋白相互作用数据,根据miRNA的序列和结构信息,计算核酸序列的组成、二核苷酸序列组成、三核苷酸序列组成、基于K-mer分类的组成和伪二核苷酸组成,得到193个miRNA序列结构描述符;基于收集的数据构建miRNA-靶蛋白互作网络;
在miRNA-靶蛋白互作网络中,miRNA节点权重是193维miRNA序列的结构描述符,靶蛋白节点权重是1767维蛋白质一级结构描述符;如果miRNA和靶蛋白发生相互作用,则用一条边连接,且边的权重为1。
4.根据权利要求1所述的方法,其特征在于,步骤S1中所述基于靶蛋白重叠构造的miRNA-miRNA网络的构建方法如下:
根据miRNA-靶蛋白相互作用数据,利用靶蛋白重叠的显著性来确定miRNA之间的关联关系,构建miRNA-miRNA网络。
5.根据权利要求4所述的方法,其特征在于,所述靶蛋白重叠的显著性的计算方法为:如果两个miRNA具有共同的靶蛋白,则这miRNA相互之间用一条边连接,且边权重为并介于[0,1]之间;其中|A|和|B|分别表示miRNA1和miRNA2的靶蛋白集的数目,|C|表示它们共同靶蛋白数目,min(|A|,|B|)表示靶蛋白集A和B之间的最小数;节点权重是193维的miRNA序列结构描述符。
6.根据权利要求1所述的方法,其特征在于,S31所述基于牵连犯罪原则计算miRNA与人类蛋白的网络拓扑特征的具体方法如下:
首先,查找miRNA-miRNA网络中,节点为r的miRNA,表示为miRNA(r),其邻接miRNA总数为N;考虑miRNA(r)的节点权重,与邻接miRNA的边权重和节点权重信息,采用公式(1)计算miRNA(r)的网络拓扑结构特征;公式(1)中,Rr(i)和Rj(i)分别代表miRNA-miRNA网络中miRNA(r)及其邻接点miRNA(j)的节点权重。Er,j代表miRNA(r)与其邻接点miRNA(j)之间的边权重。根据这个公式可知,RNTFr是一个具有193维的特征向量。如果网络中的miRNA无邻接点,则定义RNTFr=Rr
其次,从人类蛋白质-蛋白质相互作用网络中查找靶蛋白p的邻接蛋白质,考虑靶蛋白p的节点权重,与邻接蛋白的边权重和节点权重,采用公式(2)计算靶蛋白p的网络拓扑结构特征;公式(2)中,Pp(i)和Pj(i)分别代表人类蛋白质-蛋白质网络中靶蛋白p和其邻接蛋白j的节点权重;Ep,j代表靶蛋白p与其邻接蛋白j之间的边权重。N是邻接点的数目。根据这个公式可知,PNTFp是一个具有1767维的特征向量。如果网络中靶蛋白p无邻接点,则定义PNTFp=Pp
最后,同时考虑miRNA和靶蛋白的网络拓扑结构信息,通过公式(3)得到一个1960维的网络拓扑特征向量来描述miRNA和其靶蛋白的关联关系。
CN201611192397.4A 2016-12-21 2016-12-21 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法 Pending CN106529203A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611192397.4A CN106529203A (zh) 2016-12-21 2016-12-21 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611192397.4A CN106529203A (zh) 2016-12-21 2016-12-21 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法

Publications (1)

Publication Number Publication Date
CN106529203A true CN106529203A (zh) 2017-03-22

Family

ID=58340694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611192397.4A Pending CN106529203A (zh) 2016-12-21 2016-12-21 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法

Country Status (1)

Country Link
CN (1) CN106529203A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368702A (zh) * 2017-06-02 2017-11-21 西安电子科技大学 一种构建miRNA调控网络的方法
CN108427867A (zh) * 2018-01-22 2018-08-21 中国科学院合肥物质科学研究院 一种基于灰色bp神经网络蛋白互作关系预测方法
CN110164505A (zh) * 2018-02-07 2019-08-23 深圳华大基因科技服务有限公司 一种快速预测目标miRNA的靶基因的方法
CN110415765A (zh) * 2019-07-29 2019-11-05 桂林电子科技大学 一种长链非编码rna亚细胞定位的预测方法
CN110706748A (zh) * 2019-09-27 2020-01-17 广州基迪奥科技服务有限公司 一种竞争性内源rna网络调控分析系统和方法
CN111192631A (zh) * 2020-01-02 2020-05-22 中国科学院计算技术研究所 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111445944A (zh) * 2020-03-27 2020-07-24 江南大学 基于多视角深度特征与多标签学习的rna结合蛋白识别
CN111640468A (zh) * 2020-05-18 2020-09-08 天士力国际基因网络药物创新中心有限公司 一种基于复杂网络筛选疾病相关蛋白的方法
CN115112778A (zh) * 2021-03-19 2022-09-27 复旦大学 一种疾病蛋白质生物标志物鉴定方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013016794A1 (pt) * 2011-08-04 2013-02-07 Empresa Brasileira De Pesquisa Agropecuária - Embrapa - Método para previsão de mutantes que aumentem o índice de hidrofobicidade da superfície de proteínas
CN103065066A (zh) * 2013-01-22 2013-04-24 四川大学 基于药物组合网络的药物联合作用预测方法
CN103116713A (zh) * 2013-02-25 2013-05-22 浙江大学 基于随机森林的化合物和蛋白质相互作用预测方法
CN105039321A (zh) * 2015-07-01 2015-11-11 中山大学 一种改进型恒温指数扩增技术及其在microRNA检测中的应用
CN105117618A (zh) * 2015-08-12 2015-12-02 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法
CN105138866A (zh) * 2015-08-12 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法
CN105205343A (zh) * 2015-07-21 2015-12-30 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于加权组成位置向量和支持向量机的蛋白质结构类预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013016794A1 (pt) * 2011-08-04 2013-02-07 Empresa Brasileira De Pesquisa Agropecuária - Embrapa - Método para previsão de mutantes que aumentem o índice de hidrofobicidade da superfície de proteínas
CN103065066A (zh) * 2013-01-22 2013-04-24 四川大学 基于药物组合网络的药物联合作用预测方法
CN103116713A (zh) * 2013-02-25 2013-05-22 浙江大学 基于随机森林的化合物和蛋白质相互作用预测方法
CN105039321A (zh) * 2015-07-01 2015-11-11 中山大学 一种改进型恒温指数扩增技术及其在microRNA检测中的应用
CN105205343A (zh) * 2015-07-21 2015-12-30 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于加权组成位置向量和支持向量机的蛋白质结构类预测方法
CN105117618A (zh) * 2015-08-12 2015-12-02 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法
CN105138866A (zh) * 2015-08-12 2015-12-09 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368702A (zh) * 2017-06-02 2017-11-21 西安电子科技大学 一种构建miRNA调控网络的方法
CN108427867A (zh) * 2018-01-22 2018-08-21 中国科学院合肥物质科学研究院 一种基于灰色bp神经网络蛋白互作关系预测方法
CN110164505A (zh) * 2018-02-07 2019-08-23 深圳华大基因科技服务有限公司 一种快速预测目标miRNA的靶基因的方法
CN110415765A (zh) * 2019-07-29 2019-11-05 桂林电子科技大学 一种长链非编码rna亚细胞定位的预测方法
CN110706748A (zh) * 2019-09-27 2020-01-17 广州基迪奥科技服务有限公司 一种竞争性内源rna网络调控分析系统和方法
CN110706748B (zh) * 2019-09-27 2022-05-17 广州基迪奥科技服务有限公司 一种竞争性内源rna网络调控分析系统和方法
CN111192631A (zh) * 2020-01-02 2020-05-22 中国科学院计算技术研究所 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111445944A (zh) * 2020-03-27 2020-07-24 江南大学 基于多视角深度特征与多标签学习的rna结合蛋白识别
CN111445944B (zh) * 2020-03-27 2023-04-18 江南大学 基于多视角深度特征与多标签学习的rna结合蛋白识别
CN111640468A (zh) * 2020-05-18 2020-09-08 天士力国际基因网络药物创新中心有限公司 一种基于复杂网络筛选疾病相关蛋白的方法
CN115112778A (zh) * 2021-03-19 2022-09-27 复旦大学 一种疾病蛋白质生物标志物鉴定方法
CN115112778B (zh) * 2021-03-19 2023-08-04 复旦大学 一种疾病蛋白质生物标志物鉴定方法

Similar Documents

Publication Publication Date Title
CN106529203A (zh) 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法
Ij Statistics versus machine learning
CN102413029B (zh) 基于分解的局部搜索多目标复杂动态网络社区划分方法
Su et al. Interaction trees with censored survival data
RU2019110756A (ru) Классификация генов на основе фенотипа/заболевания с использованием библиотеки генов и структур данных на основе сети
CN111785328B (zh) 基于门控循环单元神经网络的冠状病毒序列识别方法
CN102411687B (zh) 未知恶意代码的深度学习检测方法
CN106599615A (zh) 一种预测miRNA靶基因的序列特征分析方法
CN106485096B (zh) 基于双向随机游走和多标签学习的miRNA-环境因子关系预测方法
Cao et al. Practical aspects of phylogenetic network analysis using PhyloNet
CN105117618A (zh) 一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法
CN113066527B (zh) 一种siRNA敲减mRNA的靶点预测方法和系统
CN112446634B (zh) 一种社交网络中影响力最大化节点的探测方法及系统
Milano et al. HetNetAligner: a novel algorithm for local alignment of heterogeneous biological networks
CN106202999A (zh) 基于不同尺度tuple词频的微生物高通量测序数据分析协议
CN110808083B (zh) 基于scRNA-seq及动态时间规整的基因调控网络构建方法
CN108197431B (zh) 染色质相互作用差异的分析方法和系统
CN107918725B (zh) 一种基于机器学习选择最优特征的dna甲基化预测方法
Yones et al. High precision in microRNA prediction: a novel genome-wide approach with convolutional deep residual networks
CN102819611A (zh) 一种复杂网络局部社区挖掘方法
CN107658029A (zh) 一种全新的分布式和私有化miRNA‑疾病联系预测方法
CN110853763B (zh) 基于融合属性的miRNA-疾病关联识别方法及系统
CN102799940B (zh) 基于遗传算法和先验知识的网络社区划分方法
CN109409522B (zh) 一种基于集成学习的生物网络推理算法
CN106911512B (zh) 在可交换图中基于博弈的链接预测方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170322