CN105808976A - 一种基于推荐模型的miRNA靶基因预测方法 - Google Patents

一种基于推荐模型的miRNA靶基因预测方法 Download PDF

Info

Publication number
CN105808976A
CN105808976A CN201610120986.5A CN201610120986A CN105808976A CN 105808976 A CN105808976 A CN 105808976A CN 201610120986 A CN201610120986 A CN 201610120986A CN 105808976 A CN105808976 A CN 105808976A
Authority
CN
China
Prior art keywords
mirna
gene
mirnam
sequence similarity
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610120986.5A
Other languages
English (en)
Other versions
CN105808976B (zh
Inventor
蒋辉
王建新
李敏
颜晓东
王劭恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201610120986.5A priority Critical patent/CN105808976B/zh
Publication of CN105808976A publication Critical patent/CN105808976A/zh
Application granted granted Critical
Publication of CN105808976B publication Critical patent/CN105808976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于推荐模型的miRNA靶基因预测方法(miRTRS),利用已被实验验证过的miRNA靶基因数据构建miRNA与基因的二分图,并在此基础上,使用基于二分图的推荐算法来计算一个基因是miRNA靶基因的可能性,并在此推荐算法中引入了miRNA之间的序列相似性这一生物数据。最后通过推荐值降序排序,取其排名靠前的认为是miRNA靶基因关系。本发明简单易用,与已有的miRNA靶基因预测方法相比较,本发明提出的方法在预测的准确性、敏感度和特异性等方面都有明显提高,能为生物学家进行miRNA靶基因发现的实验和进一步研究提供有价值的参考信息。

Description

一种基于推荐模型的miRNA靶基因预测方法
技术领域
本发明属于系统生物学领域,涉及一种基于推荐模型的miRNA靶基因预测方法。
背景技术
microRNA(miRNA)是一类能够调节基因表达的短单链内源非编码RNA(约22nt),通过与互补的mRNA选择性地结合抑制蛋白的产生,广泛存在于动物、植物、病毒等多种有机体中。一般认为,miRNA是通过与mRNA的3’端非编码区域特定位点绑定,导致mRNA的降解,或者抑制靶基因的表达,产生基因沉默(genesilence),从而有效的抑制相关蛋白质的合成。miRNA对细胞发育、应激反应、病毒感染、癌症、心脏病等很多生命过程都起着重要的作用。尽管目前人们对miRNA的研究还不是很深入,对其功能也不是十分清楚,但已有研究表明miRNA在许多生物过程中起重要作用,因此能快速并精确的预测miRNA靶基因,对研究miRNA参与的生物过程以及疾病的产生、发展有着重大的意义。
目前,在生物学领域生物学家通过生物学实验的方法来研究这些问题,生物实验的方法包括低通量的实验方法如:qPCR,luciferaseassay和westernblot,以及高通量的实验方法如:mircoarrays,pSILAC和CLIP等等。这些方法通过表达量变化的阈值来确定miRNA与其靶基因的绑定关系,而该阈值在不同的miRNA与基因对之间、细胞类型之间等有可能不同,导致假阳性偏高。同时这些实验也是针对特定的miRNA,能得到的也是部分miRNA靶基因的信息,想要知道全部的miRNA靶基因则要做大量的生物学实验,既浪费时间,又效率低下,因此需要有效的计算方法来降低实验成本,提高实验效率。这些计算方法可以分为四种分别为:基于文献挖掘的miRNA靶基因预测方法,基于序列数据的miRNA靶基因预测的miRNA靶基因预测方法,基于表达谱数据的miRNA靶基因预测方法以及多种生物数据融合的miRNA靶基因预测方法。
基于文献挖掘的方法从已发表的文献中通过人工阅读或者文本挖掘算法来发现miRNA靶基因,这些方法如miRTarBase、miRWalk等。这些方法都发布了数据库,数据库中保存着从发表文献中挖掘出来的miRNA靶基因。这种方法过于耗时,精度跟文献挖掘算法有比较大的关系。
基于序列的miRNA靶基因预测方法是基于miRNA与靶基因相结合的规则来进行靶基因预测,这些规则包括:miRNA与靶基因的序列互补性、miRNA与靶基因二聚体的热力学稳定性、物种间的保守性以及位点的可接近性。这类方法如:miRanda、TargetScan/TargetScanS、PITA、DIANA_microT3.0等。由于在一些物种中3’UTR的边界没有清晰的定义,miRNA和靶基因之间的关系非常复杂,miRNA的长度太短不能很好的利用统计方法来进行显著性分析等原因使得这些方法的假阳性偏高。为了解决以上方法的不足,有研究者提出了将机器学习方法引入到基于序列的miRNA靶基因预测中,如miTarget等。这类方法在训练分类器时,正样本的选取比较方便,可以选取已被生物学实验验证过的miRNA靶基因,由于没有直接的数据库来记录与miRNA不存在标靶关系的数据库,这使得在选择负样本的时候比较困难。同时,机器学习方法本身存在的一些问题,如过拟合等,在这些方法中也同样存在。
基于基因表达谱的miRNA靶基因预测方法,利用miRNA表达数据与其对应的gene表达数据,如某种疾病的基因表达谱数据样本,并通过计算miRNA表达数据与其对应的gene表达数据的相关性系数如:pearson相关系数、spearman相关系数以及互信息等进行预测,也有使用多元线性回归、偏最小二乘、正则化最小二乘和贝叶斯推理方法来进行分析的。也有通过相似疾病的miRNA表达数据和gene表达数据来改进miRNA-target预测精度的。
基于多种生物数据融合的miRNA靶基因预测方法,融合了序列数据、miRNA及其靶基因表达谱的数据,以及一些miRNA靶基因预测工具预测出来的miRNA靶基因信息进行miRNA靶基因预测。同样对于表达谱的分析也采用了pearson相关系数、spearman相关系数以及互信息等,也有使用多元线性回归、偏最小二乘、正则化最小二乘和贝叶斯推理方法来进行分析的。如MAGIA、MAGIA2使用Pearson相关系数、spearman相关系数和互信息来研究miRNA与靶基因之间的关系。GenMiR、GenMiR++、GenMiR3其基本思想是在其它基于序列的算法预测出的结果的基础上,建立贝叶斯生成模型以反映miRNA对其靶标的调控作用,根据mRNA和miRNA表达水平数据进一步推断可能的靶基因。
上述各类方法从不同的角度解决了miRNA靶基因预测中存在的一些问题。然而,由于miRNA与其靶基因关系非常复杂等因素,现有的这些miRNA靶基因预测方法还存在很多挑战。
因此,有必要设计一种基于推荐模型的miRNA靶基因预测方法。
发明内容
本发明所要解决的技术问题是提供一种基于推荐模型的miRNA靶基因预测方法,该基于推荐模型的miRNA靶基因预测方法易于实施,预测准确率高。
发明的技术解决方案如下:
一种基于推荐模型的miRNA靶基因预测方法,包括以下步骤:
步骤1:计算各个miRNA之间的序列相似性,生成miRNA序列相似性矩阵,并对miRNA序列相似性矩阵标准化;
步骤2:构建用于表示已被生物学实验验证过的miRNA与基因的关系的二分图G1
以M={m1,m2,…,ml,…,mp}表示p个miRNA的集合,其中ml为第l个miRNA,l=1,2,…,p;
以T={t1,t2,…,tj,…,tn}表示n个基因的集合,其中tj为第j个基因,j=1,2,…,n;
用二分图G1=(V1,E1)表示miRNA与基因的关系,二分图G1中顶点集合V1=M∪T,边集E1={{ml,tj}|ml∈M且tj∈T,miRNAml与基因tj有已被生物学实验验证过的靶向关系},即如果已经通过生物学实验验证基因tj是miRNAml的靶基因,则在二分图G1中顶点tj与ml之间有一条边相连;
设A={ajl}n*p为二分图的邻接矩阵,其中的元素ajl为:
步骤3:基于miRNA与基因的关系以及各个miRNA之间的序列相似性,计算集合T中任意两个基因ti和tj间的相似性sij
步骤4:构建带权的无向图G2=(T,E2,W),图G2中顶点集合T是基因的集合;边集E2={{ti,tj}|ti,tj∈T且基因ti与基因tj有共同邻居},即对于集合T中的任意两个基因ti与tj,如果它们有共同邻居,也就是ti与tj被共同的miRNA调控,则在ti与tj之间有一条无向边相连,该边的权重记为wij;图G2中权重集合W={wij}n*n,其中元素wij的计算公式如下:
w i j = Σ l = 1 p a i l a j l d ( m l ) ( d ( t i ) 1 - λ d ( t j ) λ ) / s i j
其中,sij表示基因ti和tj间的相似性,1≤i,j≤n;d(ml),d(ti),d(tj)分别表示miRNAml、基因ti、基因tj的在二分图G1中的度,λ∈(0,1)为调整因子(通过实验得出λ的经验值为0.8),ail,ajl∈A,A为二分图的邻接矩阵;
步骤5:计算将基因ti推荐给miRNAml的推荐值,排序输出结果;
设Ri(ti,ml)为将基因ti推荐给miRNAml的推荐值,则
R i ( t i , m l ) = Σ j = 1 n w i j · a j l
其中wij∈W,ajl∈A;
对于每个基因ti进行如下三步处理:
1)计算其对miRNA集合M中的每一个miRNAml的推荐值Ri(ti,ml);
2)对Ri((ti,ml)|ail=0)进行降序排序,即对去除已知的ti与miRNA有靶向关系的推荐值后剩余的推荐值进行降序排列;
3)输出排名前N个Ri(ti,ml)所对应的miRNAml,认为其与基因ti有靶向关系;即基因ti是miRNAml的靶基因,40≤N≤60。
采用Needleman-Wunsch算法来进行各个miRNA之间的序列相似性计算,生成miRNA序列相似性矩阵,并用如下公式对miRNA序列相似性矩阵中的元素进行标准化:
S N o r m ( l , k ) = S ( l , k ) / S ( l , l ) · S ( k , k ) ;
Needleman-Wunsch算法输出的两个miRNA之间的序列相似性得分的取值范围为[0,100];用上述公式标准化后两个miRNA之间的序列相似性得分的取值范围为[0,1];
上述公式中,SNorm(l,k)表示标准化后的第l个miRNA与第k个miRNA的序列相似性得分,S(l,k)为第l个miRNA与第k个miRNA的序列相似性得分,S(l,l),S(k,k)分别表示第l个miRNA与其自身的序列相似性得分和第k个miRNA与其自身的序列相似性得分;1≤l,k≤p;
步骤3中采取如下方法计算集合T中任意两个基因ti和tj间的相似性:
将基因集合T中的任意两个基因ti和tj间的相似性定义为一个比值sum/count;其中:
1)sum的计算方法为:若基因ti与miRNAml存在靶向关系且基因tj与miRNAmk也存在靶向关系,那么就将miRNAml与miRNAmk的序列相似性得分标准化后的值即SNorm(l,k)累加,得到sum;1≤l,k≤p,且l,k取遍所有[1,p]的整数;
2)count的值为:基因ti与miRNAml存在靶向关系且基因tj与miRNAmk也存在靶向关系的计数;1≤l,k≤p,l,k取遍所有[1,p]的整数。
所述步骤5中,输出排名前50个Ri(ti,ml)所对应的miRNAml,认为其与基因ti有靶向关系;即基因ti是miRNAml的靶基因。
设定miRNA与其自身的序列相似性得分为100,即S(l,l)=100,S(k,k)=100。
本发明的技术路线说明:随着生物学实验验证过的miRNA靶基因数量的积累,使得利用网络分析方法来进行miRNA靶基因预测成为可能。根据对一些物种的已知miRNA靶基因统计数据,如人类,Caenorhabditiselegans和Musmusculus等,存在两个miRNA调控同一个基因的现象或者两个靶基因共同被一个miRNA调控的现象,既在表示已知miRNA与靶基因关系的二分图中,两个miRNA之间,或者两个靶基因之间会有共同的邻居。从生物学的角度来看,miRNA仅占人类基因的1%,但是这1%的miRNA调控者超过60%的基因,平均起来一个miRNA要绑定上百个靶位点,其中的一小部分miRNA有着几千个靶位点。足见miRNA与其靶基因关系的复杂性。这种现象在推荐模型中,有着相同邻居的商品购买者或者论文写作者被认为有着相同的爱好,在miRNA靶基因预测中,具有共同邻居的miRNA其功能相似,具有共同邻居的靶基因的富集性分析结果常常用作miRNA功能注释。因此社会网络推荐模型应能应用到生物网络中边是否存在的推断中。近年来,也有推荐模型应用在药物标靶关系的推断中,但是由于已知miRNA靶基因数量较少的原因,推荐模型在miRNA靶基因预测方面未见报道,随着越来越多的miRNA靶基因被生物学实验验证,这种方法在miRNA靶基因预测上成为可能。因此可以利用推荐模型来进行miRNA靶基因的预测。
有益效果:
基于对已知的miRNA靶基因关系数据库的分析,发现其与推荐模型的相似之处,将该模型引入到miRNA靶基因预测中,提出了基于推荐模型的miRNA靶基因预测方法。本发明利用已知的miRNA靶基因关系构建二分图,并利用共邻关系和miRNA的序列相似性计算出推荐值,再分别对每个靶基因所推荐的miRNA推荐值排序,在该模型中排序靠前的miRNA被认为该基因为此miRNA的靶基因的概率较大。本发明简单易用,与已有的miRNA靶基因预测方法相比较,本发明提出的方法在预测的准确性、敏感度和特异性等方面都有提高,能为生物学家进行miRNA靶基因的实验和进一步研究提供有价值的参考信息。
附图说明
图1:各版本miRTarBase数据库中miRNA靶基因关系的数目
图2:各版本miRTarBase数据库中miRNA、靶基因的数目
图3:以miRNA对的序列相似性分组的miRNA对共邻统计;
图4:miRNA对序列相似性得分由高到低累计与其共邻关系分析;
图5:本发明miRTRS的原理图;
图6:本发明miRTRS的流程图;
图7:基于推荐模型的miRNA靶基因预测方法与其对比方法的折刀曲线图;
图8:基于推荐模型的miRNA靶基因预测方法与其对比方法的ROC曲线图;
具体实施方式
以下将结合附图和具体实施例对本发明做进一步详细说明:
实施例1:
参见图1-8,基于推荐模型的miRNA靶基因预测方法按以下步骤实施:
一、miRNA靶基因数据分布特性分析(基于miRTarBase数据库)
目前记录已被生物学实验验证的miRNA靶基因的数据库有miRTarBase、miRwalk、TarBase等,其中最常用到的是miRTarBase,因此对其进行了统计分析。miRTarBase数据库从2010年12月发布第一个版本1.6以来,到2015年10月发布的6.1版,总共发布了11个版本。miRTarBaseV6.1的数据库中包含人类等18个物种的463,483条miRNA靶基因关系数据,其中人类的miRNA靶基因关系数据达到410,620条。图1所示是这11个版本的miRNA靶基因数量的柱状图,从图中可以看出,特别是近两年来被生物实验验证过的miRNA靶基因越来越多。图2所示为该数据库中所含人类的miRNA数量与靶基因数量变化的情况。从图中可以看出miRNA数量与靶基因数量呈上升的趋势,但因miRNA本身的数据库miRBase的越来越精确,其趋势有小幅波动。
二、统计分析miRNA及其靶基因的共邻关系。(基于miRTarBase数据库)
为了考察任意两个miRNA之间调控共同基因或者任意两个基因被同一个miRNA调控的现象,分别统计了人类的miRNA靶基因数据库中任意两个miRNA的共邻和任意两个靶基因共邻的数据。并针对人类的miRNA靶基因数据库中任意两个miRNA之间序列相似性与其共邻的关系进行统计分析。统计方案如下,设在一个miRTarBase数据库中有m个miRNA,n个基因,自然就会形成m2-m(去除本身成对)个miRNA对和n2-n个基因对;然后对分别对有共同邻居的miRNA对和基因对进行计数,得到计数mc和tc;再求出mc占m2-m的比例和tc占n2-n的比例。统计结果表1所示。
表1miRTarBase各个版本人类的miRNA和靶基因共邻数
表2.miRTarBaseV4.5数据库中不同物种miRNA和基因共邻数
从表1中,我们可以发现在随着实验验证过的miRNA靶基因数量的增多,其miRNA对之间共邻的比例总体呈上升的趋势,在最新版的miRTarBase数据库中,miRNA对之间共邻比例高达60.73%;对基因对之间共邻的比例来说也一样。另外,表2说明了同一个数据库中,不同物种的miRNA对,基因对都存在共邻的关系。这说明有共同邻居的miRNA共享靶基因概率更大。在miRNA序列相似性与其共邻的关系分析中,将序列相似性得分一样的miRNA对放在一起,然后计算有共邻的miRNA对数占该得分所有的miRNA对的比例,如图3所示,miRNA的序列相似性得分较高的miRNA对,有着更高的共邻概率。图4表示了从miRNA对序列相似性得分从高到低累计有共邻的miRNA对所占比例。以上的统计数据说明了大多数的miRNA对序列相似性得分高的其共邻的概率也高。因此可以使用推荐模型来进行miRNA靶基因预测,在推荐模型中加入miRNA序列相似性得分这一生物信息,可以进一步提高预测的准确性。
三、基于推荐模型的miRNA靶基因预测方法推荐得分计算
基于推荐模型的miRNA靶基因预测方法的原理如图5所示,其流程如图6所示。首先,构建已被生物实验验证过的miRNA与基因关系的二分图,并将其用邻接矩阵表示,矩阵的行表示基因,列表示miRNA。然后针对基因集合中的任意两个结点之间是否有公共邻居来构建带权无向图,即两个基因如果有被一个或多个miRNA共同调控,在该无向带权图中这两个基因就会有一条边,否则这两个基因间没有边。边的权重通过在二分图中进行两步的资源传递和miRNA序列相似性数据来计算。然后分别计算某个基因推荐给miRNA集合中所有miRNA的推荐值,再将这些值排序取前50位的,认为这些miRNA的靶基因是该基因。基于推荐模型的miRNA靶基因预测,计算推荐值的具体步骤如下:
步骤1:计算已知miRNA靶基因数据库中每对miRNA之间的序列相似性。Needleman-Wunsch算法是生物信息学中常用的全局序列比对算法,其采用的是动态规划算法来计算两条输入的基因序列的相似程度以达到判断两条序列之间的同源性的目的。在此发明中采用Needleman-Wunsch算法来进行miRNA之间的序列相似性计算,然后生成其相似性矩阵,并用公式(1)对其标准化。
S N o r m ( l , k ) = S ( l , k ) / S ( l , l ) · S ( k , k ) - - - ( 1 ) ;
Needleman-Wunsch算法输出的两个miRNA的序列相似性得分的取值范围为[0,100],miRNA与其自身的序列相似性得分为100。用上述公式标准化后其取值范围为[0,1]。
上述公式中,SNorm(l,k)表示标准化后的第l个miRNA与第k个miRNA的序列相似性得分,S(l,k)为第l个miRNA与第k个miRNA的序列相似性得分,S(l,l),S(k,k)分别表示第l个miRNA与其自身的序列相似性得分和第k个miRNA与其自身的序列相似性得分。
步骤2:构建已被生物实验验证过的miRNA与基因关系的二分图G1【二分图是无向图的一个特例,设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子集(A,B),并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集(iinA,jinB),则称图G为一个二分图。miRNA与基因的靶向关系能很好的用二分图来进行表示】;
以M={m1,m2,…,ml,…,mp}表示p个miRNA的集合,ml为第l个miRNA,l=1,2,…,p;
以T={t1,t2,…,tj,…,tn}表示n个基因的集合,其中tj为第j个基因,j=1,2,…,n;用二分图G1=(V1,E1)表示miRNA与基因的关系,如果已经通过生物学实验验证过基因tj是miRNAml的靶基因,则在图中有一条边。二分图G1中顶点集合V1=M∪T,边集E1={{ml,tj}|ml∈M且tj∈T,miRNAml与基因tj有已被生物学实验验证过的靶向关系},
设A={ajl}n*p为二分图的邻接矩阵,其中的元素ajl为:
步骤3:基于基因和miRNA的关系以及miRNA的序列相似性来计算集合T中任意两个基因ti和tj间的相似性sij
将基因集合T中的任意两个基因ti和tj间的相似性定义为一个比值sum/count;其中:
1)sum的计算方法为:若基因ti与miRNAml存在靶向关系且基因tj与miRNAmk也存在靶向关系,那么就将miRNAml与miRNAmk的序列相似性得分标准化后的值即SNorm(l,k)累加,得到sum;1≤l,k≤p,且l,k取遍所有[1,p]的整数;
2)count的值为:基因ti与miRNAml存在靶向关系且基因tj与miRNAmk也存在靶向关系的计数;1≤l,k≤p,l,k取遍所有[1,p]的整数。
步骤4:构建带权的无向图G2=(T,E2,W),图G2中顶点集合T是基因的集合;边集E2={{ti,tj}|ti,tj∈T且基因ti与基因tj有共同邻居},即对于集合T中的任意两个基因ti与tj,如果它们有共同邻居,也就是ti与tj被共同的miRNA调控,则在ti与tj之间有一条无向边相连,该边的权重记为wij;图G2中权重集合W={wij}n*n,其中元素wij的计算公式如下:
w i j = Σ l = 1 p a i l a j l d ( m l ) ( d ( t i ) 1 - λ d ( t j ) λ ) / s i j
其中,sij表示基因ti和tj间的相似性,1≤i,j≤n;d(ml),d(ti),d(tj)分别表示miRNAml、基因ti、基因tj的在二分图G1中的度,λ∈(0,1)为调整因子(通过实验得出λ的经验值为0.8),ail,ajl∈A,A为二分图的邻接矩阵;
步骤5:计算将基因ti推荐给miRNAml的推荐值,排序输出结果;
设Ri(ti,ml)为将基因ti推荐给miRNAml的推荐值,则
R i ( t i , m l ) = Σ j = 1 n w i j · a j l
其中wij∈W,ajl∈A;
对于每个基因ti进行如下三步处理:
1)计算其对miRNA集合M中的每一个miRNAml的推荐值Ri(ti,ml);
2)对Ri((ti,ml)|ail=0)进行降序排序,即对去除已知的ti与miRNA有靶向关系的推荐值后剩余的推荐值进行降序排列;
3)输出排名前50个Ri(ti,ml)所对应的miRNAml,认为其与基因ti有靶向关系;即基因ti是miRNAml的靶基因。
四、基于推荐模型的miRNA靶基因预测方法的有效性验证
为了评估基于推荐模型的miRNA靶基因预测方法的有效性,将该方法与TargetScanv6.2,miRanda,RNAhybrid,miRmap和MBStar方法进行了对比实验。验证实验用到的miRNA序列数据从miRBase(release21)数据库中下载;已被实验验证的miRNA靶基因数据来自miRTarBasev4.5,该数据库中有人类的587个miRNA与12194个基因之间的38113条miRNA-target关系。同时我们下载了TargetScanv6.2中所使用的人类的miRNA和3‘UTR的序列数据,再分别取TargetScan中miRNA与miRTarBase中miRNA的交集;TargetScan中gene与miRTarBase中gene的交集其具体的数量如表3。
表3验证实验所用数据情况。
先下载TargetScanv6.2,miRanda,RNAhybrid,miRmap和MBStar方法的程序,以以上的数据集作为输入,得出其运行的结果。并用10-foldcrossvalidation来验证基于推荐模型的miRNA靶基因预测方法的有效性。同样使用10-foldcrossvalidation来对模型中参数λ的确定,在实验的过程中λ取值范围从0.1到0.9,步长为0.1,然后绘制不同λ值的ROC曲线,然后选取使得AUC值最大所对应的λ值,最后确定λ=0.8。与传统的靶基因预测方法相比,基于推荐模型的miRNA靶基因预测方法针对每个gene推荐与其相关的miRNA,因此在实验对比的设计上,针对每个基因取其推荐值排名前50的miRNA,再将其混合后根据推荐值降序排列,取其前10000名与对比方法输出的前10000名进行比较。
a.与TargetScanv6.2、miRanda等五种方法的比较。
图7表明,相比于各种对比方法预测结果,基于推荐模型的miRNA靶基因预测方法提高了正确预测miRNA靶基因的数量。从折刀曲线中可以看出在,基于推荐模型的miRNA靶基因预测方法能找到更多的miRNA与靶基因的关系。在10-foldcrossvalidation实验中,基于推荐模型的miRNA靶基因预测方法能够找出72%的miRNA靶基因,RNAHybrid能够找到16%左右的miRNA靶基因,TargetScanv6.2、miranda分别能找出能找出15%左右的miRNA靶基因,由于数据集的缘故,miRmap与MBStar的结果不是太好。与这些方法相比,基于推荐模型的miRNA靶基因预测方法,比RNAHybrid提高56%,优势相当明显。
b.基于ROC曲线比较实验结果
用ROC曲线以及其下的面积(AUC)进一步验证基于推荐模型的miRNA靶基因预测方法和对比方法的性能。将miRNA与基因关系的得分按降序排列,并取排在前面的10000位作为研究对象,设排在前面的K个为miRNA靶基因(阳性数据集),剩下的miRNA与基因关系的得分为非miRNA靶基因(阴性数据集)。阈值K的范围从1到每种方法前10000名能找到的真阳性数目。随着K取值的不同,分别计算各个方法相应的Sensitivity和1-Specificity值,从而得到ROC曲线,如图8所示。从图8中我们可以看出各基于推荐模型miRNA靶基因预测方法的ROC曲线要高于其他对比的方法。
综上所述,本发明所提出的基于推荐模型的miRNA靶基因预测方法中,已知的miRNA靶基因信息以及miRNA之间的共邻信息对预测未知miRNA靶基因的准确性以及与敏感度和特异性等方面具有重要作用。
综上所述,本发明的基于推荐模型的miRNA靶基因预测方法(miRTRS),利用已被实验验证过的miRNA靶基因数据构建miRNA与其靶基因的二分图,并在此基础上,使用基于二分图的推荐算法来计算一个基因是miRNA靶基因的可能性,并在此推荐算法中引入了miRNA之间的序列相似性这一生物数据。最后通过推荐值降序排序,取其排名靠前的认为是miRNA靶基因关系。本发明简单易用,与已有的miRNA靶基因预测方法相比较,本发明提出的方法在预测的准确性、敏感度和特异性等方面都有明显提高,能为生物学家进行miRNA靶基因发现的实验和进一步研究提供有价值的参考信息。

Claims (5)

1.一种基于推荐模型的miRNA靶基因预测方法,其特征在于,包括以下步骤:
步骤1:计算各个miRNA之间的序列相似性,生成miRNA序列相似性矩阵,并对miRNA序列相似性矩阵标准化;
步骤2:构建用于表示已被生物学实验验证过的miRNA与基因的关系的二分图G1
以M={m1,m2,…,ml,…,mp}表示p个miRNA的集合,其中ml为第l个miRNA,l=1,2,…,p;
以T={t1,t2,…,tj,…,tn}表示n个基因的集合,其中tj为第j个基因,j=1,2,…,n;
用二分图G1=(V1,E1)表示miRNA与基因的关系,二分图G1中顶点集合V1=M∪T,边集E1={{ml,tj}|ml∈M且tj∈T,miRNAml与基因tj有已被生物学实验验证过的靶向关系},即如果已经通过生物学实验验证基因tj是miRNAml的靶基因,则在二分图G1中顶点tj与ml之间有一条边相连;
设A={ajl}n*p为二分图的邻接矩阵,其中的元素ajl为:
步骤3:基于miRNA与基因的关系以及各个miRNA之间的序列相似性,计算集合T中任意两个基因ti和tj间的相似性sij
步骤4:构建带权的无向图G2=(T,E2,W),图G2中顶点集合T是基因的集合;边集E2={{ti,tj}|ti,tj∈T且基因ti与基因tj有共同邻居},即对于集合T中的任意两个基因ti与tj,如果它们有共同邻居,也就是ti与tj被共同的miRNA调控,则在ti与tj之间有一条无向边相连,该边的权重记为wij;图G2中权重集合W={wij}n*n,其中元素wij的计算公式如下:
其中,sij表示基因ti和tj间的相似性,1≤i,j≤n;d(ml),d(ti),d(tj)分别表示miRNAml、基因ti、基因tj的在二分图G1中的度,λ∈(0,1)为调整因子(通过实验得出λ的经验值为0.8),ail,ajl∈A,A为二分图的邻接矩阵;
步骤5:计算将基因ti推荐给miRNAml的推荐值,排序输出结果;
设Ri(ti,ml)为将基因ti推荐给miRNAml的推荐值,则
其中wij∈W,ajl∈A;
对于每个基因ti进行如下三步处理:
1)计算其对miRNA集合M中的每一个miRNAml的推荐值Ri(ti,ml);
2)对Ri((ti,ml)|ail=0)进行降序排序,即对去除已知的ti与miRNA有靶向关系的推荐值后剩余的推荐值进行降序排列;
3)输出排名前N个Ri(ti,ml)所对应的miRNAml,认为其与基因ti有靶向关系;即基因ti是miRNAml的靶基因,40≤N≤60。
2.根据权利要求1所述的基于推荐模型的miRNA靶基因预测方法,其特征在于,采用Needleman-Wunsch算法来进行各个miRNA之间的序列相似性计算,生成miRNA序列相似性矩阵,并用如下公式对miRNA序列相似性矩阵中的元素进行标准化:
Needleman-Wunsch算法输出的两个miRNA之间的序列相似性得分的取值范围为[0,100];用上述公式标准化后两个miRNA之间的序列相似性得分的取值范围为[0,1];
上述公式中,SNorm(l,k)表示标准化后的第l个miRNA与第k个miRNA的序列相似性得分,S(l,k)为第l个miRNA与第k个miRNA的序列相似性得分,S(l,l),S(k,k)分别表示第l个miRNA与其自身的序列相似性得分和第k个miRNA与其自身的序列相似性得分;1≤l,k≤p。
3.根据权利要求1所述的基于推荐模型的miRNA靶基因预测方法,其特征在于,
步骤3中采取如下方法计算集合T中任意两个基因ti和tj间的相似性:
将基因集合T中的任意两个基因ti和tj间的相似性定义为一个比值sum/count;其中:
1)sum的计算方法为:若基因ti与miRNAml存在靶向关系且基因tj与miRNAmk也存在靶向关系,那么就将miRNAml与miRNAmk的序列相似性得分标准化后的值即SNorm(l,k)累加,得到sum;1≤l,k≤p,且l,k取遍所有[1,p]的整数;
2)count的值为:基因ti与miRNAml存在靶向关系且基因tj与miRNAmk也存在靶向关系的计数;1≤l,k≤p,l,k取遍所有[1,p]的整数。
4.根据权利要求1所述的基于推荐模型的miRNA靶基因预测方法,其特征在于,所述步骤5中,输出排名前50个Ri(ti,ml)所对应的miRNAml,认为其与基因ti有靶向关系;即基因ti是miRNAml的靶基因。
5.根据权利要求2~4中任一项所述的基于推荐模型的miRNA靶基因预测方法,其特征在于,设定miRNA与其自身的序列相似性得分为100,即S(l,l)=100,S(k,k)=100。
CN201610120986.5A 2016-03-03 2016-03-03 一种基于推荐模型的miRNA靶基因预测方法 Active CN105808976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610120986.5A CN105808976B (zh) 2016-03-03 2016-03-03 一种基于推荐模型的miRNA靶基因预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610120986.5A CN105808976B (zh) 2016-03-03 2016-03-03 一种基于推荐模型的miRNA靶基因预测方法

Publications (2)

Publication Number Publication Date
CN105808976A true CN105808976A (zh) 2016-07-27
CN105808976B CN105808976B (zh) 2018-02-27

Family

ID=56466007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610120986.5A Active CN105808976B (zh) 2016-03-03 2016-03-03 一种基于推荐模型的miRNA靶基因预测方法

Country Status (1)

Country Link
CN (1) CN105808976B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107085673A (zh) * 2017-03-02 2017-08-22 北京林业大学 一种植物响应逆境胁迫的lncRNAs序列模块功能注释方法
CN107358062A (zh) * 2017-06-02 2017-11-17 西安电子科技大学 一种双层基因调控网络的构建方法
TWI607332B (zh) * 2016-12-21 2017-12-01 國立臺灣師範大學 Correlation between persistent organic pollutants and microRNAs station
CN107862179A (zh) * 2017-11-06 2018-03-30 中南大学 一种基于相似性和逻辑矩阵分解的miRNA‑疾病关联关系预测方法
CN108182346A (zh) * 2016-12-08 2018-06-19 杭州康万达医药科技有限公司 预测siRNA针对某类细胞的毒性的机器学习模型的建立方法及其应用
CN108920903A (zh) * 2018-07-09 2018-11-30 湘潭大学 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统
CN114023464A (zh) * 2021-11-08 2022-02-08 东北林业大学 基于有监督的协同图对比学习的药物-靶标相互作用预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WEI LAN ET.AL.: "Predicting microRNA-disease associations by integrating multiple biological information", 《2015 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM) 》 *
YANG LIU ET.AL.: "Correlating Bladder Cancer Risk Genes with Their Targeting MicroRNAs Using MMiRNA-Tar", 《GENOMICS PROTEOMICS BIOINFORMATICS》 *
刘文远 等: "基于二阶马尔科夫模型预测可趋近性miRNA靶基因", 《燕山大学学报》 *
陈功 等: "基于机器学习的miRNA靶基因预测算法研究概况", 《软件导刊》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182346A (zh) * 2016-12-08 2018-06-19 杭州康万达医药科技有限公司 预测siRNA针对某类细胞的毒性的机器学习模型的建立方法及其应用
CN108182346B (zh) * 2016-12-08 2021-07-30 杭州康万达医药科技有限公司 预测siRNA针对某类细胞的毒性的机器学习模型的建立方法及其应用
TWI607332B (zh) * 2016-12-21 2017-12-01 國立臺灣師範大學 Correlation between persistent organic pollutants and microRNAs station
CN107085673A (zh) * 2017-03-02 2017-08-22 北京林业大学 一种植物响应逆境胁迫的lncRNAs序列模块功能注释方法
CN107085673B (zh) * 2017-03-02 2020-05-01 北京林业大学 一种植物响应逆境胁迫的lncRNAs序列模块功能注释方法
CN107358062A (zh) * 2017-06-02 2017-11-17 西安电子科技大学 一种双层基因调控网络的构建方法
CN107862179A (zh) * 2017-11-06 2018-03-30 中南大学 一种基于相似性和逻辑矩阵分解的miRNA‑疾病关联关系预测方法
CN108920903A (zh) * 2018-07-09 2018-11-30 湘潭大学 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统
CN108920903B (zh) * 2018-07-09 2022-04-01 湘潭大学 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统
CN114023464A (zh) * 2021-11-08 2022-02-08 东北林业大学 基于有监督的协同图对比学习的药物-靶标相互作用预测方法
CN114023464B (zh) * 2021-11-08 2022-08-09 东北林业大学 基于有监督的协同图对比学习的药物-靶标相互作用预测方法

Also Published As

Publication number Publication date
CN105808976B (zh) 2018-02-27

Similar Documents

Publication Publication Date Title
Zhao et al. Adaptive boosting-based computational model for predicting potential miRNA-disease associations
CN105808976A (zh) 一种基于推荐模型的miRNA靶基因预测方法
CN108595913A (zh) 鉴别mRNA和lncRNA的有监督学习方法
CN107679367B (zh) 一种基于网络节点关联度的共调控网络功能模块识别方法及系统
Yang et al. Stability of feature selection algorithms and ensemble feature selection methods in bioinformatics
Dunkler et al. Statistical analysis principles for Omics data
Wang et al. Predicting siRNA potency with random forests and support vector machines
Tiberi et al. BANDITS: Bayesian differential splicing accounting for sample-to-sample variability and mapping uncertainty
CN106874704A (zh) 一种基于线性模型的基因共调控网络中关键调控子识别方法
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
Zararsiz et al. voomDDA: discovery of diagnostic biomarkers and classification of RNA-seq data
CN113488104A (zh) 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统
Çorapçıoğlu et al. miSEA: microRNA set enrichment analysis
Bugnon et al. Deep Learning for the discovery of new pre-miRNAs: Helping the fight against COVID-19
Wang et al. Adaboost-SVM-based probability algorithm for the prediction of all mature miRNA sites based on structured-sequence features
Pio et al. Hierarchical and overlapping co-clustering of mrna: mirna interactions
Lorena et al. Evaluation of noise reduction techniques in the splice junction recognition problem
CN111944902A (zh) 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法
Shi et al. Integration of Cancer Genomics Data for Tree‐based Dimensionality Reduction and Cancer Outcome Prediction
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
CN109256215B (zh) 一种基于自回避随机游走的疾病关联miRNA预测方法及系统
CN109887543B (zh) 一种低甲基化水平的差异甲基化位点识别方法
Baruah et al. Identification of ESCC Potential Biomarkers using Biclustering Algorithms
Khalfaoui et al. DropLasso: A robust variant of Lasso for single cell RNA-seq data
Liu et al. Statistical models for biological sequence motif discovery

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant