CN110782945B - 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法 - Google Patents
一种利用间接与直接特征信息识别lncRNA与疾病关联的方法 Download PDFInfo
- Publication number
- CN110782945B CN110782945B CN201911004695.XA CN201911004695A CN110782945B CN 110782945 B CN110782945 B CN 110782945B CN 201911004695 A CN201911004695 A CN 201911004695A CN 110782945 B CN110782945 B CN 110782945B
- Authority
- CN
- China
- Prior art keywords
- lncrna
- disease
- mirna
- association
- diseases
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明根据已知的miRNA与疾病关联关系和miRNA与LncRNA关联关系,基于miRNA的功能相似性和miRNA的高斯核相似性分别寻找出疾病的特征向量和lncRNA的特征向量,并将其结合起来形成每一对lncRNA和疾病的特征向量;通过重构已知的lncRNA与疾病的关联关系,得出每一对lncRNA和疾病的特征关联概率分数;最后,通过多元线性回归和人工神经网络来获取特征向量与特征关联概率分数之间的联系。该预测模型突破了以往计算方法的局限性,可以运用于各种各样的场景,并且实验也证实了该方法提高了识别lncRNA和疾病潜在关联的预测效果。
Description
技术领域
本发明涉及生物信息学中的关联预测领域,尤其涉及基于间接与直接特征信息的LncRNA与疾病的关联关系预测方法及系统。
背景技术
近几年研究发现,lncRNA在许多人类的重要生理变化(包括染色质修饰、表观遗传调控,细胞周期控制、细胞分化等)中扮演着重要的角色。特别地,越来越多的生物实验也证实了lncRNA的突变和失调与疾病的产生有着关联。因此,探索出lncRNA与疾病之间的关联关系不仅可以在分子水平上了解有着相当重要的理论价值和现实意义。
生物学中,lncRNA与疾病之间的关联关系的鉴定主要是通过生物实验进行,但是这样的实验是相当耗费时间和昂贵的,因此开发一种大规模的计算模型来预测与疾病相关联lncRNA是非常重要的。而到目前为止,研究人员们已经开发出了很多预测模型,但大多数都依赖于已知的疾病和lncRNA关联关系,且存在一定的局限性。
发明内容
本发明的发明目的是提供一种可以快速,低成本预测与疾病相关联lncRNA的方法。
本发明提供一种利用间接与直接特征信息识别lncRNA与疾病关联的方法,包括以下步骤:
S1:根据miRNA与疾病的关联关系、miRNA与lncRNA的关联关系以及lncRNA与疾病的关联关系分别构建三者之间的关联网络,并构建miRNA的高斯核函数相似性网络和功能相似性网络;
S2:根据miRNA与疾病的关联网络和miRNA与lncRNA的关联网络,找出lncRNA与疾病的特征向量;
S3:根据lncRNA和疾病的关联网络,计算lncRNA与疾病的关联概率分数;
S4:根据训练集中的lncRNA和疾病的特征向量和其所对应的关联概率分数,找到二者所对应的关系,输入潜在lncRNA和疾病对的特征向量,得到潜在lncRNA和疾病对的关联概率分数。
进一步的,所述步骤S1包括
S101:从数据库中获取miRNA与疾病的关联关系、已知的miRNA与lncRNA的关联关系、lncRNA与疾病的关联关系;
S102:提取出S101步骤的到的miRNA与疾病的关联关系和miRNA与lncRNA的关联关系中所共有的miRNA集,并定义为Nm,根据所共有的miRNA集筛选出公共miRNA和疾病与关联关系和公共miRNA与lncRNA的关联关系,并分别获得邻接矩阵MD和ML,如果存在miRNA mi与疾病dj有关联则MD(I,j)=1,如果不存在miRNA mi与疾病dj关联则MD(I,j)=0,如果存在miRNA mi与lncRNA lj有关联则ML(I,j)=1,如果不存在miRNA mi与lncRNA lj有关联则ML(I,j)=0。
S103:将S102步骤筛选出来的miRNA与疾病的关联关系中的所有疾病集定义为Dmd,将筛选出来的miRNA与lncRNA的关联关系中的所有lncRNA集定义为Lml,从S101步骤中得到的原始lncRNA和疾病的关联关系中筛选出lncRNA属于Lml并且疾病也属于Dmd的关联关系并得出其相应的邻接矩阵LD,其中如果存在lncRNA li与疾病dj有关联则LD(I,j)=1,如果不存在lncRNA li与疾病dj有关联则LD(I,j)=0,将LD矩阵中所有lncRNA集合和疾病集合分别定义为Lld和Dld。
S104:生成高斯核函数相似性网络,采用如下公式表示:
KM(mi,mj)=exp(-γm||IP(mi)-IP(mj)||2)
其中,IP(mi)代表着邻接矩阵ML的第i行
S105:对miRNA节点之间的功能相似性进行计算。
进一步的,所述步骤S105包括
S1051:从公共数据库中下载Dmd中疾病对应的医学主题描述符,令D(dA)表示疾病dA节点与其祖先节点的集合,E(dA)包含D(dA)中所有的从父节点到子节点的边集,建立有向无环图DAG(dA),疾病t对疾病d的语义贡献值采用如下公式计算:
其中:Dd(t′)表示递归定义,含义与Dd(t)相同
S1052:通过结合所有D(d)集合里的疾病对d节点的语义贡献值,得出d节点的语义值,采用如下公式表示:
S1053:对于一对疾病di和dj,采用如下公式计算它们的语义相似性分数:
从矩阵DSmd中提取出属于集合Dld的部分,记为矩阵DSld。
S1054:令所有已知与miRNA mi相关的疾病集合定义为GDM(mi)=di1,di2,…dip,所有与miRNA mj相关的疾病集合定义为GDM(mj)=dj1,dj2,…djq,并通过如下公式计算mi与mj之间的功能相似性:
S1055:令所有已知与lncRNA li相关的疾病集合定义为GDL(li)=di1,di2,…dip,所有与lncRNA lj相关的疾病集合定义为GDL(lj)=dj1,dj2,…djq,并通过如下公式计算li与lj之间的功能相似性:
进一步的,所述步骤S2包括,
S201:利用步骤S1得到的miRNA与lncRNA关联关系的邻接矩阵和miRNA的高斯核相似性网络,结合随机游走算法,计算lncRNA的特征向量;
S202:同样的,利用步骤S1得到的miRNA与疾病的关联关系的邻接矩阵和miRNA的功能相似性网络,再结合上随机游走算法也能得出疾病的特征向量,其计算如下述公式所示:
PDs+1=(1-r2)*NFMT*PDS+r2*PD0
S203:将上述S201和S202中得出的特征向量进行结合,得出每一对lncRNA和疾病的特征向量,其公式如下所示:
其中对于两个向量A=(a1,a2,...,an)T和B=(b1,b2,...,bn)T,
进一步的,所述步骤S201包括,
S2011:将miRNA的高斯核相似性网络的行进行归一化,其公式如下所示:
其中Nm代表miRNA的个数;
S2012:将miRNA与lncRNA关联关系的邻接矩阵的列进行归一化,其公式如下所示:
S2013:结合上随机游走算法,得出lncRNA的特征向量,其迭代公式如下所示:
PLs+1=(1-r1)*NKMT*PLS+r1*PL0
其中r1是重启游走概率因子。
进一步的,所述步骤S3包括
S301:令lncRNA li的功能相似性网络中的非0部分作为lncRNA li的集团,令疾病dj的语义相似性网络中非零部分作为疾病dj的集团,对步骤S1中得到的lncRNA与疾病的关联关系邻接矩阵LD进行重构,得出每一对lncRNA与疾病的关联概率分数;
所述步骤S301具体包括,
S3011:以疾病集团中的其他疾病作为媒介,计算出二步到达lncRNA节点的疾病的概率,并整合一步到达lncRNA节点的疾病,得出以疾病为媒介的重构关联概率网络。其计算公式如下所示:
其中k1是步数衰减因子,用来削减二步到达lncRNA节点的疾病的权重;
S3012:以lncRNA集团中的其他lncRNA作为媒介,计算出二步到达疾病节点的lncRNA的概率,并整合一步到达疾病节点的lncRNA,得出以lncRNA为媒介的重构关联概率网络。其计算公式如下所示:
其中k2也是步数衰减因子,用来削减二步到达疾病节点的lncRNA的权重;
S3013:将S3011步骤构建的网络和S3012步骤构建的网络结合起来,形成一个新的分数网络,其公式如下所示:
OUT=rate*FOUT+(1-rate)*DOUT
其中rate是权重控制因子;
S3014:再将S3013中得到的分数网络进行标准化,使其范围到0和1之间,其公式如下所示:
进一步的,所述步骤S4包括,
S4011:构建多元线性回归的一般式,其公式如下所示:
其中β为回归系数,FVij(n)代表者一对lncRNA li和疾病dj的特征向量的第n个系数,定义定义每一条lncRNA li和疾病dj的特征向量为xn=[1,FVij(1),FVij(2),…,FVij(Nm)],其对应的概率分数定义为yn=OUTPUT(i,j);
S4012:通过S4011步骤的线性回归一般式,得出W的最优解,采用以下公式获取损失函数,
其中N是训练集的个数,令X=(x1,x2,…,xn)T,Y=(y1,y2,…,yn)T,构建损失函数为
L(W)=WTXTXW-2WTXTY+YTY
S4013:采用以下公式对S4012中的损失函数进行求导获取W的最优解,
得到最优解W*如下所示:
W*=(XTX)-1XTY
S4014:最后根据S4013得出的W*,,通过结合潜在lncRNA与疾病关联对的特征向量,获得其关联概率分数,分数越高,则表示关联的可能性越大。
S402:确定神经网络权重和偏向。
进一步的,所述步骤S402包括,
S4021:将所有的权值和偏向设置成随机值以作为初始权重和初始偏向,将训练样本中的lncRNA与疾病关联对的特征向量以3∶1∶1的比例分为训练集、验证集和测试集,将训练集作为输入层的输入,并结合输入层到隐藏层的初始权值以及偏向,得到隐藏层的输入,将隐藏层的输入转化为输出通过如下公式表示:
其中和/>分别代表着第n层的第m个神经元的输入和输出;
S4022:将S4021中得到的隐藏层的输出,结合上隐藏层到输出层的初始权值和偏向,得出输出层的输入,而将输出层的输入转化为输出可通过如下激活函数:
S4023:在得出输出层的输出后,通过与目标值进行比较,计算出均方差,其公式计算如下:
其中N代表着训练集的个数
S4024:对有的权重和偏向根据步骤S4023得出的均方差层层向前进行反馈修正,根据更新过后的权值和偏向,重新开始输入训练集中的特征向量进行计算,得出输出层结果,反复进行迭代,直到达到以下几个条件:
(1):迭代次数达到100次,
(2):均方差大小达到0.001或者更小,
(3):连续15次均方差不再减小;
S4025:输入潜在lncRNA与疾病关联对的特征向量,以其输出层的输出作为其关联概率分数,分数越高,表示关联的可能性越大。
本发明的有益效果是,本发明整合lncRNA和疾病的间接特征信息,同时结合上已知的lncRNA与疾病的直接特征信息,有着更好的预测能力。
附图说明
图1本发明一实施例流程图。
具体实施方式
lncRNA(Long Noncoding RNA,长链非编码RNA)与人类疾病密切相关,了解lncRNA与疾病关系有助于对疾病的研究。利用传统实验生物实验的方法识别lncRNA与疾病的关联既费时又昂贵,因此,近年来人们提出了越来愈多的方法来预测lncRNA与疾病的潜在关联。然而,这些方法都存在着各种各样的局限性。开发一种具有较高稳定性且能够运用于各种情况下的预测模型有着重要的意义和挑战。本发明根据已知的miRNA与疾病关联关系和miRNA与LncRNA关联关系,基于miRNA的功能相似性和miRNA的高斯核相似性分别寻找出疾病的特征向量和lncRNA的特征向量,并将其结合起来形成每一对lncRNA和疾病的特征向量;通过重构已知的lncRNA与疾病的关联关系,得出每一对lncRNA和疾病的特征关联概率分数;最后,通过多元线性回归和人工神经网络来获取特征向量与特征关联概率分数之间的联系。
如图1所示本发明提供本发明提供一种利用间接与直接特征信息识别lncRNA与疾病关联的方法及系统以解决采取生物实验预测疾病与lncRNA方法的成本高和实验时间长等技术问题,并突破传统预测方法的局限性。
下面对本发明中的英语缩写进行说明。
miRNA MicroRNA是一类由内源基因编码的长度约为22个核苷酸的非编码单链RNA分子,它们在动植物中参与转录后基因表达调控。
lncRNA长链非编码RNA(Long non-coding RNA,lncRNA)是长度大于200个核苷酸的非编码RNA。
如图1所示本发明一实施例包括以下步骤。
S1:根据已知的miRNA与疾病的关联关系、miRNA与lncRNA的关联关系以及lncRNA与疾病的关联关系分别构建这三者关联关系的网络,并构建miRNA的高斯核函数相似性网络和功能相似性网络。
S2:根据miRNA与疾病的关联网络和miRNA与lncRNA的关联网络,找出每一对lncRNA与疾病的特征向量;
S3:根据lncRNA和疾病的关联网络,计算出每一对lncRNA与疾病的关联概率分数;
S4:根据训练集中的每一对lncRNA和疾病的特征向量和其所对应的关联概率分数,找到二者所对应的关系,输入潜在lncRNA和疾病对的特征向量,得到潜在lncRNA和疾病对的关联概率分数。
进一步的,所述步骤S1包括以下步骤:
S101:从已知公开数据库中下载:已知的miRNA与疾病的关联关系、已知的miRNA与lncRNA的关联关系、lncRNA与疾病的关联关系。
S102:提取出上述的到的miRNA与疾病的关联关系和miRNA与lncRNA的关联关系中所共有的miRNA集,并定义为Nm,根据所共有的miRNA集筛选出公共miRNA与疾病的关联关系和公共miRNA与lncRNA的关联关系,并分别获得邻接矩阵MD和ML,其中如果存在miRNA mi与疾病dj有关联,则MD(I,j)=1,否则MD(I,j)=0。同理,如果存在miRNA mi与lncRNA lj有关联,则ML(I,j)=1,否则ML(I,j)=0。
S103:在S102步骤中,将筛选出来的miRNA与疾病的关联关系中的所有疾病集定义为Dmd,将筛选出来的miRNA与lncRNA的关联关系中的所有lncRNA集定义为Lml,从S101中得到的原始lncRNA和疾病的关联关系中筛选出lncRNA属于Lml并且疾病也属于Dmd的关联关系并得出其相应的邻接矩阵LD,其中如果存在lncRNA li与疾病dj有关联,则LD(I,j)=1,否则LD(I,j)=0。其中,将LD矩阵中所有lncRNA集合和疾病集合分别定义为Lld和Dld。
S104:令相似的miRNA节点更倾向于与相似的lncRNA节点相互左右,结合高斯核函数,形成高斯核函数相似性网络,采用如下公式表示:
KM(mi,mj)=exp(-γm||IP(mi)-IP(mj)||2)
其中,IP(mi)代表着邻接矩阵ML的第i行;
S105:令类似功能的miRNA节点与相似疾病节点有着关联,则miRNA节点之间的功能相似性便取决于其已知相关疾病的语义值贡献。miRNA节点之间的功能相似性计算步骤如下所示:
S1051:从美国国家医学图书馆中依次下载Dmd中疾病对应的医学主题描述符,令D(dA)表示疾病dA节点与其祖先节点的集合,E(dA)包含D(dA)中所有的从父节点到子节点的边集,从而建立有向无环图DAG(dA)。从而疾病t对疾病d的语义贡献值可以采用如下公式计算:
S1052:随即通过结合所有D(d)集合里的疾病对d节点的语义贡献值,可以得出d节点的语义值,采用如下公式表示:
S1053:对于一对疾病di和dj,本发明采用如下公式计算它们的语义相似性分数:
同时,由于集合Dld属于集合Dmd,从矩阵DSmd中可以提取出属于集合Dld的部分,记为矩阵DSld。
S1054:令所有已知与miRNA mi相关的疾病集合定义为GDM(mi)=di1,di2,…dip,所有与miRNA mj相关的疾病集合定义为GDM(mj)=dj1,dj2,…djq,并通过如下公式计算mi与mj之间的功能相似性:
S1055:同样的,令所有已知与lncRNA li相关的疾病集合定义为GDL(li)=di1,di2,…dip,所有与lncRNA lj相关的疾病集合定义为GDL(lj)=dj1,dj2,…djq,并通过如下公式计算li与lj之间的功能相似性:
S201:利用步骤S1得到的miRNA与lncRNA关联关系的邻接矩阵和miRNA的高斯核相似性网络,结合随机游走算法,可得出lncRNA的特征向量,其特征向量计算如下步骤所示:
S2011:首先将miRNA的高斯核相似性网络的行进行归一化,其公式如下所示:
其中Nm代表miRNA的个数。
S2012:再将miRNA与lncRNA关联关系的邻接矩阵的列进行归一化,其公式如下所示:
S2013:结合上随机游走算法,可以得出lncRNA的特征向量,其迭代公式如下所示:
PLS+1=(1-r1)*NKMT*PLS+r1*PL0
其中r1是重启游走概率因子。
S202:同样的,利用步骤S1的到的miRNA与疾病的关联关系的邻接矩阵和miRNA的功能相似性网络,再结合上随机游走算法也能得出疾病的特征向量,其计算如下述公式所示:
PDS+1=(1-r2)*NFMT*PDS+r2*PD0
S203:将上述S201和S202中得出的特征向量进行结合,得出每一对lncRNA和疾病的特征向量,其公式如下所示:
其中对于两个向量A=(a1,a2,...,an)T和B=(b1,b2,...,bn)T,
S301:令lncRNA li的功能相似性网络中的非0部分作为lncRNA li的集团,令疾病dj的语义相似性网络中非零部分作为疾病dj的集团,对步骤S1中得到的lncRNA与疾病的关联关系邻接矩阵LD进行重构,得出每一对lncRNA与疾病的关联概率分数,其计算步骤如下所示:
S3011:以疾病集团中的其他疾病作为媒介,计算出二步到达lncRNA节点的疾病的概率,并整合一步到达lncRNA节点的疾病,得出以疾病为媒介的重构关联概率网络。其计算公式如下所示:
其中k1是步数衰减因子,用来削减二步到达lncRNA节点的疾病的权重。
S3012:以lncRNA集团中的其他lncRNA作为媒介,计算出二步到达疾病节点的lncRNA的概率,并整合一步到达疾病节点的lncRNA,得出以lncRNA为媒介的重构关联概率网络。其计算公式如下所示:
其中k2也是步数衰减因子,用来削减二步到达疾病节点的lncRNA的权重。
S3013:将S3011步骤构建的网络和S3012步骤构建的网络结合起来,形成一个新的分数网络,其公式如下所示:
OUT=rate*FOUT+(1-rate)*DOUT
其中rate是权重控制因子。
S3014:再将S3013中得到的分数网络进行标准化,使其范围到0和1之间,其公式如下所示:
S401:为了防止单一模型带来的局限性,本专利采用了两种方法来找出每一对lncRNA与疾病的特征向量和概率分数之间的关系,分别包括多元线性回归和人工神经网络。结合多元线性回归模型的步骤如下所示:
S4011:首先给出多元线性回归的一般式,其公式如下所示:
其中β为回归系数,FVij(n)代表者一对lncRNA li和疾病dj的特征向量的第n个系数。形式上,定义定义每一条lncRNA li和疾病dj的特征向量为xn=[1,FVij(1),FVij(2),…,FVij(Nm)],其对应的概率分数定义为yn=OUTPUT(i,j)。
S4012:通过S4011步骤的线性回归一般式,得出W的最优解,需要求其损失函数,其公式如下:
其中N是训练集的个数,令X=(x1,x2,…,xn)T,Y=(y1,y2,…,yn)T,则损失函数可以推到成如下形式:
L(W)=WTXTXW-2WTXTY+YTY
S4013:对S4012中的损失函数进行求导,便可获得W的最优解,其步骤如下:
得到最优解W*如下所示:
W*=(XTX)-1XTY
S4014:最后根据S4013得出的W*,通过结合潜在lncRNA与疾病关联对的特征向量,便可获得其关联概率分数,分数越高,则关联的可能性越大。
S402:神经网络是一个由多个神经元组成的并行分布式处理系统,其可以分成输入层、隐藏层和输出层,每一层的所有神经元都可以接受多个输入信号,并通过激活函数得出的值作为输出信号。每个神经元之间的连接都代表着一个权值,反映了前一个神经元对当前神经元的影响,而偏向可以增加这个神经元的灵活性。确定了权值和偏向后,神经网络的结构便能稳定下来,确定权重和偏向的步骤如下所示:
S4021:首先将所有的权值和偏向设置成随机值以作为初始权重和初始偏向,将训练样本中的lncRNA与疾病关联对的特征向量以3∶1∶1的比例分为训练集、验证集和测试集,将训练集作为输入层的输入,并结合输入层到隐藏层的初始权值以及偏向,得到隐藏层的输入。而将隐藏层的输入转化为输出可通过如下公式表示:
其中和/>分别代表着第n层的第m个神经元的输入和输出
S4022:同样的,将S4021中得到的隐藏层的输出,结合上隐藏层到输出层的初始权值和偏向,得出输出层的输入,而将输出层的输入转化为输出可通过如下激活函数:
S4023:在得出输出层的输出后,通过与目标值(target,即对应lncRNA与疾病关联对的关联概率分数)进行比较,便可计算出其该网络的均方差,其公式计算如下:
其中N代表着训练集的个数
S4024:所有的权重和偏向会根据步骤S4023得出的均方差层层向前进行反馈修正。根据更新过后的权值和偏向,重新开始输入训练集中的特征向量进行计算,得出输出层结果,从而反复进行迭代,直到达到以下几个条件:
(1):迭代次数达到100次。
(2):均方差大小达到0.001或者更小。
(3):连续15次均方差不再减小
S4025:在步骤S4024过后,神经网络基本达到稳定,输入潜在lncRNA与疾病关联对的特征向量,以其输出层的输出作为其关联概率分数,分数越高,则关联的可能性越大。
本发明预测模型突破了以往计算方法的局限性,可以运用于各种各样的场景,并且实验也证实了该方法提高了识别lncRNA和疾病潜在关联的预测效果。
Claims (7)
1.一种利用间接与直接特征信息识别lncRNA与疾病关联的方法,其特征在于,包括以下步骤:
S1:根据miRNA与疾病的关联关系、miRNA与lncRNA的关联关系以及lncRNA与疾病的关联关系分别构建三者之间的关联网络,并构建miRNA的高斯核函数相似性网络和功能相似性网络;
S2:利用步骤S1得到的miRNA与疾病的关联网络、miRNA与lncRNA的关联网络以及miRNA高斯核函数相似性网络和miRNA的功能相似性网络,结合随机游走算法,找出lncRNA与疾病的特征向量;
S3:根据lncRNA和疾病的关联网络,计算lncRNA与疾病的关联概率分数;
S4:根据训练集中的lncRNA和疾病的特征向量和其所对应的关联概率分数,找到二者所对应的关系,输入潜在lncRNA和疾病对的特征向量,得到潜在lncRNA和疾病对的关联概率分数;
所述步骤S1包括:
S101:从数据库中获取miRNA与疾病的关联关系、已知的miRNA与lncRNA的关联关系、lncRNA与疾病的关联关系;
S102:提取出S101步骤得到的miRNA与疾病的关联关系和miRNA与lncRNA的关联关系中所共有的miRNA集,并定义为Nm,根据所共有的miRNA集筛选出公共miRNA与疾病的关联关系和公共miRNA与lncRNA的关联关系,并分别获得邻接矩阵MD和ML,如果存在miRNA mi与疾病dj有关联则MD(I,j)=1,如果不存在miRNA mi与疾病dj关联则MD(I,j)=0,如果存在miRNAmi与lncRNA lj有关联则ML(I,j)=1,如果不存在miRNA mi与lncRNA lj有关联则ML(I,j)=0;
S103:将S102步骤筛选出来的miRNA与疾病的关联关系中的所有疾病集定义为Dmd,将筛选出来的miRNA与lncRNA的关联关系中的所有lncRNA集定义为Lml,从S101步骤中得到的原始lncRNA和疾病的关联关系中筛选出lncRNA属于Lml并且疾病也属于Dmd的关联关系并得出其相应的邻接矩阵LD,其中如果存在lncRNA li与疾病dj有关联则LD(I,j)=1,如果不存在lncRNA li与疾病dj有关联则LD(I,j)=0,将LD矩阵中所有lncRNA集合和疾病集合分别定义为Lld和Dld;
S104:生成高斯核函数相似性网络,采用如下公式表示:
其中,IP(mi)代表着邻接矩阵ML的第i行;
S105:对miRNA节点之间的功能相似性进行计算。
2.如权利要求1所述的一种利用间接与直接特征信息识别lncRNA与疾病关联的方法,其特征在于,所述S105包括:
S1051:从公共数据库中下载Dmd中疾病对应的医学主题描述符,令D(dA)表示疾病dA节点与其祖先节点的集合,E(dA)包含D(dA)中所有的从父节点到子节点的边集,建立有向无环图DAG(dA),疾病t对疾病d的语义贡献值采用如下公式计算:
S1052:通过结合所有D(d)集合里的疾病对d节点的语义贡献值,得出d节点的语义值,采用如下公式表示:
S1053:对于一对疾病di和dj,采用如下公式计算它们的语义相似性分数:
从矩阵DSmd中提取出属于集合Dld的部分,记为矩阵DSld;
S1054:令所有已知与miRNA mi相关的疾病集合定义为GDM(mi)=di1,di2,…dip,所有与miRNA mj相关的疾病集合定义为GDM(mj)=dj1,dj2,…djq,并通过如下公式计算mi与mj之间的功能相似性:
S1055:令所有已知与lncRNA li相关的疾病集合定义为GDL(li)=d'i1,d'i2,…d'ip',所有与lncRNA lj相关的疾病集合定义为GDL(lj)=d'j1,d'j2,…d'jq',并通过如下公式计算li与lj之间的功能相似性:
3.如权利要求1所述的一种利用间接与直接特征信息识别lncRNA与疾病关联的方法,其特征在于,所述S2包括:
S201:利用步骤S1得到的miRNA与lncRNA关联关系的邻接矩阵和miRNA的高斯核相似性网络,结合随机游走算法,计算lncRNA的特征向量;
S202:同样的,利用步骤S1得到的miRNA与疾病的关联关系的邻接矩阵和miRNA的功能相似性网络,再结合随机游走算法也能得出疾病的特征向量,其计算如下述公式所示:
PDs+1=(1-r2)*NFMT*PDS+r2*PD0
S203:将上述S201和S202中得出的特征向量进行结合,得出每一对lncRNA和疾病的特征向量,其公式如下所示:
4.如权利要求3所述的一种利用间接与直接特征信息识别lncRNA与疾病关联的方法,其特征在于,所述S201包括:
S2011:将miRNA的高斯核相似性网络的行进行归一化,其公式如下所示:
S2012:将miRNA与lncRNA关联关系的邻接矩阵的列进行归一化,其公式如下所示:
S2013:结合随机游走算法,得出lncRNA的特征向量,其迭代公式如下所示:
PLs+1=(1-r1)*NKMT*PLS+r1*PL0
其中r1是重启游走概率因子。
5.如权利要求2所述的一种利用间接与直接特征信息识别lncRNA与疾病关联的方法,其特征在于,所述S3包括:
S301:令lncRNA li的功能相似性网络中的非0部分作为lncRNA li的集团,令疾病dj的语义相似性网络中非零部分作为疾病dj的集团,对步骤S1中得到的lncRNA与疾病的关联关系邻接矩阵LD进行重构,得出每一对lncRNA与疾病的关联概率分数;
所述S301具体包括:
S3011:以疾病集团中的其他疾病作为媒介,计算出二步到达lncRNA节点的疾病的概率,并整合一步到达lncRNA节点的疾病,得出以疾病为媒介的重构关联概率网络,其计算公式如下所示:
其中k1是步数衰减因子,用来削减二步到达lncRNA节点的疾病的权重;S3012:以lncRNA集团中的其他lncRNA作为媒介,计算出二步到达疾病节点的lncRNA的概率,并整合一步到达疾病节点的lncRNA,得出以lncRNA为媒介的重构关联概率网络,其计算公式如下所示:
其中k2也是步数衰减因子,用来削减二步到达疾病节点的lncRNA的权重;
S3013:将S3011步骤构建的网络和S3012步骤构建的网络结合起来,形成一个新的分数网络,其公式如下所示:
OUT=rate*FOUT+(1-rate)*DOUT
其中rate是权重控制因子;
S3014:再将S3013中得到的分数网络进行标准化,使其范围到0和1之间,其公式如下所示:
6.如权利要求1所述的一种利用间接与直接特征信息识别lncRNA与疾病关联的方法,其特征在于,所述S4包括:
S4011:构建OUTPUT(i,j)的多元线性回归,其公式如下所示:
其中为回归系数,FVij(n),其中n=1,2,3,…,Nm,代表一对lncRNA li和疾病dj的特征向量的第n个系数;
定义定义每一条lncRNA li和疾病dj的特征向量为xi=[1,FVij(1),FVij(2),…,FVij(Nm)],其中i=1,2,3,…,n,n为lncRNA的总条数,其对应的概率分数定义为yi=OYTPUT(i,j),其中i=1,2,3,…,n,n为lncRNA的总条数,
S4012:通过S4011步骤的线性回归一般式,得出W的最优解,采用以下公式获取损失函数,
其中n是训练集的个数,
令X=(x1,x2,…,xn)T,Y=(y1,y2,…,yn)T,则上述损失函数L(W)可表示为:
L(W)=WTXTXW-2WTXTY+YTY
S4013:采用以下公式对S4012中的损失函数进行求导获取W的最优解,
得到最优解W*如下所示:
W*=(XTX)-1XTY
S4014:最后根据S4013得出的W*,通过结合潜在lncRNA与疾病关联对的特征向量,获得其关联概率分数,分数越高,则表示关联的可能性越大;
S402:确定神经网络权重和偏向。
7.如权利要求6所述的一种利用间接与直接特征信息识别lncRNA与疾病关联的方法,其特征在于,所述S402包括:
S4021:将所有的权值和偏向设置成随机值以作为初始权重和初始偏向,将训练样本中的lncRNA与疾病关联对的特征向量以3:1:1的比例分为训练集、验证集和测试集,将训练集作为输入层的输入,并结合输入层到隐藏层的初始权值以及偏向,得到隐藏层的输入,则通过如下公式将隐藏层的输入转化为输出,通过如下公式表示:
S4022:将S4021中得到的隐藏层的输出,结合上隐藏层到输出层的初始权值和偏向,通过如下公式将输出层的输入转化为输出:
S4023:在得出输出层的输出后,通过与目标值进行比较,计算出均方差,其公式计算如下:
其中N代表着训练集的个数;
S4024:对有的权重和偏向根据步骤S4023得出的均方差层层向前进行反馈修正,根据更新过后的权值和偏向,重新开始输入训练集中的特征向量进行计算,得出输出层结果,反复进行迭代,直到达到以下几个条件:
(1):迭代次数达到100次,
(2):均方差大小达到0.001或者更小,
(3):连续15次均方差不再减小;
S4025:输入潜在lncRNA与疾病关联对的特征向量,以其输出层的输出作为其关联概率分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911004695.XA CN110782945B (zh) | 2019-10-22 | 2019-10-22 | 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911004695.XA CN110782945B (zh) | 2019-10-22 | 2019-10-22 | 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110782945A CN110782945A (zh) | 2020-02-11 |
CN110782945B true CN110782945B (zh) | 2023-07-18 |
Family
ID=69386246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911004695.XA Active CN110782945B (zh) | 2019-10-22 | 2019-10-22 | 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110782945B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112086187B (zh) * | 2020-09-16 | 2022-04-19 | 电子科技大学 | 一种基于复杂网络的疾病进展路径挖掘方法 |
CN112289373B (zh) * | 2020-10-27 | 2021-07-06 | 齐齐哈尔大学 | 一种融合相似性的lncRNA-miRNA-疾病关联方法 |
CN113160880B (zh) * | 2021-03-19 | 2023-06-06 | 广东工业大学 | 基于高阶接近性和矩阵补全算法的lncRNA-疾病关联预测方法 |
CN113223622B (zh) * | 2021-05-14 | 2023-07-28 | 西安电子科技大学 | 基于元路径的miRNA-疾病关联预测方法 |
CN113421614A (zh) * | 2021-07-08 | 2021-09-21 | 湖南大学 | 一种基于张量分解的lncRNA-疾病关联预测方法 |
CN115249538B (zh) * | 2021-12-20 | 2023-04-18 | 云南师范大学 | 一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427865A (zh) * | 2018-03-14 | 2018-08-21 | 华南理工大学 | 一种预测LncRNA和环境因素关联关系的方法 |
CN108681660A (zh) * | 2018-05-07 | 2018-10-19 | 福州大学 | 一种基于关联规则挖掘的非编码rna与疾病关系预测方法 |
CN108920903A (zh) * | 2018-07-09 | 2018-11-30 | 湘潭大学 | 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统 |
CN109243538A (zh) * | 2018-07-19 | 2019-01-18 | 长沙学院 | 一种预测疾病与LncRNA关联关系的方法及系统 |
CN109563515A (zh) * | 2016-07-01 | 2019-04-02 | 阿拉基斯医疗公司 | 化合物和调节rna功能的方法 |
CN109935332A (zh) * | 2019-03-01 | 2019-06-25 | 桂林电子科技大学 | 一种基于双随机游走模型的miRNA-疾病关联预测方法 |
WO2019139901A1 (en) * | 2018-01-12 | 2019-07-18 | Massachusetts Eye And Ear Infirmary | Nasal exosomes for non-invasive sampling of cns proteins |
-
2019
- 2019-10-22 CN CN201911004695.XA patent/CN110782945B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109563515A (zh) * | 2016-07-01 | 2019-04-02 | 阿拉基斯医疗公司 | 化合物和调节rna功能的方法 |
WO2019139901A1 (en) * | 2018-01-12 | 2019-07-18 | Massachusetts Eye And Ear Infirmary | Nasal exosomes for non-invasive sampling of cns proteins |
CN108427865A (zh) * | 2018-03-14 | 2018-08-21 | 华南理工大学 | 一种预测LncRNA和环境因素关联关系的方法 |
CN108681660A (zh) * | 2018-05-07 | 2018-10-19 | 福州大学 | 一种基于关联规则挖掘的非编码rna与疾病关系预测方法 |
CN108920903A (zh) * | 2018-07-09 | 2018-11-30 | 湘潭大学 | 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统 |
CN109243538A (zh) * | 2018-07-19 | 2019-01-18 | 长沙学院 | 一种预测疾病与LncRNA关联关系的方法及系统 |
CN109935332A (zh) * | 2019-03-01 | 2019-06-25 | 桂林电子科技大学 | 一种基于双随机游走模型的miRNA-疾病关联预测方法 |
Non-Patent Citations (3)
Title |
---|
Yuansheng Liu 等.Inferring MicroRNA-Disease Associations by Random Walk on a Heterogeneous Network with Multiple Data Sources.《IEEE/ACM Transactions on Computational Biology and Bioinformatics》.2016,第14卷(第4期),全文. * |
Zhanwei Xuan 等.A Probabilistic Matrix Factorization Method for Identifying lncRNA-Disease Associations.《genes》.2019,全文. * |
李省.基于异质网络的lncRNA-疾病关联预测.《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》.2019,(第2期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110782945A (zh) | 2020-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782945B (zh) | 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法 | |
CN109243538B (zh) | 一种预测疾病与LncRNA关联关系的方法及系统 | |
Zhang et al. | Plant miRNA–lncRNA interaction prediction with the ensemble of CNN and IndRNN | |
CN110459264B (zh) | 基于梯度增强决策树预测环状rna与疾病相关性的方法 | |
CN108681660A (zh) | 一种基于关联规则挖掘的非编码rna与疾病关系预测方法 | |
CN112070277A (zh) | 基于超图神经网络的药物-标靶相互作用预测方法 | |
Zhang et al. | Sequence-specific bias correction for RNA-seq data using recurrent neural networks | |
Ji et al. | A semi-supervised learning method for MiRNA-disease association prediction based on variational autoencoder | |
CN115798598B (zh) | 一种基于超图的miRNA-疾病关联预测模型及方法 | |
CN107679367A (zh) | 一种基于网络节点关联度的共调控网络功能模块识别方法及系统 | |
CN112270958A (zh) | 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 | |
CN114913916A (zh) | 预测新冠病毒适应药物的药物重定位方法 | |
CN113724790A (zh) | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 | |
Geng et al. | A deep learning framework for enhancer prediction using word embedding and sequence generation | |
CN110942803A (zh) | 一种LncRNA和环境因素关联关系的高效预测方法 | |
Hu et al. | Discovering an integrated network in heterogeneous data for predicting lncRNA-miRNA interactions | |
Suleman et al. | m1A-pred: Prediction of modified 1-methyladenosine sites in RNA sequences through artificial intelligence | |
Zhang et al. | GRRFNet: Guided regularized random forest-based gene regulatory network inference using data integration | |
CN113223622B (zh) | 基于元路径的miRNA-疾病关联预测方法 | |
CN114944192A (zh) | 一种基于图注意力的疾病相关环状rna识别方法 | |
Zhang et al. | msiDBN: a method of identifying critical proteins in dynamic PPI networks | |
CN114613438B (zh) | 一种miRNA与疾病的关联预测方法及系统 | |
Nguyen et al. | Optimal transport-based machine learning to match specific expression patterns in omics data | |
EP4101933A1 (en) | Correction method for single-cell rna-seq analysis count data set, analysis method for single-cell rna-seq, analysis method for cell type ratios, and devices and computer programs for executing said methods | |
Liu et al. | RMDGCN: Prediction of RNA methylation and disease associations based on graph convolutional network with attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |