CN112289373A - 一种融合相似性的lncRNA-miRNA-疾病关联方法 - Google Patents

一种融合相似性的lncRNA-miRNA-疾病关联方法 Download PDF

Info

Publication number
CN112289373A
CN112289373A CN202011166151.6A CN202011166151A CN112289373A CN 112289373 A CN112289373 A CN 112289373A CN 202011166151 A CN202011166151 A CN 202011166151A CN 112289373 A CN112289373 A CN 112289373A
Authority
CN
China
Prior art keywords
mirna
lncrna
disease
matrix
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011166151.6A
Other languages
English (en)
Other versions
CN112289373B (zh
Inventor
王波
张超
崔连和
张剑飞
杜晓昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiqihar University
Original Assignee
Qiqihar University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiqihar University filed Critical Qiqihar University
Priority to CN202011166151.6A priority Critical patent/CN112289373B/zh
Publication of CN112289373A publication Critical patent/CN112289373A/zh
Application granted granted Critical
Publication of CN112289373B publication Critical patent/CN112289373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种融合相似性的lncRNA‑miRNA‑疾病关联方法,所述方法如下:构建lncRNA‑miRNA‑疾病网络;计算融合的lncRNA功能相似性;计算整合疾病语义相似;根据权重分配算法得到miRNA‑lncRNA之间miRNA的权重矩阵,miRNA‑疾病之间miRNA的权重矩阵;由融合的lncRNA功能相似、miRNA‑lncRNA邻接矩阵、miRNA‑lncRNA之间miRNA的权重矩阵可得miRNA‑lncRNA关联得分矩阵;由整合疾病语义相似、miRNA‑疾病邻接矩阵、miRNA‑疾病之间miRNA的权重矩阵可得miRNA‑疾病关联得分矩阵;整合两个关联矩阵得到关联得分矩阵Smld;使用预测模型对Smld进行预测。本发明通过多方面数据关系揭示了隐藏在数据之下的未知关联关系。

Description

一种融合相似性的lncRNA-miRNA-疾病关联方法
技术领域
本发明属于生物信息学中的关联关系预测领域,涉及一种lncRNA-miRNA-疾病相互作用网络预测疾病关联方法。
背景技术
lncRNA是指长非编码RNA(IncRNAs)的长度大于200个核苷酸,在以往被认为是噪声,即对基因的表达几乎没有影响,然而随着医学的发展,lncRNA被发现参与剂量补偿效应、细胞分化调控、表观遗传调控和细胞周期调控等生命活动,并在这些生命活动中发挥重要作用,因此lncRNA成为了研究的一个新热点。如今,大量研究表明lncRNA与众多人类疾病密切相关,其中就包括退行性神经疾病、阿尔茨海默氏病、各种癌症,lncRNA通过在序列和空间结构上的异常、表达水平的异常、与结合蛋白相互作用的异常等参与疾病,从而影响人类健康。因此对lncRNA和疾病之间的关联,可以实现早期疾病的检测、对疾病的针对性治疗、系统地了解复杂疾病的病原体本质等方面都有重大意义,然而逐一的使用生物实验去发现所有联系是代价高昂且不切实际的做法。如今人工智能发展迅速,通过现有的lncRNA-miRNA-疾病相联系,利用大数据分析及利用人工智能的方法开发计算模型,用计算方法计算疾病与lncRNA之间的潜在关联分数,从而得到潜在的lncRNA与疾病的关联,进而加快医学智能化的进步。
发明内容
本发明的目的是提供一种融合相似的lncRNA-miRNA-疾病关联方法,该方法采用多元数据计算lncRNA功能相似性,将lncRNA与疾病计算得到的功能相似与lncRNA与miRNA计算得到的功能相似进行融合,其相似性较单一方法计算得到的功能相似性更为可信;结合整合疾病语义相似性以及多元数据关系计算潜在的lncRNA-miRNA-疾病关联关系。
本发明的目的是通过以下技术方案实现的:
一种融合相似性的lncRNA-miRNA-疾病关联方法,包括如下步骤:
步骤一、通过lncRNA-miRNA关联关系、miRNA-疾病关联关系、lncRNA-疾病关联关系构建lncRNA-miRNA-疾病构成的三重网络;
步骤二、由lncRNA-miRNA-疾病构成的三重网络构建lncRNA-miRNA邻接矩阵ALM={alm}m*n、miRNA-疾病邻接矩阵AMD={amd}n*e,其中:
Figure BDA0002745844580000021
Figure BDA0002745844580000022
lncRNA-miRNA邻接矩阵ALM={alm}m*n中,n表示miRNA的种类数量,m表示lncRNA种类数量;miRNA-疾病邻接矩阵AMD={amd}n*e中,n表示miRNA的种类数量,e表示疾病的种类数量;miRNA-lncRNA邻接矩阵为lncRNA-miRNA邻接矩阵AML={aml}n*m转置所得,疾病-miRNA邻接矩阵ADM={adm}e*m由miRNA-疾病邻接矩阵转置所得;
步骤三、将lncRNA-miRNA-疾病构成的三重网络分为miRNA-lncRNA二分网络、miRNA-疾病二分网络,对得到的两个二分网络分别使用权重分配算法得到miRNA-lncRNA之间miRNA权重矩阵、miRNA-疾病之间miRNA权重矩阵,其中:
miRNA-lncRNA之间miRNA权重矩阵为:
Figure BDA0002745844580000031
Figure BDA0002745844580000032
式中,1<i,j<n,n表示miRNA的种类数量,m表示lncRNA种类数量,
Figure BDA0002745844580000033
表示lncRNA-miRNA构成的二分网络中资源在miRNA节点中从第i个节点移动到第j个节点的贡献,
Figure BDA0002745844580000034
分别为lncRNA-miRNA构成的n*m邻接矩阵中i行u列实体与j行u列实体,
Figure BDA0002745844580000035
表示和lncRNA i相关的miRNA种类数量,
Figure BDA0002745844580000036
表示和miRNA j相关的lncRNA的种类数量;
miRNA-疾病之间miRNA权重矩阵为:
Figure BDA0002745844580000037
Figure BDA0002745844580000038
式中,1<i,j<n,n表示miRNA的种类数量,e表示疾病种类数量,
Figure BDA0002745844580000039
表示miRNA-疾病构成的二分网络中资源在miRNA节点中从第i个节点移动到第j个节点的贡献,
Figure BDA00027458445800000310
分别为miRNA-疾病构成邻接矩阵转置形成的疾病-miRNA构成的e*n邻接矩阵中i行u列实体与j行u列实体,
Figure BDA0002745844580000041
表示和疾病i相关的miRNA种类数量,
Figure BDA0002745844580000042
表示和miRNAj相关的疾病种类数量;
步骤四、通过疾病语义相似性与lncRNA-疾病关联数据集、疾病语义相似性与miRNA-疾病关联数据集计算得到lncRNA功能相似矩阵1、miRNA功能相似矩阵:
Figure BDA0002745844580000043
其中,
Figure BDA0002745844580000044
式中,dl表示某一疾病,D(i)和D(j)分别表示和lncRNA i和j相关的疾病的集合;矩阵LS1是lncRNA功能相似性矩阵1,第i行第j列实体LS1(i,j)表示lncRNA i与lncRNAj相似度;矩阵DS是疾病语义相似矩阵,第i行第j列实体DS(i,j)表示疾病i与疾病j之间相似度;
Figure BDA0002745844580000045
其中,
Figure BDA0002745844580000046
式中,di表示某一疾病,D(u)和D(v)分别表示和miRNA u和v相关的疾病的集合,矩阵MS是miRNA功能相似性矩阵,第u行第v列实体MS(u,v)表示miRNA u与miRNA v之间的相似度;
步骤五、通过miRNA功能相似矩阵和lncRNA-miRNA关联数据集计算得到lncRNA功能相似矩阵2:
Figure BDA0002745844580000047
其中,
Figure BDA0002745844580000051
式中,ml表示某一miRNAml,M(i)和M(j)分别表示和lncRNA li和lj相关的miRNA的集合;矩阵LS2是lncRNA功能相似性矩阵2,第i行第j列实体LS2(i,j)表示lncRNA i与lncRNAj相似度;
步骤六、融合lncRNA功能相似矩阵LS1和lncRNA功能相似矩阵LS2得到融合的lncRNA功能相似矩阵LS:
LS(i,j)=δLS1(i,j)+(1-δ)LS2(i,j);
式中,LS1(i,j)为通过lncRNA-疾病关联关系得到的lncRNA功能相似矩阵1,LS2(i,j)为通过lncRNA-miRNA关联关系得到的lncRNA功能相似矩阵2,δ为权衡因子,范围为(0,1);
步骤七、通过miRNA-疾病邻接矩阵计算疾病高斯相互作用剖面核相似度:
KD(i,j)=exp(-γd||AMD(:,i)-AMD(:,j)||2);
Figure BDA0002745844580000052
式中,AMD(:,i)为miRNA与疾病构成邻接矩阵中第i列向量,表示疾病i的关联特征,γd负责控制内核带宽,这可以通过对原始带宽γ进行归一化来获得,本文中γ设置为1;
步骤八、整合疾病高斯相互作用剖面核相似度和疾病语义相似:
Figure BDA0002745844580000053
式中,SS为整合疾病语义相似矩阵,DS为疾病语义相似矩阵,KD为疾病高斯相互作用剖面核相似度;
步骤九、由融合lncRNA功能相似矩阵LS、miRNA-lncRNA邻接矩阵、miRNA-lncRNA之间miRNA的权重矩阵计算得到miRNA-lncRNA潜在关联得分矩阵:
Sml=WLM×AML×LS;
式中,WLM为lncRNA-miRNA之间miRNA的权重矩阵,AML为miRNA-lncRNA邻接矩阵,LS为融合lncRNA功能相似矩阵;
步骤十、由整合疾病语义相似矩阵、miRNA-疾病邻接矩阵、miRNA-疾病之间miRNA的权重矩阵计算得到miRNA-疾病潜在关联得分矩阵:
Smd=WDM×AMD×SS;
式中,WDM为miRNA-疾病之间miRNA的权重矩阵,AMD为miRNA-疾病邻接矩阵,SS为整合疾病语义相似矩阵;
步骤十一、将miRNA-lncRNA潜在关联得分矩阵、miRNA-疾病潜在关联得分矩阵结合形成lncRNA-miRNA-疾病潜在关联得分矩阵:
Figure BDA0002745844580000061
式中,Sml为miRNA-lncRNA潜在关联得分矩阵,Smd为miRNA-疾病潜在关联得分矩阵,Smld为由miRNA-lncRNA潜在关联得分矩阵和miRNA-疾病潜在关联得分矩阵拼接形成的miRNA-lncRNA-疾病潜在关联得分矩阵。
本发明的方法为lncRNA与疾病之间的关联预测方法,通过现有数据集之间的关联关系预测未知的lncRNA-疾病之间是否存在联系。相比于现有技术,本发明具有如下优点:
本发明采用由融合的lncRNA功能相似、miRNA-lncRNA邻接矩阵、miRNA-lncRNA之间miRNA的权重矩阵计算miRNA-lncRNA潜在关联得分矩阵;由整合疾病语义相似、miRNA-疾病邻接矩阵、miRNA-疾病之间miRNA的权重矩阵可得miRNA-疾病潜在关联得分矩阵,将数据集关系外的相似关系与由数据集计算得出的权重关系以及已知关系进行融合,通过多方面数据关系揭示了隐藏在数据之下的未知关联关系。
附图说明
图1为lncRNA-miRNA-疾病关联关系构建总流程图;
图2为lncRNA-miRNA-疾病关联关系构建细节流程图;
图3为根据lncRNA-miRNA-疾病相互作用关系构建矩阵;
图4为权重分配过程图解;
图5为FSNNBC模型在LOOCV框架下得到的ROC图。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
本发明提供了一种融合相似性的lncRNA-miRNA-疾病关联方法,如图1和2所示,所述方法包括如下步骤:
步骤一、从基因与疾病数据库中获得已知的lncRNA-miRNA关联数据集、已知的miRNA-疾病关联数据集、已知的lncRNA-疾病关联数据集,将得到的lncRNA-miRNA关联数据集、lncRNA-疾病关联数据集、miRNA-疾病关联数据集构建lncRNA-miRNA-疾病构成的三重网络。
步骤二、根据步骤一所得到的lncRNA-miRNA-疾病构成的三重网络以下列公式构建miRNA-lncRNA邻接矩阵ALM={alm}m*n、miRNA-疾病邻接矩阵AMD={amd}n*e,miRNA-lncRNA邻接矩阵AML={aml}n*m为lncRNA-miRNA邻接矩阵ALM={alm}m*n转置所得,疾病-miRNA邻接矩阵ADM={adm}e*m由miRNA-疾病邻接矩阵转置所得,具体参照图3。
Figure BDA0002745844580000081
Figure BDA0002745844580000082
步骤三、将lncRNA-miRNA-疾病构成的三重网络分为miRNA-lncRNA二分网络、miRNA-疾病二分网络,对得到的两个二分网络分别使用权重分配算法得到miRNA-lncRNA之间miRNA权重矩阵即miRNA-lncRNA之间miRNA的权重矩阵、miRNA-疾病之间miRNA权重矩阵miRNA-疾病权重矩阵,其中:
miRNA-lncRNA之间miRNA权重矩阵为:
Figure BDA0002745844580000083
Figure BDA0002745844580000084
式中,1<i,j<n,n表示miRNA的种类数量,m表示lncRNA种类数量,
Figure BDA0002745844580000085
表示lncRNA-miRNA构成的二分网络中资源在miRNA节点中从第i个节点移动到第j个节点的贡献,
Figure BDA0002745844580000091
分别为lncRNA-miRNA构成的n*m邻接矩阵中i行u列实体与j行u列实体,
Figure BDA0002745844580000092
表示和lncRNA i相关的miRNA种类数量,
Figure BDA0002745844580000093
表示和miRNA j相关的lncRNA的种类数量;
miRNA-疾病之间miRNA权重矩阵为:
Figure BDA0002745844580000094
Figure BDA0002745844580000095
式中,1<i,j<n,n表示miRNA的种类数量,e表示疾病种类数量,
Figure BDA0002745844580000096
表示miRNA-疾病构成的二分网络中资源在miRNA节点中从第i个节点移动到第j个节点的贡献,
Figure BDA0002745844580000097
分别为miRNA-疾病构成邻接矩阵转置形成的疾病-miRNA构成的e*n邻接矩阵中i行u列实体与j行u列实体,
Figure BDA0002745844580000098
表示和疾病i相关的miRNA种类数量,
Figure BDA0002745844580000099
表示和miRNAj相关的疾病种类数量。
如图4所示,权重分配的过程分为三步,以lncRNA-miRNA构成的二分网络为例。第一步找到初始向量,以第一个lncRNA l1而言,它对应的初始向量为f(l1)=(1,0,1,0,1)。第二步,将资源从miRNA上转移至lncRNA上,即与lncRNAs有相互关系的miRNA按以1除以与该miRNA相关lncRNA数量的值分配给l1。依此类推计算,将最终l1得到分配的值相加。对于其他lncRNA均进行计算,得到相加后的值,其对应得分向量可表示为
Figure BDA00027458445800000910
第三步,将资源从lncRNA上转移回miRNA节点上,即l1得到的相加值按除以与该lncRNA节点相关miRNA数量的值分配给m1。依此类推计算,将最终m1得到分配的值相加,其对应得分向量可表示为
Figure BDA0002745844580000101
同理可得到
Figure BDA0002745844580000102
步骤四、通过疾病语义相似性与lncRNA-疾病关联数据集、疾病语义相似性与miRNA-疾病关联数据集计算得到lncRNA功能相似矩阵1、miRNA功能相似矩阵:
Figure BDA0002745844580000103
其中,
Figure BDA0002745844580000104
式中,dl表示某一疾病,D(i)和D(j)分别表示和lncRNA i和j相关的疾病的集合;矩阵LS1是lncRNA功能相似性矩阵1,第i行第j列实体LS1(i,j)表示lncRNA i与lncRNAj相似度;矩阵DS是疾病语义相似矩阵,第i行第j列实体DS(i,j)表示疾病i与疾病j之间相似度。
Figure BDA0002745844580000105
其中,
Figure BDA0002745844580000106
式中,di表示某一疾病,D(u)和D(v)分别表示和miRNA u和v相关的疾病的集合,矩阵MS是miRNA功能相似性矩阵,第u行第v列实体MS(u,v)表示miRNA u与miRNA v之间的相似度。
疾病语义相似性矩阵可以由MESH数据库计算所得,MESH数据库为疾病分类提供了严格的系统,通过MESH数据库可以将疾病间的关系表示为一个有向无环图,其中每个节点表示一种疾病,而之间的链路表示节点之间的关系也就是疾病之间的关系。通过这种方法疾病dj关系图表示为DAG(dj)=(dj,T(dj),E(dj)),其中T(dj)是点的集合,也就是dj的所有祖先节点的集合,包括节点dj本身。E(dj)是边的集合,也就是父节点与子节点之间关系的集合。根据各种疾病对应的DAG可以得到所需疾病之间的语义相似值,具体计算以及计算方式参照DOSEsoftwarepackage。由此可以得到疾病语义相似矩阵DS,其中DS(dj,di)表示疾病dj与疾病di之间的语义相似值。
步骤五、通过miRNA功能相似矩阵和lncRNA-miRNA关联数据集计算得到lncRNA功能相似矩阵2:
Figure BDA0002745844580000111
其中,
Figure BDA0002745844580000112
式中,ml表示某一miRNA ml,M(i)和M(j)分别表示和lncRNA li和lj相关的miRNA的集合;矩阵LS2是lncRNA功能相似性矩阵2,第i行第j列实体LS2(i,j)表示lncRNA i与lncRNAj相似度。
步骤六、融合lncRNA功能相似矩阵LS1和lncRNA功能相似矩阵LS2得到融合的lncRNA功能相似矩阵LS:
LS(i,j)=δLS1(i,j)+(1-δ)LS2(i,j);
式中,LS1(i,j)为通过lncRNA-疾病关联关系得到的lncRNA功能相似矩阵1,LS2(i,j)为通过lncRNA-miRNA关联关系得到的lncRNA功能相似矩阵2,δ为权衡因子,范围为(0,1)。
步骤七、通过miRNA-疾病邻接矩阵计算疾病高斯相互作用剖面核相似度:
KD(i,j)=exp(-γd||AMD(:,i)-AMD(:,j)||2);
Figure BDA0002745844580000121
式中,AMD(:,i)为miRNA与疾病构成邻接矩阵中第i列向量,表示疾病i的关联特征。其中γd负责控制内核带宽,这可以通过对原始带宽γ进行归一化来获得,本文中γ设置为1。
步骤八、整合疾病高斯相互作用剖面核相似度和疾病语义相似:
Figure BDA0002745844580000122
式中,SS为整合疾病语义相似矩阵,DS为疾病语义相似矩阵,KD为疾病高斯相互作用剖面核相似度。
步骤九、由融合lncRNA功能相似矩阵、miRNA-lncRNA邻接矩阵、miRNA-lncRNA之间miRNA的权重矩阵计算得到miRNA-lncRNA潜在关联得分矩阵,其中miRNA-lncRNA潜在关联得分越高,miRNA-lncRNA之间存在关联的可能性越大:
Sml=WLM×AML×LS;
式中,WLM为miRNA-lncRNA之间miRNA的权重矩阵,AML为miRNA-lncRNA邻接矩阵,LS为融合的lncRNA功能相似矩阵。
步骤十、由整合疾病语义相似矩阵、miRNA-疾病邻接矩阵、miRNA-疾病权重矩阵计算得到miRNA-疾病潜在关联得分矩阵,其中miRNA-疾病潜在关联得分越高,miRNA-疾病之间存在关联的可能性越大:
Smd=WDM×AMD×SS;
式中,WDM为miRNA-疾病之间miRNA的权重矩阵,AMD为miRNA-疾病邻接矩阵,SS为整合疾病语义相似矩阵。
步骤十一、将miRNA-lncRNA潜在关联得分矩阵、miRNA-疾病潜在关联得分矩阵结合形成lncRNA-miRNA-疾病潜在关联得分矩阵:
Figure BDA0002745844580000131
式中,Sml为miRNA-lncRNA潜在关联得分矩阵,Smd为miRNA-疾病潜在关联得分矩阵,Smld为由miRNA-lncRNA潜在关联得分矩阵和miRNA-疾病潜在关联得分矩阵拼接形成的miRNA-lncRNA-疾病潜在关联得分矩阵。
为了证实该关联关系的有效性,本发明对关联得分矩阵Smld=[Sml Smd]应用了推荐算法和朴素贝叶斯算法进行预测。本发明将已知存在相互作用关系的miRNA与lncRNA、miRNA与疾病间的预测值的平均值作为是否推荐的评定值,得到推荐矩阵
Figure BDA0002745844580000132
的推荐算法的定义为:
Figure BDA0002745844580000133
其中,
Figure BDA0002745844580000134
Figure BDA0002745844580000135
其中,i=1,2,3,..n,而k=1,2,3...。
上述公式中,
Figure BDA0002745844580000136
为当
Figure BDA0002745844580000137
时对应miRNA-lncRNA-疾病得分矩阵中
Figure BDA0002745844580000138
的值组成的数组,即lncRNA j或疾病j与miRNA i之间的得分组成的数组。
Figure BDA0002745844580000139
表示由miRNA-lncRNA-疾病关联矩阵中与lncRNA j或疾病j有关的miRNA i对应得分
Figure BDA0002745844580000141
的和对lncRNA j或疾病j有关的miRNA i的数量取平均值。
在该推荐矩阵与原始邻接矩阵上应用朴素贝叶斯算法最终得到与各个疾病相关lncRNARank排名矩阵。通过对预测模型使用loocv算法评估算法性能,基于loocv得到的ROC图像如图5所示,与其他模型AUC对比如表1所示。
在预测结果中,本发明通过对结直肠肿瘤、肺肿瘤等疾病的预测结果进行验证,验证结果如表2和表3所示。
本发明采用多元数据计算lncRNA功能相似性,将lncRNA与疾病计算得到的功能相似与lncRNA与miRNA计算得到的功能相似进行融合,其相似性较单一方法计算得到的功能相似性更为可信。采用由融合的lncRNA功能相似矩阵、miRNA-lncRNA邻接矩阵、miRNA-lncRNA之间miRNA的权重矩阵计算miRNA-lncRNA潜在关联得分矩阵;由疾病语义相似矩阵、miRNA-疾病邻接矩阵、miRNA-疾病之间miRNA的权重矩阵可得miRNA-疾病潜在关联得分矩阵,将数据集关系外的相似关系与由数据集计算得出的权重关系以及已知关系进行融合,通过多方面数据关系揭示了隐藏在数据之下的未知关联关系。通过应用推荐算法、朴素贝叶斯算法对结果进行预测实验,实验表明该方法较以往构建关联关系方法有一定优越性,预测结果表明该关联方法有一定可靠性。
表1在同一数据集下,FSNNBC模型与其他模型在LOOCV框架下得到的AUC值
Method AUC
FSNNBC 0.8723
CFNBC 0.8576
NBCLDA 0.8521
HGLDA 0.7621
表2对结直肠肿瘤预测排名前15名且得到验证的lncRNA
Disease lncRNA Evidence(PMID) Rank
Colorectal Neoplasms XIST 17143621;22879877 1
Colorectal Neoplasms MALAT1 25031737;21503572 3
Colorectal Neoplasms KCNQ1OT1 16965397;11340379 4
Colorectal Neoplasms OIP5-AS1 29773344 5
Colorectal Neoplasms NEAT1 26549670 7
Colorectal Neoplasms DCP1A 29964337 8
Colorectal Neoplasms HCG18 31854468 9
Colorectal Neoplasms H19 18719115;27027436 11
Colorectal Neoplasms FGD5-AS1 31332696 12
Colorectal Neoplasms SNHG16 27693121 15
表3对肺肿瘤预测排名前15名且得到验证的lncRNA
Disease lncRNA Evidence(PMID) Rank
Lung Neoplasms XIST 29130102,31632059 1
Lung Neoplasms KCNQ1OT1 30471108 3
Lung Neoplasms OIP5-AS1 29897167 5
Lung Neoplasms NEAT1 25010625 6
Lung Neoplasms SNHG16 28935465 9
Lung Neoplasms HCG18 32559619 14
Lung Neoplasms TUG1 24853421 15

Claims (10)

1.一种融合相似性的lncRNA-miRNA-疾病关联方法,其特征在于所述方法包括如下步骤:
步骤一、通过lncRNA-miRNA关联关系、miRNA-疾病关联关系、lncRNA-疾病关联关系构建lncRNA-miRNA-疾病构成的三重网络;
步骤二、由lncRNA-miRNA-疾病构成的三重网络构建lncRNA-miRNA邻接矩阵、miRNA-疾病邻接矩阵,miRNA-lncRNA邻接矩阵为lncRNA-miRNA邻接矩阵转置所得,疾病-miRNA邻接矩阵由miRNA-疾病邻接矩阵转置所得;
步骤三、将lncRNA-miRNA-疾病构成的三重网络分为lncRNA-miRNA二分网络、miRNA-疾病二分网络,并分别对两个二分网络使用权重分配算法得到lncRNA-miRNA之间miRNA权重矩阵、miRNA-疾病之间miRNA权重矩阵;
步骤四、通过疾病语义相似性与lncRNA-疾病关联数据集、疾病语义相似性与miRNA-疾病关联数据集计算得到lncRNA功能相似矩阵1、miRNA功能相似矩阵;
步骤五、通过miRNA功能相似矩阵和lncRNA-miRNA关联数据集计算得到lncRNA功能相似矩阵2;
步骤六、融合lncRNA功能相似矩阵1和lncRNA功能相似矩阵2得到融合的lncRNA功能相似矩阵;
步骤七、通过miRNA-疾病邻接矩阵计算疾病高斯相互作用剖面核相似度;
步骤八、整合疾病高斯相互作用剖面核相似度和疾病语义相似;
步骤九、由融合lncRNA功能相似矩阵、miRNA-lncRNA邻接矩阵、miRNA-lncRNA之间miRNA的权重矩阵计算得到miRNA-lncRNA潜在关联得分矩阵;
步骤十、由整合疾病语义相似矩阵、miRNA-疾病邻接矩阵、miRNA-疾病权重矩阵计算得到miRNA-疾病潜在关联得分矩阵;
步骤十一、将miRNA-lncRNA潜在关联得分矩阵、miRNA-疾病潜在关联得分矩阵结合形成lncRNA-miRNA-疾病潜在关联得分矩阵。
2.根据权利要求1所述的融合相似性的lncRNA-miRNA-疾病关联方法,其特征在于所述miRNA-lncRNA邻接矩阵ALM={alm}m*n,miRNA-疾病邻接矩阵AMD={amd}n*e,其中:
Figure FDA0002745844570000021
Figure FDA0002745844570000022
lncRNA-miRNA邻接矩阵ALM={alm}m*n中,n表示miRNA的种类数量,m表示lncRNA种类数量;miRNA-疾病邻接矩阵AMD={amd}n*e中,n表示miRNA的种类数量,e表示疾病的种类数量。
3.根据权利要求1所述的融合相似性的lncRNA-miRNA-疾病关联方法,其特征在于所述miRNA-lncRNA之间miRNA权重矩阵为:
Figure FDA0002745844570000023
Figure FDA0002745844570000024
式中,1<i,j<n,n表示miRNA的种类数量,m表示lncRNA种类数量,
Figure FDA0002745844570000031
表示lncRNA-miRNA构成的二分网络中资源在miRNA节点中从第i个节点移动到第j个节点的贡献,
Figure FDA0002745844570000032
分别为lncRNA-miRNA构成的n*m邻接矩阵中i行u列实体与j行u列实体,
Figure FDA0002745844570000033
表示和lncRNA i相关的miRNA种类数量,
Figure FDA0002745844570000034
表示和miRNAj相关的lncRNA的种类数量;
miRNA-疾病之间miRNA权重矩阵为:
Figure FDA0002745844570000035
Figure FDA0002745844570000036
式中,1<i,j<n,n表示miRNA的种类数量,e表示疾病种类数量,
Figure FDA0002745844570000037
表示miRNA-疾病构成的二分网络中资源在miRNA节点中从第i个节点移动到第j个节点的贡献,
Figure FDA0002745844570000038
分别为miRNA-疾病构成邻接矩阵转置形成的疾病-miRNA构成的e*n邻接矩阵中i行u列实体与j行u列实体,
Figure FDA0002745844570000039
表示和疾病i相关的miRNA种类数量,
Figure FDA00027458445700000310
表示和miRNAj相关的疾病种类数量。
4.根据权利要求1所述的融合相似性的lncRNA-miRNA-疾病关联方法,其特征在于所述lncRNA功能相似矩阵1为:
Figure FDA00027458445700000311
其中,
Figure FDA00027458445700000312
式中,dl表示某一疾病,D(i)和D(j)分别表示和lncRNAi和j相关的疾病的集合;矩阵LS1是lncRNA功能相似性矩阵1,第i行第j列实体LS1(i,j)表示lncRNAi与lncRNAj相似度;矩阵DS是疾病语义相似矩阵,第i行第j列实体DS(i,j)表示疾病i与疾病j之间相似度;
miRNA功能相似矩阵为:
Figure FDA0002745844570000041
其中,
Figure FDA0002745844570000042
式中,di表示某一疾病,D(u)和D(v)分别表示和miRNAu和v相关的疾病的集合,矩阵MS是miRNA功能相似性矩阵,第u行第v列实体MS(u,v)表示miRNAu与miRNAv之间的相似度。
5.根据权利要求1所述的融合相似性的lncRNA-miRNA-疾病关联方法,其特征在于所述lncRNA功能相似矩阵2为:
Figure FDA0002745844570000043
其中,
Figure FDA0002745844570000044
式中,ml表示某一miRNA ml,M(i)和M(j)分别表示和lncRNA li和lj相关的miRNA的集合;矩阵LS2是lncRNA功能相似性矩阵2,第i行第j列实体LS2(i,j)表示lncRNAi与lncRNAj相似度。
6.根据权利要求1所述的融合相似性的lncRNA-miRNA-疾病关联方法,其特征在于所述融合lncRNA功能相似矩阵计算方法为:
LS(i,j)=δLS1(i,j)+(1-δ)LS2(i,j);
式中,LS1(i,j)为通过lncRNA-疾病关联关系得到的lncRNA功能相似矩阵1,LS2(i,j)为通过lncRNA-miRNA关联关系得到的lncRNA功能相似矩阵2,δ为权衡因子,范围为(0,1)。
7.根据权利要求1所述的融合相似性的lncRNA-miRNA-疾病关联方法,其特征在于所述miRNA-疾病邻接矩阵计算疾病高斯相互作用剖面核相似度计算方法为:
KD(i,j)=exp(-γd||AMD(:,i)-AMD(:,j)||2);
Figure FDA0002745844570000051
式中,AMD(:,i)为miRNA与疾病构成邻接矩阵中第i列向量,表示疾病i的关联特征,γd负责控制内核带宽。
8.根据权利要求1所述的融合相似性的lncRNA-miRNA-疾病关联方法,其特征在于所述miRNA-lncRNA潜在关联得分矩阵为:
Sml=WLM×AML×LS;
式中,WLM为miRNA-lncRNA之间miRNA的权重矩阵,AML为miRNA-lncRNA邻接矩阵,LS为lncRNA功能相似矩阵。
miRNA-疾病潜在关联得分矩阵为:
Smd=WDM×AMD×SS;
式中,WDM为miRNA-疾病之间miRNA的权重矩阵,AMD为miRNA-疾病邻接矩阵,SS为整合疾病语义相似矩阵。
9.根据权利要求8所述的融合相似性的lncRNA-miRNA-疾病关联方法,其特征在于所述整合疾病语义相似矩阵为:
Figure FDA0002745844570000052
式中,SS为整合疾病语义相似矩阵,DS为疾病语义相似矩阵,KD为疾病高斯相互作用剖面核相似度。
10.根据权利要求1所述的融合相似性的lncRNA-miRNA-疾病关联方法,其特征在于所述lncRNA-miRNA-疾病潜在关联得分矩阵计算方法为:
Figure FDA0002745844570000061
式中,Sml为miRNA-lncRNA潜在关联得分矩阵,Smd为miRNA-疾病潜在关联得分矩阵,Smld为由miRNA-lncRNA潜在关联得分矩阵和miRNA-疾病潜在关联得分矩阵拼接形成的miRNA-lncRNA-疾病潜在关联得分矩阵。
CN202011166151.6A 2020-10-27 2020-10-27 一种融合相似性的lncRNA-miRNA-疾病关联方法 Active CN112289373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011166151.6A CN112289373B (zh) 2020-10-27 2020-10-27 一种融合相似性的lncRNA-miRNA-疾病关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011166151.6A CN112289373B (zh) 2020-10-27 2020-10-27 一种融合相似性的lncRNA-miRNA-疾病关联方法

Publications (2)

Publication Number Publication Date
CN112289373A true CN112289373A (zh) 2021-01-29
CN112289373B CN112289373B (zh) 2021-07-06

Family

ID=74373374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011166151.6A Active CN112289373B (zh) 2020-10-27 2020-10-27 一种融合相似性的lncRNA-miRNA-疾病关联方法

Country Status (1)

Country Link
CN (1) CN112289373B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920903A (zh) * 2018-07-09 2018-11-30 湘潭大学 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统
CN113140255A (zh) * 2021-04-19 2021-07-20 湖南大学 一种预测植物lncRNA-miRNA相互作用的方法
CN113160880A (zh) * 2021-03-19 2021-07-23 广东工业大学 基于高阶接近性和矩阵补全算法的lncRNA-疾病关联预测方法
CN113421614A (zh) * 2021-07-08 2021-09-21 湖南大学 一种基于张量分解的lncRNA-疾病关联预测方法
CN114613438A (zh) * 2022-03-08 2022-06-10 电子科技大学 一种miRNA与疾病的关联预测方法及系统
CN115249538A (zh) * 2021-12-20 2022-10-28 云南师范大学 一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法
CN116052873A (zh) * 2023-01-18 2023-05-02 齐齐哈尔大学 一种基于权重k-近邻的疾病-代谢物关联预测系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934252A (zh) * 2017-03-08 2017-07-07 华南理工大学 一种三方网络资源传播方法
CN108681660A (zh) * 2018-05-07 2018-10-19 福州大学 一种基于关联规则挖掘的非编码rna与疾病关系预测方法
CN108920903A (zh) * 2018-07-09 2018-11-30 湘潭大学 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统
CN109935332A (zh) * 2019-03-01 2019-06-25 桂林电子科技大学 一种基于双随机游走模型的miRNA-疾病关联预测方法
CN110415764A (zh) * 2019-07-25 2019-11-05 东南大学 利用多数据平台发现长链非编码RNA分子标志物运用ceRNA机制的方法及系统和应用
CN110782945A (zh) * 2019-10-22 2020-02-11 长沙学院 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934252A (zh) * 2017-03-08 2017-07-07 华南理工大学 一种三方网络资源传播方法
CN108681660A (zh) * 2018-05-07 2018-10-19 福州大学 一种基于关联规则挖掘的非编码rna与疾病关系预测方法
CN108920903A (zh) * 2018-07-09 2018-11-30 湘潭大学 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统
CN109935332A (zh) * 2019-03-01 2019-06-25 桂林电子科技大学 一种基于双随机游走模型的miRNA-疾病关联预测方法
CN110415764A (zh) * 2019-07-25 2019-11-05 东南大学 利用多数据平台发现长链非编码RNA分子标志物运用ceRNA机制的方法及系统和应用
CN110782945A (zh) * 2019-10-22 2020-02-11 长沙学院 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YONGTIAN WANG ET AL: "Predicting candidate disease-related lncRNAs based on network random walk", 《2018 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE》 *
丁亮: "基于异质性网络链路预测算法的非编码RNA_疾病相关性预测研究", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 *
轩占伟: "基于多维生物分子网络的疾病_ncRNA关联关系模型的研究", 《中国优秀硕士学位论文全文数据库中国优秀硕士学位论文全文数据库》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920903A (zh) * 2018-07-09 2018-11-30 湘潭大学 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统
CN108920903B (zh) * 2018-07-09 2022-04-01 湘潭大学 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统
CN113160880A (zh) * 2021-03-19 2021-07-23 广东工业大学 基于高阶接近性和矩阵补全算法的lncRNA-疾病关联预测方法
CN113140255A (zh) * 2021-04-19 2021-07-20 湖南大学 一种预测植物lncRNA-miRNA相互作用的方法
CN113140255B (zh) * 2021-04-19 2022-05-10 湖南大学 一种预测植物lncRNA-miRNA相互作用的方法
CN113421614A (zh) * 2021-07-08 2021-09-21 湖南大学 一种基于张量分解的lncRNA-疾病关联预测方法
CN115249538A (zh) * 2021-12-20 2022-10-28 云南师范大学 一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法
CN114613438A (zh) * 2022-03-08 2022-06-10 电子科技大学 一种miRNA与疾病的关联预测方法及系统
CN116052873A (zh) * 2023-01-18 2023-05-02 齐齐哈尔大学 一种基于权重k-近邻的疾病-代谢物关联预测系统
CN116052873B (zh) * 2023-01-18 2024-01-26 齐齐哈尔大学 一种基于权重k-近邻的疾病-代谢物关联预测系统

Also Published As

Publication number Publication date
CN112289373B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN112289373B (zh) 一种融合相似性的lncRNA-miRNA-疾病关联方法
CN107545151B (zh) 一种基于低秩矩阵填充的药物重定位方法
CN110459264B (zh) 基于梯度增强决策树预测环状rna与疾病相关性的方法
CN113724790B (zh) 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法
CN114093425A (zh) 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法
Ding et al. MLRDFM: a multi-view Laplacian regularized DeepFM model for predicting miRNA-disease associations
Ding et al. Machine learning approaches for predicting biomolecule–disease associations
Jiang et al. Flexible non-negative matrix factorization to unravel disease-related genes
CN110808083B (zh) 基于scRNA-seq及动态时间规整的基因调控网络构建方法
Ai et al. A multi-layer multi-kernel neural network for determining associations between non-coding RNAs and diseases
CN115527627A (zh) 一种基于超图卷积神经网络的药物重定位方法及系统
Xuan et al. Specific topology and topological connection sensitivity enhanced graph learning for lncRNA–disease association prediction
Wang et al. Graph convolutional neural network with multi-layer attention mechanism for predicting potential microbe-disease associations
Yin et al. Multi-similarity fusion-based label propagation for predicting microbes potentially associated with diseases
Ding et al. Biomarker identification via a factorization machine-based neural network with binary pairwise encoding
Mao et al. Gene regulatory network inference using convolutional neural networks from scRNA-seq data
Jha et al. Continual representation learning for evolving biomedical bipartite networks
Wang et al. CDA-SKAG: Predicting circRNA-disease associations using similarity kernel fusion and an attention-enhancing graph autoencoder
Lu et al. A constrained probabilistic matrix decomposition method for predicting miRNA-disease associations
Chen et al. Similarity fusion via exploiting high order proximity for cancer subtyping
CN112151184A (zh) 基于网络表示学习的计算疾病相似度系统
Li et al. Pattern mining across many massive biological networks
Dang et al. Improved Computational Drug-Repositioning by Self-Paced Non-Negative Matrix Tri-Factorization
Seal et al. RCFGL: Rapid Condition adaptive Fused Graphical Lasso and application to modeling brain region co-expression networks
Rao et al. Predict potential mirna-disease associations based on bounded nuclear norm regularization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant