CN110459264A - 基于梯度增强决策树预测环状rna与疾病相关性的方法 - Google Patents

基于梯度增强决策树预测环状rna与疾病相关性的方法 Download PDF

Info

Publication number
CN110459264A
CN110459264A CN201910711870.2A CN201910711870A CN110459264A CN 110459264 A CN110459264 A CN 110459264A CN 201910711870 A CN201910711870 A CN 201910711870A CN 110459264 A CN110459264 A CN 110459264A
Authority
CN
China
Prior art keywords
circular rna
disease
similitude
rna
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910711870.2A
Other languages
English (en)
Other versions
CN110459264B (zh
Inventor
雷秀娟
方增强
张宇辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN201910711870.2A priority Critical patent/CN110459264B/zh
Publication of CN110459264A publication Critical patent/CN110459264A/zh
Application granted granted Critical
Publication of CN110459264B publication Critical patent/CN110459264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于梯度增强决策树预测环状RNA与疾病相关性的方法,通过将环状RNA‑疾病关系网络转化为无向图、计算环状RNA碱基序列相似性、功能注释语义相似性以及表达相似性,计算疾病功能以及语义相似性,采用多网络融合算法整合多种环状RNA相似性网络以及加权平均整合疾病相似性网络,提取融合后的环状RNA和疾病相似性网络以及环状RNA‑疾病关系网络的统计学特征,将融合后的环状RNA和疾病相似性网络转换成无权图的图相关特征,环状RNA碱基序列特征以及环状RNA‑疾病关系网络隐式向量特征,训练梯度增强决策树学习机,预测潜在环状RNA‑疾病关系。本发明方法能准确地预测出潜在环状RNA‑疾病关系;且提高了环状RNA‑疾病关系的预测准确率。

Description

基于梯度增强决策树预测环状RNA与疾病相关性的方法
技术领域
本发明属于生物信息技术领域,具体涉及一种基于梯度增强决策树预测环状RNA与疾病相关性的方法。
背景技术
环状RNA是一种短的非编码RNA,环状RNA分子中没有游离在外的5’-cap端和3’-polaydenylated尾端结构,而是一种封闭的环状结构,相比于以5’cap端和3’tail结尾的线性RNA,这是最大的不同。正是因为这种封闭的环状结构使得环状RNA在生物体中更难被检测到。与此同时,封闭的环状结构使环状RNA相比于线性RNA更加稳定,进而可以被为标记某些疾病的生物标志物。随着碱基序列检测技术和高通量技术的发展,越来越多的环状RNA和疾病的关系被揭露。许多研究结果表明,环状RNA可以作为竞争性内源性RNA或小RNA的海绵,这些使得环状RNA作为疾病的生物标志物产生提供更多的可能。其次,通过分离翻译起始位置来调节蛋白质表达。环状RNA也可以对选择性剪接和转录过程产生影响,并参与调节亲本基因的表达。更重要的是,环状RNA还可以充当视黄醇结合蛋白(RBP)海绵,可以加强MBL蛋白和环状MBL[10]之间的相互作用,或者作为模板参与翻译过程。此外,越来越多的证据和研究表明,环状RNA在疾病诊断和治疗中发挥着重要作用,特别是针对于各种癌症、心血管疾病、糖尿病等,目前环状RNA与疾病相关性研究是一个较为前沿的工作,这些研究也能够通过环状RNA-微小RNA-mRNA通路来探索潜在的未知关系。
近年来,环状RNA其他生物分子之间的如环状RNA-微小RNA、环状RNA-长非编码RNA等的复杂联系。为了更好地促进环状RNA的研究,构建了一些有用的数据库来收集环状RNA的信息,circBase(http://www.circbase.org/)、circ2traits(http://gyanxet.beta.com/circdb/)和circ2disease(http://bioinfo.snnu.edu.cn/circr2disease/)。由于环状RNA具有特殊的封闭环状结构,因此具有很高的抗核酸酶能力。封闭环状结构也使得环状RNA半衰期比通常的线性RNAs更长,RNA半衰期存在的差异更能成为推断环状RNA与疾病相互作用关系的一个标志特性。虽然传统的RNA碱基序列计算技术已经被广泛地应用于疾病相关基因的检测,并采用高通量技术加以验证,在这些先进技术的帮助下我们获得一些准确的实验结果,但这些技术仍然是非常的昂贵和耗时的。与此同时,预测潜在环状RNA和疾病相互作用关系的计算模型现在也很少。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于梯度增强决策树预测环状RNA与疾病相关性的方法,本发明通过从多生物数据融合的环状RNA和疾病网络中提取的环状RNA和疾病的相互左右对的特征向量在梯度增强决策树训练,提高了环状RNA-疾病相互作用关系预测准确率。
为了达到上述目的,本发明采用以下技术方案予以实现:
基于梯度增强决策树预测环状RNA与疾病相关性的方法,包括以下步骤:
(1)人类环状RNA-疾病关系提取
将环状RNA-疾病关系转换成一个无向图,相互作用关系的邻接矩阵A,邻接矩阵中的A(i,j)表示为一个环状RNA-疾病关系对实体,如果在环状RAN i和疾病j之间存在相互作用关系,则A(i,j)=1,反之A(i,j)=0;
(2)环状RNA序列相似性提取及计算
通过python包集成的Needleman-Wunsch方法,计算每一对环状RNA之间的序列相似性分数,构建环状RNA的碱基序列相似性矩阵Seq_CS;
(3)环状RNA功能注释语义相似性
在人类蛋白质参考数据库中下载环状RNA靶点作用基因的本体注释数据,根据基因筛选出其对应的本体数据,将环状RNA靶点作用基因和处理完的带有本体数据的基因进行匹配,再通过一种基于信息内容的方法来计算环状RNA功能注释语义相似性得分,构建环状RNA功能注释语义相似性矩阵Fun_CS,Fun_CS矩阵中的Fun_CS(n,m)为环状RNAn和环状RNAm之间的功能注释语义相似性得分;
(4)环状RNA表达谱相似性
在exoRBase数据库中下载环状RNA在人类组织中32个不同位点的基因表达量数据,环状RNA的基因表达谱数据被表示为一个维度为32的向量,再通过皮尔森相关系数计算两个环状RNA之间的相关性,从而构建环状RNA表达谱相似性矩阵ES;
(5)多种环状RNA相似性融合
通过多网络融合算法,将在步骤(2)、(3)、(4)中获取的环状RNA碱基序列相似性矩阵Seq_CS、功能语义相似性矩阵Fun_CS以及表达谱相似性矩阵ES合并成一个综合环状RNA相似性网络,在将环状RNA序列相似,功能注释相似性以及表达谱相似性网络融合之前,对这三个相似性网络进行归一化处理;
(6)计算疾病功能相似性
在DisGeNet数据库中下载疾病相关的基因数据,在人类在线孟德尔遗传数据库中下载疾病表型相关基因数据,以此计算疾病功能相似性;
(7)计算疾病语义相似性
将筛选出来的疾病在DiseaseOntology数据库中对应成相应的DOID,再通过一个R语言的集成包计算疾病语义相似性DSS,再将疾病功能相似性和语义相似性融合;
(8)构建环状RNA-疾病特征向量
在构建完环状RNA疾病关系邻接矩阵,融合多数据的环状RNA相似性矩阵以及疾病相似性矩阵,提取环状RNA-疾病关系对的以下四种不同的特征,分别包括多数据网络融合的环状RNA和疾病相似网络统计学特征、将环状RNA和疾病相似性网络转换成邻接矩阵之后的图特征、环状RNA核酸序列数据生物含义特征、疾病相似网络和环状RNA疾病关联矩阵中的隐式向量特征,将四种特征压缩成每对环状RNA-疾病特征向量;
(9)训练梯度增强决策树回归模型
通过步骤(8)构建每对环状RNA-疾病相互作用的特征向量,在负样本中随机抽取与正样本数量相同的负样本,负样本指未知环状RNA-疾病关系的样本,正样本指已知环状RNA-疾病关系的样本,将这些正负样本输入到梯度增强决策树学习机中来训练,最后将未确定的环状RNA-疾病关系特征向量输入到训练好的模型中预测环状RNA-疾病存在关系的可能性。
进一步地,步骤(5)中按式(1)来将每个环状RNA相似性网络对应的矩阵归一化:
式中P(i,j)表示的是归一化之后的相似性网络对应的矩阵,W(i,j)表示的是原始的相似性网络对应的矩阵,M代表原始相似性网络对应的矩阵的个数,按式(2)计算归一化后的相似性网络对应的矩阵的局部相似性:
式中S(i,j)代表的是局部相似性网络对应的矩阵,WM代表的是第M个环状RNA相似网络,WM(i,j)代表是第M个环状RNA相似网络中的环状RNAi和j的相似性得分,V(i)代表的是环状RNAi前20个相似的环状RNA集合,k代表的是集合V(i)中的一个环状RNA,WM(i,k)第M个环状RNA相似网络中的环状RNAi和k的相似性得分,然后按式(3)来计算全局相似性:
式中Pt (i)代表的是经过t次迭代之后产生的相似性矩阵的全局相似性,S(i)代表的是第i个环状RNA局部相似性网络,M代表的是环状RNA相似性网络的数量,(S(i))T代表的的S(i)的转置,代表的是除了第i个环状RNA相似性网络其他环状RNA相似性网络,然后按式(4)将整合了局部和全局的相似进行融合;
式中P代表将M个环状RNA相似性网络整合之后的环状RNA相似性网络。
进一步地,步骤(6)中按式(5)计算疾病功能相似性:
式中分别代表两个疾病相关的基因集合。
进一步地,步骤(7)中按式(6)将疾病功能相似性和语义相似性融合:
DS(i,j)=α·DFS(i,j)+(1-α)·DSS(i,j) 式(6)
式中α代表疾病功能相似性和语义相似性融合权重因子,DS(i,j)代表的是整合后的疾病相似性网络,DFS(i,j)代表的是一对疾病的功能相似性得分,DSS(i,j)代表的是一对疾病的语义相似性得分。
进一步地,步骤(8)中环状RNA-疾病特征向量的构建方法具体为:
为了提取环状RNA-疾病关系中的融合了多种环状RNA相似性网络P、疾病相似性整合矩阵DS和环状RNA-疾病相互作用关系网络A中的统计学信息特征,首先通过计算环状RNA-疾病相互作用关系矩阵A中第i列或第j行的和来计算环状RNAi和疾病j的邻居个数F1.num.nei,根据环状RNA相似性矩阵P和疾病相似性矩阵DS计算环状RNAi和疾病j的平均相似度F1.sim.ave,此外,环状RNAi和疾病j相似性的分布特征,即F1.dis.num,将相似度得分根据分布划分为5个区间,统计每个区间的相似性分的数量;
为了提取环状RNA和疾病的从图的角度来提取融合了多种环状RNA相似矩阵P和疾病相似性整合矩阵DS的特征,首先将多网络融合环状RNA相似性矩阵P和疾病相似性矩阵DS各自求和计算出对应的平均相似性,环状RNA相似矩阵P和疾病相似矩阵DS转换为无权重图,对于重新构建的无权图得到环状RNAi和疾病j的邻居数,表示为F2.num.nei,根据多网络融合环状RNA相似性矩阵P和疾病相似性矩阵DS,计算环状RNAi和疾病j的相似度得分排在前十的邻居,表示为F2.k.sim,对于提取出环状RNA相似性网络和疾病相似性网络的统计学特征,通过相似性排在前10个环状RNA和疾病的邻居节点来计算第一类特征的平均值,即F2.ave.feat1,并且通过环状RNA和疾病对应的相似性值加权,表示为F2.w.ave.feat1,为了得到更多的环状RNA和疾病的无权重图的信息,计算多网络融合环状RNA相似性矩阵P和疾病相似性矩阵DS中每个节点的中间中心性、紧密中心性和特征向量中心性,分别表示为F2.bc、F2.cc和F2.ec;
为了提取环状RNA的碱基核苷酸序列中的特性来计算其生物学特征,核酸序列中GC碱基的含量作为生物学特性的一个重要指标,表示为F3.gc.cont,碱基序列的k-mer特征也被用来计算环状RNA的生物特征,表示为F3.base.k-mer;
为了提取环状RNA-疾病关联矩阵A中的隐式向量特征,采用奇异值分解算法分解环状RNA-疾病的隐式向量,表示为F4.svd,此外,从环状RNA-疾病关联矩阵A中获取一对环状RNA和疾病的相关疾病和环状RNA数量,用F4.c.d.num和F4.d.c.num来分别表示一对环状RNA和疾病的相关疾病和环状RNA的数量,进而计算环状RNA-疾病关系矩阵中每个环状RNA和疾病节点的中间中心性、紧密中心性和特征向量中心性,分别表示为F4.c.d.bc、F4.c.d.cc和F4.c.d.ec;
在提取了多网络融合的环状RNA相似网络P的统计学特征F1、将多网络融合的环状RNA相似网络P和疾病相似网络DS转换成对应的无权重图的图特征F2、环状RNA的碱基序列的生物特征F3以及环状RNA-疾病关联网络A的隐式向量特征F4所有信息后,构建每对环状RNA-疾病的特征向量,将四类特征合并为每个环状RNA-疾病关联关系的特征向量,按式(7)所示:
F(c(i),d(j))=[F1,F2,F3,F4] 式(7)
式中F(c(i),d(j))代表的是环状RNAi和疾病j关系对特征向量。
进一步地,步骤(3)中,环状RNA之间的功能注释语义相似性得分,由式(8)得到:
式中,Ci和Cj分别代表环状RNAi和j靶点基因相关的本体数据集合,P(Ci)和P(Cj)分别代表环状RNAi和j靶点基因相关的本体数据集合数量和使用的本体数据数量的比值,P(Ci∪j)表示的是环状RNAi和j共有的靶点基因相关的本体数据的数量与使用中的本体数据数量之间的比例。
进一步地,步骤(4)中,环状RNA之间的表达谱相似性得分,由式(9)得到:
式中,N是环状RNA表达位点的数量,Cit代表的是第i个环状RNA在t位点的表达量值,代表的是第i个环状RNA的平均表达量,Cjt代表的是第j个环状RNA在t位点的表达量值,代表的是第j个环状RNA的平均表达量。
与现有技术相比,本发明具有以下有益效果:
1、本发明采用利用环状RNA的碱基序列,人体不同位点的表达谱数据以及相关靶点基因对应的基因本体数据,分别采用了序列比对算法,信息量和皮尔森相关系数建立了三种不同的环状RNA相似性网络。进而再采用了一种网络融合算法,考虑了每个网络的局部信息和全局影响,将三个网络融合成一个环状RNA相似性网络。对于疾病,利用疾病相关的基因数据和表型数据,分别采用JACCARD算法和DOSE算法计算了疾病功能相似性和语义相似性。对两个疾病相似性网络采用加权平均的方式进行融合。多数据的综合考虑和有效的融合算法,使得更多的环状RNA和疾病数据的信息被考虑,减少了信息的损失,提高了潜在环状RNA-疾病关系预测准确率。
2、本发明在通过在多数据融合的环状RNA相似性网络,疾病相似性网络以及环状RNA-疾病相互作用网络提取了四类不同特征分别是,环状RNA和疾病相似性网络统计学特征,将环状RNA,疾病相似性网络转换成对应的无权重图的图论相关特征,环状RNA碱基序列相关特征以及环状RNA-疾病相互作用网络的隐式向量特征,进而采用梯度增强决策树学习机对相关的正负样本训练,提高了潜在环状RNA-疾病关系预测准确率。
3、采用本发明能够有效地基于多数据融合的多元网络中提取出环状RNA-疾病对特征输入梯度增强决策树学习机训练来预测潜在环状RNA-疾病关系,为进一步分析环状RNA和疾病的复杂关系以及生物学功能奠定了基础。此研究不仅有助于理解细胞的运作机理和生命活动机制,也为探讨重大疾病的机理、疾病的诊断、临床治疗、预防以及新药物的开发提供前期的理论分析,这将为合成生物学与系统医学的研究与发展提供重要的理论指导和应用价值。
附图说明
图1为本发明的基于梯度增强决策树预测环状RNA与疾病相关性的方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
如图1所示,本发明基于梯度增强决策树预测环状RNA与疾病相关性的方法,包括以下步骤:
以下通过具体实施例对本发明进一步详细说明:
下面是以预测从circ2Disease数据库中获取的环状RNA,疾病数据建立的环状RNA-疾病相互作用关系网络为例的一种基于梯度增强决策树预测环状RNA与疾病相关性的方法,具体操作如下:
本实施例以采自circR2Disease数据库提供的环状RNA-疾病相互作用数据作为仿真数据集,根据环状RNA的碱基序列数据,人类组织表达谱数据和相关靶点基因的本体数据,筛选出总共包括140个环状RNA-疾病相关系,132个环状RNA和40个疾病数据。环状RNA碱基序列数据从circBase数据库中获取,人类组织表达谱数据在exoRbase数据库中获取以及基因本体数据从HPRD数据库中获取;疾病相关基因数据从DisGENet数据库和OMIM的数据库中下载,语义相似性数据将疾病名称输入在DiseaseOntology数据库中转换成对应的DOID,再利用DOSER语言包工具计算。实验平台为Windows 10操作系统,Intel酷睿i5-7400双核3.00GHz处理器,8GB物理内存,用pyCharm2017软件实现本发明的方法。
具体步骤如下:
1、人类环状RNA-疾病关系提取
将根据环状RNA和疾病相似性数据筛选出包含了132和环状RNA,40个疾病以及140环状RNA-疾病关系转换成一个无向图,相互作用关系的邻接矩阵A,A(i,j)表示为一个环状RNA-疾病关系对实体,如果在环状RAN i和疾病j之间存在相互作用关系A(i,j)=1,反之A(i,j)=0;
2、环状RNA序列相似性提取及计算
通过python包集成的Needleman-Wunsch方法,计算每一对环状RNA之间的序列相似性分数,构建环状RNA的碱基序列相似性矩阵Seq_CS;
3、环状RNA功能注释语义相似性
在人类蛋白质参考数据库(HPRD)中下载环状RNA靶点作用基因的本体注释数据,根据基因筛选出其对应的本体数据,将环状RNA靶点作用基因和处理完的带有本体数据的基因进行匹配,再通过一种基于信息内容的方法来计算环状RNA功能注释语义相似性得分,构建环状RNA功能注释语义相似性矩阵Fun_CS,Fun_CS(i,j)为环状RNAi和环状RNAj之间的功能注释语义相似性得分,Fun_CS可由式(1):
式中,Ci和Cj分别代表环状RNAi和j靶点基因相关的本体数据集合,P(Ci)和P(Cj)分别代表环状RNAi和j靶点基因相关的本体数据集合数量和使用的本体数据数量的比值,P(Ci∪j)表示的是环状RNAi和j共有的靶点基因相关的本体数据的数量与使用中的本体数据数量之间的比例;
4、环状RNA表达谱相似性
在exoRBase数据库中下载环状RNA在人类组织中32个不同位点的基因表达量数据,环状RNA的基因表达谱数据可以被表示为一个维度为32的向量,再通过皮尔森相关系数计算两个环状RNA之间的相关性,从而构建环状RNA表达谱相似性矩阵ES,可由式(2):
式中N是环状RNA表达位点的数量,Cit代表的是第i个环状RNA在t位点的表达量值,代表的是第i个环状RNA的平均表达量,Cjt代表的是第j个环状RNA在t位点的表达量值,代表的是第j个环状RNA的平均表达量;
5、多种环状RNA相似性融合
通过多网络融合算法,将在(2)、(3)、(4)步中获取的环状RNA序列相似性、功能语义相似性以及表达谱相似性合并成一个综合环状RNA相似性网络,在将多种相似性网络融合之前,需要对每个相似性网络进行归一化处理,为了避免归一化的矩阵出现为行之和为一和对角线上元素为一,这里按式(3)来将不同的相似性矩阵归一化:
式中P(i,j)表示的是归一化之后的相似性矩阵,W(i,j)表示的是原始的相似性矩阵,M代表原始相似性矩阵的个数,按式(4)计算归一化后的相似性矩阵的局部相似性:
式中S(i,j)代表的是局部相似性矩阵,V(i)代表的是环状RNAi前K个相似的环状RNA集合,然后按式(5)来计算全局相似性:
式中Pt (i)代表的是每个相似性矩阵的全局相似性,最后按式(6)将整合了局部和全局的相似进行融合:
6、计算疾病功能相似性
在DisGeNet数据库中下载疾病相关的基因数据,为了保证数据的可靠性,人类在线孟德尔遗传数据(OMIM)中下载了疾病表型相关基因数据,按式(7)来计算疾病功能相似性:
式中分别代表疾病i和j相关的基因集合;
7、计算疾病语义相似性
将筛选出来的疾病在DiseaseOntology数据库中对应成相应的DOID,再通过一个R语言的集成包(DOSE)计算疾病语义相似性DSS,再按式(8)将疾病功能相似性和语义相似性融合:
DS(i,j)=α·DFS(i,j)+(1-α)·DSS(i,j) 式(8)
式中α代表疾病功能相似性和语义相似性融合权重因子;
8、环状RNA-疾病特征向量构建
环状RNA-疾病对的特征主要分为以下四种不同的特征,分别包括多数据网络融合的环状RNA相似网络、环状RNA核酸序列数据、疾病相似网络和环状RNA疾病关联矩阵,以下是环状RNA-疾病特征向量具体的构建方法:
为了提取环状RNAi和疾病j的第一类特征,提取融合了多种环状RNA相似性网络P、疾病相似性整合矩阵DS和环状RNA-疾病相互作用关系网络统计学信息。通过计算环状RNA-疾病相互作用关系矩阵A中第i列或第j行的和来计算环状RNAi和疾病j的邻居个数,F1.num.nei,根据环状RNA相似性矩阵P和疾病相似性矩阵DS计算环状RNAi和疾病j的平均相似度,F1.sim.ave,此外,环状RNAi和疾病j相似性的分布特征,即F1.dis.num,将相似度得分根据分布划分为5个区间;
为了环状RNAi或疾病j的第二类特征,从图的角度来提取多网络融合环状RNA相似矩阵P和疾病相似性矩阵DS的特征,首先将相似性矩阵P和DS按照其对应的平均相似性,环状RNA相似矩阵P和疾病相似矩阵DS转换为无权重图,对于重新构建的无权图得到环状RNAi和疾病j的邻居数,表示为F2.num.nei,根据带权相似度矩阵P和DS,计算环状RNAi和疾病j的相似度得分排在前十的邻居,可表示为F2.k.sim,对于提取出的第一类环状RNA和疾病特征,通过相似性排在前10个环状RNA和疾病的邻居节点来计算第一类特征的平均值,即F2.ave.feat1,并且通过环状RNA和疾病对应的相似性值加权,如F2.w.ave.feat1,为了得到更多的环状RNA和疾病的无权重图的信息,计算矩阵P和DS中每个节点的中间中心性、紧密中心性和特征向量中心性,分别可以表示为F2.bc、F2.cc和F2.ec;
为了构建环状RNA的第三个特征,采用环状RNA的碱基核苷酸序列来计算其生物学特征,核酸序列中GC碱基的含量可以作为生物学特性的一个重要指标,F3.gc.cont,碱基序列的k-mer特征也被用来计算环状RNA的生物特征,表示为F3.base.k-mer;
为了从环状RNA-疾病关联矩阵A提取第四类特征,采用奇异值分解(SVD)算法分解环状RNA-疾病的隐式向量,表示为F4.svd,此外,为了获得到环状RNAi和疾病j邻居数目,分别称为F4.c.d.num和F4.d.c.num,进而计算环状RNA-疾病关系矩阵中每个环状RNA和疾病节点的中间中心性、紧密中心性和特征向量中心性,分别表示为F4.c.d.bc、F4.c.d.cc和F4.c.d.ec;
在提取了circRNA相似网络、疾病相似网络和circRNA疾病关联网络的所有信息后,构建了每对circRNA疾病的特征向量,将四类特征合并为每个环状RNA-疾病关联关系的特征向量,按式(9)所示:
F(c(i),d(j))=[F1,F2,F3,F4] 式(9)
9、训练梯度增强决策树回归模型
通过步骤(9)构建每对环状RNA-疾病相互作用的特征向量,在负样本中随机抽取与正样本数量相同的负样本,将这些正负样本输入到模型中来训练梯度增强决策数学习机,最后将未确定的环状RNA-疾病关系特征向量输入到训练好的模型中预测环状RNA-疾病存在关系的可能性。
为了验证本发明的有效性,发明人采用本发明实施例1基于梯度增强决策树预测环状RNA与疾病相关性的方法对circR2Disease数据库中的环状RNA-疾病关系进行预测,对环状RNA-疾病关系网络中的已知的作用关系实施留一交叉验证,以此来分析本发明的预测性能,结果见表1-3,表1显示了与当前其他关系预测方法预测的环状RNA-疾病潜在关系的结果进行预测精确率(precision)、召回率(recall)、准确率(accuracy)以及f1-measure的比较,表2显示了与其它关系预测方法在前k个预测结果中,环状RNA-疾病关系预测正确数据的比较。表3列出了本发明预测出的前10个潜在环状RNA-乳腺癌关系在其他数据库或相关文献中的验证。
表1显示了采用本发明预测出的环状RNA-疾病关系与circR2Disease数据中标准数据进行比较的精确率(precision)、召回率(recall)、准确率(accuracy)以及f1-measure的比较,以及与其它10种关系预测方法的预测结果的比较。由表1可以看出,与其他方法相比,本发明方法能更有效地预测环状RNA-疾病潜在关系,本发明方法都有最高的预测召回率(recall)、准确率(accuracy)以及f1-measure。表2显示了预测出的环状RNA-疾病潜在关系得分在前80,100,120,140,160,180以及200时,本发明方法和其他10种方法在也在对应的前80,100,120,140,160,180以及200时的预测正确环状RNA-疾病潜在关系数量的比较结果。由表2可以看出,与其他方法相比,本发明在前80,100,120,140,160,180,200中的正确预测环状RNA-疾病数量都是最高的,预测结果最好。表3本发明预测出的前10个潜在环状RNA-乳腺癌关系在其他数据库或相关文献中的验证情况,由表3可以看出在预测的前十个和乳腺癌相关的环状RNA中,被其他数据库和相关文献验证的环状RNA有7个,'hsa_circRNA_103454/hsa_circ_0067103','hsa_circ_0006411',以及'circRNA_100984/hsa_circ_0002019','YBL093C'等3个是预测出的乳腺癌潜在相关的环状RNA。由表1、表2和表3可以看出,本发明能够准确、有效地预测出潜在的环状RNA-疾病关系。
表1本发明与其他关系预测方法识别的关键蛋白质在准确率上的比较
表2本发明和其他方法在前k预测环状RNA-疾病结果正确数量的比较
表3本发明预测出的潜在环状RNA-乳腺癌关系在其他数据库/文献中的验证
综上所述,本发明基于梯度增强决策树预测环状RNA与疾病相关性的方法,通过将环状RNA-疾病关系网络转化为无向图、计算环状RNA碱基序列相似性、功能注释语义相似性以及表达相似性,计算疾病功能以及语义相似性,采用多网络融合算法整合多种环状RNA相似性网络以及加权平均整合疾病相似性网络,提取融合后的环状RNA和疾病相似性网络以及环状RNA-疾病关系网络的统计学特征,将融合后的环状RNA和疾病相似性网络转换成无权图的图相关特征,环状RNA碱基序列特征以及环状RNA-疾病关系网络隐式向量特征,训练梯度增强决策树学习机,预测潜在环状RNA-疾病关系。本发明方法能准确地预测出潜在环状RNA-疾病关系;仿真实验结果表明,灵敏度、特异性、F测度、阳性预测值、阴性预测值以及正确率等指标较优;与其他关系预测方法相比,在多数据融合的相似性网络中提取特征,进而采用梯度增强决策树学习机训练预测环状RNA-疾病潜在关系,提高了环状RNA-疾病关系的预测准确率。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (7)

1.基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,包括以下步骤:
(1)人类环状RNA-疾病关系提取
将环状RNA-疾病关系转换成一个无向图,相互作用关系的邻接矩阵A,邻接矩阵中的A(i,j)表示为一个环状RNA-疾病关系对实体,如果在环状RAN i和疾病j之间存在相互作用关系,则A(i,j)=1,反之A(i,j)=0;
(2)环状RNA序列相似性提取及计算
通过python包集成的Needleman-Wunsch方法,计算每一对环状RNA之间的序列相似性分数,构建环状RNA的碱基序列相似性矩阵Seq_CS;
(3)环状RNA功能注释语义相似性
在人类蛋白质参考数据库中下载环状RNA靶点作用基因的本体注释数据,根据基因筛选出其对应的本体数据,将环状RNA靶点作用基因和处理完的带有本体数据的基因进行匹配,再通过一种基于信息内容的方法来计算环状RNA功能注释语义相似性得分,构建环状RNA功能注释语义相似性矩阵Fun_CS,Fun_CS矩阵中的Fun_CS(n,m)为环状RNAn和环状RNAm之间的功能注释语义相似性得分;
(4)环状RNA表达谱相似性
在exoRBase数据库中下载环状RNA在人类组织中32个不同位点的基因表达量数据,环状RNA的基因表达谱数据被表示为一个维度为32的向量,再通过皮尔森相关系数计算两个环状RNA之间的相关性,从而构建环状RNA表达谱相似性矩阵ES;
(5)多种环状RNA相似性融合
通过多网络融合算法,将在步骤(2)、(3)、(4)中获取的环状RNA碱基序列相似性矩阵Seq_CS、功能语义相似性矩阵Fun_CS以及表达谱相似性矩阵ES合并成一个综合环状RNA相似性网络,在将环状RNA序列相似,功能注释相似性以及表达谱相似性网络融合之前,对这三个相似性网络进行归一化处理;
(6)计算疾病功能相似性
在DisGeNet数据库中下载疾病相关的基因数据,在人类在线孟德尔遗传数据库中下载疾病表型相关基因数据,以此计算疾病功能相似性;
(7)计算疾病语义相似性
将筛选出来的疾病在DiseaseOntology数据库中对应成相应的DOID,再通过一个R语言的集成包计算疾病语义相似性DSS,再将疾病功能相似性和语义相似性融合;
(8)构建环状RNA-疾病特征向量
在构建完环状RNA疾病关系邻接矩阵,融合多数据的环状RNA相似性矩阵以及疾病相似性矩阵,提取环状RNA-疾病关系对的以下四种不同的特征,分别包括多数据网络融合的环状RNA和疾病相似网络统计学特征、将环状RNA和疾病相似性网络转换成邻接矩阵之后的图特征、环状RNA核酸序列数据生物含义特征、疾病相似网络和环状RNA疾病关联矩阵中的隐式向量特征,将四种特征压缩成每对环状RNA-疾病特征向量;
(9)训练梯度增强决策树回归模型
通过步骤(8)构建每对环状RNA-疾病相互作用的特征向量,在负样本中随机抽取与正样本数量相同的负样本,负样本指未知环状RNA-疾病关系的样本,正样本指已知环状RNA-疾病关系的样本,将这些正负样本输入到梯度增强决策树学习机中来训练,最后将未确定的环状RNA-疾病关系特征向量输入到训练好的模型中预测环状RNA-疾病存在关系的可能性。
2.根据权利要求1所述的基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,步骤(5)中按式(1)来将每个环状RNA相似性网络对应的矩阵归一化:
式中P(i,j)表示的是归一化之后的相似性网络对应的矩阵,W(i,j)表示的是原始的相似性网络对应的矩阵,M代表原始相似性网络对应的矩阵的个数,按式(2)计算归一化后的相似性网络对应的矩阵的局部相似性:
式中S(i,j)代表的是局部相似性网络对应的矩阵,WM代表的是第M个环状RNA相似网络,WM(i,j)代表是第M个环状RNA相似网络中的环状RNAi和j的相似性得分,V(i)代表的是环状RNAi前20个相似的环状RNA集合,k代表的是集合V(i)中的一个环状RNA,WM(i,k)第M个环状RNA相似网络中的环状RNAi和k的相似性得分,然后按式(3)来计算全局相似性:
式中代表的是经过t次迭代之后产生的相似性矩阵的全局相似性,S(i)代表的是第i个环状RNA局部相似性网络,M代表的是环状RNA相似性网络的数量,(S(i))T代表的的S(i)的转置,代表的是除了第i个环状RNA相似性网络其他环状RNA相似性网络,然后按式(4)将整合了局部和全局的相似进行融合;
式中P代表将M个环状RNA相似性网络整合之后的环状RNA相似性网络。
3.根据权利要求2所述的基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,步骤(6)中按式(5)计算疾病功能相似性:
式中分别代表两个疾病相关的基因集合。
4.根据权利要求3所述的基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,步骤(7)中按式(6)将疾病功能相似性和语义相似性融合:
DS(i,j)=α·DFS(i,j)+(1-α)·DSS(i,j) 式(6)
式中α代表疾病功能相似性和语义相似性融合权重因子,DS(i,j)代表的是整合后的疾病相似性网络,DFS(i,j)代表的是一对疾病的功能相似性得分,DSS(i,j)代表的是一对疾病的语义相似性得分。
5.根据权利要求4所述的基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,步骤(8)中环状RNA-疾病特征向量的构建方法具体为:
为了提取环状RNA-疾病关系中的融合了多种环状RNA相似性网络P、疾病相似性整合矩阵DS和环状RNA-疾病相互作用关系网络A中的统计学信息特征,首先通过计算环状RNA-疾病相互作用关系矩阵A中第i列或第j行的和来计算环状RNAi和疾病j的邻居个数F1.num.nei,根据环状RNA相似性矩阵P和疾病相似性矩阵DS计算环状RNAi和疾病j的平均相似度F1.sim.ave,此外,环状RNAi和疾病j相似性的分布特征,即F1.dis.num,将相似度得分根据分布划分为5个区间,统计每个区间的相似性分的数量;
为了提取环状RNA和疾病的从图的角度来提取融合了多种环状RNA相似矩阵P和疾病相似性整合矩阵DS的特征,首先将多网络融合环状RNA相似性矩阵P和疾病相似性矩阵DS各自求和计算出对应的平均相似性,环状RNA相似矩阵P和疾病相似矩阵DS转换为无权重图,对于重新构建的无权图得到环状RNAi和疾病j的邻居数,表示为F2.num.nei,根据多网络融合环状RNA相似性矩阵P和疾病相似性矩阵DS,计算环状RNAi和疾病j的相似度得分排在前十的邻居,表示为F2.k.sim,对于提取出环状RNA相似性网络和疾病相似性网络的统计学特征,通过相似性排在前10个环状RNA和疾病的邻居节点来计算第一类特征的平均值,即F2.ave.feat1,并且通过环状RNA和疾病对应的相似性值加权,表示为F2.w.ave.feat1,为了得到更多的环状RNA和疾病的无权重图的信息,计算多网络融合环状RNA相似性矩阵P和疾病相似性矩阵DS中每个节点的中间中心性、紧密中心性和特征向量中心性,分别表示为F2.bc、F2.cc和F2.ec;
为了提取环状RNA的碱基核苷酸序列中的特性来计算其生物学特征,核酸序列中GC碱基的含量作为生物学特性的一个重要指标,表示为F3.gc.cont,碱基序列的k-mer特征也被用来计算环状RNA的生物特征,表示为F3.base.k-mer;
为了提取环状RNA-疾病关联矩阵A中的隐式向量特征,采用奇异值分解算法分解环状RNA-疾病的隐式向量,表示为F4.svd,此外,从环状RNA-疾病关联矩阵A中获取一对环状RNA和疾病的相关疾病和环状RNA数量,用F4.c.d.num和F4.d.c.num来分别表示一对环状RNA和疾病的相关疾病和环状RNA的数量,进而计算环状RNA-疾病关系矩阵中每个环状RNA和疾病节点的中间中心性、紧密中心性和特征向量中心性,分别表示为F4.c.d.bc、F4.c.d.cc和F4.c.d.ec;
在提取了多网络融合的环状RNA相似网络P的统计学特征F1、将多网络融合的环状RNA相似网络P和疾病相似网络DS转换成对应的无权重图的图特征F2、环状RNA的碱基序列的生物特征F3以及环状RNA-疾病关联网络A的隐式向量特征F4所有信息后,构建每对环状RNA-疾病的特征向量,将四类特征合并为每个环状RNA-疾病关联关系的特征向量,按式(7)所示:
F(c(i),d(j))=[F1,F2,F3,F4] 式(7)
式中F(c(i),d(j))代表的是环状RNAi和疾病j关系对特征向量。
6.根据权利要求1所述的基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,步骤(3)中,环状RNA之间的功能注释语义相似性得分,由式(8)得到:
式中,Ci和Cj分别代表环状RNA i和j靶点基因相关的本体数据集合,P(Ci)和P(Cj)分别代表环状RNAi和j靶点基因相关的本体数据集合数量和使用的本体数据数量的比值,P(Ci∪j)表示的是环状RNAi和j共有的靶点基因相关的本体数据的数量与使用中的本体数据数量之间的比例。
7.根据权利要求6所述的基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,步骤(4)中,环状RNA之间的表达谱相似性得分,由式(9)得到:
式中,N是环状RNA表达位点的数量,Cit代表的是第i个环状RNA在t位点的表达量值,代表的是第i个环状RNA的平均表达量,Cjt代表的是第j个环状RNA在t位点的表达量值,代表的是第j个环状RNA的平均表达量。
CN201910711870.2A 2019-08-02 2019-08-02 基于梯度增强决策树预测环状rna与疾病相关性的方法 Active CN110459264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910711870.2A CN110459264B (zh) 2019-08-02 2019-08-02 基于梯度增强决策树预测环状rna与疾病相关性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910711870.2A CN110459264B (zh) 2019-08-02 2019-08-02 基于梯度增强决策树预测环状rna与疾病相关性的方法

Publications (2)

Publication Number Publication Date
CN110459264A true CN110459264A (zh) 2019-11-15
CN110459264B CN110459264B (zh) 2022-08-16

Family

ID=68484733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910711870.2A Active CN110459264B (zh) 2019-08-02 2019-08-02 基于梯度增强决策树预测环状rna与疾病相关性的方法

Country Status (1)

Country Link
CN (1) CN110459264B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112063715A (zh) * 2020-09-07 2020-12-11 清华大学 一种用于肝细胞癌早期筛查的系统
CN112151184A (zh) * 2020-09-27 2020-12-29 东北林业大学 基于网络表示学习的计算疾病相似度系统
CN112562788A (zh) * 2020-12-28 2021-03-26 上海交通大学 一种环状rna-rna结合蛋白关系预测模型构建方法
CN113178232A (zh) * 2021-05-06 2021-07-27 中南林业科技大学 一种circRNA和疾病关联关系的高效预测方法
CN113345557A (zh) * 2020-03-03 2021-09-03 北京悦熙兴中科技有限公司 一种数据处理方法和系统
CN114582508A (zh) * 2022-03-04 2022-06-03 安徽大学 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法
CN114944192A (zh) * 2022-06-22 2022-08-26 湖南科技大学 一种基于图注意力的疾病相关环状rna识别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096331A (zh) * 2016-06-12 2016-11-09 中南大学 一种推断lncRNA和疾病联系的方法
CN106295246A (zh) * 2016-08-07 2017-01-04 吉林大学 找到与肿瘤相关的lncRNA并预测其功能
CN107506608A (zh) * 2017-09-29 2017-12-22 杭州电子科技大学 一种改进的基于协同过滤的miRNA‑疾病关联预测方法
CN107526937A (zh) * 2017-09-29 2017-12-29 杭州电子科技大学 一种基于协同滤波的MiRNA‑疾病关联预测方法
CN108009403A (zh) * 2017-11-24 2018-05-08 中国地质大学(武汉) 基于多源数据融合及多目标优化的蛋白质复合物识别方法
CN108681660A (zh) * 2018-05-07 2018-10-19 福州大学 一种基于关联规则挖掘的非编码rna与疾病关系预测方法
CN108920895A (zh) * 2018-06-22 2018-11-30 中南大学 一种环状rna与疾病的关联关系预测方法
CN109243538A (zh) * 2018-07-19 2019-01-18 长沙学院 一种预测疾病与LncRNA关联关系的方法及系统
US20190108912A1 (en) * 2017-10-05 2019-04-11 Iquity, Inc. Methods for predicting or detecting disease
CN109698029A (zh) * 2018-12-24 2019-04-30 桂林电子科技大学 一种基于网络模型的circRNA-疾病关联预测方法
CN109935332A (zh) * 2019-03-01 2019-06-25 桂林电子科技大学 一种基于双随机游走模型的miRNA-疾病关联预测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096331A (zh) * 2016-06-12 2016-11-09 中南大学 一种推断lncRNA和疾病联系的方法
CN106295246A (zh) * 2016-08-07 2017-01-04 吉林大学 找到与肿瘤相关的lncRNA并预测其功能
CN107506608A (zh) * 2017-09-29 2017-12-22 杭州电子科技大学 一种改进的基于协同过滤的miRNA‑疾病关联预测方法
CN107526937A (zh) * 2017-09-29 2017-12-29 杭州电子科技大学 一种基于协同滤波的MiRNA‑疾病关联预测方法
US20190108912A1 (en) * 2017-10-05 2019-04-11 Iquity, Inc. Methods for predicting or detecting disease
CN108009403A (zh) * 2017-11-24 2018-05-08 中国地质大学(武汉) 基于多源数据融合及多目标优化的蛋白质复合物识别方法
CN108681660A (zh) * 2018-05-07 2018-10-19 福州大学 一种基于关联规则挖掘的非编码rna与疾病关系预测方法
CN108920895A (zh) * 2018-06-22 2018-11-30 中南大学 一种环状rna与疾病的关联关系预测方法
CN109243538A (zh) * 2018-07-19 2019-01-18 长沙学院 一种预测疾病与LncRNA关联关系的方法及系统
CN109698029A (zh) * 2018-12-24 2019-04-30 桂林电子科技大学 一种基于网络模型的circRNA-疾病关联预测方法
CN109935332A (zh) * 2019-03-01 2019-06-25 桂林电子科技大学 一种基于双随机游走模型的miRNA-疾病关联预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LEI DENG 等: "Fusion of multiple heterogeneous networks for predicting circRNA-disease associations", 《SCIENTIFIC REPORTS》 *
XING CHEN 等: "EGBMMDA: extreme gradient boosting machine for MiRNA-disease association prediction", 《CELL DEATH & DISEASE》 *
XIUJUAN LEI 等: "PWCDA: Path Weighted Method for Predicting circRNA-Disease Associations", 《INTERNATIONAL JOURNAL OF MOLECULAR SCIENCES》 *
林伟: "异质信息网络下环状RNA与疾病关系预测", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345557A (zh) * 2020-03-03 2021-09-03 北京悦熙兴中科技有限公司 一种数据处理方法和系统
CN112063715A (zh) * 2020-09-07 2020-12-11 清华大学 一种用于肝细胞癌早期筛查的系统
CN112063715B (zh) * 2020-09-07 2021-09-14 清华大学 一种用于肝细胞癌早期筛查的系统
CN112151184A (zh) * 2020-09-27 2020-12-29 东北林业大学 基于网络表示学习的计算疾病相似度系统
CN112562788A (zh) * 2020-12-28 2021-03-26 上海交通大学 一种环状rna-rna结合蛋白关系预测模型构建方法
CN112562788B (zh) * 2020-12-28 2022-06-28 上海交通大学 一种环状rna-rna结合蛋白关系预测模型构建方法
CN113178232A (zh) * 2021-05-06 2021-07-27 中南林业科技大学 一种circRNA和疾病关联关系的高效预测方法
CN114582508A (zh) * 2022-03-04 2022-06-03 安徽大学 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法
CN114582508B (zh) * 2022-03-04 2024-03-15 安徽大学 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法
CN114944192A (zh) * 2022-06-22 2022-08-26 湖南科技大学 一种基于图注意力的疾病相关环状rna识别方法

Also Published As

Publication number Publication date
CN110459264B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN110459264A (zh) 基于梯度增强决策树预测环状rna与疾病相关性的方法
Chuai et al. DeepCRISPR: optimized CRISPR guide RNA design by deep learning
CN102855398B (zh) 基于多源信息融合的疾病潜在关联基因的获取方法
CN109994151B (zh) 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统
CN104156634B (zh) 基于亚细胞定位特异性的关键蛋白质识别方法
Wang et al. DeepDRK: a deep learning framework for drug repurposing through kernel-based multi-omics integration
CN107506608A (zh) 一种改进的基于协同过滤的miRNA‑疾病关联预测方法
Weiß et al. Molecular phylogenetic reconstruction
Merget et al. A molecular phylogeny of Hypnales (Bryophyta) inferred from ITS2 sequence-structure data
CN109310332A (zh) 用于分析数字数据的方法
Majhi et al. Bioinformatics for healthcare applications
Naresh et al. Impact of machine learning in bioinformatics research
CN110428899A (zh) 基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法
Noviandy et al. Classifying Beta-Secretase 1 Inhibitor Activity for Alzheimer’s Drug Discovery with LightGBM
CN110853763B (zh) 基于融合属性的miRNA-疾病关联识别方法及系统
Mandal et al. A study of bio-inspired computing in bioinformatics: a state-of-the-art literature survey
Sathish et al. An effective identification of species from DNA sequence: a classification technique by integrating DM and ANN
KR101810527B1 (ko) 10,000개 이상 유전자 간의 전사조절 네트워크 구축 알고리즘과 이를 이용한 약물반응 원인 유전자 발굴 방법
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
Wang et al. Prediction of the disease causal genes based on heterogeneous network and multi-feature combination method
Xiao et al. RNA-targeted small-molecule drug discoveries: a machine-learning perspective
Lu et al. HCGCCDA: Prediction of circRNA-disease associations based on the combination of hypergraph convolution and graph convolution
Turner et al. rG4detector: convolutional neural network to predict RNA G-quadruplex propensity based on rG4-seq data
Yu et al. Predicting phenotypes from high-dimensional genomes using gradient boosting decision trees
Singh et al. GeneAI 3.0: powerful, novel, generalized hybrid and ensemble deep learning frameworks for miRNA species classification of stationary patterns from nucleotides

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant