CN110428899B - 基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法 - Google Patents

基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法 Download PDF

Info

Publication number
CN110428899B
CN110428899B CN201910711875.5A CN201910711875A CN110428899B CN 110428899 B CN110428899 B CN 110428899B CN 201910711875 A CN201910711875 A CN 201910711875A CN 110428899 B CN110428899 B CN 110428899B
Authority
CN
China
Prior art keywords
disease
similarity
circular rna
network
circular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910711875.5A
Other languages
English (en)
Other versions
CN110428899A (zh
Inventor
雷秀娟
方增强
张宇辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN201910711875.5A priority Critical patent/CN110428899B/zh
Publication of CN110428899A publication Critical patent/CN110428899A/zh
Application granted granted Critical
Publication of CN110428899B publication Critical patent/CN110428899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,通过将环状RNA‑疾病关系网络转化为无向图、计算环状RNA功能注释语义相似性、结构相似性以及功能相似性,计算疾病功能以及语义相似性,将多种环状RNA相似性网络和疾病相似性网络整合成综合的环状RNA相似性网络以及疾病相似性网络,将随机游走重启动算法分别应用在整合后的环状RNA相似性网以及疾病相似性网络,避免冷启动问题,预测潜在环状RNA‑疾病关系。本发明方法能准确地预测出潜在环状RNA‑疾病关系;仿真实验结果表明,精确度、召回率、准确度、f1‑measure等指标较优;与其他关系预测方法相比,提高了环状RNA‑疾病关系的预测准确率。

Description

基于双随机游走重启动的多数据整合环状RNA与疾病相关性 预测方法
技术领域
本发明属于生物信息技术领域,具体涉及一种基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法。
背景技术
最近,一种新的生物分子环状RNA引起了人们的广泛关注。环状RNA是一种相对新颖的生物分子,参与生物生命的各种活动并控制基因的表达。与拥有游离的3'端和5'端的线性RNA不同,环状RNA的结构是一个闭环结构,既没有游离在外的5’-cap端,也没有3’-polaydenylated尾端结构。第一个环状RNA是在植物病毒中发现的。由于稳定的环结构和低表达水平,环状RNA经常被鉴定为分子片段或转录的副产物。然而,随着高通量序列技术的发展,逐渐发现了越来越多的环状RNA。同时,相关的生物学功能表明,在哺乳动物细胞中的环状RNA具有内源性、丰富性、保守性和稳定性。许多证据表明,环状RNA可分为四种类型:外显子环状RNA由背部拼接的外显子组成;内含子环状RNA主要来源于组(I,II)内含子,内部套索和外源性tRNA内含子。外显子环状RNA同时被外显子和内含子环化,而基因间环状RNAs由两个内含子环状RNA片段组成。越来越多的证据表明,环状RNA在许多生物进程中发挥着重要的作用或功能。环状RNAs也可以被认为是竞争性内源性RNA或miRNA的海绵,根据已有的研究证明,circ-SRY,circ-HIPK3,mm9_circ_012559都可被视为miRNA海绵。同时,一些研究还表明环状RNA可以与RNA结合蛋白(RBPs)相互作用。环状RNA不仅可以调节基因转录过程,而且其中一些可以被翻译为蛋白质。
环状RNAs除了对多种生物过程有影响外,还与不同复杂的疾病有关。环状RNA具有一些独特的特征,如保守性、丰富性和组织特异性,这使得环状RNA有可能成为疾病的标志物,特别是对一些肿瘤。根据环状RNA在不同组织中的不同表达水平,我们可以确定正常人与患者之间的差异表达。因此,这些差异可以帮助我们预测或诊断疾病。由于qPCR技术,可以将肺癌中的环状RNA表达特征与邻近的正常组织进行比较。环状RNA ciRS-7可以下调与肺相关的组织或细胞,而环状RNA环状RNA_100876和hsa_circ_0013958可以上调在肺对应的组织、细胞或血浆。然而,通过微阵列芯片技术,环状RNA在胃相关组织和邻近胃的正常部位之间表现出显着差异,这表明环状RNA可被视为胃癌诊断和进展的生物标志。环状RNAcircPVT1和hsa_circ_0000096均可通过下调机制影响胃组织或细胞。更重要的是,环状RNA可以作为miRNA海绵或基因调节因子发挥作用,这也使得环状RNA在直肠组织中具有不同的敏感性和特异性,可作为直肠癌诊断或治疗的生物标记物。环状RNA hsa_circ_001569是miRNA miR-145的海绵,可以促进其与组织的结合靶点在结肠直肠细胞中的表达。
为了进一步研究环状RNA与其他生物分子之间的复杂关系并促进疾病诊断,建立了一些与环状RNA相关的数据库。circBase数据库是最早的环状RNA相关数据库之一,它提供了mRNA在染色体上的定位、RNA碱基序列、靶基因等。circRNADb数据库也是一种广泛使用的环状RNA数据库,其中收集了大量的环状RNA注释数据,这些数据是从基因组信息,外显子剪接,基因组序列中提取的。为了分析不同组织中的环状RNA表达,建立了通过人血液外泌体提供的环状RNA,lncRNA和mRNA信息的ExoRBase数据库。此外,采用RNA-seq样本中的环状RNA表达的CircNet数据库系统地鉴定环状RNA调控途径和组织特异性表达谱。此外,还有一些数据库提供了环状RNA和疾病之间的关系信息。Circ2Traits利用环状RNA-miRNA关系,miRNA-疾病关系和疾病-单核苷酸多态性(SNPs)关系来获取环状RNA-疾病关系。最近,人们总是关注研究环状RNA个体和单一疾病的关系。为了使疾病与环状RNA关系的研究更有效,一些数据库通过从数千种文献中提取手动收集这些分散的环状RNA-疾病关系的信息,例如circR2Disease数据库,circRNADisease数据库和Circ2Disease数据库。
尽管高通量序列技术已经应用于环状RNA与疾病关系的识别,但是存在一些不可忽略的限制。虽然这些技术能够以较高的准确率来提取环状RNA-疾病关系,但是仍然是耗时且成本高的。更重要的是,用于预测潜在的环状RNA-疾病潜在关系的计算方法较少是另一个主要动机。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,本发明通过整合多种环状RNA相似性网络以及疾病相似性网络,分别在多数据融合的环状RNA相似性网络和疾病相似性网络采用了随机游走重启动的方法,考虑环状RNA相似性和疾病相似性同时对环状RAN-疾病对的影响,避免了冷启动的问题,提高了环状RNA-疾病相互作用关系预测准确率。
为了达到上述目的,本发明采用以下技术方案予以实现:
基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,包括以下步骤:
(1)人类环状RNA-疾病关系提取
将环状RNA-疾病关系网络转换成一个无向图,环状RNA-疾病之间的关系的邻接矩阵记为A,A(i,j)表示环状RNA-疾病关系邻接矩阵A中的一对环状RNA-疾病关系实体,如果环状RNA C(i)和与疾病D(j)存在关系,则A(i,j)=1,否则A(i,j)=0;
(2)构建环状RNA功能注释语义相似性网络
由环状RNA的靶点基因相关基因本体数据构建环状RNA功能注释语义相似性网络,从人类蛋白质参考数据库下载基因对应的本体数据,再将环状RNA的靶点基因和从人类蛋白质参考数据库中处理好的基因及其对应的本体数据进行匹配,通过一种基于信息增益的方法来计算环状RNA C(i)和C(j)之间的功能注释相似性,从而构建环状RNA功能注释语义相似度网络;
(3)构建环状RNA结构相似性网络
通过python的一个工具包BioPython中的Needleman-Wunsch序列比对算法计算每对环状RNA之间的碱基序列相似性得分,为了统一相似性分数的数量级,对环状RNA的结构相似性进行归一化,最终获得环状RNA结构相似性网络;
(4)构建环状RNA功能相似性网络
首先通过计算环状RNA相关的一种疾病gt与一组疾病GT之间的最大相似性得分,其被定义为Smax(gt,GT),然后通过计算得出的某一疾病与全部疾病集合的最大相似性得分,计算两个环状RNA之间的功能相似性,从而构建环状RNA功能相似性网络;
(5)构建疾病语义相似性网络
将筛选出来的疾病在Disease Ontology数据库中进行手动匹配,将疾病名称对应为相关的DOID,其次采用名为DOSE的R包来计算每两种疾病之间的语义相似度得分,在得到每对疾病相似性得分之后进而可以构建疾病语义相似网络DSN1,疾病语义相似网络DSN1中的DSN1(i,j)表示疾病i和j的语义相似性得分;
(6)构建疾病功能相似性网络
在DisGeNet和人类在线孟德尔遗传数据库中下载疾病相关的基因数据,通过统计学算法JACCARD来计算疾病功能相似性,进而构建疾病功能相似网络DSN2,疾病功能相似网络DSN2中的DSN2(i,j)代表疾病i和j的功能相似性分数;
(7)整合环状RNA相似性网络
通过步骤(2)、(3)以及(4)构建的环状RNA功能注释语义相似网络CSN1,结构相似性网络CSN2以及功能相似性网络CSN3,整合环状RNA相似性网络:
(8)整合疾病相似性网络
将构建的疾病语义相似性网络DSN1和疾病功能相似性网络DSN2整合成最终的疾病相似性网络DSN;
(9)通过双随机游走算法预测环状RNA-疾病潜在关系
为了给整合后的环状RNA相似性网络和疾病相似性网络中的环状RNA和疾病节点赋予一个初始的传播概率,将环状RNA相似性网络和疾病相似性网络按照列来进行标准化,NCS(i,j)和NDS(i,j)分别代表的是标准化后的环状RNA i和j之间的相似性得分以及疾病i和j的相似性得分,为了在整合后的环状RNA相似性网络和疾病相似网络中进行节点概率传播的概率转移,首先初始化整合后环状RNA相似性网络和疾病相似性网络中的环状RNA和疾病节点的转移概率,再通过分别在整合后的环状RNA相似网络和疾病相似性网络中采用随机游走算法,最后综合在环状RNA相似性网络和疾病相似性网络中的预测结果获取最终的环状RNA-疾病关系预测结果。
进一步地,步骤(2)中按式(1)计算环状RNA C(i)和C(j)之间的相似性得分:
Figure GDA0003293590020000061
式中CSN1(i,j)表示环状RNA C(i)和C(j)之间的相似性分数,Pro(Ci)和Pro(Cj)分别表示环状RNA C(i)/C(j)靶点基因相关的本体数据的数量与所有与靶点基因相关的本体数据总数量之间的比例,Pro(Ci∪Cj)代表环状RNA Ci和Cj靶点基因共同相关的本体数据数量和所有靶点基因相关的本体数据总数的比例。
进一步地,步骤(3)中按式(2)对环状RNA的结构相似性进行归一化:
Figure GDA0003293590020000062
式中CSN2代表的是经过归一化处理的环状RNA结构相似性网络,CSN2(i,j)代表的是环状RNA C(i)和C(j)的相似性分数,式中NWs(C(i),C(j))代表环状RNA C(i)和C(j)之间的Needleman-Wunsch序列比对算法得出的相似性得分。
进一步地,步骤(4)中按式(3)计算一种疾病gt与一组疾病GT之间的最大相似性得分Smax(gt,GT):
Figure GDA0003293590020000063
通过式(3)计算得出的某一疾病与疾病集合的最大相似性得分,按式(4)来计算两个环状RNA之间的功能相似性:
Figure GDA0003293590020000064
式中CSN3代表环状RNA功能相似性网络,其中CSN3(i,j)表示环状RNA Ci和Cj的功能相似性得分,GTi和GTj分别代表的是环状RNA Ci和Cj相关疾病集合,gtil和gtjq分别表示GTi和GTj疾病集合中的某一疾病,n和m分别代表环状RNA Ci和Cj相关疾病的数量。
进一步地,步骤(6)中按式(5)计算疾病i和j的功能相似性分数:
Figure GDA0003293590020000071
式中DG(i)和DG(j)分别表示疾病i和j相关基因集合。
进一步地,步骤(7)中按式(6)来整合环状RNA相似性网络:
Figure GDA0003293590020000072
式中CSN表示整合后的环状RNA相似性网络,其中CSN(i,j)代表环状RNA i和j的相似性得分。
进一步地,步骤(8)中按式(7)来计算DSN(i,j):
DSN(i,j)=αDSN1(i,j)+(1-α)DSN2(i,j) 式(7)
式中α代表疾病相似性整合调和平均参数,DSN(i,j)代表整合后的疾病i和j的相似性得分。
进一步地,步骤(9)中NCS(i,j)和NDS(i,j)按式(8)和式(9)计算:
Figure GDA0003293590020000073
Figure GDA0003293590020000074
为了在整合后的环状RNA相似性网络和疾病相似网络中进行节点概率传播的概率转移,分别按式(10)和式(11)计算环状RNA和疾病的转移概率:
CRt=β*NCS*CRt-1+(1-β)A 式(10)
DRt=β*NDS*DRt-1+(1-β)A 式(11)
式中CRt和DRt分别表示每一次迭代后的环状RNA和疾病网络上的随机游走的每对环状RNA-疾病潜在关系得分,β表示在每次随机游走迭代过程中的衰减因子,t是环状RNA和疾病网络上随机游走的迭代次数,在迭代完成后能获得每一对环状RNA-疾病关系的可能性得分。
进一步地,步骤(9)中的具体迭代方法如下:
Step1:初始化环状RNA相似性网络和疾病相似性网络迭代标志lflag=0以及rflag=0;
Step2:判断当前迭代次数小于或等于给定的在环状RNA相似性网络中的迭代次数,则通过式(10)来进行概率传播,并将环状RNA相似性网络的迭代标志lflag设为1;
Step3:判断当前迭代次数小于或等于给定的在疾病相似性网络中的迭代次数,则通过式(11)来进行概率传播,并将疾病相似性网络的迭代标志rflag设为1;
Step4:根据式(12)计算当前迭代中的环状RNA-疾病潜在关系得分:
RW=(lflag*CR+rflag*DR)/(lflag+rflag) 式(12)
式中RW表示的是本轮迭代中每对环状RNA-疾病相关性预测得分,CR代表的是随机游走算法在整合后的环状RNA相似性网络中的环状RNA-疾病相关性预测得分,DR代表的是随机游走算法在整合后的疾病相似性网络中的环状RNA-疾病相关性预测得分;
Step5:判断迭代次数是否等于给定的环状RNA相似性网络迭代次数ICSN和疾病相似性网络迭代次数IDSN中的最大的值,若是,迭代完成;否则,回到Step1。
与现有技术相比,本发明具有以下有益效果:
1、本发明通过环状RNA靶点基因相关本体数据,碱基序列数据以及相关疾病的语义相似性建立环状RNA功能注释语义相似性,结构相似性以及功能相似性网络,通过疾病相关基因和表型数据建立疾病功能相似性和语义相似性网络。再将多网络整合成一个最终的环状RNA相似性网络和疾病相似性网络,考虑多方面数据,与其他关系预测方法相比,多元相似性网络的综合考虑,减少了信息的损失,尽可能的在整合的多数据网络中挖出潜在的环状RNA-疾病潜在关系,提高了环状RNA-疾病关系的预测准确率。
2、本发明在通过分别在环状RNA相似网络中和疾病相似网络中采用随机游走重启动算法的方法,充分的考虑了环状RNA相似性和疾病相似性对潜在关系的影响,减少了冷启动问题,提高了潜在环状RNA-疾病关系预测的准确率。
3、采用本发明能够有效地预测出存在潜在关系的环状RNA-疾病关系,为进一步分析环状RNA的生物学意义以及环状RNA与疾病之间的复杂关系奠定了基础。此研究不仅有助于理解细胞的运作机理和生命活动机制,也为探讨重大疾病的机理、疾病的诊断、临床治疗、预防以及新药物的开发提供前期的理论分析,这将为合成生物学与系统医学的研究与发展提供重要的理论指导和应用价值。
附图说明
图1为本发明的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
如图1所示,本发明基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,为了达到较好的潜在环状RNA-疾病相互作用关系预测效果,环状RNA功能注释语义相似,结构相似以及功能相似性网络被用来构建多元数据整合的环状RNA相似性网络;构建疾病功能相似和语义相似网络来整合疾病相似性网络。再通过概率传播算法(基于整合的环状RNA相似网络和疾病的相似性网络的双随机游走重启动方法),解决了冷启动问题。从而提高了潜在环状RNA-疾病关系预测的准确性。
具体包括以下步骤:
1)人类环状RNA-疾病关系提取
将环状RNA-疾病关系网络转换成一个无向图,环状RNA-疾病之间的关系的邻接矩阵记为A,A(i,j)可表示为一对环状RNA-疾病关系实体,如果环状RNA C(i)和与疾病D(j)存在关系,A(i,j)=1,否则A(i,j)=0;
2)构建环状RNA功能注释语义相似性网络
由环状RNA的靶点基因相关基因本体数据构建环状RNA功能注释语义相似性网络。从人类蛋白质参考数据库(HPRD)下载基因对应的本体数据,再将环状RNA的靶点基因和从HPRD中处理好的基因及其对应的本体数据进行匹配,通过一种基于信息增益的方法来计算环状RNA C(i)和C(j)之间的功能注释相似性,从而构建环状RNA功能注释语义相似度网络(CSN1),按式(1)计算环状RNA C(i)和C(j)之间的相似性得分:
Figure GDA0003293590020000111
式中CSN1(i,j)表示环状RNA C(i)和C(j)之间的相似性分数,Pro(Ci)和Pro(Cj)分别表示环状RNA C(i)/C(j)靶点基因相关的本体数据的数量与所有与靶点基因相关的本体数据总数量之间的比例。Pro(Ci∪Cj)代表环状RNA Ci和Cj靶点基因共同相关的本体数据数量和所有靶点基因相关的本体数据总数的比例;
3)构建环状RNA结构相似性网络
通过python的一个工具包BioPython中的Needleman-Wunsch序列比对算法来计算每对环状RNA之间的碱基序列相似性得分,为了统一相似性分数的数量级,按式(2)对环状RNA的结构相似性进行归一化:
Figure GDA0003293590020000112
式中CSN2代表的是经过归一化处理的环状RNA结构相似性网络,CSN2(i,j)代表的是环状RNA i和j的相似性分数,式中NWs(C(i),C(j))代表环状RNA C(i)和C(j)之间的Needleman-Wunsch序列比对算法得出的相似性得分;
4)构建环状RNA功能相似性网络
首先通过计算一种疾病gt与一组疾病GT之间的最大相似性得分,其被定义为Smax(gt,GT),按式(3)计算:
Figure GDA0003293590020000113
通过式(3)计算得出的某一疾病与疾病集合的最大相似性得分,按式(4)来计算两个环状RNA之间的功能相似性:
Figure GDA0003293590020000121
式中CSN3代表环状RNA功能相似性网络,其中CSN3(i,j)表示环状RNA Ci和Cj的功能相似性得分。GTi和GTj分别代表的是环状RNA Ci和Cj相关疾病集合。gtil和gtjq分别表示GTi和GTj疾病集合中的某一疾病。n和m分别代表环状RNA Ci和Cj相关疾病的数量;
5)构建疾病语义相似性网络
将筛选出来的疾病在Disease Ontology数据库中进行手动匹配,将疾病名称对应为相关的DOID。其次采用名为DOSE的R包来计算每两种疾病之间的语义相似度得分。DSN1代表疾病语义相似性网络,其中的DSN1(i,j)表示疾病i和j的语义相似性得分;
6)构建疾病功能相似性网络
鉴于还应考虑疾病功能特征的信息,还需要在DisGeNet和人类在线孟德尔遗传数据库(OMIM)中下载疾病相关的基因数据,通过统计学算法JACCARD来计算疾病功能相似性,进而构建疾病功能相似网络DSN2,DSN2(i,j)代表疾病i和j的功能相似性分数,按式(5)计算:
Figure GDA0003293590020000122
式中DG(i)和DG(j)分别表示疾病i和j相关基因集合;
7)整合环状RNA相似性网络
通过步骤(2)、(3)以及(4)构建的环状RNA功能注释语义相似网络CSN1,结构相似性网络CSN2以及功能相似性网络CSN3,按(6)来整合环状RNA相似性网络:
Figure GDA0003293590020000131
式中CSN表示整合后的环状RNA相似性网络,其中CSN(i,j)代表环状RNA i和j的相似性得分;
8)整合疾病相似性网络
将构建的疾病语义DSN1和功能相似性DSN2网络整合成最终的疾病相似性网络DSN,按式(7)来计算DSN(i,j):
DSN(i,j)=αDSN1(i,j)+(1-α)DSN2(i,j) 式(7)
式中α代表疾病相似性整合调和平均参数,DSN(i,j)代表整合后的疾病i和j的相似性得分;
9)通过双随机游走算法预测环状RNA-疾病潜在关系
为了给整合后的环状RNA相似性网络和疾病相似性网络中的环状RNA和疾病节点赋予一个初始的传播概率,将环状RNA和疾病相似性网络的按照列来进行标准化,NCS(i,j)和NDS(i,j)分别代表的是归一化后的环状RNA i和j之间的相似性得分以及疾病i和j的相似性得分,NCS(i,j)和NDS(i,j)按式(8)和式(9)计算:
Figure GDA0003293590020000132
Figure GDA0003293590020000133
为了在整合后的环状RNA相似性网络和疾病相似网络中进行节点概率传播的概率转移,分别按式(10)和式(11)计算环状RNA和疾病的转移概率:
CRt=β*NCS*CRt-1+(1-β)A 式(10)
DRt=β*NDS*DRt-1+(1-β)A 式(11)
式中CRt和DRt分别表示每一次迭代后的环状RNA和疾病网络上的随机游走的每对环状RNA-疾病潜在关系得分,β表示在每次随机游走迭代过程中的衰减因子,t是环状RNA和疾病网络上随机游走的迭代次数。在迭代完成后能获得每一对环状RNA-疾病关系的可能性得分。
本发明步骤(9)中的具体迭代方法如下:
Step1:初始化环状RNA相似性网络和疾病相似性网络迭代标志lflag=0以及rflag=0;
Step2:判断当前迭代次数小于或等于给定的在环状RNA相似性网络中的迭代次数,就通过权利要求1所述的,其特征在于,步骤(9)中的式(10)来进行概率传播,并将环状RNA相似性网络的迭代标志lflag设为1;
Step3:判断当前迭代次数小于或等于给定的在疾病相似性网络中的迭代次数,就通过权利要求1所述的,其特征在于,步骤(9)中的式(11)来进行概率传播,并将疾病相似性网络的迭代标志rflag设为1;
Step4:根据式(12)计算当前迭代中的环状RNA-疾病潜在关系得分:
RW=(lflag*CR+rflag*DR)/(lflag+rflag) 式(12)
Step5:判断迭代次数是否等于给定的最大的环状RNA相似性网络/疾病相似性网络迭代次数ICSN和IDSN,迭代完成;否则,回到Step1。
以下通过具体实施例对本发明进一步详细说明:
下面是以circR2Disease数据库中的环状RNA-疾病关系为例的一种基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,具体操作如下:
本实施例以采自circR2Disease数据库提供的环状RNA-疾病关系数据作为仿真数据集,根据环状RNA靶点基因相关的本体数据(从人类蛋白质参考数据库(HPRD)中获取),碱基序列数据(circBase数据库中下载)以及相关疾病语义相似性数据和疾病相关基因数据(从DisGeNet数据库和人类在线孟德尔遗传数据库(OMIM)数据库中获取)以及表型数据(在Disease Ontology数据中,将疾病转换成对应的DOID),从circR2Diseas数据库中的提供的739对已知环状RNA-疾病相似性数据,筛选出200个环状RNA,42个疾病数据以及212对环状RNA-疾病关系数据。实验平台为Windows 10操作系统,Intel酷睿i5-7400双核3.00GHz处理器,8GB物理内存,用pyCharm2017软件实现本发明的方法。
具体步骤如下:
1、人类环状RNA-疾病关系提取
将包含了200个环状RNA和42个疾病的拥有212个环状RNA-疾病关系网络转换成一个无向图,环状RNA-疾病之间的关系的邻接矩阵记为A,A(i,j)可表示为一对环状RNA-疾病关系实体,如果环状RNA C(i)和与疾病D(j)存在关系,A(i,j)=1,否则A(i,j)=0;
2、构建环状RNA功能注释语义相似性网络
由200个环状RNA的靶点基因相关基因本体数据构建环状RNA功能注释语义相似性网络。从人类蛋白质参考数据库(HPRD)下载基因对应的本体数据,再将环状RNA的靶点基因和从HPRD中处理好的基因及其对应的本体数据进行匹配,通过一种基于信息增益的方法来计算环状RNA C(i)和C(j)之间的功能注释相似性,从而构建环状RNA功能注释语义相似度网络(CSN1),由式(1)计算环状RNA C(i)和C(j)之间的相似性得分:
Figure GDA0003293590020000161
式中CSN1(i,j)表示环状RNA C(i)和C(j)之间的相似性分数,Pro(Ci)和Pro(Cj)分别表示环状RNA C(i)/C(j)靶点基因相关的本体数据的数量与所有与靶点基因相关的本体数据总数量之间的比例。Pro(Ci∪Cj)代表环状RNA Ci和Cj靶点基因共同相关的本体数据数量和所有靶点基因相关的本体数据总数的比例;
3、构建环状RNA结构相似性网络
通过python的一个工具包BioPython中的Needleman-Wunsch序列比对算法来计算200个环状RNA之间的碱基序列相似性得分,为了统一相似性分数的数量级,按式(2)对环状RNA的结构相似性进行归一化:
Figure GDA0003293590020000162
式中CSN2代表的是经过归一化处理的环状RNA结构相似性网络,CSN2(i,j)代表的是环状RNA i和j的相似性分数,式中NWs(C(i),C(j))代表环状RNA C(i)和C(j)之间的Needleman-Wunsch序列比对算法得出的相似性得分;
4、构建环状RNA功能相似性网络
首先通过计算一种疾病gt与一组疾病GT之间的最大相似性得分,其被定义为Smax(gt,GT),按式(3)计算:
Figure GDA0003293590020000163
通过式(3)计算得出的某一疾病与疾病集合的最大相似性得分,按式(4)来计算两个环状RNA之间的功能相似性:
Figure GDA0003293590020000164
式中CSN3代表环状RNA功能相似性网络,其中CSN3(i,j)表示环状RNA Ci和Cj的功能相似性得分。GTi和GTj分别代表的是环状RNA Ci和Cj相关疾病集合。gtil和gtjq分别表示GTi和GTj疾病集合中的某一疾病。n和m分别代表环状RNA Ci和Cj相关疾病的数量;
5、构建疾病语义相似性网络
将筛选出来的42个疾病在Disease Ontology数据库中进行手动匹配,将疾病名称对应为相关的DOID。其次采用名为DOSE的R包来计算每两种疾病之间的语义相似度得分。DSN1代表疾病语义相似性网络,其中的DSN1(i,j)表示疾病i和j的语义相似性得分;
6、构建疾病功能相似性网络
鉴于还应考虑疾病功能特征的信息,还需要在DisGeNet和人类在线孟德尔遗传数据库(OMIM)中下载42个疾病相关的基因数据,通过统计学算法JACCARD来计算疾病功能相似性,进而构建疾病功能相似网络DSN2,DSN2(i,j)代表疾病i和j的功能相似性分数,按式(5)计算:
Figure GDA0003293590020000171
式中DG(i)和DG(j)分别表示疾病i和j相关基因集合;
7、整合环状RNA相似性网络
通过步骤(2)、(3)以及(4)构建的环状RNA功能注释语义相似网络CSN1,结构相似性网络CSN2以及功能相似性网络CSN3,按(6)来整合环状RNA相似性网络:
Figure GDA0003293590020000172
式中CSN表示整合后的环状RNA相似性网络,其中CSN(i,j)代表环状RNA i和j的相似性得分;
8、整合疾病相似性网络
将构建的疾病语义DSN1和功能相似性DSN2网络整合成最终的疾病相似性网络DSN,按式(7)来计算DSN(i,j):
DSN(i,j)=αDSN1(i,j)+(1-α)DSN2(i,j) 式(7)
式中α代表疾病相似性整合调和平均参数,DSN(i,j)代表整合后的疾病i和j的相似性得分;
9、通过双随机游走算法预测环状RNA-疾病潜在关系
为了给整合后的环状RNA相似性网络和疾病相似性网络中的环状RNA和疾病节点赋予一个初始的传播概率,将环状RNA和疾病相似性网络的按照列来进行标准化,NCS(i,j)和NDS(i,j)分别代表的是归一化后的环状RNA i和j之间的相似性得分以及疾病i和j的相似性得分,NCS(i,j)和NDS(i,j)按式(8)和式(9)计算:
Figure GDA0003293590020000181
Figure GDA0003293590020000182
为了在整合后的环状RNA相似性网络和疾病相似网络中进行节点概率传播的概率转移,分别按式(10)和式(11)计算环状RNA和疾病的转移概率:
CRt=β*NCS*CRt-1+(1-β)A 式(10)
DRt=β*NDS*DRt-1+(1-β)A 式(11)
式中CRt和DRt分别表示每一次迭代后的环状RNA和疾病网络上的随机游走的每对环状RNA-疾病潜在关系得分,β表示在每次随机游走迭代过程中的衰减因子,t是环状RNA和疾病网络上随机游走的迭代次数。在迭代完成后能获得每一对环状RNA-疾病关系的可能性得分。
本发明步骤(9)中的具体迭代方法如下:
Step1:初始化环状RNA相似性网络和疾病相似性网络迭代标志lflag=0以及rflag=0;
Step2:判断当前迭代次数小于或等于给定的在环状RNA相似性网络中的迭代次数,就通过权利要求1所述的,其特征在于,步骤(9)中的式(10)来进行概率传播,并将环状RNA相似性网络的迭代标志lflag设为1;
Step3:判断当前迭代次数小于或等于给定的在疾病相似性网络中的迭代次数,就通过权利要求1所述的,其特征在于,步骤(9)中的式(11)来进行概率传播,并将疾病相似性网络的迭代标志rflag设为1;
Step4:根据下式计算当前迭代中的环状RNA-疾病潜在关系得分:
RW=(lflag*CR+rflag*DR)/(lflag+rflag)
Step5:判断迭代次数等于给定的最大的环状RNA相似性网络/疾病相似性网络迭代次数ICSN和IDSN分别设置为3和1,迭代完成;否则,回到Step1。
为了验证本发明的有效性,发明人采用本发明实施例1基于双随机游走的多数据整合环状RNA与疾病相关性预测方法对circR2Disease数据库中的环状RNA-疾病关系进行预测,对环状RNA-疾病关系网络中的已知的作用关系实施留一交叉验证,以此来分析本发明的预测性能,结果见表1-3,表1显示了与当前其他关系预测方法预测的环状RNA-疾病潜在关系的结果进行预测精确率(precision)、召回率(recall)、准确率(accuracy)以及f1-measure的比较,表2显示了通过5折交叉验证将本发明方法与其它关系预测方法在10个典型疾病与环状RNA关系预测结果在获取的AUC值的比较。表3列出了本发明预测出的前10个潜在环状RNA-膀胱癌关系在其他数据库或相关文献中的验证。
表1显示了采用本发明预测出的环状RNA-疾病关系与circR2Disease数据中标准数据进行比较的精确率(precision)、召回率(recall)、准确率(accuracy)以及f1-measure的比较,以及与其它10种关系预测方法的预测结果的比较。由表1可以看出,与其他方法相比,本发明方法能更有效地预测环状RNA-疾病潜在关系,本发明方法都有最高的预测精确率(precision),召回率(recall)、准确率(accuracy)以及f1-measure。表2显示了通过对10个典型疾病的环状RNA进行5折交叉验证,利用预测出的环状RNA-疾病的结果,计算出对应的AUC结果。由表2可以看出,与其他方法相比,本发明在对于这10中典型疾病与环状RNA预测结果中表明,预测结果最好。表3本发明预测出的前10个潜在环状RNA-膀胱癌关系在其他数据库或相关文献中的验证情况,由表3可以看出在预测的前十个和乳腺癌相关的环状RNA中,被其他数据库和相关文献验证的环状RNA有9个,’circRNABCRC4/hsa_circ_001598/hsa_circ_0001577’是一个被预测为的膀胱癌潜在相关的环状RNA。由表1、表2和表3可以看出,本发明能够准确、有效地预测出潜在的环状RNA-疾病关系。
表1本发明与其他关系预测方法预测环状RNA-疾病关系在准确率上的比较
Figure GDA0003293590020000201
Figure GDA0003293590020000211
表2本发明与其他关系预测方法预测环状10个典型疾病-环状RNA关系AUC值的比较
Figure GDA0003293590020000212
表3本发明预测出的潜在环状RNA-膀胱癌癌关系在其他数据库/文献中的验证
Figure GDA0003293590020000213
Figure GDA0003293590020000221
综上所述,本发明基于双随机游走的多数据整合环状RNA与疾病相关性预测方法,通过将环状RNA-疾病关系网络转化为无向图、计算环状RNA功能注释语义相似性、结构相似性以及功能相似性,计算疾病功能以及语义相似性,将多种环状RNA相似性网络和疾病相似性网络整合成综合的环状RNA相似性网络以及疾病相似性网络,将随机游走重启动算法分别应用在整合后的环状RNA相似性网以及疾病相似性网络,避免冷启动问题,预测潜在环状RNA-疾病关系。本发明方法能准确地预测出潜在环状RNA-疾病关系;仿真实验结果表明,精确度、召回率、准确度、f1-measure等指标较优;与其他关系预测方法相比,将多数据融合的相似性网络中采用双随机游走重启动算法预测环状RNA-疾病潜在关系,提高了环状RNA-疾病关系的预测准确率。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (8)

1.基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,包括以下步骤:
(1)人类环状RNA-疾病关系提取
将环状RNA-疾病关系网络转换成一个无向图,环状RNA-疾病之间的关系的邻接矩阵记为A,A(i,j)表示环状RNA-疾病关系邻接矩阵A中的一对环状RNA-疾病关系实体,如果环状RNA C(i)和与疾病D(j)存在关系,则A(i,j)=1,否则A(i,j)=0;
(2)构建环状RNA功能注释语义相似性网络
由环状RNA的靶点基因相关基因本体数据构建环状RNA功能注释语义相似性网络,从人类蛋白质参考数据库下载基因对应的本体数据,再将环状RNA的靶点基因和从人类蛋白质参考数据库中处理好的基因及其对应的本体数据进行匹配,通过一种基于信息增益的方法来计算环状RNA C(i)和C(j)之间的功能注释相似性,从而构建环状RNA功能注释语义相似度网络;
其中,一种基于信息增益的方法按式(1)计算环状RNA C(i)和C(j)之间的相似性得分:
Figure FDA0003293590010000011
式中CSN1(i,j)表示环状RNA C(i)和C(j)之间的相似性分数,Pro(Ci)和Pro(Cj)分别表示环状RNA C(i)/C(j)靶点基因相关的本体数据的数量与所有与靶点基因相关的本体数据总数量之间的比例,Pro(Ci∪Cj)代表环状RNA Ci和Cj靶点基因共同相关的本体数据数量和所有靶点基因相关的本体数据总数的比例;
(3)构建环状RNA结构相似性网络
通过python的一个工具包BioPython中的Needleman-Wunsch序列比对算法计算每对环状RNA之间的碱基序列相似性得分,为了统一相似性分数的数量级,对环状RNA的结构相似性进行归一化,最终获得环状RNA结构相似性网络;
(4)构建环状RNA功能相似性网络
首先通过计算环状RNA相关的一种疾病gt与一组疾病GT之间的最大相似性得分,其被定义为Smax(gt,GT),然后通过计算得出的某一疾病与全部疾病集合的最大相似性得分,计算两个环状RNA之间的功能相似性,从而构建环状RNA功能相似性网络;
(5)构建疾病语义相似性网络
将筛选出来的疾病在Disease Ontology数据库中进行手动匹配,将疾病名称对应为相关的DOID,其次采用名为DOSE的R包来计算每两种疾病之间的语义相似度得分,在得到每对疾病相似性得分之后进而可以构建疾病语义相似网络DSN1,疾病语义相似网络DSN1中的DSN1(i,j)表示疾病i和j的语义相似性得分;
(6)构建疾病功能相似性网络
在DisGeNet和人类在线孟德尔遗传数据库中下载疾病相关的基因数据,通过统计学算法JACCARD来计算疾病功能相似性,进而构建疾病功能相似网络DSN2,疾病功能相似网络DSN2中的DSN2(i,j)代表疾病i和j的功能相似性分数;
(7)整合环状RNA相似性网络
通过步骤(2)、(3)以及(4)构建的环状RNA功能注释语义相似网络CSN1,结构相似性网络CSN2以及功能相似性网络CSN3,整合环状RNA相似性网络:
(8)整合疾病相似性网络
将构建的疾病语义相似性网络DSN1和疾病功能相似性网络DSN2整合成最终的疾病相似性网络DSN;
(9)通过双随机游走算法预测环状RNA-疾病潜在关系
为了给整合后的环状RNA相似性网络和疾病相似性网络中的环状RNA和疾病节点赋予一个初始的传播概率,将环状RNA相似性网络和疾病相似性网络按照列来进行标准化,NCS(i,j)和NDS(i,j)分别代表的是标准化后的环状RNA i和j之间的相似性得分以及疾病i和j的相似性得分,为了在整合后的环状RNA相似性网络和疾病相似网络中进行节点概率传播的概率转移,首先初始化整合后环状RNA相似性网络和疾病相似性网络中的环状RNA和疾病节点的转移概率,再通过分别在整合后的环状RNA相似网络和疾病相似性网络中采用随机游走算法,最后综合在环状RNA相似性网络和疾病相似性网络中的预测结果获取最终的环状RNA-疾病关系预测结果。
2.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(3)中按式(2)对环状RNA的结构相似性进行归一化:
Figure FDA0003293590010000031
式中CSN2代表的是经过归一化处理的环状RNA结构相似性网络,CSN2(i,j)代表的是环状RNA C(i)和C(j)的相似性分数,式中NWs(C(i),C(j))代表环状RNA C(i)和C(j)之间的Needleman-Wunsch序列比对算法得出的相似性得分。
3.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(4)中按式(3)计算一种疾病gt与一组疾病GT之间的最大相似性得分Smax(gt,GT):
Figure FDA0003293590010000041
通过式(3)计算得出的某一疾病与疾病集合的最大相似性得分,按式(4)来计算两个环状RNA之间的功能相似性:
Figure FDA0003293590010000042
式中CSN3代表环状RNA功能相似性网络,其中CSN3(i,j)表示环状RNA Ci和Cj的功能相似性得分,GTi和GTj分别代表的是环状RNA Ci和Cj相关疾病集合,gtil和gtjq分别表示GTi和GTj疾病集合中的某一疾病,n和m分别代表环状RNA Ci和Cj相关疾病的数量。
4.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(6)中按式(5)计算疾病i和j的功能相似性分数:
Figure FDA0003293590010000043
式中DG(i)和DG(j)分别表示疾病i和j相关基因集合。
5.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(7)中按式(6)来整合环状RNA相似性网络:
Figure FDA0003293590010000044
式中CSN表示整合后的环状RNA相似性网络,其中CSN(i,j)代表环状RNA i和j的相似性得分。
6.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(8)中按式(7)来计算DSN(i,j):
DSN(i,j)=αDSN1(i,j)+(1-α)DSN2(i,j) 式(7)
式中α代表疾病相似性整合调和平均参数,DSN(i,j)代表整合后的疾病i和j的相似性得分。
7.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(9)中NCS(i,j)和NDS(i,j)按式(8)和式(9)计算:
Figure FDA0003293590010000051
Figure FDA0003293590010000052
为了在整合后的环状RNA相似性网络和疾病相似网络中进行节点概率传播的概率转移,分别按式(10)和式(11)计算环状RNA和疾病的转移概率:
CRt=β*NCS*CRt-1+(1-β)A 式(10)
DRt=β*NDS*DRt-1+(1-β)A 式(11)
式中CRt和DRt分别表示每一次迭代后的环状RNA和疾病网络上的随机游走的每对环状RNA-疾病潜在关系得分,β表示在每次随机游走迭代过程中的衰减因子,t是环状RNA和疾病网络上随机游走的迭代次数,在迭代完成后能获得每一对环状RNA-疾病关系的可能性得分。
8.根据权利要求7所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(9)中的具体迭代方法如下:
Step1:初始化环状RNA相似性网络和疾病相似性网络迭代标志lflag=0以及rflag=0;
Step2:判断当前迭代次数小于或等于给定的在环状RNA相似性网络中的迭代次数,则通过式(10)来进行概率传播,并将环状RNA相似性网络的迭代标志lflag设为1;
Step3:判断当前迭代次数小于或等于给定的在疾病相似性网络中的迭代次数,则通过式(11)来进行概率传播,并将疾病相似性网络的迭代标志rflag设为1;
Step4:根据式(12)计算当前迭代中的环状RNA-疾病潜在关系得分:
RW=(lflag*CR+rflag*DR)/(lflag+rflag) 式(12)
式中RW表示的是本轮迭代中每对环状RNA-疾病相关性预测得分,CR代表的是随机游走算法在整合后的环状RNA相似性网络中的环状RNA-疾病相关性预测得分,DR代表的是随机游走算法在整合后的疾病相似性网络中的环状RNA-疾病相关性预测得分;
Step5:判断迭代次数是否等于给定的环状RNA相似性网络迭代次数ICSN和疾病相似性网络迭代次数IDSN中的最大的值,若是,迭代完成;否则,回到Step1。
CN201910711875.5A 2019-08-02 2019-08-02 基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法 Active CN110428899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910711875.5A CN110428899B (zh) 2019-08-02 2019-08-02 基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910711875.5A CN110428899B (zh) 2019-08-02 2019-08-02 基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法

Publications (2)

Publication Number Publication Date
CN110428899A CN110428899A (zh) 2019-11-08
CN110428899B true CN110428899B (zh) 2022-05-31

Family

ID=68412314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910711875.5A Active CN110428899B (zh) 2019-08-02 2019-08-02 基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法

Country Status (1)

Country Link
CN (1) CN110428899B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853763B (zh) * 2019-11-11 2022-07-19 湖南城市学院 基于融合属性的miRNA-疾病关联识别方法及系统
CN111597401B (zh) * 2020-05-20 2021-08-17 腾讯科技(深圳)有限公司 基于图关系网络的数据处理方法、装置、设备及介质
CN113596855B (zh) * 2021-07-30 2023-08-11 郑州大学 在单向强连通通信网络中建立双随机通信矩阵的分布式方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485096A (zh) * 2016-10-20 2017-03-08 中南大学 基于双向随机游走和多标签学习的miRNA‑环境因子关系预测方法
CN107506608A (zh) * 2017-09-29 2017-12-22 杭州电子科技大学 一种改进的基于协同过滤的miRNA‑疾病关联预测方法
CN109256215A (zh) * 2018-09-04 2019-01-22 华东交通大学 一种基于自回避随机游走的疾病关联miRNA预测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485096A (zh) * 2016-10-20 2017-03-08 中南大学 基于双向随机游走和多标签学习的miRNA‑环境因子关系预测方法
CN107506608A (zh) * 2017-09-29 2017-12-22 杭州电子科技大学 一种改进的基于协同过滤的miRNA‑疾病关联预测方法
CN109256215A (zh) * 2018-09-04 2019-01-22 华东交通大学 一种基于自回避随机游走的疾病关联miRNA预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BiRWLGO: A global network-based strategy for lncRNA function annotation using bi-random walk;Jingpu Zhang et al.;《2017 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)》;20171116;全文 *
Gene Ontology-based function prediction of long non-coding RNAs using bi-random walk;Jingpu Zhang et al.;《BMC Medical Genomics》;20181130;全文 *

Also Published As

Publication number Publication date
CN110428899A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
US11282610B2 (en) Cancer evolution detection and diagnostic
CN110428899B (zh) 基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法
Vafaee et al. A data-driven, knowledge-based approach to biomarker discovery: application to circulating microRNA markers of colorectal cancer prognosis
US20190065670A1 (en) Predicting disease burden from genome variants
CN110459264B (zh) 基于梯度增强决策树预测环状rna与疾病相关性的方法
Zhang et al. CircRNA-disease associations prediction based on metapath2vec++ and matrix factorization
CN108121896B (zh) 一种基于miRNA的疾病间关系分析方法和装置
Chantsalnyam et al. ncRDeep: Non-coding RNA classification with convolutional neural network
US10347359B2 (en) Method and system for network modeling to enlarge the search space of candidate genes for diseases
CN107679367B (zh) 一种基于网络节点关联度的共调控网络功能模块识别方法及系统
JP2022512829A (ja) 疾患診断のための方法及び機械学習
JP2023518185A (ja) 発現データのデコンボリューションのためのシステム及び方法
CN113597645A (zh) 用于重建药物应答和疾病网络的方法和系统以及其用途
US20230175058A1 (en) Methods and systems for abnormality detection in the patterns of nucleic acids
Wong et al. MIPDH: a novel computational model for predicting microRNA–mRNA interactions by DeepWalk on a heterogeneous network
Kuijjer et al. PUMA: PANDA using microRNA associations
Hwang et al. Identification of differentially expressed subnetworks based on multivariate ANOVA
Feitosa et al. MicroRNA target prediction tools for animals: Where we are at and where we are going to-A systematic review
CN110211634B (zh) 一种多组学数据联合分析的方法
US20190108311A1 (en) Site-specific noise model for targeted sequencing
Mármol-Sánchez et al. Discovery and annotation of novel microRNAs in the porcine genome by using a semi-supervised transductive learning approach
CN114627970A (zh) 结肠腺癌的焦亡相关lncRNA预后模型及其构建方法和应用
Fonville et al. Genomic leftovers: Identifying novel microsatellites, over-represented motifs and functional elements in the human genome
Fang et al. Prediction of systemic lupus erythematosus-related genes based on graph attention network and deep neural network
Chiu et al. Analyzing differential regulatory networks modulated by continuous-state genomic features in Glioblastoma Multiforme

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant