CN112885405A - 疾病关联miRNA的预测方法和系统 - Google Patents

疾病关联miRNA的预测方法和系统 Download PDF

Info

Publication number
CN112885405A
CN112885405A CN202110326227.5A CN202110326227A CN112885405A CN 112885405 A CN112885405 A CN 112885405A CN 202110326227 A CN202110326227 A CN 202110326227A CN 112885405 A CN112885405 A CN 112885405A
Authority
CN
China
Prior art keywords
mirna
disease
similarity
network
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110326227.5A
Other languages
English (en)
Inventor
黎昂
陈敏
邓英伟
谭艳
曾利军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Institute of Technology
Original Assignee
Hunan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Institute of Technology filed Critical Hunan Institute of Technology
Priority to CN202110326227.5A priority Critical patent/CN112885405A/zh
Publication of CN112885405A publication Critical patent/CN112885405A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

疾病关联miRNA预测方法和系统,涉及生物信息技术领域,本发明引入疾病高斯核谱相似性和miRNA高斯核谱相似性来构建复合型疾病语义相似性网络和复合型miRNA功能相似性网络,再在上述复合型网络中实施带重启的随机游走算法,并将所得到的两个稳定的分布向量整合得到miRNA与疾病关联综合预估得分网络,再通过网络投影手段,分别将复合型疾病相似性网络和复合型miRNA功能相似性网络在miRNA与疾病关联综合预估得分网络上进行投影,最终得出miRNA与疾病关联预测结果。与现有预测方法相比,本发明不需要负样本数据,实现简单,能够用于孤立疾病和新miRNA的预测、准确度较高且参数很少,仅利用很少的资源就可进行预测。

Description

疾病关联miRNA的预测方法和系统
技术领域
本发明涉及生物信息技术领域,特别涉及一种疾病关联miRNA的预测方法和系统。
背景技术
MicroRNA(miRNA)是一类长度约为20–25 nucleotide的单链非编码RNA,它们通过与3’untranslatedregions结合并抑制target mRNA的翻译,从而对转录后基因表达水平产生重要影响。细胞的发育、分化、生长和代谢都和miRNA密切相关,大量证据表明,miRNA的变异和失调是诱发疾病的重要原因,识别疾病相关的miRNA成为近年来生物学研究领域的一个重要课题。然而,通过生物实验来确定miRNA与疾病之间的关联是非常费时费力的,而利用计算机技术来预测潜在的疾病关联miRNA则可以大大降低工作强度,从而节省成本和时间,目前较为领先的预测模型有MDHGI、NSEMDA、RFMDA和SNMFMDA,但是上述计算预测模型的结构较为复杂,同时涉及的参数较多,需要较多的负样本数据支撑,对于数据资源的依赖性较高,实施难度较大。近些年来,将计算机技术用于预测疾病关联miRNA的专利申请也在逐步增多,例如中国专利文献CN109256215A就公开了一种基于自回避随机游走的疾病关联miRNA预测方法,该方法使用自回避随机游走的两个属性之比来度量节点间的关联度,只需根据已知miRNA与疾病的关联信息就能预测潜在的疾病关联miRNA。该方法虽然实施起来相对简单,但是其预测结果的准确度尚有待提高。
发明内容
本发明的目的之一是提供一种实现简单、结果准确度较高的疾病关联miRNA预测方法。
为了实现上述目的,本发明所涉疾病关联miRNA预测方法采用以下手段:
1)数据准备:利用疾病语义相似性和疾病高斯核谱相似性构建复合型疾病相似性网络;利用miRNA功能相似性和miRNA高斯核谱相似性构建复合型miRNA功能相似性网络;
2)miRNA与疾病关联预估:分别在复合型miRNA功能相似性网络和复合型疾病相似性网络中实施带重启的随机游走算法,得到两个稳定的分布向量,将两个分布向量整合获得miRNA与疾病关联综合预估得分网络;
3)细化预测:分别将复合型疾病相似性网络、复合型miRNA功能相似性网络在miRNA与疾病关联综合预估得分网络上进行投影,融合两个投影得分作为最终miRNA与疾病关联预测得分,进而得出疾病关联miRNA预测结果。
其中,在步骤1)中,疾病高斯核谱相似性表示为:
GD(i,j)=exp(-γd||MD(:,i)-MD(:,j)||2);
GD(i,j)为疾病di和疾病dj之间的高斯核谱相似性;MD(:,i)为已知疾病关联miRNA矩阵
Figure BDA0002994765030000021
中疾病的第i列,MD(:,j)为矩阵
Figure BDA0002994765030000031
中疾病的第j列;参数γd用来控制GD(i,j)的内核带宽,γd通过下式计算得到:
Figure BDA0002994765030000032
γd′为1。
进一步地,在步骤1)中,miRNA高斯核谱相似性表示为:
GM(i,j)=exp(-γ1||MD(i,:)-MD(j,:)||2);
GM(i,j)为miRNAmi和miRNAmj之间的高斯核谱相似性;MD(i,:)为矩阵
Figure BDA0002994765030000033
中miRNA的第i列,MD(j,:)为矩阵
Figure BDA0002994765030000034
中miRNA的第j列;参数γ1用来控制GM(i,j)的内核带宽,γ1通过下式计算得到:
Figure BDA0002994765030000035
γ1′为1。
更进一步地,在步骤1)中,利用疾病语义相似性和疾病高斯核谱相似性构建的复合型疾病相似性网络DDfs为:
Figure BDA0002994765030000036
利用miRNA功能相似性和miRNA高斯核谱相似性构建的复合型miRNA功能相似性网络MMfs为:
Figure BDA0002994765030000037
另外,在步骤2)中,于复合型疾病相似性网络中实施带重启的随机游走算法,得到表示疾病节点和miRNA节点关联程度的分布向量为:
Figure BDA0002994765030000041
MDT为矩阵
Figure BDA0002994765030000042
的转置矩阵;
Figure BDA0002994765030000043
为矩阵MDT列归一之后第i列信息,该列向量为miRNA节点mi和全部疾病节点关联的种子序列;
Figure BDA0002994765030000044
为DDfs的列归一化矩阵;η为重启概率;(MDrd(:,i))t+1为经过t次迭代后概率空间达到稳定状态时的向量值,该向量值为miRNA节点mi和各个疾病节点的关联得分;MDrd为基于复合型疾病相似性网络的miRNA与疾病关联预估得分矩阵。
进一步地,在步骤2)中,于复合型miRNA功能相似性网络中实施带重启的随机游走算法,得到表示miRNA节点和疾病节点关联程度的分布向量为:
Figure BDA0002994765030000045
Figure BDA0002994765030000046
为矩阵
Figure BDA0002994765030000047
列归一之后第j列信息,该列向量为疾病节点dj和全部miRNA节点关联的种子序列;
Figure BDA0002994765030000048
为MMfs的列归一化矩阵;γ为重启概率;(MDrm(:,j))t为经过t次迭代后概率空间达到稳定状态时的向量值,该向量值为疾病节点dj和各个miRNA节点的关联得分,MDrm为基于复合型miRNA功能相似性网络的miRNA与疾病关联预估得分矩阵。
更进一步地,在步骤2)中,按以下方式整合两个分布向量,得到miRNA与疾病关联综合预估得分网络:
Figure BDA0002994765030000051
MDr为基于miRNA与疾病关联综合预估得分网络的miRNA与疾病关联综合预估得分矩阵,(MDrd)T为MDrd的转置矩阵。
此外,在步骤3)中,将复合型miRNA功能相似性网络在miRNA与疾病预估得分网络上投影,得到基于复合型miRNA功能相似性网络的投影得分MDpm为:
Figure BDA0002994765030000052
将复合型疾病相似性网络在miRNA与疾病预估得分网络上投影,得到基于复合型疾病相似性网络的投影得分MDpd为:
Figure BDA0002994765030000053
进一步地,在步骤3)中,融合复合型miRNA功能相似性网络的投影得分与复合型疾病相似性网络的投影得分,得到最终的预测得分MDp为:
Figure BDA0002994765030000054
最后,本发明还涉及一种疾病关联miRNA预测系统,其包括:
数据准备单元,用于根据疾病语义相似性和疾病高斯核谱相似性构建复合型疾病相似性网络;并根据miRNA功能相似性和miRNA高斯核谱相似性构建复合型miRNA功能相似性网络;
预评估单元,用于在数据准备单元构建的复合型miRNA功能相似性网络和复合型疾病相似性网络中实施带重启的随机游走算法,构建miRNA与疾病关联综合预估得分网络;
细化预测单元,用于将数据准备单元构建的复合型疾病相似性网络和复合型miRNA功能相似性网络分别在预评估单元构建的miRNA与疾病关联综合预估得分网络上进行投影,并融合两个投影得分,得出疾病关联miRNA预测结果;
该疾病关联miRNA预测系统按照前面所述的预测方法对miRNA与疾病间关联性进行预测。
现有预测方法很多是利用疾病语义相似性网络和miRNA功能相似性网络来衡量疾间相似性及miRNA间功能相似性,常常会由于数据缺失而导致很多疾病间的语义相似性以及miRNA间的功能相似性为零,从而影响预测结果的准确性,为保证预测结果准确性,则必须提供大量关联负样本数据作为支撑,而负样本的选取又是非常困难的。与现有的疾病关联miRNA预测方法不同,本发明首先利用疾病高斯核谱相似性与疾病语义相似性结合构建复合型疾病语义相似性网络、利用miRNA高斯核谱相似性与miRNA功能相似性结合构建复合型miRNA功能相似性网络,再分别在复合型疾病语义相似性网络和复合型miRNA功能相似性网络中实施带重启的随机游走算法,并将实施带重启的随机游走算法所得到的两个稳定的分布向量整合得到miRNA与疾病关联综合预估得分网络,之后结合网络投影方法,分别将复合型疾病相似性网络、复合型miRNA功能相似性网络在miRNA与疾病关联综合预估得分网络上进行投影,最终得出miRNA与疾病关联预测结果。与现有预测方法相比,本发明不需要负样本数据,实现简单,能够用于孤立疾病和新miRNA的预测、准确度较高且参数很少,仅利用很少的资源就可进行预测。
附图说明:
图1为实施例中疾病关联miRNA预测方法的实现流程图。
图2为实施例所涉疾病关联miRNA预测方法和其它四种现有方法的ROC曲线和AUC值比较图。
图3为实施例中所涉疾病关联miRNA预测方法对孤立疾病和新miRNA预测的ROC曲线和AUC值图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例和附图对本发明作进一步的说明,实施例提及的内容并非对本发明的限定。
图1示出了以下实施例中疾病关联miRNA预测方法的具体实现流程,其主要包括以下步骤:
一、数据准备:利用疾病语义相似性和疾病高斯核谱相似性构建复合型疾病相似性网络;利用miRNA功能相似性和miRNA高斯核谱相似性构建复合型miRNA功能相似性网络。
1.1miRNA-疾病关联:从记录miRNA和人类疾病关联的HMDD数据库中提取了383种人类疾病和495种miRNAs之间的关联,其中已知的实验验证的miRNA-疾病关联为5430个,用矩阵
Figure BDA0002994765030000071
表示,若miRNA节点mi和疾病节点dj存在实验验证的关联,则MD(i,j)设为1,否则设为0。
1.2疾病语义相似性:现有技术中,每个疾病在在MeSH(医学主题词表)中被描述为层次结构的有向无环图(DAG),根据两个疾病的MeSH描述DAG图即可度量疾病之间的语义相似性,根据从祖先节点遍历至目标疾病节点的遍历路径情况来计算疾病的语义值,各个节点的语义贡献值定义如下:
Figure BDA0002994765030000081
其中,DA(t)为疾病DAG中疾病t对疾病A的语义贡献值,Δ为语义贡献系数,取0.5时效果最好,疾病A的语义值根据下式计算:
Figure BDA0002994765030000082
通过上式计算出A、B两个疾病的语义值之后,然后用下式来计算两个疾病的语义相似度:
Figure BDA0002994765030000083
本实施例也采用上述方法来计算疾病之间的语义相似性,并用矩阵
Figure BDA0002994765030000084
表示疾病之间的语义相似性,由于上述计算语义相似性的方法属于现有技术,在此不再对其作展开和赘述。
1.3miRNA功能相似性:通常情况下,功能相似的miRNAs倾向于与表型相似的疾病相关,反之亦然。基于上述规律,现有技术中已经存在计算miRNA之间功能相似性的方法并被用于疾病关联miRNA预测中,由于上述计算miRNA功能相似性的方法属于现有技术,为简化表述,在此不作赘述。在本实施例中,采用现有的方法计算miRNA功能相似性,并用矩阵
Figure BDA0002994765030000091
表示miRNA间的功能相似性。
1.4疾病高斯核谱相似性与miRNA高斯核谱相似性:考虑到在采用疾病语义相似性衡量疾病之间的相似性时,由于数据缺失,很多疾病之间的语义相似性为0,影响预测结果准确性,本实施例中引入疾病高斯核谱相似性来平衡上述问题:
GD(i,j)=exp(-γd||MD(:,i)-MD(:,j)||2);
GD(i,j)为疾病di和疾病dj之间的高斯核谱相似性;MD(:,i)为已知疾病关联miRNA矩阵
Figure BDA0002994765030000092
中疾病的第i列,MD(:,j)为矩阵
Figure BDA0002994765030000093
中疾病的第j列;参数γd用来控制GD(i,j)的内核带宽,γd通过下式计算得到:
Figure BDA0002994765030000098
其中,γd′设为1。
同样的,miRNA高斯核谱相似性计算如下:
GM(i,j)=exp(-γ1||MD(i,:)-MD(j,:)|||2);
GM(i,j)为miRNA mi和miRNAmj之间的高斯核谱相似性;MD(i,:)为矩阵
Figure BDA0002994765030000095
中miRNA的第i列,MD(j,:)为矩阵
Figure BDA0002994765030000096
中miRNA的第j列;参数γ1用来控制GM(i,j)的内核带宽,γ1通过下式计算得到:
Figure BDA0002994765030000097
其中,γ1′设为1。
1.5构建复合型疾病相似性网络和复合型miRNA功能相似性网络:整合疾病语义相似性和疾病高斯核谱相似性得到复合型疾病相似性网络DDfs,整合miRNA功能相似性和miRNA高斯核谱相似性得到复合型miRNA相似性网络MMfs
Figure BDA0002994765030000101
Figure BDA0002994765030000102
二、miRNA与疾病关联预估:分别在复合型miRNA功能相似性网络和复合型疾病相似性网络中实施带重启的随机游走算法,得到两个稳定的分布向量,将两个分布向量整合获得miRNA与疾病关联综合预估得分网络。
2.1复合型miRNA功能相似性网络实施带重启的随机游走算法:为了缓解已知的miRNA-疾病关联网络节点稀疏的问题,首先利用带重启的随机游走算法在miRNA相似性网络中行走,然后用捕获得到稳定的信息分布向量来表示miRNA节点和疾病节点的关联程度:
Figure BDA0002994765030000103
Figure BDA0002994765030000104
为矩阵
Figure BDA0002994765030000105
列归一之后第j列信息,该列向量为疾病节点dj和全部miRNA节点关联的种子序列;
Figure BDA0002994765030000106
为MMfs的列归一化矩阵;γ为重启概率,本实施例中γ取值为0.9;(MDrm(:,j))t为经过t次迭代后概率空间达到稳定状态时的向量值,该向量值为疾病节点dj和各个miRNA节点的关联得分,MDrm为基于复合型miRNA功能相似性网络的miRNA与疾病关联预估得分矩阵。
2.2复合型疾病相似性网络实施带重启的随机游走算法:与2.1类似,也是首先利用带重启的随机游走算法在疾病相似性网络中行走,然后用得到的稳定的信息分布向量来表示疾病节点和miRNA节点关联程度:
Figure BDA0002994765030000111
MDT为矩阵
Figure BDA0002994765030000112
的转置矩阵;
Figure BDA0002994765030000113
为矩阵MDT列归一之后第i列信息,该列向量为miRNA节点mi和全部疾病节点关联的种子序列;
Figure BDA0002994765030000114
为DDfs的列归一化矩阵;η为重启概率,本实施例中,η取值与γ相同,也为0.9;(MDrd(:,i))t+1为经过t次迭代后概率空间达到稳定状态时的向量值,该向量值为miRNA节点mi和各个疾病节点的关联得分;MDrd为基于复合型疾病相似性网络的miRNA与疾病关联预估得分矩阵。
2.3两个分布向量的整合:整合两个分布向量,得到miRNA与疾病关联综合预估得分网络:
Figure BDA0002994765030000115
MDr为基于miRNA与疾病关联综合预估得分网络的miRNA与疾病关联综合预估得分矩阵,(MDrd)T为MDrd的转置矩阵。
三、细化预测:分别将复合型疾病相似性网络、复合型miRNA功能相似性网络在miRNA与疾病关联综合预估得分网络上进行投影,融合两个投影得分作为最终miRNA与疾病关联预测得分,进而得出疾病关联miRNA预测结果。
3.1网络投影:在使用随机游走算法求得miRNA-疾病预估得分的基础上,接下来利用网络投影求得投影得分。
首先利用复合型miRNA功能相似性网络在miRNA与疾病关联综合预估得分网络上投影,得到基于复合型miRNA功能相似性网络的投影得分MDpm
Figure BDA0002994765030000121
然后将复合型疾病相似性网络在miRNA与疾病预估得分网络上投影,得到基于复合型疾病相似性网络的投影得分MDpd
Figure BDA0002994765030000122
3.2:融合投影得分:最后,整合于基于复合型miRNA功能相似性网络的投影得分、基于复合型疾病相似性网络的投影得分,得到最终的预测得分MDp,得出预测结果。
Figure BDA0002994765030000123
四、评价测试:采用留一交叉验证对上述预测方法(以下将上述实施例中的预测方法简称为“RWRSP”)的性能进行评估,具体说来,依次将每一对miRNA-疾病关联作为测试样本,剩下的关联作为训练样本用于模型训练,直至每一对miRNA-疾病关联均作为测试样本测试一次。评估的性能指标采用ROC曲线及AUC值。ROC曲线,也叫受试者工作特征曲线或者感受性曲线,是反映敏感性(Sensitivity)和特异性(Specificity)的综合指标。ROC曲线的线下面积即为AUC,ROC曲线越凸越接近左上角,AUC值越大,预测性能越好。
4.1与其他方法的性能比较:选取现有技术中MDHGI、NSEMDA、RFMDA、SNMFMDA这四种方法与RWRSP进行对比实验。针对RWRSP、MDHGI,NSEMDA,RFMDA和SNMFMDA这五种方法,在数据集上分别部署LOOCV评估他们的预测性能。MDHGI,NSEMDA,RFMDA和SNMFMDA均按照最优参数设置。图2示出了这五种方法在LOOCV中的ROC曲线和AUC值。RWRSP的AUC为0.9029,而MDHGI,NSEMDA,RFMDA和SNMFMDA分别为0.8945、0.8899、0.8891、0.9007。显然,RWRSP显示出了最好的预测性能。
4.2孤立疾病和新miRNA预测:孤立疾病是指miRNA的关联信息完全未知的疾病。为了模拟孤立疾病,将待查询疾病与所有miRNA的已知关联均去除。在进行交叉验证时,每次均取一个疾病模拟为孤立疾病,然后用其余的已知信息实施RWRSP进行预测,如此直至每种疾病均作为测试样本预测一次为止。预测结果用ROC曲线及AUC值进行评估,预测结果如图3所示,AUC值为0.7774,这说明RWRSP对于孤立疾病与miRNA关系的预测具有不错的效果。
最近几年,越来越多的新miRNA被发现,但其与疾病的关系大多未知,对预测算法提出很大的挑战。现有的预测方法很多都不能很好的解决这类问题,为了验证RWRSP对新的miRNA和疾病关联预测的有效性,同样把待预测的miRNA与所有疾病的关联信息均去掉,然后实施RWRSP进行预测,如图3所示,对于新miRNA的预测,其AUC值达到了0.8041,这说明RWRSP对于新miRNA和疾病关联预测也具有较好的性能。
4.3案例分析:为了进一步评价RWRSP对潜在miRNA-疾病相关性预测的效果,下面选取肺肿瘤和肾肿瘤这两种疾病进行案例分析。
利用已知数据,使用RWRSP针对肺肿瘤进行实验。RWRSP预测的前50个与肺肿瘤相关的miRNA中,有49个miRNA可以从HMDD 3.0、和dbDEMC这两个数据集中找到支持证据,使用RWRSP预测得到的排名前50的肺肿瘤相关miRNA见下表1所示,其中只有hsa-mir-451b没有得到这两个数据库的证明,但是Natarelli{Natarelli,2020#1143}认为hsa-miR-451b能够抑制骨肉瘤肺转移。对于肾肿瘤,使用RWRSP预测得到的排名前50的肾肿瘤相关miRNA见下表2所示,在预测的前50个与肾肿瘤相关的miRNA中,同样有49个miRNA可以从HMDD 3.0、和dbDEMC这两个数据集中找到支持证据,仅有hsa-mir-1没有找到支持证据。
为了评估RWRSP对孤立性疾病的预测性能,删除了已知的与被验证疾病相关的miRNAs关联,这一操作确保只利用了被验证疾病和其它疾病的相似性信息及和其它疾病有关联的miRNAs信息。对于肺肿瘤,删除了78个已知的肺肿瘤与miRNAs的关联,用RWRSP预测潜在的miRNAs与肺肿瘤的关联,在删除了所有已知的肺肿瘤与miRNA的关联条件下RWRSP预测的前50名与肺肿瘤相关的miRNA候选物见表3所示,在预测的前50个miRNAs中全部可在HMDD和dbDEMC数据库中可以找到。对于肾肿瘤,删除了8个已知的关联实施RWRSP进行预测,在删除了所有已知的肾肿瘤与miRNA的关联条件下RWRSP预测的前50名与肾肿瘤相关的miRNA候选物见表4所示,得到的预测结果中前50个预测关联有48个在数据库HMDD和dbDEMC中找到了证据,只有hsa-mir-1和hsa-mir-9没有得到这两个数据库的证明,虽然没有得到数据库的证明,但是业内通常也认为hsa-mir-1和肾肿瘤是有关联的。
表1
Figure BDA0002994765030000151
Figure BDA0002994765030000161
表2
Figure BDA0002994765030000162
表3
Figure BDA0002994765030000163
Figure BDA0002994765030000171
表4
Figure BDA0002994765030000172
Figure BDA0002994765030000181
综上所述,RWRSP不仅在预测未知miRNA-疾病相互作用方面具有较高的性能,而且可以有效预测孤立疾病和新miRNA。通过与现有技术中四种相对较为先进的预测方法(MDHGI,NSEMDA,RFMDA和SNMFMDA)进行性能对比,RWRSP,MDHGI,NSEMDA,RFMDA和SNMFMDA的AUC值分别为0.9029,0.8945、0.8899、0.8891、0.9007.RWRSP的预测结果均优于其他方法,预测结果准确性较高。此外,评估RWRSP对孤立疾病和新miRNA的预测性能时,在逐个将每个疾病(mirRNA)模拟成孤立疾病(新miRNA)的条件下,对每个疾病(miRNA)实施交叉验证,其AUC值分别为0.7774和0.8041,这说明RWRSP对于孤立疾病与miRNA关系的预测具有较好的预测效果。总体来看,RWRSP实现简单、能够用于孤立疾病和新miRNA的预测、可解释性强,并且参数很少,仅利用很少的资源即可进行预测,可以作为生物实验有力的辅助工具。
基于上述RWRSP预测方法,在本实施例的最后还提供一种疾病关联miRNA预测系统,该疾病关联miRNA预测系统是按照上述RWRSP预测方法对miRNA与疾病间关联性进行预测,具体来说,其至少包括:
数据准备单元,用于根据疾病语义相似性和疾病高斯核谱相似性构建复合型疾病相似性网络;并根据miRNA功能相似性和miRNA高斯核谱相似性构建复合型miRNA功能相似性网络;
预评估单元,用于在数据准备单元构建的复合型miRNA功能相似性网络和复合型疾病相似性网络中实施带重启的随机游走算法,构建miRNA与疾病关联综合预估得分网络;
细化预测单元,用于将数据准备单元构建的复合型疾病相似性网络和复合型miRNA功能相似性网络分别在预评估单元构建的miRNA与疾病关联综合预估得分网络上进行投影,并融合两个投影得分,得出疾病关联miRNA预测结果。
应当指出的是,上述疾病关联miRNA预测系统既可以被封装在便携式的存储介质中运行,也可以存储在云端在线运行;实施疾病关联miRNA预测的过程可以由能够运行上述预测系统的计算机来执行,也可以由位于云端的服务器来执行,本发明的实施并不限于特定硬件和软件的结合。
上述实施例为本发明较佳的实现方案,除此之外,本发明还可以其它方式实现,在不脱离本技术方案构思的前提下任何显而易见的替换均在本发明的保护范围之内。
最后,应该强调的是,为了让本领域普通技术人员更方便地理解本发明相对于现有技术的改进之处,本发明的一些描述已经被简化,并且为了清楚起见,本申请文件还省略了一些其它元素,本领域普通技术人员应该意识到这些省略的元素也可构成本发明的内容。

Claims (10)

1.疾病关联miRNA预测方法,其特征在于,包括以下步骤:
1)数据准备:利用疾病语义相似性和疾病高斯核谱相似性构建复合型疾病相似性网络;利用miRNA功能相似性和miRNA高斯核谱相似性构建复合型miRNA功能相似性网络;
2)miRNA与疾病关联预估:分别在复合型miRNA功能相似性网络和复合型疾病相似性网络中实施带重启的随机游走算法,得到两个稳定的分布向量,将两个分布向量整合获得miRNA与疾病关联综合预估得分网络;
3)细化预测:分别将复合型疾病相似性网络、复合型miRNA功能相似性网络在miRNA与疾病关联综合预估得分网络上进行投影,融合两个投影得分作为最终miRNA与疾病关联预测得分,进而得出疾病关联miRNA预测结果。
2.根据权利要求1所述疾病关联miRNA预测方法,其特征在于,步骤1)中,疾病高斯核谱相似性表示为:
GD(i,j)=exp(-γd||MD(:,i)-MD(:,j)||2);
其中,GD(i,j)为疾病di和疾病dj之间的高斯核谱相似性;MD(:,i)为已知疾病关联miRNA矩阵
Figure FDA0002994765020000011
中疾病的第i列,MD(:,j)为矩阵
Figure FDA0002994765020000012
中疾病的第j列;参数γd用来控制GD(i,j)的内核带宽,γd通过下式计算得到:
Figure FDA0002994765020000021
其中,γd′为1。
3.根据权利要求2所述疾病关联miRNA预测方法,其特征在于,步骤1)中,miRNA高斯核谱相似性表示为:
GM(i,j)=exp(-γ1||MD(i,:)-MD(j,:)||2);
其中,GM(i,j)为miRNA mi和miRNA mj之间的高斯核谱相似性;MD(i,:)为矩阵
Figure FDA0002994765020000026
中miRNA的第i列,MD(j,:)为矩阵
Figure FDA0002994765020000022
中miRNA的第j列;参数γl用来控制GM(i,j)的内核带宽,γl通过下式计算得到:
Figure FDA0002994765020000023
其中,γl′为1。
4.根据权利要求3所述疾病关联miRNA预测方法,其特征在于,步骤1)中:
利用疾病语义相似性和疾病高斯核谱相似性构建的复合型疾病相似性网络DDfs为:
Figure FDA0002994765020000024
利用miRNA功能相似性和miRNA高斯核谱相似性构建的复合型miRNA功能相似性网络MMfs为:
Figure FDA0002994765020000025
5.根据权利要求4所述疾病关联miRNA预测方法,其特征在于,步骤2)中,在复合型疾病相似性网络中实施带重启的随机游走算法,得到表示疾病节点和miRNA节点关联程度的分布向量为:
Figure FDA0002994765020000031
其中,MDT为矩阵
Figure FDA0002994765020000032
的转置矩阵;
Figure FDA0002994765020000033
为矩阵MDT列归一之后第i列信息,该列向量为miRNA节点mi和全部疾病节点关联的种子序列;
Figure FDA0002994765020000034
为DDfs的列归一化矩阵;η为重启概率;(MDrd(:,i))t+1为经过t次迭代后概率空间达到稳定状态时的向量值,该向量值为miRNA节点mi和各个疾病节点的关联得分;MDrd为基于复合型疾病相似性网络的miRNA与疾病关联预估得分矩阵。
6.根据权利要求5所述疾病关联miRNA预测方法,其特征在于,步骤2)中,在复合型miRNA功能相似性网络中实施带重启的随机游走算法,得到表示miRNA节点和疾病节点关联程度的分布向量为:
Figure FDA0002994765020000035
其中,
Figure FDA0002994765020000038
为矩阵
Figure FDA0002994765020000036
列归一之后第j列信息,该列向量为疾病节点dj和全部miRNA节点关联的种子序列;
Figure FDA0002994765020000037
为MMfs的列归一化矩阵;γ为重启概率;(MDrm(:,j))t为经过t次迭代后概率空间达到稳定状态时的向量值,该向量值为疾病节点dj和各个miRNA节点的关联得分,MDrm为基于复合型miRNA功能相似性网络的miRNA与疾病关联预估得分矩阵。
7.根据权利要求6所述的疾病关联miRNA预测方法,其特征在于,步骤2)中,按以下方式整合两个分布向量,得到miRNA与疾病关联综合预估得分网络:
Figure FDA0002994765020000041
其中,MDr为基于miRNA与疾病关联综合预估得分网络的miRNA与疾病关联综合预估得分矩阵,(MDrd)T为MDrd的转置矩阵。
8.根据权利要求7所述的疾病关联miRNA预测方法,其特征在于,步骤3)中:
将复合型miRNA功能相似性网络在miRNA与疾病预估得分网络上投影,得到基于复合型miRNA功能相似性网络的投影得分MDpm为:
Figure FDA0002994765020000042
将复合型疾病相似性网络在miRNA与疾病预估得分网络上投影,得到基于复合型疾病相似性网络的投影得分MDpd为:
Figure FDA0002994765020000043
9.根据权利要求8所述的疾病关联miRNA预测方法,其特征在于,步骤3)中,融合复合型miRNA功能相似性网络的投影得分与复合型疾病相似性网络的投影得分,得到最终的预测得分MDp为:
Figure FDA0002994765020000044
10.疾病关联miRNA预测系统,其特征在于,包括:
数据准备单元,用于根据疾病语义相似性和疾病高斯核谱相似性构建复合型疾病相似性网络;并根据miRNA功能相似性和miRNA高斯核谱相似性构建复合型miRNA功能相似性网络;
预评估单元,用于在数据准备单元构建的复合型miRNA功能相似性网络和复合型疾病相似性网络中实施带重启的随机游走算法,构建miRNA与疾病关联综合预估得分网络;
细化预测单元,用于将数据准备单元构建的复合型疾病相似性网络和复合型miRNA功能相似性网络分别在预评估单元构建的miRNA与疾病关联综合预估得分网络上进行投影,并融合两个投影得分,得出疾病关联miRNA预测结果;
上述疾病关联miRNA预测系统按照权利要求2-9中任意一项所述的预测方法对miRNA与疾病间关联性进行预测。
CN202110326227.5A 2021-03-26 2021-03-26 疾病关联miRNA的预测方法和系统 Pending CN112885405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110326227.5A CN112885405A (zh) 2021-03-26 2021-03-26 疾病关联miRNA的预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110326227.5A CN112885405A (zh) 2021-03-26 2021-03-26 疾病关联miRNA的预测方法和系统

Publications (1)

Publication Number Publication Date
CN112885405A true CN112885405A (zh) 2021-06-01

Family

ID=76042581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110326227.5A Pending CN112885405A (zh) 2021-03-26 2021-03-26 疾病关联miRNA的预测方法和系统

Country Status (1)

Country Link
CN (1) CN112885405A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114496092A (zh) * 2022-02-09 2022-05-13 中南林业科技大学 基于图卷积网络的miRNA和疾病关联关系预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114496092A (zh) * 2022-02-09 2022-05-13 中南林业科技大学 基于图卷积网络的miRNA和疾病关联关系预测方法
CN114496092B (zh) * 2022-02-09 2024-05-03 中南林业科技大学 基于图卷积网络的miRNA和疾病关联关系预测方法

Similar Documents

Publication Publication Date Title
CN109243538B (zh) 一种预测疾病与LncRNA关联关系的方法及系统
Hu et al. Improving one-shot nas with shrinking-and-expanding supernet
Fan et al. lncRNA-MFDL: identification of human long non-coding RNAs by fusing multiple features and using deep learning
CN112270958B (zh) 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法
CN116741397B (zh) 基于多组学数据融合的癌症分型方法、系统及存储介质
Deng et al. LDAH2V: Exploring meta-paths across multiple networks for lncRNA-disease association prediction
CN112214689A (zh) 基于社交网络中群体的影响力最大化方法及系统
CN111599406B (zh) 结合网络聚类方法的全局多网络比对方法
CN113488104A (zh) 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统
CN113871021A (zh) 一种基于图注意力机制的circRNA与疾病关联关系预测方法
CN113724790A (zh) 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法
Sedaghat et al. Combining supervised and unsupervised learning for improved miRNA target prediction
CN113539372A (zh) 一种LncRNA和疾病关联关系的高效预测方法
CN111584010B (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
CN114093422A (zh) 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其系统
CN112885405A (zh) 疾病关联miRNA的预测方法和系统
CN111898039B (zh) 一种融合隐藏关系的属性社区搜索方法
CN112884087A (zh) 一种生物增强子及其类型的识别方法
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
CN112992347A (zh) 基于拉普拉斯正则化最小二乘和网络投影的lncRNA-疾病关联预测方法和系统
CN114238661B (zh) 一种基于可解释模型的文本歧视性样本检测生成系统与方法
Shehzadi et al. Intelligent predictor using cancer-related biologically information extraction from cancer transcriptomes
CN111599412B (zh) 基于词向量与卷积神经网络的dna复制起始区域识别方法
CN115295079A (zh) 基于元图学习的长链非编码rna亚细胞定位预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination