CN114171124A - 一种基于回归的性能优异的疾病和miRNA关联预测方法 - Google Patents

一种基于回归的性能优异的疾病和miRNA关联预测方法 Download PDF

Info

Publication number
CN114171124A
CN114171124A CN202111387787.8A CN202111387787A CN114171124A CN 114171124 A CN114171124 A CN 114171124A CN 202111387787 A CN202111387787 A CN 202111387787A CN 114171124 A CN114171124 A CN 114171124A
Authority
CN
China
Prior art keywords
mirna
disease
regression
association
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111387787.8A
Other languages
English (en)
Inventor
王树林
陈嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202111387787.8A priority Critical patent/CN114171124A/zh
Publication of CN114171124A publication Critical patent/CN114171124A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于回归的性能优异的miRNA与疾病关联预测方法。其发明内容主要包括:(1)数据集的收集和处理;(2)构建疾病语义相似性矩阵SS、miRNA功能相似性矩阵FS、疾病/miRNA高斯相互作用轮廓核相似性矩阵KD和KM以及疾病/miRNA综合相似性矩阵SD和SM;(3)利用嵌入层的概念,利用回归模型训练嵌入层,将一种疾病/miRNA映射成一个特征向量;(4)利用k均值聚类挑选负样本;(5)构建BP神经网络并训练;(6)利用训练好的BP神经网络做预测;(7)利用dbDEMC数据库验证预测结果的准确性。和现有的技术相比,本发明提供了一种基于回归提取特征向量,并用k均值聚类提取负样本以识别未知的疾病‑miRNA关联,具有更强的鲁棒性。本发明的方法可行且有效,在预测miRNA与疾病关联方方面能取得良好的效果,对于疾病/miRNA特征向量的提取的发展具有重要意义。

Description

一种基于回归的性能优异的疾病和miRNA关联预测方法
技术领域
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于回归的性能优异的miRNA 与疾病关联预测方法。
背景技术
自人类出现以来,人类就一直与疾病做斗争。这背后,与人们对疾病本质的研究和了解, 有重大的关联。为了从本质上了解自身和认识疾病,人们曾开展过一系列的研究,比如人类 基因组计划、癌症基因组学等。MicroRNA(miRNA)是一类长约20-24个核苷酸的非编码 miRNA,目前大量的研究表明,miRNA与多种疾病的发生及发展有关,例如免疫疾病,先天性疾病,甚至癌症等,研究miRNA与疾病之间的关联对于人类复杂疾病的诊断,治疗等具有重要的价值。
探究miRNA与疾病之间的关系的方法可以概括为生物湿实验法和生物信息学方法,生 物湿实验耗时长,成本高,实验条件苛刻,但是准确性高。生物信息学方法耗时较少,成本 低,实验要求低,但是还是需要生物湿实验证明预测结果的有效性,所以生物信息学方法预 测结果的准确性就非常重要。在生物信息学方法中,基于网络的预测模型和基于机器学习的 预测模型。基于网络的方法的共同点是假设功能相关的miRNA与表型相似的疾病密切相关, 反之亦然。例如,Han等人提出了DismiPred方法,这种方法通过整合miRNA相似网络和公 共关联信息来对未知的miRNA与疾病关联做预测。Chen等人提出了HAMDA方法,HAMDA 充分利用了miRNA功能相似性网络以及疾病语义相似性网络这双层网络中的网络结构节点 属性,使得预测效果较好。但是DismiPred和HAMDA都不能应用于涉及孤立疾病或者孤立 miRNA的关系预测。除了网络的预测模型外,还有基于机器学习算法的预测模型,基于机器 学习的方法使用已知的疾病和miRNA关联来训练学习模型,然后运用训练后的模型对未知 的关联进行预测。例如,Li等人提出了NIMCCGCN方法,NIMCCGCN首先利用不同的数据集构建miRNA-疾病网络,再利用图卷积网络以及线性变换从miRNA-疾病网络提取出miRNA和疾病的特征表达,接着利用这些特征向量训练模型,最后利用训练好的模型对未知的miRNA-疾病对做预测。Chen等人提出了RFMDA机器模型框架,RFMDA基于随机森林提取 特征向量,然后从未知的miRNA-疾病关联中选择负样本,但是由于分样本的选择是随机的, 导致模型性能不稳定。Zhao等人提出了ABMDA,ABMDA是一种自适应增强模型,选取负样 本的方法是利用k均值聚类算法先将负样本分成23簇,再从这23簇中的每一簇随机选取相 同数量的负样本,但是没有考虑到每一簇的样本数是不同的。
因此针对上面方法中存在的孤立miRNA/疾病无法预测问题,负样本选取不平衡等问题 本文提出了一种基于回归以提取特征向量以及k均值选取负样本的性能优异的机器学习方法, 以预测未知miRNA-疾病对之间的相关性。
发明内容
本发明提出了一种基于回归的性能优异的miRNA与疾病关联预测方法,用以预测未知 的miRNA-疾病之间是否存在关联,主要包括以下步骤:
(1)收集已知疾病-miRNA相互作用数据,疾病、miRNA之间的成对关联信息,miRNA语义信息和疾病相似性数据。
(2)构建疾病语义相似性矩阵、疾病/miRNA高斯相互作用轮廓核相似性矩阵以及miRNA/疾病综合相似性矩阵;
(3)基于回归提取miRNA/疾病的特征向量;
(4)将已知的miRNA-疾病作为正样本,利用k均值聚类方法从未知miRNA-疾病关联中提取负样本。
(5)构建和训练神经网络。
(6)利用训练好的神经网络预测未知miRNA和疾病的关联。
(7)利用dbDEMC数据库验证预测结果的正确性。
具体内容如下:
(1)数据收集阶段
我们收集并整合而来HMDD v2.0数据集,将HMDD v2.0数据集中的已知miRNA- 疾病关联整合,整合后的数据集包含495种miRNA和383种疾病以及5430对已知miRNA- 疾病关联,接着构建一个矩阵A描述疾病d(i)和miRNA m(j)是否存在关联,A(i,j)等于0或 者1,0表示疾病d(i)和miRNA m(j)无关,1表示疾病d(i)和miRNA m(j)有关。从 http:// ww.cuilab.cn/files/images/cuilab/mism.zip下载miRNA功能相似矩阵FS,在矩阵FS 中,FS(i,j)表示miRNA m(i)和m(j)的功能相似性。从www.nlm.nih.gov下载mesh数据 集,用于计算疾病的语义相似性。
(2)获得疾病语义相似性、miRNA功能相似性、疾病/miRNA高斯相似作用轮廓核相似性以及miRNA/疾病综合相似性
计算疾病语义相似性方法为,根据mesh数据集构建有向无环图DAG,每种疾病D对应一 个DAG图,DAG(D)=(D,T(D),E(D)),T(D)表示疾病D的祖先节点以及节点D本身,E(D)表 示每个父亲节点和子节点之间的边,DAG图中每种疾病d对疾病D的语义值贡献值为:
Figure BDA0003367609510000031
其中Δ的值设为0.5.所以疾病D的语义值的计算公式为:
Figure BDA0003367609510000032
疾病d(i)和d(j)的语义相似性计算公式1为:
Figure BDA0003367609510000033
但是单纯的利用上述公式没有考虑两种出现次数不同疾病出现在DAG(D)图中的同一层 时,它们的贡献度应该不同的情况,需要利用以下几个公式进行改进:
Figure BDA0003367609510000034
DV2(D)=∑d∈T(D)D2D(d) (5)
Figure BDA0003367609510000035
疾病d(i)和d(j)的语义相似性计算公式为:
Figure BDA0003367609510000036
疾病/miRNA高斯相互作用轮廓核相似性矩阵计算基于假设:存在功能相似性的miRNAs 与有相似表型的疾病之间的联系更加密切。IP(d(i))表示已知关联矩阵A的第i行,则疾病d(i) 和d(j)高斯相似作用轮廓核相似性定义为:
KD(d(i),d(j))=exp(-rd||IP(d(i))-IP(d(j))||2) (8)
其中rd的计算公式为:
Figure BDA0003367609510000037
r′d的值设为1.
类似的m(i)和m(j)高斯相似作用轮廓核相似性定义为:
KM(m(i),m(j))=exp(-rm||IP(m(i))-IP(m(j))||2) (10)
Figure BDA0003367609510000041
同样的r′m的值设为1.
疾病综合相似性计算公式为:
Figure BDA0003367609510000042
miRNA综合相似性计算公式为:
Figure BDA0003367609510000043
(3)基于回归模型提取特征向量
在自然语言处理中,可以利用嵌入层将一个词映射成向量,同样的,本文就是利用这种 思想,利用回归训练嵌入层对应的向量,将一种疾病或者miRNA映射成一个向量,利用这个 向量作为疾病或者miRNA的特征向量。
在(2)中,我们可以计算得到疾病的综合相似性矩阵SD以及miRNA的综合相似性矩阵 SM。先随机生成一个嵌入层对应的矩阵D作为疾病的特征向量矩阵:
D=(d1,d2,...,dnd)T,di∈Rkd (14)
其中nd表示疾病的个数,kd表示疾病特征向量所对应的维度。di和dj分别表示疾病i和疾 病j所对应的特征向量,SD(i,j)表示疾病i和疾病j的综合相似性,利用di和dj计算两向量之间 改进的余弦相似性:
Figure BDA0003367609510000044
本文构建了一个回归模型来学习疾病特征向量矩阵D,目标优化函数为:
Figure BDA0003367609510000045
Nd表示训练样本数量,并使用带反向传播的随机梯度下降(SDG)来更新疾病特征向量矩 阵D。
同理可得miRNA特征向量矩阵SM:
M=(m1,m2,...,mnm)T,mi∈Rkm (17)
Figure BDA0003367609510000051
Figure BDA0003367609510000052
(4)利用k均值聚类选取负样本
通过(2)得到了疾病的综合相似性矩阵SD和miRNA的综合相似性矩阵SM,假设疾病di和miRNA mj是未知关联的疾病-miRNA对,则用SD(i)表示疾病di对应的SD矩阵中的第i行,同理SM(j)表示miRNA mj在SM矩阵中对应的第j行,[SD(i),SM(j)]表示该未知疾病-miRNA对应的组合向量,基于tensorflow框架,利用k-means将所有未知疾病-miRNA关联 对对应的组合向量分成23簇,再根据划分结果将所有的未知疾病-miRNA对分成23簇,再 从这23簇根据簇的大小按比例挑选与正样本相同数目的负样本。
(5)构建和训练神经网络
通过(3)得到特征向量矩阵D和M,通过(4)得到了正负样本,接着就是构建神经网络 了,本文基于pytorch框架构建了一个四层BP全连接神经网络网络,其中包含一层输入层, 二层隐藏层和一层输层,并使用Relu作为激活函数,并使用带反向传播的随机梯度下降(SDG) 来更新网络中的参数矩阵,损失函数为交叉熵损失函数。
对于一对已知关联的疾病di和miRNA mj,我们首先在疾病嵌入层对应矩阵D中查找d对 应的特征向量D(i),也就是矩阵D的第i行,在miRNA嵌入层对应的M中查找mj对应的特征向 量M(j),也就是矩阵M的第j行。以所有的正负样本对应的[D(i),M(j)]T作为BP神经网络的 输入数据,用于训练BP神经网络。
(6)利用训练好的神经网络预测未知miRNA和疾病的关联
在利用已知的疾病-miRNA关联数据集训练好了BP神经网络之后,就以未知的疾病- miRNA关联对对应的[D′(i),M′(j)]T向量作为输入数据并得到输出结果output,由于本问题是 一个二分类问题,所以output是一个1行2列的向量,经过softmax函数处理之后下标1对 应的那个分量作为关联预测得分。并用关联得分来判断某疾病与某miRNA是否有关。
(7)利用dbDEMC数据库验证预测结果的准确性
dbDEMC数据库是一个整合和收录与人类癌症有关的miRNA的数据库,可以用该数据 库中已知的疾病-miRNA关联来验证我们模型预测结果的准确性。选定某种疾病,将本模型 预测的与该疾病存在潜在关联的各种miRNA的关联得分从大到小排序,然后验证在dbDEMC 数据库中是否存在关联,从而验证结果的准确性。
与现有技术相比,上述方案至少具有以下有益效果:
本发明提供的一种基于回归的性能优异的miRNA与疾病关联预测方法,使用嵌入层,并 利用回归模型训练嵌入层,将每个疾病/miRNA映射成一个向量,将该向量作为疾病/miRNA 的特征向量。并基于k均值聚类挑选从每簇中根据簇与总样本的比例挑选负样本。和以往基 于网络的方法或整个机器学习的方法相比,本方法利用嵌入层的思想,并使用回归模型来训 练嵌入层,以得到所需的特征向量,非常的新颖,提供了额外的提取特征向量的思路,对疾 病和miRNA特征向量的提取的发展具有重要的意义;并基于k均值从每簇中根据簇与总样 本的比例挑选的负样本也使得整个预测模型具有更强的鲁棒性,同时也可以对孤立疾病/孤立 miRNAs做预测。
附图说明
为了更清楚地说明本说明书中一个或多个实施例或现有技术中的技术方案,下面对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅 是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提 下,还可以根据这些附图获得其他的附图。
图1:基于回归的疾病和miRNA关联预测方法的流程示意图
图2:疾病特征向量提取示意图
具体实施方式
本发明是一种基于回归的性能优异的miRNA与疾病关联预测方法。为了使本发明的目 的、技术方案及优点更加清楚明白,以下结合实验,对本发明进行进一步详细说明。应当理 解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
1.数据集概述
本发明使用HMDD v2.0数据集来对模型进行训练,该数据集涉及495种miRNA和383种 疾病,其中5430对疾病-miRNA对关联是已知的,剩下的184155对疾病-miRNA对的关联未知 的,在利用训练好的模型得到预测结果之后,利dbDEMC数据库验证预测结果的准确性。
2.实验环境和参数配置
硬件环境主要是一台PC主机。其中,PC主机的CPU为AMD Ryzen 54600H withRadeon Graphics 3.00GHz,内存为16GB RAM,64位操作系统。软件以Windows 10为平台,在Pycharm 环境下用Python语言实现,python版本为3.6.7,Tensorflow版本为2.1.0,pytorch版本 为1.9.0。
本方法中,疾病、miRNA对应的特征向量的维度设置为2048,本文基于pytorch框架构 建了一个四层BP全连接神经网络网络,其中包含一层输入层,二层隐藏层和一层输层,每一 层的神经元个数为1024,256,32,2。并使用Relu作为激活函数,并使用带反向传播的随机 梯度下降(SDG)来更新网络中的参数矩阵,损失函数为交叉熵损失函数。
3.评价指标
本文中的疾病-miRNA预测模型属于分类模型中的二分类问题,二分类模型的评价指标有 准确率、精确率、召回率、F1分数、AUC、AUPR。
表1二分类混淆矩阵
Figure BDA0003367609510000071
其中TP表示某样本实际是正样本在预测结果中也是正样本,FP表示某样本实际是负样本 在预测结果中是正样本,FN表示某样本实际是正样本在预测结果中显示为负样本,TN表示某 样本实际是负样本在预测结果中也是负样本。
准确率:用来衡量所有正样本和负样本中被正确分类的样本数量所占的比重,计算公式如 下:
Figure BDA0003367609510000072
精确率:用来衡量预测结果中显示为正样本的数目中真正正样本所占的比重,计算公式如 下:
Figure BDA0003367609510000073
召回率:用来衡量被正确分类的正样本的数量占实际总样本数量的比重,计算公式如下:
Figure BDA0003367609510000074
F1分数:是一个综合指标,作为精准率和召回率这两个指标的调和平均值,计算公式为:
Figure BDA0003367609510000081
AUC:全称为Area under curve,即ROC曲线下的面积,ROC曲线的横坐标是假阳性率, 纵坐标是真阳性率,主要用于评价不同模型的优劣。
AUPR:全称为Area under Precision/Recall curve,即PR曲线下的面积,PR曲线的横 坐标是召回率,纵坐标是精确率,AUPR和AUC都是值越大,代表模型越好。
4.实验结果评估
4.1模型性能评估
本文评估了本文的方法与GBDT-LR、ABMDA、LRMCMDA这三种方法在五折交叉验证框架上 的性能对比,评价指标包括了AUC、AUPR、准确率、精确率、召回率和F1分数。
表2本模型与GBDT-LR、ABMDA、LRMCMDA模型性能对比
模型名称 AUC AUPR 准确率 精确率 召回率 F<sub>1</sub>分数
本模型 0.9270 0.9250 0.8561 0.8526 0.8591 0.8554
GBDT-LR 0.9250 0.9031 0.8627 0.8654 0.8273 0.8488
ABMDA 0.8912 0.8870 0.8553 0.8446 0.7928 0.8179
LRMCMDA 0.8735 0.8714 0.8124 0.8515 0.8121 0.8331
从上表可以看出本模型除了在准确率和精确率这两个指标比GBDT-LR稍差之外,其他的 指标都占优。
4.2案例研究
为了进一步验证本模型的适用性和预测性能,本发明对结肠癌和食管癌这两种人类常见 癌症案例进行了研究。用本模型预测与结肠癌和食管癌存在潜在关系的miRNAs,并利用 dbDEMC数据库进行验证。
表3本发明预测的前20种与结肠癌相关的miRNAs
Figure BDA0003367609510000082
Figure BDA0003367609510000091
从上表可知本模型预测的20种潜在相关的miRNAs中有18种在dbDEMC数据库中被证实, hsa-mir-16和hsa-mir-200c未被证实,这代表这2种miRNAs可能代表了新的治疗靶点和预后 产物,具有非常大的意义,能够对后续生物实验起到指导的作用。
表4本发明预测的前20种与食管癌相关的miRNAs
miRNA 验证结果 miRNA 验证结果
hsa-mir-15b 已验证 hsa-mir-21 已验证
hsa-mir-133a 已验证 hsa-mir-199a 已验证
hsa-mir-196a 已验证 hsa-mir-221 已验证
hsa-mir-218 已验证 hsa-mir-31 已验证
hsa-mir-141 已验证 hsa-mir-34c 未验证
hsa-mir-122 已验证 hsa-mir-145 已验证
hsa-mir-150 已验证 hsa-mir-200a 已验证
hsa-mir-1 已验证 hsa-mir-93 已验证
hsa-mir-222 已验证 hsa-let-7a 已验证
hsa-mir-200c 已验证 hsa-mir-214 已验证
从上表可知本模型预测的20种潜在相关的miRNAs中有19种在dbDEMC数据库中被证实.
本领域技术人员可以理解,本发明的保护范围不局限于所述的具体实施方式。在不偏离本 发明的原理的前提下,本领域技术人员可以对相关技术特征进行等同的更改或替换,需要注 意的是,更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (8)

1.一种基于回归的性能优异的疾病和miRNA关联预测方法,其特征在于,实施步骤为:
(1)收集和预处理数据集;
(2)计算疾病语义相似性矩阵SS、miRNA功能相似性矩阵FS、疾病/miRNA高斯相互作用轮廓核相似性矩阵KD和KM以及疾病/miRNA综合相似性矩阵SD和SM。
(3)基于回归模型将一种疾病/miRNA映射成一个特征向量。
(4)利用k均值聚类挑选负样本,利用已知疾病-miRNA关联作为正样本。
(5)构建BP神经网络并训练。
(6)利用训练好的BP神经网络做预测。
(7)验证预测结果的准确性。
2.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法,其特征在于,对数据集进行收集和预处理,具体包括:
收集并处理HMDD v2.0数据集,处理过后的数据包含495种miRNA和383种疾病,5430对疾病-miRNA是已证实存在关联,其余的184155对疾病-miRNA是未知的。
3.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法,其特征在于,计算所需的各种备用矩阵,具体包括:
计算疾病语义相似性矩阵SS、miRNA功能相似性矩阵FS、疾病/miRNA高斯相互作用轮廓核相似性矩阵KD和KM以及疾病/miRNA综合相似性矩阵SD和SM。
4.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法,其特征在于,基于回归将一种疾病/miRNA映射成一个特征向量,具体包括:
根据矩阵SD和SM,以及随机生成一个矩阵D和M,构建一个回归模型,利用D(i)和D(j)的改进余弦值学习SD(i,j)元素,利用M(i)和M(j)的余弦值学习SM(i,j),最后得到的矩阵D和M就是疾病嵌入层和miRNA嵌入层对应的矩阵。
5.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法,其特征在于,利用k均值聚类挑选负样本,利用已知疾病-miRNA作为正样本,具体包括:
根据矩阵SD和SM,[SD(i),SM(j)]表示该未知疾病di和miRNA mj对应的组合向量,利用k-means将所有未知疾病-miRNA关联对对应的组合向量进行聚类,再根据划分结果将所有的未知疾病-miRNA对分成簇,再根据每簇的大小与总样本的大小的比例来挑选负样本。
6.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法,其特征在于,构建BP神经网络并训练,具体包括:
构建BP神经网络,并用正负样本对应的组合特征向量训练神经网络。
7.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法,其特征在于,利用训练好BP神经网络做预测,具体包括:
将184155对疾病-miRNA对应的特征向量输入神经网络中,得到关联预测得分。
8.根据权利要求1所述的一种基于回归的性能优异的疾病和miRNA关联预测方法,其特征在于,利用dbDEMC数据库验证预测结果的准确性,具体包括:
选定某种疾病,将本模型预测的与该疾病存在潜在关联的各种miRNA的关联得分从大到小排序,然后验证在dbDEMC数据库中是否存在关联,从而验证预测结果的准确性。
CN202111387787.8A 2021-11-22 2021-11-22 一种基于回归的性能优异的疾病和miRNA关联预测方法 Pending CN114171124A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111387787.8A CN114171124A (zh) 2021-11-22 2021-11-22 一种基于回归的性能优异的疾病和miRNA关联预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111387787.8A CN114171124A (zh) 2021-11-22 2021-11-22 一种基于回归的性能优异的疾病和miRNA关联预测方法

Publications (1)

Publication Number Publication Date
CN114171124A true CN114171124A (zh) 2022-03-11

Family

ID=80480001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111387787.8A Pending CN114171124A (zh) 2021-11-22 2021-11-22 一种基于回归的性能优异的疾病和miRNA关联预测方法

Country Status (1)

Country Link
CN (1) CN114171124A (zh)

Similar Documents

Publication Publication Date Title
Yu et al. MCLPMDA: A novel method for mi RNA‐disease association prediction based on matrix completion and label propagation
Lei et al. A comprehensive survey on computational methods of non-coding RNA and disease association prediction
CN110459264B (zh) 基于梯度增强决策树预测环状rna与疾病相关性的方法
Shukla et al. Identification of potential biomarkers on microarray data using distributed gene selection approach
CN112183837A (zh) 一种基于自编码模型的miRNA与疾病关联关系预测方法
Ji et al. A semi-supervised learning method for MiRNA-disease association prediction based on variational autoencoder
Dai et al. Predicting miRNA-disease associations using an ensemble learning framework with resampling method
CN113724790B (zh) 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
Zheng et al. CGMDA: an approach to predict and validate MicroRNA-disease associations by utilizing chaos game representation and LightGBM
CN110556184B (zh) 基于Hessian正则非负矩阵分解的非编码RNA与疾病关系预测方法
CN105808976A (zh) 一种基于推荐模型的miRNA靶基因预测方法
Pirmoradi et al. A self-organizing deep neuro-fuzzy system approach for classification of kidney cancer subtypes using miRNA genomics data
Zhu et al. Fusing multiple biological networks to effectively predict miRNA-disease associations
Chai et al. Predicting bladder cancer prognosis by integrating multi-omics data through a transfer learning-based Cox proportional hazards network
CN114582508A (zh) 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法
CN116543832A (zh) 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用
Chai et al. Integrating multi-omics data with deep learning for predicting cancer prognosis
CN117316268A (zh) 基于跨模态和图卷积的miRNA和疾病预测方法
CN114171124A (zh) 一种基于回归的性能优异的疾病和miRNA关联预测方法
CN113223622B (zh) 基于元路径的miRNA-疾病关联预测方法
Zhao et al. Motif-Aware miRNA-Disease Association Prediction Via Hierarchical Attention Network
CN114999566A (zh) 基于词向量表征和注意力机制的药物重定位方法及系统
CN105046107B (zh) 一种限定性模体的发现方法
Purba et al. Classification of liver cancer with microrna data using the deep neural network (DNN) method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination