CN112837753A - 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法 - Google Patents

一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法 Download PDF

Info

Publication number
CN112837753A
CN112837753A CN202110167684.4A CN202110167684A CN112837753A CN 112837753 A CN112837753 A CN 112837753A CN 202110167684 A CN202110167684 A CN 202110167684A CN 112837753 A CN112837753 A CN 112837753A
Authority
CN
China
Prior art keywords
microrna
disease
diseases
network
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110167684.4A
Other languages
English (en)
Other versions
CN112837753B (zh
Inventor
姬博亚
尤著宏
胡伦
王磊
周喜
蒋同海
黄历广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Technical Institute of Physics and Chemistry of CAS
Original Assignee
Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Technical Institute of Physics and Chemistry of CAS filed Critical Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority to CN202110167684.4A priority Critical patent/CN112837753B/zh
Publication of CN112837753A publication Critical patent/CN112837753A/zh
Application granted granted Critical
Publication of CN112837753B publication Critical patent/CN112837753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于多模态堆叠自动编码机的microRNA‑疾病关联预测方法,该方法包括microRNA序列特征以及疾病语义相似性特征;构建microRNA‑蛋白质‑疾病网络,microRNA‑mRNA‑疾病网络,microRNA‑lncRNA‑疾病网络,利用LINE网络嵌入方法分别获取microRNA,疾病与蛋白质,mRNA,lncRNA之间的网络邻近特征;利用多模态堆叠自动编码机分别对microRNA与疾病的四种特征(本身属性特征,蛋白质网络邻近特征,mRNA网络邻近特征,lncRNA网络邻近特征)挖掘高级抽象特征,降低模型时间复杂度,提高模型预测准确率;对处理后特征分别使用CatBoost分类器进行训练和预测,将四种特征预测得分平均值作为最终预测得分。本发明解决了传统生物实验方法高耗时,高成本问题,实现了更好的分类效果,以更高的准确率预测出潜在的microRNA与疾病关联关系。

Description

一种基于多模态堆叠自动编码机的microRNA-疾病关联预测 方法
技术领域
本发明涉及机器学习和生物信息学领域,具体涉及一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法。
背景技术
MicroRNA(miRNA)是一种小分子非编码RNA(-22nt),在细胞中发挥着重要作用。据估计,人类基因组中1-4%的基因是miRNAs,单个miRNAs调节多达200个mRNA,miRNAs通常通过序列特异性碱基对与靶mRNA的3’非翻译区(UTRs)结合,抑制靶mRNA的表达,从而参与生命过程中的一系列重要过程。在许多生物信息学研究项目中,识别潜在的microRNA(miRNA)和人类疾病关联一直是一个关键目标,这将有助于人类疾病的治疗和预防、分子工具设计和个性化诊断。
传统的生物实验对于大规模的关联检测是昂贵和费力的。因此,预测潜在miRNA-疾病关联的有效计算方法越来越受到关注。基于功能相关的microRNA更有可能与有着相似表型的疾病关联的假设,一些基于得分函数的计算模型被提出,这类模型通常利用计算方法如随机游走等基于构造的miRNA-疾病关联网络计算miRNA与疾病之间有潜在关联的可能性。此外,随着已知miRNA-疾病关联数据的增长,机器学习分类算法越来越多的被用于预测潜在miRNA与疾病之间关联。然而,人体是一个统一的整体,人类细胞中多种生物分子协调维持生命活动,各种生物分子之间的相互作用是相互联系的,目前现有的计算方法大多仅仅考虑了单一类型的已知miRNA与疾病关联信息,而没有对miRNA与疾病及其他生物分子之间的关联关系给予更多的关注。因此有必要设计一种能够利用到miRNA,疾病与其他生物分子之间的关联特征,并且结合其本身属性特征,能够达到更高预测能力的预测方法。
发明内容
本发明的目的在于,提供一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法,该方法能够充分利用microRNA和疾病的多模态特征,包括microRNA和疾病本身的属性特征,microRNA和疾病与人体细胞内重要生物分子mRNA,蛋白质,lncRNA的网络临近特征,预测精度高,预测效果好;本发明方法模型复杂度低,功耗小;可以高效的预测microRNA和疾病的潜在关联关系,五折交叉验证下,平均AUC可以达到93.55%。
为实现上述发明目的,本发明采用以下技术方案:
本发明所述一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法,按下列步骤进行:
a、数据集的选择与建立:基于Human MicroRNA Disease Database v3.0数据库获取已知的人类microRNA与疾病关联数据;基于miRbase数据库获取microRNA序列信息;基于Medical Subject Heading数据库获取疾病主题词;基于miRTarBase数据库获取已知的microRNA与蛋白质以及microRNA与mRNA关联数据;基于DisGeNET数据库获取已知的蛋白质与疾病以及mRNA与疾病关联数据;基于lncRNASNP2数据库获取已知的microRNA与lncRNA关联数据;基于lncRNASNP2以及LncRNADisease数据库获取已知的lncRNA与疾病关联数据;
b、microRNA序列特征的生成:基于microRNA的核苷酸为尿嘧啶,胞嘧啶,鸟嘌呤和腺嘌呤序列,利用3-mer方法计算每个microRNA序列特征;
c、疾病语义相似性特征的生成:基于疾病的MeSH主题词构建每种疾病的有向无环图,定义无环图节点对疾病的语义贡献值,从而根据不同疾病的无环图共享部分计算疾病的语义相似性特征;
d、microRNA和疾病网络临近特征的生成:构建microRNA-蛋白质-疾病网络,microRNA-mRNA-疾病网络,microRNA-lncRNA-疾病网络,利用LINE网络嵌入方法分别计算microRNA和疾病与蛋白质,mRNA,lncRNA之间的网络邻近特征;
e、多模态特征挖掘:利用深度学习的堆叠自动编码机,以非监督的方式使用神经网络学习复杂特征的潜在信息,将四种不同特征降低到64维,以去除噪声影响并降低模型复杂度;
f、训练集和测试集的构建:利用HMDD v3.0中已知microRNA-疾病关联作为正样本,随机抽取与正样本相同数量的不相关microRNA-疾病关联作为负样本,分别以关联对的数量比为4:1的比例随机切割两个数据集,其中4/5作为训练集,1/5作为测试集,然后利用5折交叉验证的方法进行五次切割并验证;
g、分类器模型的构建:利用CatBoost分类算法构建训练模型,分别对多模态特征进行训练和预测,将四种特征预测得分平均值作为最终预测得分。
所述步骤b中利用3-mer方法计算microRNA序列中不同3聚体核苷酸的统计概率,将每个3聚体核苷酸前后错位1个核苷酸,依次排列开,分别计算每个3聚体出现次数占整个microRNA序列的统计概率作为microRNA的属性序列特征。
所述步骤c中疾病的医学主题标题描述符提供了一个严格的疾病分类系统,在此基础上,各种疾病之间的关系可以表示为有向无环图,图中的节点代表疾病,图中的有向边代表疾病之间的关系,取平均值作为最终的疾病语义相似性特征。
所述步骤d中利用LINE网络嵌入方法,对于信息网络嵌入LINE方法的网络嵌入过程为:定义一阶临近模型:即两个点之间有直接边相连就认为它们比较相似,保证低维的嵌入中要保留两个结点之间的直接联系的紧密程度,若两个结点之间不存在边,那么他们之间的一阶临近度为0;
定义二阶临近模型:即两个点之间也许不直接相连,但是如果它们的一阶公共节点比较多那么它们也被认为是比较相似的;
优化两种模型目标函数:即实际相似度与表示相似度之间的Kullback–Leibler(KL)散度,最后拼接一阶相似度网络嵌入特征与二阶相似度网络嵌入特征作为最终节点网络嵌入特征。所述步骤e中利用深度学习中的堆叠自动编码机分别挖掘microRNAs和疾病的多种高级潜在特征并降低模型复杂度,对于堆叠自动编码机提取潜在特征的过程如下:
编码过程:将特征数据x=[x1,x2,...,xd(x)]T从输入层输入到第一层隐含层,其中d(x)代表输入特征数据维度,通过映射函数f1投影为隐层特征z1=[z1,z2,...,zd(z)]T,其中d(z)代表潜在特征数据维度,接着将隐层特征z1输入到第二层隐含层,通过映射函数f2投影为隐层特征z2,重复进行逐层抽取至隐含层结束;
解码过程:将隐层特征zi输入到下层解码机,通过映射函数g投影为输出特征y=[y1,y2,...,yd(y)]T,其中d(y)代表输出特征数据维度,重复编码和解码过程,直至输入特征x和输出特征y之间的重构误差最小化;
降维过程:利用最终学习到的编码机权值矩阵对输入特征逐一进行编码降维。
所述步骤g中CatBoost是一种新型的集成算法,它利用排序提升方法替换传统算法中梯度估计方法,进而减轻梯度估计的偏差,提高模型的泛化能力,采用对称树作为其基学习器,通过一组基学习器的串行迭代,最终得到一个强学习器,对于CatBoost的训练分类过程如下:
选取训练集中的每一个训练样本xi训练并得到一个单独的模型Yi,模型Yi由此样本之外的全部训练样本训练得到;
利用排序提升方式代替传统算法中梯度估计方法利用模型Yi计算样本xi的梯度估计;
利用每个样本梯度估计训练基学习器;
对所有基学习器进行加权处理,获得最终的强学习器。
本发明所述一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法,该方法中,所述步骤a中数据集的选择与建立:
本发明使用的已知人类microRNA与疾病关联数据来源于Human MicroRNADisease Database(HMDD)v3.0数据库,在此基础上,进行数据预处理,消除重复关联,删除公共数据库miRBase认为不可靠的与某些miRNAs相关的关联,最终获得10696条miRNA-疾病关联,包含839种microRNAs和531种人类疾病;microRNA序列信息来源于miRbase数据库;疾病主题词来源于Medical Subject Heading(MeSH)数据库;已知的microRNA与蛋白质以及microRNA与mRNA关联数据来源于miRTarBase数据库,包含4944条microRNA-蛋白质关联,5186条microRNA-mRNA关联;已知的蛋白质与疾病以及mRNA与疾病关联数据来源于DisGeNET数据库,包含25087条蛋白质-疾病关联,3416条mRNA-疾病关联;已知的microRNA与lncRNA关联数据来源于lncRNASNP2数据库,包含8374条microRNA-lncRNA关联;已知的lncRNA与疾病关联数据来源于lncRNASNP2以及LncRNADisease数据库,包含1264条lncRNA-疾病关联;
所述步骤b中microRNA序列特征的生成:
microRNA序列通常用四种核苷酸的简写字母表示:尿嘧啶(U)、胞嘧啶(C)、鸟嘌呤(G)和腺嘌呤(A),从公共miRBase数据库下载miRNA序列信息,设置一个窗口大小为3,滑动距离为1的滑动窗口,将microRNA序列分割成多个3-单体单元(3-mers),将每个3-mer的出现次数除以对应的microRNA序列长度,得到其出现频率,将不出现的3-mer的频率设为0,最后,将所有3-mer出现频率作为microRNA序列的数值统计特征,即属性特征;
所述步骤c中疾病语义相似性特征的生成:
疾病的医学主题描述符(MeSH)提供了一个严格的疾病分类系统,可以从美国国家医院医学图书馆获得(https://www.nlm.nih.gov/),MeSH描述符被分为16个类别:A类是解剖术语,B类是生物体,本发明中使用的C类疾病,等等。在此基础上,各种疾病之间的关系可以表示为有向无环图(DAG),图中的节点代表疾病,图中的有向边代表疾病之间的关系,例如,某一疾病A表示为DAG(A)=(D(A),E(A)),其中D(A)表示疾病A及其祖先节点集,E(A)表示图中连接这些疾病的边集,在此基础上,定义DAG(A)中某一疾病t对疾病A的语义贡献如下:
Figure BDA0002938024940000041
式中,Δ为语义贡献衰减因子,表示随着t与疾病A之间距离的增加,其对疾病A的语义贡献减小,通过总结疾病A本身及其祖先疾病的所有贡献,得出疾病A的语义价值:
DV(A)=∑t∈D(A)DA(t) (2)
因此,基于共享DAG部分的两种疾病之间的第一种语义相似性特征DS1(A,B)可以通过计算得到:
Figure BDA0002938024940000042
为了近一步考虑不同疾病在DAG图中出现的数量不同对疾病语义的贡献不同,我们定义了疾病的第二种语义相似性特征,定义DAG(A)中疾病术语t对疾病A的语义贡献如下:
Figure BDA0002938024940000043
式中,num(DAG(t))表示DAG中疾病t的出现次数,num(diseses)表示DAG中疾病的总数量,由此两种疾病之间的第二种语义相似性特征DS2(A,B)可以通过计算得到:
Figure BDA0002938024940000044
最后,将两种疾病语义相似性特征融合,对两者求和,取平均作为最终的疾病语义相似性特征:
Figure BDA0002938024940000051
所述步骤d中microRNA和疾病网络临近特征的生成:
基于有着共同生物分子关联关系的microRNA与疾病之间更可能相互关联的猜想,本发明利用microRNA,疾病与人体细胞内重要生物分子之间的关联关系预测潜在microRNA-疾病关联。根据数据库中已知的microRNA,疾病与mRNA,蛋白质,lncRNA之间的关联关系构建3个异构生物分子关联网络,即microRNA-mRNA-疾病异构网络,microRNA-蛋白质-疾病异构网络,microRNA-lncRNA-疾病异构网络。其次,利用大规模信息网络嵌入(LINE)算法提取microRNA,疾病与三种生物分子之间的网络临近特征。LINE可以将一个大型网络中的节点根据其关系的密度映射到向量空间中,使紧密相连的节点投射到相似的位置;该方法不仅考虑了一阶网络临近度,即两个节点若直接相连,则他们被认为相似,同时考虑二阶网络临近度,即两个节点可能不直接相连,但如果他们有较多公共的一阶临近节点,则他们也被认为相似,基于这两个角度,LINE算法被分为以下两类:
一阶网络临近模型:对于一条无向边(i,j),定义这条边的两个顶点vi和vj的联合概率如下:
Figure BDA0002938024940000052
其中
Figure BDA0002938024940000053
Figure BDA0002938024940000054
代表对应定点的低维向量,接下来两个节点的经验概率定义为:
Figure BDA0002938024940000055
其中wij代表两个顶点vi和vj的边的权重,W代表所有边的权重。我们的优化目标是使p1
Figure BDA0002938024940000056
的差值尽可能小,本发明选择KL散度作为距离函数并且去掉一些固定常数,得到最终的目标函数如下:
O1=-∑(i,j)∈Ewijlogp1(vi,vj) (9)
二阶网络临近模型:二阶邻近度适用于有向图和无向图;给定网络,在不失的情况下,假设它是有向的(无向边可以被认为是具有相反方向和相等权重的两个有向边),对于一条有向边(i,j)(从i指向j),顶点vi生成vj的概率可以表示为:
Figure BDA0002938024940000057
其中|v|代表顶点的个数,接下来两个节点的经验概率定义为:
Figure BDA0002938024940000061
其中wij代表两个顶点vi和vj的边的权重,di代表节点的出度,同样选择KL散度作为距离函数使p2
Figure BDA0002938024940000062
的差值尽可能小,并且去掉一些固定常数,得到最终的目标函数如下:
O2=-∑(i,j)∈Ewijlogp2(vj|vi) (12)
最后,通过优化两种模型目标函数,得到每个节点的一阶网络嵌入特征
Figure BDA0002938024940000063
和二阶网络嵌入特征
Figure BDA0002938024940000064
拼接两者特征作为最终节点网络嵌入特征。
所述步骤e中多模态特征挖掘:
堆叠自动编编码器是深度学习领域常用的一个深度学习模型,由多个自动编码器串联堆叠构成;堆叠多层自动编码器的目的是为了逐层提取输入数据的高阶特征,在此过程中逐层降低输入数据的维度,将一个复杂的输入数据转化成一个系列简单的高阶的特征,对于堆叠自动编码机提取潜在特征的过程如下:
(1)编码过程:将特征数据x=[x1,x2,...,xd(x)]T从输入层输入到第一层隐含层,其中d(x)代表输入特征数据维度,通过映射函数f1投影为隐层特征z1=[z1,z2,...,zd(z)]T,其中d(z)代表潜在特征数据维度,接着将隐层特征z1输入到第二层隐含层,通过映射函数f2投影为隐层特征z2,重复进行逐层抽取至隐含层结束,通过映射函数fi输出隐层特征zi,其中i代表隐含层数,W代表权值矩阵,b代表偏差向量;
zi=fi(x)=sf(Wx+b) (13)
(2)解码过程:将隐层特征z1输入到下层解码机,通过映射函数g投影为输出特征y=[y1,y2,...,yd(y)]T,其中d(y)代表输出特征数据维度,重复编码和解码过程,直至输入特征x和输出特征y之间的重构误差最小化。
y=f′(zi)=sf′(W′zi+b′) (14)
(3)降维过程:利用最终学习到的编码机权值矩阵W对输入特征逐一进行编码降维。所述步骤f中分类器模型的构建:
利用高性能机器学习分类算法CatBoost分别对多模态特征进行训练和预测,将四种特征预测得分平均值作为最终预测得分;CatBoost是一种新型的集成算法,它基于决策树梯度提升(GBDT)算法并利用排序提升方法(ordered boosting)替换传统算法中梯度估计方法,进而减轻梯度估计的偏差,提高模型的泛化能力,采用对称树作为其基学习器,通过一组基学习器的串行迭代,最终得到一个强学习器。CatBoost的每一次迭代目标就是求取Pi让本轮的损失函数最小:
Figure BDA0002938024940000065
Figure BDA0002938024940000066
其中fi(xi,yi)为梯度估计,Fi-1(x)是已完成的i-1步迭代形成的当前的学习器,L[y,Fi-1(x)]是损失函数;为了得到梯度的无偏度估计,CatBoost算法的主要步骤为:
(1)选取训练集中的每一个训练样本xi训练并得到一个单独的模型Yi,模型Yi由此样本之外的全部训练样本训练得到;
(2)利用排序提升方式代替传统算法中梯度估计方法利用模型Yi计算样本xi的梯度估计;
(3)利用每个样本梯度估计训练基学习器;
(4)对所有基学习器进行加权处理,获得最终的强学习器。
本发明所述的一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法,其有益效果是:
(1)本发明提出一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法,该方法能够充分的利用microRNA和疾病的多模态特征,包括属性特征,mRNA网络临近特征,蛋白质网络临近特征,lncRNA网络临近特征,利用堆叠自动编码机自动挖掘其高级抽象特征,并利用CatBoost分类器高效预测潜在的microRNA-疾病关联关系;
(2)本发明能够有效利用microRNA和疾病本身的属性特征以及与人体细胞内重要生物分子之间的网络临近特征,利用深度学习中的堆叠自动编码机进一步挖掘数据中的高级特征,降低模型复杂度,利用高性能Boosting算法CatBoost提高预测准确度,得到比较好的预测效果;
(3)本发明时间复杂度低,功耗小;模型五折交叉验证下AUC值达到93%以上,实例验证下对于乳腺癌和肺癌的潜在microRNAs预测准确率达到96%。
附图说明
图1为本发明实施例预测方法的流程图;
图2为本发明堆叠自动编码机结构图;
图3为本发明在五折交叉验证下基于HMDD v3.0数据集生成的ROC曲线;
图4为本发明随机森林模型在五折交叉验证下基于HMDD v3.0数据集生成的ROC曲线;
图5为本发明与其他最新方法在五折交叉验证下基于HMDD v3.0数据集的均值AUC对比。
具体实施方式
以下结合附图和具体实施例,进一步阐述本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
实施例
本发明所述一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法,按下列步骤进行:
a、数据集的选择与建立:基于Human MicroRNA Disease Database v3.0数据库获取已知的人类microRNA与疾病关联数据;基于miRbase数据库获取microRNA序列信息;基于Medical Subject Heading数据库获取疾病主题词;基于miRTarBase数据库获取已知的microRNA与蛋白质以及microRNA与mRNA关联数据;基于DisGeNET数据库获取已知的蛋白质与疾病以及mRNA与疾病关联数据;基于lncRNASNP2数据库获取已知的microRNA与lncRNA关联数据;基于lncRNASNP2以及LncRNADisease数据库获取已知的lncRNA与疾病关联数据;
b、microRNA序列特征的生成:基于microRNA的核苷酸为尿嘧啶,胞嘧啶,鸟嘌呤和腺嘌呤序列,利用3-mer方法计算每个microRNA序列特征;
c、疾病语义相似性特征的生成:基于疾病的MeSH主题词构建每种疾病的有向无环图,定义无环图节点对疾病的语义贡献值,从而根据不同疾病的无环图共享部分计算疾病的语义相似性特征;
d、microRNA和疾病网络临近特征的生成:构建microRNA-蛋白质-疾病网络,microRNA-mRNA-疾病网络,microRNA-lncRNA-疾病网络,利用LINE网络嵌入方法分别计算microRNA和疾病与蛋白质,mRNA,lncRNA之间的网络邻近特征;
e、多模态特征挖掘:利用深度学习的堆叠自动编码机,以非监督的方式使用神经网络学习复杂特征的潜在信息,将四种不同特征降低到64维,以去除噪声影响并降低模型复杂度;
f、训练集和测试集的构建:利用HMDD v3.0中已知microRNA-疾病关联作为正样本,随机抽取与正样本相同数量的不相关microRNA-疾病关联作为负样本,分别以关联对的数量比为4:1的比例随机切割两个数据集,其中4/5作为训练集,1/5作为测试集,然后利用5折交叉验证的方法进行五次切割并验证;
g、分类器模型的构建:利用CatBoost分类算法构建训练模型,分别对多模态特征进行训练和预测,将四种特征预测得分平均值作为最终预测得分;
如图1所示,数据集的选择与建立,本实施例使用的已知人类microRNA与疾病关联数据来源于Human MicroRNA Disease Database(HMDD)v3.0数据库,在此基础上,我们进行数据预处理,消除重复关联,删除公共数据库miRBase认为不可靠的与某些miRNAs相关的关联,最终获得10696条miRNA-疾病关联,包含839种microRNAs和531种人类疾病;microRNA序列信息来源于miRbase数据库;疾病主题词来源于Medical Subject Heading(MeSH)数据库;已知的microRNA与蛋白质以及microRNA与mRNA关联数据来源于miRTarBase数据库,包含4944条microRNA-蛋白质关联,5186条microRNA-mRNA关联;已知的蛋白质与疾病以及mRNA与疾病关联数据来源于DisGeNET数据库,包含25087条蛋白质-疾病关联,3416条mRNA-疾病关联;已知的microRNA与lncRNA关联数据来源于lncRNASNP2数据库,包含8374条microRNA-lncRNA关联;已知的lncRNA与疾病关联数据来源于lncRNASNP2以及LncRNADisease数据库,包含1264条lncRNA-疾病关联;
microRNA序列特征的生成,microRNA序列通常用四种核苷酸的简写字母表示:尿嘧啶(U)、胞嘧啶(C)、鸟嘌呤(G)和腺嘌呤(A),本实施例从公共miRBase数据库下载miRNA序列信息,设置一个窗口大小为3,滑动距离为1的滑动窗口,将microRNA序列分割成多个3-单体单元(3-mers),将每个3-mer的出现次数除以对应的microRNA序列长度,得到其出现频率,将不出现的3-mer的频率设为0,最后,将所有3-mer出现频率作为microRNA序列的数值统计特征,即属性特征;
疾病语义相似性特征的生成,基于疾病的MeSH主题词构建每种疾病的有向无环图(DAG),定义无环图(DAG)节点对疾病的语义贡献值,从而根据不同疾病的DAG图共享部分计算疾病的语义相似性特征;
所述疾病的语义相似性特征的生成:
疾病的医学主题描述符(MeSH)提供了一个严格的疾病分类系统,可以从美国国家医院医学图书馆获得(https://www.nlm.nih.gov/),MeSH描述符被分为16个类别:A类是解剖术语,B类是生物体,本发明中使用的C类疾病,等等。在此基础上,各种疾病之间的关系可以表示为有向无环图(DAG),图中的节点代表疾病,图中的有向边代表疾病之间的关系,例如,某一疾病A表示为DAG(A)=(D(A),E(A)),其中D(A)表示疾病A及其祖先节点集,E(A)表示图中连接这些疾病的边集,在此基础上,定义DAG(A)中某一疾病t对疾病A的语义贡献如下:
Figure BDA0002938024940000091
式中,Δ为语义贡献衰减因子,表示随着t与疾病A之间距离的增加,其对疾病A的语义贡献减小,通过总结疾病A本身及其祖先疾病的所有贡献,得出疾病A的语义价值:
DV(A)=∑t∈D(A)DA(t) (2)
因此,基于共享DAG部分的两种疾病之间的第一种语义相似性特征DS1(A,B)可以通过计算得到:
Figure BDA0002938024940000092
为了近一步考虑不同疾病在DAG图中出现的数量不同对疾病语义的贡献不同,我们定义了疾病的第二种语义相似性特征,定义DAG(A)中疾病术语t对疾病A的语义贡献如下:
Figure BDA0002938024940000093
式中,num(DAG(t))表示DAG中疾病t的出现次数,num(diseses)表示DAG中疾病的总数量,由此两种疾病之间的第二种语义相似性特征DS2(A,B)可以通过计算得到:
Figure BDA0002938024940000094
最后,将两种疾病语义相似性特征融合,对两者求和,取平均作为最终的疾病语义相似性特征:
Figure BDA0002938024940000095
microRNA和疾病网络临近特征的生成:基于有着共同生物分子关联关系的microRNA与疾病之间更可能有关联的猜想,本实施例利用microRNA,疾病与人体细胞内重要生物分子之间的关联关系预测潜在microRNA-疾病关联;首先根据数据库中已知的microRNA,疾病与mRNA,蛋白质,lncRNA之间的关联关系构建3个异构生物分子关联网络,即microRNA-mRNA-疾病异构网络,microRNA-蛋白质-疾病异构网络,microRNA-lncRNA-疾病异构网络。其次,利用大规模信息网络嵌入(LINE)算法提取microRNA,疾病与三种生物分子之间的网络临近特征;LINE可以将一个大型网络中的节点根据其关系的密度映射到向量空间中,使紧密相连的节点投射到相似的位置;该方法不仅考虑了一阶网络临近度,即两个节点若直接相连,则他们被认为相似,同时考虑二阶网络临近度,即两个节点可能不直接相连,但如果他们有较多公共的一阶临近节点,则他们也被认为相似;基于这两个角度,LINE算法被分为以下两类:
一阶网络临近模型:对于一条无向边(i,j),定义这条边的两个顶点vi和vj的联合概率如下:
Figure BDA0002938024940000101
其中
Figure BDA0002938024940000102
Figure BDA0002938024940000103
代表对应定点的低维向量,接下来两个节点的经验概率定义为:
Figure BDA0002938024940000104
其中wij代表两个顶点vi和vj的边的权重,W代表所有边的权重。我们的优化目标是使p1
Figure BDA0002938024940000105
的差值尽可能小,本发明选择KL散度作为距离函数并且去掉一些固定常数,得到最终的目标函数如下:
O1=-∑(i,j)∈Ewijlogp1(vi,vj) (9)
二阶网络临近模型:二阶邻近度适用于有向图和无向图。给定网络,在不失一般性的情况下,我们假设它是有向的(无向边可以被认为是具有相反方向和相等权重的两个有向边)。对于一条有向边(i,j)(从i指向j),顶点vi生成vj的概率可以表示为:
Figure BDA0002938024940000106
其中|v|代表顶点的个数,接下来两个节点的经验概率定义为:
Figure BDA0002938024940000107
其中wij代表两个顶点vi和vj的边的权重,di代表节点的出度。同样的,我们选择KL散度作为距离函数使p2
Figure BDA0002938024940000108
的差值尽可能小,并且去掉一些固定常数,得到最终的目标函数如下:O2=-∑(i,j)∈Ewijlogp2(vj|vi) (12)
最后,通过优化两种模型目标函数,得到每个节点的一阶网络嵌入特征
Figure BDA0002938024940000109
和二阶网络嵌入特征
Figure BDA0002938024940000111
拼接两者特征作为最终节点网络嵌入特征;
多模态特征挖掘,堆叠自动编编码器是深度学习领域常用的一个深度学习模型,由多个自动编码器串联堆叠构成,图2展示了堆叠自动编码机结构示意图。堆叠多层自动编码器的目的是为了逐层提取输入数据的高阶特征,在此过程中逐层降低输入数据的维度,将一个复杂的输入数据转化成一个系列简单的高阶的特征,对于堆叠自动编码机提取潜在特征的过程如下:
(1)编码过程:将特征数据x=[x1,x2,...,xd(x)]T从输入层输入到第一层隐含层,其中d(x)代表输入特征数据维度,通过映射函数f1投影为隐层特征z1=[z1,z2,...,zd(z)]T,其中d(z)代表潜在特征数据维度,接着将隐层特征z1输入到第二层隐含层,通过映射函数f2投影为隐层特征z2,重复进行逐层抽取至隐含层结束,通过映射函数fi输出隐层特征zi,其中i代表隐含层数,W代表权值矩阵,b代表偏差向量;
zi=fi(x)=sf(Wx+b) (13)
(2)解码过程:将隐层特征zi输入到下层解码机,通过映射函数g投影为输出特征y=[y1,y2,...,yd(y)]T,其中d(y)代表输出特征数据维度,重复编码和解码过程,直至输入特征x和输出特征y之间的重构误差最小化。
y=f′(zi)=sf′(W′zi+b′) (14)
(3)降维过程:利用最终学习到的编码机权值矩阵W对输入特征逐一进行编码降维。分类器模型的构建:利用高性能机器学习分类算法CatBoost分别对多模态特征进行训练和预测,将四种特征预测得分平均值作为最终预测得分;CatBoost是一种新型的集成算法,它基于决策树梯度提升(GBDT)算法并利用排序提升方法(ordered boosting)替换传统算法中梯度估计方法,进而减轻梯度估计的偏差,提高模型的泛化能力,采用对称树作为其基学习器,通过一组基学习器的串行迭代,最终得到一个强学习器;CatBoost的每一次迭代目标就是求取Pi让本轮的损失函数最小:
Figure BDA0002938024940000112
Figure BDA0002938024940000113
其中fi(xi,yi)为梯度估计,Fi-1(x)是已完成的i-1步迭代形成的当前的学习器,L[y,Fi-1(x)]是损失函数;为了得到梯度的无偏度估计,CatBoost算法的主要步骤为:
(1)选取训练集中的每一个训练样本xi训练并得到一个单独的模型Yi,模型Yi由此样本之外的全部训练样本训练得到;
(2)利用排序提升方式代替传统算法中梯度估计方法利用模型Yi计算样本xi的梯度估计;
(3)利用每个样本梯度估计训练基学习器;
(4)对所有基学习器进行加权处理,获得最终的强学习器。
实施例2
为了能够更好的说明本发明预测方法的效果,将此预测方法与目前最流行的随机森林模型进行了对比,表1列出了本实施例和随机森林模型使用五折交叉验证法在HMDDv3.0数据集上生成的结果:
表1在五折交叉验证下基于HMDD v3.0数据集本发明与随机森林模型结果的比较
Figure BDA0002938024940000121
图3和图4分别展示了本发明和随机森林模型生成的ROC曲线;通过对比可以看出,本实施例在敏感率、特异率、精准率、马修斯相关系数、AUC值上均取得了更加优异的成绩,其结果均高于随机森林的方法,这个结果表明,本发明的综合性能要优于随机森林模型。
实施例3
为了进一步体现本发明预测方法的效果,将此预测方法与目前最新的计算模型进行了对比,图5展示了在五折交叉验证下基于相同的HMDD数据集下,不同模型与本发明的均值AUC对比柱状图;AUC值代表模型的预测性能,通过对比可以看到:本发明相对于最新的计算模型拥有更高的AUC值,综合表现优于其他模型。
实施例4
为了进一步评估预测模型在实际应用中预测潜在microRNA-疾病关联关系的性能,针对乳腺肿瘤和肺癌肿瘤进行了实例验证,在实验中,将HMDD数据集中提供的所有已知microRNA-疾病关联作为训练数据集,接着分别构建microRNA-对应疾病的测试样本,并且删除掉测试样本中已经在训练样本中出现的关联数据,最后选择测试得分最高的前50种microRNAs在另外两个权威数据库中进行验证,miRCancer和dbDEMC;
乳腺肿瘤是女性最常见的恶性肿瘤,它几乎都发生在女性身上,但男性也可能发生,它可以从乳房的不同部位开始通过血液或淋巴管向外扩散;此外,越来越多的研究表明,microRNAs是一种乳腺肿瘤患者预后和诊断的新工具;因此,预测潜在的microRNAs-乳腺肿瘤关联,可以为乳腺癌早期诊断和预防识别出一种新的候选microRNA;如表2所示:
表2本发明预测的前50个与乳腺肿瘤相关的microRNAs
Figure BDA0002938024940000131
本发明用于预测可能与乳腺肿瘤相关的microRNAs,最终预测得分最高的前50名microRNAs中有48个得到了验证;
肺癌是男性和女性癌症死亡的主要原因,它通常在气道细胞或肺组织中形成,影响肺肿瘤的因素主要包括吸烟,二手烟,肺癌家族史,空气污染、HIV感染等,其中吸烟是最重要的危险因素;对于肺肿瘤的治疗和发展,microRNAs在其中起着重要的作用,与正常组织相比,microRNA在肺癌细胞和肺癌患者血液中的表达水平不受调节控制;此外,肺癌的表型可以改变在体内和体外调节microRNA的表达,如表3所示:
表3本发明预测的前50个与肺癌肿瘤相关的microRNAs
Figure BDA0002938024940000141
本发明用于预测可能与肺癌肿瘤相关的microRNAs,最终预测得分最高的前50名microRNAs中有48个得到了验证。
最后应说明的是:以上所述仅为发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在发明的保护范围之内。

Claims (6)

1.一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法,其特征在于,按下列步骤进行:
a、数据集的选择与建立:基于Human MicroRNA Disease Database v3.0数据库获取已知的人类microRNA与疾病关联数据;基于miRbase数据库获取microRNA序列信息;基于Medical Subject Heading数据库获取疾病主题词;基于miRTarBase数据库获取已知的microRNA与蛋白质以及microRNA与mRNA关联数据;基于DisGeNET数据库获取已知的蛋白质与疾病以及mRNA与疾病关联数据;基于lncRNASNP2数据库获取已知的microRNA与lncRNA关联数据;基于lncRNASNP2以及LncRNADisease数据库获取已知的lncRNA与疾病关联数据;
b、microRNA序列特征的生成:基于microRNA的核苷酸为尿嘧啶,胞嘧啶,鸟嘌呤和腺嘌呤序列,利用3-mer方法计算每个microRNA序列特征;
c、疾病语义相似性特征的生成:基于疾病的MeSH主题词构建每种疾病的有向无环图,定义无环图节点对疾病的语义贡献值,从而根据不同疾病的无环图共享部分计算疾病的语义相似性特征;
d、microRNA和疾病网络临近特征的生成:构建microRNA-蛋白质-疾病网络,microRNA-mRNA-疾病网络,microRNA-lncRNA-疾病网络,利用LINE网络嵌入方法分别计算microRNA和疾病与蛋白质,mRNA,lncRNA之间的网络邻近特征;
e、多模态特征挖掘:利用深度学习的堆叠自动编码机,以非监督的方式使用神经网络学习复杂特征的潜在信息,将四种不同特征降低到64维,以去除噪声影响并降低模型复杂度;
f、训练集和测试集的构建:利用HMDD v3.0中已知microRNA-疾病关联作为正样本,随机抽取与正样本相同数量的不相关microRNA-疾病关联作为负样本,分别以关联对的数量比为4:1的比例随机切割两个数据集,其中4/5作为训练集,1/5作为测试集,然后利用5折交叉验证的方法进行五次切割并验证;
g、分类器模型的构建:利用CatBoost分类算法构建训练模型,分别对多模态特征进行训练和预测,将四种特征预测得分平均值作为最终预测得分。
2.如权利要求1所述的基于多模态堆叠自动编码机的microRNA-疾病关联预测方法,其特征在于,所述步骤b中利用3-mer方法计算microRNA序列中不同3聚体核苷酸的统计概率,即将每个3聚体核苷酸前后错位1个核苷酸,依次排列开,分别计算每个3聚体出现次数占整个microRNA序列的统计概率作为microRNA的属性序列特征。
3.如权利要求1所述的基于多模态堆叠自动编码机的microRNA-疾病关联预测方法,其特征在于,所述步骤c中疾病的医学主题描述符提供了一个严格的疾病分类系统,在此基础上,各种疾病之间的关系表示为有向无环图,图中的节点代表疾病,图中的有向边代表疾病之间的关系,取平均值作为最终的疾病语义相似性特征。
4.如权利要求1所述的基于多模态堆叠自动编码机的microRNA-疾病关联预测方法,其特征在于,所述步骤d中利用LINE网络嵌入方法,对于信息网络嵌入LINE方法的网络嵌入过程为:
定义一阶临近模型:即两个点之间有直接边相连就认为它们比较相似,保证低维的嵌入中要保留两个结点之间的直接联系的紧密程度,若两个结点之间不存在边,那么他们之间的一阶临近度为0;
定义二阶临近模型:即两个点之间也许不直接相连,但是如果它们的一阶公共节点比较多那么它们也被认为是比较相似的;
优化两种模型目标函数:即实际相似度与表示相似度之间的Kullback-Leibler(KL)散度,最后拼接一阶相似度网络嵌入特征与二阶相似度网络嵌入特征作为最终节点网络嵌入特征。
5.如权利要求1所述的基于多模态堆叠自动编码机的microRNA-疾病关联预测方法,其特征在于,所述步骤e中利用深度学习中的堆叠自动编码机分别挖掘microRNAs和疾病的多种高级潜在特征并降低模型复杂度,对于堆叠自动编码机提取潜在特征的过程如下:
编码过程:将特征数据x=[x1,x2,...,xd(x)]T从输入层输入到第一层隐含层,其中d(x)代表输入特征数据维度,通过映射函数f1投影为隐层特征z1=[z1,z2,...,zd(z)]T,其中d(z)代表潜在特征数据维度,接着将隐层特征z1输入到第二层隐含层,通过映射函数f2投影为隐层特征z2,重复进行逐层抽取至隐含层结束;
解码过程:将隐层特征zi输入到下层解码机,通过映射函数g投影为输出特征y=[y1,y2,...,yd(y)]T,其中d(y)代表输出特征数据维度,重复编码和解码过程,直至输入特征x和输出特征y之间的重构误差最小化;
降维过程:利用最终学习到的编码机权值矩阵对输入特征逐一进行编码降维。
6.如权利要求1所述的基于多模态堆叠自动编码机的microRNA-疾病关联预测方法,其特征在于,所述步骤g中CatBoost是一种新型的集成算法,它利用排序提升方法替换传统算法中梯度估计方法,进而减轻梯度估计的偏差,提高模型的泛化能力,采用对称树作为其基学习器,通过一组基学习器的串行迭代,最终得到一个强学习器,对于CatBoost的训练分类过程如下:
选取训练集中的每一个训练样本xi训练并得到一个单独的模型Yi,模型Yi由此样本之外的全部训练样本训练得到;
利用排序提升方式代替传统算法中梯度估计方法利用模型Yi计算样本xi的梯度估计;
利用每个样本梯度估计训练基学习器;
对所有基学习器进行加权处理,获得最终的强学习器。
CN202110167684.4A 2021-02-07 2021-02-07 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法 Active CN112837753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110167684.4A CN112837753B (zh) 2021-02-07 2021-02-07 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110167684.4A CN112837753B (zh) 2021-02-07 2021-02-07 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法

Publications (2)

Publication Number Publication Date
CN112837753A true CN112837753A (zh) 2021-05-25
CN112837753B CN112837753B (zh) 2022-07-22

Family

ID=75932673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110167684.4A Active CN112837753B (zh) 2021-02-07 2021-02-07 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法

Country Status (1)

Country Link
CN (1) CN112837753B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470739A (zh) * 2021-07-03 2021-10-01 中国科学院新疆理化技术研究所 一种基于混合隶属度随机块模型的蛋白质相互作用预测方法和系统
CN113591930A (zh) * 2021-07-06 2021-11-02 武汉纺织大学 一种基于网络融合与图嵌入的病毒-宿主关联预测方法
CN113743589A (zh) * 2021-09-13 2021-12-03 中国矿业大学 一种基于堆栈自编码器的miRNA生物标志物识别方法及系统
CN115424724A (zh) * 2022-11-04 2022-12-02 之江实验室 一种多模态图森林的肺癌淋巴结转移辅助诊断系统
CN115984622A (zh) * 2023-01-10 2023-04-18 深圳大学 基于多模态和多示例学习分类方法、预测方法及相关装置
WO2023109714A1 (zh) * 2021-12-15 2023-06-22 深圳先进技术研究院 用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506608A (zh) * 2017-09-29 2017-12-22 杭州电子科技大学 一种改进的基于协同过滤的miRNA‑疾病关联预测方法
CN107577924A (zh) * 2017-10-13 2018-01-12 上海交通大学 一种基于深度学习的长链非编码rna亚细胞位置预测算法
CN108427865A (zh) * 2018-03-14 2018-08-21 华南理工大学 一种预测LncRNA和环境因素关联关系的方法
CN108681660A (zh) * 2018-05-07 2018-10-19 福州大学 一种基于关联规则挖掘的非编码rna与疾病关系预测方法
CN109715195A (zh) * 2015-09-17 2019-05-03 伊斯迪德股份公司 用于将赘生性细胞转化为非赘生性细胞的药物结合物及其用途
CN109920476A (zh) * 2019-01-30 2019-06-21 中国矿业大学 基于混沌博弈算法的miRNA-疾病相关性预测方法
CN109935332A (zh) * 2019-03-01 2019-06-25 桂林电子科技大学 一种基于双随机游走模型的miRNA-疾病关联预测方法
CN110349619A (zh) * 2019-01-17 2019-10-18 哈尔滨工业大学 基于相似度计算的疾病与代谢物网络构建方法
DE102018125324A1 (de) * 2018-10-12 2020-04-16 Universität Rostock Verfahren zur Vorhersage einer Antwort auf die Therapie von Krankheiten
US20200199671A1 (en) * 2018-12-18 2020-06-25 Grail, Inc. Methods for detecting disease using analysis of rna
CN111584006A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于机器学习策略的环形rna识别方法
CN112183837A (zh) * 2020-09-22 2021-01-05 曲阜师范大学 一种基于自编码模型的miRNA与疾病关联关系预测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109715195A (zh) * 2015-09-17 2019-05-03 伊斯迪德股份公司 用于将赘生性细胞转化为非赘生性细胞的药物结合物及其用途
CN107506608A (zh) * 2017-09-29 2017-12-22 杭州电子科技大学 一种改进的基于协同过滤的miRNA‑疾病关联预测方法
CN107577924A (zh) * 2017-10-13 2018-01-12 上海交通大学 一种基于深度学习的长链非编码rna亚细胞位置预测算法
CN108427865A (zh) * 2018-03-14 2018-08-21 华南理工大学 一种预测LncRNA和环境因素关联关系的方法
CN108681660A (zh) * 2018-05-07 2018-10-19 福州大学 一种基于关联规则挖掘的非编码rna与疾病关系预测方法
DE102018125324A1 (de) * 2018-10-12 2020-04-16 Universität Rostock Verfahren zur Vorhersage einer Antwort auf die Therapie von Krankheiten
US20200199671A1 (en) * 2018-12-18 2020-06-25 Grail, Inc. Methods for detecting disease using analysis of rna
CN110349619A (zh) * 2019-01-17 2019-10-18 哈尔滨工业大学 基于相似度计算的疾病与代谢物网络构建方法
CN109920476A (zh) * 2019-01-30 2019-06-21 中国矿业大学 基于混沌博弈算法的miRNA-疾病相关性预测方法
CN109935332A (zh) * 2019-03-01 2019-06-25 桂林电子科技大学 一种基于双随机游走模型的miRNA-疾病关联预测方法
CN111584006A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于机器学习策略的环形rna识别方法
CN112183837A (zh) * 2020-09-22 2021-01-05 曲阜师范大学 一种基于自编码模型的miRNA与疾病关联关系预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王磊等: "基于深度学习的miRNA与疾病相关性预测算法", 《电子学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470739A (zh) * 2021-07-03 2021-10-01 中国科学院新疆理化技术研究所 一种基于混合隶属度随机块模型的蛋白质相互作用预测方法和系统
CN113591930A (zh) * 2021-07-06 2021-11-02 武汉纺织大学 一种基于网络融合与图嵌入的病毒-宿主关联预测方法
CN113591930B (zh) * 2021-07-06 2023-09-05 武汉纺织大学 一种基于网络融合与图嵌入的病毒-宿主关联预测方法
CN113743589A (zh) * 2021-09-13 2021-12-03 中国矿业大学 一种基于堆栈自编码器的miRNA生物标志物识别方法及系统
WO2023109714A1 (zh) * 2021-12-15 2023-06-22 深圳先进技术研究院 用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质
CN115424724A (zh) * 2022-11-04 2022-12-02 之江实验室 一种多模态图森林的肺癌淋巴结转移辅助诊断系统
CN115984622A (zh) * 2023-01-10 2023-04-18 深圳大学 基于多模态和多示例学习分类方法、预测方法及相关装置
CN115984622B (zh) * 2023-01-10 2023-12-29 深圳大学 基于多模态和多示例学习分类方法、预测方法及相关装置

Also Published As

Publication number Publication date
CN112837753B (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN112837753B (zh) 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法
CN103778349B (zh) 一种基于功能模块的生物分子网络分析的方法
Wang et al. A cancer survival prediction method based on graph convolutional network
Zhang et al. CircRNA-disease associations prediction based on metapath2vec++ and matrix factorization
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
Hu et al. Classifying the multi-omics data of gastric cancer using a deep feature selection method
Dai et al. Predicting miRNA-disease associations using an ensemble learning framework with resampling method
CN113724790B (zh) 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法
Zheng et al. CGMDA: an approach to predict and validate MicroRNA-disease associations by utilizing chaos game representation and LightGBM
Peng et al. HNMDA: heterogeneous network-based miRNA–disease association prediction
Zhu et al. Fusing multiple biological networks to effectively predict miRNA-disease associations
Chai et al. Integrating multi-omics data with deep learning for predicting cancer prognosis
Liao et al. Identifying human microRNA–disease associations by a new diffusion-based method
WO2018165762A1 (en) Systems and methods for determining effects of genetic variation on splice site selection
KR102386876B1 (ko) 빅테이터를 이용한 조건별 마이크로 rna 표적 조사 방법
CN116543832A (zh) 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用
Pyman et al. Exploring microRNA regulation of cancer with context-aware deep cancer classifier
CN114360642A (zh) 基于基因共表达网络分析的癌症转录组数据处理方法
Yin et al. Cox-resnet: A survival analysis model based on residual neural networks for gene expression data
CN111192639A (zh) 一种基于复杂网络的肿瘤转移关键基因检索方法
Li et al. TLSEA: a tool for lncRNA set enrichment analysis based on multi-source heterogeneous information fusion
Duan et al. GBDTLRL2D Predicts LncRNA–Disease Associations Using MetaGraph2Vec and K-Means Based on Heterogeneous Network
Shi et al. A novel high-dimensional kernel joint non-negative matrix factorization with multimodal information for lung cancer study
Biyu et al. A lncRNA-disease association prediction model based on the two-step PU learning and fully connected neural networks
CN114628031B (zh) 检测癌症个体病人动态网络生物标志物的多模态优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant