CN112183837A - 一种基于自编码模型的miRNA与疾病关联关系预测方法 - Google Patents

一种基于自编码模型的miRNA与疾病关联关系预测方法 Download PDF

Info

Publication number
CN112183837A
CN112183837A CN202010999278.XA CN202010999278A CN112183837A CN 112183837 A CN112183837 A CN 112183837A CN 202010999278 A CN202010999278 A CN 202010999278A CN 112183837 A CN112183837 A CN 112183837A
Authority
CN
China
Prior art keywords
disease
mirna
similarity matrix
model
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010999278.XA
Other languages
English (en)
Inventor
嵇存美
倪建成
郑春厚
高震
王玉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qufu Normal University
Original Assignee
Qufu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qufu Normal University filed Critical Qufu Normal University
Priority to CN202010999278.XA priority Critical patent/CN112183837A/zh
Publication of CN112183837A publication Critical patent/CN112183837A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

本发明公开了一种基于自编码模型的miRNA与疾病关联关系预测方法,通过融合的疾病相似性矩阵和miRNA相似性矩阵,设计疾病模型和miRNA模型,自动学习高维稠密特征表示,具有丰富的语义信息。本发明的一种基于自编码模型的预测方法,无需负样本信息,利用已知miRNA‑疾病关联关系在特征空间的表示训练模型,能够非常准确并鲁棒地预测疾病相关miRNA,可以为下一步生物学实验验证提供重要的指导,大大节省人力、财力和时间花销。

Description

一种基于自编码模型的miRNA与疾病关联关系预测方法
技术领域
本发明属于生物信息领域,涉及一种基于自编码模型的miRNA与疾病关联关系预测方法。
背景技术
人类细胞中含有大量微小核糖核酸(miRNA),这是一种长度约为22微米(核苷酸)的内源性非编码RNA,影响转录后水平上基因表达,并参与各种生物过程的调节,如细胞增殖、细胞分裂和细胞死亡。自从Lee等人在1993年首次发现miRNA(lin-4)以来,从植物到动物的各种生物体中都发现了大量的miRNA。研究表明,miRNA与人类疾病的发生和发展密切相关,包括乳腺肿瘤、肝肿瘤和肺肿瘤等。因此,miRNA可被视为有用的生物标记物,特别是在疾病诊断和干预方面。进一步显示了识别miRNA与疾病的关联关系的重要作用。早期使用生物学实验的方法,通过大量的生物实验来识别与疾病相关的miRNA,会导致实验成本高昂,费时费力,容易失败。因此,使用计算模型的方法如何准确有效的预测和分析潜在miRNA和疾病关联,已成为一个亟待解决的问题,近年来越来越受到专家学者关注,是当前研究的热点问题。
研究表明,功能相似的miRNA可能与类似的疾病有关,反之亦然。通过构建复杂网络、集成多个生物数据、机器学习或结合上述算法,研究人员开发了许多模型来预测miRNA和疾病关联。Jiang等人通过靶基因计算miRNA功能相似性和疾病表型相似性,根据超几何分布预测潜在的miRNA和疾病关联。Shi等人通过构建miRNA靶基因,疾病基因,以及蛋白质-蛋白质相互作用(PPI)网络预测miRNA-疾病关联。Xu等人提取基于miRNA目标网络的功能,通过支持向量机(SVM)分类器区分正负样本。You等人提出了一种基于网络路径的模型来预测miRNA与疾病之间的潜在关联,引入高斯核相似性来补充miRNA功能相似性和疾病相似性,并结合已知的miRNA-疾病相关性构建异质图。提出深度优先搜索算法,遍历特定疾病与图中miRNA顶点之间的所有路径,计算相似度评分。Chen等人开发了一种基于受限玻尔兹曼机模型预测miRNA-疾病关联。Peng等人引入靶基因信息,构建miRNA-基因和疾病-基因的三层网络,并用自编码器来提取疾病和miRNA的特征,然后构建CNN模型来预测与疾病关的miRNA。Xuan等人提出了基于双路卷积神经网络(CNN)的预测模型,使用两个CNN模型从原始结构和全局网络中提取特征,而全局网络是通过非负矩阵分解方法得到的miRNA和疾病的低维特征。最后的预测结果是把这两个部分结合在一起。
尽管上述方法均取得了不错的性能,但还存在一些问题和缺陷,还有进一步提升的空间。大多数深度学习方法都把该任务看作是一个监督学习问题。然而,已知的miRNA与疾病关联矩阵非常稀疏且不均衡,这类方法把已知关系当作正样本。由于缺乏负样本,获取这些负样本的方式,无论是使用未知关联还是随机构造都不准确,这使得训练的模型很难获得良好预测性能。其次,疾病和miRNA的特征表示方面,之前的方法无论是用矩阵分解的方法得到低秩特征,还是直接使用疾病相似性中一行(或列)来表示,都不够准确。
发明内容
为了解决现有技术中存在的问题,本发明提供一种基于自编码模型的miRNA与疾病关联关系预测方法,解决现有技术中预测miRNA和疾病关联的方法不够准确的问题。
本发明的技术方案为:
一种基于自编码模型的miRNA与疾病关联关系预测方法,步骤如下:
1)针对疾病语义相似性矩阵以及miRNA功能相似矩阵的稀疏性问题,结合高斯核相似性矩阵,提出带权重参数的融合疾病相似性矩阵和miRNA相似性矩阵;
2)针对疾病和miRNA的特征表示问题,提出了一种基于距离度量的模型,从疾病相似性矩阵和miRNA相似性矩阵中学习到每种疾病和miRNA的高维特征;
3)针对已知miRNA和疾病关联关系中缺少负样本,设计了基于自编码模型的miRNA和疾病关系学习模型;
4)针对某一疾病,通过训练的自编码模型计算所有miRNA和该疾病的自编码重构误差,根据该误差预测与疾病关联性高的未知miRNA。
其中,步骤1)进一步细化为:根据疾病DAG图计算疾病语义相似性矩阵SS,其中SS(di,dj)代表疾病di和dj之间的语义相似性分值;根据已知miRNA和疾病关系,计算疾病高斯核相似性矩阵KD,其中KD(di,dj)代表疾病di和dj之间的高斯相似性分值;则融合的疾病相似性矩阵SD表示为:
SD(di,dj)=αSS(di,dj)+(1-α)KD(di,dj)
其中,α表示权重参数,最终的疾病矩阵SD和疾病语义相似性矩阵SS以及高斯核相似性矩阵KD维度相同;
同理,根据miRNA功能相似性矩阵FS和高斯核相似性矩阵KM,计算出融合的miRNA相似性矩阵SM:
SM(mi,mj)=βFS(mi,mj)+(1-β)KM(mi,mj)
其中,β表示权重参数,最终的miRNA矩阵FS和miRNA功能相似性矩阵FS以及高斯核相似性矩阵KM维度相同;
最终,运用5折交叉验证的方法来选择预测性能最好的权重参数α和β。
步骤2)进一步细化为:根据已知疾病相似性矩阵SD,建立疾病特征模型学习每种疾病的特征;参数D代表该模型要学习的疾病特征,第i列代表疾病di向量表示
Figure BDA0002693695380000031
表示为:
Figure BDA0002693695380000032
其中,kd表示每个疾病的维度,nd表示所有疾病数量,其中D初始化为服从均匀分布[-0.1,0.1]的随机值;
Figure BDA0002693695380000033
其中,SD′表示学习到的疾病相似性,已知疾病矩阵相似性SD作为标签,这里用余弦距离来度量疾病之间的相似性。则疾病模型的损失函数定义为:
Figure BDA0002693695380000041
其中,Nd=nd*(nd-1)/2表示训练样本的数量,nd代表所有疾病的数量,采用最小化均方误差来训练模型,最终得到疾病的特征表示;
同理,miRNA的特征表示M表示为:
Figure BDA0002693695380000042
其中,km表示每个疾病的维度,nm表示所有miRNA数量,M初始化为服从均匀分布[-0.1,0.1]的采样的随机值;
miRNA的特征表示M可以通过如下公式计算出:
Figure BDA0002693695380000043
Figure BDA0002693695380000044
其中,Nm=nm*(nm-1)/2表示训练样本的数量,nm代表所有miRNA的数量,采用最小化均方误差来训练模型,最终得到miRNA的特征表示。
步骤3)进一步细化为,提出miRNA和疾病关系的自编码模型,对已知miRNA和疾病关系,运用训练得到的向量表示构造拼接向量进行训练;对于编码器部分定义为:
Figure BDA0002693695380000045
Figure BDA0002693695380000046
其中,L代表编码器隐藏层层数,
Figure BDA0002693695380000047
表示第f个样本在第l层的表示,
Figure BDA0002693695380000048
表示第f个样本的输入,表示为
Figure BDA0002693695380000049
kd和km分别是疾病和miRNA特征维度;zi代表编码器的输出,即隐编码,Wl和bl代表l层的编码器参数和偏置,fe表示非线性激活函数,采用relu(·)=max(0,·)
相应地,对于解码器定义为:
Figure BDA00026936953800000410
Figure BDA00026936953800000411
其中,L代表解码器隐藏层层数,fe和gd表示非线性激活函数,fe采用relu(·)=max(0,·),gd采用tanh函数;Wl和bl代表l层的解码器参数和偏置,
Figure BDA00026936953800000412
表示对输入xi的重构;
最终,自编码模型的损失函数定义为:
Figure BDA0002693695380000051
其中,N表示样本数量,即已知miRNA和疾病关系数量,λ为正则项系数,Jh(xi)表示雅可比正则项。
步骤4)进一步细化为:步骤1、步骤2得到所有疾病和miRNA的特征表示D和M,针对某个疾病,首先从特征表示D和M中获取该疾病和所有miRNA的向量表示,然后运用步骤3训练模型,计算重构误差:
Figure BDA0002693695380000052
其中,li表示第i个miRNA和该疾病的重构误差,对所有重构误差进行排序,
进而得到按照概率从高到低排列的与该疾病有关联的miRNA。
与已有技术相比,本发明的有益效果体现在:
本发明从miRNA-疾病关联关系的本质出发,分析了预测中存在的问题的原因,有效提出了特征学习的方法,构建模型从融合的疾病相似性矩阵和miRNA相似性矩阵中学习疾病和miRNA的稠密特征表示。同时,提出了无需负样本的miRNA-疾病关联关系预测模型。本发明能够鲁棒的、准确的预测潜在的与疾病相关的miRNA。通过留一验证和五折验证,对应的AUC指标优于其他方法。本发明预测出来的高概率miRNA-疾病关联关系,可以指导接下来的生物学实验验证,节省人力、财力和时间花销。同时对疾病诊断和治疗也具有很重要的参考和研究价值。
附图说明
图1本发明的模型框图:(a)疾病特征学习模型;(b)miRNA特征学习模型;(c)预测疾病和miRNA关联关系的自编码器模型;
图2基于自编码模型的疾病和miRNA关联关系预测示意图;
图3在不同参数选择下,疾病模型和miRNA模型的平均训练损失图;
图4在不同参数选择下,五折交叉验证试验获得的预测性能AUC指标;
图5在五折交叉验证下,本发明方法和其他方法获得的AUC指标比较结果;
图6在留一交叉验证下,本发明方法与其他方法获得的AUC指标比较结果。
具体实施方式
下面通过结合本发明实施中的附图,说明本发明提出的基于自编码模型的miRNA与疾病关联关系预测方法的实施过程。
1:构造数据,如图1(a)和图1(b)所示。
从HMDD(人类miRNA和疾病数据库)下载已知miRNA-疾病关系,转换成矩阵
Figure BDA0002693695380000061
这里nd和nm分别表示疾病和miRNA数量;根据Mesh数据库疾病-疾病关系的有向无环图(DAG)计算疾病语义相似性矩阵
Figure BDA0002693695380000062
其中SS(di,dj)代表疾病di和dj之间的语义相似性分值;根据已知miRNA和疾病关系A,计算疾病高斯核相似性矩阵KD,其中KD(di,dj)代表疾病di和dj之间的高斯相似性分值;根据已知miRNA和疾病关系A计算出miRNA功能相似性矩阵
Figure BDA0002693695380000063
Figure BDA0002693695380000064
同时计算高斯核相似性矩阵KM。
2:提出带权重参数的融合疾病相似性矩阵和miRNA相似性矩阵,如图1(a)和图1(b)所示。
融合的疾病相似性矩阵SD表示为:
SD(di,dj)=αSS(di,dj)+(1-α)KD(di,dj)
其中,α表示权重参数,最终的疾病相似性矩阵SD和疾病语义相似性矩阵SS以及高斯核相似性矩阵KD维度相同。同理,融合的miRNA相似性矩阵SM:
SM(mi,mj)=βFS(mi,mj)+(1-β)KM(mi,mj)
其中,β表示权重参数,最终的miRNA矩阵FS和miRNA功能相似性矩阵FS以及高斯核相似性矩阵KM维度相同。
3:设计模型,分别学习miRNA和疾病的特征,如图1(a)和图1(b)所示。
根据已知疾病相似性矩阵SD,建立疾病特征模型学习每种疾病的特征;参数D代表该模型要学习的疾病特征,第i列代表疾病di的向量表示
Figure BDA0002693695380000071
表示为:
Figure BDA0002693695380000072
其中,kd表示每个疾病的维度,nd表示所有疾病数量。在本发明中,D初始化为服从均匀分布[-0.1,0.1]的随机值。
Figure BDA0002693695380000073
其中,SD′表示学习到的疾病相似性,已知疾病矩阵相似性SD作为标签,这里用余弦距离来度量疾病之间的相似性。则疾病模型的损失函数定义为:
Figure BDA0002693695380000074
其中,Nd=nd*(nd-1)/2表示训练样本的数量,nd代表所有疾病的数量。在本发明中,采用最小化均方误差来训练模型,最终得到疾病的特征表示。
同理,miRNA的特征表示M表示为:
Figure BDA0002693695380000075
其中,km表示每个疾病的维度,nm表示所有miRNA数量。在本发明中,M初始化为服从均匀分布[-0.1,0.1]的随机值。
miRNA的特征表示M可以通过如下公式计算出:
Figure BDA0002693695380000076
Figure BDA0002693695380000077
其中,Nm=nm*(nm-1)/2表示训练样本的数量,nm代表所有miRNA的数量。在本发明中,采用最小化均方误差来训练模型,最终得到miRNA的特征表示。
4:设计miRNA-疾病关联关系预测模型,如图1(c)和图2所示。
首先,对已知miRNA和疾病关系,运用训练得到的向量表示构造拼接向量进行模型训练。对于模型编码器部分定义为:
Figure BDA0002693695380000081
Figure BDA0002693695380000082
其中,L代表编码器隐藏层层数,
Figure BDA0002693695380000083
表示第i个样本在第l层的表示,
Figure BDA0002693695380000084
表示第i个样本的输入,表示为
Figure BDA0002693695380000085
kd和km分别是疾病和miRNA特征维度;zi代表编码器的输出,即隐编码,Wl和bl代表l层的编码器参数和偏置,fe表示非线性激活函数,在本发明中,采用relu(·)=max(0,·)
相应地,对于解码器定义为:
Figure BDA0002693695380000086
Figure BDA0002693695380000087
其中,L代表解码器隐藏层层数,fe和gd表示非线性激活函数,在本发明中,fe采用relu(·)=max(0,·),gd采用tanh函数。Wl和bl代表l层的解码器参数和偏置,
Figure BDA0002693695380000088
表示对输入xi的重构。
最终,预测模型的损失函数定义为:
Figure BDA0002693695380000089
其中,N表示样本数量,即已知miRNA和疾病关系数量,λ为正则项系数,Jh(xi)表示雅可比正则项。在本发明中,λ取1e-2。
5:验证α和β对融合疾病相似性矩阵SD和miRNA相似性矩阵SD的影响,如图3和图4所示。
我们首先定义间隔0.1,范围从0.0到1.0的11个数,然后设置α和β分别为这些数值,以训练不同的疾病和miRNA模型。各模型的训练损失如如图3所示。在相同设置和训练,疾病模型在α=0时损失最小,而miRNA模型在β=0时也显示最佳结果。这一结果表明疾病模型和miRNA模型仅仅使用高斯核相似性,获得最好的收敛效果,而融合的相似性来自于两个不同的分布。为了进一步验证α和β对预测性能的影响,本发明还对每组α和β的不同取值训练了121个自编码预测模型,然后用五折交叉验证计算各个模型的AUC值。如图4所示,α和β分别设置为0.3和0.2时,模型获得最好的预测能力。
6:验证本发明的预测性能,如图5和图6所示。
为使本发明的效果具有可比性,我们分别采用了五折交叉验证和留一交叉验证的方式,选择同样的训练用已知miRNA-疾病关联关系数据库HMDD 2.0,与之前一些计算模型作比较。其中,五折交叉验证对已知的所有miRNA-疾病关联随机分为5个相等数量的组,其中4组依次作为训练样本,其余组作为检验样本;为了公平比较,对于每个回合,我们用训练样本训练自动编码器。留一交叉验证则每次选择一个已知miRNA-样本进行测试,其余样本作为训练样本;同样,为了公平比较,对于每个回合,我们相应地训练了一个自动编码器。这两种验证方式下,本发明分别计算了测试样本和未知样本的重建误差,并进行排序。
如图5留一验证所示,本发明方法取得的AUC指标为为0.9410,而其他方法SACMDA、ICFMDA、GRL21NMF和IMCMDA模型的AUC分别为0.8770、0.9067、0.9276和0.8375。
如图6五折验证所示,本发明方法取得的AUC指标为0.9383,而其他方法SACMDA、ICFMDA、GRL21NMF和IMCMDA模型的AUC分别为0.8763、0.9045、0.9276和0.8330。
以上验证实验表明,本发明预测方法准确性明显优于其他模型。
7:为进一步展示本发明的预测性能,以恶性胶质瘤(GBM)为例,进一步验证本发明的预测性能,如表1所示。
表1.前50项与GBM关联的miRNA.
Figure BDA0002693695380000101
I,II,III represent HMDD v2.0,HMDD v3.2,and dbDEMC v2.0.
实验中仅使用HMDD 2.0中的样本进行训练。然后分别在HMDD 2.0、HMDD 3.2和dbDEMC 2.0数据集上验证。
GBM是最具侵袭性的癌症;这些肿瘤开始于大脑内部,并伴有非特异性症状,如头痛和恶心,这些症状可能会迅速恶化。典型的存活时间为12到15个月,大多数病例的病因尚不清楚。首先,利用HMDD 2.0数据库训练本发明中提出的预测模型。然后,根据重建误差进行排名,选取预测的前50个miRNA,如表1所示。在前50项预测中,分别有49项、50项和31项分别在HMDD 2.0、HMDD 3.2和dbDEMC 2.0中得到验证。
此外,在HMDD 2.0中,有96个miRNA与GBM相关,其中85个发生在我们的预测中(在补充数据中)。在我们预测的11个不在HMDD 2.0中的关联miRNA,有6个在HMDD 3.2中被证实。

Claims (5)

1.一种基于自编码模型的miRNA与疾病关联关系预测方法,其特征是,步骤如下:
1)针对疾病语义相似性矩阵以及miRNA功能相似矩阵的稀疏性问题,结合高斯核相似性矩阵,提出带权重参数的融合疾病相似性矩阵和miRNA相似性矩阵;
2)针对疾病和miRNA的特征表示问题,提出了一种基于距离度量的模型,从疾病相似性矩阵和miRNA相似性矩阵中学习到每种疾病和miRNA的高维特征;
3)针对已知miRNA和疾病关联关系中缺少负样本,设计了基于自编码模型的miRNA和疾病关系学习模型;
4)针对某一疾病,通过训练的自编码模型计算所有miRNA和该疾病的自编码重构误差,根据该误差预测与疾病关联性高的未知miRNA。
2.如权利要求1所述的基于自编码模型的miRNA与疾病关联关系预测方法,其特征是,其中,步骤1)进一步细化为:根据疾病DAG图计算疾病语义相似性矩阵SS,其中SS(di,dj)代表疾病di和dj之间的语义相似性分值;根据已知miRNA和疾病关系,计算疾病高斯核相似性矩阵KD,其中KD(di,dj)代表疾病di和dj之间的高斯相似性分值;则融合的疾病相似性矩阵SD表示为:
SD(di,dj)=αSS(di,dj)+(1-α)KD(di,dj)
其中,α表示权重参数,最终的疾病矩阵SD和疾病语义相似性矩阵SS以及高斯核相似性矩阵KD维度相同;
同理,根据miRNA功能相似性矩阵FS和高斯核相似性矩阵KM,计算出融合的miRNA相似性矩阵SM:
SM(mi,mj)=βFS(mi,mj)+(1-β)KM(mi,mj)
其中,β表示权重参数,最终的miRNA矩阵FS和miRNA功能相似性矩阵FS以及高斯核相似性矩阵KM维度相同;
最终,运用5折交叉验证的方法来选择预测性能最好的权重参数α和β。
3.如权利要求1所述的基于自编码模型的miRNA与疾病关联关系预测方法,其特征是,步骤2)进一步细化为:根据已知疾病相似性矩阵SD,建立疾病特征模型学习每种疾病的特征;参数D代表该模型要学习的疾病特征,第i列代表疾病di向量表示
Figure FDA0002693695370000011
表示为:
Figure FDA0002693695370000012
其中,kd表示每个疾病的维度,nd表示所有疾病数量,其中D初始化为服从均匀分布[-0.1,0.1]的随机值;
Figure FDA0002693695370000013
其中,SD′表示学习到的疾病相似性,已知疾病矩阵相似性SD作为标签,这里用余弦距离来度量疾病之间的相似性。则疾病模型的损失函数定义为:
Figure FDA0002693695370000021
其中,Nd=nd*(nd-1)/2表示训练样本的数量,nd代表所有疾病的数量,采用最小化均方误差来训练模型,最终得到疾病的特征表示;
同理,miRNA的特征表示M表示为:
Figure FDA0002693695370000022
其中,km表示每个疾病的维度,nm表示所有miRNA数量,M初始化为服从均匀分布[-0.1,0.1]的采样的随机值;
miRNA的特征表示M可以通过如下公式计算出:
Figure FDA0002693695370000023
Figure FDA0002693695370000024
其中,Nm=nm*(nm-1)/2表示训练样本的数量,nm代表所有miRNA的数量,采用最小化均方误差来训练模型,最终得到miRNA的特征表示。
4.如权利要求1所述的基于自编码模型的miRNA与疾病关联关系预测方法,其特征是,步骤3)进一步细化为,提出miRNA和疾病关系的自编码模型,对已知miRNA和疾病关系,运用训练得到的向量表示构造拼接向量进行训练;对于编码器部分定义为:
Figure FDA0002693695370000025
Figure FDA0002693695370000026
其中,L代表编码器隐藏层层数,
Figure FDA0002693695370000027
表示第i个样本在第l层的表示,
Figure FDA0002693695370000028
表示第i个样本的输入,表示为
Figure FDA0002693695370000029
kd和km分别是疾病和miRNA特征维度;zi代表编码器的输出,即隐编码,Wl和bl代表l层的编码器参数和偏置,fe表示非线性激活函数,采用relu(·)=max(0,·)
相应地,对于解码器定义为:
Figure FDA00026936953700000210
Figure FDA00026936953700000211
其中,L代表解码器隐藏层层数,fe和gd表示非线性激活函数,fe采用relu(·)=max(0,·),gd采用tanh函数;Wl和bl代表l层的解码器参数和偏置,
Figure FDA00026936953700000212
表示对输入xi的重构;
最终,自编码模型的损失函数定义为:
Figure FDA00026936953700000213
其中,N表示样本数量,即已知miRNA和疾病关系数量,λ为正则项系数,Jh(xi)表示雅可比正则项。
5.如权利要求1所述的基于自编码模型的miRNA与疾病关联关系预测方法,其特征是,步骤4)进一步细化为:步骤1、步骤2得到所有疾病和miRNA的特征表示D和M,针对某个疾病,首先从特征表示D和M中获取该疾病和所有miRNA的向量表示,然后运用步骤3训练模型,计算重构误差:
Figure FDA0002693695370000031
其中,
Figure FDA0002693695370000032
表示第i个miRNA和该疾病的重构误差,对所有重构误差进行排序,进而得到按照概率从高到低排列的与该疾病有关联的miRNA。
CN202010999278.XA 2020-09-22 2020-09-22 一种基于自编码模型的miRNA与疾病关联关系预测方法 Pending CN112183837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010999278.XA CN112183837A (zh) 2020-09-22 2020-09-22 一种基于自编码模型的miRNA与疾病关联关系预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010999278.XA CN112183837A (zh) 2020-09-22 2020-09-22 一种基于自编码模型的miRNA与疾病关联关系预测方法

Publications (1)

Publication Number Publication Date
CN112183837A true CN112183837A (zh) 2021-01-05

Family

ID=73956750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010999278.XA Pending CN112183837A (zh) 2020-09-22 2020-09-22 一种基于自编码模型的miRNA与疾病关联关系预测方法

Country Status (1)

Country Link
CN (1) CN112183837A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784913A (zh) * 2021-01-29 2021-05-11 湖南大学 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置
CN112837753A (zh) * 2021-02-07 2021-05-25 中国科学院新疆理化技术研究所 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法
CN112951320A (zh) * 2021-03-03 2021-06-11 深圳大学 一种基于集成学习的生物医学网络关联预测方法
CN113392403A (zh) * 2021-06-11 2021-09-14 连云港微部落网络技术有限公司 一种具备主动防御功能的网站安全防御系统和方法
CN113409892A (zh) * 2021-05-13 2021-09-17 西安电子科技大学 基于图神经网络的miRNA-疾病关联关系预测方法
CN113539479A (zh) * 2021-06-29 2021-10-22 山东师范大学 一种基于相似性约束的miRNA-疾病关联预测方法及系统
CN113743589A (zh) * 2021-09-13 2021-12-03 中国矿业大学 一种基于堆栈自编码器的miRNA生物标志物识别方法及系统
TWI755261B (zh) * 2021-01-25 2022-02-11 沐恩生醫光電股份有限公司 基因評估裝置以及方法
CN114613438A (zh) * 2022-03-08 2022-06-10 电子科技大学 一种miRNA与疾病的关联预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243538A (zh) * 2018-07-19 2019-01-18 长沙学院 一种预测疾病与LncRNA关联关系的方法及系统
CN109920476A (zh) * 2019-01-30 2019-06-21 中国矿业大学 基于混沌博弈算法的miRNA-疾病相关性预测方法
CN111681705A (zh) * 2020-05-21 2020-09-18 中国科学院深圳先进技术研究院 一种miRNA-疾病关联预测方法、系统、终端以及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243538A (zh) * 2018-07-19 2019-01-18 长沙学院 一种预测疾病与LncRNA关联关系的方法及系统
CN109920476A (zh) * 2019-01-30 2019-06-21 中国矿业大学 基于混沌博弈算法的miRNA-疾病相关性预测方法
CN111681705A (zh) * 2020-05-21 2020-09-18 中国科学院深圳先进技术研究院 一种miRNA-疾病关联预测方法、系统、终端以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CUNMEI JI,ET AL.: "AEMDA: inferring miRN A–disease associations based on deep autoencoder", 《BIOINFORMATICS》, vol. 37, no. 1, 29 July 2020 (2020-07-29), pages 66 - 72 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI755261B (zh) * 2021-01-25 2022-02-11 沐恩生醫光電股份有限公司 基因評估裝置以及方法
CN112784913A (zh) * 2021-01-29 2021-05-11 湖南大学 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置
CN112784913B (zh) * 2021-01-29 2023-07-25 湖南大学 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置
CN112837753B (zh) * 2021-02-07 2022-07-22 中国科学院新疆理化技术研究所 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法
CN112837753A (zh) * 2021-02-07 2021-05-25 中国科学院新疆理化技术研究所 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法
CN112951320A (zh) * 2021-03-03 2021-06-11 深圳大学 一种基于集成学习的生物医学网络关联预测方法
CN113409892A (zh) * 2021-05-13 2021-09-17 西安电子科技大学 基于图神经网络的miRNA-疾病关联关系预测方法
CN113409892B (zh) * 2021-05-13 2023-04-25 西安电子科技大学 基于图神经网络的miRNA-疾病关联关系预测方法
CN113392403A (zh) * 2021-06-11 2021-09-14 连云港微部落网络技术有限公司 一种具备主动防御功能的网站安全防御系统和方法
CN113539479A (zh) * 2021-06-29 2021-10-22 山东师范大学 一种基于相似性约束的miRNA-疾病关联预测方法及系统
CN113539479B (zh) * 2021-06-29 2024-05-07 山东师范大学 一种基于相似性约束的miRNA-疾病关联预测方法及系统
CN113743589A (zh) * 2021-09-13 2021-12-03 中国矿业大学 一种基于堆栈自编码器的miRNA生物标志物识别方法及系统
CN114613438A (zh) * 2022-03-08 2022-06-10 电子科技大学 一种miRNA与疾病的关联预测方法及系统
CN114613438B (zh) * 2022-03-08 2023-05-26 电子科技大学 一种miRNA与疾病的关联预测方法及系统

Similar Documents

Publication Publication Date Title
CN112183837A (zh) 一种基于自编码模型的miRNA与疾病关联关系预测方法
CN110993113B (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
CN110782945B (zh) 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
CN107679367B (zh) 一种基于网络节点关联度的共调控网络功能模块识别方法及系统
CN108427865B (zh) 一种预测LncRNA和环境因素关联关系的方法
CN110556184B (zh) 基于Hessian正则非负矩阵分解的非编码RNA与疾病关系预测方法
CN113871021A (zh) 一种基于图注意力机制的circRNA与疾病关联关系预测方法
CN112927753A (zh) 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法
CN112992267A (zh) 一种单细胞的转录因子调控网络预测方法及装置
Niu et al. A pretraining-retraining strategy of deep learning improves cell-specific enhancer predictions
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
CN113362900A (zh) 一种预测n4-乙酰胞苷的混合模型
CN113921084B (zh) 疾病相关非编码rna调控轴多维靶向预测方法及系统
CN116978464A (zh) 数据处理方法、装置、设备以及介质
CN113223622B (zh) 基于元路径的miRNA-疾病关联预测方法
CN117476106B (zh) 一种多类不平衡蛋白质二级结构预测方法和系统
CN117198426B (zh) 一种多尺度的药物-药物反应可解释预测方法和系统
CN117912570B (zh) 一种基于基因共表达网络的分类特征确定方法及系统
CN117558349A (zh) 基于概率图模型的miRNA-疾病-类型的关联预测方法及装置
CN116758993A (zh) 一种集成多组学特征的dna甲基化预测方法
CN117012277A (zh) 基于层细化图卷积神经网络预测疾病lncRNA的方法
CN115881232A (zh) 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法
CN117423390A (zh) 一种miRNA-疾病关联预测方法
CN114171124A (zh) 一种基于回归的性能优异的疾病和miRNA关联预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210105

WD01 Invention patent application deemed withdrawn after publication