CN112837753A

CN112837753A - 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法

Info

Publication number: CN112837753A
Application number: CN202110167684.4A
Authority: CN
Inventors: 姬博亚; 尤著宏; 胡伦; 王磊; 周喜; 蒋同海; 黄历广
Original assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Current assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-05-25
Anticipated expiration: 2041-02-07
Also published as: CN112837753B

Abstract

本发明公开了一种基于多模态堆叠自动编码机的microRNA‑疾病关联预测方法，该方法包括microRNA序列特征以及疾病语义相似性特征；构建microRNA‑蛋白质‑疾病网络，microRNA‑mRNA‑疾病网络，microRNA‑lncRNA‑疾病网络，利用LINE网络嵌入方法分别获取microRNA，疾病与蛋白质，mRNA，lncRNA之间的网络邻近特征；利用多模态堆叠自动编码机分别对microRNA与疾病的四种特征（本身属性特征，蛋白质网络邻近特征，mRNA网络邻近特征，lncRNA网络邻近特征）挖掘高级抽象特征，降低模型时间复杂度，提高模型预测准确率；对处理后特征分别使用CatBoost分类器进行训练和预测，将四种特征预测得分平均值作为最终预测得分。本发明解决了传统生物实验方法高耗时，高成本问题，实现了更好的分类效果，以更高的准确率预测出潜在的microRNA与疾病关联关系。

Description

一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法

技术领域

本发明涉及机器学习和生物信息学领域，具体涉及一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法。

背景技术

MicroRNA(miRNA)是一种小分子非编码RNA(-22nt)，在细胞中发挥着重要作用。据估计，人类基因组中1-4％的基因是miRNAs，单个miRNAs调节多达200个mRNA，miRNAs通常通过序列特异性碱基对与靶mRNA的3’非翻译区(UTRs)结合，抑制靶mRNA的表达，从而参与生命过程中的一系列重要过程。在许多生物信息学研究项目中，识别潜在的microRNA(miRNA)和人类疾病关联一直是一个关键目标，这将有助于人类疾病的治疗和预防、分子工具设计和个性化诊断。

传统的生物实验对于大规模的关联检测是昂贵和费力的。因此，预测潜在miRNA-疾病关联的有效计算方法越来越受到关注。基于功能相关的microRNA更有可能与有着相似表型的疾病关联的假设，一些基于得分函数的计算模型被提出，这类模型通常利用计算方法如随机游走等基于构造的miRNA-疾病关联网络计算miRNA与疾病之间有潜在关联的可能性。此外，随着已知miRNA-疾病关联数据的增长，机器学习分类算法越来越多的被用于预测潜在miRNA与疾病之间关联。然而，人体是一个统一的整体，人类细胞中多种生物分子协调维持生命活动，各种生物分子之间的相互作用是相互联系的，目前现有的计算方法大多仅仅考虑了单一类型的已知miRNA与疾病关联信息，而没有对miRNA与疾病及其他生物分子之间的关联关系给予更多的关注。因此有必要设计一种能够利用到miRNA，疾病与其他生物分子之间的关联特征，并且结合其本身属性特征，能够达到更高预测能力的预测方法。

发明内容

本发明的目的在于，提供一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法，该方法能够充分利用microRNA和疾病的多模态特征，包括microRNA和疾病本身的属性特征，microRNA和疾病与人体细胞内重要生物分子mRNA，蛋白质，lncRNA的网络临近特征，预测精度高，预测效果好；本发明方法模型复杂度低，功耗小；可以高效的预测microRNA和疾病的潜在关联关系，五折交叉验证下，平均AUC可以达到93.55％。

为实现上述发明目的，本发明采用以下技术方案：

本发明所述一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法，按下列步骤进行：

a、数据集的选择与建立：基于Human MicroRNA Disease Database v3.0数据库获取已知的人类microRNA与疾病关联数据；基于miRbase数据库获取microRNA序列信息；基于Medical Subject Heading数据库获取疾病主题词；基于miRTarBase数据库获取已知的microRNA与蛋白质以及microRNA与mRNA关联数据；基于DisGeNET数据库获取已知的蛋白质与疾病以及mRNA与疾病关联数据；基于lncRNASNP2数据库获取已知的microRNA与lncRNA关联数据；基于lncRNASNP2以及LncRNADisease数据库获取已知的lncRNA与疾病关联数据；

b、microRNA序列特征的生成：基于microRNA的核苷酸为尿嘧啶，胞嘧啶，鸟嘌呤和腺嘌呤序列，利用3-mer方法计算每个microRNA序列特征；

c、疾病语义相似性特征的生成：基于疾病的MeSH主题词构建每种疾病的有向无环图,定义无环图节点对疾病的语义贡献值，从而根据不同疾病的无环图共享部分计算疾病的语义相似性特征；

d、microRNA和疾病网络临近特征的生成：构建microRNA-蛋白质-疾病网络，microRNA-mRNA-疾病网络，microRNA-lncRNA-疾病网络，利用LINE网络嵌入方法分别计算microRNA和疾病与蛋白质，mRNA，lncRNA之间的网络邻近特征；

e、多模态特征挖掘：利用深度学习的堆叠自动编码机，以非监督的方式使用神经网络学习复杂特征的潜在信息，将四种不同特征降低到64维，以去除噪声影响并降低模型复杂度；

f、训练集和测试集的构建：利用HMDD v3.0中已知microRNA-疾病关联作为正样本，随机抽取与正样本相同数量的不相关microRNA-疾病关联作为负样本，分别以关联对的数量比为4:1的比例随机切割两个数据集，其中4/5作为训练集，1/5作为测试集，然后利用5折交叉验证的方法进行五次切割并验证；

g、分类器模型的构建：利用CatBoost分类算法构建训练模型，分别对多模态特征进行训练和预测，将四种特征预测得分平均值作为最终预测得分。

所述步骤b中利用3-mer方法计算microRNA序列中不同3聚体核苷酸的统计概率，将每个3聚体核苷酸前后错位1个核苷酸，依次排列开，分别计算每个3聚体出现次数占整个microRNA序列的统计概率作为microRNA的属性序列特征。

所述步骤c中疾病的医学主题标题描述符提供了一个严格的疾病分类系统,在此基础上，各种疾病之间的关系可以表示为有向无环图，图中的节点代表疾病，图中的有向边代表疾病之间的关系，取平均值作为最终的疾病语义相似性特征。

所述步骤d中利用LINE网络嵌入方法，对于信息网络嵌入LINE方法的网络嵌入过程为：定义一阶临近模型：即两个点之间有直接边相连就认为它们比较相似，保证低维的嵌入中要保留两个结点之间的直接联系的紧密程度，若两个结点之间不存在边，那么他们之间的一阶临近度为0；

定义二阶临近模型：即两个点之间也许不直接相连，但是如果它们的一阶公共节点比较多那么它们也被认为是比较相似的；

优化两种模型目标函数：即实际相似度与表示相似度之间的Kullback–Leibler(KL)散度，最后拼接一阶相似度网络嵌入特征与二阶相似度网络嵌入特征作为最终节点网络嵌入特征。所述步骤e中利用深度学习中的堆叠自动编码机分别挖掘microRNAs和疾病的多种高级潜在特征并降低模型复杂度，对于堆叠自动编码机提取潜在特征的过程如下：

编码过程：将特征数据x＝[x₁，x₂，...，x_d(x)]^T从输入层输入到第一层隐含层，其中d(x)代表输入特征数据维度，通过映射函数f1投影为隐层特征z1＝[z₁，z₂，...，z_d(z)]^T，其中d(z)代表潜在特征数据维度，接着将隐层特征z1输入到第二层隐含层，通过映射函数f2投影为隐层特征z2,重复进行逐层抽取至隐含层结束；

解码过程：将隐层特征zi输入到下层解码机，通过映射函数g投影为输出特征y＝[y₁，y₂，...，y_d(y)]^T,其中d(y)代表输出特征数据维度，重复编码和解码过程，直至输入特征x和输出特征y之间的重构误差最小化；

降维过程：利用最终学习到的编码机权值矩阵对输入特征逐一进行编码降维。

所述步骤g中CatBoost是一种新型的集成算法，它利用排序提升方法替换传统算法中梯度估计方法,进而减轻梯度估计的偏差,提高模型的泛化能力,采用对称树作为其基学习器,通过一组基学习器的串行迭代，最终得到一个强学习器，对于CatBoost的训练分类过程如下：

选取训练集中的每一个训练样本x_i训练并得到一个单独的模型Y_i,模型Y_i由此样本之外的全部训练样本训练得到；

利用排序提升方式代替传统算法中梯度估计方法利用模型Y_i计算样本x_i的梯度估计；

利用每个样本梯度估计训练基学习器；

对所有基学习器进行加权处理，获得最终的强学习器。

本发明所述一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法，该方法中，所述步骤a中数据集的选择与建立：

本发明使用的已知人类microRNA与疾病关联数据来源于Human MicroRNADisease Database(HMDD)v3.0数据库，在此基础上，进行数据预处理，消除重复关联，删除公共数据库miRBase认为不可靠的与某些miRNAs相关的关联，最终获得10696条miRNA-疾病关联，包含839种microRNAs和531种人类疾病；microRNA序列信息来源于miRbase数据库；疾病主题词来源于Medical Subject Heading(MeSH)数据库；已知的microRNA与蛋白质以及microRNA与mRNA关联数据来源于miRTarBase数据库，包含4944条microRNA-蛋白质关联，5186条microRNA-mRNA关联；已知的蛋白质与疾病以及mRNA与疾病关联数据来源于DisGeNET数据库，包含25087条蛋白质-疾病关联，3416条mRNA-疾病关联；已知的microRNA与lncRNA关联数据来源于lncRNASNP2数据库，包含8374条microRNA-lncRNA关联；已知的lncRNA与疾病关联数据来源于lncRNASNP2以及LncRNADisease数据库，包含1264条lncRNA-疾病关联；

所述步骤b中microRNA序列特征的生成：

microRNA序列通常用四种核苷酸的简写字母表示:尿嘧啶(U)、胞嘧啶(C)、鸟嘌呤(G)和腺嘌呤(A)，从公共miRBase数据库下载miRNA序列信息，设置一个窗口大小为3，滑动距离为1的滑动窗口，将microRNA序列分割成多个3-单体单元(3-mers)，将每个3-mer的出现次数除以对应的microRNA序列长度，得到其出现频率，将不出现的3-mer的频率设为0，最后，将所有3-mer出现频率作为microRNA序列的数值统计特征，即属性特征；

所述步骤c中疾病语义相似性特征的生成：

疾病的医学主题描述符(MeSH)提供了一个严格的疾病分类系统，可以从美国国家医院医学图书馆获得(https://www.nlm.nih.gov/)，MeSH描述符被分为16个类别:A类是解剖术语，B类是生物体，本发明中使用的C类疾病，等等。在此基础上，各种疾病之间的关系可以表示为有向无环图(DAG)，图中的节点代表疾病，图中的有向边代表疾病之间的关系，例如，某一疾病A表示为DAG(A)＝(D(A),E(A))，其中D(A)表示疾病A及其祖先节点集，E(A)表示图中连接这些疾病的边集，在此基础上，定义DAG(A)中某一疾病t对疾病A的语义贡献如下：

式中，Δ为语义贡献衰减因子，表示随着t与疾病A之间距离的增加，其对疾病A的语义贡献减小，通过总结疾病A本身及其祖先疾病的所有贡献，得出疾病A的语义价值：

DV(A)＝∑_t∈D(A)D_A(t) (2)

因此,基于共享DAG部分的两种疾病之间的第一种语义相似性特征DS1(A,B)可以通过计算得到:

为了近一步考虑不同疾病在DAG图中出现的数量不同对疾病语义的贡献不同，我们定义了疾病的第二种语义相似性特征，定义DAG(A)中疾病术语t对疾病A的语义贡献如下：

式中，num(DAG(t))表示DAG中疾病t的出现次数，num(diseses)表示DAG中疾病的总数量，由此两种疾病之间的第二种语义相似性特征DS2(A,B)可以通过计算得到：

最后，将两种疾病语义相似性特征融合，对两者求和，取平均作为最终的疾病语义相似性特征：

所述步骤d中microRNA和疾病网络临近特征的生成：

基于有着共同生物分子关联关系的microRNA与疾病之间更可能相互关联的猜想，本发明利用microRNA，疾病与人体细胞内重要生物分子之间的关联关系预测潜在microRNA-疾病关联。根据数据库中已知的microRNA，疾病与mRNA，蛋白质，lncRNA之间的关联关系构建3个异构生物分子关联网络，即microRNA-mRNA-疾病异构网络，microRNA-蛋白质-疾病异构网络，microRNA-lncRNA-疾病异构网络。其次，利用大规模信息网络嵌入(LINE)算法提取microRNA，疾病与三种生物分子之间的网络临近特征。LINE可以将一个大型网络中的节点根据其关系的密度映射到向量空间中，使紧密相连的节点投射到相似的位置；该方法不仅考虑了一阶网络临近度，即两个节点若直接相连,则他们被认为相似，同时考虑二阶网络临近度,即两个节点可能不直接相连，但如果他们有较多公共的一阶临近节点，则他们也被认为相似，基于这两个角度，LINE算法被分为以下两类：

一阶网络临近模型：对于一条无向边(i,j)，定义这条边的两个顶点v_i和v_j的联合概率如下：

其中

和

代表对应定点的低维向量，接下来两个节点的经验概率定义为：

其中w_ij代表两个顶点v_i和v_j的边的权重，W代表所有边的权重。我们的优化目标是使p₁和

的差值尽可能小，本发明选择KL散度作为距离函数并且去掉一些固定常数，得到最终的目标函数如下：

O₁＝-∑_(i，j)∈Ew_ijlogp₁(v_i，v_j) (9)

二阶网络临近模型：二阶邻近度适用于有向图和无向图；给定网络，在不失的情况下，假设它是有向的(无向边可以被认为是具有相反方向和相等权重的两个有向边)，对于一条有向边(i,j)(从i指向j)，顶点v_i生成v_j的概率可以表示为：

其中|v|代表顶点的个数，接下来两个节点的经验概率定义为：

其中w_ij代表两个顶点v_i和v_j的边的权重，d_i代表节点的出度，同样选择KL散度作为距离函数使p₂和

的差值尽可能小，并且去掉一些固定常数，得到最终的目标函数如下：

O₂＝-∑_(i，j)∈Ew_ijlogp₂(v_j|v_i) (12)

最后，通过优化两种模型目标函数，得到每个节点的一阶网络嵌入特征

和二阶网络嵌入特征

拼接两者特征作为最终节点网络嵌入特征。

所述步骤e中多模态特征挖掘：

堆叠自动编编码器是深度学习领域常用的一个深度学习模型，由多个自动编码器串联堆叠构成；堆叠多层自动编码器的目的是为了逐层提取输入数据的高阶特征，在此过程中逐层降低输入数据的维度，将一个复杂的输入数据转化成一个系列简单的高阶的特征，对于堆叠自动编码机提取潜在特征的过程如下：

(1)编码过程：将特征数据x＝[x₁，x₂，...，x_d(x)]^T从输入层输入到第一层隐含层，其中d(x)代表输入特征数据维度，通过映射函数f1投影为隐层特征z1＝[z₁，z₂，...，z_d(z)]^T，其中d(z)代表潜在特征数据维度，接着将隐层特征z1输入到第二层隐含层，通过映射函数f2投影为隐层特征z2,重复进行逐层抽取至隐含层结束，通过映射函数fi输出隐层特征zi,其中i代表隐含层数，W代表权值矩阵，b代表偏差向量；

zi＝fi(x)＝s_f(Wx+b) (13)

(2)解码过程：将隐层特征z1输入到下层解码机，通过映射函数g投影为输出特征y＝[y₁，y₂，...，y_d(y)]^T,其中d(y)代表输出特征数据维度，重复编码和解码过程，直至输入特征x和输出特征y之间的重构误差最小化。

y＝f′(zi)＝s_f′(W′zi+b′) (14)

(3)降维过程：利用最终学习到的编码机权值矩阵W对输入特征逐一进行编码降维。所述步骤f中分类器模型的构建：

利用高性能机器学习分类算法CatBoost分别对多模态特征进行训练和预测，将四种特征预测得分平均值作为最终预测得分；CatBoost是一种新型的集成算法，它基于决策树梯度提升(GBDT)算法并利用排序提升方法(ordered boosting)替换传统算法中梯度估计方法,进而减轻梯度估计的偏差,提高模型的泛化能力,采用对称树作为其基学习器,通过一组基学习器的串行迭代，最终得到一个强学习器。CatBoost的每一次迭代目标就是求取P_i让本轮的损失函数最小：

其中f_i(x_i，y_i)为梯度估计，F_i-1(x)是已完成的i-1步迭代形成的当前的学习器,L[y，F_i-1(x)]是损失函数；为了得到梯度的无偏度估计,CatBoost算法的主要步骤为：

(1)选取训练集中的每一个训练样本x_i训练并得到一个单独的模型Y_i,模型Y_i由此样本之外的全部训练样本训练得到；

(2)利用排序提升方式代替传统算法中梯度估计方法利用模型Y_i计算样本x_i的梯度估计；

(3)利用每个样本梯度估计训练基学习器；

(4)对所有基学习器进行加权处理，获得最终的强学习器。

本发明所述的一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法，其有益效果是：

(1)本发明提出一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法，该方法能够充分的利用microRNA和疾病的多模态特征，包括属性特征，mRNA网络临近特征，蛋白质网络临近特征，lncRNA网络临近特征，利用堆叠自动编码机自动挖掘其高级抽象特征，并利用CatBoost分类器高效预测潜在的microRNA-疾病关联关系；

(2)本发明能够有效利用microRNA和疾病本身的属性特征以及与人体细胞内重要生物分子之间的网络临近特征，利用深度学习中的堆叠自动编码机进一步挖掘数据中的高级特征，降低模型复杂度，利用高性能Boosting算法CatBoost提高预测准确度，得到比较好的预测效果；

(3)本发明时间复杂度低，功耗小；模型五折交叉验证下AUC值达到93％以上，实例验证下对于乳腺癌和肺癌的潜在microRNAs预测准确率达到96％。

附图说明

图1为本发明实施例预测方法的流程图；

图2为本发明堆叠自动编码机结构图；

图3为本发明在五折交叉验证下基于HMDD v3.0数据集生成的ROC曲线；

图4为本发明随机森林模型在五折交叉验证下基于HMDD v3.0数据集生成的ROC曲线；

图5为本发明与其他最新方法在五折交叉验证下基于HMDD v3.0数据集的均值AUC对比。

具体实施方式

以下结合附图和具体实施例，进一步阐述本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

实施例

g、分类器模型的构建：利用CatBoost分类算法构建训练模型，分别对多模态特征进行训练和预测，将四种特征预测得分平均值作为最终预测得分；

如图1所示，数据集的选择与建立，本实施例使用的已知人类microRNA与疾病关联数据来源于Human MicroRNA Disease Database(HMDD)v3.0数据库，在此基础上，我们进行数据预处理，消除重复关联，删除公共数据库miRBase认为不可靠的与某些miRNAs相关的关联，最终获得10696条miRNA-疾病关联，包含839种microRNAs和531种人类疾病；microRNA序列信息来源于miRbase数据库；疾病主题词来源于Medical Subject Heading(MeSH)数据库；已知的microRNA与蛋白质以及microRNA与mRNA关联数据来源于miRTarBase数据库，包含4944条microRNA-蛋白质关联，5186条microRNA-mRNA关联；已知的蛋白质与疾病以及mRNA与疾病关联数据来源于DisGeNET数据库，包含25087条蛋白质-疾病关联，3416条mRNA-疾病关联；已知的microRNA与lncRNA关联数据来源于lncRNASNP2数据库，包含8374条microRNA-lncRNA关联；已知的lncRNA与疾病关联数据来源于lncRNASNP2以及LncRNADisease数据库，包含1264条lncRNA-疾病关联；

microRNA序列特征的生成，microRNA序列通常用四种核苷酸的简写字母表示:尿嘧啶(U)、胞嘧啶(C)、鸟嘌呤(G)和腺嘌呤(A)，本实施例从公共miRBase数据库下载miRNA序列信息，设置一个窗口大小为3，滑动距离为1的滑动窗口，将microRNA序列分割成多个3-单体单元(3-mers)，将每个3-mer的出现次数除以对应的microRNA序列长度，得到其出现频率，将不出现的3-mer的频率设为0，最后，将所有3-mer出现频率作为microRNA序列的数值统计特征，即属性特征；

疾病语义相似性特征的生成，基于疾病的MeSH主题词构建每种疾病的有向无环图(DAG),定义无环图(DAG)节点对疾病的语义贡献值，从而根据不同疾病的DAG图共享部分计算疾病的语义相似性特征；

所述疾病的语义相似性特征的生成：

DV(A)＝∑_t∈D(A)D_A(t) (2)

为了近一步考虑不同疾病在DAG图中出现的数量不同对疾病语义的贡献不同，我们定义了疾病的第二种语义相似性特征，定义DAG(A)中疾病术语t对疾病A的语义贡献如下:

式中，num(DAG(t))表示DAG中疾病t的出现次数，num(diseses)表示DAG中疾病的总数量，由此两种疾病之间的第二种语义相似性特征DS2(A,B)可以通过计算得到:

microRNA和疾病网络临近特征的生成：基于有着共同生物分子关联关系的microRNA与疾病之间更可能有关联的猜想，本实施例利用microRNA，疾病与人体细胞内重要生物分子之间的关联关系预测潜在microRNA-疾病关联；首先根据数据库中已知的microRNA，疾病与mRNA，蛋白质，lncRNA之间的关联关系构建3个异构生物分子关联网络，即microRNA-mRNA-疾病异构网络，microRNA-蛋白质-疾病异构网络，microRNA-lncRNA-疾病异构网络。其次，利用大规模信息网络嵌入(LINE)算法提取microRNA，疾病与三种生物分子之间的网络临近特征；LINE可以将一个大型网络中的节点根据其关系的密度映射到向量空间中，使紧密相连的节点投射到相似的位置；该方法不仅考虑了一阶网络临近度，即两个节点若直接相连,则他们被认为相似，同时考虑二阶网络临近度，即两个节点可能不直接相连，但如果他们有较多公共的一阶临近节点，则他们也被认为相似；基于这两个角度，LINE算法被分为以下两类：

其中

和

O₁＝-∑_(i，j)∈Ew_ijlogp₁(v_i，v_j) (9)

二阶网络临近模型：二阶邻近度适用于有向图和无向图。给定网络，在不失一般性的情况下，我们假设它是有向的(无向边可以被认为是具有相反方向和相等权重的两个有向边)。对于一条有向边(i,j)(从i指向j)，顶点v_i生成v_j的概率可以表示为：

其中w_ij代表两个顶点v_i和v_j的边的权重，d_i代表节点的出度。同样的，我们选择KL散度作为距离函数使p₂和

的差值尽可能小，并且去掉一些固定常数，得到最终的目标函数如下:O₂＝-∑_(i，j)∈Ew_ijlogp₂(v_j|v_i) (12)

和二阶网络嵌入特征

拼接两者特征作为最终节点网络嵌入特征；

多模态特征挖掘，堆叠自动编编码器是深度学习领域常用的一个深度学习模型，由多个自动编码器串联堆叠构成，图2展示了堆叠自动编码机结构示意图。堆叠多层自动编码器的目的是为了逐层提取输入数据的高阶特征，在此过程中逐层降低输入数据的维度，将一个复杂的输入数据转化成一个系列简单的高阶的特征，对于堆叠自动编码机提取潜在特征的过程如下：

zi＝fi(x)＝s_f(Wx+b) (13)

(2)解码过程：将隐层特征zi输入到下层解码机，通过映射函数g投影为输出特征y＝[y₁，y₂，...，y_d(y)]^T,其中d(y)代表输出特征数据维度，重复编码和解码过程，直至输入特征x和输出特征y之间的重构误差最小化。

y＝f′(zi)＝s_f′(W′zi+b′) (14)

(3)降维过程：利用最终学习到的编码机权值矩阵W对输入特征逐一进行编码降维。分类器模型的构建：利用高性能机器学习分类算法CatBoost分别对多模态特征进行训练和预测，将四种特征预测得分平均值作为最终预测得分；CatBoost是一种新型的集成算法，它基于决策树梯度提升(GBDT)算法并利用排序提升方法(ordered boosting)替换传统算法中梯度估计方法,进而减轻梯度估计的偏差,提高模型的泛化能力,采用对称树作为其基学习器,通过一组基学习器的串行迭代，最终得到一个强学习器；CatBoost的每一次迭代目标就是求取P_i让本轮的损失函数最小：

(3)利用每个样本梯度估计训练基学习器；

(4)对所有基学习器进行加权处理，获得最终的强学习器。

实施例2

为了能够更好的说明本发明预测方法的效果，将此预测方法与目前最流行的随机森林模型进行了对比，表1列出了本实施例和随机森林模型使用五折交叉验证法在HMDDv3.0数据集上生成的结果：

表1在五折交叉验证下基于HMDD v3.0数据集本发明与随机森林模型结果的比较

图3和图4分别展示了本发明和随机森林模型生成的ROC曲线；通过对比可以看出，本实施例在敏感率、特异率、精准率、马修斯相关系数、AUC值上均取得了更加优异的成绩，其结果均高于随机森林的方法，这个结果表明，本发明的综合性能要优于随机森林模型。

实施例3

为了进一步体现本发明预测方法的效果，将此预测方法与目前最新的计算模型进行了对比，图5展示了在五折交叉验证下基于相同的HMDD数据集下，不同模型与本发明的均值AUC对比柱状图；AUC值代表模型的预测性能，通过对比可以看到：本发明相对于最新的计算模型拥有更高的AUC值，综合表现优于其他模型。

实施例4

为了进一步评估预测模型在实际应用中预测潜在microRNA-疾病关联关系的性能，针对乳腺肿瘤和肺癌肿瘤进行了实例验证，在实验中，将HMDD数据集中提供的所有已知microRNA-疾病关联作为训练数据集，接着分别构建microRNA-对应疾病的测试样本，并且删除掉测试样本中已经在训练样本中出现的关联数据，最后选择测试得分最高的前50种microRNAs在另外两个权威数据库中进行验证，miRCancer和dbDEMC；

乳腺肿瘤是女性最常见的恶性肿瘤，它几乎都发生在女性身上，但男性也可能发生，它可以从乳房的不同部位开始通过血液或淋巴管向外扩散；此外，越来越多的研究表明，microRNAs是一种乳腺肿瘤患者预后和诊断的新工具；因此，预测潜在的microRNAs-乳腺肿瘤关联，可以为乳腺癌早期诊断和预防识别出一种新的候选microRNA；如表2所示：

表2本发明预测的前50个与乳腺肿瘤相关的microRNAs

本发明用于预测可能与乳腺肿瘤相关的microRNAs，最终预测得分最高的前50名microRNAs中有48个得到了验证；

肺癌是男性和女性癌症死亡的主要原因，它通常在气道细胞或肺组织中形成，影响肺肿瘤的因素主要包括吸烟，二手烟，肺癌家族史，空气污染、HIV感染等，其中吸烟是最重要的危险因素；对于肺肿瘤的治疗和发展，microRNAs在其中起着重要的作用，与正常组织相比，microRNA在肺癌细胞和肺癌患者血液中的表达水平不受调节控制；此外，肺癌的表型可以改变在体内和体外调节microRNA的表达，如表3所示：

表3本发明预测的前50个与肺癌肿瘤相关的microRNAs

本发明用于预测可能与肺癌肿瘤相关的microRNAs，最终预测得分最高的前50名microRNAs中有48个得到了验证。

最后应说明的是：以上所述仅为发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在发明的保护范围之内。

Claims

1.一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法，其特征在于，按下列步骤进行：

2.如权利要求1所述的基于多模态堆叠自动编码机的microRNA-疾病关联预测方法，其特征在于，所述步骤b中利用3-mer方法计算microRNA序列中不同3聚体核苷酸的统计概率，即将每个3聚体核苷酸前后错位1个核苷酸，依次排列开，分别计算每个3聚体出现次数占整个microRNA序列的统计概率作为microRNA的属性序列特征。

3.如权利要求1所述的基于多模态堆叠自动编码机的microRNA-疾病关联预测方法，其特征在于，所述步骤c中疾病的医学主题描述符提供了一个严格的疾病分类系统,在此基础上，各种疾病之间的关系表示为有向无环图，图中的节点代表疾病，图中的有向边代表疾病之间的关系，取平均值作为最终的疾病语义相似性特征。

4.如权利要求1所述的基于多模态堆叠自动编码机的microRNA-疾病关联预测方法，其特征在于，所述步骤d中利用LINE网络嵌入方法，对于信息网络嵌入LINE方法的网络嵌入过程为：

定义一阶临近模型：即两个点之间有直接边相连就认为它们比较相似，保证低维的嵌入中要保留两个结点之间的直接联系的紧密程度，若两个结点之间不存在边，那么他们之间的一阶临近度为0；

优化两种模型目标函数：即实际相似度与表示相似度之间的Kullback-Leibler(KL)散度，最后拼接一阶相似度网络嵌入特征与二阶相似度网络嵌入特征作为最终节点网络嵌入特征。

5.如权利要求1所述的基于多模态堆叠自动编码机的microRNA-疾病关联预测方法，其特征在于，所述步骤e中利用深度学习中的堆叠自动编码机分别挖掘microRNAs和疾病的多种高级潜在特征并降低模型复杂度，对于堆叠自动编码机提取潜在特征的过程如下：

编码过程：将特征数据x＝[x₁，x₂，...，x_d(x)]^T从输入层输入到第一层隐含层，其中d(x)代表输入特征数据维度，通过映射函数f1投影为隐层特征z1＝[z₁，z₂，...，z_d(z)]^T，其中d(z)代表潜在特征数据维度，接着将隐层特征z1输入到第二层隐含层，通过映射函数f2投影为隐层特征z2，重复进行逐层抽取至隐含层结束；

解码过程：将隐层特征zi输入到下层解码机，通过映射函数g投影为输出特征y＝[y₁，y₂，...，y_d(y)]^T，其中d(y)代表输出特征数据维度，重复编码和解码过程，直至输入特征x和输出特征y之间的重构误差最小化；

6.如权利要求1所述的基于多模态堆叠自动编码机的microRNA-疾病关联预测方法，其特征在于，所述步骤g中CatBoost是一种新型的集成算法，它利用排序提升方法替换传统算法中梯度估计方法，进而减轻梯度估计的偏差，提高模型的泛化能力，采用对称树作为其基学习器，通过一组基学习器的串行迭代，最终得到一个强学习器，对于CatBoost的训练分类过程如下：

选取训练集中的每一个训练样本x_i训练并得到一个单独的模型Y_i，模型Y_i由此样本之外的全部训练样本训练得到；

利用每个样本梯度估计训练基学习器；

对所有基学习器进行加权处理，获得最终的强学习器。