CN110993113B

CN110993113B - 基于MF-SDAE的lncRNA-疾病关系预测方法及系统

Info

Publication number: CN110993113B
Application number: CN201911146003.5A
Authority: CN
Inventors: 兰伟; 赖德焕; 陈庆锋; 吴锡敏; 刘锦
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2023-04-07
Anticipated expiration: 2039-11-21
Also published as: CN110993113A

Abstract

本发明提出了一种基于MF‑SDAE的lncRNA‑疾病关系预测方法及系统。首先构建已知的lncRNA‑疾病关系矩阵、lncRNA特征矩阵与疾病特征矩阵；使用矩阵分解模型来对已知的lncRNA‑疾病关系矩阵进行分解得到lncRNA特性矩阵和疾病特性矩阵，栈式降噪自动编码器分别对lncRNA特征矩阵和疾病特征矩阵进行编码得到各自的编码矩阵，以最小化损失函数值为目标，迭代求解模型的最优参数。最终利用训练好的模型得到编码矩阵和特性矩阵，将它们进行矩阵乘法操作得到lncRNA‑疾病关系得分矩阵。本发明简单有效，预测性能好。

Description

基于MF-SDAE的lncRNA-疾病关系预测方法及系统

技术领域

本发明涉及生物信息学领域，具体涉及一种基于MF-SDAE的lncRNA-疾病关系预测方法及系统。

背景技术

随着生物技术和计算方法的飞速发展，越来越多的非编码RNA得到了鉴定，人们对非编码RNA的了解也越来越深入，最近的研究表明非编码RNA如长链非编码RNA(Long non-coding RNA，简称lncRNA)，在许多生物过程中都发挥着至关重要的作用。研究发现表明，lncRNA的异常不仅可以引起多种疾病，而且一种疾病的发生也有可能是多种lncRNA共同调节的结果，lncRNA可以用来作为衡量很多疾病产生的早期标志物。图1显示了lncRNA与疾病的调控网络，其中三角形和圆形分别表示lncRNA和疾病。从图中可以观察到，lncRNA的突变或失调都会引发相应疾病的产生。因此，识别lncRNA与疾病的关系，已成为医学界和病理学界研究的热点问题。但尽管人们已经发现了lncRNA与疾病间存在着关联，可是要确定与某种疾病的发生与发展最可能存在关系的lncRNA仍然是分子生物学家和遗传学家们的一大挑战。目前，在人类基因组发现的9万多条lncRNA中，只有不到1％的lncRNA有相关疾病报道，大量未知的(潜在的)lncRNA-疾病关系有待挖掘。

在预测lncRNA与疾病是否存在关系的过程中，基于生传统物实验的方法成本非常高，消耗了大量的人力和时间，所以其应用受到了一定的限制。基于相似的lncRNA可能与相似的疾病存在关系的假设，一些基于计算的lncRNA-疾病关系预测算法被提了出来，这些基于计算的预测方法则有效地解决了基于生传统物实验的方法存在的问题。但现有的基于计算的预测方法虽然在预测潜在的lncRNA-疾病关系方面已取得了巨大成功，但还存在着一些缺陷。例如随着生物数据的快速增长，某些lncRNA和疾病出现了大量的特征数据，而现有的基于多特征的lncRNA-疾病关系预测算法或模型单一，或没有很好的处理数据的噪音，导致预测效果一般。因此，急需开发一种快速有效的基于计算的lncRNA-疾病关系预测算法及系统。

发明内容

本发明所解决的技术问题是，针对现有技术的不足，提供一种基于MF-SDAE的lncRNA-疾病关系预测方法及系统，提高了lncRNA与疾病关系预测的准确性。

本发明的技术方案为：

一种基于双重反馈式矩阵分解及栈式降噪自动编码器的lncRNA与疾病关系预测方法，包括以下步骤：

1)构建已知的lncRNA-疾病关系矩阵LD、lncRNA特征矩阵M_lf与疾病特征矩阵M_df；

2)构建基于MF-SDAE，即矩阵分解和栈式降噪自动编码器的混合预测模型；所述混合预测模型包括栈式降噪自动编码器(SDAE)模型和矩阵分解(MF)模型；其中，栈式降噪自动编码器模型用于对输入矩阵进行特征编码，提取高层特征；所述矩阵分解(MF)模型用于对输入矩阵进行分解，得到两个输出矩阵；

3)利用矩阵分解模型对lncRNA-疾病关系矩阵LD进行分解，得到两个输出矩阵，即lncRNA特性矩阵L与疾病特性矩阵D；

4)对混合预测模型进行训练；

初始化混合预测模型参数；

定义损失函数；以最小化损失函数值为目标，迭代求解混合预测模型的最优参数，得到训练好的混合预测模型；

每轮迭代过程中，先采用混合预测模型进行以下两部分数据处理：

采用混合预测模型中的栈式降噪自动编码器模型对lncRNA特征矩阵M_lf进行特征编码，得到隐藏层和输出层输出的lncRNA特征编码矩阵，分别记为X_encodesl和X_{out_l}；

采用混合预测模型中的栈式降噪自动编码器模型对疾病特征矩阵Md_f进行特征编码，得到隐藏层和输出层输出的疾病特征编码矩阵，分别记为X_encodesd和X_{out_d}；

然后根据混合预测模型的输入和输出计算相应的损失函数值；

5)利用训练好的混合预测模型对lncRNA特征矩阵M_lf和疾病特征矩阵M_df进行处理，得到相应的lncRNA特征编码矩阵X_{encods_l}和疾病特征编码矩阵X_{encods_d}；

结合X_{encods_l}与步骤3)中得到的D计算得分矩阵M_l，其第i行第j列的元素M_l(i，j)计算方法为：

M_l(i，j)＝X_{encods_l}(i，：)·D(j，：)^T

其中，X_{encods_l}(i，：)表示X_{encods_l}的第i行，D(j，：)表示D的第j行；

结合X_{encods_d}与步骤3)中得到的L计算得分矩阵M_d，其第i行第j列的元素M_d(i，j)计算方法为：

M_d(i，j)＝L(i，：)·X_{encods_d}(j，：)^T

其中，L(f，：)表示L的第f行，X_{encods_d}(j，：)表示X_{encods_d}的第j行；

求M_l和M_d的加权平均值，所得结果即为预测得到的lncRNA-疾病关系得分矩阵LD′，其第i行第j列的元素LD′(i，j)表示预测得到的第f种lncRNA和第j种疾病存在关系的可能性。

进一步地，设M_l和M_d的取值均为0.5，得到

进一步地，所述步骤1)中，构建已知的lncRNA-疾病关系矩阵的过程如下：

构建一个N×M的矩阵LD，其每一行对应一种lncRNA，每一列对应一种疾病，若有数据库记录了第i种lncRNA与第j种疾病存在关系，则将LD中第i行第j列的元素LD(i，j)设为1；否则将LD(i，j)设为0；其中i＝1，2，…，N；j＝1，2，…，M；N和M分别为lncRNA和疾病的种类数；由此得到的矩阵LD即为已知的lncRNA-疾病关系矩阵；

构建lncRNA特征矩阵的过程如下：

构建一个N×P的矩阵M_lf，其每一行对应一种lncRNA，每一列对应一种与lncRNA关联的信息，若有数据库记录了第i种lncRNA与第p种与lncRNA关联的信息存在关系，则将M_lf中第i行第p列的元素M_lf(i，p)设为1；否则将M_lf(i，p)设为0；其中i＝1，2，…，N；p＝1，2，…，P；N为lncRNA的种类数，P为与lncRNA关联的信息的种类数；由此得到的矩阵M_lf即为lncRNA特征矩阵；

构建疾病特征矩阵的过程如下：

构建一个M×Q的矩阵M_df，其每一行对应一种疾病，每一列对应一种与疾病关联的信息，若有数据库记录了第j种疾病与第q种与疾病关联的信息存在关系，则M_df中第j行第q列的元素M_df(j，q)设为1；否则M_df(j，q)设为0；其中j＝1，2，…，M；q＝1，2，…，Q；M为疾病的种类数，Q为与疾病关联的信息种类数；由此得到的矩阵M_df即为疾病特征矩阵。

进一步地，所述与lncRNA关联的信息包括与lncRNA关联的基因信息、基因功能信息和miRNA信息。

进一步地，所述与疾病关联的信息包括与疾病关联的基因信息和miRNA信息。

进一步地，所述步骤3)具体过程如下：

设定迭代次数T；

初始化一个N×R的lncRNA特性矩阵L与一个M×R的疾病特性矩阵D；

进行T次迭代，在每一次迭代过程中，按以下公式更新矩阵L和D：

L(i，：)＝LD(i，：)CⁱD(γ′I+D^TCⁱD)^-1

其中，L(i，：)为矩阵L的第i行；D(j，：)为矩阵D的第j行，LD(i，：)为矩阵LD的第i行，Cⁱ为第i种lncRNA对应的对角矩阵，其第j行第j列的元素值Cⁱ(j，j)＝β_i，j，β_i，j是偏好因子，β_i，j＝1+θ·LD(i，j)，θ为自由参数；

为第j种疾病对应的对角矩阵，其i行第i列的元素值

LD(：，j)为lncRNA-疾病关系矩阵LD中的第j列；I是单位矩阵，γ′为自由参数(根据经验取值)；

T次迭代后得到的矩阵L和D即矩阵分解模型的输出矩阵。

进一步地，将lncRNA特性矩阵L与疾病特征矩阵D初始化为服从0～1均匀分布的随机矩阵，即产生[0，1)上均匀分布的随机数，来填充L和D，完成L和D的初始化。

进一步地，所述栈式降噪自动编码器模型(SDAE)包括依次连接的一个输入层、一个损坏层、三个隐藏层和一个输出层；栈式降噪自动编码器模型对lncRNA特征矩阵M_lf进行特征编码时，将其第二个隐藏层的输出作为X_{encodes_l}；栈式降噪自动编码器模型对疾病特征矩阵M_df进行特征编码时，将其第二个隐藏层的输出作为X_{encodes_d}；设栈式降噪自动编码器模型第二个隐藏层中神经元个数为R，则X_{encodes_l}为N×R的矩阵，X_{encodes_d}为M×R的矩阵。

进一步地，所述步骤4)中，损失函数为：

Loss＝∑_i，jβ_i，j[LD(i，j)-L(i，：)·D(j，：)^T]²+γ(∑_i||L(i，：)||²+∑_j||D(j，：)||²)+γ_l(||L-X_{encodes_l}||²)+γ_d(||D-X_{encodes_d}||²)+γ_{n_l}(||M_lf-X_{out_l}||²)+γ_{n_d}(||M_df-X_{out_d}||²)+∑_kγ_k||W_k||²+∑_kγ_b||W_b||²

β_i，j＝1+θ·LD(i，j)

其中，||·||表示求2-范数，βi_，j是偏好因子；LD(i，j)为矩阵LD中第i行第j列的元素；L(i，：)为矩阵L的第i行；D(j，：)为矩阵D的第j行；θ、γ、γ_l、γ_d、γ_{n_l}、γ_{n_d}和γ_k均为自由参数(根据经验取值)；W_k和b_k分别为栈式降噪自动编码器中第k个隐藏层的权值矩阵和阈值向量(需要优化的参数)。

进一步，所述步骤4)中，迭代求解混合预测模型的最优参数采用小批量梯度下降算法。

有益效果：

本发明提出了一种基于矩阵分解与栈式降噪自动编码器相结合的lncRNA(长链非编码RNA)与疾病关系预测方法和系统。该方法是基于相似的疾病可能与相似的lncRNA存在关系的假设实施的。首先充分利用多个lncRNA数据库及多个疾病数据库，提取lncRNA的多种特征以及疾病的多种特征，构建已知的lncRNA-疾病关系矩阵、lncRNA特征矩阵与疾病特征矩阵，以全面描述lncRNA与疾病关系；在使用矩阵分解模型来对已知的lncRNA-疾病关系矩阵进行分解得到lncRNA特性矩阵和疾病特性矩阵之后，把分解得到的特性矩阵输入到栈式降噪自动编码器，协助lncRNA特征矩阵和疾病特征矩阵进行编码得到各自的编码矩阵(即对多特征数据进行降维编码、学习更复杂的高层特征)，然后结合矩阵分解模型与栈式降噪自动编码器模型的结果，计算损失函数值，通过损失函数，利用矩阵分解模型生成的特性矩阵监督栈式降噪自动编码器的特征编码，以达到防止机器学习冷启动的效果，最终把训练好的编码矩阵和特性矩阵进行矩阵乘法操作得到lncRNA-疾病关系打分矩阵，打分矩阵中的元素值即预测得到的各种lncRNA与各种疾病存在关系的可能性。所述系统用于实现上述预测方。本发明简单有效，通过使用十折交叉验证法、De novo交叉验证法和案例分析对本发明提出的方法和系统进行测试，结果表明该方法和系统在预测潜在的(未知的)lncRNA-疾病关系方面具有较好的预测性能。

附图说明

图1为LncRNA-疾病调控网络；其中上半部分为正常的lnRNA-疾病相互作用网络，下半部分为lncRNA突变或扰动网络；

图2为本发明实施例流程图；

图3为本发明实施例中矩阵分解-栈式降噪自动编码模型；

图4为本发明(CDLLD)和其他方法基于十倍交叉验证的ROC曲线及相应的AUC值；

图5为本发明(CDLLD)和其他方法基于De novo实验测试的ROC曲线及相应的AUC值；

具体实施方式

如图2所示，本实施例具体实现过程如下：

一、构建已知的lncRNA-疾病关系矩阵、lncRNA特征矩阵与疾病特征矩阵

随着高通量测序技术的快速发展，产生了大量的生物数据，为了存储和管理方便，人们建立了标准的数据库用来存储这些生物数据。例如由马由里兰大学医学院主办创建的Disease Ontology人类疾病数据库、人类基因和遗传疾病知识库Online MendelianInheritance in Man(OMIM)、人类lncRNA的综合数据库LNCipedia、包含16个物种的非编码RNA数据库NONCODE、真核生物的lncRNA数据库lncRNAdb以及主要记录哺乳动物相关的非编码RNA与疾病的关联信息的数据库MNDR等。随着越来越多的lncRNA相关数据库和疾病相关数据库的建立和规范化，使基于计算的方法来预测未知的lncRNA与疾病关系成为可能。本实施例充分提取了lncRNA的多种特征以及疾病的多种特征，以全面描述lncRNA与疾病关系。

1.已知的lncRNA-疾病关系提取

首先对存储lncRNA信息和存储疾病相关信息的相关数据库进行数据下载，对多个数据库中记录的已知lncRNA-疾病关系进行统计、去重整理，找出已知的lncRNA-疾病关系(经传统生物实验证实的lncRNA-疾病关系)；

本实施例通过对LncRNADisease数据库、Lnc2Cancer数据库以及GeneRIF数据库中记录的已知的lncRNA-疾病关系进行统计、去重整理，最后从中获取了240种lncRNA、412种疾病以及它们所对应的2697对已知的lncRNA-疾病关系(即已知存在关系的lncRNA-疾病对有2697个)。其中，本实施例创建了N×M的lncRNA-疾病关系矩阵LD来存储这些已知关系。如果已有记录表明第i种lncRNA与第j种疾病存在关系，则将LD(i，j)置为1，否则将LD(i，j)置为0，其中f＝1，2，…，N；j＝1，2，…，M；N和M分别为lncRNA和疾病的种类数，本实施例中N＝240，M＝412。

2.lncRNA特征提取

本实施例对多个数据库中与lncRNA关联的信息(包括已知的与lncRNA关联的基因信息、基因功能信息和miRNA信息)进行整合，把每一项与lncRNA关联的信息都作为一项lncRNA特征信息，得到lncRNA特征矩阵。本实施例从lncRNA2target数据库中提取得到了与lncRNA关联的基因信息，从GeneRIF数据库中提取得到了与lncRNA关联的基因功能信息，从starBase数据库中提取得到了与lncRNA关联的miRNA信息。通过去重整合后，本实施例一共获取了6066维lncRNA特征数据。为了管理这些特征数据，本实施例创建了N×P的lncRNA特征矩阵M_lf来存储它们，如果数据库中记录了第f种lncRNA与第p种与lncRNA关联的信息(第p维特征)存在关系，则把M_lf(f，j)设为1，如果还没有数据库记录证明它们有关系，则把M_lf(f，j)设为0，其中f＝1，2，…，N；p＝1，2，…，P；N为lncRNA的种类数，P为与lncRNA关联的信息种类数，本实施例中N＝240，P＝6066。

3.疾病特征提取

本实施例对多个数据库中与疾病关联的信息(包括已知的与疾病关联的基因信息和miRNA信息)进行整合，把每一项与疾病关联的信息作为一项疾病特征信息，得到疾病特征矩阵。其中我们从DisGeNet数据库中提取得到了与疾病关联的基因信息，从HMDD数据库中提取得到了与疾病关联的miRNA信息。通过去重整合后，本实施例一共获得了10621维疾病特征数据。同样的，为了存储这些特征数据，本实施例创建了M×Q的疾病特征矩阵M_df，如果数据库中记录了第j种疾病与第q种与疾病关联的信息存在关系(第q维特征)存在关系，则把M_df(j，q)设为1，否则把M_df(j，q)设为0，其中j＝1，2，…，M；p＝1，2，…，Q；M为疾病的种类数，Q为与疾病关联的信息种类数，本实施例中M＝412，Q＝10621。

二、构建栈式降噪自动编码器模型

自动编码器是一种自监督的机器学习算法，或者说是一种尽可能复现原始输入信号的神经网络。其算法的基本思想是：通过不断迭代，不断调整自编码器的参数，得到每一层中的权重，来使输出的信息尽可能与输入编码器的信息相同。为了实现这种复现，自动编码器就必须要捕捉可以代表输入数据的最重要的因素，即找到可以代表原信息的主要成分。自动编码器可用于数据压缩和从输入数据中提取有用的“高层”特征。降噪自动编码器是一类可以接受损坏数据作为输入，并通过训练来预测原始未被损坏数据作为输出的自编码器，其核心思想是能够从损坏的数据中还原原始数据的自编码器所学到的特征才是最好的。而设计多层编码器有利于获得更优秀的高层特征，所以本实施例设计了具有三层隐藏层的栈式降噪自动编码器(SDAE)。

本实施例使用栈式降噪自动编码器(SDAE)对lncRNA的特征信息与疾病的特征信息分别进行特征编码，提取高层特征，即将lncRNA特征信息和疾病特征信息转换成R维的高层特征(本实施例中设置R＝100)。本实施例中的栈式降噪自动编码器模型如图3所示。其中，X_input是输入层，输入lncRNA或疾病的特征矩阵(M_lf或M_lf)，X_input_noise是对原始数据(X_input)进行加高斯噪声处理的“损坏”层，X_1、X_encodes、X_3层是3个隐藏层(本实施例从第2个隐藏层X_encodes提取lncRNA或疾病特征信息的编码特征，即“高层”特征数据，第2个隐藏层的神经元个数设为R个，其它两个隐藏层的神经元个数大于等于R)，X_out为输出层。本实施例使用小批量梯度下降算法(Mini-Batch Gradient Descent)来训练栈式降噪自动编码器模型，其中批量大小(Batch_size)设置为60(即每批包括60个样本)。

三、矩阵分解模型

本实施例使用了一种监督式矩阵分解模型来对已知的lncRNA-疾病关系矩阵进行分解，所谓“监督”即利用已知的lncRNA-疾病关系来反馈模型(通过损失函数实现监督功能)，使模型具有一定的记忆功能，通过矩阵分解将已知的lncRNA-疾病关系矩阵分解为疾病特性矩阵以及lncRNA特性矩阵。上述部分中，定义了lncRNA-疾病关系矩阵为LD，经过矩阵分解算法后其将被分解成为对应R维“高层特性”的N×R的lncRNA特性矩阵L以及M×R的疾病特性矩阵D，矩阵L中每一行表示一种lncRNA的潜在因子向量，其中第f行表示为L(i，：)，即第f种lncRNA的潜在因子向量，矩阵D中每一行表示一种疾病的潜在因子向量，其中第j行表示为D(j，：)，即第j种疾病的潜在因子向量。可以通过L(i，：)·D(j，：)^T来计算lncRNA i和疾病j存在关系的可能性得分。其损失函数定义如下：

l＝∑_i，jβ_i，j[LD(i，j)-L(i，：)·D(j，：)^T]²+γ(∑_i||L(i，：)||²+∑_j||D(j，：)||²)(1)

β_i，j＝1+θ·LD(i，j) (2)

其中，||·||表示求2-范数，γ和θ都是一个自由参数，本实施例中都设定为100，β_i，j是偏好因子，目的是加强对已知的lncRNA-疾病关系在模型中的比重，监督模型以提高模型质量。

在矩阵分解模型的每一次迭代过程(本实施例设定迭代次数T为30)中，其使用公式(4)和(5)来更新ln_cRNA特性矩阵L和疾病特性矩阵D。

L(i，：)＝LD(i，：)CⁱD(γ′I+D^TCⁱD)^-1 (3)

其中，Cⁱ为第i种lncRNA对应的对角矩阵，其第j行第j列的元素值Cⁱ(j，j)＝β_i，j；LD(i，：)为lncRNA-疾病关系矩阵中的第i行，即第i种lncRNA与所有疾病的关系向量；I是R阶单位矩阵，γ′被设为100。

其中，

为第j种疾病对应的对角矩阵，其第i行第i列的元素值

LD(：，j)为lncRNA-疾病关系矩阵中的第j列，即第j种疾病与所有lncRNA的关系向量；I是R阶单位矩阵，γ′被设为100。

T轮迭代过后，将更新好的lncRNA特性矩阵L和疾病特性矩阵D输出给栈式降噪自动编码器，栈式降噪自动编码器根据新的L和D来更新自身参数。

四、构建基于双重反馈式矩阵分解-栈式降噪自动编码器的混合预测模型

本实施例构建了基于双重反馈式矩阵分解-栈式降噪自动编码器的混合预测模型，通过该混合预测模型来预测未知的lncRNA-疾病关系。混合预测模型的损失函数由矩阵分解的损失函数以及栈式降噪自动编码器的损失函数组合构成。所谓“双重”即基于lncRNA特征信息的矩阵分解-栈式降噪自动编码(SDAE-1)以及基于疾病特征信息的矩阵分解-栈式降噪自动编码(SDAE-2)的融合，对SDAE-1预测得到的lncRNA-疾病关系打分矩阵与SDAE-2预测得到的lncRNA-疾病关系打分矩阵进行求均值来得到最终的未知lncRNA-疾病关系预测得分。所以，在混合预测模型中，这些未知的lncRNA-疾病关系预测将依赖于已知的lncRNA-疾病关系信息、lncRNA的特征信息以及疾病的特征信息，而不是单一的已知lncRNA-疾病关系信息。“反馈式”即通过损失函数，利用矩阵分解模型生成的特性矩阵影响栈式降噪自动编码器的特征编码。lncRNA特征矩阵/疾病特征矩阵经栈式降噪自动编码器训练后生成的特征编码X_{encodes_l}/X_{encodes_l}最后与矩阵分解模型得到的D/L进行矩阵乘法操作，即X_{encods_l}(i，：)·D(j，：)^T/L(i，：)·X_{encods_d}(j，：)^T来获得lncRNA-疾病关系预测得分M_l(i，j)/M_d(i，j)。栈式降噪自动编码器不仅在输出层X_out处重新构建输入X_input，而且还寻找最佳特征编码X_encodes，以便最小化损失函数。

在具体实现时，可以采用两个混合预测模型，两个混合预测模型一起运行，一个混合预测模型进行基于lncRNA特征信息(M_lf)的矩阵分解-栈式降噪自动编码(SDAE-1)，其损失函数可以定义为：

Loss₁＝∑_i，jβ_i，j[LD(i，j)-L(i，：)·D(j，：)^T]²+γ(∑_i||L(i，：)||²+∑_j||D(j，：)||²)+γ_l(||L-X_{encodes_l}||²)+γ_n(||X_input-X_out||²)+∑_kγ_w||W_k1||²+∑_kγ_b||b_k1||² (5)

其中，前面两部分是矩阵分解的损失函数；第三部分是最小化栈式降噪自动编码器编码得到的lncRNA特征编码矩阵X_{encodes_l}与矩阵分解得到的lncRNA特性矩阵间的误差值；第四部分是栈式降噪自动编码器重构得到的lncRNA特征信息X_out与原输入的特征信息X_input(M_lf)的误差值，其中γ_l与γ_n为自由参数，本实施例中设定它们的比值γ_l/γ_n为500。最后两部分分别为所有隐藏层和输出层权值和阈值的正则化项，其中W_k1为栈式降噪自动编码器中第k个隐藏层的权值矩阵，本实施例中设置三个隐藏层，即k＝1，2，3；b_k1为栈式降噪自动编码器中第k个隐藏层的阈值向量，γ_w和γ_b为自由参数，本实施例中它们都设为200。

另一个混合预测模型进行基于疾病特征信息(M_df)的矩阵分解-栈式降噪自动编码(SDAE-2)，其损失函数可以定义为：

Loss₂＝∑_i，jβ_i，j[LD(f，j)-L(i，：)·D(j，：)^T]²+γ(∑_i||L(i，：)||²+∑_j||D(j，：)||²)+γ_d(||D-X_{encodes_d}||²)+γ_n(||X_input-X_out||²)+∑_kγ_w||W_k2||²+∑_kγ_b||b_k2||² (6)

其中，前面两部分是矩阵分解的损失函数；第三部分是最小化栈式降噪自动编码器编码得到的疾病特征编码矩阵X_{encode_d}与矩阵分解得到的疾病特性矩阵间的误差值；第四部分是栈式降噪自动编码器重构得到的疾病特征信息X_out与原输入的特征信息X_input(M_df)的误差值，其中γ_d/γ_n为自由参数，本实施例中它们的比值(γ_l/γ_n)设为500；最后两部分分别为所有隐藏层和输出层权值和阈值的正则化项，其中W_k2为栈式降噪自动编码器中第k个隐藏层的权值矩阵，b_k2为栈式降噪自动编码器中第k个隐藏层的阈值向量，γ_w和γ_b为自由参数，本实施例中它们都设为200。

在具体实现时，也可以采用同一个混合预测模型，先后进行基于lncRNA特征信息(M_lf)的栈式降噪自动编码-矩阵分解(SDAE-1)和基于疾病特征信息(M_df)的栈式降噪自动编码-矩阵分解(SDAE-2)，其损失函数可以定义为：

Loss＝∑_i，jβ_i，j[LD(f，j)-L(f，：)·D(j，：)^T]²+γ(∑_i||L(i，：)||²+∑_j||D(j，：)||²)+γ_l(||L-X_{encodes_l}||²)+γ_d(||D-X_{encodes_d}||²)+γ_{n_l}(||M_lf-X_{out_l}||²)+γ_{n_d}(||M_df-X_{out_d}||²)+∑_kγ_k||W_k||²+∑_kγ_b||W_b||²

本实施例使用小批量梯度下降算法来训练栈式降噪自动编码器.

训练完毕后，先利用训练好的混合预测模型对lncRNA特征矩阵M_lf和疾病特征矩阵M_df进行处理，得到相应的lncRNA特征编码矩阵X_{encods_l}和疾病特征编码矩阵X_{encods_d}；

然后计算：

M_l(i，j)＝X_{encods_l}(i，：)·D(j，：)^T

M_d(i，j)＝L(i，：)·X_{encods_d}(j，：)^T

其中，M_l是基于lncRNA特征信息的矩阵分解-栈式降噪自动编码(即基于SDAE-1输出的X_{encods_l}(i，：))预测得到的lncRNA-疾病关系打分矩阵；M_d是基于疾病特征信息的矩阵分解-栈式降噪自动编码(即基于SDAE-2输出的X_{encods_d}(j，：))预测得到的lncRNA-疾病关系打分矩阵；

最后，未知的lncRNA i与疾病j关系的最终预测得分LD′(i，j)可以定义为：

五、实验验证

1.评价指标

为了验证CDLLD方法的预测有效性，本节使用十折交叉验证法(10-Fold CrossValidation)、De novo交叉验证法来对方法进行测试。

(1)十折交叉验证法

所谓十折交叉验证法就是把数据集中已知的lncRNA-疾病关系分成十份，每一次取一份作为测试集，其他九份作为训练集，然后进行轮转试验。因此，对于给定的第i种疾病，每一对已知的与i存在关系的lncRNA-疾病关系对会被轮流移除(LD中相应元素置为0)，作为测试集，其它的已知关系作为训练集。然后，根据训练的模型对测试样本和未标记的与第i种疾病相关的lncRNA样本进行评分并按降序排列。lncRNA的排名越高，说明其与第i种疾病存在关系的可能性就越大。最后，把每一个排名当做阈值来计算真阳性概率TPR(True-positive rate)和假阳性概率FPR(False-positive rate)。本节对FPR和TPR的定义如下：

其中，TP(True positive)代表排序高于阈值的正样本数量，FN(False negative)代表正样本被错误识别为负样本的数量，FP(False positive)代表排名高于阈值的负样本数量，TN(True negative)代表负样本被正确分类为负样本的数量。

基于所有的TPR和FPR值，画出了CDLLD的ROC曲线图(受试者工作特征曲线，Receiver Operating Characteristic Curve)。其横轴代表的是假阳性概率(FPR)，纵轴代表的是真阳性概率(TPR)。进一步的，计算了ROC曲线与横轴的面积即AUC值(Area UnderCurve)来衡量算法的性能。如果AUC值为0.5，则说明该算法的预测结果是随机的，相反，如果AUC的值为1，则说明该算法的预测性能是最好的。

(2)De novo交叉验证法

在实际数据中，有很多疾病研究者们至今还未找到与之关联的任何lncRNA，即该疾病没有任何与lncRNA关联的先验信息。为了验证本发明提出的CDLLD算法在疾病没有任何已知lncRNA关系信息时，对预测未知的lncRNA-疾病关系的性能，本节将CDLLD进行了Denovo测试。

类似十折交叉验证方法，De novo测试是指每次把特定对象的所有正例样本删除作为训练集，保留其它对象的正例样本作为训练集。在完成轮转测试后，我们也计算其TPR和FPR值，并画出ROC曲线，求出AUC值。

2.与其它方法的比较

为了评价CDLLD的有效性，本节将其与其他两种方法(SIMLDA、MFLDA)进行比较。SIMLDA通过使用主成分分析(PCA)来提取lncRNA和疾病的主要特征向量，然后通过诱导矩阵填充来预测lncRNA-疾病关系；MFLDA主要是通过矩阵分解来预测潜在的lncRNA-疾病关系。

(2)十折交叉验证法结果分析

十折交叉验证的结果如图4所示，从结果可以看出，CDLLD、SIMLDA以及MFLDA的AUC值分别为0.9134、0.8259、0.6430，其中CDLLD的AUC值明显高于其他两种方法，说明了本发明提出的CDLLD算法可以显著提高对潜在lncRNA-疾病关系的预测性能。

(3)De novo交叉验证法结果分析

De novo交叉验证法的结果如图5所示，从结果可以看出，CDLLD、SIMLDA和MFLDA的AUC值分别为0.8917、0.7923、0.5952。结果说明了CDLLD在疾病无任何已知lncRNA关系的先验情况下也有较好的预测性能。

(4)案例分析

为了进一步验证CDLLD在预测未知的lncRNA-疾病关系上的性能，本节选取了由CDLLD预测得到的前10种与骨肉瘤疾病(骨肉瘤是一种常见的恶性骨肿瘤，根据报道其已成为年轻人癌症相关死亡的第二大原因)相关的lncRNA进行分析，其具体结果如表1所示。从表1可以看出，在这10种lncRNA中有9种在最近的科学文献中得到了验证，表明了CDLLD具有较高的预测准确性。

表1.案例分析结果

Claims

1.一种基于MF-SDAE的lncRNA-疾病关系预测方法，其特征在于，包括以下步骤：

所述步骤1)中，构建已知的lncRNA-疾病关系矩阵的过程如下：

构建一个矩阵LD，其每一行对应一种lncRNA，每一列对应一种疾病，若有数据库记录了第i种lncRNA与第j种疾病存在关系，则将LD中第i行第j列的元素LD(i,j)设为1；否则将LD(i,j)设为0；由此得到的矩阵LD即为已知的lncRNA-疾病关系矩阵；

构建lncRNA特征矩阵的过程如下：

构建一个矩阵M_lf，其每一行对应一种lncRNA，每一列对应一种与lncRNA关联的信息，若有数据库记录了第i种lncRNA与第p种与lncRNA关联的信息存在关系，则将M_lf中第i行第p列的元素M_lf(i,p)设为1；否则将M_lf(i,p)设为0；由此得到的矩阵M_lf即为lncRNA特征矩阵；

构建疾病特征矩阵的过程如下：

构建一个矩阵M_df，其每一行对应一种疾病，每一列对应一种与疾病关联的信息，若有数据库记录了第j种疾病与第q种与疾病关联的信息存在关系，则M_df中第j行第q列的元素M_df(j,q)设为1；否则M_df(j,q)设为0；由此得到的矩阵M_df即为疾病特征矩阵；

2)构建基于MF-SDAE的混合预测模型；其中，MF为矩阵分解，SDAE为栈式降噪自动编码器；所述混合预测模型包括矩阵分解模型和栈式降噪自动编码器模型；其中，矩阵分解模型用于对输入矩阵进行分解，得到两个输出矩阵；栈式降噪自动编码器模型用于对输入矩阵进行特征编码，提取高层特征；

所述步骤3)具体过程如下：

设定迭代次数T；

初始化lncRNA特性矩阵L与疾病特性矩阵D；

L(i,:)＝LD(i,:)CⁱD(γ′I+D^TCⁱD)^-1

其中，L(i,:)为矩阵L的第i行；D(j,:)为矩阵D的第j行，LD(i,:)为矩阵LD的第i行，Cⁱ为第i种lncRNA对应的对角矩阵，其第j行第j列的元素值Cⁱ(j,j)＝β_i,j，β_i,j是偏好因子，β_i,j＝1+θ·LD(i,j)，θ为自由参数；

为第j种疾病对应的对角矩阵，其i行第i列的元素值

LD(:,j)为lncRNA-疾病关系矩阵LD中的第j列；I是单位矩阵，γ′为自由参数；

T次迭代后得到的矩阵L和D即矩阵分解模型的输出矩阵；

4)对混合预测模型进行训练；

初始化混合预测模型参数；

每轮训练迭代过程中，先采用混合预测模型进行以下两部分数据处理：

采用混合预测模型中的栈式降噪自动编码器模型对lncRNA特征矩阵M_lf进行特征编码，得到隐藏层和输出层输出的lncRNA特征编码矩阵，分别记为X_{encodes_l}和X_{out_l}；

采用混合预测模型中的栈式降噪自动编码器模型对疾病特征矩阵M_df进行特征编码，得到隐藏层和输出层输出的疾病特征编码矩阵，分别记为X_{encodes_d}和X_{out_d}；

所述步骤4)中，损失函数为：

Loss＝∑_i,jβ_i,j[LD(i,j)-L(i,:)·D(j,:)^T2+γ(∑_i||L(i,:)||²+∑_j||D(j,:)||²)+γ_l(||L-X_{encodes_l}||²)+γ_d(||D-X_{encodes_d}||²)+γ_{n_l}(||M_lf-X_{out_l}||²)+γ_{n_d}(||M_df-X_{out_d}||²)+∑_kγ_k||W_k||²+∑_kγ_b||W_b||²

β_i,j＝1+θ·LD(i,j)

其中，||·||表示求2-范数，β_i，j是偏好因子；LD(i,j)为矩阵LD中第i行第j列的元素；L(i,:)为矩阵L的第i行；D(j,:)为矩阵D的第j行；θ、γ、γ_l、γ_d、γ_{n_l}、γ_{n_d}和γ_k均为自由参数；W_k和b_k分别为栈式降噪自动编码器中第k个隐藏层的权值矩阵和阈值向量；

结合X_{encods_l}与D计算得分矩阵M_l，其第i行第j列的元素M_l(i,j)计算方法为：

M_l(i,j)＝X_{encods_l}(i,:)·D(j,:)^T

其中，X_{encods_l}(i,:)表示X_{encods_l}的第i行，D(j,:)表示D的第j行；

结合X_{encods_d}与L计算得分矩阵M_d，其第i行第j列的元素M_d(i,j)计算方法为：

M_d(i,j)＝L(i,:)·X_{encods_d}(j,:)^T

其中，L(i,:)表示L的第i行，X_{encods_d}(j,:)表示X_{encods_d}的第j行；

求M_l和M_d的加权平均值，所得结果即为预测得到的lncRNA-疾病关系得分矩阵LD′，其第i行第j列的元素LD′(i,j)表示预测得到的第i种lncRNA和第j种疾病存在关系的可能性。

2.根据权利要求1所述的基于MF-SDAE的lncRNA-疾病关系预测方法，其特征在于，所述与lncRNA关联的信息包括与lncRNA关联的基因信息、基因功能信息和miRNA信息。

3.根据权利要求1所述的基于MF-SDAE的lncRNA-疾病关系预测方法，其特征在于，所述与疾病关联的信息包括与疾病关联的基因信息和miRNA信息。

4.根据权利要求1所述的基于MF-SDAE的lncRNA-疾病关系预测方法，其特征在于，将lncRNA特性矩阵L与疾病特征矩阵D初始化为服从0～1均匀分布的随机矩阵，即产生[0,1)上均匀分布的随机数，来填充L和D，完成L和D的初始化。

5.根据权利要求1所述的基于MF-SDAE的lncRNA-疾病关系预测方法，其特征在于，所述栈式降噪自动编码器模型包括依次连接的一个输入层、一个损坏层、三个隐藏层和一个输出层；将其第二个隐藏层的输出作为X_{encodes_l}/X_{encodes_d}。

6.一种基于MF-SDAE的lncRNA-疾病关系预测系统，其特征在于，包括以下四个模块：

Ⅰ.特征矩阵构建模块，用于构建已知的lncRNA-疾病关系矩阵LD、lncRNA特征矩阵M_lf与疾病特征矩阵M_df；

构建已知的lncRNA-疾病关系矩阵的过程如下：

构建lncRNA特征矩阵的过程如下：

构建疾病特征矩阵的过程如下：

Ⅱ.混合预测模型构建模块，用于构建基于MF-SDAE的混合预测模型；其中，MF为矩阵分解，SDAE为栈式降噪自动编码器；所述混合预测模型包括栈式降噪自动编码器模型和矩阵分解模型；其中，栈式降噪自动编码器模型用于对输入矩阵进行特征编码，提取高层特征；矩阵分解模型用于对输入矩阵进行分解，得到两个输出矩阵；

Ⅲ.模型训练模块，用于对混合预测模型进行训练；方法为：

利用矩阵分解模型对lncRNA-疾病关系矩阵LD进行分解，得到两个输出矩阵，即lncRNA特性矩阵L与疾病特性矩阵D；分解过程如下：

设定迭代次数T；

初始化lncRNA特性矩阵L与疾病特性矩阵D；

L(i,:)＝LD(i,:)CⁱD(γ′I+D^TCⁱD)^-1

为第j种疾病对应的对角矩阵，其i行第i列的元素值

T次迭代后得到的矩阵L和D即矩阵分解模型的输出矩阵；

初始化混合预测模型参数；

定义损失函数；以最小化损失函数值为目标，迭代求解混合预测模型的最优参数，得到训练好的混合预测模型；其中损失函数为：

Loss＝∑_i,jB_i,j[LD(i,j)-L(i,:)·D(j,:)^T2+γ(∑_i||L(i,:)||²+∑_j||D(j,:)||²)+γ_l(||L-X_{encodes_l}||²)+γ_d(||D-X_{encodes_d}||²)+γ_{n_l}(||M_lf-X_{out_l}||²)+γ_{n_d}(||M_df-X_{out_d}||²)+∑_kγ_k||W_k||²+∑_kγ_b||W_b||²

β_i,j＝1+θ·LD(i,j)

其中，||·||表示求2-范数，β_i,j是偏好因子；LD(i,j)为矩阵LD中第i行第j列的元素；L(i,:)为矩阵L的第i行；D(j,:)为矩阵D的第j行；θ、γ、γ_l、γ_d、γ_{n_l}、γ_{n_d}和γ_k均为自由参数；W_k和b_k分别为栈式降噪自动编码器中第k个隐藏层的权值矩阵和阈值向量；

Ⅳ.预测模块，用于预测各种lncRNA与各种疾病存在关系的可能性，方法为：

利用训练好的混合预测模型对lncRNA特征矩阵M_lf和疾病特征矩阵M_df进行处理，得到相应的lncRNA特征编码矩阵X_{encods_l}和疾病特征编码矩阵X_{encods_d}；

M_l(i,j)＝X_{encods_l}(i,:)·D(j,:)^T

M_d(i,j)＝L(i,:)·X_{encods_d}(j,:)^T

求M_l和M_d的加权平均值，所得结果即为预测得到的lncRNA-疾病关系得分矩阵LD′，其第i行第j列的元素表示预测得到的第i种lncRNA和第j种疾病存在关系的可能性。