CN113539372A

CN113539372A - 一种LncRNA和疾病关联关系的高效预测方法

Info

Publication number: CN113539372A
Application number: CN202110715473.XA
Authority: CN
Inventors: 邝祝芳; 段涛; 汪茄琪
Original assignee: Central South University of Forestry and Technology
Current assignee: Central South University of Forestry and Technology
Priority date: 2021-06-27
Filing date: 2021-06-27
Publication date: 2021-10-22

Abstract

本发明公开一种LncRNA和疾病关联关系的高效预测方法，主要包括以下步骤：1、根据公共数据库lncRNADisease下载lncRNA和疾病相关联的数据集，得到lncRNA集合与疾病集合以及lncRNA‑疾病的关联矩阵A；2、计算疾病之间的语义相似性矩阵SS、lncRNA之间的功能相似矩阵FS，计算lncRNA和疾病的高斯相互作用属性核相似矩阵KL、KD；3、根据FS、KL构建lncRNA相似矩阵SL，根据SS、KD构建疾病相似矩阵SD；4、将lncRNA的关联矩阵A、lncRNA的相似矩阵SL、疾病的相似矩阵SD整合，构建全局异构网络的邻接矩阵U，采用MetaGraph2vec对每个节点进行特征学习，得到每个节点的特征表示，5、使用K‑Means选择负样本，得到所有的正负样本集合，6、根据上述步骤得到的特征数据用于训练GBDT+LR分类器并预测lncRNA与疾病之间的关联关系。

Description

一种LncRNA和疾病关联关系的高效预测方法

技术领域

本发明涉及生物信息学领域，具体涉及一种预测LncRNA和疾病关联关系的方法。

背景技术

分子生物学中心法则假设遗传信息储存在蛋白质编码基因中。人类约有20000个蛋白质编码基因，占人类基因组的不到2％，其中98％以上的基因组不编码蛋白质，但产生数以万计的非编码RNA(NcRNA)。在ncRNAs的异质性亚型中，长非编码RNA(Long Non-CodingRNAs，LncRNAs)是一类新的转录本，长度大于200nt1-3，参与生命各个阶段的许多正常生理过程，从胚胎发育、细胞命运决定到整个生物体的生理稳态。越来越多的研究表明，大量的lncRNAs在染色质修饰、转录和转录后调控、基因组剪接、分化、免疫反应、细胞周期调控等许多重要的生物学过程中起着至关重要的作用。

尤其是越来越多的文献报道，lncRNAs的改变和失调与各种复杂疾病的发生发展密切相关。例如，基于定量PCR，lncRNAHOTAIR在乳腺癌转移中的表达水平是100到大约2000倍。它通过与组蛋白修饰物PRC2和LSD1复合物结合来控制组蛋白修饰的模式并调节基因表达。HOTAIR被认为是各种癌症的潜在生物标志物。通过下调H19，一种20多年前证实的lncRNA，乳腺和肺癌细胞的克隆性和锚定非依赖性生长可以显著降低。事实上，H19与多种疾病有关，可作为膀胱癌早期复发的潜在预后标志物。

我们可以发现，尽可能多地收集lncRNA与疾病的联系是必要的。然而，尽管实验证实 lncRNA与疾病的关联性一直在增加，但与大量的lncRNA和疾病相比，这个数字仍然相当小。此外，通过实验室实验来确定lncRNA与疾病之间的联系是非常昂贵和耗时的。因此，通过计算模型准确地识别lncRNA与疾病的相关性，不仅有利于进一步的生物学实验，节省成本和时间，而且可以辅助疾病生物标志物的检测，为疾病的诊断、治疗、预后和预防提供帮助。此外，这些正确识别的关联可以加快我们在RNA水平上理解生命过程的步伐。

发明内容

本发明的目的是针对现有技术的不足，提出了一种异构网络的高性能预测lncRNA与疾病相关性的方法，该方法使用MetaGraph2vec在异构网络中对节点进行特征学习，然后利用 K-Means选择负样本来解决正负样本不平衡的问题，最后使用机器学习算法GBDT+LR去预测lncRNA与疾病之间的关联。

本发明提出的LncRNA和疾病关联关系的高效预测方法，步骤如下：

1.下载公开数据库lncRNADisease(网址：http://www.cuilab.cn/lncrnadisease)中已知的LncRNA- 疾病关联关系，包括三个版本的数据，分别是：2012年6月版本、2014年1月版本、2015 年6月版本，分别标记为DS1，DS2，DS3。我们首先对这三个数据集分别进行去重等处理，同时得到LncRNA集合和疾病集合，并得到LncRNA-疾病关联关系网络的关联矩阵A，A的行数为LncRNA的数量，A的列数为疾病的数量，其中A(l_i,d_j)＝1，表示LncRNAl_i和疾病d_j存在关联关系,值为0表示不存在关联关系，A的表示如式(1)所示:

2.计算疾病之间的语义相似性矩阵SS、计算lncRNA之间的功能相似矩阵FS，然后分别计算出lncRNA和疾病的高斯相互作用属性核相似矩阵KL、KD。具体子步骤如下：

1)疾病语义相似矩阵

基于疾病本体的层次结构，将疾病组织为有向无环图(DAG)。根据相应DAG，计算所有疾病之间的语义相似性。对于疾病i的有向无环图，首先计算疾病i的语义值；疾病i的语义值C(i)是是它的祖先疾病和i自己的贡献值之和，如公式(2)所示。

C(i)＝∑_t∈D(i)C_i(t) (2)

其中D(i)表示疾病i的有向无环图中的节点集。疾病t对子疾病i的语义值C_i(t)的贡献计算如公式(3)所示:

其中Δ是连接疾病t和其子疾病之间的边的权重，即语义贡献因子。由上式可知，疾病对其自身的语义贡献为1。随着疾病i与其他疾病之间的距离的增加，语义贡献减小。因此，应该在0到1之间选择Δ，在这里，我们取Δ＝0.5。

对于疾病i和疾病j之间的语义相似度定义为与疾病i和j的有向无环图共享的结点越多，他们之间的语义相似度则更高，因此，可以得到疾病语义相似矩阵SS如公式(4)所示：

其中元素SS(i,j)表示疾病i和疾病j之间的语义相似度值。

2)lncRNA功能相似矩阵

通过计算与这两个lncRNA相关的两种疾病集的语义相似度来计算这两个lncRNA的功能相似度。假设lncRNA l_i和lncRNA l_j分别与m个和n个疾病有关，lncRNA l_i和lncRNAl_j之间的相似度可由公式(5)和公式(6)计算如下:

其中FS为lncRNA功能相似矩阵，S(d,D1(l_i))是疾病d与是与lncRNA l_i相关的疾病集 D1(l_i)中的所有的疾病语义相似性的最大值。需要注意的是，疾病相似矩阵SS和lncRNA相似矩阵FS都是稀疏的。因此，我们进一步引入高斯相互作用属性核相似性来缓解这一弱点。

3)lncRNA与疾病的高斯相互作用属性核相似矩阵

对于一个LncRNAl_i,定义IP(l_i)值为邻接矩阵A的第i行，计算每一对LncRNAl_i与l_j之间的高斯相互作用属性核相似性，如式(7)所示:

KL(l_i,l_j)＝exp(-γ_l||IP(l_i)-IP(l_j)||²) (7)

其中，KL表示LncRNA的高斯相互作用属性核相似矩阵，元素KL(l_i,l_j)表示LncRNAl_i与l_j的高斯相互作用属性核相似性，γ_l用于控制高斯相互作用属性核相似性的频宽，它表示基于新的频宽参数γ'_l的正规化的高斯相互作用属性核相似性频宽；nl表示LncRNA的数量。

同样地，基于功能相似的LncRNA与相似的疾病之间具有关联关系的假设，利用已知的 LncRNA-疾病关联关系网络，构建疾病的高斯相互作用属性核相似矩阵KD，对于一个疾病 d_j,它的IP'(d_j)值定义为邻接矩阵A的第j列，计算每一对疾病d_i与d_j之间的高斯相互作用属性核相似性，如式(9)所示:

KD(d_i,d_j)＝exp(-γ_d||IP'(d_i)-IP'(d_j)||²) (9)

其中，KD表示疾病的高斯相互作用属性核相似矩阵，元素KD(d_i,d_j)表示疾病d_i与d_j的高斯相互作用属性核相似性，γ_d表示基于频宽参数γ'_d的正规化的高斯相互作用核相似性频宽，nd表示疾病的数量。

3.根据LncRNA的功能相似矩阵FS、LncRNA的高斯相互作用属性核相似矩阵KL构建lncRNA相似矩阵SL：对于lncRNA l_i和lncRNA l_j，如果FS(l_i,l_j)＝0，则SL(l_i,l_j)＝KL(l_i,l_j)，否则SL(l_i,l_j)＝FS(l_i,l_j)，如式(11)所示组合如下：

其次，我们整合了疾病的语义相似度SS和高斯交互属性核相似度KD，最终的疾病相似矩阵SD可以按照以下方式如式(12)所示组合：

4.将lncRNA-疾病的关联矩阵A、步骤3得到lncRNA的相似矩阵SL和疾病的相似矩阵SD 整合，构建一个全局异构网络；在异构网络上，采用MetaGraph2vec对每个节点进行特征学习，得到每个节点的特征表示。具体实现子步骤为：

(1)构建异构网络

我们融合了LncRNA-疾病关联关系网络的关联矩阵A、LncRNA的相似矩阵SL和疾病的相似矩阵SD三个子网，构成全局异构网络G,并得到一个新的邻接矩阵U，U中共nl+nd 维,nl表示LncRNA的数量，nd表示疾病的数量。U如式(13)所示:

其中A^T表示A的转置。我们在全局异构网络G上采用MetaGraph引导随机游走来获得节点序列。如前所述，G＝(V,E)表示全局异构网络，在G上定义一个元图g＝(N,M,n_s,n_t)，其中n_s代表源节点，n_t代表目标节点；N是节点集合，M是边集合。

在这里的元图只有两种节点类型，即l节点代表lncRNA，d节点代表疾病；边类型也有两种，即l-d和d-l。

(2)MetaGraph引导随机行走

基于步骤(1)得到一个n_s＝n_t的元图g＝(N,M,n_s,n_t)，递归元图g^∞＝(N^∞,M^∞,n_s ^∞,n_t ^∞) 是由任意数量g的首尾拼接而成的元图。在选择一个n_s类型的节点后，开始元图引导的随机漫步。

在第i步，MetaGraph引导的随机行走从节点v_i-1开始，将第i步的转移概率记为 Pr(v_i|v_i-1；g^∞)，v_i-1是当前节点，v_i是下一跳节点。先得到节点v_i-1与相邻节点的边类型，如果节点v_i-1在异构网络G中与邻居节点没有满足递归元图g^∞约束边的边类型，转移概率Pr 为0；

否则随机选择一种满足条件的边类型，再从所选的边类型中随机选择一条边进行游走到达下一节点，第i步的转移概率如式(14)所示：

是从v_i-1开始的满足递归元图g^∞中约束边的边类型数。如果没有满足递归元图g^∞中的约束边，则终止游走。

且|u|(v_i-1,u)∈E,φ(v_i)＝φ(u)|是v_i-1的邻居节点中与节点v_i相同类型的节点个数。

经过多次游走最后得到一个长度为长度为L的节点序列Sg＝{v₁，v₂,…,v_L}。

(3)MetaGraph2Vec嵌入学习，并得到每一个节点节点的低维表示。

根据步骤2得到的节点序列Sg，通过最大化以Φ(v_i)为条件，在w窗口大小内v_i上下文节点出现的概率来学习节点嵌入函数Φ(·):

其中：

根据MetaPath2Vec，概率Pr(v_j∣Φ(v_i))以两种不同的方式建模：

·同构网络中的Skip-Gram假定概率Pr(v_j∣Φ(v_i))不依赖于v_j的类型，因此通过softmax 直接对概率Pr(v_j∣Φ(v_i))建模如式(17)所示：

·异构网络中的Skip-Gram假定概率Pr(v_j∣Φ(v_i))与v_j的类型有关：Pr(v_j∣Φ(v_i))＝

Pr(v_j∣Φ(v_i),φ(v_j))Pr(φ(v_j)∣Φ(v_i))其中概率Pr(v_j∣Φ(v_i),φ(v_j))通过softmax建模:

为了学习节点嵌入，MetaGraph2Vec算法首先生成一组元图引导随机游走的节点序列，然后计算每个节点上下文对(v_i，v_j)在w窗口大小内的出现频率F(v_i，v_j)。然后用随机梯度下降法学习参数。在每次迭代中，根据F(v_i，v_j)的分布对节点上下文对(v_i，v_j)进行采样，并更新梯度以最小化以下目标：

为了加快训练速度，使用负采样来逼近目标函数:

其中σ是sigmoid函数,

是为节点v_j采样的第k个负节点，K是负样本的数量。对于同构网络中的Skip-Gram，

从V中所有节点采样；对于异构网络中的 Skip-Gram，

从φ(v_j)类型的节点中采样。

其中α是学习率。参数Φ和Ψ的更新如下:

嵌入函数Φ将异构网络的节点嵌入到低维空间中，对每个节点进行嵌入并得到低维表示Φ(v)。最后我们就得到d维的特征矩阵X。

5.使用K-Means选择负样本，得到所有的正负样本集合。由于数据集中负样本的数量远远大于正样本的数量，因此需要对数据集进行平衡。针对这一问题，我们使用了一种新颖的先进的数据平衡方法。K-Means聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程。K-Means算法是一种基于形心的划分技术，即使用簇的形心代表该簇。K-Means聚类首先随机选取k个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到没有(或最小数目)聚类中心再发生变化。

具体实现步骤如下:

(1)从样本数据中随机选取k个对象作为初始的聚类中心。

(2)分别计算每个样本到各个聚类质心的距离，将样本分配到距离最近的那个聚类中心类别中。

(3)所有样本分配完成后，重新计算k个聚类的中心。

(4)与前一次计算得到的k个聚类中心比较，如果聚类中心发生变化，转(2)，否则转(5)。

(5)聚类中心不再发生变化，输出聚类结果。

6.我们使用以上步骤得到的数据样本训练梯度提升树(GBDT，Gradient BoostingDecison Tree)+ 逻辑回归(LR，LogisticRegression)分类器。再将梯度提升树+逻辑回归(GBDT+LR)分类器用于预测lncRNA与疾病之间的相关分数。用训练数据集对未经训练的GBDT+LR分类器进行训练，初始化模型参数，训练数据通过GBDT模型进行回归，将GBDT中生成的决策树的叶子节点进行特征组合，寻找训练集的特征及特征组合，再将其作为输入给LR分类器模型进行分类训练，从而完成对GBDT+LR分类器的训练过程。

GBDT+LR是一个特征交叉的过程，GBDT的路径可以直接作为LR的输入特征来使用，避免了人工组合交叉特征的过程，GBDT+LR算法结构示意图如图2所示。

可以看到图中示例的2个树均是GBDT训练出的回归树模型。在线过程中样本数据经过树种的路径最终到达子节点。将所有子节点作为LR的输入特征，进行分类。上图中共有两棵树，x为一条输入样本，遍历两棵树后，x样本分别落到两颗树的叶子节点上，每个叶子节点对应LR一维特征，那么通过遍历树，就得到了该样本对应的所有LR特征。举例来说：上图有两棵树，左树有三个叶子节点，右树有两个叶子节点，最终的特征即为五维的向量。对于输入x，假设他落在左树第一个节点，编码[1,0,0]，落在右树第二个节点则编码[0,1]，所以整体的编码为[1,0,0,0,1]，这类编码作为特征，输入到LR中进行分类。

GBDT+LR是一种特殊的分类算法,因为其寻找特征和组合特征能力的强大，非常适用于多个指标特征且特征之间存在关联，各特征非线性共同影响类别结果的情况，并且分类准确率高。分类效果显示，应用GBDT+LR算法训练得到的分类器评价结果准确度要远高于其他分类算法

GBDT+LR用于算法的步骤如下：

1)GBDT首先对原始训练数据做训练，得到一个二分类器，同时利用网格搜索寻找最佳参数组合。

输入：训练样本D＝{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)},最大迭代次数M，损失函数L，学习率为lr。

输出：强学习器Θ(x)

(1)初始化学习器为(22)所示：

其中N为训练样本的数量，y_i为真实标签。

损失函数L(y,Θ_m(x))定义为(23)所示：

L(y,Θ_m(x))＝log(1+exp(-yΘ_m(x))) (23)

其中y是真正的类标签，Θ_m(x)是第m轮的弱学习器。

(2)依次进行第m次迭代，其中m＝1,2,…M。

①计算第m次迭代的负梯度，即残差，让损失函数沿着梯度方向的下降,第m次迭代的第i个样本的损失函数的负梯度表示为(24)所示:

②将上一步得到的残差作为样本新的真实值，以残差值作为目标值进行拟合，以最小化平方损失为标准寻找树的最佳划分节点，分别计算根据每个特征作为划分点进行分裂后两组数据的平方损失，找到使平方损失和最小的划分点，即最佳划分点。构造第m棵决策树，然后得到其对应的叶子结点区域为R_mj,j＝1,2,…,J。其中J为树的叶子节点个数。

③对叶子结点区域j＝1,2,…,J，计算最佳拟合值。针对每一个叶子结点里的样本，我们求出使损失函数最小，也就是拟合叶子结点最好的输出值c_mj如(25)所示：

④第m个弱学习器

其中I(x∈R_mj)表示如果x落在了R_mj的对应某一叶子节点上，那么对应此项为1，lr为学习率。

⑤判断m是否大于M，如果m小于M，则m＝m+1，跳转到①进行下一次迭代，否则说明M个弱学习器都已经构造好，跳转到(3)结束训练。

(3)得到最终的强学习器模型如如(27)所示

其中lr为学习率

2)GBDT训练好后，我们需要的并不是最终的二分类概率值，而是要把模型中的每棵树计算得到的预测概率值所属的叶子结点位置记为1，构造出了新的训练数据。在这里使用独热编码(One-Hot Encoding)对GDBT的结果进行处理并构造新的训练数据集。

独热编码即One-Hot编码，又称为一位有效编码，其方法是使用N位状态寄存器来对N 个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。

例如：

自然状态码为：000,001,010,011,100,101；

独热编码为：000001,000010,000100,001000,010000,100000。

3)新的训练数据构造完成后，与原始的训练数据的标签数据一并输入到LR分类器中进行最终分类器的训练。逻辑回归的假设函数如式如(28)所示。式如(29)表示的是在给定 x和θ时，x属于正样本的可能性。其中θ是需要通过训练使式如(30)中的损失函数最小得到的。

7.使用10折交叉验证进行验证。训练集随机分为10组大小大致相同的子集。每个子集依次用作验证测试数据，其余9个子集用作训练数据。交叉验证过程重复10次，并使用10次的平均性能度量进行性能评估。我们使用多种指标来评估性能，包括召回(REC)、F-score(FSC)、准确度(ACC)和ROC曲线下与坐标轴围成的面积(AUC)。

8.性能评估：本发明的方法是基于梯度提升树(GDBT)结合逻辑回归(LR)算法，将本发明的方法与广泛使用的分类器进行比较，包括使用随机森林(RF)结合逻辑回归(LR)作为分类器、只使用梯度提升树(GDBT)作为分类器、只使用逻辑回归(LR)作为分类器。在构建标准训练集上使用10倍交叉验证；并将本发明使用的方法与已存在的其他方法进行比较，包括基于诱导矩阵完成的预测潜在lncRNA疾病关联的方法(SIMCLDA)，基于内部倾斜重启随机漫步的预测潜在lncRNA疾病关联的方法(IIRWR)和基于网络性一致性投影的预测潜在lncRNA疾病关联的方法(NCPLDA)；为进一步验证本方法的性能，将本实验进行独立测试。为了体现本实验特征的性能，还将本实验使用不同特征组(不使用MetaGraph2vec进行表征学习、使用MetaGraph2vec进行表征学习)，使用不同负样本(不使用K-Means进行聚类，使用K-Means进行聚类)进行性能比较。

经过验证本发明具有如下优点和有益效果：本发明使用MetaGraph2vec在异构网络中对节点进行特征学习，同时保留结构和语义相互关系的异构网络嵌入，然后利用K-Means选择负样本解决了正负样本不平衡的问题，最后使用机器学习算法GBDT+LR去预测lncRNA与疾病之间的关联；这对生物学家的实验研究能够起到指导的作用，生物学家可以针对关联关系概率较大的LncRNA和疾病对进行试验测试，避免了盲目的测试,有效减少生物学实验所消耗的时间和经济成本。

附图说明

图1为本发明LncRNA和疾病关联关系预测方法的流程图。

图2为本发明GBDT+LR算法结构示意图。

图3为本发明LncRNA和疾病关联关系预测方法的示意图

图4为步骤1计算邻居矩阵A流程图。

图5为步骤2计算相似矩阵FS、SS、KL、KD的流程图。

图6为步骤3计算相似矩阵SL和SE的流程图。

图7为步骤4融合A、SL、SE构建一个全局异构网络并用MetaGraph2vec对每个节点进行特征学习，得到每个节点特征表示的流程图。

图8为步骤5使用K-Means选择负样本，得到所有的正负样本集合的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本实施例提供了一种预测LncRNA和疾病关联关系的方法，所述方法的流程图如图1所示，本实施例需要的数据从lncRNADisease数据库下载LncRNA-疾病的关联数据，包括三个版本的数据，分别是：2012年6月版本、2014年1月版本、2015年6月版本，分别标记为 DS1，DS2，DS3。首先对这三个数据集分别进行去重等处理，最后得到的数据如表1所示，其中2012年6月版本的数据包括112个lncRNA和150个疾病，它们之间关联数量是276，我们将该版本的数据标记为DS1；2014年1月版本的数据中包括131个lncRNA和169个疾病，它们之间关联数量为319，我们将该版本的数据标记为DS2；2015年6月版本的数据中包括285个lncRNA和226个疾病，它们之间关联数量为621，我们将该版本的数据标记为 DS3。

表1 lncRNA-疾病关联关系数据集

数据集	lncRNA数量	疾病数量	关联数量
				DataSet1(DS1)	112	150	276
DataSet2(DS2)	131	169	319
				DataSet3(DS3)	285	226	621

根据上面的数据，以DS1数据集为例，具体实施包括以下步骤：

1、根据已知的LncRNA-疾病关联关系，进行去重等处理，得到LncRNA-疾病关联关系网络的关联矩阵A：

例：

2、计算lncRNA之间的功能相似矩阵FS、计算疾病之间的语义相似性矩阵SS，然后分别计算出lncRNA和疾病的高斯相互作用属性核相似矩阵KL、KD。

1)计算疾病之间的语义相似矩阵SS：

其中D(i)表示疾病i的有向无环图中的节点集，其中D(j)表示疾病j的有向无环图中的节点集。C(i)是疾病i的语义值，C(j)是疾病j的语义值；C_i(t)是疾病t对疾病i的语义值的贡献， C_j(t)是疾病t对疾病j的语义值的贡献。

2)计算lncRNA之间的功能相似矩阵FS：

其中，S(d,D1(l_i))是疾病d与是与lncRNA l_i相关的疾病集D1(l_i)中的所有的疾病语义相似性的最大值。

3)构建LncRNA的高斯相互作用属性核相似矩阵KL:

KL(l_i,l_j)＝exp(-γ_l||IP(l_i)-IP(l_j)||²)

其中,γ'_l取值为1。

例：

IP(l₀)_150×1：[0…此处省略86个0…1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0]

IP(l₁)_150×1：[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 …此处省略86个0…0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0]

KL(l₀,l₁)＝exp(-γ_l||IP(l₀)-IP(l₁)||²)＝0.087616792106586

4)构建疾病的高斯相互作用属性核相似矩阵KD:

KE(d_i,d_j)＝exp(-γ_d||IP'(d_i)-IP'(d_j)||²)

其中,γ_d取值为1。

例：

IP(d₀)_112×1：[0…此处省略48个0…1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0]

IP(d₁)_112×1：[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 …此处省略48个0…0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0]

KD(d₀,d₁)＝exp(-γ_d||IP(d₀)-IP(d₁)||²)＝0.066046825955405

3、根据得到的lncRNA的功能相似度FS和高斯交互属性核相似度KL，得到最终的lncRNA 相似矩阵SL；整合疾病的语义相似度SS和高斯交互属性核相似度KD，最终的疾病相似矩阵SD。

4、将lncRNA-疾病的关联矩阵A、lncRNA的相似矩阵SL、疾病的相似矩阵SD三个子网整合，构建全局异构网络G。在异构网络上，采用MetaGraph2vec对每个节点进行特征学习，得到每个节点的特征表示。具体子步骤为：

(1)构建异构网络

我们融合了LncRNA-疾病关联关系网络的关联矩阵A、LncRNA的相似矩阵SL和疾病的相似矩阵SD三个子网，构成全局异构网络G,并得到一个新的邻接矩阵U。U中共112+150＝262 维,112表示LncRNA的数量，150表示疾病的数量。

(2)MetaGraph引导随机行走

基于步骤(1)得到一个n_s＝n_t的元图g＝(N,M,n_s,n_t),我们把l-d-l-d设为本发明的元图, 递归元图g^∞＝(N^∞,M^∞,n_s ^∞,n_t ^∞)是由任意数量g的首尾拼接而成的元图。在选择一个n_s类型的节点后，开始元图引导的随机漫步。

否则随机选择一种满足条件的边类型，再从所选的边类型中随机选择一条边进行游走到达下一节点，第i步的转移概率为：

我们把随机游走的步数设为100，从l节点开始，只把到达的d节点记录下来，可得到每一条长度为50的节点序列Sg＝{v₁，v₂,…,v₅₀}。

(3)MetaGraph2Vec嵌入学习，并得到每一个节点节点的低维表示。

根据步骤2得到的节点序列Sg＝{v₁，v₂,…,v_L}，通过最大化在以Φ(v_i)为条件，在w窗口大小内v_i的上下文节点出现的概率来学习节点嵌入函数

Φ(·):

其中：

根据MetaPath2Vec，概率Pr(v_j∣Φ(v_i))以两种不同的方式建模:

·同构网络中的Skip-Gram假定概率Pr(v_j∣Φ(v_i))不依赖于v_j的类型，因此通过softmax 直接对概率Pr(v_j∣Φ(v_i))建模：

·异构网络中的Skip-Gram假定概率Pr(v_j∣Φ(v_i))与v_j的类型有关：Pr(v_j∣Φ(v_i))＝ Pr(v_j∣Φ(v_i),φ(v_j))Pr(φ(v_j)∣Φ(v_i))其中概率Pr(v_j∣Φ(v_i),φ(v_j))通过softmax建模:

为了学习节点嵌入，MetaGraph2Vec算法首先生成一组节点序列，然后计算序列中每个节点上下文对(v_i，v_j)在w窗口大小内的出现频率F(v_i，v_j)。然后用随机梯度下降法学习参数。在每次迭代中，根据F(v_i，v_j)的分布对节点上下文对(v_i，v_j)进行采样，并更新梯度以最小化以下目标：

为了加快训练速度，使用负采样来逼近目标函数:

其中σ是sigmoid函数,

从V中所有节点采样；对于异构网络中的 Skip-Gram，

从φ((v_j)类型的节点中采样。其中学习率α为0.005。参数Φ和Ψ的更新如下:

嵌入函数Φ将异构网络的节点嵌入到低维空间中，对每个节点进行嵌入并得到低维表示Φ(v)。最后我们就得到64维的特征矩阵X如下。

5、使用K-Means选择负样本，得到所有的正负样本集合。具体实现步骤如下:

(1)从样本数据中随机选取10个对象作为初始的聚类中心。

(3)所有样本分配完成后，重新计算10个聚类的中心。

(4)与前一次计算得到的10个聚类中心比较，如果聚类中心发生变化，转(2)，否则转(5)。

(5)聚类中心不再发生变化，输出聚类结果。

输入到K-Means聚类方法中的数据特征由SL、SD、A融合组成样本lncRNA l₂和疾病d₄对的嵌入矩阵GM包括以下几个部分：(a)第一部分是lncRNA的相似性矩阵SL的第二行，GM1_1×112；(b)第二部分是根据d₄对应邻接矩阵A的列向量组成，GM2_112×1；(c)利用邻接矩阵A对应l₂的行向量构建第三部分，GM3_1×150。(d)第四部分是疾病的相似性矩阵SD的第二行，GM2_150×1。结合第一部分、第二部分和第三部分、第四部分的表示，构建最终lncRNA l₂和疾病d₄这个样本进行K-Means的嵌入矩阵GM_2×262

结果：第一个数据集DS1，正样本个数有276，负样本个数有16524个，所以对于DS1每个簇选择28个负样本；对于第二个数据集DS2来说，正样本个数有319，负样本个数有21820个，所以对于DS2每个簇选择32个负样本；对于第三个数据集DS3来说，正样本个数有621，负样本个数有63789个，所以对于DS1每个簇选择62个负样本。

6、对于每一个数据样本，结合其得到的128维特征数据。对于600个训练样本，得到556*128 的特征数据集如下所示：

1)将得到的特征数据集用于训练梯度提升树(GBDT)，并将GBDT中生成的决策树的叶子节点进行特征组合。GDBT算法步骤如下所示：

输入：训练样本D＝{(x₁,y₁),(x₂,y₂),…,(x₅₅₆,y₅₅₆)},x为特征，y为标签，样本个数为556，损失函数定义为L(y,Θ_m(x))＝log(1+exp(-yΘ_m(x)))，其中y是真正的类标签，Θ_m(x)是第m 轮的弱学习器；学习率lr为0.1。

输出：根据GBDT中生成的决策树的叶子节点进行组合的特征数据XS。

(1)初始化学习器，如下所示：

其中556为训练样本的数量，

就是正样本的个数，

就是负样本的个数，以数据集DS1为实例，正样本个数为276，负样本个数都为280。

(2)依次进行第m次迭代，其中m＝1,2,…500。

①计算第1次迭代的负梯度，即残差，第1次迭代的第i个样本的损失函数的负梯度为:

③对叶子结点区域j＝1,2,…,J，计算最佳拟合值。针对每一个叶子结点里的样本，我们求出使损失函数最小，也就是拟合叶子结点最好的输出值c_1j

④第1个弱学习器

⑤判断m是否大于500，如果m小于500，则m＝m+1，跳转到①进行下一次迭代，否则说明M个弱学习器都已经构造好，跳转到(3)结束训练。

(3)得到最终的强学习器模型如下所示

训练好GBDT后，使用独热编码(OneHotEncoder)对GDBT的结果进行处理并构造新的训练数据集。最后得到特征XS_556×441，样本数为556个，数据特征为441维。

2)将新的数据特征XS_556×441与原始的训练数据的标签数据一并输入到LR分类器中进行最终分类器的训练。逻辑回归的假设函数如式如下所示。

在给定x和θ时，x属于正样本的可能性如下所示

其中θ是需要通过训练是如下所示中的损失函数最小得到的。

7、使用10折交叉验证进行验证。我们采用网格搜索策略，在10倍交叉验证的基准数据集上选择GBDT+LR的最优参数。使用10倍交叉验证来评估方法的性能：训练集随机分为10组大小大致相同的子集。每个子集依次用作验证测试数据，其余9个子集用作训练数据。交叉验证过程重复10次，并使用超过10次的平均性能度量进行性能评估。实验使用多种方法来评估性能，包括召回率(REC)、F-score(FSC)、准确度(ACC)和ROC曲线下与坐标轴围成的面积(AUC)。本发明方法GBDTLRL2D在DS1，DS2，DS3这3个数据集上的AUC分别为 0.98，0.98和0.96。

8、性能评估：本发明方法是基于梯度提升树结合逻辑回归(GBDT+LR)算法，将本发明的方法与广泛使用的分类器进行比较，包括使用随机森林(RF)+逻辑回归(LR)作为分类器、只使用梯度提升树(GBDT)作为分类器、只使用逻辑回归(LR)作为分类器，在构建标准训练集上都使用了10倍交叉验证。表2展示了与其他机器学习方法的预测性能比较。我们可以看出使用组合分类器的效果明显要好的多，并且GBDTLRL2D使用的GBDT+LR组合分类器三个数据集上都比其他方法好得多。由此可见，本发明方法所采用的方法具有最佳的性能。

表2与使用其他机器学习方法的预测性能比较

数据集	方法	ACC	Recall	F1_score	MCC	AUC
							DS1	GBDT+LR	0.928	0.920	0.927	0.858	0.976
DS2		0.934	0.928	0.934	0.870	0.983
							DS3		0.887	0.871	0.885	0.777	0.961
DS1	RF+LR	0.787	0.767	0780	0.581	0.860
							DS2		0.800	0.802	0.801	0.603	0.898
DS3		0.796	0.767	0.790	0.601	0.889
							DS1	GBDT	0.570	0.658	0.608	0.125	0.649
DS2		0.600	0.724	0.645	0.210	0.705
							DS3		0.636	0.631	0.636	0.282	0.667
DS1	LR	0.570	0.659	0.609	0.125	0.649
							DS2		0.601	0.724	0.645	0.211	0.705
DS3		0.636	0.631	0.636	0.282	0.667

Claims

1.一种LncRNA和疾病关联关系的高效预测方法，其特征在于，包括以下步骤：

步骤1：根据公共数据库lncRNADisease(网址：http://www.cuilab.cn/lncrnadisease)下载lncRNA和疾病相关联的数据集，去除重复数据后，得到lncRNA集合与疾病集合以及lncRNA-疾病的关联矩阵A；

步骤2：计算疾病之间的语义相似性矩阵SS、计算lncRNA之间的功能相似矩阵FS；然后分别计算出lncRNA的高斯相互作用属性核相似矩阵KL和疾病的高斯相互作用属性核相似矩阵KD；

步骤3：根据lncRNA的高斯相互作用属性核相似矩阵KL、lncRNA之间的功能相似矩阵FS构建lncRNA相似矩阵SL；根据疾病的高斯相互作用属性核相似矩阵KD、疾病之间的语义相似性矩阵SS构建疾病的相似矩阵SD；

步骤4：将lncRNA-疾病的关联矩阵A、lncRNA的相似矩阵SL、疾病的相似矩阵SD三个子网整合，构建全局异构网络的邻接矩阵U；在异构网络上，采用MetaGraph2vec对每个节点进行特征学习，得到每个节点的特征表示；

步骤5：使用K-Means选择负样本，得到所有的正负样本集合；

步骤6：将特征学习后得到的特征数据用于训练GBDT+LR分类器，该分类器来用来预测lncRNA与疾病之间的关系；

步骤7：使用10折交叉验证进行验证；

步骤8：性能评估；

步骤1中得到lncRNA-疾病关联关系网络的关联矩阵A，利用公开数据库lncRNADisease下载的已知的LncRNA-疾病关联关系，得到LncRNA与疾病的集合并构建LncRNA-疾病关联的关联矩阵A，如果LncRNA-疾病存在关联，则A中对应元素为1，反之为0；

步骤2中计算疾病之间的语义相似性矩阵SS：基于疾病本体的层次结构，根据相应的DAG(有向无环图)，计算所有疾病之间的语义相似性；计算lncRNA之间的功能相似矩阵FS：lncRNA的功能相似值通过计算与这两个lncRNA相关的两种疾病集的语义相似度来得到；计算LncRNA的高斯相互作用属性核相似矩阵KL和疾病的高斯相互作用属性核相似矩阵KD的步骤如下：计算每个LncRNA对，即LncRNAl_i和LncRNAl_j之间的高斯相互作用属性核相似性；同样地,基于功能相似的LncRNA与相似的疾病之间具有关联关系的假设,利用已知的LncRNA-疾病关联关系网络,构建疾病的高斯相互作用属性核相似矩阵KD；

步骤3中将根据步骤2得到的LncRNA高斯相互作用属性核相似矩阵KL和lncRNA之间的功能相似矩阵FS，构建LncRNA相似矩阵SL；根据步骤2得到的疾病高斯相互作用属性核相似矩阵KD和疾病语义相似性矩阵SS，构建疾病的相似矩阵SD；

步骤4中融合LncRNA-疾病关联关系网络的关联矩阵A、LncRNA的相似矩阵SL和疾病的相似矩阵SD三个子网，构建一个全局异构网络U；在异构网络上，采用MetaGraph2vec对每个节点进行特征学习，得到每个节点的特征表示；

步骤5中使用K-Means聚类将未知样本分成k个聚类，然后从每个聚类中随机抽取一些样本作为负样本，正样本保持不变，随机抽取与正样本总数大致相等数目的负样本，最后，从k个聚类中随机选取负样本和所有正样本组成训练样本；

步骤6中进行特征学习后得到的特征数据用于训练GBDT+LR分类器，该分类器用来预测lncRNA与疾病之间的关系；

步骤7中使用10折交叉验证进行验证，训练集随机分为10组大小大致相同的子集，每个子集依次用作验证测试数据，其余9个子集用作训练数据，交叉验证过程重复10次，并使用10次的平均性能度量进行性能评估，我们使用多种指标来评估性能，包括召回(REC)、F-score(FSC)、准确度(ACC)和ROC曲线下与坐标轴围成的面积(AUC)；

步骤8中进行性能评估，本发明的方法是基于梯度提升树(GDBT)结合逻辑回归(LR)算法，将本发明的方法与广泛使用的分类器进行比较，包括使用随机森林(RF)+逻辑回归LR作为分类器、只使用GBDT作为分类器、只使用LR作为分类器。