CN115249538A

CN115249538A - 一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法

Info

Publication number: CN115249538A
Application number: CN202111558692.8A
Authority: CN
Inventors: 钟华; 杜标; 刘琳; 唐麟
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-10-28
Anticipated expiration: 2041-12-20
Also published as: CN115249538B

Abstract

本发明设计了一种基于异构图生成对抗网络（GAN）的lncRNA‑疾病关联预测模型构建方法，主要由两部分组成：异构图生成偏好向量、生成对抗网络实现新的lncRNA‑疾病关联预测；其中异构图包括选取6种关联数据：lncRNA‑疾病、miRNA‑疾病、Gene‑疾病、lncRNA‑miRNA、miRNA‑Gene、lncRNA‑Gene构建异构网络，选取元路径，生成偏好向量。生成对抗网络包括生成器与鉴别器，生成器输入异构图生成的偏好向量输出关联偏好向量；提取lncRNA序列特征，鉴别器输入序列特征与关联偏好向量的融合，输出鉴别结果。该模型充分利用各种关联数据与生成对抗网络的半监督学习性质，明显解决了目前领域都面临的已知关联样本少的问题，并且在已有的真实数据集上进行了全面的实验，证实了所提出方法的有效性。

Description

一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法

技术领域

本发明涉及利用异构图生成对抗网络(GAN，Generative Adversarial Network,)生成新的lncRNA-疾病(长链非编码RNA-疾病，long non-coding RNA-疾病)关联对的方法。生成对抗网络利用对抗思想将生成器与鉴别器训练达到平衡，使输出生成分布尽可能接近真实分布。

背景技术

在生物学家的研究中，可以了解到人类基因中大约有75％能被转录为RNAs，其中又有约74％为非编码RNA。通过生物实验，进一步了解到，lncRNA与人类疾病有着密不可分的关系。例如LncRNA可以影响人类的发育或是导致肿瘤病变；miRNA是一类长度为18～24nt 的小分子非编码RNA，其参与了人类炎症的病变。由此可以看出长链非编码在生物研究中是非常重要的研究，尤其是在临床诊断治疗等方面十分关键。

但是长链非编码RNAs种类繁多，与其相关联的疾病也不少，若是通过生物实验的方法证明其相关性不仅需要耗费大量的时间还要承担高成本费用，为了解决这个问题，日渐崭露头角的计算机技术走入大众视野，基于生物实验得到的准确数据，计算机技术成为核仁小分子RNAs与疾病关联预测的新曙光。目前已经产生了很多模型来进行LncRNAs与疾病关联预测，主要分为两大类，第一类是基于生物网络的预测，另一类是基于机器学习的预测。

一、基于生物网络预测

通常具有相似性的事物比较容易导致同样或相似的结果。基于这个想法，推测在LncRNAs与疾病关联也具有相似性质，也就是说具有相似性功能的LncRNAs可能会导致相同疾病或是具有相似性质的疾病，所以可以利用生物网络来预测未知的LncRNAs-疾病关联对。

二、基于机器学习的预测

利用机器学习来解决LncRNAs-疾病关联预测问题是通过一系列适用的排名算法对候选 LncRNAs进行排序，同时再使用已知LncRNAs-疾病关联对数据和未知关联数据的训练分类模型，然而目前已知的RNAs-疾病关联数据不多并且缺少负样本，无法证明LncRNAs与哪些疾病无关，大部分采用半监督的机器学习算法来实现LncRNAs-疾病关联预测。

发明内容

针对生物实验研究成本高耗时长的问题，目前各种各样的生物信息方法普遍都能够减低成本且缩短时间，但关联数据中仍旧存在样本数量不足以及负样本缺乏的问题，针对该问题，本发明对基于异构图生成对抗网络模型使用多种关联数据，结合多关联数据以及lncRNA序列特征来进行lncRNAs-疾病关联预测。在本文的模型中，生成对抗网络是半监督学习模型，不仅能在一定程度上缓解样本数量不足以及负样本缺乏的情况，还能通过结合多关联数据寻找到更多可能的关联对，提高预测结果精度。该模型可以在数据量有限的情况实现lncRNAs- 疾病关联预测，并且取得不错的预测结果，既解决生物学家进行生物实验的耗时长成本高的问题，又解决了由于lncRNAs与疾病种类繁多，生物实验范围过大的问题，为生物学家的研究提供参考。

本发明所述模型主要由以下部分组成：

异构图偏好向量模型、生成对抗网络(GAN)；

所述异构图偏好向量模型，是一种包含多种类型的节点和多种类型的边的图,节点有四种类型:lncRNA、疾病、miRNA、基因Gene；边有6种类型：lncRNA-疾病、miRNA-疾病、Gene- 疾病、lncRNA-miRNA、miRNA-Gene、lncRNA-Gene；

所述生成对抗网络，包括生成器和鉴别器两部分；

算法步骤如下：

Step-1:构建异构图并选取6条元路径；

Step-2:在异构图中采用P1,P2,...Pl的语义信息，其中l是元路径数目，利用交换矩阵在每一条元路径上计算lncRNA和疾病之间的相似性矩阵，由此可以得到lncRNA对所有疾病的偏好向量；

Step-3:采用注意力机制来聚合不同元路径上lncRNA和疾病之间的不同语义关系；

Step-4:利用权重矩阵w_i与偏好向量a_i计算每条元路径上的注意得分e_m；

Step-5:再使用注意得分e_m分别计算6条元路径的权重α_i；

Step-6:整合各原路径上的权重α_i和注意得分e_m，得到lncRNA的混合关联程度向量r_k；

Step-7:将r_k作为生成对抗网络(GAN)生成器的输入，经过阈值处理：将向量中数值小于0.5设为0；数值大于0.5的设为1，得到输出lncRNA的关联偏好向量以f_m表示；

Step-8:将lncRNA的序列特征经4-mer转化为特征向量c_k；

Step-9:在lncRNA-疾病关联矩阵C∈{0,1}^m×n(c_xy＝1每个元素表示lncRNA与疾病之间存在已知关联，反之亦然)取出每对关联数据的偏好向量r；

Step-10:将获取的r和c_k做⊙(点乘)运算得到的x_r作为判别器的真实数据，将f_m和c_k做 ⊙(点乘)运算得到的x_f作为判别器的虚假数据输入到生成对抗网络(GAN)的鉴别器中；

Step-11:鉴别器输出鉴别结果，反馈给生成器并进行优化，直到二者达到相对理想的状态模型就训练好了，此时输入新数据便可以进行LncRNAs-疾病关联预测；

与现有技术相比，本发明具有如下的有益效果：

1、我们通过利用lncRNA-疾病、lncRNA-miRNA、lncRNA-基因、miRNA-基因、疾病 -miRNA以及疾病-基因关联数据构建了一个异构图，提出了一种基于GAN的lncRNA-疾病关联预测模型，该模型通过利用多种关联数据来构建模型，使得预测信息来源更加全面。

2、生成对抗网络以其半监督学习的优秀性质，缓解了数据量少的问题。根据为特定的 lncRNA为其生成偏好向量，进一步为其推荐一个疾病关联列表。

3、我们在已有的真实数据集上进行了全面的实验，证实了所提出方法的有效性。

综上所述，本技术提供一种基于异构图生成对抗网络模型的lncRNA-疾病关联预测方法来预测lncRNA-疾病的关联关系，帮助于人类理解疾病机制，发明新的药物和治疗相关疾病，本技术方案的方法预测lncRNA-疾病之间的关联关系，预测准确率高、耗时短，并且极大的降低了以往传统生物实验方法的成本，本技术方案依赖于已知的关联数据实现新的lncRNA- 疾病预测，这种方法不仅成本低，还能达到一定的lncRNA-疾病关联预测精度。

附图说明：

图1为：本发明生成对抗网络部分工作流程图；

图2为：异构信息网络工作流程图

图3为：模型整体流程图

图4为：操作流程图

具体实施方式

下面结合具体实施方式对本模型做进一步详细描述。

本实验采用了4种类型对象，分别为lncRNA、疾病、miRNA以及基因。我们从公共数据库中收集了这些对象类型之间的六个外部关系数据源。

异构图定义为具有节点类型映射函数Φ：O→A和边型映射函数Γ：E→R的有向图G＝(O， E)，其中每个节点o∈O属于一种特殊类型Φ(O)∈A,每边e∈E属于一种特殊的关系类型Γ(E)∈R。当节点类型|A|>1或边类型|R|>1时，该网络就被称为异构图。首先利用收集到的数据构建异构图，然后选取元路径P以

的形式表示，它定义了节点类型A₁和A_l之间的复合关系R，其中

表示关系上的复合运算符。在本实验中根据生物学的相关知识选取了六条元路径，如表1所示，其中 L代表lncRNA,D代表disease疾病，M代表miRNA以及G代表gene基因。

表1

Meta Paths	Semantic Meaning
		LDLD	不同lncRNA可能关联到相同的疾病
LMLD	lncRNA关联的miRNA可能涉及同一疾病
		LGLD	lncRNA关联的Gene可能涉及同一疾病
LDMD	lncRNA关联的疾病涉及多种miRNA
		LDGD	lncRNA关联的疾病涉及多种Gene
LMGD	lncRNA通过miRNA、Gene路径关联疾病

通过lncRNA、disease疾病、gene基因以及miRNA节点信息构建了一个异构图，通过在异构图里采用P1,P2,...Pl的语义信息。然后利用交换矩阵计算lncRNA和疾病之间的相似性矩阵。最后，考虑到lncRNA的关联信息，目标是通过GAN向其推荐一个疾病列表。

与不同类型元路径高度相关的相似性矩阵的构造是这个模型的重要组成部分。每个元路径都有自己的语义，表示lncRNA和疾病之间的交互关系。交换矩阵首先应用于每个元路径，以获得lncRNA和疾病之间的相似性矩阵。相似性矩阵中的每一行表示lncRNA对所有疾病的偏好向量。然后，由于lncRNA对疾病的不同关联程度，应用注意力机制来聚合lncRNA 和疾病之间的不同语义关系。每条元路径注意力得分可e_m由公式(1)计算：

e_m＝LeakyReLU(w_ia_i) 公式(1)

其中w_i是维度为6*1权重矩阵，取值范围是范围[0,1]；a_i是n*n_diseases的lncRNA(i) 的偏好向量，n代表批量大小batch_size,n_diseases代表疾病数目，实验中疾病数目是407，范围[0,1000]。e_m是n*n_diseases的张量，n代表batch_size,n_diseases代表疾病数目，范围[0,1]。

第i条元路径的注意力权重如公式(2)：

其中l表示元路径的数目，α_j取值为(0,1)。

通过整合注意力权重和lncRNA的不同关联程度向量，可以获得lncRNA的混合关联程度向量r_k，如公式(3)：

r_k是n*n_diseases的张量，n代表batch_size,diseases代表疾病数目，范围(0,1)。

根据创建的给定属性信息的lncRNA生成一个偏好向量，并进一步为lncRNA提供一待选疾病以供选择。

生成器是一个经异构图预处理后得到的lncRNA对疾病关联偏好向量r_k。生成器将生成的r_k作为输入，经过阈值处理(即将向量中数值小于0.5设为0；数值大于0.5的设为1)后得到输出lncRNA的关联偏好向量以f_m表示。生成器的目的是生成的疾病尽可能的接近真实疾病的分布，以使得判别器不能区分真实疾病与生成疾病。为了使生成的疾病尽可能得到高分我们采用了如公式(4)的损失函数：

其中的D()表示判别器，G(c)表示生成器，c是lncRNA的属性向量，o是生成器为了让判别器认为疾病是真实数据而定的值。使用最小二乘法构建损失函数，J(·)是损失函数的标志，无具体数值。

表示对生成器G取最小值，E()表示计算分布函数期望值。

判别器模型：

让C∈{0,1}^m×n表示已知的lncRNA-疾病关联矩阵，其中c_xy＝1每个元素表示lncRNA与疾病之间存在已知关联，c_xy＝0表示lncRNA与疾病之间关联情况未知。r表示某一lncRNA对疾病的关联偏好向量。

mer在分子生物学领域中意义为：monomeric unit(mer)，单体单元。相当于nt或者bp。通常用于双链核酸中的单位，100mer DNA相当于每一条链有100nt，那么整条链就是100bp。k-mer是指将reads分成包含k个碱基的字符串，一般长短为m的reads可以分成m-k+1个 k-mers.

lncRNA的属性信息变为模型输入的一个重要条件。处理lncRNA的属性信息以便模型更好的学习。将lncRNA的序列特征经4-mer转化为特征向量c_k。

将获取的r和c_k做⊙(点乘)运算得到的x_r作为判别器的真实数据，将f_m和c_k做⊙(点乘)运算得到的x_f作为判别器的虚假数据，如公式(5)与公式(6)。

x_r＝r⊙c_k 公式(5)

x_f＝f_m⊙c_k 公式(6)

判别器的模型是一个自编码器，包括一个输入层、一个隐藏层以及一个输出层，如式(7) 与式(8)。

D(x_r)＝σ_n(W³(...(σ₁(W¹x_r+b¹)...)+b³) 公式(7)

D(x_f)＝σ_n(W³(...(σ₁(W¹x_f+b¹)...)+b³) 公式(8)

其中W^(·)和b^(·)分别表示每层的权重矩阵和偏置向量。σ_n表示第n层的softmax激活函数，σ₁表示第1层的softmax函数，W¹是128*diseases的张量，b¹是128*1的张量，范围是[0,1]。W²是256*128的张量，b²是256*1的张量，范围[0,1]。W³是512*256的张量，b³是512*1的张量,范围[0,1]。判别器的目的是尽可能将真实疾病与虚假疾病区分开来，并赋予真实疾病较大数值以及给虚假疾病较小数值，为此我们采用了公式(9)：

作为损失函数。其中的D(c)表示判别器，G(c)表示生成器，c是lncRNA的属性向量，

表示对生成器G取最小值，E表示计算分布函数的期望，c～P_real(c)表示从真实数据中心采样的 c；c～P_generator(c)表示从生成的数据中采样的c。常数a、b分别表示真实疾病和生成疾病的标记。

Claims

1.一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法，所述预测模型包括：异构图偏好向量模型、生成对抗网络GAN，其特征在于：所述异构图偏好向量模型是包含节点和边的图；所述生成对抗网络，包括生成器和鉴别器两部分；

所述节点有四种类型:lncRNA、疾病、miRNA、Gene；所述边有6种类型：lncRNA-疾病、miRNA-疾病、Gene-疾病、lncRNA-miRNA、miRNA-Gene、lncRNA-Gene；

模型构建方法步骤如下：

Step-1:构建异构图并选取6条元路径；

Step-4:利用权重矩阵w_i与偏好向量a_i计算每条元路径上的注意得分e_m,其中i的取值范围是1～6；

Step-5:再使用注意得分e_m分别计算6条元路径的权重α_i；

Step-7:将r_k作为生成对抗网络GAN生成器的输入，经过阈值处理，得到输出lncRNA的关联偏好向量f_m；

Step-8:将lncRNA的序列特征经4-mer转化为特征向量c_k；

Step-9:在lncRNA-疾病关联矩阵C∈{0,1}^m×n取出每对关联数据的偏好向量r；

Step-10:将获取的r和c_k做⊙点乘运算得到的x_r作为判别器的真实数据，将f_m和c_k做⊙点乘运算得到的x_f作为判别器的虚假数据输入到生成对抗网络GAN的鉴别器中；

Step-11:鉴别器输出鉴别结果，反馈给生成器并进行优化，直到二者达到相对理想的状态模型，此时输入新数据便可以进行LncRNAs-疾病关联预测。

2.根据权利要求1所述的一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法，其特征在于：Step-4中注意得分e_m计算公式为：

e_m＝LeakyReLU(w_ia_i)；

其中w_i是维度为6*1权重矩阵，取值范围是范围[0,1]；a_i是n*n_diseases的lncRNA(i)的偏好向量,i的取值范围是1～6。

3.根据权利要求1所述的一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法，其特征在于：Step-5中6条元路径的权重α_i计算公式为：

其中，l表示原路径数目，i的取值范围是1～l，α_i取值为(0,1)。

4.根据权利要求1所述的一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法，其特征在于：Step-6中lncRNA的混合关联程度向量r_k计算公式为：：

r_k是n*n_diseases的张量，n代表batch_size,diseases代表疾病数目。

5.根据权利要求1所述的一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法，其特征在于：Step-7中所述阈值处理方式为：将向量中数值小于0.5设为0、数值大于0.5的设为1。

6.根据权利要求1所述的一种基于异构图生成对抗网络的lncRNA-疾病关联预测模型的构建方法，其特征在于：所述判别器的模型是一个自编码器，包括一个输入层、一个隐藏层以及一个输出层。