CN112951328A

CN112951328A - 基于深度学习异构信息网络的miRNA-基因关系预测方法及系统

Info

Publication number: CN112951328A
Application number: CN202110233966.XA
Authority: CN
Inventors: 骆嘉伟; 鲍垚婷; 陈湘涛
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-11
Anticipated expiration: 2041-03-03
Also published as: CN112951328B

Abstract

本发明公开了一种基于深度学习异构信息网络的miRNA‑基因关系预测方法及系统，该方法首先通过构建关于miRNA‑基因的异构信息网络；然后在异构网络上利用元路径，收集miRNA‑基因对之间的路径实例集合，使用深度卷积神经网络捕获路径集合的有效信息；最后将miRNA嵌入，基因嵌入和路径嵌入拼接，利用多层感知机预测miRNA和基因的相互作用。本发明避免了传统机器学习需要手动收集特征的缺点，以网络节点的形式，使用深度学习的方法自动学习网络节点特征。对比实验结果显示，MDCNN的性能比其他方法优越，可以准确预测出潜在的miRNA‑基因相互作用。

Description

基于深度学习异构信息网络的miRNA-基因关系预测方法及系统

技术领域

本发明属于计算机生物信息网络嵌入和机器学习技术领域，特别涉及一种基于深度学习异构信息网络的miRNA-基因关系预测方法及系统。

背景技术

MicroRNAs(miRNAs)作为细胞中最重要的组分之一，通过与mRNA的3'UTRs互补配对，可引起基因降解或抑制基因翻译。生物学实验证实miRNAs广泛参与了大量的细胞过程，与疾病的发生发展密切相关。研究miRNA靶基因关联对于了解miRNA的功能和调控机制，防治人类疾病具有重要意义。得益于信息技术的不断进步，计算机辅助miRNA-基因关系预测为生物实验提供了强大的助力。虽然在过去的一段时间，已经提出了不少基于矩阵分解和传统机器学习的miRNA靶基因相互作用的预测技术，但普遍存在依赖繁琐的手动提取特征数据的问题，且准确性有待提高。

在过去的几年中，出现了一系列基于深度学习的模型，用于计算miRNA和基因的潜在特征表示。基于深度学习的方法能够自动学习多源数据的特征，避免传统机器学习算法中人工设计、提取特征的复杂性和局限性。例如，deepTarget使用了自编码器自动学习了来自序列信息的特征，然后使用了循环神经网络来进一步预测二者之间的关系。SG-LSTM使用序列信息构建了关于miRNA和基因的相似性网络，然后自动学习来自相似性网络的特征，最后使用LSTM识别miRNA和基因的关系。这为深度学习方法在miRNA和基因关系预测的应用奠定了基础。

网络表示学习的方法近些年了已经成功应用在了许多领域，例如社交网络，推荐系统，生物信息学，计算药理学等。基于网络表示学习的方法，将所有实体看作是网络中的节点，通过基于网络的模式，学习网络节点的特征。例如，BIRWMDA在构建的miRNA和疾病的网络中，进行随机游走，通过迭代的方式学得MiRNA和疾病之间的关联。IDDkin使用图卷积拟合网络中邻居节点的信息，来学习网络中节点的表示。基于表示的方法都表现出了较好的性能，这鼓舞了越来越多的学者利用网络表示学习的方法来预测miRNA和基因的关系。

发明内容

针对miRNA和基因关系预测问题，本发明提供了一种基于深度学习异构信息网络的miRNA-基因关系预测方法及系统，通过学习异构信息网络中miRNA和基因及二者之间路径的网络表示，以此来预测miRNA-基因的相互作用。为了避免传统特征提取方法的局限，本发明以网络节点出发，构建一个端到端的框架，自动学习异构信息网络中miRNA，基因，和miRNA和基因之间路径的特征，完成miRNA-基因关联预测的工作。

本发明提供以下技术方案：

一方面，一种基于深度学习异构信息网络的miRNA-基因关系预测方法，包括如下步骤：

步骤1：根据节点之间的相似信息和关联信息，构建miRNA-基因的异构信息网络；

步骤2：将所有节点进行特征映射，获取异构信息网络中节点的特征和miRNA-基因节点对之间的路径，构建miRNA-基因节点对之间的路径序列矩阵；

步骤3：构建基于深度卷积神经网络和多层感知机的关联预测网络模型；

利用深度卷积神经网络提取miRNA-基因节点对的路径序列矩阵中各种路径长度的路径特征；依次按照路径长度从小至大的顺序，利用拼接网络将路径特征进行拼接得到miRNA-基因节点对的路径特征，再将miRNA特征、基因特征以及miRNA-基因节点对的路径特征拼接，以得到的miRNA-基因路径拼接特征输入多层感知机网络，对miRNA-基因关联关系进行预测；

步骤4：对模型参数进行初始化，将已知关联关系的miRNA-基因数据按照步骤1-2处理后，输入步骤3得到的模型中，进行训练；

步骤5：利用训练好的模型，对每个未知关联的miRNA-基因对进行预测，将预测结果按照从大到小排序，生成miRNA-基因的潜在关联列表。

本发明充分整合miRNA的序列信息和基因的功能相似性信息，通过端到端的网络表示学习方法，克服传统机器学习的miRNA-基因相互作用预测过于依赖手工特征的弱点，结合元路径和深度神经网络，预测出新的miRNA-基因相互作用关系，帮助生物实验加快预测进度。

进一步地，将所有节点进行特征映射具体是指将miRNA和基因投影到同一维度的特征映射空间中，得到miRNA和基因的初始特征HM[hm*m]，HT[ht*n]，其中m和n分别表示miRNA和基因的数目，hm和ht分别表示每个miRNA和基因的特征，且特征维度相同。

进一步地，获取异构信息网络中miRNA-基因节点对之间的路径具体是指：

在异构信息网络中，以miRNA为起始节点，基因为终止节点，进行随机游走，收集miRNA-基因节点对的不同路径长度的所有路径实例集合。

进一步地，设定miRNA-基因节点对之间的路径长度取值为2和3，在异构信息网络中，以miRNA为起始节点，基因为终止节点，分别基于路径长度2和3进行随机游走，收集miRNA-基因节点对的路径长度为2和3的路径实例集合P₂和P₃。

收集节点对之间基于不同路径长度的路径实例，学习不同路径长度的特征。也就是说有几种路径长度，就有几个路径序列矩阵。每个路径序列矩阵通过神经网络学习得到对应的特征。长度为2和3是经过实验结果得出的比较好的路径长度选择方案。

获得各组miRNA-基因节点对的序列矩阵HP₂和HP₃，序列矩阵每一行代表一条路径实例。每条路径实例中的所有节点先投影到特征空间中，然后将所有节点的特征拼接在一起，作为这条路径实例的初始序列特征；

同一路径长度下，每组miRNA-基因节点对存在多条不同的路径实例，这是一个不可确定的数目，导致不同的miRNA-基因对的路径序列矩阵的长度不同。因此规定一个最大路径实例数量K，不足部分补0，使每组miRNA-基因节点对的序列矩阵长度一致；

对于集合P中某一条路径实例p，p中的所有节点先投影到特征空间中，然后将节点的特征拼接在一起，作为这条路径实例的初始序列特征Rp[s*d]，其中s表示路径p中的节点数量，d为路径p中每个节点的特征维度，最后该路径实例p被表示为一个维度为s*d的特征；miRNA-基因对的路径实例，根据路径长度分为不同的路径集合，每个集合中的路径实例形成路径序列矩阵HP[Rp*K]。相同路径长度下，每组miRNA和基因对存在多条不同的路径实例，这是一个不可确定的数目，导致不同的miRNA-基因对的路径序列矩阵HP的长度不同。例如，(m₁,t₁)在异构网络中采集到的路径长度为3的路径实例数目为5，其对应的路径序列矩阵HP[Rp*5]。而(m₂,t₂)在采集到的路径长度为3的路径实例数目为15，其对应的路径序列矩阵HP[Rp*15]。

进一步地，所述多层感知机网络中每一层维度分别为128，64，1，且多层感知机网络中最后一层的激活函数设置为sigmoid。

Sigmoid将特征映射一个为介于0-1之间的小数，这个小数就是miRNA和基因之间有相互作用的概率。

进一步地，在模型训练过程中，初始化步骤3中所得模型中的各个参数，包括节点特征映射矩阵、深度卷积神经网络中卷积层中的卷积核和偏置项、全连接层的权值矩阵以及偏置向量；对miRNA-基因节点对的路径最大长度、路径实例最大数量以及训练过程中的最大迭代次数和学习率进行设定；采用交叉损失函数作为整个模型的损失值，进行逐层反向传播，利用Adam迭代更新模型中的参数，其中，交叉损失函数的表达式如下：

其中，Y表示已知关联关系的miRNA-基因数据训练集的大小，y表示输入数据的真实标签，

表示模型的预测标签。

进一步地，所述miRNA-基因的异构信息网络为G＝(V,E)，其中，V表示异构信息网络中miRNA和基因节点集合，E表示异构信息网络中节点之间边的集合；

所述异构信息网络中节点之间边包括各节点的相似邻接边和miRNA与基因的关联边；

所述各节点的相似邻接边，是根据miRNA序列信息，获取各miRNA的相似miRNA；根据基因功能相似性数据，获取各基因的相似基因；针对每个节点，选取与各节点最相似的十个节点，作为各节点的相似节点，以各节点与对应的相似节点之间的连接边，作为各节点的相似邻接边；

所述miRNA与基因的关联边，是根据miRNA与基因的关联数据，提取出存在关联关系的miRNA与基因之间的连接边。

miRNA-基因异构信息网络包含两种类型的节点：miRNA、基因，和三种类型的边：miRNA-miRNA，基因-基因和miRNA-基因；

获取m个miRNA的序列信息，使用Needleman Wusch算法计算出miRNA之间的序列相似性，每个miRNA仅保留与它最相似的10条记录；

第一种类型的边：miRNA-miRNA，定义为，

其中

表示miRNA j位于miRNA i最相似性的10个miRNA中；

获取n个基因的功能相似性数据，先删掉相似性得分小于全局平均得分的相关关联数据，然后每个基因也只保留最相关的10条记录；

第二种类型的边：基因-基因，可以定义为，ET＝{(t_i,t_j)|rank_ti(t_j)≤10 andLLS_T(t_i,t_j)>avg(LLS_T)}，其中

表示基因j是基因i相似性得分最高的前10之一，LLS_T(t_i,t_j)>avg(LLS_T)表示基因i和基因j的相似性得分高于平均的基因相似性值；

第三种类型的边：miRNA-基因，从已知的实验验证的数据集miRTarBase获得，定义为EA＝{(m_i,t_j)}，(m_i,t_j)表示数据集中实验验证了的关联；

E＝{EM∪ET∪EA}；

另一方面，一种基于深度学习异构信息网络的miRNA-基因关系预测系统，包括：

异构信息网络构建模块：用于根据节点之间的相似信息和关联信息，构建miRNA-基因的异构信息网络；

路径序列矩阵提取模块：通过将所有节点进行特征映射，获取异构信息网络中节点的特征和miRNA-基因节点对之间的路径，得到miRNA-基因节点对之间的路径序列矩阵；

关联预测网络模型构建模块：用于构建基于深度卷积神经网络和多层感知机的关联预测网络模型；所述基于深度卷积神经网络和多层感知机的关联预测网络包括依次连接的深度卷积神经网络、拼接网络以及多层感知机网络；

训练模块：用于对模型参数进行初始化，将已知关联关系的miRNA-基因数据调用路径序列矩阵提取模块提取出路径序列矩阵，对模型进行训练；

预测模块：利用训练好的模型，对每个未知关联的miRNA-基因对进行预测，将预测结果按照从大到小排序，生成miRNA-基因的潜在关联列表。

进一步地，所述训练模块，在训练过程中，采用交叉损失函数作为整个模型的损失值，进行逐层反向传播，利用Adam迭代更新模型中的参数。

再一方面，一种可读存储介质，包括计算机程序指令，所述计算机程序指令被处理终端执行时使所述处理终端执行所述的一种基于深度学习异构信息网络的miRNA-基因关系预测方法。

有益效果

本发明实例提供了一种基于深度学习异构信息网络的miRNA-基因关系预测方法(MDCNN)及系统，该方法考虑了异构信息网络丰富的关联信息，并利用元路径的概念收集节点对之间的语义和结构信息，使用深度卷积神经网络，融合收集的到元路径中的重要信息，最后使用多层感知机做进一步的关系预测；

与已有的miRNA-基因关系预测算法相比，本发明所述的MDCNN方法结构简单，操作简便。在五折交叉验证中，本发明实例所述的方法性能显著高于其他对比方法，具体实验结果图对比和分析详见实施例。案例分析中，MDCNN能有效识别潜在的miRNA-基因相互作用关系，因此本发明实例所述方法能够帮助生物实验研究者进一步发现准确的miRNA-基因关系。

附图说明

图1为本发明实例所述的MDCNN的流程示意图；

图2为本发明实例所述的方法与其他方法的对比示意图。

具体实施方式

下面结合附图和实施例对本发明进一步详细说明。

如图1所示，一种基于深度学习异构信息网络的miRNA-基因关系预测方法，包括如下步骤：

所述miRNA-基因的异构信息网络为G＝(V,E)，其中，V表示异构信息网络中miRNA和基因节点集合，E表示异构信息网络中节点之间边的集合；

在本实例中，获取2547个miRNA的序列信息，使用Needleman Wusch算法计算出miRNA之间的序列相似性，每个miRNA仅保留与它最相似的10条记录。则第一种类型的边：miRNA-miRNA，可以定义为，

其中

表示miRNA j位于miRNA i最相似性的10个miRNA中；

获取9096个基因的功能相似性数据，先删掉相似性得分小于全局平均得分的相关关联数据，然后每个基因也只保留最相关的10条记录。则第二种类型的边：基因-基因，可以定义为，

其中

根据miRNA-miRNA，基因-基因和miRNA-基因三种类型的边集合，构建miRNA-基因的异构信息网络G＝(V,E)，E＝{EM∪ET∪EA}。

将所有节点进行特征映射具体是指将miRNA和基因投影到同一维度的特征映射空间中，得到miRNA和基因的初始特征HM[hm*m]，HT[ht*n]，其中m和n分别表示miRNA和基因的数目，hm和ht分别表示每个miRNA和基因的特征，且特征维度相同。

获取异构信息网络中miRNA-基因节点对之间的路径具体是指：

设定miRNA-基因节点对之间的路径长度取值为2和3，在异构信息网络中，以miRNA为起始节点，基因为终止节点，分别基于路径长度2和3进行随机游走，收集miRNA-基因节点对的路径长度为2和3的路径实例集合P₂和P₃。

所述多层感知机网络中每一层维度分别为128，64，1，且多层感知机网络中最后一层的激活函数设置为sigmoid。

在模型训练过程中，初始化步骤3中所得模型中的各个参数，包括节点特征映射矩阵、深度卷积神经网络中卷积层中的卷积核和偏置项、全连接层的权值矩阵以及偏置向量；对miRNA-基因节点对的路径最大长度、路径实例最大数量以及训练过程中的最大迭代次数和学习率进行设定；采用交叉损失函数作为整个模型的损失值，进行逐层反向传播，利用Adam迭代更新模型中的参数，其中，交叉损失函数的表达式如下：

表示模型的预测标签。

为了验证MDCNN的有效性，将MDCNN方法与非负矩阵分解NMF、SG-LSTM和DeepWalk进行对比。用五折交叉验证的方法，画ROC曲线，用ROC曲线下的面积AUC评估方法的好坏。对比结果图2显示，MDCNN的AUC达到了0.9096,SG-LSTM为0.8572，NMF为0.8700，DeepWalk为0.8165，表明了本发明MDCNN的性能优于其他对比方法。

为了验证MDCNN确实可以预测出潜在的miRNA-基因关联，对其中一个miRNA(hsa-mir-26b-5p)进行了案例分析，分析结果如表1所示。案列分析结果显示，MDCNN预测出的前10个未知关联中，有4个关联在PubMed中发现了确实存在关联。这进一步证明了本发明MDCNN能够帮助生物实验研究者进一步发现准确的miRNA-基因关系。

表1 MDCNN对hsa-mir-26b-5p案例分析结果

基于上述方法，本发明实施例还提供一种基于深度学习异构信息网络的miRNA-基因关系预测系统，包括：

所述训练模块，在训练过程中，采用交叉损失函数作为整个模型的损失值，进行逐层反向传播，利用Adam迭代更新模型中的参数。

应当理解，本发明各个实施例中的功能单元模块可以集中在一个处理单元中，也可以是各个单元模块单独物理存在，也可以是两个或两个以上的单元模块集成在一个单元模块中，可以采用硬件或软件的形式来实现。

本发明实施例还提供一种可读存储介质，包括计算机程序指令，所述计算机程序指令被处理终端执行时使所述处理终端执行所述的一种基于深度学习异构信息网络的miRNA-基因关系预测方法，其有益效果参见方法部分的有益效果，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明的实施方式并不限于以上两例，本领域的技术人员应当理解，在不脱离本发明精神的情况下，可以对本文的实施例进行改变。上述实施例只是示例性的，不应以本文的实施例作为本发明权利范围的限定。

Claims

1.一种基于深度学习异构信息网络的miRNA-基因关系预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，将所有节点进行特征映射具体是指将miRNA和基因投影到同一维度的特征映射空间中，得到miRNA和基因的初始特征HM[hm*m]，HT[ht*n]，其中m和n分别表示miRNA和基因的数目，hm和ht分别表示每个miRNA和基因的特征，且特征维度相同。

3.根据权利要求1所述的方法，其特征在于，获取异构信息网络中miRNA-基因节点对之间的路径具体是指：

4.根据权利要求1所述的方法，其特征在于，设定miRNA-基因节点对之间的路径长度取值为2和3，在异构信息网络中，以miRNA为起始节点，基因为终止节点，分别基于路径长度2和3进行随机游走，收集miRNA-基因节点对的路径长度为2和3的路径实例集合P₂和P₃。

5.根据权利要求1所述的方法，其特征在于，所述多层感知机网络中每一层维度分别为128，64，1，且多层感知机网络中最后一层的激活函数设置为sigmoid。

6.根据权利要求1所述的方法，其特征在于，在模型训练过程中，初始化步骤3中所得模型中的各个参数，包括节点特征映射矩阵、深度卷积神经网络中卷积层中的卷积核和偏置项、全连接层的权值矩阵以及偏置向量；对miRNA-基因节点对的路径最大长度、路径实例最大数量以及训练过程中的最大迭代次数和学习率进行设定；采用交叉损失函数作为整个模型的损失值，进行逐层反向传播，利用Adam迭代更新模型中的参数，其中，交叉损失函数的表达式如下：

表示模型的预测标签。

7.根据权利要求1所述的方法，其特征在于，所述miRNA-基因的异构信息网络为G＝(V,E)，其中，V表示异构信息网络中miRNA和基因节点集合，E表示异构信息网络中节点之间边的集合；

8.一种基于深度学习异构信息网络的miRNA-基因关系预测系统，其特征在于，包括：

9.根据权利要求8所述的系统，其特征在于，所述训练模块，在训练过程中，采用交叉损失函数作为整个模型的损失值，进行逐层反向传播，利用Adam迭代更新模型中的参数。

10.一种可读存储介质，包括计算机程序指令，其特征在于：所述计算机程序指令被处理终端执行时使所述处理终端执行权利要求1至7任一项所述的方法。