CN112951328A - 基于深度学习异构信息网络的miRNA-基因关系预测方法及系统 - Google Patents

基于深度学习异构信息网络的miRNA-基因关系预测方法及系统 Download PDF

Info

Publication number
CN112951328A
CN112951328A CN202110233966.XA CN202110233966A CN112951328A CN 112951328 A CN112951328 A CN 112951328A CN 202110233966 A CN202110233966 A CN 202110233966A CN 112951328 A CN112951328 A CN 112951328A
Authority
CN
China
Prior art keywords
mirna
gene
path
network
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110233966.XA
Other languages
English (en)
Other versions
CN112951328B (zh
Inventor
骆嘉伟
鲍垚婷
陈湘涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110233966.XA priority Critical patent/CN112951328B/zh
Publication of CN112951328A publication Critical patent/CN112951328A/zh
Application granted granted Critical
Publication of CN112951328B publication Critical patent/CN112951328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于深度学习异构信息网络的miRNA‑基因关系预测方法及系统,该方法首先通过构建关于miRNA‑基因的异构信息网络;然后在异构网络上利用元路径,收集miRNA‑基因对之间的路径实例集合,使用深度卷积神经网络捕获路径集合的有效信息;最后将miRNA嵌入,基因嵌入和路径嵌入拼接,利用多层感知机预测miRNA和基因的相互作用。本发明避免了传统机器学习需要手动收集特征的缺点,以网络节点的形式,使用深度学习的方法自动学习网络节点特征。对比实验结果显示,MDCNN的性能比其他方法优越,可以准确预测出潜在的miRNA‑基因相互作用。

Description

基于深度学习异构信息网络的miRNA-基因关系预测方法及 系统
技术领域
本发明属于计算机生物信息网络嵌入和机器学习技术领域,特别涉及一种基于深度学习异构信息网络的miRNA-基因关系预测方法及系统。
背景技术
MicroRNAs(miRNAs)作为细胞中最重要的组分之一,通过与mRNA的3'UTRs互补配对,可引起基因降解或抑制基因翻译。生物学实验证实miRNAs广泛参与了大量的细胞过程,与疾病的发生发展密切相关。研究miRNA靶基因关联对于了解miRNA的功能和调控机制,防治人类疾病具有重要意义。得益于信息技术的不断进步,计算机辅助miRNA-基因关系预测为生物实验提供了强大的助力。虽然在过去的一段时间,已经提出了不少基于矩阵分解和传统机器学习的miRNA靶基因相互作用的预测技术,但普遍存在依赖繁琐的手动提取特征数据的问题,且准确性有待提高。
在过去的几年中,出现了一系列基于深度学习的模型,用于计算miRNA和基因的潜在特征表示。基于深度学习的方法能够自动学习多源数据的特征,避免传统机器学习算法中人工设计、提取特征的复杂性和局限性。例如,deepTarget使用了自编码器自动学习了来自序列信息的特征,然后使用了循环神经网络来进一步预测二者之间的关系。SG-LSTM使用序列信息构建了关于miRNA和基因的相似性网络,然后自动学习来自相似性网络的特征,最后使用LSTM识别miRNA和基因的关系。这为深度学习方法在miRNA和基因关系预测的应用奠定了基础。
网络表示学习的方法近些年了已经成功应用在了许多领域,例如社交网络,推荐系统,生物信息学,计算药理学等。基于网络表示学习的方法,将所有实体看作是网络中的节点,通过基于网络的模式,学习网络节点的特征。例如,BIRWMDA在构建的miRNA和疾病的网络中,进行随机游走,通过迭代的方式学得MiRNA和疾病之间的关联。IDDkin使用图卷积拟合网络中邻居节点的信息,来学习网络中节点的表示。基于表示的方法都表现出了较好的性能,这鼓舞了越来越多的学者利用网络表示学习的方法来预测miRNA和基因的关系。
发明内容
针对miRNA和基因关系预测问题,本发明提供了一种基于深度学习异构信息网络的miRNA-基因关系预测方法及系统,通过学习异构信息网络中miRNA和基因及二者之间路径的网络表示,以此来预测miRNA-基因的相互作用。为了避免传统特征提取方法的局限,本发明以网络节点出发,构建一个端到端的框架,自动学习异构信息网络中miRNA,基因,和miRNA和基因之间路径的特征,完成miRNA-基因关联预测的工作。
本发明提供以下技术方案:
一方面,一种基于深度学习异构信息网络的miRNA-基因关系预测方法,包括如下步骤:
步骤1:根据节点之间的相似信息和关联信息,构建miRNA-基因的异构信息网络;
步骤2:将所有节点进行特征映射,获取异构信息网络中节点的特征和miRNA-基因节点对之间的路径,构建miRNA-基因节点对之间的路径序列矩阵;
步骤3:构建基于深度卷积神经网络和多层感知机的关联预测网络模型;
利用深度卷积神经网络提取miRNA-基因节点对的路径序列矩阵中各种路径长度的路径特征;依次按照路径长度从小至大的顺序,利用拼接网络将路径特征进行拼接得到miRNA-基因节点对的路径特征,再将miRNA特征、基因特征以及miRNA-基因节点对的路径特征拼接,以得到的miRNA-基因路径拼接特征输入多层感知机网络,对miRNA-基因关联关系进行预测;
步骤4:对模型参数进行初始化,将已知关联关系的miRNA-基因数据按照步骤1-2处理后,输入步骤3得到的模型中,进行训练;
步骤5:利用训练好的模型,对每个未知关联的miRNA-基因对进行预测,将预测结果按照从大到小排序,生成miRNA-基因的潜在关联列表。
本发明充分整合miRNA的序列信息和基因的功能相似性信息,通过端到端的网络表示学习方法,克服传统机器学习的miRNA-基因相互作用预测过于依赖手工特征的弱点,结合元路径和深度神经网络,预测出新的miRNA-基因相互作用关系,帮助生物实验加快预测进度。
进一步地,将所有节点进行特征映射具体是指将miRNA和基因投影到同一维度的特征映射空间中,得到miRNA和基因的初始特征HM[hm*m],HT[ht*n],其中m和n分别表示miRNA和基因的数目,hm和ht分别表示每个miRNA和基因的特征,且特征维度相同。
进一步地,获取异构信息网络中miRNA-基因节点对之间的路径具体是指:
在异构信息网络中,以miRNA为起始节点,基因为终止节点,进行随机游走,收集miRNA-基因节点对的不同路径长度的所有路径实例集合。
进一步地,设定miRNA-基因节点对之间的路径长度取值为2和3,在异构信息网络中,以miRNA为起始节点,基因为终止节点,分别基于路径长度2和3进行随机游走,收集miRNA-基因节点对的路径长度为2和3的路径实例集合P2和P3
收集节点对之间基于不同路径长度的路径实例,学习不同路径长度的特征。也就是说有几种路径长度,就有几个路径序列矩阵。每个路径序列矩阵通过神经网络学习得到对应的特征。长度为2和3是经过实验结果得出的比较好的路径长度选择方案。
获得各组miRNA-基因节点对的序列矩阵HP2和HP3,序列矩阵每一行代表一条路径实例。每条路径实例中的所有节点先投影到特征空间中,然后将所有节点的特征拼接在一起,作为这条路径实例的初始序列特征;
同一路径长度下,每组miRNA-基因节点对存在多条不同的路径实例,这是一个不可确定的数目,导致不同的miRNA-基因对的路径序列矩阵的长度不同。因此规定一个最大路径实例数量K,不足部分补0,使每组miRNA-基因节点对的序列矩阵长度一致;
对于集合P中某一条路径实例p,p中的所有节点先投影到特征空间中,然后将节点的特征拼接在一起,作为这条路径实例的初始序列特征Rp[s*d],其中s表示路径p中的节点数量,d为路径p中每个节点的特征维度,最后该路径实例p被表示为一个维度为s*d的特征;miRNA-基因对的路径实例,根据路径长度分为不同的路径集合,每个集合中的路径实例形成路径序列矩阵HP[Rp*K]。相同路径长度下,每组miRNA和基因对存在多条不同的路径实例,这是一个不可确定的数目,导致不同的miRNA-基因对的路径序列矩阵HP的长度不同。例如,(m1,t1)在异构网络中采集到的路径长度为3的路径实例数目为5,其对应的路径序列矩阵HP[Rp*5]。而(m2,t2)在采集到的路径长度为3的路径实例数目为15,其对应的路径序列矩阵HP[Rp*15]。
进一步地,所述多层感知机网络中每一层维度分别为128,64,1,且多层感知机网络中最后一层的激活函数设置为sigmoid。
Sigmoid将特征映射一个为介于0-1之间的小数,这个小数就是miRNA和基因之间有相互作用的概率。
进一步地,在模型训练过程中,初始化步骤3中所得模型中的各个参数,包括节点特征映射矩阵、深度卷积神经网络中卷积层中的卷积核和偏置项、全连接层的权值矩阵以及偏置向量;对miRNA-基因节点对的路径最大长度、路径实例最大数量以及训练过程中的最大迭代次数和学习率进行设定;采用交叉损失函数作为整个模型的损失值,进行逐层反向传播,利用Adam迭代更新模型中的参数,其中,交叉损失函数的表达式如下:
Figure BDA0002959914650000031
其中,Y表示已知关联关系的miRNA-基因数据训练集的大小,y表示输入数据的真实标签,
Figure BDA0002959914650000032
表示模型的预测标签。
进一步地,所述miRNA-基因的异构信息网络为G=(V,E),其中,V表示异构信息网络中miRNA和基因节点集合,E表示异构信息网络中节点之间边的集合;
所述异构信息网络中节点之间边包括各节点的相似邻接边和miRNA与基因的关联边;
所述各节点的相似邻接边,是根据miRNA序列信息,获取各miRNA的相似miRNA;根据基因功能相似性数据,获取各基因的相似基因;针对每个节点,选取与各节点最相似的十个节点,作为各节点的相似节点,以各节点与对应的相似节点之间的连接边,作为各节点的相似邻接边;
所述miRNA与基因的关联边,是根据miRNA与基因的关联数据,提取出存在关联关系的miRNA与基因之间的连接边。
miRNA-基因异构信息网络包含两种类型的节点:miRNA、基因,和三种类型的边:miRNA-miRNA,基因-基因和miRNA-基因;
获取m个miRNA的序列信息,使用Needleman Wusch算法计算出miRNA之间的序列相似性,每个miRNA仅保留与它最相似的10条记录;
第一种类型的边:miRNA-miRNA,定义为,
Figure BDA0002959914650000041
其中
Figure BDA0002959914650000042
表示miRNA j位于miRNA i最相似性的10个miRNA中;
获取n个基因的功能相似性数据,先删掉相似性得分小于全局平均得分的相关关联数据,然后每个基因也只保留最相关的10条记录;
第二种类型的边:基因-基因,可以定义为,ET={(ti,tj)|rankti(tj)≤10 andLLST(ti,tj)>avg(LLST)},其中
Figure BDA0002959914650000043
表示基因j是基因i相似性得分最高的前10之一,LLST(ti,tj)>avg(LLST)表示基因i和基因j的相似性得分高于平均的基因相似性值;
第三种类型的边:miRNA-基因,从已知的实验验证的数据集miRTarBase获得,定义为EA={(mi,tj)},(mi,tj)表示数据集中实验验证了的关联;
E={EM∪ET∪EA};
另一方面,一种基于深度学习异构信息网络的miRNA-基因关系预测系统,包括:
异构信息网络构建模块:用于根据节点之间的相似信息和关联信息,构建miRNA-基因的异构信息网络;
路径序列矩阵提取模块:通过将所有节点进行特征映射,获取异构信息网络中节点的特征和miRNA-基因节点对之间的路径,得到miRNA-基因节点对之间的路径序列矩阵;
关联预测网络模型构建模块:用于构建基于深度卷积神经网络和多层感知机的关联预测网络模型;所述基于深度卷积神经网络和多层感知机的关联预测网络包括依次连接的深度卷积神经网络、拼接网络以及多层感知机网络;
利用深度卷积神经网络提取miRNA-基因节点对的路径序列矩阵中各种路径长度的路径特征;依次按照路径长度从小至大的顺序,利用拼接网络将路径特征进行拼接得到miRNA-基因节点对的路径特征,再将miRNA特征、基因特征以及miRNA-基因节点对的路径特征拼接,以得到的miRNA-基因路径拼接特征输入多层感知机网络,对miRNA-基因关联关系进行预测;
训练模块:用于对模型参数进行初始化,将已知关联关系的miRNA-基因数据调用路径序列矩阵提取模块提取出路径序列矩阵,对模型进行训练;
预测模块:利用训练好的模型,对每个未知关联的miRNA-基因对进行预测,将预测结果按照从大到小排序,生成miRNA-基因的潜在关联列表。
进一步地,所述训练模块,在训练过程中,采用交叉损失函数作为整个模型的损失值,进行逐层反向传播,利用Adam迭代更新模型中的参数。
再一方面,一种可读存储介质,包括计算机程序指令,所述计算机程序指令被处理终端执行时使所述处理终端执行所述的一种基于深度学习异构信息网络的miRNA-基因关系预测方法。
有益效果
本发明实例提供了一种基于深度学习异构信息网络的miRNA-基因关系预测方法(MDCNN)及系统,该方法考虑了异构信息网络丰富的关联信息,并利用元路径的概念收集节点对之间的语义和结构信息,使用深度卷积神经网络,融合收集的到元路径中的重要信息,最后使用多层感知机做进一步的关系预测;
与已有的miRNA-基因关系预测算法相比,本发明所述的MDCNN方法结构简单,操作简便。在五折交叉验证中,本发明实例所述的方法性能显著高于其他对比方法,具体实验结果图对比和分析详见实施例。案例分析中,MDCNN能有效识别潜在的miRNA-基因相互作用关系,因此本发明实例所述方法能够帮助生物实验研究者进一步发现准确的miRNA-基因关系。
附图说明
图1为本发明实例所述的MDCNN的流程示意图;
图2为本发明实例所述的方法与其他方法的对比示意图。
具体实施方式
下面结合附图和实施例对本发明进一步详细说明。
如图1所示,一种基于深度学习异构信息网络的miRNA-基因关系预测方法,包括如下步骤:
步骤1:根据节点之间的相似信息和关联信息,构建miRNA-基因的异构信息网络;
所述miRNA-基因的异构信息网络为G=(V,E),其中,V表示异构信息网络中miRNA和基因节点集合,E表示异构信息网络中节点之间边的集合;
所述异构信息网络中节点之间边包括各节点的相似邻接边和miRNA与基因的关联边;
所述各节点的相似邻接边,是根据miRNA序列信息,获取各miRNA的相似miRNA;根据基因功能相似性数据,获取各基因的相似基因;针对每个节点,选取与各节点最相似的十个节点,作为各节点的相似节点,以各节点与对应的相似节点之间的连接边,作为各节点的相似邻接边;
所述miRNA与基因的关联边,是根据miRNA与基因的关联数据,提取出存在关联关系的miRNA与基因之间的连接边。
miRNA-基因异构信息网络包含两种类型的节点:miRNA、基因,和三种类型的边:miRNA-miRNA,基因-基因和miRNA-基因;
在本实例中,获取2547个miRNA的序列信息,使用Needleman Wusch算法计算出miRNA之间的序列相似性,每个miRNA仅保留与它最相似的10条记录。则第一种类型的边:miRNA-miRNA,可以定义为,
Figure BDA0002959914650000061
其中
Figure BDA0002959914650000062
表示miRNA j位于miRNA i最相似性的10个miRNA中;
获取9096个基因的功能相似性数据,先删掉相似性得分小于全局平均得分的相关关联数据,然后每个基因也只保留最相关的10条记录。则第二种类型的边:基因-基因,可以定义为,
Figure BDA0002959914650000063
其中
Figure BDA0002959914650000064
表示基因j是基因i相似性得分最高的前10之一,LLST(ti,tj)>avg(LLST)表示基因i和基因j的相似性得分高于平均的基因相似性值;
第三种类型的边:miRNA-基因,从已知的实验验证的数据集miRTarBase获得,定义为EA={(mi,tj)},(mi,tj)表示数据集中实验验证了的关联;
根据miRNA-miRNA,基因-基因和miRNA-基因三种类型的边集合,构建miRNA-基因的异构信息网络G=(V,E),E={EM∪ET∪EA}。
步骤2:将所有节点进行特征映射,获取异构信息网络中节点的特征和miRNA-基因节点对之间的路径,构建miRNA-基因节点对之间的路径序列矩阵;
将所有节点进行特征映射具体是指将miRNA和基因投影到同一维度的特征映射空间中,得到miRNA和基因的初始特征HM[hm*m],HT[ht*n],其中m和n分别表示miRNA和基因的数目,hm和ht分别表示每个miRNA和基因的特征,且特征维度相同。
获取异构信息网络中miRNA-基因节点对之间的路径具体是指:
在异构信息网络中,以miRNA为起始节点,基因为终止节点,进行随机游走,收集miRNA-基因节点对的不同路径长度的所有路径实例集合。
设定miRNA-基因节点对之间的路径长度取值为2和3,在异构信息网络中,以miRNA为起始节点,基因为终止节点,分别基于路径长度2和3进行随机游走,收集miRNA-基因节点对的路径长度为2和3的路径实例集合P2和P3
收集节点对之间基于不同路径长度的路径实例,学习不同路径长度的特征。也就是说有几种路径长度,就有几个路径序列矩阵。每个路径序列矩阵通过神经网络学习得到对应的特征。长度为2和3是经过实验结果得出的比较好的路径长度选择方案。
获得各组miRNA-基因节点对的序列矩阵HP2和HP3,序列矩阵每一行代表一条路径实例。每条路径实例中的所有节点先投影到特征空间中,然后将所有节点的特征拼接在一起,作为这条路径实例的初始序列特征;
同一路径长度下,每组miRNA-基因节点对存在多条不同的路径实例,这是一个不可确定的数目,导致不同的miRNA-基因对的路径序列矩阵的长度不同。因此规定一个最大路径实例数量K,不足部分补0,使每组miRNA-基因节点对的序列矩阵长度一致;
对于集合P中某一条路径实例p,p中的所有节点先投影到特征空间中,然后将节点的特征拼接在一起,作为这条路径实例的初始序列特征Rp[s*d],其中s表示路径p中的节点数量,d为路径p中每个节点的特征维度,最后该路径实例p被表示为一个维度为s*d的特征;miRNA-基因对的路径实例,根据路径长度分为不同的路径集合,每个集合中的路径实例形成路径序列矩阵HP[Rp*K]。相同路径长度下,每组miRNA和基因对存在多条不同的路径实例,这是一个不可确定的数目,导致不同的miRNA-基因对的路径序列矩阵HP的长度不同。例如,(m1,t1)在异构网络中采集到的路径长度为3的路径实例数目为5,其对应的路径序列矩阵HP[Rp*5]。而(m2,t2)在采集到的路径长度为3的路径实例数目为15,其对应的路径序列矩阵HP[Rp*15]。
步骤3:构建基于深度卷积神经网络和多层感知机的关联预测网络模型;
利用深度卷积神经网络提取miRNA-基因节点对的路径序列矩阵中各种路径长度的路径特征;依次按照路径长度从小至大的顺序,利用拼接网络将路径特征进行拼接得到miRNA-基因节点对的路径特征,再将miRNA特征、基因特征以及miRNA-基因节点对的路径特征拼接,以得到的miRNA-基因路径拼接特征输入多层感知机网络,对miRNA-基因关联关系进行预测;
所述多层感知机网络中每一层维度分别为128,64,1,且多层感知机网络中最后一层的激活函数设置为sigmoid。
Sigmoid将特征映射一个为介于0-1之间的小数,这个小数就是miRNA和基因之间有相互作用的概率。
步骤4:对模型参数进行初始化,将已知关联关系的miRNA-基因数据按照步骤1-2处理后,输入步骤3得到的模型中,进行训练;
在模型训练过程中,初始化步骤3中所得模型中的各个参数,包括节点特征映射矩阵、深度卷积神经网络中卷积层中的卷积核和偏置项、全连接层的权值矩阵以及偏置向量;对miRNA-基因节点对的路径最大长度、路径实例最大数量以及训练过程中的最大迭代次数和学习率进行设定;采用交叉损失函数作为整个模型的损失值,进行逐层反向传播,利用Adam迭代更新模型中的参数,其中,交叉损失函数的表达式如下:
Figure BDA0002959914650000081
其中,Y表示已知关联关系的miRNA-基因数据训练集的大小,y表示输入数据的真实标签,
Figure BDA0002959914650000082
表示模型的预测标签。
步骤5:利用训练好的模型,对每个未知关联的miRNA-基因对进行预测,将预测结果按照从大到小排序,生成miRNA-基因的潜在关联列表。
本发明充分整合miRNA的序列信息和基因的功能相似性信息,通过端到端的网络表示学习方法,克服传统机器学习的miRNA-基因相互作用预测过于依赖手工特征的弱点,结合元路径和深度神经网络,预测出新的miRNA-基因相互作用关系,帮助生物实验加快预测进度。
为了验证MDCNN的有效性,将MDCNN方法与非负矩阵分解NMF、SG-LSTM和DeepWalk进行对比。用五折交叉验证的方法,画ROC曲线,用ROC曲线下的面积AUC评估方法的好坏。对比结果图2显示,MDCNN的AUC达到了0.9096,SG-LSTM为0.8572,NMF为0.8700,DeepWalk为0.8165,表明了本发明MDCNN的性能优于其他对比方法。
为了验证MDCNN确实可以预测出潜在的miRNA-基因关联,对其中一个miRNA(hsa-mir-26b-5p)进行了案例分析,分析结果如表1所示。案列分析结果显示,MDCNN预测出的前10个未知关联中,有4个关联在PubMed中发现了确实存在关联。这进一步证明了本发明MDCNN能够帮助生物实验研究者进一步发现准确的miRNA-基因关系。
表1 MDCNN对hsa-mir-26b-5p案例分析结果
Figure BDA0002959914650000091
基于上述方法,本发明实施例还提供一种基于深度学习异构信息网络的miRNA-基因关系预测系统,包括:
异构信息网络构建模块:用于根据节点之间的相似信息和关联信息,构建miRNA-基因的异构信息网络;
路径序列矩阵提取模块:通过将所有节点进行特征映射,获取异构信息网络中节点的特征和miRNA-基因节点对之间的路径,得到miRNA-基因节点对之间的路径序列矩阵;
关联预测网络模型构建模块:用于构建基于深度卷积神经网络和多层感知机的关联预测网络模型;所述基于深度卷积神经网络和多层感知机的关联预测网络包括依次连接的深度卷积神经网络、拼接网络以及多层感知机网络;
利用深度卷积神经网络提取miRNA-基因节点对的路径序列矩阵中各种路径长度的路径特征;依次按照路径长度从小至大的顺序,利用拼接网络将路径特征进行拼接得到miRNA-基因节点对的路径特征,再将miRNA特征、基因特征以及miRNA-基因节点对的路径特征拼接,以得到的miRNA-基因路径拼接特征输入多层感知机网络,对miRNA-基因关联关系进行预测;
训练模块:用于对模型参数进行初始化,将已知关联关系的miRNA-基因数据调用路径序列矩阵提取模块提取出路径序列矩阵,对模型进行训练;
预测模块:利用训练好的模型,对每个未知关联的miRNA-基因对进行预测,将预测结果按照从大到小排序,生成miRNA-基因的潜在关联列表。
所述训练模块,在训练过程中,采用交叉损失函数作为整个模型的损失值,进行逐层反向传播,利用Adam迭代更新模型中的参数。
应当理解,本发明各个实施例中的功能单元模块可以集中在一个处理单元中,也可以是各个单元模块单独物理存在,也可以是两个或两个以上的单元模块集成在一个单元模块中,可以采用硬件或软件的形式来实现。
本发明实施例还提供一种可读存储介质,包括计算机程序指令,所述计算机程序指令被处理终端执行时使所述处理终端执行所述的一种基于深度学习异构信息网络的miRNA-基因关系预测方法,其有益效果参见方法部分的有益效果,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明的实施方式并不限于以上两例,本领域的技术人员应当理解,在不脱离本发明精神的情况下,可以对本文的实施例进行改变。上述实施例只是示例性的,不应以本文的实施例作为本发明权利范围的限定。

Claims (10)

1.一种基于深度学习异构信息网络的miRNA-基因关系预测方法,其特征在于,包括如下步骤:
步骤1:根据节点之间的相似信息和关联信息,构建miRNA-基因的异构信息网络;
步骤2:将所有节点进行特征映射,获取异构信息网络中节点的特征和miRNA-基因节点对之间的路径,构建miRNA-基因节点对之间的路径序列矩阵;
步骤3:构建基于深度卷积神经网络和多层感知机的关联预测网络模型;
利用深度卷积神经网络提取miRNA-基因节点对的路径序列矩阵中各种路径长度的路径特征;依次按照路径长度从小至大的顺序,利用拼接网络将路径特征进行拼接得到miRNA-基因节点对的路径特征,再将miRNA特征、基因特征以及miRNA-基因节点对的路径特征拼接,以得到的miRNA-基因路径拼接特征输入多层感知机网络,对miRNA-基因关联关系进行预测;
步骤4:对模型参数进行初始化,将已知关联关系的miRNA-基因数据按照步骤1-2处理后,输入步骤3得到的模型中,进行训练;
步骤5:利用训练好的模型,对每个未知关联的miRNA-基因对进行预测,将预测结果按照从大到小排序,生成miRNA-基因的潜在关联列表。
2.根据权利要求1所述的方法,其特征在于,将所有节点进行特征映射具体是指将miRNA和基因投影到同一维度的特征映射空间中,得到miRNA和基因的初始特征HM[hm*m],HT[ht*n],其中m和n分别表示miRNA和基因的数目,hm和ht分别表示每个miRNA和基因的特征,且特征维度相同。
3.根据权利要求1所述的方法,其特征在于,获取异构信息网络中miRNA-基因节点对之间的路径具体是指:
在异构信息网络中,以miRNA为起始节点,基因为终止节点,进行随机游走,收集miRNA-基因节点对的不同路径长度的所有路径实例集合。
4.根据权利要求1所述的方法,其特征在于,设定miRNA-基因节点对之间的路径长度取值为2和3,在异构信息网络中,以miRNA为起始节点,基因为终止节点,分别基于路径长度2和3进行随机游走,收集miRNA-基因节点对的路径长度为2和3的路径实例集合P2和P3
5.根据权利要求1所述的方法,其特征在于,所述多层感知机网络中每一层维度分别为128,64,1,且多层感知机网络中最后一层的激活函数设置为sigmoid。
6.根据权利要求1所述的方法,其特征在于,在模型训练过程中,初始化步骤3中所得模型中的各个参数,包括节点特征映射矩阵、深度卷积神经网络中卷积层中的卷积核和偏置项、全连接层的权值矩阵以及偏置向量;对miRNA-基因节点对的路径最大长度、路径实例最大数量以及训练过程中的最大迭代次数和学习率进行设定;采用交叉损失函数作为整个模型的损失值,进行逐层反向传播,利用Adam迭代更新模型中的参数,其中,交叉损失函数的表达式如下:
Figure FDA0002959914640000021
其中,Y表示已知关联关系的miRNA-基因数据训练集的大小,y表示输入数据的真实标签,
Figure FDA0002959914640000022
表示模型的预测标签。
7.根据权利要求1所述的方法,其特征在于,所述miRNA-基因的异构信息网络为G=(V,E),其中,V表示异构信息网络中miRNA和基因节点集合,E表示异构信息网络中节点之间边的集合;
所述异构信息网络中节点之间边包括各节点的相似邻接边和miRNA与基因的关联边;
所述各节点的相似邻接边,是根据miRNA序列信息,获取各miRNA的相似miRNA;根据基因功能相似性数据,获取各基因的相似基因;针对每个节点,选取与各节点最相似的十个节点,作为各节点的相似节点,以各节点与对应的相似节点之间的连接边,作为各节点的相似邻接边;
所述miRNA与基因的关联边,是根据miRNA与基因的关联数据,提取出存在关联关系的miRNA与基因之间的连接边。
8.一种基于深度学习异构信息网络的miRNA-基因关系预测系统,其特征在于,包括:
异构信息网络构建模块:用于根据节点之间的相似信息和关联信息,构建miRNA-基因的异构信息网络;
路径序列矩阵提取模块:通过将所有节点进行特征映射,获取异构信息网络中节点的特征和miRNA-基因节点对之间的路径,得到miRNA-基因节点对之间的路径序列矩阵;
关联预测网络模型构建模块:用于构建基于深度卷积神经网络和多层感知机的关联预测网络模型;所述基于深度卷积神经网络和多层感知机的关联预测网络包括依次连接的深度卷积神经网络、拼接网络以及多层感知机网络;
利用深度卷积神经网络提取miRNA-基因节点对的路径序列矩阵中各种路径长度的路径特征;依次按照路径长度从小至大的顺序,利用拼接网络将路径特征进行拼接得到miRNA-基因节点对的路径特征,再将miRNA特征、基因特征以及miRNA-基因节点对的路径特征拼接,以得到的miRNA-基因路径拼接特征输入多层感知机网络,对miRNA-基因关联关系进行预测;
训练模块:用于对模型参数进行初始化,将已知关联关系的miRNA-基因数据调用路径序列矩阵提取模块提取出路径序列矩阵,对模型进行训练;
预测模块:利用训练好的模型,对每个未知关联的miRNA-基因对进行预测,将预测结果按照从大到小排序,生成miRNA-基因的潜在关联列表。
9.根据权利要求8所述的系统,其特征在于,所述训练模块,在训练过程中,采用交叉损失函数作为整个模型的损失值,进行逐层反向传播,利用Adam迭代更新模型中的参数。
10.一种可读存储介质,包括计算机程序指令,其特征在于:所述计算机程序指令被处理终端执行时使所述处理终端执行权利要求1至7任一项所述的方法。
CN202110233966.XA 2021-03-03 2021-03-03 基于深度学习异构信息网络的miRNA-基因关系预测方法及系统 Active CN112951328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110233966.XA CN112951328B (zh) 2021-03-03 2021-03-03 基于深度学习异构信息网络的miRNA-基因关系预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110233966.XA CN112951328B (zh) 2021-03-03 2021-03-03 基于深度学习异构信息网络的miRNA-基因关系预测方法及系统

Publications (2)

Publication Number Publication Date
CN112951328A true CN112951328A (zh) 2021-06-11
CN112951328B CN112951328B (zh) 2022-04-22

Family

ID=76247293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110233966.XA Active CN112951328B (zh) 2021-03-03 2021-03-03 基于深度学习异构信息网络的miRNA-基因关系预测方法及系统

Country Status (1)

Country Link
CN (1) CN112951328B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838527A (zh) * 2021-09-26 2021-12-24 平安科技(深圳)有限公司 一种靶基因预测模型的生成方法及装置、存储介质
CN113889183A (zh) * 2021-09-07 2022-01-04 上海科技大学 基于神经网络的protac分子降解率的预测系统及其构建方法
CN114399028A (zh) * 2022-01-14 2022-04-26 马上消费金融股份有限公司 信息处理方法、图卷积神经网络训练方法及电子设备
CN115240777A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于图神经网络的合成致死基因预测方法、装置、终端及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
EP3550568A1 (en) * 2018-04-07 2019-10-09 Tata Consultancy Services Limited Graph convolution based gene prioritization on heterogeneous networks
CN111554360A (zh) * 2020-04-27 2020-08-18 大连理工大学 基于生物医学文献和领域知识数据的药物重定位预测方法
CN111681705A (zh) * 2020-05-21 2020-09-18 中国科学院深圳先进技术研究院 一种miRNA-疾病关联预测方法、系统、终端以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3550568A1 (en) * 2018-04-07 2019-10-09 Tata Consultancy Services Limited Graph convolution based gene prioritization on heterogeneous networks
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN111554360A (zh) * 2020-04-27 2020-08-18 大连理工大学 基于生物医学文献和领域知识数据的药物重定位预测方法
CN111681705A (zh) * 2020-05-21 2020-09-18 中国科学院深圳先进技术研究院 一种miRNA-疾病关联预测方法、系统、终端以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAWEI LUO ET AL.: "A novel approach for predicting microRNA-disease associations by unbalanced bi-random walk on heterogeneous network", 《JOURNAL OF BIOMEDICAL INFORMATICS》 *
高鹏等: "一种基于拓扑信息的预测疾病相关的MicroRNAs方法", 《电子学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113889183A (zh) * 2021-09-07 2022-01-04 上海科技大学 基于神经网络的protac分子降解率的预测系统及其构建方法
CN113889183B (zh) * 2021-09-07 2024-03-26 上海科技大学 基于神经网络的protac分子降解率的预测系统及其构建方法
CN113838527A (zh) * 2021-09-26 2021-12-24 平安科技(深圳)有限公司 一种靶基因预测模型的生成方法及装置、存储介质
CN113838527B (zh) * 2021-09-26 2023-09-01 平安科技(深圳)有限公司 一种靶基因预测模型的生成方法及装置、存储介质
CN114399028A (zh) * 2022-01-14 2022-04-26 马上消费金融股份有限公司 信息处理方法、图卷积神经网络训练方法及电子设备
CN115240777A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于图神经网络的合成致死基因预测方法、装置、终端及介质
CN115240777B (zh) * 2022-08-10 2024-02-02 上海科技大学 基于图神经网络的合成致死基因预测方法、装置、终端及介质

Also Published As

Publication number Publication date
CN112951328B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN112951328B (zh) 基于深度学习异构信息网络的miRNA-基因关系预测方法及系统
CN107862173B (zh) 一种先导化合物虚拟筛选方法和装置
CN107545151B (zh) 一种基于低秩矩阵填充的药物重定位方法
Jiang et al. Predicting protein function by multi-label correlated semi-supervised learning
CN109829162A (zh) 一种文本分词方法及装置
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
CN113673482B (zh) 基于动态标签分配的细胞抗核抗体荧光识别方法及系统
Osama et al. Machine learning techniques in plant biology
Wang et al. A novel matrix of sequence descriptors for predicting protein-protein interactions from amino acid sequences
CN114743600A (zh) 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法
Singh et al. Towards probabilistic generative models harnessing graph neural networks for disease-gene prediction
CN110942803A (zh) 一种LncRNA和环境因素关联关系的高效预测方法
Zhang et al. Deep compression of probabilistic graphical networks
CN113539372A (zh) 一种LncRNA和疾病关联关系的高效预测方法
CN113223622B (zh) 基于元路径的miRNA-疾病关联预测方法
KR102000832B1 (ko) miRNA-mRNA 연관도 분석 방법 및 miRNA-mRNA 네트워크 생성 장치
CN116646002A (zh) 多非编码rna和疾病关联性预测方法、装置、设备及介质
Sanchez Reconstructing our past˸ deep learning for population genetics
CN115206423A (zh) 基于标签指导的蛋白质作用关系预测方法
McClannahan et al. Classification of Long Noncoding RNA Elements Using Deep Convolutional Neural Networks and Siamese Networks
JP2023535285A (ja) 変異体病原性スコアリング及び分類、並びにそれらの使用
Zhang et al. msiDBN: a method of identifying critical proteins in dynamic PPI networks
Ramachandran et al. Deep learning for better variant calling for cancer diagnosis and treatment
CN113539366A (zh) 一种用于预测药物靶标的信息处理方法及装置
Shi et al. Semi-supervised learning protein complexes from protein interaction networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant