CN112270958A - 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 - Google Patents
一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 Download PDFInfo
- Publication number
- CN112270958A CN112270958A CN202011144398.8A CN202011144398A CN112270958A CN 112270958 A CN112270958 A CN 112270958A CN 202011144398 A CN202011144398 A CN 202011144398A CN 112270958 A CN112270958 A CN 112270958A
- Authority
- CN
- China
- Prior art keywords
- lncrna
- mirna
- sequence
- capsule
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013135 deep learning Methods 0.000 title claims abstract description 24
- 239000002775 capsule Substances 0.000 claims abstract description 49
- 239000002679 microRNA Substances 0.000 claims abstract description 45
- 108091070501 miRNA Proteins 0.000 claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 230000000306 recurrent effect Effects 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 6
- 108020005198 Long Noncoding RNA Proteins 0.000 claims abstract 15
- 230000004927 fusion Effects 0.000 claims description 15
- 238000002474 experimental method Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims description 2
- 238000010168 coupling process Methods 0.000 claims description 2
- 238000005859 coupling reaction Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 7
- 238000010801 machine learning Methods 0.000 abstract description 6
- 230000002457 bidirectional effect Effects 0.000 abstract 1
- 238000011005 laboratory method Methods 0.000 abstract 1
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 50
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 5
- 241000196324 Embryophyta Species 0.000 description 5
- 108700011259 MicroRNAs Proteins 0.000 description 5
- 239000002773 nucleotide Substances 0.000 description 5
- 125000003729 nucleotide group Chemical group 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 240000008042 Zea mays Species 0.000 description 4
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004880 explosion Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 235000009973 maize Nutrition 0.000 description 3
- 108091027963 non-coding RNA Proteins 0.000 description 3
- 102000042567 non-coding RNA Human genes 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108020005089 Plant RNA Proteins 0.000 description 1
- 108020004459 Small interfering RNA Proteins 0.000 description 1
- 240000006394 Sorghum bicolor Species 0.000 description 1
- 235000011684 Sorghum saccharatum Nutrition 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012214 genetic breeding Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 108091080891 miR9678 stem-loop Proteins 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000014493 regulation of gene expression Effects 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
一种基于分层深度学习miRNA‑lncRNA互作关系的预测方法,其属于生物信息学领域。本发明的特征提取方法采用独热编码(one‑hot)和k‑mer编码,预测模型由并行胶囊网络、融合注意力机制的独立递归神经网络(IndRNN)和双向长短期记忆网络(Bi‑LSTM)组成。将序列派生的特征折叠形成维数为18×19的序列特征图像,输入到二维卷积中学习高级特征,再利用miRNA‑lncRNA相互作用序列的各种信息组合的衍生特征作为胶囊网络的输入,最终将其融合作为Bi‑LSTM的输入,进而对单一植物的miRNA与lncRNA进行互作关系预测。相比于传统生物实验室的方法,该方法数据处理量更大,更节省时间;与传统机器学习方法相比,该方法所需的特征更少,准确率更高。
Description
技术领域
本发明涉及生物信息学领域,具体涉及一种基于分层深度学习miRNA-lncRNA互作关系的预测方法。
背景技术
非编码RNA(ncRNA)在很多动生命活动方面起着重要的调节作用,而微小RNA(miRNA)与长非编码RNA(lncRNA)的相互作用更为重要,其互作关系的研究不仅有助于深入分析基因间生物学功能,也可为疾病的诊治和的遗传育种方面提供新思路。目前,miRNA-lncRNA互作关系的预测大多使用生物实验和传统机器学习方法。
自然界的生物细胞基因组大家庭中含有各种各样RNA,有很多数RNA不参与蛋白质的编码,大约只有1-2%能够编码蛋白质。这些不参与蛋白质编码的RNA称为非编码RNA(no-coding RNA)。长度约20核苷酸到24核苷酸的microRNAs(miRNA),长度大于200核苷酸的lncRNA的相互作用在基因表达调控中起着重要作用,并与物种进化和疾病发生密切相关。miRNA与lncRNA之间也存在交互关系。MiRNA(miR9678)以lncRNA为靶点,触发小干扰RNAs的产生,从而影响生物学特性的表达。因此,miRNA与lncRNA的相互作用具有生物学意义,预测miRNA与lncRNA的相互作用是了解基因表达和细胞功能的关键步骤,有助于研究疾病的发病机制和寻找药物作用的最佳靶点。
对于miRNA与lncRNA相互调控机制的研究大多集中在动物和人类癌症方面,植物方面的研究相对较少。传统单一的深度学习方法有些限制,如CNN通过卷积运算从输入信息中提取深度特征,忽略了特征之间的相关性。此外,合并操作会丢失一些信息,这限制了CNN的性能。为了避免这些问题,胶囊网络被广泛使用。胶囊网络由与每个胶囊中包含的信息相对应的向量表示,下层胶囊代表输入数据的特征信息,上层胶囊代表下层胶囊特征之间的聚集和相关性。
研究miRNA-miRNA的相互调控网络是新热点。现有鉴定miRNA-lncRNA互作关系预测的方法主要分为生物实验和计算机方法这两类。生物实验鉴定费时费力,成本高昂,对于样本数量特别大的不适合鉴定。传统计算预测方法则是利用机器学习相关算法建立预测模型,通过提取miRNA靶基因的序列特征和结构特征作为输入数据,构建分类器模型,但机器学习方法涉及了过多的人工干预且特征提取过程复杂。为克服两者的弊端,利用多网络深度学习融合模型可自动学习特征的特点来实现分类预测是一个突破点。
发明内容
本发明提出一种基于分层深度学习miRNA-miRNA互作关系的预测方法,该方法解决了传统生物实验的局限性、传统机器学习特征提取的不确定性,提高了miRNA-miRNA预测的准确性。
为了达到上述技术效果,本发明的技术方案如下:
一种基于分层深度学习miRNA-lncRNA互作关系的预测方法,包括以下步骤:
S1:数据的收集和预处理。由于没有miRNA和lncRNA相互作用对的公共数据库,本发明使用的玉米miRNA和lncRNA数据集是分别是公共数据库PNRD(http://structuralbiology.cau.edu.cn/PNRD/)和GreeNC(http://greenc.sciencedesigners.com/wiki/Main Pag)下载。
S2:特征提取。为了真实有效地表达序列信息,同时考虑局部序列信息和全局序列信息,根据植物RNA序列特点,将miRNA序列和lncRNA序列成一条单链序列,并对这条单链序列进行k-mer组合统计特征以及对序列二级结构进行one-hot编码。
S3:构建融合深度学习预测模型。本发明提出了一种融合两种深度学习网络进行miRNA-lncRNA互作关系预测的模型。该模型由并行胶囊网络、融合注意机制的独立递归神经网络和Bi-LSTM网络组成。
进一步地,步骤S1中数据收集和预处理的具体过程包括:
S11:首先,将得到植物miRNA和lncRNA数据集去重,然后分别上传到在线软件psRNATarget(https://plantgrn.noble.org/psRNATarget/analysis)上,得出实验需要的miRNA-lncRNA互作关系对中对应的miRNA和lncRNA名称,根据miRNA-lncRNA的名称从原始的数据集序列中提取序列。
S12:对psRNATarget软件得出的miRNA-lncRNA互作关系对经S11步骤处理并去重后,将其作为正样本。由于lncRNA序列长度是大于200nt,miRNA的长度大约为20nt-24nt,所以这条合并序列中lncRNA所占比重大,故将总lncRNA序列分为参与互作关系lncRNA和未参与互作关系的lncRNA,并将这些未参与互作关系的lncRNA,和之前所得到正样本中lncRNA进行相似性对比,去除相似性高于80%的lncRNA样本。
S13:将S12步骤种不参于互作关系的lncRA随机组合miRNA,形成负样本数据集。为确保正样本和负样本的数量相同,采用随机抽样方法,从负样本中抽取的样本数保证和正样本相同。
进一步地,步骤S2中特征提取的具体过程包括:
S21:考虑到序列的全局位置信息,我们采用one-hot编码来表征lncRNA-miRNA序列的二级特征。首先,利用bpRNA获得lncRNA和miRNA二级结构的通用表达,分别为:茎(S)、内环(I)、发卡环(H)、外环(E)、多环(M)、凸出(B)、段(X);其次,将两个序列组合成一个公共序列,用one-hot编码将其表示为一个7行N列的矩阵,其中N为最长长度。对于小于N的序列,将对空列执行零填充操作。例如,S被编码为(1,0,0,0,0,0,0)T,I被编码为(0,1,0,0,0,0,0)T,H编码为(0,0,1,0,0,0,0,0,0)T,E编码为(0,0,0,1,0,0,0)T,M被编码为(0,0,0,0,1,0,0)T,B编码为(0,0,0,0,0,1,0)T,X编码为(0,0,0,0,0,1)T,零填充编码为(0,0,0,0,0,0,0)T。将RNA序列编码成二进制矩阵后,下面就可以输入到设计好的卷积神经网络中进行训练、调参。
S22:k-mer组合统计特征。miRNA和lncRNA序列衍生的(内在的)特征包括k-mer频率、GC含量、碱基对数和最小自由能(MFE)。每个子序列在生物序列中的分布可以用序列中的k-mer频率信息来表示,从而计算出序列的相似性。对于miRNA-lncRNA序列使用k-mer算法用于提取非重叠子序列(生物的话)的每个序列,计算k-mer子序列的频率在每一个序列,并构造一个频率矩阵。为了确定miRNA-lncRNA序列中差异最大的k-mers,提高模型的分类效果,我们选择了不同k值的k-mers组合方法。如果序列的长度为L,则长度为k的k-mer子序列的数量为sk=L-k+1。该序列由A、U、C和G四个碱基组成,因此长度为L的k-mers有4k可能的结构。此外,二级结构的稳定性也与RNA中核苷酸C和G的含量有关。G和C含量越高,二级结构越稳定。本文使用ViennaRNA工具得到二次结构的点括号表示,通过计算得到形成二次结构所释放的自由能。在本实验中,只选取k为2、3和4,将2-mer和3-mer以及4-mer与miRNAh和lncRNA的GC含量、碱基对数和最小自由能结合,因此特征共有16+64+256+3+3=342维。
进一步地,步骤S3中构建融合深度学习网络预测模型的具体过程包括:
S31:模型输入分为两部分,将序列k-mer组合统计特征和二级结构报的one-hot编码分别输入到并行的胶囊网络、融合注意机制的独立递归神经网络中。
S32:IndRNN层,循环神经网络在序列学习问题中获得广泛应用,已经有了很多的成果。但是现在IndRNN,例如:梯度消失和梯度爆炸问题,循环神经网络通常难以训练。为解决本网络收敛时的梯度爆炸和消失问题等问题,本发明引入独立循环神经网络(IndRNN)。
S33:CapsNet层,胶囊神经网络(Capsule Network,CapsNet)是由Hinton在2017年10月份首次提出的新型深度学习网络架构,用于图像的分类,其不同于卷积神经网络的矢量输入输出,胶囊层的输入输出均为向量,并且采用动态路由算法来更新胶囊参数。
与现有技术相比,本发明所能达到的有益效果是:
1、本发明利用了深度学习的技术来对miRNA-lncRNA互作关系进行预测,比传统的实验室的方式要更加省时省力,且能处理的数据更大。
2、本发明提出了一种融合两种深度学习网络的预测miRNA-lncRNA互作关系的模型,克服了传统机器学习需要大量特征的问题,得出的预测准确率更高。
附图说明
图1为本发明两种深度学习网络融合构建预测模型示意图。
图2为本发明数据预处理的流程示意图。
图3为本发明one-hot编码提取二级结构特征示例图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1-3所示,一种基于深度学习miRNA-miRNA互作关系的预测方法,包括以下步骤:
S1:数据的收集和预处理。由于没有miRNA和lncRNA相互作用对的公共数据库,本发明使用的玉米miRNA和lncRNA数据集是分别是公共数据库PNRD(http://structuralbiology.cau.edu.cn/PNRD/)和GreeNC(http://greenc.sciencedesigners.com/wiki/Main Pag)下载。
S2:特征提取。为了有效地表达序列信息,同时考虑局部序列信息和全局序列信息,根据miRNA和lncRNA序列特点,将其合并成一条单链序列,并对序列进行k-mer编码以及序列二级结构进行one-hot编码。
S3:构建融合深度学习预测模型。本发明提出了一种融合两种深度学习网络进行miRNA-lncRNA互作关系预测的模型。该模型由并行胶囊网络、融合注意机制的独立递归神经网络和Bi-LSTM网络组成。将序列派生的特征折叠形成维数为18×19的序列特征图像,输入到二维卷积中学习高级特征。此外,我们进一步利用miRNA-lncRNA相互作用序列的各种信息组合的衍生特征作为胶囊网络的输入。IndRNN层集成了注意机制,学习miRNA-lncRNA交互序列二级结构的全局位置信息。最后,将两层的输出融合到Bi-LSTM网络中,学习miRNA-lncRNA交互序列特征之间的依赖关系,进而完成miRNA-lncRNA的预测。
进一步地,步骤S1中数据收集和预处理的具体过程包括:
S11:考虑到种间序列数的差异,选择了玉米的miRNA和lncRNA进行试验。此外,为了减少序列同源性的重复问题,对序列进行了去重处理。从玉米、高粱和短梗草的数据集中分别筛选出长度为19nt~22nt的MiRNA序列和长度为4000nt~8516nt的lncRNA序列。
S12:首先,将得到植物miRNA和lncRNA数据集去重,然后分别上传到在线软件psRNATarget(https://plantgrn.noble.org/psRNATarget/analysis)上,得出实验需要的miRNA-lncRNA互作关系对中对应的miRNA和lncRNA名称,根据miRNA-lncRNA的名称从原始的数据集序列中提取序列。
S13:对psRNATarget软件得出的miRNA-lncRNA互作关系对经S12步骤处理并去重后,将其作为正样本。由于lncRNA序列长度是大于200nt,miRNA的长度大约为20nt-24nt,所以这条合并序列中lncRNA所占比重大,故将总lncRNA序列分为参与互作关系lncRNA和未参与互作关系的lncRNA,并将这些未参与互作关系的lncRNA,和之前所得到正样本中lncRNA进行相似性对比,去除相似性高于80%的lncRNA样本。
S14:将S13步骤种不参于互作关系的lncRA随机组合miRNA,形成负样本数据集。为确保正样本和负样本的数量相同,采用随机抽样方法,从负样本中抽取的样本数保证和正样本相同。
进一步地,步骤S2中特征提取的具体过程包括:
S21:考虑到序列的全局位置信息,我们采用one-hot编码来表征lncRNA-miRNA序列的二级特征。首先,利用bpRNA获得lncRNA和miRNA二级结构的通用表达,分别为:茎(S)、内环(I)、发卡环(H)、外环(E)、多环(M)、凸出(B)、段(X);其次,将两个序列组合成一个公共序列,用one-hot编码将其表示为一个7行N列的矩阵,其中N为最长长度。对于小于N的序列,将对空列执行零填充操作。例如,S被编码为(1,0,0,0,0,0,0)T,I被编码为(0,1,0,0,0,0,0)T,H编码为(0,0,1,0,0,0,0,0,0)T,E编码为(0,0,0,1,0,0,0)T,M被编码为(0,0,0,0,1,0,0)T,B编码为(0,0,0,0,0,1,0)T,X编码为(0,0,0,0,0,1)T,零填充编码为(0,0,0,0,0,0,0)T。将RNA序列编码成二进制矩阵后,下面就可以输入到设计好的卷积神经网络中进行训练、调参。
S22:k-mer组合统计特征。miRNA和lncRNA序列衍生的(内在的)特征包括k-mer频率、GC含量、碱基对数和最小自由能(MFE)。每个子序列在生物序列中的分布可以用序列中的k-mer频率信息来表示,从而计算出序列的相似性。对于miRNA-lncRNA序列使用k-mer算法用于提取非重叠子序列(生物的话)的每个序列,计算k-mer子序列的频率在每一个序列,并构造一个频率矩阵。为了确定miRNA-lncRNA序列中差异最大的k-mers,提高模型的分类效果,我们选择了不同k值的k-mers组合方法。如果序列的长度为L,则长度为k的k-mer子序列的数量为sk=L-k+1。该序列由A、U、C和G四个碱基组成,因此长度为L的k-mers有4k可能的结构。此外,二级结构的稳定性也与RNA中核苷酸C和G的含量有关。G和C含量越高,二级结构越稳定。本文使用ViennaRNA[27]工具得到二次结构的点括号表示,通过计算得到形成二次结构所释放的自由能。在本实验中,只选取k为2、3和4,将2-mer和3-mer以及4-mer与miRNAh和lncRNA的GC含量、碱基对数和最小自由能结合,因此特征共有16+64+256+3+3=342维。
进一步地,步骤S3中构建融合深度学习网络预测模型的具体过程包括:
S31:模型输入分为两部分,将序列k-mer组合统计特征和二级结构报的one-hot编码分别输入到并行的胶囊网络、融合注意机制的独立递归神经网络中。
S32:IndRNN层,循环神经网络在序列学习问题中获得广泛应用,已经有了很多的成果。但是现在IndRNN,例如:梯度消失和梯度爆炸问题,循环神经网络通常难以训练。为解决本网络收敛时的梯度爆炸和消失问题等问题,本发明引入独立循环神经网络(IndRNN)。
S33:CapsNet层,胶囊神经网络(Capsule Network,CapsNet)并且采用动态路由算法来更新胶囊参数。在胶囊网络中,激活函数既保留了输入向量的方向,又将输入向量的模压缩到(0,1)之间.输出vj的计算公式如下:
其中,vj是胶囊j的矢量输出,sj是总输入矢量。胶囊网络第一层为一个激活函数为ReLU的卷积层,除了第一层胶囊外,所有胶囊的总输入sj是对下面层胶囊的所有预测向量的加权求和,它是通过下面层胶囊的输出ui乘以权重矩阵Wij而得到的。公式如下:
其中cij是在动态路由过程中确定的耦合系数,表示每一个低层胶囊与其相对应的高层胶囊之间的权重。对于每个胶囊i来说,所有的权重cij的总和为1。cij由采用的动态路由算法中的sof tmax函数决定,计算公式如下:
其中bij是胶囊i与胶囊j的对数概率,用来更新cij,并将其初始化为0,在路由迭代过程中,bij会不断更新,更新公式如下:
S34:融合输出层,联合处理层得到的特征q和规则特征k完成融合,具体操作是将规则特征k拼接到语义特征q之后,得到融合特征m,公式如下:
实施例2
本发明基于深度学习miRNA-miRNA互作关系的预测方法的具体步骤:
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
步骤1:先通过将滤波后的miRNA和lncRNA导入psRNATarget软件进行预测,共得到18241对miRNA-lncRNA相互作用对作为阳性数据集。由于miRNA的数量少,序列长度短,在相互作用对中miRNA的比例相对较小,因此本实验主要处理lncRNA序列。首先,将所有lncRNA分为两类,一类参与相互作用,另一类不参与lncRNA与miRNA的相互作用。
步骤2:然后,利用neederman-Wunsch算法对两类lncRNA进行相似度比较,剔除相似度在80%以上的lncRNA样本。最后,将不参与lncRNA与miRNA相互作用的lncRNA与所有miRNA随机组合,得到相似性去除后的负样本数据集。为了保证正、负样本的平衡,采用随机抽样的方法,得到与正样本相同数量的负样本。将正负数据集随机抽取,形成实验所需的数据集,共36482个。
步骤3:为了保证实验结果的准确性和可靠性,实验采用了5折交叉验证。实验数据集平均分为5组,4组用于训练,1组用于验证。交替进行5次实验,取5次实验的平均值作为最终结果。期间,本发明与其他深度学习方法得到的准确率进行对比,最终结果图如下表所示。
以上实验结果表面本申请中方法(Capsule+IndRNN)明显优于其他深度学习网络。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (1)
1.一种基于分层深度学习miRNA-lncRNA互作关系的预测方法,其特征在于,包括以下步骤:
S1:数据的收集和预处理:植物的miRNA和lncRNA数据集是分别来自公共数据库PNRD和GreeNC;
S11:首先,将得到植物miRNA和lncRNA数据集去重,经在线软件psRNATarget处理,得出实验需要的miRNA-lncRNA互作关系对中对应的miRNA和lncRNA名称,根据miRNA-lncRNA的名称从原始的数据集序列中提取序列;
S12:对psRNATarget软件得出的miRNA-lncRNA互作关系对经S11步骤处理并去重后,将其作为正样本数据集;将总lncRNA序列分为参与互作关系lncRNA和未参与互作关系的lncRNA,并将未参与互作关系的lncRNA与正样本中lncRNA进行相似性对比,去除相似性高于80%的lncRNA样本;
S13:将S12步骤中未参于互作关系的lncRA随机组合miRNA,形成负样本数据集;采用随机抽样方法,从负样本中抽取的样本数保证和正样本相同;
S2:特征提取,同时考虑局部序列信息和全局序列信息,根据miRNA和lncRNA序列特点,将其合并成一条单链序列,并对序列进行k-mer编码以及序列二级结构进行one-hot编码;具体步骤为:
S21:采用one-hot编码来表征lncRNA-miRNA序列的二级特征:
利用bpRNA获得lncRNA和miRNA二级结构的通用表达,分别为:茎(S)、内环(I)、发卡环(H)、外环(E)、多环(M)、凸出(B)、段(X);其次,将两个序列组合成一个公共序列,用one-hot编码将其表示为一个7行N列的矩阵,其中N为最长长度;对于小于N的序列,将对空列执行零填充操作;S编码为(1,0,0,0,0,0,0)T,I被编码为(0,1,0,0,0,0,0)T,H编码为(0,0,1,0,0,0,0,0,0)T,E编码为(0,0,0,1,0,0,0)T,M被编码为(0,0,0,0,1,0,0)T,B编码为(0,0,0,0,0,1,0)T,X编码为(0,0,0,0,0,1)T,零填充编码为(0,0,0,0,0,0,0)T;将RNA序列编码成二进制矩阵后,输入到设计好的卷积神经网络中进行训练、调参;
S22:k-mer组合统计特征:
miRNA和lncRNA序列衍生的特征包括k-mer频率、GC含量、碱基对数和最小自由能;每个子序列在生物序列中的分布用序列中的k-mer频率信息来表示,计算序列的相似性;对于miRNA-lncRNA序列使用k-mer算法提取非重叠子序列的每个序列,计算k-mer子序列的频率并在每一个序列构造一个频率矩阵;选取k为2、3和4,将2-mer、3-mer、4-mer与miRNAh和lncRNA的GC含量、碱基对数和最小自由能结合,特征共有342维;
S3:构建融合深度学习预测模型;该模型由并行胶囊网络、融合注意机制的独立递归神经网络(IndRNN)和Bi-LSTM网络组成;将序列派生的特征折叠形成维数为18×19的序列特征图像,输入到二维卷积中学习高级特征;再利用miRNA-lncRNA相互作用序列的信息组合的衍生特征作为胶囊网络的输入;IndRNN层集成注意机制,学习miRNA-lncRNA交互序列二级结构的全局位置信息;具体采用以下步骤:
S31:模型输入分为两部分,将序列k-mer组合统计特征和二级结构报的one-hot编码分别输入到并行的胶囊网络、独立递归神经网络中;
S32:独立递归神经网络IndRNN层:IndRNN层集成注意机制,学习miRNA-lncRNA交互序列二级结构的全局位置信息;
S33:胶囊神经网络CapsNet层,采用动态路由算法来更新胶囊参数;在胶囊神经网络中,激活函数既保留了输入向量的方向,又将输入向量的模压缩到(0,1)之间,输出vj的计算公式如下:
其中,vj是胶囊j的矢量输出,sj是总输入矢量;胶囊神经网络第一层为一个激活函数为ReLU的卷积层,除了第一层胶囊外,所有胶囊的总输入sj是对下面层胶囊的所有预测向量的加权求和,通过下面层胶囊的输出ui乘以权重矩阵Wij而得到的;公式如下:
其中:cij是在动态路由过程中确定的耦合系数,表示每一个低层胶囊与其相对应的高层胶囊之间的权重;对于每个胶囊i来说,所有的权重cij的总和为1;cij由采用的动态路由算法中的softmax函数决定,计算公式如下:
其中:bij是胶囊i与胶囊j的对数概率,用来更新cij,并将其初始化为0,在路由迭代过程中,bij会不断更新,更新公式如下:
S34:融合输出层,联合处理层得到的特征q和规则特征k完成融合,具体操作是将规则特征k拼接到语义特征q之后,得到融合特征m,公式如下:
将两层的输出融合到Bi-LSTM网络中,学习miRNA-lncRNA交互序列特征之间的依赖关系,进而完成miRNA-lncRNA的预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011144398.8A CN112270958B (zh) | 2020-10-23 | 2020-10-23 | 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011144398.8A CN112270958B (zh) | 2020-10-23 | 2020-10-23 | 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270958A true CN112270958A (zh) | 2021-01-26 |
CN112270958B CN112270958B (zh) | 2023-06-20 |
Family
ID=74341253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011144398.8A Active CN112270958B (zh) | 2020-10-23 | 2020-10-23 | 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270958B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113140255A (zh) * | 2021-04-19 | 2021-07-20 | 湖南大学 | 一种预测植物lncRNA-miRNA相互作用的方法 |
CN114121149A (zh) * | 2021-12-01 | 2022-03-01 | 天津理工大学 | 一种基于双向gru和注意力机制的rna二级结构预测算法 |
WO2023044931A1 (zh) * | 2021-09-27 | 2023-03-30 | 京东方科技集团股份有限公司 | Rna-蛋白质相互作用预测方法、装置、介质及电子设备 |
CN116052774A (zh) * | 2022-07-04 | 2023-05-02 | 湖南中医药大学 | 基于深度学习的关键miRNA识别方法及系统 |
WO2023130200A1 (zh) * | 2022-01-04 | 2023-07-13 | 京东方科技集团股份有限公司 | 向量模型训练方法、负样本生成方法、介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934252A (zh) * | 2017-03-08 | 2017-07-07 | 华南理工大学 | 一种三方网络资源传播方法 |
CN108985515A (zh) * | 2018-07-24 | 2018-12-11 | 国网河南省电力公司电力科学研究院 | 一种基于独立循环神经网络的新能源出力预测方法及系统 |
CN110689965A (zh) * | 2019-10-10 | 2020-01-14 | 电子科技大学 | 一种基于深度学习的药物靶点亲和力预测方法 |
US20200135017A1 (en) * | 2018-10-29 | 2020-04-30 | Beihang University | Transportation network speed foreeasting method using deep capsule networks with nested lstm models |
CN111341386A (zh) * | 2020-02-17 | 2020-06-26 | 大连理工大学 | 引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法 |
-
2020
- 2020-10-23 CN CN202011144398.8A patent/CN112270958B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934252A (zh) * | 2017-03-08 | 2017-07-07 | 华南理工大学 | 一种三方网络资源传播方法 |
CN108985515A (zh) * | 2018-07-24 | 2018-12-11 | 国网河南省电力公司电力科学研究院 | 一种基于独立循环神经网络的新能源出力预测方法及系统 |
US20200135017A1 (en) * | 2018-10-29 | 2020-04-30 | Beihang University | Transportation network speed foreeasting method using deep capsule networks with nested lstm models |
CN110689965A (zh) * | 2019-10-10 | 2020-01-14 | 电子科技大学 | 一种基于深度学习的药物靶点亲和力预测方法 |
CN111341386A (zh) * | 2020-02-17 | 2020-06-26 | 大连理工大学 | 引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113140255A (zh) * | 2021-04-19 | 2021-07-20 | 湖南大学 | 一种预测植物lncRNA-miRNA相互作用的方法 |
CN113140255B (zh) * | 2021-04-19 | 2022-05-10 | 湖南大学 | 一种预测植物lncRNA-miRNA相互作用的方法 |
WO2023044931A1 (zh) * | 2021-09-27 | 2023-03-30 | 京东方科技集团股份有限公司 | Rna-蛋白质相互作用预测方法、装置、介质及电子设备 |
CN114121149A (zh) * | 2021-12-01 | 2022-03-01 | 天津理工大学 | 一种基于双向gru和注意力机制的rna二级结构预测算法 |
WO2023130200A1 (zh) * | 2022-01-04 | 2023-07-13 | 京东方科技集团股份有限公司 | 向量模型训练方法、负样本生成方法、介质及设备 |
CN116052774A (zh) * | 2022-07-04 | 2023-05-02 | 湖南中医药大学 | 基于深度学习的关键miRNA识别方法及系统 |
CN116052774B (zh) * | 2022-07-04 | 2023-11-28 | 湖南中医药大学 | 基于深度学习的关键miRNA识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112270958B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270958B (zh) | 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法 | |
CN110070909B (zh) | 一种基于深度学习的融合多特征的蛋白质功能预测方法 | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
CN111681705A (zh) | 一种miRNA-疾病关联预测方法、系统、终端以及存储介质 | |
CN109308497A (zh) | 一种基于多标签网络的多向量表示学习方法 | |
CN111370073B (zh) | 一种基于深度学习的药物互作规则预测方法 | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
CN108427865B (zh) | 一种预测LncRNA和环境因素关联关系的方法 | |
CN107368707A (zh) | 基于us‑elm的基因芯片表达数据分析系统及方法 | |
CN111581974A (zh) | 一种基于深度学习的生物医学实体识别方法 | |
CN114582508B (zh) | 基于gcn和集成学习预测潜在关联的环状rna-疾病对的方法 | |
CN113436729A (zh) | 一种基于异构图卷积神经网络的合成致死相互作用预测方法 | |
CN115640529A (zh) | 一种新型的环状rna-疾病关联预测方法 | |
Qian et al. | CMIVGSD: circRNA-miRNA interaction prediction based on Variational graph auto-encoder and singular value decomposition | |
CN108920903B (zh) | 基于朴素贝叶斯的LncRNA与疾病的关联关系预测方法及系统 | |
CN113764034B (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
CN114093422A (zh) | 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其系统 | |
CN113539372A (zh) | 一种LncRNA和疾病关联关系的高效预测方法 | |
CN116543832A (zh) | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 | |
Guo et al. | An encoding-decoding framework based on CNN for circRNA-RBP binding sites prediction | |
CN114944191A (zh) | 一种基于网络爬虫和多模态特征的成分-靶点相互作用预测方法 | |
Koca et al. | Graph convolutional network based virus-human protein-protein interaction prediction for novel viruses | |
CN109918659B (zh) | 一种基于不保留最优个体遗传算法优化词向量的方法 | |
Zhao et al. | Adaptive Multi-view Graph Convolutional Network for Gene Ontology Annotations of Proteins | |
Cruz et al. | Detection of pre-micrornas with convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |