CN110021361A - 一种基于卷积神经网的miRNA靶基因预测方法 - Google Patents

一种基于卷积神经网的miRNA靶基因预测方法 Download PDF

Info

Publication number
CN110021361A
CN110021361A CN201810678350.1A CN201810678350A CN110021361A CN 110021361 A CN110021361 A CN 110021361A CN 201810678350 A CN201810678350 A CN 201810678350A CN 110021361 A CN110021361 A CN 110021361A
Authority
CN
China
Prior art keywords
data
mirna
data set
characteristic
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810678350.1A
Other languages
English (en)
Other versions
CN110021361B (zh
Inventor
万天根
龙冬阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810678350.1A priority Critical patent/CN110021361B/zh
Publication of CN110021361A publication Critical patent/CN110021361A/zh
Application granted granted Critical
Publication of CN110021361B publication Critical patent/CN110021361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提出了一种新的算法(CNNmiRT)来预测miRNA目标基因通过使用miRNA‑target基因间的互补、保守和可访问性的特征。由于对负相互作用的实验支持通常没有发表,也没有记录在数据库中,所以被验证的负样本位点的数量远低于正样本的位点。为了补偿,我们使用一个约束放松方法来构建四种平衡的实验验证训练数据集,即高度保守的正样本数据集,一个完全互补的正样本数据集,一个可访问的正样本数据集和一个负样本数据集。该方法不仅避免了不满足某些特征阈值的真实目标的错误滤波,而且解决了实验验证数据集的不平衡问题。然后我们应用卷积神经网络来预测miRNA的靶基因。

Description

一种基于卷积神经网的miRNA靶基因预测方法
技术领域
本发明涉及生物信息学领域,更具体地,涉及一种基于卷积神经网的miRNA靶基因预测方法。
背景技术
随着生物信息技术的高速发展,基因组学成为了人们从基因的本源的角度去研究疾病的产生的原因,而研究的核心的原则就是中心法则。中心法则是指遗传信息从DNA通过转录传递给RNA,再由RNA翻译成蛋白质的过程。遗传信息是从DNA流向RNA在传递给蛋白质,因此一般常说这是DNA的表达的过程,但是随着1993年Lee等人(Lee R C, Feinbaum R L,Ambros V. The C. elegans heterochronic gene lin-4 encodes small RNAs withantisense comp lementarity to lin-14[ J] .Cell , 1993, 75( 5) : 843-854.)对于miRNA的发现,改变人们对中心法则的认知,遗传信息的表达通路不只是和DNA是否显隐性表达有关,还和RNA是否得到表达有关。miRNA是一种小的,类似于siRNA的分子,由高等真核生物基因组编码,microRNAs通过和靶基因mRNA碱基配对引导沉默复合体(RISC)降解mRNA或阻碍其翻译。microRNAss在物种进化中相当保守,在植物、动物和真菌中发现的microRNAss只在特定的组织和发育阶段表达,microRNAs组织特异性和时序性,决定组织和细胞的功能特异性,表明microRNAs在细胞生长和发育过程的调节过程中起多种作用。
到目前为止,已经确定了38589个miRNA(miRBase 22 release)。尽管miRNA的研究进展迅速,但只有少数的目标基因被实验证实,目前已知的目标基因与已知的miRNA的认知是不一致的。miRNA的目标基因和功能的机制也仍然知之甚少。在这方面,揭示miRNA调控机制和miRNA真正识别目标mRNA的方法的发展变得越来越重要。S.-k.等人(S.-K. Kim, J.-W. Nam, J.-K. Rhee, W.-J. Lee, and B.-T. Zhang, “miTarget: microRNA targetgene prediction using asupport vector machine,” BMC Bioinf., vol. 7, no. 1,p. 411, 2006.)提出根据结构,热力学和位置特征使用径向基函数(RBF)的支持向量机(SVM)的方法来预测miRNA的靶基因。P. H. Reyes-Herrera等人(P. H. Reyes-Herrera,E. Ficarra, A. Acquaviva, and E. Macii,“miREE: miRNA recognition elementsensemble,” BMC Bioinf.,vol. 12, no. 1, p. 454, 2011.)提出先使用遗传算法生成一组序列数据,作为下一步SVM(RBF内核)的输入数据的方法。S. Bandyopadhyay等人(S.Bandyopadhyay, and R. Mitra, “TargetMiner: microRNA target prediction withsystematic identification of tissue-specific negative examples,” Bioinf.,vol. 25, no. 20, pp. 2625–31,Oct. 15, 2009.)也是提出使用带有RBF内核的SVM,但是数据包括数据集包含实验交互和推断负交互。M. Yousef等人(M. Yousef, S. Jung, A.V. Kossenkov, L. C. Showe, and M. K.Showe, “Na€ ıve Bayes for microRNAtarget predictions—Machinelearning for microRNA targets,” Bioinf., vol. 23,no. 22, pp. 2987–2992, 2007.)提出基于miRNA-target双相结合的序列互补和结合能特性的组合筛选器的方法,并在预测结束时使使用naıve贝叶斯(NB)分类器。
目前提出的许多关于预测miRNA靶基因的方法,仍然是存在高假阳性的问题(即认定为是miRNA的靶基因,但是实际上不是)。存在这个问题的主要的原因是:(1)在缺乏领域知识的情况下,人为选择的特征和参数作为浅学习模型的输入,这可能会对预测产生影响。(2)正样本数据量远远大于负样本数据量,因为大部分发表的miRNA-target交互数据都只是包含正数据,而正、负样本数据集的不平衡对结果的准确性有很强的影响,而人工生成的负样本目标位点使学习规则变得困难,在训练过程中可能会误导分类器。
发明内容
本发明提供一种基于卷积神经网的miRNA靶基因预测方法,该方法不仅避免了不满足某些特征阈值的真实目标的错误滤波,而且解决了实验验证数据集的不平衡问题。
为了达到上述技术效果,本发明的技术方案如下:
一种基于卷积神经网的miRNA靶基因预测方法,包括以下步骤:
S1:根据已发布的miRNA-mRNA对,从NCBI库中下载实验所需的相应样本数据mRNA,从miRBase库中下载实验所需的相应样本数据miRNA,计算正本和负样本的的特征值,其中,特性分别为三个大类:互补性,可达性,保守性;而互补性又可以从9个特征方面去评估,9个特征值;可达性从8个特征方面去评估,8个特征值;保守性从3个特征方面评估,3个特征值;因此总共需要计算20个特征值;
S2:构建平衡的数据集:为了获得更多的候选位点,为步骤S1中上面提到的三种特性设置松散的阈值;由于已发表的miRNA靶基因对都是正样本数据,正样本数据的数量远远大负样本的数据,用约束宽松的方法来从新构建平衡的数据集;
S3:利用训练数据建立卷积神经网络:在数据集P1,P2,P3,N中,分别取出同等量的数据综合在一起构成训练集,将剩余的数据构成训练集;然后构建训练模型。
进一步地,步骤S1中计算样本的特征值的步骤具体包括:
S11:计算互补的特征值;因为miRNA-靶基因不是完全互补的,所以考虑到种子区域的互补碱基组合和整个miRNA-目标结合位点,首先使的miRNA序列与mRNA序列一致,然后利用Smith-Waterman局部算法计算miRNA-mRNA对的互补性,Gaps和不匹配的数量被计数成负数,A-U与G-C被计数成正数;
S12:计算可达性的特征值;目标可达性是miRNA功能的一个关键因素,5端的种子区和3端互补区域的可达性对于有效的抑制同样重要,所以不仅考虑目标站点的3和5端,还通过对目标的上游和下游的17和13核苷酸进行不配对来计算自由能量损失,能量的计算是使用ViennaRNA包中的RNAfold来计算;
S13:计算了候选目标点的进化保护分数,并考虑了种子区域和整个目标位点的保护分数。
进一步地,步骤S2中构建一个平衡的数据集的具体步骤包括:
S21:在完成S1中计算步骤之后,选择满足所有松散阈值的位点,并将同一目标位点的20个特征值合并成一个行,以互补特性,可访问性,保守性的顺序排列,得到数据集P和N;
S22:此时正样本P的数据是远远大于负样本N的数据的,:对正样本的数据集进行约束,从而使得正负样本的均衡;在建立的模型的中的互补性中的Match Score,可访问性中的ddG,和保守性中的Seed similarity与miRanda软件中相关的参数一致,以这3个数值对正样本数据集分别按照Match Score从高到低得到一个数据集p1,按照ddG从低到高的顺序得到数据集p2;按照Seed similarity从高到低的顺序等到数据集p3;
S23:对p1,p2,p3这3个数据集,设置相应的阈值,使得数据的大小与N相似,得到一个高互补性的正样本数据集P1,一个高可访问的正样本数据集P2,一个高度保守的正样本数据P3和一个负样本数据集N;
进一步地,步骤S3中构建训练模型的具体步骤包括:
S31:将输入的数据,经过不同的卷积核进行卷积,得到不同的特征面,卷积核的数量可以根据不同物种的生物特性决定,然后得到第一卷积层(convolution layer),它包含了经过不同卷积核进行卷积获的得原始数据的不同方面的特征的特正面;
S32:将第一卷积层的特征面进行子采样,即减少数据处理维度同时保留有用信息,得到与第一卷积层特征面的数量相同的第一采样层(sampling layer),采样层是为了降低后面的全连接层的计算复杂度而设计的,目的是降低数据维度,同时也保留特征信息;
S33:重复S21,S32的步骤得到一个维度较小信息量大的采样层,进行全连接得到全连接层F5,然后经过若干的全连接层连接训练,最后一层即为输出层。
与现有技术相比,本发明技术方案的有益效果是:
1、本发明在数据集构建步骤中,为了确保分类器的准确预测,我们使用约束松弛法构造了四类平衡数据集,以克服不平衡数据集的缺点;
2、本发明提出应用卷积神经网络来预测miRNA的靶基因。CNN是一种深度学习方法,当背景知识和推理规则不清楚时,它能自动学习大量输入数据的基本信息,克服人工特征选择对预测结果的影响。
附图说明
图1为本发明的miRNA在中心法则中的作用原理示意图;
图2为本发明基于卷积神经网络miRNA预测的流程示意图;
图3为本发明所需计算的miRNA-mRNA对的特征分类图;
图4为本发明用于miRNA预测靶基因的卷积神经网络的结构示意图;
图5为本发明的miRNA靶基因预测方法准确率与其他方法的对比示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1-4所示,一种基于卷积神经网的miRNA靶基因预测方法,包括以下步骤:
S1:根据已发布的miRNA-mRNA对,从NCBI库中下载实验所需的相应样本数据mRNA,从miRBase库中下载实验所需的相应样本数据miRNA,计算正本和负样本的的特征值,其中,特性分别为三个大类:互补性,可达性,保守性;而互补性又可以从9个特征方面去评估,9个特征值;可达性从8个特征方面去评估,8个特征值;保守性从3个特征方面评估,3个特征值;因此总共需要计算20个特征值;
S2:构建平衡的数据集:为了获得更多的候选位点,为步骤S1中上面提到的三种特性设置松散的阈值;由于已发表的miRNA靶基因对都是正样本数据,正样本数据的数量远远大负样本的数据,用约束宽松的方法来从新构建平衡的数据集;
S3:利用训练数据建立卷积神经网络:在数据集P1,P2,P3,N中,分别取出同等量的数据综合在一起构成训练集,将剩余的数据构成训练集;然后构建训练模型。
步骤S1中计算样本的特征值的步骤具体包括:
S11:计算互补的特征值;因为miRNA-靶基因不是完全互补的,所以考虑到种子区域的互补碱基组合和整个miRNA-目标结合位点,首先使的miRNA序列与mRNA序列一致,然后利用Smith-Waterman局部算法计算miRNA-mRNA对的互补性,Gaps和不匹配的数量被计数成负数,A-U与G-C被计数成正数;
S12:计算可达性的特征值;目标可达性是miRNA功能的一个关键因素,5端的种子区和3端互补区域的可达性对于有效的抑制同样重要,所以不仅考虑目标站点的3和5端,还通过对目标的上游和下游的17和13核苷酸进行不配对来计算自由能量损失,能量的计算是使用ViennaRNA包中的RNAfold来计算;
S13:计算了候选目标点的进化保护分数,并考虑了种子区域和整个目标位点的保护分数。
步骤S2中构建一个平衡的数据集的具体步骤包括:
S21:在完成S1中计算步骤之后,选择满足所有松散阈值的位点,并将同一目标位点的20个特征值合并成一个行,以互补特性,可访问性,保守性的顺序排列,得到数据集P和N;
S22:此时正样本P的数据是远远大于负样本N的数据的,:对正样本的数据集进行约束,从而使得正负样本的均衡;在建立的模型的中的互补性中的Match Score,可访问性中的ddG,和保守性中的Seed similarity与miRanda软件中相关的参数一致,以这3个数值对正样本数据集分别按照Match Score从高到低得到一个数据集p1,按照ddG从低到高的顺序得到数据集p2;按照Seed similarity从高到低的顺序等到数据集p3;
S23:对p1,p2,p3这3个数据集,设置相应的阈值,使得数据的大小与N相似,得到一个高互补性的正样本数据集P1,一个高可访问的正样本数据集P2,一个高度保守的正样本数据P3和一个负样本数据集N;
步骤S3中构建训练模型的具体步骤包括:
S31:将输入的数据,经过不同的卷积核进行卷积,得到不同的特征面,卷积核的数量可以根据不同物种的生物特性决定,然后得到第一卷积层(convolution layer),它包含了经过不同卷积核进行卷积获的得原始数据的不同方面的特征的特正面;
S32:将第一卷积层的特征面进行子采样,即减少数据处理维度同时保留有用信息,得到与第一卷积层特征面的数量相同的第一采样层(sampling layer),采样层是为了降低后面的全连接层的计算复杂度而设计的,目的是降低数据维度,同时也保留特征信息。
S33:重复S21,S32的步骤得到一个维度较小信息量大的采样层,进行全连接得到全连接层F5,然后经过若干的全连接层连接训练,最后一层即为输出层。
实施例2
本发明基于卷积神经网的miRNA靶基因预测方法的具体步骤:
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
如步骤A所示,首先我们可以通过TarBase数据库获取I. S. Vlacho等人(I.S.Vlachos, M. D. Paraskevopoulou, D. Karagkouni, G. Georgakilas, T. Vergoulis,I. Kanellos, I.-L. Anastasopoulos, S. Maniou, K. Karathanou, and D.Kalfakakou, “DIANA-TarBase v7. 0: Indexing more than half a millionexperimentally supported miRNA: mRNA interactions,” Nucleic Acids Res., vol.43, no. D1, pp. D153– D159, 2015)已经通过实验验证的1297对miRNA-mRNA正样本和309对miRNA-mRNA负样本数据,共1606对数据;然后通过NCBI数据库下载mRNA的序列,从miRBase数据库中下载miRNA序列;
A1:根据保守性,因为miRNA和mRNA具体的结合的位置我们是不知道得的,所以在计算保守分的得到的数据并不是1606个数据,最后符合保守性位点1297个正样本中有247254个,309个负样本中有26847个;
A2: 同理根据互补性,1297个正样本中符合互补阈值的有682760位点,309个负样本中有97680个位点符合要求;
A3:根据可访问性,1297个正样本中符合互补阈值的有402821位点,309个负样本中有44686个位点符合要求。
步骤B,我们通过设置20个松散的阈值分别对,A1,A2, A3分别达到相应特性的位点进行过滤,最后从1297个正样本中符合所有松散阈值的有198620位点,309个负样本中有19660个位点;每个位点的特征值为20项;接下来是如何构建均衡的数据集。对正样本位点数据P按照Match Score从高到低得到一个数据集p1,按照ddG从低到高的顺序得到数据集p2;按照Seed similarity从高到低的顺序等到数据集p3;设置阈值Match Score= 122;ddG= -21.06kal/mol;Seed similarity = 70.83%;得到P1的大小为19730,P2的大小为19794, P3的大小为19731; 因此P1,P2,P3,N的数据大小相似;
步骤C,将P1,P2,P3,N分别取19000个作为训练集,剩下的为训练集,所以训练集的大小为76000x20,测试集的大小为2915x20;但是因为20对于卷积神经网而言,维度太少,不利于卷积;所以我们可以把20个特征值进行重复升维,我们尝试升为76000x64,76000x196,76000x484;然后构建神经网络,发现76000x196得训练效果最佳准确率为89.98%;
最后在本发明构建的数据集上运行了已有的机器学习NBmiRTar,MiRTif的方法得到准确率与本发明的对比结果如图5
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于卷积神经网的miRNA靶基因预测方法,其特征在于,包括以下步骤:
S1:根据已发布的miRNA-mRNA对,从NCBI库中下载实验所需的相应样本数据mRNA,从miRBase库中下载实验所需的相应样本数据miRNA,计算正本和负样本的的特征值,其中,特性分别为三个大类:互补性,可达性,保守性;而互补性又可以从9个特征方面去评估,9个特征值;可达性从8个特征方面去评估,8个特征值;保守性从3个特征方面评估,3个特征值;因此总共需要计算20个特征值;
S2:构建平衡的数据集:为了获得更多的候选位点,为步骤S1中上面提到的三种特性设置松散的阈值;由于已发表的miRNA靶基因对都是正样本数据,正样本数据的数量远远大负样本的数据,用约束宽松的方法来从新构建平衡的数据集;
S3:利用训练数据建立卷积神经网络:在数据集P1,P2,P3,N中,分别取出同等量的数据综合在一起构成训练集,将剩余的数据构成训练集;然后构建训练模型。
2.根据权利要求1所述的基于卷积神经网的miRNA靶基因预测方法,其特征在于,步骤S1中计算样本的特征值的步骤具体包括:
S11:计算互补的特征值;因为miRNA-靶基因不是完全互补的,所以考虑到种子区域的互补碱基组合和整个miRNA-目标结合位点,首先使的miRNA序列与mRNA序列一致,然后利用Smith-Waterman局部算法计算miRNA-mRNA对的互补性,Gaps和不匹配的数量被计数成负数,A-U与G-C被计数成正数;
S12:计算可达性的特征值;目标可达性是miRNA功能的一个关键因素,5端的种子区和3端互补区域的可达性对于有效的抑制同样重要,所以不仅考虑目标站点的3和5端,还通过对目标的上游和下游的17和13核苷酸进行不配对来计算自由能量损失,能量的计算是使用ViennaRNA包中的RNAfold来计算;
S13:计算了候选目标点的进化保护分数,并考虑了种子区域和整个目标位点的保护分数。
3.根据权利要求2所述的基于卷积神经网的miRNA靶基因预测方法,其特征在于,步骤S2中构建一个平衡的数据集的具体步骤包括:
S21:在完成S1中计算步骤之后,选择满足所有松散阈值的位点,并将同一目标位点的20个特征值合并成一个行,以互补特性,可访问性,保守性的顺序排列,得到数据集P和N;
S22:此时正样本P的数据是远远大于负样本N的数据的,:对正样本的数据集进行约束,从而使得正负样本的均衡;在建立的模型的中的互补性中的Match Score,可访问性中的ddG,和保守性中的Seed similarity与miRanda软件中相关的参数一致,以这3个数值对正样本数据集分别按照Match Score从高到低得到一个数据集p1,按照ddG从低到高的顺序得到数据集p2;按照Seed similarity从高到低的顺序等到数据集p3;
S23:对p1,p2,p3这3个数据集,设置相应的阈值,使得数据的大小与N相似,得到一个高互补性的正样本数据集P1,一个高可访问的正样本数据集P2,一个高度保守的正样本数据P3和一个负样本数据集N。
4.根据权利要求3所述的基于卷积神经网的miRNA靶基因预测方法,其特征在于,步骤S3中构建训练模型的具体步骤包括:
S31:将输入的数据,经过不同的卷积核进行卷积,得到不同的特征面,卷积核的数量可以根据不同物种的生物特性决定,然后得到第一卷积层,它包含了经过不同卷积核进行卷积获的得原始数据的不同方面的特征的特正面;
S32:将第一卷积层的特征面进行子采样,即减少数据处理维度同时保留有用信息,得到与第一卷积层特征面的数量相同的第一采样层,采样层是为了降低后面的全连接层的计算复杂度而设计的,目的是降低数据维度,同时也保留特征信息;
S33:重复S21,S32的步骤得到一个维度较小信息量大的采样层,进行全连接得到全连接层,然后经过若干的全连接层连接训练,最后一层即为输出层。
CN201810678350.1A 2018-06-27 2018-06-27 一种基于卷积神经网的miRNA靶基因预测方法 Active CN110021361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810678350.1A CN110021361B (zh) 2018-06-27 2018-06-27 一种基于卷积神经网的miRNA靶基因预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810678350.1A CN110021361B (zh) 2018-06-27 2018-06-27 一种基于卷积神经网的miRNA靶基因预测方法

Publications (2)

Publication Number Publication Date
CN110021361A true CN110021361A (zh) 2019-07-16
CN110021361B CN110021361B (zh) 2023-04-07

Family

ID=67188426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810678350.1A Active CN110021361B (zh) 2018-06-27 2018-06-27 一种基于卷积神经网的miRNA靶基因预测方法

Country Status (1)

Country Link
CN (1) CN110021361B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599202A (zh) * 2020-12-24 2021-04-02 南华大学 疾病相关miRNA预测系统
CN118447929A (zh) * 2024-07-08 2024-08-06 电子科技大学长三角研究院(衢州) 一种基于dnabert微调的g-四链体预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005017145A1 (ja) * 2003-08-13 2005-02-24 Japan Biological Informatics Consortium 機能性rnaが制御する被制御遺伝子の同定・予測方法及びその利用方法
CN101710362A (zh) * 2009-12-10 2010-05-19 浙江大学 一种基于支持向量机的microRNA靶位点预测的方法
US20100184842A1 (en) * 2007-08-03 2010-07-22 The Ohio State University Research Foundation Ultraconserved Regions Encoding ncRNAs
CN103164633A (zh) * 2011-12-09 2013-06-19 上海聚类生物科技有限公司 一种牛的miRNA靶基因预测分析方法
CN106599615A (zh) * 2016-11-30 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种预测miRNA靶基因的序列特征分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005017145A1 (ja) * 2003-08-13 2005-02-24 Japan Biological Informatics Consortium 機能性rnaが制御する被制御遺伝子の同定・予測方法及びその利用方法
US20100184842A1 (en) * 2007-08-03 2010-07-22 The Ohio State University Research Foundation Ultraconserved Regions Encoding ncRNAs
CN101710362A (zh) * 2009-12-10 2010-05-19 浙江大学 一种基于支持向量机的microRNA靶位点预测的方法
CN103164633A (zh) * 2011-12-09 2013-06-19 上海聚类生物科技有限公司 一种牛的miRNA靶基因预测分析方法
CN106599615A (zh) * 2016-11-30 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种预测miRNA靶基因的序列特征分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王宝文等: "基于SVM和优化特征集的MicroRNA靶标预测", 《生物医学工程学杂志》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599202A (zh) * 2020-12-24 2021-04-02 南华大学 疾病相关miRNA预测系统
CN112599202B (zh) * 2020-12-24 2024-04-26 南华大学 疾病相关miRNA预测系统
CN118447929A (zh) * 2024-07-08 2024-08-06 电子科技大学长三角研究院(衢州) 一种基于dnabert微调的g-四链体预测方法
CN118447929B (zh) * 2024-07-08 2024-10-11 电子科技大学长三角研究院(衢州) 一种基于dnabert微调的g-四链体预测方法

Also Published As

Publication number Publication date
CN110021361B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Borchert et al. Comprehensive analysis of microRNA genomic loci identifies pervasive repetitive-element origins
Yousef et al. Combining multi-species genomic data for microRNA identification using a Naive Bayes classifier
Nobuta et al. An expression atlas of rice mRNAs and small RNAs
Brameier et al. Ab initio identification of human microRNAs based on structure motifs
Morgado et al. Computational tools for plant small RNA detection and categorization
Xia et al. Progress in miRNA target prediction and identification
CN113066527B (zh) 一种siRNA敲减mRNA的靶点预测方法和系统
Xia et al. Noncanonical microRNAs and endogenous siRNAs in lytic infection of murine gammaherpesvirus
CN110021361A (zh) 一种基于卷积神经网的miRNA靶基因预测方法
Zhao et al. MicroRNA annotation in plants: current status and challenges
Yones et al. High precision in microRNA prediction: A novel genome-wide approach with convolutional deep residual networks
Jiang et al. miRTRS: a recommendation algorithm for predicting miRNA targets
Akgül et al. 44 current challenges in miRNomics
Backofen et al. Comparative RNA genomics
Mangrauthia et al. Deep sequencing of small RNAs reveals ribosomal origin of microRNAs in Oryza sativa and their regulatory role in high temperature
Song et al. Predicting miRNA-mediated gene silencing mode based on miRNA-target duplex features
Bu et al. An efficient deep learning based predictor for identifying miRNA-triggered phasiRNA loci in plant
KR101840028B1 (ko) miRNA 및 mRNA 발현 데이터를 통합 분석하는 방법 및 장치
Kalariya et al. Identification of microRNAs from transcriptome data in gurmar (Gymnema sylvestre)
Wu et al. Computation-based discovery of cis-regulatory modules by hidden Markov model
Hejret et al. Beyond microRNAs: Analysis of chimeric reads characterises the diverse targetome of AGO2-mediated regulation.
Quillet et al. Prediction tools for miRNA targets: toward a better comprehension for Biologists
Leung et al. Filtering of false positive microRNA candidates by a clustering-based approach
Yoon et al. Prediction and analysis of human microRNA regulatory modules
Pan et al. Design of an NGS MicroRNA predictor using multilayer hierarchical MapReduce framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant