CN110021361A

CN110021361A - 一种基于卷积神经网的miRNA靶基因预测方法

Info

Publication number: CN110021361A
Application number: CN201810678350.1A
Authority: CN
Inventors: 万天根; 龙冬阳
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2019-07-16
Anticipated expiration: 2038-06-27
Also published as: CN110021361B

Abstract

本发明提出了一种新的算法（CNNmiRT）来预测miRNA目标基因通过使用miRNA‑target基因间的互补、保守和可访问性的特征。由于对负相互作用的实验支持通常没有发表，也没有记录在数据库中，所以被验证的负样本位点的数量远低于正样本的位点。为了补偿，我们使用一个约束放松方法来构建四种平衡的实验验证训练数据集，即高度保守的正样本数据集，一个完全互补的正样本数据集，一个可访问的正样本数据集和一个负样本数据集。该方法不仅避免了不满足某些特征阈值的真实目标的错误滤波，而且解决了实验验证数据集的不平衡问题。然后我们应用卷积神经网络来预测miRNA的靶基因。

Description

一种基于卷积神经网的miRNA靶基因预测方法

技术领域

本发明涉及生物信息学领域，更具体地，涉及一种基于卷积神经网的miRNA靶基因预测方法。

背景技术

随着生物信息技术的高速发展，基因组学成为了人们从基因的本源的角度去研究疾病的产生的原因，而研究的核心的原则就是中心法则。中心法则是指遗传信息从DNA通过转录传递给RNA，再由RNA翻译成蛋白质的过程。遗传信息是从DNA流向RNA在传递给蛋白质，因此一般常说这是DNA的表达的过程，但是随着1993年Lee等人（Lee R C, Feinbaum R L,Ambros V. The C. elegans heterochronic gene lin-4 encodes small RNAs withantisense comp lementarity to lin-14[ J] .Cell , 1993, 75( 5) : 843-854.）对于miRNA的发现，改变人们对中心法则的认知，遗传信息的表达通路不只是和DNA是否显隐性表达有关，还和RNA是否得到表达有关。miRNA是一种小的，类似于siRNA的分子，由高等真核生物基因组编码，microRNAs通过和靶基因mRNA碱基配对引导沉默复合体（RISC）降解mRNA或阻碍其翻译。microRNAss在物种进化中相当保守，在植物、动物和真菌中发现的microRNAss只在特定的组织和发育阶段表达，microRNAs组织特异性和时序性，决定组织和细胞的功能特异性，表明microRNAs在细胞生长和发育过程的调节过程中起多种作用。

到目前为止，已经确定了38589个miRNA（miRBase 22 release）。尽管miRNA的研究进展迅速，但只有少数的目标基因被实验证实，目前已知的目标基因与已知的miRNA的认知是不一致的。miRNA的目标基因和功能的机制也仍然知之甚少。在这方面，揭示miRNA调控机制和miRNA真正识别目标mRNA的方法的发展变得越来越重要。S.-k.等人（S.-K. Kim, J.-W. Nam, J.-K. Rhee, W.-J. Lee, and B.-T. Zhang, “miTarget: microRNA targetgene prediction using asupport vector machine,” BMC Bioinf., vol. 7, no. 1,p. 411, 2006.）提出根据结构，热力学和位置特征使用径向基函数（RBF）的支持向量机（SVM）的方法来预测miRNA的靶基因。P. H. Reyes-Herrera等人（P. H. Reyes-Herrera,E. Ficarra, A. Acquaviva, and E. Macii,“miREE: miRNA recognition elementsensemble,” BMC Bioinf.,vol. 12, no. 1, p. 454, 2011.）提出先使用遗传算法生成一组序列数据，作为下一步SVM（RBF内核）的输入数据的方法。S. Bandyopadhyay等人（S.Bandyopadhyay, and R. Mitra, “TargetMiner: microRNA target prediction withsystematic identification of tissue-specific negative examples,” Bioinf.,vol. 25, no. 20, pp. 2625–31,Oct. 15, 2009.）也是提出使用带有RBF内核的SVM，但是数据包括数据集包含实验交互和推断负交互。M. Yousef等人（M. Yousef, S. Jung, A.V. Kossenkov, L. C. Showe, and M. K.Showe, “Na€ ıve Bayes for microRNAtarget predictions—Machinelearning for microRNA targets,” Bioinf., vol. 23,no. 22, pp. 2987–2992, 2007.）提出基于miRNA-target双相结合的序列互补和结合能特性的组合筛选器的方法，并在预测结束时使使用naıve贝叶斯(NB)分类器。

目前提出的许多关于预测miRNA靶基因的方法，仍然是存在高假阳性的问题（即认定为是miRNA的靶基因，但是实际上不是）。存在这个问题的主要的原因是:(1)在缺乏领域知识的情况下，人为选择的特征和参数作为浅学习模型的输入，这可能会对预测产生影响。(2)正样本数据量远远大于负样本数据量，因为大部分发表的miRNA-target交互数据都只是包含正数据，而正、负样本数据集的不平衡对结果的准确性有很强的影响，而人工生成的负样本目标位点使学习规则变得困难，在训练过程中可能会误导分类器。

发明内容

本发明提供一种基于卷积神经网的miRNA靶基因预测方法，该方法不仅避免了不满足某些特征阈值的真实目标的错误滤波，而且解决了实验验证数据集的不平衡问题。

为了达到上述技术效果，本发明的技术方案如下：

一种基于卷积神经网的miRNA靶基因预测方法，包括以下步骤：

S1：根据已发布的miRNA-mRNA对，从NCBI库中下载实验所需的相应样本数据mRNA，从miRBase库中下载实验所需的相应样本数据miRNA，计算正本和负样本的的特征值，其中，特性分别为三个大类：互补性，可达性，保守性；而互补性又可以从9个特征方面去评估，9个特征值；可达性从8个特征方面去评估，8个特征值；保守性从3个特征方面评估，3个特征值；因此总共需要计算20个特征值；

S2：构建平衡的数据集：为了获得更多的候选位点，为步骤S1中上面提到的三种特性设置松散的阈值；由于已发表的miRNA靶基因对都是正样本数据，正样本数据的数量远远大负样本的数据，用约束宽松的方法来从新构建平衡的数据集；

S3：利用训练数据建立卷积神经网络：在数据集P1，P2，P3，N中，分别取出同等量的数据综合在一起构成训练集，将剩余的数据构成训练集；然后构建训练模型。

进一步地，步骤S1中计算样本的特征值的步骤具体包括：

S11：计算互补的特征值；因为miRNA-靶基因不是完全互补的，所以考虑到种子区域的互补碱基组合和整个miRNA-目标结合位点，首先使的miRNA序列与mRNA序列一致，然后利用Smith-Waterman局部算法计算miRNA-mRNA对的互补性，Gaps和不匹配的数量被计数成负数，A-U与G-C被计数成正数；

S12：计算可达性的特征值；目标可达性是miRNA功能的一个关键因素，5端的种子区和3端互补区域的可达性对于有效的抑制同样重要，所以不仅考虑目标站点的3和5端，还通过对目标的上游和下游的17和13核苷酸进行不配对来计算自由能量损失，能量的计算是使用ViennaRNA包中的RNAfold来计算；

S13：计算了候选目标点的进化保护分数，并考虑了种子区域和整个目标位点的保护分数。

进一步地，步骤S2中构建一个平衡的数据集的具体步骤包括：

S21：在完成S1中计算步骤之后，选择满足所有松散阈值的位点，并将同一目标位点的20个特征值合并成一个行，以互补特性，可访问性，保守性的顺序排列，得到数据集P和N；

S22：此时正样本P的数据是远远大于负样本N的数据的，:对正样本的数据集进行约束，从而使得正负样本的均衡；在建立的模型的中的互补性中的Match Score，可访问性中的ddG，和保守性中的Seed similarity与miRanda软件中相关的参数一致，以这3个数值对正样本数据集分别按照Match Score从高到低得到一个数据集p1，按照ddG从低到高的顺序得到数据集p2；按照Seed similarity从高到低的顺序等到数据集p3；

S23：对p1，p2，p3这3个数据集，设置相应的阈值，使得数据的大小与N相似，得到一个高互补性的正样本数据集P1，一个高可访问的正样本数据集P2，一个高度保守的正样本数据P3和一个负样本数据集N；

进一步地，步骤S3中构建训练模型的具体步骤包括：

S31：将输入的数据，经过不同的卷积核进行卷积，得到不同的特征面，卷积核的数量可以根据不同物种的生物特性决定，然后得到第一卷积层（convolution layer），它包含了经过不同卷积核进行卷积获的得原始数据的不同方面的特征的特正面；

S32：将第一卷积层的特征面进行子采样，即减少数据处理维度同时保留有用信息，得到与第一卷积层特征面的数量相同的第一采样层（sampling layer），采样层是为了降低后面的全连接层的计算复杂度而设计的，目的是降低数据维度，同时也保留特征信息；

S33：重复S21，S32的步骤得到一个维度较小信息量大的采样层，进行全连接得到全连接层F5，然后经过若干的全连接层连接训练，最后一层即为输出层。

与现有技术相比，本发明技术方案的有益效果是：

1、本发明在数据集构建步骤中，为了确保分类器的准确预测，我们使用约束松弛法构造了四类平衡数据集，以克服不平衡数据集的缺点；

2、本发明提出应用卷积神经网络来预测miRNA的靶基因。CNN是一种深度学习方法，当背景知识和推理规则不清楚时，它能自动学习大量输入数据的基本信息，克服人工特征选择对预测结果的影响。

附图说明

图1为本发明的miRNA在中心法则中的作用原理示意图；

图2为本发明基于卷积神经网络miRNA预测的流程示意图；

图3为本发明所需计算的miRNA-mRNA对的特征分类图；

图4为本发明用于miRNA预测靶基因的卷积神经网络的结构示意图；

图5为本发明的miRNA靶基因预测方法准确率与其他方法的对比示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1-4所示，一种基于卷积神经网的miRNA靶基因预测方法，包括以下步骤：

步骤S1中计算样本的特征值的步骤具体包括：

步骤S2中构建一个平衡的数据集的具体步骤包括：

步骤S3中构建训练模型的具体步骤包括：

S32：将第一卷积层的特征面进行子采样，即减少数据处理维度同时保留有用信息，得到与第一卷积层特征面的数量相同的第一采样层（sampling layer），采样层是为了降低后面的全连接层的计算复杂度而设计的，目的是降低数据维度，同时也保留特征信息。

实施例2

本发明基于卷积神经网的miRNA靶基因预测方法的具体步骤：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

如步骤A所示，首先我们可以通过TarBase数据库获取I. S. Vlacho等人（I.S.Vlachos, M. D. Paraskevopoulou, D. Karagkouni, G. Georgakilas, T. Vergoulis,I. Kanellos, I.-L. Anastasopoulos, S. Maniou, K. Karathanou, and D.Kalfakakou, “DIANA-TarBase v7. 0: Indexing more than half a millionexperimentally supported miRNA: mRNA interactions,” Nucleic Acids Res., vol.43, no. D1, pp. D153– D159, 2015）已经通过实验验证的1297对miRNA-mRNA正样本和309对miRNA-mRNA负样本数据，共1606对数据；然后通过NCBI数据库下载mRNA的序列，从miRBase数据库中下载miRNA序列；

A1：根据保守性，因为miRNA和mRNA具体的结合的位置我们是不知道得的，所以在计算保守分的得到的数据并不是1606个数据，最后符合保守性位点1297个正样本中有247254个，309个负样本中有26847个；

A2: 同理根据互补性，1297个正样本中符合互补阈值的有682760位点，309个负样本中有97680个位点符合要求；

A3：根据可访问性，1297个正样本中符合互补阈值的有402821位点，309个负样本中有44686个位点符合要求。

步骤B，我们通过设置20个松散的阈值分别对，A1，A2, A3分别达到相应特性的位点进行过滤，最后从1297个正样本中符合所有松散阈值的有198620位点，309个负样本中有19660个位点；每个位点的特征值为20项；接下来是如何构建均衡的数据集。对正样本位点数据P按照Match Score从高到低得到一个数据集p1，按照ddG从低到高的顺序得到数据集p2；按照Seed similarity从高到低的顺序等到数据集p3；设置阈值Match Score= 122；ddG= -21.06kal/mol；Seed similarity = 70.83%；得到P1的大小为19730，P2的大小为19794， P3的大小为19731；因此P1，P2，P3，N的数据大小相似；

步骤C，将P1，P2，P3，N分别取19000个作为训练集，剩下的为训练集，所以训练集的大小为76000x20，测试集的大小为2915x20；但是因为20对于卷积神经网而言，维度太少，不利于卷积；所以我们可以把20个特征值进行重复升维，我们尝试升为76000x64,76000x196,76000x484;然后构建神经网络，发现76000x196得训练效果最佳准确率为89.98%；

最后在本发明构建的数据集上运行了已有的机器学习NBmiRTar，MiRTif的方法得到准确率与本发明的对比结果如图5

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于卷积神经网的miRNA靶基因预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于卷积神经网的miRNA靶基因预测方法，其特征在于，步骤S1中计算样本的特征值的步骤具体包括：

3.根据权利要求2所述的基于卷积神经网的miRNA靶基因预测方法，其特征在于，步骤S2中构建一个平衡的数据集的具体步骤包括：

S23：对p1，p2，p3这3个数据集，设置相应的阈值，使得数据的大小与N相似，得到一个高互补性的正样本数据集P1，一个高可访问的正样本数据集P2，一个高度保守的正样本数据P3和一个负样本数据集N。

4.根据权利要求3所述的基于卷积神经网的miRNA靶基因预测方法，其特征在于，步骤S3中构建训练模型的具体步骤包括：

S31：将输入的数据，经过不同的卷积核进行卷积，得到不同的特征面，卷积核的数量可以根据不同物种的生物特性决定，然后得到第一卷积层，它包含了经过不同卷积核进行卷积获的得原始数据的不同方面的特征的特正面；

S32：将第一卷积层的特征面进行子采样，即减少数据处理维度同时保留有用信息，得到与第一卷积层特征面的数量相同的第一采样层，采样层是为了降低后面的全连接层的计算复杂度而设计的，目的是降低数据维度，同时也保留特征信息；

S33：重复S21，S32的步骤得到一个维度较小信息量大的采样层，进行全连接得到全连接层，然后经过若干的全连接层连接训练，最后一层即为输出层。