CN110364223B

CN110364223B - 一种基于多示例学习的ires序列搜寻方法

Info

Publication number: CN110364223B
Application number: CN201910548286.XA
Authority: CN
Inventors: 颜成钢; 王廷宇; 赵崇宇; 万斌; 孙垚棋; 张继勇; 张勇东; 蒋云良
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2021-04-06
Anticipated expiration: 2039-06-24
Also published as: CN110364223A

Abstract

本发明公开冷链一种基于多示例学习的IRES序列搜寻方法。本发明以经过实验验证过的含IRES的序列为正样本，未含IRES的序列为负样本，以多示例学习为框架，通过对正负样本组成的数据集进行训练，获得一个有效的IRES预测估计模型。本发明可以快速高效的判断细胞mRNA中是否存在IRES序列以及存在的大致位置。本发明针对mRNA中IRES序列验证的生物实验较为复杂且人力、物力成本消耗过高的问题。本发明可以对mRNA序列是否存在IRES序列进行快速判断，并预估其大概所在位置，从而可使相关科研工作者优先对大概率存在IRES序列的mRNA片段进行生物实验验证，以提高工作效率，减少工作强度。

Description

一种基于多示例学习的IRES序列搜寻方法

技术领域

本发明涉及生物信息学领域，尤其一种基于多示例学习的IRES序列搜寻方法。涉及mRNA中IRES序列的搜寻方法。

背景技术

在真核细胞中，蛋白质在翻译起始，一般需要依靠mRNA中的5’帽结构来介导核糖体与mRNA的结合；然而，对于没有5’帽结构的病毒，仍可以通过RNA中非编码区的一段较短的序列，来介导核糖体与mRNA的结合，这段较短的非编码mRNA序列被称为内部核糖体进入位点序列，即IRES序列。

研究发现，在一些真核细胞mRNA的5’UTR区也存在IRES序列，且随着研究的深入，越来越多的真核细胞生物，如：哺乳动物、植物，被证实在其mRNA中存在IRES序列，且IRES序列在细胞的应激反应、自我凋亡、癌变、监控、进化等方面，扮演着重要的角色。

以人类的mRNA为例，最新研究报告表明，细胞中有超过10％的mRNA的5’UTR区含有可介导核糖体与mRNA结合的IRES序列，然而，真正通过实验验证得到证实的却少之又少。生物学上通常采用高通量双顺反子分析实验来对细胞中的IRES进行检测，但这种实验操作步骤复杂，非常消耗时间和人力。因此，借助计算机计算对细胞mRNA中的IRES序列是否存在以及存在位置进行定位，以此降低生物验证实验的复杂度，显得尤为必要。

发明内容

本发明提出一种基于多示例学习的IRES序列搜寻方法。该方法可以快速高效的判断细胞mRNA中是否存在IRES序列以及存在的大致位置。

本发明以经过实验验证过的含IRES的序列为正样本，未含IRES的序列为负样本，以多示例学习为框架，通过对正负样本组成的数据集进行训练，获得一个有效的IRES预测估计模型。

已有的IRES预测器，在训练过程中，所使用的数据集大多以明确长度和碱基的IRES序列为正样本，这使得数据集的获取较为困难，而本发明的方法，以多示例学习为框架，仅需要知道一段mRNA序列中含有IRES序列，以及其大体长度，便可用来作为数据集中的正样本，这大大减少了数据集收集的难度。

IRES序列实则为由腺嘌呤(A)、尿嘧啶(U)、胞嘧啶(C)、鸟嘌呤(G)四种碱基排列组合构成，在利用计算机对其进行处理时，需先对序列进行编码，传统的编码方式多为“one-hot”编码或“k-mer”编码。本发明采用“k-mer”编码的改进编码方式：“ksnpf”编码，此种编码方式可大大提高模型的泛化能力。

一种基于多示例学习的IRES搜寻方法，该方法具体包括以下步骤：

步骤1：将数据集中的每一条长度为L的碱基序列(包括正负样本)以IRES的可能长度K为基准进行步进的方式分割，每次移动一步，最终每一条碱基序列都被分割成L-K+1条碱基短序列。

步骤2：将数据集中每一条碱基序列所分割成的多条短序列集合称为一个包，包中的每一条短序列称为一个示例，对所有正样本分割而成的示例，不管是否含有IRES序列，都加上标签“1”，其所构成的包，称为正包；对所有负样本分割而成的示例加上标签“0”，其所构成的包，称为负包。

步骤3：由于计算机不能识别原始的碱基序列，故将正包和负包中的每一条示例数据，采用“ksnpf”的编码方式进行编码，编码后，每一条示例由原来的碱基序列变成若干0到1之间的小数，每一个小数代表所选取IRES特征在序列中出现的频率，小数越大，出现频率越高。

步骤4：对所有编码后的示例数据进行归一化处理。

步骤5：用处理好的示例数据训练一个分类器，分类器可以是SVM、逻辑回归或随机森林，或者多种分类器的融合，训练时采用多折交叉验证，以求得到一个最好的参数。

步骤6：用训练好的分类器对训练数据进行预测，如若预测结果与训练数据标签一致，或达到设置的最大迭代次数，则停止训练，进行步骤9；若未达到条件，则继续进行下述步骤。

步骤7：统计所有正包中，预测的正样本示例的个数及位置，如果某个正包中示例预测全为“0”，则挑选预测概率最大为正样本的示例，将其标签改为“1”，即保证正包中，至少有一个示例为正样本；同时，将所有负包中示例的标签改为“0”。

步骤8：去除正包中预测标签为“0”的示例，并从负包中选出最像正样本示例的负样本，即预测为正样本示例的概率较高，使负样本示例与正样本示例个数相同，重新构成训练集，并重复步骤5.

步骤9：对生成的预测模型进行保存，方便下次调用或将模型存入服务器，并利用Web开发技术，使其可通过网页直接访问使用。

本发明的有益效果是：

针对mRNA中IRES序列验证的生物实验较为复杂且人力、物力成本消耗过高的问题。本发明可以对mRNA序列是否存在IRES序列进行快速判断，并预估其大概所在位置，从而可使相关科研工作者优先对大概率存在IRES序列的mRNA片段进行生物实验验证，以提高工作效率，减少工作强度。

附图说明

图1是碱基序列分割示意图；

图2是碱基序列特征编码示意图；

图3是预测模型训练流程图；

具体实施方式

下面根据附图详细说明本发明，本发明的目的和效果将变得更加明显。

本发明提出一种基于多示例学习的IRES序列搜寻方法，其整体训练流程图如图3所示，具体步骤如下：

步骤1：将数据集中的每一条长度为L的碱基序列(包括正负样本)以IRES的可能长度K为基准进行步进的方式分割，每次移动一步，最终每一条碱基序列都被分割成L-K+1条碱基短序列，具体分割方法如图1所示。

步骤3：由于计算机不能识别原始的碱基序列，故将正包和负包中的每一条示例，采用“ksnpf”的编码方式进行编码，编码后，每一条示例由原来的碱基序列变成若干0到1之间的小数，每一个小数代表所选取IRES特征在序列中出现的频率，小数越大，出现频率越高。“ksnpf”的编码公式如图2中所示，其中，k＝0表示，2个碱基为一个可能IRES的特征，若两个特征中存在顺序相同的碱基，则可认为是同一特征；k＝1表示三个碱基为一个可能的IRES特征，且中间的一个碱基为任意碱基，若两个特征，只要满足两头的碱基相同，便可认为是相同特征。以此类推，k可为0或者小于等于L-2的任意正整数。

步骤4：对所有编码后的示例数据进行归一化处理。

Claims

1.一种基于多示例学习的IRES序列搜寻方法，其特征在于包括如下步骤；

步骤1：将数据集中的每一条长度为L的碱基序列以IRES的可能长度K为基准进行步进的方式分割，每次移动一步，最终每一条碱基序列都被分割成L-K+1条碱基短序列；

步骤2：将数据集中每一条碱基序列所分割成的多条短序列集合称为一个包，包中的每一条短序列称为一个示例，对所有正样本分割而成的示例，不管是否含有IRES序列，都加上标签“1”，其所构成的包，称为正包；对所有负样本分割而成的示例加上标签“0”，其所构成的包，称为负包；

步骤3：由于计算机不能识别原始的碱基序列，故将正包和负包中的每一条示例数据，采用“ksnpf”的编码方式进行编码，编码后，每一条示例由原来的碱基序列变成若干0到1之间的小数，每一个小数代表所选取IRES特征在序列中出现的频率，小数越大，出现频率越高；

步骤4：对所有编码后的示例数据进行归一化处理；

步骤5：用处理好的示例数据训练一个分类器；

步骤6：用训练好的分类器对训练数据进行预测，如若预测结果与训练数据标签一致，或达到设置的最大迭代次数，则停止训练，进行步骤9；若未达到条件，则继续进行下述步骤；

步骤7：统计所有正包中，预测的正样本示例的个数及位置，如果某个正包中示例预测全为“0”，则挑选预测概率最大为正样本的示例，将其标签改为“1”，即保证正包中，至少有一个示例为正样本；同时，将所有负包中示例的标签改为“0”；

步骤8：去除正包中预测标签为“0”的示例，并从负包中选出最像正样本示例的负样本，即预测为正样本示例的概率较高，使负样本示例与正样本示例个数相同，重新构成训练集，并重复步骤5；

2.根据权利要求1所述的一种基于多示例学习的IRES序列搜寻方法，其特征在于分类器包括是SVM、逻辑回归或随机森林，或者多种分类器的融合，训练时采用多折交叉验证，以求得到一个最好的参数。