CN110364223B - 一种基于多示例学习的ires序列搜寻方法 - Google Patents

一种基于多示例学习的ires序列搜寻方法 Download PDF

Info

Publication number
CN110364223B
CN110364223B CN201910548286.XA CN201910548286A CN110364223B CN 110364223 B CN110364223 B CN 110364223B CN 201910548286 A CN201910548286 A CN 201910548286A CN 110364223 B CN110364223 B CN 110364223B
Authority
CN
China
Prior art keywords
sequence
ires
positive
packet
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910548286.XA
Other languages
English (en)
Other versions
CN110364223A (zh
Inventor
颜成钢
王廷宇
赵崇宇
万斌
孙垚棋
张继勇
张勇东
蒋云良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910548286.XA priority Critical patent/CN110364223B/zh
Publication of CN110364223A publication Critical patent/CN110364223A/zh
Application granted granted Critical
Publication of CN110364223B publication Critical patent/CN110364223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开冷链一种基于多示例学习的IRES序列搜寻方法。本发明以经过实验验证过的含IRES的序列为正样本,未含IRES的序列为负样本,以多示例学习为框架,通过对正负样本组成的数据集进行训练,获得一个有效的IRES预测估计模型。本发明可以快速高效的判断细胞mRNA中是否存在IRES序列以及存在的大致位置。本发明针对mRNA中IRES序列验证的生物实验较为复杂且人力、物力成本消耗过高的问题。本发明可以对mRNA序列是否存在IRES序列进行快速判断,并预估其大概所在位置,从而可使相关科研工作者优先对大概率存在IRES序列的mRNA片段进行生物实验验证,以提高工作效率,减少工作强度。

Description

一种基于多示例学习的IRES序列搜寻方法
技术领域
本发明涉及生物信息学领域,尤其一种基于多示例学习的IRES序列搜寻方法。涉及mRNA中IRES序列的搜寻方法。
背景技术
在真核细胞中,蛋白质在翻译起始,一般需要依靠mRNA中的5’帽结构来介导核糖体与mRNA的结合;然而,对于没有5’帽结构的病毒,仍可以通过RNA中非编码区的一段较短的序列,来介导核糖体与mRNA的结合,这段较短的非编码mRNA序列被称为内部核糖体进入位点序列,即IRES序列。
研究发现,在一些真核细胞mRNA的5’UTR区也存在IRES序列,且随着研究的深入,越来越多的真核细胞生物,如:哺乳动物、植物,被证实在其mRNA中存在IRES序列,且IRES序列在细胞的应激反应、自我凋亡、癌变、监控、进化等方面,扮演着重要的角色。
以人类的mRNA为例,最新研究报告表明,细胞中有超过10%的mRNA的5’UTR区含有可介导核糖体与mRNA结合的IRES序列,然而,真正通过实验验证得到证实的却少之又少。生物学上通常采用高通量双顺反子分析实验来对细胞中的IRES进行检测,但这种实验操作步骤复杂,非常消耗时间和人力。因此,借助计算机计算对细胞mRNA中的IRES序列是否存在以及存在位置进行定位,以此降低生物验证实验的复杂度,显得尤为必要。
发明内容
本发明提出一种基于多示例学习的IRES序列搜寻方法。该方法可以快速高效的判断细胞mRNA中是否存在IRES序列以及存在的大致位置。
本发明以经过实验验证过的含IRES的序列为正样本,未含IRES的序列为负样本,以多示例学习为框架,通过对正负样本组成的数据集进行训练,获得一个有效的IRES预测估计模型。
已有的IRES预测器,在训练过程中,所使用的数据集大多以明确长度和碱基的IRES序列为正样本,这使得数据集的获取较为困难,而本发明的方法,以多示例学习为框架,仅需要知道一段mRNA序列中含有IRES序列,以及其大体长度,便可用来作为数据集中的正样本,这大大减少了数据集收集的难度。
IRES序列实则为由腺嘌呤(A)、尿嘧啶(U)、胞嘧啶(C)、鸟嘌呤(G)四种碱基排列组合构成,在利用计算机对其进行处理时,需先对序列进行编码,传统的编码方式多为“one-hot”编码或“k-mer”编码。本发明采用“k-mer”编码的改进编码方式:“ksnpf”编码,此种编码方式可大大提高模型的泛化能力。
一种基于多示例学习的IRES搜寻方法,该方法具体包括以下步骤:
步骤1:将数据集中的每一条长度为L的碱基序列(包括正负样本)以IRES的可能长度K为基准进行步进的方式分割,每次移动一步,最终每一条碱基序列都被分割成L-K+1条碱基短序列。
步骤2:将数据集中每一条碱基序列所分割成的多条短序列集合称为一个包,包中的每一条短序列称为一个示例,对所有正样本分割而成的示例,不管是否含有IRES序列,都加上标签“1”,其所构成的包,称为正包;对所有负样本分割而成的示例加上标签“0”,其所构成的包,称为负包。
步骤3:由于计算机不能识别原始的碱基序列,故将正包和负包中的每一条示例数据,采用“ksnpf”的编码方式进行编码,编码后,每一条示例由原来的碱基序列变成若干0到1之间的小数,每一个小数代表所选取IRES特征在序列中出现的频率,小数越大,出现频率越高。
步骤4:对所有编码后的示例数据进行归一化处理。
步骤5:用处理好的示例数据训练一个分类器,分类器可以是SVM、逻辑回归或随机森林,或者多种分类器的融合,训练时采用多折交叉验证,以求得到一个最好的参数。
步骤6:用训练好的分类器对训练数据进行预测,如若预测结果与训练数据标签一致,或达到设置的最大迭代次数,则停止训练,进行步骤9;若未达到条件,则继续进行下述步骤。
步骤7:统计所有正包中,预测的正样本示例的个数及位置,如果某个正包中示例预测全为“0”,则挑选预测概率最大为正样本的示例,将其标签改为“1”,即保证正包中,至少有一个示例为正样本;同时,将所有负包中示例的标签改为“0”。
步骤8:去除正包中预测标签为“0”的示例,并从负包中选出最像正样本示例的负样本,即预测为正样本示例的概率较高,使负样本示例与正样本示例个数相同,重新构成训练集,并重复步骤5.
步骤9:对生成的预测模型进行保存,方便下次调用或将模型存入服务器,并利用Web开发技术,使其可通过网页直接访问使用。
本发明的有益效果是:
针对mRNA中IRES序列验证的生物实验较为复杂且人力、物力成本消耗过高的问题。本发明可以对mRNA序列是否存在IRES序列进行快速判断,并预估其大概所在位置,从而可使相关科研工作者优先对大概率存在IRES序列的mRNA片段进行生物实验验证,以提高工作效率,减少工作强度。
附图说明
图1是碱基序列分割示意图;
图2是碱基序列特征编码示意图;
图3是预测模型训练流程图;
具体实施方式
下面根据附图详细说明本发明,本发明的目的和效果将变得更加明显。
本发明提出一种基于多示例学习的IRES序列搜寻方法,其整体训练流程图如图3所示,具体步骤如下:
步骤1:将数据集中的每一条长度为L的碱基序列(包括正负样本)以IRES的可能长度K为基准进行步进的方式分割,每次移动一步,最终每一条碱基序列都被分割成L-K+1条碱基短序列,具体分割方法如图1所示。
步骤2:将数据集中每一条碱基序列所分割成的多条短序列集合称为一个包,包中的每一条短序列称为一个示例,对所有正样本分割而成的示例,不管是否含有IRES序列,都加上标签“1”,其所构成的包,称为正包;对所有负样本分割而成的示例加上标签“0”,其所构成的包,称为负包。
步骤3:由于计算机不能识别原始的碱基序列,故将正包和负包中的每一条示例,采用“ksnpf”的编码方式进行编码,编码后,每一条示例由原来的碱基序列变成若干0到1之间的小数,每一个小数代表所选取IRES特征在序列中出现的频率,小数越大,出现频率越高。“ksnpf”的编码公式如图2中所示,其中,k=0表示,2个碱基为一个可能IRES的特征,若两个特征中存在顺序相同的碱基,则可认为是同一特征;k=1表示三个碱基为一个可能的IRES特征,且中间的一个碱基为任意碱基,若两个特征,只要满足两头的碱基相同,便可认为是相同特征。以此类推,k可为0或者小于等于L-2的任意正整数。
步骤4:对所有编码后的示例数据进行归一化处理。
步骤5:用处理好的示例数据训练一个分类器,分类器可以是SVM、逻辑回归或随机森林,或者多种分类器的融合,训练时采用多折交叉验证,以求得到一个最好的参数。
步骤6:用训练好的分类器对训练数据进行预测,如若预测结果与训练数据标签一致,或达到设置的最大迭代次数,则停止训练,进行步骤9;若未达到条件,则继续进行下述步骤。
步骤7:统计所有正包中,预测的正样本示例的个数及位置,如果某个正包中示例预测全为“0”,则挑选预测概率最大为正样本的示例,将其标签改为“1”,即保证正包中,至少有一个示例为正样本;同时,将所有负包中示例的标签改为“0”。
步骤8:去除正包中预测标签为“0”的示例,并从负包中选出最像正样本示例的负样本,即预测为正样本示例的概率较高,使负样本示例与正样本示例个数相同,重新构成训练集,并重复步骤5.
步骤9:对生成的预测模型进行保存,方便下次调用或将模型存入服务器,并利用Web开发技术,使其可通过网页直接访问使用。

Claims (2)

1.一种基于多示例学习的IRES序列搜寻方法,其特征在于包括如下步骤;
步骤1:将数据集中的每一条长度为L的碱基序列以IRES的可能长度K为基准进行步进的方式分割,每次移动一步,最终每一条碱基序列都被分割成L-K+1条碱基短序列;
步骤2:将数据集中每一条碱基序列所分割成的多条短序列集合称为一个包,包中的每一条短序列称为一个示例,对所有正样本分割而成的示例,不管是否含有IRES序列,都加上标签“1”,其所构成的包,称为正包;对所有负样本分割而成的示例加上标签“0”,其所构成的包,称为负包;
步骤3:由于计算机不能识别原始的碱基序列,故将正包和负包中的每一条示例数据,采用“ksnpf”的编码方式进行编码,编码后,每一条示例由原来的碱基序列变成若干0到1之间的小数,每一个小数代表所选取IRES特征在序列中出现的频率,小数越大,出现频率越高;
步骤4:对所有编码后的示例数据进行归一化处理;
步骤5:用处理好的示例数据训练一个分类器;
步骤6:用训练好的分类器对训练数据进行预测,如若预测结果与训练数据标签一致,或达到设置的最大迭代次数,则停止训练,进行步骤9;若未达到条件,则继续进行下述步骤;
步骤7:统计所有正包中,预测的正样本示例的个数及位置,如果某个正包中示例预测全为“0”,则挑选预测概率最大为正样本的示例,将其标签改为“1”,即保证正包中,至少有一个示例为正样本;同时,将所有负包中示例的标签改为“0”;
步骤8:去除正包中预测标签为“0”的示例,并从负包中选出最像正样本示例的负样本,即预测为正样本示例的概率较高,使负样本示例与正样本示例个数相同,重新构成训练集,并重复步骤5;
步骤9:对生成的预测模型进行保存,方便下次调用或将模型存入服务器,并利用Web开发技术,使其可通过网页直接访问使用。
2.根据权利要求1所述的一种基于多示例学习的IRES序列搜寻方法,其特征在于分类器包括是SVM、逻辑回归或随机森林,或者多种分类器的融合,训练时采用多折交叉验证,以求得到一个最好的参数。
CN201910548286.XA 2019-06-24 2019-06-24 一种基于多示例学习的ires序列搜寻方法 Active CN110364223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910548286.XA CN110364223B (zh) 2019-06-24 2019-06-24 一种基于多示例学习的ires序列搜寻方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910548286.XA CN110364223B (zh) 2019-06-24 2019-06-24 一种基于多示例学习的ires序列搜寻方法

Publications (2)

Publication Number Publication Date
CN110364223A CN110364223A (zh) 2019-10-22
CN110364223B true CN110364223B (zh) 2021-04-06

Family

ID=68216784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910548286.XA Active CN110364223B (zh) 2019-06-24 2019-06-24 一种基于多示例学习的ires序列搜寻方法

Country Status (1)

Country Link
CN (1) CN110364223B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215740A (zh) * 2018-11-06 2019-01-15 中山大学 基于Xgboost的全基因组RNA二级结构预测方法
CN109390037A (zh) * 2018-10-08 2019-02-26 齐齐哈尔大学 基于SVM-AdaBoost的成熟miRNA全位点识别方法
CN109872773A (zh) * 2019-02-26 2019-06-11 哈尔滨工业大学 基于Adaboost、BP神经网络和随机森林融合的mirco-RNA前体识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326547B2 (en) * 2009-10-07 2012-12-04 Nanjingjinsirui Science & Technology Biology Corp. Method of sequence optimization for improved recombinant protein expression using a particle swarm optimization algorithm

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109390037A (zh) * 2018-10-08 2019-02-26 齐齐哈尔大学 基于SVM-AdaBoost的成熟miRNA全位点识别方法
CN109215740A (zh) * 2018-11-06 2019-01-15 中山大学 基于Xgboost的全基因组RNA二级结构预测方法
CN109872773A (zh) * 2019-02-26 2019-06-11 哈尔滨工业大学 基于Adaboost、BP神经网络和随机森林融合的mirco-RNA前体识别方法

Also Published As

Publication number Publication date
CN110364223A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
US11620567B2 (en) Method, apparatus, device and storage medium for predicting protein binding site
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN108960319B (zh) 一种面向全局的机器阅读理解建模中的候选答案筛选方法
JP2019535057A5 (zh)
Yan et al. Graph neural representational learning of RNA secondary structures for predicting RNA-protein interactions
JP4912646B2 (ja) 遺伝子の転写物マッピング方法及びシステム
CN107463802A (zh) 一种原核蛋白质乙酰化位点的预测方法
CN114582420B (zh) 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统
Yuan et al. DeCban: prediction of circRNA-RBP interaction sites by using double embeddings and cross-branch attention networks
CN116013428A (zh) 基于自监督学习的药物靶标通用预测方法、设备及介质
An et al. MoDNA: motif-oriented pre-training for DNA language model
CN105426700A (zh) 一种批量计算基因组直系同源基因进化速率的方法
CN109147868A (zh) 蛋白质功能预测方法、装置、设备及存储介质
Deng et al. A deep neural network approach using distributed representations of RNA sequence and structure for identifying binding site of RNA-binding proteins
CN112365931B (zh) 一种用于预测蛋白质功能的数据多标签分类方法
CN110364223B (zh) 一种基于多示例学习的ires序列搜寻方法
CN109828785B (zh) 一种采用gpu加速的近似代码克隆检测方法
CN113658109A (zh) 一种基于领域损失预测主动学习的玻璃缺陷检测方法
CN110534154B (zh) 基于和声搜索的鲸鱼dna序列优化方法
CN116343908B (zh) 融合dna形状特征的蛋白质编码区域预测方法、介质和装置
CN114927163A (zh) 一种基于单细胞图谱预测遗传模型的方法和存储介质
Öncül Lstm-gru based deep learning model with word2vec for transcription factors in primates
Hassani et al. Active learning for microRNA prediction
Wang et al. Predicting RNA-RBP interactions by using a pseudo-Siamese network
CN113658643A (zh) 一种基于注意力机制对lncRNA和mRNA的预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant