CN106250718B - 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法 - Google Patents

基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法 Download PDF

Info

Publication number
CN106250718B
CN106250718B CN201610621018.2A CN201610621018A CN106250718B CN 106250718 B CN106250718 B CN 106250718B CN 201610621018 A CN201610621018 A CN 201610621018A CN 106250718 B CN106250718 B CN 106250718B
Authority
CN
China
Prior art keywords
mrow
rna sequence
msub
methylate
adenosine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610621018.2A
Other languages
English (en)
Other versions
CN106250718A (zh
Inventor
於铉
李广庆
张明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610621018.2A priority Critical patent/CN106250718B/zh
Publication of CN106250718A publication Critical patent/CN106250718A/zh
Application granted granted Critical
Publication of CN106250718B publication Critical patent/CN106250718B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明涉及生物信息学RNA转录后修饰位点预测领域,提出一种从RNA序列出发使用机器学习技术来进行N1甲基化腺苷位点预测的方法,能直接从RNA序列中精确地预测出N1甲基化腺苷位点的位置。与现有湿实验技术相比,本发明的预测方法是一种从RNA序列中提取特征、构建基于机器学习模型的预测方法,通过使用计算机分析计算而非复杂的生物医学湿实验来预测RNA序列中的N1甲基化腺苷位点,可以节省大量的时间和费用;同时,本发明提供的预测方法具有优秀的预测精度,可以作为对现有的生物医学实验测定N1甲基化腺苷的方法的补充和扩展。

Description

基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法
技术领域
本发明涉及生物信息学RNA转录后修饰位点预测领域,具体而言涉及一种从RNA序列出发使用机器学习技术来进行N1甲基化腺苷位点预测的方法。
背景技术
N1甲基化腺苷(N1-methyladenosine)是一种在生物体内广泛分布的RNA转录后修饰,它在生命体中具有非常重要的调控作用。例如,N1甲基化腺苷的存在能使酵母菌的信使RNA(tRNA)的三维结构更加稳定(M.Saikia等人,"Genome-wide analysis of N1-methyladenosine modification in human tRNAs,"RNA,vol.16,pp.1317-27,Jul 2010);N1甲基化腺苷也会出现在酵母菌的核糖体RNA(rRNA)中,并能影响核糖体的合成和介导抗生素耐药性和应激反应(C.Peifer等人,"Yeast Rrp8p,a novel methyltransferaseresponsible for m1A 645base modification of 25S rRNA,"Nucleic Acids Res,vol.41,pp.1151-63,Jan 2013;S.Sharma等人,"Identification of a novelmethyltransferase,Bmt2,responsible for the N1-methyladenosine basemodification of 25S rRNA in Saccharomyces cerevisiae,"Nucleic Acids Res,vol.41,pp.5428-43,May 2013)。
2016年两项最新的研究(D.Dominissini等人,"The dynamic N1-methyladenosine methylome in eukaryotic messenger RNA,"Nature,vol.530,pp.441-446,2016;X.Li等人,"Transcriptome-wide mapping reveals reversible and dynamicN1-methyladenosine methylome,"Nat Chem Biol,vol.12,pp.311-6,May2016)更揭示了N1甲基化腺苷在整个转录组水平上的分布。他们发现N1甲基化腺苷趋向于出现在RNA的5端非翻译区(5’UTR)和起始密码子附近,可以引发蛋白质翻译。总而言之,N1甲基化腺苷在生命体在具有重要的调控作用,因此,对RNA中N1甲基化腺苷位点的精确识别具有重大意义。
目前为止,对N1甲基化腺苷位点的识别还依赖于生物医学实验(wet-lab,湿 实验)的方法。这些湿实验方法不仅耗费时间久,而且花费巨大。因此,研发快速、可靠、高精度的干实验(dry-lab)方法用于N1甲基化腺苷位点预测就有着迫切需求。
发明内容
本发明目的在于提供一种基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法,直接从RNA序列中精确地预测出N1甲基化腺苷位点的位置,解决目前N1甲基化腺苷位点只能通过耗时耗力的生物医学实验(wet-lab)测定的现状。
为达成上述目的,本发明提出一种基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法,包括以下步骤:
步骤1、从最新发布的湿实验数据生成包含N1甲基化腺苷位点(正样本)以及非N1甲基化腺苷位点的RNA序列片段(负样本)。对RNA序列中的每个腺苷(Adenosine)位点,提取一个以该腺苷为中心,左右两侧长度均为n个核苷酸的RNA序列片段,该RNA序列片段的长度为2n+1。所有包含N1甲基化腺苷位点的RNA序列片段构成正样本集,所有包含非N1甲基化腺苷位点的RNA序列片段构成负样本集;
步骤2、对每个RNA序列片段提取基于序列的特征,包括:二值编码特征、核苷酸组成成分特征、累积GC含量特征、二级结构特征以及最小自由能特征;将这些特征串行组合,得到每个RNA序列片段的特征向量;所有RNA序列片段的特征向量构成了全体样本的特征向量集;
步骤3、为有效抑制训练样本集中所固有的类别不平衡以及同源性所带来的负面影响,使用新提出的独立平衡Boosting算法在样本的特征向量集上训练得到N1甲基化腺苷位点预测模型;本发明中使用的独立平衡Boosting算法是对经典Boosting的改进,目的是为了解决训练样本中类别不平衡以及高同源性。个人认为这点最具有创新性;
步骤4、对于一个需要预测N1甲基化腺苷位点的RNA序列,使用步骤2所述的特征提取方法提取每个腺苷位点的特征向量,其中先以该RNA序列中的 每个腺苷位点为中心,提取长度为2n+1的RNA序列片段;再使用步骤2所述的特征提取方法,提取腺苷位点的每个RNA序列片段的特征向量;然后将提取的特征向量输入步骤3中构建的预测模型,得到预测概率值。最后,使用预先设定的阈值来判断此位点是否为N1甲基化腺苷位点。
在所述步骤3中,使用提出的独立平衡Boosting算法来训练N1甲基化腺苷位点预测模型。独立平衡Boosting算法详述如下:
算法输入:共3个参数,分别为训练样本集,独立评估样本集以及基分类器个数K。其中,xi为第i个样本的特征向量,yi为第i个样本的类标。在本问题中,yi∈{-1,+1},+1表示N1甲基化腺苷位点,-1表示非N1甲基化腺苷位点。特别需要注意的是,在构建XTr和XEva时,要确保从每条RNA序列中抽取的样本,要么全在XTr中,要么全在XEva中,这样才能保证XEva的独立性。使用独立评估样本集的目的是为了避免训练得到的模型预测性能虚高以及泛化能力降低。
算法输出:Boosting得到的集成分类器S={(Sb,eb)|b=1,…,K},其中Sb为第b个基分类器,eb是Sb的加权集成误差。
算法步骤:
Step①:初始化集成分类器为空集:S←Φ
Step②:初始化独立评估样本集中每个样本的权重:
Step③:对训练样本集中包含样本数目多的类别进行下采样,得到一个样本平衡的训练集XTr b;在XTr b训练一个基分类器Sb。原则上,任何机器学习算法均可以用于基分类器的训练。本案例的具体实施中使用了支持向量机(support vectormachine,SVM)。
Step④:使用独立评估样本集中的样本来计算基分类器Sb的 加权集成误差eb
其中δi的取值如下:对于样本(xi,yi)∈XEva,若基分类器Sb能对其进行正确分类,那么δi=0;否则δi=1。
Step⑤:判定基分类器Sb的加权集成误差eb是否超过设定的阈值ε。
若eb≥ε,放弃基分类器Sb,转至Step②;
否则,转至Step⑥;
本案例的具体实施中,设定的阈值ε=0.5。
Step⑥:将基分类器Sb添加到集成分类器S中:
S←S∪{Sb}
更新XEva中所有样本的权重:
Step⑦:判断集成分类器S中的基分类器个数是否已经达到K个。
若没有达到K个,则转至Step③;
否则,输出集成分类器S={(Sb,eb)|b=1,…,K},算法结束。
对于一个类别未知的样本x,使用训练好的集成分类器S={(Sb,eb)|b=1,…,K}对其类别进行预测流程如下:
将该样本x输入集成分类器S={(Sb,eb)|b=1,…,K},S中的每个基分类均输出样本x属于类别ωj(1≤j≤C,C为所有的类别总数)的概率值。符号sb,j(x)表示第b(1≤b≤K)个基分类器预测出样本x属于类别ωj的概率值。那么,样本x属于类别ωj(1≤j≤C)的总的概率值可以计算如下:
注意,在N1甲基化腺苷位点预测问题中,类别数C=2。
自此,可以使用所提出独立平衡Boosting算法来训练一个N1甲基化腺苷位点预测模型。使用上述预测流程,该模型可以用于对RNA序列进行N1甲基化腺苷位点预测。
由以上本发明的技术方案可知,本发明提供的预测方法是基于计算生物学的方法,能直接从RNA序列中精确地预测出N1甲基化腺苷位点的位置。与现有湿实验技术相比,本发明的预测方法是一种从RNA序列中提取特征、构建基于机器学习模型的预测方法,通过使用计算机分析计算而非复杂的生物医学湿实验来预测RNA序列中的N1甲基化腺苷位点,可以节省大量的时间和费用;同时,本发明提供的预测方法具有优秀的预测精度,可以作为对现有的生物医学实验测定N1甲基化腺苷的方法的补充和扩展。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1为本发明某些实施例的基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法的流程示意图。
图2为本发明提取RNA片段二级结构特征示意图。
图3为本发明所提的独立平衡Boosting算法。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
如图1所示,根据本发明的较优实施例,基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法,用于对RNA序列进行N1甲基化腺苷位点的预测,下面结合图1所示,详细说明上述方法的实现。
第一步、从最新发布的已测定的N1甲基化腺苷位点的RNA序列集合中抽取训练样本。具体来说,对于集合中的每一条RNA序列(由4种核苷酸构成,分别为腺苷酸(A)、鸟苷酸(G)、胞苷酸(C)、尿苷酸(U)),其中的腺苷酸(A)称为腺苷位点。如果一个腺苷酸(A)是N1甲基化的,就称为N1甲基化腺苷的位点;否则,称为非N1甲基化腺苷位点。对于每一个腺苷位点,提取以其为中心,两边长度各为n个核苷酸的RNA片段,得到的片段长度则为2n+1;对于RNA序列中某些腺苷位点两侧不满n个核苷酸的情况,使用字母“X”(表示核苷酸类型未知)来填充。中心是N1甲基化腺苷位点RNA序列片段称为正样本,中心是非N1甲基化腺苷位点RNA序列片段的称为负样本。所有抽取得到的RNA序列片段构成了训练样本集。在本方法中,我们对n的取值通过交叉验证实验进行了优化,发现当n=50时(亦即RNA序列片段的长度为101,记为101nt,nt为核苷酸的英文缩写),预测性能最优。
第二步、对每个长度为101nt的RNA序列片段提取基于序列的特征,包括: 二值编码特征、核苷酸组成成分特征、累积GC含量特征、二级结构特征以及最小自由能特征,具体步骤如下:
1)提取二值编码特征
对于一个长度为101nt的RNA序列片段中的每个核苷酸,将其表示一个4维的特征向量,如下所示:A表示为{1,0,0,0},C表示为{0,1,0,0},G表示为{0,0,1,0},T表示为{0,0,0,1},空位X表示为{0,0,0,0}。这样可得到该RNA序列的101×4=404维特征向量。
2)提取核苷酸组成成分特征
对于每个长度为101nt的RNA序列片段,在忽略其中的字母X的情况下,计算其中4种核苷酸(A,C,G,U),16种二核苷酸(即所有相邻的两个核苷酸的组合:AA,AC,AG,…,UU),64种三核苷酸(即所有相邻的三个核苷酸的组合:AAA,AAC,AAG,…,UUU)的出现频率。这样可以得到该RNA序列片段的4+16+64=84维特征。
3)提取累积GC含量特征
对于每个长度为101nt的RNA序列片段,首先将其中心的腺苷酸(A)位点去掉,得到长度为100nt的片段,再分别计算前5个、前10个、前15个、…、前100个核苷酸中G和C核苷酸所占的百分比。这样可以得到该RNA序列片段的100÷5=20维特征。
4)提取RNA序列片段的二级结构特征
对于每个长度为101nt的RNA序列片段提取基于二级结构的特征,具体步骤如下:
在忽略其中的字母X的情况下,使用RNAfold软件模拟其RNA二级结构;RNAfold软件对RNA序列片段中每个核苷酸输出3种二级结构的其中一种。三种二级结构分别为表示为点号‘.’、右括号‘)’以及左括号‘(’。另外,自然界中核苷酸的类型共有4种(A,C,U,G),这样核苷酸类型和二级结构类型共有12种可能的组合;计算这12种组合每种的出现频率(百分比),如图2所示。这样 可以得到该RNA序列片段的12维二级结构特征。
5)提取最小自由能特征
对于每个长度为101核苷酸的RNA序列片段,在忽略其中的字母X的情况下,使用RNAfold软件得到RNA序列片段的二级结构最小自由能,记为MFE;然后对此最小自由能进行两种归一化,方法如下:
其中,MFEI1和MFEI2表示两种归一化后的最小自由能,L表示RNA序列片段的长度,n_pairs表示二级结构中碱基对的数目。这样可以得到该RNA序列片段的2维最小自由能特征。
对于每一个长度为101nt的RNA序列片段,分别抽取其二值编码特征(404维)、核苷酸组成成分特征(84维)、累积GC含量特征(20维)、二级结构特征(12维)以及最小自由能特征(2维);然后将这些特征串行组合,就得到了该RNA序列片段的522(=404+84+20+12+2)维组合特征。所有RNA序列片段的组合特征就构成了训练样本的特征向量集。
第三步、在第二步得到的训练样本的特征向量集上,使用机器学习算法来训练得到一个N1甲基化腺苷位点预测模型。理论上,任何机器学习算法均可以用来训练一个N1甲基化腺苷位点预测模型。但是,训练样本集固有的两个基本特性(类别不平衡及高同源性),会对预测模型的训练带来负面的影响:
1)类别不平衡:负样本的数目远大于正样本的数目。负样本数目与正样本数目的比例大于50:1。这个特性会导致常规机器学习算法训练得到模型偏向于样本数目多的类别;
2)高同源性:虽然在生成正负样本(RNA片段)时,使用CD-HIT-EST对RNA序列之间的同源性进行了消除(sequence identity=80%);但是,会有大量的RNA片段(样本)来自同一条RNA序列。这个特性会使得训练得到的模型预测性能虚高,并且泛化能力降低。
为此,提出了一种独立平衡Boosting算法来训练N1甲基化腺苷位点预测模型。独立平衡Boosting算法是对经典AdaBoost算法的改进,以消除上述两个数据特性对模型训练带来的负面影响,其流程图如图3所示。创新之处在于引入了样本平衡机制(图3中的第③步)和独立评估机制(图3中的第④步)来进行基分类器的Boosting过程。独立平衡Boosting算法详述如下:
算法输入:共3个参数,分别为训练样本集,独立评估样本集以及基分类器个数K。其中,xi为第i个样本的特征向量,yi为第i个样本的类标。在本问题中,yi∈{-1,+1},+1表示N1甲基化腺苷位点,-1表示非N1甲基化腺苷位点。特别需要注意的是,在构建XTr和XEva时,要确保从每条RNA序列中抽取的样本,要么全在XTr中,要么全在XEva中,这样才能保证XEva的独立性。使用独立评估样本集的目的是为了避免训练得到的模型预测性能虚高以及泛化能力降低。
算法输出:Boosting得到的集成分类器S={(Sb,eb)|b=1,…,K},其中Sb为第b个基分类器,eb是Sb的加权集成误差。
算法步骤:
Step①:初始化集成分类器为空集:S←Φ
Step②:初始化独立评估样本集中每个样本的权重:
Step③:对训练样本集中包含样本数目多的类别进行下采样,得到一个样本平衡的训练集XTr b;在XTr b训练一个基分类器Sb。原则上,任何机器学习算法均可以用于基分类器的训练。本案例的具体实施中使用了支持向量机(support vectormachine,SVM)。
Step④:使用独立评估样本集中的样本来计算基分类器Sb的加权集成误差eb
其中δi的取值如下:对于样本(xi,yi)∈XEva,若基分类器Sb能对其进行正确分类,那么δi=0;否则δi=1。
Step⑤:判定基分类器Sb的加权集成误差eb是否超过设定的阈值ε。
若eb≥ε,放弃基分类器Sb,转至Step②;
否则,转至Step⑥;
本案例的具体实施中,设定的阈值ε=0.5。
Step⑥:将基分类器Sb添加到集成分类器S中:
S←S∪{Sb}
更新XEva中所有样本的权重:
Step⑦:判断集成分类器S中的基分类器个数是否已经达到K个。
若没有达到K个,则转至Step③;
否则,输出集成分类器S={(Sb,eb)|b=1,…,K},算法结束。
对于一个类别未知的样本x,使用训练好的集成分类器S={(Sb,eb)|b=1,…,K}对其类别进行预测流程如下:
将该样本x输入集成分类器S={(Sb,eb)|b=1,…,K},S中的每个基分类均输出样本x属于类别ωj(1≤j≤C,C为所有的类别总数)的概率值。符号sb,j(x)表示第b(1≤b≤K)个基分类器预测出样本x属于类别ωj的概率值。那么,样本x属于类别ωj(1≤j≤C)的总的概率值可以计算如下:
注意,在N1甲基化腺苷位点预测问题中,类别数C=2。
自此,可以使用所提出独立平衡Boosting算法来训练一个N1甲基化腺苷位点预测模型。使用上述预测流程,该模型可以用于对RNA序列进行N1甲基化腺苷位点预测。
第四步、使用训练好的预测模型进行N1甲基化腺苷位点预测。对于给定的一个需要预测N1甲基化腺苷位点的RNA序列,首先使用与第一步相同的方法,对序列中的每个腺苷位点(A),以其为中心,提取长度为101nt的RNA序列片段;接下来,使用与第二步中相同特征提取方法,为每个RNA序列片段提取522维的特征向量;之后,将每个RNA序列片段的522维特征向量输入第三步所构建的N1甲基化腺苷位点预测模型,该模型输出每个RNA序列片段中间的腺苷位点会被N1甲基化的概率值;最后,利用预先设定的阈值T来判断每个腺苷位点是否为N1甲基化腺苷位点,具体方法为:如果模型对腺苷位点的输出预测概率值大于T,则此位点被预测为N1甲基化腺苷位点,否则预测为非N1甲基化腺苷位点,如图1中虚线流程所示。在本方法中,我们对T的取值通过交叉验证实验进行了优化,发现阈值T=0.6时整体预测性能最佳。用户亦可根据实际情况,自行设定阈值T的大小。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (9)

1.一种基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法,其特征在于,包括以下步骤:
步骤1、从湿实验数据生成包含N1甲基化腺苷位点以及非N1甲基化腺苷位点的RNA序列片段;对RNA序列中的每个腺苷位点,提取一个以该腺苷为中心,左右两侧长度均为n个核苷酸的RNA序列片段,该RNA序列片段的长度为2n+1,所有包含N1甲基化腺苷位点的RNA序列片段构成正样本集,所有包含非N1甲基化腺苷位点的RNA序列片段构成负样本集;
步骤2、对每个RNA序列片段提取基于序列的特征,包括:二值编码特征、核苷酸组成成分特征、累积GC含量特征、二级结构特征以及最小自由能特征;将这些特征串行组合,得到每个RNA序列片段的特征向量;所有RNA序列片段的特征向量构成全体样本的特征向量集;
步骤3、使用独立平衡Boosting算法在样本的特征向量集上训练得到N1甲基化腺苷位点预测模型;
步骤4、对于一个需要预测N1甲基化腺苷位点的RNA序列,先以该RNA序列中的每个腺苷位点为中心,提取每个腺苷位点对应的长度为2n+1长度的RNA序列片段;再使用步骤2所述的特征提取方法提取每个腺苷位点的对应2n+1长度的RNA序列片段特征向量,然后将提取的特征向量输入步骤3中构建的预测模型,得到预测概率值;最后,根据预先设定的阈值来判断此位点是否为N1甲基化腺苷位点。
2.根据权利要求1所述的基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法,其特征在于,所述步骤1中,从湿实验数据的已测定的N1甲基化腺苷位点的RNA序列集合中抽取训练样本,具体包括:对于序列集合中的每一条由腺苷酸A、鸟苷酸G、胞苷酸C、尿苷酸U四种核苷酸构成的RNA序列,其中的腺苷酸A称为腺苷位点,如果一个腺苷酸A是N1甲基化的,就称为N1甲基化腺苷的位点;否则,称为非N1甲基化腺苷位点;对于每一个腺苷位点,提取以其为中心,两边长度各为n个核苷酸的RNA片段,得到的片段长度则为2n+1;对于RNA序列中某些腺苷位点两侧不满n个核苷酸的情况,使用字母X来填充;中心是N1甲基化腺苷位点RNA序列片段称为正样本,中心是非N1甲基化腺苷位点RNA序列片段的称为负样本,所有抽取得到的RNA序列片段构成了训练样本集。
3.根据权利要求2所述的基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法,其特征在于,所述步骤1中,n的取值为50,即RNA序列片段的长度为101,记为101nt,nt为核苷酸的英文缩写。
4.根据权利要求3所述的基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法,其特征在于,所述步骤2中,对每个RNA序列片段提取基于序列的特征,对每个长度为101nt的RNA序列片段提取基于序列的特征,包括:二值编码特征、核苷酸组成成分特征、累积GC含量特征、二级结构特征以及最小自由能特征,具体步骤如下:
1)提取二值编码特征
对于一个长度为101nt的RNA序列片段中的每个核苷酸,将其表示一个4维的特征向量,如下所示:A表示为{1,0,0,0},C表示为{0,1,0,0},G表示为{0,0,1,0},T表示为{0,0,0,1},空位X表示为{0,0,0,0},这样可得到该RNA序列的101×4=404维特征向量;
2)提取核苷酸组成成分特征
对于每个长度为101nt的RNA序列片段,在忽略其中的字母X的情况下,计算其中4种核苷酸A、C、G、U,16种二核苷酸即所有相邻的两个核苷酸的组合:AA,AC,AG,…,UU,64种三核苷酸即所有相邻的三个核苷酸的组合:AAA,AAC,AAG,…,UUU的出现频率,这样可以得到该RNA序列片段的4+16+64=84维特征;
3)提取累积GC含量特征
对于每个长度为101nt的RNA序列片段,首先将其中心的腺苷酸A位点去掉,得到长度为100nt的片段,再分别计算前5个、前10个、前15个、…、前100个核苷酸中G和C核苷酸所占的百分比,这样可以得到该RNA序列片段的20维特征;
4)提取RNA序列片段的二级结构特征
对于每个长度为101nt的RNA序列片段提取基于二级结构的特征,具体步骤如下:
在忽略其中的字母X的情况下,使用RNAfold软件模拟其RNA二级结构;RNAfold软件对RNA序列片段中每个核苷酸输出3种二级结构的其中一种;三种二级结构分别为表示为点号‘.’、右括号‘)’以及左括号‘(’;另外,自然界中核苷酸的类型共有4种A、C、G、U,这样核苷酸类型和二级结构类型共有12种可能的组合;计算这12种组合每种的出现频率百分比,这样可以得到该RNA序列片段的12维二级结构特征;
5)提取最小自由能特征
对于每个长度为101核苷酸的RNA序列片段,在忽略其中的字母X的情况下,使用RNAfold软件得到RNA序列片段的二级结构最小自由能,记为MFE;然后对此最小自由能进行两种归一化,方法如下:
<mrow> <msub> <mi>MFEI</mi> <mn>1</mn> </msub> <mo>=</mo> <mfrac> <mrow> <mi>M</mi> <mi>F</mi> <mi>E</mi> </mrow> <mi>L</mi> </mfrac> </mrow>
<mrow> <msub> <mi>MFEI</mi> <mn>2</mn> </msub> <mo>=</mo> <mfrac> <mrow> <mi>M</mi> <mi>F</mi> <mi>E</mi> </mrow> <mrow> <mi>n</mi> <mo>_</mo> <mi>p</mi> <mi>a</mi> <mi>i</mi> <mi>r</mi> <mi>s</mi> </mrow> </mfrac> </mrow>
其中,MFEI1和MFEI2表示两种归一化后的最小自由能,L表示RNA序列片段的长度,n_pairs表示二级结构中碱基对的数目;如此得到该RNA序列片段的2维最小自由能特征;
对于每一个长度为101nt的RNA序列片段,分别抽取其二值编码特征404维、核苷酸组成成分特征84维、累积GC含量特征20维、二级结构特征12维以及最小自由能特征2维;然后将这些特征串行组合,就得到了该RNA序列片段的522维组合特征;所有RNA序列片段的组合特征就构成了训练样本的特征向量集。
5.根据权利要求4所述的基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法,其特征在于,在所述步骤3中,独立平衡Boosting算法来训练N1甲基化腺苷位点预测模型的过程中,具体如下:
独立平衡Boosting算法输入:共3个参数,分别为训练样本集XTr,独立评估样本集以及基分类器个数K;其中,xi为第i个样本的特征向量,yi为第i个样本的类标;yi∈{-1,+1},+1表示N1甲基化腺苷位点,-1表示非N1甲基化腺苷位点;在构建XTr和XEva时,确保从每条RNA序列中抽取的样本,要么全在XTr中,要么全在XEva中,以保证XEva的独立性;
独立平衡Boosting算法输出:Boosting得到的集成分类器S={(Sb,eb)|b=1,…,K},其中Sb为第b个基分类器,eb是Sb的加权集成误差;
独立平衡Boosting算法具体步骤:
Step①:初始化集成分类器为空集:S←Φ
Step②:初始化独立评估样本集中每个样本的权重,其中M表示独立评估集中的样本个数:
<mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>M</mi> </mfrac> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&amp;le;</mo> <mi>M</mi> </mrow>
Step③:对训练样本集中包含样本数目多的类别进行下采样,得到一个样本平衡的训练集XTr b;在XTr b训练一个基分类器Sb
Step④:使用独立评估样本集中的样本来计算基分类器Sb的加权集成误差eb
<mrow> <msub> <mi>e</mi> <mi>b</mi> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>&amp;delta;</mi> <mi>i</mi> </msub> </mrow>
其中δi的取值如下:对于样本(xi,yi)∈XEva,若基分类器Sb能对其进行正确分类,那么δi=0;否则δi=1;
Step⑤:判定基分类器Sb的加权集成误差eb是否超过设定的阈值ε;
若eb≥ε,放弃基分类器Sb,转至Step②;
否则,转至Step⑥;
Step⑥:将基分类器Sb添加到集成分类器S中:
S←S∪{Sb}
更新XEva中所有样本的权重:
<mrow> <msub> <mi>&amp;beta;</mi> <mi>b</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>e</mi> <mi>b</mi> </msub> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>e</mi> <mi>b</mi> </msub> </mrow> </mfrac> </mrow>
<mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>&amp;LeftArrow;</mo> <mfrac> <mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <msubsup> <mi>&amp;beta;</mi> <mi>b</mi> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;delta;</mi> <mi>i</mi> </msub> </mrow> </msubsup> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <msub> <mi>w</mi> <mi>t</mi> </msub> <msubsup> <mi>&amp;beta;</mi> <mi>b</mi> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;delta;</mi> <mi>t</mi> </msub> </mrow> </msubsup> </mrow> </mfrac> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&amp;le;</mo> <mi>M</mi> </mrow>
Step⑦:判断集成分类器S中的基分类器个数是否已经达到K个;
若没有达到K个,则转至Step③;
否则,输出集成分类器S={(Sb,eb)|b=1,…,K},算法结束。
6.根据权利要求5所述的基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法,其特征在于,前述步骤3中,设定的阈值ε=0.5。
7.根据权利要求5或6所述的基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法,其特征在于,在步骤4中,对于给定的一个需要预测N1甲基化腺苷位点的RNA序列,首先使用与步骤1相同的方法,对序列中的每个腺苷位点,以其为中心,提取长度为101nt的RNA序列片段;接下来,使用与步骤2相同特征提取方法,为每个RNA序列片段提取522维的特征向量;之后,将每个RNA序列片段的522维特征向量输入步骤3所构建的N1甲基化腺苷位点预测模型,该模型输出每个RNA序列片段中间的腺苷位点会被N1甲基化的概率值;最后,利用预先设定的阈值T来判断每个腺苷位点是否为N1甲基化腺苷位点,具体方法为:如果模型对腺苷位点的输出预测概率值大于阈值T,则此位点被预测为N1甲基化腺苷位点,否则预测为非N1甲基化腺苷位点。
8.根据权利要求7所述的基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法,其特征在于,所述阈值T=0.6。
9.根据权利要求7所述的基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法,其特征在于,在步骤4中,对于一个类别未知的样本x,使用所述集成分类器S={(Sb,eb)|b=1,…,K}对其类别进行预测得到概率值的流程如下:
将该样本x输入集成分类器S={(Sb,eb)|b=1,…,K},S中的每个基分类均输出样本x属于类别ωj的概率值,其中1≤j≤C,C为所有的类别总数;符号sb,j(x)表示第b个基分类器预测出样本x属于类别ωj的概率值,其中1≤b≤K,那么,样本x属于类别ωj并且1≤j≤C的总的概率值可以计算如下:
<mrow> <msub> <mi>&amp;mu;</mi> <mi>j</mi> </msub> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>S</mi> <mi>b</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&amp;omega;</mi> <mi>j</mi> </msub> </mrow> </munder> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>e</mi> <mi>b</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <msub> <mi>s</mi> <mrow> <mi>b</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>S</mi> <mi>b</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&amp;NotEqual;</mo> <msub> <mi>&amp;omega;</mi> <mi>j</mi> </msub> </mrow> </munder> <msub> <mi>e</mi> <mi>b</mi> </msub> <mo>&amp;times;</mo> <msub> <mi>s</mi> <mrow> <mi>b</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow>
其中,类别数C=2。
CN201610621018.2A 2016-07-29 2016-07-29 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法 Expired - Fee Related CN106250718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610621018.2A CN106250718B (zh) 2016-07-29 2016-07-29 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610621018.2A CN106250718B (zh) 2016-07-29 2016-07-29 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法

Publications (2)

Publication Number Publication Date
CN106250718A CN106250718A (zh) 2016-12-21
CN106250718B true CN106250718B (zh) 2018-03-02

Family

ID=57605782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610621018.2A Expired - Fee Related CN106250718B (zh) 2016-07-29 2016-07-29 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法

Country Status (1)

Country Link
CN (1) CN106250718B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326329A (zh) * 2018-11-14 2019-02-12 金陵科技学院 一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609351A (zh) * 2017-10-23 2018-01-19 桂林电子科技大学 一种基于卷积神经网络预测假尿苷修饰位点的方法
CN107918725B (zh) * 2017-12-28 2021-09-07 大连海事大学 一种基于机器学习选择最优特征的dna甲基化预测方法
CN109390037A (zh) * 2018-10-08 2019-02-26 齐齐哈尔大学 基于SVM-AdaBoost的成熟miRNA全位点识别方法
CN109215740A (zh) * 2018-11-06 2019-01-15 中山大学 基于Xgboost的全基因组RNA二级结构预测方法
CN111161793B (zh) * 2020-01-09 2023-02-03 青岛科技大学 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN112365925A (zh) * 2020-11-09 2021-02-12 陕西师范大学 双向二核苷酸位置特异性偏好和点互信息dna/rna序列编码方法
CN112365924B (zh) * 2020-11-09 2023-03-21 陕西师范大学 双向三核苷酸位置特异性偏好和点联合互信息dna/rna序列编码方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760210A (zh) * 2012-06-19 2012-10-31 南京理工大学常熟研究院有限公司 一种蛋白质三磷酸腺苷绑定位点预测方法
SG11201606625RA (en) * 2014-02-14 2016-09-29 Immune Design Corp Immunotherapy of cancer through combination of local and systemic immune stimulation
CN104077499B (zh) * 2014-05-25 2018-01-05 南京理工大学 基于有监督上采样学习的蛋白质‑核苷酸绑定位点预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326329A (zh) * 2018-11-14 2019-02-12 金陵科技学院 一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法
CN109326329B (zh) * 2018-11-14 2020-07-07 金陵科技学院 一种锌结合蛋白质作用位点预测方法

Also Published As

Publication number Publication date
CN106250718A (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
CN106250718B (zh) 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法
Wei et al. Integration of deep feature representations and handcrafted features to improve the prediction of N6-methyladenosine sites
Sipiczki Where does fission yeast sit on the tree of life?
Pace et al. Phylogeny and beyond: Scientific, historical, and conceptual significance of the first tree of life
CN102165456B (zh) 表征来自于遗传物质样品的序列的方法
Zhang et al. Improving N6-methyladenosine site prediction with heuristic selection of nucleotide physical–chemical properties
CN104077499B (zh) 基于有监督上采样学习的蛋白质‑核苷酸绑定位点预测方法
Wen et al. In Silico identification and characterization of mRNA-like noncoding transcripts in Medicago truncatula
Libkind et al. Towards yeast taxogenomics: lessons from novel species descriptions based on complete genome sequences
Wiemers et al. ITS2 secondary structure improves phylogeny estimation in a radiation of blue butterflies of the subgenus Agrodiaetus (Lepidoptera: Lycaenidae: Polyommatus)
Shoombuatong et al. THRONE: a new approach for accurate prediction of human RNA N7-methylguanosine sites
Lindgreen et al. Robust identification of noncoding RNA from transcriptomes requires phylogenetically-informed sampling
Yao et al. plantMirP: an efficient computational program for the prediction of plant pre-miRNA by incorporating knowledge-based energy features
Jiang et al. m6AmPred: identifying RNA N6, 2′-O-dimethyladenosine (m6Am) sites based on sequence-derived information
Do et al. Precursor microRNA identification using deep convolutional neural networks
Čadež et al. Hanseniaspora smithiae sp. nov., a novel apiculate yeast species from Patagonian forests that lacks the typical genomic domestication signatures for fermentative environments
Xie et al. SRG-vote: Predicting miRNA-gene relationships via embedding and LSTM ensemble
Sheikh Hassani et al. A semi-supervised machine learning framework for microRNA classification
Rasheed Bioinformatics approach: A powerful tool for microRNA research
Khan et al. m6A-Finder: Detecting m6A methylation sites from RNA transcriptomes using physical and statistical properties based features
Wikmark et al. Obligatory group I introns with unusual features at positions 1949 and 2449 in nuclear LSU rDNA of Didymiaceae myxomycetes
Khan et al. Current trends in chloroplast genome research
Xia Comparative genomics
Vaillant et al. Influence of the sequence on elastic properties of long DNA chains
Ding et al. Predicting microRNA biological functions based on genes discriminant analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180302

Termination date: 20210729

CF01 Termination of patent right due to non-payment of annual fee