CN106250718B

CN106250718B - 基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法

Info

Publication number: CN106250718B
Application number: CN201610621018.2A
Authority: CN
Inventors: 於铉; 李广庆; 张明
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-07-29
Filing date: 2016-07-29
Publication date: 2018-03-02
Anticipated expiration: 2036-07-29
Also published as: CN106250718A

Abstract

本发明涉及生物信息学RNA转录后修饰位点预测领域，提出一种从RNA序列出发使用机器学习技术来进行N¹甲基化腺苷位点预测的方法，能直接从RNA序列中精确地预测出N¹甲基化腺苷位点的位置。与现有湿实验技术相比，本发明的预测方法是一种从RNA序列中提取特征、构建基于机器学习模型的预测方法，通过使用计算机分析计算而非复杂的生物医学湿实验来预测RNA序列中的N¹甲基化腺苷位点，可以节省大量的时间和费用；同时，本发明提供的预测方法具有优秀的预测精度，可以作为对现有的生物医学实验测定N¹甲基化腺苷的方法的补充和扩展。

Description

基于独立平衡Boosting算法的N1甲基化腺苷位点预测方法

技术领域

本发明涉及生物信息学RNA转录后修饰位点预测领域，具体而言涉及一种从RNA序列出发使用机器学习技术来进行N¹甲基化腺苷位点预测的方法。

背景技术

N¹甲基化腺苷(N¹-methyladenosine)是一种在生物体内广泛分布的RNA转录后修饰，它在生命体中具有非常重要的调控作用。例如，N¹甲基化腺苷的存在能使酵母菌的信使RNA(tRNA)的三维结构更加稳定(M.Saikia等人,"Genome-wide analysis of N¹-methyladenosine modification in human tRNAs,"RNA,vol.16,pp.1317-27,Jul 2010)；N¹甲基化腺苷也会出现在酵母菌的核糖体RNA(rRNA)中，并能影响核糖体的合成和介导抗生素耐药性和应激反应(C.Peifer等人,"Yeast Rrp8p,a novel methyltransferaseresponsible for m¹A 645base modification of 25S rRNA,"Nucleic Acids Res,vol.41,pp.1151-63,Jan 2013；S.Sharma等人,"Identification of a novelmethyltransferase,Bmt2,responsible for the N¹-methyladenosine basemodification of 25S rRNA in Saccharomyces cerevisiae,"Nucleic Acids Res,vol.41,pp.5428-43,May 2013)。

2016年两项最新的研究(D.Dominissini等人,"The dynamic N¹-methyladenosine methylome in eukaryotic messenger RNA,"Nature,vol.530,pp.441-446,2016；X.Li等人,"Transcriptome-wide mapping reveals reversible and dynamicN¹-methyladenosine methylome,"Nat Chem Biol,vol.12,pp.311-6,May2016)更揭示了N¹甲基化腺苷在整个转录组水平上的分布。他们发现N¹甲基化腺苷趋向于出现在RNA的5端非翻译区(5’UTR)和起始密码子附近，可以引发蛋白质翻译。总而言之，N¹甲基化腺苷在生命体在具有重要的调控作用，因此，对RNA中N¹甲基化腺苷位点的精确识别具有重大意义。

目前为止，对N¹甲基化腺苷位点的识别还依赖于生物医学实验(wet-lab，湿实验)的方法。这些湿实验方法不仅耗费时间久，而且花费巨大。因此，研发快速、可靠、高精度的干实验(dry-lab)方法用于N¹甲基化腺苷位点预测就有着迫切需求。

发明内容

本发明目的在于提供一种基于独立平衡Boosting算法的N¹甲基化腺苷位点预测方法，直接从RNA序列中精确地预测出N¹甲基化腺苷位点的位置，解决目前N¹甲基化腺苷位点只能通过耗时耗力的生物医学实验(wet-lab)测定的现状。

为达成上述目的，本发明提出一种基于独立平衡Boosting算法的N¹甲基化腺苷位点预测方法，包括以下步骤：

步骤1、从最新发布的湿实验数据生成包含N¹甲基化腺苷位点(正样本)以及非N¹甲基化腺苷位点的RNA序列片段(负样本)。对RNA序列中的每个腺苷(Adenosine)位点，提取一个以该腺苷为中心，左右两侧长度均为n个核苷酸的RNA序列片段，该RNA序列片段的长度为2n+1。所有包含N¹甲基化腺苷位点的RNA序列片段构成正样本集，所有包含非N¹甲基化腺苷位点的RNA序列片段构成负样本集；

步骤2、对每个RNA序列片段提取基于序列的特征，包括：二值编码特征、核苷酸组成成分特征、累积GC含量特征、二级结构特征以及最小自由能特征；将这些特征串行组合，得到每个RNA序列片段的特征向量；所有RNA序列片段的特征向量构成了全体样本的特征向量集；

步骤3、为有效抑制训练样本集中所固有的类别不平衡以及同源性所带来的负面影响，使用新提出的独立平衡Boosting算法在样本的特征向量集上训练得到N¹甲基化腺苷位点预测模型；本发明中使用的独立平衡Boosting算法是对经典Boosting的改进，目的是为了解决训练样本中类别不平衡以及高同源性。个人认为这点最具有创新性；

步骤4、对于一个需要预测N¹甲基化腺苷位点的RNA序列，使用步骤2所述的特征提取方法提取每个腺苷位点的特征向量，其中先以该RNA序列中的每个腺苷位点为中心，提取长度为2n+1的RNA序列片段；再使用步骤2所述的特征提取方法，提取腺苷位点的每个RNA序列片段的特征向量；然后将提取的特征向量输入步骤3中构建的预测模型，得到预测概率值。最后，使用预先设定的阈值来判断此位点是否为N¹甲基化腺苷位点。

在所述步骤3中，使用提出的独立平衡Boosting算法来训练N¹甲基化腺苷位点预测模型。独立平衡Boosting算法详述如下：

算法输入：共3个参数，分别为训练样本集，独立评估样本集以及基分类器个数K。其中，x_i为第i个样本的特征向量，y_i为第i个样本的类标。在本问题中，y_i∈{-1,+1}，+1表示N¹甲基化腺苷位点，-1表示非N¹甲基化腺苷位点。特别需要注意的是，在构建X^Tr和X^Eva时，要确保从每条RNA序列中抽取的样本，要么全在X^Tr中，要么全在X^Eva中，这样才能保证X^Eva的独立性。使用独立评估样本集的目的是为了避免训练得到的模型预测性能虚高以及泛化能力降低。

算法输出：Boosting得到的集成分类器S＝{(S_b,e_b)|b＝1,…,K}，其中S_b为第b个基分类器，e_b是S_b的加权集成误差。

算法步骤：

Step①：初始化集成分类器为空集：S←Φ

Step②：初始化独立评估样本集中每个样本的权重：

Step③：对训练样本集中包含样本数目多的类别进行下采样，得到一个样本平衡的训练集X^Tr _b；在X^Tr _b训练一个基分类器S_b。原则上，任何机器学习算法均可以用于基分类器的训练。本案例的具体实施中使用了支持向量机(support vectormachine,SVM)。

Step④：使用独立评估样本集中的样本来计算基分类器S_b的加权集成误差e_b：

其中δ_i的取值如下：对于样本(x_i,y_i)∈X^Eva，若基分类器S_b能对其进行正确分类，那么δ_i＝0；否则δ_i＝1。

Step⑤：判定基分类器S_b的加权集成误差e_b是否超过设定的阈值ε。

若e_b≥ε，放弃基分类器S_b，转至Step②；

否则，转至Step⑥；

本案例的具体实施中，设定的阈值ε＝0.5。

Step⑥：将基分类器S_b添加到集成分类器S中：

S←S∪{S_b}

更新X^Eva中所有样本的权重：

Step⑦：判断集成分类器S中的基分类器个数是否已经达到K个。

若没有达到K个，则转至Step③；

否则，输出集成分类器S＝{(S_b,e_b)|b＝1,…,K}，算法结束。

□

对于一个类别未知的样本x，使用训练好的集成分类器S＝{(S_b,e_b)|b＝1,…,K}对其类别进行预测流程如下：

将该样本x输入集成分类器S＝{(S_b,e_b)|b＝1,…,K}，S中的每个基分类均输出样本x属于类别ω_j(1≤j≤C，C为所有的类别总数)的概率值。符号s_b,j(x)表示第b(1≤b≤K)个基分类器预测出样本x属于类别ω_j的概率值。那么，样本x属于类别ω_j(1≤j≤C)的总的概率值可以计算如下：

注意，在N¹甲基化腺苷位点预测问题中，类别数C＝2。

自此，可以使用所提出独立平衡Boosting算法来训练一个N¹甲基化腺苷位点预测模型。使用上述预测流程，该模型可以用于对RNA序列进行N¹甲基化腺苷位点预测。

由以上本发明的技术方案可知，本发明提供的预测方法是基于计算生物学的方法，能直接从RNA序列中精确地预测出N¹甲基化腺苷位点的位置。与现有湿实验技术相比，本发明的预测方法是一种从RNA序列中提取特征、构建基于机器学习模型的预测方法，通过使用计算机分析计算而非复杂的生物医学湿实验来预测RNA序列中的N¹甲基化腺苷位点，可以节省大量的时间和费用；同时，本发明提供的预测方法具有优秀的预测精度，可以作为对现有的生物医学实验测定N¹甲基化腺苷的方法的补充和扩展。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1为本发明某些实施例的基于独立平衡Boosting算法的N¹甲基化腺苷位点预测方法的流程示意图。

图2为本发明提取RNA片段二级结构特征示意图。

图3为本发明所提的独立平衡Boosting算法。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

如图1所示，根据本发明的较优实施例，基于独立平衡Boosting算法的N¹甲基化腺苷位点预测方法，用于对RNA序列进行N¹甲基化腺苷位点的预测，下面结合图1所示，详细说明上述方法的实现。

第一步、从最新发布的已测定的N¹甲基化腺苷位点的RNA序列集合中抽取训练样本。具体来说，对于集合中的每一条RNA序列(由4种核苷酸构成，分别为腺苷酸(A)、鸟苷酸(G)、胞苷酸(C)、尿苷酸(U))，其中的腺苷酸(A)称为腺苷位点。如果一个腺苷酸(A)是N¹甲基化的，就称为N¹甲基化腺苷的位点；否则，称为非N¹甲基化腺苷位点。对于每一个腺苷位点，提取以其为中心，两边长度各为n个核苷酸的RNA片段，得到的片段长度则为2n+1；对于RNA序列中某些腺苷位点两侧不满n个核苷酸的情况，使用字母“X”(表示核苷酸类型未知)来填充。中心是N¹甲基化腺苷位点RNA序列片段称为正样本，中心是非N¹甲基化腺苷位点RNA序列片段的称为负样本。所有抽取得到的RNA序列片段构成了训练样本集。在本方法中，我们对n的取值通过交叉验证实验进行了优化，发现当n＝50时(亦即RNA序列片段的长度为101，记为101nt，nt为核苷酸的英文缩写)，预测性能最优。

第二步、对每个长度为101nt的RNA序列片段提取基于序列的特征，包括：二值编码特征、核苷酸组成成分特征、累积GC含量特征、二级结构特征以及最小自由能特征，具体步骤如下：

1)提取二值编码特征

对于一个长度为101nt的RNA序列片段中的每个核苷酸，将其表示一个4维的特征向量，如下所示：A表示为{1,0,0,0}，C表示为{0,1,0,0}，G表示为{0,0,1,0}，T表示为{0,0,0,1}，空位X表示为{0,0,0,0}。这样可得到该RNA序列的101×4＝404维特征向量。

2)提取核苷酸组成成分特征

对于每个长度为101nt的RNA序列片段，在忽略其中的字母X的情况下，计算其中4种核苷酸(A,C,G,U)，16种二核苷酸(即所有相邻的两个核苷酸的组合：AA,AC,AG,…,UU)，64种三核苷酸(即所有相邻的三个核苷酸的组合：AAA,AAC,AAG,…,UUU)的出现频率。这样可以得到该RNA序列片段的4+16+64＝84维特征。

3)提取累积GC含量特征

对于每个长度为101nt的RNA序列片段，首先将其中心的腺苷酸(A)位点去掉，得到长度为100nt的片段，再分别计算前5个、前10个、前15个、…、前100个核苷酸中G和C核苷酸所占的百分比。这样可以得到该RNA序列片段的100÷5＝20维特征。

4)提取RNA序列片段的二级结构特征

对于每个长度为101nt的RNA序列片段提取基于二级结构的特征，具体步骤如下：

在忽略其中的字母X的情况下，使用RNAfold软件模拟其RNA二级结构；RNAfold软件对RNA序列片段中每个核苷酸输出3种二级结构的其中一种。三种二级结构分别为表示为点号‘.’、右括号‘)’以及左括号‘(’。另外，自然界中核苷酸的类型共有4种(A，C，U，G)，这样核苷酸类型和二级结构类型共有12种可能的组合；计算这12种组合每种的出现频率(百分比)，如图2所示。这样可以得到该RNA序列片段的12维二级结构特征。

5)提取最小自由能特征

对于每个长度为101核苷酸的RNA序列片段，在忽略其中的字母X的情况下，使用RNAfold软件得到RNA序列片段的二级结构最小自由能，记为MFE；然后对此最小自由能进行两种归一化，方法如下：

其中，MFEI₁和MFEI₂表示两种归一化后的最小自由能，L表示RNA序列片段的长度，n_pairs表示二级结构中碱基对的数目。这样可以得到该RNA序列片段的2维最小自由能特征。

对于每一个长度为101nt的RNA序列片段，分别抽取其二值编码特征(404维)、核苷酸组成成分特征(84维)、累积GC含量特征(20维)、二级结构特征(12维)以及最小自由能特征(2维)；然后将这些特征串行组合，就得到了该RNA序列片段的522(＝404+84+20+12+2)维组合特征。所有RNA序列片段的组合特征就构成了训练样本的特征向量集。

第三步、在第二步得到的训练样本的特征向量集上，使用机器学习算法来训练得到一个N¹甲基化腺苷位点预测模型。理论上，任何机器学习算法均可以用来训练一个N¹甲基化腺苷位点预测模型。但是，训练样本集固有的两个基本特性(类别不平衡及高同源性)，会对预测模型的训练带来负面的影响：

1)类别不平衡：负样本的数目远大于正样本的数目。负样本数目与正样本数目的比例大于50:1。这个特性会导致常规机器学习算法训练得到模型偏向于样本数目多的类别；

2)高同源性：虽然在生成正负样本(RNA片段)时，使用CD-HIT-EST对RNA序列之间的同源性进行了消除(sequence identity＝80％)；但是，会有大量的RNA片段(样本)来自同一条RNA序列。这个特性会使得训练得到的模型预测性能虚高，并且泛化能力降低。

为此，提出了一种独立平衡Boosting算法来训练N¹甲基化腺苷位点预测模型。独立平衡Boosting算法是对经典AdaBoost算法的改进，以消除上述两个数据特性对模型训练带来的负面影响，其流程图如图3所示。创新之处在于引入了样本平衡机制(图3中的第③步)和独立评估机制(图3中的第④步)来进行基分类器的Boosting过程。独立平衡Boosting算法详述如下：

算法步骤：

Step①：初始化集成分类器为空集：S←Φ

Step②：初始化独立评估样本集中每个样本的权重：

若e_b≥ε，放弃基分类器S_b，转至Step②；

否则，转至Step⑥；

本案例的具体实施中，设定的阈值ε＝0.5。

Step⑥：将基分类器S_b添加到集成分类器S中：

S←S∪{S_b}

更新X^Eva中所有样本的权重：

若没有达到K个，则转至Step③；

否则，输出集成分类器S＝{(S_b,e_b)|b＝1,…,K}，算法结束。

注意，在N¹甲基化腺苷位点预测问题中，类别数C＝2。

第四步、使用训练好的预测模型进行N¹甲基化腺苷位点预测。对于给定的一个需要预测N¹甲基化腺苷位点的RNA序列，首先使用与第一步相同的方法，对序列中的每个腺苷位点(A)，以其为中心，提取长度为101nt的RNA序列片段；接下来，使用与第二步中相同特征提取方法，为每个RNA序列片段提取522维的特征向量；之后，将每个RNA序列片段的522维特征向量输入第三步所构建的N¹甲基化腺苷位点预测模型，该模型输出每个RNA序列片段中间的腺苷位点会被N¹甲基化的概率值；最后，利用预先设定的阈值T来判断每个腺苷位点是否为N¹甲基化腺苷位点，具体方法为：如果模型对腺苷位点的输出预测概率值大于T，则此位点被预测为N¹甲基化腺苷位点，否则预测为非N¹甲基化腺苷位点，如图1中虚线流程所示。在本方法中，我们对T的取值通过交叉验证实验进行了优化，发现阈值T＝0.6时整体预测性能最佳。用户亦可根据实际情况，自行设定阈值T的大小。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于独立平衡Boosting算法的N¹甲基化腺苷位点预测方法，其特征在于，包括以下步骤：

步骤1、从湿实验数据生成包含N¹甲基化腺苷位点以及非N¹甲基化腺苷位点的RNA序列片段；对RNA序列中的每个腺苷位点，提取一个以该腺苷为中心，左右两侧长度均为n个核苷酸的RNA序列片段，该RNA序列片段的长度为2n+1，所有包含N¹甲基化腺苷位点的RNA序列片段构成正样本集，所有包含非N¹甲基化腺苷位点的RNA序列片段构成负样本集；

步骤2、对每个RNA序列片段提取基于序列的特征，包括：二值编码特征、核苷酸组成成分特征、累积GC含量特征、二级结构特征以及最小自由能特征；将这些特征串行组合，得到每个RNA序列片段的特征向量；所有RNA序列片段的特征向量构成全体样本的特征向量集；

步骤3、使用独立平衡Boosting算法在样本的特征向量集上训练得到N¹甲基化腺苷位点预测模型；

步骤4、对于一个需要预测N¹甲基化腺苷位点的RNA序列，先以该RNA序列中的每个腺苷位点为中心，提取每个腺苷位点对应的长度为2n+1长度的RNA序列片段；再使用步骤2所述的特征提取方法提取每个腺苷位点的对应2n+1长度的RNA序列片段特征向量，然后将提取的特征向量输入步骤3中构建的预测模型，得到预测概率值；最后，根据预先设定的阈值来判断此位点是否为N¹甲基化腺苷位点。

2.根据权利要求1所述的基于独立平衡Boosting算法的N¹甲基化腺苷位点预测方法，其特征在于，所述步骤1中，从湿实验数据的已测定的N¹甲基化腺苷位点的RNA序列集合中抽取训练样本，具体包括：对于序列集合中的每一条由腺苷酸A、鸟苷酸G、胞苷酸C、尿苷酸U四种核苷酸构成的RNA序列，其中的腺苷酸A称为腺苷位点，如果一个腺苷酸A是N¹甲基化的，就称为N¹甲基化腺苷的位点；否则，称为非N¹甲基化腺苷位点；对于每一个腺苷位点，提取以其为中心，两边长度各为n个核苷酸的RNA片段，得到的片段长度则为2n+1；对于RNA序列中某些腺苷位点两侧不满n个核苷酸的情况，使用字母X来填充；中心是N¹甲基化腺苷位点RNA序列片段称为正样本，中心是非N¹甲基化腺苷位点RNA序列片段的称为负样本，所有抽取得到的RNA序列片段构成了训练样本集。

3.根据权利要求2所述的基于独立平衡Boosting算法的N¹甲基化腺苷位点预测方法，其特征在于，所述步骤1中，n的取值为50，即RNA序列片段的长度为101，记为101nt，nt为核苷酸的英文缩写。

4.根据权利要求3所述的基于独立平衡Boosting算法的N¹甲基化腺苷位点预测方法，其特征在于，所述步骤2中，对每个RNA序列片段提取基于序列的特征，对每个长度为101nt的RNA序列片段提取基于序列的特征，包括：二值编码特征、核苷酸组成成分特征、累积GC含量特征、二级结构特征以及最小自由能特征，具体步骤如下：

1)提取二值编码特征

对于一个长度为101nt的RNA序列片段中的每个核苷酸，将其表示一个4维的特征向量，如下所示：A表示为{1,0,0,0}，C表示为{0,1,0,0}，G表示为{0,0,1,0}，T表示为{0,0,0,1}，空位X表示为{0,0,0,0}，这样可得到该RNA序列的101×4＝404维特征向量；

2)提取核苷酸组成成分特征

对于每个长度为101nt的RNA序列片段，在忽略其中的字母X的情况下，计算其中4种核苷酸A、C、G、U，16种二核苷酸即所有相邻的两个核苷酸的组合：AA,AC,AG,…,UU，64种三核苷酸即所有相邻的三个核苷酸的组合：AAA,AAC,AAG,…,UUU的出现频率，这样可以得到该RNA序列片段的4+16+64＝84维特征；

3)提取累积GC含量特征

对于每个长度为101nt的RNA序列片段，首先将其中心的腺苷酸A位点去掉，得到长度为100nt的片段，再分别计算前5个、前10个、前15个、…、前100个核苷酸中G和C核苷酸所占的百分比，这样可以得到该RNA序列片段的20维特征；

4)提取RNA序列片段的二级结构特征

在忽略其中的字母X的情况下，使用RNAfold软件模拟其RNA二级结构；RNAfold软件对RNA序列片段中每个核苷酸输出3种二级结构的其中一种；三种二级结构分别为表示为点号‘.’、右括号‘)’以及左括号‘(’；另外，自然界中核苷酸的类型共有4种A、C、G、U，这样核苷酸类型和二级结构类型共有12种可能的组合；计算这12种组合每种的出现频率百分比，这样可以得到该RNA序列片段的12维二级结构特征；

5)提取最小自由能特征

其中，MFEI₁和MFEI₂表示两种归一化后的最小自由能，L表示RNA序列片段的长度，n_pairs表示二级结构中碱基对的数目；如此得到该RNA序列片段的2维最小自由能特征；

对于每一个长度为101nt的RNA序列片段，分别抽取其二值编码特征404维、核苷酸组成成分特征84维、累积GC含量特征20维、二级结构特征12维以及最小自由能特征2维；然后将这些特征串行组合，就得到了该RNA序列片段的522维组合特征；所有RNA序列片段的组合特征就构成了训练样本的特征向量集。

5.根据权利要求4所述的基于独立平衡Boosting算法的N¹甲基化腺苷位点预测方法，其特征在于，在所述步骤3中，独立平衡Boosting算法来训练N¹甲基化腺苷位点预测模型的过程中，具体如下：

独立平衡Boosting算法输入：共3个参数，分别为训练样本集X^Tr，独立评估样本集以及基分类器个数K；其中，x_i为第i个样本的特征向量，y_i为第i个样本的类标；y_i∈{-1,+1}，+1表示N¹甲基化腺苷位点，-1表示非N¹甲基化腺苷位点；在构建X^Tr和X^Eva时，确保从每条RNA序列中抽取的样本，要么全在X^Tr中，要么全在X^Eva中，以保证X^Eva的独立性；

独立平衡Boosting算法输出：Boosting得到的集成分类器S＝{(S_b,e_b)|b＝1,…,K}，其中S_b为第b个基分类器，e_b是S_b的加权集成误差；

独立平衡Boosting算法具体步骤：

Step①：初始化集成分类器为空集：S←Φ

Step②：初始化独立评估样本集中每个样本的权重，其中M表示独立评估集中的样本个数：

Step③：对训练样本集中包含样本数目多的类别进行下采样，得到一个样本平衡的训练集X^Tr _b；在X^Tr _b训练一个基分类器S_b；

<mrow> <msub> <mi>e</mi> <mi>b</mi> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>&delta;</mi> <mi>i</mi> </msub> </mrow>

其中δ_i的取值如下：对于样本(x_i,y_i)∈X^Eva，若基分类器S_b能对其进行正确分类，那么δ_i＝0；否则δ_i＝1；

Step⑤：判定基分类器S_b的加权集成误差e_b是否超过设定的阈值ε；

若e_b≥ε，放弃基分类器S_b，转至Step②；

否则，转至Step⑥；

Step⑥：将基分类器S_b添加到集成分类器S中：

S←S∪{S_b}

更新X^Eva中所有样本的权重：

<mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>&LeftArrow;</mo> <mfrac> <mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <msubsup> <mi>&beta;</mi> <mi>b</mi> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>&delta;</mi> <mi>i</mi> </msub> </mrow> </msubsup> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <msub> <mi>w</mi> <mi>t</mi> </msub> <msubsup> <mi>&beta;</mi> <mi>b</mi> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>&delta;</mi> <mi>t</mi> </msub> </mrow> </msubsup> </mrow> </mfrac> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <mi>i</mi> <mo>&le;</mo> <mi>M</mi> </mrow>

Step⑦：判断集成分类器S中的基分类器个数是否已经达到K个；

若没有达到K个，则转至Step③；

否则，输出集成分类器S＝{(S_b,e_b)|b＝1,…,K}，算法结束。

6.根据权利要求5所述的基于独立平衡Boosting算法的N¹甲基化腺苷位点预测方法，其特征在于，前述步骤3中，设定的阈值ε＝0.5。

7.根据权利要求5或6所述的基于独立平衡Boosting算法的N¹甲基化腺苷位点预测方法，其特征在于，在步骤4中，对于给定的一个需要预测N¹甲基化腺苷位点的RNA序列，首先使用与步骤1相同的方法，对序列中的每个腺苷位点，以其为中心，提取长度为101nt的RNA序列片段；接下来，使用与步骤2相同特征提取方法，为每个RNA序列片段提取522维的特征向量；之后，将每个RNA序列片段的522维特征向量输入步骤3所构建的N¹甲基化腺苷位点预测模型，该模型输出每个RNA序列片段中间的腺苷位点会被N¹甲基化的概率值；最后，利用预先设定的阈值T来判断每个腺苷位点是否为N¹甲基化腺苷位点，具体方法为：如果模型对腺苷位点的输出预测概率值大于阈值T，则此位点被预测为N¹甲基化腺苷位点，否则预测为非N¹甲基化腺苷位点。

8.根据权利要求7所述的基于独立平衡Boosting算法的N¹甲基化腺苷位点预测方法，其特征在于，所述阈值T＝0.6。

9.根据权利要求7所述的基于独立平衡Boosting算法的N¹甲基化腺苷位点预测方法，其特征在于，在步骤4中，对于一个类别未知的样本x，使用所述集成分类器S＝{(S_b,e_b)|b＝1,…,K}对其类别进行预测得到概率值的流程如下：

将该样本x输入集成分类器S＝{(S_b,e_b)|b＝1,…,K}，S中的每个基分类均输出样本x属于类别ω_j的概率值，其中1≤j≤C，C为所有的类别总数；符号s_b,j(x)表示第b个基分类器预测出样本x属于类别ω_j的概率值，其中1≤b≤K，那么，样本x属于类别ω_j并且1≤j≤C的总的概率值可以计算如下：

<mrow> <msub> <mi>&mu;</mi> <mi>j</mi> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>S</mi> <mi>b</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&omega;</mi> <mi>j</mi> </msub> </mrow> </munder> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>e</mi> <mi>b</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>s</mi> <mrow> <mi>b</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>S</mi> <mi>b</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&NotEqual;</mo> <msub> <mi>&omega;</mi> <mi>j</mi> </msub> </mrow> </munder> <msub> <mi>e</mi> <mi>b</mi> </msub> <mo>&times;</mo> <msub> <mi>s</mi> <mrow> <mi>b</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow>

其中，类别数C＝2。