CN110379464B

CN110379464B - 一种细菌中dna转录终止子的预测方法

Info

Publication number: CN110379464B
Application number: CN201910688863.5A
Authority: CN
Inventors: 樊永显; 王婉茹; 朱庆琪; 徐海波; 崔娟
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2023-05-12
Anticipated expiration: 2039-07-29
Also published as: CN110379464A

Abstract

本发明公开了一种细菌中DNA转录终止子的预测方法，包括如下步骤：1）获取细菌的终止子和非终止子序列作为基准数据集和独立数据集；2）特征集提取；3）特征集排序；4）特征集选择；5）特征集提取方法对比；6）训练模型；7）构建组合分类器；8）方法评估。这种预测方法可以提取多种DNA信息中的特征，还减少了计算时间，避免出现过拟合现象，同时还可以选出最优的分类模型，提高了预测终止子预测的准确率。

Description

一种细菌中DNA转录终止子的预测方法

技术领域

本发明涉及生物信息学中序列相互作用的分类预测技术，具体是一种细菌中DNA转录终止子的预测方法。

背景技术

近年来，生物信息学和计算机科学相结合而衍生出一个新的研究方向，即以核苷酸、蛋白质、基因序列数据集作为主要研究对象，并利用数学、信息学、计算机科学等手段，以计算机硬件、软件和计算机网络为主要工具，对数量极其庞大的原始数据进行存储、管理、注释、加工，使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、探索、比较、分析，从中获取基因编码、基因调控、核苷酸和蛋白质结构功能机器相互关系等理性知识。在大量的信息和知识的基础上，探索生命起源、生物进化以及细胞器官和个体的发生、发育病变、衰亡等生命科学重大的问题，搞清他们的基本规律和时空联系。最终通过对生物实验数据的获取、加工、存储检索和分析，进而达到节食数据所蕴含的生物学意义的目的。就基因组来说，得到序列仅仅是第一步，后一步工作是所谓基因组时代的任务，及收集、整理、检索和分析序列中表达的结构和功能信息，找出规律。

终止子，是给予RNA聚合酶转录终止信号的DNA序列，在一个操纵元中至少在构成基因群最后一个基因的后面有一个终止子。在原核生物中，发现终止信号存在于RNA真核中的聚合酶已经转录过的序列之中。转录终止是基因表达的重要调控步骤。如果基因中没有终止子，转录不能停止，这将导致基因表达异常。检测这样的终止子可以确定细菌生物体中的操纵子结构，优化基因组注释。因此，准确鉴定转录终止子在转录调控的研究中至关重要。

对于终止子的预测研究虽然不是很多，但近年来也已取得较为显著的成果。2011年Magali Naville等人进行了对于非依赖于ρ因子的转录终止子的研究。该研究主要使用两个已经发表的算法Erpin and RNAmotif对终止子进行探测，最终结果中特异性及敏感性分别为95.3％、87.8％。2018年林昊等人对基于序列的细菌的终止子的预测进行了研究，取得了很大进展，其准确率达到95％，其中大肠杆菌和枯草芽孢杆菌的终止子识别率分别为100％、87.5％，但还有进一步提升空间。

发明内容

本发明为解决现有的终止子预测的准确率问题，提供一种细菌中DNA转录终止子的预测方法。这种预测方法可以提取多种DNA信息中的特征，还减少了计算时间，避免出现过拟合现象，同时还可以选出最优的分类模型，提高了预测终止子的准确率。

实现本发明目的的技术方案是：

一种细菌中DNA转录终止子的预测方法，包括如下步骤：

1)获取细菌的终止子和非终止子序列作为基准数据集和独立数据集：其中基准数据集用于训练模型，独立数据集用于检验分类器的分类效果；

2)特征集提取：采用k-元组核苷酸组分方法、伪核苷酸组分方法、位置特异性得分方法和特定碱基组合方法这四种方法提取基准数据集中的k-元组核苷酸组分、伪核苷酸组分、位置特异性得分和特定碱基中共17种特征集，其中，k-元组核苷酸组分：

计算DNA序列中不同k-元组核苷酸组分的出现频次，首先，用公式(1)表示每条由腺嘌呤A,鸟嘌呤G，胞嘧啶C，胸腺嘧啶T这4类L个寡核苷酸组成的DNA序列样本D，K-元组的K可以取1，2，3，…，k，…，n，其中n趋近无穷大，任意先后取K个核苷酸为一组，共有4^k种组合，如K＝2时，共有4²＝16种组合，依次为AA,AC,AG,AT,CA,…,TT，通过k-元组核苷酸组分方法，对基准数据集中每个样本DNA序列对，从第一个核苷酸开始，从左到右取K个相邻的核苷酸，然后右移一个核苷酸，取后面相邻的K个核苷酸，重复上述操作L-K+1次就可以遍历整条DNA序列对，L为每个样本RNA序列对的长度，然后统计整条DNA序列对中每一种K-元组核苷酸组分出现的频率，如公式(2)所示，将4^k种组合出现的频率转化成4^k维的向量，得到矩阵D中第1至4^k维向量；

D＝R₁ R₂ R₃ R₄ R₅ R₆ … R_i … R_L (1)，

R_i为第i个位置上的寡核苷酸，

其中

为每个k-元核苷酸组分在DNA序列中出现的频率；

伪核苷酸组分：

除了以上的核苷酸组分特征，本技术方案还使用了核苷酸的物理化学性质，通过使用Ⅰ-伪核苷酸组分方法，也称为平行关伪核苷酸组分方法，将核苷酸组分和伪核苷酸组分结合起来，伪核苷酸组分方法不仅考虑了DNA序列的全局或长程顺序信息，并且计算了DNA序列的生物化学信息，提取伪核苷酸组分特征集如下所示：

其中，

f_i ^K-tuple(i＝1,2,3…,4^k)为第i种k-元核苷酸在DNA频率，与公式(2)中意义相同，ω为权重因子，用于权衡核苷酸组分和DNA局部结构性质的影响，θ_j为j-阶关联因子，反应每条DNA序列中所有相邻二核苷酸的j-阶序列顺序关联性，θ_j定义为：

其中λ是一个整数值，反应序列顺序关联阶数，(R_iR_i+1,R_i+jR_i+j+1)定义如下：

μ是当前研究中认为等于6的局部DNA结构性质的数量，这6种结构性质如下所示：

P_v(R_iR_i+1)为位置i处二核苷酸R_iR_i+1的第v(v＝1,2,3,4,5,6)种DNA局部结构性质的数值，P_v(R_i+jR_i+j+1)为位置i+j处二核苷酸R_i+jR_i+j+1的第v种DNA局部结构性质的数值，具体定义如下：

其中，符号<>是指取由A,C,G,T组成的16种二核苷酸的平均值，SD指标准差，运用公式(8)转化后得到的标准值，对于每一类物化性质，16种二核苷酸的均值为零，如果再次进行相同的转换，均值依旧为零，本技术方案所需的六类DNA物化性质的标准值可以在现有文献中获取；

位置特异性得分：

位置特征主要使用位置权重矩阵(position weight matrix,PWM)又叫位置特异性权重矩阵(position-specific weight matrix,PSWM),又叫位置特异性得分矩阵(position-specific scoring matrix,PSSM)计算所得，

P₀为k-联体核苷酸出现的背景概率，如公式(9)所示：

P_xi为k-联体核苷酸x出现在位点i的概率，如公式(10)所示：

然后计算位置特异性得分矩阵中每一个元素：

最后计算每一个序列的得分，即将每一个序列每一个位置对应的得分相加，如公式(12)所示：

特定碱基组合：

碱基含量特征主要是获取单个核苷酸(A,C,G,T)在每一个DNA序列中的含量特征，然后通过计算得出特征来表示每一条序列，本技术方案共提取了5种特征，分别如以下公式所示：

分别表示数据集中第i个样本RNA序列对中A+T,G+C的总含量，

分别表示数据集中第i个样本DNA序列对中A+T,G+C的含量比例，p_i表示A+T含量与G+C含量的比值；

3)特征集排序：将每种提取后的特征集分别排序，使用两种排序方法：

(1)F-score方法

特征选择的基本任务是研究如何从众多特征中找出那些对分类识别最有效的特征，从而实现特征空间维数的压缩。F-score是一种衡量特征集在正负样本之间的辨别能力的方法，给定的训练向量x_k,，k＝1,2,3…m，如果正实例和负实例的数目分别是n⁺和n^-，则第i个特征的F分数被推断为:

其中

分别为第i个特征分别在整个数据集、正样本集、负样本集中的平均特征值，x_k,i ⁽⁺⁾是第k个正样本中第i个特征的特征值，x_k,i ^(-)是第k个负样本中第i个特征的特征值，分子表示正集合和负集合之间的区别，分母表示两个集合中的每个集合中的一个样本，F_i的值越大，表明第i个特征包含识别度信息越高，对分类的影响越大，因此，本技术方案使用公式(18)得到的分数作为特征选择标准，将F_i按照从大到小的顺序排名，选择对分类影响大的特征集作为样本数据特征集；

(2)二项分布方法(Binomial distribution，简称BD)

为进一步优化实验，本技术方案又使用二项分布方法来对特征集进行排序：

q_i＝m_i/M (19)，

其中，q_i为先验概率，m_i表示在第i类样品中出现的给定4联体序列的数目，M是四个子集中所有4联体序列的总数，

n_ij代表第j类样本中出现第i种特征的次数，N_i代表所有数据中出现第i中特征的次数，

P_j＝mi_n(P(n_1j),P(n_2j)) (21)，

CL_ij为置信水平，然后使用置信水平进行降序排序，本技术方案选取了置信水平大于0.5的特征集来训练模型，以及进行测试；

4)特征集选择，使用增量特征选择方法(Incremental Feature Select，简称IFS)对每一个特征集进行特征选择，即先使用一个特征集作为训练集进行训练模型，再逐个将步骤3)中的采用二项分布方法得到的特征集加入训练集然后训练模型，直至找到分类准确率最高的特征集数量；

5)特征集提取方法对比：从k-元组核苷酸组分方法、伪核苷酸组分方法、位置特异性得分方法和特定碱基组合方法这4种特征集提取方法中提取了17种特征集，但17种特征集中可能存在完全无效的特征集，所以本技术方案使用SVM+5折交叉验证法对不同的特征集提取方法进行评估，选出最佳的特征集提取方法中的特征集；

6)训练模型：使用SVM、

Bayes，即NB、Logistic Regression，即LR、KNN和MLP算法对步骤5)中选出的特征集进行5折交叉验证实验，在5折交叉验证实验中将选出的特征集随机分为5组，选择其中1组作为测试集，其余为训练集，利用训练集训练模型并构建SVM、NB、LR、KNN和MLP算法对应的分类器，将测试集输入到分类器中，得到的分类结果即为预测的终止子结果；

7)构建组合分类器：为进一步提升分类准确率，使用2种集成算法来优化实验，将步骤6)中的各个单一分类器组合，得到一组组合分类器，使用每个组合分类器对DNA序列进行预测，预测所得的结果即为预测的终止子结果；

8)方法评估：使用步骤7)中构建的各个组合分类器对步骤1)中的独立数据集进行分类，以评估步骤6)中训练好的模型，继而得出一个最优的组合分类器，使用得到的最优组合分类器与iTerm-PseKNC算法构建的模型分别对DNA序列进行分类对比,得到的对比结果即为预测的终止子结果。

步骤7)中所述的2种集成算法分别为AdaBoost算法和Bagging算法。

这种预测方法提取多种DNA信息中的特征，还减少了计算时间，避免出现过拟合现象，同时还选出最优的分类模型，提高了预测终止子预测的准确率。

附图说明

图1为实施例的结构图；

图2为实施例中基准数据集的分布图；

图3为实施例中独立数据集的分布图；

图4为实施例总改变特征集个数时的分类准确率示意图；

图5为实施例中不同特征集选择方法和不使用特征集选择方法的准确率示意图；

图6为实施例中预测终止子的操作界面示意图；

图7为实施例中预测终止子操作界面正在进行中的示意图；

图8为实施例中预测终止子的操作界面结果示意图；

图9为实施例中AdaBoost算法组合分类器的示意图；

图10为实施例中Bagging算法组合分类器的示意图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

本例中，为了清楚的表示提取出的多个特征集，对特征集进行了编号，各表中的编号即为特征集类别，表中还使用Sn，Sp，Mcc，Acc作为评估方法的效果，其中Sn表示模型灵敏度，Sp表示模型特异性，Mcc表示模型的马修斯指数，Acc表示模型预测准确度。

参照图1，一种细菌中DNA转录终止子的预测方法，包括如下步骤：

1)获取细菌的终止子和非终止子序列作为基准数据集和独立数据集：本例从http://lin-group.cn/server/iTerm-PseKNC/网站中获取了4个数据集，如图2、图3所示，即280个大肠杆菌终止子序列、560个大肠杆菌非终止子序列、425个枯草芽包杆菌终止子序列和147个大肠杆菌终止子序列，其中280个大肠杆菌终止子序列和560个大肠杆菌非终止子序列为基准数据集用于训练模型，如表1所示；425个枯草芽包杆菌终止子序列和147个大肠杆菌终止子序列为独立数据集用于检验分类器的分类效果，如表2所示：

表1基准数据集

表2独立数据集

物种	种类	数目	长度
				大肠杆菌	启动子	147	～50bp
枯草芽孢杆菌	启动子	425	～50bp

；

2)特征集提取：采用k-元组核苷酸组分方法、伪核苷酸组分方法、位置特异性得分方法和特定碱基组合方法这四种方法提取基准数据集中的k-元组核苷酸组分、伪核苷酸组分、位置特异性得分和特定碱基共17种特征集，其中，k-元组核苷酸组分：

计算DNA序列中不同k-元组核苷酸的出现频次，首先，用公式(1)表示每条由腺嘌呤A,鸟嘌呤G，胞嘧啶C，胸腺嘧啶T这4类L个寡核苷酸组成的DNA序列样本D，K-元组的K可以取1，2，3，…，k，…，n，其中n趋近无穷大，任意先后取K个核苷酸为一组，共有4^k种组合，如K＝2时，共有4²＝16种组合，依次为AA,AC,AG,AT,CA,…,TT，通过k-元组核苷酸组分的方法，对基准数据集中每个样本DNA序列对，从第一个核苷酸开始，从左到右取K个相邻的核苷酸，然后右移一个核苷酸，取后面相邻的K个核苷酸，重复上述操作L-K+1次就可以遍历整条DNA序列对，L为每个样本RNA序列对的长度，统计整条DNA序列对中每一种K-元组核苷酸组分出现的频率，如公式(2)所示，将4^k种组合出现的频率转化成4^k维的向量，得到矩阵D中第1至4^k维向量；

D＝R₁ R₂ R₃ R₄ R₅ R₆ … R_i … R_L (1)，

R_i为第i个位置上的寡核苷酸，

其中

为每个k-元组核苷酸组分在DNA序列中出现的频率，

本例中，k＝4，5，6，共提取3种特征集，如表3所示：

表3提取的3种特征集

特征集编号	K值	特征集个数
			1	K＝4	<![CDATA[4<sup>4</sup>]]>
2	K＝5	<![CDATA[4<sup>5</sup>]]>
			3	K＝6	<![CDATA[4<sup>6</sup>]]>

；

伪核苷酸组分：

除了以上的核苷酸组分特征，本例还使用了核苷酸的物理化学性质，通过使用Ⅰ-伪核苷酸组分方法，也称为平行关伪核苷酸组分方法，将核苷酸组分和伪核苷酸组分结合起来，这种伪核苷酸组分方法不仅考虑了DNA序列的全局或长程顺序信息，并且计算了DNA序列的生物化学信息，提取伪核苷酸组分特征集如下所示：

其中，

f_i ^K-tuple(i＝1,2,3…,4^k)为第i种k-元组核苷酸组分在DNA频率，与公式(2)中意义相同，ω为权重因子，用于权衡核苷酸组分和DNA局部结构性质的影响，θ_j为j-阶关联因子，反应每条DNA序列中所有相邻二核苷酸的j-阶序列顺序关联性，θ_j定义为：

其中，符号<>是指取由A,C,G,T组成的16种二核苷酸的平均值，SD指标准差，运用公式(8)转化后的得到的标准值，对于每一类物化性质，16种二核苷酸的均值为零，如果再次进行相同的转换，均值依旧为零，本例所需的这六类DNA物化性质的标准值可以在现有文献中获取，

本例中，k＝4，5，6，共提取3种特征集，如表4所示：

表4提取的3种特征集

特征集编号	K值	特征集个数
			4	K＝4	<![CDATA[4<sup>4</sup>+5]]>
5	K＝5	<![CDATA[4<sup>5</sup>+5]]>
			6	K＝6	<![CDATA[4<sup>6</sup>+5]]>

；

位置特异性得分：

位置特征主要使用位置权重矩阵(position weight matrix,PWM)又叫位置特异性权重矩阵(position-specific weight matrix,PSWM),又叫位置特异性得分矩阵(position-specific scoring matrix,PSSM)计算所得，P₀为k-联体核苷酸出现的背景概率，如公式(9)所示：

P_xi为k-联体核苷酸x出现在位点i的概率，如公式(10)所示：

然后计算位置特异性得分矩阵中每一个元素：

通过位置特异性得分矩阵本例共得到6种特征集，如表5所示：

表5 6种特征集

特征集编号	K值	特征集个数
			7	K＝1	1
8	K＝2	1
			9	K＝3	1
10	K＝4	1
			11	K＝5	1
12	K＝6	1

；

特定碱基组合：

碱基含量特征主要是获取单个核苷酸(A,C,G,T)在每一个DNA序列中的含量特征，然后通过计算得出特征来表示每一条序列，本例共提取了5种特征，分别如以下公式所示：

分别表示数据集中第i个样本RNA序列对中A+T,G+C的总含量，

分别表示数据集中第i个样本DNA序列对中A+T,G+C的含量比例，p_i表示A+T含量与G+C含量的比值，

通过提取特定碱基本例共得到5种特征集，如表6所示：

表6提取的5种特征集

特征集编号	特征集名称
		13	atContent
14	gcContent
		15	atgcRatio
16	gcSkew
		17	atSkew

；

(1)F-score方法

特征选择的基本任务是研究如何从众多特征中找出那些对分类识别最有效的特征，从而实现特征空间维数的压缩。F-score是一种衡量特征集在正负样本之间的辨别能力的方法给定的训练向量x_k,，k＝1,2,3…m，如果正实例和负实例的数目分别是n⁺和n^-，则第i个特征的F分数被推断为:

其中

分别为第i个特征分别在整个数据集、正样本集、负样本集中的平均特征值，x_k,i ⁽⁺⁾是第k个正样本中第i个特征的特征值，x_k,i ^(-)是第k个负样本中第i个特征的特征值，分子表示正集合和负集合之间的区别，分母表示两个集合中的每个集合中的一个样本，F_i的值越大，表明第i个特征包含识别度信息越高，对分类的影响越大，因此，本例使用公式(18)得到的分数作为特征选择标准，将F_i按照从大到小的顺序排名，选择对分类影响大的特征集作为样本数据特征集；

(2)二项分布方法

为进一步优化实验，本例又使用二项分布方法来对特征集进行排序：

q_i＝m_i/M (19)，

P_j＝min(P(n_1j),P(n_2j)) (21)，

CL_ij为置信水平，然后使用置信水平进行降序排序，本例选取了置信水平大于0.5的特征集来训练模型，以及进行测试；

4)特征集选择：使用增量特征选择方法对每一个特征集进行特征选择，即先使用一个特征集作为训练集进行训练模型，再逐个将步骤3)中的采用二项分布方法得到的特征集加入训练集然后训练模型，直至找到分类准确率最高的特征集数量，如表7所示，为特征集选择前和特征集选择后的结果，为了更好的展示特征选择结果，本例分别用如图4所示的特征数目及分类准确率图，和如图5所示的特征集选择前后准确率的对比图进行展示；

表7特征集选择前和特征集选择后的结果

5)特征集提取方法对比：从k-元组核苷酸组分方法、伪核苷酸组分方法、位置特异性得分方法和特定碱基组合方法这4种特征集提取方法中提取了17种特征集，但17种特征集中可能存在完全无效的特征集，所以本例使用SVM+5折交叉验证法对不同的特征集提取方法进行评估，如表8所示，选出最佳的特征集提取方法中的特征集，

表8四大特征提取方法结果

6)训练模型：使用SVM、

Bayes，即NB、Logistic Regression，即LR、KNN和MLP算法对步骤5)中选出的特征集进行5折交叉验证实验，在5折交叉验证实验中将选出的特征集随机分为5组，选择其中1组作为测试集，其余为训练集，利用训练集训练模型并构建SVM、NB、LR、KNN和MLP算法对应的分类器，将测试集输入到分类器中，得到的分类结果即为预测的终止子结果，如表9所示：

表9分类结果

7)构建组合分类器：为进一步提升分类准确率，使用AdaBoost算法和Bagging算法这2种集成算法来优化实验，将步骤6)中的各个单一分类器组合，得到一组组合分类器，其中，AdaBoost算法是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器，即弱分类器，AdaBoost算法本身就是通过改变数据分布来实现的，它根据每次训练集中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值，然后将修改过权值的新数据集送给下层分类器进行训练，再将每次训练得到的分类器融合起来，作为最后的决策分类器，本例中，主要使用决策树、支持向量机、逻辑回归朴素贝叶斯作为弱分类器进行迭代算法，如图9所示；Bagging算法是一种提高分类准确率的集成算法，先将训练集分离成多个子集，然后训练多个模型,通过给定组合投票的方式获得最优解，以获得更好的学习性能以及更优秀的泛化性能，本例中分别将支持向量机、朴素贝叶斯、逻辑回归作为基学习器，来集成新的模型，如图10所示；然后使用每个组合分类器对DNA序列进行预测，预测所得的结果即为预测的终止子结果，如表10所示，

表10组合分类器预测结果

从步骤6)和步骤7)得到45种不同的方法中选出了9种性能较好，且具有代表性的方法，再进一步筛选，如表11所示，

表11 9种具有代表性的方法

8)方法评估：使用步骤7)中构建的各个组合分类器对步骤1)中的独立数据集进行分类，以评估步骤6)和步骤7)中训练好的模型，继而得出一个最优的组合分类器，如表12所示，

表12评估结果

编号	大肠杆菌(E.coli)	枯草芽孢杆菌(B.subtilis)
			13	0.4476	0.6115
17	0.9937	0.9835
			18	1	0.9952
27	1	1
			31	0.9897+0.0047	0.9898+0.0012
32	0.952	1
			33	0.9952	1
40	1	0.9764
			41	1	0.8941

选取表12中准确率最高的27号分类器与iTerm-PseKNC算法构建的模型分别对DNA序列进行分类对比,得到的对比结果即为预测的终止子结果，如表13所示：

表13对比结果

方法

Sn

Sp

Mcc

Acc

E.coli

B.subtilis

iTerm-PseKNC

0.8607

0.9946

0.8881

0.9571

100％

87.5％

本例

0.9962

1

0.9991

0.9988

100％

从表12中的对比结果可知，本例的方法预测的准确率明显优于其他方法的准确率。

从实验中得到了一个分类最好的方法，编译成为可执行文件，最后使用C#编写了一个界面，如图6所示，并且提取成为了方便使用的工具包，如图7所示，用户只需要将想要预测的序列输入预测工具中，就可以得到预测结果，如图8所示，1表示正样本，即预测的为终止子，若显示0，0表示负样本，则预测的不是终止子。

Claims

1.一种细菌中DNA转录终止子的预测方法，其特征在于，包括如下步骤：

1）获取细菌的终止子和非终止子序列作为基准数据集和独立数据集：其中基准数据集用于训练模型，独立数据集用于检验分类器的分类效果；

2）特征集提取：采用k-元组核苷酸组分方法、伪核苷酸组分方法、位置特异性得分方法和特定碱基组合方法这四种方法提取基准数据集中的k-元组核苷酸组分、伪核苷酸组分、位置特异性得分和特定碱基共17种特征集；

3）特征集排序：将每种提取后的特征集分别排序，使用两种排序方法，即F-score方法对每一种特征集分别进行大小排序，每一种特征集中选择对分类影响大的特征集作为样本数据特征集，然后又采用二项分布方法分别对每一种样本数据特征集使用置信水平进行排序；

4）特征集选择，使用增量特征选择方法对每一个特征集进行特征选择，即先使用一个特征集作为训练集进行训练模型，再逐个将步骤3）中的采用二项分布方法得到的特征集加入训练集然后训练模型，直至找到分类准确率最高的特征集数量；

5）特征集提取方法对比：从k-元组核苷酸组分方法、伪核苷酸组分方法、位置特异性得分方法和特定碱基组合方法这4种特征集提取方法中，使用SVM+5折交叉验证法对不同的特征集提取方法进行评估，选出最佳的特征集提取方法中的特征集；

6）训练模型：使用SVM、Naïve Bayes，即NB、Logistic Regression，即LR、KNN和MLP算法对步骤5）中选出的特征集进行5折交叉验证实验，在5折交叉验证实验中将选出的特征集随机分为5组，选择其中1组作为测试集，其余为训练集，利用训练集训练模型并构建SVM、NB、LR、KNN和MLP算法对应的分类器，将测试集输入到各分类器中，得到的分类结果即为预测的终止子结果；

7）构建组合分类器：使用2种集成算法，将步骤6）中的各个分类器组合，得到一组组合分类器，使用每一个组合分类器对DNA序列进行预测，预测所得的结果即为预测的终止子结果；所述的2种集成算法为AdaBoost算法和Bagging算法；

8）方法评估：使用步骤7）中构建的各个组合分类器对步骤1）中的独立数据集进行分类，以评估步骤6）中训练好的模型，继而得出一个最优的组合分类器，使用得到的最优组合分类器与iTerm-PseKNC算法构建的模型分别对DNA序列进行分类对比,得到的对比结果即为预测的终止子结果。