CN111755074A

CN111755074A - 一种酿酒酵母菌中dna复制起点的预测方法

Info

Publication number: CN111755074A
Application number: CN202010636957.0A
Authority: CN
Inventors: 樊永显; 王婉茹
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-09
Anticipated expiration: 2040-07-03
Also published as: CN111755074B

Abstract

本发明公开了一种酿酒酵母菌中DNA复制起点的预测方法，步骤为：获取酿酒酵母菌中的正样本序列和负样本序列；使用二进制编码法和PSEKNC‑I两种方法提取特征；使用F‑score和IFS方法对PSEKNC‑I法得到的特征进行筛选，得到预筛选特征；将二进制编码法得到特征和预筛选特征进行组合，获得特征组合后的样本数据集；构建CNN预测模型并训练，输入数据获得初步预测结果；调整训练后CNN预测模型中参数，对训练后的CNN预测模型进行优化；使用五折交叉验证法对优化后的CNN预测模型进行评估最终得到最优的CNN预测模型，将数据输入最优模型中，得到最终的预测结果。该方法提取多种DNA信息中的特征，减少了计算时间，避免过拟合现象，选出最优的分类模型，提高了预测复制起点预测的准确率。

Description

一种酿酒酵母菌中DNA复制起点的预测方法

技术领域

本发明涉及生物信息学中序列相互作用的分类预测技术领域，具体是一种酿酒酵母菌中DNA复制起点的预测方法。

背景技术

近年来，生物信息学和计算机科学相结合而衍生出一个新的研究方向，即以核苷酸、蛋白质、基因序列数据集作为主要研究对象，并利用数学、信息学、计算机科学等手段，以计算机硬件、软件和计算机网络为主要工具，对数量极其庞大的原始数据进行存储、管理、注释、加工，使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、探索、比较、分析，从中获取基因编码、基因调控、核苷酸和蛋白质结构功能机器相互关系等理性知识。在大量的信息和知识的基础上，探索生命起源、生物进化以及细胞器官和个体的发生、发育病变、衰亡等生命科学重大的问题，搞清他们的基本规律和时空联系。最终通过对生物实验数据的获取、加工、存储检索和分析，进而达到节食数据所蕴含的生物学意义的目的。就基因组来说，得到序列仅仅是第一步，后一步工作是所谓基因组时代的任务，及收集、整理、检索和分析序列中表达的结构和功能信息，找出规律。

生命的传承以及基因的传递依靠的主要方式就是DNA的复制，而复制起点 (ORI)决定着复制的开始，准确地识别复制起点不仅有助于优化基因的表达，并且可以给遗传病中的新药研究提供新的策略。复制起始在时间、位置上的错误以及复制过程中核苷酸的错配，均会导致DNA序列突变、基因组重组等事件的发生，增加错误遗传信息的传递，增强细胞基因组的不稳定性。这样就会直接影响到细胞的正常分裂和胚胎的正常发育，也与癌症以及众多遗传疾病的发生密切相关因此，准确鉴定DNA复制起点在基因研究中至关重要。

迄今为止，已经有很多针对于ORI的研究，这些研究都取得一定的成果。 2004年，Cozzarelli课题组利用复制起始区富含AT碱基的自复制一致性序列 (ACS)和富含A碱基的3'区域作为序列特征，通过Oriscan算法对酵母复制起始位点进行了预测。2014年，Li通过计算GC profile和GC skew的值去分析酿酒酵母基因的组分偏差，利用一型伪核苷酸组分来提取序列信息并构建了一个在线预测器iORI-PseKNC去识别酿酒酵母的复制起始位点序列。2016年，Zhang 初次尝试构建人类ORI数据集，并基于随机森林分类器用一型伪核苷酸组分提取信息构建iOri-Human在线预测器来识别人类ORIs。

发明内容

本发明的目的在于解决现有的DNA复制起点的预测准确率的问题，而提供一种酿酒酵母菌中DNA复制起点的预测方法，该预测方法可以提取多种DNA 信息中的特征，还减少计算时间，避免出现过拟合现象，同时还构建出最优的分类模型，提高预测复制起点的准确率。

实现本发明目的的技术方案是：

一种酿酒酵母菌中DNA复制起点的预测方法，包括如下步骤：

1)获取样本数据集：获取酿酒酵母菌中的正样本序列和负样本序列；

2)特征提取：使用二进制编码法和PSEKNC-I两种方法表示样本序列，即使用一个向量表示每一条NDA序列；

3)特征选择：使用F-score方法和增量特征选择方法(Incremental FeatureSelect，IFS)对步骤2)中使用PSEKNC-I法得到的特征进行筛选，得到预筛选特征；

4)特征组合：将步骤2)中采用二进制编码法得到特征和步骤3)得到的预筛选特征进行组合，使用二项分布对组合后的特征进一步筛选，获得特征组合后的样本数据集；

5)构建模型：构建CNN预测模型，将步骤4)获得的样本数据集进行五折交叉验证实验，将五折交叉实验选出的数据集随机分为5组，其中1组作为测试集，剩余4组作为训练集，利用训练集对构建的CNN预测模型进行训练，得到训练后的CNN预测模型，将测试集输入训练后的预测模型分类器中，得到的分类结果即为预测的复制起点的初步结果；

6)参数调优：根据步骤5)得到的初步结果，调整训练后的CNN预测模型中的卷积层数、卷积个数、滤波器大小、步长，以及输出层概率，对训练后的 CNN预测模型进行优化；

7)模型评估：使用五折交叉验证法对优化后的CNN预测模型进行评估，并使用敏感性(Sn)、特异性(Sp)、准确率(Acc)、马修斯相关系数(MCC)四个评估系数对优化后的CNN预测模型的进行衡量，最终得到最优的CNN预测模型，将DNA序列输入最优的CNN预测模型中，即得到最终的DNA复制起点预测结果。

步骤2)中，所述的二进制编码法，是利用0、1表示DNA序列中的核苷酸，把每个DNA序列转化为特征向量，DNA序列中的核苷酸表示方式如下：

公式(1)中，A(0,0,0,0)为DNA序列中的腺嘌呤、C(0,1,0,1)为DNA序列中的胞嘧啶、G(0,0,1,0)为DNA序列中的鸟嘌呤、T(0,0,0,1)为DNA序列中的胸腺嘧啶。

步骤2)中，所述的PSEKNC-I法，包括如下步骤：

2-1)计算DNA序列中不同k-元组核苷酸组分的出现频次，利用如下公式(2) 表示每条由腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶T这4类L个寡核苷酸组成的DNA序列样本R，其中k的取值为1，2，3，…，k，…，n，n趋近无穷大；

R＝R₁ R₂ R₃ R₄ R₅ R₆ … R_i … R_L (2)

R_i为DNA序列中第i个位置上的寡核苷酸；

2-2)任意先后取k个核苷酸为一组，共有4^k种组合，通过k-元组核苷酸组分方法，对基准数据集中每个样本DNA序列对，从第一个核苷酸开始，从左到右取k个相邻的核苷酸，然后右移一个核苷酸，取后面相邻的k个核苷酸，重复上述操作L-k+1次就遍历整条DNA序列对，L为每个样本DNA序列对的长度，统计整条DNA序列对中每一种k-元组核苷酸组分出现的频率；

2-3)将4^k种组合出现的频率转化为4^k维的向量，得到矩阵D中第1至第 4^k维向量，矩阵D表达式为：

公式(3)中，

为每个k-元核苷酸组分在DNA序列中出现的频率。

步骤3)中，所述的F-score方法，是对步骤2)提取的特征X_k进行排序，k＝1，2，3，…，m，若正样本和负样本数目分别是n⁺和n^-，则第i个特征的F分数被推断为：

其中

分别为第i个特征分别在整个数据集、正样本集、负样本集中的平均特征值，

是第k个正样本中第i个特征的特征值，

是第k个负样本中第i个特征的特征值，分子表示正集合和负集合之间的区别，分母表示两个集合中的每个集合中的一个样本，F_i的值越大，表明第i个特征包含识别度信息越高，对分类的影响越大，则使用公式(10)得到的分数作为特征选择标准，将F_i按照从大到小的顺序排名，选择对分类影响大的特征集作为样本数据特征集。

步骤3)中，所述的使用增量特征选择方法，是对每一个特征集进行特征选择，即先使用一个特征集作为训练集进行训练模型，再逐个将步骤3)中的采用二项分布方法得到的特征集加入训练集然后训练模型，直至找到分类准确率最高的特征集数量。

步骤4)中，所述的二项分布方法，是使用如下公式对特征集进行排序：

q_i＝m_i/M (11)

其中，q_i为先验概率，m_i表示在第i类样品中出现的给定数据值的数目，M 是特征集中所有数据值的总数，

n_ij代表第j类样本中出现第i种特征的次数，N_j代表所有数据中出现第i中特征的次数，

P_j＝min(P(n_1j),P(n_2j)) (13)

CL_ij＝1-P(n_ij) (14)

CL_j＝max(CL_i1,CL_i2) (15)

CL_ij为置信水平，然后对置信水平进行降序排序，选取置信水平大于0.5的特征集来训练模型，以及进行测试。

本发明提供的一种酿酒酵母菌中DNA复制起点的预测方法，该方法提取多种DNA信息中的特征，减少了计算时间，避免出现过拟合现象，同时还选出最优的分类模型，提高了预测复制起点预测的准确率。

附图说明

图1为一种酿酒酵母菌中DNA复制起点的预测方法的流程图；

图2为实施例中基准数据集的分布图；

图3为卷积神经网络预测流程图。

具体实施方式

下面结合附图和实施例对本发明内容做进一步阐述，但不是对本发明的限定。

实施例：

如图1所示，一种酿酒酵母菌中DNA复制起点的预测方法，包括如下步骤：

1)获取样本数据集：收集了酿酒酵母菌中405条包含复制起点的的正样本序列和406条不包含复制起点负样本序列，如图2所示；

所述的二进制编码法，是利用0、1表示DNA序列中的核苷酸，把每个DNA 序列转化为特征向量，DNA序列中的核苷酸表示方式如下：

PSEKNC-I法，包括如下步骤：

R＝R₁ R₂ R₃ R₄ R₅ R₆ … R_i … R_L (2)

R_i为DNA序列中第i个位置上的寡核苷酸；

公式(3)中，

为每个k-元核苷酸组分在DNA序列中出现的频率。

除了以上的核苷酸组分特征，本例还使用了核苷酸的物理化学性质，通过使用Ⅰ-伪核苷酸组分方法，也称为平行关伪核苷酸组分方法，将核苷酸组分和伪核苷酸组分结合起来，这种伪核苷酸组分方法不仅考虑了DNA序列的全局或长程顺序信息，并且计算了DNA序列的生物化学信息，提取伪核苷酸组分特征集如下所示：

其中，

为第i种k-元组核苷酸组分在DNA频率，与公式(3)中意义相同，ω为权重因子，用于权衡核苷酸组分和DNA局部结构性质的影响，θ_j为j-阶关联因子，反应每条DNA序列中所有相邻二核苷酸的j-阶序列顺序关联性，θ_j定义为：

其中λ是一个整数值，反应序列顺序关联阶数，(R_iR_i+1,R_i+jR_i+j+1)定义如下：

μ是当前研究中认为等于6的局部DNA结构性质的数量，这6种结构性质如下所示：

P_v(R_iR_i+1)为位置i处二核苷酸R_iR_i+1的第v(v＝1，2，3，4，5，6)种DNA 局部结构性质的数值，P_v(R_i+jR_i+j+1)为位置i+j处二核苷酸R_i+jR_i+j+1的第v种 DNA局部结构性质的数值，具体定义如下：

其中，符号<>是指取由A，C，G，T组成的16种二核苷酸的平均值，SD指标准差，运用公式(9)转化后的得到的标准值，对于每一类物化性质，16种二核苷酸的均值为零，如果再次进行相同的转换，均值依旧为零。表1展示了16中核苷酸性质的标准值。

表1核苷酸物化性质标准值

本例中，k＝4，5，6，共提取3种特征集，如表2所示：

表2提取的3种特征集

3)特征选择：使用F-score方法和增量特征选择方法(Incremental FeatureSelect， IFS)对步骤2)中使用PSEKNC-I法得到的特征进行筛选，得到预筛选特征；具体是对步骤2)提取的特征x_k进行排序，k＝1，2，3，…，m，若正样本和负样本数目分别是n⁺和n^-，则第i个特征的F分数被推断为：

其中

是第k个正样本中第i个特征的特征值，

使用增量特征选择方法，是对每一个特征集进行特征选择，即先使用一个特征集作为训练集进行训练模型，再逐个将步骤3)中的采用二项分布方法得到的特征集加入训练集然后训练模型，直至找到分类准确率最高的特征集数量。

所述的二项分布方法，是使用如下公式对特征集进行排序：

q_i＝m_i/M (11)

n_ij代表第j类样本中出现第i种特征的次数，N_i代表所有数据中出现第i中特征的次数，

P_j＝min(P(n_1j),P(n_2j)) (13)，

CL_ij＝1-P(n_ij) (14)

CL_j＝max(CL_i1,CL_i2) (15)

5)构建模型：构建CNN预测模型，将步骤4)获得的样本数据集进行五折交叉验证实验，将五折交叉实验选出的数据集随机分为5组，其中1组作为测试集，剩余4组作为训练集，利用训练集对构建的CNN预测模型进行训练，得到训练后的CNN预测模型，将测试集输入训练后的预测模型分类器中，得到的分类结果即为预测的复制起点的初步结果；CNN的预测流程如图3所示。

如下表3中列出了上述参数的范围，根据最小的验证损失选择了性能最佳的参数，其中预测较好的前三个模型如表4所示。

表3模型调参

表4模型展示

7)模型评估：使用五折交叉验证法对优化后的CNN预测模型进行评估，并使用如下公式计算(14)敏感性(Sn)、特异性(Sp)、准确率(Acc)、马修斯相关系数(MCC)四个评估系数对优化后的CNN预测模型的进行衡量，最终得到最优的CNN预测模型，将DNA序列输入最优的CNN预测模型中，即得到最终的DNA复制起点预测结果。最后将本申请的预测方法与现有的方法作了比较，对比结果如表5所示。从表5中的对比结果可知，本例的方法预测的准确率明显优于其他方法的准确率。

表5对比结果

Claims

1.一种酿酒酵母菌中DNA复制起点的预测方法，其特征在于，包括如下步骤：

3)特征选择：使用F-score方法和增量特征选择方法对步骤2)中使用PSEKNC-I法得到的特征进行筛选，得到预筛选特征；

6)参数调优：根据步骤5)得到的初步结果，调整训练后的CNN预测模型中的卷积层数、卷积个数、滤波器大小、步长，以及输出层概率，对训练后的CNN预测模型进行优化；

7)模型评估：使用五折交叉验证法对优化后的CNN预测模型进行评估，并使用敏感性、特异性、准确率、马修斯相关系数四个评估系数对优化后的CNN预测模型的进行衡量，最终得到最优的CNN预测模型，将DNA序列输入最优的CNN预测模型中，即得到最终的DNA复制起点预测结果。

2.根据权利要求1所述的一种酿酒酵母菌中DNA复制起点的预测方法，其特征在于，步骤2)中，所述的二进制编码法，是利用0、1表示DNA序列中的核苷酸，把每个DNA序列转化为特征向量，DNA序列中的核苷酸表示方式如下：