CN110890127B

CN110890127B - 酿酒酵母dna复制起始区域识别方法

Info

Publication number: CN110890127B
Application number: CN201911184159.2A
Authority: CN
Inventors: 杨润涛; 吴峰; 张承进; 陈金桂; 张丽娜
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2024-02-23
Anticipated expiration: 2039-11-27
Also published as: CN110890127A

Abstract

本申请提供了一种酿酒酵母DNA复制起始区域识别方法，包括：从酿酒酵母基因序列数据库中选取DNA样本；利用大小为3的滑动窗口以等距步长在DNA样本上进行滑动，得到核苷酸三联体集合；计算每个核苷酸三联体在核苷酸三联体集合中的频率；根据频率和核苷酸三联体的理化性质构建DNA样本的特征向量；将特征向量分别输入多个不同卷积层数的卷积神经网络，根据卷积神经网络的识别效果选择目标卷积层数；将设置有目标卷积层数的卷积神经网络进行超参数迭代，得到具有最优超参数的目标卷积神经网络；将待测酿酒酵母基因序列输入目标卷积神经网络，得到DNA复制起始区域。本申请提高了酿酒酵母DNA复制起始区域识别精度。

Description

酿酒酵母DNA复制起始区域识别方法

技术领域

本申请涉及生物技术和基因工程技术领域，尤其涉及一种酿酒酵母DNA复制起始区域识别方法。

背景技术

DNA复制是指DNA双链在细胞分裂以前，以一个DNA链为母链进行半保留复制，产生两条与原DNA链一样的子链的生物学过程。揭示细胞复制进程对于更深层次了解基因信息传递有重大意义。很多生物学实验表明，DNA复制从特殊的基因位置开始，该基因位置叫做ORI(Origin of Replication，复制起始区域)，如何识别出基因复制区域，是揭示细胞复制进程中的重要任务。

为了识别基因复制区域，有许多试验方法可以用，比如染色体免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)、染色质免疫共沉淀-芯片技术(ChIP-chip)，以及表面离子共振技术(Surface Plasmon Resonance)。尽管这些方法都能精确地识别ORI，但是在后基因组时代，大量的基因序列被检测出来，试验方法检测凸显出耗时和高成本的缺点。为此，发展高精度ORI识别方法是迫切需要的。

近些年来，人们作出了各种重大努力来解决这个问题。对于细菌生物，有很多种算法用于实现精确识别ORI。但是对于真核生物，如酿酒酵母，由于其具有多个ORI，很难精确的预测每个ORI。在过去的几年里，人们提出了一些方法来解决这个问题。例如，Chen等开发了一个计算模型来识别酿酒酵母细胞中的ORI，发现核心复制蛋白区域的DNA可弯曲性和切割强度明显低于切割连接区域。Li等从样本序列中生成k-tuple伪核苷酸组成(Pseudo K-tuple Nucleotide Composition,PseKNC)，将伪氨基酸组合从蛋白/肽扩展到DNA/RNA。以伪核苷酸组成作为特征并且输入到支持向量机中进行预测，这种方法在酿酒酵母细胞中预测ORI的总预测精度达到了83.72％。然而，这仍然远远不能令人满意。

通过将二核苷酸位置特异性倾向信息纳入一般伪核苷酸组成，Li等提出了一种基于随机森林的预测器“iROS-gPseKNC”来识别酿酒酵母细胞中的ORI，这也说明了二核苷酸理化性质与伪核苷酸组成的结合能够提高ORI的预测性能。为了应用GC不对称特征并考虑不同长度的ORI，Liu等仅改变了提取到的特征，结合随机森林算法，开发了一种名为“iRO-3wPseKNC”的预测器来对整个酵母基因组的ORI进行识别。为了获取相关的建模变量，减少特征向量的维数，Dao等在PseKNC的基础上使用了特征选择算法，即F-score和最小冗余-最大相关(minimum-Redundant and Maximum-Relevance,mRMR)，再使用支持向量机进行识别，开发一种名为“iORI-PseKNC2.0”结果表明，对于识别性能也有一定的提升。

以上提到的预测器都各有其优势，ORI的识别效果也在逐渐提升，对于推动ORI识别具有很大意义，但是识别精确度普遍不高，仍然不能够满足应用需求。

发明内容

本申请提供了一种酿酒酵母DNA复制起始区域识别方法，以解决识别精度低的问题。

本申请提供了一种酿酒酵母DNA复制起始区域识别方法，该方法包括：

从酿酒酵母基因序列数据库中选取DNA样本，构建包含所述DNA样本的基准数据集；

利用大小为3的滑动窗口以等距步长在所述DNA样本上进行滑动，得到每个所述DNA样本对应的核苷酸三联体集合；

计算所述核苷酸三联体集合中每个核苷酸三联体在所述核苷酸三联体集合中的频率；

根据所述频率和所述核苷酸三联体的理化性质构建所述DNA样本的特征向量；

将所述特征向量分别输入多个不同卷积层数的卷积神经网络，根据所述卷积神经网络的识别效果选择目标卷积层数；

将设置有所述目标卷积层数的卷积神经网络进行超参数迭代，得到具有最优超参数的目标卷积神经网络；

将待测酿酒酵母基因序列输入所述目标卷积神经网络，得到所述待测酿酒酵母基因序列中的DNA复制起始区域。

可选地，所述核苷酸三联体的理化性质包括：DNA酶的可弯曲性，弯曲一致性，三核苷酸GC含量，核小体定位，转动一致性，刚性一致性，脱氧核糖核酸酶I，脱氧核糖核酸酶I-刚性，分子量-道尔顿，分子量-千克，核小体，核小体刚性。

可选地，所述特征分量包括频率分量、理化性质分量和核苷酸三联体种类分量。

可选地，所述滑动窗口的步长为1。

可选地，所述目标卷积层数为一层。

可选地，所述最优超参数包括：输入长度为832，处理批量大小为全连接层，卷积块为[1,2,3],64,激活函数为线性整流函数，全连接层单元为128，界限值为0.5，正则化为L2，学习率为0.01，衰减率为0.95，优化器为自适应矩估计优化器。

可选地，从酿酒酵母基因序列数据库中选取DNA样本，构建包含所述DNA样本的基准数据集，包括：

从酿酒酵母基因序列数据库中选取长度大于预设长度的ORI基因序列作为正样本，从酿酒酵母基因序列数据库中随机选取长度大于所述预设长度的非ORI基因序列作为负样本，所述正样本和负样本组成基准数据集的DNA样本；

将所述DNA样本中序列相似度大于预设阈值的冗余样本删除。

本申请提供的酿酒酵母DNA复制起始区域识别方法的有益效果包括：

本申请实施例提供的酿酒酵母DNA复制起始区域识别方法，通过构建酿酒酵母基因序列的基准数据集，对基准数据集中的DNA样本进行核苷酸三联体分析，核苷酸三联体的频率和理化性质作为特征向量输入卷积网络进行ORI识别和迭代分析，确定出目标卷积神经网络的最佳层数和最优超参数，经过试验验证，本申请提高了酿酒酵母的ORI识别精度，并且，本申请确定的卷积层数为一层，还具有识别速度快的优点。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种酿酒酵母DNA复制起始区域识别方法结构示意图；

图2为本申请实施例提供的一种基准数据集构建方法的流程示意图；

图3为本申请实施例提供的一种核苷酸三联体类型的频率分布示意图；

图4为本申请实施例提供的一种卷积神经网络的工作特性曲线示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

参见图1，为本申请实施例提供的一种酿酒酵母DNA复制起始区域识别方法结构示意图，如图1所示，本申请实施例提供的酿酒酵母DNA复制起始区域识别方法，包括以下步骤：

步骤S110：从酿酒酵母基因序列数据库中选取DNA样本，构建包含DNA样本的基准数据集。

本申请基于DeOri6.0数据库和GenBank数据库构建酿酒酵母的基准数据集，构建方法参见图2，为本申请实施例提供的一种基准数据集构建方法的流程示意图，如图2所示，基准数据集构建方法包括步骤S1101和步骤S1102。

步骤S1101：从酿酒酵母基因序列数据库中选取长度大于预设长度的ORI基因序列作为正样本，从酿酒酵母基因序列数据库中随机选取长度大于预设长度的非ORI基因序列作为负样本，正样本和负样本组成基准数据集的DNA样本。

预设长度可选为50dp，本申请选择大于预设长度的基因序列作为DNA样本，能够避免过短的基因序列可能展现出片面性质，从而影响特征向量提取的准确性。

步骤S1102：将DNA样本中序列相似度大于预设阈值的冗余样本删除。

为了降低样本冗余度，避免相似DNA样本影响ORI的识别速度与效果，可使用CD-HIT技术删除序列相似度大于预设阈值的冗余样本，预设阈值可选为80％。

为了避免数据不平衡，基准数据集中正样本和负样本的数量不应该相差太大，本申请中，选择了339个正样本和336个负样本构建成基准数据集。

步骤S120：利用大小为3的滑动窗口以等距步长在DNA样本上进行滑动，得到每个DNA样本对应的核苷酸三联体集合。

DNA的转录、翻译等过程都是基于三联密码子的信息传递过程，本申请选择对核苷酸三联体进行特征提取，有利于准确得到ORI区域。

核苷酸可分为A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)和T(胸腺嘧啶)四种类型，由四种核苷酸可以组成4³＝64种核苷酸三联体。本申请中用ACGT的四个残基来代表四个核苷酸，则DNA样本可用下式来表示：

D＝{R₁,R₂,...R_i,...,R_L}(i＝1,2,...,L) (1)

(1)式中，D表示DNA样本，L代表DNA样本的长度，R₁表示DNA样本的第一个核苷酸，R₂表示DNA样本的第二个核苷酸，R_i表示DNA样本的第i个核苷酸，以此类推。用大小为3的滑动窗口以等距步长在DNA样本上进行滑动，得到每个DNA样本对应的核苷酸三联体集合为：

D＝{(R₁R₂R₃),(R₂R₃R₄)...(R_L-2R_L-1R_L)} (2)

假设D＝{AGGCACTGAAACACGGGA}，则对应的核苷酸三联体集合为D＝{AGG,GGC,GCA,CAC,ACT,CTG,TGA,GAA,AAA,AAC,ACA,CAC,ACG,CGG,GGG,GGA}。

步骤S130：计算核苷酸三联体集合中每个核苷酸三联体在核苷酸三联体集合中的频率。

第i个核苷酸三联体在核苷酸三联体集合中的频率为：

(3)式中，N_i表示第i个核苷酸三联体在DNA样本中的数量。

使用Matlab软件绘制了基准数据集中ORI和非ORI的平均三联核苷酸频率，如图3所示，横坐标表示核苷酸三联体的类型，纵坐标表示核苷酸三联体出现在ORI中或非ORI中的频率，其中，相对较深的竖直线条表示核苷酸三联体出现在ORI中的频率，相对较浅的竖直线条表示核苷酸三联体出现在非ORI中的频率。

可以看出，无论是正样本还是负样本，AAA、AAT、ATT和TTT的三联核苷酸均具有较高的频率(>3％)，但其在负样本中的比例高于正样本。此外，我们可以直观地发现，这些频率相对较高的三联核苷酸由A和T组成.进一步的分析表明，由C和G组成的三联核苷酸在正样本中出现的频率高于负样本。当三联核苷酸中只有一个C或G时，三联核苷酸的频率在正样本和负样本中是相似的。

根据上述分析，可得出三联核苷酸AAA、AAT、ATT和TTT在鉴别ORI和非ORI中起着重要的作用。因而可根据频率分析三联核苷酸对ORI的贡献，结合理化性质来识别ORI的特征。

步骤S140：根据频率和核苷酸三联体的理化性质构建DNA样本的特征向量。

本申请中，选择核苷酸三联体的频率和12种理化性质构建DNA样本的特征向量。其中，理化性质包括：DNA酶的可弯曲性，弯曲一致性，三核苷酸GC含量，核小体定位，转动一致性，刚性一致性，脱氧核糖核酸酶I，脱氧核糖核酸酶I-刚性，分子量-道尔顿，分子量-千克，核小体，核小体刚性。参见表1，为部分核苷酸三联体的理化性质值：

表1

对于一个DNA样本，有64种类型的核苷酸三联体，每一种都被转换成13个数字特征，包括一个基于频率的特征和12个基于物理化学特性的特征。因此，对于给定的DNA样本，对应的特征向量包含的分量个数为：13×64＝832个。

步骤S150：将特征向量分别输入多个不同卷积层数的卷积神经网络，根据卷积神经网络的识别效果选择目标卷积层数。

卷积神经网络(Convolutional Neural Network,CNN)是一种模仿人类视觉皮层基本工作原理进行目标识别的神经网络的子类。一般来说，CNN分为输入层(Input层)，卷积层(Conv层)，池化层(Pooling层)，全连接层(FC层)，一个CNN架构中可以包含多个卷积层和池化层，也可以包含一个或多个全连接层。本申请使用的卷积神经网络，卷积层可采用3*3卷积核，卷积层的移动步长可选为1；池化层可采用2*2的池化核，池化层的移动步长可选为2；全连接层采用Softmax逻辑回归进行分类。

CNN的识别效果可能因为数据不足或隐藏层过多导致过拟合的情况发生，而本研究中使用的数据量(正样本和负样本的数量和)为：339+336＝675，不是很充足，因此为了避免过拟合，本申请从一个隐藏层开始，逐步将CNN深度加深到三层。在本申请中，输入是尺寸为832的特征向量，然后分别使用卷积层数为一层、二层和三层的CNN来预测DNA样本的ORI。

本申请使用5个测量指标评估卷积神经网络的预测质量：ACC(Accuracy，准确性)、SN(Sensitivity，敏感性)、SP(Specificity，特异性)、MCC(Matthews CorrelationCoefficient，Mathew相关系数)和AUC(Area Under Curve，曲线下面积)。其中，AUC是指ROC(Receiver Operating Characteristic Curve，工作特性曲线)的曲线下面积，ROC是指水平轴为1-SP，垂直轴为SN的工作特性曲线。ACC、SN、SP和MCC定义为以下公式：

(4)式中，N⁺代表卷积神经网络正确识别出ORI的样本数量，N^-代表卷积神经网络正确识别出非ORI的样本数量，代表卷积神经网络将ORI误识别为非ORI的样本数量，/>代表卷积神经网络将非ORI误识别为ORI的样本数量。

进一步的，采用交叉验证，例如Jackknife交叉验证方法对上述五个测量指标进行评分。Jackknife交叉验证方法不仅在估计非线性估计量的方差时优势明显，而且它构造的置信区间的覆盖概率更接近原定置信度，Jackknife交叉验证方法的验证原理如下：

假设样本为(y₁,y₂,...,y_n)，估计量为它是基于全样本构造的一个估计量。现在把全样本划分成k个随机组，每个随机组的大小为m，且假定n＝mk。以/>表示舍弃第α个随机组后用与构造/>相同的方式构造的θ的估计量。如果定义“虚拟值”则θ的Jackknife估计为：

而的方差估计为：

根据该原理，在基准数据集上，使用Jackknife方法以验证CNN的性能，得到结果如下表2：

表2

卷积层数	SN(％)	SP(％)	ACC(％)	MCC	AUC
						一层卷积层	86.9	83.0	85.0	0.702	0.945
两层卷积层	90.7	81.8	86.2	0.728	0.960
						三层卷积层	90.8	82.9	87.9	75.9	97.1

通过表2可以看出，虽然每个测量指标的得分似乎随着卷积层的数量而增加，但客观地说，这是由于样本数量较少。由于对特征向量缺乏一定的处理，CNN深度的增加可能会导致过拟合的发生，进而降低CNN的泛化性能。

不同深度的CNN得到的ROC曲线如图4所示。一般来说，当AUC值接近1时，预测器即卷积神经网络的性能会提高，因而不同深度的CNN具有可比性，从图4可以看出，卷积层数为1层的CNN的对ORI的识别效果也不错。因此，本申请确定CNN卷积层的目标卷积层数为1层。

步骤S160：将设置有目标卷积层数的卷积神经网络进行超参数迭代，得到具有最优超参数的目标卷积神经网络。

将一层卷积层的CNN经过几次超参数迭代选择后，得到的最优超参数如表3所示：

表3

步骤S170：将待测酿酒酵母基因序列输入目标卷积神经网络，得到待测酿酒酵母基因序列中的DNA复制起始区域。

根据步骤S110-S160得到具有最优超参数的目标卷积神经网络后，可利用该目标卷积神经网络进行酿酒酵母的ORI识别。将待测酿酒酵母基因序列输入目标卷积神经网络，可在Softmax输出层得到该待测酿酒酵母基因序列中的DNA复制起始区域，当然，如果待测酿酒酵母基因序列不含ORI，可在待测酿酒酵母基因序列输出该待测酿酒酵母基因序列为非ORI基因序列。

本申请与“iRO-3wPseKNC”和“iORI-PseKNC2.0”使用相同的基准数据集，并使用相同的Jackknife方法验证后，ORI识别的性能比较如表4所示：

表4

ORI识别方法	SN(％)	SP(％)	ACC(％)	MCC	AUC
						iRO-3wPseKNC	70.7	75.2	73.0	0.459	0.808
iORI-PseKNC2.0	76.3	80.2	78.2	0.565	0.831
						本申请	86.9	83.0	85.0	0.702	0.945

由表4可知，本申请实现了SN为86.9,SP为83.0,ACC为85.0,MCC为0.702,AUC为0.945，比“iRO-3wPseKNC”和“iORI-PseKNC2.0”的性能要更好，这说明本申请具有强大的ORI预测能力。

由上述实施例可见，本申请实施例提供的酿酒酵母DNA复制起始区域识别方法，通过构建酿酒酵母基因序列的基准数据集，对基准数据集中的DNA样本进行核苷酸三联体分析，核苷酸三联体的频率和理化性质作为特征向量输入卷积网络进行ORI识别和迭代分析，确定出目标卷积神经网络的最佳层数和最优超参数，经过试验验证，本申请提高了酿酒酵母的ORI识别精度，并且，本申请确定的卷积层数为一层，还具有识别速度快的优点。

由于以上实施方式均是在其他方式之上引用结合进行说明，不同实施例之间均具有相同的部分，本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

需要说明的是，在本说明书中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求的内容指出。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种酿酒酵母DNA复制起始区域识别方法，其特征在于，包括

根据所述频率和所述核苷酸三联体的理化性质构建所述DNA样本的特征向量，所述核苷酸三联体的理化性质包括：DNA酶的可弯曲性、弯曲一致性、三联核苷酸GC含量、核小体定位、转动一致性、刚性一致性、脱氧核糖核酸酶I、脱氧核糖核酸酶I-刚性、分子量-道尔顿、分子量-千克、核小体和核小体刚性；

将待测酿酒酵母基因序列输入所述目标卷积神经网络，得到所述待测酿酒酵母基因序列中的DNA复制起始区域；

其中，所述最优超参数包括：输入长度为832，处理批量大小为全连接层，卷积块为[1，2，3]：64，激活函数为线性整流函数，全连接层单元为128，界限值为0.5，正则化为L2，学习率为0.01，衰减率为0.95，优化器为自适应矩估计优化器。

2.根据权利要求1所述的酿酒酵母DNA复制起始区域识别方法，其特征在于，所述特征向量包括832维特征分量，其中，所述特征分量包括频率分量、理化性质分量和核苷酸三联体种类分量。

3.根据权利要求1所述的酿酒酵母DNA复制起始区域识别方法，其特征在于，所述滑动窗口的步长为1。

4.根据权利要求1所述的酿酒酵母DNA复制起始区域识别方法，其特征在于，所述目标卷积层数为一层。

5.根据权利要求1所述的酿酒酵母DNA复制起始区域识别方法，其特征在于，从酿酒酵母基因序列数据库中选取DNA样本，构建包含所述DNA样本的基准数据集，包括：

将所述DNA样本中序列相似度大于预设阈值的冗余样本删除。