CN110890127B - 酿酒酵母dna复制起始区域识别方法 - Google Patents
酿酒酵母dna复制起始区域识别方法 Download PDFInfo
- Publication number
- CN110890127B CN110890127B CN201911184159.2A CN201911184159A CN110890127B CN 110890127 B CN110890127 B CN 110890127B CN 201911184159 A CN201911184159 A CN 201911184159A CN 110890127 B CN110890127 B CN 110890127B
- Authority
- CN
- China
- Prior art keywords
- saccharomyces cerevisiae
- dna
- nucleotide
- samples
- gene sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 240000004808 Saccharomyces cerevisiae Species 0.000 title claims abstract description 49
- 235000014680 Saccharomyces cerevisiae Nutrition 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000004543 DNA replication Effects 0.000 title claims abstract description 24
- 230000000977 initiatory effect Effects 0.000 title claims abstract description 20
- 239000002773 nucleotide Substances 0.000 claims abstract description 54
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 52
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 42
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 230000000694 effects Effects 0.000 claims abstract description 8
- 108020004414 DNA Proteins 0.000 claims description 49
- 108010047956 Nucleosomes Proteins 0.000 claims description 7
- 210000001623 nucleosome Anatomy 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 241000894007 species Species 0.000 claims description 2
- 108020005091 Replication Origin Proteins 0.000 claims 4
- 102000016911 Deoxyribonucleases Human genes 0.000 claims 2
- 108010053770 Deoxyribonucleases Proteins 0.000 claims 2
- 230000010076 replication Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 210000004027 cell Anatomy 0.000 description 5
- 238000002790 cross-validation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 229940037201 oris Drugs 0.000 description 3
- 102000053602 DNA Human genes 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000002487 chromatin immunoprecipitation Methods 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 108020004705 Codon Proteins 0.000 description 1
- 101710150114 Protein rep Proteins 0.000 description 1
- 101710152114 Replication protein Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 238000000975 co-precipitation Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000002198 surface plasmon resonance spectroscopy Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 210000000857 visual cortex Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Analytical Chemistry (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提供了一种酿酒酵母DNA复制起始区域识别方法,包括:从酿酒酵母基因序列数据库中选取DNA样本;利用大小为3的滑动窗口以等距步长在DNA样本上进行滑动,得到核苷酸三联体集合;计算每个核苷酸三联体在核苷酸三联体集合中的频率;根据频率和核苷酸三联体的理化性质构建DNA样本的特征向量;将特征向量分别输入多个不同卷积层数的卷积神经网络,根据卷积神经网络的识别效果选择目标卷积层数;将设置有目标卷积层数的卷积神经网络进行超参数迭代,得到具有最优超参数的目标卷积神经网络;将待测酿酒酵母基因序列输入目标卷积神经网络,得到DNA复制起始区域。本申请提高了酿酒酵母DNA复制起始区域识别精度。
Description
技术领域
本申请涉及生物技术和基因工程技术领域,尤其涉及一种酿酒酵母DNA复制起始区域识别方法。
背景技术
DNA复制是指DNA双链在细胞分裂以前,以一个DNA链为母链进行半保留复制,产生两条与原DNA链一样的子链的生物学过程。揭示细胞复制进程对于更深层次了解基因信息传递有重大意义。很多生物学实验表明,DNA复制从特殊的基因位置开始,该基因位置叫做ORI(Origin of Replication,复制起始区域),如何识别出基因复制区域,是揭示细胞复制进程中的重要任务。
为了识别基因复制区域,有许多试验方法可以用,比如染色体免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)、染色质免疫共沉淀-芯片技术(ChIP-chip),以及表面离子共振技术(Surface Plasmon Resonance)。尽管这些方法都能精确地识别ORI,但是在后基因组时代,大量的基因序列被检测出来,试验方法检测凸显出耗时和高成本的缺点。为此,发展高精度ORI识别方法是迫切需要的。
近些年来,人们作出了各种重大努力来解决这个问题。对于细菌生物,有很多种算法用于实现精确识别ORI。但是对于真核生物,如酿酒酵母,由于其具有多个ORI,很难精确的预测每个ORI。在过去的几年里,人们提出了一些方法来解决这个问题。例如,Chen等开发了一个计算模型来识别酿酒酵母细胞中的ORI,发现核心复制蛋白区域的DNA可弯曲性和切割强度明显低于切割连接区域。Li等从样本序列中生成k-tuple伪核苷酸组成(Pseudo K-tuple Nucleotide Composition,PseKNC),将伪氨基酸组合从蛋白/肽扩展到DNA/RNA。以伪核苷酸组成作为特征并且输入到支持向量机中进行预测,这种方法在酿酒酵母细胞中预测ORI的总预测精度达到了83.72%。然而,这仍然远远不能令人满意。
通过将二核苷酸位置特异性倾向信息纳入一般伪核苷酸组成,Li等提出了一种基于随机森林的预测器“iROS-gPseKNC”来识别酿酒酵母细胞中的ORI,这也说明了二核苷酸理化性质与伪核苷酸组成的结合能够提高ORI的预测性能。为了应用GC不对称特征并考虑不同长度的ORI,Liu等仅改变了提取到的特征,结合随机森林算法,开发了一种名为“iRO-3wPseKNC”的预测器来对整个酵母基因组的ORI进行识别。为了获取相关的建模变量,减少特征向量的维数,Dao等在PseKNC的基础上使用了特征选择算法,即F-score和最小冗余-最大相关(minimum-Redundant and Maximum-Relevance,mRMR),再使用支持向量机进行识别,开发一种名为“iORI-PseKNC2.0”结果表明,对于识别性能也有一定的提升。
以上提到的预测器都各有其优势,ORI的识别效果也在逐渐提升,对于推动ORI识别具有很大意义,但是识别精确度普遍不高,仍然不能够满足应用需求。
发明内容
本申请提供了一种酿酒酵母DNA复制起始区域识别方法,以解决识别精度低的问题。
本申请提供了一种酿酒酵母DNA复制起始区域识别方法,该方法包括:
从酿酒酵母基因序列数据库中选取DNA样本,构建包含所述DNA样本的基准数据集;
利用大小为3的滑动窗口以等距步长在所述DNA样本上进行滑动,得到每个所述DNA样本对应的核苷酸三联体集合;
计算所述核苷酸三联体集合中每个核苷酸三联体在所述核苷酸三联体集合中的频率;
根据所述频率和所述核苷酸三联体的理化性质构建所述DNA样本的特征向量;
将所述特征向量分别输入多个不同卷积层数的卷积神经网络,根据所述卷积神经网络的识别效果选择目标卷积层数;
将设置有所述目标卷积层数的卷积神经网络进行超参数迭代,得到具有最优超参数的目标卷积神经网络;
将待测酿酒酵母基因序列输入所述目标卷积神经网络,得到所述待测酿酒酵母基因序列中的DNA复制起始区域。
可选地,所述核苷酸三联体的理化性质包括:DNA酶的可弯曲性,弯曲一致性,三核苷酸GC含量,核小体定位,转动一致性,刚性一致性,脱氧核糖核酸酶I,脱氧核糖核酸酶I-刚性,分子量-道尔顿,分子量-千克,核小体,核小体刚性。
可选地,所述特征分量包括频率分量、理化性质分量和核苷酸三联体种类分量。
可选地,所述滑动窗口的步长为1。
可选地,所述目标卷积层数为一层。
可选地,所述最优超参数包括:输入长度为832,处理批量大小为全连接层,卷积块为[1,2,3],64,激活函数为线性整流函数,全连接层单元为128,界限值为0.5,正则化为L2,学习率为0.01,衰减率为0.95,优化器为自适应矩估计优化器。
可选地,从酿酒酵母基因序列数据库中选取DNA样本,构建包含所述DNA样本的基准数据集,包括:
从酿酒酵母基因序列数据库中选取长度大于预设长度的ORI基因序列作为正样本,从酿酒酵母基因序列数据库中随机选取长度大于所述预设长度的非ORI基因序列作为负样本,所述正样本和负样本组成基准数据集的DNA样本;
将所述DNA样本中序列相似度大于预设阈值的冗余样本删除。
本申请提供的酿酒酵母DNA复制起始区域识别方法的有益效果包括:
本申请实施例提供的酿酒酵母DNA复制起始区域识别方法,通过构建酿酒酵母基因序列的基准数据集,对基准数据集中的DNA样本进行核苷酸三联体分析,核苷酸三联体的频率和理化性质作为特征向量输入卷积网络进行ORI识别和迭代分析,确定出目标卷积神经网络的最佳层数和最优超参数,经过试验验证,本申请提高了酿酒酵母的ORI识别精度,并且,本申请确定的卷积层数为一层,还具有识别速度快的优点。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种酿酒酵母DNA复制起始区域识别方法结构示意图;
图2为本申请实施例提供的一种基准数据集构建方法的流程示意图;
图3为本申请实施例提供的一种核苷酸三联体类型的频率分布示意图;
图4为本申请实施例提供的一种卷积神经网络的工作特性曲线示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
参见图1,为本申请实施例提供的一种酿酒酵母DNA复制起始区域识别方法结构示意图,如图1所示,本申请实施例提供的酿酒酵母DNA复制起始区域识别方法,包括以下步骤:
步骤S110:从酿酒酵母基因序列数据库中选取DNA样本,构建包含DNA样本的基准数据集。
本申请基于DeOri6.0数据库和GenBank数据库构建酿酒酵母的基准数据集,构建方法参见图2,为本申请实施例提供的一种基准数据集构建方法的流程示意图,如图2所示,基准数据集构建方法包括步骤S1101和步骤S1102。
步骤S1101:从酿酒酵母基因序列数据库中选取长度大于预设长度的ORI基因序列作为正样本,从酿酒酵母基因序列数据库中随机选取长度大于预设长度的非ORI基因序列作为负样本,正样本和负样本组成基准数据集的DNA样本。
预设长度可选为50dp,本申请选择大于预设长度的基因序列作为DNA样本,能够避免过短的基因序列可能展现出片面性质,从而影响特征向量提取的准确性。
步骤S1102:将DNA样本中序列相似度大于预设阈值的冗余样本删除。
为了降低样本冗余度,避免相似DNA样本影响ORI的识别速度与效果,可使用CD-HIT技术删除序列相似度大于预设阈值的冗余样本,预设阈值可选为80%。
为了避免数据不平衡,基准数据集中正样本和负样本的数量不应该相差太大,本申请中,选择了339个正样本和336个负样本构建成基准数据集。
步骤S120:利用大小为3的滑动窗口以等距步长在DNA样本上进行滑动,得到每个DNA样本对应的核苷酸三联体集合。
DNA的转录、翻译等过程都是基于三联密码子的信息传递过程,本申请选择对核苷酸三联体进行特征提取,有利于准确得到ORI区域。
核苷酸可分为A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)和T(胸腺嘧啶)四种类型,由四种核苷酸可以组成43=64种核苷酸三联体。本申请中用ACGT的四个残基来代表四个核苷酸,则DNA样本可用下式来表示:
D={R1,R2,...Ri,...,RL}(i=1,2,...,L) (1)
(1)式中,D表示DNA样本,L代表DNA样本的长度,R1表示DNA样本的第一个核苷酸,R2表示DNA样本的第二个核苷酸,Ri表示DNA样本的第i个核苷酸,以此类推。用大小为3的滑动窗口以等距步长在DNA样本上进行滑动,得到每个DNA样本对应的核苷酸三联体集合为:
D={(R1R2R3),(R2R3R4)...(RL-2RL-1RL)} (2)
假设D={AGGCACTGAAACACGGGA},则对应的核苷酸三联体集合为D={AGG,GGC,GCA,CAC,ACT,CTG,TGA,GAA,AAA,AAC,ACA,CAC,ACG,CGG,GGG,GGA}。
步骤S130:计算核苷酸三联体集合中每个核苷酸三联体在核苷酸三联体集合中的频率。
第i个核苷酸三联体在核苷酸三联体集合中的频率为:
(3)式中,Ni表示第i个核苷酸三联体在DNA样本中的数量。
使用Matlab软件绘制了基准数据集中ORI和非ORI的平均三联核苷酸频率,如图3所示,横坐标表示核苷酸三联体的类型,纵坐标表示核苷酸三联体出现在ORI中或非ORI中的频率,其中,相对较深的竖直线条表示核苷酸三联体出现在ORI中的频率,相对较浅的竖直线条表示核苷酸三联体出现在非ORI中的频率。
可以看出,无论是正样本还是负样本,AAA、AAT、ATT和TTT的三联核苷酸均具有较高的频率(>3%),但其在负样本中的比例高于正样本。此外,我们可以直观地发现,这些频率相对较高的三联核苷酸由A和T组成.进一步的分析表明,由C和G组成的三联核苷酸在正样本中出现的频率高于负样本。当三联核苷酸中只有一个C或G时,三联核苷酸的频率在正样本和负样本中是相似的。
根据上述分析,可得出三联核苷酸AAA、AAT、ATT和TTT在鉴别ORI和非ORI中起着重要的作用。因而可根据频率分析三联核苷酸对ORI的贡献,结合理化性质来识别ORI的特征。
步骤S140:根据频率和核苷酸三联体的理化性质构建DNA样本的特征向量。
本申请中,选择核苷酸三联体的频率和12种理化性质构建DNA样本的特征向量。其中,理化性质包括:DNA酶的可弯曲性,弯曲一致性,三核苷酸GC含量,核小体定位,转动一致性,刚性一致性,脱氧核糖核酸酶I,脱氧核糖核酸酶I-刚性,分子量-道尔顿,分子量-千克,核小体,核小体刚性。参见表1,为部分核苷酸三联体的理化性质值:
表1
对于一个DNA样本,有64种类型的核苷酸三联体,每一种都被转换成13个数字特征,包括一个基于频率的特征和12个基于物理化学特性的特征。因此,对于给定的DNA样本,对应的特征向量包含的分量个数为:13×64=832个。
步骤S150:将特征向量分别输入多个不同卷积层数的卷积神经网络,根据卷积神经网络的识别效果选择目标卷积层数。
卷积神经网络(Convolutional Neural Network,CNN)是一种模仿人类视觉皮层基本工作原理进行目标识别的神经网络的子类。一般来说,CNN分为输入层(Input层),卷积层(Conv层),池化层(Pooling层),全连接层(FC层),一个CNN架构中可以包含多个卷积层和池化层,也可以包含一个或多个全连接层。本申请使用的卷积神经网络,卷积层可采用3*3卷积核,卷积层的移动步长可选为1;池化层可采用2*2的池化核,池化层的移动步长可选为2;全连接层采用Softmax逻辑回归进行分类。
CNN的识别效果可能因为数据不足或隐藏层过多导致过拟合的情况发生,而本研究中使用的数据量(正样本和负样本的数量和)为:339+336=675,不是很充足,因此为了避免过拟合,本申请从一个隐藏层开始,逐步将CNN深度加深到三层。在本申请中,输入是尺寸为832的特征向量,然后分别使用卷积层数为一层、二层和三层的CNN来预测DNA样本的ORI。
本申请使用5个测量指标评估卷积神经网络的预测质量:ACC(Accuracy,准确性)、SN(Sensitivity,敏感性)、SP(Specificity,特异性)、MCC(Matthews CorrelationCoefficient,Mathew相关系数)和AUC(Area Under Curve,曲线下面积)。其中,AUC是指ROC(Receiver Operating Characteristic Curve,工作特性曲线)的曲线下面积,ROC是指水平轴为1-SP,垂直轴为SN的工作特性曲线。ACC、SN、SP和MCC定义为以下公式:
(4)式中,N+代表卷积神经网络正确识别出ORI的样本数量,N-代表卷积神经网络正确识别出非ORI的样本数量,代表卷积神经网络将ORI误识别为非ORI的样本数量,/>代表卷积神经网络将非ORI误识别为ORI的样本数量。
进一步的,采用交叉验证,例如Jackknife交叉验证方法对上述五个测量指标进行评分。Jackknife交叉验证方法不仅在估计非线性估计量的方差时优势明显,而且它构造的置信区间的覆盖概率更接近原定置信度,Jackknife交叉验证方法的验证原理如下:
假设样本为(y1,y2,...,yn),估计量为它是基于全样本构造的一个估计量。现在把全样本划分成k个随机组,每个随机组的大小为m,且假定n=mk。以/>表示舍弃第α个随机组后用与构造/>相同的方式构造的θ的估计量。如果定义“虚拟值”则θ的Jackknife估计为:
而的方差估计为:
根据该原理,在基准数据集上,使用Jackknife方法以验证CNN的性能,得到结果如下表2:
表2
卷积层数 | SN(%) | SP(%) | ACC(%) | MCC | AUC |
一层卷积层 | 86.9 | 83.0 | 85.0 | 0.702 | 0.945 |
两层卷积层 | 90.7 | 81.8 | 86.2 | 0.728 | 0.960 |
三层卷积层 | 90.8 | 82.9 | 87.9 | 75.9 | 97.1 |
通过表2可以看出,虽然每个测量指标的得分似乎随着卷积层的数量而增加,但客观地说,这是由于样本数量较少。由于对特征向量缺乏一定的处理,CNN深度的增加可能会导致过拟合的发生,进而降低CNN的泛化性能。
不同深度的CNN得到的ROC曲线如图4所示。一般来说,当AUC值接近1时,预测器即卷积神经网络的性能会提高,因而不同深度的CNN具有可比性,从图4可以看出,卷积层数为1层的CNN的对ORI的识别效果也不错。因此,本申请确定CNN卷积层的目标卷积层数为1层。
步骤S160:将设置有目标卷积层数的卷积神经网络进行超参数迭代,得到具有最优超参数的目标卷积神经网络。
将一层卷积层的CNN经过几次超参数迭代选择后,得到的最优超参数如表3所示:
表3
步骤S170:将待测酿酒酵母基因序列输入目标卷积神经网络,得到待测酿酒酵母基因序列中的DNA复制起始区域。
根据步骤S110-S160得到具有最优超参数的目标卷积神经网络后,可利用该目标卷积神经网络进行酿酒酵母的ORI识别。将待测酿酒酵母基因序列输入目标卷积神经网络,可在Softmax输出层得到该待测酿酒酵母基因序列中的DNA复制起始区域,当然,如果待测酿酒酵母基因序列不含ORI,可在待测酿酒酵母基因序列输出该待测酿酒酵母基因序列为非ORI基因序列。
本申请与“iRO-3wPseKNC”和“iORI-PseKNC2.0”使用相同的基准数据集,并使用相同的Jackknife方法验证后,ORI识别的性能比较如表4所示:
表4
ORI识别方法 | SN(%) | SP(%) | ACC(%) | MCC | AUC |
iRO-3wPseKNC | 70.7 | 75.2 | 73.0 | 0.459 | 0.808 |
iORI-PseKNC2.0 | 76.3 | 80.2 | 78.2 | 0.565 | 0.831 |
本申请 | 86.9 | 83.0 | 85.0 | 0.702 | 0.945 |
由表4可知,本申请实现了SN为86.9,SP为83.0,ACC为85.0,MCC为0.702,AUC为0.945,比“iRO-3wPseKNC”和“iORI-PseKNC2.0”的性能要更好,这说明本申请具有强大的ORI预测能力。
由上述实施例可见,本申请实施例提供的酿酒酵母DNA复制起始区域识别方法,通过构建酿酒酵母基因序列的基准数据集,对基准数据集中的DNA样本进行核苷酸三联体分析,核苷酸三联体的频率和理化性质作为特征向量输入卷积网络进行ORI识别和迭代分析,确定出目标卷积神经网络的最佳层数和最优超参数,经过试验验证,本申请提高了酿酒酵母的ORI识别精度,并且,本申请确定的卷积层数为一层,还具有识别速度快的优点。
由于以上实施方式均是在其他方式之上引用结合进行说明,不同实施例之间均具有相同的部分,本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。
需要说明的是,在本说明书中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
本领域技术人员在考虑说明书及实践这里发明的公开后,将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求的内容指出。
以上所述的本申请实施方式并不构成对本申请保护范围的限定。
Claims (5)
1.一种酿酒酵母DNA复制起始区域识别方法,其特征在于,包括
从酿酒酵母基因序列数据库中选取DNA样本,构建包含所述DNA样本的基准数据集;
利用大小为3的滑动窗口以等距步长在所述DNA样本上进行滑动,得到每个所述DNA样本对应的核苷酸三联体集合;
计算所述核苷酸三联体集合中每个核苷酸三联体在所述核苷酸三联体集合中的频率;
根据所述频率和所述核苷酸三联体的理化性质构建所述DNA样本的特征向量,所述核苷酸三联体的理化性质包括:DNA酶的可弯曲性、弯曲一致性、三联核苷酸GC含量、核小体定位、转动一致性、刚性一致性、脱氧核糖核酸酶I、脱氧核糖核酸酶I-刚性、分子量-道尔顿、分子量-千克、核小体和核小体刚性;
将所述特征向量分别输入多个不同卷积层数的卷积神经网络,根据所述卷积神经网络的识别效果选择目标卷积层数;
将设置有所述目标卷积层数的卷积神经网络进行超参数迭代,得到具有最优超参数的目标卷积神经网络;
将待测酿酒酵母基因序列输入所述目标卷积神经网络,得到所述待测酿酒酵母基因序列中的DNA复制起始区域;
其中,所述最优超参数包括:输入长度为832,处理批量大小为全连接层,卷积块为[1,2,3]:64,激活函数为线性整流函数,全连接层单元为128,界限值为0.5,正则化为L2,学习率为0.01,衰减率为0.95,优化器为自适应矩估计优化器。
2.根据权利要求1所述的酿酒酵母DNA复制起始区域识别方法,其特征在于,所述特征向量包括832维特征分量,其中,所述特征分量包括频率分量、理化性质分量和核苷酸三联体种类分量。
3.根据权利要求1所述的酿酒酵母DNA复制起始区域识别方法,其特征在于,所述滑动窗口的步长为1。
4.根据权利要求1所述的酿酒酵母DNA复制起始区域识别方法,其特征在于,所述目标卷积层数为一层。
5.根据权利要求1所述的酿酒酵母DNA复制起始区域识别方法,其特征在于,从酿酒酵母基因序列数据库中选取DNA样本,构建包含所述DNA样本的基准数据集,包括:
从酿酒酵母基因序列数据库中选取长度大于预设长度的ORI基因序列作为正样本,从酿酒酵母基因序列数据库中随机选取长度大于所述预设长度的非ORI基因序列作为负样本,所述正样本和负样本组成基准数据集的DNA样本;
将所述DNA样本中序列相似度大于预设阈值的冗余样本删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911184159.2A CN110890127B (zh) | 2019-11-27 | 2019-11-27 | 酿酒酵母dna复制起始区域识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911184159.2A CN110890127B (zh) | 2019-11-27 | 2019-11-27 | 酿酒酵母dna复制起始区域识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110890127A CN110890127A (zh) | 2020-03-17 |
CN110890127B true CN110890127B (zh) | 2024-02-23 |
Family
ID=69749105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911184159.2A Active CN110890127B (zh) | 2019-11-27 | 2019-11-27 | 酿酒酵母dna复制起始区域识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110890127B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111599412B (zh) * | 2020-04-24 | 2024-03-29 | 山东大学 | 基于词向量与卷积神经网络的dna复制起始区域识别方法 |
CN111755074B (zh) * | 2020-07-03 | 2022-05-17 | 桂林电子科技大学 | 一种酿酒酵母菌中dna复制起点的预测方法 |
CN112365924B (zh) * | 2020-11-09 | 2023-03-21 | 陕西师范大学 | 双向三核苷酸位置特异性偏好和点联合互信息dna/rna序列编码方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2874620A1 (fr) * | 2004-08-27 | 2006-03-03 | Biomethodes Sarl | Procede de mutagenese dirigee systematique |
CN105224825A (zh) * | 2015-10-30 | 2016-01-06 | 景德镇陶瓷学院 | 一种新的融合核苷酸二联体结构信息和物理化学特性的rna序列表示方法 |
CN107545153A (zh) * | 2017-10-25 | 2018-01-05 | 桂林电子科技大学 | 一种基于卷积神经网络的核小体分类预测方法 |
EP3330282A1 (en) * | 2016-12-02 | 2018-06-06 | Ludwig-Maximilians-Universität München | Cipa, cipb and pixa as scaffolds to organize proteins into crystalline inclusions |
CN108884473A (zh) * | 2016-03-21 | 2018-11-23 | 生物技术Rna制药有限公司 | 用于多功能和有效的基因表达的rna复制子 |
-
2019
- 2019-11-27 CN CN201911184159.2A patent/CN110890127B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2874620A1 (fr) * | 2004-08-27 | 2006-03-03 | Biomethodes Sarl | Procede de mutagenese dirigee systematique |
CN105224825A (zh) * | 2015-10-30 | 2016-01-06 | 景德镇陶瓷学院 | 一种新的融合核苷酸二联体结构信息和物理化学特性的rna序列表示方法 |
CN108884473A (zh) * | 2016-03-21 | 2018-11-23 | 生物技术Rna制药有限公司 | 用于多功能和有效的基因表达的rna复制子 |
EP3330282A1 (en) * | 2016-12-02 | 2018-06-06 | Ludwig-Maximilians-Universität München | Cipa, cipb and pixa as scaffolds to organize proteins into crystalline inclusions |
CN107545153A (zh) * | 2017-10-25 | 2018-01-05 | 桂林电子科技大学 | 一种基于卷积神经网络的核小体分类预测方法 |
Non-Patent Citations (3)
Title |
---|
Chang-Jian Zhang等.iOri-Human: identify human origin of replication by incorporating dinucleotide physicochemical properties into pseudo nucleotide composition.《Oncotarget》.2016,第1-11页. * |
Fu-Ying Dao等.Identify origin of replication in Saccharomyces cerevisiae using two-step feature selection technique.《Bioinformatics》.2018,第1-9页. * |
王鹏.深度学习框架下 DNA 位点的预测研究.《万方数据》.2019,第8-56页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110890127A (zh) | 2020-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110890127B (zh) | 酿酒酵母dna复制起始区域识别方法 | |
Shrikumar et al. | Technical note on transcription factor motif discovery from importance scores (TF-MoDISco) version 0.5. 6.5 | |
CN113724790B (zh) | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 | |
CN111564179B (zh) | 一种基于三元组神经网络的物种生物学分类方法及系统 | |
CN113259325A (zh) | 基于麻雀搜索算法优化Bi-LSTM的网络安全态势预测方法 | |
WO2016148107A1 (ja) | データ処理装置、データ処理方法、および、データ処理用プログラム | |
CN114360659A (zh) | 一种结合与或树与单步反应规则预测的生物逆合成方法及系统 | |
CN113505225A (zh) | 一种基于多层注意力机制的小样本医疗关系分类方法 | |
CN116112563A (zh) | 一种基于流行度预测的双策略自适应缓存替换方法 | |
CN116680594A (zh) | 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 | |
CN113377991B (zh) | 一种基于最难正负样本的图像检索方法 | |
CN116959585B (zh) | 基于深度学习的全基因组预测方法 | |
CN109326327B (zh) | 一种基于SeqRank图算法的生物序列聚类方法 | |
US20190108311A1 (en) | Site-specific noise model for targeted sequencing | |
WO2019213810A1 (zh) | 检测染色体非整倍性的方法、装置及系统 | |
CN112185466B (zh) | 直接利用蛋白质多序列联配信息构建蛋白质结构的方法 | |
CN111599412B (zh) | 基于词向量与卷积神经网络的dna复制起始区域识别方法 | |
CN113539479A (zh) | 一种基于相似性约束的miRNA-疾病关联预测方法及系统 | |
CN109345274B (zh) | 基于bp神经网络评分预测误差的近邻用户选择方法 | |
CN113450872B (zh) | 磷酸化位点特异激酶的预测方法 | |
CN110727901B (zh) | 一种用于大数据分析的数据样本均匀采样方法及装置 | |
CN118152992A (zh) | 基于机器学习的管道腐蚀预测方法 | |
CN114036948B (zh) | 一种基于不确定性量化的命名实体识别方法 | |
CN108446375A (zh) | 一种基于Spark平台的多尺度关联规则方法 | |
CN117727373B (zh) | 基于样本和特征双加权的特征约简中智c-均值聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |