CN107742063A - 一种原核生物σ54启动子的预测方法 - Google Patents

一种原核生物σ54启动子的预测方法 Download PDF

Info

Publication number
CN107742063A
CN107742063A CN201710999198.2A CN201710999198A CN107742063A CN 107742063 A CN107742063 A CN 107742063A CN 201710999198 A CN201710999198 A CN 201710999198A CN 107742063 A CN107742063 A CN 107742063A
Authority
CN
China
Prior art keywords
promoter
samples
sample
training
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710999198.2A
Other languages
English (en)
Inventor
樊永显
吕成伟
蔡国永
张向文
张龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201710999198.2A priority Critical patent/CN107742063A/zh
Publication of CN107742063A publication Critical patent/CN107742063A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

本发明公民公开了一种原核生物σ­54启动子的预测方法,其特征在于,包括如下步骤:1)数据样本编码;2)特征选择;3)构造预测模型;4)获取一级序列信息;5)待预测基因序列编码;6)预测。这种方法预测速度快、精度高。

Description

一种原核生物σ54启动子的预测方法
技术领域
本发明涉及基于机器学习的基因序列数据技术,具体是一种原核生物σ54启动子的预测方法。
背景技术
启动子是基因的一个组成部分,控制基因表达(转录)的起始时间和表达的程度。启动子就像“开关”,决定基因的活动。启动子本身并不控制基因活动,而是通过与称为转录因子的这种蛋白质结合而控制基因活动的。转录因子就像一面“旗子”,指挥着RNA聚合酶的活动。因此,启动子对于基因表达有着至关重要的作用。在原核生物中,RNA全酶的σ54启动子识别并结合启动子基因转录过程中的序列。σ54启动子负责响应于环境的特异性基因的转录变化。σ54启动子通常含有两个碱性调节元件,其中一个元件在-12bp附近的TGC[AT][TA],另一个是在-24bp附近的[CT]TGGCA[CT][GA]。并且σ54启动子的全酶在启动RNA合成的时候将取决于增强子结合蛋白。一旦启动子活性异常,则可能导致基因表达的调节障碍,从而有可能导致疾病的发生。找到组织特异性启动子和某些疾病关键基因异常表达与启动子的关系可以为靶向治疗和基因治疗提供可能。也正因如此,如何精确的预测出启动子的位点成了人们研究的热点和难题。
当前的σ54启动子识别技术根据研究目标可以分为共性启动子识别技术和特异性启动子识别技术。前者的目标是在基因组中找出基因的转录起始位点和核心启动子,后者指的是寻找一组特定基因的转录因子结合位点。目前国内的研究比较偏重于特异性启动子识别技术,而国外已经成型了几个基于共性启动子识别技术的系统。从这些成果所采用的技术看,主要分成4种:基于人工神经网络(ANN)(Werner,and L.Hanka.Tuning anartificial neural network to increase the efficiency of a fingerprintmatching algorithm.in Applied Machine Intelligence and Informatics(SAMI),2016IEEE 14th International Symposium on.2016.IEEE.)技术、基于支持向量机(SVM)(Geng,Y.,et al.,Enlighten wearable physiological monitoring systems:On-bodyrf characteristics based human motion classification using a support vectormachine.IEEE transactions on mobile computing,2016.15(3):p.656-671.)技术、基于二次判别分析(QDA)(Z Yuan,L.,et al.,Using Quadratic Discriminant Analysis toPredict Protein Secondary Structure Based on Chemical Shifts.CurrentBioinformatics,2017.12(1):p.52-56.)技术、和基于位置权值矩阵(PWM)(Tan,G.andB.Lenhard,TFBSTools:an R/bioconductor package for transcription factorbinding site analysis.Bioinformatics,2016.32(10):p.1555-1556.)技术。以上4种技术都是将机器学习的方法运用到σ54启动子预测的研究中,例如,de Avila.等人开发了基于DNA双链体稳定性的方法用于识别和分类σ54启动子序列并且实现了78.8%的总体精度。虽然这些方法在识别原核启动子方面做出了相当大的贡献,但是它们依赖关于σ54启动子更多的生化实验数据。
发明内容
本发明的目的在于为了克服用生化试验预测原核生物σ54启动子耗时且代价过大以及单个SVM预测精度不理想的缺点,提供一种原核生物σ54启动子的预测方法。这种方法预测速度快、精度高。
实现本发明目目的的技术方案是:
一种原核生物σ54启动子的预测方法,包括如下步骤:
1)数据样本编码:对sigma 54promoter序列集中给定的原核生物σ54启动子正负数据样本,采用K-元组核苷酸方法进行编码,k的取值范围为1到∞,得到维度为4k的特征向量,即:假定161组正样本和161组负样本作为基准数据集S,可以用公式(1)表示为:
S=S+∪S- (1)
其中子集S+仅包含正样本即启动子序列,子集S-包含负样本即非启动子序列,而∪表示两个序列集合的并集,采用伪k-元组核苷酸来配置DNA并对基因序列进行编码,最终得到具有如公式(2)所示的4k分量的向量,即:
其中是在DNA序列中的第i个伪k-元组核苷酸归一化的出现频率,从公式(2)中看出,随着k值的增加,虽然包含的序列信息更多了,但是与此同时向量DPseKNC的维数也将大大增加,当k=10的时时候,其维数将变为410=1,048,576,这会导致所谓的“高维度灾难”从而明显地减小了偏差容限或群集容忍能力,这样的结果就是导致最终预测精度很低,因此,伪k-元组核苷酸编码方式只能包含局部或短程序列顺序信息,而不是全局序列顺序信息;
2)特征选择:采用F-score方法对编码后的数据样本进行特征选择,定义如公式(3):
其中n+表示正样本的总数,n-表示负样本的总数,表示正样本的第i个特征的平均值,表示负样本的第i个特征的平均值,表示所有样本的平均值,表示正数据集中的第k个样本的第i个特征,表示负数据集中第k个样本的i个特征;显然,Fi的值越大,说明第i个特征就具有越高的辨别能力,因此,可以基于它们的Fi值的大小来排名进而选择需要保留的特征而舍去那些无用特征;
3)构造预测模型:将SVM(Support Vector Machine,支持向量机)作为弱预测器的基础上用AdaBoost方法构造预测模型,给定一个训练集样本T={(x1,y1),(x2,y2),…,(xN,yN)},其中x∈χ,空间yi是标签集合{1,2,3,4,5,6},N是训练样本的数量,初始化训练样本的权值分布,每一个样本都被赋予相同的权重1/N,即如公式(4):
选用SVM作为弱预测器,对训练样本进行训练,得到一个弱预测器Gm(x),SVM在对训练样本训练结束以后会得到一组预测值,也就是预测标签,将预测标签与给定的训练标签进行比对就可以计算Gm(x)在训练样本上的分类错误率em,如公式(5):
由公式(5)可知,Gm(x)在训练样本中的错误率em就是被Gm(x)错误分类样本的权值之和,计算Gm(x)的权重系数αm,它表示Gm(x)在最终的预测模型中的重要程度,换句话说,也就是最终的预测模型是由带有权重系数的弱预测器集成的,权重系数αm表示为公式(6):
当em≤1/2时,αm≥0,并且αm会随着em的减小而增大,这就意味着分类误差率越小的弱预测器在最终的预测模型中所起的作用就越大,最重要的一点就是如何让被错误分类的样本在下一轮迭代中能被重点对待,给所有的训练样本做了编号,并且记录了被错误分类样本的编号,每个样本都有一个权值与之一一对应,更新训练样本的权值分布如公式(7):
其中Zm是使得Dm+1成为一个概率分布的规范化因子,它可以如公式(8)表示:
这样做的目的是为了使被弱预测器Gm(x)错误分类样本的权值增大,而被正确分类样本的权值减小,进而在下一个迭代过程中,弱预测器会更关心被错误分类的样本,这里需要注意的是,迭代过程中,训练样本永远是唯一的,始终是最初的那个训练样本,只不过给这个训练样本加上了一个权重。然后再重复以上过程,直至达到预先给定的目标,
根据得到的弱预测器以及各自对应的权重因子,将它们一一对应得到公式(9)
从而得到最终的预测模型G(x),如公式(10):
4)获取一级序列信息:使用BLAST程序将待预测的基因序列映射到它们的基因组中,并通过设置截止阈值0.75来除去成对序列同一性≥75%的DNA片段;
5)待预测基因序列编码:采用k-元组核苷酸的方法对待预测基因序列进行编码,k的取值范围为1到∞,得到维度为4k的特征向量;
6)预测:采用步骤3)得到的预测模型对步骤5)编码后的待预测基因序列进行预测,得到待预测基因序列中是否含有σ54启动子的结论。
步骤4)中所述映射为采用BLAST程序,并保留从-60至+20的81bp长度的一级序列,再消除冗余和避免偏差。
步骤1)中所述k为7,得到维度为47=16384的特征向量。
步骤3)中将SVM作为弱预测器时采用F-score方法进行原核生物σ54启动子特征向量的特征选择,筛选出特征向量中识别度F-score>0.008的特征,再构造模型预测原核生物σ54启动子。
步骤5)中所述k为7,得到维度为47=16384的特征向量。
这种方法与现有预测技术相比,其显著优点:(1)耗时短:采用F-score特征选的方法,能够显著降低特征向量的维度,从而提高了训练以及预测的速度;(2)准确率高:自行设计基于SVM弱预测器的SVM-AdaBoost方法,能够有效地提取特征,进而提高了预测准确率。
这种方法预测速度快、精度高。
附图说明
图1为实施例中方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明内容做进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,一种原核生物σ54启动子的预测方法,包括如下步骤:
1)数据样本编码:对sigma 54promoter序列集中给定的原核生物σ54启动子正负数据样本,采用K-元组核苷酸方法进行编码,k的取值范围为1到∞,得到维度为4k的特征向量,即:假定161组正样本和161组负样本作为基准数据集S:
S=S+∪S- (1)
其中子集S+仅包含正样本即启动子序列,子集S-包含负样本即非启动子序列,而∪表示两个序列集合的并集,采用伪k-元组核苷酸来配置DNA并对基因序列进行编码,最终得到具有如公式(2)所示的4k分量的向量,即:
其中是在DNA序列中的第i个伪k-元组核苷酸归一化的出现频率,从公式(2)中看出,随着k值的增加,虽然包含的序列信息更多了,但是与此同时向量DPseKNC的维数也将大大增加,当k=10的时时候,其维数将变为410=1,048,576,这会导致所谓的“高维度灾难”从而明显地减小了偏差容限或群集容忍能力,这样的结果就是导致最终预测精度很低,因此,伪k-元组核苷酸编码方式只能包含局部或短程序列顺序信息,而不是全局序列顺序信息;
2)特征选择:采用F-score方法对编码后的数据样本进行特征选择,定义如公式(3):
其中n+表示正样本的总数,n-表示负样本的总数,表示正样本的第i个特征的平均值,表示负样本的第i个特征的平均值,表示所有样本的平均值,表示正数据集中的第k个样本的第i个特征,表示负数据集中第k个样本的i个特征;显然,Fi的值越大,说明第i个特征就具有越高的辨别能力,因此,可以基于它们的Fi值的大小来排名进而选择需要保留的特征而舍去那些无用特征;
3)构造预测模型:将SVM(Support Vector Machine,支持向量机)作为弱预测器的基础上用AdaBoost方法构造预测模型,给定一个训练集样本T={(x1,y1),(x2,y2),…,(xN,yN)},其中x∈χ,空间yi是标签集合{1,2,3,4,5,6},N是训练样本的数量,初始化训练样本的权值分布,每一个样本都被赋予相同的权重1/N,即如公式(4):
选用SVM作为弱预测器,对训练样本进行训练,得到一个弱预测器Gm(x),SVM在对训练样本训练结束以后会得到一组预测值,也就是预测标签,将预测标签与给定的训练标签进行比对就可以计算Gm(x)在训练样本上的分类错误率em,如公式(5):
由公式(5)可知,Gm(x)在训练样本中的错误率em就是被Gm(x)错误分类样本的权值之和,计算Gm(x)的权重系数αm,它表示Gm(x)在最终的预测模型中的重要程度,换句话说,也就是最终的预测模型是由带有权重系数的弱预测器集成的,权重系数αm表示为公式(6):
当em≤1/2时,αm≥0,并且αm会随着em的减小而增大,这就意味着分类误差率越小的弱预测器在最终的预测模型中所起的作用就越大,最重要的一点就是如何让被错误分类的样本在下一轮迭代中能被重点对待,给所有的训练样本做了编号,并且记录了被错误分类样本的编号,每个样本都有一个权值与之一一对应,更新训练样本的权值分布如公式(7):
其中Zm是使得Dm+1成为一个概率分布的规范化因子,它可以如公式(8)表示:
这样做的目的是为了使被弱预测器Gm(x)错误分类样本的权值增大,而被正确分类样本的权值减小,进而在下一个迭代过程中,弱预测器会更关心被错误分类的样本,这里需要注意的是,迭代过程中,训练样本永远是唯一的,始终是最初的那个训练样本,只不过给这个训练样本加上了一个权重。然后再重复以上过程,直至达到预先给定的目标,
根据得到的弱预测器以及各自对应的权重因子,将它们一一对应得到公式(9)
从而得到最终的预测模型G(x),如公式(10):
4)获取一级序列信息:使用BLAST程序将待预测的基因序列映射到它们的基因组中,并通过设置截止阈值0.75来除去成对序列同一性≥75%的DNA片段;
5)待预测基因序列编码:采用k-元组核苷酸的方法对待预测基因序列进行编码,k的取值范围为1到∞,得到维度为4k的特征向量;
6)预测:采用步骤3)得到的预测模型对步骤5)编码后的待预测基因序列进行预测,得到待预测基因序列中是否含有σ54启动子的结论。
步骤4)中所述映射为采用BLAST程序,并保留从-60至+20的81bp长度的一级序列,再消除冗余和避免偏差。
本例中,步骤1)中所述k为7,得到维度为47=16384的特征向量。
步骤3)中将SVM作为弱预测器时采用F-score方法进行原核生物σ54启动子特征向量的特征选择,筛选出特征向量中识别度F-score>0.008的特征,再构造模型预测原核生物σ54启动子。
本例中,步骤5)中所述k为7,得到维度为47=16384的特征向量。
实验例:
使用本实施例的方法得到的预测结果与目前在原核生物σ54启动子预测方面做得最好的Lin他们单独使用SVM的实验结果(Lin,H.,et al.,iPro54-PseKNC:a sequence-based predictor for identifying sigma-54promoters in prokaryote with pseudok-tuple nucleotide composition.Nucleic acids research,2014.42(21):p.12961-12972.)进行了对比,结果如表1所示:
表1与Lin基于SVM的实验对比结果
由表1可以看出,使用本实施例的方法在灵敏度、特异性、马修斯相关系数尤其是准确率方面都显著优于Lin的实验结果。
序列表
<110> 桂林电子科技大学
<120> 一种原核生物σ<sup>54</sup>启动子的预测方法
<141> 2017-10-20
<160> 1
<170> SIPOSequenceListing 1.0
<210> 2
<211> 26082
<212> DNA
<213> Escherichia coli
<400> 2
atttacatta actccttttt ttctccacga ttggctcgta ccttgccgct acagtgaagc 60
aagtcaagcc tacaacgata cgatctcctt tgttctcacc ggtatctaca tctggcgggc 120
gaacggcgaa ttcgaccgtc ttaataatga agtcctgcat gatatttaac gttgaatgtt 180
actgttgtcg tcaagatggc ataagacctg catgaaagag cctgcaaaca cacaacacaa 240
tacaaaaagc agtatttcgg cgagtagcgc agcttggtag cgcaactggt ttgggaccag 300
tgggtcggag gttcgaatcc tctctagcct ccgccgttta tgcactttta tcactggctg 360
gcacgaaccc tgcaatctac atttacagcg caaacattac ttattattag ttaaataact 420
aaatccaata atctcattct ggcactcccc ttgctattgc ctgactgtac ccacaacggt 480
gtatgcagtt aaagctattc gtgcggtgtt gccttgcaag tggtccgtgg attgcatatt 540
gtcccgttag tggtttcaaa atgagcatgt gttaaaaatt tgctaaattt tgccaatttg 600
gtaaaacagt tgcatcacaa caggagatag caatgacgtt accgagtgac atcctatcac 660
aggattgaaa gtaggggaaa atggcagggt tttctctttg tgcctcatca ttaccataat 720
taacggaatt taagccagca ttctggcgct tatcccggca tggcatgaga tctgcataag 780
cggaaagcgc agcaattttt gtcttataca aagtcgccgt ctggtttatt tatctcatcc 840
cggcgctggt ggcatttgct ctgccaccac gcgcaggggc gacagcgtct ccatattctg 900
ccgctaaaca attccccatt cctggcgtat atctggctaa cattcatcaa tgtgatagat 960
tcctctcccg cacccgtaat atcagggaat gaccccacat aaaatgtggc ataaaagatg 1020
catactgtag tcgagagcgc gtatgcgtga tttcgagtga agtcgcattg cgcaagaaac 1080
cagcatctgg cacgcgatgg gttgcaatta gccggggcag cagtgataat gcgcaacctg 1140
aatctgaggc agcacctggc acggctggga cggaagtcgc tgtcgttctc aaaatcggtg 1200
gagctgcatg acaaaataat cagtacgtta ccaaactatt ttctttattg gcacagttac 1260
tgcataatag taaccagtgg ctcattcacc gacttagcat gataacgcct tttaggggca 1320
atttaaaagt tggcacagat ttcgctttat cttttttacg gcgacacggc caaaatagcc 1380
gcatctcgaa aaatcaagga gttgcaaaac tggcacgatt ttttcatata tgtgaatgtc 1440
acgcagggga tcgtcccgtt aacttcctgc tctctttctc gtttttcatt tctggcacac 1500
cgcttgcaat accttcttcg tgtagcagaa ccattaccgg cggaaagtgt agagaaacgc 1560
gaaaaaatgg cgctggcacg taaacttaat gccttaacca tgccgcaccc ggaccgacgc 1620
tcggtccgga tgatatcggg cttgatcgtc tggaacagcg tctggcagag gaaaaaatca 1680
ctgaagtgat cctcgccacc aatttagtga tgaggtcatg aaagtcaatg gccttaatgg 1740
caaagcgaat tctgcaaaag tgcattttta cgccattaat gattaaaaat ctctttaata 1800
acaataaatt aaaagttggc acaaaaaatg cttaaagctg gcatctctgt taaacgggta 1860
accaattaat ttccttaaat aacagtaaat taaaaactgg catgatttgt gaatgtatcg 1920
gcgcattaac tgtcattgct ggagcataac ttattgaata tattgagtta atcagaatgg 1980
catcctttat gcaatatgaa atgcaatgtt tcatatcatt ttcaacatcg acattattca 2040
ccgcagggat aatcaacact ggcacaatta ttgcttgtag ctggcaatag ttaatgggag 2100
gcgatagcga aaaaaccgcg ccgtatcgaa atcaactaat tccctaaggc cgcctggcgc 2160
ggcctgacat ctccatgctc gccgtcaagt gcattatccg gataacaata ttctcctatc 2220
caactttggc acatctattg ctttgttata caaggcaaac cctgaaactc gagattgaac 2280
acgcctgtga aaaatcctgt gcttgcacca cctgccactg catcgttcgt gaaggttttg 2340
actcactgct gccattgctc ataccgttga tcgcaacggc ttatggcacg cgctgacgcc 2400
gcaatttttc cctcgtgagc tgttacatga aagaaagtgt tctgaataga gattcaatat 2460
ttaagggcac ggtttttgca accgtgttct tgtttggcct ttccttatag cgggcatagt 2520
tacttctgct gtgggttgga agatggcacc tctccggata cgcaatggct taatgaaatt 2580
gtgatgacgg atttggttag cttgtacatc aacaccaaaa taaaactggc aagcatcttg 2640
caatctggtt gtaagtaatg gcggcacttg ggcagccatc gttaaacagc gtggcggcag 2700
cgcctggcaa atcgtcagcg tagacagcac ctatcactcc tcgctgtcag tcagttattt 2760
atagagtaaa aacaatcaga taaaaaactg gcacgcaatc tgcaattagc aagacatctt 2820
tttagaacac gctgaggttt gcgtcagctc atttttatct ggccttgtgc actggcaatt 2880
attgctgcat tgacgatggg attcttttac acactcaacc tgcaaacatt gttaactcct 2940
gctaaattgt tggcgctaat tatttcatgc tacccggcac atagccagta gagtcagtca 3000
aaacgcgcca cgattcgctc gccggagtgg ttggcacgca gctcttctgc caccagcgcg 3060
attgcctggc cgctgctcag gaaatcgccc catggggttg gcagtttggc ttctgccaca 3120
cgtttaagct gcatgaaatt ctccagataa tgctggttca aaccaacgtt tatgaaaatg 3180
aagaaataac aagcaaatgg catcattcct gcttttacca gggggattta acatgcttat 3240
gttctctttt cttacaccgc gccgataaaa aatatgcacg tttattgcat atctttcagt 3300
gtgacaactt ttgttcgttt gtcgcaagct ccagcagttt ttttccccct tttctggcat 3360
agttggacat ctgccaatat tgctcgccat aatatccagg catgaaatta aacatttaat 3420
tttattaagg caattgtggc acaccccttg ctttgtcttt atcaacgcaa ataacaagtt 3480
gataatcaga tctttataaa tcaaaaagat aaaaaattgg cacgcaaatt gtattaacag 3540
ttcagcagga caatcctgaa cgcagggcgt tttgctgtta aatcaataga ttatttttgg 3600
catgattctt gtaatgccag caagagattt catatttggg agagcgtaat ccagacattt 3660
cccggatgtc gcgttatgga gcgcgggcgg caacgggctt ccgttaacga ttaagactgt 3720
gacgagcatc cggcagttgt acgcaggtgc ctgatgcgac gctggcgcgt cttatcatgc 3780
ctacgagccc gcgaatattt gcgagccctg gcgcaaaacg acattatgga agagcaggaa 3840
gcgatggcgc tgacccgtgc ttacactacg cttcgcgatg aacttcatga ttgccggatg 3900
cggcacaagt gccttatcag gcctacaggt cggcaatagt tgtaggcctg ataagacgcg 3960
acagcgtcga acagtgaatg ataacctcgt tgctcttaag ctctggcaca gttgttgcta 4020
ccactgaagc gccagaagat atcgattgag caccatcacc agacggacgt gtgccgggat 4080
cgcaatggca atctccccct gcaacgcgcc agggcgacgc agcgaccact gtgaattaaa 4140
aaattaagct gcttatttaa ttttctggca cgacggttgc aattatcagg acagcaaaca 4200
acgaaaagag aaaacagatt aataacatta actttttaaa aactggcatc cgctttgcaa 4260
acaagccaat acgcggctga aaaggatatg cagtcttctg ctgaattaaa agaagaaatc 4320
tactttgcct ggcgtctggg cgtgcattga tcctgactta atgccgcaag ttcggtcagg 4380
ggcgagtagt accagacagt ttcactcatg gcacttctca gcaacgctac agctggttta 4440
aacgtggttt cgacaaactg ggtggtgccc gcttctcgtt tagctggccg ttatggcata 4500
acatcccgca atttacctct gcctgacact acgcgcacca tcgtgcaaaa gggctgcacc 4560
acgatgtgaa tgttgcacca atatagtgct tcaatggaaa cattaagcac catgttgcct 4620
acctccccta acgcttatcg tcgtttctgg cgtaaatctt gcctgcttag actaaatctt 4680
tgccataaga accaaatgca cattgttgtg aaggccgatg ctgataaaca ggcgctggag 4740
ctgctggtga aagcgtgccc cgcaggtctg tacaagaagc agaccaacca tgtaggctgg 4800
acgccgctac tggaagcgat tgtgcttaat gatggtggta ttaaacagca ggcgattgtg 4860
tttatttttt atgtattctt ttgtgctttc aagattatgg cgtaagaaaa ttgcaatacg 4920
attattgttg tatattcaag aagaggtaga agaaaatagt ttgtatcctc aatattggca 4980
ggttaattgc tgtttccccg caatttgcgc tactgtagcg cgatgcgcta cgcttatcag 5040
gcctacagga tatctggcaa cttattaaaa ttgcatgaac ttgtaggacg gataaggcgt 5100
tcatctacca tgctctctgt agatgccagc gcgagcgaat gaatggcatt ttcatgtatt 5160
aaaccctttg gccgggacaa gcaatcaagg ccggtgacgt tgtgttgaca ggcacgcctg 5220
atggcgtcgg cccgttgcaa agcggtgatg agctgacagt cacttggcga ggttgtcgag 5280
cgaggcagca ccgcggatgt gctggcatcg ccgctgcatg aactcaccaa acggctgatt 5340
gccggtatca ccgggcacgt tgttctcatc gtcgataaaa tggcatgaga gttgctgtgt 5400
tttagcaaga gacgtcgttc agtttacacg cctgacagcg cacaaaaaaa gcgcactttt 5460
tgactggcac attcggctgc ctcaactagg ctgaaaaatg gtgcgatcgt ctcgatcgac 5520
gcggtgcatt actgcgtgaa ggcgcgtggc atccgcgatg caaccagtgc cacgacaacg 5580
acctctcttc taataacatc cctcaaggga aaaagatcca tggcatacta ttagcagaat 5640
aatctaccta cgcgagacca tgatttttac ctggtgaaag catcattgga tgaaaaatcg 5700
gcaacaggct ggccccctgt ttgcttcgcg atgcgaataa acttattatt tcctcacatt 5760
tttttatatt tcccgccaaa cctggcaaga gtggtgcgat tgttgctcta tccccctaaa 5820
ccaccggatt tccgaagtgg atgatgcgaa atacggcttc gtcgcctctg gcacgctgaa 5880
cccgcaaaaa gcgcgcgttc tgctgcaact ggcgtgttta tcccgatttt cgcgatcgca 5940
gccggagtgg cgcaatccct gcaatactta aatcggtatc atgtgatacg cgagcagctt 6000
attgcgacgc gaaatcgtgc gcaaaagctg gcactacttt tgcttataag aggatggcca 6060
cagacaggta aaagacagtg cgttagagct ggggcgcaag acgctggtca cgcttggcat 6120
gcatccgcat caggcacagc gagcgcaact gcatttaggg ttaacggttt aaacacccag 6180
cgttgccagg ttggcccacg atacgatgca tccacagata gccatgcgga aagacagatt 6240
tattgatctg aatccaaaag caatgacccc ggttgcatgg tggatgctgc atgaagaaac 6300
agtatataaa ggtggcgaaa aacaattttg aggatttcct tatattggtg gttagtacgc 6360
atgcaattaa aaatgaaatt ccgcgaccac aagccaaaac tcccttataa gtctgtggtt 6420
acgtcaatag agagctttgt cacaattatc tgcaaagtca tacgccgtta attgctttct 6480
tgcaaagtca tacgccgtta attgctttct tttttggcgt aagcgtaaga tgcttcatct 6540
ggtttaaacc aaaaggatta attagaaaaa ccccggtcca taaggccggg gttttttgca 6600
tatcaattat ttgcatgatg aagggaatct catgtcagtt ctctaccggc catcgggtca 6660
gcgtggacag cgcgctggcg tgggtacaac gctgcatgaa aggctatcgt ctgccggagc 6720
caatttcatg taaaagaata aaatatctgt ataaaatcat gccactggca atctgcatca 6780
actctccggg taaacagggt taagcgctac tgatgatatg cgtaatgcca agctctttgg 6840
cacgggttgc cacctgcatc gcctgttgct cacctttggc ggtcaaagga aatatgcctg 6900
agcagcagtc agagacataa ctggcacgta aggtttgcaa ccactaaccc accaatagag 6960
gggtagaatg ctggtggcac aggcggctca tgcctttctt ctctggcacg gtgttctgcc 7020
tgacgtagaa ccagttataa agcaatttca aagcgtaatg ctgatggttt aggaatgctg 7080
gtggcacagg cggctcatgc ctttcttctc tggcacggtg ttctgcctaa gccatctttt 7140
taatgttaat aactagttaa ttaaagtggc atcctcccgc atcctctctg ataatgacgg 7200
gatgccgggt gtggattatg tcaccaggag aaggatgaaa agtgtggcaa accgtaatct 7260
gcaaggcgtg ccgctggaca gcgatggcgc gccagattac ccgtcatatc agcgtttcat 7320
cgttggcacg gaagatgcaa tacccgaagt aagacaacca ctggaggatt atgtgttaca 7380
gcgcagggta agcgctgata aaagatggca tgatttctgc tgtcagaaag ggatgagcag 7440
gcaaagaaga agctcctggt ggtttccctt aggccctgcg aaattggcgc acatcctgcg 7500
ttccacctgc gcatcgaagt gacgcaccaa gcaggtagcg ggggttttcc ccaggtcttc 7560
ggattcaggc atagatcttg tttcaactat gtcgccaagc cagcattcgt gcgcgctttt 7620
ccccgttttt tcgttcgatt cacgccccgg cacagctctt gcgatctgcc tgccgtgcgc 7680
acggccggaa tgccgctgtt tccgctgttt tcactgcctg cgcgcactgg cacagccatt 7740
gcaaatacgc ctggcaagac aacgacaaca ggagacggca tcccacgcag ccggatcgca 7800
accgctccga ttggcacgca acgtgcttta catcggaccg tcggcagagg cctggacgtt 7860
caatttcaat gatttaaaaa tttttcgcga actggcacgg gggatgcaga gaaggggtcg 7920
aagcggccgc tggcaggctc cacagctgta cgatctctgc aatggcacga atggcataca 7980
tcgtgcttac agttgtgcgg ctcgcccaat cggcggagag cacacgaggc cgcttcaggg 8040
aacaccgaca ggaggctgat ccctcgcagc cgcttttgcg gcagggagca tgccaatgac 8100
caaataaatc attcaaaaac aattacttga ataatcggca cgggtattgc tcggctcttg 8160
gggtaaagac tctctcagcc gctgtcgcga cttgtttggt ggcgcggccg gtaaactggc 8220
acatgcattg ctttatatac gacgtcacct cgaaagtatt cttttaaatc aagaggttat 8280
gtgtttgcct cgagtgctgg cacagacgct gcattaggtt cagtgcgcgg acttgttcag 8340
gctaataaca atgaaaacgc ttaacacaac tgtgttggca cgatccttgc attatatatg 8400
gatgtacaaa acaggaaagg agcagaaaat tgtagaaaac acacgaattc ttgatttggc 8460
acagaacttg catttatata aagggaaagc aggataacat gttgatcaac aagttttttc 8520
agcaaaagac aagaaaatgg catgattctt gcatttttat tcatatgcga agatatattt 8580
cataacggcc gcggtggaaa acctcccgca atgcggcctt ttggcacgct aaatgcttgt 8640
aaacggtcgg ccgatggtgg ccgggtacaa tacgtcccac tgacttcaat cgtctttgca 8700
actggtacga cacttgctgt tgtcctgctg atctgatcat cgatgccgac gcaaaacgga 8760
agcgcattta cgtacatcgc agtggcgcaa atcctgctac gcgtgcgcgg gcgcaaaagt 8820
agaggaggct gataacgctc caataatcag ggcatttgca acttggcata gaccctgctt 8880
tcgaggaagc cgcttcggtt cgtcgtgctc tgtactgtgg ttgcattcgc atcatcctcg 8940
ccacggcatg caagttgcta atcttcctga agcgcgctct aggatgatct gctgttgttg 9000
ttctagtttt agtgctcatg agaccctggc atgccggttg caaagtcttg gatcaagaag 9060
ccgccctccc aaaacgtaat cagaagctta aggtgccggg ttagaccttg gcacggctgt 9120
tgctgataag cggcagcaac actgagtgag ggcggcgcgg aaatgagcat catcaggcgt 9180
ctgcgcgctg gcacgtgact tgctcttagc tgggcctaag ctgacgaggc aaagggctat 9240
cgcattgatt gcactcgatt tcacctttgg cacgatacat gcgtaatcgt ctaaagggcg 9300
ccatagagga gaagtggaac tggaagggca gatcgcttag cgcatttctg gcctgactct 9360
tgctacgggc tgcttgtcac attgtgctta actccacctt gtgacagcga gcggtcccaa 9420
gcggcgggga tggtacaaga cttgctgttc tcttcccaac tgacgtaact ttaggagaat 9480
ctctccactt ttgaatcgct ccaggctgtt ggcctgcttc ttgctgtcct tggcgtcatc 9540
gaaaagtcaa agcgaaggat aaatttttaa aaaattcata aaaaatttca caagttggaa 9600
cagaacttgc ttgtaaactt cacataaacg caaaagtttt ttctaaataa aatttcaatt 9660
tgaatcaaaa cttggaacac ttcttgcttt aatcttttcg atgcaatatt ttgaaaggat 9720
tcattgataa cagaggttta ggtcgtgttt tccgagttgg cccgaccgtt gctgagggag 9780
gcgacgaagg cgtgtccgtc agcgccgcga aaaatttggt taacaagatg gcggcgggcc 9840
gcaaatcgct ccaagcgaaa gcctagcttc ccatccccgg ttccgtcggc cccggcgccg 9900
ccgctgtcgg cccgcaggcc cagagcttgc aagcccgctc gcaacccctc cgtttcgccg 9960
ctcttcctat ttgttgattt taatggcatt ttagcgctgg cacgaaggtt gcttctgggg 10020
ttgcgacgca tttgtcgcgt cagccagtga tttagcgcag ctttgctggt gggcagaatt 10080
ggcccggcaa ttgcttcagg tcctaccgag caaaatgctc ccggcctgcg gcgggcgaca 10140
gccgaggaaa tgcaaagctg gcaagcaaat tgcaaaagcc agtgcatcat actcccagcg 10200
ttgacgaagt ctacttttca tgcggttgcg aaattaacct ctggtacagc atttgcagca 10260
ggaaggtatc gcccaaccac gaaggtaaca acctcttttc tttaaaaatc aaggctccgc 10320
tctggagcgc gaattgcatc ttccccctca tcccccaccg tcaacgaggg ggcagggatg 10380
ggccgcggta gtgcaaagca acctggcaca gccttcgcaa tacccctgcg agaacgcgta 10440
ttttcaacca taaaaatcat aagaatacat aaacaggcac ggctggtatg ttccctgcac 10500
ttctctgctg gcaaacactc aacaacagga gttgaattcg cgctaactct tctgtcatcc 10560
gcgagctggc acaggctgtg cttgaggcaa caactgggtt tgccgcttat ttaccggatc 10620
aatgtttctg cacatcacgc cgataagggc gcacggtttg catggttatc accgttcgga 10680
aaacaccgcg gccgagcagg agctgatccc catcacccag ccgtggctgg ccggaaattt 10740
gcaatacagg gatagcgtga cctgccagat ggctacacaa ccatttgaaa aatattaatt 10800
ttattctctg gtatcgcaat tgctagttcg ttatcgccac cgcgcttccg cggtagaatt 10860
ggggggcttg gagtgcgcac ctgggttggc atgcgtagtg ctaatcccat ccgcgggcgc 10920
agtgcccccc gttgcgacaa gccctggaat tcacttggcc gcgcgtcgag cacgcgtctt 10980
gctttggctc acggctcttc caaacatcca cggaggattt tccgattgat ggtttttatc 11040
gcgatttttc ggcatttgcc tttcggggcg gcttgtgttt cgtgcgggat gtcgcgtttt 11100
atttattctg ctttttgtgc tcgcgccgcg ctggcatgct cgttgcagtc ttgttcaaga 11160
agctgctccc gcacagttgt cctgaccctc ggtcagtatc ttcaggaact cggcgggcaa 11220
cgcactgcca aaccccctgt gcctagcctg ccgggcttcg ggatggtacg gcgctcagtg 11280
tttcaacgac cggtcgggcc cacgcgttcc acttcccccg accggaagac aattagcaat 11340
gtgcatcggc gggggcgaag gcaccgcagt ggcactcgaa ttgctataag aaccatggct 11400
ggggacgccc gacaacaggc gttcgaacaa caagaacgaa ctctacgtaa tgccgggata 11460
cccgtggcag cgatagctgt ttgcctgttc gaaaattttt gggatatttc caaatatttc 11520
gcgagcggga caaacggccg gaacttccct cgcagagaaa acatcctatc accgcgatgc 11580
ctacgcaacg ctttgatttt caaatgaaaa aaatttaggc acgggtattg ctatatctcc 11640
gtcgaccgac agaaccatga cgtcatttag atgaaataag gggatcggta taagcaatgg 11700
catggcggtt gctagctata cgagacttaa aataaaaata gtggtttctc gcttcttaaa 11760
aagaacgtct tcgttctgct tggcgttatt tttgcttgga aaagtggtca ctaattgcaa 11820
aaaggagatt cgcgattttt ctttcgcgtg ggcccaaaac tggcacgcta cgtgctttta 11880
aagcatcatc cctggcgatc ggatgcgcga cgtctttttt cgagaagatg gatttcaaac 11940
tggcacgata tctgcatcat atccggcgag cgggaaaatt cctgccatgc gaattattgt 12000
tcgtcagctc aatcggccgc ttggcacgaa tcttgagagc tattgagagg cagcggaacg 12060
gccgccgcag ccagctggaa agtggcgacg ccccaaagcg agttggcacg tttgatgctt 12120
aaggcaaatg gatccctggc ggccagacgc agcgccaaac tattgatatt tcgatattat 12180
cctgttggca cagcgcttgc ttttttggac gacgactttt tactccagtg ggaaagaaag 12240
ccgagtagtt ttatttcaga cggctggcac gacttttgca cgatcagccc tgggcgcgca 12300
tgctgttgcg caaccgacta ccttcgttcc agccactcct gctgcccggc acgacttttg 12360
caagatcacc cggtgggccg cgcatgttgt gcgatgattt cgcgtcatta tttgcgaaaa 12420
ttccggttgg cacgatggct gctgtagaag ctgtgagccc ggttaggaac cgtccgcccg 12480
ccccccggca agcccgcccg gcggcgctgg catggccctt gctgcgcggt tttcgggatc 12540
tttccctcaa cgacattttt tcagccactt gggtgatcat tgaaccagtg gcacgaggcg 12600
tgataaggga tccccatcgt cccgcaaagg acgggttggt cagggccctt ttgcagaggt 12660
gggctcaggc gtcctggaga cgcgacagcg ctccgggaaa gagttcggtc gcccgcccct 12720
gcccgccggc ggcacggtgc gggtcgtccg cgagggggca ggggtgtcgc tccagggcac 12780
aggccgcaac gccgggctga tgagaagact gattttacgg gctcaaaaga ctggcacact 12840
tcttgcattt ataatggtga accctaaata gaaggaggct cggtatacct ggtatgacag 12900
cacccttaag agctggcatg gaacttgcat aataaaaggc ggagtcgaaa caagaaaggt 12960
gttttcagtc tctttttttg tggattcaaa agctggtacg gatcttgcat gatgataagg 13020
gtgaatccaa tgaagaaagg acgggcgcgc cgggttcacc gccagcgccg tctgcagtgt 13080
gaccgatacg ccgcccacat tactggtgtg cctgaatcgt ggcacactgg aagcaataaa 13140
tgaagtgggc atgcacgatg caacgatcgc gcagatcgcc cgccgtgcag gcgtttctac 13200
gggactgaag cgcacaatga aaacgcgtca cctgattatg ctttccttgg gcggcgtgat 13260
tggcacagga ttattcttca ataccttttt cccgcagtat catcccgtca cgacgtttaa 13320
tagtgggctt agtggcggga gttttctcat tgaacatcag ggccacgccg ggtgtgtggg 13380
gcaacgtgaa cctgcaccgg tagaagaagt gaaaccagcg ccggaacaac cagccgagcc 13440
acaacatcct cctgtcgcat tgctggaaaa attccccgct actgaaaatg ccgcgaatac 13500
ggttgcccat gcccgaaaag cgatccacca tacctacgag cacgatccgg ctgaaaccaa 13560
ttttggcgat gaagtcgtca aaaaattagg tttgaatccg gatcaggtgc gcgatttaga 13620
ccgggatact gcgcgcggtc tgtatgctca tatgctcaat ggtgaagtcc ctgaccttga 13680
gttgggcgga agccacgagc gccatgcatt gcctggtgtt atcggtgacg atcttttgcg 13740
atttgggaag ctgccactct gcctgttcat cctgttcaac gcgctgacca aagccggtat 13800
tgaagcggcc aactttccat tctgcaccat tgagccgaac acaggcgtcg tcgttaaggt 13860
attcgaggaa gcctggccct tacatacccc gtttgtgatt gcccggggaa gtcgcagtga 13920
agcgcgcgtg gtcgggagtg ttattcagcg cgatgacctg gtgcagtaca cgacaactga 13980
cgatgcaacc agctccggtg gtgtcctgcg cgtacttgca caaaagcgtc ataaggatat 14040
gaataaattg aaatatctta tgacgcttct tatcaataat actttaccgc ttccacatta 14100
cgattgccgc ccggatgacg aaacacccac cctgctggtg gtgcacaata ttagcctgcc 14160
gccaggcgag tttggacgtt ataccgatat tgccgatcaa atctgggatc atccagaaac 14220
acgttttgaa gagttctggt cagcggagca tctggcggca atgtctctga gtgcctgttc 14280
taactggtct aaacgggacc gcaacaccgc aatcggcgcg ggtgcagggg cattaggtgc 14340
ctgcaccaca gtcactccag cttataaaga taacggcaca cgcagtggtc cttgcgttga 14400
aggaggcccg gataacgtcc ctaaacgctc cactcttaaa agccgttccg atgttgaact 14460
ggaacgtcaa ttcaccttca aacattcagg tcagagctgc attgtaccgt tgctggacgt 14520
actgctggtg ctgttgctga tctttatggc gacagcgccc atcatcaccc agagcgtgga 14580
atttgccagc tttgcggctg tcgaagttca gtcaacgcca gaaggccaac aaaaagtcgg 14640
tacaatcagt gctaacgcgg gagctcgcgt tgtagatatc gccgttaaag gcggaaaaat 14700
tgctgctatc ggtcaggatc tgggcgatgc aaaagaagtt attgatgtgc tcggggcggc 14760
ggtgacacct gttgatggtg cattgctcgg agatgtagtc acggttgagg cggcagagac 14820
atttaccatc gcatctgatg acctgtggat cgagagttta gcgatccaac aattacacac 14880
cacggcaaat ttacccaaca tgcacctgat aagtcgcgtc agcggcgcat caggcatcgg 14940
ttgtcggatg cgacgctatg cgtcttatcc gacctacagt tcagtcgcgt caattggcgc 15000
gaacgcacac attggtcctt tttgtatcgt tggaccccat gtcgaaattg gtgagggtac 15060
cgtactagaa gcgttcaaaa cccaaatcag caaaatacgc acgggtcgtg cttctcccag 15120
cctgctggat ggcattgtcg tggaatactt ctcttctgcc aacgccttag cgttgcaggc 15180
aaaacagtat ggcgattttg atcgctatgt cctggccctc tcctggcact ggaaaaaccg 15240
tcctgaaaag ccagacggca gacgggctgt attacgcagt caggtacttg aactgcatgg 15300
catcagccac aacaccacct atcttggttg gatctggagt ggttttcagg tgacgatcgc 15360
tttgtcgatc tgcgcctgga ttatcgcttt acttcttact gccgcatttt tagcagcgag 15420
tcccgcggcg aagagtgctg ttaataacgc ctatgatgca ttgattattg atcgggccat 15480
aggggcaaca ggttcggcgg ttggggaagt cgttttcaat acttcaatga ccggttatca 15540
agaaatcctc acaatcagcg ttggtaaagt ttttgctaac gcagatgagt ggatgacaac 15600
gtttagagaa aatattgcac aaacctggca acacgatgcc ggtggtgtgg tgtaccacgc 15660
cagttacgtc gctttttatg aaagagcacg cacagagatg ctgcgtcatc atcaggcgtt 15720
atctccgctc tctgcaacgg cggctgagac ttcttcagca acgacagccc agcagatgcc 15780
aagccttgca ccgatgcatg ccgtttacct gaccgtagga ctgttcgtga ttactttttt 15840
taatccggga gccaatctct ttgtggtagt acaaacggga aaatggttag cacgcggcgc 15900
ttattcgcca gcttcgcaaa tccgggcgcg cgtctggacg tttgacccgt ctgagtccat 15960
ggtctttttg ttcgttcagc ccgatgccag cgctgctgac ataagtgcgc agcaaatagg 16020
tggggtgatt attccgcagc cgcaccgttt cccgttctta ctggtggatc gcgtgctgga 16080
ttttgaagaa ggtcgttttc tgcgcgcagt aaaaaatgta agagggttga tgccagcata 16140
caggggcgaa gctggtcaac aagtcaacat taagataatg gaatattcgg agagaaacgt 16200
tcccgccaag acggttgaag atgcagtaaa agagatgctg gagcatatgg cctcgactct 16260
tgcgcagggc gagcgtattg acgctgccgt ggcgctggcg ctaccggcaa aagccaacac 16320
ctggccgctg ccgccagcgg gcagtcgtct ggttggcgaa aactactcct ggcagttgtc 16380
ccagaacgac atcgctgatg ttgaatacca gttcctggct gaacaggatg taaaagacgt 16440
tgatttgttg gcggttttca ttattgcggc gtcggttgtg actcgcgcga ccatcggcgg 16500
cgttatagaa cagtacaata ttccatttgt ggtcctcgcg cttgggctat gtctcggaaa 16560
gttacgactt ggttcgatcc aactgggtaa ttccattggc gttttgcgta tggaaggcaa 16620
gcgcgtggcg ctggtgccta ccatgggtaa cctgcacgat ggccatatga agctggtcga 16680
cgaagcaatg tgccgcgtgc tccgggtggc ccgcagcggc tggtatacgt ggtgtcagcg 16740
gcggacaagg ataagcacgc gtcagcacaa agggttaacc gaagccggtt ttgtggtcga 16800
tttggccgac aacgggctga atggctacca tctggcgatg accggtgatt ttggctttat 16860
cactcctgat gatggcagca aagacgtttt cgtccatttc accgccatcc agagcaatga 16920
attccgcaca atgcatgcgg agacggctcg cgactttctg gagatacatt tgccagtgga 16980
attacgcgaa ctttgtgacc tcaacacgct acgccctcgt cgcctgcgca aatctcctgc 17040
gctgcgcgct atgtttgaag agacaacact tagccttaac gacctggtgt tgccagcaga 17100
gctggcggat gccatcgggc tgtcgtatga cacctatacc ggaaagcaga tcagcagtca 17160
gcgggctatg cgcacgcagc gagaatgtat ctacattaat gaaagtcgta atatcgatgt 17220
ggcggcaata gttttatcgc tcaacgatgt tactatccat tgccaggatt gcagcatcag 17280
ccagctttgc atcccgttca cactcaacga acatgagctt gatcagcttg ataacgtcat 17340
ctcccaacgt tggctgaata tttctcgtct gctgggcttt gtgagcggca tattgatcat 17400
tgcccaggcc tggttcggcg atatcctggg ggccggttta atccgcgctc tgaaagaaca 17460
tgtgcccaac gcccgctttg ttggtgttgc cgggccgttt cgccctgatt tatggggtaa 17520
accggtggtt gtgctatcga ataatgacgg ttgcgttatc gcccgaaacg ctgaggcgcc 17580
aacagaggtt aaacaggtag taactatgga tatggatcta aacaatcgcc tgactgaaga 17640
tgaaacgctt gaacaggcta ccttcgccga cagtgaattc agcagtaagc gccgtcagac 17700
cagaaaagag attttcttgt cccgcatgga gcagattctg tgctgcacgg cgcaggcaaa 17760
cgaccataaa ctcctcggcg ccattgcaat gccgcgtaac gaaaccaacg atctggcgct 17820
gtcacttaaa aaactcaggc cgcagtcggt aacctcgcgc atacagccgg gcagtgacgt 17880
catcgtctgc gcggaaatgg acgttatatt ccctgaccca ttgtttattc gcaaaggcca 17940
gggtgtcact cctaccgcat ttgcgatgca tctacatgag taggcgctgt ttctcatcat 18000
cacgctgttt ccattttttg tgatgctgat gacctcgttc aagggcgcga aagaggcgat 18060
ctctattgtc aacattaacg aatctaacct gcaacaggtt cttgaacagt cgatgaccac 18120
tccggtgctg ttctattttt ggtcaatgtg caggaacagg cttaagggtc atgcgaccca 18180
gactctgcaa gaaaagtacc tgaatgccat catccatgca ggcggtatgg ctcagtatca 18240
gcaaatgaaa gcacaaggaa ttcgctttgt agtcgccagc gggaatcaat attatcagtt 18300
gatctcacag aagggcgcac aggcgttaga gcggggaatt gcgattctgc aatatttgga 18360
aaaaagtggg ggaagttcgt cggttagtcc cattgtccag ggttcggcag gtgtaagaat 18420
tggcgcgccc accggcgtgg cgtgctcggt gtgtccgggc gggatgactg gccgactggc 18480
tgccgaagtg ctggagatga tcgaaccgta tgttaaaccg ggcgtcagca ccggcgagct 18540
ggatcgcatg ccaaccattg cgcctttcaa agcgggtctg atcgtggcgg gcgtagcgtt 18600
aatcctcaac gcagccagcg ataccttcat cgtttgggca ttgattgccg ttatcttctg 18660
gcaagccggt gggggtgact gggtggcgcg tatcaccggc gcttccgggc aggctttgcc 18720
gctgtggagc cgcgcagtat ttgcggcaga acgcccaacg ttaccgatcc ctgatttgct 18780
cacgaccgat gccaacaaaa tcattcgtga gcatgaggat acgctcgcag ggattgaagc 18840
caccggcgtc acgcagcgta atggcgtgct ggttggcctc aatatccgtc ctgatggcat 18900
ctacattgat gggacttttg gtcgcggtgg tcactcacgt ctgatcctct cgcacttcgt 18960
tcccggcacg ctggctgatg gcgtggtgta tgtctccggt acgctggctt ttgatcaaca 19020
taataacgtg ctgttctatc aggccggaag aggtcaccat gcgctactca ttcaggcgtt 19080
accgggcatg ggcgatgatg ctttaatcta cgccctagag tacccgtggc tggcggagcg 19140
tgacgaagac ggtgcggtag tcacctttac tggtaaggtg cgcaaccata acctgggtat 19200
gaaccagatt ggtgcgcact atgaaggcca caagatcatt gagattggtg ccgttgaagt 19260
ggtgaaccgt cgcctgacgc cgctgaaacg tgctaccgat gtccactggc atccaacgcg 19320
taaccaacgt gcgccgcagc gtatcgacac gctgcagctt ccggtggttc acccgacggc 19380
gtttgtccat cccagtgccg tcttgattgg cgatgtgatt gtgggagccg gtgtctacat 19440
cgcaggcatg atggattgca aaaaagcact gactgaagct aacggcgaca tcgagctggc 19500
aatcgaaaac atgcgtaagt ctgttaccgt ttataactac gatggtgaaa cacgggaata 19560
tatttccact tcaaatgaat atcttgccgt tggtgtcggc attctgttgg caacggcagc 19620
ggtagtactg gtgctttcgc ttgcctacgg aatggtcgcg ctgatcggtt atagcgtcag 19680
tttcaagggg ggcctgatgg cgctgcgctt atcaggccta cgctcgaaag catcatttgg 19740
aggccggata agacgctacg cgtctgcgat gtgatagctg atatacccaa cgtaattggc 19800
gttgcataca gcacaacccg cgggctccaa tgaactgacc cacgcttttg cccacctggc 19860
tcgccgcacc ttaaaatacg acagataaaa ttataggcag ccataaaaat agtgatctca 19920
aaacgtagct tacgtaaccc accaccggta tccattcgtt cttcagactt ctgaagaagc 19980
gttccattgg gctgttatcc cagcaatttt tgtaggcctg ataagacgtg gcgcatcagg 20040
catcgtgcac cgaatgccgg atgcggcgtg aacgccttat ccgtcctaaa acactggttg 20100
tagctcttgg gggcaacgcc ttactccagc gcggtgaggc gctgacggca gaaaatcaat 20160
atcgcaataa acggtggatc aatattgggc cgttggtgga gatataagtg gatcactttt 20220
catccgtcgt tgacaaccac tgatgggcaa gcagactgct gacaaagctg ttggtgctgt 20280
tgaatgttag gttacgcttc gctccactcc acccaacgga atccgcaata tcctgctcgt 20340
cattcatcga cttaatggac gcaaaaaagg ccggttaaac cgacctttta tccagccgcc 20400
cttcagggcg tgtaatagtc tttttaatat gtgacaatag tgttgctaag gtgtgattga 20460
agcgtggagt ttacgcacgt tgagtgatca ccttaaggcg agattattaa agttgccatg 20520
cagcgtccgg ggaagtgttg ggcgctgttt tttttgtttc ttaataatgt gttgttgcgc 20580
aacatgcctg atggcgctgc gcttacccag tctaccgtag gccggataag cgcagcgtca 20640
tcaggccatt aacgcttcat tcgcacgggc tttaatgagt aaaccgtaca ttaaatgaat 20700
accttcggga tagggaaaag ttaacgttgt cgggttttgg aagcatcacc atttgtctta 20760
tgtacgcaga cggtaaaaaa gatccacaac ggcggtaaat tgaaaaatta attgccatga 20820
ctggggggaa tccttgctag ttatataagg tcactgttag ctagaggctt gagcgacaaa 20880
agtgtcattt ggattgaggc cttatccggc ctacaaaatc gtgcaaattc aaaatattgc 20940
aggggacgcg taggcctgat aagcgtagcg catcaggcat tagctataat ctggtacagg 21000
gccataaaat cgccacagta atctcatact cgcttactgt ggcgatccct cttcttccgt 21060
taatgtttga ggatcgccca gatgaatcgc tcacccgata aaatcatcgc gctgatattt 21120
ttactgatta gcctgttggt ggttagagtc attaccgttt cgtctatata aaaacttatg 21180
tttttggtac attagcagta tatatcatct ctatcatcac aacgtgatcg ataagaaaat 21240
atcacactgt gaagcatgat gaccacatgg ctgaaaagag agagaactta ttttgctcaa 21300
tcaacgctca tcctcatgat ctgatgacaa aactgttttg cacgttgtgc gcgcgcttcc 21360
ccggaggcgg cgctggcgcg ccttttggaa gcatcaccct attctgcata ctcttgaaaa 21420
gaaagcataa cctaagcccc ttaaaagcat tcaggataat tatgaaccgt caggaatacc 21480
aggcttagta cacagcactg aaagtagaaa ccactccagc cattcgtcat caatttgaac 21540
aacacattga attgccggat gcggctagcg ccttatccgg cctacgttaa tgaatgtagg 21600
ccgggcaagc gaagcgctcc ggcataattt ttccacagaa aggaattgtc gttgttacaa 21660
caataatgaa cggatactga cacaacatcg ctacactttt taaagcacag aataaactgg 21720
gcacgatagc cccgattcag attgcagaca aagtaagctt tgttcatgcc ggatgcggcg 21780
taaatgccta aagtggcaat tacgcatagt ttcccgataa agacgcgata gcgacatccc 21840
gcataaggca tttttctctt tatctttgta gggcaaatcc aacggggtat ggaccagatg 21900
gaaaaaatca caacaggtgt gtcatacacc acgtcagcgg tgggaacggg cattgcgcgg 21960
tacaactaaa aaacgctgtt ccgatggagt gcaatcccgg aacagcggag cgaagaattc 22020
gcaatgtgga cattcgtagg acggataagg cgtttacgcc gcatccggca acagatgcct 22080
gatgcgacgc taccgcgtct tatcaggcct acaggggcga cttcattagc gtgcgcctgt 22140
attttaactt tgctgtggct tcgcgccagt tctgaagcta cgacatacat atttcctgca 22200
ttaacctgca atttttagcc aaatagcggt caacaaaaaa gggggccctg aactcatcag 22260
cgcccccttt tatttgttag agtcattacc gctgttgctc agtttgcata actcgccctt 22320
tgtcatagac gtgctgcgta ttgttcagat aatgagtggc aaggctggga cggaagttac 22380
tgtcgttctc aaaatcggtg gagttgcatg acaaggtcat cgggcattat ctgaacaatg 22440
aagggttgac cgcacctcgg ggcactccgg tggcttacgc cactacgacc ccaacggcac 22500
gtttcccctt caattgactg tgatccagag gctgggtgac aaacgtataa ttgcctgatg 22560
cgcttcgctt atcaggccta cataaggcat tgcaactgat gctgtatcag gccgttgttt 22620
tagtccgtta gcttcgccac gttccaagag aagaaaccgt cactcataag catgaactat 22680
tacttttgcc ctgatgatct aaaagcaaac tgtgcaatga aaaacaggag ccatcaggct 22740
cctgtttgca tttctgacga cgcaggtcat ttcttcccaa gctgactcgc tgattaaaat 22800
ttcgcggatc tgggccgatt tttttcccgc aaacacatcg aaataaaaac cgggaagatc 22860
ctaagaagat cttcccggtt gttttttgat cgccagtagt tacccagtta agcccgtttg 22920
tgttattgac gcttatttat tggtgagaac tacgttccat ggcaggagtt cgtcaacacg 22980
gttggagggc cattccggca gtatataccc tttgtccttg acgccgcagc gttgttagcg 23040
gcgttcgctc acccgaatca cttacttgag taagctcatc gggataggca gttggatcaa 23100
aaaaggacac gatttttacg tgtcagactg ctgacaaacc ccgatgacgc gatcttgaac 23160
ggtgagatag cggctcccac aatgttcaaa tgtgggagct atttaccagc acatcttaca 23220
cttatgatga gaactcctgg cgaattttat tagttcggcg taagaactca gagacttaat 23280
tcccctatcc catagataac gataggggaa aattattttt gcagaattaa tacttcaact 23340
tctggttgca tgattgtttg tccgtaaaaa gataacgcgc ctgccgggta gtagcaggcg 23400
cattacgcat ctctgacgtt ttccgggtgg cgctggtcgc ccggattaca gctcataggg 23460
tgtgacgaca ccatctctcg tattccgcgc cgggcagtcg tcagacaaaa aaatatccgg 23520
gggaatgccc cggatatcag actgctgaca aaccccgatg actcactctt ggcagtgcca 23580
tttatgataa aaacatccct taaaaccaat ctaatctttt tcttcctctg tgtatttgtt 23640
ccccatatgg cgttcatatt gtactgttac gttgtacaaa cctgtgccaa cgggttcccc 23700
tcaccctaac cccagaggag cgaggggacc gttggcaagc tcacgctcat cattaagttt 23760
atcaatccgg cacagtctct gttgccggat tttttgtatt cagaaaacca ggtccgtggc 23820
gatgacccag caaagataaa acgagtcaca ggttatgcat gagaggaaat caggcgcttc 23880
gccgctattt cgaattgggc tccacaaaat ggggacatca aagaaaagca gtggcaatag 23940
gtatgactga tgctttaacg aaaagttcga cctattgcaa agcttggttg ttgttaaaga 24000
tgaatttttt aacggactcg atgccgtcat aaaagtgata tttaacggct acgctgattg 24060
gaagcatcac caagaatgcg atggatggta tatttacgaa aaaataattg atgataattt 24120
tgccatagtc atagaatcgt agcccatatc tttaaaaacc cgccttactg ggcgggtttt 24180
ttatgggtag cgttagcgta caagacaata tgtttagtct tctttggatc ttgtaggccg 24240
gataaggcgt ttacgccgca tccggcatga agcaacgtac tcgatattag caatttggcg 24300
ggctagtttt aaacgtcaga ttagtcttag acgtcagatt agttttagat gtcagattag 24360
ttttagacgt cagattagct tatgtgatga gccgttcatg atacaggagt agtaaagggc 24420
atattttacc aatgttaagg cgactttccg ttttattgcg agaggcgctc gaaaatacaa 24480
tatgggtatt aggctttgtt ggcactgcat ttgatactaa atttagtgcc aacaaagcat 24540
cggtctgata gttaacatta caagatataa gtaatggacg cactcccaat tagtctattt 24600
aaatcgccac gagtttaact gacatattct actctggaag tagagtatta attatattac 24660
tgggaagcct taacgccatt atatttattt aattgatgac attagctgcc ggatacgcgg 24720
cctacggtgt atgacttgta gggcggataa gatgcgccag catcgtatcc gccaataaat 24780
gccggagatt atcctaaagt tacacacatt tgctgtgtaa aacgaggggt tttccgcagg 24840
caggagagca aaatgccacg ctctgttcaa caatcgggga gtcagcaggg ggctgaaacg 24900
ggaaagcccc tcccgaagaa gggggcctta cagaaggaaa gggttatgaa aagaatgatt 24960
tatagggcca gaattaaggg gcaaagacat gaaaaagccg ttgccccttt agtcgttata 25020
ccgtttgaga acgacgcagc ttttgcctgc gtcgttcgac ggctagtcaa taaagactgg 25080
ccctgccgga aaatgcgcca ggaaactcgt caaagggggc caaagccccc taatactcaa 25140
ctaaccaccg ataggtaaac gaatcccgat gagcttacac cagtaagtga tgtcagttgt 25200
tgatacgaat ttatcgtcac gatgataatt gactgataaa gggttattag ctgataaagg 25260
gctattgact gaaaggcggc agtgagaaga ccgccatttc aggttaccct accttcctgc 25320
cggatgtgct tcgtcctaca aaaacttata aatcataacg cctgatgaga taagcgctta 25380
atgcgctagc tggcaggggg agtccatttc ctcaacctct ttaccgctga ggcgacctgg 25440
cttgatgcga cctatcgcag caatgtttgc aacgaacagg attgtaacgg taatcggatg 25500
ccagggatcg cccgtgtttt actcgcctct gaatgagcag aggcgagtga gtattttaat 25560
gaacaaaacg tccggcacga gacataaatt cttcttatta ttgttctgtt agtgtattat 25620
ccactgcggc cctttccgcc gtctcgcaaa cgggcgctgg ctttaggaaa ggatgttgcc 25680
gtatagaaat cccaacagat tgaatatcaa gaaaatgtct cactgcccca aacttaatcc 25740
ccaataatat tccccctttg ggttggaaaa tgggagctgg gtgttctacc gcaggggcgg 25800
gggactccaa gtgatatcca tcatcgcatc cagtgcgccg cgataaagca gaaaagcgaa 25860
ggggcgttta atgcccctga ggttattgac aacgctattt ttagcctcgt gagtgaaggg 25920
gatgcgacgc tggcgcgtct tatcaggcct acaccgctgt gaagtgcggc accccgtagg 25980
tcagacaagg cggtcacgcc ggagtgagtt ttcaatcacc tttccatcca ccttatatta 26040
agcatggagg gtttcagttc acgggctcat tagaaaataa tc 26082

Claims (5)

1.一种原核生物σ54启动子的预测方法,其特征在于,包括如下步骤:
1)数据样本编码:对sigma 54promoter序列集中给定的原核生物σ54启动子数据样本,采用伪K-元组核苷酸方法进行编码,k的取值范围为1到∞,得到维度为4k的特征向量,即:假定161组正样本和161组负样本作为基准数据集S,可以用公式(1)表示为
S=S+∪S- (1)
其中子集S+仅包含正样本即启动子序列,子集S-包含负样本即非启动子序列,而∪表示两个序列集合的并集,采用伪k-元组核苷酸来配置DNA并对基因序列进行编码,最终得到如公式(2)所示的4k分量的向量,即:
<mrow> <msub> <mi>D</mi> <mrow> <mi>P</mi> <mi>s</mi> <mi>e</mi> <mi>K</mi> <mi>N</mi> <mi>C</mi> </mrow> </msub> <mo>=</mo> <msup> <mrow> <mo>&amp;lsqb;</mo> <msubsup> <mi>d</mi> <mn>1</mn> <mrow> <mi>K</mi> <mo>-</mo> <mi>t</mi> <mi>u</mi> <mi>p</mi> <mi>l</mi> <mi>e</mi> </mrow> </msubsup> <msubsup> <mi>d</mi> <mn>2</mn> <mrow> <mi>K</mi> <mo>-</mo> <mi>t</mi> <mi>u</mi> <mi>p</mi> <mi>l</mi> <mi>e</mi> </mrow> </msubsup> <mo>...</mo> <msubsup> <mi>d</mi> <msup> <mn>4</mn> <mi>k</mi> </msup> <mrow> <mi>K</mi> <mo>-</mo> <mi>t</mi> <mi>u</mi> <mi>p</mi> <mi>l</mi> <mi>e</mi> </mrow> </msubsup> <msubsup> <mi>d</mi> <mrow> <msup> <mn>4</mn> <mi>k</mi> </msup> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mi>K</mi> <mo>-</mo> <mi>t</mi> <mi>u</mi> <mi>p</mi> <mi>l</mi> <mi>e</mi> </mrow> </msubsup> <mo>...</mo> <msubsup> <mi>d</mi> <mrow> <msup> <mn>4</mn> <mi>k</mi> </msup> <mo>+</mo> <mi>&amp;lambda;</mi> </mrow> <mrow> <mi>K</mi> <mo>-</mo> <mi>t</mi> <mi>u</mi> <mi>p</mi> <mi>l</mi> <mi>e</mi> </mrow> </msubsup> <mo>&amp;rsqb;</mo> </mrow> <mi>T</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
其中是在DNA序列中的第i个伪k-元组核苷酸归一化的出现频率;
2)特征选择:采用F-score方法对编码后的数据样本进行特征选择,定义如公式(3)所示:
<mrow> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msup> <mrow> <mo>(</mo> <msubsup> <mover> <mi>x</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> <mrow> <mo>(</mo> <mo>+</mo> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msubsup> <mover> <mi>x</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> <mrow> <mo>(</mo> <mo>-</mo> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mfrac> <mn>1</mn> <mrow> <msup> <mi>n</mi> <mo>+</mo> </msup> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>n</mi> <mo>+</mo> </msup> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mover> <mi>x</mi> <mo>&amp;OverBar;</mo> </mover> <mrow> <mi>k</mi> <mo>,</mo> <mi>i</mi> </mrow> <mrow> <mo>(</mo> <mo>+</mo> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <msubsup> <mover> <mi>x</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> <mrow> <mo>(</mo> <mo>+</mo> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <mfrac> <mn>1</mn> <mrow> <msup> <mi>n</mi> <mo>-</mo> </msup> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>n</mi> <mo>-</mo> </msup> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mover> <mi>x</mi> <mo>&amp;OverBar;</mo> </mover> <mrow> <mi>k</mi> <mo>,</mo> <mi>i</mi> </mrow> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <msubsup> <mover> <mi>x</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> <mrow> <mo>(</mo> <mo>-</mo> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中n+表示正样本的总数,n-表示负样本的总数,表示正样本的第i个特征的平均值,表示负样本的第i个特征的平均值,表示所有样本的平均值,表示正数据集中的第k个样本的第i个特征,表示负数据集中第k个样本的i个特征;
3)构造预测模型:将SVM作为弱预测器的基础上采用AdaBoost方法构造预测模型,给定一个训练集样本T={(x1,y1),(x2,y2),…,(xN,yN)},其中x∈χ,空间yi是标签集合{1,2,3,4,5,6},N是训练样本的数量,初始化训练样本的权值分布,每一个样本都被赋予相同的权重1/N,即如公式(4):
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>D</mi> <mn>1</mn> </msub> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>11</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>12</mn> </msub> <mo>...</mo> <msub> <mi>w</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <mo>...</mo> <msub> <mi>w</mi> <mrow> <mn>1</mn> <mi>N</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>w</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <mo>;</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>N</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
选用SVM作为弱预测器,对训练样本进行训练,得到一个弱预测器Gm(x),SVM在对训练样本训练结束以后会得到一组预测值,也就是预测标签,将预测标签与给定的训练标签进行比对就可以计算Gm(x)在训练样本上的分类错误率em,如公式(5):
<mrow> <msub> <mi>e</mi> <mi>m</mi> </msub> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mi>m</mi> </msub> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>&amp;NotEqual;</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>m</mi> <mi>i</mi> </mrow> </msub> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>G</mi> <mi>m</mi> </msub> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>&amp;NotEqual;</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
由公式(5)可知,Gm(x)在训练样本中的错误率em就是被Gm(x)错误分类样本的权值之和,计算Gm(x)的权重系数αm,它表示Gm(x)在最终的预测模型中的重要程度,最终的预测模型是由带有权重系数的弱预测器集成的,权重系数αm表示为公式(6):
<mrow> <msub> <mi>&amp;alpha;</mi> <mi>m</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>e</mi> <mi>m</mi> </msub> </mrow> <msub> <mi>e</mi> <mi>m</mi> </msub> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>
当em≤1/2时,αm≥0,并且αm会随着em的减小而增大,每个样本都有一个权值与之一一对应,更新训练样本的权值分布如公式(7):
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>D</mi> <mrow> <mi>m</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>m</mi> <mo>+</mo> <mn>1</mn> <mo>,</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>w</mi> <mrow> <mi>m</mi> <mo>+</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> </mrow> </msub> <mo>...</mo> <msub> <mi>w</mi> <mrow> <mi>m</mi> <mo>+</mo> <mn>1</mn> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>...</mo> <msub> <mi>w</mi> <mrow> <mi>m</mi> <mo>+</mo> <mn>1</mn> <mo>,</mo> <mi>N</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>w</mi> <mrow> <mi>m</mi> <mo>+</mo> <mn>1</mn> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>w</mi> <mrow> <mi>m</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>Z</mi> <mi>m</mi> </msub> </mfrac> <mi>exp</mi> <mo>(</mo> <mo>-</mo> <msub> <mi>&amp;alpha;</mi> <mi>m</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>G</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mi>N</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>
其中Zm是使得Dm+1成为一个概率分布的规范化因子,它可以如公式(8)表示:
<mrow> <msub> <mi>Z</mi> <mi>m</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>m</mi> <mi>i</mi> </mrow> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <msub> <mi>&amp;alpha;</mi> <mi>m</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>G</mi> <mi>m</mi> </msub> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>
迭代过程中,训练样本永远是唯一的,始终是最初的那个训练样本,
根据得到的弱预测器以及各自对应的权重因子,将它们一一对应得到公式(9)
<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>&amp;alpha;</mi> <mi>m</mi> </msub> <msub> <mi>G</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>
从而得到最终的预测模型G(x)为公式(10):
<mrow> <mi>G</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>&amp;alpha;</mi> <mi>m</mi> </msub> <msub> <mi>G</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
4)获取一级序列信息:使用BLAST程序将待预测的基因序列映射到它们的基因组中,并通过设置截止阈值0.75来除去成对序列同一性≥75%的DNA片段;
5)待预测基因序列编码:采用k-元组核苷酸的方法对待预测基因序列进行编码,k的取值范围为1到∞,得到维度为4k的特征向量;
6)预测:采用步骤3)得到的预测模型对步骤5)编码后的待预测基因序列进行预测,得到待预测基因序列中是否含有σ54启动子的结论。
2.根据权利要求1所述的原核生物σ54启动子的预测方法,其特征在于,步骤4)中所述映射为采用BLAST程序,并保留从-60至+20的81bp长度的一级序列,再消除冗余和避免偏差。
3.根据权利要求1所述的原核生物σ54启动子的预测方法,其特征在于,步骤1)中所述k为7,得到维度为47=16384的特征向量。
4.根据权利要求1所述的原核生物σ54启动子的预测方法,其特征在于,步骤3)中将SVM作为弱预测器时采用F-score方法进行原核生物σ54启动子特征向量的特征选择,筛选出特征向量中识别度F-score>0.008的特征,再构造模型预测原核生物σ54启动子。
5.根据权利要求1所述的原核生物σ54启动子的预测方法,其特征在于,步骤5)中所述k为7,得到维度为47=16384的特征向量。
CN201710999198.2A 2017-10-20 2017-10-20 一种原核生物σ54启动子的预测方法 Pending CN107742063A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710999198.2A CN107742063A (zh) 2017-10-20 2017-10-20 一种原核生物σ54启动子的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710999198.2A CN107742063A (zh) 2017-10-20 2017-10-20 一种原核生物σ54启动子的预测方法

Publications (1)

Publication Number Publication Date
CN107742063A true CN107742063A (zh) 2018-02-27

Family

ID=61238105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710999198.2A Pending CN107742063A (zh) 2017-10-20 2017-10-20 一种原核生物σ54启动子的预测方法

Country Status (1)

Country Link
CN (1) CN107742063A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859798A (zh) * 2019-01-21 2019-06-07 桂林电子科技大学 一种细菌中sRNA与其靶标mRNA相互作用的预测方法
CN110070912A (zh) * 2019-04-15 2019-07-30 桂林电子科技大学 一种CRISPR/Cas9脱靶效应的预测方法
CN110379464A (zh) * 2019-07-29 2019-10-25 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN113160882A (zh) * 2021-05-24 2021-07-23 成都博欣医学检验实验室有限公司 一种基于三代测序的病原微生物宏基因组检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760210A (zh) * 2012-06-19 2012-10-31 南京理工大学常熟研究院有限公司 一种蛋白质三磷酸腺苷绑定位点预测方法
KR20130015976A (ko) * 2011-08-05 2013-02-14 엘지전자 주식회사 차량을 검출하기 위한 방법 및 장치
CN103902853A (zh) * 2012-12-25 2014-07-02 中国科学院深圳先进技术研究院 基于支持向量机的剪接位点识别方法
CN104834834A (zh) * 2015-04-09 2015-08-12 苏州大学张家港工业技术研究院 一种启动子识别系统的构建方法和装置
CN105574363A (zh) * 2015-12-14 2016-05-11 大连理工大学 一种基于svm-rfe和重叠度的特征选择方法
CN106897664A (zh) * 2017-01-08 2017-06-27 广东工业大学 一种基于分布式大数据平台的行人检测方法
CN107194207A (zh) * 2017-06-26 2017-09-22 南京理工大学 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法
CN107256245A (zh) * 2017-06-02 2017-10-17 河海大学 面向垃圾短信分类的离线模型改进与选择方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130015976A (ko) * 2011-08-05 2013-02-14 엘지전자 주식회사 차량을 검출하기 위한 방법 및 장치
CN102760210A (zh) * 2012-06-19 2012-10-31 南京理工大学常熟研究院有限公司 一种蛋白质三磷酸腺苷绑定位点预测方法
CN103902853A (zh) * 2012-12-25 2014-07-02 中国科学院深圳先进技术研究院 基于支持向量机的剪接位点识别方法
CN104834834A (zh) * 2015-04-09 2015-08-12 苏州大学张家港工业技术研究院 一种启动子识别系统的构建方法和装置
CN105574363A (zh) * 2015-12-14 2016-05-11 大连理工大学 一种基于svm-rfe和重叠度的特征选择方法
CN106897664A (zh) * 2017-01-08 2017-06-27 广东工业大学 一种基于分布式大数据平台的行人检测方法
CN107256245A (zh) * 2017-06-02 2017-10-17 河海大学 面向垃圾短信分类的离线模型改进与选择方法
CN107194207A (zh) * 2017-06-26 2017-09-22 南京理工大学 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HAO LIN ET AL: "iPro54-PseKNC: a sequence-based predictor for identifying sigma-54 promoters in prokaryote with pseudo k-tuple nucleotide composition", 《NUCLEIC ACIDS RESEARCH》 *
HILAL ARSLAN ET AL: "PROSVM AND PROK-MEANS: NOVEL METHODS FOR PROMOTER PREDICTION", 《PROCEEDINGS OF THE 6TH INTERNATIONAL SYMPOSIUM ON HEALTH INFORMATICS AND BIOINFORMATICS》 *
张文等: "基于粒子群优化的支持向量机算法识别人类基因启动子", 《安徽农业大学学报》 *
张颖等: "大肠杆菌σ70启动子的识别", 《生物物理学报》 *
苏松志等: "《行人检测:理论与实践》", 31 March 2016 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859798A (zh) * 2019-01-21 2019-06-07 桂林电子科技大学 一种细菌中sRNA与其靶标mRNA相互作用的预测方法
CN110070912A (zh) * 2019-04-15 2019-07-30 桂林电子科技大学 一种CRISPR/Cas9脱靶效应的预测方法
CN110070912B (zh) * 2019-04-15 2023-06-23 桂林电子科技大学 一种CRISPR/Cas9脱靶效应的预测方法
CN110379464A (zh) * 2019-07-29 2019-10-25 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN110379464B (zh) * 2019-07-29 2023-05-12 桂林电子科技大学 一种细菌中dna转录终止子的预测方法
CN113160882A (zh) * 2021-05-24 2021-07-23 成都博欣医学检验实验室有限公司 一种基于三代测序的病原微生物宏基因组检测方法

Similar Documents

Publication Publication Date Title
CN107742063A (zh) 一种原核生物σ54启动子的预测方法
Zrimec et al. Deep learning suggests that gene expression is encoded in all parts of a co-evolving interacting gene regulatory structure
Lv et al. Escherichia coli DNA N-4-methycytosine site prediction accuracy improved by light gradient boosting machine feature selection technology
US7561973B1 (en) Methods for determining properties that affect an expression property value of polynucleotides in an expression system
Hua et al. A novel method of protein secondary structure prediction with high segment overlap measure: support vector machine approach
Ward et al. Secondary structure prediction with support vector machines
Gowen et al. Genome‐scale metabolic model integrated with RNAseq data to identify metabolic states of Clostridium thermocellum
Pierleoni et al. PredGPI: a GPI-anchor predictor
Wang et al. De novo prediction of RNA–protein interactions from sequence information
US8401798B2 (en) Systems and methods for constructing frequency lookup tables for expression systems
US8126653B2 (en) Synthetic nucleic acids for expression of encoded proteins
EP3858996A1 (en) Microbial strain improvement by a htp genomic engineering platform
Pertea et al. A computational survey of candidate exonic splicing enhancer motifs in the model plant Arabidopsis thaliana
CN111161793A (zh) 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
US20210256394A1 (en) Methods and systems for the optimization of a biosynthetic pathway
CN109448787B (zh) 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
Zhang et al. Primary sequence-assisted prediction of m6A RNA methylation sites from Oxford nanopore direct RNA sequencing data
Raza et al. iPro-TCN: Prediction of DNA Promoters Recognition and their Strength Using Temporal Convolutional Network
Bhandari et al. Highly accessible translation initiation sites are predictive of successful heterologous protein expression
EP2294407B1 (en) Systems and methods for determining properties that affect an expression property value of polynucleotides in an expression system
Ruan et al. Predictions of apoptosis proteins by integrating different features based on improving pseudo-position-specific scoring matrix
CN114627964B (zh) 一种基于多核学习预测增强子及其强度分类方法及分类设备
Sun et al. iPTT (2 L)-CNN: A Two-Layer Predictor for Identifying Promoters and Their Types in Plant Genomes by Convolutional Neural Network
CN111161796B (zh) 一种预测PD潜在gene和miRNA的方法及系统
CN112365924A (zh) 双向三核苷酸位置特异性偏好和点联合互信息dna/rna序列编码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180227