CN107545153B

CN107545153B - 一种基于卷积神经网络的核小体分类预测方法

Info

Publication number: CN107545153B
Application number: CN201711011644.0A
Authority: CN
Inventors: 樊永显; 龚浩; 蔡国永; 张向文; 张龙
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2017-10-25
Filing date: 2017-10-25
Publication date: 2021-06-11
Anticipated expiration: 2037-10-25
Also published as: CN107545153A

Abstract

本发明公开了一种基于卷积神经网络的核小体分类预测方法，其特征是，包括如下步骤：1）特征提取；2）提取核小体或链接体DNA序列中核苷酸的物理化学属性；3）添加生物特性；4）获取第24维向量；5）添加核苷酸化学性质；6）得到包含生物信息的矩阵；7）构建卷积神经网络结构；8）分类核小体。这种方法能精准预测核小体的分类。

Description

一种基于卷积神经网络的核小体分类预测方法

技术领域

本发明涉及遗传学的分类预测，具体是一种基于卷积神经网络的核小体分类预测方法。

背景技术

核小体预测是目前遗传学研究的重要内容，核小体的特殊结构限制了负责基本生命过程的蛋白质与围绕组蛋白上的DNA接触，所以它的形成以及在染色质上的精确定位在基因表达过程中起着无可替代的作用，直接或间接地影响转录等基本生物过程。核小体定位是真核生物基因转录调节的重要方式,要彻底了解基因表达调控信息,就必须考虑核小体定位的调控作用，核小体的位置信息与基因表达调控的关系是当前表观遗传学的研究热点，因此提供一个快速、准确的核小体分类十分必要。

然而，通过生物学的方法来测定核小体定位非常困难，并且效率较低。因此应用生物信息学的相关知识，使用计算机预测技术来测定核小体定位就显得尤为重要，对于发现和认识核小体结构和生理功能有着重要的意义。

目前，针对核小体定位的计算模型还很欠缺。查阅文献，可以发现，目前为数不多专门设计用来进行核小体定位预测的计算模型，iNuc-PhysChem和Segal。iNuc-PhysChem基于核小体序列具有一定的位置特异性物理化学识别核小体定位的预测器(Chen W,Lin H,Feng P-M,Ding C,Zuo Y-C,et al.(2012)iNuc-PhysChem:A Sequence-Based Predictorfor Identifying Nucleosomes via Physicochemical Properties.PLoS ONE 7(10):e47843.doi:10.1371/journal..pone.0047843)。另一方面，Segal(School ofElectronics and Information Engineering，SoochowUniversity，Suzhou，215006)通过核小体和连接序列的二核苷酸位置频率建立了核小体和连接序列两组得分函数，并以其差值作为核小体的定位依据。然而，综合分析这两个预测模型，可以发现预测生物物种局限在一种酵母，迫切需要进一步建立一个适应更广泛的生物类型的核小体定位的预测器。基于一种称为“iNuc-PseKNC”(Guo S H,Deng E Z,Xu L Q,et al.iNuc-PseKNC:a sequence-based predictor for predicting nucleosome positioning in genomes with pseudok-tuple nucleotide composition.[J].Bioinformatics,2014,30(11):1522)的预测因子的改进方法预测核小体位置的核心算法,但现有的预测算法大部分仅依据核小体的统计特性，定位准确性很受局限。另一方面，经研究发现，DNA连接序列作为两个核小体的连接纽带，存在一定的统计特性。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于卷积神经网络的核小体分类预测方法。这种方法能精准预测核小体的分类。

实现本发明目的技术方案是：

一种基于卷积神经网络的核小体分类预测方法，包括如下步骤：

1)特征提取：选取UCSC基因组数据库中智人、线虫和黑腹果蝇三个生物的核小体或链接体的DNA序列，每一段核小体或链接体的DNA序列长度为147bp，bp是指碱基对，通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量，该特征向量表示如公式(1)：

Xⁱ＝(P_i,1,P_i,2,...,P_i,16)^T (1)

Xⁱ表示第i个核小体或链接体此时的特征向量,P_i,1,P_i,2,...,P_i,16代表二核苷酸16种组合方式独热编码，T表示转置；

2)提取核小体或链接体DNA序列中核苷酸的物理化学属性：选自Goniet al(Genome biology,2007,8,R263).中的六种物理结构性质的原始值如表1，二核苷酸的空间排列由六个参数表征(Dickerson,R.E.(1989)Definitions and nomenclature ofnucleic acid structure parameters.J.Biomol.Struct.Dynam.)，其中三个是局部平移参数，另外三个是局部角参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述：

其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值，SD意味着相应的标准偏差，如果再次通过相同的转换过程并且将保持不变，在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值如表2，再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中，得到22维的向量，对应这阶段特征向量有公式(3)形式：

Xⁱ＝(P_i,l,P_i,2,…,P_i,16,R_i,17,…,R_i,22)^T (3)

R_i,17,…,R_i,22分别表示6种二核苷酸的空间排列特征；

表1.Goniet al的六种物理结构性质的原始值

表2.通过公式2的标准转换从表1获得的值。

3)添加生物特性：采用Segal(Segal E，Foudufe—Mittendorf Y，Chen L，et a1.Agenomic code for nueleosome positioning[J].Nature，2006，443：772-778.中公开的方法，将16种二核苷酸在核小体或链接体DNA序列中的平均占有率如表3所示的生物特性添加到步骤2)得到的22维向量中，得到23维的向量，对应这阶段特征向量有公式(4)形式：

Xⁱ＝(P_i,l,P_i,2,…,P_i,16,R_i,17,…,R_i,22,k_i,23)^T (4)

k_i,23表示该二核苷酸在核小体或链接体DNA序列中的平均占有率；

表3 16种二核苷酸在核小体或链接体DNA序列中的平均占有率

4)获取第24维向量：通过计算147bp的核小体、或链接体DNA序列的每个位置的该类核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值，将该比值添加到步骤3)得到的23维向量中，得到24维向量，对应这阶段特征向量有公式(5)形式：

Xⁱ＝(P_i,l,P_i,2,…,P_i,16,R_i,17,…,R_i,22,k_i,23,M_i,24)^T (5)

M_i,24表示147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值；

5)添加核苷酸化学性质：在步骤4)得到的24维向量中添加核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质，如表4所示，用第25维代表相邻两个中第一个核苷酸的环形结构，嘌呤用‘1’表示，嘧啶用‘0’表示；第26维代表其官能团，氨基用‘1’表示，酮基用‘0’表示；第27维代表互补配对时氢键的强弱，强用‘1’表示，弱用‘0’表示，对应这阶段特征向量有公式(6)形式：

Xⁱ＝(P_i,l,P_i,2,…,P_i,16,R_i,17,…,R_i,22,k_i,23,M_i,24,N_i,25,N_i,26,N_i,27)^T (6)，

N_i,25,N_i,26,N_i,27分别表示核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质；

表4，脱氧核糖核苷酸的化学性质

6)得到包含生物信息的矩阵：有N个核小体、或M个链接体DNA序列，每个核小体或链接体DNA序列的长度为147bp，遍历生物的核小体或链接体的DNA序列得到一个包含生物信息(147*27)的矩阵如公式(7)：

P_i,1 P_i,2 … P_i,27表示由1至5步得到特征，i表示第i个核小体或连接体DNA序列，n表示核小体或连接体DNA序列的总数，P表示n×27的矩阵；

7)构建卷积神经网络结构：假定卷积神经网络结构包括输入层、卷积层、子采样层、全连接层和输出层；提高性能超过传统模式，增加可解释性,提高模型预测精度；

8)分类核小体：将步骤6)中的生物特征矩阵导入到卷积神经网络分类出核小体。这种方法是一种基于卷积神经网络过训练复合物来更好地利用越来越大的和高维数据集的可用性，具有捕获其内部结构的多个层的网络，提高性能超过传统模式，增加可解释性，并提供对生物数据结构的更多了解,提高模型预测精度。

简而言之，深层神经网络将原始数据置于最低(输入)层，并通过以数据驱动的方式连续组合来自前一层的输出，将其转化为越来越抽象的特征表示，在该过程中封装了高度复杂的函数。深层神经网络会学习网络并发现高级功能，提高性能超过传统模式，增加可解释性，并提供对生物数据结构的更多了解。深度神经网络可以通过从数据中学习来帮助规避手动提取特征，由于它们的代表性丰富，它们可以捕获序列和相互作用效应中的非线性依赖关系，并在多个基因组尺度上跨越更宽的序列上下文，使用深度模型提取的较高级别特征能够更好地提升分类精度。

这种方法能精准预测核小体的分类。

附图说明

图1为实施例的方法流程示意图。

具体实施方式

下面结合附图和实施例对本发明内容做进一步的阐述，但不是对本发明的限定。

实施例:

参照图1，一种基于卷积神经网络的核小体分类预测方法，包括如下步骤：

Xⁱ＝(P_i,1,P_i,2,...,P_i,16)^T (1)

Xⁱ＝(P_i,l,P_i,2,…,P_i,16,R_i,17,…,R_i,22)^T (3)

R_i,17,…,R_i,22分别表示6种二核苷酸的空间排列特征；

表1.Goniet al的六种物理结构性质的原始值

表2.通过公式2的标准转换从表1获得的值。

Xⁱ＝(P_i,l,P_i,2,…,P_i,16,R_i,17,…,R_i,22,k_i,23)^T (4)

表3 16种二核苷酸在核小体或链接体DNA序列中的平均占有率

Xⁱ＝(P_i,l,P_i,2,…,P_i,16,R_i,17,…,R_i,22,k_i,23,M_i,24)^T (5)

表4，脱氧核糖核苷酸的化学性质

6)得到包含生物信息的矩阵：有N个核小体、或M个链接体DNA序列，每个核小体或链接体DNA序列的长度为147bp，遍历生物的核小体或链接体的DNA序列得到一个包含生物信息的(147*27)的矩阵如公式(7)：

P_i,1 P_i,2 … P_i,27表示由1至5步得到特征，i表示第i个核小体或连接体DNA序列，n表示核小体或连接体DNA序列的总数。P表示n×27的矩阵；

8)分类核小体：将步骤6)中的生物特征矩阵导入到卷积神经网络分类出核小体。

验证试验：

在数据库上下载智人，线虫和黑腹果蝇这三中生物数据，(i)智人(Schones,D.E.et al.(2008)Dynamic regulation of nucleosome positioning in the humangenome.Cell,132,887–898.)；(ii)线虫(Mavrich,T.N.et al.(2008a)A barriernucleosome model for statistical positioning of nucleosomes throughout theyeast genome.Genome Res.,18,1073–1083.)；(iii)黑腹果蝇(Mavrich,T.N.et al.(2008b)Nucleosome organization in the Drosophila genome.Nature,453,358–362.)使用本实施例方法构建了一个预测器，该预测器由深度神经网络理论得到，下面以预测核小体定位预测，预测结果如表5所示：

表5本方法与iNuc-PseKNC预测器分类精度对比

由表5可以看出，使用本实施例方法方法，利用卷积神经网络算法对智人，线虫和黑腹果蝇的进行核小体定位预测,分类的精度分别为88.13％，88.17％，84.7％预测结果整体优于iNuc-PseKNC预测器。

序列表

<110> 桂林电子科技大学

<120> 一种基于卷积神经网络的核小体分类预测方法

<141> 2017-10-25

<160> 6

<170> SIPOSequenceListing 1.0

<210> 4

<211> 1323

<212> DNA

<213> Caenorhabditis elegans

<400> 4

ggaaccggta cggactcagg gaatccgact gtctaattaa aacagaggtg acagatggtc 60

cttgcggacg ttgactgtca ctgatttctg cccagtgctc tgaatgttaa atcgtagtaa 120

ttcgagtaag cgcgggtaaa cggcgggggg aacgggcttg gcaaaaatag cggggaaaga 180

agaccctgtt gagcttgact ctagtttgac attgtgaaga gtcatgagag gtgtagcata 240

ggtgggagtc ttcggacgac agtgaaatac caccactttc atcgactctt tactgctgga 300

tctcaggcag ttatattcgg taaagctaat gattagaggc cttggggacg taatgtcctc 360

aacctattct caaactttca atggatatga agttgcagtt tctttagtga actgtcaacg 420

tgaatgcgag gtccaagtgg ggggattcgt ctagtctcgt gtgtgtgttg atatcgaatt 480

aattttcgat tgatgcggcg ctgagaagag agacggtgcg tgtcttgcta atctcaacct 540

gaactcagtc gtgattaccc gctgaactta agcatatcat ttagcggagc tggagtggaa 600

ccggagacag ttgatgttgc ttggagacaa gcttggtgac tggtcgctta gttgtgatcg 660

ttgccgggtg tcgtttccta tgctacgccg acggcgttgg ctgctcgttc tagcccgaca 720

gtgttgccca tctcgtggtt gatgcttgtc cggcgcagtt ctgtctgctt gatactttcg 780

ggttgatggc ggactagtga ttgtgcttgc ttgcggacgc tttctggtgt gtgcttggac 840

ctcggttcta gtatcctgat cgctcatcta aacaaccgta ctcgtactag cttcagcgat 900

ggatcggttg catcgagtat cgatgaagaa cgcagcttgc tgcgttactt accacgaatt 960

gcagacgctt agagtggtga aatttcgaac gcatagcacc aactgggcct ccagttggta 1020

cgtctggttg gatgtgggtc agtcgatcct aaggtactgg cgaacgcctt gtatcatcgg 1080

tggcgaaaag cttgctttta gtccccgctt gtcgaaaggg aatagggtta atattcccta 1140

actgagatgc aaagattgtg ttcttcggag cacaagcgaa aagcaccgcg gtttctgtgg 1200

tgtctcgtgc tctttgaacg gcccttaaaa caccaaggga ggctattaat ttgcactcaa 1260

tcgtaccgat atccgcatta ggtctccaag gtgaacagcc tctagtcgat agaataatgt 1320

agg 1323

<210> 5

<211> 1323

<212> DNA

<213> Caenorhabditis elegans

<400> 5

ggcaatttta caattttccg gattttttaa attccggcaa tgtcccgatt tgccggaatt 60

ttttaatttt gccgatttgc cggaaattat caattccggc aagttggcga tttgccggaa 120

attttcaatt ccggcaattt gtcgatttta ttaattttaa ttgctttttc gttttttttt 180

ggttatttgt ccagtttgaa tatctattta tcttaaatta aatttttttt gcaaaaaacg 240

ataattcttt ggattttcca gtgtctcagc aaaaatcttt taaaaaattg aattaagttg 300

tgataaaaca aaaggccaaa aaatgacatt ttgccaaaaa aatttttttt tccgaaaaag 360

tagtttttcg tcattatctc aagttctact tcatcttttt tgatattttt ttgtttactc 420

cacgtacaaa agtacgctga aatattctga aagagcttaa aatttactat tttcaaaagt 480

ttacaaaaaa agaattcatt cacaattatg taacttcaga aaactttttt aactgtaaaa 540

caattcattt caatcccaca gtttagaggt atctaaagaa aagtgaacaa tcttttttta 600

attttttatg taattttttc caaattctgt gtacacggta aaactacggt cttataggta 660

ctcctatact tgagtcacac ctaagagcca taaaaaatca ctaaaaccct tagataaggt 720

gcttacggca cacaaataat ttttattgtg atttttaagc gaaactcaaa atttaacaaa 780

acttccctaa tatagagctt tcatgggagg caggcgcggt aacaaggcct gacgcttgcc 840

tttaacctga ccgcctgacg cttgccttta acctgaccgc cttagaggga tgacggaaac 900

actttaaaca gtgcattttt tgaaaatgta ttccccgatt tctgcgtaca attttgccga 960

tcacaattga aattctgaaa tttccaaaaa aaaatgtgca aaaccacaat ctgccggttt 1020

ttccgaaaag attttttagt ccaattttcc aagttttttc ccgatttcgg gatgaaaaat 1080

catcggaaaa tcggtttttc ctacaaaatt gagctaaaaa tcaaaatttt tcgcctttgc 1140

cagtgttgaa atctttaaat tttcgatttt tcgtctattt tcatataaat tgtggtccag 1200

aaggtatgac taaaaattca ctttttctgc ttgaacttgg cagattttaa attttttgaa 1260

atgccgtttt caaattctga aagaacttaa aatttgctac aaaatggcta ctggaatttc 1320

tga 1323

<210> 6

<211> 1323

<212> DNA

<213> Drosophila melanogaster

<400> 6

ggcccccctg aaccccaagg ctaaccgcga gaagatgacc cagatcatgt ttgagacctt 60

caactcgccc gccatgtacg tcgccatcca ggccgtgctc tccctgtacg cctccggtcg 120

taccaccggt atcgttctgg actccggtca aatgaacaaa ggcaaaggag tccacagacc 180

aggagataaa acccagacat taatcatcat tgaactattg ttactcattg ttaattcaca 240

ttatcatata tatgcacata tgcaaaaggt aaaataaatc aaaagacgaa aatcttcgct 300

agcaaattat taggcaatta aattaataaa tgaattgtat ttttgatttt gaaaatatta 360

atcattagtc aaaacttaat ttataacgag attttttttt aatccagtta aattagaatt 420

atcaatatca taataaaaac ttagtttata attaattcat atacacaaaa gaaaaagaaa 480

attaaataaa atcattaaaa ttaagattta aaaaactcaa caaatttgta taatagttat 540

gtgattccta tacctattta aacgatttcg tatctcagtt gtattttcga tagttgtatt 600

aagtattagt attaatatgt ttaatttgtc tgtagatata ataatataac acaaattagt 660

cggcactaaa atttagacag cacaacaatt caattttttt ttatagctta ctaaaatatt 720

ggcataaaag aaaagtaaaa gattaatatt taaacatata aagaataagt aagtaaccaa 780

ctttagtttc atattaaatc ctgtttaagt atgtatgttt actttttact tttcttattt 840

aaaaacaatt aaatcatata aaattcggac aatgatcctg attaaatatt ctcgtaaact 900

tatgttattt ttcacattgt ataacattac aaaatatata tttgaaataa aacctttagt 960

ttttgtcttg taaataagtt aaataaatga tcagtttata gatcataata tatagatatt 1020

tgagttaatt aaatcgattt cttcctctta tggtgatagc gaaataactt aaatatacaa 1080

agtagaaaat aaaatttgta catgttataa tttaagattc aatcgctaat gactaaaaag 1140

ttgagtgaaa ttttaaatta cgatacttta aacgaagctg ctgctgcact aacgactaac 1200

gaccaacaaa gtcgttcctg atgctggtcg catgttgctg cccctgtcgt tctaatgtta 1260

agttgaattg tcattaaaat tgtcgtccat aatttcgaca ttaaatacac acacaggcct 1320

gca 1323

<210> 6

<211> 1323

<212> DNA

<213> Drosophila melanogaster

<400> 6

gcattaaaat ttccaatcga actgtatccc cgaataggaa ttatattttt tggccatttt 60

ttgcaaattt tcatgatgtt accccttaca aaaaatgcga aaattgaccc gaaaaatcaa 120

tttccctaaa tccttccaaa agtggtaact cgacggctct gtatttgaca aataaataat 180

aaaatgttta tttccatttc gaaaatgttg ccatattgac agtccggcca gtacataatt 240

atgcaaaatt cagcgacagc gtaaataaat atataaaata aagttccaaa caagtctgga 300

accagtttta tcagagttct ggccataggg aaacgaaaag aaacgaaaag aaacgaaacg 360

aaacgaaaag cagccagcac gatcttcacg cgagttgatt tttaagtcaa caacttgatt 420

ttccagcaat aacaagatta attcccgtta aattgatgtc gggctaaaaa tataacattt 480

gaaatatatg tatataaaat ataaaatcat acactgacag ttcttccctt atattagagc 540

attatttcat aattaaataa taagacacgc tgtttatctc tgaaatagtt attgacgtgt 600

gccccttgca aaagaaaaaa aaaaaaaacg aaagtaaaaa ataagaaata aaacgccaac 660

aatgagcgac ttacaaccag tcacggtgct tattttccat tacaactcca ttgatactta 720

agcagtttgc ctacctacat tctgcctgtt acatactttt catcgaatct agtatacttt 780

tttactctac gagtagcggg tataaaaatg ttgtatattt ggttcatttt agacttaatt 840

agaattaagt agaacgtatt ggctattcat tgacactatg ccaataagta aatctgcaat 900

gtgattgcgc gcacacctat gaggccattc cataagattc tgaaagtgaa ccagtaccaa 960

cgttcaaaca ataagacgta aatatatatt attgattact agacgagtct gtctggccat 1020

gcccctgtgc tcatgcacag tggtgtgtgc agcggggttt tggggggtca gagatattaa 1080

aaatggactt ttaatgagca aggtatatct catccgaaaa taaacgattt agatttaatt 1140

taaattacta aaaatttaaa gaaaaatttg ataagcagaa gataactcag caagcattgg 1200

gtttgcaaaa aaaaaaaaac aacaaataaa aaaataacaa aaacaaaaat tagaaacgaa 1260

ttgggtggaa caagaattaa tttgcgaaaa aaatgtgcgc gcttttttgg gaaaatagat 1320

gaa 1323

<210> 6

<211> 1323

<212> DNA

<213> Homo sapiens

<400> 6

tggaatggaa ttgaatgcta tacactggaa tgaaatggac tcgagtagaa tggcctgaaa 60

tggaatgtat tcgagtggaa tggactcgaa cagaatagat tcgaatggaa tggacttgaa 120

aggaatacaa ccgaggggta tggattcggg tagaaaagga aatatcttca tataaacaca 180

agacagaagc attctcagaa actattttgt gatgtgtgcc ctctactaac agagttgaac 240

attcctcttg atagagcagt tttgaaacac tctttttgta gaatctgcaa gttgtcaaat 300

cacatagttg aacttacctt ttaatggagc aattttgaaa tactgttttt gaagggtctg 360

caagtggaca tttgcagcgc tttcaggcct ttagtgaaaa aggaaatatc ttcccataaa 420

aactagacag aaacattctc agacagaagc attctcagac acttatttgg atgtctgcaa 480

tgatctcaca gacattctca gacacttcct tgtgatgtgt gcattgaact cacagagttg 540

aaactttctt ttgatagagc atatttgaaa cactcttttt gtagaattga atggagtgga 600

atgaatggaa tggaatggca tgaaaaagat tagaatgaat ggactggaaa ggaatagaat 660

ggaatggaac gaaatgtcct cgaatgtaat cgaatggaat tgaatggact ccagtggaat 720

ggactcaatt ggaagcaacc gcctcgaacc ccacaccgac gagctccctc aggacccacg 780

cgcggacacc gaggcgccga ccggaggagg gggcgctggg ggtgggaacg acacaccacc 840

gctcggcctc gggaacctga gggacaaccc ggagcgctcc agcagagaag aaggtacatg 900

ttaaattctc ccttgagccg ggtgtggtgg ctcatgcctg taatccccgc cctttgggag 960

gctgaggtgg gcagatcacc tgaggtcagg agttcgagac cagcctgccc aatatggtga 1020

aactccatcg aatggaatga actcgaatgg aatggaatgt aacggaacga aatggactcg 1080

aaagcaatgg aatggaaagg aatggattca aattgaatgg aatggaatgg aatggaatgg 1140

attggaatgg acacgaatgg aatacaatag aattgacatt caactcacag agttgaacat 1200

tcctcttgat agagcacttt tgaaacactc tttttgtgga atctgcaagt gaatatttgg 1260

acttttttga ggccttcatt ggaaacgggc tttcttcaca taaaacttga cagaagaatt 1320

ctc 1323

<210> 7

<211> 1323

<212> DNA

<213> Homo sapiens

<400> 7

tattactcaa caggtgattt ggccattccc ccccaaaaat atttcctatg aattgtaaca 60

aaaaggtatt tacaaaatgt gattttgcta cctctaattt taacatatca ggcacttcag 120

aacatctaaa aagaagagac atttcaaatc aagctaccaa tgactttctt cacagaattg 180

gaaaaaacta ctttaaagtt catatggaac caaaaaggag cccacattgc caagtcaatc 240

ctaagccaaa agaacaaagc tggaggcatc acgctacctg acttcaaact ataccttcaa 300

tatgttgatt ttctttctat tggaaatata cccagcagtg ggattcctgg atcatatggt 360

agctccattt ttagtttgtt aaggaatctc caaactcttc tccataatgg ttgtactaat 420

ttacattccc accaacagtg ttccttccaa ctgcacagcc tcctcccttc acatcctctg 480

cactgtacgt cctcccacct gcacatcctc cctgctgcac gtcctcccca ctgcacatcc 540

tcccctctgc acagtctcca tattgcatgt cccaccccct gcatgtccga cagagtcttg 600

ctctgtcacc caggctggag tgcagtggca cgatctcggc tcactgcaac ctccgcctcc 660

caggttcagg tgattctcct gtctcagcct ctcgagtagc tgggattaca ggcatgtgcc 720

gccatgcccg gctaagctgg gaaaactggc tagccatatg tagaaggctg aaactggatc 780

ccttccttac atcttataca aaaattaatt caagatggat taaagactta aattttagac 840

caaaaaccat aaaaacccta gaagaaaacc tgggcaatac caaaaataaa ataaaataaa 900

atgaagagtg catagtattc ctttatgtgt gtgtgtgtat gtatgtgtgt atgtgtgtgt 960

atatatatat atatatatat atatatatat atatatatat cacattttct ttatcctttc 1020

atcctatgct caggcctggg tgacagagca agactctgtc tcaaaaaaca aaacaaaaca 1080

aaaaacaaaa atgtagcatg taaccataga tatcatataa gaatgtctga gttatgcagg 1140

atagtcagct ggaaaattag ttacaagaga acagcagttc aatatacaca aatcaataaa 1200

tgtaatccag catataaaca gagccaaaga cagaaaccac atgattatct caatagatgc 1260

agaaaaggtc tttgacaaaa ttcaacaacc cttcatgcta aaaactctca ataaattagg 1320

tac 1323

Claims

1.一种基于卷积神经网络的核小体分类预测方法，其特征是，包括如下步骤：

Xⁱ＝(P_i,1,P_i,2,...,P_i,16)^T (1)

2)提取核小体或链接体DNA序列中核苷酸的物理化学属性：二核苷酸的空间排列由六个参数表征，其中三个是局部平移参数，另外三个是局部角参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述：

其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值，SD意味着相应的标准偏差，如果再次通过相同的转换过程并且将保持不变，在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值，再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中，得到22维的向量，对应这阶段特征向量有公式(3)形式：

Xⁱ＝(P_i,l,P_i,2,…,P_i,16,R_i,17,…,R_i,22)^T (3)

R_i,17,…,R_i,22分别表示6种二核苷酸的空间排列特征；

3)添加生物特性：将16种二核苷酸在核小体或链接体DNA序列中的平均占有率的生物特性添加到步骤2)得到的22维向量中，得到23维的向量，对应这阶段特征向量有公式(4)形式：

Xⁱ＝(P_i,l,P_i,2,…,P_i,16,R_i,17,…,R_i,22,k_i,23)^T (4)，

4)获取第24维向量：通过计算147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值，将该比值添加到步骤3)的23维向量中，得到第24维向量，对应这阶段特征向量有公式(5)形式：

Xⁱ＝(P_i,l,P_i,2,…,P_i,16,R_i,17,…,R_i,22,k_i,23,M_i,24)^T (5)，

5)添加核苷酸化学性质：在步骤4)得到的第24维向量中添加核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质，用第25维代表相邻两个中第一个核苷酸的环形结构，嘌呤用‘1’表示，嘧啶用‘0’表示，第26维代表其官能团，氨基用‘1’表示，酮基用‘0’表示，第27维代表互补配对时氢键的强弱，强用‘1’表示，弱用‘0’表示，对应这阶段特征向量有公式(6)形式：

Xⁱ＝(P_i,l,P_i,2,…,P_i,16,R_i,17,…,R_i,22,k_i,23,M_i,24,N_i,25,N_i,26,N_i,27)^T (6)

P_i,1 P_i,2…P_i,27表示由1至5步得到特征，i表示第i个核小体或连接体DNA序列，n表示核小体或连接体DNA序列的总数，P表示n×27的矩阵；