CN107545153B - 一种基于卷积神经网络的核小体分类预测方法 - Google Patents

一种基于卷积神经网络的核小体分类预测方法 Download PDF

Info

Publication number
CN107545153B
CN107545153B CN201711011644.0A CN201711011644A CN107545153B CN 107545153 B CN107545153 B CN 107545153B CN 201711011644 A CN201711011644 A CN 201711011644A CN 107545153 B CN107545153 B CN 107545153B
Authority
CN
China
Prior art keywords
nucleosome
dna sequence
linker
nucleosomes
linker dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711011644.0A
Other languages
English (en)
Other versions
CN107545153A (zh
Inventor
樊永显
龚浩
蔡国永
张向文
张龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201711011644.0A priority Critical patent/CN107545153B/zh
Publication of CN107545153A publication Critical patent/CN107545153A/zh
Application granted granted Critical
Publication of CN107545153B publication Critical patent/CN107545153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本发明公开了一种基于卷积神经网络的核小体分类预测方法,其特征是,包括如下步骤:1)特征提取;2)提取核小体或链接体DNA序列中核苷酸的物理化学属性;3)添加生物特性;4)获取第24维向量;5)添加核苷酸化学性质;6)得到包含生物信息的矩阵;7)构建卷积神经网络结构;8)分类核小体。这种方法能精准预测核小体的分类。

Description

一种基于卷积神经网络的核小体分类预测方法
技术领域
本发明涉及遗传学的分类预测,具体是一种基于卷积神经网络的核小体分类预测方法。
背景技术
核小体预测是目前遗传学研究的重要内容,核小体的特殊结构限制了负责基本生命过程的蛋白质与围绕组蛋白上的DNA接触,所以它的形成以及在染色质上的精确定位在基因表达过程中起着无可替代的作用,直接或间接地影响转录等基本生物过程。核小体定位是真核生物基因转录调节的重要方式,要彻底了解基因表达调控信息,就必须考虑核小体定位的调控作用,核小体的位置信息与基因表达调控的关系是当前表观遗传学的研究热点,因此提供一个快速、准确的核小体分类十分必要。
然而,通过生物学的方法来测定核小体定位非常困难,并且效率较低。因此应用生物信息学的相关知识,使用计算机预测技术来测定核小体定位就显得尤为重要,对于发现和认识核小体结构和生理功能有着重要的意义。
目前,针对核小体定位的计算模型还很欠缺。查阅文献,可以发现,目前为数不多专门设计用来进行核小体定位预测的计算模型,iNuc-PhysChem和Segal。iNuc-PhysChem基于核小体序列具有一定的位置特异性物理化学识别核小体定位的预测器(Chen W,Lin H,Feng P-M,Ding C,Zuo Y-C,et al.(2012)iNuc-PhysChem:A Sequence-Based Predictorfor Identifying Nucleosomes via Physicochemical Properties.PLoS ONE 7(10):e47843.doi:10.1371/journal..pone.0047843)。另一方面,Segal(School ofElectronics and Information Engineering,SoochowUniversity,Suzhou,215006)通过核小体和连接序列的二核苷酸位置频率建立了核小体和连接序列两组得分函数,并以其差值作为核小体的定位依据。然而,综合分析这两个预测模型,可以发现预测生物物种局限在一种酵母,迫切需要进一步建立一个适应更广泛的生物类型的核小体定位的预测器。基于一种称为“iNuc-PseKNC”(Guo S H,Deng E Z,Xu L Q,et al.iNuc-PseKNC:a sequence-based predictor for predicting nucleosome positioning in genomes with pseudok-tuple nucleotide composition.[J].Bioinformatics,2014,30(11):1522)的预测因子的改进方法预测核小体位置的核心算法,但现有的预测算法大部分仅依据核小体的统计特性,定位准确性很受局限。另一方面,经研究发现,DNA连接序列作为两个核小体的连接纽带,存在一定的统计特性。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于卷积神经网络的核小体分类预测方法。这种方法能精准预测核小体的分类。
实现本发明目的技术方案是:
一种基于卷积神经网络的核小体分类预测方法,包括如下步骤:
1)特征提取:选取UCSC基因组数据库中智人、线虫和黑腹果蝇三个生物的核小体或链接体的DNA序列,每一段核小体或链接体的DNA序列长度为147bp,bp是指碱基对,通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量,该特征向量表示如公式(1):
Xi=(Pi,1,Pi,2,...,Pi,16)T (1)
Xi表示第i个核小体或链接体此时的特征向量,Pi,1,Pi,2,...,Pi,16代表二核苷酸16种组合方式独热编码,T表示转置;
2)提取核小体或链接体DNA序列中核苷酸的物理化学属性:选自Goniet al(Genome biology,2007,8,R263).中的六种物理结构性质的原始值如表1,二核苷酸的空间排列由六个参数表征(Dickerson,R.E.(1989)Definitions and nomenclature ofnucleic acid structure parameters.J.Biomol.Struct.Dynam.),其中三个是局部平移参数,另外三个是局部角参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述:
Figure GDA0002900219440000021
其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值,SD意味着相应的标准偏差,如果再次通过相同的转换过程并且将保持不变,在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值如表2,再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中,得到22维的向量,对应这阶段特征向量有公式(3)形式:
Xi=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22)T (3)
Ri,17,…,Ri,22分别表示6种二核苷酸的空间排列特征;
表1.Goniet al的六种物理结构性质的原始值
Figure GDA0002900219440000031
表2.通过公式2的标准转换从表1获得的值。
Figure GDA0002900219440000032
Figure GDA0002900219440000041
3)添加生物特性:采用Segal(Segal E,Foudufe—Mittendorf Y,Chen L,et a1.Agenomic code for nueleosome positioning[J].Nature,2006,443:772-778.中公开的方法,将16种二核苷酸在核小体或链接体DNA序列中的平均占有率如表3所示的生物特性添加到步骤2)得到的22维向量中,得到23维的向量,对应这阶段特征向量有公式(4)形式:
Xi=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23)T (4)
ki,23表示该二核苷酸在核小体或链接体DNA序列中的平均占有率;
表3 16种二核苷酸在核小体或链接体DNA序列中的平均占有率
Figure GDA0002900219440000051
4)获取第24维向量:通过计算147bp的核小体、或链接体DNA序列的每个位置的该类核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值,将该比值添加到步骤3)得到的23维向量中,得到24维向量,对应这阶段特征向量有公式(5)形式:
Xi=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23,Mi,24)T (5)
Mi,24表示147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值;
5)添加核苷酸化学性质:在步骤4)得到的24维向量中添加核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质,如表4所示,用第25维代表相邻两个中第一个核苷酸的环形结构,嘌呤用‘1’表示,嘧啶用‘0’表示;第26维代表其官能团,氨基用‘1’表示,酮基用‘0’表示;第27维代表互补配对时氢键的强弱,强用‘1’表示,弱用‘0’表示,对应这阶段特征向量有公式(6)形式:
Xi=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23,Mi,24,Ni,25,Ni,26,Ni,27)T (6),
Ni,25,Ni,26,Ni,27分别表示核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质;
表4,脱氧核糖核苷酸的化学性质
Figure GDA0002900219440000061
6)得到包含生物信息的矩阵:有N个核小体、或M个链接体DNA序列,每个核小体或链接体DNA序列的长度为147bp,遍历生物的核小体或链接体的DNA序列得到一个包含生物信息(147*27)的矩阵如公式(7):
Figure GDA0002900219440000062
Pi,1 Pi,2 … Pi,27表示由1至5步得到特征,i表示第i个核小体或连接体DNA序列,n表示核小体或连接体DNA序列的总数,P表示n×27的矩阵;
7)构建卷积神经网络结构:假定卷积神经网络结构包括输入层、卷积层、子采样层、全连接层和输出层;提高性能超过传统模式,增加可解释性,提高模型预测精度;
8)分类核小体:将步骤6)中的生物特征矩阵导入到卷积神经网络分类出核小体。这种方法是一种基于卷积神经网络过训练复合物来更好地利用越来越大的和高维数据集的可用性,具有捕获其内部结构的多个层的网络,提高性能超过传统模式,增加可解释性,并提供对生物数据结构的更多了解,提高模型预测精度。
简而言之,深层神经网络将原始数据置于最低(输入)层,并通过以数据驱动的方式连续组合来自前一层的输出,将其转化为越来越抽象的特征表示,在该过程中封装了高度复杂的函数。深层神经网络会学习网络并发现高级功能,提高性能超过传统模式,增加可解释性,并提供对生物数据结构的更多了解。深度神经网络可以通过从数据中学习来帮助规避手动提取特征,由于它们的代表性丰富,它们可以捕获序列和相互作用效应中的非线性依赖关系,并在多个基因组尺度上跨越更宽的序列上下文,使用深度模型提取的较高级别特征能够更好地提升分类精度。
这种方法能精准预测核小体的分类。
附图说明
图1为实施例的方法流程示意图。
具体实施方式
下面结合附图和实施例对本发明内容做进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,一种基于卷积神经网络的核小体分类预测方法,包括如下步骤:
1)特征提取:选取UCSC基因组数据库中智人、线虫和黑腹果蝇三个生物的核小体或链接体的DNA序列,每一段核小体或链接体的DNA序列长度为147bp,bp是指碱基对,通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量,该特征向量表示如公式(1):
Xi=(Pi,1,Pi,2,...,Pi,16)T (1)
Xi表示第i个核小体或链接体此时的特征向量,Pi,1,Pi,2,...,Pi,16代表二核苷酸16种组合方式独热编码,T表示转置;
2)提取核小体或链接体DNA序列中核苷酸的物理化学属性:选自Goniet al(Genome biology,2007,8,R263).中的六种物理结构性质的原始值如表1,二核苷酸的空间排列由六个参数表征(Dickerson,R.E.(1989)Definitions and nomenclature ofnucleic acid structure parameters.J.Biomol.Struct.Dynam.),其中三个是局部平移参数,另外三个是局部角参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述:
Figure GDA0002900219440000071
其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值,SD意味着相应的标准偏差,如果再次通过相同的转换过程并且将保持不变,在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值如表2,再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中,得到22维的向量,对应这阶段特征向量有公式(3)形式:
Xi=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22)T (3)
Ri,17,…,Ri,22分别表示6种二核苷酸的空间排列特征;
表1.Goniet al的六种物理结构性质的原始值
Figure GDA0002900219440000081
Figure GDA0002900219440000091
表2.通过公式2的标准转换从表1获得的值。
Figure GDA0002900219440000092
3)添加生物特性:采用Segal(Segal E,Foudufe—Mittendorf Y,Chen L,et a1.Agenomic code for nueleosome positioning[J].Nature,2006,443:772-778.中公开的方法,将16种二核苷酸在核小体或链接体DNA序列中的平均占有率如表3所示的生物特性添加到步骤2)得到的22维向量中,得到23维的向量,对应这阶段特征向量有公式(4)形式:
Xi=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23)T (4)
ki,23表示该二核苷酸在核小体或链接体DNA序列中的平均占有率;
表3 16种二核苷酸在核小体或链接体DNA序列中的平均占有率
Figure GDA0002900219440000101
4)获取第24维向量:通过计算147bp的核小体、或链接体DNA序列的每个位置的该类核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值,将该比值添加到步骤3)得到的23维向量中,得到24维向量,对应这阶段特征向量有公式(5)形式:
Xi=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23,Mi,24)T (5)
Mi,24表示147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值;
5)添加核苷酸化学性质:在步骤4)得到的24维向量中添加核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质,如表4所示,用第25维代表相邻两个中第一个核苷酸的环形结构,嘌呤用‘1’表示,嘧啶用‘0’表示;第26维代表其官能团,氨基用‘1’表示,酮基用‘0’表示;第27维代表互补配对时氢键的强弱,强用‘1’表示,弱用‘0’表示,对应这阶段特征向量有公式(6)形式:
Xi=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23,Mi,24,Ni,25,Ni,26,Ni,27)T (6),
Ni,25,Ni,26,Ni,27分别表示核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质;
表4,脱氧核糖核苷酸的化学性质
Figure GDA0002900219440000111
6)得到包含生物信息的矩阵:有N个核小体、或M个链接体DNA序列,每个核小体或链接体DNA序列的长度为147bp,遍历生物的核小体或链接体的DNA序列得到一个包含生物信息的(147*27)的矩阵如公式(7):
Figure GDA0002900219440000112
Pi,1 Pi,2 … Pi,27表示由1至5步得到特征,i表示第i个核小体或连接体DNA序列,n表示核小体或连接体DNA序列的总数。P表示n×27的矩阵;
7)构建卷积神经网络结构:假定卷积神经网络结构包括输入层、卷积层、子采样层、全连接层和输出层;提高性能超过传统模式,增加可解释性,提高模型预测精度;
8)分类核小体:将步骤6)中的生物特征矩阵导入到卷积神经网络分类出核小体。
验证试验:
在数据库上下载智人,线虫和黑腹果蝇这三中生物数据,(i)智人(Schones,D.E.et al.(2008)Dynamic regulation of nucleosome positioning in the humangenome.Cell,132,887–898.);(ii)线虫(Mavrich,T.N.et al.(2008a)A barriernucleosome model for statistical positioning of nucleosomes throughout theyeast genome.Genome Res.,18,1073–1083.);(iii)黑腹果蝇(Mavrich,T.N.et al.(2008b)Nucleosome organization in the Drosophila genome.Nature,453,358–362.)使用本实施例方法构建了一个预测器,该预测器由深度神经网络理论得到,下面以预测核小体定位预测,预测结果如表5所示:
表5本方法与iNuc-PseKNC预测器分类精度对比
Figure GDA0002900219440000121
由表5可以看出,使用本实施例方法方法,利用卷积神经网络算法对智人,线虫和黑腹果蝇的进行核小体定位预测,分类的精度分别为88.13%,88.17%,84.7%预测结果整体优于iNuc-PseKNC预测器。
序列表
<110> 桂林电子科技大学
<120> 一种基于卷积神经网络的核小体分类预测方法
<141> 2017-10-25
<160> 6
<170> SIPOSequenceListing 1.0
<210> 4
<211> 1323
<212> DNA
<213> Caenorhabditis elegans
<400> 4
ggaaccggta cggactcagg gaatccgact gtctaattaa aacagaggtg acagatggtc 60
cttgcggacg ttgactgtca ctgatttctg cccagtgctc tgaatgttaa atcgtagtaa 120
ttcgagtaag cgcgggtaaa cggcgggggg aacgggcttg gcaaaaatag cggggaaaga 180
agaccctgtt gagcttgact ctagtttgac attgtgaaga gtcatgagag gtgtagcata 240
ggtgggagtc ttcggacgac agtgaaatac caccactttc atcgactctt tactgctgga 300
tctcaggcag ttatattcgg taaagctaat gattagaggc cttggggacg taatgtcctc 360
aacctattct caaactttca atggatatga agttgcagtt tctttagtga actgtcaacg 420
tgaatgcgag gtccaagtgg ggggattcgt ctagtctcgt gtgtgtgttg atatcgaatt 480
aattttcgat tgatgcggcg ctgagaagag agacggtgcg tgtcttgcta atctcaacct 540
gaactcagtc gtgattaccc gctgaactta agcatatcat ttagcggagc tggagtggaa 600
ccggagacag ttgatgttgc ttggagacaa gcttggtgac tggtcgctta gttgtgatcg 660
ttgccgggtg tcgtttccta tgctacgccg acggcgttgg ctgctcgttc tagcccgaca 720
gtgttgccca tctcgtggtt gatgcttgtc cggcgcagtt ctgtctgctt gatactttcg 780
ggttgatggc ggactagtga ttgtgcttgc ttgcggacgc tttctggtgt gtgcttggac 840
ctcggttcta gtatcctgat cgctcatcta aacaaccgta ctcgtactag cttcagcgat 900
ggatcggttg catcgagtat cgatgaagaa cgcagcttgc tgcgttactt accacgaatt 960
gcagacgctt agagtggtga aatttcgaac gcatagcacc aactgggcct ccagttggta 1020
cgtctggttg gatgtgggtc agtcgatcct aaggtactgg cgaacgcctt gtatcatcgg 1080
tggcgaaaag cttgctttta gtccccgctt gtcgaaaggg aatagggtta atattcccta 1140
actgagatgc aaagattgtg ttcttcggag cacaagcgaa aagcaccgcg gtttctgtgg 1200
tgtctcgtgc tctttgaacg gcccttaaaa caccaaggga ggctattaat ttgcactcaa 1260
tcgtaccgat atccgcatta ggtctccaag gtgaacagcc tctagtcgat agaataatgt 1320
agg 1323
<210> 5
<211> 1323
<212> DNA
<213> Caenorhabditis elegans
<400> 5
ggcaatttta caattttccg gattttttaa attccggcaa tgtcccgatt tgccggaatt 60
ttttaatttt gccgatttgc cggaaattat caattccggc aagttggcga tttgccggaa 120
attttcaatt ccggcaattt gtcgatttta ttaattttaa ttgctttttc gttttttttt 180
ggttatttgt ccagtttgaa tatctattta tcttaaatta aatttttttt gcaaaaaacg 240
ataattcttt ggattttcca gtgtctcagc aaaaatcttt taaaaaattg aattaagttg 300
tgataaaaca aaaggccaaa aaatgacatt ttgccaaaaa aatttttttt tccgaaaaag 360
tagtttttcg tcattatctc aagttctact tcatcttttt tgatattttt ttgtttactc 420
cacgtacaaa agtacgctga aatattctga aagagcttaa aatttactat tttcaaaagt 480
ttacaaaaaa agaattcatt cacaattatg taacttcaga aaactttttt aactgtaaaa 540
caattcattt caatcccaca gtttagaggt atctaaagaa aagtgaacaa tcttttttta 600
attttttatg taattttttc caaattctgt gtacacggta aaactacggt cttataggta 660
ctcctatact tgagtcacac ctaagagcca taaaaaatca ctaaaaccct tagataaggt 720
gcttacggca cacaaataat ttttattgtg atttttaagc gaaactcaaa atttaacaaa 780
acttccctaa tatagagctt tcatgggagg caggcgcggt aacaaggcct gacgcttgcc 840
tttaacctga ccgcctgacg cttgccttta acctgaccgc cttagaggga tgacggaaac 900
actttaaaca gtgcattttt tgaaaatgta ttccccgatt tctgcgtaca attttgccga 960
tcacaattga aattctgaaa tttccaaaaa aaaatgtgca aaaccacaat ctgccggttt 1020
ttccgaaaag attttttagt ccaattttcc aagttttttc ccgatttcgg gatgaaaaat 1080
catcggaaaa tcggtttttc ctacaaaatt gagctaaaaa tcaaaatttt tcgcctttgc 1140
cagtgttgaa atctttaaat tttcgatttt tcgtctattt tcatataaat tgtggtccag 1200
aaggtatgac taaaaattca ctttttctgc ttgaacttgg cagattttaa attttttgaa 1260
atgccgtttt caaattctga aagaacttaa aatttgctac aaaatggcta ctggaatttc 1320
tga 1323
<210> 6
<211> 1323
<212> DNA
<213> Drosophila melanogaster
<400> 6
ggcccccctg aaccccaagg ctaaccgcga gaagatgacc cagatcatgt ttgagacctt 60
caactcgccc gccatgtacg tcgccatcca ggccgtgctc tccctgtacg cctccggtcg 120
taccaccggt atcgttctgg actccggtca aatgaacaaa ggcaaaggag tccacagacc 180
aggagataaa acccagacat taatcatcat tgaactattg ttactcattg ttaattcaca 240
ttatcatata tatgcacata tgcaaaaggt aaaataaatc aaaagacgaa aatcttcgct 300
agcaaattat taggcaatta aattaataaa tgaattgtat ttttgatttt gaaaatatta 360
atcattagtc aaaacttaat ttataacgag attttttttt aatccagtta aattagaatt 420
atcaatatca taataaaaac ttagtttata attaattcat atacacaaaa gaaaaagaaa 480
attaaataaa atcattaaaa ttaagattta aaaaactcaa caaatttgta taatagttat 540
gtgattccta tacctattta aacgatttcg tatctcagtt gtattttcga tagttgtatt 600
aagtattagt attaatatgt ttaatttgtc tgtagatata ataatataac acaaattagt 660
cggcactaaa atttagacag cacaacaatt caattttttt ttatagctta ctaaaatatt 720
ggcataaaag aaaagtaaaa gattaatatt taaacatata aagaataagt aagtaaccaa 780
ctttagtttc atattaaatc ctgtttaagt atgtatgttt actttttact tttcttattt 840
aaaaacaatt aaatcatata aaattcggac aatgatcctg attaaatatt ctcgtaaact 900
tatgttattt ttcacattgt ataacattac aaaatatata tttgaaataa aacctttagt 960
ttttgtcttg taaataagtt aaataaatga tcagtttata gatcataata tatagatatt 1020
tgagttaatt aaatcgattt cttcctctta tggtgatagc gaaataactt aaatatacaa 1080
agtagaaaat aaaatttgta catgttataa tttaagattc aatcgctaat gactaaaaag 1140
ttgagtgaaa ttttaaatta cgatacttta aacgaagctg ctgctgcact aacgactaac 1200
gaccaacaaa gtcgttcctg atgctggtcg catgttgctg cccctgtcgt tctaatgtta 1260
agttgaattg tcattaaaat tgtcgtccat aatttcgaca ttaaatacac acacaggcct 1320
gca 1323
<210> 6
<211> 1323
<212> DNA
<213> Drosophila melanogaster
<400> 6
gcattaaaat ttccaatcga actgtatccc cgaataggaa ttatattttt tggccatttt 60
ttgcaaattt tcatgatgtt accccttaca aaaaatgcga aaattgaccc gaaaaatcaa 120
tttccctaaa tccttccaaa agtggtaact cgacggctct gtatttgaca aataaataat 180
aaaatgttta tttccatttc gaaaatgttg ccatattgac agtccggcca gtacataatt 240
atgcaaaatt cagcgacagc gtaaataaat atataaaata aagttccaaa caagtctgga 300
accagtttta tcagagttct ggccataggg aaacgaaaag aaacgaaaag aaacgaaacg 360
aaacgaaaag cagccagcac gatcttcacg cgagttgatt tttaagtcaa caacttgatt 420
ttccagcaat aacaagatta attcccgtta aattgatgtc gggctaaaaa tataacattt 480
gaaatatatg tatataaaat ataaaatcat acactgacag ttcttccctt atattagagc 540
attatttcat aattaaataa taagacacgc tgtttatctc tgaaatagtt attgacgtgt 600
gccccttgca aaagaaaaaa aaaaaaaacg aaagtaaaaa ataagaaata aaacgccaac 660
aatgagcgac ttacaaccag tcacggtgct tattttccat tacaactcca ttgatactta 720
agcagtttgc ctacctacat tctgcctgtt acatactttt catcgaatct agtatacttt 780
tttactctac gagtagcggg tataaaaatg ttgtatattt ggttcatttt agacttaatt 840
agaattaagt agaacgtatt ggctattcat tgacactatg ccaataagta aatctgcaat 900
gtgattgcgc gcacacctat gaggccattc cataagattc tgaaagtgaa ccagtaccaa 960
cgttcaaaca ataagacgta aatatatatt attgattact agacgagtct gtctggccat 1020
gcccctgtgc tcatgcacag tggtgtgtgc agcggggttt tggggggtca gagatattaa 1080
aaatggactt ttaatgagca aggtatatct catccgaaaa taaacgattt agatttaatt 1140
taaattacta aaaatttaaa gaaaaatttg ataagcagaa gataactcag caagcattgg 1200
gtttgcaaaa aaaaaaaaac aacaaataaa aaaataacaa aaacaaaaat tagaaacgaa 1260
ttgggtggaa caagaattaa tttgcgaaaa aaatgtgcgc gcttttttgg gaaaatagat 1320
gaa 1323
<210> 6
<211> 1323
<212> DNA
<213> Homo sapiens
<400> 6
tggaatggaa ttgaatgcta tacactggaa tgaaatggac tcgagtagaa tggcctgaaa 60
tggaatgtat tcgagtggaa tggactcgaa cagaatagat tcgaatggaa tggacttgaa 120
aggaatacaa ccgaggggta tggattcggg tagaaaagga aatatcttca tataaacaca 180
agacagaagc attctcagaa actattttgt gatgtgtgcc ctctactaac agagttgaac 240
attcctcttg atagagcagt tttgaaacac tctttttgta gaatctgcaa gttgtcaaat 300
cacatagttg aacttacctt ttaatggagc aattttgaaa tactgttttt gaagggtctg 360
caagtggaca tttgcagcgc tttcaggcct ttagtgaaaa aggaaatatc ttcccataaa 420
aactagacag aaacattctc agacagaagc attctcagac acttatttgg atgtctgcaa 480
tgatctcaca gacattctca gacacttcct tgtgatgtgt gcattgaact cacagagttg 540
aaactttctt ttgatagagc atatttgaaa cactcttttt gtagaattga atggagtgga 600
atgaatggaa tggaatggca tgaaaaagat tagaatgaat ggactggaaa ggaatagaat 660
ggaatggaac gaaatgtcct cgaatgtaat cgaatggaat tgaatggact ccagtggaat 720
ggactcaatt ggaagcaacc gcctcgaacc ccacaccgac gagctccctc aggacccacg 780
cgcggacacc gaggcgccga ccggaggagg gggcgctggg ggtgggaacg acacaccacc 840
gctcggcctc gggaacctga gggacaaccc ggagcgctcc agcagagaag aaggtacatg 900
ttaaattctc ccttgagccg ggtgtggtgg ctcatgcctg taatccccgc cctttgggag 960
gctgaggtgg gcagatcacc tgaggtcagg agttcgagac cagcctgccc aatatggtga 1020
aactccatcg aatggaatga actcgaatgg aatggaatgt aacggaacga aatggactcg 1080
aaagcaatgg aatggaaagg aatggattca aattgaatgg aatggaatgg aatggaatgg 1140
attggaatgg acacgaatgg aatacaatag aattgacatt caactcacag agttgaacat 1200
tcctcttgat agagcacttt tgaaacactc tttttgtgga atctgcaagt gaatatttgg 1260
acttttttga ggccttcatt ggaaacgggc tttcttcaca taaaacttga cagaagaatt 1320
ctc 1323
<210> 7
<211> 1323
<212> DNA
<213> Homo sapiens
<400> 7
tattactcaa caggtgattt ggccattccc ccccaaaaat atttcctatg aattgtaaca 60
aaaaggtatt tacaaaatgt gattttgcta cctctaattt taacatatca ggcacttcag 120
aacatctaaa aagaagagac atttcaaatc aagctaccaa tgactttctt cacagaattg 180
gaaaaaacta ctttaaagtt catatggaac caaaaaggag cccacattgc caagtcaatc 240
ctaagccaaa agaacaaagc tggaggcatc acgctacctg acttcaaact ataccttcaa 300
tatgttgatt ttctttctat tggaaatata cccagcagtg ggattcctgg atcatatggt 360
agctccattt ttagtttgtt aaggaatctc caaactcttc tccataatgg ttgtactaat 420
ttacattccc accaacagtg ttccttccaa ctgcacagcc tcctcccttc acatcctctg 480
cactgtacgt cctcccacct gcacatcctc cctgctgcac gtcctcccca ctgcacatcc 540
tcccctctgc acagtctcca tattgcatgt cccaccccct gcatgtccga cagagtcttg 600
ctctgtcacc caggctggag tgcagtggca cgatctcggc tcactgcaac ctccgcctcc 660
caggttcagg tgattctcct gtctcagcct ctcgagtagc tgggattaca ggcatgtgcc 720
gccatgcccg gctaagctgg gaaaactggc tagccatatg tagaaggctg aaactggatc 780
ccttccttac atcttataca aaaattaatt caagatggat taaagactta aattttagac 840
caaaaaccat aaaaacccta gaagaaaacc tgggcaatac caaaaataaa ataaaataaa 900
atgaagagtg catagtattc ctttatgtgt gtgtgtgtat gtatgtgtgt atgtgtgtgt 960
atatatatat atatatatat atatatatat atatatatat cacattttct ttatcctttc 1020
atcctatgct caggcctggg tgacagagca agactctgtc tcaaaaaaca aaacaaaaca 1080
aaaaacaaaa atgtagcatg taaccataga tatcatataa gaatgtctga gttatgcagg 1140
atagtcagct ggaaaattag ttacaagaga acagcagttc aatatacaca aatcaataaa 1200
tgtaatccag catataaaca gagccaaaga cagaaaccac atgattatct caatagatgc 1260
agaaaaggtc tttgacaaaa ttcaacaacc cttcatgcta aaaactctca ataaattagg 1320
tac 1323

Claims (1)

1.一种基于卷积神经网络的核小体分类预测方法,其特征是,包括如下步骤:
1)特征提取:选取UCSC基因组数据库中智人、线虫和黑腹果蝇三个生物的核小体或链接体的DNA序列,每一段核小体或链接体的DNA序列长度为147bp,bp是指碱基对,通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量,该特征向量表示如公式(1):
Xi=(Pi,1,Pi,2,...,Pi,16)T (1)
Xi表示第i个核小体或链接体此时的特征向量,Pi,1,Pi,2,...,Pi,16代表二核苷酸16种组合方式独热编码,T表示转置;
2)提取核小体或链接体DNA序列中核苷酸的物理化学属性:二核苷酸的空间排列由六个参数表征,其中三个是局部平移参数,另外三个是局部角参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述:
Figure FDA0002900219430000011
其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值,SD意味着相应的标准偏差,如果再次通过相同的转换过程并且将保持不变,在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值,再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中,得到22维的向量,对应这阶段特征向量有公式(3)形式:
Xi=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22)T (3)
Ri,17,…,Ri,22分别表示6种二核苷酸的空间排列特征;
3)添加生物特性:将16种二核苷酸在核小体或链接体DNA序列中的平均占有率的生物特性添加到步骤2)得到的22维向量中,得到23维的向量,对应这阶段特征向量有公式(4)形式:
Xi=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23)T (4),
ki,23表示该二核苷酸在核小体或链接体DNA序列中的平均占有率;
4)获取第24维向量:通过计算147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值,将该比值添加到步骤3)的23维向量中,得到第24维向量,对应这阶段特征向量有公式(5)形式:
Xi=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23,Mi,24)T (5),
Mi,24表示147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值;
5)添加核苷酸化学性质:在步骤4)得到的第24维向量中添加核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质,用第25维代表相邻两个中第一个核苷酸的环形结构,嘌呤用‘1’表示,嘧啶用‘0’表示,第26维代表其官能团,氨基用‘1’表示,酮基用‘0’表示,第27维代表互补配对时氢键的强弱,强用‘1’表示,弱用‘0’表示,对应这阶段特征向量有公式(6)形式:
Xi=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23,Mi,24,Ni,25,Ni,26,Ni,27)T (6)
Ni,25,Ni,26,Ni,27分别表示核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质;
6)得到包含生物信息的矩阵:有N个核小体、或M个链接体DNA序列,每个核小体或链接体DNA序列的长度为147bp,遍历生物的核小体或链接体的DNA序列得到一个包含生物信息的(147*27)的矩阵如公式(7):
Figure FDA0002900219430000021
Pi,1 Pi,2…Pi,27表示由1至5步得到特征,i表示第i个核小体或连接体DNA序列,n表示核小体或连接体DNA序列的总数,P表示n×27的矩阵;
7)构建卷积神经网络结构:假定卷积神经网络结构包括输入层、卷积层、子采样层、全连接层和输出层;提高性能超过传统模式,增加可解释性,提高模型预测精度;
8)分类核小体:将步骤6)中的生物特征矩阵导入到卷积神经网络分类出核小体。
CN201711011644.0A 2017-10-25 2017-10-25 一种基于卷积神经网络的核小体分类预测方法 Active CN107545153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711011644.0A CN107545153B (zh) 2017-10-25 2017-10-25 一种基于卷积神经网络的核小体分类预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711011644.0A CN107545153B (zh) 2017-10-25 2017-10-25 一种基于卷积神经网络的核小体分类预测方法

Publications (2)

Publication Number Publication Date
CN107545153A CN107545153A (zh) 2018-01-05
CN107545153B true CN107545153B (zh) 2021-06-11

Family

ID=60968293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711011644.0A Active CN107545153B (zh) 2017-10-25 2017-10-25 一种基于卷积神经网络的核小体分类预测方法

Country Status (1)

Country Link
CN (1) CN107545153B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110890127B (zh) * 2019-11-27 2024-02-23 山东大学 酿酒酵母dna复制起始区域识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2779695C (en) * 2009-11-05 2016-05-24 The Chinese University Of Hong Kong Fetal genomic analysis from a maternal biological sample
US10077449B2 (en) * 2013-11-04 2018-09-18 Dow Agrosciences Llc Universal donor system for gene targeting
CN105814441B (zh) * 2013-12-11 2017-10-03 日本电气株式会社 抗核抗体图像分析系统、抗核抗体图像分析方法和抗核抗体图像分析程序
AU2015206538A1 (en) * 2014-01-14 2016-07-14 Fabric Genomics, Inc. Methods and systems for genome analysis
WO2016011364A1 (en) * 2014-07-18 2016-01-21 Cdi Laboratories, Inc. Methods and compositions to identify, quantify, and characterize target analytes and binding moieties
JP2017522908A (ja) * 2014-07-25 2017-08-17 ユニヴァーシティ オブ ワシントン セルフリーdnaを生じる組織及び/又は細胞タイプを決定する方法、並びにそれを用いて疾患又は異常を識別する方法
JP6312253B2 (ja) * 2014-11-25 2018-04-18 学校法人 岩手医科大学 形質予測モデル作成方法および形質予測方法

Also Published As

Publication number Publication date
CN107545153A (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
Stuart et al. Integrative single-cell analysis
Tahir et al. iDNA6mA (5-step rule): Identification of DNA N6-methyladenine sites in the rice genome by intelligent computational model via Chou's 5-step rule
Castellana et al. Proteogenomics to discover the full coding content of genomes: a computational perspective
Mudge et al. The state of play in higher eukaryote gene annotation
Wang et al. De novo prediction of RNA–protein interactions from sequence information
Renuse et al. Proteogenomics
Zhang et al. The functional landscape of mouse gene expression
Meurer et al. Genome-wide C-SWAT library for high-throughput yeast genome tagging
EP4068291A1 (en) Artificial intelligence-based chromosomal abnormality detection method
Qiang-long et al. High-throughput sequencing technology and its application
CN113593634B (zh) 一种融合dna形状特征的转录因子结合位点预测方法
Ruan et al. Highly accurate and consistent method for prediction of helix and strand content from primary protein sequences
CN107545153B (zh) 一种基于卷积神经网络的核小体分类预测方法
KR20220074088A (ko) 인공지능 기반 암 진단 및 암 종 예측방법
CN114758721B (zh) 一种基于深度学习的转录因子结合位点定位方法
Gao et al. Identification of lncRNA-related protein-coding genes using multi-omics data based on deep learning and matrix completion
Dunham The gene guessing game
Babjac et al. Fine-Grained Synonymous Codon Usage Patterns and their Potential Role in Functional Protein Production
Lee Deep learning-based microrna target prediction using experimental negative data
Yang Biological pattern discovery with R: Machine learning approaches
Sun et al. Enhancer recognition and prediction during spermatogenesis based on deep convolutional neural networks
Lück et al. Generalized method of moments estimation for stochastic models of DNA methylation patterns
Klausen Novel High-Throughput Methods for Rapid Development of Cell Factories
Wang et al. Decoding the stochastic profile of m6A over the entire transcriptome
Jabir et al. Using Genetic Algorithm for DNA Profile Matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant