CN116805514B - 一种基于深度学习的dna序列功能预测方法 - Google Patents
一种基于深度学习的dna序列功能预测方法 Download PDFInfo
- Publication number
- CN116805514B CN116805514B CN202311075805.8A CN202311075805A CN116805514B CN 116805514 B CN116805514 B CN 116805514B CN 202311075805 A CN202311075805 A CN 202311075805A CN 116805514 B CN116805514 B CN 116805514B
- Authority
- CN
- China
- Prior art keywords
- dense
- layer
- output
- dna sequence
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108091028043 Nucleic acid sequence Proteins 0.000 title claims abstract description 68
- 230000006870 function Effects 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 230000015654 memory Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 239000002773 nucleotide Substances 0.000 claims description 10
- 125000003729 nucleotide group Chemical group 0.000 claims description 10
- 108010077544 Chromatin Proteins 0.000 claims description 9
- 210000003483 chromatin Anatomy 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- 230000035772 mutation Effects 0.000 claims description 2
- 238000002203 pretreatment Methods 0.000 claims description 2
- 230000003213 activating effect Effects 0.000 claims 2
- 238000013507 mapping Methods 0.000 abstract description 10
- 230000007787 long-term memory Effects 0.000 abstract description 6
- 230000006403 short-term memory Effects 0.000 abstract description 5
- 108020004414 DNA Proteins 0.000 abstract 2
- 230000008569 process Effects 0.000 description 10
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 229940075799 deep sea Drugs 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于生物信息学领域,涉及一种基于深度学习的DNA序列功能预测方法。该方法的核心思想是首先使用密集卷积网络的多个密集块提取DNA数据的局部特征,然后使用双向长短期记忆网络基于密集卷积网络输出的特征进一步提取DNA数据的长序列特征,最后将提取的特征输出到全连接层与数据标签建立映射关系。以上所述三个部分被融合到一个深层架构中,使用监督学习方法基于反向传播算法迭代训练即可获得最优参数。这种方法可以将密集卷积网络和长短期记忆网络的特征提取能力进一步融合,有效提升了深层架构预测DNA序列功能的性能。
Description
技术领域
本发明属于生物信息学领域,涉及一种基于深度学习的DNA序列功能预测方法,其中包括密集卷积网络、长短期记忆网络和DNA序列功能预测等技术。
背景技术
随着基因组测序所需费用的迅速降低,对一个人的疾病相关基因进行测序,只需要花费几千美元,这使得在临床医学和基因研究相关领域大范围使用基因组学数据成为可能。在不久的将来,医生将了解体检者所有的基因构成,并测试体检者对数百种疾病的易感性。因此,研究开发相关计算方法用来预测基因组序列的功能,然后基于基因的功能分析与多种疾病的相关性,具有重要意义。为了对基因组学数据进行自动特征提取,生物医学领域的研究人员用机器学习方法,例如分类方法,进行尝试。在生物医学领域,DNA序列功能预测是一个重要的研究方向,它根据原始DAN序列中4种碱基不同的排列组合信息,把不同类别的特征提取出来。针对某一个具体特征,若一段DNA序列里面包含该特征,则该段DNA序列的标签值为1;否则,该段DNA序列的标签值为0。
深度学习属于机器学习的子类,它对深层架构进行训练并调整里面的参数来完成机器学习任务。深层架构由许多层非线性运算组成,例如在神经网络中由许多隐藏层组成,或在复杂架构中重复使用许多子模块。深度学习方法可以用来进行数据分类、数据压缩等,已经应用到计算机视觉、自然语言处理等多个领域,并且取得了突破性进展。但是,探讨如何优化深层架构的抽象能力和区分能力,来解决 DNA序列功能预测问题的研究工作还比较少。
发明内容
本发明解决的技术问题是:现有的DNA序列功能预测方法比较少,预测的AUC值较低,不能满足日常应用需求。
本发明解决现有技术中存在的问题所采用的技术方案为:提供一种基于深度学习的DNA序列功能预测方法,在密集卷积网络和长短期记忆网络的基础上,整合2种方法的深层架构,调整深层架构的训练方法,以增加训练时间为代价,提升DNA序列功能预测性能。
本发明具体技术方案包括DNA序列数据转换、特征提取和特征映射三个过程,其具体步骤如下:
步骤1、DNA序列数据转换:DNA的序列数据由ACGT 4个字母组成,需要使用One Hot编码方式将DNA序列数据转换成数字形式,才能输入到深层架构中进行特征提取;
步骤2、卷积神经网络局部特征提取:使用密集卷积网络的多个密集块对DNA序列的局部特征进行提取,并将提取的特征传给下一层;
步骤3、双向长短期记忆网络长序列特征提取:使用双向长短期记忆网络基于密集块提取的特征,进一步提取DNA序列的长期依赖信息,并将提取的特征传给下一层;
步骤4、全连接层建立特征映射:使用全连接层基于双向长短期记忆网络提取的特征建立数据与其对应标签之间的映射关系;
步骤5、训练深层架构:使用监督学习方法基于随机梯度下降算法来训练整个深层架构,将深层架构的特征提取能力和分类能力有效结合起来,互相促进;
步骤6、模型预测:使用步骤5中保存好的模型来预测输入的DNA序列数据功能。
1. 一种基于深度学习的DNA序列功能预测方法,步骤1的实现过程如下:
在DNA序列数据转换模块中,处理DNA序列所使用的窗口长度为1000,步长为200。每个窗口中1000个核苷酸对应919个核染色质特征。针对每个核染色质特征,若发生突变,则被标注为1;否则,被标注为0。每个窗口中1000个核苷酸用一个1000×4的二维矩阵表示,矩阵的每一列对应A、C、G和T,这4个字母分别用[1, 0, 0, 0]、[0, 1, 0, 0]、[0, 0, 1,0]和[0, 0, 0, 1]表示。
2. 一种基于深度学习的DNA序列功能预测方法,步骤2的实现过程如下:
在卷积神经网络局部特征提取模块中,使用4个不同长度的密集块依次处理DNA序列数据,4个密集块中密集层的个数分别是18、18、18和12。第一个密集块的初始特征数为1000,初始通道数为4,对应输入数据中1000×4的二维矩阵。每个密集层进行2次一维批量归一化、ReLU激活和一维卷积操作,最后以0.07的概率进行Dropout操作。密集块中每个密集层都输出32个通道,从第二个密集层开始,接收前面所有密集层的输出数据和该密集块的输入数据作为输入。因此,后面的密集层都会比其前一个密集层增加32通道,但是处理后的特征数保持不变。为了防止多个密集块叠加后输出的通道数太多,在密集块之间使用一维卷积层将上一个密集块输出的通道数减半,并且使用一维平均池化层将特征数变为原来的1/4,然后送入下一个密集块。最后,使用一维批量归一化层将4个密集块提取的特征归一化后输出,输出的特征数是15,通道数是888,对应一个15×888的二维矩阵。
3. 一种基于深度学习的DNA序列功能预测方法,步骤3的实现过程如下:
在双向长短期记忆网络长序列特征提取模块中,使用一层双向长短期记忆网络基于卷积神经网络局部特征提取模块输出的特征继续处理。网络输入的特征数是888,输出的特征数也是888。由于使用的是双向长短期记忆网络,两个方向各输出888个特征,所以最终输出的特征数是1776。最后,以0.5的概率进行Dropout操作后输出。卷积神经网络特征提取模块中输出的15×888的二维矩阵中的每一行都经过双向长短期记忆网络和Dropout处理,所以最后输出的所有数据的特征数是15×1776=26640。
4. 一种基于深度学习的DNA序列功能预测方法,步骤4的实现过程如下:
在全连接层建立特征映射模块中,使用一层线性层接收双向长短期记忆网络长序列特征提取模块输出的26640个特征,并输出925个特征。使用ReLU函数激活后送入下一个线性层,线性层的输出特征数是919,对应DNA序列数据的919个标签。最后,使用Sigmoid函数激活。
5. 一种基于深度学习的DNA序列功能预测方法,步骤5的实现过程如下:
模型搭建好后,使用监督学习方法基于随机梯度下降算法来训练整个深层架构,学习率为0.08,权重衰减系数为1×10-6,动量系数为0.9。
6. 一种基于深度学习的DNA序列功能预测方法,步骤6的实现过程如下:
使用训练好的模型来预测输入的DNA序列数据功能。DNA序列数据需要使用步骤1中的预处理方法对长度为1000的核苷酸加窗,步长为200。转换后得到N个1000×4的二维矩阵后,输入到训练好的模型进行预测。每个1000×4的二维矩阵输入模型运算后得到919个核染色质的预测结果,输入的DNA序列数据的最终预测结果为N×919的二维矩阵。
本发明的技术效果是:本发明涉及一种基于深度学习的DNA序列功能预测方法,通过将密集卷积网络和双向长短期记忆网络相结合的方法,实现DNA序列功能预测,解决了传统预测方法AUC 值低的问题。在密集卷积神经网络中,利用4个不同长度的密集块通过多次一维批量归一化、ReLU激活和一维卷积操作来提取DNA序列特征,避免了经典方法不能有效提取DNA序列有效信息的问题,使系统能够同时提取DNA序列特征并分类,进一步提升了深层架构的特征提取能力和分类能力。
附图说明
图1为基于深度学习的DNA序列功能预测方法流程图。
图2为密集卷积网络结构图样例。
具体实施方式
以下结合附图和实例对本发明进行详细说明。
本发明的目的是提出一种基于深度学习的DNA序列功能预测方法,如图1所示,包括DNA序列数据转换、特征提取和特征映射三个过程,其具体过程包括如下步骤:
步骤1、DNA序列数据转换。
网络的输入数据是DNA序列,需要首先将其转化成实数值后才能送入深层架构中进行处理。本发明使用One Hot编码方式将DNA序列数据转换成数字形式。由于DNA序列数据的长度差别很大,而深层架构的输入要求特征的个数是确定的。因此,本发明对DNA序列数据进行加窗,窗口长度为1000,窗口每次平移200个核苷酸。若一个DNA序列包含Q个核苷酸,则转换后的窗口个数,对应N个1000×4的二维矩阵。若最后一个窗口不足1000个核苷酸,则剩余部分全部用0填充,即二维矩阵中每列的4个数据全部为0。一个DNA序列可以表示为:
其中N是窗口个数,x i 是每个窗口1000个核苷酸One Hot编码后的1000×4的二维矩阵。
Y是N个窗口位置对应的标签数据集,可以表示为:
其中N是窗口个数,y i 是每个窗口1000个核苷酸对应的919个核染色质标签数据。
本发明将基于深层架构使用多个DNA序列数据转换后训练构建X→Y的映射函数。训练后,当一个新的DNA序列数据输入并转换成X后,深层架构可以使用映射函数确定X对应的标签Y。
步骤2、卷积神经网络局部特征提取。
本发明首先使用密集卷积网络对DNA序列数据进行局部特征提取,密集卷积网络结构图样例如图2所示。这是一个包含2个密集块(dense block),每个密集块包含3个密集层的深层架构。在每个密集块中,鼓励特征复用,里面任何两层之间都有直接的连接,每一层的输入都是前面所有层输出的并集,而该层所学习的特征图也会被直接传给其后面所有层作为输入。在不同密集块之间设置卷积层和池化层实现降采样,最后通过全连接层建立深层架构与数据对应标签之间的映射关系。
本发明使用4个不同长度的密集块依次处理DNA序列数据,4个密集块中密集层的个数分别是18、18、18和12。第1个密集块的初始特征数为1000,初始通道数为4,对应一个输入数据x。每个密集层进行2次一维批量归一化、ReLU激活和一维卷积操作,最后以0.07的概率进行Dropout操作。
对于第1个密集块的第1个密集层,接收数据x的特征数为1000,通道数为4。首先进行norm1(一维批量归一化)操作,norm1的eps(分母中添加的一个值,目的是为了计算的稳定性)值为1×10-5,动量值为0.1;然后进行relu1(ReLU函数激活)操作;最后进行conv1(一维卷积)操作,conv1的输入通道数为4(前面的norm1和relu1不改变数据的通道数和特征数),输出通道数为128,卷积核大小为1,步长为1。经过一次一维批量归一化、ReLU激活和一维卷积操作后,数据通道数由4变成了128,特征数仍为1000。送入norm2(eps和动量值与norm1相同)和relu2处理后,数据的通道数和特征数不变。Conv2的输入通道数为128,输出通道数为32,卷积核大小为3,步长为1,填充值为1。由于Conv2的卷积核大小为3,填充值为1,所以经过Conv2处理后数据的特征数仍为1000;由于Conv2的输出通道数为32,所以经过Conv2处理后数据的通道数变为32。最终,数据送入Dropout层以0.07的概率处理后输出。
输入数据x经过第1个密集块的第1个密集层处理后,通道数变成32,特征数不变。第1个密集块共包含18个密集层,每个密集层的处理方式与第1个密集层相同。由于密集卷积网络中,每个密集层的输入都是前面所有层输出的并集,所以第2个密集层的输入是x与第1个密集层输出的并集。输入数据的通道数为4+32=36,特征数仍为1000。同理,第18个密集层的输入是x与前17个密集层输出的并集。输入数据的通道数为4+32×17=548,特征数仍为1000。最终,第1个密集块的输出是x与18个密集层输出的并集。输出数据的通道数为4+32×18=580,特征数仍为1000。
为了防止多个密集块叠加后输出的通道数太多,在密集块之间使用转换块将上一个密集块输出的通道数减半,并将特征数变为原来的1/4。转换块包含一维批量归一化、ReLU激活、一维卷积和一维平均池化4层。一维批量归一化使用的参数与norm1相同。一维卷积层的输入通道数为580(与第1个密集块的输出通道数一致),输出通道数为290,卷积核大小为1,步长为1。经过一维卷积层后,通道数减半。一维平均池化层的核大小为4,步长为4。经过一维平均池化层后,数据的特征数由1000变为250。
第2个密集块从第1个转换块接收数据继续处理,数据的通道数为290,特征数为250。与第1个密集块一样,第2个密集块也包含18个密集层。数据经过第2个密集块处理后,输出数据的通道数为290+32×18=866,特征数仍为250。第2个转换块位于第1个密集块和第2个密集块之间,它的结构与第1个转换块完全一致。数据经过第2个转换块处理后,通道数为433,特征数为62。
第3个密集块从第2个转换块接收数据继续处理,与第1、2个密集块一样,第3个密集块也包含18个密集层。数据经过第3个密集块处理后,输出数据的通道数为433+32×18=1009,特征数仍为62。第3个转换块位于第2个密集块和第3个密集块之间,它的结构与第1、2个转换块完全一致。数据经过第3个转换块处理后,通道数为504,特征数为15。
第4个密集块从第3个转换块接收数据继续处理,第4个密集块包含12个密集层。数据经过第4个密集块处理后,输出数据的通道数为504+32×12=888,特征数仍为15。
最后,使用一维批量归一化层将4个密集块提取的特征归一化后输出,输出的特征数是15,通道数是888,对应一个15×888的二维矩阵。
步骤3、双向长短期记忆网络长序列特征提取。
针对卷积神经网络局部特征提取模块输出的15×888的二维矩阵,将15作为每批数据的个数,888作为特征数进行处理。使用一层双向长短期记忆网络接收以上数据,网络输入的特征数是888,输出的特征数也是888。由于双向长短期记忆网络的两个方向各输出888个特征,所以最终输出的特征数是888×2=1776。最后,以0.5的概率进行Dropout操作后输出。卷积神经网络特征提取模块中输出的15×888的二维矩阵中的每批数据有15个,所以最后输出的所有数据的特征数是15×1776=26640。
步骤4、全连接层建立特征映射。
该模块包含2个分别使用ReLU函数和Sigmoid函数激活的线性层。第1个线性层接收双向长短期记忆网络特征提取模块输出的26640个特征作为输入数据,输出925个特征后使用ReLU函数激活。第2个线性层接收第1个线性层输出的925个特征作为输入数据,输出919个特征后使用Sigmoid函数激活。第2个线性层的919个输出特征与x的919个标签一一对应。可以通过不断减小深层架构输出的919个特征与标签y 之间的误差来训练优化深层架构。
步骤5、训练深层架构。
前面4个步骤已经将深层架构模型搭建好,下面使用多个DNA序列数据及其对应的标签来优化深层架构的参数空间,从而使其拥有更好的区分能力。在本发明中使用交叉熵误差函数,基于随机梯度下降算法来训练整个深层架构,学习率为0.08,权重衰减系数为1×10-6,动量系数为0.9。
步骤6、模型预测。
首先,使用步骤1中的预处理方法对新输入的数据进行预处理,预处理后得到N个1000×4的二维矩阵。其次,使用步骤5中训练好的模型来预测新输入的DNA序列数据功能,每个1000×4的二维矩阵输入模型运算后得到919个核染色质的预测结果,结果为[0, 1]的实数值。最后,将输入的DNA序列数据的最终预测结果以N×919的二维矩阵的形式输出。
本发明提出一种基于深度学习的DNA序列功能预测方法,利用4个密集块的局部特征提取和双向长短期记忆神经网络长序列特征提取,组合实现了一个用于DNA序列数据功能预测的深层架构,有效提升了DNA序列数据功能预测的AUC值。在大型DNA序列数据功能预测数据集上测试了本发明提出的模型的预测结果并与前人提出的模型进行对比 (AUC值越高代表模型性能越好)。DeepSEA和本发明提出的模型在919个核染色质上的平均AUC分别是0.933和0.944。实验证明本发明提出的模型取得了比较好的预测结果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (1)
1.一种基于深度学习的DNA序列功能预测方法,包括如下步骤:
步骤1、处理DNA序列所使用的窗口长度为1000,步长为200;每个窗口中1000个核苷酸对应919个核染色质特征;针对每个核染色质特征,若发生突变,则被标注为1;否则,被标注为0;每个窗口中1000个核苷酸用一个1000×4的二维矩阵表示,矩阵的每一列对应A、C、G和T,这4个字母分别用[1, 0, 0, 0]、[0, 1, 0, 0]、[0, 0, 1, 0]和[0, 0, 0, 1]表示;
步骤2、使用4个不同长度的密集块依次处理DNA序列数据,4个密集块中密集层的个数分别是18、18、18和12;第一个密集块的初始特征数为1000,初始通道数为4,对应输入数据中1000×4的二维矩阵;每个密集层进行2次一维批量归一化、ReLU激活和一维卷积操作,最后以0.07的概率进行Dropout操作;密集块中每个密集层都输出32个通道,从第二个密集层开始,接收前面所有密集层的输出数据和该密集块的输入数据作为输入;因此,后面的密集层都会比其前一个密集层增加32通道,但是处理后的特征数保持不变;为了防止多个密集块叠加后输出的通道数太多,在密集块之间使用一维卷积层将上一个密集块输出的通道数减半,并且使用一维平均池化层将特征数变为原来的1/4,然后送入下一个密集块;使用一维批量归一化层将4个密集块提取的特征归一化后输出,输出的特征数是15,通道数是888,对应一个15×888的二维矩阵;最后,将提取的特征传给下一层;
步骤3、使用一层双向长短期记忆网络基于卷积神经网络局部特征提取模块输出的特征继续处理;网络输入的特征数是888,输出的特征数也是888;由于使用的是双向长短期记忆网络,两个方向各输出888个特征,所以最终输出的特征数是1776;最后,以0.5的概率进行Dropout操作后输出;卷积神经网络特征提取模块中输出的15×888的二维矩阵中的每一行都经过双向长短期记忆网络和Dropout处理,所以最后输出的所有数据的特征数是15×1776=26640;最后,将提取的特征传给下一层;
步骤4、使用一层线性层接收双向长短期记忆网络长序列特征提取模块输出的26640个特征,并输出925个特征;使用ReLU函数激活后送入下一个线性层,线性层的输出特征数是919,对应DNA序列数据的919个标签;最后,使用Sigmoid函数激活;
步骤5、模型搭建好后,使用监督学习方法基于随机梯度下降算法来训练整个深层架构,学习率为0.08,权重衰减系数为1×10-6,动量系数为0.9;
步骤6、使用训练好的模型来预测输入的DNA序列数据功能;DNA序列数据需要使用步骤1中的预处理方法对长度为1000的核苷酸加窗,步长为200;转换后得到N个1000×4的二维矩阵后,输入到训练好的模型进行预测;每个1000×4的二维矩阵输入模型运算后得到919个核染色质的预测结果,输入的DNA序列数据的最终预测结果为N×919的二维矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311075805.8A CN116805514B (zh) | 2023-08-25 | 2023-08-25 | 一种基于深度学习的dna序列功能预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311075805.8A CN116805514B (zh) | 2023-08-25 | 2023-08-25 | 一种基于深度学习的dna序列功能预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116805514A CN116805514A (zh) | 2023-09-26 |
CN116805514B true CN116805514B (zh) | 2023-11-21 |
Family
ID=88079755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311075805.8A Active CN116805514B (zh) | 2023-08-25 | 2023-08-25 | 一种基于深度学习的dna序列功能预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116805514B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095825B (zh) * | 2023-10-20 | 2024-01-05 | 鲁东大学 | 一种基于多实例学习的人体免疫状态预测方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902750A (zh) * | 2019-03-04 | 2019-06-18 | 山西大学 | 基于双向单注意力机制图像描述方法 |
CN110443323A (zh) * | 2019-08-19 | 2019-11-12 | 电子科技大学 | 基于长短期记忆网络和人脸关键点的相貌评估方法 |
CN110472548A (zh) * | 2019-08-08 | 2019-11-19 | 中国科学技术大学 | 一种基于语法分类器的视频连续手语识别方法及系统 |
CN110782096A (zh) * | 2019-10-29 | 2020-02-11 | 山东科技大学 | 一种外汇时间序列预测方法 |
CN110796306A (zh) * | 2019-10-29 | 2020-02-14 | 山东科技大学 | 一种外汇时间序列预测的构建方法 |
KR20200066578A (ko) * | 2018-12-01 | 2020-06-10 | 주식회사 메타젠바이오 | 딥러닝 기반 치매 예측 방법 |
CN111696624A (zh) * | 2020-06-08 | 2020-09-22 | 天津大学 | 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 |
CN113160885A (zh) * | 2021-03-11 | 2021-07-23 | 同济大学 | 基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统 |
CN113936738A (zh) * | 2021-12-14 | 2022-01-14 | 鲁东大学 | 一种基于深度卷积神经网络的rna-蛋白质结合位点预测方法 |
CN115273050A (zh) * | 2022-07-01 | 2022-11-01 | 中国人民解放军空军工程大学 | 一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法 |
US11580641B1 (en) * | 2021-12-24 | 2023-02-14 | GeneSense Technology Inc. | Deep learning based methods and systems for nucleic acid sequencing |
CN116592993A (zh) * | 2023-04-11 | 2023-08-15 | 辽宁科技大学 | 一种基于深度学习的机械振动故障诊断方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI783699B (zh) * | 2021-02-09 | 2022-11-11 | 國立臺灣大學 | 一種判別源自不同個體之基因的方法及其深度學習模型 |
-
2023
- 2023-08-25 CN CN202311075805.8A patent/CN116805514B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200066578A (ko) * | 2018-12-01 | 2020-06-10 | 주식회사 메타젠바이오 | 딥러닝 기반 치매 예측 방법 |
CN109902750A (zh) * | 2019-03-04 | 2019-06-18 | 山西大学 | 基于双向单注意力机制图像描述方法 |
CN110472548A (zh) * | 2019-08-08 | 2019-11-19 | 中国科学技术大学 | 一种基于语法分类器的视频连续手语识别方法及系统 |
CN110443323A (zh) * | 2019-08-19 | 2019-11-12 | 电子科技大学 | 基于长短期记忆网络和人脸关键点的相貌评估方法 |
WO2021082811A1 (zh) * | 2019-10-29 | 2021-05-06 | 山东科技大学 | 一种外汇时间序列预测方法 |
CN110782096A (zh) * | 2019-10-29 | 2020-02-11 | 山东科技大学 | 一种外汇时间序列预测方法 |
CN110796306A (zh) * | 2019-10-29 | 2020-02-14 | 山东科技大学 | 一种外汇时间序列预测的构建方法 |
WO2021082810A1 (zh) * | 2019-10-29 | 2021-05-06 | 山东科技大学 | 一种外汇时间序列预测的构建方法 |
CN111696624A (zh) * | 2020-06-08 | 2020-09-22 | 天津大学 | 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 |
CN113160885A (zh) * | 2021-03-11 | 2021-07-23 | 同济大学 | 基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统 |
CN113936738A (zh) * | 2021-12-14 | 2022-01-14 | 鲁东大学 | 一种基于深度卷积神经网络的rna-蛋白质结合位点预测方法 |
US11580641B1 (en) * | 2021-12-24 | 2023-02-14 | GeneSense Technology Inc. | Deep learning based methods and systems for nucleic acid sequencing |
CN115273050A (zh) * | 2022-07-01 | 2022-11-01 | 中国人民解放军空军工程大学 | 一种深度可分离融合卷积神经网络的有限样本弹道目标识别方法 |
CN116592993A (zh) * | 2023-04-11 | 2023-08-15 | 辽宁科技大学 | 一种基于深度学习的机械振动故障诊断方法 |
Non-Patent Citations (5)
Title |
---|
Shusen Zhou ; Hailin Zou ; Chanjuan Liu ; Mujun Zang ; .《Combining Deep Neural Networks for Protein Secondary Structure Prediction》.《Combining Deep Neural Networks for Protein Secondary Structure Prediction》.全文. * |
Zhengsen Pan ; Shusen Zhou.《MCNN: Multiple Convolutional Neural Networks for RNA-Protein Binding Sites Prediction》.《IEEE/ACM Transactions on Computational Biology and Bioinformatics ( Volume: 20, Issue: 2, 01 March-April 2023)》.2022,全文. * |
基于反卷积特征提取的深度卷积神经网络学习;吕恩辉;王雪松;程玉虎;;控制与决策(第03期);全文 * |
基于时域卷积与双向GRU神经网络的时序预测模型;王振;张生;;软件导刊(第03期);全文 * |
黄立群 ; 丁雪松 ; 张步忠 ; 吕强.《一个深度学习DNA序列特异性的预测模型》.《小型微型计算机系统》.2018,全文1-3节,附图1-3. * |
Also Published As
Publication number | Publication date |
---|---|
CN116805514A (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107767408B (zh) | 图像处理方法、处理装置和处理设备 | |
CN108090093B (zh) | 生成推荐结果的方法和装置 | |
CN116805514B (zh) | 一种基于深度学习的dna序列功能预测方法 | |
CN110245685A (zh) | 基因组单位点变异致病性的预测方法、系统及存储介质 | |
WO2004104856A1 (en) | A method for identifying a subset of components of a system | |
CN114360662A (zh) | 一种基于两路多分支cnn的单步逆合成方法及系统 | |
CN114722950B (zh) | 一种多模态的多变量时间序列自动分类方法及装置 | |
CN115098620A (zh) | 一种注意力相似度迁移的跨模态哈希检索方法 | |
CN114420211A (zh) | 一种基于注意力机制的rna-蛋白质结合位点预测方法 | |
CN112560948B (zh) | 数据偏差下的眼底图分类方法及成像方法 | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
CN116312748A (zh) | 基于多头注意力机制的增强子-启动子相互作用预测模型构建方法 | |
CN115019876A (zh) | 一种基因表达预测方法及装置 | |
CN116579447A (zh) | 一种基于分解机制和注意力机制的时间序列预测方法 | |
CN114037699B (zh) | 一种病理图像分类方法、设备、系统及存储介质 | |
CN117788933A (zh) | 基于结构张量分解神经网络的多模态医学图像分类方法 | |
CN113469961A (zh) | 一种基于神经网络的腕管图像分割方法及系统 | |
Zhang et al. | Predicting gene expression from DNA sequence using residual neural network | |
Ullah et al. | Crow-ENN: An Optimized Elman Neural Network with Crow Search Algorithm for Leukemia DNA Sequence Classification | |
CN116386720A (zh) | 基于深度学习和注意力机制的单细胞转录因子预测方法 | |
CN117037917A (zh) | 细胞类型预测模型训练方法、细胞类型预测方法和装置 | |
Vigil et al. | Comparative Analysis of Machine Learning Algorithms for DNA Sequencing | |
Yousefi et al. | Breast Cancer Prediction with Hybrid Filter-Wrapper Feature Selection | |
CN114464267A (zh) | 模型训练与生成物预测的方法及装置 | |
CN112863598A (zh) | 一种基于深度学习的dna序列基元挖掘方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240927 Address after: Across from Zhujiang Township Central Primary School, Anfu County, Ji'an City, Jiangxi Province 343223 Patentee after: Jiangxi Qixin Raincoat Manufacturing Co.,Ltd. Country or region after: China Address before: 264025 No. 186 Hongqi Middle Road, Zhifu District, Shandong, Yantai Patentee before: LUDONG University Country or region before: China |