CN114842914A - 一种基于深度学习的染色质环预测方法及系统 - Google Patents
一种基于深度学习的染色质环预测方法及系统 Download PDFInfo
- Publication number
- CN114842914A CN114842914A CN202210454801.XA CN202210454801A CN114842914A CN 114842914 A CN114842914 A CN 114842914A CN 202210454801 A CN202210454801 A CN 202210454801A CN 114842914 A CN114842914 A CN 114842914A
- Authority
- CN
- China
- Prior art keywords
- layer
- neural network
- network layer
- deep learning
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108010077544 Chromatin Proteins 0.000 title claims abstract description 93
- 210000003483 chromatin Anatomy 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013135 deep learning Methods 0.000 title claims abstract description 55
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 26
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 41
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 25
- 230000002457 bidirectional effect Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 230000007787 long-term memory Effects 0.000 claims description 11
- 230000006403 short-term memory Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 7
- 230000000295 complement effect Effects 0.000 claims description 6
- 238000013136 deep learning model Methods 0.000 claims description 6
- 239000002773 nucleotide Substances 0.000 claims description 6
- 125000003729 nucleotide group Chemical group 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 210000004027 cell Anatomy 0.000 abstract description 23
- 238000010586 diagram Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 108010014064 CCCTC-Binding Factor Proteins 0.000 description 4
- 102100021393 Transcriptional repressor CTCFL Human genes 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000001404 mediated effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004543 DNA replication Effects 0.000 description 1
- 101710172711 Structural protein Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010170 biological method Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 108010045512 cohesins Proteins 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001125 extrusion Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于染色质环预测技术领域,提供了一种基于深度学习的染色质环预测方法及系统,包括提取不同类型的染色质环的DNA序列的第一特征值;基于所述第一特征值进行特征融合,得到第二特征值;基于所述第二特征值,利用训练好的深度学习预测模型,得到染色质环的预测结果;本发明提出的预测方法在预测不同细胞系和不同类型的染色质环的方面具有非常强的泛化能力,因此可以仅构建一个模型实现对多种细胞系和多种类型染色质环的预测而无需针对不同细胞系和不同类型的染色质环构建多个预测模型,极大地节约了时间成本并提高了实用性。
Description
技术领域
本发明属于染色质环预测技术领域,具体涉及一种基于深度学习的染色质环预测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
染色质环是一种直接调节基因表达的结构和功能单元,一般由结构蛋白CCCTC结合因子(CTCF)和黏连蛋白通过挤压介导形成,其中CTCF基序在两个位点以会聚方向与特定的非回文基序结合并充当环锚。由于染色质环在基因调控、DNA复制、进化和疾病机制等方面有着关键性的作用,因此染色质环的检测成为一大热点。在早期染色质环检测的研究中,通常使用Hi-C技术等生物方法进行检测,然而这些技术面临着成本昂贵、费时费力等难题。随后,一些预测染色质环的计算方法被提出以解决这些难题。然而,这些计算方法通常需要多种功能基因组信号,这对实际中的应用带来了巨大的不便。因此当前研究中,有一些只使用单一数据预测染色质环的方法被陆续提出。然而,这些方法的性能和泛化性较差,难以满足我们对预测工作的高精度和高泛化性的要求。因此,仅使用单一数据实现染色质环的高精度和高泛化的预测成为了预测染色质环的重要研究方向。
在现实中,染色质环的预测存在数据要求高、预测精度低和泛化性能差的问题。数据要求高的问题导致获取数据的成本高、任务重;预测精度低的问题导致预测结果的可信度较低,难以进行下一步分析;泛化性能差的问题导致对不同细胞系或不同类型中的染色质环的预测能力差异较大,因此针对不同细胞系或不同类型的染色质环需要构建不同的预测模型。
发明内容
为了解决上述问题,本发明提出了一种基于深度学习的染色质环预测方法及系统,本发明提出的预测方法在预测不同细胞系和不同类型的染色质环的方面具有非常强的泛化能力,因此可以仅构建一个模型实现对多种细胞系和多种类型染色质环的预测而无需针对不同细胞系和不同类型的染色质环构建多个预测模型,极大地节约了时间成本并提高了实用性。
根据一些实施例,本发明的第一方案提供了一种基于深度学习的染色质环预测方法,采用如下技术方案:
一种基于深度学习的染色质环预测方法,包括:
提取不同类型的染色质环的DNA序列的第一特征值;
基于所述第一特征值进行特征融合,得到第二特征值;
基于所述第二特征值,利用训练好的深度学习预测模型,得到染色质环的预测结果;
其中,所述深度学习预测模型,包括第一层卷积神经网络层、第二层神经网络层和第三层神经网络层;所述第一层神经网络层和第二卷积神经网络层之间设有第一最大池化层和第一dropout层;第二层卷积神经网络层和第三层卷积神经网络层之间设有第二最大池化层和第二dropout层;
所述第三层卷积神经网络层之后设有双向长短期记忆神经网络层,所述双向长短期记忆神经网络层之后设有第三dropout层。
进一步地,所述第一特征值,包括:
反向互补Kmer特征、组合位置评分函数特征、组合基于单链的位置特异性三核苷酸倾向特征、组合基于双链的位置特异性三核苷酸倾向特征和核苷酸对谱编码特征。
进一步地,所述组合位置评分函数特征、组合基于单链的位置特异性三核苷酸倾向特征和组合基于双链的位置特异性三核苷酸倾向特征是分别将各自特征向量的所有特征值进行求和得到的。
进一步地,基于所述第一特征值进行特征融合,得到第二特征值,包括:
将第一特征值包含的反向互补Kmer特征、组合位置评分函数特征、组合基于单链的位置特异性三核苷酸倾向特征、组合基于双链的位置特异性三核苷酸倾向特征和核苷酸对谱编码特征进行特征融合;
得到五种特征的融合结果,即第二特征值。
进一步地,所述训练深度学习预测模型的过程,包括:
获取DNA序列样本,并将DNA序列样本划分为训练集和测试集;
测试集划分为新的训练集和验证集;
基于新的训练集中的DNA序列样本训练深度学习预测模型;
基于验证集中的DNA序列样本对训练好的深度学习模型进行验证;
基于测试集中的DNA序列样本,利用训练好的深度学习预测模型进行测试并评估模型的性能。
进一步地,每层卷积神经网络层采用relu激活函数增强卷积神经网络层的非线性特征;
所述双向长短期记忆神经网络层用于捕获数据前后的顺序关系。
进一步地,采用sigmoid激活函数将所述深度学习预测模型输出的预测结果映射为最终的预测概率;
如果预测概率超过设定值,则认定预测结果为染色质环,否则认定预测结果为非染色质环。
根据一些实施例,本发明的第二方案提供了一种基于深度学习的染色质环预测系统,采用如下技术方案:
一种基于深度学习的染色质环预测系统,包括:
第一特征提取模块,被配置为提取不同类型的染色质环的DNA序列的第一特征值;
第二特征提取模块,被配置为基于所述第一特征值进行特征融合,得到第二特征值;
染色质预测模块,被配置为基于所述第二特征值,利用训练好的深度学习预测模型,得到染色质环的预测结果;
其中,所述深度学习预测模型,包括第一层卷积神经网络层、第二层神经网络层和第三层神经网络层;所述第一层神经网络层和第二卷积神经网络层之间设有第一最大池化层和第一dropout层;第二层卷积神经网络层和第三层卷积神经网络层之间设有第二最大池化层和第二dropout层;
所述第三层卷积神经网络层之后设有双向长短期记忆神经网络层,所述双向长短期记忆神经网络层之后设有第三dropout层。
根据一些实施例,本发明的第三方案提供了一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的一种基于深度学习的染色质环预测方法中的步骤。
根据一些实施例,本发明的第四方案提供了一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的一种基于深度学习的染色质环预测方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明通过提取DNA序列的多种特征并融合,然后使用构建的深度学习模型预测染色质环,本发明提出的预测模型可以仅使用DNA序列数据通过计算方法实现染色质环的预测而无需费时费力成本高昂的生物实验,同时也避免了多种功能基因组信号难以获得的难题。
本发明提出的预测方法在预测不同细胞系和不同类型的染色质环的方面具有非常强的泛化能力,因此可以仅构建一个模型实现对多种细胞系和多种类型染色质环的预测而无需针对不同细胞系和不同类型的染色质环构建多个预测模型,极大地节约了时间成本并提高了实用性。本技术可以应用于生物医学上对染色质环的检测,在节约大量的金钱和时间成本的同时更好地分析疾病、治疗疾病和预防疾病。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例所述的一种基于深度学习的染色质环预测方法的流程图;
图2是本发明实施例所述的深度学习预测模型预测K562细胞系的四种类型的染色质环的性能图;
图3是本发明实施例所述的深度学习预测模型预测MCF-7细胞系的四种类型的染色质环的性能;
图4是本发明实施例所述的Deep-loop方法的AUC值的热图;
图5是本发明实施例所述的深度学习预测模型的AUC值的热图;
图6是本发明实施例所述的深度学习预测模型的结构图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
如图1-图6所示,本实施例提供了一种基于深度学习的染色质环预测方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
提取不同类型的染色质环的DNA序列的第一特征值;
基于所述第一特征值进行特征融合,得到第二特征值;
基于所述第二特征值,利用训练好的深度学习预测模型,得到染色质环的预测结果;
其中,所述深度学习预测模型,包括第一层卷积神经网络层、第二层神经网络层和第三层神经网络层;所述第一层神经网络层和第二卷积神经网络层之间设有第一最大池化层和第一dropout层;第二层卷积神经网络层和第三层卷积神经网络层之间设有第二最大池化层和第二dropout层;
所述第三层卷积神经网络层之后设有双向长短期记忆神经网络层,所述双向长短期记忆神经网络层之后设有第三dropout层。
提取染色质环序列的五种特征并融合;
具体地,所述第一特征值,包括:
反向互补Kmer、组合位置评分函数、组合基于单链的位置特异性三核苷酸倾向、组合基于双链的位置特异性三核苷酸倾向和核苷酸对谱编码五种特征;其中组合位置评分函数、组合基于单链的位置特异性三核苷酸倾向和组合基于双链的位置特异性三核苷酸倾向为基于组合之前的特征进行改进之后的特征。
目前的方法泛化性较差,在预测不同细胞系和不同类型的染色质环时性能难以满足要求。而在实际应用中,针对每种细胞系中每种类型的染色质环构建多个预测模型非常费时费力且不现实,因而实用性较差。
本实施例仅使用DNA序列数据一种数据,构建了一个基于深度学习方法预测CTCF介导的染色质环的高精度高泛化性模型有效地解决了现有技术中针对不同细胞系或不同类型的染色质环需要构建不同的预测模型导致的数据要求高、预测精度低和泛化性能差的问题。
因为本实施例提取的的第一特征值可以有效表征不同细胞系和不同类型中的染色质环,所以可以使构建的模型有强壮的鲁棒性和泛化能力,因此可以直接进行跨细胞系和跨类型的预测而无需重新训练模型。
由于染色质环类型的差异,其序列分布在不同的类型中呈现相反的趋势。因此,使用传统的特征提取方法提取的不同类型染色质环的DNA序列的特征值分布呈相反的趋势DNA序列,这会极大地降低模型预测染色质环的精度。
本方法首先基于传统的特征提取方法提出了三种新颖的特征提取方法。具体而言,我们改进了位置评分函数特征(PSF)、基于单链的位置特异性三核苷酸倾向(PSTNPss)和基于双链的位置特异性三核苷酸倾向(PSTNPds)三种特征,通过使用特征值的组合代替原本的特征值。
具体的组合方法就是对于上述每种特征,将特征向量所有特征值进行求和,目的是为了以整个序列的保守得分代替不同位点上子序列的保守得分,可以解决不同类型的染色质环中方向相反造成的特征向量分布相反的问题,因此可以有效提升预测不同类型染色质环的能力,并将改进后的特征分别命名为组合位置评分函数(CPSF)、组合基于单链的位置特异性三核苷酸倾向(CPSTNPss)和组合基于双链的位置特异性三核苷酸倾向(CPSTNPds)。
随后,我们经过同类型染色质环验证和跨类型染色质环验证,这里的验证指的是选择模型使用哪些特征提取算法的过程,具体而言是,例如,对比了31种特征的性能之后确定五种最优的特征即本研究使用的特征,最终选择了信息量最大的五种特征反向互补Kmer(RCKmer)、CPSF、CPSTNPss、CPSTNPds和核苷酸对谱编码(NPSE),并将它们进行融合作为模型的输入。这个就是本实施例使用的五种特征,具体地说,本实施例一共就是用了这五种特征,其中三种(带组合的三种)是我们改进了原本的并首创提出的,最后将这五种一起融合作为输入,前面相应的部分我已进行更改,应该不会再有歧义由于改进的特征有效地解决了不同类型染色质环序列方向差异的问题以及融合的特征包含了最大信息量的特征,因此我们的方法从数据层面有效提高了模型的预测精度和泛化性能。
具体地,所述训练深度学习预测模型的过程,包括:
获取DNA序列样本,并将DNA序列样本划分为训练集和测试集;
测试集划分为新的训练集和验证集;
基于新的训练集中的DNA序列样本训练深度学习预测模型;
基于验证集中的DNA序列样本对训练好的深度学习模型进行验证;
基于测试集中的DNA序列样本,利用训练好的深度学习预测模型进行测试并评估模型的性能。
其中,所述深度学习预测模型包括输入层、三层卷积神经网络层、双向长短期记忆神经网络层以及输出层;每层所述卷积神经网络层采用relu激活函数增强卷积神经网络层的非线性特征;
第一层卷积神经网络层和第二卷积神经网络层之间设有第一最大池化层和第一dropout层;第二层卷积神经网络层和第三层卷积神经网络层之间设有第二最大池化层和第二dropout层;
所述第三层卷积神经网络层还连接双向长短期记忆神经网络层;所述双向长短期记忆神经网络层用于捕获数据前后的顺序关系,之后设有第三dropout层。(补充回复:卷积层、双向长短期记忆神经网络均为深度学习基础原理,卷积层进行卷积计算提取数据的复杂特征,双向长短期记忆神经网络捕获数据的顺序关系。由于神经网络中巨大的参数量,因此无法给出具体计算细节,相对具体来说的话,预测的样本进入模型之前的特征向量矩阵形状为(1222,1)的矩阵张量,通过第一层卷积层之后形状为(1218,32)的矩阵张量,通过第一最大池化层之后形状为(609,32),通过第一dropout层之后形状为(609,32),通过第二层卷积层之后形状为(605,32)的矩阵张量,通过第二最大池化层之后形状为(302,32),通过第二dropout层之后形状为(302,32),通过第三层卷积层之后形状为(298,32)的矩阵张量,通过双向长短期记忆神经网络之后形状为(298,64)的矩阵张量,然后压平并通过第三dropout层之后变为长度为19072的一维向量,最后通过带有sigmoid激活函数的全连接层之后,输出为1个值,即为预测概率值。)
采用带有sigmoid激活函数和1个节点的全连接层将所述深度学习预测模型输出的预测结果映射为最终的预测概率;
如果预测概率超过0.5,则认定预测结果为染色质环,否则认定预测结果为非染色质环。
由于卷积层的堆叠可以有效提取数据的复杂特征以及双向LSTM可以有效捕捉数据前后的顺序关系,我们构建了一个集成了三层CNN和双向LSTM的深度学习模型(CLNN-loop),如图6所示。
具体而言,每层CNN中我们都使用“relu”激活函数增强神经网络的非线性特性,并在每两层CNN之间都添加了最大池化层用于通过下采样的方式提高模型的鲁棒性,避免过拟合。在这之后我们还添加了双向LSTM层用于捕获数据前后的顺序关系。除此之外,我们还添加了dropout层通过按照概率从网络中临时丢弃一些神经网络单元有效避免过拟合。dropout层原理:每一次迭代时会按照指定概率将神经节点的输出置零,为深度学习基础原理。最后,我们通过使用“sigmoid”作为激活函数的全连接层将输出映射为最终的预测概率,其位于整个模型的最后,仅带有一个节点,该全连接层使用sigmoid激活函数处理输出;全连接层起分类的作用,具体计算过程为深度学习基础原理,如果预测概率超过0.5,则认为预测结果为染色质环,否则认为预测结果为非染色质环。我们通过改进模型的结构,从模型层面进一步提升了预测精度和泛化性能,更全面地满足实际应用的要求。模型的结构如图6所示。
与已有技术相比,本实施例的方法首先改进并提出了一种新的特征提取方法,从而有效提高了模型的泛化能力;之后构建了一个新颖的集成了CNN和双向LSTM的深度学习模型,进一步提高模型的性能。
作为对比,我们首先评估了我们的方法和已有的方法在预测相同细胞系中相同类型的染色质环的性能,如图2、图3所示。其中,图2中A-D分别代表模型预测K562细胞系的四种类型的染色质环的性能,图3中E-H分别代表模型预测MCF-7细胞系的四种类型的染色质环的性能。从图2、图3中可以看出,我们提出的模型(CLNN-loop)与现有模型相比有着更卓越的性能。
随后,我们进一步对比了我们的方法与先前研究的方法的泛化能力,如图4、图5所示。图4为先前研究中的方法(Deep-loop)的AUC值的热图,图5为本方法(CLNN-loop)的AUC值的热图,X轴为训练集的细胞系和类型,Y轴为测试集的细胞系和类型,FF代表正向正向对类型,FR代表正向反向对类型,RF代表反向正向对类型,RR代表反向反向对类型。从图4、图5中我们可以看出,我们的方法与先前的方法相比具有明显的优势,尤其体现在预测不同细胞系或不同类型的染色质环的方面。更直观地讲,Deep-loop的64个结果的平均AUC值为0.9523,而CLNN-loop的64个结果的平均AUC值为0.9937,比前者高了4.35%。因此总体而言,我们提出的方法在预测精度和泛化性能上都有明显的改善,更加符合实际应用的需要。
最后,为确保模型的性能最优,我们通过网格搜索的方法调整了参数。我们调整的参数包括学习率、核的数量、核的大小以及LSTM单元的数量。表1展示了部分参数组合的结果。可以看出,模型的性能受到参数设置的影响,其中学习率为0.001、核的数量为32、核的大小为5、LSTM单元数为32的模型表现最好。因此,我们利用这种参数组合来构建我们的模型。
表1深度学习预测模型部分参数组合的性能
实施例二
本实施例提供了一种基于深度学习的染色质环预测系统,包括:
第一特征提取模块,被配置为提取不同类型的染色质环序列的第一特征值;
第二特征提取模块,被配置为基于所述第一特征值进行染色质环验证,得到第二特征值;
染色质预测模块,被配置为基于所述第二特征值,利用训练好的深度学习预测模型,得到染色质环的预测结果。
上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的一种基于深度学习的染色质环预测方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的一种基于深度学习的染色质环预测方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种基于深度学习的染色质环预测方法,其特征在于,包括:
提取不同类型的染色质环的DNA序列的第一特征值;
基于所述第一特征值进行染色质环验证特征融合,得到第二特征值;
基于所述第二特征值,利用训练好的深度学习预测模型,得到染色质环的预测结果;
其中,所述深度学习预测模型,包括第一层卷积神经网络层、第二层神经网络层和第三层神经网络层;所述第一层神经网络层和第二卷积神经网络层之间设有第一最大池化层和第一dropout层;第二层卷积神经网络层和第三层卷积神经网络层之间设有第二最大池化层和第二dropout层;
所述第三层卷积神经网络层之后设有双向长短期记忆神经网络层,所述双向长短期记忆神经网络层之后设有第三dropout层。
2.如权利要求1所述的一种基于深度学习的染色质环预测方法,其特征在于,所述第一特征值,包括:
反向互补Kmer特征、组合位置评分函数特征、组合基于单链的位置特异性三核苷酸倾向特征、组合基于双链的位置特异性三核苷酸倾向特征和核苷酸对谱编码特征。
3.如权利要求2所述的一种基于深度学习的染色质环预测方法,其特征在于,所述组合位置评分函数特征、组合基于单链的位置特异性三核苷酸倾向特征和组合基于双链的位置特异性三核苷酸倾向特征是分别将各自特征向量的所有特征值进行求和得到的。
4.如权利要求1所述的一种基于深度学习的染色质环预测方法,其特征在于,基于所述第一特征值进行特征融合,得到第二特征值,包括:
将第一特征值包含的反向互补Kmer特征、组合位置评分函数特征、组合基于单链的位置特异性三核苷酸倾向特征、组合基于双链的位置特异性三核苷酸倾向特征和核苷酸对谱编码特征进行特征融合;
得到五种特征的融合结果,即第二特征值。
5.如权利要求1所述的一种基于深度学习的染色质环预测方法,其特征在于,所述训练深度学习预测模型的过程,包括:
获取DNA序列样本,并将DNA序列样本划分为训练集和测试集;
测试集划分为新的训练集和验证集;
基于新的训练集中的DNA序列样本训练深度学习预测模型;
基于验证集中的DNA序列样本对训练好的深度学习模型进行验证;
基于测试集中的DNA序列样本,利用训练好的深度学习预测模型进行测试并评估模型的性能。
6.如权利要求1所述的一种基于深度学习的染色质环预测方法,其特征在于,每层卷积神经网络层采用relu激活函数增强卷积神经网络层的非线性特征;
所述双向长短期记忆神经网络层用于捕获数据前后的顺序关系。
7.如权利要求6所述的一种基于深度学习的染色质环预测方法,其特征在于,采用sigmoid激活函数将所述深度学习预测模型输出的预测结果映射为最终的预测概率;
如果预测概率超过设定值,则认定预测结果为染色质环,否则认定预测结果为非染色质环。
8.一种基于深度学习的染色质环预测系统,其特征在于,包括:
第一特征提取模块,被配置为提取不同类型的染色质环的DNA序列的第一特征值;
第二特征提取模块,被配置为基于所述第一特征值进行特征融合,得到第二特征值;
染色质预测模块,被配置为基于所述第二特征值,利用训练好的深度学习预测模型,得到染色质环的预测结果;
其中,所述深度学习预测模型,包括第一层卷积神经网络层、第二层神经网络层和第三层神经网络层;所述第一层神经网络层和第二卷积神经网络层之间设有第一最大池化层和第一dropout层;第二层卷积神经网络层和第三层卷积神经网络层之间设有第二最大池化层和第二dropout层;
所述第三层卷积神经网络层之后设有双向长短期记忆神经网络层,所述双向长短期记忆神经网络层之后设有第三dropout层。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于深度学习的染色质环预测方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于深度学习的染色质环预测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210454801.XA CN114842914B (zh) | 2022-04-24 | 2022-04-24 | 一种基于深度学习的染色质环预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210454801.XA CN114842914B (zh) | 2022-04-24 | 2022-04-24 | 一种基于深度学习的染色质环预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114842914A true CN114842914A (zh) | 2022-08-02 |
CN114842914B CN114842914B (zh) | 2024-04-05 |
Family
ID=82568059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210454801.XA Active CN114842914B (zh) | 2022-04-24 | 2022-04-24 | 一种基于深度学习的染色质环预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842914B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016156469A1 (en) * | 2015-03-31 | 2016-10-06 | Max-Delbrück-Centrum für Molekulare Medizin | Genome architecture mapping on chromatin |
US20160312267A1 (en) * | 2015-04-26 | 2016-10-27 | Board Of Regents, The University Of Texas System | Mapping cell identity determinants in chromatin |
CN111192631A (zh) * | 2020-01-02 | 2020-05-22 | 中国科学院计算技术研究所 | 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统 |
CN111312329A (zh) * | 2020-02-25 | 2020-06-19 | 成都信息工程大学 | 基于深度卷积自动编码器的转录因子结合位点预测的方法 |
CN111696624A (zh) * | 2020-06-08 | 2020-09-22 | 天津大学 | 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 |
CN111971748A (zh) * | 2018-01-26 | 2020-11-20 | 宽腾矽公司 | 用于测序装置的机器学习使能脉冲及碱基判定 |
CN113160877A (zh) * | 2021-01-11 | 2021-07-23 | 东南大学 | 一种细胞特异性基因组g-四链体的预测方法 |
CN113362900A (zh) * | 2021-06-15 | 2021-09-07 | 邵阳学院 | 一种预测n4-乙酰胞苷的混合模型 |
CN113948160A (zh) * | 2020-07-15 | 2022-01-18 | 武汉Tcl集团工业研究院有限公司 | 一种药物筛选方法、设备及存储介质 |
-
2022
- 2022-04-24 CN CN202210454801.XA patent/CN114842914B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016156469A1 (en) * | 2015-03-31 | 2016-10-06 | Max-Delbrück-Centrum für Molekulare Medizin | Genome architecture mapping on chromatin |
US20160312267A1 (en) * | 2015-04-26 | 2016-10-27 | Board Of Regents, The University Of Texas System | Mapping cell identity determinants in chromatin |
CN111971748A (zh) * | 2018-01-26 | 2020-11-20 | 宽腾矽公司 | 用于测序装置的机器学习使能脉冲及碱基判定 |
CN111192631A (zh) * | 2020-01-02 | 2020-05-22 | 中国科学院计算技术研究所 | 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统 |
CN111312329A (zh) * | 2020-02-25 | 2020-06-19 | 成都信息工程大学 | 基于深度卷积自动编码器的转录因子结合位点预测的方法 |
CN111696624A (zh) * | 2020-06-08 | 2020-09-22 | 天津大学 | 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 |
CN113948160A (zh) * | 2020-07-15 | 2022-01-18 | 武汉Tcl集团工业研究院有限公司 | 一种药物筛选方法、设备及存储介质 |
CN113160877A (zh) * | 2021-01-11 | 2021-07-23 | 东南大学 | 一种细胞特异性基因组g-四链体的预测方法 |
CN113362900A (zh) * | 2021-06-15 | 2021-09-07 | 邵阳学院 | 一种预测n4-乙酰胞苷的混合模型 |
Non-Patent Citations (2)
Title |
---|
TUAN TRIEU等: "DeepMILO: a deep learning approach to predict the impact of non-coding sequence variants on 3D chromatin structure", 《GENOME BIOLOGY》, 26 March 2020 (2020-03-26) * |
张萌: "基因转录调控相关的生物信息学研究", 《全国优秀博硕士学位论文全文库(硕士) 基础科学辑》, 15 January 2021 (2021-01-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN114842914B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111008640B (zh) | 图像识别模型训练及图像识别方法、装置、终端及介质 | |
CN107862173B (zh) | 一种先导化合物虚拟筛选方法和装置 | |
CN110782015A (zh) | 神经网络的网络结构优化器的训练方法、装置及存储介质 | |
CN105956150B (zh) | 一种生成用户发型及妆容搭配建议的方法及装置 | |
CN114496083B (zh) | 细胞类型确定方法、装置、设备以及存储介质 | |
CN107958285A (zh) | 面向嵌入式系统的神经网络的映射方法及装置 | |
CN110838108A (zh) | 基于医疗图像的预测模型构建方法、预测方法及装置 | |
CN112951328B (zh) | 基于深度学习异构信息网络的miRNA-基因关系预测方法及系统 | |
CN111950622B (zh) | 基于人工智能的行为预测方法、装置、终端及存储介质 | |
CN112652358A (zh) | 基于三通道深度学习调控疾病靶点的药物推荐系统、计算机设备、存储介质 | |
CN109886554A (zh) | 违规行为判别方法、装置、计算机设备和存储介质 | |
CN114743600B (zh) | 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法 | |
CN112308825A (zh) | 一种基于SqueezeNet的农作物叶片病害识别方法 | |
CN112562791A (zh) | 基于知识图谱的药物靶标作用深度学习预测系统、计算机设备、存储介质 | |
CN114496099A (zh) | 细胞功能注释方法、装置、设备及介质 | |
CN118648063A (zh) | 基于图像确定变体致病性 | |
CN102713974B (zh) | 学习装置、识别装置、学习识别系统和学习识别装置 | |
Wang et al. | Structured feature sparsity training for convolutional neural network compression | |
CN115116139A (zh) | 基于图卷积网络的多粒度人体动作分类方法 | |
CN114093419A (zh) | 一种基于多任务深度学习的rbp结合位点预测方法 | |
CN108765137A (zh) | 一种信贷需求预测方法和系统、存储介质 | |
CN114743590A (zh) | 基于图卷积神经网络的药物-靶标亲和力预测系统、计算机设备、存储介质 | |
CN114842914A (zh) | 一种基于深度学习的染色质环预测方法及系统 | |
Mao et al. | DAE-Mask: a novel deep-learning-based automatic detection model for in-field wheat diseases | |
CN116386725A (zh) | 联合病理组学特征的肿瘤差异基因表达谱预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |