CN114582420A - 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统 - Google Patents
一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统 Download PDFInfo
- Publication number
- CN114582420A CN114582420A CN202210249814.3A CN202210249814A CN114582420A CN 114582420 A CN114582420 A CN 114582420A CN 202210249814 A CN202210249814 A CN 202210249814A CN 114582420 A CN114582420 A CN 114582420A
- Authority
- CN
- China
- Prior art keywords
- fault
- sequence
- transcription factor
- scale
- tolerant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108091023040 Transcription factor Proteins 0.000 title claims abstract description 49
- 102000040945 Transcription factor Human genes 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000027455 binding Effects 0.000 title claims abstract description 33
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000013526 transfer learning Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 9
- 238000013508 migration Methods 0.000 claims description 8
- 230000005012 migration Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 239000002773 nucleotide Substances 0.000 claims description 8
- 125000003729 nucleotide group Chemical group 0.000 claims description 8
- 238000001353 Chip-sequencing Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 230000035772 mutation Effects 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 108091006089 DNA- and RNA-binding proteins Proteins 0.000 description 1
- 102000052510 DNA-Binding Proteins Human genes 0.000 description 1
- 108700020911 DNA-Binding Proteins Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Computation (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统,包括:在特征表示阶段引入容错机制,将原始DNA序列和其二阶容错序列结合并转换为特征向量;构建基于多尺度密集连接的深度神经网络;将全局数据集输入基于多尺度密集连接的深度神经网络进行预训练;基于预训练模型与各个子数据集,进一步对深度神经网络进行迁移学习;将待预测DNA序列输入迁移训练后的深度神经网络,输出对应的DNA序列结合转录因子的概率,本发明利用容错编码丰富DNA序列的特征,密集连接网络提取了序列的高阶特征,多尺度卷积进一步捕获不同尺度的特征,三者结合使得深度神经网络的预测精度和收敛速度得到提升。
Description
技术领域
本发明属于计算机技术及生物信息技术的交叉领域,特别是涉及一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统。
背景技术
在分子生物学中,可以与基因上游的特定核苷酸序列结合的蛋白质称为转录因子。转录因子结合位点(TFBS)是与特定转录因子结合的DNA片段,它被称为基序,通常位于基因的上游区域。基序的长度一般在4-30bp的范围内,并显示出明显的序列保守性,即DNA中的碱基序列在转录过程中基本保持不变。因此,它们通常以类似的形式出现,但允许一些变化。TFBS与转录因子相互作用以调节基因的转录过程。识别序列中的这些结合区域,即TFBS识别,在基因调控和生物分子功能中起关键作用。
在早期识别TFBS的任务中,传统的机器学习技术被广泛应用。例如,Nitin等人使用支持向量机组合不同的特征来构建可以识别DNA结合蛋白的模型。Wong等人结合了隐马尔科夫模型和信念传播来预测TFBS。Ghandi等人使用k-mers和支持向量机,开发了一种高效的数据结构,用于计算核矩阵以预测TFBS。然而,随着高通量测序技术的发展,测序成本与过去相比显著下降,各种生物学数据呈爆炸式增长。高通量测序技术奠定了生物信息学“大数据”的基础,基因序列数据的浪潮给后续基因组分析方法的研究和工具的开发带来了巨大的挑战,传统的机器学习算法无法满足当前对效率和精度的需求。
近年来,深度学习技术不断发展,由于其高效的性能,研究生物信息学和计算生物学的科学家也使用这些先进的深度学习技术来解决许多相关问题。Alipanahi等人开创性地开发了一种名为DeepBind的深度卷积神经网络模型,可用于预测DNA和RNA结合蛋白的序列特异性。考虑到不同转录因子的核苷酸依赖性和不同的结合长度会影响预测效果,HOCNN使用高阶编码方法在核苷酸之间建立高阶依赖性。KEGRU构建了一个用于特征学习和分类的深度双向门控递归单元模型。此方法通过将双向门控递归单元与k-mer嵌入相结合来识别TFBS。此外,DeepSite和DeepTF结合了CNN和RNN各自的优势,形成混合模型来预测TFBS。
虽然这些先进的深度学习方法取得了优异的成绩,但它们中的大多数只考虑了结合位点中碱基之间的独立关系,而相邻的碱基不仅可以提高识别性能,还可以产生更好的基序表示。此外,它们还忽略了DNA序列可能的部分变异以及测序技术本身的错误。在模型设计阶段,大多数方法只考虑使用固定的基序长度来捕获DNA序列中的结合特征,这样的方式忽略了基序长度并不是一个固定值的事实。由于当前技术存在着以上问题,TFBS的预测精度有待进一步的提高。
发明内容
针对现有技术中存在的不足,本发明提供了一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统,以此实现转录因子结合位点预测的准确预测。
本发明的目的是通过以下技术方案来实现的,一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,包括以下步骤:
步骤S1:对ChIP-seq数据集中的DNA序列进行容错编码,将原始DNA序列和其二阶容错序列结合并转换为特征向量;
步骤S2:构建基于多尺度密集连接的深度神经网络;
步骤S3:将全局数据集输入基于多尺度密集连接的深度神经网络进行预训练;
步骤S4:基于步骤S3获得的预训练模型与各个子数据集,进一步对深度神经网络进行迁移学习;
步骤S5:将待预测DNA序列输入步骤S4迁移学习后的深度神经网络,输出对应的DNA序列结合转录因子的概率。
优选地,所述步骤S1中,根据如下步骤逐个确定容错编码方式:
步骤S1-1:对于给定的原始DNA序列,分别使用大小为1和2的滑动窗口对其进行扫描,使用大小为1的滑动窗口进行扫描后,得到长度为L(L=101bp)的序列Seq1,该序列由{A,C,G,T}组成;使用尺寸为2的滑动窗口扫描后,得到序列Seq2,所述序列Seq2的长度等于L减1,其由{AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT}组成;
步骤S1-2:考虑到核苷酸序列的可能部分变异,使用通配符*来表示核苷酸的可能变异,即*可以表示{A,C,G,T}中的任何一个。例如,将二核苷酸{AA,CA,GA,TA}处理为*A,这代表二核苷酸中位置1处的突变。同样,如果二核苷酸中的位置2发生突变,则{AA,AC,AG,AT}被视为A*。根据由二核苷酸组成的序列Seq2,分别考虑位置1和位置2突变的可能性,生成由{*A,*C,*G,*T}组成的序列Seq3和由{A*,C*,G*,T*}组成的序列Seq4;
步骤S1-3:将序列Seq1、Seq3和Seq4相加,生成容错序列Seq,所述序列Seq的长度等于3乘L减2,它由{A,C,G,T,*A,*C,*G,*T,A*,C*,G*,T*}组成;
步骤S1-4:序列Seq中的每个字母都被编码为大小12的特征向量(A→[1,0,0,0,0,0,0,0,0,0,0,0],…,T*→[0,0,0,0,0,0,0,0,0,0,0,1])。深度神经网络的输入Si,j由以下等式编码:
其中i∈[1,301],j∈[1,12]。
优选地,所述步骤S2中,根据如下步骤构建深度神经网络:
步骤S2-1:使用原始DNA序列和其二阶容错序列结合并转换为特征向量作为深度神经网络的输入;
步骤S2-2:首先经过多尺度卷积进行处理,之后经过dense block模块进行处理;
步骤S2-3:依次执行步骤S2-2,最后执行全局平均池化,对整个网络的结构进行全连接层,然后连接softmax分类器生成两个标签的概率分布。
优选的,所述步骤S2-2中经过多尺度卷积处理包括以下步骤:首先使用大小为1×3、1×5和1×7的三个卷积核进行特征提取,之后使用ReLU激活函数,然后拼接三个分支并使用最大池化层进行进一步的向下采样;
所述步骤S2-2中经过dense block模块处理包括以下步骤:所述dense block模块包括dense layer,在dense layer中,前一层的输出首先分别通过批归一化层和ReLU层,其次通过1×1卷积,这不仅可以减小维度,减少计算量,还可以整合每个通道的特性;之后通过批量归一化层和ReLU层,再通过3个大小分别为1×3,1×5和1×7的卷积层,最后,将三个卷积提取的特征与该层的原始输入特征相结合,形成该层的输出。
在每个dense block之间,使用批归一化层和ReLU层,并且还使用大小分别为1×3,1×5和1×7的多尺度卷积来提取特征。之后用平均池化层来减少参数数量,节省计算能力,这也在一定程度上控制了拟合;在最后一个dense block的末尾,执行全局平均池化,对整个网络的结构进行正则化,防止过度拟合,然后连接softmax分类器生成两个标签的概率分布。
优选的,所述步骤S2-2中dense block模块为3个,每个dense block模块中包括dense layer,所述每个dense block模块中所包含的dense layer的个数分别为6、12和8,通道超参数设置为96,通道增长率设置为16。
优选地,所述步骤S3中,根据如下步骤进行预训练:
步骤S3-1:通过在四个不同细胞系数据集A549、H1-hESC、HUVEC和MCF-7上枚举每个超参数的可能值,以此搜索一组可以确保模型高性能的超参数;
步骤S3-2:在训练过程中,使用softmax交叉熵函数和随机梯度下降方法对模型进行优化;
步骤S3-3:将所得的一组可以确保模型高性能的超参数应用于全局数据集的训练中,以获得出色的预训练模型。
优选地,所述步骤S4中迁移训练包括以下步骤:
步骤S4-1:在迁移学习的过程中每个子数据集的学习率设置为0.0004,批处理参数设置为64;
步骤S4-2:使用预训练模型对690个ChIP-seq数据集分别执行迁移学习,以便能够更好的拟合具体的子数据集;
步骤S4-3:使用softmax交叉熵函数和随机梯度下降方法对模型进行优化,对深度神经网络中所有层的参数重新进行调整,并在每个数据集中记录模型的性能。
优选地,所述步骤S5还包括:将待预测DNA序列输入迁移学习后得到的深度神经网络,经过网络的前向计算,输出对应的DNA序列结合转录因子的概率。采用4个评价指标来验证一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法的效果。它们分别是准确性(Accuracy),精确性(Precision)、召回率(Recall)和F1分数(F1-score)。
其中,TP、FP、TN和FN分别是真正例(true positive)、假正例(false positive)、真反例(true negative)和假反例(false negative)。
一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测的系统,其特征在于,包括终端设备,采用互联网终端设备,所述终端设备包括处理器和计算机可读存储介质,处理器用于实现各指令,计算机可读存储介质用于存储多条指令。所述指令适于由处理器加载并执行所述的一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法。
所述计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法。
本发明具有以下有益效果:本发明利用容错编码丰富DNA序列的特征,密集连接网络提取序列的高阶特征,多尺度卷积进一步捕获不同尺度的特征,实现了转录因子结合位点的预测。在特征表示阶段引入容错机制,将原始DNA序列和其二阶容错序列结合并转换为特征向量。然后构建了基于多尺度密集连接的深度神经网络,将适用于迁移学习的超大规模数据集输入基于多尺度密集连接的深度神经网络进行预训练。将各个子数据集输入预训练模型,进一步对深度神经网络进行迁移学习。将待预测DNA序列输入迁移训练后的深度神经网络,输出对应的DNA序列结合转录因子的概率。在dense layer中运用多尺度卷积可以捕获不同尺度的特征,使特征更加丰富,进而提高预测性能。但由于其密集连接的结构,每一层的输出将作为后续层的输入,计算量大大增加,模型变得复杂,收敛速度变慢。与在dense block前使用单个卷积核输出的稀疏特征集相比,在dense block之前添加多尺度卷积可以理解为输出多个密集分布的子特征集。基于将稀疏矩阵分解为密集矩阵的原理,可以加快模型的收敛速度。容错编码、密集连接网络以及多尺度卷积的结合使得深度神经网络的预测精度和收敛速度得到提升。
附图说明
图1是一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法的流程图。
图2是容错编码方式示意图。
图3是多尺度密集连接的深度神经网络结构示意图。
具体实施方式
下面结合附图以及附图说明书对本发明中技术方案进行清楚、完整地描述。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本发明公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实验中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
在不冲突的情况下,本发明公开中的实施例及实施例中的特征可以相互组合。
如图1所示,一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,该方法包括以下步骤:
步骤S1:对ChIP-seq数据集中的DNA序列进行容错编码,将原始DNA序列和其二阶容错序列结合并转换为特征向量。所述容错编码方式具体流程中,包含子步骤如下:
子步骤1:对于给定的原始DNA序列,分别使用大小为1和2的滑动窗口对其进行扫描。使用大小为1的滑动窗口进行扫描后,得到长度为L(L=101bp)的序列Seq1,该序列由{A,C,G,T}组成。使用尺寸为2的滑动窗口扫描后,得到序列Seq2,所述序列Seq2的长度=L-1,其由{AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT}组成;
子步骤2:考虑到核苷酸序列的可能部分变异,使用通配符*来表示核苷酸的可能变异,即*可以表示{A,C,G,T}中的任何一个。例如,将二核苷酸{AA,CA,GA,TA}处理为*A,这代表二核苷酸中位置1处的突变。同样,如果二核苷酸中的位置2发生突变,则{AA,AC,AG,AT}被视为A*。根据由二核苷酸组成的序列Seq2,分别考虑位置1和位置2突变的可能性,生成由{*A,*C,*G,*T}组成的序列Seq3和由{A*,C*,G*,T*}组成的序列Seq4;
子步骤3:将序列Seq1、Seq3和Seq4相加,生成容错序列Seq,所述序列Seq的长度=3L-2,它由{A,C,G,T,*A,*C,*G,*T,A*,C*,G*,T*}组成;
子步骤4:序列Seq中的每个字母都被编码为大小12的特征向量(A→[1,0,0,0,0,0,0,0,0,0,0,0],…,T*→[0,0,0,0,0,0,0,0,0,0,0,1])。深度神经网络的输入Si,j由以下等式编码:
在本发明公开的一个或多个实施例中,容错编码的具体实施方式由图2所示。
步骤S2:构建基于多尺度密集连接的深度神经网络。具体流程中,包含子步骤如下:
子步骤1:使用DNA序列经过容错编码后得到的特征向量作为网络的输入;
子步骤2:首先使用大小为1×3、1×5和1×7的三个卷积核进行特征提取,之后使用ReLU激活函数,然后拼接三个分支并使用最大池化层进行进一步的向下采样;
子步骤3:构建由3个dense block模块构成的深度密集连接网络,每个denseblock模块中所包含的dense layer的个数分别为6、12和8。通道超参数设置为96,通道增长率设置为16;
子步骤4:在每个dense layer中,前一层的输出首先分别通过批归一化层和ReLU层,其次通过1×1卷积。这不仅可以减小维度,减少计算量,还可以整合每个通道的特性。同样,通过批量归一化层和ReLU层,再通过3个大小分别为1×3,1×5和1×7的卷积层。最后,将三个卷积提取的特征与该层的原始输入特征相结合,形成该层的输出;
子步骤5:在每个dense block之间,使用批归一化层和ReLU层,并且还使用大小分别为1×3,1×5和1×7的多尺度卷积来提取特征。之后用平均池化层来减少参数数量,节省计算能力,这也在一定程度上控制了拟合;
子步骤6:在最后一个dense block的末尾,执行全局平均池化,对整个网络的结构进行正则化,防止过度拟合,然后连接softmax分类器生成两个标签的概率分布。
在本公开的一个或多个实施例中,图3展示了一种多尺度密集连接网络结构。其中,A代表整体的网络结构,B代表dense block前的多尺度卷积结构,C代表dense layer内的多尺度卷积结构。
步骤S3:将全局数据集输入基于多尺度密集连接的深度神经网络进行预训练。具体流程中,包含子步骤如下:
子步骤1:通过在四个不同细胞系数据集A549、H1-hESC、HUVEC和MCF-7上枚举每个超参数的可能值,以此搜索一组可以确保模型高性能的超参数;
子步骤2:在训练过程中,使用softmax交叉熵函数和随机梯度下降方法对模型进行优化;
子步骤3:将所得的一组可以确保模型高性能的超参数应用于全局数据集的训练中,以获得出色的预训练模型。
在本公开的一个或多个实施例中,在预训练过程中使用到的数据集的样本分布如表1所示。
表1迁移学习预训练过程中使用到的数据集样本分布
步骤S4:基于预训练模型与各个子数据集,进一步对深度神经网络进行迁移学习。具体流程中,包含子步骤如下:
子步骤1:在迁移学习的过程中每个子数据集的学习率设置为0.0004,批处理参数设置为64;
子步骤2:使用预训练模型对690个ChIP-seq数据集分别执行迁移学习,以便能够更好的拟合具体的子数据集;
子步骤3:使用softmax交叉熵函数和随机梯度下降方法对模型进行优化,对深度神经网络中所有层的参数重新进行调整,并在每个数据集中记录模型的性能。
步骤S5:将待预测DNA序列输入步骤S4迁移学习后的深度神经网络,经过网络的前向计算,输出对应的DNA序列结合转录因子的概率。在本公开的一个或多个实施例中,采用了4个评价指标来验证一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法的效果。它们分别是准确性(Accuracy),精确性(Precision)、召回率(Recall)和F1分数(F1-score)。
其中,TP、FP、TN和FN分别是真正例(true positive)、假正例(false positive)、真反例(true negative)和假反例(false negative)。
一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测的系统,包括终端设备,采用互联网终端设备,所述终端设备包括处理器和计算机可读存储介质,处理器用于实现各指令,计算机可读存储介质用于存储多条指令。所述指令适于由处理器加载并执行所述的一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法。
所述计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,包括以下步骤:
步骤S1:对ChIP-seq数据集中的DNA序列进行容错编码,将原始DNA序列和其二阶容错序列结合并转换为特征向量;
步骤S2:构建基于多尺度密集连接的深度神经网络;
步骤S3:将全局数据集输入基于多尺度密集连接的深度神经网络进行预训练;
步骤S4:基于步骤S3获得的预训练模型与各个子数据集,进一步对深度神经网络进行迁移学习;
步骤S5:将待预测DNA序列输入步骤S4迁移学习后的深度神经网络,输出对应的DNA序列结合转录因子的概率。
2.根据权利要求1所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S1中容错编码方式包括以下步骤:
步骤S1-1:对于给定的原始DNA序列,分别使用大小为1和2的滑动窗口对其进行扫描,使用大小为1的滑动窗口进行扫描后,得到长度为L,L=101bp的序列Seq1,该序列由{A,C,G,T}组成;使用大小为2的滑动窗口扫描后,得序列Seq2,所述序列Seq2的长度=L-1,该序列由{AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT}组成;
步骤S1-2:使用通配符*来表示核苷酸的可能变异,即*可以表示{A,C,G,T}中的任何一个,将二核苷酸组成的序列Seq2中位置1处的突变处理为由{*A,*C,*G,*T}组成的序列Seq3,将二核苷酸组成的序列Seq2中位置2处的突变处理为由由{A*,C*,G*,T*}组成的序列Seq4;
步骤S1-3:将序列Seq1、Seq3和Seq4相加,生成容错序列Seq,所述序列Seq的长度=3L-2,它由{A,C,G,T,*A,*C,*G,*T,A*,C*,G*,T*}组成;
步骤S1-4:将序列Seq中的每个字母都被编码为大小12的特征向量A→[1,0,0,0,0,0,0,0,0,0,0,0],…,T*→[0,0,0,0,0,0,0,0,0,0,0,1];深度神经网络的输入Si,j由以下等式编码:
其中i∈[1,301],j∈[1,12]。
3.根据权利要求1所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S2中构建基于多尺度密集连接的深度神经网络包括以下步骤:
步骤S2-1:使用原始DNA序列和其二阶容错序列结合并转换为特征向量作为深度神经网络的输入;
步骤S2-2:首先经过多尺度卷积进行处理,之后经过dense block模块进行处理;
步骤S2-3:依次执行步骤S2-2,最后执行全局平均池化,对整个网络的结构进行全连接层,然后连接softmax分类器生成两个标签的概率分布。
4.根据权利要求3所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S2-2中经过多尺度卷积处理包括以下步骤:首先使用大小为1×3、1×5和1×7的三个卷积核进行特征提取,之后使用ReLU激活函数,然后拼接三个分支并使用最大池化层进行进一步的向下采样;
所述步骤S2-2中经过dense block模块处理包括以下步骤:所述dense block模块包括denselayer,在denselayer中,前一层的输出首先分别通过批归一化层和ReLU层,其次通过1×1卷积,之后通过批量归一化层和ReLU层,再通过3个大小分别为1×3,1×5和1×7的卷积层,最后,将三个卷积提取的特征与该层的原始输入特征相结合,形成该层的输出。
5.根据权利要求3所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S2-2中dense block模块为3个,每个dense block模块中包括denselayer,所述每个dense block模块中所包含的dense layer的个数分别为6、12和8,通道超参数设置为96,通道增长率设置为16。
6.根据权利要求1所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S3中预训练包括以下步骤:
步骤S3-1:通过在四个不同细胞系数据集A549、H1-hESC、HUVEC和MCF-7上枚举每个超参数的可能值,以此搜索一组可以确保模型高性能的超参数;
步骤S3-2:在训练过程中,使用softmax交叉熵函数和随机梯度下降方法对模型进行优化;
步骤S3-3:将所得的一组可以确保模型高性能的超参数应用于全局数据集的训练中,以获得出色的预训练模型。
7.根据权利要求1所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S4中迁移训练包括以下步骤:
步骤S4-1:在迁移学习的过程中每个子数据集的学习率设置为0.0004,批处理参数设置为64;
步骤S4-2:使用预训练模型对690个ChIP-seq数据集分别执行迁移学习,以便能够更好的拟合具体的子数据集;
步骤S4-3:使用softmax交叉熵函数和随机梯度下降方法对模型进行优化,对深度神经网络中所有层的参数重新进行调整,并在每个数据集中记录模型的性能。
8.根据权利要求1所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S5还包括:将待预测DNA序列输入迁移学习后得到的深度神经网络,经过网络的前向计算,输出对应的DNA序列结合转录因子的概率,采用4个评价指标来验证一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法的效果,它们分别是准确性Accuracy、精确性Precision、召回率Recall和F1分数F1-score;
其中,TP、FP、TN和FN分别是真正例true positive、假正例false positive、真反例true negative和假反false negative。
9.一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测的系统,其特征在于,包括终端设备,所述终端设备包括处理器和计算机可读存储介质,处理器用于实现各指令,计算机可读存储介质用于存储多条指令。
10.根据权利要求9所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测的系统,其特征在于,所述计算机可读存储介质存储的多条指令为权利要求1-8所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210249814.3A CN114582420B (zh) | 2022-03-14 | 2022-03-14 | 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210249814.3A CN114582420B (zh) | 2022-03-14 | 2022-03-14 | 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114582420A true CN114582420A (zh) | 2022-06-03 |
CN114582420B CN114582420B (zh) | 2024-08-20 |
Family
ID=81774519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210249814.3A Active CN114582420B (zh) | 2022-03-14 | 2022-03-14 | 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114582420B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809742A (zh) * | 2024-03-01 | 2024-04-02 | 鲁东大学 | 一种基于深度迁移学习的调控变异预测方法 |
WO2024183096A1 (zh) * | 2023-03-03 | 2024-09-12 | 深圳理工大学(筹) | 一种转录因子靶基因关系预测方法、系统、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101593045B1 (ko) * | 2014-11-12 | 2016-02-12 | 인하대학교 산학협력단 | 결합 상대방을 고려하여 dna 서열에서 단백질과 결합하는 부위를 예측하는 방법 |
CN112382338A (zh) * | 2020-11-16 | 2021-02-19 | 南京理工大学 | 基于自注意力残差网络的dna-蛋白质结合位点预测方法 |
CN112863598A (zh) * | 2021-03-11 | 2021-05-28 | 同济大学 | 一种基于深度学习的dna序列基元挖掘方法和系统 |
CN113593634A (zh) * | 2021-08-06 | 2021-11-02 | 中国海洋大学 | 一种融合dna形状特征的转录因子结合位点预测方法 |
-
2022
- 2022-03-14 CN CN202210249814.3A patent/CN114582420B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101593045B1 (ko) * | 2014-11-12 | 2016-02-12 | 인하대학교 산학협력단 | 결합 상대방을 고려하여 dna 서열에서 단백질과 결합하는 부위를 예측하는 방법 |
CN112382338A (zh) * | 2020-11-16 | 2021-02-19 | 南京理工大学 | 基于自注意力残差网络的dna-蛋白质结合位点预测方法 |
CN112863598A (zh) * | 2021-03-11 | 2021-05-28 | 同济大学 | 一种基于深度学习的dna序列基元挖掘方法和系统 |
CN113593634A (zh) * | 2021-08-06 | 2021-11-02 | 中国海洋大学 | 一种融合dna形状特征的转录因子结合位点预测方法 |
Non-Patent Citations (2)
Title |
---|
许可;高尚;: "深度卷积神经网络LeNet-5和ResNet的对比以及应用分析", 电子设计工程, no. 02, 20 January 2020 (2020-01-20) * |
魏志森等: "基于加权PSSM直方图和随机森林集成的蛋白质交互作用位点预测", 南京理工大学学报(自然科学版), vol. 39, no. 4, 31 August 2015 (2015-08-31), pages 379 - 385 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024183096A1 (zh) * | 2023-03-03 | 2024-09-12 | 深圳理工大学(筹) | 一种转录因子靶基因关系预测方法、系统、设备和介质 |
CN117809742A (zh) * | 2024-03-01 | 2024-04-02 | 鲁东大学 | 一种基于深度迁移学习的调控变异预测方法 |
CN117809742B (zh) * | 2024-03-01 | 2024-04-26 | 鲁东大学 | 一种基于深度迁移学习的调控变异预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114582420B (zh) | 2024-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798921B (zh) | 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置 | |
Chen et al. | Interpretable RNA foundation model from unannotated data for highly accurate RNA structure and function predictions | |
CN111312329B (zh) | 基于深度卷积自动编码器的转录因子结合位点预测的方法 | |
CN114582420B (zh) | 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统 | |
CN110910951A (zh) | 一种基于渐进式神经网络预测蛋白质与配体结合自由能的方法 | |
Ranawana et al. | A neural network based multi-classifier system for gene identification in DNA sequences | |
CN114023376B (zh) | 基于自注意力机制的rna-蛋白质结合位点预测方法和系统 | |
CN109215740A (zh) | 基于Xgboost的全基因组RNA二级结构预测方法 | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
CN109147866A (zh) | 基于采样与集成学习的蛋白质-dna绑定残基预测方法 | |
CN114420211A (zh) | 一种基于注意力机制的rna-蛋白质结合位点预测方法 | |
CN113571125A (zh) | 基于多层网络与图编码的药物靶点相互作用预测方法 | |
CN116312748A (zh) | 基于多头注意力机制的增强子-启动子相互作用预测模型构建方法 | |
Chakraborty et al. | Predicting MicroRNA sequence using CNN and LSTM stacked in Seq2Seq architecture | |
Manzoor et al. | Protein encoder: An autoencoder-based ensemble feature selection scheme to predict protein secondary structure | |
Chen et al. | REDfold: accurate RNA secondary structure prediction using residual encoder-decoder network | |
Yuan et al. | DeCban: prediction of circRNA-RBP interaction sites by using double embeddings and cross-branch attention networks | |
Zhao et al. | DFpin: Deep learning–based protein-binding site prediction with feature-based non-redundancy from RNA level | |
US20230298692A1 (en) | Method, System and Computer Program Product for Determining Presentation Likelihoods of Neoantigens | |
CN113611354A (zh) | 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 | |
CN116343908B (zh) | 融合dna形状特征的蛋白质编码区域预测方法、介质和装置 | |
CN117524297A (zh) | 一种基于条件扩散模型的核糖核酸二级结构预测方法 | |
Zhu et al. | GSRNet, an adversarial training-based deep framework with multi-scale CNN and BiGRU for predicting genomic signals and regions | |
Sree et al. | PSMACA: An automated protein structure prediction using MACA (multiple attractor cellular automata) | |
Pan et al. | MCNN: multiple convolutional neural networks for RNA-protein binding sites prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |