CN114582420A - 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统 - Google Patents

一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统 Download PDF

Info

Publication number
CN114582420A
CN114582420A CN202210249814.3A CN202210249814A CN114582420A CN 114582420 A CN114582420 A CN 114582420A CN 202210249814 A CN202210249814 A CN 202210249814A CN 114582420 A CN114582420 A CN 114582420A
Authority
CN
China
Prior art keywords
fault
sequence
transcription factor
scale
tolerant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210249814.3A
Other languages
English (en)
Other versions
CN114582420B (zh
Inventor
殷宇航
申龙晨
姜元昊
高尚
於东军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN202210249814.3A priority Critical patent/CN114582420B/zh
Publication of CN114582420A publication Critical patent/CN114582420A/zh
Application granted granted Critical
Publication of CN114582420B publication Critical patent/CN114582420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统,包括:在特征表示阶段引入容错机制,将原始DNA序列和其二阶容错序列结合并转换为特征向量;构建基于多尺度密集连接的深度神经网络;将全局数据集输入基于多尺度密集连接的深度神经网络进行预训练;基于预训练模型与各个子数据集,进一步对深度神经网络进行迁移学习;将待预测DNA序列输入迁移训练后的深度神经网络,输出对应的DNA序列结合转录因子的概率,本发明利用容错编码丰富DNA序列的特征,密集连接网络提取了序列的高阶特征,多尺度卷积进一步捕获不同尺度的特征,三者结合使得深度神经网络的预测精度和收敛速度得到提升。

Description

一种基于容错编码及多尺度密集连接网络的转录因子结合位 点预测方法及系统
技术领域
本发明属于计算机技术及生物信息技术的交叉领域,特别是涉及一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统。
背景技术
在分子生物学中,可以与基因上游的特定核苷酸序列结合的蛋白质称为转录因子。转录因子结合位点(TFBS)是与特定转录因子结合的DNA片段,它被称为基序,通常位于基因的上游区域。基序的长度一般在4-30bp的范围内,并显示出明显的序列保守性,即DNA中的碱基序列在转录过程中基本保持不变。因此,它们通常以类似的形式出现,但允许一些变化。TFBS与转录因子相互作用以调节基因的转录过程。识别序列中的这些结合区域,即TFBS识别,在基因调控和生物分子功能中起关键作用。
在早期识别TFBS的任务中,传统的机器学习技术被广泛应用。例如,Nitin等人使用支持向量机组合不同的特征来构建可以识别DNA结合蛋白的模型。Wong等人结合了隐马尔科夫模型和信念传播来预测TFBS。Ghandi等人使用k-mers和支持向量机,开发了一种高效的数据结构,用于计算核矩阵以预测TFBS。然而,随着高通量测序技术的发展,测序成本与过去相比显著下降,各种生物学数据呈爆炸式增长。高通量测序技术奠定了生物信息学“大数据”的基础,基因序列数据的浪潮给后续基因组分析方法的研究和工具的开发带来了巨大的挑战,传统的机器学习算法无法满足当前对效率和精度的需求。
近年来,深度学习技术不断发展,由于其高效的性能,研究生物信息学和计算生物学的科学家也使用这些先进的深度学习技术来解决许多相关问题。Alipanahi等人开创性地开发了一种名为DeepBind的深度卷积神经网络模型,可用于预测DNA和RNA结合蛋白的序列特异性。考虑到不同转录因子的核苷酸依赖性和不同的结合长度会影响预测效果,HOCNN使用高阶编码方法在核苷酸之间建立高阶依赖性。KEGRU构建了一个用于特征学习和分类的深度双向门控递归单元模型。此方法通过将双向门控递归单元与k-mer嵌入相结合来识别TFBS。此外,DeepSite和DeepTF结合了CNN和RNN各自的优势,形成混合模型来预测TFBS。
虽然这些先进的深度学习方法取得了优异的成绩,但它们中的大多数只考虑了结合位点中碱基之间的独立关系,而相邻的碱基不仅可以提高识别性能,还可以产生更好的基序表示。此外,它们还忽略了DNA序列可能的部分变异以及测序技术本身的错误。在模型设计阶段,大多数方法只考虑使用固定的基序长度来捕获DNA序列中的结合特征,这样的方式忽略了基序长度并不是一个固定值的事实。由于当前技术存在着以上问题,TFBS的预测精度有待进一步的提高。
发明内容
针对现有技术中存在的不足,本发明提供了一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统,以此实现转录因子结合位点预测的准确预测。
本发明的目的是通过以下技术方案来实现的,一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,包括以下步骤:
步骤S1:对ChIP-seq数据集中的DNA序列进行容错编码,将原始DNA序列和其二阶容错序列结合并转换为特征向量;
步骤S2:构建基于多尺度密集连接的深度神经网络;
步骤S3:将全局数据集输入基于多尺度密集连接的深度神经网络进行预训练;
步骤S4:基于步骤S3获得的预训练模型与各个子数据集,进一步对深度神经网络进行迁移学习;
步骤S5:将待预测DNA序列输入步骤S4迁移学习后的深度神经网络,输出对应的DNA序列结合转录因子的概率。
优选地,所述步骤S1中,根据如下步骤逐个确定容错编码方式:
步骤S1-1:对于给定的原始DNA序列,分别使用大小为1和2的滑动窗口对其进行扫描,使用大小为1的滑动窗口进行扫描后,得到长度为L(L=101bp)的序列Seq1,该序列由{A,C,G,T}组成;使用尺寸为2的滑动窗口扫描后,得到序列Seq2,所述序列Seq2的长度等于L减1,其由{AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT}组成;
步骤S1-2:考虑到核苷酸序列的可能部分变异,使用通配符*来表示核苷酸的可能变异,即*可以表示{A,C,G,T}中的任何一个。例如,将二核苷酸{AA,CA,GA,TA}处理为*A,这代表二核苷酸中位置1处的突变。同样,如果二核苷酸中的位置2发生突变,则{AA,AC,AG,AT}被视为A*。根据由二核苷酸组成的序列Seq2,分别考虑位置1和位置2突变的可能性,生成由{*A,*C,*G,*T}组成的序列Seq3和由{A*,C*,G*,T*}组成的序列Seq4;
步骤S1-3:将序列Seq1、Seq3和Seq4相加,生成容错序列Seq,所述序列Seq的长度等于3乘L减2,它由{A,C,G,T,*A,*C,*G,*T,A*,C*,G*,T*}组成;
步骤S1-4:序列Seq中的每个字母都被编码为大小12的特征向量(A→[1,0,0,0,0,0,0,0,0,0,0,0],…,T*→[0,0,0,0,0,0,0,0,0,0,0,1])。深度神经网络的输入Si,j由以下等式编码:
Figure BDA0003545331220000031
其中i∈[1,301],j∈[1,12]。
优选地,所述步骤S2中,根据如下步骤构建深度神经网络:
步骤S2-1:使用原始DNA序列和其二阶容错序列结合并转换为特征向量作为深度神经网络的输入;
步骤S2-2:首先经过多尺度卷积进行处理,之后经过dense block模块进行处理;
步骤S2-3:依次执行步骤S2-2,最后执行全局平均池化,对整个网络的结构进行全连接层,然后连接softmax分类器生成两个标签的概率分布。
优选的,所述步骤S2-2中经过多尺度卷积处理包括以下步骤:首先使用大小为1×3、1×5和1×7的三个卷积核进行特征提取,之后使用ReLU激活函数,然后拼接三个分支并使用最大池化层进行进一步的向下采样;
所述步骤S2-2中经过dense block模块处理包括以下步骤:所述dense block模块包括dense layer,在dense layer中,前一层的输出首先分别通过批归一化层和ReLU层,其次通过1×1卷积,这不仅可以减小维度,减少计算量,还可以整合每个通道的特性;之后通过批量归一化层和ReLU层,再通过3个大小分别为1×3,1×5和1×7的卷积层,最后,将三个卷积提取的特征与该层的原始输入特征相结合,形成该层的输出。
在每个dense block之间,使用批归一化层和ReLU层,并且还使用大小分别为1×3,1×5和1×7的多尺度卷积来提取特征。之后用平均池化层来减少参数数量,节省计算能力,这也在一定程度上控制了拟合;在最后一个dense block的末尾,执行全局平均池化,对整个网络的结构进行正则化,防止过度拟合,然后连接softmax分类器生成两个标签的概率分布。
优选的,所述步骤S2-2中dense block模块为3个,每个dense block模块中包括dense layer,所述每个dense block模块中所包含的dense layer的个数分别为6、12和8,通道超参数设置为96,通道增长率设置为16。
优选地,所述步骤S3中,根据如下步骤进行预训练:
步骤S3-1:通过在四个不同细胞系数据集A549、H1-hESC、HUVEC和MCF-7上枚举每个超参数的可能值,以此搜索一组可以确保模型高性能的超参数;
步骤S3-2:在训练过程中,使用softmax交叉熵函数和随机梯度下降方法对模型进行优化;
步骤S3-3:将所得的一组可以确保模型高性能的超参数应用于全局数据集的训练中,以获得出色的预训练模型。
优选地,所述步骤S4中迁移训练包括以下步骤:
步骤S4-1:在迁移学习的过程中每个子数据集的学习率设置为0.0004,批处理参数设置为64;
步骤S4-2:使用预训练模型对690个ChIP-seq数据集分别执行迁移学习,以便能够更好的拟合具体的子数据集;
步骤S4-3:使用softmax交叉熵函数和随机梯度下降方法对模型进行优化,对深度神经网络中所有层的参数重新进行调整,并在每个数据集中记录模型的性能。
优选地,所述步骤S5还包括:将待预测DNA序列输入迁移学习后得到的深度神经网络,经过网络的前向计算,输出对应的DNA序列结合转录因子的概率。采用4个评价指标来验证一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法的效果。它们分别是准确性(Accuracy),精确性(Precision)、召回率(Recall)和F1分数(F1-score)。
Figure BDA0003545331220000051
Figure BDA0003545331220000052
Figure BDA0003545331220000053
Figure BDA0003545331220000054
其中,TP、FP、TN和FN分别是真正例(true positive)、假正例(false positive)、真反例(true negative)和假反例(false negative)。
一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测的系统,其特征在于,包括终端设备,采用互联网终端设备,所述终端设备包括处理器和计算机可读存储介质,处理器用于实现各指令,计算机可读存储介质用于存储多条指令。所述指令适于由处理器加载并执行所述的一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法。
所述计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法。
本发明具有以下有益效果:本发明利用容错编码丰富DNA序列的特征,密集连接网络提取序列的高阶特征,多尺度卷积进一步捕获不同尺度的特征,实现了转录因子结合位点的预测。在特征表示阶段引入容错机制,将原始DNA序列和其二阶容错序列结合并转换为特征向量。然后构建了基于多尺度密集连接的深度神经网络,将适用于迁移学习的超大规模数据集输入基于多尺度密集连接的深度神经网络进行预训练。将各个子数据集输入预训练模型,进一步对深度神经网络进行迁移学习。将待预测DNA序列输入迁移训练后的深度神经网络,输出对应的DNA序列结合转录因子的概率。在dense layer中运用多尺度卷积可以捕获不同尺度的特征,使特征更加丰富,进而提高预测性能。但由于其密集连接的结构,每一层的输出将作为后续层的输入,计算量大大增加,模型变得复杂,收敛速度变慢。与在dense block前使用单个卷积核输出的稀疏特征集相比,在dense block之前添加多尺度卷积可以理解为输出多个密集分布的子特征集。基于将稀疏矩阵分解为密集矩阵的原理,可以加快模型的收敛速度。容错编码、密集连接网络以及多尺度卷积的结合使得深度神经网络的预测精度和收敛速度得到提升。
附图说明
图1是一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法的流程图。
图2是容错编码方式示意图。
图3是多尺度密集连接的深度神经网络结构示意图。
具体实施方式
下面结合附图以及附图说明书对本发明中技术方案进行清楚、完整地描述。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本发明公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实验中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
在不冲突的情况下,本发明公开中的实施例及实施例中的特征可以相互组合。
如图1所示,一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,该方法包括以下步骤:
步骤S1:对ChIP-seq数据集中的DNA序列进行容错编码,将原始DNA序列和其二阶容错序列结合并转换为特征向量。所述容错编码方式具体流程中,包含子步骤如下:
子步骤1:对于给定的原始DNA序列,分别使用大小为1和2的滑动窗口对其进行扫描。使用大小为1的滑动窗口进行扫描后,得到长度为L(L=101bp)的序列Seq1,该序列由{A,C,G,T}组成。使用尺寸为2的滑动窗口扫描后,得到序列Seq2,所述序列Seq2的长度=L-1,其由{AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT}组成;
子步骤2:考虑到核苷酸序列的可能部分变异,使用通配符*来表示核苷酸的可能变异,即*可以表示{A,C,G,T}中的任何一个。例如,将二核苷酸{AA,CA,GA,TA}处理为*A,这代表二核苷酸中位置1处的突变。同样,如果二核苷酸中的位置2发生突变,则{AA,AC,AG,AT}被视为A*。根据由二核苷酸组成的序列Seq2,分别考虑位置1和位置2突变的可能性,生成由{*A,*C,*G,*T}组成的序列Seq3和由{A*,C*,G*,T*}组成的序列Seq4;
子步骤3:将序列Seq1、Seq3和Seq4相加,生成容错序列Seq,所述序列Seq的长度=3L-2,它由{A,C,G,T,*A,*C,*G,*T,A*,C*,G*,T*}组成;
子步骤4:序列Seq中的每个字母都被编码为大小12的特征向量(A→[1,0,0,0,0,0,0,0,0,0,0,0],…,T*→[0,0,0,0,0,0,0,0,0,0,0,1])。深度神经网络的输入Si,j由以下等式编码:
Figure BDA0003545331220000071
其中i∈[1,301],j∈[1,12]。
在本发明公开的一个或多个实施例中,容错编码的具体实施方式由图2所示。
步骤S2:构建基于多尺度密集连接的深度神经网络。具体流程中,包含子步骤如下:
子步骤1:使用DNA序列经过容错编码后得到的特征向量作为网络的输入;
子步骤2:首先使用大小为1×3、1×5和1×7的三个卷积核进行特征提取,之后使用ReLU激活函数,然后拼接三个分支并使用最大池化层进行进一步的向下采样;
子步骤3:构建由3个dense block模块构成的深度密集连接网络,每个denseblock模块中所包含的dense layer的个数分别为6、12和8。通道超参数设置为96,通道增长率设置为16;
子步骤4:在每个dense layer中,前一层的输出首先分别通过批归一化层和ReLU层,其次通过1×1卷积。这不仅可以减小维度,减少计算量,还可以整合每个通道的特性。同样,通过批量归一化层和ReLU层,再通过3个大小分别为1×3,1×5和1×7的卷积层。最后,将三个卷积提取的特征与该层的原始输入特征相结合,形成该层的输出;
子步骤5:在每个dense block之间,使用批归一化层和ReLU层,并且还使用大小分别为1×3,1×5和1×7的多尺度卷积来提取特征。之后用平均池化层来减少参数数量,节省计算能力,这也在一定程度上控制了拟合;
子步骤6:在最后一个dense block的末尾,执行全局平均池化,对整个网络的结构进行正则化,防止过度拟合,然后连接softmax分类器生成两个标签的概率分布。
在本公开的一个或多个实施例中,图3展示了一种多尺度密集连接网络结构。其中,A代表整体的网络结构,B代表dense block前的多尺度卷积结构,C代表dense layer内的多尺度卷积结构。
步骤S3:将全局数据集输入基于多尺度密集连接的深度神经网络进行预训练。具体流程中,包含子步骤如下:
子步骤1:通过在四个不同细胞系数据集A549、H1-hESC、HUVEC和MCF-7上枚举每个超参数的可能值,以此搜索一组可以确保模型高性能的超参数;
子步骤2:在训练过程中,使用softmax交叉熵函数和随机梯度下降方法对模型进行优化;
子步骤3:将所得的一组可以确保模型高性能的超参数应用于全局数据集的训练中,以获得出色的预训练模型。
在本公开的一个或多个实施例中,在预训练过程中使用到的数据集的样本分布如表1所示。
表1迁移学习预训练过程中使用到的数据集样本分布
Figure BDA0003545331220000091
步骤S4:基于预训练模型与各个子数据集,进一步对深度神经网络进行迁移学习。具体流程中,包含子步骤如下:
子步骤1:在迁移学习的过程中每个子数据集的学习率设置为0.0004,批处理参数设置为64;
子步骤2:使用预训练模型对690个ChIP-seq数据集分别执行迁移学习,以便能够更好的拟合具体的子数据集;
子步骤3:使用softmax交叉熵函数和随机梯度下降方法对模型进行优化,对深度神经网络中所有层的参数重新进行调整,并在每个数据集中记录模型的性能。
步骤S5:将待预测DNA序列输入步骤S4迁移学习后的深度神经网络,经过网络的前向计算,输出对应的DNA序列结合转录因子的概率。在本公开的一个或多个实施例中,采用了4个评价指标来验证一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法的效果。它们分别是准确性(Accuracy),精确性(Precision)、召回率(Recall)和F1分数(F1-score)。
Figure BDA0003545331220000092
Figure BDA0003545331220000093
Figure BDA0003545331220000094
Figure BDA0003545331220000095
其中,TP、FP、TN和FN分别是真正例(true positive)、假正例(false positive)、真反例(true negative)和假反例(false negative)。
一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测的系统,包括终端设备,采用互联网终端设备,所述终端设备包括处理器和计算机可读存储介质,处理器用于实现各指令,计算机可读存储介质用于存储多条指令。所述指令适于由处理器加载并执行所述的一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法。
所述计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,包括以下步骤:
步骤S1:对ChIP-seq数据集中的DNA序列进行容错编码,将原始DNA序列和其二阶容错序列结合并转换为特征向量;
步骤S2:构建基于多尺度密集连接的深度神经网络;
步骤S3:将全局数据集输入基于多尺度密集连接的深度神经网络进行预训练;
步骤S4:基于步骤S3获得的预训练模型与各个子数据集,进一步对深度神经网络进行迁移学习;
步骤S5:将待预测DNA序列输入步骤S4迁移学习后的深度神经网络,输出对应的DNA序列结合转录因子的概率。
2.根据权利要求1所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S1中容错编码方式包括以下步骤:
步骤S1-1:对于给定的原始DNA序列,分别使用大小为1和2的滑动窗口对其进行扫描,使用大小为1的滑动窗口进行扫描后,得到长度为L,L=101bp的序列Seq1,该序列由{A,C,G,T}组成;使用大小为2的滑动窗口扫描后,得序列Seq2,所述序列Seq2的长度=L-1,该序列由{AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT}组成;
步骤S1-2:使用通配符*来表示核苷酸的可能变异,即*可以表示{A,C,G,T}中的任何一个,将二核苷酸组成的序列Seq2中位置1处的突变处理为由{*A,*C,*G,*T}组成的序列Seq3,将二核苷酸组成的序列Seq2中位置2处的突变处理为由由{A*,C*,G*,T*}组成的序列Seq4;
步骤S1-3:将序列Seq1、Seq3和Seq4相加,生成容错序列Seq,所述序列Seq的长度=3L-2,它由{A,C,G,T,*A,*C,*G,*T,A*,C*,G*,T*}组成;
步骤S1-4:将序列Seq中的每个字母都被编码为大小12的特征向量A→[1,0,0,0,0,0,0,0,0,0,0,0],…,T*→[0,0,0,0,0,0,0,0,0,0,0,1];深度神经网络的输入Si,j由以下等式编码:
Figure FDA0003545331210000011
其中i∈[1,301],j∈[1,12]。
3.根据权利要求1所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S2中构建基于多尺度密集连接的深度神经网络包括以下步骤:
步骤S2-1:使用原始DNA序列和其二阶容错序列结合并转换为特征向量作为深度神经网络的输入;
步骤S2-2:首先经过多尺度卷积进行处理,之后经过dense block模块进行处理;
步骤S2-3:依次执行步骤S2-2,最后执行全局平均池化,对整个网络的结构进行全连接层,然后连接softmax分类器生成两个标签的概率分布。
4.根据权利要求3所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S2-2中经过多尺度卷积处理包括以下步骤:首先使用大小为1×3、1×5和1×7的三个卷积核进行特征提取,之后使用ReLU激活函数,然后拼接三个分支并使用最大池化层进行进一步的向下采样;
所述步骤S2-2中经过dense block模块处理包括以下步骤:所述dense block模块包括denselayer,在denselayer中,前一层的输出首先分别通过批归一化层和ReLU层,其次通过1×1卷积,之后通过批量归一化层和ReLU层,再通过3个大小分别为1×3,1×5和1×7的卷积层,最后,将三个卷积提取的特征与该层的原始输入特征相结合,形成该层的输出。
5.根据权利要求3所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S2-2中dense block模块为3个,每个dense block模块中包括denselayer,所述每个dense block模块中所包含的dense layer的个数分别为6、12和8,通道超参数设置为96,通道增长率设置为16。
6.根据权利要求1所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S3中预训练包括以下步骤:
步骤S3-1:通过在四个不同细胞系数据集A549、H1-hESC、HUVEC和MCF-7上枚举每个超参数的可能值,以此搜索一组可以确保模型高性能的超参数;
步骤S3-2:在训练过程中,使用softmax交叉熵函数和随机梯度下降方法对模型进行优化;
步骤S3-3:将所得的一组可以确保模型高性能的超参数应用于全局数据集的训练中,以获得出色的预训练模型。
7.根据权利要求1所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S4中迁移训练包括以下步骤:
步骤S4-1:在迁移学习的过程中每个子数据集的学习率设置为0.0004,批处理参数设置为64;
步骤S4-2:使用预训练模型对690个ChIP-seq数据集分别执行迁移学习,以便能够更好的拟合具体的子数据集;
步骤S4-3:使用softmax交叉熵函数和随机梯度下降方法对模型进行优化,对深度神经网络中所有层的参数重新进行调整,并在每个数据集中记录模型的性能。
8.根据权利要求1所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法,其特征在于,所述步骤S5还包括:将待预测DNA序列输入迁移学习后得到的深度神经网络,经过网络的前向计算,输出对应的DNA序列结合转录因子的概率,采用4个评价指标来验证一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法的效果,它们分别是准确性Accuracy、精确性Precision、召回率Recall和F1分数F1-score;
Figure FDA0003545331210000031
Figure FDA0003545331210000032
Figure FDA0003545331210000033
Figure FDA0003545331210000034
其中,TP、FP、TN和FN分别是真正例true positive、假正例false positive、真反例true negative和假反false negative。
9.一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测的系统,其特征在于,包括终端设备,所述终端设备包括处理器和计算机可读存储介质,处理器用于实现各指令,计算机可读存储介质用于存储多条指令。
10.根据权利要求9所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测的系统,其特征在于,所述计算机可读存储介质存储的多条指令为权利要求1-8所述的基于容错编码及多尺度密集连接网络的转录因子结合位点预测的方法。
CN202210249814.3A 2022-03-14 2022-03-14 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统 Active CN114582420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210249814.3A CN114582420B (zh) 2022-03-14 2022-03-14 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210249814.3A CN114582420B (zh) 2022-03-14 2022-03-14 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统

Publications (2)

Publication Number Publication Date
CN114582420A true CN114582420A (zh) 2022-06-03
CN114582420B CN114582420B (zh) 2024-08-20

Family

ID=81774519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210249814.3A Active CN114582420B (zh) 2022-03-14 2022-03-14 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统

Country Status (1)

Country Link
CN (1) CN114582420B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809742A (zh) * 2024-03-01 2024-04-02 鲁东大学 一种基于深度迁移学习的调控变异预测方法
WO2024183096A1 (zh) * 2023-03-03 2024-09-12 深圳理工大学(筹) 一种转录因子靶基因关系预测方法、系统、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101593045B1 (ko) * 2014-11-12 2016-02-12 인하대학교 산학협력단 결합 상대방을 고려하여 dna 서열에서 단백질과 결합하는 부위를 예측하는 방법
CN112382338A (zh) * 2020-11-16 2021-02-19 南京理工大学 基于自注意力残差网络的dna-蛋白质结合位点预测方法
CN112863598A (zh) * 2021-03-11 2021-05-28 同济大学 一种基于深度学习的dna序列基元挖掘方法和系统
CN113593634A (zh) * 2021-08-06 2021-11-02 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101593045B1 (ko) * 2014-11-12 2016-02-12 인하대학교 산학협력단 결합 상대방을 고려하여 dna 서열에서 단백질과 결합하는 부위를 예측하는 방법
CN112382338A (zh) * 2020-11-16 2021-02-19 南京理工大学 基于自注意力残差网络的dna-蛋白质结合位点预测方法
CN112863598A (zh) * 2021-03-11 2021-05-28 同济大学 一种基于深度学习的dna序列基元挖掘方法和系统
CN113593634A (zh) * 2021-08-06 2021-11-02 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
许可;高尚;: "深度卷积神经网络LeNet-5和ResNet的对比以及应用分析", 电子设计工程, no. 02, 20 January 2020 (2020-01-20) *
魏志森等: "基于加权PSSM直方图和随机森林集成的蛋白质交互作用位点预测", 南京理工大学学报(自然科学版), vol. 39, no. 4, 31 August 2015 (2015-08-31), pages 379 - 385 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024183096A1 (zh) * 2023-03-03 2024-09-12 深圳理工大学(筹) 一种转录因子靶基因关系预测方法、系统、设备和介质
CN117809742A (zh) * 2024-03-01 2024-04-02 鲁东大学 一种基于深度迁移学习的调控变异预测方法
CN117809742B (zh) * 2024-03-01 2024-04-26 鲁东大学 一种基于深度迁移学习的调控变异预测方法

Also Published As

Publication number Publication date
CN114582420B (zh) 2024-08-20

Similar Documents

Publication Publication Date Title
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
Chen et al. Interpretable RNA foundation model from unannotated data for highly accurate RNA structure and function predictions
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN114582420B (zh) 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统
CN110910951A (zh) 一种基于渐进式神经网络预测蛋白质与配体结合自由能的方法
Ranawana et al. A neural network based multi-classifier system for gene identification in DNA sequences
CN114023376B (zh) 基于自注意力机制的rna-蛋白质结合位点预测方法和系统
CN109215740A (zh) 基于Xgboost的全基因组RNA二级结构预测方法
CN112599187B (zh) 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
CN109147866A (zh) 基于采样与集成学习的蛋白质-dna绑定残基预测方法
CN114420211A (zh) 一种基于注意力机制的rna-蛋白质结合位点预测方法
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
CN116312748A (zh) 基于多头注意力机制的增强子-启动子相互作用预测模型构建方法
Chakraborty et al. Predicting MicroRNA sequence using CNN and LSTM stacked in Seq2Seq architecture
Manzoor et al. Protein encoder: An autoencoder-based ensemble feature selection scheme to predict protein secondary structure
Chen et al. REDfold: accurate RNA secondary structure prediction using residual encoder-decoder network
Yuan et al. DeCban: prediction of circRNA-RBP interaction sites by using double embeddings and cross-branch attention networks
Zhao et al. DFpin: Deep learning–based protein-binding site prediction with feature-based non-redundancy from RNA level
US20230298692A1 (en) Method, System and Computer Program Product for Determining Presentation Likelihoods of Neoantigens
CN113611354A (zh) 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法
CN116343908B (zh) 融合dna形状特征的蛋白质编码区域预测方法、介质和装置
CN117524297A (zh) 一种基于条件扩散模型的核糖核酸二级结构预测方法
Zhu et al. GSRNet, an adversarial training-based deep framework with multi-scale CNN and BiGRU for predicting genomic signals and regions
Sree et al. PSMACA: An automated protein structure prediction using MACA (multiple attractor cellular automata)
Pan et al. MCNN: multiple convolutional neural networks for RNA-protein binding sites prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant