CN114864002A - 一种基于深度学习的转录因子结合位点识别方法 - Google Patents

一种基于深度学习的转录因子结合位点识别方法 Download PDF

Info

Publication number
CN114864002A
CN114864002A CN202210469236.4A CN202210469236A CN114864002A CN 114864002 A CN114864002 A CN 114864002A CN 202210469236 A CN202210469236 A CN 202210469236A CN 114864002 A CN114864002 A CN 114864002A
Authority
CN
China
Prior art keywords
data
model
transcription factor
binding site
factor binding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210469236.4A
Other languages
English (en)
Other versions
CN114864002B (zh
Inventor
黄德双
徐尤红
元昌安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Academy of Sciences
Original Assignee
Guangxi Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Academy of Sciences filed Critical Guangxi Academy of Sciences
Priority to CN202210469236.4A priority Critical patent/CN114864002B/zh
Publication of CN114864002A publication Critical patent/CN114864002A/zh
Application granted granted Critical
Publication of CN114864002B publication Critical patent/CN114864002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于深度学习的转录因子结合位点判别方法,包括以下步骤:获取免疫共沉淀测序和红蛋白修饰数据;对上述免疫共沉淀测序和组蛋白修饰数据进行数据处理并进行编码;构建DeepCR模型,将上述编码数据进行训练并优化参数,获得最优参数的模型;按照模型输入数据的格式给定序列,使用得到的模型判断其是否包含转录因子结合位点。本发明通过构建DeepCR模型准确识别转录因子结合位点。

Description

一种基于深度学习的转录因子结合位点识别方法
技术领域
本发明属于转录因子结合位点识别技术领域,尤其涉及一种基于深度学习的转录因子结合位点识别方法。
背景技术
转录因子的研究是生物信息学中的重点研究工作,是研究细胞转录过程的重要步骤。TF会和DNA的非编码区进行特异性结合并影响下游基因的表达,形成复杂的基因调控系统,此外还有大量的研究表明TF能指导疾病的诊断和治疗,所以准确识别TF结合位点(TFBinding Sites,TFBSs)就显得尤为关键。从最开始的序列比对算法到支持向量机为代表的机器学习算法再到神经网络模型,从独热编码到基于k-mer的编码再到embedding编码,TFBSs识别模型有了很大的完善与发展。但是这些模型基本上都是以DNA序列为代表的各种数据变体作为输入数据。
高通量测序技术的发展给我们带来了海量的DNA和蛋白质数据,如何从数据中挖掘有价值的信息成为了今天的热点研究方向。本文就另辟蹊径,重点研究输入数据对于TFBSs预测效果的影响。TF作为蛋白质的一种,但是它有着和DNA序列进行特异性结合的能力,因此DNA序列和TF调控的蛋白质产物或许就会有助于识别TFBSs。我们就尝试研究DNA序列、保守信息和表观基因组数据作为模型的输入数据的作用,为此提出了识别模型和定位模型。其中,识别模型用来识别给定的序列是否包含TFBSs,定位模型用来确定TFBSs的位置。
在TFBSs的识别模型中,我们研究了DNA序列、免疫共沉淀测序和组蛋白修饰信息作为输入数据的作用,同时还探讨了卷积层和循环层提取特征的区别。为此,本文提出了DeepCN和DeepCR两个模型,DeepCR使用两个卷积层来提取特征,DeepCR使用一个卷积层和一个循环层来提取特征。试验结果表明,不管是DeepCN模型还是DeepCR模型,免疫共沉淀测序信息和组蛋白修饰信息作为DNA序列的附加输入数据都有着显著的效果提升,并且两种数据全部加上时DeepCR模型比DeepCN模型效果更好。因此,亟需一种基于深度学习的转录因子结合位点识别方法。
发明内容
本发明的目的在于提出一种基于深度学习的转录因子结合位点识别方法,提高了转录因子结合位点的识别精度。
为实现上述目的,本发明提供了一种基于深度学习的转录因子结合位点识别方法,包括以下步骤:
获取免疫共沉淀测序和红蛋白修饰数据;
对上述免疫共沉淀测序和组蛋白修饰数据进行数据处理并进行编码;
构建DeepCR模型,将上述编码数据进行训练并优化参数,获得最优参数的模型;
按照模型输入数据的格式给定序列,使用得到的模型判断其是否包含转录因子结合位点。
可选的,所述数据处理的数据编码过程包括:根据所述免疫共沉淀测序和所述组蛋白修饰数据获得一条长度为n的DNA序列,根据所述长度为n的DNA序列进行数据编码获得一个长度为n、6通道的数据,其中前4个通道对应着{A、C、G、T}子序列的独热编码,后2个通道分别对应免疫共沉淀测序和组蛋白修饰数据。
可选的,所述数据处理的数据集构建过程包括:按照一定的比例选择正例样本和反例样本组成数据集,所述正例样本以结合位点为中心,向前后扩展选取长度为101bp的序列;所述反例样本选择在结合位点后3000个bp的位置。
可选的,构建所述DeepCR模型包括:所述DeepCR模型包括卷积层和循环层,所述卷积层为所有的局部基序计算一个得分,基于卷积层结合循环层,提取除了局部基序附近序列中的内部模式信息,基于所述卷积层提取的分数作为输入信息,用来识别基序得分序列的交互模式,引入的循环层主要用来更好地提取前序序列携带的特征信息。
可选的,训练所述DeepCR模型包括获取所述损失函数包括:基于所述正例样本和反例样本数据采用二分类计算损失函数,计算如下:
Figure BDA0003621384160000031
式中:yi表示样本i的label,正例为1,反例为0;pi表示样本i被预测为正例的概率。
可选的,训练所述DeepCR模型包括对所述编码数据进行分类。
可选的,优化所述DeepCR模型包括获取评价指标包括:选择使用Adam优化算法来更新参数,同时对于dropout层的丢弃率参数、L2正则化权重衰减参数和Adam算法当中使用的动量参数,采用网格搜索的策略来寻找最优组合参数。
可选的,所述正例样本为正例的数据中被预测为正的比例,所述反例样本为反例的数据中被预测为正例的比例。
本发明技术效果:本发明公开了一种基于深度学习的转录因子结合位点识别方法,免疫共沉淀测序信息和组蛋白修饰信息作为DNA序列的附加输入数据都有着显著的效果提升,并且两种数据全部加上时DeepCR模型比DeepCN模型效果更好,有效的提高了转录因子结合位点识别精度。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例基于深度学习的转录因子结合位点识别方法的流程示意图;
图2为本发明实施例DeepCN模型结构示意图;
图3为本发明实施例DeepCR模型结构示意图;
图4为本发明实施例DeepCN模型加上组蛋白修饰信息(histone modifications,HMS)、MDS(MeDIP-seqs,MDS)的AUC(左)和AR(右)示意图;
图5为本发明实施21个TFs数据集上取平均值的结果示意图;
图6为本发明实施例DeepCR模型加上HMS、MDS的AUC(左)和AR(右)示意图;
图7为本发明实施例DeepCR模型在21个TFs数据集上取平均值的结果示意图;
图8为本发明实施例DeepCN和DeepCR模型效果比较示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
如图1所示,本实施例中提供一种基于深度学习的转录因子结合位点识别方法,包括以下步骤:
获取免疫共沉淀测序和红蛋白修饰数据;
对上述免疫共沉淀测序和组蛋白修饰数据进行数据处理并进行编码;
构建DeepCR模型,将上述编码数据进行训练并优化参数,获得最优参数的模型;
按照模型输入数据的格式给定序列,使用得到的模型判断其是否包含转录因子结合位点。
进一步优化方案,所述数据处理的数据编码过程包括:根据所述免疫共沉淀测序和所述组蛋白修饰数据获得一条长度为n的DNA序列,根据所述长度为n的DNA序列进行数据编码获得一个长度为n、6通道的数据,其中前4个通道对应着{A、C、G、T}子序列的独热编码,后2个通道分别对应免疫共沉淀测序和组蛋白修饰数据。
进一步优化方案,所述数据处理的数据集构建过程包括:按照一定的比例选择正例样本和反例样本组成数据集,所述正例样本以结合位点为中心,向前后扩展选取长度为101bp的序列;所述反例样本选择在结合位点后3000个bp的位置。GM12878细胞系上选择的21个TFs的正例和反例样本数量如下表1所示。为了准确地评估提出模型的性能,采用了k折交叉验证的策略,也就是将数据集划分成k等份,其中k-1份作为训练数据集,另外的一份作为测试数据集验证模型效果,然后重复k次。
表1
Figure BDA0003621384160000071
进一步优化方案,构建所述DeepCN模型包括:所述DeepCN模型包含两个卷积层,并在卷积层后面使用了dropout技巧可以降低模型过拟合的风险以提高鲁棒性,还使用了局部池化的技巧来减少特征图的维度,从而减少数据量。采用第一卷积层为所有的局部基序计算一个得分;再用第二卷积层提取除了局部基序附近序列中的内部模式信息;第一卷积层提取分数作为第二卷积层的输入信息,用来识别基序得分序列的交互模式,同时采用第一卷积层结合第二卷积层提高了DeepCN模型的感受野,对序列进行整体的模式识别,再将DeepCN模型对所述DNA序列编码提取信息输入到一个两层的全连接神经网络中进行分类,如图2所示。
由于DNA序列是一维的数据,所以模型中的卷积层是一维卷积,输入数据经过卷积层的计算如下公式:
Figure BDA0003621384160000081
式中,I是卷积层的输入,o是输出数据的索引下标,k表示第k个卷积核,Wk表示第k个卷积核的权重矩阵,形状是S*N,其中S表示卷积核的大小,N表示输入数据的通道数。
全连接层接在卷积层的后面作为分类模型来使用,输入数据经过全连接层的计算如下公式:
Figure BDA0003621384160000082
式中,y是输入数据,b表示偏置,w是层之间的权值矩阵,d就是输入层的神经元个数。
Dropout技巧是在模型的训练过程当中适当地丢弃一些神经元,一般采用伯努利分布进行采样来决定是否丢弃神经元,也就是不让它们向后传播信息,这样可以降低模型的复杂度,从而减少过拟合的风险。在全连接层后面加上dropout后计算如下公式:
Figure BDA0003621384160000083
激活函数的选择基本上不会使用sigmoid函数,提出的模型当中,使用的是非线性的ReLU函数,它可以给模型引入非线性的特征。ReLU激活函数见公式:
Figure BDA0003621384160000091
最后是一个softmax层,它能够将输入的M维向量z归一化成M个概率分布,M个概率相加和为1,计算如下公式:
Figure BDA0003621384160000092
输入数据是(B,101,6),网络模型中各层的具体参数设置及输出数据尺寸见下表2。
表2
Figure BDA0003621384160000093
进一步优化方案,构建所述DeepCR模型包括:基于所述DeepCN模型,将所述第二卷积层替换为循环层;基于第一卷积层结合循环层,提取除了局部基序附近序列中的内部模式信息,基于所述第一卷积层提取的分数作为输入信息,用来识别基序得分序列的交互模式,引入的循环层主要用来更好地提取前序序列携带的特征信息,从而形成“记忆”功能,如图3所示。
进一步优化方案,基于所述正例样本和反例样本数据采用二分类计算损失函数,计算如下:
Figure BDA0003621384160000101
式中:yi表示样本i的label,正例为1,反例为0;pi表示样本i被预测为正例的概率。
按照1:1的比例选择了正例样本和反例样本数据,我们选择了准确率和AUC这两个评价指标,在二分类问题中,标签为1的归属为正例,为0的归属为负例,如果预测的类别和实际类别一致就归属为预测正确,反之就归属为预测错误,由此可以得到一个混淆矩阵,如表3所示。
表3
Figure BDA0003621384160000102
从表中我们可以计算准确率、真正例率和假正例率,其中AR是指分类正确的数据占数据总数的比例,TPR是指实际类别为正例的数据中被预测为正的比例,FPR是指实际类别为反例的数据中被预测为正例的比例,计算公式如下:
Figure BDA0003621384160000111
Figure BDA0003621384160000112
Figure BDA0003621384160000113
AUC表示接收者操作特征曲线和横轴的之间的区域的面积,其数值在0到1之间,具体含义是指分类模型预测得到正例样本的概率数值大于预测为负例样本概率的概率,AUC值越大说明模型的效果越好。ROC曲线的横轴是FPR,纵轴是TPR,ROC曲线绘制算法如表4所示。
表4
Figure BDA0003621384160000114
还可以采用另外一种算法,AUC的含义是样本被预测为正例的概率值大于其被预测为反例的概率值的概率。如果有两个样本(一正一反),模型预测的概率分别是p和q,这时计算的AUC如下式:
Figure BDA0003621384160000121
得到AUC直接计算算法,如表5所示。
表5
Figure BDA0003621384160000122
进一步优化方案,分类过程包括:对于模型中的权值参数,使用Xavier初始化,权值W符合式的均匀分布,偏置统一初始化为0。
Figure BDA0003621384160000123
式中,n表示W权值参数所在层的输入维度,m表示输出维度。
分类模型的学习过程是先前向传播得到损失函数的数值,在反向传播更新参数,更新算法有随机梯度下降算法、基于动量的随机梯度下降算法、自适应次梯度算法、均方根传递算法和适应性矩估计算法,各种优化算法的具体参数更新见下表6。对于表中使用的符号说明:m表示一阶导的累加(
Figure BDA0003621384160000131
是修正版本的m),v表示一阶导的平方的累加(
Figure BDA0003621384160000132
是修正版本的v),g表示一阶导(
Figure BDA0003621384160000133
是一阶导的平方,而不是二阶导),α和β是超参数,θ是要更新的参数。
表6
Figure BDA0003621384160000134
进一步优化方案,模型训练过程包括:选择使用Adam优化算法来更新参数,同时对于dropout层的丢弃率参数、L2正则化权重衰减参数和Adam算法当中使用的动量参数,采用网格搜索的策略来寻找最优组合参数,超参数列表和试验当中网格搜索的区域如表7所示。
表7
Figure BDA0003621384160000141
为了验证免疫共沉淀测序信息、组蛋白修饰数据信息、卷积层和循环层的效果,在GM12878细胞系的21个随机挑选的TFs数据集上进行了一系列的消融试验。
首先是DeepCN模型的结果,使用两个卷积层来提取特征,图4中左图是AUC指标,右图是AR指标,从图中可以看出,加上HMS和MDS数据在21个TFs上能够实现对仅使用DNA数据作为输入数据的全包围,这表明HMS和MDS对于识别TFBSs有着明显的效果提升。最外层是加上HMS和MDS两个数据作为DNA数据的附加数据的效果,可以看到能够实现对仅加上HMS或者MDS数据的全包围,这也告诉我们加上两个数据比加上其中一种的效果要好。图5是在21个TFs数据集上取平均值的结果展示,我们是在GM12878细胞系随机选择的21个数据集,从平均值上来看能够整体上知道模型效果的好坏。仅将DNA序列作为模型的输入数据的AUC(AR)指标平均值为0.8630(0.6704),而附加上HMS数据和MDS数据的AUC(AR)指标分别是0.9007(0.6994)和0.8990(0.7175),同时附加上HMS和MDS数据的AUC(AR)指标是0.9163(0.7322),也就是说相比于仅使用DNA序列数据,附加HMS数据AUC(AR)能够提升3.77%(2.90%),附加MDS数据AUC(AR)能够提升3.60%(4.71%),同时附加HMS和MDS数据AUC(AR)能够提升5.33%(6.18%)。
再来看看DeepCR模型的结果,该模型使用一个卷积层和一个循环层来提取特征,图6中左图是AUC指标,右图是AR指标,从图中可以看出,加上HMS和MDS数据的DeepCR模型在21个TFs上能够实现对仅使用DNA数据作为输入数据的全包围,这表明HMS和MDS对于识别TFBSs有着明显的效果提升。最外层是加上HMS和MDS两个数据作为DNA数据的附加数据的效果,可以看到能够实现对仅加上HMS或者MDS数据的全包围,这也告诉我们加上两个数据比加上其中一种的效果要好。这告诉我们,不管使用DeepCN模型,还是DeepCR模型,HMS和MDS数据对于效果都有着显著的提升。图7是DeepCR模型在21个TFs数据集上取平均值的结果展示,仅将DNA序列作为模型的输入数据的AUC(AR)指标平均值为0.8540(0.6836),而附加上HMS数据和MDS数据的AUC(AR)指标分别是0.8929(0.7226)和0.8917(0.7286),同时附加上HMS和MDS数据的AUC(AR)指标是0.9203(0.7436),也就是说相比于仅使用DNA序列数据,附加HMS数据AUC(AR)能够提升3.89%(3.90%),附加MDS数据AUC(AR)能够提升3.77%(4.50%),同时附加HMS和MDS数据在评价指标AUC(AR)上能够提升6.63%(6.00%)。
再来看看DeepCN模型和DeepCR模型的对比,其实就是将DeepCN模型的第二个卷积层和DeepCR模型的循环层的效果进行比较,我们选择DNA序列附加上HMS和MDS数据作为模型的输入数据,也就是比较最好的模型效果,结果展示如下图8所示。可以看出,在GM2878细胞系随机选择的21个TFs中,DeepCR模型在AUC指标和AR指标上都全部在DeepCN之上,这说明卷积层之后接上循环层比卷积层能够更好地识别基序得分序列的交互模式。就平均值来说,AUC指标能够提升0.43%,AR指标可以提升1.14%。
经过前面模型训练我们可以得到一个最优参数组合的分类模型,可以按照下列的步骤对于新给定的DNA序列进行识别:
从给定的DNA序列中选出一段段长度为101bp的子序列;
对于子序列,经过独热编码,并将对应位置的免疫共沉淀测序何组蛋白信息加上得到编码数据;
将编码数据输入到训练好的模型中进行分类,预测结果为1那么就说明子序列包含转录因子结合位点,否则就不包含。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种基于深度学习的转录因子结合位点识别方法,其特征在于,包括以下步骤:
获取免疫共沉淀测序和红蛋白修饰数据;
对上述免疫共沉淀测序和组蛋白修饰数据进行数据处理并进行编码;
构建DeepCR模型,将上述编码数据进行训练并优化参数,获得最优参数的模型;
按照模型输入数据的格式给定序列,使用得到的模型判断其是否包含转录因子结合位点。
2.如专利要求1所述的基于深度学习的转录因子结合位点识别方法,其特征在于,所述数据处理的数据编码过程包括:从DNA序列中选出长度为n的子序列,附加上免疫共沉淀测序和组蛋白修饰数据获,再进行数据编码获得一个长度为n、6通道的数据,其中前4个通道对应着{A、C、G、T}子序列的独热编码,后2个通道分别对应免疫共沉淀测序和组蛋白修饰数据。
3.如专利要求2所述的基于深度学习的转录因子结合位点识别方法,其特征在于,所述数据处理的数据集构建过程包括:按照1:1的比例选择正例样本和反例样本组成正例样本和反例样本数据集,其中正例样本是以转录因子结合位点为中心,向前后平衡扩展选取长度为101bp(base pair)的序列,反例样本就选择在对应的正例样本的中心位置向后3000个bp的位置,长度也为101bp。
4.如专利要求3所述的基于深度学习的转录因子结合位点识别方法,其特征在于,构建所述DeepCR模型包括:所述DeepCR模型包含一个卷积层和一个循环层,其中卷积层能够为所有可能的局部基序计算一个得分,循环层以前面的卷积层提取的分数作为输入,用来提取附近序列中的内部模式信息,用来识别基序得分序列的交互模式,引入的循环层主要用来更好地提取前序序列携带的特征信息,形成“记忆”功能。
5.如专利要求4所述的基于深度学习的转录因子结合位点识别方法,其特征在于,训练所述DeepCR模型包括获取所述损失函数包括:基于所述正例样本和反例样本数据采用二分类交叉熵损失函数,计算如下:
Figure FDA0003621384150000021
式中:yi表示样本i的label,正例为1,反例为0;pi表示样本i被预测为正例的概率。
6.如专利要求5所述的基于深度学习的转录因子结合位点识别方法,其特征在于,训练所述DeepCR模型包括对所述编码数据进行分类。
7.如专利要求6所述的基于深度学习的转录因子结合位点识别方法,其特征在于,优化所述DeepCR模型包括获取评价指标包括:选择使用Adam优化算法来更新参数,同时对于Dropout层的丢弃率参数、L2正则化权重衰减参数和Adam算法当中使用的动量参数,采用网格搜索的策略来寻找最优组合参数。
8.如专利要求7所述的基于深度学习的转录因子结合位点识别方法,其特征在于,所述正例样本为正例的数据中被预测为正的比例,所述反例样本为反例的数据中被预测为正例的比例。
CN202210469236.4A 2022-04-28 2022-04-28 一种基于深度学习的转录因子结合位点识别方法 Active CN114864002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210469236.4A CN114864002B (zh) 2022-04-28 2022-04-28 一种基于深度学习的转录因子结合位点识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210469236.4A CN114864002B (zh) 2022-04-28 2022-04-28 一种基于深度学习的转录因子结合位点识别方法

Publications (2)

Publication Number Publication Date
CN114864002A true CN114864002A (zh) 2022-08-05
CN114864002B CN114864002B (zh) 2023-03-10

Family

ID=82635594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210469236.4A Active CN114864002B (zh) 2022-04-28 2022-04-28 一种基于深度学习的转录因子结合位点识别方法

Country Status (1)

Country Link
CN (1) CN114864002B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403645A (zh) * 2023-03-03 2023-07-07 阿里巴巴(中国)有限公司 转录因子结合位点的预测方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003106635A2 (en) * 2002-06-13 2003-12-24 Regulome Corp Functional sites
US20110160399A1 (en) * 2008-07-01 2011-06-30 Nihon University Histone modification inhibitor specific to target gene
CN103667455A (zh) * 2013-11-19 2014-03-26 眭维国 器官基因的组蛋白h3k9三甲基化表达差异的分析方法与基因模型
CN104854241A (zh) * 2012-05-25 2015-08-19 埃玛纽埃尔·沙尔庞捷 用于rna定向的靶dna修饰和用于rna定向的转录调节的方法和组合物
CN105296655A (zh) * 2015-11-26 2016-02-03 北京市中医研究所 检测顺式作用元件有无甲基化修饰或其修饰位点的方法
CN108300767A (zh) * 2017-10-27 2018-07-20 清华大学 一种核酸复合体中核酸区段相互作用的分析方法
CN110750240A (zh) * 2019-08-28 2020-02-04 南京航空航天大学 一种基于序列到序列模型的代码片段推荐方法
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111429968A (zh) * 2020-03-11 2020-07-17 至本医疗科技(上海)有限公司 用于预测肿瘤类型的方法、电子设备和计算机存储介质
CN114283888A (zh) * 2021-12-22 2022-04-05 山东大学 基于分层自注意力机制的差异表达基因预测系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003106635A2 (en) * 2002-06-13 2003-12-24 Regulome Corp Functional sites
US20110160399A1 (en) * 2008-07-01 2011-06-30 Nihon University Histone modification inhibitor specific to target gene
CN104854241A (zh) * 2012-05-25 2015-08-19 埃玛纽埃尔·沙尔庞捷 用于rna定向的靶dna修饰和用于rna定向的转录调节的方法和组合物
CN103667455A (zh) * 2013-11-19 2014-03-26 眭维国 器官基因的组蛋白h3k9三甲基化表达差异的分析方法与基因模型
CN105296655A (zh) * 2015-11-26 2016-02-03 北京市中医研究所 检测顺式作用元件有无甲基化修饰或其修饰位点的方法
CN108300767A (zh) * 2017-10-27 2018-07-20 清华大学 一种核酸复合体中核酸区段相互作用的分析方法
CN110750240A (zh) * 2019-08-28 2020-02-04 南京航空航天大学 一种基于序列到序列模型的代码片段推荐方法
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111429968A (zh) * 2020-03-11 2020-07-17 至本医疗科技(上海)有限公司 用于预测肿瘤类型的方法、电子设备和计算机存储介质
CN114283888A (zh) * 2021-12-22 2022-04-05 山东大学 基于分层自注意力机制的差异表达基因预测系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SIGUO WANG: "A New Method Combining DNA Shape Features to Improve the Prediction Accuracy of Transcription Factor Binding Sites", 《SPRINGER LINK》 *
SIGUOWANG: "Predicting transcription factor binding sites using DNA shape features based on shared hybrid deep learning architecture", 《OLECULAR THERAPY: NUCLEIC ACIDS》 *
YOUHONG XU: "Using Deep Learning to Predict Transcription Factor Binding Sites Combining Raw DNA Sequence, Evolutionary Information and Epigenomic Data", 《SPRINGER LINK》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403645A (zh) * 2023-03-03 2023-07-07 阿里巴巴(中国)有限公司 转录因子结合位点的预测方法及装置
CN116403645B (zh) * 2023-03-03 2024-01-09 阿里巴巴(中国)有限公司 转录因子结合位点的预测方法及装置

Also Published As

Publication number Publication date
CN114864002B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN111161793B (zh) 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
CN111063393A (zh) 基于信息融合和深度学习的原核生物乙酰化位点预测方法
CN112215259B (zh) 基因选择方法和装置
CN107463795A (zh) 一种识别酪氨酸翻译后修饰位点的预测算法
CN108877947B (zh) 基于迭代均值聚类的深度样本学习方法
CN116741397B (zh) 基于多组学数据融合的癌症分型方法、系统及存储介质
CN114864002B (zh) 一种基于深度学习的转录因子结合位点识别方法
CN112116952A (zh) 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法
CN109493916A (zh) 一种基于稀疏性因子分析的基因-基因交互作用识别方法
Yang et al. Feature selection using memetic algorithms
CN113257359A (zh) 一种基于CNN-SVR的CRISPR/Cas9向导RNA编辑效率预测方法
CN113764031B (zh) 一种跨组织/物种rna中n6甲基腺苷位点的预测方法
CN114758721B (zh) 一种基于深度学习的转录因子结合位点定位方法
CN113539358B (zh) 基于Hilbert编码的增强子-启动子相互作用预测方法及装置
CN115410643A (zh) 一种基于stacking集成学习的增强子的预测方法、系统、设备及存储介质
CN115810398A (zh) 一种基于多特征融合的tf-dna结合识别方法
CN113837293A (zh) mRNA亚细胞定位模型训练方法、定位方法及可读存储介质
CN113936246A (zh) 基于联合局部特征判别性学习的无监督目标行人重识别方法
CN111414935A (zh) 基于卡方检测算法和改进的果蝇优化算法的有效混合特征选择方法
CN111383710A (zh) 基于粒子群优化双子支持向量机的基因剪接位点识别模型构建方法
Alzubaidi et al. A new hybrid global optimization approach for selecting clinical and biological features that are relevant to the effective diagnosis of ovarian cancer
CN116994645B (zh) 基于交互式推理网络的piRNA与mRNA靶标对的预测方法
CN113113137B (zh) 基于最大相关最小冗余和改进花授粉算法的特征选择方法
Ma et al. Predicting locus-specific DNA methylation based on deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant