CN113593634B - 一种融合dna形状特征的转录因子结合位点预测方法 - Google Patents

一种融合dna形状特征的转录因子结合位点预测方法 Download PDF

Info

Publication number
CN113593634B
CN113593634B CN202110903386.7A CN202110903386A CN113593634B CN 113593634 B CN113593634 B CN 113593634B CN 202110903386 A CN202110903386 A CN 202110903386A CN 113593634 B CN113593634 B CN 113593634B
Authority
CN
China
Prior art keywords
dna
sequence
model
data
shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110903386.7A
Other languages
English (en)
Other versions
CN113593634A (zh
Inventor
李阳阳
魏志强
刘昊
闫金盟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202110903386.7A priority Critical patent/CN113593634B/zh
Publication of CN113593634A publication Critical patent/CN113593634A/zh
Application granted granted Critical
Publication of CN113593634B publication Critical patent/CN113593634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Neurology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种融合DNA形状特征的转录因子结合位点预测方法,属于生物信息学领域,所述方法结合了结构生物学和基因组学以及深度学习神经网络的知识提出了一个使用CNN结合DNA序列与形状特征信息预测转录因子结合位点的新模型。同时,构建了包含DNA形状特征及DNA序列信息的特殊数据集,在传统转录因子预测的数据集基础之上添加了对应的DNA形状信息。从而提高DNA转录因子结合位点预测的准确性。

Description

一种融合DNA形状特征的转录因子结合位点预测方法
技术领域
本发明属于生物信息学领域,结合了结构生物学和基因组学的知识设计并实现了一套融合DNA形状特征的转录因子结合位点预测新方法。
背景技术
转录因子(TF)可以通过与调节转录的基因组区域结合来协调许多基因的表达。细胞机制利用这些主调节器来调节关键的细胞过程并适应环境刺激。事实上,TF的序列或数量的改变可能是遗传性疾病,复杂疾病,自身免疫缺陷和癌症的主要原因。TF如何与特定的DNA调节序列(称为TF结合位点,或简称TFBS,如启动子,增强子)结合以协同调节基因转录和蛋白质合成是一个十分重要的过程,它在许多生物过程中起着关键作。过去十年中,已经产生了大量的免疫沉淀及其高通量测序(ChIP-seq)数据,并用于研究这些调控过程背后的机制,但由于该方法是TF特异性的,即特定于某一种TF来确定其DNA序列上的结合位点序列,以及其高实验成本等原因,不可能在所有细胞类型中分析每个TF结合图谱,因此,需要一个精确的计算方法来解码底层绑定规则。当然,如何预测DNA序列中的TFBS是生物信息学中的一个基本问题。
转录因子的DNA结合特异性是基因调控过程的关键组成部分,但对于TF与其基因组靶位点的高度特异性结合的基础机制知之甚少。早期研究中,我们假设DNA转录因子的结合位点完全由碱基序列确定。基于位置权重矩阵(PWM)的方法在DNA-蛋白质结合过程建模中取得了巨大成功。后来,gkm-SVM(即缺口k-mers和支持向量机)显示出优于基于PWM的方法。近几年,卷积神经网络,加上DNA序列的单热编码格式,引起了对预测TFBS的极大兴趣。然而,仅使用初级DNA序列预测或插入TFBS已被证明不足以充分建模其底层绑定规则。显然,如果要真正提高预测准确性,就需要改进其底层的建模方式,这一过程是后续预测工作的重要保障。
事实上,过去十年的技术发展促进了对许多TF的DNA结合偏好的表征的发现与研究。最近的高通量研究强调,TF-DNA结合不仅仅依赖于核苷酸序列偏好,并且已经确定了多种相关因素。越来越多的证据支持序列背景,包括侧翼序列和DNA形状,在调节序列识别中的广泛贡献。相互作用的辅因子和TF也可以改变序列偏好。除此之外,一些特定于细胞类型的信息,这里主要包括染色质可及性和组蛋白修饰也对TFs与其靶位点的结合有很大影响。
在此背景下,越来越多的研究倾向于采用将DNA基序与其他特征(包括组蛋白修饰、染色质可及性以及细胞类型等)相结合的方式进行建模。且对不同方法进行过尝试。例如有方法使用不受控制的方法,如分层混合模型或隐马尔可夫模型,以使用染色质可及性数据识别转录因子足迹。他们使用序列基序分数来将足迹归因于不同的转录因子。更近期的方法使用矩阵完备(Matrix Completion)的方法来完成转录因子结合预测,即使用表示基因组位置,细胞类型和TF结合的3模式张量来推断TF结合。该方法不依赖于序列特异性,但是只能在具有许多ChIP-seq数据集的充分研究的细胞类型中预测TF结合。值得关注的是,卷积神经网络模型中将序列与表观基因组数据相结合用来预测转录因子结合位点。其预测过程除了DNA序列外,还使用了组蛋白修饰和染色质可及性信息。虽然与只考虑基序信息的同类模型相比有所改进,但是这种方法仅使用了15种细胞类型的标准化DNase-seq数据和5种特定核心组蛋白修饰的信息进行训练和验证,这可能会导致训练模型仅对该特定细胞环境下的TF结合偏好预测良好。综上,目前甚少有人尝试将DNA的三维结构特征结合到TFBS的预测建模中。
发明内容
本发明要解决的技术问题在于提供一种融合DNA形状特征的转录因子结合位点预测方法,所述方法首先构建一个同时包含DNA序列基序信息以及DNA三维形状信息的可用于转录因子集合位点预测的特殊数据集;然后,提出一种新颖的可以同时融合DNA形状特征与序列信息的转录因子结合位点预测模型,所述模型可以将DNA的结构特征与DNA序列信息相结合,从而提高DNA转录因子结合位点预测的准确性。
本发明是通过如下技术方案来实现的:
一种融合DNA形状特征的转录因子结合位点预测方法,所述方法的具体步骤如下所示:
1)根据现有技术公开的信息,设计并构建一个具有DNA形状特征数据和DNA序列信息的特殊数据集,针对DNA形状特征的获取采用HT-MC方法预测DNA的各种重要结构特征,预测的特征包括小沟宽(Minor Groove Width,MGW),滚动(Roll),螺旋桨扭曲(PropellerTwist,ProT)和螺旋扭曲(Helix Twist,HelT);
2)DNA序列基序数据及DNA形状特征数据预处理
3D DNA形状特征使用基于五聚体的模型预测,该模型基于DNA结构的全原子蒙特卡洛模拟建立;输入数据分为两部分为序列和形状;对于DNA序列部分,输入是4×L的矩阵,其中L是序列的长度,序列中的每个碱基对A、C、T、G分别被表示为四个独热编码[1,0,0,0],[0,1,0,0],[0,0,1,0]和[0,0,0,1];对于DNA的形状特征部分,输入是4×L的矩阵,其中L是序列的长度,DNA序列的形状特征(MGW、Roll、ProT、HelT)被分别描述为每个核苷酸位置的一个通道载体;
3)基于CNN的融合DNA形状特征的转录因子结合位点预测新模型
在收集每个样本的DNA序列,DNA形状特征(DSS),标签数据和编码特征后,确定训练数据的模型为序列+DSS模型,序列+DSS模型同时使用序列和DSS两种类型的数据组合成一个综合模型进行预测;所述的序列+DSS模型是基于深度学习中卷积神经网络,采用双输入并行卷积架构,输入为两个4×L的矩阵,分别为基因的序列信息矩阵和形状信息矩阵,然后分别进行卷积以及全局最大池化,其中卷积核数为128,卷积窗口大小为1*24,最后将针对两类数据的池化结果连接起来,作为全连接层的输入,神经元数量为32或64,同时使用dropout方法,参数设置为0.1,0.5,0.75,最终输出层神经元数为2,输出阶段使用的激活函数为softmax回归;
4)使用步骤2)中预处理后的数据对步骤3)中所述的预测新模型进行训练。
作为优先的技术方案,模型的训练过程中使用交叉熵作为损失函数,并使用标准误差反向传播算法和AdaDetla方法训练模型,将batch_size设为100,并在每个epoch之后验证模型,然后使用早停技巧来停止训练。
本发明与现有技术相比的有益效果:
1、构建了包含DNA形状特征及DNA序列信息的特殊数据集,在传统转录因子预测的数据集基础之上添加了对应的DNA形状信息。
该数据集在传统仅包含序列基序与标签信息的基础之上,还增加了对应于原有序列信息的DNA形状特征信息。我们针对DNA形状特征信息的获取方法,以及处理该类信息以适应CNN模型等方面,进行深入探讨与研究。形成的通用数据集可用于其他结合DNA形状信息与序列信息进行转录因子结合位点预测的研究。
2、设计并实现了使用CNN结合DNA序列与形状数据预测转录因子结合位点的新模型。
模型采用了新型CNN融合框架,结果证明其成功学习到DNA的形状信息并将其融合到转录因子结合位点预测的任务中。与其他现有融合DNA形状特征的深度学习模型相比,本模型设计复杂度低,训练时间短,可用性强,且与传统融合DNA形状特征的数学模型相比,本模型预测准确度更高。
附图说明
图1为本发明的DNA形状特征类型示意图;
图2为本发明的使用CNN结合DNA序列与形状信息预测TFBS的统一框架;
图3本发明基于深度学习中卷积神经网络的双输入并行卷积架构;
图4为基于Keras的融合DNA形状特征的TFBS预测模型框架图;
图5基于序列的模型和基于序列与形状信息的模型实验数据分布的比较。
具体实施方式
下面通过实施例结合附图来对本发明的技术方案做进一步解释,但本发明的保护范围不受实施例任何形式上限制。
实施例1
一种融合DNA形状特征的转录因子结合位点预测方法,所述方法的具体步骤如下所示:
1、数据集的构建
首先深入研究蛋白质-DNA结合的底层机制的相关科研进展,同时,总结目前DNA转录因子结合位点预测的研究进展与现状,搜集调查该领域主流数据集来源信息。其次,针对融合DNA形状特征与序列信息的转录因子结合位点预测模型,深入研究DNA形状特征获取方法的相关进展,以及DNA转录因子结合位点预测相关数据集构造方法,设计并构建具有DNA形状特征数据和DNA序列信息的特殊数据集。
采用HT-MC方法进行DNA形状特征的获取,以前的研究通过减少系统中的自由度来提高构象采样的效率。这里的高通量方法旨在预测DNA的各种重要结构特征,且基本上可以适应任何长度或数量的序列。该方法可以提高准确性。鉴于它们在DNA形状读数中的重要性,预测的特征包括小沟宽(Minor Groove Width,MGW),滚动(Roll),螺旋桨扭曲(Propeller Twist,ProT)和螺旋扭曲(Helix Twist,HelT),如图1所示。
大量实验和计算数据的广泛验证证明了HT-MC方法的稳健性,在DNA形状网络服务器下面的高通量方法可用于在单个处理器上以不到1分钟的时间完成核苷酸分辨率的整个酵母基因组的DNA结构特征预测。
本实施例构建了69组转录因子的ChIP-seq实验数据从ENCODE(http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeAwgTfbsUniform/)下载获得。每组实验数据为FASTA格式,且分为训练数据集和测试数据集两部分。在数据集中,给出了DNA序列及其对应标注信息。阳性和阴性样本具有相同的GC数量和序列长度(101bp)。然后基于已有方法生成了本实施例中使用的DNA形状特征(DSS)(包括MGW、Roll、ProT、HelT),该方法基于一个从数千个全原子蒙特卡洛模拟得到的五聚体查询表,且经过X射线和核磁共振结构验证。
根据序列数据集中样本的位置,从DSS中提取相应位置的信号值。其中可以认为每个核苷酸位置都具有相应的表征每个DNA形状特征的值。因此,TFBS和非TFBS被描述为两种类型的特征:(1)用于DNA序列信息的独热表征;(2)用于DNA形状信息的DSS表征。对于每个数据集,使用70%的样本进行训练,10%的样本用于校验,20%的样本用于测试。
2、DNA序列基序数据及DNA形状特征数据预处理。
3D DNA形状特征使用基于五聚体的模型(HT-MC)预测,该模型基于DNA结构的全原子蒙特卡洛模拟建立。四种不同的形状特征,包括小沟宽(MGW),滚动(Roll),螺旋桨扭曲(ProT),以及螺旋扭曲(HelT),且已证明这四类特征在特定情况下对蛋白质-DNA结合位点识别具有重要作用。
评估的卷积神经网络架构如图3,其中输入分为两部分序列和形状。对于DNA序列部分,输入是4×L的矩阵。其中L是序列的长度,本实施例中为101bp。序列中的每个碱基对A、C、T、G分别被表示为四个独热编码[1,0,0,0],[0,1,0,0],[0,0,1,0]和[0,0,0,1]。对于DNA的形状特征部分,输入是4×L的矩阵,其中L是序列的长度。DNA序列的形状特征(MGW、Roll、ProT、HelT)被分别描述为每个核苷酸位置的一个通道载体。本实施例中使用101bp的DSS数据,则样本的载体大小为1×101,又由于本实施例使用了四类DNA形状特征,因此其大小为4×101。DSS是描述DNA表观3D特征的连续属性,可能与特定TF的结合有关。本实施例中使用的DNA形状特征是单碱基分辨率的数据。
从数据角度来看,为了在统一的深度学习框架中结合DSS和序列特征,在收集每个样本的DNA序列,DSS数据,标签数据和编码特征后,本实施例首先实施了两种不同的模型:(1)序列CNN模型,使用DNA序列作为特征;(2)DSS_CNN模型,使用DSS数据作为特征。本实施例中CNN由输入层,卷积层,最大池化层,完全连接层,dropout层以及输出层组成。对于CNN模型,本实施例中内核的数量为128,内核窗口的大小为1*24,完全连接层中的神经元数量设置为64以使模型达到最佳效果。如图3所示,模型基于深度学习中卷积神经网络(Convolutional Neural Networks,CNN),采用双输入并行卷积架构,图4中展示基于Keras的融合DNA形状特征的TFBS预测模型框架图,首先输入为两个4×101的矩阵,分别为基因的序列信息矩阵和形状信息矩阵。然后分别进行卷积(卷积核数为128,卷积窗口大小为1*24),以及全局最大池化,最后将针对两类数据的池化结果连接起来,作为全连接层的输入(这里神经元数量为64),同时使用dropout方法,参数设置为(0.1,0.5,0.75),最终输出层神经元数为2,输出阶段我们使用的激活函数为softmax回归。
在设置每种类型数据(这里指DNA序列数据与DNA形状数据两类)的适当模型,超参数后,本实施例对比研究了两种不同模型的性能:(1)序列模型,仅使用DNA序列数据作为特征;(2)序列+DSS模型,同时使用序列和DSS两种类型的数据组合成一个综合模型作为特征。
对于训练过程,本实施例使用交叉熵作为损失函数。鉴于所选用的损失函数和不同的超参数,使用了标准误差反向传播算法和AdaDetla方法训练模型。将每个模型的迭代次数(nb_epoch)设置为100,将batch_size设为100,并在每个epoch之后验证模型。然后使用早停技巧来停止训练,因为有时错误率可能会到后期有所波动。基于验证阶段的准确性情况选择最佳的模型。
两个模型实验效果比较如图5所示。
本实施例记录了69组数据针对两类模型的AUC曲线数据,并进行比较。如图5所示,新的模型使用将DNA序列数据与DNA形状数据相结合的深度学习整合框架来预测TFBS。实验评估表明,整合框架具有比基于初级DNA序列的模型更好的性能和准确度(AUC的值越高准确度相对越高)。

Claims (2)

1.一种融合DNA形状特征的转录因子结合位点预测方法,其特征在于所述方法的具体步骤如下所示:
1)根据现有技术公开的信息,设计并构建一个具有DNA形状特征数据和DNA序列信息的特殊数据集,针对DNA形状特征的获取采用HT-MC方法预测DNA的各种重要结构特征,预测的特征包括小沟宽,滚动,螺旋桨扭曲和螺旋扭曲;
2)DNA序列基序数据及DNA形状特征数据预处理
3D DNA形状特征使用基于五聚体的模型预测,该模型基于DNA结构的全原子蒙特卡洛模拟建立;输入数据分为两部分为序列和形状;对于DNA序列部分,输入是4×L的矩阵,其中L是序列的长度,序列中的每个碱基对A、C、T、G分别被表示为四个独热编码[1,0,0,0],[0,1,0,0],[0,0,1,0]和[0,0,0,1];对于DNA的形状特征部分,输入是4×L的矩阵,其中L是序列的长度,DNA序列的形状特征被分别描述为每个核苷酸位置的一个通道载体;
3)基于CNN的融合DNA形状特征的转录因子结合位点预测新模型
在收集每个样本的DNA序列,DNA形状特征,标签数据和编码特征后,确定训练数据的模型为序列+DSS模型,序列+DSS模型同时使用序列和DSS两种类型的数据组合成一个综合模型进行预测;所述的序列+DSS模型是基于深度学习中卷积神经网络,采用双输入并行卷积架构,输入为两个4×L的矩阵,分别为基因的序列信息矩阵和形状信息矩阵,然后分别进行卷积以及全局最大池化,其中卷积核数为128,卷积窗口大小为1*24,最后将针对两类数据的池化结果连接起来,作为全连接层的输入,神经元数量为32或64,同时使用dropout方法,参数设置为0.1,0.5,0.75,最终输出层神经元数为2,输出阶段使用的激活函数为softmax回归;
4)使用步骤2)中预处理后的数据对步骤3)中所述的预测新模型进行训练。
2.根据权利要求1所述的方法,其特征在于模型的训练过程中使用交叉熵作为损失函数,并使用标准误差反向传播算法和AdaDetla方法训练模型,将batch_size设为100,并在每个epoch之后验证模型,然后使用早停技巧来停止训练。
CN202110903386.7A 2021-08-06 2021-08-06 一种融合dna形状特征的转录因子结合位点预测方法 Active CN113593634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110903386.7A CN113593634B (zh) 2021-08-06 2021-08-06 一种融合dna形状特征的转录因子结合位点预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110903386.7A CN113593634B (zh) 2021-08-06 2021-08-06 一种融合dna形状特征的转录因子结合位点预测方法

Publications (2)

Publication Number Publication Date
CN113593634A CN113593634A (zh) 2021-11-02
CN113593634B true CN113593634B (zh) 2022-03-11

Family

ID=78255933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110903386.7A Active CN113593634B (zh) 2021-08-06 2021-08-06 一种融合dna形状特征的转录因子结合位点预测方法

Country Status (1)

Country Link
CN (1) CN113593634B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114639441B (zh) * 2022-05-18 2022-08-05 山东建筑大学 一种基于带权多粒度扫描的转录因子结合位点预测方法
CN116083444A (zh) * 2022-11-22 2023-05-09 青岛农业大学 转录因子a36在调控cse基因表达上的应用
CN116403645B (zh) * 2023-03-03 2024-01-09 阿里巴巴(中国)有限公司 转录因子结合位点的预测方法及装置
CN116343908B (zh) * 2023-03-07 2023-10-17 中国海洋大学 融合dna形状特征的蛋白质编码区域预测方法、介质和装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763865A (zh) * 2018-05-21 2018-11-06 成都信息工程大学 一种预测dna蛋白质结合位点的集成学习方法
CN110335639A (zh) * 2019-06-13 2019-10-15 哈尔滨工业大学(深圳) 一种跨转录因子的转录因子结合位点预测算法及装置
CN111243668A (zh) * 2020-04-09 2020-06-05 腾讯科技(深圳)有限公司 分子结合位点检测方法、装置、电子设备及存储介质
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111435608A (zh) * 2019-09-05 2020-07-21 中国海洋大学 一种基于深度学习的蛋白质药物结合位点预测方法
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN112149881A (zh) * 2020-09-03 2020-12-29 浙江工业大学 一种基于卷积神经网络的dna绑定残基预测方法
CN112447265A (zh) * 2020-11-25 2021-03-05 太原理工大学 基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法
CN112767997A (zh) * 2021-02-04 2021-05-07 齐鲁工业大学 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法
CN113035280A (zh) * 2021-03-02 2021-06-25 四川大学 一种基于深度学习的rbp结合位点预测算法
CN113096733A (zh) * 2021-05-11 2021-07-09 同济大学 一种基于序列和形状信息深度融合的模体挖掘方法
CN113178229A (zh) * 2021-05-31 2021-07-27 吉林大学 一种基于深度学习的rna和蛋白质结合位点的识别方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763865A (zh) * 2018-05-21 2018-11-06 成都信息工程大学 一种预测dna蛋白质结合位点的集成学习方法
CN110335639A (zh) * 2019-06-13 2019-10-15 哈尔滨工业大学(深圳) 一种跨转录因子的转录因子结合位点预测算法及装置
CN111435608A (zh) * 2019-09-05 2020-07-21 中国海洋大学 一种基于深度学习的蛋白质药物结合位点预测方法
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111243668A (zh) * 2020-04-09 2020-06-05 腾讯科技(深圳)有限公司 分子结合位点检测方法、装置、电子设备及存储介质
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN112149881A (zh) * 2020-09-03 2020-12-29 浙江工业大学 一种基于卷积神经网络的dna绑定残基预测方法
CN112447265A (zh) * 2020-11-25 2021-03-05 太原理工大学 基于模块化密集卷积网络的赖氨酸乙酰化位点预测方法
CN112767997A (zh) * 2021-02-04 2021-05-07 齐鲁工业大学 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法
CN113035280A (zh) * 2021-03-02 2021-06-25 四川大学 一种基于深度学习的rbp结合位点预测算法
CN113096733A (zh) * 2021-05-11 2021-07-09 同济大学 一种基于序列和形状信息深度融合的模体挖掘方法
CN113178229A (zh) * 2021-05-31 2021-07-27 吉林大学 一种基于深度学习的rna和蛋白质结合位点的识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Predicting transcription factor binding sites using DNA shape features based on shared hybrid deep learning architecture;Siguo Wang等;《Molecular Therapy》;20210630;第154-163页 *
一个深度学习DNA序列特异性的预测模型;黄立群等;《小型微型计算机系统》;20181130;第39卷(第11期);第2424-2427页 *
结合基因芯片和DNA测序的转录因子结合位点预测方法研究;曹魏魏;《中国优秀博硕士学位论文全文数据库(硕士)》;20140515;A006-67 *
转录因子结合位点预测算法的研究与应用;徐东;《万方数据知识服务平台》;20060727;第1-4章 *

Also Published As

Publication number Publication date
CN113593634A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN113593634B (zh) 一种融合dna形状特征的转录因子结合位点预测方法
Wang et al. Deep learning for plant genomics and crop improvement
Vaishnav et al. The evolution, evolvability and engineering of gene regulatory DNA
Liu et al. PEDLA: predicting enhancers with a deep learning-based algorithmic framework
JP6850874B2 (ja) タンパク質結合部位予測の方法、装置、設備及び記憶媒体
Diniz et al. Bioinformatics: an overview and its applications
Mathelier et al. Identification of altered cis-regulatory elements in human disease
Barton et al. Evolutionary systems biology of amino acid biosynthetic cost in yeast
JP2019535057A5 (zh)
Bujara et al. Engineering in complex systems
CN108427865B (zh) 一种预测LncRNA和环境因素关联关系的方法
Palin et al. Locating potential enhancer elements by comparative genomics using the EEL software
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
Wang et al. Towards a better understanding of TF-DNA binding prediction from genomic features
Zhou et al. MHAM-NPI: Predicting ncRNA-protein interactions based on multi-head attention mechanism
Tognon et al. A survey on algorithms to characterize transcription factor binding sites
Raza et al. iPro-TCN: Prediction of DNA Promoters Recognition and their Strength Using Temporal Convolutional Network
He et al. De novo ChIP-seq analysis
Saraswathi et al. Fast learning optimized prediction methodology (FLOPRED) for protein secondary structure prediction
Nguyen-Vo et al. i4mC-GRU: Identifying DNA N4-Methylcytosine sites in mouse genomes using bidirectional gated recurrent unit and sequence-embedded features
Fogel et al. Evolutionary computation for discovery of composite transcription factor binding sites
Yano et al. Using hidden Markov models to investigate G-quadruplex motifs in genomic sequences
WO2020234666A1 (en) Deep learning based system and method for prediction of alternative polyadenylation site
CN109300505B (zh) 一种基于有偏采样的蛋白质结构预测方法
Xiao et al. RNA-targeted small-molecule drug discoveries: a machine-learning perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant