CN112837747B - 基于注意力孪生网络的蛋白质结合位点预测方法 - Google Patents

基于注意力孪生网络的蛋白质结合位点预测方法 Download PDF

Info

Publication number
CN112837747B
CN112837747B CN202110041598.9A CN202110041598A CN112837747B CN 112837747 B CN112837747 B CN 112837747B CN 202110041598 A CN202110041598 A CN 202110041598A CN 112837747 B CN112837747 B CN 112837747B
Authority
CN
China
Prior art keywords
training
rbp
layer
binding
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110041598.9A
Other languages
English (en)
Other versions
CN112837747A (zh
Inventor
吴贺贺
潘小勇
杨旸
沈红斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110041598.9A priority Critical patent/CN112837747B/zh
Publication of CN112837747A publication Critical patent/CN112837747A/zh
Application granted granted Critical
Publication of CN112837747B publication Critical patent/CN112837747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种基于注意力孪生网络的蛋白质结合位点预测方法,采用具有两层卷积层的神经网络对输入的进行特征提取,再根据提取到的特征估计绑定概率,得到预测的RNA序列绑定蛋白质的概率。本发明采用深度神经网络成对度量学习有效地增强捕获circRNA之间互信息的网络能力,并使用来自其他RBP的可用标记数据进行预训练,从而显著提高预测精确度。

Description

基于注意力孪生网络的蛋白质结合位点预测方法
技术领域
本发明涉及的是一种基因工程领域的技术,具体是一种基于注意力孪生网络识别环状RNA上特征性较差的RNA与蛋白质结合位点预测方法(iDeepC)。
背景技术
环状RNA(circRNA)是一类进化保守的非编码RNA,它们在基因调控中起着至关重要的作用。通常circRNA与RNA结合蛋白(RBP)结合以在许多生物学过程中发挥功能,为解circRNA的功能机制,需要知道它们与哪些RBP结合。
现有预测RBP-circRNA相互作用的计算方法包括RBP通用方法和RBP特定方法。前者针对所有合并的RBP-circRNA相互作用训练一个通用模型,后者针对RBP特异性结合circRNAs针对每个RBP训练一个模型。由于RBP特定模型可以捕获掩埋在单个RBP中的独特绑定模式故优于RBP通用模型,但其缺陷在于构建更多的子模块,并且当感兴趣的RBP不在已知RBP中,则每个独立模型的泛化能力将很弱。
发明内容
本发明针对现有深度学习技术对于特征有限,已知目标circRNA数量较少的RBP的预测精度较差的问题,提出一种基于注意力孪生网络的蛋白质结合位点预测方法,采用深度神经网络成对度量学习有效地增强捕获circRNA之间互信息的网络能力,并使用来自其他RBP的可用标记数据进行预训练,从而显著提高预测精确度。
本发明是通过以下技术方案实现的:
本发明涉及一种基于注意力孪生网络的蛋白质结合位点预测方法,采用具有两层卷积层的神经网络对输入的进行特征提取,再根据提取到的特征估计绑定概率,得到预测的RNA序列绑定蛋白质的概率。
所述的神经网络,包括两个串联的卷积(CNN)层、修正线性(ReLU)层、全连接(FC)层、全局池化层、H-swish激活层,其中:第一卷积层根据输入RNA序列信息,进行卷积处理,得到卷积之后的结果,第二卷积层根据第一卷积层进行卷积处理,得到卷积之后的结果,修正线性(ReLU)层根据第一卷积层的结果,进行修正处理,得到非线性化的结果,H-swish激活层根据第一卷积层的结果经过全连接(FC)层、全局池化、全连接(FC)层的信息,进行激活处理,得到激活之后的结果。
所述的提取到的特征,包括:测试RNA序列xj和支持集序列对应的特征fθ(xq)和特征{fθ(xj),j=1...m}。
所述的绑定概率是指:
Figure GDA0003600487290000021
其中:度量函数M(.)=F(|fθ(xq)-fθ(xj)|),fθ(.)为特征向量,|.|为绝对值,F(.)为全连接层,pq即为预测的RNA序列xq绑定蛋白质的概率。
所述的神经网络,通过从对RBP数据集中采样构建正、负样本对;经过one-hot编码后按样本对为单位进行训练。
所述的RBP数据集,即RBP-24和RBP-37。其中将RBP-37的各个RBP按照8∶2的比例划分训练集和测试集,当同一RNA的不同片段同时出现在训练集和测试集时,将其修改至训练集中以保证同一条RNA全长序列不同时出现在训练集和测试集。
所述的预训练,使用C22ORF28训练的结果作为模型的初始化参数,代替模型参数随机初始化。
技术效果
本发明整体解决现有技术对circRNA预测精度不高,特别是特征性较差和数据量较少的RBP,且解决现有技术不能捕获circRNA中motif的不足。
与现有技术相比,本发明使用了轻量级注意力机制的两层卷积神经网络作为嵌入网络,提取输入的两条RNA序列的特征,经过度量单元衡量相似性;本发明采用了随机采样一对样本作为模型的输入来解决数据不足的RBP训练的问题,即从训练集中随机采样一对RNA序列作为输入,使得样本较少的训练更不容易过拟合。数据增强之后提高了模型的泛化效果。
附图说明
图1为本发明流程图;
图中:A)嵌入网络模块和度量模块,B)生成嵌入的网络模块的体系结构。C)预测测试序列的绑定分数;
图2为本方法在RBP-37上的表现示意图;
图中:A)为本方法在RBP-37数据集上的ROC曲线;B)为AUC随训练样本数的增加而变化曲线;
图3为本方法和CRIP,PASSION在RBP-37数据集上的性能比较示意图;
图中:A)所有37个RBP的AUC;B)在结合circRNA的数目小于5000的14个RBP上的AUC,其中X轴是RBP根据结合circRNA的样本数量从小到大排列;
图中:A)用于WTAP的本方法;B)用于WTAP的CRIP;C)用于TXR1的本方法;D)用于FXR1的CRIP;
图4为本方法预测两个全长circRNA的hsa_circ_000180和hsa_circ_0000078的结合位点示意图。
具体实施方式
如图1所示,为本实施例涉及一种基于注意力孪生网络识别环状RNA上特征性较差的RNA与蛋白质结合位点预测系统,包括:嵌入网络模块、注意力模块以及度量模块,其中:注意力模块是嵌入网络模块的一部分,嵌入网络模块与度量模块相连并传输数据特征信息,嵌入网络模块根据输入的两条RNA信息,进行特征提取处理,得到两个RNA的特征向量,度量模块根据嵌入网络模块的信息,进行度量处理,得到相似性概率。
所述的度量模块M由激活函数为Sigmoid的全连接层组成。
本实施例涉及上述系统的预测方法,包括以下步骤:
S1、获取基准数据集,将RBP-37的各个RBP按照8∶2的比例划分训练集和测试集;
优选地,当同一RNA的不同片段同时出现在训练集和测试集时,将其修改至训练集,以保证同一条RNA全长序列不同时出现在训练集和测试集。
具体地,本实施例加载C22ORF28训练的参数作为模型的初始化参数,从数据集中采样一对序列,当两条RNA序列均为正样本,则这一对序列的标签为1,否则为0,经过one-hot编码后输入网络中训练。测试时,定义该RBP的所有正样本为支持集,测试的RNA分别与支持集的样本组成一对输入网络中,平均得出的预测值即为预测的序列绑定的可能性。
S2、使用C22ORF28训练的结果作为模型的初始化参数代替模型参数随机初始化,在预训练时,输入对采样的数量是在具体任务上训练采样数量的五倍。
所述的预训练是指:使用C22ORF28的训练集训练,训练时,每一次输入网络的数据个数为采样对数为5倍的训练集的大小除以批次的大小,其中批次的大小为128,训练完成后保存模型参数作为其他RBP训练的初始化参数。
由于RBP-24和RBP-37数据集上有很多RBP数据量匮乏且特征性较差,所以在相关RBP上预训练期望网络能学习到某种绑定特性,然后在数据量匮乏和特征性较差的RBP上微调,这样有助于提高预测效果。
S3、训练时,从对指定RBP数据集中采样构建正、负样本对;经过编码后按对为单位输入嵌入网络fθ中提取得到特征向量{fθ(xj),j=1、2},根据特征表示之间的差d=|fθ(x1)-fθ(x2)|计算得到绑定位点的概率P=Sigmoid(F(d)),其中:fθ(.)为特征向量,|.|为差的绝对值,F(.)为全连接层。
所述的采样构建是指:当采样的两个样本是正样本,那么采样的这一对的标签是正样本,当采样的两个样本中有至少一个负样本,那么这一对的标签是负样本,即Dtr={(xi,xj),y)|i,j={1,2,...,n},y∈{0,1},因此原训练数据为n,采样后数据增强为
Figure GDA0003600487290000041
对。
所述的编码,方式为one-hot编码。
本实施例嵌入网络中两层卷积神经网络的卷积核个数分别为64、32,卷积核的大小分别为7x4和7x1,在第二层,应用批次归一化(BN)层、概率为0.25的dropout层并使用ReLU激活函数,网络最后一层的激活函数为sigmoid,初始学习速率为10-4的Adam优化器,损失函数使用的是二值交叉熵,批次大小为128。训练的过程中本实例使用早停机制,当在5个epoch验证集上的loss没有下降,则停止训练,以防止在训练过程中过拟合。
所述的嵌入网络fθ和其内部使用的轻量级注意力机制的计算,即
Figure GDA0003600487290000042
Figure GDA0003600487290000043
ak=Reshape(Hard_swish(F2(ReLU6(F1(pool(f1(xk))))))),其中:
Figure GDA0003600487290000044
Figure GDA0003600487290000045
f1、f2分别为第一层和第二卷积层络的卷积运算,ak为注意力的功能,
Figure GDA0003600487290000046
表示乘法,xk为RNA序列k的一个one-hot编码矩阵,pool为全局平均池化层,ReLU6和H-swish为激活函数,Reshape(.)为将输出重塑为与第二卷积层络f2的输出相同维度的操作。
S4、测试时,将查询集的测试序列和支持集中所有序列组成样本对,由神经网络分别提取得到特征向量后经分别计算得到绑定位点的概率,最后平均得到的结果作为测试序列绑定倾向的预测分数,具体步骤如下:
S41、RBP测试时,将训练集中的m个正样本的集合为支持集,即{xi,i=1...m};测试序列的集合为查询集,即{xj,j=1...n},根据测试RNA序列xq和支持集序列,将其通过嵌入网络以获取特征fθ(xq)和支持集中所有m个序列的特征{fθ(xj),j=1...m};
S42、对于支持集中的每个序列,分别与所有查询序列的特征相连分别估计绑定概率
Figure GDA0003600487290000047
Figure GDA0003600487290000048
其中M(.)是度量函数,M(.)=F(|fq(xi)-fq(xj)|),fq(.)为特征向量,|.|为差的绝对值,F(.)为完全连接层,pq即为预测的RNA序列xq绑定蛋白质的概率。
具体地,本实施例在RBP-37和RBP-24两个基准集上评估本方法,RBP-37由37个RBP固定长度circRNA组成;RBP-24是由24个RBP不等长的线性RNA序列组成。此外,本实施例还构建一个全长circRNA测试数据集,包括与RBP结合和不结合的全长circRNA。
本实施例采用的评价指标
Figure GDA0003600487290000049
其中:
Figure GDA00036004872900000410
代表第i条样本的序号(概率得分从小到大排,排在第rank个位置);M、N分别是正样本的个数和负样本的个数;
Figure GDA00036004872900000411
是把正样本的序号累加。
实验的预测结果如下:在实验阶段,本实施例分别与在线性RNA数据集RBP-24和环状circRNA两个基准数据集上具有代表性的RNA与蛋白质结合位点预测方法进行比较,包括:
1)Zhang,K.,et al.CRIP:predicting circRNA-RBP-binding sites using acodon-based encoding and hybrid deep neural networks.RNA 2019;25(12):1604-1615.
2)Jia C,Bi Y,Chen J,et al.PASSION:an ensemble neural network approachfor identifying the binding sites of RBPs on circRNAs[J].Bioinformatics,2020.
3)Maticzka,D.,et al.GraphProt:modeling binding preferences of RNA-binding proteins.Genome Biol 2014;15(1):R17.
4)Zhang,S.,et al.A deep learning framework for modeling structuralfeatures of RNA-binding protein targets.Nucleic Acids Res 2016;44(4):e32.
5)Pan,X.Y.and Shen,H.B.Predicting RNA-protein binding sites andmotifs through combining local and global deep convolutional neuralnetworks.Bioinformatics 2018;34(20):3427-3436.
6)Gronning,A.G.B.,et al.DeepCLIP:predicting the effect of mutationson protein-RNA binding with deep learning.Nucleic Acids Res 2020.,结果如下表1,表2所示。本实施例在平均评价指标AUC上取得最好的结果。在RBP-37上本方法平均AUC为0.9123,而当下最好平均AUC的PASSIONG为0.8845,在RBP-24上本方法平均AUC为0.941,而当下最好平均AUC的DeepCLIP为0.935。
表1在RBP-37数据集上比较本方法与CRIP和PASSION的表现
Figure GDA0003600487290000051
Figure GDA0003600487290000061
表2在RBP-24数据集上比较本方法与GraphProt、Deepnetrbp、DeepCLIP和iDeepE的表现:
Figure GDA0003600487290000062
Figure GDA0003600487290000071
如表1所示,本方法与基线方法CRIP和PASSION在总共37个RBPs上进行比较。在这三种方法中,本方法对29个RBP的性能最好,而PASSION在7个RBP上的性能最好,CRIP仅在一个RBP上产生最高的AUC。详见补充表S3。本方法的平均AUC为0.912,比CRIP的AUC 0.881高0.031,比激情的AUC 0.885高0.027。对于一些绑定环数量有限的RBP,本方法比CRIP和PASSION有显著的改进。例如,本方法的TNRC6的AUC为0.916,而CRIP和PASSION的AUC分别为0.808和0.785。
如表2所示,在24个数据集上,本方法的平均AUC为0.941,比GraphProt的auc0.887高0.054,比Deepnet-rbp的auc0.903高0.038,比iDeepE的auc0.931高0.010,比DeepCLIP的AUC为.935高0.006。在24个RBP中,本方法在五种方法中获得14个RBP的最高AUC。结果表明,本方法在预测线性RNAs上RBP结合位点方面同样有效,优于现有的方法。
为进一步证明本方法的优势,也研究本方法在训练样本相对较少的RBPs上的有效性。如图3B所示,对于阳性样本数小于5000的14个RBPs,本方法优于CRIP和PASISION。本方法的平均AUC为0.947,比CRIP的AUC 0.888和PASSION的AUC分别增加0.059和0.057。另外,从整体趋势来看,随着训练样本数的增加,这三种方法都取得较好的效果。对于阳性样本最少(只有496个结合环)的RBP-WTAP,本方法的AUC高达0.880。然而,基于深度学习的方法CRIP产生的AUC非常低,为0.678,基于两层ANN的方法PASISION获得的AUC为0.794。结果表明,本方法中的连体结构在预测特征差的RBPs的结合位点方面更为有效,并且不受deep模型中数据匮乏问题的影响。
在全长RNA序列上研究。以AGO3和EWSR1的两个全长RNA序列hsa_circ_000180和hsa_circ_0000078为例进行本方法评估,如图4所示。hsa_circ_000180被分成五个101nt长的段。其中:有一个经过验证的结合位点,本方法可以检测到它。对于hsa_circ_000078,它被分成9个部分。其中3个是经验证的结合位点,本方法可以找到这三个结合位点。
与CRIP和PASSION相比,本方法不仅能获得更好的预测效果,而且能从学习到的CNN过滤器中捕捉到结合基序。本实施例通过本方法对照CISBP-RNA数据库对检测到的基序进行验证,CISBP-RNA数据库为线性RNAs保存已知的结合基序。如图5所示,本方法检测到RBP TIA1、TIAL1、QKI、HRNPC和HUR的五个基序,这些基序在视觉上与CISBP-RNA数据库中已知的线性RNA基序相似。此外,如补充图S2所示,本方法能够检测到不在CISBP-RNA中的新基序,并且这些基序可能是RBP结合环的特定基序,并且不同于线性RNA的那些基序。结果表明,本方法可以学习RBPs对circRNAs的结合偏好,而不是仅仅区分绑定序列和未绑定序列。此外,circRNAs和线性RNAs对某些RBP具有相似的绑定偏好,但对于其他RBP则表现不同。
经过具体实际实验,在计算机或者服务器上python安装tensorflow和keras安装包,运行本系统,加载C22ORF28预训练模型,在指定具体的RBP的训练集上微调,然后测试。同时,也可以使用在RBP-24和RBP-37数据集训练好的模型去测试其他独立测试集。本方法针对RNA绑定蛋白质倾向的模型结构设计,在RBP-24和RBP-37数据集上预测效果与当下方法相比,平均AUC指标均为最好,实验结果如表1和表2所示,本方法在数据集RBP-24和RBP-37上预测精度相比于当下其他方法表现最好,特别是数据量匮乏和特征性较差的RBP,效果如图3B所示;而且可以在全长RNA上通过滑动窗口的方式寻找绑定位点,如图4所示;最重要的是只需要有限数量的样本就可以捕捉到RBP的结合模式,挖掘的RNA的motif,如图5所示。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (8)

1.一种基于注意力孪生网络的蛋白质结合位点预测方法,其特征在于,采用具有两个CNN结构的神经网络对输入的进行特征提取,再根据提取到的特征估计绑定概率,得到预测的RNA序列绑定蛋白质的概率;
所述的神经网络,包括两个串联的卷积层、修正线性层、全连接层、全局池化层、H-swish激活层,其中:第一卷积层根据输入RNA序列信息,进行卷积处理,得到卷积之后的结果,第二卷积层根据第一卷积层处理的结果进行卷积处理,得到卷积之后的结果,修正线性层根据第一卷积层的结果,进行修正处理,得到非线性化的结果,H-swish激活层根据第一卷积层的结果经过全连接层、全局池化、全连接层的信息,进行激活处理,得到激活之后的结果,将该结果与第二卷积神经网络层得到的结果进行融合得到最终输出;
所述的神经网络,通过从对RBP数据集中采样构建正、负样本对;经过one-hot编码后按样本对为单位进行训练;
所述的绑定概率是指:
Figure FDA0003642006340000011
其中:度量函数M(.)=F(|fθ(xq)-fθ(xj)|),fθ(.)为特征向量,|.|为绝对值,F(.)为全连接层,pq即为预测的RNA序列xq绑定蛋白质的概率。
2.根据权利要求1所述的基于注意力孪生网络的蛋白质结合位点预测方法,其特征是,所述的特征提取,得到:测试RNA序列xj和支持集序列对应的特征fθ(xq)和特征{fθ(xj),j=1…m}。
3.根据权利要求1所述的基于注意力孪生网络的蛋白质结合位点预测方法,其特征是,所述的RBP数据集,即RBP-24和RBP-37,其中将RBP-37的各个RBP按照8:2的比例划分训练集和测试集,当同一RNA的不同片段同时出现在训练集和测试集时,将其修改至训练集中以保证同一条RNA全长序列不同时出现在训练集和测试集。
4.根据上述任一权利要求所述的基于注意力孪生网络的蛋白质结合位点预测方法,其特征是,具体包括:
S1、获取基准数据集,将RBP-37的各个RBP按照8:2的比例划分训练集和测试集;
S2、使用C22ORF28训练的结果作为模型的初始化参数代替模型参数随机初始化,在预训练时,输入对采样的数量是在具体任务上训练采样数量的五倍;
S3、训练时,从对指定RBP数据集中采样构建正、负样本对;经过编码后按对为单位输入嵌入网络fθ中提取得到特征向量{fθ(xj),j=1、2},根据特征表示之间的差d=|fθ(x1)-fθ(x2)|计算得到绑定位点的概率P=Sigmoid(F(d)),其中:fθ(.)为特征向量,|.|为差的绝对值,F(.)为全连接层;
S4、测试时,将查询集的测试序列和支持集中所有序列组成样本对,由神经网络分别提取得到特征向量后经分别计算得到绑定位点的概率,最后平均得到的结果作为测试序列绑定倾向的预测分数。
5.根据权利要求4所述的基于注意力孪生网络的蛋白质结合位点预测方法,其特征是,所述的预训练,使用C22ORF28训练的结果作为模型的初始化参数,代替模型参数随机初始化。
6.根据权利要求4所述的基于注意力孪生网络的蛋白质结合位点预测方法,其特征是,当同一RNA的不同片段同时出现在训练集和测试集时,将其修改至训练集,以保证同一条RNA全长序列不同时出现在训练集和测试集。
7.根据权利要求4所述的基于注意力孪生网络的蛋白质结合位点预测方法,其特征是,所述的采样构建是指:当采样的两个样本是正样本,那么采样的这一对的标签是正样本,当采样的两个样本中有至少一个负样本,那么这一对的标签是负样本,即Dtr={(xi,xj),y)|i,j={1,2,…,n},y∈{0,1},因此原训练数据为n,采样后数据增强为
Figure FDA0003642006340000021
对。
8.根据权利要求4所述的基于注意力孪生网络的蛋白质结合位点预测方法,其特征是,所述的步骤S4具体包括:
S41、RBP测试时,将训练集中的m个正样本的集合为支持集,即{xi,i=1…m};测试序列的集合为查询集,即{xj,j=1…n},根据测试RNA序列xq和支持集序列,将其通过嵌入网络以获取特征fθ(xq)和支持集中所有m个序列的特征{fθ(xj),j=1…m};
S42、对于支持集中的每个序列,分别与所有查询序列的特征相连分别估计绑定概率
Figure FDA0003642006340000022
Figure FDA0003642006340000023
其中:M(.)是度量函数,M(.)=F(|fθ(xi)-fθ(xj)|),fθ(.)为特征向量,|.|为差的绝对值,F(.)为完全连接层,pq即为预测的RNA序列xq绑定蛋白质的概率。
CN202110041598.9A 2021-01-13 2021-01-13 基于注意力孪生网络的蛋白质结合位点预测方法 Active CN112837747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110041598.9A CN112837747B (zh) 2021-01-13 2021-01-13 基于注意力孪生网络的蛋白质结合位点预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110041598.9A CN112837747B (zh) 2021-01-13 2021-01-13 基于注意力孪生网络的蛋白质结合位点预测方法

Publications (2)

Publication Number Publication Date
CN112837747A CN112837747A (zh) 2021-05-25
CN112837747B true CN112837747B (zh) 2022-07-12

Family

ID=75927992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110041598.9A Active CN112837747B (zh) 2021-01-13 2021-01-13 基于注意力孪生网络的蛋白质结合位点预测方法

Country Status (1)

Country Link
CN (1) CN112837747B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11398297B2 (en) * 2018-10-11 2022-07-26 Chun-Chieh Chang Systems and methods for using machine learning and DNA sequencing to extract latent information for DNA, RNA and protein sequences
CN113177521B (zh) * 2021-05-26 2022-07-01 电子科技大学 一种基于组合孪生网络的智能辐射源识别方法
CN114023376B (zh) * 2021-11-02 2023-04-18 四川大学 基于自注意力机制的rna-蛋白质结合位点预测方法和系统
CN113936738B (zh) * 2021-12-14 2022-04-22 鲁东大学 一种基于卷积神经网络的rna-蛋白质结合位点预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696624A (zh) * 2020-06-08 2020-09-22 天津大学 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN111914917A (zh) * 2020-07-22 2020-11-10 西安建筑科技大学 一种基于特征金字塔网络和注意力机制的目标检测改进算法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017083368A1 (en) * 2015-11-12 2017-05-18 Pfizer Inc. Tissue-specific genome engineering using crispr-cas9
US20190265955A1 (en) * 2016-07-21 2019-08-29 Ramot At Tel-Aviv University Ltd. Method and system for comparing sequences
CN111667884B (zh) * 2020-06-12 2022-09-09 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696624A (zh) * 2020-06-08 2020-09-22 天津大学 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN111914917A (zh) * 2020-07-22 2020-11-10 西安建筑科技大学 一种基于特征金字塔网络和注意力机制的目标检测改进算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multifaceted protein-protein interaction prediction based on Siamese residual RCNN;Muhao Chen et al.;《Bioinformatics》;20190731;第i306-i308页 *
Multi-feature fusion for deep learning to predict plant lncRNA-protein interaction;Jael Sanyanda Wekesaa et al.;《Genomics》;20200511;第2929-2934页 *

Also Published As

Publication number Publication date
CN112837747A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN112837747B (zh) 基于注意力孪生网络的蛋白质结合位点预测方法
CN110689920B (zh) 一种基于深度学习的蛋白质-配体结合位点预测方法
Pan et al. Prediction of RNA-protein sequence and structure binding preferences using deep convolutional and recurrent neural networks
Pan et al. RNA-protein binding motifs mining with a new hybrid deep learning based cross-domain knowledge integration approach
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
Jones et al. Computational biology: deep learning
Zhang et al. Analysis of ribosome stalling and translation elongation dynamics by deep learning
CN108763865B (zh) 一种预测dna蛋白质结合位点的集成学习方法
Hu et al. An improved deep learning method for predicting DNA-binding proteins based on contextual features in amino acid sequences
Le et al. SNARE-CNN: a 2D convolutional neural network architecture to identify SNARE proteins from high-throughput sequencing data
CN111192631A (zh) 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
Shen et al. RNA-protein binding sites prediction via multi scale convolutional gated recurrent unit networks
Li et al. Protein contact map prediction based on ResNet and DenseNet
US11398297B2 (en) Systems and methods for using machine learning and DNA sequencing to extract latent information for DNA, RNA and protein sequences
WO2020170052A1 (en) Disease-gene prioritization method and system
Shujaat et al. Cr-prom: A convolutional neural network-based model for the prediction of rice promoters
Yang et al. MemBrain-contact 2.0: a new two-stage machine learning model for the prediction enhancement of transmembrane protein residue contacts in the full chain
Shao et al. DeepSec: a deep learning framework for secreted protein discovery in human body fluids
KR20180017827A (ko) 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 시스템
Zhao et al. DFpin: Deep learning–based protein-binding site prediction with feature-based non-redundancy from RNA level
Gao et al. RicENN: prediction of rice enhancers with neural network based on DNA sequences
CN116964678A (zh) 使用以蛋白质结构嵌入为条件的生成模型预测蛋白质氨基酸序列
Wang et al. Prediction of DNA-binding residues from sequence features
CN113257357A (zh) 蛋白质残基接触图预测方法
Xuan et al. Clpred: a sequence-based protein crystallization predictor using blstm neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant