CN115472221A - 一种基于深度学习的蛋白质适应度预测方法 - Google Patents

一种基于深度学习的蛋白质适应度预测方法 Download PDF

Info

Publication number
CN115472221A
CN115472221A CN202211290871.2A CN202211290871A CN115472221A CN 115472221 A CN115472221 A CN 115472221A CN 202211290871 A CN202211290871 A CN 202211290871A CN 115472221 A CN115472221 A CN 115472221A
Authority
CN
China
Prior art keywords
protein
amino acid
sequence
target
evolutionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211290871.2A
Other languages
English (en)
Inventor
梁亦龙
戈其珺
舒坤贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211290871.2A priority Critical patent/CN115472221A/zh
Publication of CN115472221A publication Critical patent/CN115472221A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Computation (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Genetics & Genomics (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于生命科学领域,具体涉及一种基于深度学习的蛋白质适应度预测方法,包括:对目标蛋白质进行多序列比对,并推断其进化耦合,并获取同源蛋白质序列的局部进化表示;利用蛋白质语言模型来获取目标蛋白质的氨基酸特征;对目标蛋白质的氨基酸序列进行位置嵌入表示,得到位置特征;将目标蛋白质的局部进化表示和氨基酸特征与位置特征输入到混合神经网络模型中提取特征,将提取的特征通过全连接计算,得到蛋白质适应度的预测结果值。本发明提出了一种新的混合神经网络,网络充分利用了蛋白质序列的局部进化信息和氨基酸特征信息,可以更有效的提取并学习蛋白质序列数据,提高了预测精度。

Description

一种基于深度学习的蛋白质适应度预测方法
技术领域
本发明属于生命科学领域,具体涉及一种基于深度学习的蛋白质适应度预测方法。
背景技术
天然的蛋白质在稳定性、耐受性、选择性等方面往往无法满足工业生产的需求,促使人类探索高效的蛋白质改造方法。在自然条件下,蛋白质性质或功能的改变通常需要很长时间。因此,人们为了加速天然蛋白质的进化过程,提出了蛋白质定向进化(directedevolution)。蛋白质定向进化,主要指通过蛋白质工程等手段,在实验室模拟并加速蛋白质进化过程,对目的基因进行多轮反复的突变、表达,随后根据特定的标准进行筛选,以分离或富集具有一个或多个预期性能改进的蛋白质突变体。筛选突变体由适应度的大小决定,适应度是指在自然进化中对宿主生物在特定环境中繁殖能力的衡量,更适合的生物繁殖更快,它们的基因在整个种群中传播。当实施人工选择时,适应度由实验者定义。随机突变的定向进化与高通量筛选相结合,显著提高了酶的活性,拓宽了其在工业催化中的应用。尽管定向进化策略十分有效,但仍存在突变文库大、阳性突变少、难以筛选等问题,还需借助适当的计算手段来指导突变体及其文库设计。
近年来,机器学习(machine learning,ML)逐渐成为助力蛋白质定向进化的一种新方法。机器学习通常使用计算机的方法对组合文库进行采样,从而在每一轮中通过序列空间搜索实现更大的筛选。在这种方法中,来自组合文库(也称输入文库)中随机样本的真实实验数据用于训练机器学习模型,这些模型可预测较小的突变体数据集(即预测文库),然后将表现最佳的突变体用作下一轮进化的亲本序列,并在新位置进行突变。而深度学习通过训练深度神经网络,学习由低到高的特征层次,进而对输入数据进行分层抽象处理,原始特征数据能够被映射成更高层次和更抽象的数据表示,能有效增强辨别能力和减轻无关因素的影响,因此深度学习深刻变革了机器学习领域。相比之下,传统的学习技术,如支持向量机(Support vector machine,SVM)、高斯回归(Gaussian processes,GP)和人工神经网络(Artificial neural networks,ANN)等,则强烈依赖于人工提取的特征(feature),由于它们明确的特征编码原理,这些方法可能会丢失隐藏在输入数据中的敏感特征;无法通过在蛋白质序列数据库上训练后模拟和预测目标蛋白质的所有可能序列的适应度来工作。
综上所述,现有技术问题:
1.传统学习技术根据明确的特征编码原理来人工提取特征会丢失隐藏在输入数据中的敏感特征;
2.传统学习技术无法通过在蛋白质序列数据库上训练后模拟和预测目标蛋白质的所有可能序列的适应度来工作。
发明内容
为解决上述技术问题,本发明提出一种基于深度学习的蛋白质适应度预测方法,包括以下步骤:
S1:获取大规模深度突变扫描(DMS)数据集和已发表的文献中整理的随机突变数据集;
S2:对目标蛋白质进行多序列比对,并推断其进化耦合,并获取同源蛋白质序列的局部进化表示;
S3:利用蛋白质语言模型来获取目标蛋白质的氨基酸特征;
S4:对目标蛋白质的氨基酸序列进行位置嵌入表示,得到位置特征;
S5:将目标蛋白质的局部进化表示和氨基酸特征与位置特征输入到混合神经网络模型中提取特征,将提取的特征通过全连接计算,得到蛋白质适应度的预测结果值。
优选的,所述S2具体包括:
使用HH-Suite中的HHblits搜索根据大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集中的蛋白质与目标蛋白质的同源的蛋白质序列,并将搜索到的同源蛋白质序列格式化为A3M多序列比对格式,通过CCMPred使用马尔可夫随机场学习同源蛋白质序列的A3M多序列比对来识别进化耦合,得到耦合矩阵eij和位点偏好向量ei,根据位点偏好向量ei和耦合矩阵eij构建蛋白质协同进化信息的数据表示,得到同源蛋白质序列的局部进化表示。
进一步的,通过CCMPred使用马尔可夫随机场学习同源序列的多序列比对来识别进化耦合,表示为:
Figure BDA0003901306840000031
其中,L(e)表示进化耦合概率,ei表示位点偏好向量,eij表示耦合矩阵,
Figure BDA0003901306840000032
表示第n个序列中的第i个氨基酸,
Figure BDA0003901306840000033
表示第n个序列中的第j个氨基酸,Z表示归一化常数,N是同源序列的个数,L是多序列比对中的列数,exp()表示以自然常数e为底的指数函数。
进一步的,根据位点偏好向量ei和耦合矩阵eij构建蛋白质协同进化信息的数据表示,得到同源蛋白质序列的局部进化表示,表示为:
Vi=[ei(xi),ei1(xi,x1),ei2(xi,x2),ei3(xi,x3),...,eiL(xi,xL)]
其中,Vi表示蛋白质协同进化信息的数据表示即局部进化表示,ei表示位点偏好向量,eiL表示第L个耦合矩阵,xi表示第i个氨基酸,xL表示第L个氨基酸。
优选的,利用蛋白质语言模型来获取目标蛋白质的氨基酸特征,具体包括:
蛋白质语言模型ESM-1b根据输入的目标蛋白质序列,为目标蛋白质每个氨基酸生成1280维的矢量表示,得到包含有关生物特性信息的氨基酸特征。
优选的,所述S4具体包括:
目标蛋白质的氨基酸序列通过20维嵌入层,得到氨基酸嵌入特征,对嵌入特征进行Position Embedding,得到位置特征。
优选的,所述混合神经网络模型包括:双向门控循环单元、TextCNN层、BN层、两个全连接层、dropout层。
优选的,所述S5具体包括:
将目标蛋白质的局部进化表示和氨基酸特征经过线性降维后拼接,将位置特征和降维后的特征按序列的位置顺序连接,将连接后的特征输入双向门控循环单元为序列中每个氨基酸产生一个隐藏状态向量,将隐藏状态向量输入TextCNN层,通过卷积操作和池化操作提取序列特征表示,提取的序列特征通过BN层进行批量归一化操作,将归一化后的序列特征表示通过具有tanh激活函数的两层全连接层,并在两层全连接层中用dropout层进行防止过拟合操作,得到预测适应度值。
本发明的有益效果:
1.充分利用了蛋白质序列的局部进化信息和氨基酸特征信息;
2.本发明提出了一种新的混合神经网络,将TextCNN和双向GRU进行了融合,融合后的网络可以更有效的提取并学习蛋白质序列数据,提高了预测精度,且针对不同数据集都有着不错的泛化性能。
附图说明
图1为本发明的流程图;
图2为本发明的神经网络模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于深度学习的蛋白质适应度预测方法,如图1所示,包括以下步骤:
S1:获取大规模深度突变扫描(DMS)数据集和已发表的文献中整理的随机突变数据集;
S2:对目标蛋白质进行多序列比对,并推断其进化耦合,并获取同源蛋白质序列的局部进化表示;
S3:利用蛋白质语言模型来获取目标蛋白质的氨基酸特征;
S4:对目标蛋白质的氨基酸序列进行位置嵌入表示,得到位置特征;
S5:将目标蛋白质的局部进化表示和氨基酸特征与位置特征输入到混合神经网络模型中提取特征,将提取的特征通过全连接计算,得到蛋白质适应度的预测结果值。
深度突变扫描(deep-mutational scanning,DMS)是通过高通量合成各种基因突变,建立突变库,确定突变对蛋白质功能的影响。所获得的深度突变扫描(DMS)数据集和已发表的文献中整理的随机突变数据集中包括目标蛋白质序列、蛋白突变体序列及其对应的适应度(标签值),目标蛋白质的适应度为1,若蛋白突变体的适应度高于目标蛋白质的适应度,则说明此突变体改良的比目标蛋白质功能更好。
所述S2具体包括:
使用HH-Suite中的HHblits搜索根据大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集中的蛋白质与目标蛋白质的同源的蛋白质序列,并将搜索到的同源蛋白质序列格式化为A3M多序列比对(MSA)格式,通过CCMPred使用马尔可夫随机场学习同源蛋白质序列的A3M多序列比对来识别进化耦合,得到耦合矩阵eij和位点偏好向量ei,根据位点偏好向量ei和耦合矩阵eij构建蛋白质协同进化信息的数据表示,得到同源蛋白质序列的局部进化表示。
通过CCMPred使用马尔可夫随机场学习同源序列的MSA来识别进化耦合,表示为:
Figure BDA0003901306840000051
其中,L(e)表示进化耦合概率,ei表示位点偏好向量,eij表示耦合矩阵,
Figure BDA0003901306840000052
表示第n个序列中的第i个氨基酸,
Figure BDA0003901306840000053
表示第n个序列中的第j个氨基酸,Z表示归一化常数,N是同源序列的个数,L是多序列比对中的列数,exp()表示以自然常数e为底的指数函数。
根据位点偏好向量ei和耦合矩阵eij构建蛋白质协同进化信息的数据表示,得到同源蛋白质序列的局部进化表示,表示为:
Vi=[ei(xi),ei1(xi,x1),ei2(xi,x2),ei3(xi,x3),...,eiL(xi,xL)]
其中,Vi表示蛋白质协同进化信息的数据表示即局部进化表示,ei表示位点偏好向量,eiL表示第L个耦合矩阵,xi表示第i个氨基酸,xL表示第L个氨基酸。
ESM-1b是使用无监督学习,对跨越进化多样性的2.5亿个蛋白质序列中的860亿个氨基酸训练的蛋白质语言模型。所得到的模型在其表示中包含有关生物特性的信息,这些表示仅从序列数据中学习,对于输入的序列,ESM-1b为每个氨基酸生成1280维的矢量表示,将重新投影的ESM-1b表示称为氨基酸特征表示。
利用蛋白质语言模型来获取目标蛋白质的氨基酸特征,具体包括:
蛋白质语言模型ESM-1b根据输入的目标蛋白质序列,为目标蛋白质每个氨基酸生成1280维的矢量表示,得到包含有关生物特性信息的氨基酸特征。
所述S4具体包括:
将输入序列中的氨基酸用类似与文本处理中词向量的方式进行表示,此词向量的维数为20。词向量只记录了每一个氨基酸的信息,而没有记录这些氨基酸在序列中出现的位置信息,所以将Position Embedding加在词向量层之后,补充位置信息,将结合后的向量称为位置特征。
将输入序列中的氨基酸用类似与文本处理中词向量的方式进行表示,此词向量的维数为20。词向量只记录了每一个氨基酸的信息,而没有记录这些氨基酸在序列中出现的位置信息,所以将Position Embedding加在词向量层之后,补充位置信息,将结合后的向量称为位置特征。
所述混合神经网络模型,如图2所示,包括:双向门控循环单元、TextCNN层、BN层、两个全连接层、dropout层。
使用带有默认参数的Adam optimizer完成对模型的训练,使用均方误差(MeanSquare Error,MSE)作为模型的损失函数。
模型的损失函数为:
Figure BDA0003901306840000071
其中,MSE表示模型的损失函数;y为实际的标签值;f(x)为当前模型训练的预测值;n为样本数。
所述S5具体包括:
将目标蛋白质的局部进化表示和氨基酸特征经过线性降维后拼接,将位置特征和降维后的特征按序列的位置顺序连接,将连接后的特征输入双向门控循环单元为序列中每个氨基酸产生一个隐藏状态向量,将隐藏状态向量输入TextCNN层,通过卷积操作和池化操作提取序列特征表示,提取的序列特征通过BN层进行批量归一化操作,将归一化后的序列特征表示通过具有tanh激活函数的两层全连接层,并在两层全连接层中用dropout层进行防止过拟合操作,得到预测适应度值。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于深度学习的蛋白质适应度预测方法,其特征在于,包括:
S1:获取大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集;
S2:根据大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集中的蛋白质对目标蛋白质进行多序列比对,并推断其进化耦合,并获取同源蛋白质序列的局部进化表示;
S3:利用蛋白质语言模型来获取目标蛋白质的氨基酸特征;
S4:对目标蛋白质的氨基酸序列进行位置嵌入表示,得到位置特征;
S5:将目标蛋白质的局部进化表示和氨基酸特征与位置特征输入到混合神经网络模型中提取特征,将提取的特征通过全连接计算,得到蛋白质适应度的预测结果值。
2.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法,其特征在于,所述S2具体包括:
使用HH-Suite中的HHblits搜索根据大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集中的目标蛋白质的同源蛋白质序列,并将搜索到的同源蛋白质序列格式化为A3M多序列比对格式,通过CCMPred使用马尔可夫随机场学习同源蛋白质序列的多序列比对来识别进化耦合,得到耦合矩阵eij和位点偏好向量ei,根据位点偏好向量ei和耦合矩阵eij构建蛋白质协同进化信息的数据表示,得到同源蛋白质序列的局部进化表示。
3.根据权利要求2所述的一种基于深度学习的蛋白质适应度预测方法,其特征在于,通过CCMPred使用马尔可夫随机场学习同源序列的多序列比对来识别进化耦合,表示为:
Figure FDA0003901306830000011
其中,L(e)表示进化耦合概率,ei表示位点偏好向量,eij表示耦合矩阵,
Figure FDA0003901306830000012
表示第n个序列中的第i个氨基酸,
Figure FDA0003901306830000021
表示第n个序列中的第j个氨基酸,Z表示归一化常数,N是同源序列的个数,L是多序列比对中的列数,exp()表示以自然常数e为底的指数函数。
4.根据权利要求2所述的一种基于深度学习的蛋白质适应度预测方法,其特征在于,根据位点偏好向量ei和第一耦合矩阵eij构建蛋白质协同进化信息的数据表示,表示为:
Vi=[ei(xi),ei1(xi,x1),ei2(xi,x2),ei3(xi,x3),...,eiL(xi,xL)]
其中,Vi表示蛋白质协同进化信息的数据表示即局部进化表示,ei表示位点偏好向量,eiL表示第L个耦合矩阵,xi表示第i个氨基酸,xL表示第L个氨基酸。
5.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法,其特征在于,利用蛋白质语言模型来获取目标蛋白质的氨基酸特征,具体包括:
蛋白质语言模型ESM-1b根据输入的目标蛋白质序列,为目标蛋白质的每个氨基酸生成1280维的矢量表示,得到包含有关生物特性信息的氨基酸特征。
6.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法,其特征在于,所述S4具体包括:
目标蛋白质的氨基酸序列通过20维嵌入层,得到氨基酸嵌入特征,对嵌入特征进行Position Embedding,得到位置特征。
7.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法,其特征在于,所述混合神经网络模型包括:双向门控循环单元、TextCNN层、BN层、两个全连接层、dropout层。
8.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法,其特征在于,所述S5具体包括:
将目标蛋白质的局部进化表示和氨基酸特征经过线性降维后拼接,将位置特征和降维后的特征按序列的位置顺序连接,将连接后的特征输入双向门控循环单元为序列中每个氨基酸产生一个隐藏状态向量,将隐藏状态向量输入TextCNN层,通过卷积操作和池化操作提取序列特征,提取的序列特征通过BN层进行批量归一化操作,将归一化后的序列特征通过具有tanh激活函数的两层全连接层,并在两层全连接层中用dropout层进行防止过拟合,得到预测适应度值。
CN202211290871.2A 2022-10-21 2022-10-21 一种基于深度学习的蛋白质适应度预测方法 Pending CN115472221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211290871.2A CN115472221A (zh) 2022-10-21 2022-10-21 一种基于深度学习的蛋白质适应度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211290871.2A CN115472221A (zh) 2022-10-21 2022-10-21 一种基于深度学习的蛋白质适应度预测方法

Publications (1)

Publication Number Publication Date
CN115472221A true CN115472221A (zh) 2022-12-13

Family

ID=84337538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211290871.2A Pending CN115472221A (zh) 2022-10-21 2022-10-21 一种基于深度学习的蛋白质适应度预测方法

Country Status (1)

Country Link
CN (1) CN115472221A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092577A (zh) * 2023-01-09 2023-05-09 中国海洋大学 一种基于多源异质信息聚合的蛋白质功能预测方法
CN116913393A (zh) * 2023-09-12 2023-10-20 浙江大学杭州国际科创中心 一种基于强化学习的蛋白质进化方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092577A (zh) * 2023-01-09 2023-05-09 中国海洋大学 一种基于多源异质信息聚合的蛋白质功能预测方法
CN116092577B (zh) * 2023-01-09 2024-01-05 中国海洋大学 一种基于多源异质信息聚合的蛋白质功能预测方法
CN116913393A (zh) * 2023-09-12 2023-10-20 浙江大学杭州国际科创中心 一种基于强化学习的蛋白质进化方法及装置
CN116913393B (zh) * 2023-09-12 2023-12-01 浙江大学杭州国际科创中心 一种基于强化学习的蛋白质进化方法及装置

Similar Documents

Publication Publication Date Title
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
US8572018B2 (en) Method, system and software arrangement for reconstructing formal descriptive models of processes from functional/modal data using suitable ontology
CN107463795A (zh) 一种识别酪氨酸翻译后修饰位点的预测算法
CN112927753A (zh) 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法
CN114743600A (zh) 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法
CN110265085A (zh) 一种蛋白质相互作用位点识别方法
CN108710784A (zh) 一种基因转录变异几率及变异方向的算法
CN116206688A (zh) 一种用于dta预测的多模态信息融合模型及方法
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
Hoang et al. Splice sites detection using chaos game representation and neural network
CN116013428A (zh) 基于自监督学习的药物靶标通用预测方法、设备及介质
Sun et al. Protein function prediction using function associations in protein–protein interaction network
Rahman et al. IDMIL: an alignment-free Interpretable Deep Multiple Instance Learning (MIL) for predicting disease from whole-metagenomic data
CN112085245B (zh) 一种基于深度残差神经网络的蛋白质残基接触预测方法
Sottosanti et al. Co-clustering of spatially resolved transcriptomic data
Golenko et al. IMPLEMENTATION OF MACHINE LEARNING MODELS TO DETERMINE THE APPROPRIATE MODEL FOR PROTEIN FUNCTION PREDICTION.
CN116386733A (zh) 基于多视角多尺度多注意力机制的蛋白质功能预测方法
CN115083511A (zh) 基于图表示学习与注意力的外围基因调控特征提取方法
CN114300036A (zh) 遗传变异致病性预测方法、装置、存储介质及计算机设备
CN112966702A (zh) 蛋白质-配体复合物的分类方法及分类装置
CN117976047B (zh) 基于深度学习的关键蛋白质预测方法
Bonetta Valentino et al. Machine learning using neural networks for metabolomic pathway analyses
Muggleton et al. Learning Chomsky-like grammars for biological sequence families
Zandi et al. Global protein-protein interaction networks in yeast saccharomyces cerevisiae and helicobacter pylori
CN114512188B (zh) 基于改进蛋白质序列位置特异性矩阵的dna结合蛋白识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination