CN113724780B - 基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法 - Google Patents

基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法 Download PDF

Info

Publication number
CN113724780B
CN113724780B CN202111084566.3A CN202111084566A CN113724780B CN 113724780 B CN113724780 B CN 113724780B CN 202111084566 A CN202111084566 A CN 202111084566A CN 113724780 B CN113724780 B CN 113724780B
Authority
CN
China
Prior art keywords
coiled
coil
network
prediction
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111084566.3A
Other languages
English (en)
Other versions
CN113724780A (zh
Inventor
沈红斌
冯世豪
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202111084566.3A priority Critical patent/CN113724780B/zh
Publication of CN113724780A publication Critical patent/CN113724780A/zh
Application granted granted Critical
Publication of CN113724780B publication Critical patent/CN113724780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Physiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Peptides Or Proteins (AREA)

Abstract

一种基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,使用两层卷积网络和两层双向长短时记忆网络分别提取序列的局部特征以及全局特征,经拼接后通过残差网络预处理,再分别经卷曲螺旋区域预测网络、七元标记位置预测网络以及寡聚体状态预测网络预测得到卷曲螺旋的卷曲螺旋区域、七元标记位置以及寡聚体状态。本发明采用自注意力机制使得模型自动关注卷曲螺旋中对预测至关重要的位置,并采用多类别交叉熵作为损失函数。模型最终的损失函数是三个网络损失函数的加权,以及网络参数的正则项。

Description

基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法
技术领域
本发明涉及的是一种基因工程领域的技术,具体是一种基于深度学习的蛋白质卷曲螺旋结构特征预测(CoCoPRED)实现方法。
背景技术
卷曲螺旋是蛋白质中的一种结构模式,有两个至多个α螺旋相互缠绕构成。普通的α螺旋的螺旋周期是7.2,即螺旋一周包含3.6个氨基酸。但是卷曲螺旋中螺旋的周期是7,这会导致螺旋具有一种超螺旋结构,使得多个螺旋缠绕在一起。三级结构中的卷曲螺旋对应到一维序列上的区域被称为卷曲螺旋区域。卷曲螺旋区域由重复的七元组构成,通常表示为[abcdefg]n,a-g被称为七元标记位置。在缠绕的过程中,螺旋会以一种“把手进入洞”的方式结合在一起,即一个螺旋的几条侧链会插入到对向螺旋侧链形成的空洞之中。这种缠绕方式会大大提高卷曲螺旋的稳定性。构成卷曲螺旋的螺旋数目被称为寡聚体状态,据此可以将卷曲螺旋分为顺式二聚体,反式二聚体,三聚体,以及四聚体。
根据领域内的报道,卷曲螺旋在很多生物过程中发挥重要的作用。准确预测卷曲螺旋的结构特征对于理解其功能具有重要的意义。尽管领域内已经出现大量的研究工作,卷曲螺旋特征预测仍然有改进的空间。首先,大多数工作只聚焦于某一种特征,很少有模型对卷曲螺旋的三种特征(卷曲螺旋区域、七元标记位置、寡聚体状态)同时建模。当要想对蛋白质序列做全面的预测,需要组合使用多种模型才能实现。其次,在寡聚体状态预测问题上,大多数模型只能区分有限的状态,只有LOGICOIL可以区分全部四种寡聚体状态。最后,随着近年深度学习的广泛运用,以及蛋白质结构的快速累积,开发准确高效的卷曲螺旋特征预测模型成为可能。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,采用自注意力机制使得模型自动关注卷曲螺旋中对预测至关重要的位置,并采用多类别交叉熵作为损失函数。模型最终的损失函数是三个网络损失函数的加权,以及网络参数的正则项。
本发明是通过以下技术方案实现的:
本发明涉及一种基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,使用两层卷积网络和两层双向长短时记忆网络分别提取序列的局部特征以及全局特征,经拼接后通过残差网络预处理,再分别经卷曲螺旋区域预测网络、七元标记位置预测网络以及寡聚体状态预测网络预测得到卷曲螺旋的卷曲螺旋区域(coiled-coil domain)、七元标记位置(register)以及寡聚体状态(oligomeric state)。
所述的卷曲螺旋区域预测网络、七元标记位置预测网络以及寡聚体状态预测网络均包含卷积层和全连接层。
技术效果
本发明针对卷曲螺旋特征预测,使用卷积网络和双向长短时记忆网络,提取序列的局部特征和全局特征,使用注意力机制预测寡聚体状态,以及使用条件随机场预测七元标记位置。采用条件随机场刻画七元标记位置之间存在的先后顺序关系。同时考虑到卷曲螺旋区域的长度不一样,在输出至条件随机场之前会对张量进行切割,去除非卷曲螺旋区域的影响。对于寡聚体状态预测网络,本发明使用注意力机制,使得模型自动的关注对预测更加重要的区域。注意力机制也很好的解决卷曲螺旋区域长度不一致问题,使模型对任意长度的卷曲螺旋都能预测一个固定长度的向量。另外七元标记位置网络的输出会作为特征之一输出至寡聚体状态预测网络,提升模型的预测能力。
附图说明
图1为实施例流程图;
图2为实施例方法与LOGICOIL的比较示意图;
图3为实施例中七元标记位置混淆矩阵示意图;
图4为实施例中七元标记位置转移矩阵示意图;
图5为实施例卷曲螺旋预测的混淆矩阵示意图;
图6和图7为实施例正确预测的卷曲螺旋和错误预测的卷曲螺旋对应的频率分布示意图。
具体实施方式
如图1所示,为本实施例涉及一种基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,包括以下步骤:
S1、从领域内工作提供的数据集、卷曲螺旋数据库CC+中整理出训练集、验证集和测试集,具体包括:
S11、领域内已有科研人员整理测试数据,用来评价目前广泛使用的几种卷曲螺旋区域预测软件。测试数据包括718条蛋白质,其中279条不包含卷曲螺旋,439条包含卷曲螺旋;
S12、从公开的卷曲螺旋数据库CC+中获取卷曲螺旋蛋白质,具体为:首先下载所有包含至少一个卷曲螺旋的蛋白质。然后剔除满足以下任一条件的蛋白质:(i)分辨率太差(ii)序列长度小于25或者大于700;(iii)序列中包含20种常见氨基酸之外的氨基酸;(iv)序列中的卷曲螺旋长度小于8;(v)序列中存在参与多个卷曲螺旋的氨基酸;(vi)序列中的卷曲螺旋的寡聚体状态不属于以下四种类别:顺式二聚体,反式二聚体,三聚体,以及四聚体。在剩余的序列中,去除与测试序列相似度大于30%的蛋白质。再对自身去冗余至50%,即得到本实施例的训练正样本,共2327条序列。
S13、将DeepCoil模型训练集中来自于PDB数据库的负样本补充到训练集中,共9358条序列。
S2、使用HHblits工具对整理数据集中的序列提取HMM特征;对数据集中的序列做独热(one-hot)编码;使用Eisenberg scale作为序列的疏水指标特征。
所述的独热编码作为表征蛋白质序列最直接的一种方式,具体是指:将序列中的氨基酸编码成长度为20的向量,其中只有一个元素值为1,其他元素值等于0。对于一个长度为L的蛋白质序列来说,独热编码的维度为Lⅹ20。
所述的HMM特征来源于隐马尔可夫概率模型,本实施例使用HHblits序列比对工具搜索Uniclust30数据库得到HMM特征,执行命令及参数为:hhblits–i sequence.fasta-n3-e 0.001-d uniclust30_2017_10-cpu 6-ohhm sequence.hmm-diffinf-id 99-cov 50。HMM特征有30维。
所述的疏水指标特征,即氨基酸侧链的疏水程度,本实施例使用Eisenberg scale疏水指数。对于一个氨基酸残基来说,疏水指数特征共1维。
S3、使用两层卷积网络和两层双向长短时记忆网络分别提取序列的局部特征以及全局特征,在特征维度上拼接,之后输出至一层残差网络中得到更有效的特征,最终将该特征进一步输入卷曲螺旋区域预测网络、七元标记位置网络以及寡聚体状态预测网络,分别得到卷曲螺旋的三种结构特征。
本实施例通过将训练集等分成五份,使用5折交叉验证框架使用同一套参数分别在五个模型各自的训练数据上训练,根据模型在验证集上的性能对模型进行参数调整。
所述的卷曲螺旋区域预测网络包括:一层卷积层和一层全连接层,该网络使用交叉熵作为损失函数。
所述的七元标记位置网络包括:一层卷积层和一层全连接层,其中:全连接层的输出根据卷曲螺旋区域进行切割;该网络使用条件随机场作为损失函数,即切割结果输出至条件随机场中得到损失函数;在预测序列的七元标记位置时,该网络使用维特比算法得到最优标记位置序列。
由于七元标记位置之间存在某种关系,例如a后面往往紧跟着b,因此完全独立地预测每个标记是不合适的。本实施例使用条件随机场刻画标记之间的关系,使得一个卷曲螺旋上七元标记位置之间的预测被绑定在一起。
所述的七元标记位置网络的输出采用梯度停止技术,这样寡聚体状态预测网络的训练就不会直接影响到七元标记位置网络。
所述的寡聚体状态预测网络使用注意力机制,其输入为七元标记位置网络中全连接层的输出,经残差层拼接得到,具体包括:一层卷积层和一层全连接层,其中:卷积层的输出根据卷曲螺旋区域进行切割,然后在特征维度上拆分成四份,分别输出至四个注意力头上,全连接层将全部注意力头的输出融合,得到最终结果,该网络采用多分类的交叉熵作为损失函数。
本实施例的最终损失函数为三个子网络损失函数的加权和,以及网络中可训练参数的正则项。
S4、针对不包含任何标记的蛋白质序列进行预测,得到其是否包含卷曲螺旋、卷曲螺旋的范围、七元标记位置以及寡聚体状态,或者针对已知卷曲螺旋区域预测,得到其七元标记位置和寡聚体状态。
所述的针对不包含任何标记的蛋白质序列进行预测是指:分别使用HHblits软件对序列数据库Uniclust30进行搜索得到HMM特征、根据序列得到独热(one-hot)编码以及Eisenberg scale疏水指标,将这些特征输入模型预测出序列是否包含卷曲螺旋以及卷曲螺旋对应的区域,进一步预测每个卷曲螺旋区域的寡聚体状态以及七元标记位置。
所述的针对已知卷曲螺旋区域预测是指:直接在标注的区域信息基础上预测每个卷曲螺旋的寡聚体状态以及七元标记位置,当正确预测出卷曲螺旋区域时,很可能正确预测其寡聚体状态,因此是否正确预测卷曲螺旋区域一定程度上表明本实施例能否正确预测对应的寡聚体状态。
训练过程中的batch size为64,即64条序列。其中32条包含卷曲螺旋,32条不包含卷曲螺旋。由于四种寡聚体状态的卷曲螺旋数量极度不平衡,本实施例还对部分蛋白质进行复制,缓解样本不平衡问题。
所述的训练,模型的学习率设为5e-4。预测卷曲螺旋的最短长度为6。模型使用指数线性单元ELU作为非线性激活函数,使用层归一化调整神经元的输出。为防止过拟合,模型还在长短时记忆网络和卷积网络上使用dropout层。
除此之外,为保证模型训练的稳定性,本实施例采用梯度裁剪技术防止出现梯度爆炸问题。模型使用tensorflow框架,在训练集上训练100轮,参数根据模型在5折交叉验证框架下验证集上的性能进行调整。
本实施例对上述预测得到的结果进行的评价指标分为两类,一类在氨基酸层面上做评价,一类在片段层面上做评价。一个卷曲螺旋区域被认为是正确预测,当且仅当预测的片段和真正的片段重叠区域的长度大于两者最长长度的一半以上。除此之外,本实施例还采用准确率召回率曲线下面积,片段重叠度,以及混淆矩阵等评价指标。
所述的评价指标包括:
将本实施例提出的算法(CoCoPRED)与领域中已有的卷曲螺旋区域预测算法在测试集上进行比较,对比结果如表1所示。由于DeepCoil算法只能对长度在500以下的蛋白质做预测,因此只用长度小于500的测试蛋白评测本实施例与DeepCoil,结果如表2所示。本实施例提出的算法在几乎所有指标上都明显优于领域内其他算法。
表1.本实施例与领域内已有算法在测试集上的效果对比
表2.本实施例与DeepCoil算法在测试集上的效果对比
如图2所示,为本实施例(CoCoPRED)与领域内最好的寡聚体状态预测算法LOGICOIL的比较结果。为在较大规模的数据集上比较,保证结果的显著性,本实施例使用5折交叉验证中的验证集评测结果。可以看出本实施例在顺式二聚体,反式二聚体,以及三聚体上的性能都显著好于LOGICOIL。在四聚体的预测上,本实施例受限于有限的数据量,没有达到较好的效果。未来随着蛋白质结构数量的不断增加,本实施例的效果也会进一步提升。
如图3所示,为本实施例(CoCoPRED)在七元标记位置预测任务上的混淆矩阵,评测数据为5折交叉验证框架下的验证集。相较于卷曲螺旋区域和寡聚体状态,七元标记位置的重要性稍小,领域内基本没有预测七元标记位置的软件。因此如图3仅所示,为本实施例的预测结果。可以看出,混淆矩阵中对角线上的数字是所在行所有数字中最大的,表明本实施例可以很好地预测所有类型的标记位置。
如图4所示,为本实施例(CoCoPRED)中七元标记位置网络的转移矩阵。转移矩阵中每个元素与对应标记位置之间的转移概率呈正相关关系。可以看出,a到b,b到c,c到d,d到e,e到f,f到g对应的转移概率是最大的,表明转移概率矩阵很好地抓住不同标记位置之间的顺序关系。
根据数据集中的卷曲螺旋是否被CoCoPRED正确预测出,卷曲螺旋区域可以被分成两类:正确预测的卷曲螺旋区域和错误预测的卷曲螺旋区域。如图5使用CoCoPRED分别预测这两类卷曲螺旋的寡聚体状态,并绘制对应的混淆矩阵。矩阵的每个位置上有上下两个数字。下面的数字表示对应卷曲螺旋的数目,上面数字表示占数据集中对应寡聚体状态样本数目的比例。可以看出矩阵中每行比例之和等于1。从如图5可以发现,左边矩阵的对角线上的比例比右边矩阵的大不少,特别是对于顺式二聚体,三聚体,和四聚体。反式二聚体的比例基本持平。这表明对于正确预测的卷曲螺旋区域,CoCoPRED有更高的概率正确预测其寡聚体状态。
针对正确预测的卷曲螺旋区域和错误预测的卷曲螺旋区域,记录CoCoPRED预测寡聚体状态时的注意力向量。只保留状态预测正确的卷曲螺旋对应的注意力向量,同时对于一个卷曲螺旋,只保留最大值和次大值差别最大的注意力向量。最后对四种寡聚体状态的卷曲螺旋分别统计权重最大的氨基酸对应的标记位置的频率。如图6和如图7分别展示正确预测的卷曲螺旋和错误预测的卷曲螺旋对应的频率分布。可以看出,标记位置a,b,和e在如图6中的比例最大,表明对于正确预测的卷曲螺旋区域,这三种标记位置对于预测寡聚体状态至关重要。同时发现对于四种寡聚体状态,频率分布非常类似。如图7没有如图6中的规律明显,考虑到这些卷曲螺旋区域没有被CoCoPRED正确识别,如图7中的分布可能没有正确反映出每种标记位置的重要性。
本实施例使用三个子网络对卷曲螺旋的三种结构特征建模,能够区分顺式二聚体、反式二聚体、三聚体以及四聚体四种卷曲螺旋寡聚体状态。领域内的绝大部分工具只能区分其中的两种,例如二聚体和三聚体、顺式二聚体和三聚体。目前已知的能够区分全部四种状态的工具是LOGICOIL。
与现有LOGICOIL技术相比,本发明在卷曲螺旋区域上的预测情况,能够反映其进一步预测寡聚体状态的性能,对于正确预测的卷曲螺旋区域,本方法正确预测其寡聚体状态的可能性更高,同时由于采用注意力机制,在卷曲螺旋区域上的预测结果能够给出额外的信息。实验表明,a,b,e三种标记位置在寡聚体状态预测上发挥更加重要的作用。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (10)

1.一种基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,其特征在于,使用两层卷积网络和两层双向长短时记忆网络分别提取序列的局部特征以及全局特征,经拼接后通过残差网络预处理,再分别经卷曲螺旋区域预测网络、七元标记位置预测网络以及寡聚体状态预测网络预测得到卷曲螺旋的卷曲螺旋区域、七元标记位置以及寡聚体状态;
所述的卷曲螺旋区域预测网络包括:一层卷积层和一层全连接层,该网络使用交叉熵作为损失函数;
所述的七元标记位置预测网络包括:一层卷积层和一层全连接层,其中:全连接层的输出根据卷曲螺旋区域进行切割;该网络使用条件随机场作为损失函数,即切割结果输出至条件随机场中得到损失函数;在预测序列的七元标记位置时,该网络使用维特比算法得到最优标记位置序列;
所述的寡聚体状态预测网络使用注意力机制,其输入为七元标记位置网络中全连接层的输出,经残差层拼接得到,具体包括:一层卷积层和一层全连接层,其中:卷积层的输出根据卷曲螺旋区域进行切割,然后在特征维度上拆分成四份,分别输出至四个注意力头上,全连接层将全部注意力头的输出融合,得到最终结果,该网络采用多分类的交叉熵作为损失函数;
所述的卷曲螺旋区域预测网络、七元标记位置预测网络以及寡聚体状态预测网络的最终损失函数为三个子网络损失函数的加权和以及网络中可训练参数的正则项。
2.根据权利要求1所述的基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,其特征是,具体包括:
S1、从领域内工作提供的数据集、卷曲螺旋数据库CC+中整理出训练集、验证集和测试集;
S2、使用HHblits工具对整理数据集中的序列提取HMM特征;对数据集中的序列做独热编码;使用Eisenbergscale作为序列的疏水指标特征;
S3、使用两层卷积网络和两层双向长短时记忆网络分别提取序列的局部特征以及全局特征,在特征维度上拼接,之后输出至一层残差网络中得到更有效的特征,最终将该特征进一步输入卷曲螺旋区域预测网络、七元标记位置网络以及寡聚体状态预测网络,分别得到卷曲螺旋的三种结构特征;
S4、针对不包含任何标记的蛋白质序列进行预测,得到其是否包含卷曲螺旋、卷曲螺旋的范围、七元标记位置以及寡聚体状态,或者针对已知卷曲螺旋区域预测,得到其七元标记位置和寡聚体状态。
3.根据权利要求2所述的基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,其特征是,所述的步骤S1,具体包括:
S11、整理测试数据,用来评价目前广泛使用的几种卷曲螺旋区域预测软件,该测试数据包括718条蛋白质,其中279条不包含卷曲螺旋,439条包含卷曲螺旋;
S12、从公开的卷曲螺旋数据库CC+中获取卷曲螺旋蛋白质,具体为:首先下载所有包含至少一个卷曲螺旋的蛋白质,然后剔除满足以下任一条件的蛋白质:(i)分辨率太差(ii)序列长度小于25或者大于700;(iii)序列中包含20种常见氨基酸之外的氨基酸;(iv)序列中的卷曲螺旋长度小于8;(v)序列中存在参与多个卷曲螺旋的氨基酸;(vi)序列中的卷曲螺旋的寡聚体状态不属于以下四种类别:顺式二聚体,反式二聚体,三聚体,以及四聚体;在剩余的序列中,去除与测试序列相似度大于30%的蛋白质,再对自身去冗余至50%,即得到训练正样本,共2327条序列;
S13、将DeepCoil模型训练集中来自于PDB数据库的负样本补充到训练集中,共9358条序列。
4.根据权利要求2所述的基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,其特征是,所述的独热编码,具体是指:将序列中的氨基酸编码成长度为20的向量,其中只有一个元素值为1,其他元素值等于0,对于一个长度为L的蛋白质序列来说,独热编码的维度为Lⅹ20。
5.根据权利要求2所述的基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,其特征是,所述的HMM特征来源于隐马尔可夫概率模型,使用HHblits序列比对工具搜索Uniclust30数据库得到HMM特征,执行命令及参数为:hhblits–isequence.fasta-n3-e0.001-duniclust30_2017_10-cpu6-ohhmsequence.hmm-diffinf-id99-cov50。
6.根据权利要求2所述的基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,其特征是,所述的训练集,经等分成五份,使用5折交叉验证框架使用同一套参数分别在五个模型各自的训练数据上训练,根据模型在验证集上的性能对模型进行参数调整。
7.根据权利要求2所述的基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,其特征是,所述的针对不包含任何标记的蛋白质序列进行预测是指:分别使用HHblits软件对序列数据库Uniclust30进行搜索得到HMM特征、根据序列得到独热编码以及Eisenbergscale疏水指标,将这些特征输入模型预测出序列是否包含卷曲螺旋以及卷曲螺旋对应的区域,进一步预测每个卷曲螺旋区域的寡聚体状态以及七元标记位置。
8.根据权利要求2所述的基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,其特征是,所述的针对已知卷曲螺旋区域预测是指:直接在标注的区域信息基础上预测每个卷曲螺旋的寡聚体状态以及七元标记位置。
9.根据权利要求2所述的基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,其特征是,所述的训练,模型的学习率设为5e-4,预测卷曲螺旋的最短长度为6,模型使用指数线性单元ELU作为非线性激活函数,使用层归一化调整神经元的输出。
10.根据权利要求1或2所述的基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法,其特征是,所述的长短时记忆网络和卷积网络上使用dropout层。
CN202111084566.3A 2021-09-16 2021-09-16 基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法 Active CN113724780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111084566.3A CN113724780B (zh) 2021-09-16 2021-09-16 基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111084566.3A CN113724780B (zh) 2021-09-16 2021-09-16 基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法

Publications (2)

Publication Number Publication Date
CN113724780A CN113724780A (zh) 2021-11-30
CN113724780B true CN113724780B (zh) 2023-10-13

Family

ID=78683989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111084566.3A Active CN113724780B (zh) 2021-09-16 2021-09-16 基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法

Country Status (1)

Country Link
CN (1) CN113724780B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114023378B (zh) * 2022-01-05 2022-06-07 北京晶泰科技有限公司 生成蛋白结构约束分布的方法和蛋白设计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696624A (zh) * 2020-06-08 2020-09-22 天津大学 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CA3145875A1 (en) * 2019-08-02 2021-02-11 Jacob D. Feala Machine learning guided polypeptide design
CN112365921A (zh) * 2020-11-17 2021-02-12 浙江工业大学 一种基于长短时记忆网络的蛋白质二级结构预测方法
WO2021082811A1 (zh) * 2019-10-29 2021-05-06 山东科技大学 一种外汇时间序列预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3145875A1 (en) * 2019-08-02 2021-02-11 Jacob D. Feala Machine learning guided polypeptide design
WO2021082811A1 (zh) * 2019-10-29 2021-05-06 山东科技大学 一种外汇时间序列预测方法
CN111696624A (zh) * 2020-06-08 2020-09-22 天津大学 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CN112365921A (zh) * 2020-11-17 2021-02-12 浙江工业大学 一种基于长短时记忆网络的蛋白质二级结构预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多尺度卷积和循环神经网络的蛋白质二级结构预测;包晨;董洪伟;钱军浩;;基因组学与应用生物学(第07期);全文 *
基于深度学习与领域规则建模的蛋白质信号肽及其切割位点预测;张维洵;潘小勇;沈红斌;;南京理工大学学报(第03期);全文 *

Also Published As

Publication number Publication date
CN113724780A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN113593631A (zh) 一种预测蛋白质-多肽结合位点的方法及系统
CN116049459B (zh) 跨模态互检索的方法、装置、服务器及存储介质
CN113724780B (zh) 基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法
CN111651668B (zh) 用户画像的标签生成方法及装置、存储介质、终端
CN112994701A (zh) 数据压缩方法、装置、电子设备及计算机可读介质
Yu et al. Learning to hash naturally sorts
CN112948532A (zh) 基于工业大数据分析的链表数据压缩策略选择方法及系统
CN114298290A (zh) 一种基于自监督学习的神经网络编码方法及编码器
CN101430709B (zh) 富媒体信息的近邻查找方法和装置
CN115760270A (zh) 一种基于知识图谱的新颖性增强推荐方法
CN116913383B (zh) 一种基于多模态的t细胞受体序列分类方法
CN116524282B (zh) 一种基于特征向量的离散相似度匹配分类方法
CN112365931B (zh) 一种用于预测蛋白质功能的数据多标签分类方法
CN117875444A (zh) 一种模型训练方法、抗菌肽预测方法及系统
CN117292749A (zh) 一种基于bert特征编码技术和深度学习组合模型的抗菌肽预测方法
CN115526300B (zh) 一种基于循环神经网络的序列重排方法
CN114596913B (zh) 基于深度中心点模型的蛋白质折叠识别方法及系统
CN116403713A (zh) 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法
CN112465838B (zh) 陶瓷晶粒图像分割方法、系统、储存介质及计算机设备
CN111951889B (zh) 一种rna序列中m5c位点的识别预测方法及系统
CN114627076A (zh) 一种联合主动学习和深度学习技术的工业检测方法
JP3973789B2 (ja) 要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体
CN113806561A (zh) 一种基于实体属性的知识图谱事实补全方法
CN117689011B (zh) 一种模型调整方法、装置、设备及存储介质
CN111508556A (zh) 基于单序列和全卷积神经网络的蛋白质接触图预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant