CN116386733A - 基于多视角多尺度多注意力机制的蛋白质功能预测方法 - Google Patents
基于多视角多尺度多注意力机制的蛋白质功能预测方法 Download PDFInfo
- Publication number
- CN116386733A CN116386733A CN202310381110.6A CN202310381110A CN116386733A CN 116386733 A CN116386733 A CN 116386733A CN 202310381110 A CN202310381110 A CN 202310381110A CN 116386733 A CN116386733 A CN 116386733A
- Authority
- CN
- China
- Prior art keywords
- view
- scale
- sequence
- attention mechanism
- protein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000007246 mechanism Effects 0.000 title claims abstract description 35
- 230000004853 protein function Effects 0.000 title claims abstract description 19
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 67
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 230000003044 adaptive effect Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 24
- 150000001413 amino acids Chemical class 0.000 claims description 16
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 229910003460 diamond Inorganic materials 0.000 claims description 4
- 239000010432 diamond Substances 0.000 claims description 4
- 238000002818 protein evolution Methods 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 5
- 238000003062 neural network model Methods 0.000 abstract 1
- 230000000007 visual effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 125000001931 aliphatic group Chemical group 0.000 description 2
- 230000008827 biological function Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 230000002209 hydrophobic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000012152 algorithmic method Methods 0.000 description 1
- 125000000539 amino acid group Chemical group 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 238000002869 basic local alignment search tool Methods 0.000 description 1
- 238000005842 biochemical reaction Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 238000002865 local sequence alignment Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000010534 mechanism of action Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Processing (AREA)
Abstract
本发明属于蛋白质序列智能功能预测领域,涉及一种基于多视角多尺度多注意力机制的蛋白质功能预测方法。该方法包括训练阶段和使用阶段两部分,训练阶段初始多视角特征提取模块、多视角深度多尺度多注意力分类器学习模型和多视角自适应决策网络。初始多视角特征提取模块使用四种编码特征从蛋白质序列中提取特征,分别为基于独热编码的序列特征、基于进化信息的序列特征、基于深度语义模型的序列特征以及基于重叠理化特性编码的序列特征。本发明为每个视角设计特定的多尺度多注意力深度神经网络模型,提取深度特征并完成对蛋白质功能的初步预测。最后,引入了多视角自适应决策机制,以平衡每个视角对最终预测结果的相对重要性。
Description
技术领域
本发明属于智能蛋白质功能预测领域,涉及一种基于多视角多尺度多注意力机制的蛋白质功能预测方法。
背景技术
蛋白质是生命体内的重要分子,具有多种生物学功能,在生物体内发挥着不可获取的作用。随着人们对蛋白质组学的研究愈发深入,许多蛋白质在生物调控过程中所发挥的作用被揭示。例如,蛋白质在许多疾病的发生和发展中起着重要作用,如癌症、心血管疾病和神经退行性疾病等。此外,许多药物的作用机制也涉及到蛋白质的结构和功能。因此,对蛋白质功能的研究具有重大意义,涉及生命科学、药物研发、基因工程和生物技术等多个领域。
蛋白质的功能是一个多方面的概念,通常被用来描述目标蛋白质在生物体内部的生化反应、细胞活动和生物表现型等场景下所发挥的作用。后基因组时代,随着序列基因组学项目识别的蛋白质数量的爆炸式增长,早期基于定量生化实验验证的蛋白质功能预测的方法已经无法满足需求。然而,随着序列基因组项目识别的蛋白质数量的爆炸式增长,通过实验来验证蛋白质的功能已经远远不能满足序列数量日益增长的实际需求。研究发现,计算方法可以通过蛋白质的序列、结构、基因表达谱、蛋白质-蛋白质相关作用网络、组学数据以及已知功能蛋白质的功能信息等数据推断目标蛋白质的功能。因此寻找能够从蛋白质数据中挖掘功能信息的智能方法成为蛋白质组学研究的一个很重要的研究方向。
现在有很多方法可以利用机器学习模型从蛋白质序列中预测蛋白质功能,但大多局限于能够获取此类完整数据的少数蛋白质组学。很少有方法仅使用蛋白质序列信息进行蛋白质功能预测研究。如何合理有效的利用蛋白质序列层面的特征对蛋白质功能进行推断依然是一个重要的挑战。
发明内容
本发明实现了一种基于多视角多尺度多注意力机制的蛋白质功能预测方法,该方法包括训练阶段和使用阶段两部分,训练阶段包括初始多视角特征提取模块、多视角深度多尺度多注意力分类器学习模型和多视角自适应决策网络。
训练阶段:初始多视角特征提取模块使用四种不同理论基础的蛋白质序列编码技术将蛋白质序列转换为机器可读的数值型特征,四种编码特征分别为:基于独热编码的序列特征、基于进化信息的序列特征、基于深度语义模型的序列特征以及基于重叠理化特性编码的序列特征;然后对初始的四个序列视角特征构建出四个深度多尺度多注意力分类器学习模型,分别对各个视角特征进行训练,以获得不同视角子模型对目标蛋白质序列的初步功能预测结果;获取的初步预测结果用于多视角自适应决策网络,以学习各个视角结果对最终决策的平衡权重;
使用阶段:获取待测蛋白质序列,利用四种编码特征技术构建出目标序列的初始多视角特征;再利用针对多视角特征集合训练出来的四个深度多尺度多注意力分类器获取的4个视角的初步预测结果;接着使用训练出来的自适应决策网络综合4个视角的预测结果,自适应学习各个视角的平衡权重,得到最终的预测结果;
所述的基于多视角多尺度多注意力机制的蛋白质功能预测方法集合深度学习技术和多视角决策机制等技术,从蛋白质序列中有效的识别了序列中蕴含的功能鉴别信息,它将深度学习与蛋白质的多视角序列特征联系起来,更全面的表达了序列的功能鉴别信息。
蛋白质序列是一段用氨基酸描述的生物遗传物质,深度卷积模型无法处理字符信息,所以需要先将氨基酸序列进行预处理,转换成程序所能接受的数值形式。独热编码是目前较为流行的编码技术,其原理是将一条由n种元素组成的长度为m的文字序列构建为一个n*m的矩阵,其中把每种元素转化成n维的标准正交基向量填充至m长度中的对应位置。人类体内最常见的氨基酸一共有20种,然而在实际测序过程中,部分蛋白质序列中存在目前还未确定的氨基酸,在序列中通常以X表示。因此,以蛋白质序列来说,独热编码会对序列中的氨基酸进行逐一编码,每个氨基酸都会输出一个21维向量,向量中对应氨基酸的位置会被设为“1”,其它所有位置的元素都为“0”。这样对于一个长度为L的氨基酸序列,得到的独热编码特征是一个L×21的二维矩阵。编码效果如图1所示。
上述方法构建的初始特征矩阵虽然对提取特征有帮助,但由于任意两个氨基酸向量乘积为0,完全忽略了氨基酸之间的相关性,所以使用进化信息得到的位置特异性得分矩阵可能会更好的表达序列信息。我们使用本地化局部序列比对工具(Basic LocalAlignment Search Tool,BLAST)获得蛋白质序列的同源性图谱。对于每条目标氨基酸序列,我们进行迭代次数为3且敏感度阈值为0.001的同源比对。比对完成后,序列中的每个氨基酸字符会输出20个得分,从而得到一个20维矢量的PSSM。这样对于一个长度为L的氨基酸序列,得到的位置特异性得分矩阵是一个L×20的二维矩阵。
近年来,分布式表征技术在自然语言处理领域得到了迅速的发展。分布式表征技术使用稠密向量表示文本序列,可以一定程度上描述文本之间的语义距离。对于蛋白质序列,由于不同的氨基酸片段往往有着不同的生物学功能,因此对序列语义信息的描述也极为重要。本专利所采用的语义特征为微调后的ProtBERT模型从目标序列中抽取出的分布式特征。ProtBERT是一种基于BERT的深度无监督的氨基酸序列语言模型,它在原始BERT的基础上增加了层数,并在UniRef100蛋白质序列数据集上完成预训练。与基于卷积神经网络的模型和基于循环神经网络的模型相比,ProtBERT使用自注意力机制对序列中的每个字符与并行的其他序列字符相比较,从而扩大了全局感受野,能够更有效的捕捉全局上下文信息。具体来说,对于长度为L的序列,首先使用ProtBERT模型提取语义层级的特征,得到大小为L×1024的特征矩阵。然后,使用主元比例为95%的主成分分析模型对语义特征进行降维,最后得到大小为L×292的特征矩阵。
此外,根据氨基酸的理学性质,可将具有共同特性的氨基酸归为一组。根据理化性质的不同,可将氨基酸分为10类,包括:Polar(NQSDECTKRHYW),Positive(KHR),Negative(DE),Charged(KHRDE),Hydrophobic(AGCTIVLKHFYWM),Aliphatic(IVL),Aromatic(FYWH),Small(PNDTCAGSV),Tiny(ASGC)以及Proline(P)。特别地,一种氨基酸可以同时拥有多个理化性质,如残基A,它同时拥有:Hydrophobic、Aliphatic、Small和Tiny等性质。为此,需要设计一个10维向量(由0/1组成)来表示每个氨基酸的理化性质。具体来说,若氨基酸具有某个理化性质,则该10维向量对应位置的值设为1,反之设为0。最终,对于长度为L的氨基酸序列,将得到大小为L×10的特征矩阵。
该部分的具体步骤如下:
第一步:使用原始蛋白质序列的独热编码特征矩阵得到蛋白质初始特征X1。
第二步:使用BLAST(本地化局部比对工具)获取原始蛋白质序列的序列相似性图谱,并使用Sigmoid函数对图谱中元素进行归一化,得到蛋白质进化信息初始特征X2。
第三步:使用微调后的ProtBERT语言模型从原始蛋白质序列中提取蛋白质语义信息初始特征X3。
第四步:使用原始蛋白质序列的重叠特性编码技术得到蛋白质理化性质初始特征X4。得到初步多视角数据集D={X1,X2,X3,X4,y}
本发明的多视角深度多尺度多注意力分类器学习模型使用带注意力机制的卷积神经网络对蛋白质序列的各个视角特征进行自动提取以及预测。对于原始的蛋白质序列,经过预处理后可以得到蛋白质独热编码特征、进化信息特征、语义信息特征以及理化特性信息特征,针对四个不同视角的特征,分别构建四个不同的功能预测分类器来对不同视角特征进行深度特征自动提取以及功能的初步预测。
CNN网络在训练时采用最后一层输出层的结果计算误差并进行反向传播,由此来进行网络的学习。因为倒数第二层计算得到的特征向量到输出层只经过一个全连接层,可以认为根据网络输出层训练优化网络结构的同时,对倒数第二层输出特征向量的表达也进行了优化,即网络在训练的同时也学习到了更好的特征表达,所以选择网络倒数第二层的输出作为网络学习到的特征。通过卷积神经网络的自动学习获得的特征,具有比原始特征更小的维度,并且得到的特征是经过非线性组合的具有更好划分能力的特征,可以使后续的分类模型具有更好的泛化效果。
图2为每个视角特征使用的多尺度多注意力深度网络架构图。I可表示任意视角的初始特征矩阵,用X表示由多级卷积编码器(Multi-level convolutional encoder,MLCE)抽取的卷积模式特征。为了尽可能多的采集到关键功能鉴别特征,本专利构建了一个多尺度深度特征提取器从卷积特征X中抽取多尺度深度特征。首先构建了一个具有三层结构的特征金字塔,得到特征XT。然后,为了扩大感受野同时建立不同尺度特征之间的关联,我们并行使用四个具有不同膨胀率的膨胀卷积从XT中提取特征并拼接输出特征集合,得到XD,最后,通过1×1卷积将组合后的特征XD转化为最终的多尺度深度特征。研究表明,蛋白质功能预测可能受到不同区域氨基酸残基之间长程信息的影响。因此,在获得多尺度深度特征后,我们基于自注意力机制建立长距离氨基酸片段之间的信息依赖。最后,我们使用多层感知器(Multilayer Percepton,MLP)预测每个标签的得分,并使用Sigmoid函数将预测得分转换到[0,1]区间内的概率值。Sigmoid函数的表达如下:
此外,网络的损失函数采用交叉熵损失函数,该函数的定义如下:
该部分的具体步骤如下:
考虑上述四个视角的氨基酸序列表示方法的基础理论存在很大差异,这启发我们对四个视角的预测结果进行综合决策以提高预测性能。因此,本发明将提出的自适应决策网络作为最终的综合分类器,通过对训练网络的反馈学习,可以为每个视角特征对应的初步预测结果生成一个平衡权重,并给出最终的多视角预测结果。
该部分的具体步骤如下:
本发明的优点包括以下几点:
1)初始多视角蛋白质序列特征的构建:蛋白质序列有很多构建特征的方法,用不同方式构造出的特征都具有一定的效果,也各有优缺点。使用多视角特征来进行蛋白质序列的特征提取以及预测可以很好的将不同构造方法特征的优势结合起来。
2)多尺度多注意力机制分类器的构建:为了提高各视角深度特征的有效性,基于最初的多视角数据,设计了一个具有特征金字塔结构的多尺度深度特征提取器来捕获局部特征,并采用多头注意力机制来捕获局部特征之间的长程依赖信息。
3)自适应决策网络的构建:利用神经网络学习技术,基于多视角初步预测结果集进行学习,来获得可靠性更高的预测结果。
附图说明
图1是本发明的算法方法框架图。
图2是本发明的不同视角初步功能预测结果获取算法框架图。
图3是本发明的自注意力算法框架图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1~图3所示,本发明实现了一种基于多视角多尺度多注意力机制的蛋白质功能预测方法,该方法包括初始多视角特征提取模块、多视角多尺度多注意力分类器学习模型和自适应决策网络三部分。初始多视角特征提取模块部分获得原始蛋白质序列的初始的多视角特征;多视角多尺度多注意力分类器学习模型部分对初始多视角特征进行深度特征学习以及初步功能的预测,获得多视角初步预测结果集;自适应决策网络部分使用获取的多视角初步预测结果集,训练可以学习各个视角结果的重要性权重以及给出综合决策,得到最终预测结果。
训练阶段的具体步骤。本方法的初始多视角特征构建部分首先从原始蛋白质序列中提取出基于独热编码的序列特征、基于进化信息的序列特征、基于深度语义模型的序列特征以及基于重叠理化特性编码的序列特征,构造成共有4个视角的多视角数据。
实施例1
根据上述方法的实施方式,针对CAFA3挑战赛数据集的蛋白质序列数据完成实施例。该数据集包含66841条蛋白质序列。每条蛋白质序列的长度都不一样,所以我们统一规定了一个长度2000,不足的用0来填充。表1展示了本发明所用方法MMSMAPlus和目前该领域先进方法的对比结果。
表1实施例1中的本算法的性能指标
其中MMSMA是本专利提出的多视角神经网络模型版本,MMSMAPlus是本专利提出的最终预测版本模型。
从上表可以看出,和AUPR指标评估上,MMSMAPlus在MFO、BPO取得了最佳性能,并在CCO评估中排名第二(仅次于DeepGOPlus)。在MMSMAPlus中,所提出的深度网络模型MMSMA在MFO和BPO上的Smin评估中取得了最优性能,而Smin指标取决于假阴性、假阳性的数量和GO术语的信息量。这表明预测结果中,MMSMA预测的术语集合更具体。
实施例2
为了从单物种角度体现本发明方法的预测精度,针对人类蛋白质组蛋白质序列数据完成实施例。该数据集包含18673条蛋白质序列。表2展示了本发明所用方法MMSMAPlus和目前该领域先进方法在人类蛋白质组数据集上的对比结果。
表2实施例2中的本算法的性能指标
通过在人类蛋白质组序列数据集上的评估比较,可以发现,所提出的扩展版本模型MMSMAPlus在三个子本体上的Fmax、Smin和AUPR评估中均取得了最优性能。相比于基于统计学理论的方法,MMSMAPlus在MFO、BPO和CCO上的Fmax指标上分别提升了39.5%、23.4%和19.3%。同源性方法中DiamondScore显著优于BLAST,而与DiamondScore相比,MMSMAPlus在MFO、BPO和CCO上的Fmax指标上分别提升了5.9%、5.6%和11.4%。最后,与深度网络模型DeepGOCNN及所提出的深度网络多视角模型MMSMA相比,MMSMAPlus除了具有多视角学习外,还具有同源性和深度网络信息。因此,DeepGOCNN和MMSMAPlus之间的比较结果表明,所提出的多视角深度学习技术充分地利用了蛋白质序列信息。
Claims (5)
1.基于多视角多尺度多注意力机制的蛋白质功能预测方法,其特征在于,步骤如下:
第一步:使用独热编码技术将原始蛋白质序列编码为数值矩阵,作为初始蛋白质序列特征X1;
第二步:使用BLAST获取原始蛋白质序列的序列相似性图谱,并使用Sigmoid函数对图谱中元素进行归一化,得到蛋白质进化信息初始特征X2;
第三步:使用微调后的ProtBERT语言模型从原始蛋白质序列中提取蛋白质语义信息初始特征X3;
第四步:使用原始蛋白质序列的重叠特性编码技术得到蛋白质理化性质初始特征X4;得到初步多视角数据集D={X1,X2,X3,X4,y}
2.如权利要求1所述的基于多视角多尺度多注意力机制的蛋白质功能预测方法,其特征在于:所述第五步、第六步、第七步、第八步中的多尺度多注意力机制分类器,结构相同,包括1个三层级联卷积神经网络,1个多尺度深度特征提取模块,1个多头注意力机制和1个标签预测层;第一个模块为三层级联卷积神经网络,得到一个512*2000的特征图;第二个模块为多尺度深度特征提取模块,得到一个512*2000的特征图;第三个模块为多头注意力机制,得到1个512*1的特征图;第四个模块的标签预测层包含一个全连接层以及一个Sigmoid层,将1个512*1的特征图转换为一个1*标签数的向量,并经过Sigmoid层得到预测得分。
3.如权利要求1或2所述的基于多视角多尺度多注意力机制的蛋白质功能预测方法,其特征在于:所述的第五步、第六步、第七步、第八步中的多尺度多注意力机制分类器的神经网络结构的最后一层使用Sigmoid函数作为激活函数来引入非线性变换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310381110.6A CN116386733A (zh) | 2023-04-11 | 2023-04-11 | 基于多视角多尺度多注意力机制的蛋白质功能预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310381110.6A CN116386733A (zh) | 2023-04-11 | 2023-04-11 | 基于多视角多尺度多注意力机制的蛋白质功能预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116386733A true CN116386733A (zh) | 2023-07-04 |
Family
ID=86965379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310381110.6A Pending CN116386733A (zh) | 2023-04-11 | 2023-04-11 | 基于多视角多尺度多注意力机制的蛋白质功能预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116386733A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816255A (zh) * | 2020-07-09 | 2020-10-23 | 江南大学 | 融合多视角和最优多标签链式学习的rna结合蛋白识别 |
-
2023
- 2023-04-11 CN CN202310381110.6A patent/CN116386733A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816255A (zh) * | 2020-07-09 | 2020-10-23 | 江南大学 | 融合多视角和最优多标签链式学习的rna结合蛋白识别 |
CN111816255B (zh) * | 2020-07-09 | 2024-03-08 | 江南大学 | 融合多视角和最优多标签链式学习的rna结合蛋白识别 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798921B (zh) | 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置 | |
CN111210871B (zh) | 基于深度森林的蛋白质-蛋白质相互作用预测方法 | |
CN113707235B (zh) | 基于自监督学习的药物小分子性质预测方法、装置及设备 | |
CN110070909B (zh) | 一种基于深度学习的融合多特征的蛋白质功能预测方法 | |
CN109308485B (zh) | 一种基于字典域适应的迁移稀疏编码图像分类方法 | |
CN111312329A (zh) | 基于深度卷积自动编码器的转录因子结合位点预测的方法 | |
CN112614538A (zh) | 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置 | |
CN112767997A (zh) | 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 | |
CN111816255B (zh) | 融合多视角和最优多标签链式学习的rna结合蛋白识别 | |
CN110136773A (zh) | 一种基于深度学习的植物蛋白质互作网络构建方法 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN116386733A (zh) | 基于多视角多尺度多注意力机制的蛋白质功能预测方法 | |
CN115472221A (zh) | 一种基于深度学习的蛋白质适应度预测方法 | |
CN116206688A (zh) | 一种用于dta预测的多模态信息融合模型及方法 | |
CN116013428A (zh) | 基于自监督学习的药物靶标通用预测方法、设备及介质 | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
CN113764034B (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
Yan et al. | A review about RNA–protein-binding sites prediction based on deep learning | |
Chen et al. | DeepGly: A deep learning framework with recurrent and convolutional neural networks to identify protein glycation sites from imbalanced data | |
CN116401369A (zh) | 用于生物制品生产术语的实体识别及分类方法 | |
CN116612810A (zh) | 一种基于交互推理网络的药物靶标相互作用预测方法 | |
Bai et al. | A unified deep learning model for protein structure prediction | |
CN110135253A (zh) | 一种基于长期递归卷积神经网络的手指静脉认证方法 | |
CN115497564A (zh) | 一种鉴定抗原模型建立方法及鉴定抗原方法 | |
CN111599412B (zh) | 基于词向量与卷积神经网络的dna复制起始区域识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |