CN112767997A - 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 - Google Patents

一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 Download PDF

Info

Publication number
CN112767997A
CN112767997A CN202110153044.8A CN202110153044A CN112767997A CN 112767997 A CN112767997 A CN 112767997A CN 202110153044 A CN202110153044 A CN 202110153044A CN 112767997 A CN112767997 A CN 112767997A
Authority
CN
China
Prior art keywords
feature
convolution
secondary structure
vector
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110153044.8A
Other languages
English (en)
Other versions
CN112767997B (zh
Inventor
成金勇
徐颖
刘毅慧
马玉明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202110153044.8A priority Critical patent/CN112767997B/zh
Publication of CN112767997A publication Critical patent/CN112767997A/zh
Application granted granted Critical
Publication of CN112767997B publication Critical patent/CN112767997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,属于生物信息学与模式识别领域。本发明采用多尺度卷积神经网络进行自适应学习,通过设置窗口大小来提取粒度不同的结构特征,从而识别更多的全局和局部特征信息。同时,在该方法中引入注意力卷积机制,使其更加有效地识别结构序列中信息表征量大的部分。由于传统神经网络的分类方法使用的损失函数为交叉熵,交叉熵并不能有效解决训练序列中的样本非均衡性问题,而蛋白质二级结构预测问题属于像素级分类,样本的非均衡性问题在其中体现得十分突出,本方法在构建模型的基础上提出一种改进的相关交叉熵损失函数来解决该问题。

Description

一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测 方法
技术领域
本发明涉及生物信息学与模式识别领域,具体涉及一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法。
背景技术
蛋白质作为生命活动的主要承担者,不仅为生命活动提供物质基础,还为疾病理论的攻克提供理论基础。在蛋白质中,85%的氨基酸残基处于α-螺旋、β-折叠和无规卷曲三种基本的二级结构状态,除此以外还有一小部分是β-转角。由此可见,蛋白质二级结构的组成具有很强的规律性,并且各种二级结构在蛋白质中的分布是非均匀的。如果二级结构能够被准确预测,这些信息对蛋白无序预测、蛋白质三级结构预测都是非常有用的。蛋白质二级结构也有助于识别蛋白质功能域,可以指导位点特异性突变实验的合理设计,可见蛋白质二级结构预测对于研究蛋白质结构和功能具有重要意义。
随着人工智能的发展,许多机器学习和神经网络方法已广泛用于预测蛋白质二级结构,例如Wang等人提出的DEEPCNF预测方法,将位置特定评分矩阵(PSSM)与条件神经场(CNF)相结合,在蛋白质二级结构预测方面取得了较大突破。2018年,MA等人在传统的随机子空间方法上提出了基于数据分区和半随机子空间(PSRSM)的方法,PSRSM方法使蛋白质二级结构预测的Q3准确率提高到了85.89%,有效的保证了基础分类器的准确性。随着深度学习的快速发展,Heffernan等人从氨基酸序列位置距离间的非局部相互作用考虑,采用长短期记忆(LSTM)双向循环神经网络(BRNNs)技术来捕捉预测蛋白质残基类型,并开发了一个名为SPIDER3的工具,实现了84%的Q3预测精度。2018年,fang等人从氨基酸之间的局部和全局相互作用考虑,提出了Deep3I深度神经网络,并开发为MUFOLD-SS工具,使蛋白质预测的准确率达85%。2020年,Cheng等人将卷积神经网络(CNN)和长期短时记忆(LSTM)相结合,使25pdb数据的Q3准确率提高到80.18%。Zhao等人采用对抗性网络和卷积神经网络模型,模拟氨基酸残基之间的强相关性和长程作用,并取得了较好的预测效果。
虽然以上提出的模型在蛋白质的二级结构问题上达到了相对较好的预测结果,但仍然存在一些问题。如网络结构不能有效捕捉到同一蛋白质序列之间的长期依赖关系,不能充分提取氨基酸的残基序列信息。其次,蛋白质二级结构预测的难点在于不同区域结构过于相似,无法提取蛋白质序列的有效信息或抑制无效信息,难以辨别蛋白质的结构。
基于对以上问题的思考,开发一种新的预测方法来解决蛋白质二级结构预测问题具有十分重要的意义。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,以更准确地对蛋白质二级结构进行预测识别。使用这种蛋白质二级结构数据自动分类方法在蛋白质奥林匹克竞赛所提供的CASP9,CASP10,CASP11,CASP12数据集上取得优良的性能。针对蛋白质结构数据不能充分提取氨基酸的残基序列信息特征,无法提取蛋白质序列的有效信息或抑制无效信息,导致识别分类准确性不足,主要以下几个方面做出改进:
1、针对不能充分提取氨基酸的残基序列信息和结构信息,设计了一种多尺度多通道的卷积网络。各通道采用不同大小的卷积核来提取不同粒度的全局与局部特征信息,同时有效保留特征信息间的序列关系。
2、为了更好地结合信息间的序列关系,反映出不同位置的重要性。使用空间和通道间的卷积注意力机制,使网络能够更关注于序列结构中重要的特征,获取更好的预测准确度。
3、设计相关交叉熵作为损失函数来自动解决训练样本的非均衡性。该损失函数等同于在传统交叉熵上添加了相关度量项,该项能够有效计算预测样本与不同类别样本特征值的不相关性,同时保持与相同类别样本特征值的相关性,更好地提升抵抗梯度弥散的能力,加快模型收敛的速度,增强模型的泛化能力,对最终优化分类结果也有帮助。
本发明解决其技术问题所采用的技术方案是:
一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,包括以下步骤:
步骤1:数据预处理
1.1)对蛋白质序列中的数据进行编码;
1.2)对数据集中每个蛋白质样本进行搜索,生成相应的PSSM矩阵,以实现对氨基酸数据由字母到数字向量转化,为网络分类预测做准备;
步骤2:特征提取
2.1)针对蛋白质二级结构数据,设计一种多尺度卷积注意力神经网络进行特征提取分类,该网络结构采用3通道并联网络架构,在卷积层中配合不同的卷积核大小和数量,来充分提取同一蛋白质序列之间的依赖关系,尽可能的挖掘数据特征;每一层卷积层由特征图以及卷积核组成,卷积核在特征图上按固定步长移动,并且与局部感受野对应位置进行卷积运算,最后经过激活函数得到输出值,形成最后的特征图convC
2.2)对每个通道提取到的特征图convC进行空间维度和通道维度的注意力感知,将特征图分别进行全局最大池化和全局平均池化操作,得到各自操作的特征向量,然后分别输入同一个多层感知机中,将输出来的结果进行逐元素相加,得到一个通道特征权重向量;将特征权重向量与特征图convC逐元素相乘,即可得到通道间注意力特征矩阵
Figure BDA0002933133680000031
在特征向量
Figure BDA0002933133680000032
的基础上沿着通道空间维度再次执行全局最大池化和全局平均池化操作,得到各自操作的特征向量,将输出来的结果进行逐元素相加,经过卷积操作,得到一个空间特征权重向量,将特征权重向量与
Figure BDA0002933133680000033
逐元素相乘,即可得到重构特征矩阵
Figure BDA0002933133680000041
步骤3:特征融合
将再次卷积后提取出的各通道特征数据进行融合;
步骤4:分类预测
最后在分类预测部分,模型采用3层全连接层操作,输入层接收融合后的特征向量,输出层用Softmax分类器来预测蛋白质二级结构的准确率;
考虑到传统的交叉熵损失函数在训练过程中只考虑了特征的可分性,并没有考虑向量类内与类间相似性这一训练目标,基于交叉熵损失函数添加了相关度量项,利用协方差和标准差计算预测向量与真实向量类内与类间正负相关程度;
步骤5:预测结果评价
采取不同评价指标评价预测结果,采用准确性Q3和分段重叠度量Sov两种方法对蛋白质二级结构预测性能进行衡量。
可选地,步骤1.1)利用PSI-BLAST工具调用3次迭代,检测进化矩阵设置为BLOSUM62矩阵,E-value设置为0.00l。
可选地,步骤1.2)所述PSSM矩阵为20*L,其中L是氨基酸序列的长度,20代表氨基酸类型的数量,每个类型代表残基突变成相应氨基酸类型的可能性。
可选地,步骤1)还包括1.3)利用滑动窗口对PSSM矩阵进行进一步处理,通过设置不同尺度的窗口大小,将窗口的中间位置与第一个有效氨基酸字符重合,依次向氨基酸序列尾端移动一个位置,直到移动的次数等于当前切片窗口的氨基酸序列的总长度时,当前氨基酸序列窗口切片处理完成,得到处理后的不同尺度数据。
可选地,步骤2在所述3通道并联网络架构中通道1采用3×3卷积核堆叠,通道2采用6×6卷积核堆叠,通道3采用9×9卷积核堆叠。
可选地,步骤2.1)中卷积层的运算公式为:
Figure BDA0002933133680000051
其中,i表示层数,xi代表第i层输入向量,yi代表对应的输出向量,Wi代表第i层卷积核权重,bi则是对应的权重偏置,max()是相应的非线性激活层函数Relu;神经元仅与其相邻的上一层神经元相连接,通过对学习到的局部特征yi进行组合形成最后的特征图convC
可选地,步骤2.2)特征向量
Figure BDA0002933133680000052
计算公式如下:
Figure BDA0002933133680000053
其中,
Figure BDA0002933133680000054
表示逐元素相加,
Figure BDA0002933133680000055
表示逐元素相乘,σ()表示Sigmoid激活函数,
Figure BDA0002933133680000056
Figure BDA0002933133680000057
特征向量的计算过程如公式(3)(4)所示:
Figure BDA0002933133680000058
其中xavg k为输出的第k个通道的平均池化权重,xk(i,j)为输入特征层,H*W表示特征矩阵空间维度的信息,Max()表示Relu激活函数;
xm k=max(maxxk(i,j),0)i=1…H;j=1…W (4)
其中xm k为输出的第k个通道的最大池化权重,xk(i,j)为输入特征层,H*W表示特征向量空间维度的信息,Max()表示Relu激活函数;
重构特征矩阵
Figure BDA0002933133680000059
计算公式如下:
Figure BDA00029331336800000510
其中,cov()表示对合并后的池化矩阵进行卷积操作,σ()表示Sigmoid激活函数,然后将重构特征矩阵
Figure BDA00029331336800000511
进行再次卷积,dropout操作,将重构特征中低层的局部区域信息通过卷积核激发到更高的层次,突出不同通道数据中的重要特征。
可选地,步骤4中以任意一个训练样本为例,假设经过Softmax函数输出的一个氨基酸类型概率为
Figure BDA0002933133680000061
真实标签为y=[y1,y2…yC](为one-hot编码形式),C为样本总类别;本研究提出的双重损失函数可以表示为:
Figure BDA0002933133680000062
其中,
Figure BDA0002933133680000063
为向量y和
Figure BDA0002933133680000064
的平均值,而σ(y)和
Figure BDA0002933133680000065
标准偏差;令
Figure BDA0002933133680000066
公式(6)可化简为:
Figure BDA0002933133680000067
根据公式容易得出,ρLOSS是一个介于0和1之间的值。从而加快网络模型收敛的速度,避免了梯度过大产生爆炸。
可选地,步骤5中Q3是衡量个别残基分配的精度,计算公式如(8)(9)所示:
Figure BDA0002933133680000068
其中,N为氨基酸残基总数,NC、NE、NH和分别是正确预测的二级结构数:螺旋、链和螺旋,其中任意一种二级结构的准确率可表示为:
Figure BDA0002933133680000069
其中,TPc为c类中预测正确的氨基酸残基个数,nc表示数据中c类的氨基酸残基总数。
本发明的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法与现有技术相比所产生的有益效果是:
1、本发明基于多尺度卷积注意力神经网络方法来解决蛋白质二级结构预测问题。该方法采用3种不同大小的卷积核对输入图像进行特征提取,使得网络模型可以提取粒度不同的结构特征,并且在该网络中引入注意力卷积机制,可以自适应地结合信息间的序列关系,高度感知特征图中的重要信息,反映不同位置信息的重要性。
2、本发明考虑到传统的交叉熵损失并不能有效解决训练序列中的样本非均衡性问题,而蛋白质二级结构预测问题属于像素级分类,样本的非均衡性问题在其中体现得十分突出。所以在本网络模型的基础上提出一种改进的相关交叉熵损失作为损失函数来自动解决训练样本的非均衡性,最终利用softmax分类器进行分类。
3、该方法已在公开数据集CASP9,CASP10,CASP11和CASP12上得到验证,其准确率分别为89.11%,90.12%,90.01%,88.82%。证实了本方法可以更好的提取图像全局与局部特征信息,对损失函数的改进,加快了网络模型收敛速度,提高了网络模型的学习和泛化能力,同时防止过拟合,进而取得了较好的预测结果。
附图说明
附图1根据本发明实施方式流程图;
附图2是本发明网络结构示意图;
附图3是卷积注意力网络示意图;
附图4本发明中特征融合示意图;
附图5本发明训练损失对比结果示意图;
附图6本发明测试损失对比结果示意图;
附图7本发明实施结果Q3示意图。
具体实施方式
为了更清楚地描述本发明一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法的工作原理,下面将附上简图作进一步说明。
结合图1,本发明一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,包括以下步骤:
步骤1:数据预处理
1.1)本研究用到的公开数据集有ASTRAL,CullPDB,CASP10,CASP11,CASP12,CASP9。我们基于25%的百分比同一性切割、3埃的分辨率切割和0.25的R因子切割来选择数据。表1显示了各数据集数量。蛋白质二级结构类型使用DSSP来定义。DSSP有8类二级结构:H(α-螺旋)、G(3-螺旋)、I(5-螺旋)、E(折叠)、B(β转)、T(转弯)、S(弯卷)和螺旋('_'),通常分为3类。在本发明中,我们将H,G,I代换为H;E,B代换为E;其他状态代换为C,这通常导致比其他定义更低的预测精度。对蛋白质数据编码时,我们利用PSI-BLAST工具调用3次迭代,检测进化矩阵设置为BLOSUM62矩阵,E-value设置为0.00l。对数据集中每个蛋白质样本进行搜索,生成相应的PSSM矩阵(20*L),该方法实现了氨基酸数据由字母到数字向量的转化,为网络分类预测做准备。其中L是氨基酸序列的长度,20代表氨基酸类型的数量,每个类型代表残基突变成相应氨基酸类型的可能性。
表1
Figure BDA0002933133680000081
1.2)虽然1.1)解决了氨基酸数据由字母到数字向量的转化,但是由于每条氨基酸序列长短不同,存在长度差异较大的序列,为了方便数据送入卷积网络进行自适应学习。本发明对在数据预处理阶段,利用滑动窗口对PSSM矩阵进行进一步处理,通过设置不同尺度的窗口大小,将窗口的中间位置与第一个有效氨基酸字符重合,依次向氨基酸序列尾端移动一个位置,直到移动的次数等于当前切片窗口的氨基酸序列的总长度时,当前氨基酸序列窗口切片处理完成,得到处理后的不同尺度数据。
步骤2:特征提取
2.1)针对蛋白质二级结构数据,本发明设计了一种多尺度卷积注意力神经网络进行特征提取分类,网络结构设计如图2。相比于传统的单通道卷积神经网络,本方法采用了3通道并联网络架构,在卷积层中配合不同的卷积核大小和数量,来充分提取同一蛋白质序列之间的依赖关系,尽可能的挖掘数据特征。每一层卷积层由特征图以及卷积核组成,卷积核在特征图上按固定步长移动,并且与局部感受野对应位置进行卷积运算,最后经过激活函数得到输出值。卷积层的运算公式为:
Figure BDA0002933133680000091
其中,i表示层数,xi代表第i层输入向量,yi代表对应的输出向量,Wi代表第i层卷积核权重,bi则是对应的权重偏置,Max()是相应的非线性激活层函数Relu。神经元仅与其相邻的上一层神经元相连接,通过对学习到的局部特征yi进行组合形成最后的特征图convC
2.2)为了使模型能更好感知特征图中的重要信息,我们对每个通道提取到的特征图convC进行空间维度和通道维度的注意力感知。卷积注意力块结构设计如图3所示。将特征图分别进行全局最大池化和全局平均池化操作,得到各自操作的特征向量,然后分别输入同一个多层感知机中,将输出来的结果进行逐元素相加,得到一个通道特征权重向量。将特征权重向量与特征图convC逐元素相乘,即可得到通道间注意力特征矩阵
Figure BDA0002933133680000092
计算公式如下:
Figure BDA0002933133680000093
其中,
Figure BDA0002933133680000094
表示逐元素相加,
Figure BDA0002933133680000095
表示逐元素相乘。σ()表示Sigmoid激活函数。
Figure BDA0002933133680000096
Figure BDA0002933133680000097
特征向量的计算过程如公式(3)(4)所示。
Figure BDA0002933133680000101
其中xavg k为输出的第k个通道的平均池化权重。xk(i,j)为输入特征层。H*W表示特征矩阵空间维度的信息。Max()表示Relu激活函数。
xm k=max(maxxk(i,j),0)i=1…H;j=1…W (4)
其中xm k为输出的第k个通道的最大池化权重。xk(i,j)为输入特征层。H*W表示特征向量空间维度的信息。Max()表示Relu激活函数。
在特征向量
Figure BDA0002933133680000102
的基础上沿着通道空间维度再次执行全局最大池化和全局平均池化操作。得到各自操作的特征向量,将输出来的结果进行逐元素相加,经过卷积操作,得到一个空间特征权重向量,将特征权重向量与
Figure BDA0002933133680000103
逐元素相乘,即可得到重构特征矩阵
Figure BDA0002933133680000104
计算公式如下:
Figure BDA0002933133680000105
其中,cov()表示对合并后的池化矩阵进行卷积操作,σ()表示Sigmoid激活函数。然后将重构特征矩阵
Figure BDA0002933133680000106
进行再次卷积,Dropout操作,将重构特征中低层的局部区域信息通过卷积核激发到更高的层次,突出不同通道数据中的重要特征。
步骤3:特征融合
特征融合部分我们将再次卷积后提取出的各通道特征数据进行融合,特征融合过程如图4所示。由于通道39×9卷积核堆叠之后感受野大于通道13×3卷积核,通道2的6×6卷积核,且网络结构更深,具备更大的视野。因此特征融合既考虑了数据局部特征(通道1、通道2),又结合了数据的全局特征(通道3)。
步骤4:分类预测
最后在分类预测部分,模型采用3层全连接层操作,输入层接收融合后的特征向量,输出层用Softmax分类器来预测蛋白质二级结构的准确率。同时,考虑到传统的交叉熵损失函数在训练过程中只考虑了特征的可分性,并没有考虑向量类内与类间相似性这一训练目标。本发明基于交叉熵损失函数添加了相关度量项,利用协方差和标准差计算预测向量与真实向量类内与类间正负相关程度。
以任意一个训练样本为例,假设经过Softmax函数输出的一个氨基酸类型概率为
Figure BDA0002933133680000111
真实标签为y=[y1,y2…yC](为one-hot编码形式),C为样本总类别。本研究提出的双重损失函数可以表示为:
Figure BDA0002933133680000112
其中,
Figure BDA0002933133680000113
为向量y和
Figure BDA0002933133680000114
的平均值,而σ(y)和
Figure BDA0002933133680000115
标准偏差。令
Figure BDA0002933133680000116
Figure BDA0002933133680000117
公式(10)可化简为:
Figure BDA0002933133680000118
根据公式容易得出,ρLOSS是一个介于0和1之间的值。从而加快网络模型收敛的速度,避免了梯度过大产生爆炸。公式中,交叉熵损失函数可以将真实类别所属的输出概率最大化,从而使得不同类别的特征具有可分性。相关度量项则通过线性回归的方式更好的呈现预测样本与不同类别样本之间的负相关性,同时更好的呈现与相同类别样本之间的正相关性,使氨基酸特征类间距离更大,类内距离更小,增强模型的学习能力。
步骤5:预测结果评价
本发明实验采取不同评价指标来评价预测结果,采用准确性Q3和分段重叠度量Sov两种方法对蛋白质二级结构预测性能进行衡量。Q3主要是衡量个别残基分配的精度,计算公式如(8)(9)所示:
Figure BDA0002933133680000121
其中,N为氨基酸残基总数,NC、NE、NH和分别是正确预测的二级结构数:螺旋、链和螺旋。其中任意一种二级结构的准确率可表示为:
Figure BDA0002933133680000122
其中,TPc为c类中预测正确的氨基酸残基个数,nc表示数据中c类的氨基酸残基总数。Sov(Segment Overlap Measure)是一种基于二级结构片段的衡量方法,广泛的使用在CASP大赛中。
为了使得本领域技术人员能够更加清楚地了解本申请的技术方案,以下将结合具体的实验对比说明本申请的技术方案的可行性和有效性。
首先我们对本发明自身进行消融分析,在消融实验中,保持对应参数不变的情况下,我们通过删除或替换本研究模型中的各个模块进行消融研究。在数据集CASP10上进行了多尺度单层卷积(MSSL_COV),多尺度单层卷积加CBAM(MSSL_COVATT),多尺度多层卷积加CBAM(MSML_SOVATT)和替换传统交叉熵为相关交叉熵损失实验(This work model)。
表2在CASP10数据集上的消融研究
Figure BDA0002933133680000123
由表2中各消融实验的结果可以看出,多尺度多卷积对网络模型产生重要影响,MSML_SOVATT方法的预测准确率Q3达90.00%,比MSSL_COV方法的预测准确率提升了2.5%左右。Sov准确率为85%,比MSSL_COV方法的SOV率提升了7%左右。同时,将传统交叉熵替换为我们提出的相关交叉熵损失函数后,预测结果达90.01%,比使用传统交叉熵损失预测准确率提升了0.07%,同时本发明的SOV准确率达85.47%,可以看出本研究中所提出的用采多尺度卷积及卷积注意力块提取特征信息和局部特征信息进行融合,并配合相关交叉熵损失函数进行训练的网络模型是有效的。
该实验在CASP10测试集上进一步对本发明所提出的相关交叉熵损失函数与传统交叉熵损失进行了对比,如图5-6所示。从图5-6可以看出,相关交叉熵损失在迭代初期,初始Loss值为0.2055,模型Loss值随着迭代次数增加而不断降低。在训练阶段的第20轮次,本文模型在训练及测试集上的Loss值分别下降至0.0096和0.1415,而交叉熵损失函数在训练及测试集上的Loss值分别为0.0821和0.4089。传统交叉熵损失函数的收敛速度较快;在迭代中期,由于相关系数项的影响,相关交叉熵损失函数波动较平缓,而传统交叉熵损失函数波动较大;在迭代后期,相关交叉熵与传统的交叉熵损失函数都能比较好地收敛,但相关交叉熵函数的误分类代价在迭代后期一直维持在比较低的水平,最终收敛时的误分类代价相比传统交叉熵损失函数大幅降低。总体来看,相关交叉熵函数的收敛速度要好于传统的交叉熵损失函数,且最终的误分类代价相比传统交叉熵损失函数大幅降低。图7为两种方法在训练和测试集上的预测准确率,可以看出,双重损失函数与传统交叉熵损失函数训练数据的准确率几乎保持一致,但是从测试结果上看,在迭代轮次达到50时,本发明预测准确率高达90.119%。
为了进一步验证本发明的预测性能,我们将本发明与其他主流方法进行对比,对比方法有DeepCNF、PSRSM、PSIPRED,JPRED。实验对比结果如表3。由表3可以看出,在CASP10测试集中,本方法比PSRSM方法提高了约0.5%。CASP11预测结果与PSRSM方法预测结果几乎保持一致,CASP12预测结果均高于其他方法。总体来说,本发明预测精度明显高于其他对比模型,可见本发明充分提取了氨基酸的类型信息编码和生物进化结构信息,并有效的将提取的局部和长程特征信息进行了良好的相互作用,有效的提高了蛋白质二级结构的预测精度。
表3在4个数据集上各模型的预测准确率对比(%)
Figure BDA0002933133680000141
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,包括以下步骤:
步骤1:数据预处理
1.1)对蛋白质序列中的数据进行编码;
1.2)对数据集中每个蛋白质样本进行搜索,生成相应的PSSM矩阵,以实现对氨基酸数据由字母到数字向量转化,为网络分类预测做准备;
步骤2:特征提取
2.1)针对蛋白质二级结构数据,设计一种多尺度卷积注意力神经网络进行特征提取分类,该网络结构采用3通道并联网络架构,在卷积层中配合不同的卷积核大小和数量,来充分提取同一蛋白质序列之间的依赖关系,尽可能的挖掘数据特征;每一层卷积层由特征图以及卷积核组成,卷积核在特征图上按固定步长移动,并且与局部感受野对应位置进行卷积运算,最后经过激活函数得到输出值,形成最后的特征图cinvC
2.2)对每个通道提取到的特征图cinvC进行空间维度和通道维度的注意力感知,将特征图分别进行全局最大池化和全局平均池化操作,得到各自操作的特征向量,然后分别输入同一个多层感知机中,将输出来的结果进行逐元素相加,得到一个通道特征权重向量;将特征权重向量与特征图cinvC逐元素相乘,即可得到通道间注意力特征矩阵
Figure FDA0002933133670000011
在特征向量
Figure FDA0002933133670000012
的基础上沿着通道空间维度再次执行全局最大池化和全局平均池化操作,得到各自操作的特征向量,将输出来的结果进行逐元素相加,经过卷积操作,得到一个空间特征权重向量,将特征权重向量与
Figure FDA0002933133670000013
逐元素相乘,即可得到重构特征矩阵
Figure FDA0002933133670000014
步骤3:特征融合
将再次卷积后提取出的各通道特征数据进行融合;
步骤4:分类预测
最后在分类预测部分,模型采用3层全连接层操作,输入层接收融合后的特征向量,输出层用Softmax分类器来预测蛋白质二级结构的准确率;
考虑到传统的交叉熵损失函数在训练过程中只考虑了特征的可分性,并没有考虑向量类内与类间相似性这一训练目标,基于交叉熵损失函数添加了相关度量项,利用协方差和标准差计算预测向量与真实向量类内与类间正负相关程度;
步骤5:预测结果评价
采取不同评价指标评价预测结果,采用准确性Q3和分段重叠度量Sov两种方法对蛋白质二级结构预测性能进行衡量。
2.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤1.1)利用PSI-BLAST工具调用3次迭代,检测进化矩阵设置为BLOSUM62矩阵,E-value设置为0.00l。
3.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤1.2)所述PSSM矩阵为20*L,其中L是氨基酸序列的长度,20代表氨基酸类型的数量,每个类型代表残基突变成相应氨基酸类型的可能性。
4.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤1)还包括1.3)利用滑动窗口对PSSM矩阵进行进一步处理,通过设置不同尺度的窗口大小,将窗口的中间位置与第一个有效氨基酸字符重合,依次向氨基酸序列尾端移动一个位置,直到移动的次数等于当前切片窗口的氨基酸序列的总长度时,当前氨基酸序列窗口切片处理完成,得到处理后的不同尺度数据。
5.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤2在所述3通道并联网络架构中通道1采用3×3卷积核堆叠,通道2采用6×6卷积核堆叠,通道3采用9×9卷积核堆叠。
6.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤2.1)中卷积层的运算公式为:
Figure FDA0002933133670000031
其中,i表示层数,xi代表第i层输入向量,yi代表对应的输出向量,Wi代表第i层卷积核权重,bi则是对应的权重偏置,max()是相应的非线性激活层函数Relu;神经元仅与其相邻的上一层神经元相连接,通过对学习到的局部特征yi进行组合形成最后的特征图cinvC
7.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤2.2)特征向量
Figure FDA0002933133670000032
计算公式如下:
Figure FDA0002933133670000033
其中,
Figure FDA0002933133670000034
表示逐元素相加,
Figure FDA0002933133670000035
表示逐元素相乘,σ()表示Sigmoid激活函数,
Figure FDA0002933133670000036
Figure FDA0002933133670000037
特征向量的计算过程如公式(3)(4)所示:
Figure FDA0002933133670000038
其中xavg k为输出的第k个通道的平均池化权重,xk(i,j)为输入特征层,H*W表示特征矩阵空间维度的信息,Max()表示Relu激活函数;
xm k=max(maxxk(i,j),0) i=1…H;j=1…W (4)
其中xm k为输出的第k个通道的最大池化权重,xk(i,j)为输入特征层,H*W表示特征向量空间维度的信息,Max()表示Relu激活函数;
重构特征矩阵
Figure FDA0002933133670000039
计算公式如下:
Figure FDA00029331336700000310
其中,cov()表示对合并后的池化矩阵进行卷积操作,σ()表示Sigmoid激活函数,然后将重构特征矩阵
Figure FDA0002933133670000041
进行再次卷积,dropout操作,将重构特征中低层的局部区域信息通过卷积核激发到更高的层次,突出不同通道数据中的重要特征。
8.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤4中以任意一个训练样本为例,假设经过Softmax函数输出的一个氨基酸类型概率为
Figure FDA0002933133670000042
真实标签为y=[y1,y2…yC](为one-hot编码形式),C为样本总类别;本研究提出的双重损失函数可以表示为:
Figure FDA0002933133670000043
其中,
Figure FDA0002933133670000044
为向量y和
Figure FDA0002933133670000045
的平均值,而σ(y)和
Figure FDA0002933133670000046
标准偏差;令
Figure FDA0002933133670000047
公式(6)可化简为:
Figure FDA0002933133670000048
根据公式容易得出,ρLOSS是一个介于0和1之间的值。从而加快网络模型收敛的速度,避免了梯度过大产生爆炸。
9.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤5中Q3是衡量个别残基分配的精度,计算公式如(8)(9)所示:
Figure FDA0002933133670000049
其中,N为氨基酸残基总数,NC、NE、NH和分别是正确预测的二级结构数:螺旋、链和螺旋,其中任意一种二级结构的准确率可表示为:
Figure FDA0002933133670000051
其中,TPc为c类中预测正确的氨基酸残基个数,nc表示数据中c类的氨基酸残基总数。
CN202110153044.8A 2021-02-04 2021-02-04 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 Active CN112767997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110153044.8A CN112767997B (zh) 2021-02-04 2021-02-04 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110153044.8A CN112767997B (zh) 2021-02-04 2021-02-04 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法

Publications (2)

Publication Number Publication Date
CN112767997A true CN112767997A (zh) 2021-05-07
CN112767997B CN112767997B (zh) 2023-04-25

Family

ID=75704857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110153044.8A Active CN112767997B (zh) 2021-02-04 2021-02-04 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法

Country Status (1)

Country Link
CN (1) CN112767997B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223620A (zh) * 2021-05-13 2021-08-06 西安电子科技大学 基于多维度序列嵌入的蛋白质溶解性预测方法
CN113591955A (zh) * 2021-07-20 2021-11-02 首都师范大学 一种提取图数据的全局信息的方法、系统、设备及介质
CN113593634A (zh) * 2021-08-06 2021-11-02 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法
CN113837104A (zh) * 2021-09-26 2021-12-24 大连智慧渔业科技有限公司 基于卷积神经网络的水下鱼类目标检测方法、装置及存储介质
CN113851192A (zh) * 2021-09-15 2021-12-28 安庆师范大学 氨基酸一维属性预测模型训练方法、装置及属性预测方法
CN114121149A (zh) * 2021-12-01 2022-03-01 天津理工大学 一种基于双向gru和注意力机制的rna二级结构预测算法
CN114333980A (zh) * 2021-08-27 2022-04-12 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN114566216A (zh) * 2022-02-25 2022-05-31 桂林电子科技大学 一种基于注意力机制的剪接位点预测及解释性方法
CN115064207A (zh) * 2022-06-30 2022-09-16 南京医科大学 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法
CN115312119A (zh) * 2022-10-09 2022-11-08 之江实验室 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统
CN115314265A (zh) * 2022-07-27 2022-11-08 天津市国瑞数码安全系统股份有限公司 基于流量和时序识别tls加密应用的方法和系统
CN115966249A (zh) * 2023-02-15 2023-04-14 北京科技大学 基于分数阶神经网的蛋白质-atp结合位点预测方法及装置
CN116312754A (zh) * 2023-03-16 2023-06-23 安庆师范大学 一种基于混合深度学习模型的蛋白质结构预测方法
CN116825198A (zh) * 2023-07-14 2023-09-29 湖南工商大学 基于图注意机制的肽序列标签鉴定方法
CN116978445A (zh) * 2023-08-03 2023-10-31 北京师范大学珠海校区 一种天然产物的结构预测系统、预测方法及设备
CN117476106A (zh) * 2023-12-26 2024-01-30 西安慧算智能科技有限公司 一种多类不平衡蛋白质二级结构预测方法和系统
CN114333980B (zh) * 2021-08-27 2024-06-07 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190114511A1 (en) * 2017-10-16 2019-04-18 Illumina, Inc. Deep Learning-Based Techniques for Training Deep Convolutional Neural Networks
CN110210313A (zh) * 2019-05-06 2019-09-06 河海大学 基于多尺度pca-3d-cnn空谱联合的高光谱遥感影像分类方法
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN111898095A (zh) * 2020-07-10 2020-11-06 佛山科学技术学院 深度迁移学习智能故障诊断方法、装置、存储介质和设备
US10880752B1 (en) * 2020-05-08 2020-12-29 King Abdulaziz University Method for spectrum sensing unoccupied frequency

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190114511A1 (en) * 2017-10-16 2019-04-18 Illumina, Inc. Deep Learning-Based Techniques for Training Deep Convolutional Neural Networks
CN110210313A (zh) * 2019-05-06 2019-09-06 河海大学 基于多尺度pca-3d-cnn空谱联合的高光谱遥感影像分类方法
US10880752B1 (en) * 2020-05-08 2020-12-29 King Abdulaziz University Method for spectrum sensing unoccupied frequency
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN111798921A (zh) * 2020-06-22 2020-10-20 武汉大学 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN111898095A (zh) * 2020-07-10 2020-11-06 佛山科学技术学院 深度迁移学习智能故障诊断方法、装置、存储介质和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YI-SHENG SU,ET.AL: "Generation of Two-Dimensional Optical Reference Signals Based on Parametric Minimum Cross Entropy", 《IEEE PHOTONICS TECHNOLOGY LETTERS》 *
任超: "基于交叉熵的结构可靠性分析与随机优化方法", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223620A (zh) * 2021-05-13 2021-08-06 西安电子科技大学 基于多维度序列嵌入的蛋白质溶解性预测方法
CN113591955A (zh) * 2021-07-20 2021-11-02 首都师范大学 一种提取图数据的全局信息的方法、系统、设备及介质
CN113591955B (zh) * 2021-07-20 2023-10-13 首都师范大学 一种提取图数据的全局信息的方法、系统、设备及介质
CN113593634A (zh) * 2021-08-06 2021-11-02 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法
CN113593634B (zh) * 2021-08-06 2022-03-11 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法
CN114333980A (zh) * 2021-08-27 2022-04-12 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN114333980B (zh) * 2021-08-27 2024-06-07 腾讯科技(深圳)有限公司 模型训练、蛋白质特征提取和功能预测的方法与装置
CN113851192B (zh) * 2021-09-15 2023-06-30 安庆师范大学 氨基酸一维属性预测模型训练方法、装置及属性预测方法
CN113851192A (zh) * 2021-09-15 2021-12-28 安庆师范大学 氨基酸一维属性预测模型训练方法、装置及属性预测方法
CN113837104A (zh) * 2021-09-26 2021-12-24 大连智慧渔业科技有限公司 基于卷积神经网络的水下鱼类目标检测方法、装置及存储介质
CN113837104B (zh) * 2021-09-26 2024-03-15 大连智慧渔业科技有限公司 基于卷积神经网络的水下鱼类目标检测方法、装置及存储介质
CN114121149A (zh) * 2021-12-01 2022-03-01 天津理工大学 一种基于双向gru和注意力机制的rna二级结构预测算法
CN114566216A (zh) * 2022-02-25 2022-05-31 桂林电子科技大学 一种基于注意力机制的剪接位点预测及解释性方法
CN114566216B (zh) * 2022-02-25 2024-04-02 桂林电子科技大学 一种基于注意力机制的剪接位点预测及解释性方法
CN115064207A (zh) * 2022-06-30 2022-09-16 南京医科大学 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法
CN115314265A (zh) * 2022-07-27 2022-11-08 天津市国瑞数码安全系统股份有限公司 基于流量和时序识别tls加密应用的方法和系统
CN115314265B (zh) * 2022-07-27 2023-07-18 天津市国瑞数码安全系统股份有限公司 基于流量和时序识别tls加密应用的方法和系统
US11908140B1 (en) 2022-10-09 2024-02-20 Zhejiang Lab Method and system for identifying protein domain based on protein three-dimensional structure image
CN115312119A (zh) * 2022-10-09 2022-11-08 之江实验室 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统
CN115966249A (zh) * 2023-02-15 2023-04-14 北京科技大学 基于分数阶神经网的蛋白质-atp结合位点预测方法及装置
CN116312754A (zh) * 2023-03-16 2023-06-23 安庆师范大学 一种基于混合深度学习模型的蛋白质结构预测方法
CN116312754B (zh) * 2023-03-16 2023-10-03 安庆师范大学 一种基于混合深度学习模型的蛋白质结构预测方法
CN116825198B (zh) * 2023-07-14 2024-05-10 湖南工商大学 基于图注意机制的肽序列标签鉴定方法
CN116825198A (zh) * 2023-07-14 2023-09-29 湖南工商大学 基于图注意机制的肽序列标签鉴定方法
CN116978445A (zh) * 2023-08-03 2023-10-31 北京师范大学珠海校区 一种天然产物的结构预测系统、预测方法及设备
CN116978445B (zh) * 2023-08-03 2024-03-26 北京师范大学珠海校区 一种天然产物的结构预测系统、预测方法及设备
CN117476106A (zh) * 2023-12-26 2024-01-30 西安慧算智能科技有限公司 一种多类不平衡蛋白质二级结构预测方法和系统
CN117476106B (zh) * 2023-12-26 2024-04-02 西安慧算智能科技有限公司 一种多类不平衡蛋白质二级结构预测方法和系统

Also Published As

Publication number Publication date
CN112767997B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN112767997A (zh) 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN111210871A (zh) 基于深度森林的蛋白质-蛋白质相互作用预测方法
CN111063393A (zh) 基于信息融合和深度学习的原核生物乙酰化位点预测方法
CN111859010B (zh) 一种基于深度互信息最大化的半监督音频事件识别方法
Tang et al. A fast inference networks for SAR target few-shot learning based on improved siamese networks
Jiang et al. Facial expression recognition based on convolutional block attention module and multi-feature fusion
CN112381227B (zh) 神经网络生成方法、装置、电子设备及存储介质
CN110503155A (zh) 一种信息分类的方法及相关装置、服务器
CN117407772B (zh) 监督对比学习网络模型训练多元时序数据分类方法及系统
CN111429965B (zh) 一种基于多连体特征的t细胞受体对应表位预测方法
CN113674862A (zh) 一种基于机器学习的急性肾功能损伤发病预测方法
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及系统
CN113257357B (zh) 蛋白质残基接触图预测方法
Chen et al. DeepGly: A deep learning framework with recurrent and convolutional neural networks to identify protein glycation sites from imbalanced data
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
KR102272921B1 (ko) 확장형 카테고리를 위한 계층적 객체 검출 방법
CN117251813A (zh) 一种网络流量异常检测方法和系统
CN116386733A (zh) 基于多视角多尺度多注意力机制的蛋白质功能预测方法
Yu et al. Sarnet: self-attention assisted ranking network for temporal action proposal generation
CN114627076A (zh) 一种联合主动学习和深度学习技术的工业检测方法
CN113936246A (zh) 基于联合局部特征判别性学习的无监督目标行人重识别方法
CN113611360A (zh) 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法
CN114724630B (zh) 用于预测蛋白质翻译后修饰位点的深度学习方法
CN116070120B (zh) 一种多标签时序电生理信号的自动识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant