CN112767997A - 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 - Google Patents
一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 Download PDFInfo
- Publication number
- CN112767997A CN112767997A CN202110153044.8A CN202110153044A CN112767997A CN 112767997 A CN112767997 A CN 112767997A CN 202110153044 A CN202110153044 A CN 202110153044A CN 112767997 A CN112767997 A CN 112767997A
- Authority
- CN
- China
- Prior art keywords
- feature
- convolution
- secondary structure
- vector
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 65
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 64
- 239000011159 matrix material Substances 0.000 claims description 30
- 150000001413 amino acids Chemical class 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 15
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 125000000539 amino acid group Chemical group 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000000547 structure data Methods 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000004880 explosion Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 235000019580 granularity Nutrition 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 33
- 230000000875 corresponding effect Effects 0.000 description 13
- 238000012360 testing method Methods 0.000 description 8
- 102100026549 Caspase-10 Human genes 0.000 description 6
- 101000983518 Homo sapiens Caspase-10 Proteins 0.000 description 6
- 101001091194 Homo sapiens Peptidyl-prolyl cis-trans isomerase G Proteins 0.000 description 6
- 238000002679 ablation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 101000983515 Homo sapiens Inactive caspase-12 Proteins 0.000 description 4
- 101000716750 Homo sapiens Protein SCAF11 Proteins 0.000 description 4
- 102100026556 Inactive caspase-12 Human genes 0.000 description 4
- 102100020876 Protein SCAF11 Human genes 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 101000859758 Homo sapiens Cartilage-associated protein Proteins 0.000 description 3
- 101000916686 Homo sapiens Cytohesin-interacting protein Proteins 0.000 description 3
- 101000726740 Homo sapiens Homeobox protein cut-like 1 Proteins 0.000 description 3
- 101000761460 Homo sapiens Protein CASP Proteins 0.000 description 3
- 101000761459 Mesocricetus auratus Calcium-dependent serine proteinase Proteins 0.000 description 3
- 102100024933 Protein CASP Human genes 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 102100026550 Caspase-9 Human genes 0.000 description 2
- 101000983523 Homo sapiens Caspase-9 Proteins 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 108020001580 protein domains Proteins 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Biotechnology (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,属于生物信息学与模式识别领域。本发明采用多尺度卷积神经网络进行自适应学习,通过设置窗口大小来提取粒度不同的结构特征,从而识别更多的全局和局部特征信息。同时,在该方法中引入注意力卷积机制,使其更加有效地识别结构序列中信息表征量大的部分。由于传统神经网络的分类方法使用的损失函数为交叉熵,交叉熵并不能有效解决训练序列中的样本非均衡性问题,而蛋白质二级结构预测问题属于像素级分类,样本的非均衡性问题在其中体现得十分突出,本方法在构建模型的基础上提出一种改进的相关交叉熵损失函数来解决该问题。
Description
技术领域
本发明涉及生物信息学与模式识别领域,具体涉及一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法。
背景技术
蛋白质作为生命活动的主要承担者,不仅为生命活动提供物质基础,还为疾病理论的攻克提供理论基础。在蛋白质中,85%的氨基酸残基处于α-螺旋、β-折叠和无规卷曲三种基本的二级结构状态,除此以外还有一小部分是β-转角。由此可见,蛋白质二级结构的组成具有很强的规律性,并且各种二级结构在蛋白质中的分布是非均匀的。如果二级结构能够被准确预测,这些信息对蛋白无序预测、蛋白质三级结构预测都是非常有用的。蛋白质二级结构也有助于识别蛋白质功能域,可以指导位点特异性突变实验的合理设计,可见蛋白质二级结构预测对于研究蛋白质结构和功能具有重要意义。
随着人工智能的发展,许多机器学习和神经网络方法已广泛用于预测蛋白质二级结构,例如Wang等人提出的DEEPCNF预测方法,将位置特定评分矩阵(PSSM)与条件神经场(CNF)相结合,在蛋白质二级结构预测方面取得了较大突破。2018年,MA等人在传统的随机子空间方法上提出了基于数据分区和半随机子空间(PSRSM)的方法,PSRSM方法使蛋白质二级结构预测的Q3准确率提高到了85.89%,有效的保证了基础分类器的准确性。随着深度学习的快速发展,Heffernan等人从氨基酸序列位置距离间的非局部相互作用考虑,采用长短期记忆(LSTM)双向循环神经网络(BRNNs)技术来捕捉预测蛋白质残基类型,并开发了一个名为SPIDER3的工具,实现了84%的Q3预测精度。2018年,fang等人从氨基酸之间的局部和全局相互作用考虑,提出了Deep3I深度神经网络,并开发为MUFOLD-SS工具,使蛋白质预测的准确率达85%。2020年,Cheng等人将卷积神经网络(CNN)和长期短时记忆(LSTM)相结合,使25pdb数据的Q3准确率提高到80.18%。Zhao等人采用对抗性网络和卷积神经网络模型,模拟氨基酸残基之间的强相关性和长程作用,并取得了较好的预测效果。
虽然以上提出的模型在蛋白质的二级结构问题上达到了相对较好的预测结果,但仍然存在一些问题。如网络结构不能有效捕捉到同一蛋白质序列之间的长期依赖关系,不能充分提取氨基酸的残基序列信息。其次,蛋白质二级结构预测的难点在于不同区域结构过于相似,无法提取蛋白质序列的有效信息或抑制无效信息,难以辨别蛋白质的结构。
基于对以上问题的思考,开发一种新的预测方法来解决蛋白质二级结构预测问题具有十分重要的意义。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,以更准确地对蛋白质二级结构进行预测识别。使用这种蛋白质二级结构数据自动分类方法在蛋白质奥林匹克竞赛所提供的CASP9,CASP10,CASP11,CASP12数据集上取得优良的性能。针对蛋白质结构数据不能充分提取氨基酸的残基序列信息特征,无法提取蛋白质序列的有效信息或抑制无效信息,导致识别分类准确性不足,主要以下几个方面做出改进:
1、针对不能充分提取氨基酸的残基序列信息和结构信息,设计了一种多尺度多通道的卷积网络。各通道采用不同大小的卷积核来提取不同粒度的全局与局部特征信息,同时有效保留特征信息间的序列关系。
2、为了更好地结合信息间的序列关系,反映出不同位置的重要性。使用空间和通道间的卷积注意力机制,使网络能够更关注于序列结构中重要的特征,获取更好的预测准确度。
3、设计相关交叉熵作为损失函数来自动解决训练样本的非均衡性。该损失函数等同于在传统交叉熵上添加了相关度量项,该项能够有效计算预测样本与不同类别样本特征值的不相关性,同时保持与相同类别样本特征值的相关性,更好地提升抵抗梯度弥散的能力,加快模型收敛的速度,增强模型的泛化能力,对最终优化分类结果也有帮助。
本发明解决其技术问题所采用的技术方案是:
一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,包括以下步骤:
步骤1:数据预处理
1.1)对蛋白质序列中的数据进行编码;
1.2)对数据集中每个蛋白质样本进行搜索,生成相应的PSSM矩阵,以实现对氨基酸数据由字母到数字向量转化,为网络分类预测做准备;
步骤2:特征提取
2.1)针对蛋白质二级结构数据,设计一种多尺度卷积注意力神经网络进行特征提取分类,该网络结构采用3通道并联网络架构,在卷积层中配合不同的卷积核大小和数量,来充分提取同一蛋白质序列之间的依赖关系,尽可能的挖掘数据特征;每一层卷积层由特征图以及卷积核组成,卷积核在特征图上按固定步长移动,并且与局部感受野对应位置进行卷积运算,最后经过激活函数得到输出值,形成最后的特征图convC;
2.2)对每个通道提取到的特征图convC进行空间维度和通道维度的注意力感知,将特征图分别进行全局最大池化和全局平均池化操作,得到各自操作的特征向量,然后分别输入同一个多层感知机中,将输出来的结果进行逐元素相加,得到一个通道特征权重向量;将特征权重向量与特征图convC逐元素相乘,即可得到通道间注意力特征矩阵
在特征向量的基础上沿着通道空间维度再次执行全局最大池化和全局平均池化操作,得到各自操作的特征向量,将输出来的结果进行逐元素相加,经过卷积操作,得到一个空间特征权重向量,将特征权重向量与逐元素相乘,即可得到重构特征矩阵
步骤3:特征融合
将再次卷积后提取出的各通道特征数据进行融合;
步骤4:分类预测
最后在分类预测部分,模型采用3层全连接层操作,输入层接收融合后的特征向量,输出层用Softmax分类器来预测蛋白质二级结构的准确率;
考虑到传统的交叉熵损失函数在训练过程中只考虑了特征的可分性,并没有考虑向量类内与类间相似性这一训练目标,基于交叉熵损失函数添加了相关度量项,利用协方差和标准差计算预测向量与真实向量类内与类间正负相关程度;
步骤5:预测结果评价
采取不同评价指标评价预测结果,采用准确性Q3和分段重叠度量Sov两种方法对蛋白质二级结构预测性能进行衡量。
可选地,步骤1.1)利用PSI-BLAST工具调用3次迭代,检测进化矩阵设置为BLOSUM62矩阵,E-value设置为0.00l。
可选地,步骤1.2)所述PSSM矩阵为20*L,其中L是氨基酸序列的长度,20代表氨基酸类型的数量,每个类型代表残基突变成相应氨基酸类型的可能性。
可选地,步骤1)还包括1.3)利用滑动窗口对PSSM矩阵进行进一步处理,通过设置不同尺度的窗口大小,将窗口的中间位置与第一个有效氨基酸字符重合,依次向氨基酸序列尾端移动一个位置,直到移动的次数等于当前切片窗口的氨基酸序列的总长度时,当前氨基酸序列窗口切片处理完成,得到处理后的不同尺度数据。
可选地,步骤2在所述3通道并联网络架构中通道1采用3×3卷积核堆叠,通道2采用6×6卷积核堆叠,通道3采用9×9卷积核堆叠。
可选地,步骤2.1)中卷积层的运算公式为:
其中,i表示层数,xi代表第i层输入向量,yi代表对应的输出向量,Wi代表第i层卷积核权重,bi则是对应的权重偏置,max()是相应的非线性激活层函数Relu;神经元仅与其相邻的上一层神经元相连接,通过对学习到的局部特征yi进行组合形成最后的特征图convC。
其中xavg k为输出的第k个通道的平均池化权重,xk(i,j)为输入特征层,H*W表示特征矩阵空间维度的信息,Max()表示Relu激活函数;
xm k=max(maxxk(i,j),0)i=1…H;j=1…W (4)
其中xm k为输出的第k个通道的最大池化权重,xk(i,j)为输入特征层,H*W表示特征向量空间维度的信息,Max()表示Relu激活函数;
其中,cov()表示对合并后的池化矩阵进行卷积操作,σ()表示Sigmoid激活函数,然后将重构特征矩阵进行再次卷积,dropout操作,将重构特征中低层的局部区域信息通过卷积核激发到更高的层次,突出不同通道数据中的重要特征。
可选地,步骤4中以任意一个训练样本为例,假设经过Softmax函数输出的一个氨基酸类型概率为真实标签为y=[y1,y2…yC](为one-hot编码形式),C为样本总类别;本研究提出的双重损失函数可以表示为:
根据公式容易得出,ρLOSS是一个介于0和1之间的值。从而加快网络模型收敛的速度,避免了梯度过大产生爆炸。
可选地,步骤5中Q3是衡量个别残基分配的精度,计算公式如(8)(9)所示:
其中,N为氨基酸残基总数,NC、NE、NH和分别是正确预测的二级结构数:螺旋、链和螺旋,其中任意一种二级结构的准确率可表示为:
其中,TPc为c类中预测正确的氨基酸残基个数,nc表示数据中c类的氨基酸残基总数。
本发明的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法与现有技术相比所产生的有益效果是:
1、本发明基于多尺度卷积注意力神经网络方法来解决蛋白质二级结构预测问题。该方法采用3种不同大小的卷积核对输入图像进行特征提取,使得网络模型可以提取粒度不同的结构特征,并且在该网络中引入注意力卷积机制,可以自适应地结合信息间的序列关系,高度感知特征图中的重要信息,反映不同位置信息的重要性。
2、本发明考虑到传统的交叉熵损失并不能有效解决训练序列中的样本非均衡性问题,而蛋白质二级结构预测问题属于像素级分类,样本的非均衡性问题在其中体现得十分突出。所以在本网络模型的基础上提出一种改进的相关交叉熵损失作为损失函数来自动解决训练样本的非均衡性,最终利用softmax分类器进行分类。
3、该方法已在公开数据集CASP9,CASP10,CASP11和CASP12上得到验证,其准确率分别为89.11%,90.12%,90.01%,88.82%。证实了本方法可以更好的提取图像全局与局部特征信息,对损失函数的改进,加快了网络模型收敛速度,提高了网络模型的学习和泛化能力,同时防止过拟合,进而取得了较好的预测结果。
附图说明
附图1根据本发明实施方式流程图;
附图2是本发明网络结构示意图;
附图3是卷积注意力网络示意图;
附图4本发明中特征融合示意图;
附图5本发明训练损失对比结果示意图;
附图6本发明测试损失对比结果示意图;
附图7本发明实施结果Q3示意图。
具体实施方式
为了更清楚地描述本发明一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法的工作原理,下面将附上简图作进一步说明。
结合图1,本发明一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,包括以下步骤:
步骤1:数据预处理
1.1)本研究用到的公开数据集有ASTRAL,CullPDB,CASP10,CASP11,CASP12,CASP9。我们基于25%的百分比同一性切割、3埃的分辨率切割和0.25的R因子切割来选择数据。表1显示了各数据集数量。蛋白质二级结构类型使用DSSP来定义。DSSP有8类二级结构:H(α-螺旋)、G(3-螺旋)、I(5-螺旋)、E(折叠)、B(β转)、T(转弯)、S(弯卷)和螺旋('_'),通常分为3类。在本发明中,我们将H,G,I代换为H;E,B代换为E;其他状态代换为C,这通常导致比其他定义更低的预测精度。对蛋白质数据编码时,我们利用PSI-BLAST工具调用3次迭代,检测进化矩阵设置为BLOSUM62矩阵,E-value设置为0.00l。对数据集中每个蛋白质样本进行搜索,生成相应的PSSM矩阵(20*L),该方法实现了氨基酸数据由字母到数字向量的转化,为网络分类预测做准备。其中L是氨基酸序列的长度,20代表氨基酸类型的数量,每个类型代表残基突变成相应氨基酸类型的可能性。
表1
1.2)虽然1.1)解决了氨基酸数据由字母到数字向量的转化,但是由于每条氨基酸序列长短不同,存在长度差异较大的序列,为了方便数据送入卷积网络进行自适应学习。本发明对在数据预处理阶段,利用滑动窗口对PSSM矩阵进行进一步处理,通过设置不同尺度的窗口大小,将窗口的中间位置与第一个有效氨基酸字符重合,依次向氨基酸序列尾端移动一个位置,直到移动的次数等于当前切片窗口的氨基酸序列的总长度时,当前氨基酸序列窗口切片处理完成,得到处理后的不同尺度数据。
步骤2:特征提取
2.1)针对蛋白质二级结构数据,本发明设计了一种多尺度卷积注意力神经网络进行特征提取分类,网络结构设计如图2。相比于传统的单通道卷积神经网络,本方法采用了3通道并联网络架构,在卷积层中配合不同的卷积核大小和数量,来充分提取同一蛋白质序列之间的依赖关系,尽可能的挖掘数据特征。每一层卷积层由特征图以及卷积核组成,卷积核在特征图上按固定步长移动,并且与局部感受野对应位置进行卷积运算,最后经过激活函数得到输出值。卷积层的运算公式为:
其中,i表示层数,xi代表第i层输入向量,yi代表对应的输出向量,Wi代表第i层卷积核权重,bi则是对应的权重偏置,Max()是相应的非线性激活层函数Relu。神经元仅与其相邻的上一层神经元相连接,通过对学习到的局部特征yi进行组合形成最后的特征图convC。
2.2)为了使模型能更好感知特征图中的重要信息,我们对每个通道提取到的特征图convC进行空间维度和通道维度的注意力感知。卷积注意力块结构设计如图3所示。将特征图分别进行全局最大池化和全局平均池化操作,得到各自操作的特征向量,然后分别输入同一个多层感知机中,将输出来的结果进行逐元素相加,得到一个通道特征权重向量。将特征权重向量与特征图convC逐元素相乘,即可得到通道间注意力特征矩阵计算公式如下:
其中xavg k为输出的第k个通道的平均池化权重。xk(i,j)为输入特征层。H*W表示特征矩阵空间维度的信息。Max()表示Relu激活函数。
xm k=max(maxxk(i,j),0)i=1…H;j=1…W (4)
其中xm k为输出的第k个通道的最大池化权重。xk(i,j)为输入特征层。H*W表示特征向量空间维度的信息。Max()表示Relu激活函数。
在特征向量的基础上沿着通道空间维度再次执行全局最大池化和全局平均池化操作。得到各自操作的特征向量,将输出来的结果进行逐元素相加,经过卷积操作,得到一个空间特征权重向量,将特征权重向量与逐元素相乘,即可得到重构特征矩阵计算公式如下:
其中,cov()表示对合并后的池化矩阵进行卷积操作,σ()表示Sigmoid激活函数。然后将重构特征矩阵进行再次卷积,Dropout操作,将重构特征中低层的局部区域信息通过卷积核激发到更高的层次,突出不同通道数据中的重要特征。
步骤3:特征融合
特征融合部分我们将再次卷积后提取出的各通道特征数据进行融合,特征融合过程如图4所示。由于通道39×9卷积核堆叠之后感受野大于通道13×3卷积核,通道2的6×6卷积核,且网络结构更深,具备更大的视野。因此特征融合既考虑了数据局部特征(通道1、通道2),又结合了数据的全局特征(通道3)。
步骤4:分类预测
最后在分类预测部分,模型采用3层全连接层操作,输入层接收融合后的特征向量,输出层用Softmax分类器来预测蛋白质二级结构的准确率。同时,考虑到传统的交叉熵损失函数在训练过程中只考虑了特征的可分性,并没有考虑向量类内与类间相似性这一训练目标。本发明基于交叉熵损失函数添加了相关度量项,利用协方差和标准差计算预测向量与真实向量类内与类间正负相关程度。
根据公式容易得出,ρLOSS是一个介于0和1之间的值。从而加快网络模型收敛的速度,避免了梯度过大产生爆炸。公式中,交叉熵损失函数可以将真实类别所属的输出概率最大化,从而使得不同类别的特征具有可分性。相关度量项则通过线性回归的方式更好的呈现预测样本与不同类别样本之间的负相关性,同时更好的呈现与相同类别样本之间的正相关性,使氨基酸特征类间距离更大,类内距离更小,增强模型的学习能力。
步骤5:预测结果评价
本发明实验采取不同评价指标来评价预测结果,采用准确性Q3和分段重叠度量Sov两种方法对蛋白质二级结构预测性能进行衡量。Q3主要是衡量个别残基分配的精度,计算公式如(8)(9)所示:
其中,N为氨基酸残基总数,NC、NE、NH和分别是正确预测的二级结构数:螺旋、链和螺旋。其中任意一种二级结构的准确率可表示为:
其中,TPc为c类中预测正确的氨基酸残基个数,nc表示数据中c类的氨基酸残基总数。Sov(Segment Overlap Measure)是一种基于二级结构片段的衡量方法,广泛的使用在CASP大赛中。
为了使得本领域技术人员能够更加清楚地了解本申请的技术方案,以下将结合具体的实验对比说明本申请的技术方案的可行性和有效性。
首先我们对本发明自身进行消融分析,在消融实验中,保持对应参数不变的情况下,我们通过删除或替换本研究模型中的各个模块进行消融研究。在数据集CASP10上进行了多尺度单层卷积(MSSL_COV),多尺度单层卷积加CBAM(MSSL_COVATT),多尺度多层卷积加CBAM(MSML_SOVATT)和替换传统交叉熵为相关交叉熵损失实验(This work model)。
表2在CASP10数据集上的消融研究
由表2中各消融实验的结果可以看出,多尺度多卷积对网络模型产生重要影响,MSML_SOVATT方法的预测准确率Q3达90.00%,比MSSL_COV方法的预测准确率提升了2.5%左右。Sov准确率为85%,比MSSL_COV方法的SOV率提升了7%左右。同时,将传统交叉熵替换为我们提出的相关交叉熵损失函数后,预测结果达90.01%,比使用传统交叉熵损失预测准确率提升了0.07%,同时本发明的SOV准确率达85.47%,可以看出本研究中所提出的用采多尺度卷积及卷积注意力块提取特征信息和局部特征信息进行融合,并配合相关交叉熵损失函数进行训练的网络模型是有效的。
该实验在CASP10测试集上进一步对本发明所提出的相关交叉熵损失函数与传统交叉熵损失进行了对比,如图5-6所示。从图5-6可以看出,相关交叉熵损失在迭代初期,初始Loss值为0.2055,模型Loss值随着迭代次数增加而不断降低。在训练阶段的第20轮次,本文模型在训练及测试集上的Loss值分别下降至0.0096和0.1415,而交叉熵损失函数在训练及测试集上的Loss值分别为0.0821和0.4089。传统交叉熵损失函数的收敛速度较快;在迭代中期,由于相关系数项的影响,相关交叉熵损失函数波动较平缓,而传统交叉熵损失函数波动较大;在迭代后期,相关交叉熵与传统的交叉熵损失函数都能比较好地收敛,但相关交叉熵函数的误分类代价在迭代后期一直维持在比较低的水平,最终收敛时的误分类代价相比传统交叉熵损失函数大幅降低。总体来看,相关交叉熵函数的收敛速度要好于传统的交叉熵损失函数,且最终的误分类代价相比传统交叉熵损失函数大幅降低。图7为两种方法在训练和测试集上的预测准确率,可以看出,双重损失函数与传统交叉熵损失函数训练数据的准确率几乎保持一致,但是从测试结果上看,在迭代轮次达到50时,本发明预测准确率高达90.119%。
为了进一步验证本发明的预测性能,我们将本发明与其他主流方法进行对比,对比方法有DeepCNF、PSRSM、PSIPRED,JPRED。实验对比结果如表3。由表3可以看出,在CASP10测试集中,本方法比PSRSM方法提高了约0.5%。CASP11预测结果与PSRSM方法预测结果几乎保持一致,CASP12预测结果均高于其他方法。总体来说,本发明预测精度明显高于其他对比模型,可见本发明充分提取了氨基酸的类型信息编码和生物进化结构信息,并有效的将提取的局部和长程特征信息进行了良好的相互作用,有效的提高了蛋白质二级结构的预测精度。
表3在4个数据集上各模型的预测准确率对比(%)
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,包括以下步骤:
步骤1:数据预处理
1.1)对蛋白质序列中的数据进行编码;
1.2)对数据集中每个蛋白质样本进行搜索,生成相应的PSSM矩阵,以实现对氨基酸数据由字母到数字向量转化,为网络分类预测做准备;
步骤2:特征提取
2.1)针对蛋白质二级结构数据,设计一种多尺度卷积注意力神经网络进行特征提取分类,该网络结构采用3通道并联网络架构,在卷积层中配合不同的卷积核大小和数量,来充分提取同一蛋白质序列之间的依赖关系,尽可能的挖掘数据特征;每一层卷积层由特征图以及卷积核组成,卷积核在特征图上按固定步长移动,并且与局部感受野对应位置进行卷积运算,最后经过激活函数得到输出值,形成最后的特征图cinvC;
2.2)对每个通道提取到的特征图cinvC进行空间维度和通道维度的注意力感知,将特征图分别进行全局最大池化和全局平均池化操作,得到各自操作的特征向量,然后分别输入同一个多层感知机中,将输出来的结果进行逐元素相加,得到一个通道特征权重向量;将特征权重向量与特征图cinvC逐元素相乘,即可得到通道间注意力特征矩阵
在特征向量的基础上沿着通道空间维度再次执行全局最大池化和全局平均池化操作,得到各自操作的特征向量,将输出来的结果进行逐元素相加,经过卷积操作,得到一个空间特征权重向量,将特征权重向量与逐元素相乘,即可得到重构特征矩阵
步骤3:特征融合
将再次卷积后提取出的各通道特征数据进行融合;
步骤4:分类预测
最后在分类预测部分,模型采用3层全连接层操作,输入层接收融合后的特征向量,输出层用Softmax分类器来预测蛋白质二级结构的准确率;
考虑到传统的交叉熵损失函数在训练过程中只考虑了特征的可分性,并没有考虑向量类内与类间相似性这一训练目标,基于交叉熵损失函数添加了相关度量项,利用协方差和标准差计算预测向量与真实向量类内与类间正负相关程度;
步骤5:预测结果评价
采取不同评价指标评价预测结果,采用准确性Q3和分段重叠度量Sov两种方法对蛋白质二级结构预测性能进行衡量。
2.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤1.1)利用PSI-BLAST工具调用3次迭代,检测进化矩阵设置为BLOSUM62矩阵,E-value设置为0.00l。
3.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤1.2)所述PSSM矩阵为20*L,其中L是氨基酸序列的长度,20代表氨基酸类型的数量,每个类型代表残基突变成相应氨基酸类型的可能性。
4.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤1)还包括1.3)利用滑动窗口对PSSM矩阵进行进一步处理,通过设置不同尺度的窗口大小,将窗口的中间位置与第一个有效氨基酸字符重合,依次向氨基酸序列尾端移动一个位置,直到移动的次数等于当前切片窗口的氨基酸序列的总长度时,当前氨基酸序列窗口切片处理完成,得到处理后的不同尺度数据。
5.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤2在所述3通道并联网络架构中通道1采用3×3卷积核堆叠,通道2采用6×6卷积核堆叠,通道3采用9×9卷积核堆叠。
其中xavg k为输出的第k个通道的平均池化权重,xk(i,j)为输入特征层,H*W表示特征矩阵空间维度的信息,Max()表示Relu激活函数;
xm k=max(maxxk(i,j),0) i=1…H;j=1…W (4)
其中xm k为输出的第k个通道的最大池化权重,xk(i,j)为输入特征层,H*W表示特征向量空间维度的信息,Max()表示Relu激活函数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110153044.8A CN112767997B (zh) | 2021-02-04 | 2021-02-04 | 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110153044.8A CN112767997B (zh) | 2021-02-04 | 2021-02-04 | 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112767997A true CN112767997A (zh) | 2021-05-07 |
CN112767997B CN112767997B (zh) | 2023-04-25 |
Family
ID=75704857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110153044.8A Active CN112767997B (zh) | 2021-02-04 | 2021-02-04 | 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112767997B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113223620A (zh) * | 2021-05-13 | 2021-08-06 | 西安电子科技大学 | 基于多维度序列嵌入的蛋白质溶解性预测方法 |
CN113593634A (zh) * | 2021-08-06 | 2021-11-02 | 中国海洋大学 | 一种融合dna形状特征的转录因子结合位点预测方法 |
CN113591955A (zh) * | 2021-07-20 | 2021-11-02 | 首都师范大学 | 一种提取图数据的全局信息的方法、系统、设备及介质 |
CN113837104A (zh) * | 2021-09-26 | 2021-12-24 | 大连智慧渔业科技有限公司 | 基于卷积神经网络的水下鱼类目标检测方法、装置及存储介质 |
CN113851192A (zh) * | 2021-09-15 | 2021-12-28 | 安庆师范大学 | 氨基酸一维属性预测模型训练方法、装置及属性预测方法 |
CN114121149A (zh) * | 2021-12-01 | 2022-03-01 | 天津理工大学 | 一种基于双向gru和注意力机制的rna二级结构预测算法 |
CN114333980A (zh) * | 2021-08-27 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 模型训练、蛋白质特征提取和功能预测的方法与装置 |
CN114566216A (zh) * | 2022-02-25 | 2022-05-31 | 桂林电子科技大学 | 一种基于注意力机制的剪接位点预测及解释性方法 |
CN115064207A (zh) * | 2022-06-30 | 2022-09-16 | 南京医科大学 | 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法 |
CN115314265A (zh) * | 2022-07-27 | 2022-11-08 | 天津市国瑞数码安全系统股份有限公司 | 基于流量和时序识别tls加密应用的方法和系统 |
CN115312119A (zh) * | 2022-10-09 | 2022-11-08 | 之江实验室 | 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统 |
CN115462797A (zh) * | 2022-09-01 | 2022-12-13 | 广西师范大学 | 一种心电图心拍分类方法、系统、介质、设备及终端 |
CN115966249A (zh) * | 2023-02-15 | 2023-04-14 | 北京科技大学 | 基于分数阶神经网的蛋白质-atp结合位点预测方法及装置 |
CN116312754A (zh) * | 2023-03-16 | 2023-06-23 | 安庆师范大学 | 一种基于混合深度学习模型的蛋白质结构预测方法 |
CN116825198A (zh) * | 2023-07-14 | 2023-09-29 | 湖南工商大学 | 基于图注意机制的肽序列标签鉴定方法 |
CN116978445A (zh) * | 2023-08-03 | 2023-10-31 | 北京师范大学珠海校区 | 一种天然产物的结构预测系统、预测方法及设备 |
CN117476106A (zh) * | 2023-12-26 | 2024-01-30 | 西安慧算智能科技有限公司 | 一种多类不平衡蛋白质二级结构预测方法和系统 |
CN118115729A (zh) * | 2024-04-26 | 2024-05-31 | 齐鲁工业大学(山东省科学院) | 多层次多尺度特征交互的图像伪造区域识别方法及系统 |
WO2024119597A1 (zh) * | 2022-12-05 | 2024-06-13 | 清华大学 | 基于神经网络的冷冻电镜蛋白质模型搭建方法及存储介质 |
CN118609644A (zh) * | 2024-08-08 | 2024-09-06 | 电子科技大学长三角研究院(衢州) | 基于相关熵核稀疏表示模型的生物序列预测方法及其系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190114511A1 (en) * | 2017-10-16 | 2019-04-18 | Illumina, Inc. | Deep Learning-Based Techniques for Training Deep Convolutional Neural Networks |
CN110210313A (zh) * | 2019-05-06 | 2019-09-06 | 河海大学 | 基于多尺度pca-3d-cnn空谱联合的高光谱遥感影像分类方法 |
CN111667884A (zh) * | 2020-06-12 | 2020-09-15 | 天津大学 | 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型 |
CN111798921A (zh) * | 2020-06-22 | 2020-10-20 | 武汉大学 | 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置 |
CN111898095A (zh) * | 2020-07-10 | 2020-11-06 | 佛山科学技术学院 | 深度迁移学习智能故障诊断方法、装置、存储介质和设备 |
US10880752B1 (en) * | 2020-05-08 | 2020-12-29 | King Abdulaziz University | Method for spectrum sensing unoccupied frequency |
-
2021
- 2021-02-04 CN CN202110153044.8A patent/CN112767997B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190114511A1 (en) * | 2017-10-16 | 2019-04-18 | Illumina, Inc. | Deep Learning-Based Techniques for Training Deep Convolutional Neural Networks |
CN110210313A (zh) * | 2019-05-06 | 2019-09-06 | 河海大学 | 基于多尺度pca-3d-cnn空谱联合的高光谱遥感影像分类方法 |
US10880752B1 (en) * | 2020-05-08 | 2020-12-29 | King Abdulaziz University | Method for spectrum sensing unoccupied frequency |
CN111667884A (zh) * | 2020-06-12 | 2020-09-15 | 天津大学 | 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型 |
CN111798921A (zh) * | 2020-06-22 | 2020-10-20 | 武汉大学 | 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置 |
CN111898095A (zh) * | 2020-07-10 | 2020-11-06 | 佛山科学技术学院 | 深度迁移学习智能故障诊断方法、装置、存储介质和设备 |
Non-Patent Citations (2)
Title |
---|
YI-SHENG SU,ET.AL: "Generation of Two-Dimensional Optical Reference Signals Based on Parametric Minimum Cross Entropy", 《IEEE PHOTONICS TECHNOLOGY LETTERS》 * |
任超: "基于交叉熵的结构可靠性分析与随机优化方法", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113223620A (zh) * | 2021-05-13 | 2021-08-06 | 西安电子科技大学 | 基于多维度序列嵌入的蛋白质溶解性预测方法 |
CN113591955A (zh) * | 2021-07-20 | 2021-11-02 | 首都师范大学 | 一种提取图数据的全局信息的方法、系统、设备及介质 |
CN113591955B (zh) * | 2021-07-20 | 2023-10-13 | 首都师范大学 | 一种提取图数据的全局信息的方法、系统、设备及介质 |
CN113593634A (zh) * | 2021-08-06 | 2021-11-02 | 中国海洋大学 | 一种融合dna形状特征的转录因子结合位点预测方法 |
CN113593634B (zh) * | 2021-08-06 | 2022-03-11 | 中国海洋大学 | 一种融合dna形状特征的转录因子结合位点预测方法 |
CN114333980B (zh) * | 2021-08-27 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 模型训练、蛋白质特征提取和功能预测的方法与装置 |
CN114333980A (zh) * | 2021-08-27 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 模型训练、蛋白质特征提取和功能预测的方法与装置 |
CN113851192B (zh) * | 2021-09-15 | 2023-06-30 | 安庆师范大学 | 氨基酸一维属性预测模型训练方法、装置及属性预测方法 |
CN113851192A (zh) * | 2021-09-15 | 2021-12-28 | 安庆师范大学 | 氨基酸一维属性预测模型训练方法、装置及属性预测方法 |
CN113837104A (zh) * | 2021-09-26 | 2021-12-24 | 大连智慧渔业科技有限公司 | 基于卷积神经网络的水下鱼类目标检测方法、装置及存储介质 |
CN113837104B (zh) * | 2021-09-26 | 2024-03-15 | 大连智慧渔业科技有限公司 | 基于卷积神经网络的水下鱼类目标检测方法、装置及存储介质 |
CN114121149A (zh) * | 2021-12-01 | 2022-03-01 | 天津理工大学 | 一种基于双向gru和注意力机制的rna二级结构预测算法 |
CN114566216B (zh) * | 2022-02-25 | 2024-04-02 | 桂林电子科技大学 | 一种基于注意力机制的剪接位点预测及解释性方法 |
CN114566216A (zh) * | 2022-02-25 | 2022-05-31 | 桂林电子科技大学 | 一种基于注意力机制的剪接位点预测及解释性方法 |
CN115064207A (zh) * | 2022-06-30 | 2022-09-16 | 南京医科大学 | 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法 |
CN115314265B (zh) * | 2022-07-27 | 2023-07-18 | 天津市国瑞数码安全系统股份有限公司 | 基于流量和时序识别tls加密应用的方法和系统 |
CN115314265A (zh) * | 2022-07-27 | 2022-11-08 | 天津市国瑞数码安全系统股份有限公司 | 基于流量和时序识别tls加密应用的方法和系统 |
CN115462797A (zh) * | 2022-09-01 | 2022-12-13 | 广西师范大学 | 一种心电图心拍分类方法、系统、介质、设备及终端 |
US11908140B1 (en) | 2022-10-09 | 2024-02-20 | Zhejiang Lab | Method and system for identifying protein domain based on protein three-dimensional structure image |
CN115312119A (zh) * | 2022-10-09 | 2022-11-08 | 之江实验室 | 基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统 |
WO2024119597A1 (zh) * | 2022-12-05 | 2024-06-13 | 清华大学 | 基于神经网络的冷冻电镜蛋白质模型搭建方法及存储介质 |
CN115966249A (zh) * | 2023-02-15 | 2023-04-14 | 北京科技大学 | 基于分数阶神经网的蛋白质-atp结合位点预测方法及装置 |
CN116312754B (zh) * | 2023-03-16 | 2023-10-03 | 安庆师范大学 | 一种基于混合深度学习模型的蛋白质结构预测方法 |
CN116312754A (zh) * | 2023-03-16 | 2023-06-23 | 安庆师范大学 | 一种基于混合深度学习模型的蛋白质结构预测方法 |
CN116825198B (zh) * | 2023-07-14 | 2024-05-10 | 湖南工商大学 | 基于图注意机制的肽序列标签鉴定方法 |
CN116825198A (zh) * | 2023-07-14 | 2023-09-29 | 湖南工商大学 | 基于图注意机制的肽序列标签鉴定方法 |
CN116978445B (zh) * | 2023-08-03 | 2024-03-26 | 北京师范大学珠海校区 | 一种天然产物的结构预测系统、预测方法及设备 |
CN116978445A (zh) * | 2023-08-03 | 2023-10-31 | 北京师范大学珠海校区 | 一种天然产物的结构预测系统、预测方法及设备 |
CN117476106B (zh) * | 2023-12-26 | 2024-04-02 | 西安慧算智能科技有限公司 | 一种多类不平衡蛋白质二级结构预测方法和系统 |
CN117476106A (zh) * | 2023-12-26 | 2024-01-30 | 西安慧算智能科技有限公司 | 一种多类不平衡蛋白质二级结构预测方法和系统 |
CN118115729A (zh) * | 2024-04-26 | 2024-05-31 | 齐鲁工业大学(山东省科学院) | 多层次多尺度特征交互的图像伪造区域识别方法及系统 |
CN118609644A (zh) * | 2024-08-08 | 2024-09-06 | 电子科技大学长三角研究院(衢州) | 基于相关熵核稀疏表示模型的生物序列预测方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112767997B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112767997A (zh) | 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN109815801A (zh) | 基于深度学习的人脸识别方法及装置 | |
CN111210871A (zh) | 基于深度森林的蛋白质-蛋白质相互作用预测方法 | |
CN105975916A (zh) | 基于多输出卷积神经网络和有序回归的年龄估计方法 | |
CN108563624A (zh) | 一种基于深度学习的自然语言生成方法 | |
CN109858506A (zh) | 一种面向卷积神经网络分类结果的可视化算法 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
Jiang et al. | Facial expression recognition based on convolutional block attention module and multi-feature fusion | |
CN111063393A (zh) | 基于信息融合和深度学习的原核生物乙酰化位点预测方法 | |
CN111859010B (zh) | 一种基于深度互信息最大化的半监督音频事件识别方法 | |
Tang et al. | A fast inference networks for SAR target few-shot learning based on improved siamese networks | |
CN111429965B (zh) | 一种基于多连体特征的t细胞受体对应表位预测方法 | |
CN113257357B (zh) | 蛋白质残基接触图预测方法 | |
CN114547299A (zh) | 一种基于复合网络模型的短文本情感分类方法及装置 | |
CN113611360A (zh) | 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法 | |
CN114298290A (zh) | 一种基于自监督学习的神经网络编码方法及编码器 | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及系统 | |
CN113674862A (zh) | 一种基于机器学习的急性肾功能损伤发病预测方法 | |
CN117407772A (zh) | 监督对比学习网络模型训练多元时序数据分类方法及系统 | |
Chen et al. | DeepGly: A deep learning framework with recurrent and convolutional neural networks to identify protein glycation sites from imbalanced data | |
CN116935411A (zh) | 一种基于字符分解和重构的部首级古文字识别方法 | |
KR102272921B1 (ko) | 확장형 카테고리를 위한 계층적 객체 검출 방법 | |
CN117251813A (zh) | 一种网络流量异常检测方法和系统 | |
CN116386733A (zh) | 基于多视角多尺度多注意力机制的蛋白质功能预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501 Patentee after: Qilu University of Technology (Shandong Academy of Sciences) Country or region after: China Address before: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501 Patentee before: Qilu University of Technology Country or region before: China |