CN110310698A - 基于蛋白质长度和dcnn的分类建模方法及系统 - Google Patents
基于蛋白质长度和dcnn的分类建模方法及系统 Download PDFInfo
- Publication number
- CN110310698A CN110310698A CN201910603794.3A CN201910603794A CN110310698A CN 110310698 A CN110310698 A CN 110310698A CN 201910603794 A CN201910603794 A CN 201910603794A CN 110310698 A CN110310698 A CN 110310698A
- Authority
- CN
- China
- Prior art keywords
- protein
- feature
- amino acid
- indicate
- convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 128
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 128
- 238000013145 classification model Methods 0.000 title claims abstract description 21
- 238000010276 construction Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 70
- 150000001413 amino acids Chemical class 0.000 claims description 55
- 230000004913 activation Effects 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 5
- 210000004885 white matter Anatomy 0.000 claims description 4
- 238000003475 lamination Methods 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 38
- 230000000875 corresponding effect Effects 0.000 description 34
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 101150079087 Arfgef2 gene Proteins 0.000 description 4
- 239000002253 acid Substances 0.000 description 3
- 229910021529 ammonia Inorganic materials 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 235000013601 eggs Nutrition 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- -1 Big3 and Big4 Proteins 0.000 description 1
- 101150015105 Casp12 gene Proteins 0.000 description 1
- 101100273286 Mus musculus Casp4 gene Proteins 0.000 description 1
- 125000000539 amino acid group Chemical group 0.000 description 1
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于蛋白质长度和DCNN的分类建模方法及系统,属于蛋白质预测分析领域;要解决的技术问题为如何结合深度学习对蛋白质二级结构进行预测分析,提高准确率。方法包括:取多个大数据集作为训练集,提取数据集中PSI‑Blast产生的PSSM特征,并通过滑动窗口对PSSM特征进行格式转换;基于蛋白质的长度对训练集中的蛋白质进行分组,得到多个模型组;对于每个模型组,基于深度卷积网络构建与模型组对应的预测模型,并通过模型组对预测模型进行训练,得到训练后预测模型。系统包含输入模块、格式转换模块、分组模块和模型训练模块。
Description
技术领域
本发明涉及蛋白质预测分析领域,具体地说是一种基于蛋白质长度和DCNN的分类建模方法及系统。
背景技术
研究蛋白质的相关性能对于生物信息学来说意义十分重大,一般来说能够得到蛋白质的新发现也便得到了人类生命体的新发现。其中蛋白质的二级结构有助于发现三维立体结构并且能够提供蛋白质的功能注解,所以对于蛋白质二级结构的研究是一个值得深入的课题,蛋白质二级结构预测经过66年的发展,现在预测准确率已经超过80%。
对于信息技术相关专业而言,主要是对于预测的准确率进行探究和改进,也即要做的就是:能够通过现有的技术,设计预测机制,当给定任何一条新的蛋白质后都能较准确的预测出它的二级结构。
最初通过氨基酸序列去预测,准确率仅有60%,除了基于氨基酸本身特征之外,很多其他特征也被引入二级结构的预测中,如:基于非担保残余能量构建自相关方程、功能域、复杂性度量因子、位置特异性差分矩阵(Position Specific Scoring Matrix,PSSM)等。越来越多的新技术被引入到预测的过程中,如:支持向量机(Support Vector Machine,SVM)、深度学习、神经网络、隐马尔可夫模型、贝叶斯算法、K最近邻,模糊聚类等等,当然也有很多研究者采用多种算法相结合的方式,并且取得了较好的预测效果。
多项研究表明,致使蛋白质二级结构预测发展多年来一直停滞不前的主要原因是由于有些氨基酸残基在三级结构中距离很近,而在氨基酸序列中距离很远,因此很难去捕获这些残基之间的相互作用。
基于上述问题,如何结合深度学习对蛋白质二级结构进行预测分析,提高准确率,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供一种基于蛋白质长度和DCNN的分类建模方法及系统,来解决如何结合深度学习对蛋白质二级结构进行预测分析,提高准确率的问题。
第一方面,本发明提供一种基于蛋白质长度和DCNN(英文简称为LIM-DCNN)的分类建模方法,用于构建对蛋白质二级结构进行预测分析的预测模型,所述方法包括如下步骤:
获取多个大数据集作为训练集,每个数据集中包括多条蛋白质,提取数据集中PSI-Blast产生的PSSM特征,并通过滑动窗口对PSSM特征进行格式转换;
基于蛋白质的长度对训练集中的蛋白质进行分组,得到多个模型组;
对于每个模型组,基于深度卷积网络构建与模型组对应的预测模型,并通过模型组对预测模型进行训练,得到训练后预测模型。
在本实施方式中,获取多个数据集作为训练集,选取蛋白质的PSSM特征,并通过滑动窗口对PSSM特征进行格式转换;根据蛋白质的长度对蛋白质进行分组;根据深度卷积神经网络针对每组构建预测模型,得到每组对应的训练后预测模型。根据蛋白质长度构建了多种模态的预测模型,测试集根据蛋白质长度选择对应的预测模型,完成对于蛋白质二级结构的预测。
作为优选,通过取值为H的滑动窗口对PSSM特征进行格式转换后,训练集中每个氨基酸的特征为20*H的矩阵,每个蛋白质的特征为20*H*L的矩阵,L为蛋白质的长度。
作为优选,选取的数据集为蛋白质二级结构预测的经典数据集。
本实施方式中,选择经典数据集组成训练集,即训练集的选取基于大数据进行,确保了训练集内蛋白质的广度,以提高预测模型的精度。
作为优选,基于蛋白质的长度对训练集中的蛋白质进行分组,得到m个模型组,对应的计算公式为:
其中,P1(j)表示第j个数据集的特征,An,j表示第j个数据集中第n个蛋白质的特征,A(a,j)表示蛋白质长度a分段对应的特征,A(b,j)表示蛋白质b长度分段对应的特征,以此类推,A(m,j)表示蛋白质长度分段m对应的特征。
作为优选,基于深度卷积网络构建与模型组对应的预测模型,所述预测模型包括卷积层、隐含层和全连接层,卷积层和隐含层均至少两层,隐含层中配置有Relu激活函数,全连接层中配置有softmax函数。
作为优选,通过模型组对预测模型进行训练,包括如下步骤:
卷积计算:通过卷积层对氨基酸的特征进行卷积计算,得到卷积后氨基酸特征,卷积后氨基酸特征为h*w的矩阵,
其中,卷积层中卷积核大小为K=k*k的,补零参数为p,h为卷积后氨基酸长度,w为卷积后氨基酸宽度,
激活:卷积后氨基酸特征进入隐含层,通过Relu激活函数激活,得到激活后氨基酸特征;
重复执行上述卷积计算和激活步骤至少一次;
进入全连接层,通过softmax函数输出,得到分类结果。
作为优选,通过卷积层对氨基酸的特征进行卷积计算时,
在正向传播过程中,氨基酸特征中特征点Xe,f在第t层卷积层经过卷积计算后对应输出的特征点Ye,f,输出的特征点Ye,f的计算公式为:
其中,e表示特征点X(e,f)的行下标,f表示特征点X(e,f)的列下标,u表示卷积核的行下标,v表示卷积核的列下标,b表示偏置,表示激活函数,表示第t层的卷积核,s代表卷积核的长和宽大小(以卷积核长宽相同为例);
在反向传播过程中,通过损失函数对卷积核求偏导数,并通过损失函数对偏置求偏导数,并基于上述损失函数对卷积核的偏导数以及损失函数对偏置的偏导数,得到氨基酸特征中特征点X(e,f)在第t-1层卷积层进行卷积计算的误差;
损失函数对卷积核的偏导数的计算公式为:
损失函数对偏置的偏导数的计算公式为:
误差计算公式为:
其中,表示未激活的经过第t层卷积计算后的特征输出,表示第t层的误差,ψ表示损失函数,表示第t层的卷积的输入。
第二方面,本发明提供一种基于蛋白质长度和DCNN的分类建模系统,包括:
输入模块,所述输入模块用于获取多个数据集作为训练集,每个数据集中包括多条蛋白质;
格式转换模块,所述格式转换模块用于提取数据集中PSI-Blast产生的PSSM特征,并通过滑动窗口对PSSM特征进行格式转换;
分组模块,所述分组模块基于蛋白质的长度对训练集中的蛋白质进行分组,得到多个模型组;
模型训练模块,所述模型训练模块用于对于每个模型组,基于深度卷积网络构建与模型组对应的预测模型,并通过模型组对预测模型进行训练,得到训练后预测模型。
作为优选,预测模型包括卷积层、隐含层和全连接层,卷积层和隐含层均至少两层,隐含层中配置有Relu激活函数,全连接层中配置有Softmax函数。
作为优选,模型训练模块用于通过如下步骤基于深度卷积网络构建与模型组对应的预测模型:
卷积计算:通过卷积层对氨基酸的特征进行卷积计算,得到卷积后氨基酸特征,卷积后氨基酸特征为h*w的矩阵,
其中,卷积层中卷积核大小为K=k*k的,补零参数为p,h为卷积后氨基酸长度,w为卷积后氨基酸宽度,
激活:卷积后氨基酸特征进入隐含层,通过Relu激活函数激活,得到激活后氨基酸特征;
重复执行上述卷积计算和激活步骤至少一次;
进入全连接层,通过softmax函数输出,得到分类结果;
通过卷积层对氨基酸的特征进行卷积计算时,
在正向传播过程中,氨基酸特征中特征点X(e,f)在第t层卷积层经过卷积计算后对应输出的特征点输出的特征点的计算公式为:
其中,e表示特征点X(e,f)的行下标,f表示特征点X(e,f)的列下标,u表示卷积核的行下标,v表示卷积核的列下标,b表示偏置,表示激活函数,表示第t层的卷积核,s代表卷积核的长和宽大小(以卷积核长宽相同为例);
在反向传播过程中,通过损失函数对卷积核求偏导数,并通过损失函数对偏置求偏导数,并基于上述损失函数对卷积核的偏导数以及损失函数对偏置的偏导数,得到氨基酸特征中特征点X(e,f)在第t-1层卷积层进行卷积计算的误差;
损失函数对卷积核的偏导数的计算公式为:
损失函数对偏置的偏导数的计算公式为:
误差计算公式为:
其中,表示未激活的经过第t层卷积计算后的特征输出,表示第t层的误差,ψ表示损失函数,表示第t层的卷积的输入,代表求导数。
本发明的基于蛋白质长度和DCNN的分类建模方法及系统具有以下优点:
1、构建预测模型时,训练集的选取是基于大数据为集基础的,相对于现有的其他训练集获取方式,训练数据多,从而提高了构建的训练模型的精度;
2、基于蛋白质的长度对蛋白质分组,并结合神经卷积神经网络针对每组构建预测模型,进一步提高了训练模型的精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
附图1为实施例1基于蛋白质长度和DCNN的分类建模方法中预测模型的训练流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施以及实施例中的技术特征可以相互结合。
需要理解的是,在本发明实施例中的“多个”,是指两个或两个以上。
本发明实施提供基于蛋白质长度和DCNN的分类建模方法及系统,用于解决如何结合深度学习对蛋白质二级结构进行预测分析,提高准确率的技术问题。
实施例1:
本发明的基于蛋白质长度和DCNN的分类建模方法,包括如下步骤:
第一步:获取多个数据集作为训练集,每个数据集中包括多条蛋白质,提取数据集中PSI-Blast产生的PSSM特征,并通过设置不同的滑动窗口对PSSM特征进行格式转换;
第二步:基于蛋白质的长度对训练集中的蛋白质进行分组,得到多个模型组;
第三步:对于每个模型组,基于深度卷积网络构建与模型组对应的预测模型,并通过模型组对预测模型进行训练,得到训练后预测模型。
其中,第一步中选取的数据集为蛋白质二级结构预测的经典数据集,本实施例中将Astrall和CullPDB数据合成蛋白质条数为15666的数据集AstraCull,作为训练集,剩余的数据均作为测试数据。包括68条Casp9数据,51条Casp10数据,36条Casp11数据,9条Casp12数据,504条CB513和1329条25PDB数据。具体如表1所示。
表1:蛋白质训练和测试数据集表
提取上述数据集中PSI-Blast产生的20位PSSM特征,通过值为13的滑动窗口对PSSM特征进行格式转换后,训练集中每个氨基酸的特征为20*13的矩阵,每个蛋白质的特征为20*13*L的矩阵,L为蛋白质的长度。
在第二步中根据蛋白质的长度将训练集中所有蛋白质划分为多个模型组,对应的计算公式为:
其中,P1(j)表示第j个数据集的特征,An,j表示第j个数据集中第n个蛋白质的特征,A(a,j)表示蛋白质长度a分段对应的特征,A(b,j)表示蛋白质b长度分段对应的特征,以此类推,A(m,j)表示蛋白质m长度分段对应的特征。
如附图1所示,本实施例中根据蛋白质的长度将训练集中所有蛋白质划分为四个模型组,分别为:
其中,A(a,j)表示蛋白质长度a分段对应的特征,A(b,j)表示蛋白质b长度分段对应的特征,A(c,j)表示蛋白质长度c分段对应的特征,A(d,j)表示蛋白质长度d分段对应的特征。
本实施例中四个模型组分别称为Big1、Big2、Big3和Big4,Big1中蛋白质长度在0~150、共有5165条蛋白质,Big2中蛋白质长度在150~250、共有4271条蛋白质,Big3中蛋白质长度在250~350、共有2981条蛋白质,Big3中蛋白质长度在350以上、共有3249条蛋白质。四个模型组如表2所示。
表2:实验建模数据分组表
在步骤三中,对于上述四个模型组,基于深度卷积网络构建与模型组对应的预测模型,四个模型分别为M、M2、M3和M4。上述四个预测模型均包括卷积层、隐含层和全连接层,隐含层中配置有Relu激活函数,全连接层中配置有softmax函数。本实施例中,卷积层和激活层均各两层。
将每个模型组分别输入对应的预测模型,对预测模型进行训练,得到训练后的预测模型。
其中对于每个预测模型的训练,包括如下步骤:
(1)卷积计算:通过卷积层对氨基酸的特征进行卷积计算,得到卷积后氨基酸特征,卷积后氨基酸特征为h*w的矩阵,
其中,滑动窗口设置为13,卷积层中卷积核大小为K=k*k的,补零参数为p,h为卷积后氨基酸长度,w为卷积后氨基酸宽度,
(2)激活:卷积后氨基酸特征进入隐含层,通过Relu激活函数激活,得到激活后氨基酸特征;
(3)重复执行上述卷积计算和激活步骤一次;
(4)进入全连接层,通过softmax函数输出,得到分类结果。
在步骤(1)以及步骤(3)中,通过卷积层对氨基酸的特征进行卷积计算时,包括如下情况:
情况一、在正向传播过程中,氨基酸特征中特征点Xe,f在第t层卷积层经过卷积计算后对应输出的特征点Ye,f,输出的特征点Ye,f的计算公式为:
其中,e表示特征点X(e,f)的行下标,f表示特征点X(e,f)的列下标,u表示卷积核的行下标,v表示卷积核的列下标,b表示偏置,表示激活函数,表示第t层的卷积核,s代表卷积核的长和宽大小(以卷积核长宽相同为例);
情况二、在反向传播过程中,通过损失函数对卷积核求偏导数,并通过损失函数对偏置求偏导数,并基于上述损失函数对卷积核的偏导数以及损失函数对偏置的偏导数,得到氨基酸特征中特征点X(e,f)在第t-1层卷积层进行卷积计算的误差;
损失函数对卷积核的偏导数的计算公式为:
损失函数对偏置的偏导数的计算公式为:
误差计算公式为:
其中,表示未激活的经过第t层卷积计算后的特征输出,表示第t层的误差,ψ表示损失函数,表示第t层的卷积的输入,代表求导数。
本发明构建的预测模型用于对蛋白质二级结构进行预测分析。
根据测试集中蛋白质的长度选择合适的训练后预测模型,通过对应的训练后预测模型对测试集进行预测分析,以预测蛋白质的二级结构。本发明构建的预测模型为蛋白质三维结构提供了功能注解,对研究人体内蛋白复合物以及医学疾病的防治有很大的帮助。
实施例2:
本发明的基于蛋白质长度和DCNN的分类建模系统,包括输入模块、格式转换模块、分组模块和模型训练模块。
其中输入模块用于获取多个数据集作为训练集,每个数据集中包括多条蛋白质。选取的数据集为蛋白质二级结构预测的经典数据集,本实施例中将Astrall和CullPDB数据合成蛋白质条数为15666的数据集AstraCull。
格式转换模块用于提取数据集中PSI-Blast产生的PSSM特征,并通过滑动窗口对PSSM特征进行格式转换。在格式转换模块中,提取上述数据集中PSI-Blast产生的20位PSSM特征,通过值为13的滑动窗口对PSSM特征进行格式转换后,训练集中每个氨基酸的特征为20*13的矩阵,每个蛋白质的特征为20*13*L的矩阵,L为蛋白质的长度。
分组模块基于蛋白质的长度对训练集中的蛋白质进行分组,得到m个模型组,对应的计算公式为:
其中,P1(j)表示第j个数据集的特征,An,j表示第j个数据集中第n个蛋白质的特征,A(a,j)表示蛋白质长度a分段对应的特征,A(b,j)表示蛋白质b长度分段对应的特征,以此类推,A(m,j)表示蛋白质m长度分段对应的特征。
本实施例中根据蛋白质的长度将训练集中所有蛋白质划分为四个模型组,分别为:
其中,A(a,j)表示蛋白质长度a分段对应的特征,A(b,j)表示蛋白质b长度分段对应的特征,A(c,j)表示蛋白质长度c分段对应的特征,A(d,j)表示蛋白质长度d分段对应的特征。
本实施例中四个模型组数据分别称为Big1、Big2、Big3和Big4,Big1中蛋白质长度在0~150、共有5165条蛋白质,Big2中蛋白质长度在150~250、共有4271条蛋白质,Big3中蛋白质长度在250~350、共有2981条蛋白质,Big3中蛋白质长度在350以上、共有3249条蛋白质。
模型训练模块用于对于每个模型组,基于深度卷积网络构建与模型组对应的预测模型,并通过模型组对预测模型进行训练,得到训练后预测模型。
模型训练模块用于通过如下步骤基于深度卷积网络构建与模型组对应的预测模型:
(1)卷积计算:通过卷积层对氨基酸的特征进行卷积计算,得到卷积后氨基酸特征,卷积后氨基酸特征为h*w的矩阵,
其中,将滑动窗口设置为13,卷积层中卷积核大小为K=k*k的,补零参数为p,h为卷积后氨基酸长度,w为卷积后氨基酸宽度,那么
(2)激活:卷积后氨基酸特征进入隐含层,通过Relu激活函数激活,得到激活后氨基酸特征;
(3)重复执行上述卷积计算和激活步骤一次;
(4)进入全连接层,通过softmax函数输出,得到分类结果。
上述步骤中通过卷积层对氨基酸的特征进行卷积计算时,遵循如下情况:
在正向传播过程中,氨基酸特征中特征点Xe,f在第t层卷积层经过卷积计算后对应输出的特征点Ye,f,输出的特征点Ye,f的计算公式为:
其中,e表示特征点X(e,f)的行下标,f表示特征点X(e,f)的列下标,u表示卷积核的行下标,v表示卷积核的列下标,b表示偏置,表示激活函数,表示第t层的卷积核,s代表卷积核的长和宽大小(以卷积核长宽相同为例);
在反向传播过程中,通过损失函数对卷积核求偏导数,并通过损失函数对偏置求偏导数,并基于上述损失函数对卷积核的偏导数以及损失函数对偏置的偏导数,得到氨基酸特征中特征点X(e,f)在第t-1层卷积层进行卷积计算的误差;
损失函数对卷积核的偏导数的计算公式为:
损失函数对偏置的偏导数的计算公式为:
误差计算公式为:
其中,表示未激活的经过第t层卷积计算后的特征输出,表示第t层的误差,ψ表示损失函数,表示第t层的卷积的输入,代表求导数。
本实施例的基于蛋白质长度和LIM-CNN的分类建模系统可执行实施例1公开的基于长度和深度卷积神经网络的构件预测模型的方法。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (10)
1.基于蛋白质长度和DCNN的分类建模方法,其特征在于用于构建对蛋白质二级结构进行预测分析的预测模型,所述方法包括如下步骤:
获取多个数据集作为训练集,每个数据集中包括多条蛋白质,提取数据集中PSI-Blast产生的PSSM特征,并通过滑动窗口对PSSM特征进行格式转换;
基于蛋白质的长度对训练集中的蛋白质进行分组,得到多个模型组;
对于每个模型组,基于深度卷积网络构建与模型组对应的预测模型,并通过模型组对预测模型进行训练,得到训练后预测模型。
2.根据权利要求1所述的基于蛋白质长度和DCNN的分类建模方法,其特征在于通过取值为H的滑动窗口对PSSM特征进行格式转换后,训练集中每个氨基酸的特征为20*H的矩阵,每个蛋白质的特征为20*H*L的矩阵,L为蛋白质的长度。
3.根据权利要求1所述的基于蛋白质长度和DCNN的分类建模方法,其特征在于选取的数据集为蛋白质二级结构预测的经典数据集。
4.根据权利要求1所述的基于蛋白质长度和DCNN的分类建模方法,其特征在于基于蛋白质的长度对训练集中的蛋白质进行分组,得到m个模型组,对应的计算公式为:
其中,P1(j)表示第j个数据集的特征,An,j表示第j个数据集中第n个蛋白质的特征,A(a,j)表示蛋白质长度a分段对应的特征,A(b,j)表示蛋白质b长度分段对应的特征,以此类推,A(m,j)表示蛋白质m长度分段对应的特征。
5.根据权利要求1所述的基于蛋白质长度和DCNN的分类建模方法,其特征在于基于深度卷积网络构建与模型组对应的预测模型,所述预测模型包括卷积层、隐含层和全连接层,卷积层和隐含层均至少两层,隐含层中配置有Relu激活函数,全连接层中配置有softmax函数。
6.根据权利要求5所述的基于蛋白质长度和DCNN的分类建模方法,其特征在于通过模型组对预测模型进行训练,包括如下步骤:
卷积计算:通过卷积层对氨基酸的特征进行卷积计算,得到卷积后氨基酸特征为h*w的矩阵。
其中,卷积层中卷积核大小为K=k*k的,补零参数为p,h为卷积后特征氨基酸长度,w为卷积后氨基酸特征宽度,激活:卷积后氨基酸特征进入隐含层,通过Relu激活函数激活,得到激活后氨基酸特征;
重复执行上述卷积计算和激活步骤至少一次;
最后进入全连接层,通过softmax函数输出,得到分类结果。
7.根据权利要求6所述的基于蛋白质长度和DCNN的分类建模方法,其特征在于通过卷积层对氨基酸的特征进行卷积计算时,
在正向传播过程中,氨基酸特征点X(e,f)在第t层卷积层经过卷积计算后对应输出的特征点输出的特征点的计算公式为:
其中,e表示特征点X(e,f)的行下标,f表示特征点X(e,f)的列下标,u表示卷积核的行下标,v表示卷积核的列下标,b表示偏置,表示激活函数,表示第t层的卷积核;
在反向传播过程中,通过损失函数对卷积核求偏导数和损失函数对偏置求偏导数,并基于以上两者,得到氨基酸特征点X(e,f)在第t-1层卷积层进行卷积计算的误差
损失函数对卷积核的偏导数的计算公式为:
损失函数对偏置的偏导数的计算公式为:
误差计算公式为:
其中,表示未激活的经过第t层卷积计算后的特征输出,表示第t层的误差,ψ表示损失函数,表示第t层的卷积的输入。
8.基于蛋白质长度和DCNN的分类建模系统,其特征在于包括:
输入模块,所述输入模块用于获取多个数据集作为训练集,每个数据集中包括多条蛋白质;
格式转换模块,所述格式转换模块用于提取数据集中PSI-Blast产生的PSSM特征,并通过滑动窗口对PSSM特征进行格式转换;
分组模块,所述分组模块基于蛋白质的长度对训练集中的蛋白质进行分组,得到多个模型组;
模型训练模块,所述模型训练模块用于对于每个模型组,基于深度卷积网络构建与模型组对应的预测模型,并通过模型组对预测模型进行训练,得到训练后预测模型。
9.根据权利要求8所述的基于蛋白质长度和DCNN的分类建模系统,其特征在于预测模型包括卷积层、隐含层和全连接层,卷积层和隐含层均至少两层,隐含层中配置有Relu激活函数,全连接层中配置有Softmax函数。
10.根据权利要求9所述的基于蛋白质长度和DCNN的分类建模系统,其特征在于模型训练模块用于通过如下步骤基于深度卷积网络构建与模型组对应的预测模型:
卷积计算:通过卷积层对氨基酸的特征进行卷积计算,得到卷积后氨基酸特征,卷积后氨基酸特征为h*w的矩阵,
其中,卷积层中卷积核大小为K=k*k的,补零参数为p,h为卷积后氨基酸长度,w为卷积后氨基酸宽度,H为滑动窗口的大小,那么
激活:卷积后氨基酸特征进入隐含层,通过Relu激活函数激活,得到激活后氨基酸特征;
重复执行上述卷积计算和激活步骤至少一次;
进入全连接层,通过softmax函数输出,得到分类结果;
通过卷积层对氨基酸的特征进行卷积计算时,
在正向传播过程中,氨基酸特征点X(e,f)在第t层卷积层经过卷积计算后对应输出的特征点输出的特征点的计算公式为:
其中,e表示特征点X(e,f)的行下标,f表示特征点X(e,f)的列下标,u表示卷积核的行下标,v表示卷积核的列下标,b表示偏置,表示激活函数,表示第t层的卷积核;
在反向传播过程中,通过损失函数对卷积核求偏导数和损失函数对偏置求偏导数,并基于上述两者,得到氨基酸特征点X(e,f)在第t-1层卷积层进行卷积计算的误差;
损失函数对卷积核的偏导数的计算公式为:
损失函数对偏置的偏导数的计算公式为:
误差计算公式为:
其中,表示未激活的经过第t层卷积计算后的特征输出,表示第t层的误差,ψ表示损失函数,表示第t层的卷积的输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910603794.3A CN110310698A (zh) | 2019-07-05 | 2019-07-05 | 基于蛋白质长度和dcnn的分类建模方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910603794.3A CN110310698A (zh) | 2019-07-05 | 2019-07-05 | 基于蛋白质长度和dcnn的分类建模方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110310698A true CN110310698A (zh) | 2019-10-08 |
Family
ID=68079124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910603794.3A Pending CN110310698A (zh) | 2019-07-05 | 2019-07-05 | 基于蛋白质长度和dcnn的分类建模方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110310698A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210869A (zh) * | 2020-01-08 | 2020-05-29 | 中山大学 | 一种蛋白质冷冻电镜结构解析模型训练方法和解析方法 |
CN112085247A (zh) * | 2020-07-22 | 2020-12-15 | 浙江工业大学 | 一种基于深度学习的蛋白质残基接触预测方法 |
CN112562784A (zh) * | 2020-12-14 | 2021-03-26 | 中山大学 | 一种结合多任务学习和自注意力机制的蛋白质功能预测方法 |
CN113611354A (zh) * | 2021-07-05 | 2021-11-05 | 河南大学 | 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 |
CN113851192A (zh) * | 2021-09-15 | 2021-12-28 | 安庆师范大学 | 氨基酸一维属性预测模型训练方法、装置及属性预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740646A (zh) * | 2016-01-13 | 2016-07-06 | 湖南工业大学 | 一种基于bp神经网络的蛋白质二级结构预测方法 |
CN106951736A (zh) * | 2017-03-14 | 2017-07-14 | 齐鲁工业大学 | 一种基于多重进化矩阵的蛋白质二级结构预测方法 |
CN109817276A (zh) * | 2019-01-29 | 2019-05-28 | 鲁东大学 | 一种基于深度神经网络的蛋白质二级结构预测方法 |
-
2019
- 2019-07-05 CN CN201910603794.3A patent/CN110310698A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740646A (zh) * | 2016-01-13 | 2016-07-06 | 湖南工业大学 | 一种基于bp神经网络的蛋白质二级结构预测方法 |
CN106951736A (zh) * | 2017-03-14 | 2017-07-14 | 齐鲁工业大学 | 一种基于多重进化矩阵的蛋白质二级结构预测方法 |
CN109817276A (zh) * | 2019-01-29 | 2019-05-28 | 鲁东大学 | 一种基于深度神经网络的蛋白质二级结构预测方法 |
Non-Patent Citations (2)
Title |
---|
张蕾等: "基于深度学习的八类蛋白质二级结构预测算法", 《计算机应用》 * |
罗富贵等: "基于卷积核分解的深度CNN 模型结构优化及其在小图像识别中的应用", 《井冈山大学学报 自然科学版》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210869A (zh) * | 2020-01-08 | 2020-05-29 | 中山大学 | 一种蛋白质冷冻电镜结构解析模型训练方法和解析方法 |
CN111210869B (zh) * | 2020-01-08 | 2023-06-20 | 中山大学 | 一种蛋白质冷冻电镜结构解析模型训练方法和解析方法 |
CN112085247A (zh) * | 2020-07-22 | 2020-12-15 | 浙江工业大学 | 一种基于深度学习的蛋白质残基接触预测方法 |
CN112562784A (zh) * | 2020-12-14 | 2021-03-26 | 中山大学 | 一种结合多任务学习和自注意力机制的蛋白质功能预测方法 |
CN112562784B (zh) * | 2020-12-14 | 2023-08-15 | 中山大学 | 一种结合多任务学习和自注意力机制的蛋白质功能预测方法 |
CN113611354A (zh) * | 2021-07-05 | 2021-11-05 | 河南大学 | 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 |
CN113611354B (zh) * | 2021-07-05 | 2023-06-02 | 河南大学 | 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 |
CN113851192A (zh) * | 2021-09-15 | 2021-12-28 | 安庆师范大学 | 氨基酸一维属性预测模型训练方法、装置及属性预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110310698A (zh) | 基于蛋白质长度和dcnn的分类建模方法及系统 | |
Nosofsky | Exemplar-based approach to relating categorization, identification, and recognition | |
Das et al. | Automatic clustering using an improved differential evolution algorithm | |
CN108520275A (zh) | 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法 | |
Maulik et al. | Integrating clustering and supervised learning for categorical data analysis | |
CN109493346A (zh) | 一种基于多损失的胃癌病理切片图像分割方法和装置 | |
CN106021990B (zh) | 一种将生物基因以特定的性状进行分类与自我识别的方法 | |
CN104933428B (zh) | 一种基于张量描述的人脸识别方法及装置 | |
CN106537422A (zh) | 用于捕获信息内的关系的系统和方法 | |
Kwan et al. | Assessing activity pattern similarity with multidimensional sequence alignment based on a multiobjective optimization evolutionary algorithm | |
CN106295694A (zh) | 一种迭代重约束组稀疏表示分类的人脸识别方法 | |
Castellani et al. | Place and health as complex systems: A case study and empirical test | |
CN110991532A (zh) | 基于关系视觉注意机制的场景图产生方法 | |
CN106991355A (zh) | 基于拓扑保持的解析型字典学习模型的人脸识别方法 | |
CN112489769A (zh) | 基于深度神经网络的慢性病智慧中医诊断与药物推荐系统 | |
CN108154924A (zh) | 基于支持向量机的阿尔茨海默症特征分类方法及系统 | |
CN112883756A (zh) | 年龄变换人脸图像的生成方法及生成对抗网络模型 | |
CN110349170A (zh) | 一种全连接crf级联fcn和k均值脑肿瘤分割算法 | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
CN110070914A (zh) | 一种基因序列识别方法、系统和计算机可读存储介质 | |
CN112101574A (zh) | 一种机器学习有监督模型解释方法、系统及设备 | |
Alymani et al. | Graph machine learning classification using architectural 3D topological models | |
Bartolucci et al. | Discrete latent variable models | |
CN115526246A (zh) | 一种基于深度学习模型的自监督分子分类方法 | |
Kumar et al. | Prediction of Protein–Protein Interaction as Carcinogenic Using Deep Learning Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20231215 |