CN114496068A - 蛋白质二级结构预测方法、装置、设备及存储介质 - Google Patents

蛋白质二级结构预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114496068A
CN114496068A CN202210099251.4A CN202210099251A CN114496068A CN 114496068 A CN114496068 A CN 114496068A CN 202210099251 A CN202210099251 A CN 202210099251A CN 114496068 A CN114496068 A CN 114496068A
Authority
CN
China
Prior art keywords
prediction
protein
layer
classifier
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210099251.4A
Other languages
English (en)
Inventor
梁珩琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202210099251.4A priority Critical patent/CN114496068A/zh
Publication of CN114496068A publication Critical patent/CN114496068A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请提供一种蛋白质二级结构预测方法、装置、设备及存储介质,首先按照蛋白质序列长度将原始数据集划分为固定区间长度的多个数据子集,原始数据集包括多个序列长度在预设范围内的蛋白质一级结构,然后对每个数据子集进行编码处理对应得到各特征向量,将各特征向量确定为多个训练样本和多个预测样本,再根据多个训练样本、多个预测样本以及目标Stacking模型确定蛋白质二级结构的预测结果。克服蛋白质在不同长度区间内分布不均衡的问题以提高预测准确率。预测所用的目标Stacking模型包括多层同质或者异质Stacking模型,与深度学习相比可以大幅度提升机器学习效果,通过整合多个简单机器学习模型达到适中的学习时长。

Description

蛋白质二级结构预测方法、装置、设备及存储介质
技术领域
本申请涉及计算机应用技术领域,尤其涉及一种蛋白质二级结构预测方法、装置、设备及存储介质。
背景技术
随着测序技术的发展和相关研究的进行,指数级别增长的蛋白质一级结构序列(即组成蛋白质的氨基酸序列)已被测定,并存储在不同的大型生物数据库中。但在缺少蛋白质同源结构信息的情况下,很难用这些已知的一级结构序列来预测蛋白质三级结构。
但是,蛋白质二级结构可用于描述蛋白质的局部空间结构,其可以作为连接一级结构和三级结构的中介,有助于蛋白质三级结构的预测。因此,对于蛋白质二级结构的预测也是生物信息学中备受关注的研究方向。
如今,使用计算机技术利用一级结构序列预测蛋白质二级结构的技术手段被广泛使用,例如,采用深度学习等技术实现利用蛋白质的一级结构预测其二级结构。然而,现有手段仍然存在预测准确率不高以及机器学习时间较长等问题。可见,针对蛋白质二级结构的预测亟需一种解决方案以克服现有技术存在的缺陷。
发明内容
本申请提供一种蛋白质二级结构预测方法、装置、设备及存储介质,用于提供一种预测准确率高以及机器学习时长较适中的蛋白质二级结构预测方法。
第一方面,本申请提供一种蛋白质二级结构预测方法,包括:
按照蛋白质序列长度将原始数据集划分为固定区间长度的多个数据子集,所述原始数据集包括多个序列长度在预设范围内的蛋白质一级结构;
对每个数据子集进行编码处理对应得到各特征向量,将所述各特征向量确定为多个训练样本和多个预测样本;
根据所述多个训练样本、所述多个预测样本以及目标Stacking模型确定蛋白质二级结构的预测结果,所述目标Stacking模型包括多层同质或者异质Stacking模型。
在一种可能的设计中,所述对每个数据子集进行编码处理对应得到各特征向量,包括:
采用预设编码工具对所述每个数据子集进行编码,生成PSSM文件,所述PSSM文件包括所述各特征向量,所述预设编码工具的参数包括预设迭代次数、预设误差阈值以及预设滑动窗口长度。
在一种可能的设计中,所述将所述各特征向量确定为多个训练样本和多个预测样本,包括:
按照预设比例将数据集样本划分为所述多个训练样本和所述多个预测样本,所述数据集样本包括所述各特征向量。
在一种可能的设计中,所述根据所述多个训练样本、所述多个预测样本以及目标Stacking模型确定蛋白质二级结构的预测结果,包括:
每个预测样本作为第一层分类器的输入得到对应输出;
将所述第一层分类器的输出进行拼接,以将拼接结果作为下一层分类器的输入,重复上述步骤,直到得到最后一层分类器的输出;
将所述最后一层分类器的输出确定为所述蛋白质二级结构的预测结果;
其中,各层分类器由每个训练样本训练得到的,所述最后一层分类器包括单一支持向量机,除所述最后一层分类器之外的其他层分类器包括同质或异质的多个神经网络,所述多层同质或者异质Stacking模型为所述各层分类器构成的Stacking模型。
在一种可能的设计中,由所述每个训练样本训练所述各层分类器,包括:
将每个训练样本采用K折交叉验证法划分为K个子训练样本和K个子预测样本;
使用所述K个子训练样本对所述第一层分类器训练K次,并采用训练后的所述第一层分类器对所述K个子预测样本进行预测,得到对应的第一子预测结果;
使用并列后的各第一子预测结果对所述下一层分类器进行训练,并采用训练后的所述下一层分类器对所述K个子预测样本进行预测,得到对应的下一子预测结果;
使用并列后的各下一子预测结果重复上述步骤,直到对所述最后一层分类器完成训练。
在一种可能的设计中,所述多个神经网络包括卷积神经网络CNN、长短时忆网络LSTM、神经网络BP以及双向循环神经网络Bi-LSTM中的一种或几种。
在一种可能的设计中,所述CNN包括多个卷积核大小为3的卷积层和一个池化层。
第二方面,本申请提供一种蛋白质二级结构预测装置,包括:
第一处理模块,用于按照蛋白质序列长度将原始数据集划分为固定区间长度的多个数据子集,所述原始数据集包括多个序列长度在预设范围内的蛋白质一级结构;
第二处理模块,用于对每个数据子集进行编码处理对应得到各特征向量,将所述各特征向量确定为多个训练样本和多个预测样本;
第三处理模块,用于根据所述多个训练样本、所述多个预测样本以及目标Stacking模型确定蛋白质二级结构的预测结果,所述目标Stacking模型包括多层同质或者异质Stacking模型。
在一种可能的设计中,所述第二处理模块,具体用于:
采用预设编码工具对所述每个数据子集进行编码,生成PSSM文件,所述PSSM文件包括所述各特征向量,所述预设编码工具的参数包括预设迭代次数、预设误差阈值以及预设滑动窗口长度。
在一种可能的设计中,所述第二处理模块,还具体用于:
按照预设比例将数据集样本划分为所述多个训练样本和所述多个预测样本,所述数据集样本包括所述各特征向量。
在一种可能的设计中,所述第三处理模块,具体用于:
每个预测样本作为第一层分类器的输入得到对应输出;
将所述第一层分类器的输出进行拼接,以将拼接结果作为下一层分类器的输入,重复上述步骤,直到得到最后一层分类器的输出;
将所述最后一层分类器的输出确定为所述蛋白质二级结构的预测结果;
其中,各层分类器由每个训练样本训练得到的,所述最后一层分类器包括单一支持向量机,除所述最后一层分类器之外的其他层分类器包括同质或异质的多个神经网络,所述多层同质或者异质Stacking模型为所述各层分类器构成的Stacking模型。
在一种可能的设计中,所述第三处理模块,还具体用于:
将每个训练样本采用K折交叉验证法划分为K个子训练样本和K个子预测样本;
使用所述K个子训练样本对所述第一层分类器训练K次,并采用训练后的所述第一层分类器对所述K个子预测样本进行预测,得到对应的第一子预测结果;
使用并列后的各第一子预测结果对所述下一层分类器进行训练,并采用训练后的所述下一层分类器对所述K个子预测样本进行预测,得到对应的下一子预测结果;
使用并列后的各下一子预测结果重复上述步骤,直到对所述最后一层分类器完成训练。
在一种可能的设计中,所述多个神经网络包括卷积神经网络CNN、长短时忆网络LSTM、神经网络BP以及双向循环神经网络Bi-LSTM中的一种或几种。
在一种可能的设计中,所述CNN包括多个卷积核大小为3的卷积层和一个池化层。
第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现第一方面所提供的任意一种可能的蛋白质二级结构预测方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所提供的任意一种可能的蛋白质二级结构预测方法。
第五方面,本申请还提供一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现第一方面所提供的任意一种可能的蛋白质二级结构预测方法。
本申请提供一种蛋白质二级结构预测方法、装置、设备及存储介质,首先按照蛋白质序列长度将原始数据集划分为固定区间长度的多个数据子集,原始数据集包括多个序列长度在预设范围内的蛋白质一级结构,然后对每个数据子集进行编码处理对应得到各特征向量,将各特征向量确定为多个训练样本和多个预测样本,再根据多个训练样本、多个预测样本以及目标Stacking模型确定蛋白质二级结构的预测结果,目标Stacking模型包括多层同质或者异质Stacking模型。对原始数据集进行划分得到数据子集进行训练以预测,可以克服蛋白质在不同长度区间内分布不均衡的问题以提高预测准确率。而预测所用的目标Stacking模型包括多层同质或者异质Stacking模型,多层的Stacking与深度学习相比可以大幅度提升机器学习效果,通过整合多个简单机器学习模型达到适中的学习时长。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的一种蛋白质二级结构预测方法的流程示意图;
图3为本申请实施例提供的另一种蛋白质二级结构预测方法的流程示意图;
图4为本申请实施例提供的一种三层分类器的架构示意图;
图5为本申请实施例提供的再一种蛋白质二级结构预测方法的流程示意图;
图6为本申请实施例提供的一种蛋白质结构预测装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
蛋白质二级结构可用于描述蛋白质的局部空间结构,其可以作为连接一级结构和三级结构的中介,有助于蛋白质三级结构的预测。因此,对于蛋白质二级结构的预测也是生物信息学中备受关注的研究方向。如今,使用计算机技术利用一级结构序列预测蛋白质二级结构的技术手段被广泛使用,例如,采用深度学习等技术实现利用蛋白质的一级结构预测其二级结构。然而,现有手段仍然存在预测准确率不高以及机器学习时间较长等问题。
针对现有技术存在的上述问题,本申请提供一种蛋白质二级结构预测方法、装置、设备及存储介质。本申请提供的蛋白质二级结构预测方法的发明构思在于:基于Stacking集成方法可以利用模型的独立性并行地训练多个初级分类器,并将输出当作次级分类器的输入,次级分类器的输出作为整体分类器的输出的特定,采用多层同质或者异质Stacking模型构建目标Stacking模型,以利用目标Stacking模型实现预测过程,与深度学习相比可以大幅度提升机器学习效果,并通过整合多个简单机器学习模型可以获得适中的学习时长。另外,针对蛋白质在不同长度区间内分布不均衡会影响蛋白质的局部和远程相互作用进而影响预测准确率的问题,本申请将原始数据集划分为多个固定区间长度的数据子集,克服分布不均衡带来的影响,进而利用各数据子集进行预测可以保证最佳的预测准确率。
以下,对本申请实施例的示例性应用场景进行介绍。
图1为本申请实施例提供的一种应用场景示意图,如图1所示,蛋白质是地球上所有生物进行生命活动不可或缺的化合物之一,研究蛋白质的序列结构、空间折叠方式对了解其生物功能有着非同寻常的意义。电子设备100被配置为可以执行本申请实施例提供的蛋白质二级结构预测方法,例如从存储有蛋白质一级结构的数据集200中获得原始数据集,数据集例如CullPDB数据集等,原始数据集中的蛋白质序列为一级结构,将原始数据作为本申请实施例提供的蛋白质二级结构预测方法的输入进行二级结构预测。
电子设备100可以为计算机、智能终端、服务器、服务器集群等任意设备,本申请实施例对于电子设备100的具体类型不作限定,图1中的电子设备100以计算机为例示出。
需要说明的是,上述应用场景仅仅是示意性的,本申请实施例提供的蛋白质二级结构预测方法、装置、设备及存储介质包括但不仅限于上述应用场景。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的一种蛋白质二级结构预测方法的流程示意图。如图2所示,本申请实施例提供的蛋白质二级结构预测方法,包括:
S101:按照蛋白质序列长度将原始数据集划分为固定区间长度的多个数据子集。
其中,原始数据集包括多个序列长度在预设范围内的蛋白质一级结构。
按照蛋白质序列长度将完整的原始数据集划分为固定区间长度的多个数据子集,例如按照蛋白质序列长度将原始数据集切分为8个数据子集,每个数据子集的长度分别是(0,100)、(101,200)、(201,300)、(301,400)、(401,500)、(601,700)和(701,∞)。
由于蛋白质在不同长度区间内分布不均衡,如在CullPDB数据集中(100,200)区间内的蛋白质有2925个,但在(700,800)范围内的只有61个。故而原始数据集取自数据集的部分长度区间,即原始数据集包括多个序列长度在预设范围内的蛋白质一级结构,预设范围用于限定部分长度区间。例如,原始数据集可以是从CullPDB数据集中选出45515个序列长度在0至100范围内的蛋白质一级结构。例如对于较短的蛋白质序列采用本申请实施例提供的原始数据集划分的实现方式对于预测结果具有良好的提升作用。
需要理解的是,原始数据集的规模即所选择的一级结构蛋白质的数量本申请实施例不作限定,只要保证其数据量满足充足的训练需求即可。
S102:对每个数据子集进行编码处理对应得到各特征向量,将各特征向量确定为多个训练样本和多个预测样本。
对每个数据子集进行编码处理,以将蛋白质一级结构转变为可以计算的数值,转变后的数值形成特征向量。
编码方式的实现手段可以例如21位正交编码(独热编码)、profile-HMM编码、Word2vec编码以及PSSM(position-specific scoring matrices,位置特异得分矩阵)编码等。
PSSM编码用于表示一组同源序列的多序列比对中隐藏的模式。PSSM编码的基本思想是将数据库中的查询序列与目标序列进行匹配,从而使保守位置的权重高于可变位置的权重。转化后得到的特征向量以矩阵表示,矩阵是通过计算在比对序列中的不同位置的每种氨基酸的概率分数形成的。
可选地,PMMS编码可以采用相应的编码工具得以实现。例如,采用预设编码工具对每个数据子集进行编码,生成PSSM文件,生成的该PSSM文件则包括编码处理转化后得到的各特征向量。
预设编码工具可以例如Blast(basic local alignment search tool)工具、PSI-Blast(position-specific iterated blast)工具。其中,PSI-Blast工具相较于Blast工具具有更高灵敏度和更好特异性,可以发现一些相对距离较远但具有生物学信息的相似序列。
预设编码工具以PSI-Blast工具为例,通过运行PSI-Blast工具实现对每个数据子集进行编码,运行PSI-Blast工具时的参数可以包括设置预设迭代次数、预设误差阈值以及预设滑动窗口长度,例如预设迭代次数可以为3,预设误差阈值可以为0.001,预设滑动窗口长度可以为范围[13,17]等。另外,进行编码处理时使用的数据库可以例如蛋白质nr数据库(非冗余数据库)。
表1为一种PSSM编码示例,每一行代表一个氨基酸的编码,左侧方框内是氨基酸名称,对应的长条方框为该氨基酸在当前蛋白质序列中的PSSM编码。
表1
Figure BDA0003491824740000091
假设一数据子集共有M个蛋白质一级结构,共有N条序列(长度不一定相等),则PSSM编码的构造过程如下四步所示:
第一步、对数据子集内的蛋白质一级结构进行编码。
如设一个蛋白质序列Ni长度为Pi,设编码长度为T,则这一步该序列的对应输出是Pi×T长度的一维编码向量,整个数据集的对应输出规模是M×T;
第二步、对第一步的所有序列编码向量进行填充操作。
由于要使用滑动窗口,每个序列的起始位置和末尾位置需要填充特殊的空值,例如可以使用0表示这个空值。令窗口长度为W,对于蛋白质序列Ni这一步的输出为W×T+Pi×T+W×T长度的一维向量,即(2W+Pi)×T;
第三步、对第二步的所有序列编码向量进行滑动窗口化,形成输入向量。
对于序列Ni中的任意一个一级结构,它的输入向量由它的编码和两端滑动窗口内一级结构的编码共同组成,因此它的输入向量规模为W×T+1×T+W×T,即(2W+1)×T,整个序列对应输入向量的矩阵规模则为[(2W+1)×T]×Pi,完整数据子集的对应输入向量的矩阵规模则为[(2W+1)×T]×M=,即为一个M行(2W+1)×T列的矩阵;
第四步、对第三步的输入向量进行归一化,归一化后的向量即为特征向量。
这一步不会对表示输入向量的矩阵的规模和结构有任何影响,只是计算向量内的元素并修改它的值以统一量纲。例如可以使用最小-最大值归一化方法实现归一化,表示归一化后的输入向量的矩阵即为对数据子集进行编码处理后对应得到的特征向量。
其中,编码长度T、数据子集中蛋白质一级结构的数量M等都为确定的,预设滑动窗口长度的范围可以通过实验确定,例如可以为[13,17]、[15,21]、21等等。
在得到每个数据子集对应的特征向量,即得到各特征向量之后,进一步将包括各特征向量的数据集样本确定为多个训练样本和多个预测样本。
例如,将每个特征向量看作一个数据样本,包括各特征向量的该集合则可以看作为数据集样本。按照预设比例将数据集样本划分为多个训练样本和多个预测样本,比如按照7:3的预设比例进行划分,即将数据集样本中70%的数据样本确定为多个训练样本,将数据集样本中30%的数据样本确定为多个预测样本。
S103:根据多个训练样本、多个预测样本以及目标Stacking模型确定蛋白质二级结构的预测结果。
其中,目标Stacking模型包括多层同质或者异质Stacking模型。
目标Stacking模型可以为由Stacking集成学习和多层分类器构成的机器学习模型,其中该机器学习模型中采用了多层分类器的架构以及Stacking集成学习的工作原理。多层分类器中除过最后一层分类器之外的其他分类器可以包括同质或者异质的多个神经网络,故而,该机器学习模型也即目标Stacking模型包括多层同质或者异质Stacking模型。
采用多个训练样本对目标Stacking模型进行训练学习,采用多个预测样本作为训练学习后的目标Stacking模型的输入得到对应的输出,其输出即为蛋白质二级结构的预测结果。
Stacking集成学习可以使得最终得到的强分类器具有更强的非线性表述能力,降低泛化无法,与深度学习相比可以大幅提高学习效果,而多层分类器的架构可以整合多个简单机器学习模型以获得适中的学习时长,克服现有技术中学习时长较长的问题。
本申请实施例提供的蛋白质二级结构预测方法,对原始数据集进行划分得到数据子集进行预测,可以克服蛋白质在不同长度区间内分布不均衡的问题以提高预测准确率。而预测所用的目标Stacking模型包括多层同质或者异质Stacking模型,多层的Stacking与深度学习相比可以大幅度提升机器学习效果,通过整合多个简单机器学习模型达到适中的学习时长。
图3为本申请实施例提供的另一种蛋白质二级结构预测方法的流程示意图。如图3所示,本申请实施例提供的蛋白质二级结构预测方法,包括:
S201:按照蛋白质序列长度将原始数据集划分为固定区间长度的多个数据子集。
其中,原始数据集包括多个序列长度在预设范围内的蛋白质一级结构。
S202:对每个数据子集进行编码处理对应得到各特征向量,将各特征向量确定为多个训练样本和多个预测样本。
步骤S201至步骤S202的实现方式、原理以及技术效果与步骤S101至步骤S102的实现方式、原理以及技术效果相类似,详细内容可参考前述描述,在此不再赘述。
S203:每个预测样本作为第一层分类器的输入得到对应输出。
S204:将第一层分类器的输出进行拼接,以将拼接结果作为下一层分类器的输入,重复上述步骤,直到得到最后一层分类器的输出。
S205:将最后一层分类器的输出确定为蛋白质二级结构的预测结果。
如步骤S103所描述,目标Stacking模型采用了多层分类器的架构以及Stacking集成学习的工作原理,因此,在本申请实施例中,多层同质或者异质Stacking模型则为各层分类器构成的Stacking模型。其中,各层分类器由每个训练样本训练得到,最后一层分类器可以包括单一支持向量机(SVC),除最后一层分类器之外的其他层分类器可以包括同质或异质的多个神经网络。多个神经网络可以例如卷积神经网络CNN、长短时忆网络LSTM、神经网络BP以及双向循环神经网络Bi-LSTM中的一种或几种,例如CNN可以包括多个卷积核大小为3的卷积层和一个池化层。
其中,最后一层分类器可以包括单一支持向量,除最后一层之外的其他层分类器中可以包括同质或者异质的多个神经网络。同质或者异质的多个神经网络是指该多个神经网络是否相同,若相同即为同质,若不同即为异质。
各层分类器所形成的机器学习模型采用Stacking集成学习原理对每个数据子集所对应的多个训练样本和多个预测样本进行训练和预测,以得到蛋白质二级结构的预测结果。分类器的层数可以为两层、三层或者四层,分类器的数量可以根据实际工况设置,例如可以为20个、25个等。
具体地,将每个预测样本作为第一层分类器的输入得到对应输出,然后将第一层分类器的输出进行拼接,再将拼接结果作为下一层分类器的输入,重复上述步骤,直到得到最后一层分类器的输出,将最后一层分类器的输出确定为蛋白质二级结构的预测结果。
以两层分类器为例,假设每个预测样本Dtest为2500行,使用经由每个训练样本训练得到的各层分类器对预测样本Dtest(2500行)进行预测的过程具体为:
预测样本输入第一级层分类器得到对应的第一级输出(2500行),将第一级输出拼接后得到的拼接结果即2500×T的矩阵输入第二层分类器,第二层分类器的输出即整个强分类器的分类结果,该分类结果也即蛋白质二级结构的预测结果。
需要说明的是,各层分类器所形成的机器学习模型采用Stacking集成学习原理对每个数据子集所对应的多个训练样本和多个预测样本进行训练和预测,即在训练结果和测试阶段采用相同层数的分类器和同样的输入进行,故而在训练和测试阶段可以对输出进行拼接也即合并以作为下一层分类器的输入。
可选地,还可以将同质或者异质的多个神经网络看作一组,由同质或异质的多个神经网络构成的该层分类器中可以包括多组的结果,如图4所示,假设将五个神经网络作为一组,由一至二组的分类器组成第一层分类器,采用一组的分类器构成第二层分类器,采用单一的支持向量机构成第三层分类器,从而形成如图4所示的一种三层分类器。
可以理解的是,图4所示的三层分类器中神经网络的选择以及多组的设置仅为示意性列举,并非是对分类器架构的限定。此外,还可以设置四层分类器等等,可以根据实际工况进行设置,对此,本申请实施例不作限定。
如前所描述,各层分类器是由每个训练样本训练得到的。在一种可能的设计中,由每个训练样本训练各层分类器可能的实现方式如图5所示。图5为本申请实施例提供的再一种蛋白质二级结构预测方法的流程示意图。如图5所示,本申请实施例包括:
S301:将每个训练样本采用K折交叉验证法划分为K个子训练样本和K个子预测样本。
应用K折交叉验证法到Stacking中,假设K为5,假设每个训练样本为10000行,把每个训练样本按照5折交叉验证法分成子训练样本(8000行,5种组合方式共5个)和子预测样本(2000行,5种组合方式共5个)。
S302:使用K个子预测样本对第一层分类器训练K次,并采用训练后的第一层分类器对K个子预测样本进行预测,得到对应的第一子预测结果。
例如,使用5个子训练样本对E个第一级分类器训练5次,采用训练后的第一层分类器对5个子测试样本进行预测,得到对应的第一预测结果。
S303:使用并列后的各第一子预测结果对下一层分类器进行训练,并采用训练后的下一层分类器对K个子预测样本进行预测,得到对应的下一子预测结果。
S304:使用并列后的各下一子预测结果重复上述步骤,直到对最后一层分类器完成训练。
将上一步骤得到的各第一预测结果(5×2000行)拼接在一起(10000行),即将各一维向量并列在一起得到规模为10000×T的矩阵以
Figure BDA0003491824740000131
表示,进一步采用并列后的各第一预测结果对下一层分类器进行训练,并采用训练后的该下一层分类器对K个子预测样本进行预测,得到对应的下一子预测结果。使用并列后的各下一层预测结果重复执行步骤S303,直到对最后一层分类器完成训练,得到强分类器,完成对各层分类器的训练。
各层分类器的训练过程中采用K折交叉验证法可以防止过拟合,有利于提升预测结果的准确率。
本申请实施例提供的蛋白质二级结构预测方法,对原始数据集进行划分得到数据子集,采用每个数据子集基于Stacking集成方式的工作原理对构成多层同质或者异质Stacking模型的多层分类器进行训练并利用训练后分类器得到蛋白质二级结构的预测结果。其中,原始数据集的划分可以克服蛋白质在不同长度区间内分布不均衡的问题以提高预测准确率。而采用Stacking集成方式对由同质或异质的多个神经网络以及支持向量机形成的多层分类器进行训练并利用训练后的分类器预测蛋白质二级结构,其中Stacking集成方式的采用与深度学习相比可以大幅度提升机器学习效果,多层分类器可以整合多个简单机器学习模型,以达到适中的学习时长,克服现有技术中学习时长较长的缺陷。
图6为本申请实施例提供的一种蛋白质结构预测装置的结构示意图。如图6所示,本申请实施例提供的蛋白质二级结构预测装置400,包括:
第一处理模块401,用于按照蛋白质序列长度将原始数据集划分为固定区间长度的多个数据子集,原始数据集包括多个序列长度在预设范围内的蛋白质一级结构;
第二处理模块402,用于对每个数据子集进行编码处理对应得到各特征向量,将各特征向量确定为多个训练样本和多个预测样本;
第三处理模块403,用于根据多个训练样本、多个预测样本以及目标Stacking模型确定蛋白质二级结构的预测结果,目标Stacking模型包括多层同质或者异质Stacking模型。
在一种可能的设计中,第二处理模块402,具体用于:
采用预设编码工具对每个数据子集进行编码,生成PSSM文件,PSSM文件包括各特征向量,预设编码工具的参数包括预设迭代次数、预设误差阈值以及预设滑动窗口长度。
在一种可能的设计中,第二处理模块402,还具体用于:
按照预设比例将数据集样本划分为多个训练样本和多个预测样本,数据集样本包括各特征向量。
在一种可能的设计中,第三处理模块403,具体用于:
每个预测样本作为第一层分类器的输入得到对应输出;
将第一层分类器的输出进行拼接,以将拼接结果作为下一层分类器的输入,重复上述步骤,直到得到最后一层分类器的输出;
将最后一层分类器的输出确定为蛋白质二级结构的预测结果;
其中,各层分类器由每个训练样本训练得到的,最后一层分类器包括单一支持向量机,除最后一层分类器之外的其他层分类器包括同质或异质的多个神经网络,多层同质或者异质Stacking模型为各层分类器构成的Stacking模型。
在一种可能的设计中,第三处理模块403,还具体用于:
将每个训练样本采用K折交叉验证法划分为K个子训练样本和K个子预测样本;
使用K个子训练样本对第一层分类器训练K次,并采用训练后的第一层分类器对K个子预测样本进行预测,得到对应的第一子预测结果;
使用并列后的各第一子预测结果对下一层分类器进行训练,并采用训练后的下一层分类器对K个子预测样本进行预测,得到对应的下一子预测结果;
使用并列后的各下一子预测结果重复上述步骤,直到对最后一层分类器完成训练。
在一种可能的设计中,多个神经网络包括卷积神经网络CNN、长短时忆网络LSTM、神经网络BP以及双向循环神经网络Bi-LSTM中的一种或几种。
在一种可能的设计中,CNN包括多个卷积核大小为3的卷积层和一个池化层。
本申请实施例提供的蛋白质二级结构预测装置,可以执行上述方法实施例中的蛋白质二级结构预测装置方法的相应步骤,其实现原理和技术效果类似,在此不再赘述。
本申请所提供的上述各装置实施例仅仅是示意性的,其中的模块划分仅仅是一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个模块可以结合或者可以集成到另一个系统。各个模块相互之间的耦合可以是通过一些接口实现,这些接口通常是电性通信接口,但是也不排除可能是机械接口或其它的形式接口。因此,作为分离部件说明的模块可以是或者也可以不是物理上分开的,既可以位于一个地方,也可以分布到同一个或不同设备的不同位置上。
图7为本申请实施例提供的一种电子设备的结构示意图。如图7所示,该电子设备500可以包括:至少一个处理器501和存储器502。图7示出的是以一个处理器为例的电子设备。
存储器502,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机执行指令。
存储器502可能包含高速RAM存储器,也可能还包括非易失性存储器(MoM-volatile memory),例如至少一个磁盘存储器。
处理器501用于执行存储器502存储的计算机执行指令,以实现蛋白质二级结构预测方法。
其中,处理器501可能是一个中央处理器(CeMtral ProcessiMg UMit,简称为CPU),或者是特定集成电路(ApplicatioM Specific IMtegrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选地,存储器502既可以是独立的,也可以跟处理器501集成在一起。当存储器502是独立于处理器501之外的器件时,电子设备500,还可以包括:
总线503,用于连接处理器501以及存储器502。总线可以是工业标准体系结构(industry standard architecture,简称为ISA)总线、外部设备互连(peripheralcomponent,PCI)总线或扩展工业标准体系结构(extended industry standardarchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器502和处理器501集成在一块芯片上实现,则存储器502和处理器501可以通过内部接口完成通信。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(ROM,Read-OMly Memory)、随机存取存储器(RAM,RaMdomAccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有计算机执行指令,计算机执行指令用于上述实施例中蛋白质二级结构预测方法。
本申请还提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现上述实施例中蛋白质二级结构预测方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种蛋白质二级结构预测方法,其特征在于,包括:
按照蛋白质序列长度将原始数据集划分为固定区间长度的多个数据子集,所述原始数据集包括多个序列长度在预设范围内的蛋白质一级结构;
对每个数据子集进行编码处理对应得到各特征向量,将所述各特征向量确定为多个训练样本和多个预测样本;
根据所述多个训练样本、所述多个预测样本以及目标Stacking模型确定蛋白质二级结构的预测结果,所述目标Stacking模型包括多层同质或者异质Stacking模型。
2.根据权利要求1所述的蛋白质二级结构预测方法,其特征在于,所述对每个数据子集进行编码处理对应得到各特征向量,包括:
采用预设编码工具对所述每个数据子集进行编码,生成PSSM文件,所述PSSM文件包括所述各特征向量,所述预设编码工具的参数包括预设迭代次数、预设误差阈值以及预设滑动窗口长度。
3.根据权利要求2所述的蛋白质二级结构预测方法,其特征在于,所述将所述各特征向量确定为多个训练样本和多个预测样本,包括:
按照预设比例将数据集样本划分为所述多个训练样本和所述多个预测样本,所述数据集样本包括所述各特征向量。
4.根据权利要求1-3任一项所述的蛋白质二级结构预测方法,其特征在于,所述根据所述多个训练样本、所述多个预测样本以及目标Stacking模型确定蛋白质二级结构的预测结果,包括:
每个预测样本作为第一层分类器的输入得到对应输出;
将所述第一层分类器的输出进行拼接,以将拼接结果作为下一层分类器的输入,重复上述步骤,直到得到最后一层分类器的输出;
将所述最后一层分类器的输出确定为所述蛋白质二级结构的预测结果;
其中,各层分类器由每个训练样本训练得到的,所述最后一层分类器包括单一支持向量机,除所述最后一层分类器之外的其他层分类器包括同质或异质的多个神经网络,所述多层同质或者异质Stacking模型为所述各层分类器构成的Stacking模型。
5.根据权利要求4所述的蛋白质二级结构预测方法,其特征在于,由所述每个训练样本训练所述各层分类器,包括:
将每个训练样本采用K折交叉验证法划分为K个子训练样本和K个子预测样本;
使用所述K个子训练样本对所述第一层分类器训练K次,并采用训练后的所述第一层分类器对所述K个子预测样本进行预测,得到对应的第一子预测结果;
使用并列后的各第一子预测结果对所述下一层分类器进行训练,并采用训练后的所述下一层分类器对所述K个子预测样本进行预测,得到对应的下一子预测结果;
使用并列后的各下一子预测结果重复上述步骤,直到对所述最后一层分类器完成训练。
6.根据权利要求5所述的蛋白质二级结构预测方法,其特征在于,所述多个神经网络包括卷积神经网络CNN、长短时忆网络LSTM、神经网络BP以及双向循环神经网络Bi-LSTM中的一种或几种。
7.根据权利要求6所述的蛋白质二级结果预测方法,其特征在于,所述CNN包括多个卷积核大小为3的卷积层和一个池化层。
8.一种蛋白质二级结构预测装置,其特征在于,包括:
第一处理模块,用于按照蛋白质序列长度将原始数据集划分为固定区间长度的多个数据子集,所述原始数据集包括多个序列长度在预设范围内的蛋白质一级结构;
第二处理模块,用于对每个数据子集进行编码处理对应得到各特征向量,将所述各特征向量确定为多个训练样本和多个预测样本;
第三处理模块,用于根据所述多个训练样本、所述多个预测样本以及目标Stacking模型确定蛋白质二级结构的预测结果,所述目标Stacking模型包括多层同质或者异质Stacking模型。
9.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至7任一项所述的蛋白质二级结构预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的蛋白质二级结构预测方法。
CN202210099251.4A 2022-01-27 2022-01-27 蛋白质二级结构预测方法、装置、设备及存储介质 Pending CN114496068A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210099251.4A CN114496068A (zh) 2022-01-27 2022-01-27 蛋白质二级结构预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210099251.4A CN114496068A (zh) 2022-01-27 2022-01-27 蛋白质二级结构预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114496068A true CN114496068A (zh) 2022-05-13

Family

ID=81476532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210099251.4A Pending CN114496068A (zh) 2022-01-27 2022-01-27 蛋白质二级结构预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114496068A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565607A (zh) * 2022-10-20 2023-01-03 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001050355A2 (en) * 2000-01-05 2001-07-12 Structural Bioinformatics Advanced Technologies A/S Computer predictions of molecules
CN112837741A (zh) * 2021-01-25 2021-05-25 浙江工业大学 一种基于循环神经网络的蛋白质二级结构预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001050355A2 (en) * 2000-01-05 2001-07-12 Structural Bioinformatics Advanced Technologies A/S Computer predictions of molecules
CN112837741A (zh) * 2021-01-25 2021-05-25 浙江工业大学 一种基于循环神经网络的蛋白质二级结构预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁珩琳: "基于集成学习的蛋白质二级结构的预测研究", 中国优秀硕士论文全文数据库, 15 February 2021 (2021-02-15), pages 006 - 431 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565607A (zh) * 2022-10-20 2023-01-03 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备
CN115565607B (zh) * 2022-10-20 2024-02-23 抖音视界有限公司 确定蛋白质信息的方法、装置、可读介质及电子设备

Similar Documents

Publication Publication Date Title
US20220335284A1 (en) Apparatus and method with neural network
CN109522942B (zh) 一种图像分类方法、装置、终端设备和存储介质
CN112559784B (zh) 基于增量学习的图像分类方法及系统
US11544542B2 (en) Computing device and method
CN110657984A (zh) 一种基于强化胶囊网络的行星齿轮箱故障诊断方法
US11899744B2 (en) Apparatus and method of performing matrix multiplication operation of neural network
CN111782826A (zh) 知识图谱的信息处理方法、装置、设备及存储介质
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN113095370A (zh) 图像识别方法、装置、电子设备及存储介质
CN111798935A (zh) 基于神经网络的普适性化合物结构-性质相关性预测方法
CN112084435A (zh) 搜索排序模型训练方法及装置、搜索排序方法及装置
CN114283888A (zh) 基于分层自注意力机制的差异表达基因预测系统
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN116897356A (zh) 算子的调度运行时间比较方法、装置及存储介质
CN115982597A (zh) 语义相似度模型训练方法及装置、语义匹配方法及装置
CN114821340A (zh) 一种土地利用分类方法及系统
CN115392357A (zh) 分类模型训练、标注数据样本抽检方法、介质及电子设备
CN111611796A (zh) 下位词的上位词确定方法、装置、电子设备及存储介质
CN114496068A (zh) 蛋白质二级结构预测方法、装置、设备及存储介质
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
CN116805157B (zh) 无人集群自主动态评估方法及装置
Gao et al. Deep learning for sequence pattern recognition
CN113223620A (zh) 基于多维度序列嵌入的蛋白质溶解性预测方法
CN112733724A (zh) 基于判别样本元挖掘器的亲属关系验证方法和装置
CN114649053A (zh) 基于人工智能的蛋白质配体结合原子的识别方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination