CN114220479A - 一种蛋白质结构预测方法、蛋白质结构预测装置及介质 - Google Patents
一种蛋白质结构预测方法、蛋白质结构预测装置及介质 Download PDFInfo
- Publication number
- CN114220479A CN114220479A CN202111506982.8A CN202111506982A CN114220479A CN 114220479 A CN114220479 A CN 114220479A CN 202111506982 A CN202111506982 A CN 202111506982A CN 114220479 A CN114220479 A CN 114220479A
- Authority
- CN
- China
- Prior art keywords
- sequence
- protein
- matching
- prediction
- target protein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000455 protein structure prediction Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 76
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 312
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 312
- 230000015654 memory Effects 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims description 29
- 101710100170 Unknown protein Proteins 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 229960000074 biopharmaceutical Drugs 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000018044 dehydration Effects 0.000 description 1
- 238000006297 dehydration reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000002887 multiple sequence alignment Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Crystallography & Structural Chemistry (AREA)
- Peptides Or Proteins (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种蛋白质结构预测方法、蛋白质结构预测装置及介质。蛋白质结构预测方法,应用于计算机设备,计算机设备包括CPU和至少一个GPU,包括:获取待预测蛋白质结构的目标蛋白质序列。在CPU中,根据目标蛋白质序列的序列长度,确定目标蛋白质序列对应匹配序列的比对数量阈值。根据比对数量阈值,将目标蛋白质序列与预置的蛋白质序列库中的多个蛋白质序列进行比对,确定目标蛋白质序列对应的匹配序列。在预置的蛋白质结构数据库中,确定匹配序列对应的匹配结构。将匹配序列和匹配结构输入至预置在GPU中的蛋白质结构预测模型中进行蛋白质结构预测,得到目标蛋白质序列对应的蛋白质预测结构。能够减少GPU内存的占用,提高GPU的运算速度,加快预测速率。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种蛋白质结构预测方法、蛋白质结构预测装置及介质。
背景技术
随着深度学习的发展,其应用也越来越广泛,越来越多的领域都逐渐将深度学习作为未来重点发展的方向,其中包括生物制药行业。
在结构生物学技术领域中,蛋白质结构预测一直是一个备受关注的问题。在传统技术中,蛋白质结构预测是通过借助冷冻电镜,进行多次实验后得到的,并且每一个蛋白质结构预测花费的时间均以年为单位来计算,需要耗费大量的人力的物力成本。但近几年,随着深度学习的迅猛发展,可以通过深度学习,对未知蛋白质结构的蛋白质序列进行预测,得到蛋白质预测结构,并且预测结果比实验结果准确,进而为科研人员节省了大量的时间成本。
在相关技术中,针对未知蛋白质结构进行预测时,是在图形处理器(GraphicsProcessing Unit,GPU)中,通过alphafold2,利用AI算法直接进行预测。但采用该种方式进行预测,需要将预测目标蛋白质序列所涉及的所有数据均存储在GPU中,进而占用大量的GPU内存,使GPU的运算速度受到影响,无法加快计算速率,进而造成资源浪费。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中采用alphafold2对蛋白质结构进行预测时,浪费GPU资源且预测效率低的缺陷,从而提供一种蛋白质结构预测方法、蛋白质结构预测装置及介质。
在第一方面,本发明提供一种蛋白质结构预测方法,应用于计算机设备,所述计算机设备包括CPU和至少一个GPU,所述方法包括:
获取待预测蛋白质结构的目标蛋白质序列;
在所述CPU中,根据所述目标蛋白质序列的序列长度,确定所述目标蛋白质序列对应匹配序列的比对数量阈值;
根据所述比对数量阈值,将所述目标蛋白质序列与预置的蛋白质序列库中的多个蛋白质序列进行比对,确定所述目标蛋白质序列对应的匹配序列;
在预置的蛋白质结构数据库中,确定所述匹配序列对应的匹配结构;
将所述匹配序列和所述匹配结构输入至预置在所述GPU中的蛋白质结构预测模型中进行蛋白质结构预测,得到所述目标蛋白质序列对应的蛋白质预测结构。
在该方式中,能够将获取到的目标蛋白质序列分别在CPU和GPU中进行不同的处理,进而减少对GPU的占用,合理分配资源,以便缩短对单个蛋白质结构进行预测的预测时间,从而提高预测效率。且在CPU中确定目标蛋白质序列的匹配序列时,可以根据目标蛋白质序列的序列长度,确定与预置的蛋白质序列库中的蛋白质序列进行比对的比对数量阈值,进而在对蛋白质结构进行预测时,能够避免或者降低序列长度的限制,从而提高蛋白质结构预测的完成度。
结合第一方面,在第一方面的第一实施例中,若预置的蛋白质数据库的数量为多个,则所述将所述目标蛋白质序列与预置的蛋白质序列库中的多个蛋白质序列进行比对,包括:
将所述目标蛋白质序列分别与预置的每个蛋白质序列库中的多个蛋白质序列进行比对。
在该方式中,避免采用单一蛋白质数据库确定匹配序列时出现误匹配或者漏匹配的情况发生,从而提高匹配序列的准确度。
结合第一方面或第一方面的第一实施例,在第一方面的第二实施例中,若所述GPU的数量为多个,且目标蛋白质序列的数量为多个时,则不同GPU中的蛋白质结构预测模型,预测不同目标蛋白质序列的蛋白质预测结构。
在该方式中,能够充分利用计算机设备中的各个GPU资源,进而提高GPU的利用率。
结合第一方面的第二实施例,在第一方面的第三实施例中,所述方法还包括:
统计并输出在所述CPU中,基于所述目标蛋白质序列确定所述匹配结构的处理时间。
在该方式中,有助于用户根据输出的处理时间明确对目标蛋白质序列执行的数据处理是否完成以及具体耗时时长,进而节省用户监督时间,提高用户的使用体验。
结合第一方面的第三实施例,在第一方面的第四实施例中,所述方法还包括:
统计并输出在所述GPU中,得到所述目标蛋白质序列对应的蛋白质预测结构的预测时间。
在该方式中,有助于用户根据输出的预测时间明确蛋白质结构预测是否完成以及具体耗时时长,进而节省用户监督时间,提高用户的使用体验。
结合第一方面,在第一方面的第五实施例中,不同序列长度对应不同的比对数量阈值。
结合第一方面,在第一方面的第六实施例中,所述序列长度大于或者等于两千。
在第二方面,本发明还提供一种蛋白质结构预测装置,应用于计算机设备,所述计算机设备包括CPU和至少一个GPU,所述装置包括:
获取单元,用于获取待预测蛋白质结构的目标蛋白质序列;
确定单元,用于在所述CPU中,根据所述目标蛋白质序列的序列长度,确定所述目标蛋白质序列对应匹配序列的比对数量阈值;
第一匹配单元,用于根据所述比对数量阈值,将所述目标蛋白质序列与预置的蛋白质序列库中的多个蛋白质序列进行比对,确定所述目标蛋白质序列对应的匹配序列;
第二匹配单元,用于在预置的蛋白质结构数据库中,确定所述匹配序列对应的匹配结构;
预测单元,用于将所述匹配序列和所述匹配结构输入至预置在所述GPU中的蛋白质结构预测模型中进行蛋白质结构预测,得到所述目标蛋白质序列对应的蛋白质预测结构。
结合第二方面,在第二方面的第一实施例中,若预置的蛋白质数据库的数量为多个,则所述第一匹配单元,包括:
第一匹配子单元,用于将所述目标蛋白质序列分别与预置的每个蛋白质序列库中的多个蛋白质序列进行比对。
结合第二方面或第二方面的第一实施例,在第二方面的第二实施例中,若所述GPU的数量为多个,且目标蛋白质序列的数量为多个时,则不同GPU中的蛋白质结构预测模型,预测不同目标蛋白质序列的蛋白质预测结构。
结合第二方面的第二实施例,在第二方面的第三实施例中,所述装置还包括:
第一统计单元,用于统计并输出在所述CPU中,基于所述目标蛋白质序列确定所述匹配结构的处理时间。
结合第二方面的第三实施例,在第二方面的第四实施例中,所述装置还包括:
第二统计单元,用于统计并输出在所述GPU中,得到所述目标蛋白质序列对应的蛋白质预测结构的预测时间。
结合第二方面,在第二方面的第五实施例中,不同序列长度对应不同的比对数量阈值。
结合第二方面,在第二方面的第六实施例中,所述序列长度大于或者等于两千。
根据第三方面,本发明实施方式还提供一种计算机设备,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面及其可选实施方式中任一项的蛋白质结构预测方法。
根据第四方面,本发明实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行第一方面及其可选实施方式中任一项的蛋白质结构预测方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例提出的一种蛋白质结构预测方法的流程图。
图2是根据一示例性实施例提供的一种蛋白质序列匹配方法的流程示意图。
图3是根据一示例性实施例提出的另一种蛋白质结构预测方法的流程图。
图4是根据一示例性实施例提出的又一种蛋白质结构预测方法的流程图。
图5是根据一示例性实施例提出的又一种蛋白质结构预测方法的流程图。
图6是根据一示例性实施例提出的一种蛋白质结构预测装置的结构框图。
图7是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,针对未知蛋白质结构进行预测时,是采用alphafold2直接在图形处理器(Graphics Processing Unit,GPU)中进行预测的。其中,alphafold2是一种能够针对蛋白质结构进行预测的神经网络模型。但采用该种方式进行预测,需要将预测目标蛋白质序列所涉及的所有数据均存储在GPU中,进而占用大量的GPU内存,使GPU的运算速度受到影响,无法加快计算速率,进而造成资源浪费。
为解决上述问题,本发明实施例中提供一种蛋白质结构预测方法,用于计算机设备中,需要说明的是,其执行主体可以是蛋白质结构预测装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部,其中,该计算机设备可以是终端或客户端或服务器,服务器可以是一台服务器,也可以为由多台服务器组成的服务器集群,本申请实施例中的终端可以是智能手机、个人电脑、平板电脑、可穿戴设备以及智能机器人等其他智能硬件设备。下述方法实施例中,均以执行主体是计算机设备为例来进行说明。
本发明实施例中的计算机设备,包括CPU和至少一个GPU,能够针对未知蛋白质结构的蛋白质序列进行蛋白质结构预测,进而得到蛋白质序列对应的蛋白质预测结构。为便于描述,以下将未知蛋白质结构的蛋白质序列采用目标蛋白质序列进行代替。通过本发明提供的蛋白质结构预测方法,能够将获取到的目标蛋白质序列预先在CPU中进行数据处理,得到与目标蛋白质序列相匹配的匹配序列和匹配结构,进而在GPU中,将接收到的匹配序列和匹配结构通过预置的蛋白质结构预测模型进行预测,从而在对目标蛋白质序列进行预测时,能够减少对GPU内存的占用,提高GPU的运算速度,加快预测速率。
在一实施场景中,计算机设备的硬件环境为:CPU:Gold 6130CPU@2.10GHz;显卡:8*Tesla A100,40G显存/卡。软件环境为:Ubuntu 18.04.4LTS操作系统;Python 3.8.10。
图1是根据一示例性实施例提出的一种蛋白质结构预测方法的流程图。如图1所示,蛋白质结构预测方法包括如下步骤S101至步骤S105。
在步骤S101中,获取待预测蛋白质结构的目标蛋白质序列。
在本发明实施例中,蛋白质是由氨基酸以“脱水缩合”的方式组成的多肽链经过盘曲折叠形成的具有一定空间结构的物质。目标蛋白质序列是未知蛋白质结构的蛋白质序列,只能够明确该蛋白质的组成成分,但不能确定该蛋白质的空间结构。为确定目标蛋白质的蛋白质结构,则获取该目标蛋白质序列,以便结合已知蛋白质序列和蛋白质结构得到该目标蛋白质对应的蛋白质预测结构。在一实施场景中,目标蛋白质序列可以是以文件的形式输入至计算机设备中,文件格式为.fasta(一种基于文本用于表示核酸序列或多肽序列的格式)。在一例中,目标蛋白质序列文件可以是蛋白质氨基酸序列文件。
在步骤S102中,在CPU中,根据目标蛋白质序列的序列长度,确定目标蛋白质序列对应匹配序列的比对数量阈值。
在本发明实施例中,比对数量阈值是用于限制在将目标蛋白质序列与预置的蛋白质序列库中的多个蛋白质序列进行比对的数量。其中,蛋白质数据库中的蛋白质序列为已知序列。
在确定目标蛋白质序列的匹配序列的过程中,目标蛋白质序列的序列长度越长,则在与预置的蛋白质序列库中蛋白质序列进行过比对时,需要比对的数量越多。若不同序列长度的目标蛋白质序列均采用同一比对数量阈值,则在确定序列长度较短的目标蛋白质序列对应的匹配序列时,则容易导致匹配过度,比对过于充分,进而导致浪费计算资源;在确定序列长度较长的目标蛋白质序列对应的匹配序列时,则容易导致匹配匮乏,无法充分进行比对,进而导致匹配失败。
因此,为合理分配资源,在确定目标蛋白质序列对应的匹配序列时,使不同序列长度的目标蛋白质序列均可以与充足且合理的数量的蛋白质序列比对,则根据目标蛋白质序列的序列长度,确定目标蛋白质序列对应匹配序列的比对数量阈值,进而根据确定的比对数量阈值控制目标蛋白质序列与蛋白质序列库中的各蛋白质序列进行比对。其中,不同序列长度对应不同的比对数量阈值。序列长度较短的比对数量阈值小于序列长度较长的比对数量阈值。在一例中,短蛋白质序列的序列长度可以小于两千,长蛋白质序列的序列长度可以大于或者等于两千。在另一例中,长蛋白质序列的序列长度范围处于大于或者等于两千和小于四千之间。
在一示例中,在与蛋白质序列库中的多个蛋白质序列进行比对时,可以采用多序列比对(multiple sequence alignment,msa)的方式进行比对。在msa中包括蛋白质序列库,进而可以通过调整msa的阈值参数,控制目标蛋白质序列与蛋白质序列库中各蛋白质序列的比对数量。其中,msa的阈值参数为确定的目标蛋白质序列对应匹配序列的比对数量阈值。
在步骤S103中,根据比对数量阈值,将目标蛋白质序列与预置的蛋白质序列库中的多个蛋白质序列进行比对,确定目标蛋白质序列对应的匹配序列。
在本发明实施例中,根据确定的比对数量阈值,控制目标蛋白质序列与蛋白质序列库中的多个蛋白质序列进行比对的数量,以使目标蛋白质序列在与蛋白质序列库中的多个蛋白质序列进行比对时,能够避免或者降低序列长度的限制,进而在多个已知的蛋白质序列中,确定该目标蛋白质序列对应的匹配序列,以便后续进行蛋白质结构预测时,能够提高预测完成度。
在步骤S104中,在预置的蛋白质结构数据库中,确定匹配序列对应的匹配结构。
在本发明实施例中,预置的蛋白质结构数据库中存在多种已知的蛋白质结构模板(template)。在确定目标蛋白质序列对应的匹配序列后,为便于预测目标蛋白质序列的蛋白质预测结构,则在预置的蛋白质结构数据库中,确定与匹配序列相对应的匹配结构,以便后续在进行蛋白质结构预测时,能够以匹配结构为参考进行蛋白质结构预测。
在步骤S105中,将匹配序列和匹配结构输入至预置在GPU中的蛋白质结构预测模型中进行蛋白质结构预测,得到目标蛋白质序列对应的蛋白质预测结构。
在本发明实施例中,蛋白质结构预测模型是预先训练好的且以深度学习网络为框架的模型。该蛋白质结构模型可以是任意一种能够实现蛋白质结构预测的模型,故,在本发明中该蛋白质结构预测模型的训练过程不在进行赘述。
将在CPU中得到的匹配序列和匹配结构,输入至预置在GPU中的蛋白质结构预测模型中进行蛋白质结构预测,进而得到目标蛋白质序列对应的蛋白质预测结构。在一示例中,为便于将匹配序列和匹配结构输入至GPU中,则可以将匹配序列和匹配结构存放在同一存储文件中,例如:.pkl文件,进而在进行蛋白质结构预测时,可以避免遗漏数据或者误识别的情况发生。
通过上述实施例,能够将获取到的目标蛋白质序列分别在CPU和GPU中进行不同的处理,进而减少对GPU的占用,合理分配资源,以便缩短对单个蛋白质结构进行预测的预测时间,从而提高预测效率。且在CPU中确定目标蛋白质序列的匹配序列时,可以根据目标蛋白质序列的序列长度,确定与预置的蛋白质序列库中的蛋白质序列进行比对的比对数量阈值,进而在对蛋白质结构进行预测时,能够避免或者降低序列长度的限制,从而提高蛋白质结构预测的完成度。
在一示例中,可以将在CPU中确定目标蛋白质序列对应的匹配序列和确定匹配序列对应的匹配结构的过程,统称为对目标蛋白质序列进行数据处理的数据处理过程。将在GPU中预测目标蛋白质序列对应的蛋白质预测结构的过程,称为预测过程。在一例中,蛋白质序列库和蛋白质结构数据库可以属于同一蛋白质数据库。
在另一示例中,若采用Alphafold2对目标蛋白质序列进行蛋白质结构进行预测时,则将Alphafold2的预测过程分为数据处理和预测两部分,将与数据处理相关的源代码部署在CPU中,以便在CPU中能够实现对目标蛋白质序列执行数据处理过程。将预测相关的源代码部署在GPU中,以便在GPU中能够实现对目标蛋白质序列的蛋白质结构执行预测过程。
在一实施例中,在CPU中可以预置多个蛋白质数据库。在与已知的蛋白质序列进行比对时,由于各蛋白质数据库属于独立数据,因此,可以采用并行的方式,将目标蛋白质序列分别与预置的每个蛋白质序列库中的多个蛋白质序列进行比对,进而确定匹配序列的比对速率。根据与各蛋白质序列库的比对结果得到最终的目标蛋白质序列对应的匹配序列,进而避免采用单一蛋白质数据库确定匹配序列时出现误匹配或者漏匹配的情况发生,从而提高匹配序列的准确度。
在一实施场景中,确定目标蛋白质序列对应的匹配序列的过程可以如图2所示。图2是根据一示例性实施例提供的一种蛋白质序列匹配方法的流程示意图。在CPU中,预置的蛋白质数据库可以为Uniref90、Mgnify、BFD+Uniclust30,进而在进行比对时,则将目标蛋白质序列分别于Uniref90、Mgnify、BFD+Uniclust30中的多个蛋白质序列进行比对,从而根据与三个蛋白质数据库的比对结果得到最终该目标蛋白质序列对应的匹配序列。
在一实施例中,若GPU的数量为多个,且目标蛋白质序列的数量为多个时,则不同GPU中的蛋白质结构预测模型,预测不同目标蛋白质序列的蛋白质预测结构。即,根据各目标蛋白质序列对应的匹配序列和匹配结构的确定先后顺序,根据GPU的空闲状态,将各目标蛋白质序列对应的匹配序列和匹配结构分别发生至不同的GPU中进行蛋白质结构预测,以使在进行蛋白质结构预测的过程中,能够充分利用计算机设备中的各个GPU资源,进而提高GPU的利用率。
在一例中,若将目标蛋白质序列的匹配序列和匹配结构存储在同一存储文件发送至GPU中进行蛋白质结构预测,则采用多个GPU并行预测多个目标蛋白质序列的结构时,将各目标蛋白质序列对应的存储文件分别发送至各GPU中进行单独预测,进而提高GPU的利用率。
图3是根据一示例性实施例提出的另一种蛋白质结构预测方法的流程图。如图3所示,蛋白质结构预测方法包括如下步骤。
在步骤S301中,获取待预测蛋白质结构的目标蛋白质序列。
在步骤S302中,在CPU中,根据目标蛋白质序列的序列长度,确定目标蛋白质序列对应匹配序列的比对数量阈值。
在步骤S303中,根据比对数量阈值,将目标蛋白质序列与预置的蛋白质序列库中的多个蛋白质序列进行比对,确定目标蛋白质序列对应的匹配序列。
在步骤S304中,在预置的蛋白质结构数据库中,确定匹配序列对应的匹配结构。
在步骤S305中,将匹配序列和匹配结构输入至预置在GPU中的蛋白质结构预测模型中进行蛋白质结构预测,得到目标蛋白质序列对应的蛋白质预测结构。
在步骤S306中,统计并输出在CPU中,基于目标蛋白质序列确定匹配结构的处理时间。
在本发明实施例中,处理时间为在CPU中,对目标蛋白质序列进行数据处理,最终确定匹配结构的总时间。统计并输出该处理时间,有助于用户明确在CPU中对单个目标蛋白质序列进行数据处理所需要的耗时。
通过上述实施例,有助于用户根据输出的处理时间明确对目标蛋白质序列执行的数据处理是否完成以及具体耗时时长,进而节省用户监督时间,提高用户的使用体验。
图4是根据一示例性实施例提出的又一种蛋白质结构预测方法的流程图。如图4所示,蛋白质结构预测方法包括如下步骤。
在步骤S401中,获取待预测蛋白质结构的目标蛋白质序列。
在步骤S402中,在CPU中,根据目标蛋白质序列的序列长度,确定目标蛋白质序列对应匹配序列的比对数量阈值。
在步骤S403中,根据比对数量阈值,将目标蛋白质序列与预置的蛋白质序列库中的多个蛋白质序列进行比对,确定目标蛋白质序列对应的匹配序列。
在步骤S404中,在预置的蛋白质结构数据库中,确定匹配序列对应的匹配结构。
在步骤S405中,将匹配序列和匹配结构输入至预置在GPU中的蛋白质结构预测模型中进行蛋白质结构预测,得到目标蛋白质序列对应的蛋白质预测结构。
在步骤S406中,统计并输出在CPU中,基于目标蛋白质序列确定匹配结构的处理时间。
在步骤S407中,统计并输出在GPU中,得到目标蛋白质序列对应的蛋白质预测结构的预测时间。
在本发明实施例中,预测时间为在GPU中,对目标蛋白质序列进行蛋白质结构预测,得到蛋白质预测结构的总时间。统计并输出该预测时间,有助于用户明确在GPU中对单个目标蛋白质序列的蛋白质预测结构进行预测所需要的耗时。
通过上述实施例,有助于用户根据输出的预测时间明确蛋白质结构预测是否完成以及具体耗时时长,进而节省用户监督时间,提高用户的使用体验。
在一实施场景中,计算机设备在对目标蛋白质序列进行蛋白质结构预测时,可以采用图5所示的蛋白质结构预测方法进行预测。其中,图5是根据一示例性实施例提出的又一种蛋白质结构预测方法的流程图。
在步骤S501中,获取待预测蛋白质结构的目标蛋白质序列。
在本发明实施例中,基于输入的.fasta蛋白质序列文件,获取至少一个待预测蛋白质结构的目标蛋白质序列。
在步骤S502中,在CPU中,通过数据处理,确定目标蛋白质序列对应的匹配序列和匹配结构。
在本发明实施例中,在CPU中,根据目标蛋白质序列的序列长度,确定在蛋白质数据库中进行蛋白质序列比对的比对数量阈值,进而根据比对数量阈值,控制目标蛋白质序列与预置的每个蛋白质数据库中的蛋白质序列进行比对,从而得到匹配序列,以及匹配序列对应的匹配结构。将匹配序列和匹配结构存储在同一pkl文件中。
在步骤S503中,将匹配序列和匹配结构输入至GPU中的蛋白质结构预测模型进行预测,得到目标蛋白质序列对应的蛋白质预测结构。
在本发明实施例中,将pkl文件输入至GPU中的蛋白质结构预测模型进行预测,进而目标蛋白质序列对应的蛋白质预测结构。
在步骤S504中,输出在CPU中的处理时间和在GPU中的预测时间。
通过上述实施例,在对未知蛋白质结构的蛋白质序列进行蛋白质结构预测时,可以在CPU端,采用并行化的处理数据方式,提高msa和template的效率。在GPU端,可以利用多个GPU采用并行的方式对多个蛋白质序列结构同时推理预测,进而提高GPU的使用率,减少预测的时间,从而为科研人员节省时间和精力。
在一实施场景中,基于实验测试,采用上述方式进行蛋白质结构预测时,数据处理的性能相比于原预测方式提高了10倍,预测蛋白质结构时的蛋白质的计算效率相比于原预测方式提高了12倍。
基于相同发明构思,本发明还提供一种应用于计算机设备的蛋白质结构预测装置。其中,计算机设备包括CPU和至少一个GPU。
图6是根据一示例性实施例提出的一种蛋白质结构预测装置的结构框图。如图6所示,蛋白质结构预测装置包括获取单元601、确定单元602、第一匹配单元603、第二匹配单元604和预测单元605。
获取单元601,用于获取待预测蛋白质结构的目标蛋白质序列;
确定单元602,用于在CPU中,根据目标蛋白质序列的序列长度,确定目标蛋白质序列对应匹配序列的比对数量阈值;
第一匹配单元603,用于根据比对数量阈值,将目标蛋白质序列与预置的蛋白质序列库中的多个蛋白质序列进行比对,确定目标蛋白质序列对应的匹配序列;
第二匹配单元604,用于在预置的蛋白质结构数据库中,确定匹配序列对应的匹配结构;
预测单元605,用于将匹配序列和匹配结构输入至预置在GPU中的蛋白质结构预测模型中进行蛋白质结构预测,得到目标蛋白质序列对应的蛋白质预测结构。
在一实施例中,若预置的蛋白质数据库的数量为多个,则第一匹配单元603,包括:第一匹配子单元,用于将目标蛋白质序列分别与预置的每个蛋白质序列库中的多个蛋白质序列进行比对。
在另一实施例中,若GPU的数量为多个,且目标蛋白质序列的数量为多个时,则不同GPU中的蛋白质结构预测模型,预测不同目标蛋白质序列的蛋白质预测结构。
在又一实施例中,装置还包括:第一统计单元,用于统计并输出在CPU中,基于目标蛋白质序列确定匹配结构的处理时间。
在又一实施例中,装置还包括:第二统计单元,用于统计并输出在GPU中,得到目标蛋白质序列对应的蛋白质预测结构的预测时间。
在又一实施例中,不同序列长度对应不同的比对数量阈值。
在又一实施例中,序列长度大于或者等于两千。
上述蛋白质结构预测装置的具体限定以及有益效果可以参见上文中对于蛋白质结构预测方法的限定,在此不再赘述。上述各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图7是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。如图7所示,该设备包括一个或多个处理器710以及存储器720,存储器720包括持久内存、易失内存和硬盘,图7中以一个处理器710为例。该设备还可以包括:输入装置730和输出装置740。
处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。
处理器710可以为中央处理器(Central Processing Unit,CPU)。处理器710还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器720作为一种非暂态计算机可读存储介质,包括持久内存、易失内存和硬盘,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的业务管理方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述任意一种分布式集群扩容方法。
存储器720可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据、需要使用的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器720可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
一个或者多个模块存储在存储器720中,当被一个或者多个处理器710执行时,执行如图1-5所示的方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,具体可参见如图1-5所示的实施例中的相关描述。
本发明实施例还提供了一种非暂态计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的认证方法。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种蛋白质结构预测方法,其特征在于,应用于计算机设备,所述计算机设备包括CPU和至少一个GPU,所述方法包括:
获取待预测蛋白质结构的目标蛋白质序列;
在所述CPU中,根据所述目标蛋白质序列的序列长度,确定所述目标蛋白质序列对应匹配序列的比对数量阈值;
根据所述比对数量阈值,将所述目标蛋白质序列与预置的蛋白质序列库中的多个蛋白质序列进行比对,确定所述目标蛋白质序列对应的匹配序列;
在预置的蛋白质结构数据库中,确定所述匹配序列对应的匹配结构;
将所述匹配序列和所述匹配结构输入至预置在所述GPU中的蛋白质结构预测模型中进行蛋白质结构预测,得到所述目标蛋白质序列对应的蛋白质预测结构。
2.根据权利要求1所述的方法,其特征在于,若预置的蛋白质数据库的数量为多个,则所述将所述目标蛋白质序列与预置的蛋白质序列库中的多个蛋白质序列进行比对,包括:
将所述目标蛋白质序列分别与预置的每个蛋白质序列库中的多个蛋白质序列进行比对。
3.根据权利要求1或2所述的方法,其特征在于,若所述GPU的数量为多个,且目标蛋白质序列的数量为多个时,则不同GPU中的蛋白质结构预测模型,预测不同目标蛋白质序列的蛋白质预测结构。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
统计并输出在所述CPU中,基于所述目标蛋白质序列确定所述匹配结构的处理时间。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
统计并输出在所述GPU中,得到所述目标蛋白质序列对应的蛋白质预测结构的预测时间。
6.根据权利要求1所述的方法,其特征在于,不同序列长度对应不同的比对数量阈值。
7.根据权利要求1所述的方法,其特征在于,所述序列长度大于或者等于两千。
8.一种蛋白质结构预测装置,其特征在于,应用于计算机设备,所述计算机设备包括CPU和至少一个GPU,所述装置包括:
获取单元,用于获取待预测蛋白质结构的目标蛋白质序列;
确定单元,用于在所述CPU中,根据所述目标蛋白质序列的序列长度,确定所述目标蛋白质序列对应匹配序列的比对数量阈值;
第一匹配单元,用于根据所述比对数量阈值,将所述目标蛋白质序列与预置的蛋白质序列库中的多个蛋白质序列进行比对,确定所述目标蛋白质序列对应的匹配序列;
第二匹配单元,用于在预置的蛋白质结构数据库中,确定所述匹配序列对应的匹配结构;
预测单元,用于将所述匹配序列和所述匹配结构输入至预置在所述GPU中的蛋白质结构预测模型中进行蛋白质结构预测,得到所述目标蛋白质序列对应的蛋白质预测结构。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7中任一项所述的蛋白质结构预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的蛋白质结构预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111506982.8A CN114220479B (zh) | 2021-12-10 | 2021-12-10 | 一种蛋白质结构预测方法、蛋白质结构预测装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111506982.8A CN114220479B (zh) | 2021-12-10 | 2021-12-10 | 一种蛋白质结构预测方法、蛋白质结构预测装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114220479A true CN114220479A (zh) | 2022-03-22 |
CN114220479B CN114220479B (zh) | 2023-09-19 |
Family
ID=80700800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111506982.8A Active CN114220479B (zh) | 2021-12-10 | 2021-12-10 | 一种蛋白质结构预测方法、蛋白质结构预测装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114220479B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035947A (zh) * | 2022-06-10 | 2022-09-09 | 水木未来(北京)科技有限公司 | 蛋白质结构建模方法及装置、电子设备和存储介质 |
CN116343905A (zh) * | 2022-12-30 | 2023-06-27 | 抖音视界有限公司 | 蛋白质特征的预处理方法、装置、介质及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101436230A (zh) * | 2008-12-25 | 2009-05-20 | 哈尔滨工程大学 | 蛋白质折叠仿真中的模蛇方法 |
US20100138376A1 (en) * | 2007-01-24 | 2010-06-03 | Nicholas John Avis | Method and system for searching for patterns in data |
US20130303383A1 (en) * | 2012-05-09 | 2013-11-14 | Sloan-Kettering Institute For Cancer Reseach | Methods and apparatus for predicting protein structure |
CN109614520A (zh) * | 2018-10-22 | 2019-04-12 | 中国科学院信息工程研究所 | 一种面向多模式图匹配的并行加速方法 |
-
2021
- 2021-12-10 CN CN202111506982.8A patent/CN114220479B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100138376A1 (en) * | 2007-01-24 | 2010-06-03 | Nicholas John Avis | Method and system for searching for patterns in data |
CN101436230A (zh) * | 2008-12-25 | 2009-05-20 | 哈尔滨工程大学 | 蛋白质折叠仿真中的模蛇方法 |
US20130303383A1 (en) * | 2012-05-09 | 2013-11-14 | Sloan-Kettering Institute For Cancer Reseach | Methods and apparatus for predicting protein structure |
CN109614520A (zh) * | 2018-10-22 | 2019-04-12 | 中国科学院信息工程研究所 | 一种面向多模式图匹配的并行加速方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035947A (zh) * | 2022-06-10 | 2022-09-09 | 水木未来(北京)科技有限公司 | 蛋白质结构建模方法及装置、电子设备和存储介质 |
CN115035947B (zh) * | 2022-06-10 | 2023-03-10 | 水木未来(北京)科技有限公司 | 蛋白质结构建模方法及装置、电子设备和存储介质 |
CN116343905A (zh) * | 2022-12-30 | 2023-06-27 | 抖音视界有限公司 | 蛋白质特征的预处理方法、装置、介质及设备 |
CN116343905B (zh) * | 2022-12-30 | 2024-01-16 | 抖音视界有限公司 | 蛋白质特征的预处理方法、装置、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114220479B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111768008B (zh) | 联邦学习方法、装置、设备和存储介质 | |
WO2020140386A1 (zh) | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 | |
CN110874671B (zh) | 一种配电网的电力负荷预测方法、装置及存储介质 | |
CN114220479A (zh) | 一种蛋白质结构预测方法、蛋白质结构预测装置及介质 | |
CN108897829A (zh) | 数据标签的修正方法、装置和存储介质 | |
CN109885406B (zh) | 算子计算优化方法、装置、设备及存储介质 | |
DE102021107586A1 (de) | Spekulatives training unter verwendung der aktualisierung partieller gradienten | |
CN116263701A (zh) | 算力网络任务调度方法、装置、计算机设备及存储介质 | |
CN111091106A (zh) | 图像聚类方法及装置、存储介质、电子装置 | |
CN113535831A (zh) | 一种基于大数据的报表分析方法、装置、设备和介质 | |
CN114895773A (zh) | 异构多核处理器的能耗优化方法、系统、装置及存储介质 | |
CN116403019A (zh) | 遥感图像量子识别方法、装置、存储介质及电子装置 | |
CN113032116A (zh) | 任务时间预测模型的训练方法、任务调度方法及相关装置 | |
CN115730555A (zh) | 一种芯片布局方法、装置、设备及存储介质 | |
CN113568836B (zh) | 多时间序列的样本特征提取方法以应用其的软件检测方法 | |
CN113821330A (zh) | 任务调度方法、装置、计算机设备和存储介质 | |
CN112182111B (zh) | 基于区块链的分布式系统分层处理方法和电子设备 | |
CN114915753A (zh) | 云服务器的构架、数据处理方法及存储介质 | |
CN116820714A (zh) | 一种算力设备的调度方法、装置、设备和存储介质 | |
WO2022223052A1 (zh) | 加速器、计算机系统和方法 | |
CN110795993A (zh) | 一种构建模型的方法、装置、终端设备及介质 | |
CN113608724A (zh) | 一种基于模型缓存实现的离线仓库实时交互方法与系统 | |
CN113064660A (zh) | 设备控制方法、装置、电子设备及存储介质 | |
CN115620031B (zh) | 一种自然资源确权登记信息处理方法、系统及设备 | |
CN116662415B (zh) | 基于数据挖掘的智能匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |