CN117809749B - 功能多肽序列的生成方法、装置、存储器和电子设备 - Google Patents
功能多肽序列的生成方法、装置、存储器和电子设备 Download PDFInfo
- Publication number
- CN117809749B CN117809749B CN202410223684.5A CN202410223684A CN117809749B CN 117809749 B CN117809749 B CN 117809749B CN 202410223684 A CN202410223684 A CN 202410223684A CN 117809749 B CN117809749 B CN 117809749B
- Authority
- CN
- China
- Prior art keywords
- functional polypeptide
- polypeptide sequence
- training
- model
- generation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 231
- 102000004196 processed proteins & peptides Human genes 0.000 title claims abstract description 228
- 229920001184 polypeptide Polymers 0.000 title claims abstract description 223
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000015654 memory Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 95
- 239000011159 matrix material Substances 0.000 claims abstract description 78
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 37
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 108020004729 UniProt protein families Proteins 0.000 claims description 14
- 102000006668 UniProt protein families Human genes 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 238000009792 diffusion process Methods 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000004071 biological effect Effects 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 10
- 238000000605 extraction Methods 0.000 abstract description 2
- 230000002194 synthesizing effect Effects 0.000 abstract description 2
- 239000003910 polypeptide antibiotic agent Substances 0.000 description 19
- 102000044503 Antimicrobial Peptides Human genes 0.000 description 7
- 108700042778 Antimicrobial Peptides Proteins 0.000 description 7
- 230000001093 anti-cancer Effects 0.000 description 7
- 150000001413 amino acids Chemical group 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000000844 anti-bacterial effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 101100379209 Arabidopsis thaliana APD3 gene Proteins 0.000 description 1
- 241001678559 COVID-19 virus Species 0.000 description 1
- 108010047041 Complementarity Determining Regions Proteins 0.000 description 1
- 241000711573 Coronaviridae Species 0.000 description 1
- 238000012404 In vitro experiment Methods 0.000 description 1
- 108060001084 Luciferase Proteins 0.000 description 1
- 239000005089 Luciferase Substances 0.000 description 1
- 108010069013 Phenylalanine Hydroxylase Proteins 0.000 description 1
- 102100038223 Phenylalanine-4-hydroxylase Human genes 0.000 description 1
- WDVSHHCDHLJJJR-UHFFFAOYSA-N Proflavine Chemical compound C1=CC(N)=CC2=NC3=CC(N)=CC=C3C=C21 WDVSHHCDHLJJJR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- NRUQNUIWEUZVLI-UHFFFAOYSA-O diethanolammonium nitrate Chemical compound [O-][N+]([O-])=O.OCC[NH2+]CCO NRUQNUIWEUZVLI-UHFFFAOYSA-O 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003472 neutralizing effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000455 protein structure prediction Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002910 structure generation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/10—Design of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Peptides Or Proteins (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了功能多肽序列的生成方法、装置、存储器和电子设备,属于蛋白质设计技术领域。生成方法包括:获取训练数据;将训练数据中的目的功能多肽序列编码为二维特征矩阵,利用二维特征矩阵训练功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型;利用训练好的功能多肽序列特征生成模型,通过调整噪音的采样方法生成多种新的功能多肽序列的二维特征矩阵;将各个新的功能多肽序列的二维特征矩阵解码为对应的新的功能多肽序列。本发明充分利用预训练的蛋白质大语言模型的特征提取能力及生成式模型的生成能力,通过有效提取特定类别的功能多肽的序列特征,达到从头合成无模板、目标结构未知的多样性的功能多肽或蛋白质序列的目的。
Description
技术领域
本发明涉及蛋白质设计技术领域,尤其涉及一种功能多肽序列的生成方法、装置、存储器和电子设备。
背景技术
功能多肽的设计在生物制药、生物工程、生物治理等领域具有重要意义。目前,一般采用深度学习的预测方法来发掘和设计新的功能多肽,比如:利用基于深度学习的抗菌肽分类器预测人肠道微生物组中的抗菌肽序列(Ma et al., 2022);利用整合了经验筛选、分类、排序、回归等多步骤的SMEP流程(Sequential Model Ensemble Pipeline,序贯模型整合流程)探索六肽空间中的可能抗菌肽序列(Huang et al., 2023);基于卷积神经网络和长短期记忆递归神经网络预测抗癌肽等(Chen et al., 2021; Lv et al., 2021)。但是,这些技术方法都需要首先构造和筛选待预测数据集,不仅使用方法相对复杂,而且发掘新的功能多肽序列的效果依赖于待预测数据集的性质。
蛋白质或多肽的从头设计技术能够不再依赖于待预测数据集,在功能多肽的设计中也得到了广泛的研究。目前,大多数从头设计技术旨在生成可以折叠成特定结构的蛋白质序列,或针对特定多肽骨架进行序列优化。例如:基于深度学习及MCMC(Markov ChainMonte Carlo,马尔科夫链蒙特卡罗)采样从头设计荧光素酶的理想骨架,进而生成相应的蛋白质序列(Yeh et al., 2023);基于RoseTTAFold蛋白质结构预测模型的RF扩散(RoseTTAFold Diffusion)模型在多种蛋白质结构生成任务中性能优越(Watson et al.,2023);基于ESM(Evolutionary Scale Modeling,演化尺度建模)蛋白质大语言模型的抗体序列优化方法可有效提高抗体亲和力,加速定向演化过程(Hie et al., 2023)。但是,这些技术都无法从头合成无模板、目标结构未知的特定生物学功能蛋白质或多肽序列。
基于此,不依赖结构信息的蛋白质或多肽序列从头设计方法逐渐被开发。比如:基于VAE的神经网络将抗菌肽序列映射到具有特定分布的连续隐变量,从而在隐变量空间采样生成全新抗菌肽序列(Dean and Walper, 2020);基于WAE(Wasserstein Autoencoder,沃塞斯坦自编码器)的CLaSS技术(Conditional Latent attribute Space Sampling,条件隐变量空间采样)可生成满足多种理化性质限制条件的抗菌肽序列(Das et al., 2021);结合蛋白质大语言模型ProtT5和生成模型VAE(Variational Autoencoder,变分自编码器)的ProT-VAE模型用于设计苯丙氨酸羟化酶(Sevgen et al., 2023);基于GPT-2模型(Generative Pre-trained Transformer 2,生成式预训练转换器)在蛋白质数据集上预训练的ProtGPT2模型可生成与自然界蛋白质性质相似的新序列(Ferruz et al., 2022);条件蛋白质语言模型ProGen实现了根据条件限制生成不同功能蛋白家族的新序列(Nijkampet al., 2022)。然而由于模型本身的性能特点,此类方法需要重新训练模型以产生不同目标功能的新序列,难以自由调节生成序列的目标性质及序列多样性。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明第一方面提供了一种功能多肽序列的生成方法,包括:
获取训练数据,所述训练数据包括目的功能多肽序列;
将所述训练数据中的目的功能多肽序列编码为二维特征矩阵,利用所述二维特征矩阵训练功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型;
利用训练好的功能多肽序列特征生成模型,通过调整噪音的采样方法生成多种新的功能多肽序列的二维特征矩阵;
将各个新的功能多肽序列的二维特征矩阵解码为对应的新的功能多肽序列。
优选地,若所述训练数据只包括目的功能多肽序列数据集,则直接将目的功能多肽序列编码为二维特征矩阵,并利用所述二维特征矩阵训练功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型;若所述训练数据包括UniProt蛋白质数据集和目的功能多肽序列数据集,则首先利用UniProt蛋白质数据集对功能多肽序列特征生成模型进行预训练,再利用目的功能多肽序列数据集对预训练得到的功能多肽序列特征生成模型进行微调,微调的方法为:将目的功能多肽序列编码为二维特征矩阵,并利用所述二维特征矩阵训练预训练得到的功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型。
优选地,所述将所述训练数据中的目的功能多肽序列编码为二维特征矩阵包括:
选用预训练的蛋白质大语言模型的编码器;
将大写字母表示的目的功能多肽序列输入至所述编码器中,得到对应的特征向量;
输出形状为“目的功能多肽序列长度*特征向量长度”的二维特征矩阵。
优选地,所述利用所述二维特征矩阵训练功能多肽序列特征生成模型包括:
将二维特征矩阵的数据集划分为训练集和测试集,采用自监督学习方式训练功能多肽序列特征生成模型,以功能多肽序列特征生成模型的输出与输入数据的重构误差作为损失函数。
优选地,所述功能多肽序列特征生成模型选自变分自编码器、生成对抗模型或扩散模型中的一种。
优选地,所述将各个新的功能多肽序列的二维特征矩阵解码为对应的新的功能多肽序列包括:
选用预训练的蛋白质大语言模型的解码器;
将新的功能多肽序列的二维特征矩阵输入至所述解码器中,得到对应的新的功能多肽序列。
优选地,所述训练数据中的目的功能多肽序列的筛选条件包括:生物活性为特定功能标签且经过实验验证;序列长度取自固定范围;序列由大写字母组成且无特殊字符。
本发明第二方面提供了一种功能多肽序列的生成装置,包括:
训练数据获取模块,用于获取训练数据,所述训练数据包括目的功能多肽序列;
模型训练模块,用于将所述训练数据中的目的功能多肽序列编码为二维特征矩阵,利用所述二维特征矩阵训练功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型;
特征矩阵生成模块,用于利用训练好的功能多肽序列特征生成模型,通过调整噪音的采样方法生成多种新的功能多肽序列的二维特征矩阵;
解码模块,用于将各个新的功能多肽序列的二维特征矩阵解码为对应的新的功能多肽序列。
本发明第三方面提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的方法。
本发明第四方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的方法。
本发明的有益效果是:本发明提供了一种功能多肽序列的生成方法、装置、存储器和电子设备。选用预训练的蛋白质大语言模型与生成式模型相结合的神经网络模型,经过训练,用于从头合成无模板、目标结构未知的功能多肽或蛋白质序列,并在无需重新训练模型的前提下,实现生成序列多样性的自由调节的目的。本发明充分利用了预训练的蛋白质大语言模型的特征提取能力及生成式模型的生成能力,通过有效提取特定类别的功能多肽的序列特征,从而达到了生成具有特定功能且自然界不存在的全新多肽序列的目的。
附图说明
图1为本发明所述功能多肽序列的生成方法流程示意图;
图2为本发明所述功能多肽序列的生成装置的功能结构示意图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
如图1所示,本发明实施例提供了一种功能多肽序列的生成方法,包括:S101,获取训练数据,所述训练数据包括目的功能多肽序列;S102,将所述训练数据中的目的功能多肽序列编码为二维特征矩阵,利用所述二维特征矩阵训练功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型;S103,利用训练好的功能多肽序列特征生成模型,通过调整噪音(隐变量,文中统称噪音)的采样方法生成多种新的功能多肽序列的二维特征矩阵;S104,将各个新的功能多肽序列的二维特征矩阵解码为对应的新的功能多肽序列。
其中,训练数据可以包括UniProt蛋白质数据集(由瑞士生物信息学研究所建立并维护的蛋白质序列与注释数据综合资源,是目前公认较为权威的蛋白质信息数据库)和目的功能多肽序列数据集,也可以只包括目的功能多肽序列数据集。
若所述训练数据只包括目的功能多肽序列数据集,则直接将目的功能多肽序列编码为二维特征矩阵,并利用所述二维特征矩阵训练功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型;
若所述训练数据包括UniProt蛋白质数据集和目的功能多肽序列数据集,则首先利用UniProt蛋白质数据集对功能多肽序列特征生成模型进行预训练,再利用目的功能多肽序列数据集对预训练得到的功能多肽序列特征生成模型进行微调,微调的方法为:将目的功能多肽序列编码为二维特征矩阵,并利用所述二维特征矩阵训练预训练好的功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型。其中,预训练与微调的训练方法类似,均为首先将UniProt蛋白质数据集和/或目的功能多肽序列数据集中的多肽序列编码为二维特征矩阵,再将二维特征矩阵输入功能多肽序列特征生成模型中,进行自监督式训练。以模型输出与输入的重构误差作为损失函数。预训练与微调的不同之处仅在于使用的训练数据集不同,训练超参数不同(如学习速率),及训练迭代轮次不同,本实施例中,预训练的学习速率为1e-4,迭代100轮,微调的学习速率为1e-5,迭代10轮。
需要说明的是,目的功能多肽序列数据集是指包括多个目的功能多肽序列的集合;功能多肽是指具有特定功能的多肽,比如抗菌肽,抗癌肽等;功能多肽序列是指多肽的氨基酸序列;目的功能多肽序列是指具有某种特定功能的多肽的氨基酸序列。
训练数据可以来自任意的功能多肽数据库。例如,抗菌肽数据库CAMPR4(Collection of Anti-Microbial Peptides)、ADAM(A Database of Anti-Microbialpeptides)、APD3(The Antimicrobial Peptide Database)和GRAMPA(Giant Repositoryof AMP Activities);抗癌肽数据库CancerPPD(Database of Anticancer Peptides&Proteins)、AplnAPDB(Apoptosis-Inducing Anticancer Peptides Database);抗体数据库OAS(Observed Antibody Space)、SAbDab(Structural Antibody Database)、CoV-AbDab(Coronavirus Antibody Database);以及UniProtKB reviewed蛋白质非冗余数据集。功能多肽序列数据的筛选条件为:1)生物活性为特定功能标签且经过实验验证;2)序列长度取自固定范围,如抗菌肽与抗癌肽为[5,50]个氨基酸,抗体互补决定区序列为[5,24]个氨基酸;3)序列由大写字母组成,无特殊字符。
本发明实施例中构建的整体神经网络选用了预训练的蛋白质大语言模型和功能多肽序列特征生成模型,其中预训练的蛋白质大语言模型的编码器部分和解码器部分需分开使用。生成新的功能多肽序列包括两个阶段,第一阶段为训练阶段,第二阶段为生成阶段。其中,在训练阶段,首先利用蛋白质大语言模型的编码器部分将目的功能多肽序列编码为连续空间的二维特征矩阵,然后利用编码器部分编码得到的二维特征矩阵训练功能多肽序列特征生成模型。在生成阶段,首先利用训练好的功能多肽序列特征生成模型生成新的功能多肽序列的二维特征矩阵,然后利用蛋白质大语言模型的解码器部分将功能多肽序列特征生成模型生成的新的功能多肽序列的二维特征矩阵解码为对应的新的功能多肽序列。
本发明实施例中,功能多肽序列特征生成模型可选用图像生成领域的模型,如变分自编码器、生成对抗模型、扩散模型等。
在本发明实施例中,所述将所述训练数据中的目的功能多肽序列编码为二维特征矩阵可以包括:选用预训练的蛋白质大语言模型的编码器;将大写字母表示的目的功能多肽序列输入至所述编码器中,得到对应的特征向量;输出形状为“目的功能多肽序列长度*特征向量长度”的二维特征矩阵。
进一步地,所述利用所述二维特征矩阵训练功能多肽序列特征生成模型可以包括:
将二维特征矩阵的数据集划分为训练集和测试集,采用自监督学习方式训练功能多肽序列特征生成模型,以功能多肽序列特征生成模型的输出与输入数据的重构误差作为损失函数。采用这种训练方式,可以无需对训练数据添加标注,在训练阶段可以使用功能多肽序列数据集单独训练,或先使用UniProt蛋白质数据集预训练,使生成模型学习更广泛的多肽序列特征,再使用功能多肽序列数据集微调。其中,训练集和测试集可以按照8:2划分。
在本发明实施例中,所述将各个新的功能多肽序列的二维特征矩阵解码为对应的新的功能多肽序列可以包括:选用预训练的蛋白质大语言模型的解码器;将新的功能多肽序列的二维特征矩阵输入至所述解码器中,得到对应的新的功能多肽序列。
在本发明的一个具体实施例中,采用本发明提供的功能多肽序列的生成方法,生成了全新的抗菌肽序列。具体的,在模型训练阶段,首先将取自UniProt蛋白质数据集的567834条多肽序列和收集自公共数据库的17456条抗菌肽序列经过预训练的蛋白质大语言模型编码器分别编码为二维特征矩阵,对应的分别得到UniProt多肽特征矩阵集合和抗菌肽特征矩阵集合。每条多肽序列对应的二维特征矩阵形状为“多肽序列长度*1024”。训练多肽序列特征生成模型时,先用UniProt多肽特征矩阵集合作为训练数据进行预训练,迭代轮次选用100轮;再用抗菌肽特征矩阵集合作为训练数据进行微调,迭代轮次选用10轮,得到训练好的多肽序列特征生成模型。在序列生成阶段,设置不同随机数种子,如42-45,及不同噪音分布,如高斯分布或取值范围为[-1,1]的均匀分布,分批次由抗菌肽序列特征生成模型生成总共2000个新的抗菌肽序列的二维特征矩阵。最后将生成的2000个新的抗菌肽序列的二维特征矩阵经过蛋白质大语言模型的解码器解码为大写字母表示的氨基酸序列。所得2000条生成的抗菌肽序列即可用于后续的筛选和验证。
本发明所生成的新的功能多肽序列既具有作为训练数据的目的功能多肽序列的特征,又具有序列的多样性。试验证明,对于不同的目标功能多肽的设计任务,与相应已知功能多肽数据集相比,生成的新的功能多肽数据集的序列长度分布及氨基酸组成比例无显著差异,说明本发明提供的模型可以有效学习训练数据集的序列特征;生成的新的功能多肽数据集与已知的功能多肽数据集的序列的相似度的峰值约为50%,最低小于20%,说明本发明提供的模型可生成自然界不存在的全新的多肽序列(由于采样的随机性,不同批次的相似度的峰值会上下浮动,所以在此处标注为“约”,下同)。
经体外实验验证,约80%的新生成的抗菌肽序列针对至少一种革兰氏阳性或革兰氏阴性菌具有显著抑制作用;对于革兰氏阴性细菌,抑菌效果最好的新生成的抗菌肽的最小抑菌浓度可达2.5uM。新生成的抗癌肽序列中约75%被已发表的预测工具iACP-DRLF(Lvet al., 2021)预测为阳性。针对新冠病毒SARS-CoV-2不同变异株,以人源抗体P36-5D2为骨架,新生成的抗体互补决定区序列可增加抗体对Delta(德尔塔)及Omicron(奥密克戎)变异株的中和能力,半抑制浓度最低可达0.04ug/mL。
实施例二
如图2所示,本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种功能多肽序列的生成装置,包括:训练数据获取模块201,用于获取训练数据,所述训练数据包括目的功能多肽序列;模型训练模块202,用于将所述训练数据中的目的功能多肽序列编码为二维特征矩阵,利用所述二维特征矩阵训练功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型;特征矩阵生成模块203,用于利用训练好的功能多肽序列特征生成模型,通过调整噪音的采样方法生成多种新的功能多肽序列的二维特征矩阵;解码模块204,用于将各个新的功能多肽序列的二维特征矩阵解码为对应的新的功能多肽序列。
在所述模型训练模块中,若所述训练数据只包括目的功能多肽序列数据集,则直接将目的功能多肽序列编码为二维特征矩阵,并利用所述二维特征矩阵训练功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型;若所述训练数据包括UniProt蛋白质数据集和目的功能多肽序列数据集,则首先利用UniProt蛋白质数据集对功能多肽序列特征生成模型进行预训练,再利用目的功能多肽序列数据集对预训练得到的功能多肽序列特征生成模型进行微调,微调的方法为:将目的功能多肽序列编码为二维特征矩阵,并利用所述二维特征矩阵训练预训练好的功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型。
其中,所述将所述训练数据中的目的功能多肽序列编码为二维特征矩阵包括:选用预训练的蛋白质大语言模型的编码器;将大写字母表示的目的功能多肽序列输入至所述编码器中,得到对应的特征向量;输出形状为“目的功能多肽序列长度*特征向量长度”的二维特征矩阵。
进一步地,所述利用所述二维特征矩阵训练功能多肽序列特征生成模型包括:将二维特征矩阵的数据集划分为训练集和测试集,采用自监督学习方式训练功能多肽序列特征生成模型,以功能多肽序列特征生成模型的输出与输入数据的重构误差作为损失函数。
进一步地,所述功能多肽序列特征生成模型选自变分自编码器、生成对抗模型或扩散模型中的一种。
在所述解码模块中,所述将各个新的功能多肽序列的二维特征矩阵解码为对应的新的功能多肽序列包括:选用预训练的蛋白质大语言模型的解码器;将新的功能多肽序列的二维特征矩阵输入至所述解码器中,得到对应的新的功能多肽序列。
在所述训练数据获取模块中,所述目的功能多肽序列的筛选条件包括:生物活性为特定功能标签且经过实验验证;序列长度取自固定范围;序列由大写字母组成且无特殊字符。
该装置可通过上述实施例一提供的功能多肽序列的生成方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的方法。
文中引用文献说明:
Chen,J.,Cheong,H.H.,and Siu, S.W.I. (2021). xDeep-AcPEP: DeepLearning Method for Anticancer Peptide Activity Prediction Based onConvolutional Neural Network and Multitask Learning. J Chem Inf Model61,3789-3803.
Das, P., Sercu, T., Wadhawan, K., Padhi, I., Gehrmann, S., Cipcigan,F., Chenthamarakshan, V., Strobelt, H., Dos Santos, C., Chen, P.Y., et al.(2021). Accelerated antimicrobial discovery via deep generative models andmolecular dynamics simulations. Nat Biomed Eng5, 613-623.
Dean, S.N., and Walper, S.A. (2020). Variational Autoencoder forGeneration of Antimicrobial Peptides. ACS Omega5, 20746-20754.
Ferruz, N., Schmidt, S., and Hocker, B. (2022). ProtGPT2 is a deepunsupervised language model for protein design. Nat Commun13, 4348.
Hie, B.L., Shanker, V.R., Xu, D., Bruun, T.U.J., Weidenbacher, P.A.,Tang, S., Wu, W., Pak, J.E., and Kim, P.S. (2023). Efficient evolution ofhuman antibodies from general protein language models. Nat Biotechnol.
Huang, J., Xu, Y., Xue, Y., Huang, Y., Li, X., Chen, X., Xu, Y.,Zhang, D., Zhang, P., Zhao, J., et al.(2023). Identification of potentantimicrobial peptides via a machine-learning pipeline that mines the entirespace of peptide sequences. Nat Biomed Eng7, 797-810.
Lv, Z., Cui, F., Zou, Q., Zhang, L., and Xu, L. (2021). Anticancerpeptides prediction with deep representation learning features. BriefBioinform22.
Ma, Y., Guo, Z., Xia, B., Zhang, Y., Liu, X., Yu, Y., Tang, N., Tong,X., Wang, M., Ye, X., et al.(2022). Identification of antimicrobial peptidesfrom the human gut microbiome using deep learning. Nat Biotechnol40, 921-931.
Nijkamp, E., Ruffolo, J., Weinstein, E.N., Naik, N., and Madani, A.(2022). ProGen2: exploring the boundaries of protein language models. arXivpreprint arXiv:220613517.
Sevgen, E., Moller, J., Lange, A., Parker, J., Quigley, S., Mayer,J., Srivastava, P., Gayatri, S., Hosfield, D., Korshunova, M., et al.(2023).ProT-VAE: Protein Transformer Variational AutoEncoder for Functional ProteinDesign. bioRxiv, 2023.2001.2023.525232.
Watson, J.L., Juergens, D., Bennett, N.R., Trippe, B.L., Yim, J.,Eisenach, H.E., Ahern, W., Borst, A.J., Ragotte, R.J., Milles, L.F., et al.(2023). De novo design of protein structure and function with RFdiffusion.Nature.
Yeh, A.H., Norn, C., Kipnis, Y., Tischer, D., Pellock, S.J., Evans,D., Ma, P., Lee, G.R., Zhang, J.Z., Anishchenko, I., et al.(2023). De novodesign of luciferases using deep learning. Nature614, 774-780.
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种功能多肽序列的生成方法,其特征在于,包括:
获取训练数据,所述训练数据包括目的功能多肽序列;
若所述训练数据只包括目的功能多肽序列数据集,则直接将目的功能多肽序列编码为二维特征矩阵,并利用所述二维特征矩阵训练功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型;
若所述训练数据包括UniProt蛋白质数据集和目的功能多肽序列数据集,则首先利用UniProt蛋白质数据集对功能多肽序列特征生成模型进行预训练,再利用目的功能多肽序列数据集对预训练得到的功能多肽序列特征生成模型进行微调,微调的方法为:将目的功能多肽序列编码为二维特征矩阵,并利用所述二维特征矩阵训练预训练得到的功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型;利用训练好的功能多肽序列特征生成模型,通过调整噪音的采样方法生成多种新的功能多肽序列的二维特征矩阵;
将各个新的功能多肽序列的二维特征矩阵解码为对应的新的功能多肽序列。
2.如权利要求1所述的功能多肽序列的生成方法,其特征在于,所述将目的功能多肽序列编码为二维特征矩阵包括:
选用预训练的蛋白质大语言模型的编码器;
将大写字母表示的目的功能多肽序列输入至所述编码器中,得到对应的特征向量;
输出形状为“目的功能多肽序列长度*特征向量长度”的二维特征矩阵。
3.如权利要求1所述的功能多肽序列的生成方法,其特征在于,所述利用所述二维特征矩阵训练功能多肽序列特征生成模型包括:
将二维特征矩阵的数据集划分为训练集和测试集,采用自监督学习方式训练功能多肽序列特征生成模型,以功能多肽序列特征生成模型的输出与输入数据的重构误差作为损失函数。
4.如权利要求1所述的功能多肽序列的生成方法,其特征在于,所述功能多肽序列特征生成模型选自变分自编码器、生成对抗模型或扩散模型中的一种。
5.如权利要求1所述的功能多肽序列的生成方法,其特征在于,所述将各个新的功能多肽序列的二维特征矩阵解码为对应的新的功能多肽序列包括:
选用预训练的蛋白质大语言模型的解码器;
将新的功能多肽序列的二维特征矩阵输入至所述解码器中,得到对应的新的功能多肽序列。
6.如权利要求1所述的功能多肽序列的生成方法,其特征在于,所述训练数据中的目的功能多肽序列的筛选条件包括:生物活性为特定功能标签且经过实验验证;序列长度取自固定范围;序列由大写字母组成且无特殊字符。
7.一种功能多肽序列的生成装置,其特征在于,包括:
训练数据获取模块,用于获取训练数据,所述训练数据包括目的功能多肽序列;
模型训练模块,用于若所述训练数据只包括目的功能多肽序列数据集,则直接将目的功能多肽序列编码为二维特征矩阵,并利用所述二维特征矩阵训练功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型;若所述训练数据包括UniProt蛋白质数据集和目的功能多肽序列数据集,则首先利用UniProt蛋白质数据集对功能多肽序列特征生成模型进行预训练,再利用目的功能多肽序列数据集对预训练得到的功能多肽序列特征生成模型进行微调,微调的方法为:将目的功能多肽序列编码为二维特征矩阵,并利用所述二维特征矩阵训练预训练得到的功能多肽序列特征生成模型,得到训练好的功能多肽序列特征生成模型;
特征矩阵生成模块,用于利用训练好的功能多肽序列特征生成模型,通过调整噪音的采样方法生成多种新的功能多肽序列的二维特征矩阵;
解码模块,用于将各个新的功能多肽序列的二维特征矩阵解码为对应的新的功能多肽序列。
8.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-6之任一项所述的功能多肽序列的生成方法。
9.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-6之任一项所述的功能多肽序列的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410223684.5A CN117809749B (zh) | 2024-02-28 | 2024-02-28 | 功能多肽序列的生成方法、装置、存储器和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410223684.5A CN117809749B (zh) | 2024-02-28 | 2024-02-28 | 功能多肽序列的生成方法、装置、存储器和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117809749A CN117809749A (zh) | 2024-04-02 |
CN117809749B true CN117809749B (zh) | 2024-05-28 |
Family
ID=90423837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410223684.5A Active CN117809749B (zh) | 2024-02-28 | 2024-02-28 | 功能多肽序列的生成方法、装置、存储器和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117809749B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614538A (zh) * | 2020-12-17 | 2021-04-06 | 厦门大学 | 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置 |
CN114496064A (zh) * | 2022-01-18 | 2022-05-13 | 武汉大学 | Ccs预测模型构建方法、装置、设备及可读存储介质 |
CN115512763A (zh) * | 2022-09-06 | 2022-12-23 | 北京百度网讯科技有限公司 | 多肽序列的生成方法、多肽生成模型的训练方法和装置 |
CN116030908A (zh) * | 2023-02-22 | 2023-04-28 | 湖南大学 | 基于策略梯度和结构信息的抗癌肽生成模型及其训练方法 |
CN116206690A (zh) * | 2023-05-04 | 2023-06-02 | 山东大学齐鲁医院 | 一种抗菌肽生成和识别方法及系统 |
CN116978450A (zh) * | 2023-05-16 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 蛋白质数据的处理方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230326543A1 (en) * | 2022-02-28 | 2023-10-12 | University Of Chicago | System, method, and computer readable storage medium for auto-regressive wavenet variational autoencoders for alignment-free generative protein design and fitness prediction |
-
2024
- 2024-02-28 CN CN202410223684.5A patent/CN117809749B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614538A (zh) * | 2020-12-17 | 2021-04-06 | 厦门大学 | 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置 |
CN114496064A (zh) * | 2022-01-18 | 2022-05-13 | 武汉大学 | Ccs预测模型构建方法、装置、设备及可读存储介质 |
CN115512763A (zh) * | 2022-09-06 | 2022-12-23 | 北京百度网讯科技有限公司 | 多肽序列的生成方法、多肽生成模型的训练方法和装置 |
CN116030908A (zh) * | 2023-02-22 | 2023-04-28 | 湖南大学 | 基于策略梯度和结构信息的抗癌肽生成模型及其训练方法 |
CN116206690A (zh) * | 2023-05-04 | 2023-06-02 | 山东大学齐鲁医院 | 一种抗菌肽生成和识别方法及系统 |
CN116978450A (zh) * | 2023-05-16 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 蛋白质数据的处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117809749A (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11573239B2 (en) | Methods and systems for de novo peptide sequencing using deep learning | |
Tran et al. | De novo peptide sequencing by deep learning | |
CN113035280B (zh) | 一种基于深度学习的rbp结合位点预测算法 | |
Wan et al. | Deep generative models for peptide design | |
Madan et al. | Learning gflownets from partial episodes for improved convergence and stability | |
Busia et al. | Next-step conditioned deep convolutional neural networks improve protein secondary structure prediction | |
CN109360608A (zh) | 使用相乘形式的模型鉴定生物分子的方法、系统和软件 | |
US11644470B2 (en) | Systems and methods for de novo peptide sequencing using deep learning and spectrum pairs | |
CN113571124B (zh) | 一种配体-蛋白质相互作用的预测方法及装置 | |
CN112289370B (zh) | 一种蛋白质结构预测方法及装置 | |
CN114420211A (zh) | 一种基于注意力机制的rna-蛋白质结合位点预测方法 | |
CN114026645A (zh) | 会聚抗体特异性序列模式的鉴定 | |
Gupta et al. | Seeded self-play for language learning | |
Tran et al. | Deep omics | |
Connell et al. | A single-cell gene expression language model | |
CN117809749B (zh) | 功能多肽序列的生成方法、装置、存储器和电子设备 | |
CN106021991B (zh) | 一种基于布尔网络模拟干预肿瘤细胞状态的方法 | |
Singh et al. | Multi-scale temporal convolutional networks and continual learning based in silico discovery of alternative antibiotics to combat multi-drug resistance | |
CN116884529A (zh) | 基于多视图神经网络变分自编码器的分子骨架跃迁方法 | |
Chen et al. | An effective tumor classification with deep forest and self-training | |
Mamano et al. | Sana: Simulated annealing network alignment applied to biological networks | |
Lowe et al. | Learning to learn to communicate | |
Mardikoraem et al. | Machine Learning-Driven Protein Library Design: A Path Toward Smarter Libraries | |
Liao et al. | Generative model With dynamic linear flow | |
Chen et al. | Designing Novel Functional Peptides by Manipulating a Temperature in the Softmax Function Coupled with Variational Autoencoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |