CN117711532A - 多肽氨基酸序列生成模型训练及相关产品 - Google Patents
多肽氨基酸序列生成模型训练及相关产品 Download PDFInfo
- Publication number
- CN117711532A CN117711532A CN202410165333.3A CN202410165333A CN117711532A CN 117711532 A CN117711532 A CN 117711532A CN 202410165333 A CN202410165333 A CN 202410165333A CN 117711532 A CN117711532 A CN 117711532A
- Authority
- CN
- China
- Prior art keywords
- sequence
- word
- amino acid
- feature
- polypeptide
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 472
- 102000004196 processed proteins & peptides Human genes 0.000 title claims abstract description 472
- 229920001184 polypeptide Polymers 0.000 title claims abstract description 471
- 125000003275 alpha amino acid group Chemical group 0.000 title claims abstract description 260
- 238000012549 training Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 70
- 239000012634 fragment Substances 0.000 claims abstract description 62
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 230000027455 binding Effects 0.000 claims abstract description 16
- 238000012986 modification Methods 0.000 claims description 44
- 230000004048 modification Effects 0.000 claims description 44
- 150000001413 amino acids Chemical class 0.000 claims description 43
- 230000000694 effects Effects 0.000 claims description 25
- 238000003860 storage Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 69
- 238000012360 testing method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 230000000670 limiting effect Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 108010068327 4-hydroxyphenylpyruvate dioxygenase Proteins 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 125000000539 amino acid group Chemical group 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 108010016626 Dipeptides Proteins 0.000 description 1
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001093 anti-cancer Effects 0.000 description 1
- 230000000840 anti-viral effect Effects 0.000 description 1
- 230000002155 anti-virotic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 230000008499 blood brain barrier function Effects 0.000 description 1
- 210000001218 blood-brain barrier Anatomy 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000000329 molecular dynamics simulation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000000455 protein structure prediction Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明提供一种多肽氨基酸序列生成模型训练及相关产品。该方法的一具体实施方式包括:通过利用与目标受体之间结合有活性的活性多肽氨基酸序列,再对活性多肽氨基酸序列进行词元切分得到活性多肽词元序列,再将活性多肽词元序列的片段和相应向后移位一个词元之后的移位词元序列分别进行特征嵌入表示,并分别作为样本特征数据的样本多肽词元特征序列和期望输出的标签词元特征序列,再以样本多肽词元特征序列作为输入数据,以标签词元特征序列作为监督数据对多肽氨基酸序列生成模型进行训练。进而,多肽氨基酸序列生成模型可以预测与目标受体之间具有结合活性的多肽氨基酸序列。
Description
技术领域
本发明的实施例涉及多肽设计技术领域,具体涉及多肽氨基酸序列生成模型训练及相关产品,特别是多肽氨基酸序列生成模型训练以及多肽氨基酸序列生成方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
多肽具有抗病毒、抗菌、抗癌症等特性,且可穿过血脑屏障,为药物研发中的热点。因此在多肽设计领域,针对指定抗体自动生成全新多肽可以加快多肽设计的速度,并大大降低多肽设计的各种成本。
发明内容
本发明的实施例提出了多肽氨基酸序列生成模型训练以及多肽氨基酸序列生成方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
第一方面,本发明的实施例提供了一种方法,该方法包括:
获取活性多肽氨基酸序列集合,其中,活性多肽与目标受体之间具有结合活性;
对于每个所述活性多肽氨基酸序列,执行以下样本特征数据生成操作:对于该活性多肽氨基酸序列进行词元切分,得到活性多肽词元序列;对于所述活性多肽词元序列的每个片段词元序列,执行以下嵌入特征表示操作:基于该片段词元序列生成输入词元序列和标签词元序列,所述输入词元序列和所述标签词元序列均包括预设最长多肽氨基酸序列长度个词元,其中,所述输入词元序列通过依次拼接用于表征起始位置的起始词元、该片段词元序列除最后一个词元外的前部片段词元序列和至少一个连续排列的预设补齐用词元而得到,所述标签词元序列通过依次拼接该片段词元序列和至少一个连续排列的预设补齐用词元而得到;对于所述输入词元序列和所述标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列;将所述输入词元特征序列和所述标签词元特征序列分别作为样本特征数据中的样本多肽词元特征序列和标签多肽词元特征序列添加到样本特征数据集合中,以完成针对该片段词元序列的嵌入特征表示操作;
基于所述样本特征数据集合,对初始多肽氨基酸序列生成模型进行训练,得到训练后的多肽氨基酸序列生成模型,其中,所述多肽氨基酸序列特征生成模型用于表征词元特征序列或者预设起始多肽词元特征与词元本身嵌入特征之间的对应关系。
在一些可选的实施方式中,所述对于该活性多肽氨基酸序列进行词元切分,得到活性多肽词元序列,包括:
确定该活性多肽氨基酸序列中的修饰基团序列;
将该活性多肽氨基酸序列中的修饰基团序列中的每个修饰基团切分为相应修饰基团词元,以及将该活性多肽氨基酸序列中除修饰基团序列外的其它部分切分成相应氨基酸词元,拼接切分得到的各修饰基团词元和氨基酸词元得到所述活性多肽词元序列。
在一些可选的实施方式中,所述初始多肽氨基酸序列生成模型为Transformer模型中的解码器。
在一些可选的实施方式中,所述Transformer模型中的解码器包括多个相同的层。
在一些可选的实施方式中,所述Transformer模型中的解码器每层包括:第一子层和第二子层,其中,第一子层包括规范化层、遮掩多头注意力层和残差连接层,第二子层包括规范化层、前馈全连接层和残差连接层。
在一些可选的实施方式中,所述输入词元特征序列为输入词元嵌入特征序列与输入词元位置嵌入特征序列之和。
在一些可选的实施方式中,所述样本特征数据生成操作中,在所述对于所述活性多肽词元序列的每个片段词元序列,执行以下嵌入特征表示操作之前,还包括:
基于所述活性多肽词元序列,生成相应的至少一个片段词元序列。
在一些可选的实施方式中,所述对于所述输入词元序列和所述标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列,包括:
对于所述输入词元序列和所述标签词元序列中的每个词元,进行词元本身嵌入特征表示和词元位置嵌入特征表示,以及合并词元本身嵌入特征表示和词元位置嵌入特征表示后得到相应词元的词元整体嵌入特征表示;
对于所述输入词元序列和所述标签词元序列,分别按照每个词元在所述输入词元序列和所述标签词元序列中的出现顺序,拼接相应词元的词元整体嵌入特征表示,得到输入词元特征序列和标签词元特征序列,其中,所述输入词元特征序列中的输入词元特征为输入词元的词元整体嵌入特征表示,所述标签词元特征序列中的标签词元特征为标签词元的词元整体嵌入特征表示。
在一些可选的实施方式中,所述基于所述样本特征数据集合,对初始多肽氨基酸序列生成模型进行训练,得到训练后的多肽氨基酸序列生成模型,包括:
将样本特征数据中的样本多肽词元特征序列连续所述预设最长多肽氨基酸序列长度次输入所述初始多肽氨基酸序列生成模型得到实际输出的多肽词元本身嵌入特征;
将各次输出的多肽词元本身嵌入特征按照时序确定相应词元位置嵌入特征以及合并相应词元位置嵌入特征后得到实际输出多肽词元特征序列;
基于所述实际输出多肽词元特征序列和所述样本特征数据中的标签多肽词元特征序列之间的差异,采用预设参数优化方法调整所述初始多肽氨基酸序列生成模型的模型参数。
第二方面,本发明的实施例提供了一种多肽氨基酸序列生成方法,该方法包括:
将预设起始多肽词元特征连续预设最长多肽氨基酸序列长度次输入多肽氨基酸序列生成模型,得到预设最长多肽氨基酸序列长度个连续输出的词元本身嵌入特征,其中,所述多肽氨基酸序列生成模型是采用如权利要求1-6中任一所述的方法预先训练得到的;
按照各个输出的词元本身嵌入特征的输出顺序,拼接相应输出词元本身嵌入特征对应的词元,得到与所述目标受体之间结合具有活性的多肽氨基酸序列。
第三方面,本发明的实施例提供了一种多肽氨基酸序列生成模型训练装置,该装置包括:
获取模块,被配置为获取活性多肽氨基酸序列集合,其中,活性多肽与目标受体之间具有结合活性;
生成模块,被配置为对于每个所述活性多肽氨基酸序列,执行以下样本特征数据生成操作:对于该活性多肽氨基酸序列进行词元切分,得到活性多肽词元序列;对于所述活性多肽词元序列的每个片段词元序列,执行以下嵌入特征表示操作:基于该片段词元序列生成输入词元序列和标签词元序列,所述输入词元序列和所述标签词元序列均包括预设最长多肽氨基酸序列长度个词元,其中,所述输入词元序列通过依次拼接用于表征起始位置的起始词元、该片段词元序列除最后一个词元外的前部片段词元序列和至少一个连续排列的预设补齐用词元而得到,所述标签词元序列通过依次拼接该片段词元序列和至少一个连续排列的预设补齐用词元而得到;对于所述输入词元序列和所述标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列;将所述输入词元特征序列和所述标签词元特征序列分别作为样本特征数据中的样本多肽词元特征序列和标签多肽词元特征序列添加到样本特征数据集合中,以完成针对该片段词元序列的嵌入特征表示操作;
训练模块,被配置为基于所述样本特征数据集合,对初始多肽氨基酸序列生成模型进行训练,得到训练后的多肽氨基酸序列生成模型,其中,所述多肽氨基酸序列特征生成模型用于表征词元特征序列或者预设起始多肽词元特征与词元本身嵌入特征之间的对应关系。
在一些可选的实施方式中,所述对于该活性多肽氨基酸序列进行词元切分,得到活性多肽词元序列,包括:
确定该活性多肽氨基酸序列中的修饰基团序列;
将该活性多肽氨基酸序列中的修饰基团序列中的每个修饰基团切分为相应修饰基团词元,以及将该活性多肽氨基酸序列中除修饰基团序列外的其它部分切分成相应氨基酸词元,拼接切分得到的各修饰基团词元和氨基酸词元得到所述活性多肽词元序列。
在一些可选的实施方式中,所述初始多肽氨基酸序列生成模型为Transformer模型中的解码器。
在一些可选的实施方式中,所述Transformer模型中的解码器包括多个相同的层。
在一些可选的实施方式中,所述Transformer模型中的解码器每层包括:第一子层和第二子层,其中,第一子层包括规范化层、遮掩多头注意力层和残差连接层,第二子层包括规范化层、前馈全连接层和残差连接层。
在一些可选的实施方式中,所述输入词元特征序列为输入词元嵌入特征序列与输入词元位置嵌入特征序列之和。
在一些可选的实施方式中,所述样本特征数据生成操作中,在所述对于所述活性多肽词元序列的每个片段词元序列,执行以下嵌入特征表示操作之前,还包括:
基于所述活性多肽词元序列,生成相应的至少一个片段词元序列。
在一些可选的实施方式中,所述对于所述输入词元序列和所述标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列,包括:
对于所述输入词元序列和所述标签词元序列中的每个词元,进行词元本身嵌入特征表示和词元位置嵌入特征表示,以及合并词元本身嵌入特征表示和词元位置嵌入特征表示后得到相应词元的词元整体嵌入特征表示;
对于所述输入词元序列和所述标签词元序列,分别按照每个词元在所述输入词元序列和所述标签词元序列中的出现顺序,拼接相应词元的词元整体嵌入特征表示,得到输入词元特征序列和标签词元特征序列,其中,所述输入词元特征序列中的输入词元特征为输入词元的词元整体嵌入特征表示,所述标签词元特征序列中的标签词元特征为标签词元的词元整体嵌入特征表示。
在一些可选的实施方式中,所述训练模块进一步被配置为:
将样本特征数据中的样本多肽词元特征序列连续所述预设最长多肽氨基酸序列长度次输入所述初始多肽氨基酸序列生成模型得到实际输出的多肽词元本身嵌入特征;
将各次输出的多肽词元本身嵌入特征按照时序确定相应词元位置嵌入特征以及合并相应词元位置嵌入特征后得到实际输出多肽词元特征序列;
基于所述实际输出多肽词元特征序列和所述样本特征数据中的标签多肽词元特征序列之间的差异,采用预设参数优化方法调整所述初始多肽氨基酸序列生成模型的模型参数。
第四方面,本发明的实施例提供了一种多肽氨基酸序列生成装置,该装置包括:
输入模块,被配置为将预设起始多肽词元特征连续预设最长多肽氨基酸序列长度次输入多肽氨基酸序列生成模型,得到预设最长多肽氨基酸序列长度个连续输出的词元本身嵌入特征,其中,所述多肽氨基酸序列生成模型是采用如第一方面中任一实现方式描述的方法预先训练得到的;
拼接模块,被配置为按照各个输出的词元本身嵌入特征的输出顺序,拼接相应输出词元本身嵌入特征对应的词元,得到与所述目标受体之间结合具有活性的多肽氨基酸序列。
第五方面,本发明的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面和/或第二方面中任一实现方式描述的方法。
第六方面,本发明的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被一个或多个处理器执行时实现如第一方面和/或第二方面中任一实现方式描述的方法。
第七方面,本发明的实施例还提供了一种计算机程序产品。该计算机程序产品包括指令,该指令被机器执行时实现如第一方面和/或第二方面中任一实现方式描述的方法。
本发明的实施例提供的多肽氨基酸序列生成模型训练以及多肽氨基酸序列生成方法、装置、电子设备、计算机可读存储介质和计算机程序产品,通过首先获取活性多肽氨基酸序列集合,其中,活性多肽与目标受体之间具有结合活性。再对于每个活性多肽氨基酸序列,执行以下样本特征数据生成操作:对于该活性多肽氨基酸序列进行词元切分,得到活性多肽词元序列;对于活性多肽词元序列的每个片段词元序列,执行以下嵌入特征表示操作:基于该片段词元序列生成输入词元序列和标签词元序列,输入词元序列和标签词元序列均包括预设最长多肽氨基酸序列长度个词元,其中,输入词元序列通过依次拼接用于表征起始位置的起始词元、该片段词元序列除最后一个词元外的前部片段词元序列和至少一个连续排列的预设补齐用词元而得到,标签词元序列通过依次拼接该片段词元序列和至少一个连续排列的预设补齐用词元而得到;对于输入词元序列和标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列;将输入词元特征序列和标签词元特征序列分别作为样本特征数据中的样本多肽词元特征序列和标签多肽词元特征序列添加到样本特征数据集合中,以完成针对该片段词元序列的嵌入特征表示操作。最后,再基于样本特征数据集合,对初始多肽氨基酸序列生成模型进行训练,得到训练后的多肽氨基酸序列生成模型,其中,多肽氨基酸序列特征生成模型用于表征词元序列特征与词元本身嵌入特征之间的对应关系。即,通过利用与目标受体之间结合有活性的活性多肽氨基酸序列,再对活性多肽氨基酸序列进行词元切分得到活性多肽词元序列,再将活性多肽词元序列的片段和相应向后移位一个词元之后的移位词元序列分别进行特征嵌入表示,并分别作为样本特征数据的样本多肽词元特征序列和期望输出的标签词元特征序列,再以样本多肽词元特征序列作为输入数据,以标签词元特征序列作为监督数据对多肽氨基酸序列生成模型进行训练。进而,多肽氨基酸序列生成模型可以根据上文预测与目标受体之间具有结合活性的多肽氨基酸序列的下一个词元,进而通过连续多次预测即可生成多肽氨基酸序列。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出具体实施方式的目的,而并不认为是对本发明的限制。在附图中:
图1是根据本发明的多肽氨基酸序列生成模型训练以及多肽氨基酸序列生成方法和装置可以应用于其中的一个实施例的系统架构图;
图2A是根据本发明的多肽氨基酸序列生成模型训练方法的一个实施例的流程图;
图2B是根据本发明的步骤201的一个实施例的分解流程图;
图2C是根据本发明的步骤2021中模型参数调整操作一个实施例的分解流程图;
图3是根据本发明的具体实验中步骤201的一个实施例的流程图;
图4是本发明的具体实验中对RSV活性多肽氨基酸序列进行词元切分以及嵌入特征表示的一个实施例的示意图;
图5是根据本发明的Transformer模型中的解码器每层的结构示意图;
图6为本发明的Transformer模型解码器与LSTM的困惑度对比结果图;
图7为根据本发明的多肽氨基酸序列生成方法的一个实施例的流程图;
图8为根据本发明的一个RSV多肽的3D结构示意图;
图9是根据本发明的多肽氨基酸序列生成模型训练装置的一个实施例的结构示意图;
图10是根据本发明的多肽氨基酸序列生成装置的一个实施例的结构示意图;
图11是适于用来实现本发明的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
图1示出了可以应用本发明的多肽氨基酸序列生成模型训练以及多肽氨基酸序列生成方法和装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如生物信息分析类应用、多肽氨基酸序列生成模型训练类应用、多肽氨基酸序列生成类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有信息输出装置的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供多肽氨基酸序列生成服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的多肽氨基酸序列生成模型训练类应用提供支持的后台服务器。后台服务器可以对接收到的训练数据集等进行相应处理。
在一些情况下,本发明所提供的多肽氨基酸序列生成模型训练以及多肽氨基酸序列生成方法可以由终端设备101、102、103和服务器105共同执行,例如,“获取活性多肽氨基酸序列集合”的步骤可以由终端设备101、102、103执行,“对于每个活性多肽氨基酸序列,执行样本特征数据生成操作”的步骤可以由服务器105执行。本发明对此不做限定。相应地,多肽氨基酸序列生成模型训练以及多肽氨基酸序列生成装置也可以分别设置于终端设备101、102、103和服务器105中。
在一些情况下,本发明所提供的多肽与受体结合活性预测模型训练以及多肽与受体结合活性预测方法可以由终端设备101、102、103执行,相应地,多肽氨基酸序列生成模型训练以及多肽氨基酸序列生成装置也可以设置于终端设备101、102、103中,这时,系统架构100也可以不包括服务器105。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2A,其示出了根据本发明的多肽氨基酸序列生成模型训练方法的一个实施例的流程200,该流程200包括以下步骤:
步骤201,获取活性多肽氨基酸序列集合。
在本实施例中,多肽氨基酸序列生成模型训练方法的执行主体(例如图1所示的服务器105)可以采用各种实现方式获取活性多肽氨基酸序列集合。
这里,活性多肽氨基酸序列可以为用于表征活性多肽一级结构中氨基酸残基排列顺序的文本数据。其中,活性多肽与目标受体之间具有结合活性。这里,目标受体可以是指定的具体受体,或者也可以是一类具有相似性质特点的受体。例如,目标受体可以为RSV F蛋白。
例如,可以以Kd/KI/IC50/EC50 指标来判断活性,筛选并保留Kd/KI/IC50/EC50 <10μM的多肽,作为活性多肽。
步骤202,对于每个活性多肽氨基酸序列,执行样本特征数据生成操作。
这里,样本特征数据生成操作可以包括如图2B所示的步骤2021和步骤2022:
步骤2021,对于该活性多肽氨基酸序列进行词元切分,得到活性多肽词元序列。
这里,可以对于该活性多肽氨基酸序列以预设多肽词元集合中的多肽词元为单位进行词元切分,得到活性多肽词元序列。其中,预设多肽词元集合可以为根据实际场景需要而设定的用于表征多肽氨基酸序列中氨基酸基本单元的词元。活性多肽词元序列为至少一个多肽词元按照先后顺序排列而成。
在一些可选的实施方式中,步骤2021可以如下进行:
首先,确定该活性多肽氨基酸序列中的修饰基团序列。
然后,将该活性多肽氨基酸序列中的修饰基团序列中的每个修饰基团切分为相应修饰基团词元,以及将该活性多肽氨基酸序列中除修饰基团序列外的其它部分切分成相应氨基酸词元,拼接切分得到的各修饰基团词元和氨基酸词元得到活性多肽词元序列。其中,氨基酸词元用于表征氨基酸。
例如,每个氨基酸缩写作为一个氨基酸词元,共计20个氨基酸词元,分别为:'A'、'R'、'N'、'D'、'C'、'Q'、'E'、'G'、'H'、'I'、'L'、'K'、'M'、'F'、'P'、'S'、'T'、'W'、'Y'、'V',其他氨基酸缩写用未知氨基酸词元(例如“Unknown”)来表示。
通过该可选实施方式,可以实现对于带有修饰基团的活性多肽,将修饰基团序列本身作为单独的修饰基团词元进行切分,丰富了活性多肽的类型,进而后续训练得到的多肽氨基酸序列生成模型,也可以实现生成带有修饰基团的多肽氨基酸序列。
步骤2022,对于活性多肽词元序列的每个片段词元序列,执行嵌入特征表示操作。
这里,可以首先基于活性多肽词元序列,生成相应的至少一个片段词元序列,再针对生成的每个片段词元序列,执行嵌入特征表示操作。其中,活性多肽词元序列的片段词元序列为活性多肽词元序列的连续片段,当然可以理解的是,活性多肽词元序列的片段词元序列也可以为活性多肽词元序列本身。
例如,活性多肽词元序列为“CSICSNNPTCWAICKRIPNKKPGKK”(SEQ ID NO. 1),片段词元序列可以是“CSICSNNPTCWAICKRIPNKKPGKK” 相应地,可以针对“CSICSNNPTCWAICKRIPNKKPGKK”执行嵌入特征表示操作;或者片段词元序列也可以是“SICSNNPTCWAICKRIPNKKPGK”(SEQ ID NO. 2),相应地,可以针对“SICSNNPTCWAICKRIPNKKPGK”执行嵌入特征表示操作。
在一些可选的实施方式中,基于活性多肽词元序列,生成相应的至少一个片段词元序列,可以是将活性多肽词元序列的片段中长度大于预设序列长度的片段,作为所生成的片段词元序列。例如,活性多肽词元序列长度为n,假设预设序列片段长度为m,那么这里最多可以生成片段词元序列的数量为:
1+2+3+…+(n-m+1)=(n-m+1)* (n-m+2)/2
从而,这里需要对(n-m+1)* (n-m+2)/2个片段词元序列中的每个片段词元序列,执行嵌入特征表示操作,并得到(n-m+2)/2个输入词元特征序列和相应标签词元特征序列。
这里,步骤2022可以包括如图2C所示的步骤20221到步骤20223:
步骤20221,基于该片段词元序列生成输入词元序列和标签词元序列。
这里,输入词元序列和标签词元序列均包括预设最长多肽氨基酸序列长度个词元。其中,输入词元序列通过依次拼接用于表征起始位置的起始词元、该片段词元序列除最后一个词元外的前部片段词元序列和至少一个连续排列的预设补齐用词元而得到,标签词元序列通过依次拼接该片段词元序列和至少一个连续排列的预设补齐用词元而得到。
这里,假设起始词元为'<start>',预设补齐用词元为'<pad>'。
针对片段词元序列“CSICSNNPTCWAICKRIPNKKPGKK”生成的输入词元序列可以为:
['<start>','C','S','I','C','S','N','N','P','T','C','W','A','I','C','K','R','I','P','N','K','K','P','G','K','<pad>','<pad>','<pad>','<pad>','<pad>',…]。可见,该输入词元序列相对于片段词元序列“CSICSNNPTCWAICKRIPNKKPGKK”而言,通过依次拼接起始词元'<start>'、词元序列相对于片段词元序列“CSICSNNPTCWAICKRIPNKKPGKK”除去最后一个词元'K'后的前部片段词元序列['C','S','I','C','S','N','N','P','T','C','W','A','I','C','K','R','I','P','N','K','K','P','G','K']和至少一个连续排列的补齐用词元'<pad>'而成。
标签词元序列为:
['C','S','I','C','S','N','N','P','T','C','W','A','I','C','K','R','I','P','N','K','K','P','G','K', 'K', '<pad>',<pad>',<pad>',<pad>',<pad>',…]。可见,该标签词元序列相对于片段词元序列“CSICSNNPTCWAICKRIPNKKPGKK”而言,通过依次拼接该片段词元序列“CSICSNNPTCWAICKRIPNKKPGKK”和至少一个连续排列的补齐用词元'<pad>'而成。
针对片段词元序列“SICSNNPTCWAICKRIPNKKPGK”生成的输入词元序列可以为:
['<start>','S','I','C','S','N','N','P','T','C','W','A','I','C','K','R','I','P','N','K','K','P','G','<pad>',<pad>',<pad>',<pad>',<pad>',…]。
标签词元序列为:
['S','I','C','S','N','N','P','T','C','W','A','I','C','K','R','I','P','N','K','K','P','G','K','<pad>',<pad>',<pad>',<pad>',<pad>',…]。
也可以理解为标签词元序列是从活性多肽词元序列中,将输入词元序列整体向后或者说向活性多肽词元序列结束的方向移动一位后所得到的。也就是说,为了预测与目标受体具有活性的多肽氨基酸序列,如果从输入词元序列为输入数据进行预测,预测结果应为将输入词元序列整体向后移动一位后的标签词元序列。
步骤20222,对于输入词元序列和标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列。
由于词元序列和标签词元序列分别为文本数据,为了后续模型训练数据形式的需要,还需要对步骤20221得到的输入词元序列和标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列。
需要说明的是,这里可以采取各种文本向量化表示方法对文本进行嵌入特征表示,本发明对此不做具体限定。
在一些可选的实施方式中,步骤20222可以如下执行:
首先,对于输入词元序列和标签词元序列,对于其中的每个词元,进行词元本身嵌入特征表示和词元位置嵌入特征表示,以及合并词元本身嵌入特征表示和词元位置嵌入特征表示后得到相应词元的词元整体嵌入特征表示。
这里,词元本身嵌入特征用于表征词元本身。而词元位置嵌入特征用于表征词元在输入词元序列或者标签词元序列中的位置。
然后,对于输入词元序列和标签词元序列,分别按照词元在输入词元序列和标签词元序列中的出现顺序,拼接相应词元的词元整体嵌入特征表示,即可得到输入词元特征序列和标签词元特征序列。其中,输入词元特征序列中的输入词元特征为输入词元的词元整体嵌入特征表示,而标签词元特征序列中的标签词元特征为标签词元的词元整体嵌入特征表示。
可以理解的是,这里可以采用相同的特征嵌入表示方式对输入词元序列和标签词元序列进行嵌入特征表示,进而所得到的标签词元特征序列可以认为是在输入词元特征序列基础上进行预测得到的与目标受体之间结合具有结合活性的标签词元序列的嵌入特征表示,并可用于后续训练特征数据中的标签对多肽氨基酸序列生成模型进行监督。
步骤20223,将输入词元特征序列和标签词元特征序列分别作为样本特征数据中的样本多肽词元特征序列和标签多肽词元特征序列添加到样本特征数据集合中,以完成针对该片段词元序列的嵌入特征表示操作。
这里,样本特征数据可以包括样本多肽词元特征序列和标签多肽词元特征序列。
经过步骤2022可以得到该活性多肽氨基酸序列对应的训练样本特征。
经过步骤202,可以对于活性多肽氨基酸序列集合中的每个活性多肽氨基酸序列,生成多个相应的样本特征数据,进而可以得到样本特征数据集合。
步骤203,基于样本特征数据集合,对初始多肽氨基酸序列生成模型进行训练,得到训练后的多肽氨基酸序列生成模型。
这里,可以采用各种机器学习方法,基于样本特征数据集合,对初始多肽氨基酸序列生成模型进行训练,得到训练后的多肽氨基酸序列生成模型。其中,初始多肽氨基酸序列特征生成模型用于表征词元特征序列或者预设起始多肽词元特征与词元本身嵌入特征之间的对应关系。即,以样本特征数据中的样本多肽词元特征序列作为输入数据,以相应标签多肽词元特征序列作为监督数据,对初始多肽氨基酸序列生成模型进行训练。
具体而言,可以将样本特征数据中的样本多肽词元特征序列连续预设最长多肽氨基酸序列长度次输入初始多肽氨基酸序列生成模型得到实际输出的多肽词元本身嵌入特征,并将各次输出的多肽词元本身嵌入特征按照时序确定相应词元位置嵌入特征以及合并相应词元位置嵌入特征后得到实际输出多肽词元特征序列,再基于实际输出多肽词元特征序列和标签多肽词元特征序列之间的差异,采用预设参数优化方法调整初始多肽氨基酸序列生成模型的模型参数。例如,预设参数优化方法可以为梯度下降法。
经过至少一次调整初始多肽氨基酸序列生成模型的模型参数,在确定多肽氨基酸序列生成模型满足预设的训练结束条件后,可以将初始多肽氨基酸序列生成模型作为训练好的多肽氨基酸序列生成模型。经过训练的多肽氨基酸序列生成模型,具备了输入预设起始多肽词元特征或者多肽氨基酸词元特征序列,可以预测或者输出接下来出现的词元本身嵌入特征的能力。
这里,初始多肽氨基酸序列生成模型可以为各种机器学习模型,本发明对此不做具体限定。
在一些可选的实施方式中,初始多肽氨基酸序列生成模型可以为Transformer模型中的解码器。
在一些可选的实施方式中,Transformer模型中的解码器可以包括多个相同的层。
在一些可选的实施方式中,Transformer模型中的解码器每层包括:第一子层和第二子层,其中,第一子层包括规范化层、遮掩多头注意力层和残差连接层,第二子层包括规范化层、前馈全连接层和残差连接层。
本发明的上述实施例提供的多肽氨基酸序列生成模型训练方法,通过利用与目标受体之间结合有活性的活性多肽氨基酸序列,再对活性多肽氨基酸序列进行词元切分得到活性多肽词元序列,再将活性多肽词元序列的片段和相应向后移位一个词元之后的移位词元序列分别进行特征嵌入表示,并分别作为样本特征数据的样本多肽词元特征序列和期望输出的标签词元特征序列,再以样本多肽词元特征序列作为输入数据,以标签词元特征序列作为监督数据对多肽氨基酸序列生成模型进行训练。进而,多肽氨基酸序列生成模型可以根据上文预测与目标受体之间具有结合活性的多肽氨基酸序列的下一个词元,进而通过连续多次预测即可生成多肽氨基酸序列。
基于上述实施例提供的多肽氨基酸序列生成模型训练方法,在具体试验中,申请人进行了如下具体实验,具体分别对应多肽氨基酸序列生成模型训练方法中的步骤201到步骤203。
关于步骤201,获取活性多肽氨基酸序列集合:
在具体试验中,使用DRAVP数据库(http://dravp.cpu-bioinfor.org/)的RSV多肽数据、AVPdb数据库(http://crdd.osdd.net/servers/avpdb/)的RSV多肽数据、以及申请人已有的RSV多肽试验数据。共计获取1177个RSV数据作为RSV数据集。其中,RSV数据具体包括RSV多肽氨基酸序列以及RSV多肽和受体之间结合的活性值。其中多肽氨基酸序列长度在6-56之间,受体多为RSV F蛋白。
然后,按照参考文献(Francesca Grisoni, Michael Moret, Robin Lingwood,and Gisbert Schneider. Bidirectional Molecule Generation with RecurrentNeural Networks. J. Chem. Inf. Model. 2020, 60, 3, 1175–1183)中以Kd/KI/IC50/EC50 指标来判断活性源于文献对于有活性值的多肽(所谓有活性值的多肽,是指跟RSV F蛋白作为受体之间结合有活性值),将Kd/KI/IC50/EC50 <10μM的RSV多肽设为有活性。将Kd/KI/IC50/EC50≥10μM的RSV多肽设为无活性。在上述RSV数据集中筛选Kd/KI/IC50/EC50<10μM的RSV多肽氨基酸序列确定为与目标受体RSV F之间结合有活性的活性多肽氨基酸序列,反之,对于RSV数据集中Kd/KI/IC50/EC50≥10μM的RSV多肽氨基酸序列认为与为目标受体RSV F之间结合没有活性,不予采用。最终,得到共计包括236个活性多肽氨基酸序列的活性多肽氨基酸序列集合。具体如图3所示。
然后,可以将活性多肽氨基酸序列集合(包括236个活性多肽氨基酸序列)按照3:1:1的比例进行分层采样,分别切分成训练用活性多肽氨基酸序列子集合(包括141个活性多肽氨基酸序列)、验证用活性多肽氨基酸序列子集合(包括48个活性多肽氨基酸序列)和测试用活性多肽氨基酸序列子集合(包括47个活性多肽氨基酸序列)。
关于步骤202,对于每个活性多肽氨基酸序列,执行样本特征数据生成操作:
在具体试验中,首先对每个活性多肽氨基酸序列,将该活性多肽氨基酸序列中的修饰基团序列中的每个修饰基团切分为相应修饰基团词元,再将该活性多肽氨基酸序列中除修饰基团序列外的其它部分切分成相应氨基酸词元,拼接切分得到的各修饰基团词元和氨基酸词元得到活性多肽词元序列。
在本试验中,共计包括3个修饰基团词元、20个已知氨基酸词元和1个未知氨基酸词元“Unknown”。其中,20个已知氨基酸词元分别为以下氨基酸缩写:'A'、'R'、'N'、'D'、'C'、'Q'、'E'、'G'、'H'、'I'、'L'、'K'、'M'、'F'、'P'、'S'、'T'、'W'、'Y'、'V'。未知氨基酸词元“Unknown”用于表示除上述20个氨基酸缩写以外的其他氨基酸。
对于236个活性多肽氨基酸序列,相应可以得到236个活性多肽词元序列。
然后,对于活性多肽词元序列的每个片段词元序列,执行嵌入特征表示操作。
具体而言,在本试验中,对于236个活性多肽词元序列中每个活性多肽词元序列,以活性多肽词元序列本身作为片段词元序列,进而总计有236个片段词元序列。
而后,再针对生成的236个片段词元序列,分别执行嵌入特征表示操作,进而得到236个样本特征数据。
具体而言,首先,可以对于236个片段词元序列中每个片段词元序列,生成对应的输入词元序列和标签词元序列。
这里,输入词元序列和标签词元序列均包括预设最长多肽氨基酸序列长度个词元。在本试验中,预设最长多肽氨基酸序列长度为56。
在本试验中,起始词元为'<start>',预设补齐用词元为'<pad>'。加上活性多肽词元序列中包括的3个修饰基团词元、20个已知氨基酸词元和1个未知氨基酸词元“Unknown”,输入词元序列和标签词元序列可能包括的词元种类共计为:1个起始词元'<start>'、1个补齐用词元为'<pad>'、20个已知氨基酸词元和1个未知氨基酸词元“Unknown”,共计26个词元。
实践中不同多肽氨基酸序列的长度可能存在不同,为了适应不同长度的活性氨基酸序列,采用补齐用词元'<pad>'在输入词元序列和标签词元序列的尾部进行填充补齐长度,最终实现输入词元序列和标签词元序列中均包括预设最长多肽氨基酸序列长度个(在本试验中,为56个)词元,进而实现对于步骤201获取的活性多肽氨基酸序列的长度不进行限制。
最后,可以对于236对输入词元序列和标签词元序列中每对输入词元序列和标签词元序列,分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列,最终得到236对输入词元特征序列和标签词元特征序列。
具体而言,在本试验中,对于输入词元序列和标签词元序列中的每个词元,分别进行词元本身嵌入特征表示和词元位置嵌入特征表示,以及合并词元本身嵌入特征表示与词元位置嵌入特征表示后得到词元整体嵌入特征表示,再分别按照词元在输入词元序列和标签词元序列中的出现顺序,拼接各词元对应的词元整体嵌入特征表示,即可得到输入词元特征序列和标签词元特征序列。
在本试验中,针对上述可能出现的26个词元中的每个词元,预设对应的词元特征值。词元的词元本身嵌入特征表示可以为与该词元对应的词元特征值。例如,对于起始词元'<start>'对应的词元特征值为1,补齐用词元'<pad>'对应的词元特征值为0,20个已知氨基酸词元和1个未知氨基酸词元“Unknown”对应的特征值可以分别为2到25之间的正整数,可以采用整数字典表示上述各个词元和词元特征值之间的对应关系。进而,各词元的词元本身嵌入特征为0到25之间的整数。
在本试验中,词元的词元位置嵌入特征表示可以设置为可学习的参数,其初始值设为随机值。例如,上述随机值可以为0到55之间以1为间隔单位的数值,用于表示词元在词元序列中的第几个词元。比如,0表示词元序列中第1个词元,1表示词元序列中第2个词元,54表示词元序列中第55个词元,55表示词元序列中第56个词元,即最后一个词元。
在本试验中,将词元本身嵌入特征表示与词元位置嵌入特征之和作为词元整体嵌入特征。假设词元本身嵌入特征表示为0-25之间的整数,而词元位置嵌入特征表示为0-55之间的随机值,词元本身嵌入特征表示与词元位置嵌入特征之和的词元整体嵌入特征为0-80之间的数值。
由于输入词元序列和标签词元序列长度均为56,也就是说输入词元序列和标签词元序列中均为由56个词元按照先后顺序排列而成。相应地,输入词元特征序列和标签词元特征序列长度均为56,也就是说,输入词元特征序列和标签词元特征序列中均为由56个词元特征值(具体,为0到80之间的数值)按照先后顺序排列而成。
最终得到236对输入词元特征序列和标签词元特征序列,进而所生成的样本特征数据集中也包括236对样本多肽词元特征序列和标签多肽词元特征序列。
具体可参考图4,例如,对于RSV活性多肽氨基酸序列“ALLSTNKAPEG修饰”(SEQ IDNO. 3),首先将修饰基团“PEG修饰”直接切分成修饰基团词元“PEG修饰”。然后,对其它部分“ALLSTNKA”(SEQ ID NO. 4)进行词元切分,并在起始位置添加预设起始词元‘<start>’,最后得到顺序排列的多肽词元序列:[‘<start>’, ‘A’, ‘L’, ‘L’, ‘S’, ‘T’, ‘N’, ‘K’,‘A’, ‘PEG修饰’],其中,各多肽词元对应的词元本身嵌入特征分别为:E<start>、EA、EL、EL、ES、ET、EN、EK、EA、EPEG修饰,各多肽词元对应的词元位置嵌入特征分别为:E0、E1、E2、E3、E4、E5、E6、E7、E8、E9,各多肽词元对应的词元整体嵌入特征分别为E<start>+ E0、EA+ E1、EL+ E2、EL+ E3、ES+E4、ET+ E5、EN+ E6、EK+ E7、EA+ E8、EPEG修饰+ E9。需要说明的是,图4中省略了‘PEG修饰’后续的补齐用词元‘<pad>’及其对应的词元本身嵌入特征、词元位置嵌入特征以及词元整体嵌入特征。在本试验中,将词元位置嵌入特征设置为可学习的参数,其初始值设置为随机值。
关于步骤203,基于样本特征数据集合,对初始多肽氨基酸序列生成模型进行训练,得到训练后的多肽氨基酸序列生成模型。
在本试验中,将样本特征数据集合按照3:1:1的比例分别切分成训练样本特征数据集、验证样本特征数据集和测试样本特征数据集。将训练样本特征数据集中的样本多肽词元特征序列作为输入数据,以相应标签多肽词元特征序列作为监督数据,对初始多肽氨基酸序列生成模型进行训练,根据验证样本特征数据集的困惑度值来选择最优模型进行保存,最后将测试样本特征数据集的数据输入最优模型中进行最终评估。数据的批量大小设为64,并进行打乱。
在本试验中,初始多肽氨基酸序列生成模型为Transformer模型中的解码器。Transformer模型中的解码器可以包括多个相同的层,即由多个相同的层叠加而成。请参考图5,图5示出了根据本发明的Transformer模型中的解码器每层的结构示意图。如图5所示,每层可以包括两个子层,即第一子层和第二子层,其中,第一子层包括规范化层、遮掩多头注意力层和残差连接层,第二子层包括规范化层、前馈全连接层和残差连接层。其中,多头自注意力层使每个注意力机制去优化每个词元的不同特征部分、均衡偏差,使词元有更多元的表达。规范化层用于加快模型收敛。残差连接层有助于构建更深的模型。前馈连接层用于提高注意力机制的拟合程度。在本实施例中,解码器层堆叠次数为3,遮掩自注意力头数为3,丢弃法比率设为0.5,输出维度为26维,对应26种词元的词元特征值。学习率设为3e-4。
Transformer模型解码器的优化器采用NAdam。训练迭代次数为5000次。损失函数使用交叉熵(cross_entropy),其中ignore_index参数设为0,用于计算损失函数时忽略补齐用词元'<pad>'对应的词元特征值0。
设置并使用max_new_tokens参数,设置新生成多肽的最长词元长度。本实例中,max_new_tokens为56。
设置并使用温度(temperature)参数,用于调整生成多肽氨基酸序列的随机程度;temperature较低,意味着较少的随机性,创造力较低,生成的多肽词元会有重复,多肽多样性较差;反之,temperature较高,意味着更多的随机性,将生成更有创意的输出,多肽多样性较好。在本试验中,temperature参数为1或2。
设置并使用top-k参数,从概率前k大的词元中随机选取一个词元特征作为下一个词元特征,避免不断生成同一个词元特征。在本试验中,top-k参数设为24。
将训练样本特征数据集分别用于训练Transformer模型和LSTM(长短期记忆网络,Long Short-Term Memory)模型中进行训练,根据验证样本特征数据集的困惑度(perplexity)来选择最优模型进行保存。困惑度越接近1越好。最后将测试样本特征数据集的数据输入最优模型中,基于困惑度值进行最终评估。
如图6所示,本发明的Transformer模型解码器的困惑度值为2.17,而LSTM模型的困惑度值为16.06。本发明的Transformer模型解码器的困惑度值,相比LSTM模型降低了13.89。因此,本发明的Transformer模型解码器优于LSTM模型,大幅提升了多肽活性预测的质量。
继续参考图7,其示出了根据本发明的活性多肽氨基酸序列生成方法的流程700。该活性多肽氨基酸序列生成方法,包括以下步骤:
步骤701,将预设起始多肽词元特征连续预设最长多肽氨基酸序列长度次输入多肽氨基酸序列生成模型,得到预设最长多肽氨基酸序列长度个连续输出的词元本身嵌入特征。
这里,活性多肽氨基酸序列生成模型是采用如图2A所示的实施例及其可选实施方式示出的方法预先训练得到的。
由于活性多肽氨基酸序列生成模型具备了根据多肽氨基酸词元特征序列或者预设起始多肽词元特征预测目标受体之间结合具有活性的多肽氨基酸序列中下一个多肽词元特征的能力,因此,将预设起始多肽词元特征连续预设最长多肽氨基酸序列长度次输入多肽氨基酸序列生成模型,可以得到预设最长多肽氨基酸序列长度个连续输出的词元特征。
步骤702,按照各个输出的词元本身嵌入特征的输出顺序,拼接相应输出词元本身嵌入特征对应的词元,得到与目标受体之间结合具有活性的多肽氨基酸序列。
这里,可以按照步骤20222中,对于输入词元序列和标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列的方法,相对应的再将每次输出的词元本身嵌入特征映射为相应的词元。
本发明的上述实施例提供的多肽氨基酸序列生成方法,通过将预设起始多肽词元特征连续预设最长多肽氨基酸序列长度次输入多肽氨基酸序列生成模型,得到预设最长多肽氨基酸序列长度个连续输出的词元本身嵌入特征,多肽氨基酸序列生成模型是采用图2A所示的实施例及其可选实施方式示出的方法预先训练得到的。再按照各个输出的词元本身嵌入特征的输出顺序,拼接相应输出词元本身嵌入特征对应的词元,得到与目标受体之间结合具有活性的多肽氨基酸序列。通过多次执行上述生成多肽氨基酸序列的方法,可以得到多个不同的与目标受体之间结合具有活性的多肽氨基酸序列,可以加快多肽设计的速度,并提高多肽生成的质量。
实施例1:多肽生成
基于上述具体试验中所示的训练多肽氨基酸序列生成模型的方法所生成的多肽氨基酸序列生成模型,申请人通过15185次执行图7所示的多肽氨基酸序列生成方法,得到了15185个不重复的RSV多肽氨基酸序列。
实施例2:活性预测
为了进一步验证实施例1中所生成的15185个RSV多肽氨基酸序列中筛选出与RSVF蛋白之间具有结合活性的多肽,即进一步验证本发明的多肽氨基酸序列生成模型生成多肽的质量,本实施例中选取文献中主流的随机森林模型[源于文献Yuxuan Pang, LantianYao, Jhih-Hua Jhong, et al. AVPIden: a new scheme for identification andfunctional prediction of antiviral peptides based on machine learningapproaches. Briefings in Bioinformatics, 22(6), 2021, 1–10],预测实施例1中所生成的15185个RSV多肽的活性。
收集数据:使用DRAVP数据库(http://dravp.cpu-bioinfor.org/)的RSV多肽数据、AVPdb数据库(http://crdd.osdd.net/servers/avpdb/)的RSV多肽数据、以及申请人已有的RSV多肽试验数据。共计获取1177个RSV数据作为RSV数据集。
数据处理:对于RSV数据集每个RSV数据,生成每个RSV数据对应的多肽描述符信息和活性标签信息。其中,多肽描述符信息包括氨基酸组成(AAC)、二肽组成(DiC)、k-间隔氨基酸基团对的组成(CKSAAGP)、伪氨基酸组成(PAAC)和理化性质(PHYC)。活性标签信息为有活性和无活性两种标签。对于有活性值的多肽,将Kd/KI/IC50/EC50 <10μM的RSV多肽设为有活性,将Kd/KI/IC50/EC50≥10μM的RSV多肽设为无活性。各RSV数据对应的多肽描述符信息和活性标签信息组成样本多肽特征集,每个样本多肽特征包括多肽描述信息和相应的活性标签信息。
模型构建:将上述样本多肽特征集按照3:1:1的比例进行分层采样,分别切分成训练样本多肽特征集、验证样本多肽特征集和测试样本多肽特征集。将训练样本多肽特征集输入随机森林模型中进行训练,根据验证样本多肽特征集的AUC(Area Under Curve),即ROC曲线下面积,来选择最优模型进行保存。最后将测试样本多肽特征集的数据输入最优模型中,基于AUC值进行最终评估。
预测活性:将随机森林模型预测为有活性的RSV多肽保留,可用于后续的3D结构预测、分子对接、分子动力学模拟等筛选。本实施例中,共计筛选出822条预测有活性的RSV多肽。将实施例1中生成的15185个RSV多肽数据中每个多肽数据分别输入随机森林模型进行预测,预测出822个是有活性的。
实施例3:展示RSV多肽3D结构
为了进一步呈现RSV多肽结果,展示本发明的多肽氨基酸序列生成模型生成多肽的结构,本实施例中选取HelixFold-Single工具,将实施例2中筛选出的活性的822个RSV多肽中的每个多肽,分别用HelixFold-Single工具去预测3D结构,其中,图8示出了其中一个RSV多肽的3D结构示意图,可见该3D结构中存在α-螺旋构象。 [参考文献Xiaomin Fang,Fan Wang, Lihang Liu, et al. HelixFold-Single: MSA-free Protein StructurePrediction by Using Protein Language Model as an Alternative. arXiv, 2021]
进一步参考图9,作为对上述各图所示方法的实现,本发明提供了一种多肽氨基酸序列生成模型训练装置的一个实施例,该装置实施例与图2A所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图9所示,本实施例的多肽氨基酸序列生成模型训练装置900包括:获取模块901、生成模块902和训练模块903。其中:获取模块901,被配置为获取活性多肽氨基酸序列集合,其中,活性多肽与目标受体之间具有结合活性;生成模块902,被配置为对于每个所述活性多肽氨基酸序列,执行以下样本特征数据生成操作:对于该活性多肽氨基酸序列进行词元切分,得到活性多肽词元序列;对于所述活性多肽词元序列的每个片段词元序列,执行以下嵌入特征表示操作:基于该片段词元序列生成输入词元序列和标签词元序列,所述输入词元序列和所述标签词元序列均包括预设最长多肽氨基酸序列长度个词元,其中,所述输入词元序列通过依次拼接用于表征起始位置的起始词元、该片段词元序列除最后一个词元外的前部片段词元序列和至少一个连续排列的预设补齐用词元而得到,所述标签词元序列通过依次拼接该片段词元序列和至少一个连续排列的预设补齐用词元而得到;对于所述输入词元序列和所述标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列;将所述输入词元特征序列和所述标签词元特征序列分别作为样本特征数据中的样本多肽词元特征序列和标签多肽词元特征序列添加到样本特征数据集合中,以完成针对该片段词元序列的嵌入特征表示操作;而训练模块903,被配置为基于所述样本特征数据集合,对初始多肽氨基酸序列生成模型进行训练,得到训练后的多肽氨基酸序列生成模型,其中,所述多肽氨基酸序列特征生成模型用于表征词元特征序列或者预设起始多肽词元特征与词元本身嵌入特征之间的对应关系。
在本实施例中,多肽氨基酸序列生成模型训练装置900的获取模块901、生成模块902和训练模块903的具体处理及其所带来的技术效果可分别参考图2A对应实施例中步骤201、步骤202和步骤203的相关说明,在此不再赘述。
在一些可选的实施方式中,所述对于该活性多肽氨基酸序列进行词元切分,得到活性多肽词元序列,可以包括:
确定该活性多肽氨基酸序列中的修饰基团序列;
将该活性多肽氨基酸序列中的修饰基团序列中的每个修饰基团切分为相应修饰基团词元,以及将该活性多肽氨基酸序列中除修饰基团序列外的其它部分切分成相应氨基酸词元,拼接切分得到的各修饰基团词元和氨基酸词元得到所述活性多肽词元序列。
在一些可选的实施方式中,所述初始多肽氨基酸序列生成模型可以为Transformer模型中的解码器。
在一些可选的实施方式中,所述Transformer模型中的解码器可以包括多个相同的层。
在一些可选的实施方式中,所述Transformer模型中的解码器每层可以包括:第一子层和第二子层,其中,第一子层包括规范化层、遮掩多头注意力层和残差连接层,第二子层包括规范化层、前馈全连接层和残差连接层。
在一些可选的实施方式中,所述输入词元特征序列可以为输入词元嵌入特征序列与输入词元位置嵌入特征序列之和。
在一些可选的实施方式中,所述样本特征数据生成操作中,在所述对于所述活性多肽词元序列的每个片段词元序列,执行以下嵌入特征表示操作之前,还可以包括:
基于所述活性多肽词元序列,生成相应的至少一个片段词元序列。
在一些可选的实施方式中,所述对于所述输入词元序列和所述标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列,可以包括:
对于所述输入词元序列和所述标签词元序列中的每个词元,进行词元本身嵌入特征表示和词元位置嵌入特征表示,以及合并词元本身嵌入特征表示和词元位置嵌入特征表示后得到相应词元的词元整体嵌入特征表示;
对于所述输入词元序列和所述标签词元序列,分别按照每个词元在所述输入词元序列和所述标签词元序列中的出现顺序,拼接相应词元的词元整体嵌入特征表示,得到输入词元特征序列和标签词元特征序列,其中,所述输入词元特征序列中的输入词元特征为输入词元的词元整体嵌入特征表示,所述标签词元特征序列中的标签词元特征为标签词元的词元整体嵌入特征表示。
在一些可选的实施方式中,所述训练模块903可以进一步被配置为:
将样本特征数据中的样本多肽词元特征序列连续所述预设最长多肽氨基酸序列长度次输入所述初始多肽氨基酸序列生成模型得到实际输出的多肽词元本身嵌入特征;
将各次输出的多肽词元本身嵌入特征按照时序确定相应词元位置嵌入特征以及合并相应词元位置嵌入特征后得到实际输出多肽词元特征序列;
基于所述实际输出多肽词元特征序列和所述样本特征数据中的标签多肽词元特征序列之间的差异,采用预设参数优化方法调整所述初始多肽氨基酸序列生成模型的模型参数。
需要说明的是,本发明的实施例提供的多肽氨基酸序列生成模型训练装置中各模块的实现细节和技术效果可以参考本发明中其它实施例的说明,在此不再赘述。
进一步参考图10,作为对上述各图所示方法的实现,本发明提供了一种多肽氨基酸序列生成装置的一个实施例,该装置实施例与图7所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图10所示,本实施例的多肽氨基酸序列生成装置1000包括:输入模块1001和拼接模块1002。其中,输入模块1001,被配置为将预设起始多肽词元特征连续预设最长多肽氨基酸序列长度次输入多肽氨基酸序列生成模型,得到预设最长多肽氨基酸序列长度个连续输出的词元本身嵌入特征,其中,所述多肽氨基酸序列生成模型是采用如图2A所示的实施例及其可选实施方式示出的方法预先训练得到的;拼接模块1002,被配置为按照各个输出的词元本身嵌入特征的输出顺序,拼接相应输出词元本身嵌入特征对应的词元,得到与所述目标受体之间结合具有活性的多肽氨基酸序列。
在本实施例中,多肽氨基酸序列生成装置1000的输入模块1001和拼接模块1002的具体处理及其所带来的技术效果可分别参考图7对应实施例中步骤701和步骤702的相关说明,在此不再赘述。
下面参考图11,其示出了适于用来实现本发明的终端设备的计算机系统800的结构示意图。图8示出的计算机系统800仅仅是一个示例,不应对本发明的实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有计算机系统800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风等的输入装置806;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许计算机系统800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备的计算机系统800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本发明的实施例的方法中限定的上述功能。
需要说明的是,本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备实现如图2A所示的实施例及其可选实施方式示出的增强现实场景构建方法,和/或,如图4所示的实施例及其可选实施方式示出的增强现实场景构建方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明的实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取活性多肽氨基酸序列集合的模块”。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (15)
1.一种多肽氨基酸序列生成模型训练方法,包括:
获取活性多肽氨基酸序列集合,其中,活性多肽与目标受体之间具有结合活性;
对于每个所述活性多肽氨基酸序列,执行以下样本特征数据生成操作:对于该活性多肽氨基酸序列进行词元切分,得到活性多肽词元序列;对于所述活性多肽词元序列的每个片段词元序列,执行以下嵌入特征表示操作:基于该片段词元序列生成输入词元序列和标签词元序列,所述输入词元序列和所述标签词元序列均包括预设最长多肽氨基酸序列长度个词元,其中,所述输入词元序列通过依次拼接用于表征起始位置的起始词元、该片段词元序列除最后一个词元外的前部片段词元序列和至少一个连续排列的预设补齐用词元而得到,所述标签词元序列通过依次拼接该片段词元序列和至少一个连续排列的预设补齐用词元而得到;对于所述输入词元序列和所述标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列;将所述输入词元特征序列和所述标签词元特征序列分别作为样本特征数据中的样本多肽词元特征序列和标签多肽词元特征序列添加到样本特征数据集合中,以完成针对该片段词元序列的嵌入特征表示操作;
基于所述样本特征数据集合,对初始多肽氨基酸序列生成模型进行训练,得到训练后的多肽氨基酸序列生成模型,其中,所述多肽氨基酸序列特征生成模型用于表征词元特征序列或者预设起始多肽词元特征与词元本身嵌入特征之间的对应关系。
2.根据权利要求1所述的方法,其中,所述对于该活性多肽氨基酸序列进行词元切分,得到活性多肽词元序列,包括:
确定该活性多肽氨基酸序列中的修饰基团序列;
将该活性多肽氨基酸序列中的修饰基团序列中的每个修饰基团切分为相应修饰基团词元,以及将该活性多肽氨基酸序列中除修饰基团序列外的其它部分切分成相应氨基酸词元,拼接切分得到的各修饰基团词元和氨基酸词元得到所述活性多肽词元序列。
3.根据权利要求1所述的方法,其中,所述初始多肽氨基酸序列生成模型为Transformer模型中的解码器。
4.根据权利要求3所述的方法,其中,所述Transformer模型中的解码器包括多个相同的层。
5.根据权利要求4所述的方法,其中,所述Transformer模型中的解码器每层包括:第一子层和第二子层,其中,第一子层包括规范化层、遮掩多头注意力层和残差连接层,第二子层包括规范化层、前馈全连接层和残差连接层。
6.根据权利要求1所述的方法,其中,所述输入词元特征序列为输入词元嵌入特征序列与输入词元位置嵌入特征序列之和。
7.根据权利要求1所述的方法,其中,所述样本特征数据生成操作中,在所述对于所述活性多肽词元序列的每个片段词元序列,执行以下嵌入特征表示操作之前,还包括:
基于所述活性多肽词元序列,生成相应的至少一个片段词元序列。
8.根据权利要求1所述的方法,其中,所述对于所述输入词元序列和所述标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列,包括:
对于所述输入词元序列和所述标签词元序列中的每个词元,进行词元本身嵌入特征表示和词元位置嵌入特征表示,以及合并词元本身嵌入特征表示和词元位置嵌入特征表示后得到相应词元的词元整体嵌入特征表示;
对于所述输入词元序列和所述标签词元序列,分别按照每个词元在所述输入词元序列和所述标签词元序列中的出现顺序,拼接相应词元的词元整体嵌入特征表示,得到输入词元特征序列和标签词元特征序列,其中,所述输入词元特征序列中的输入词元特征为输入词元的词元整体嵌入特征表示,所述标签词元特征序列中的标签词元特征为标签词元的词元整体嵌入特征表示。
9.根据权利要求1所述的方法,其中,所述基于所述样本特征数据集合,对初始多肽氨基酸序列生成模型进行训练,得到训练后的多肽氨基酸序列生成模型,包括:
将样本特征数据中的样本多肽词元特征序列连续所述预设最长多肽氨基酸序列长度次输入所述初始多肽氨基酸序列生成模型得到实际输出的多肽词元本身嵌入特征;
将各次输出的多肽词元本身嵌入特征按照时序确定相应词元位置嵌入特征以及合并相应词元位置嵌入特征后得到实际输出多肽词元特征序列;
基于所述实际输出多肽词元特征序列和所述样本特征数据中的标签多肽词元特征序列之间的差异,采用预设参数优化方法调整所述初始多肽氨基酸序列生成模型的模型参数。
10.一种多肽氨基酸序列生成方法,包括:
将预设起始多肽词元特征连续预设最长多肽氨基酸序列长度次输入多肽氨基酸序列生成模型,得到预设最长多肽氨基酸序列长度个连续输出的词元本身嵌入特征,其中,所述多肽氨基酸序列生成模型是采用如权利要求1-9中任一所述的方法预先训练得到的;
按照各个输出的词元本身嵌入特征的输出顺序,拼接相应输出词元本身嵌入特征对应的词元,得到与所述目标受体之间结合具有活性的多肽氨基酸序列。
11.一种多肽氨基酸序列生成模型训练装置,包括:
获取模块,被配置为获取活性多肽氨基酸序列集合,其中,活性多肽与目标受体之间具有结合活性;
生成模块,被配置为对于每个所述活性多肽氨基酸序列,执行以下样本特征数据生成操作:对于该活性多肽氨基酸序列进行词元切分,得到活性多肽词元序列;对于所述活性多肽词元序列的每个片段词元序列,执行以下嵌入特征表示操作:基于该片段词元序列生成输入词元序列和标签词元序列,所述输入词元序列和所述标签词元序列均包括预设最长多肽氨基酸序列长度个词元,其中,所述输入词元序列通过依次拼接用于表征起始位置的起始词元、该片段词元序列除最后一个词元外的前部片段词元序列和至少一个连续排列的预设补齐用词元而得到,所述标签词元序列通过依次拼接该片段词元序列和至少一个连续排列的预设补齐用词元而得到;对于所述输入词元序列和所述标签词元序列分别进行嵌入特征表示得到输入词元特征序列和标签词元特征序列;将所述输入词元特征序列和所述标签词元特征序列分别作为样本特征数据中的样本多肽词元特征序列和标签多肽词元特征序列添加到样本特征数据集合中,以完成针对该片段词元序列的嵌入特征表示操作;
训练模块,被配置为基于所述样本特征数据集合,对初始多肽氨基酸序列生成模型进行训练,得到训练后的多肽氨基酸序列生成模型,其中,所述多肽氨基酸序列特征生成模型用于表征词元特征序列或者预设起始多肽词元特征与词元本身嵌入特征之间的对应关系。
12.一种多肽氨基酸序列生成装置,包括:
输入模块,被配置为将预设起始多肽词元特征连续预设最长多肽氨基酸序列长度次输入多肽氨基酸序列生成模型,得到预设最长多肽氨基酸序列长度个连续输出的词元本身嵌入特征,其中,所述多肽氨基酸序列生成模型是采用如权利要求1-9中任一所述的方法预先训练得到的;
拼接模块,被配置为按照各个输出的词元本身嵌入特征的输出顺序,拼接相应输出词元本身嵌入特征对应的词元,得到与所述目标受体之间结合具有活性的多肽氨基酸序列。
13.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-9和/或权利要求10中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被一个或多个处理器执行时实现如权利要求1-9和/或权利要求10中任一所述的方法。
15.一种计算机程序产品,其中,计算机程序产品包括指令,所述指令被机器执行时实现如权利要求1-9和/或权利要求10中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410165333.3A CN117711532B (zh) | 2024-02-05 | 2024-02-05 | 多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410165333.3A CN117711532B (zh) | 2024-02-05 | 2024-02-05 | 多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117711532A true CN117711532A (zh) | 2024-03-15 |
CN117711532B CN117711532B (zh) | 2024-05-10 |
Family
ID=90159295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410165333.3A Active CN117711532B (zh) | 2024-02-05 | 2024-02-05 | 多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117711532B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118471346A (zh) * | 2024-07-11 | 2024-08-09 | 北京悦康科创医药科技股份有限公司 | 多肽毒性确定方法、装置、设备及存储介质 |
CN118506881A (zh) * | 2024-07-15 | 2024-08-16 | 北京悦康科创医药科技股份有限公司 | mRNA加帽类似物生成方法、装置、设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160110515A1 (en) * | 2014-10-21 | 2016-04-21 | Zachary Apte | Method and system for microbiome-derived diagnostics and therapeutics |
US20190156915A1 (en) * | 2017-08-31 | 2019-05-23 | Shenzhen University | Method, apparatus, device and storage medium for predicting protein binding site |
CN111401534A (zh) * | 2020-04-29 | 2020-07-10 | 北京晶派科技有限公司 | 一种蛋白质性能预测方法、装置和计算设备 |
CN111462822A (zh) * | 2020-04-29 | 2020-07-28 | 北京晶派科技有限公司 | 一种蛋白质序列特征的生成方法、装置和计算设备 |
CN112562788A (zh) * | 2020-12-28 | 2021-03-26 | 上海交通大学 | 一种环状rna-rna结合蛋白关系预测模型构建方法 |
CN114724643A (zh) * | 2021-01-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种多肽化合物的筛选方法以及相关装置 |
WO2022185179A1 (en) * | 2021-03-02 | 2022-09-09 | Glaxosmithkline Biologicals Sa | Natural language processing to predict properties of proteins |
CN116030908A (zh) * | 2023-02-22 | 2023-04-28 | 湖南大学 | 基于策略梯度和结构信息的抗癌肽生成模型及其训练方法 |
WO2023151314A1 (zh) * | 2022-02-09 | 2023-08-17 | 浙江大学杭州国际科创中心 | 基于预训练语言模型的蛋白质构象感知表示学习方法 |
WO2023154829A2 (en) * | 2022-02-09 | 2023-08-17 | Absci Corporation | Unlocking de novo antibody design with generative artificial intelligence |
KR102591258B1 (ko) * | 2022-12-02 | 2023-10-19 | 주식회사 네오젠티씨 | 인공지능 기술을 이용하여 pMHC에 대응되는 TCR 정보를 생성하기 위한 방법 및 장치 |
CN116959571A (zh) * | 2023-07-06 | 2023-10-27 | 百图生科(北京)智能技术有限公司 | 蛋白质语言模型的训练方法、电子设备、计算机可读介质和程序产品 |
CN117133358A (zh) * | 2023-08-24 | 2023-11-28 | 深圳湾实验室坪山生物医药研发转化中心 | 联合掩码语言建模和酵母表面展示的多肽设计方法及序列 |
CN117153246A (zh) * | 2023-07-21 | 2023-12-01 | 中国人民解放军军事科学院军事医学研究院 | 一种基于肽语言模型的苦肽预测方法 |
-
2024
- 2024-02-05 CN CN202410165333.3A patent/CN117711532B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160110515A1 (en) * | 2014-10-21 | 2016-04-21 | Zachary Apte | Method and system for microbiome-derived diagnostics and therapeutics |
US20190156915A1 (en) * | 2017-08-31 | 2019-05-23 | Shenzhen University | Method, apparatus, device and storage medium for predicting protein binding site |
CN111401534A (zh) * | 2020-04-29 | 2020-07-10 | 北京晶派科技有限公司 | 一种蛋白质性能预测方法、装置和计算设备 |
CN111462822A (zh) * | 2020-04-29 | 2020-07-28 | 北京晶派科技有限公司 | 一种蛋白质序列特征的生成方法、装置和计算设备 |
CN112562788A (zh) * | 2020-12-28 | 2021-03-26 | 上海交通大学 | 一种环状rna-rna结合蛋白关系预测模型构建方法 |
CN114724643A (zh) * | 2021-01-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种多肽化合物的筛选方法以及相关装置 |
WO2022185179A1 (en) * | 2021-03-02 | 2022-09-09 | Glaxosmithkline Biologicals Sa | Natural language processing to predict properties of proteins |
WO2023151314A1 (zh) * | 2022-02-09 | 2023-08-17 | 浙江大学杭州国际科创中心 | 基于预训练语言模型的蛋白质构象感知表示学习方法 |
WO2023154829A2 (en) * | 2022-02-09 | 2023-08-17 | Absci Corporation | Unlocking de novo antibody design with generative artificial intelligence |
KR102591258B1 (ko) * | 2022-12-02 | 2023-10-19 | 주식회사 네오젠티씨 | 인공지능 기술을 이용하여 pMHC에 대응되는 TCR 정보를 생성하기 위한 방법 및 장치 |
CN116030908A (zh) * | 2023-02-22 | 2023-04-28 | 湖南大学 | 基于策略梯度和结构信息的抗癌肽生成模型及其训练方法 |
CN116959571A (zh) * | 2023-07-06 | 2023-10-27 | 百图生科(北京)智能技术有限公司 | 蛋白质语言模型的训练方法、电子设备、计算机可读介质和程序产品 |
CN117153246A (zh) * | 2023-07-21 | 2023-12-01 | 中国人民解放军军事科学院军事医学研究院 | 一种基于肽语言模型的苦肽预测方法 |
CN117133358A (zh) * | 2023-08-24 | 2023-11-28 | 深圳湾实验室坪山生物医药研发转化中心 | 联合掩码语言建模和酵母表面展示的多肽设计方法及序列 |
Non-Patent Citations (2)
Title |
---|
方春;孙福振;李彩虹;宋莉;: "基于长短期记忆网络的抗癌肽的预测", 山东理工大学学报(自然科学版), no. 03, 30 March 2020 (2020-03-30) * |
董启文, 王晓龙, 林磊, 关毅, 赵健: "蛋白质二级结构预测:基于词条的最大熵马尔科夫方法", 中国科学C辑, no. 01, 20 February 2005 (2005-02-20) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118471346A (zh) * | 2024-07-11 | 2024-08-09 | 北京悦康科创医药科技股份有限公司 | 多肽毒性确定方法、装置、设备及存储介质 |
CN118506881A (zh) * | 2024-07-15 | 2024-08-16 | 北京悦康科创医药科技股份有限公司 | mRNA加帽类似物生成方法、装置、设备及存储介质 |
CN118506881B (zh) * | 2024-07-15 | 2024-10-08 | 北京悦康科创医药科技股份有限公司 | mRNA加帽类似物生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117711532B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117711532B (zh) | 多肽氨基酸序列生成模型训练方法以及多肽氨基酸序列生成方法 | |
CN109947919B (zh) | 用于生成文本匹配模型的方法和装置 | |
JP7009433B2 (ja) | ニューラルネットワーク生成用の方法及び装置 | |
CN108520220B (zh) | 模型生成方法和装置 | |
CA3189013A1 (en) | Two-headed attention fused autoencoder for context-aware recommendation | |
KR102308002B1 (ko) | 정보 생성 방법 및 장치 | |
CN110688528B (zh) | 生成视频的分类信息的方法、装置、电子设备和介质 | |
JP2021096813A (ja) | データ処理方法及び装置 | |
CN111581926B (zh) | 文案生成方法、装置、设备和计算机可读存储介质 | |
CN110659678B (zh) | 一种用户行为分类方法、系统及存储介质 | |
CN117711525B (zh) | 活性预测模型训练及活性预测相关产品 | |
US20210216725A1 (en) | Method and apparatus for processing information | |
CN115362497A (zh) | 具有延迟阈值的序列到序列语音识别 | |
CN111539903B (zh) | 训练人脸图像合成模型的方法和装置 | |
CN111625645B (zh) | 文本生成模型的训练方法、装置和电子设备 | |
CN111444379A (zh) | 音频的特征向量生成方法及音频片段表示模型的训练方法 | |
CN113420212A (zh) | 基于深度特征学习的推荐方法、装置、设备及存储介质 | |
CN115083435A (zh) | 音频数据处理方法、装置、计算机设备和存储介质 | |
CN116128055A (zh) | 图谱构建方法、装置、电子设备和计算机可读介质 | |
US11244166B2 (en) | Intelligent performance rating | |
CN116562357B (zh) | 点击预测模型训练方法及装置 | |
CN117150122A (zh) | 终端推荐模型的联邦训练方法、装置和存储介质 | |
CN114625876B (zh) | 作者特征模型的生成方法、作者信息处理方法和装置 | |
CN111754984B (zh) | 文本选取的方法、装置、设备和计算机可读介质 | |
CN111475618B (zh) | 用于生成信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |