CN113764037A - 模型训练、抗体改造和结合位点预测的方法与装置 - Google Patents
模型训练、抗体改造和结合位点预测的方法与装置 Download PDFInfo
- Publication number
- CN113764037A CN113764037A CN202110594661.1A CN202110594661A CN113764037A CN 113764037 A CN113764037 A CN 113764037A CN 202110594661 A CN202110594661 A CN 202110594661A CN 113764037 A CN113764037 A CN 113764037A
- Authority
- CN
- China
- Prior art keywords
- prediction model
- antibody
- antibody sequence
- target
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 140
- 238000000034 method Methods 0.000 title claims abstract description 126
- 238000012986 modification Methods 0.000 title abstract description 17
- 230000004048 modification Effects 0.000 title abstract description 17
- 150000001413 amino acids Chemical class 0.000 claims abstract description 127
- 239000000427 antigen Substances 0.000 claims abstract description 106
- 102000036639 antigens Human genes 0.000 claims abstract description 105
- 108091007433 antigens Proteins 0.000 claims abstract description 105
- 230000008569 process Effects 0.000 claims abstract description 49
- 230000000873 masking effect Effects 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 16
- 108010032595 Antibody Binding Sites Proteins 0.000 claims description 12
- 238000012407 engineering method Methods 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 description 28
- 238000010586 diagram Methods 0.000 description 21
- 238000004891 communication Methods 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 12
- 102000004169 proteins and genes Human genes 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 238000012360 testing method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 6
- 239000003550 marker Substances 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 230000008707 rearrangement Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 239000003814 drug Substances 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 210000004602 germ cell Anatomy 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000006798 recombination Effects 0.000 description 3
- 238000005215 recombination Methods 0.000 description 3
- 230000000638 stimulation Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 101150008942 J gene Proteins 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 101150117115 V gene Proteins 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 2
- 229940125644 antibody drug Drugs 0.000 description 2
- 210000003719 b-lymphocyte Anatomy 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 108091036078 conserved sequence Proteins 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000028993 immune response Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000002715 modification method Methods 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000037361 pathway Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- -1 Amino Chemical group 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 101150111062 C gene Proteins 0.000 description 1
- 108091060290 Chromatid Proteins 0.000 description 1
- 241000711573 Coronaviridae Species 0.000 description 1
- 101150097493 D gene Proteins 0.000 description 1
- BWGNESOTFCXPMA-UHFFFAOYSA-N Dihydrogen disulfide Chemical compound SS BWGNESOTFCXPMA-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241001529936 Murinae Species 0.000 description 1
- 230000007022 RNA scission Effects 0.000 description 1
- 108010078072 VDJ Recombinases Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 229940125752 antibody drug candidate Drugs 0.000 description 1
- 230000000890 antigenic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 230000005847 immunogenicity Effects 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003248 secreting effect Effects 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013522 software testing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Peptides Or Proteins (AREA)
Abstract
本申请实施例提供一种模型训练、抗体改造和结合位点预测的方法与装置,训练方法包括:使用N条第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型,其中第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点,预训练后的预测模型用于预测抗体序列中被掩盖的氨基酸的预测值。由于未标注的第一抗体系列的数量较多,使用大量的第一抗体序列对预测模型进行预训练,可以使该预测模型得到充分的训练,进而提高了预测模型的训练准确性。另外,在预测模型的预训练过程中,对第一抗体序列的可变区进行着重学习,以进一步提高预测模型的训练准确度,使用该预测模型进行抗体相关预测工作时,其预测成本低,且预测效率高。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种模型训练、抗体改造和结合位点预测的方法与装置。
背景技术
抗体是一种重要的免疫蛋白,负责识别生物体内的外来入侵者或内在的变异,即抗原,并与抗原进行结合,以清除抗原。
抗体重要的性质是与抗原结合的亲和力,亲和力大小由抗体与抗原的结合位点决定。在抗体亲和力不够高时,需要对抗体进行改造,以提高抗体亲和力。
目前对抗体的相关预测工作,主要依赖于结构解析实验或分子敲除筛选实验,其成本高,且耗时。
发明内容
本申请实施例提供一种模型训练、抗体改造和结合位点预测的方法与装置,以降低抗体相关预测工作的成本,提高预测效率。
第一方面,本申请实施例提供一种用于抗体的预测模型的训练方法,包括:
获取N条第一抗体序列,所述N为正整数,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点;
使用所述N条第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型,所述预训练后的预测模型用于预测抗体序列中被掩盖的氨基酸的预测值,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
第二方面,本申请实施例提供一种预测抗体中改造点的预测值的方法,包括:
获取待改造的目标抗体序列;
接收所述用户对所述目标抗体序列中待改造的目标位点氨基酸的掩盖操作;
响应于所述掩盖操作,将目标位点氨基酸被掩盖的所述目标抗体序列输入预训练的预测模型中,得到所述预训练的预测模型输出的所述目标位点氨基酸的预测值;
其中,所述预训练的预测模型是经过第一抗体序列训练得到的,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
在一些实施例中,所述获取待改造的目标抗体序列,包括:
显示输入框,并接收所述用户在所述输入框内输入的待改造的目标抗体序列。
在一些实施例中,所述响应于所述掩盖操作,将目标位点氨基酸被掩盖的所述目标抗体序列输入预训练后的预测模型中,得到所述预训练后的预测模型输出的所述目标位点氨基酸的预测值,包括:
在检测到所述用户的预测触发操作时,响应于所述掩盖操作,将所述目标位点氨基酸被掩盖的所述目标抗体序列输入预训练后的预测模型中,得到所述预训练后的预测模型输出的所述目标位点氨基酸的预测值。
第三方面,本申请实施例提供一种抗体结合位点的预测方法,包括:
获取待预测的目标抗体序列;
将所述目标抗体序列输入目标预测模型中,预测所述目标抗体序列与抗原的结合位点;
其中,所述目标预测模型是经过第一抗体序列预训练后经过第二抗体序列微调得到的,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点,所述第二抗体序列中标注出所述第二抗体序列与抗原的结合位点,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
在一些实施例中,所述获取待预测的目标抗体序列,包括:
显示预测框,并接收用户在预测框内输入的目标抗体序列。
在一些实施例中,所述将所述目标抗体序列输入目标预测模型中,预测所述目标抗体序列与抗原的结合位点,包括:
在检测到用户的预测触发操作时,将所述目标抗体序列输入目标预测模型中,预测所述目标抗体序列与抗原的结合位点。
第四方面,本申请实施例提供一种用于抗体的预测模型的训练装置,包括:
获取单元,用于获取N条第一抗体序列,所述N为正整数,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点;
预训练单元,用于使用所述N条第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型,所述预训练后的预测模型用于预测抗体序列中被掩盖的氨基酸的预测值,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
第五方面,本申请实施例提供一种预测抗体中改造点的预测值的装置,包括:
获取单元,用于获取待改造的目标抗体序列;
接收单元,用于接收所述用户对所述目标抗体序列中待改造的目标位点氨基酸的掩盖操作;
预测单元,用于响应于所述掩盖操作,将目标位点氨基酸被掩盖的所述目标抗体序列输入预训练的预测模型中,得到所述预训练的预测模型输出的所述目标位点氨基酸的预测值;
其中,所述预训练的预测模型是经过第一抗体序列训练得到的,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
第六方面,本申请实施例提供一种抗体结合位点的预测装置,包括:
获取单元,用于获取待预测的目标抗体序列;
预测单元,用于将所述目标抗体序列输入目标预测模型中,预测所述目标抗体序列与抗原的结合位点;
其中,所述目标预测模型是经过第一抗体序列预训练后经过第二抗体序列微调得到的,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点,所述第二抗体序列中标注出所述第二抗体序列与抗原的结合位点,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
第七方面,本申请实施例提供一种计算设备,包括处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现上述第一方面至第三方面任一方面所述的方法。
第八方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现如第一方面至第三方面任一方面所述的方法。
第九方面,本申请实施例提供一种计算机程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,计算机的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得计算机实施第一方面至第三方面任一方面所述的法。
本申请实施例提供的模型训练、抗体改造和结合位点预测的方法与装置,通过使用N条第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型,其中第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点,预训练后的预测模型用于预测抗体序列中被掩盖的氨基酸的预测值。由于未标注的第一抗体系列的数量较多,使用大量的第一抗体序列对预测模型进行预训练,可以使该预测模型得到充分的训练,使无监督训练出的预训练模型可以有较强的延展性,进而提高了预测模型的训练准确性,从而使用该准确预训练后的预测模型进行抗体的相关预测工作时,其预测成本低,且预测效率高。另外,由于抗体序列的改进通常发生在抗体序列的可变区,基于此,在预测模型的预训练过程中,对第一抗体序列的可变区进行着重学习,以进一步提高预测模型的训练准确度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例涉及的抗体序列的结构示意图;
图2为本申请实施例涉及的一种系统架构示意图;
图3为本申请一实施例提供的用于抗体的预测模型的训练方法流程示意图;
图4为本申请实施例涉及的预测模型的一种训练示意图;
图5A为本申请实施例涉及的BERT模型的一种框架图;
图5B为本申请实施例涉及的BERT模型的网络结构示意图;
图5C为本申请实施例涉及的目标预测模型的训练过程的一种示意图;
图6为本申请一实施例提供的用于抗体的预测模型的训练方法流程示意图;
图7为本申请一实施例提供的抗体结合位点的预测方法的流程示意图
图8为本申请实施例涉及的一种交换界面示意图;
图9为本申请一实施例提供的抗体改造方法的流程示意图;
图10为本申请实施例涉及的另一种交换界面示意图;
图11A为本申请实施例涉及的一种测试结果示意图;
图11B为本申请实施例涉及的另一种测试结果示意图;
图12为本申请实施例提供的用于抗体的预测模型的训练装置的一种结构示意图;
图13为本申请实施例提供的抗体改造装置的一种结构示意图;
图14为本申请实施例提供的抗体结合位点的预测装置的一种结构示意图;
图15为本申请实施例涉及的计算设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应理解,在本发明实施例中,“与A对应的B”表示B与A相关联。在一种实现方式中,可以根据A确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。
另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
本申请实施例应用于软件测试技术领域,尤其应用于对需求数据的合法性检查,以便于根据合法的需求数据稳定、高效地生成测试用例。
为了便于理解本申请的实施例,首先对本申请实施例涉及到的相关概念进行如下简单介绍:
抗原:可以诱发生物体免疫反应的分子都称之为抗原。抗原可以来源于生物体外,如新冠病毒上的蛋白;也可以是来自生物体内,如肿瘤细胞产生的带有突变的蛋白。
抗体:在抗原的刺激下,生物体中的B细胞所产生的一种与抗原相结合的蛋白分子,结合后引起免疫反应将抗原清除。抗体蛋白的序列由20种氨基酸组成(如图1所示),氨基酸序列通过折叠形成有3D结构和生物活性的大分子。
可变区:又称CDR(Complementarity-Determining Regions)区(如图1中的深色区域所示),是抗体与抗原结合的潜在区域,具有很强的柔性结构。产生不同抗体的B细胞可以通过VDJ基因重组和体细胞超突变来改变该区域的氨基酸,从而增强与抗原的结合能力。VDJ基因片段在胚系基因中成簇存在,要编码完整的功能性的Ig多肽链必须在这些成簇存在的基因中选择某些基因片段重新进行组合,这一过程称为基因重排(generearrangement)。胚系基因重排的发生时间上具有明显的程序化,首先是重链可变区发生重排,接着是轻链重排。在受到抗原刺激后,可变区基因进一步与恒定区连接。基因重排的发生,除了理论上可能存在的以不对称交换形式出现的姊妹染色体交换机制外,主要是通过一组VDJ重组酶的作用而实现的,其作用包括识别位于VDJ基因片段两侧的保守序列、切断以及修复DNA等,这种保守序列称为重组信号序列(recombination signalsequences,RSS)。在胚系DNA水平上首先进行V区基因重组:轻链V区基因由一V基因片段和一J基因片段连接而成;重链V区基因首先由一D基因片段与任一J基因片段连接成DJ,然后V基因片段与DJ连接成VDJ,构成完整的重链V区编码基因;随后DNA转录为初始转录RNA,在RNA水平上,C基因片段通过RNA剪切而与VJ或VDJ基因连接;L与Ⅵ或VDJ基因以同样方式连接并形成mRNA。重链和轻链mRNA随后翻译为重链和轻链蛋白,经翻译后修饰,轻、重链被以二硫键连接成Is。引导序列L引导肽引导Ig进入分泌途径分泌至胞外,L引导肽随即被切除。
不可变区:又称FWR(Frame Work Region)区(如图1中的无颜色区域所示),是抗体的结构框架区,结构稳定,对整体起支撑作用。不同抗体的不可变区有很强的相似性,序列和结构在进化中高度保守,不易改变,因此得名。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
自然语言模型:通过统计学模型将人类大量的语言文字转换成机器语言,进而用于认知、理解和生成。具体用途包括机器翻译和自动问答等。
预训练:通过大量无标注的语言文本进行语言模型的训练,得到一套模型参数;利用这套参数对模型进行初始化,实现模型“热启动”,再根据具体任务在现有语言模型的架构上对参数进行微调来拟合任务提供的标签数据。预训练的方法在自然语言处理的分类和标记任务中,都被证明拥有很好的效果。
抗体是一种重要的免疫蛋白,负责识别生物体内的外来入侵者或内在的变异,即抗原。动物和人体在病毒、细菌等外来物种入侵时,会产生抗体对其进行识别。这些抗体又被称为天然抗体。在这些天然抗体中,极少数亲和力强,特异性高,稳定且易溶解的抗体则具有药用价值,可量产后作为药物使用。
抗体中最重要的性质就是与抗原结合的亲和力。亲和力大小由抗体与抗原的结合位点决定。其次是抗体的其他理化性质。在不改变亲和力的前提下,药厂需要对抗体的其他理化性质进行优化。这意味着识别抗体与抗原的结合位点是一项非常关键的工作。在抗体亲和力不够高时,需要对结合位点进行改造;而当亲和力足够高而理化性质不佳时,则需要改造非结合位点以此提升理化性质。
如何从海量的天然抗体中找到优质的候选抗体并进一步识别这些候选抗体的结合位点,则是各大药厂的主要任务。在本申请的一种可能的实现方式中,抗体候选药物的优化主要依赖于药化专家的人工经验,通过不断的试错和验证(trial-and-error)进行迭代完善,例如,目前抗体的结合位点判定主要依赖于昂贵的结构解析实验或耗时的分子敲除筛选实验。这对人力、物力要求极高。
AI技术的最大优势是可以在短时间内通过自学习的过程,消化大量的学习数据,实现无师自通的目的。
基于此,本申请实施例利用AI技术识别抗体序列的结合位点。具体是,采用第一抗体序列对预测模型进行训练,由于在不可变区的学习大多是徒劳的,对准确率的提升没有太多的实际意义,从抗体药物优化改造出发,对可变区的改造比不可变区的改造更加频繁,因此为提高训练效率和训练准确性,在目标预测模型训练过程中,第一抗体序列的可变区的学习频率高于第一抗体序列的不可变区的学习频率,使得预测模型侧重学习可变区的内在规律,而对不可变区仅需要少量的学习即可达到很好的预测精度。使得训练后的预测模型可以快速准确地预测出抗体序列与抗原的结合位点,且识别成本低。即本申请实施例利用AI技术辅助识别抗体的药物的结合位点,从而降低人力、物力的开销,且提高了抗体的结合位点的识别效率。
本申请的应用场景包括但不限于医疗、生物、科研等领域,例如用于药物生产、药物研发、疫苗研发等,用于快速准确地识别出抗体序列与抗原的结合位点,且整个识别过程不需要人为干预,识别成本低。
在一些实施例中,本申请实施例的系统架构如图2所示。
图2为本申请实施例涉及的一种系统架构示意图,用户设备101、数据采集设备102、训练设备103、执行设备104、数据库105和内容库106。
其中,数据采集设备102用于从内容库106中读取训练数据,并将读取的训练数据存储至数据库105中。本申请实施例涉及的训练数据包括N条第一抗体序列和M条第二抗体序列。
在一些实施例中,用户设备101用于对数据库105中的第二抗体序列进行标注操作,即标注出第二抗体序列与抗原的结合位点。
训练设备103基于数据库105中维护的训练数据,对预测模型进行训练,使得训练后的目标预测模型可以准确预测出抗体序列与抗原的结合位点。训练设备103得到的目标预测模型可以应用到不同的系统或设备中。
在附图2中,执行设备104配置有I/O接口107,与外部设备进行数据交互。比如通过I/O接口接收用户设备101发送的待预测的目标抗体序列。执行设备104中的计算模块109使用训练好的目标预测模型对输入的目标抗体序列进行处理,输出目标抗体序列与抗原的结合位点,并通过I/O接口将目标抗体序列与抗原的结合位点发送至用户设备101。
其中,用户设备101可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)或其他具有安装浏览器功能的终端设备。
执行设备104可以为服务器。
示例性的,服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备。该服务器可以是独立的测试服务器,也可以是多个测试服务器所组成的测试服务器集群。
本实施例中,执行设备104通过网络与用户设备101连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
需要说明的是,附图2仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制。在一些实施例中,上述数据采集设备102与用户设备101、训练设备103和执行设备104可以为同一个设备。上述数据库105可以分布在一个服务器上也可以分布在多个服务器上,上述的内容库106可以分布在一个服务器上也可以分布在多个服务器上。
下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
首先结合图3对本申请实施例涉及的预测模型的训练过程进行介绍。
图3为本申请一实施例提供的用于抗体的预测模型的训练方法流程示意图,如图3所示,包括:
S301、获取N条第一抗体序列。
其中,N为正整数。
本申请实施例的执行主体为具有模型训练功能的装置,例如抗体结合位点的预测装置,该抗体结合位点的预测装置可以为计算设备,或者计算设备中的一部分,例如为计算设备中的处理器。示例性的,上述抗体结合位点的预测装置可以为图2中的训练设备。其中图2中的训练设备可以理解为计算设备,或者计算设备中的处理器等。
为了便于描述,在以下实施例中以执行主体为计算设备为例进行介绍。
需要说明的是,抗体为一类非常特殊的蛋白,是由多个氨基酸组成的序列,因此,本申请实施例的抗体可以理解为抗体序列。
可选的,上述第一抗体序列为天然抗体序列。
在一种示例中,从OAS数据库(Observed Antibody Space database)中收集N条(例如超过18亿条)天然抗体序列,这一海量数据来自不同的动物和病人,在超过多种(例如30种)不同抗原的刺激下生成。这一庞大的数据库可被视为对抗体序列空间的一个理想的抽样。将这N条天然抗体序列作为N条第一抗体序列。
上述从OAS数据库中收集的N条天然抗体序列均是结合位点不明的数据,即无标签数据。这些抗体序列大多数结构不明,结合位点未知。
也就是说,本申请实施例中,第一抗体序列为无标签的训练数据,即第一抗体序列中未标注出第一抗体序列与抗原的结合位点。
S302、使用N条第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型。
该预训练后的预测模型用于预测抗体序列中被掩盖的氨基酸的预测值。
图4为本申请实施例涉及的预测模型的一种训练示意图。如图4所示,在预训练过程中,使用N条第一抗体序列对预测模型进行预训练,其中第一抗体序列为无标签的训练数据,预测模型通过自主学习机制进行学习,得到预训练的预测模型。
本申请实施例的预测模型为深度神经网络模型,由于结合位点已知的抗体序列较少,使用结合位点已知的抗体序列训练一个鲁棒的深度神经网络模型是远远不够的,导致预测模型的预测精度MCC(Matthews Correlation Coefficient)低。因此,本申请实施例使用数量较多无标签的第一抗体序列对预测模型进行预训练,使预测模型通过自学习机制学习抗体序列的内部结构,使得预训练后的预测模型可以预测出抗体序列中被掩盖位置处的氨基酸的预测值。
本申请实施例对预测模型的具体类型不做限制,只有是可以预测出抗体序列的结合位点的深度神经网络模型即可。
在一种可能的实现方式中,本申请实施例的预测模型为BERT(BidirectionalEncoder Representations from Transformers),该BERT包括多个双向Transformer。
图5A为本申请实施例涉及的BERT模型的一种框架图,图5B为本申请实施例涉及的BERT模型的网络结构示意图,需要说明的是,图5B中的Trm表示Transformer。如图5A所示,BERT模型主要由三部分构成:嵌入层、编码层、池化层。下面对BERT模型的网络结构进行简单介绍。
嵌入层:将输入的序列转换成连续分布式表示(distributed representation),即将输入的序列转换成词嵌入(word embedding)或词向量(word vector)。
一般来说,输入BERT的可以是一个序列,例如抗体序列。
BERT先用专门的标记器(tokenizer)来标记(tokenize)序列。标记器先对序列进行基于规则的标记化(tokenization),再进行字词分割(segmentation)。子词分割可以实现压缩词汇表、表示未登录词、表示单词内部结构信息等。数据集中的序列长度不一定相等,BERT采用固定输入序列(长则截断,短则填充)的方式来解决这个问题。然后每个序列的第一个标记始终是特殊分类标记([CLS]),与此标记对应的最终隐藏状态用作分类任务的聚合序列表示。
分割完后,每一个空格分割的子字符串(substring)都看成一个标记(token),例如将抗体序列中的每个氨基酸作为一个标记(token)。标记器通过查表将这些标记映射成整数编码。
在一些实施例中,标记(token)也称为令牌。
整个序列由三种类型的编码向量表示,分别包括:标记编码(也称为标记嵌入(token embeddings))、段编码(也称为段嵌入(segmentation embeddings))和位置编码(也称为位置嵌入(position embeddings))。其中,标记编码是序列中每个标记转成编码后得到的向量;段编码记录每个标记属于哪序列,0是第一序列,1是第二序列,注意:[CLS]标记对应的位置编码是0。位置编码记录每个标记的位置。
如图5B所示,将输入嵌入表示为E,将特殊[CLS]标记的最终隐藏向量表示为C,第i个输入标记的最终隐藏向量为Ti。
对于给定的标记,其输入表示形式是通过将相应的标记嵌入(tokenembeddings),段嵌入(segmentation embeddings)和位置嵌入(position embeddings)求和来构造的。
编码层:是对嵌入层输出的嵌入向量进行非线性表示,提取出其中的特征(feature)表示。
可选的,编码层是由多个结构相同的Transformer构成。
其中,Transformer由编码器(encoder)和解码器(decoder)两部分组成。可选的,encoder由多个(例如6个)相同的两个子层组成,第一个子层是多头注意力层(multi-headattention),第二个子层是一般性的前馈神经网络。decoder由多个(例如6个)相同的三个子层组成,第一个子层是掩膜的多头注意力层(masked multi-head attention),第二个子层是多头注意力层(multi-head attention),第三个子层是一般性的前馈神经网络。
多头自注意力是Transformer的一大特色,可以使模型以不同的方式对待不同的输入(即分配不同的权重),而无视空间(即输入向量排成线形、面形、树形、图形等拓扑结构)的形状、大小、距离。另外Transformer可以对注意力中涉及的向量分别拆分计算,从而提高表示能力。
池化层:是将[CLS]标记对应的表示取出来,并做一定的变换,作为整个序列的表示并输出,以及原封不动地输出编码层最后一层输出的每个标记的特征表示。
上文对预测模型的网络结构进行介绍,在此基础上,下面对上述预测模型的预训练过程进行介绍。
BERT模型中的参数较多,例如对于基础BERT模型,所包括的参数为:L=12,H=768,A=12,总参数为110兆,其中,L表示层数,H表示隐藏大小,A表示自注意力头的数量。对于参数较多的BERT模型进行训练时,首先使用大量的无标签数据进行预训练。
如图5B所示,在预训练过程中,使用N条第一抗体序列对预测模型进行预训练,其中使用每条第一抗体序列对预测模型进行训练的过程相同,以一条第一抗体序列为例。对第一抗体序列中的每个氨基酸作为一个输入,例如第一抗体序列包括的氨基酸分别为:AA1、AA2…AAN,将这些氨基酸输入预测模型中,对预测模型进行训练,得到预训练的预测模型。
如图5B所示,输入的氨基酸AA1、AA2…AAN经过嵌入处理,作为编码器(例如Transformer)的输入。可选的,嵌入处理可以理解为token embeddings(标记嵌入),segmentation embeddings(段嵌入)和position embeddings(位置嵌入)的总和。需要说明的是,将一个氨基酸理解为一个word,输入一个氨基酸,在字典里查找得到它对应的数字下标,即token,然后用该数字下标在查找表中查找得到该数字下标对应的向量(嵌入),即embedding。
在一些实施例中,上述S302包括:使用N条第一抗体序列,对预测模型进行无监督预训练,得到预训练后的预测模型。
在一些实施例中,上述S302包括:
S302-A、基于MASK策略,使用N条第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型。
以一条第一抗体序列为例,随机掩盖第一抗体序列中的一个或几何氨基酸,预测被掩盖的氨基酸的预测值。根据被掩盖氨基酸的预测值和真实值之间的损失,反向训练该预测模型。
举例说明,如图5B所示,假设将第一抗体序列中的氨基酸AA2进行掩盖,即将氨基酸AA2替换为MASK,或者其他的数据,输入该预测模型,该预测模型根据第一抗体序列的上下文信息,预测MASK掉的氨基酸AA2的预测值,并输出,即图5B中的预测模型输出的MASK为对应位置处的氨基酸的预测值。参照上述例子,对第一抗原序列中的其他位置处的氨基酸进行掩盖,预测被掩盖的氨基酸的预测值,依次进行,根据被氨基酸的预测值和真实值之间的损失,反向训练该预测模型,得到预训练后的预测模型。
抗体是一类非常特殊的蛋白,有其专属的性质和特点,在训练模型时需要着重考虑并加以改进,才能使模型更好的服务特定的任务。相较于一般的蛋白质而言,抗体的其中一个特殊之处在于抗体序列分为可变区(CDR)和不可变区(FWR)。抗体由重链和轻链组成,在与抗原接触的功能域(Fv domain)中大体包括三个可变区,并夹着四个不可变区,如图1所示。从抗体药物优化改造出发,对可变区的改造比不可变区的改造更加频繁,所以模型应侧重学习可变区的内在规律,而对不可变区仅需要少量的学习即可达到很好的预测精度。
基于此,本申请实施例使用第一抗体序列对预测模型进行预训练的过程中,第一抗体序列的可变区的学习频率高于第一抗体序列的不可变区的学习频率,进而使得预测模型着重学习第一抗体序列的可变区的特性,这样在后期的使用过程中,可以使用训练后的预测模型准确对抗体序列中可变区的特征信息进行预测。
在一种可能的实现方式中,上述S302-A包括S302-A1和S302-A2:
S302-A1、针对N条第一抗体序列中的每一个第一抗体序列,按照第一掩盖频率对第一抗体序列的可变区的氨基酸进行掩盖,按照第二掩盖频率对第一抗体序列的不可变区的氨基酸进行掩盖,得到预测模型所预测的被掩盖的氨基酸的预测值;
S302-A2、根据被掩盖的氨基酸的预测值和真实值之间的损失,对预测模型进行预训练,得到预训练后的预测模型。
其中,第一掩盖频率大于第二掩盖频率。
本申请实施例针对第一抗体序列中不同区域的特性,对不同区域进行不同概率的掩盖测试,使预测模型更好的分配学习权重,以提高预测模型的训练效率,实现预测模型的精准训练。
具体的,在预测过程中,按照第一掩盖频率对第一抗体序列的可变区的氨基酸进行掩盖,按照第二掩盖频率对第一抗体序列的不可变区的氨基酸进行掩盖。由于抗体与抗原的结合位点通常在抗体的可变区,因此如图5A所示,对可变区的氨基酸进行多次掩盖,以使预测模型着重学习第一抗体序列的可变区的特征,而对不可变区的氨基酸进行少次掩盖,以提高预测模型的训练速度。
需要说明的是,本申请实施例对第一掩盖频率和第二掩盖频率的具体取值不做限制,只是第一掩盖频率大于第二掩盖频率即可。
在一种可能的实现方式中,不可变区(FWR)和可变区(CDR)的序列长度比值约为5:2,而突变率为1:10。示例性的,可以设定不可变区和可变区的mask学习权重比为1:4,即可变区的第一掩盖频率mask rate=20%,不可变区的第二掩盖频率mask rate=5%。
在一些实施例中,上述S302包括:剔除N条第一抗体序列中重复的第一抗体序列,得到P个第一抗体序列,P为小于N的正整数;使用P个第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型。其中,使用P个第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型的过程参照上述描述,在此不再赘述。
本申请实施例,使用N条第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型,其中第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点,预训练后的预测模型用于预测抗体序列中被掩盖的氨基酸的预测值。由于未标注的第一抗体系列的数量较多,使用大量的第一抗体序列对预测模型进行预训练,可以使该预测模型得到充分的训练,使无监督训练出的预训练模型可以有较强的延展性,进而提高了预测模型的训练准确性。另外,由于抗体序列的改进通常发生在抗体序列的可变区,基于此,在预测模型的预训练过程中,对第一抗体序列的可变区进行着重学习,以进一步提高预测模型的训练准确度。
上文对预测模型的预训练过程进行了介绍,本申请实施例还包括对上述预训练后的预测模型进行微调的过程。
图6为本申请一实施例提供的用于抗体的预测模型的训练方法流程示意图,如图6所示,包括:
S401、获取N条第一抗体序列,N为正整数,第一抗体序列中未标注出第一抗体序列与抗原的结合位点。
S402、使用N条第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型,预训练后的预测模型用于预测抗体序列中被掩盖的氨基酸的预测值。
其中,上述S401与S402的具体实现过程参照上述S401与S402的描述,在此不再赘述。
S403、获取M条第二抗体序列,M为正整数,第二抗体序列中标注出第二抗体序列与抗原的结合位点。
S404、使用M条第二抗体序列,对预训练后的预测模型进行微调,得到目标预测模型,目标预测模型用于预测抗体序列与抗原的结合位点。
需要说明的是,上述S403与上述S401在执行时没有先后顺序,即上述S403可以在上述S401之前执行,或者在上述S401之后执行,或者与上述S401同时执行。
在一些实施例中,N大于M,即本申请实施例中,用于训练预测模型的第一抗体序列的数量大于第二抗体序列的数量。这是由于获取抗体结合位点需要对抗体和抗原的复合体结构进行解析,而解析蛋白结构是一件非常费时费力的科研工作。这导致到目前为止,可收集到的已知结合位点的抗体序列较少,例如只有1662条,本申请实施例从这些已知结合位点的抗体序列中选择出M条抗体序列作为第二抗体序列,例如M=1662条。需要说明是,上述1662条只是一种示例,本申请实施例的第二抗体序列可以是这1662条抗体序列中选出,也可以是通过其他方式获取,即本申请实施例对第二抗体序列的获取方式不做限制,只要第二抗体序列为结合位点已知的抗体序列即可。
本申请实施例的预测模型为深度神经网络模型,由于结合位点已知的抗体序列较少,使用结合位点已知的抗体序列训练一个鲁棒的深度神经网络模型是远远不够的,导致预测模型的预测精度MCC(Matthews Correlation Coefficient)低。因此,本申请实施例使用数量较多无标签的第一抗体序列对预测模型进行预训练,使用数量较少的第二抗体序列对预训练后的预测模型进行微调,得到目标预测模型,进而提高目标预测模型的预测精度高。
图5C为本申请实施例涉及的目标预测模型的训练过程的一种示意图。参照图5C所示,包括预训练(pre-training)部分和微调(fine tuning)部分。其中预训练(pre-training)部分参照上述实施例的描述。使用第一抗体序列对预测模型进行预训练,得到上述预训练后的预测模型之后,使用带标签的第二抗体序列对预训练后的预测模型进行微调,由于输入预训练后的预测模型的第二抗体序列中对结合位点进行了标注,这样预训练后的预测模型可以获知本次训练的任务是预测抗体序列的结合位点,进而预训练后的预测模型对结合位点已知的第二抗体序列进行学习,以预测出各第二抗体序列的结合位点。
具体是,以一个第二抗体序列为例,将该第二抗体序列中的每个氨基酸作为预训练后的预测模型的输入,该预训练后的预测模型输出各氨基酸是否与抗原结合的预测值,例如图5C中,氨基酸AA1对应的输出结果为0,表示预训练后的预测模型预测该氨基酸AA1与抗原不结合,氨基酸AA2对应的输出结果为结合(Bind),表示预训练后的预测模型预测该氨基酸AA2与抗原结合。由于第二抗体序列的结合位点已知,因此,根据预训练后的预测模型所预测出的氨基酸与抗原的预测结合位点与第二抗体序列的结合位点的真实值之间的损失,对该预训练后的预测模型中的参数进行微调,得到预测精度高的目标预测模型,该目标预测模型可以准确预测出抗体序列与抗原的结合位点。
在一些实施例中,第二抗体序列通过标签序列标注第二抗体序列与抗原的结合位点,其中标签序列的长度与第二抗体序列的长度相等,标签序列中的每一个值表示该值对应的氨基酸是否与抗原结合。
可选的,若第二抗性序列中的某氨基酸与抗原结合,则该氨基酸位置对应的标签的值为1,若该氨基酸与抗原不结合,则该氨基酸位置对应的标签的值为0。
即本申请实施例,预测模型以预训练的参数为初始值,对有标签的数据进行微调,最终给出序列中每个氨基酸是否是结合位点的概率,相比于随机初始值,大大提高了预测模型训练的准确性。
本申请实施例,通过获取N条第一抗体序列和M条第二抗体序列,N、M均为正整数,第一抗体序列中未标注出第一抗体序列与抗原的结合位点,第二抗体序列中标注出第二抗体序列与抗原的结合位点;使用N条第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型;使用M条第二抗体序列,对预训练后的预测模型进行微调,得到目标预测模型。即本申请实施例使用数量较多无标签的第一抗体序列对预测模型进行预训练,使用数量较少的第二抗体序列对预训练后的预测模型进行微调,得到目标预测模型,该目标预测模型可用于预测抗体序列与抗原的结合位点。
上文对预测模型的训练过程进行介绍,下面对预测模型的使用过程进行介绍。
本申请实施例的预测模型至少可以应用于如下两种场景,其中场景1,使用预训练后的预测模型预测抗体序列的结合位点。场景2,使用目标预测模型预测抗体序列中某一个位置点的预测值。
需要说明的是,这两个场景用户可以根据实际需要进行选择,例如在交互界面上显示场景1和场景2两种选项,用户可以根据需要选择是进入场景1还是场景2。
下面首先结合图7对场景1,使用训练好的预测模型预测抗体序列的结合位点的具体过程进行介绍。
图7为本申请一实施例提供的抗体结合位点的预测方法的流程示意图,如图7所示,包括:
S601、获取待预测的目标抗体序列。
S602、将目标抗体序列输入目标预测模型中,预测目标抗体序列与抗原的结合位点。
其中,目标预测模型是经过第一抗体序列预训练后经过第二抗体序列微调得到的,第一抗体序列中未标注出第一抗体序列与抗原的结合位点,第二抗体序列中标注出第二抗体序列与抗原的结合位点。具体参照上述实施例的描述,在此不再赘述。
可选的,第一抗体序列的可变区的学习频率高于第一抗体序列的不可变区的学习频率。
在本申请的一些实施例中,本申请还提供与用户的交互界面,在交互界面上显示预测框,该预测框可以理解为输入框,用户可以在该输入框内输入待预测的目标抗体序列。也就是说,上述S601包括:显示预测框,并接收用户在预测框内输入的目标抗体序列。
在本申请的一些实施例中,上述S602包括如下S602-A1和S602-A2:
S602-A1、在检测到用户的预测触发操作时,将目标抗体序列输入目标预测模型中,预测目标抗体序列与抗原的结合位点。
可选的,得到目标预测模型预测的目标抗体序列与抗原的结合位点时,显示目标抗体序列与抗原的结合位点。
示例性的,如图8所示,该交互界面包括预测框、触发按键和显示区域,其中预测框内用户可以输入待预测的目标抗体序列,触发按键例如可以为提交按键submit,显示区域用于显示目标预测模型预测的目标抗体序列与抗原的结合位点。
具体的,如图8所示,用户需要知晓待预测的目标抗体序列与抗原的结合位点时,在预测框内输入该目标抗体序列,并点击提交按键submit。计算设备在检测到用户的预测触发操作时,将目标抗体序列输入目标预测模型中,使得该目标预测模型预测目标抗体序列与抗原的结合位点,并将目标预测模型预测的目标抗体序列与抗原的结合位点在显示区域内进行显示。图8中浅色区域为该目标抗体序列与抗原的结合位点,分别为K、NTV、RSGYYGVF。
本实施例中,将待预测的目标抗体序列输入训练好的目标预测模型中,该目标预测模型可以预测出该目标抗体序列的结合位点,整个过程简单,从而降低人力、物力的开销,且由于该目标预测模型是经过大量抗体序列训练过的,且在训练过程中,第一抗体序列的可变区的学习频率高于第一抗体序列的不可变区的学习频率,使得目标预测模型着重学习可变区的特征,以提高目标预测模型的预测精度。这样,使用预测精度高的目标预测模型预测目标抗体序列的结合位点,提高了结合位点的预测准确性。
下面首先结合图9对场景2,使用预训练后的预测模型预测抗体序列中某一个位置点的预测值。
图9为本申请一实施例提供的抗体改造方法的流程示意图,如图9所示,包括:
S801、获取待改造的目标抗体序列;
S802、接收用户对目标抗体序列中待改造的目标位点氨基酸的掩盖操作;
S803、响应于掩盖操作,将目标位点氨基酸被掩盖的目标抗体序列输入预训练后的预测模型中,得到预训练后的预测模型预测的目标位点氨基酸的预测值。
其中,预训练后的预测模型是经过第一抗体序列训练得到的,第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点。预测模型的预训练过程参照上述实施例的描述,在此不再赘述。
可选的,在上述预训练的预测模型的训练过程中,第一抗体序列的可变区的学习频率高于第一抗体序列的不可变区的学习频率。
在一些情况下,例如药厂通过实验筛选得到候选抗体序列后,需要对其进行优化:如改造鼠源位点使其降低免疫原性,改造易氧化位点使其方便储藏保鲜,改造带电荷位点使其避免粘连导致聚集从而降低溶解性等。在这些情况下,计算设备获取待改造的目标抗体序列,并接收用户对目标抗体序列中待改造的目标位点氨基酸的掩盖操作,响应于掩盖操作,计算设备将目标位点氨基酸被掩盖的目标抗体序列输入预训练后的预测模型中,得到预训练后的预测模型预测的目标位点的预测值。
在一些实施例中,本申请实施例提供用户的交互界面,如图10所示,交互界面包括输入框和显示区域,用户将待改造的目标抗体序列输入输入框内,计算设备显示用户在输入框内输入的目标抗体序列。用户执行掩盖操作,具体是用户将该目标抗体序列中待改造的目标位点氨基酸替换成“[MASK]”。接着,用户点击提交选项,计算设备接收用户对目标抗体序列的目标位点氨基酸的掩盖操作,响应于掩盖操作,将目标位点氨基酸替换为“[MASK]”的目标抗体序列输入预训练后的预测模型中,该预训练后的预测模型结合上下文信息,预测被替换掉的目标位点氨基酸的预测值。
在一些实施例中,上述S803中将目标位点氨基酸被掩盖的目标抗体序列输入预训练后的预测模型中,得到预训练后的预测模型预测的目标位点氨基酸的预测值,包括如下S803-A1和S803-A2:
S803-A1、将目标位点氨基酸被掩盖的目标抗体序列输入预训练后的预测模型中,针对Q个预设值中的每一个预设值,得到预训练后的预测模型预测的目标位点氨基酸被替换为预设值时的概率值,Q为正整数;
S803-A2、将Q个预设值中概率值最大的前K个预设值作为目标位点的预测值进行显示,K为小于或等于Q的正整数。
该实施例中,预设有Q个预设值,预训练后的预测模型预测将被替换为“[MASK]”的目标位点氨基酸替换为Q个预设值中的每个预设值时,其对应的概率值。例如图10所示,将目标位点氨基酸替换为G时的概率值为0.547,将目标位点氨基酸替换为S时的概率值为0.238,将目标位点氨基酸替换为F时的概率值为0.074,将目标位点氨基酸替换为V时的概率值为0.031,将目标位点氨基酸替换为Y时的概率值为0.025,等等。这Q个预设值对应的概率值之和为1。根据概率值的大小,从Q个预设值中选择概率值最大的前K个预设值,作为目标位点氨基酸的预设值,例如,选择概率值最大的预设值G作为目标位点氨基酸的预测值,或者,如图10所示,选择概率值最大的前5个预设值作为目标位点氨基酸的预测值,并在显示区域内显示目标位点氨基酸的预测值。可选的,当目标位点氨基酸的预测值数量大于1时,可以根据概率值从大到小依次显示目标位点氨基酸的预测值。
在一些实施例中,如图10所示,显示区域除了显示目标位点氨基酸的前K个预设值外,还可以显示K个预设值中每个预设值的概率值。这样便于用户根据概率值从K个预设值选择目标位点氨基酸的目标预测值。
在一些实施例中,如图10所示,用户对目标抗体序列中目标位点氨基酸进行掩盖后,执行预测触发操作,例如点击图10中“提交”选项,计算设备在检测到用户的预测触发操作时,响应于用户的掩盖操作,将目标位点氨基酸被掩盖的目标抗体序列输入预训练后的预测模型中,得到预训练后的预测模型输出的目标位点氨基酸的预测值。
本实施例,当需要对抗体进行改造时,通过获取待改造的目标抗体序列;接收用户对目标抗体序列的目标位点氨基酸的掩盖操作;响应于掩盖操作,将目标位点氨基酸被掩盖的目标抗体序列输入预训练后的预测模型中,得到预训练后的预测模型预测的目标位点氨基酸的预测值。即本申请实施例降低了抗体序列的改造难度,提高了抗体序列的改造效率。
下面结合具体试验,进一步对本申请实施例的技术效果进行介绍。
针对场景2,即使用训练好的预测模型预测抗体序列中某一个位置点的预测值,选取第一数量(例如100条)从未用于训练的抗体序列,对第一数量的抗体序列的部分氨基酸进行掩盖,测试目标预测模型在预测掩盖氨基酸的误差是否低于蛋白序列预训练模型ProtTrans(由慕尼黑工业大学TUM的Rost实验室联合谷歌、NVIDIA等企业打造)。结果如图11A所示,本申请的目标预测模型的预测误差(以交叉熵损失为衡量)显著低于ProtTrans模型,Wilcoxon rank-sum非参检验显示p值为4x10-15。因此,本申请实施例的为预测模型学习抗体序列带来了突出贡献。
针对场景1,即使用训练好的预测模型预测抗体序列的结合位点,采取了五折交叉检验的方法,将有标签的1023条序列分为五等分,采用其中四份进行训练,另一份进行测试。如此反复五次,如图11B所示,得到预测性能的平均MCC(Matthews correlationcoefficient)值为0.976,其中,MCC的计算公式如下:
其中,TP真阳性、TN真阴性、FP假阳性、FN假阴性
如图11B所示,本申请实施例的目标预测模型与proABC、LSTM基线模型、Parapred(预测模型)、AG-Fast-Parapred(AG快速预测模型)相比有超过50%的提升。
以上结合附图详细描述了本申请的优选实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。例如,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。又例如,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。
还应理解,在本申请的各种方法实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上文结合图3至图10,详细描述了本申请的方法实施例,下文结合图12至图14,详细描述本申请的装置实施例。
图12为本申请实施例提供的用于抗体的预测模型的训练装置的一种结构示意图。该训练装置20可以是计算设备,也可以是计算设备的部件(例如,集成电路,芯片等等),用于执行上述模型训练方法。
获取单元21,用于获取N条第一抗体序列,所述N为正整数,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点;
训练单元22,用于使用所述N条第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型,所述预训练后的预测模型用于预测抗体序列中被掩盖的氨基酸的预测值。
在一些实施例中,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
在一些实施例中,上述训练单元22,具体用于使用所述N条第一抗体序列,对所述预测模型进行无监督预训练,得到预训练后的预测模型。
在一些实施例中,上述训练单元22,具体用于基于MASK策略,使用所述N条第一抗体序列,对所述预测模型进行预训练,得到预训练后的预测模型。
在一些实施例中,上述训练单元22,具体用于针对所述N条第一抗体序列中的每一个第一抗体序列,按照第一掩盖频率对所述第一抗体序列的可变区的氨基酸进行掩盖,按照第二掩盖频率对所述第一抗体序列的不可变区的氨基酸进行掩盖,得到所述预测模型所预测的被掩盖的氨基酸的预测值;根据所述被掩盖的氨基酸的预测值和真实值之间的损失,对所述预测模型进行预训练,得到预训练后的预测模型。
可选的,所述第一掩盖频率大于所述第二掩盖频率。
在一些实施例中,上述获取单元21,还用于获取M条第二抗体序列,所述M为正整数,所述第二抗体序列中标注出所述第二抗体序列与抗原的结合位点;
训练单元22,还用于使用所述M条第二抗体序列,对所述预训练后的预测模型进行微调,得到目标预测模型,所述目标预测模型用于预测抗体序列与抗原的结合位点。
在一些实施例中,上述训练单元22,具体用于针对所述M条第二抗体序列中的每条第二抗体序列,将所述第二抗体序列输入所述预训练后的预测模型中,得到所述预训练后的预测模型所预测的所述第二抗体序列与抗原的预测结合位点;根据预测的所述第二抗体序列与抗原的结合位点和所述第二抗体序列与抗原的结合位点的真实值之间的损失,对所述预训练后的预测模型进行微调,得到目标预测模型。
在一些实施例中,所述第二抗体序列通过标签序列标注所述第二抗体序列与抗原的结合位点,其中所述标签序列的长度与所述第二抗体序列的长度相等,所述标签序列中的每一个值表示该值对应的氨基酸是否与抗原结合。
可选的,所述M小于所述N。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图12所示的训练装置可以对应于执行本申请实施例的模型训练方法中的相应主体,并且训练装置中的各个模块的前述和其它操作和/或功能分别为了实现上述模型训练中的各个方法中的相应流程,为了简洁,在此不再赘述。
图13为本申请实施例提供的抗体改造装置的一种结构示意图。该抗体改造装置30可以是计算设备,也可以是计算设备的部件(例如,集成电路,芯片等等),用于执行上述抗体改造方法。
获取单元31,用于获取待改造的目标抗体序列;
接收单元32,用于接收所述用户对所述目标抗体序列中待改造的目标位点氨基酸的掩盖操作;
预测单元33,用于响应于所述掩盖操作,将目标位点氨基酸被掩盖的所述目标抗体序列输入预训练后的预测模型中,得到所述预训练后的预测模型输出的所述目标位点氨基酸的预测值;
其中,所述预训练后的预测模型是经过第一抗体序列训练得到的,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点。
在一些实施例中,预测单元33,具体用于将目标位点氨基酸被掩盖的所述目标抗体序列输入所述预训练的预测模型中,针对Q个预设值中的每一个预设值,得到所述预训练的预测模型输出的所述目标位点氨基酸被替换为所述预设值时的概率值,所述Q为正整数;将所述Q个预设值中概率值最大的前K个预设值作为所述目标位点氨基酸的预测值进行显示,所述K为小于或等于Q的正整数。
在一些实施例中,上述装置还包括显示单元34,显示单元34用于显示所述前K个预设值中每个预设值的概率值。
在一些实施例中,显示单元34还用于显示输入框;接收单元32,还用于接收所述用户在所述输入框内输入的待改造的目标抗体序列。
在一些实施例中,在所述预训练的预测模型的训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
在一些实施例中,预测单元33,具体用于在检测到所述用户的预测触发操作时,响应于所述掩盖操作,将所述目标位点氨基酸被掩盖的所述目标抗体序列输入预训练后的预测模型中,得到所述预训练后的预测模型输出的所述目标位点氨基酸的预测值。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图13所示的抗体改造装置可以对应于执行本申请实施例的抗体改造方法中的相应主体,并且抗体改造装置中的各个模块的前述和其它操作和/或功能分别为了实现上述抗体改造中的各个方法中的相应流程,为了简洁,在此不再赘述。
图14为本申请实施例提供的抗体结合位点的预测装置的一种结构示意图。该预测装置40可以是计算设备,也可以是计算设备的部件(例如,集成电路,芯片等等),用于执行上述抗体结合位点的预测方法。
获取单元41,用于获取待预测的目标抗体序列;
预测单元42,用于将所述目标抗体序列输入目标预测模型中,预测所述目标抗体序列与抗原的结合位点;
其中,所述目标预测模型是经过第一抗体序列预训练后经过第二抗体序列微调得到的,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点,所述第二抗体序列中标注出所述第二抗体序列与抗原的结合位点。
在一些实施例中,预测装置还包括显示单元43,用于显示所述目标预测模型所预测的所述目标抗体序列与抗原的结合位点。
在一些实施例中,预测装置还包括接收单元44;
显示单元43用于显示预测框;
接收单元44,用于接收用户在预测框内输入的目标抗体序列。
在一些实施例中,预测单元42,具体用于在检测到所述用户的预测触发操作时,将所述目标抗体序列输入目标预测模型中,预测所述目标抗体序列与抗原的结合位点。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图14所示的预测装置可以对应于执行本申请实施例的预测方法中的相应主体,并且预测装置40中的各个模块的前述和其它操作和/或功能分别为了实现上述抗体结合位点中的各个方法中的相应流程,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图15为本申请实施例涉及的计算设备的框图,该设备可以是图1所示的服务器,用于执行上述实施例所述的方法,具体参见上述方法实施例中的说明。
图15所示的计算设备200包括存储器201、处理器202、通信接口203。存储器201、处理器202、通信接口203之间彼此通信连接。例如,存储器201、处理器202、通信接口203之间可以采用网络连接的方式,实现通信连接。或者,上述计算设备200还可以包括总线204。存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接。图14是以存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接的计算设备200。
存储器201可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器201可以存储程序,当存储器201中存储的程序被处理器202执行时,处理器202和通信接口203用于执行上述方法。
处理器202可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路。
处理器202还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的方法可以通过处理器202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器202还可以是通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器202读取存储器201中的信息,结合其硬件完成本申请实施例的方法。
通信接口203使用例如但不限于收发器一类的收发模块,来实现计算设备200与其他设备或通信网络之间的通信。例如,可以通过通信接口203获取数据集。
当上述计算设备200包括总线204时,总线204可包括在计算设备200各个部件(例如,存储器201、处理器202、通信接口203)之间传送信息的通路。
根据本申请的还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
根据本申请的还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例的方法。
换言之,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。另外,各个方法实施例之间、各个装置实施例之间也可以互相参考,在不同实施例中的相同或对应内容可以互相引用,不做赘述。
Claims (18)
1.一种用于抗体的预测模型的训练方法,其特征在于,包括:
获取N条第一抗体序列,所述N为正整数,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点;
使用所述N条第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型;
其中,所述预训练后的预测模型用于预测抗体序列中被掩盖的氨基酸的预测值,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
2.根据权利要求1所述的方法,其特征在于,所述使用所述N条第一抗体序列,对所述预测模型进行预训练,得到预训练后的预测模型,包括:
使用所述N条第一抗体序列,对所述预测模型进行无监督预训练,得到预训练后的预测模型。
3.根据权利要求2所述的方法,其特征在于,所述使用所述N条第一抗体序列,对所述预测模型进行无监督预训练,得到预训练后的预测模型,包括:
基于MASK策略,使用所述N条第一抗体序列,对所述预测模型进行预训练,得到预训练后的预测模型。
4.根据权利要求3所述的方法,其特征在于,所述基于MASK策略,使用所述N条第一抗体序列,对所述预测模型进行预训练,得到预训练后的预测模型,包括:
针对所述N条第一抗体序列中的每一个第一抗体序列,按照第一掩盖频率对所述第一抗体序列的可变区的氨基酸进行掩盖,按照第二掩盖频率对所述第一抗体序列的不可变区的氨基酸进行掩盖,得到所述预测模型所预测的被掩盖的氨基酸的预测值;
根据所述被掩盖的氨基酸的预测值和真实值之间的损失,对所述预测模型进行预训练,得到预训练后的预测模型。
5.根据权利要求4所述的方法,其特征在于,所述第一掩盖频率大于所述第二掩盖频率。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
获取M条第二抗体序列,所述M为正整数,所述第二抗体序列中标注出所述第二抗体序列与抗原的结合位点;
使用所述M条第二抗体序列,对所述预训练后的预测模型进行微调,得到目标预测模型,所述目标预测模型用于预测抗体序列与抗原的结合位点。
7.根据权利要求6所述的方法,其特征在于,所述使用所述M条第二抗体序列,对所述预训练后的预测模型进行微调,得到目标预测模型,包括:
针对所述M条第二抗体序列中的每条第二抗体序列,将所述第二抗体序列输入所述预训练后的预测模型中,得到所述预训练后的预测模型所预测的所述第二抗体序列与抗原的预测结合位点;
根据预测的所述第二抗体序列与抗原的结合位点和所述第二抗体序列与抗原的结合位点的真实值之间的损失,对所述预训练后的预测模型进行微调,得到目标预测模型。
8.根据权利要求6所述的方法,其特征在于,所述第二抗体序列通过标签序列标注所述第二抗体序列与抗原的结合位点,其中所述标签序列的长度与所述第二抗体序列的长度相等,所述标签序列中的每一个值表示该值对应的氨基酸是否与抗原结合。
9.一种抗体改造方法,其特征在于,包括:
获取待改造的目标抗体序列;
接收用户对所述目标抗体序列中待改造的目标位点氨基酸的掩盖操作;
响应于所述掩盖操作,将目标位点氨基酸被掩盖的所述目标抗体序列输入预训练后的预测模型中,得到所述预训练后的预测模型输出的所述目标位点氨基酸的预测值;
其中,所述预训练后的预测模型是经过第一抗体序列训练得到的,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
10.根据权利要求9所述的方法,其特征在于,所述将目标位点氨基酸被掩盖的所述目标抗体序列输入所述预训练后的预测模型中,得到所述预训练后的预测模型输出的所述目标位点氨基酸的预测值,包括:
将目标位点氨基酸被掩盖的所述目标抗体序列输入所述预训练的预测模型中,针对Q个预设值中的每一个预设值,得到所述预训练的预测模型输出的所述目标位点氨基酸被替换为所述预设值时的概率值,所述Q为正整数;
将所述Q个预设值中概率值最大的前K个预设值作为所述目标位点氨基酸的预测值进行显示,所述K为小于或等于Q的正整数。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
显示所述前K个预设值中每个预设值的概率值。
12.一种抗体结合位点的预测方法,其特征在于,包括:
获取待预测的目标抗体序列;
将所述目标抗体序列输入目标预测模型中,预测所述目标抗体序列与抗原的结合位点;
其中,所述目标预测模型是经过第一抗体序列预训练后经过第二抗体序列微调得到的,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点,所述第二抗体序列中标注出所述第二抗体序列与抗原的结合位点,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
显示所述目标预测模型所预测的所述目标抗体序列与抗原的结合位点。
14.一种用于抗体的预测模型的训练装置,其特征在于,包括:
获取单元,用于获取N条第一抗体序列,所述N为正整数,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点;
训练单元,用于使用所述N条第一抗体序列,对预测模型进行预训练,得到预训练后的预测模型,所述预训练后的预测模型用于预测抗体序列中被掩盖的氨基酸的预测值,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
15.一种抗体改造装置,其特征在于,包括:
获取单元,用于获取待改造的目标抗体序列;
接收单元,用于接收用户对所述目标抗体序列中待改造的目标位点氨基酸的掩盖操作;
预测单元,用于响应于所述掩盖操作,将目标位点氨基酸被掩盖的所述目标抗体序列输入预训练后的预测模型中,得到所述预训练后的预测模型输出的所述目标位点氨基酸的预测值;
其中,所述预训练后的预测模型是经过第一抗体序列训练得到的,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
16.一种抗体结合位点的预测装置,其特征在于,包括:
获取单元,用于获取待预测的目标抗体序列;
预测单元,用于将所述目标抗体序列输入目标预测模型中,预测所述目标抗体序列与抗原的结合位点;
其中,所述目标预测模型是经过第一抗体序列预训练后经过第二抗体序列微调得到的,所述第一抗体序列中未标注出所述第一抗体序列与抗原的结合位点,所述第二抗体序列中标注出所述第二抗体序列与抗原的结合位点,在所述预测模型的预训练过程中,所述第一抗体序列的可变区的学习频率高于所述第一抗体序列的不可变区的学习频率。
17.一种计算设备,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现如权利要求1至8或9至11或12至13任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现如权利要求1至8或9至11或12至13任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110594661.1A CN113764037B (zh) | 2021-05-28 | 2021-05-28 | 模型训练、抗体改造和结合位点预测的方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110594661.1A CN113764037B (zh) | 2021-05-28 | 2021-05-28 | 模型训练、抗体改造和结合位点预测的方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113764037A true CN113764037A (zh) | 2021-12-07 |
CN113764037B CN113764037B (zh) | 2023-10-27 |
Family
ID=78787269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110594661.1A Active CN113764037B (zh) | 2021-05-28 | 2021-05-28 | 模型训练、抗体改造和结合位点预测的方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113764037B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114822696A (zh) * | 2022-04-29 | 2022-07-29 | 北京深势科技有限公司 | 基于注意力机制的抗体非定序预测方法和装置 |
CN115116548A (zh) * | 2022-05-05 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备、介质及程序产品 |
CN115132278A (zh) * | 2022-05-27 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 一种抗体物种的改造方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101657723A (zh) * | 2007-03-26 | 2010-02-24 | 巴特勒能源同盟有限公司 | 通过增加报道抗体层积改进抗体谱灵敏度 |
CN106047857A (zh) * | 2016-06-01 | 2016-10-26 | 苏州金唯智生物科技有限公司 | 一种发掘特异性功能抗体的方法 |
US20200232040A1 (en) * | 2017-01-18 | 2020-07-23 | Vinod P. Balachandran | Neoantigens and uses thereof for treating cancer |
CN111445962A (zh) * | 2020-03-27 | 2020-07-24 | 上海祥耀生物科技有限责任公司 | 抗体库的构建方法及装置 |
WO2020236839A2 (en) * | 2019-05-19 | 2020-11-26 | Just Biotherapeutics, Inc. | Generation of protein sequences using machine learning techniques |
CN112397139A (zh) * | 2020-11-13 | 2021-02-23 | 中山大学 | 一种通过序列预测抗体上结合位点的深度学习方法 |
CN112420123A (zh) * | 2020-11-30 | 2021-02-26 | 上海商汤智能科技有限公司 | 自监督学习模型的训练方法和装置、设备以及存储介质 |
TW202112801A (zh) * | 2019-06-05 | 2021-04-01 | 美商西雅圖遺傳學公司 | 純化遮蔽抗體之方法 |
CN112614538A (zh) * | 2020-12-17 | 2021-04-06 | 厦门大学 | 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置 |
-
2021
- 2021-05-28 CN CN202110594661.1A patent/CN113764037B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101657723A (zh) * | 2007-03-26 | 2010-02-24 | 巴特勒能源同盟有限公司 | 通过增加报道抗体层积改进抗体谱灵敏度 |
CN106047857A (zh) * | 2016-06-01 | 2016-10-26 | 苏州金唯智生物科技有限公司 | 一种发掘特异性功能抗体的方法 |
US20200232040A1 (en) * | 2017-01-18 | 2020-07-23 | Vinod P. Balachandran | Neoantigens and uses thereof for treating cancer |
WO2020236839A2 (en) * | 2019-05-19 | 2020-11-26 | Just Biotherapeutics, Inc. | Generation of protein sequences using machine learning techniques |
TW202112801A (zh) * | 2019-06-05 | 2021-04-01 | 美商西雅圖遺傳學公司 | 純化遮蔽抗體之方法 |
CN111445962A (zh) * | 2020-03-27 | 2020-07-24 | 上海祥耀生物科技有限责任公司 | 抗体库的构建方法及装置 |
CN112397139A (zh) * | 2020-11-13 | 2021-02-23 | 中山大学 | 一种通过序列预测抗体上结合位点的深度学习方法 |
CN112420123A (zh) * | 2020-11-30 | 2021-02-26 | 上海商汤智能科技有限公司 | 自监督学习模型的训练方法和装置、设备以及存储介质 |
CN112614538A (zh) * | 2020-12-17 | 2021-04-06 | 厦门大学 | 一种基于蛋白质预训练表征学习的抗菌肽预测方法和装置 |
Non-Patent Citations (2)
Title |
---|
LE YAN等: "Shaping Polyclonal Responses via Antigen-Mediated Antibody Interference", ISCIENCE * |
魏化伟: "基于抗原抗体立体结构的功能表位研究", 中国博士学位论文全文数据库医药卫生科技辑, no. 07, pages 059 - 55 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114822696A (zh) * | 2022-04-29 | 2022-07-29 | 北京深势科技有限公司 | 基于注意力机制的抗体非定序预测方法和装置 |
WO2023208204A1 (zh) * | 2022-04-29 | 2023-11-02 | 北京深势科技有限公司 | 基于注意力机制的抗体非定序预测方法和装置 |
CN115116548A (zh) * | 2022-05-05 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备、介质及程序产品 |
CN115132278A (zh) * | 2022-05-27 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 一种抗体物种的改造方法、装置、设备及存储介质 |
CN115132278B (zh) * | 2022-05-27 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 一种抗体物种的改造方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113764037B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113764037B (zh) | 模型训练、抗体改造和结合位点预测的方法与装置 | |
CN113792113A (zh) | 视觉语言模型获得及任务处理方法、装置、设备及介质 | |
KR102504498B1 (ko) | 의료 사실의 검증 방법 및 장치 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN109597876A (zh) | 一种基于强化学习的多轮对话答复选择模型及其方法 | |
Gorospe et al. | A generalization performance study using deep learning networks in embedded systems | |
Ragab et al. | An ensemble one dimensional convolutional neural network with Bayesian optimization for environmental sound classification | |
Yan et al. | ConvMath: a convolutional sequence network for mathematical expression recognition | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
Ibrayim et al. | An effective method for detection and recognition of Uyghur texts in images with backgrounds | |
Hu et al. | Saliency-based YOLO for single target detection | |
CN114283878A (zh) | 训练匹配模型、预测氨基酸序列和设计药物的方法与装置 | |
CN116646001B (zh) | 基于联合式跨域注意力模型预测药物靶标结合性的方法 | |
CN113850012A (zh) | 数据处理模型生成方法、装置、介质及电子设备 | |
Luo et al. | A Caps-UBI model for protein ubiquitination site prediction | |
CN115579053A (zh) | 药物重定位方法、装置、电子设备及存储介质 | |
CN116978464A (zh) | 数据处理方法、装置、设备以及介质 | |
AU2021104828A4 (en) | Sarcasm in Twitter -A C-RNN Approach | |
CN117037917A (zh) | 细胞类型预测模型训练方法、细胞类型预测方法和装置 | |
CN115116557A (zh) | 一种预测分子标签的方法以及相关装置 | |
CN111222533B (zh) | 一种基于依赖树的深度学习视觉问答方法及系统 | |
CN114464267A (zh) | 模型训练与生成物预测的方法及装置 | |
Valentini et al. | The promises of large language models for protein design and modeling | |
CN115398446A (zh) | 使用符号编程的机器学习算法搜索 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |