CN117153253B - 一种设计人源化抗体序列的方法 - Google Patents
一种设计人源化抗体序列的方法 Download PDFInfo
- Publication number
- CN117153253B CN117153253B CN202311160298.8A CN202311160298A CN117153253B CN 117153253 B CN117153253 B CN 117153253B CN 202311160298 A CN202311160298 A CN 202311160298A CN 117153253 B CN117153253 B CN 117153253B
- Authority
- CN
- China
- Prior art keywords
- variable region
- sequences
- sequence
- initial
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 75
- 239000012634 fragment Substances 0.000 claims abstract description 60
- 230000002068 genetic effect Effects 0.000 claims abstract description 51
- 230000035772 mutation Effects 0.000 claims description 71
- 238000013508 migration Methods 0.000 claims description 40
- 230000005012 migration Effects 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 39
- 230000014759 maintenance of location Effects 0.000 claims description 36
- 238000010606 normalization Methods 0.000 claims description 19
- 238000011282 treatment Methods 0.000 claims description 16
- 238000012300 Sequence Analysis Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 239000002245 particle Substances 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 238000002922 simulated annealing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 24
- 241000283973 Oryctolagus cuniculus Species 0.000 description 18
- 239000000427 antigen Substances 0.000 description 17
- 102000036639 antigens Human genes 0.000 description 17
- 108091007433 antigens Proteins 0.000 description 17
- 238000013136 deep learning model Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 10
- 108090000623 proteins and genes Proteins 0.000 description 9
- 230000000717 retained effect Effects 0.000 description 9
- 150000001413 amino acids Chemical class 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 102000004169 proteins and genes Human genes 0.000 description 8
- 238000012216 screening Methods 0.000 description 8
- 210000004602 germ cell Anatomy 0.000 description 7
- 241000894007 species Species 0.000 description 7
- 238000002965 ELISA Methods 0.000 description 6
- 230000027455 binding Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004481 post-translational protein modification Effects 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 206010064571 Gene mutation Diseases 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000005847 immunogenicity Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000037230 mobility Effects 0.000 description 4
- 238000003032 molecular docking Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 101000851370 Homo sapiens Tumor necrosis factor receptor superfamily member 9 Proteins 0.000 description 3
- 108010054477 Immunoglobulin Fab Fragments Proteins 0.000 description 3
- 102000001706 Immunoglobulin Fab Fragments Human genes 0.000 description 3
- 102100036856 Tumor necrosis factor receptor superfamily member 9 Human genes 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- UQLDLKMNUJERMK-UHFFFAOYSA-L di(octadecanoyloxy)lead Chemical compound [Pb+2].CCCCCCCCCCCCCCCCCC([O-])=O.CCCCCCCCCCCCCCCCCC([O-])=O UQLDLKMNUJERMK-UHFFFAOYSA-L 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- NFGXHKASABOEEW-UHFFFAOYSA-N 1-methylethyl 11-methoxy-3,7,11-trimethyl-2,4-dodecadienoate Chemical compound COC(C)(C)CCCC(C)CC=CC(C)=CC(=O)OC(C)C NFGXHKASABOEEW-UHFFFAOYSA-N 0.000 description 2
- 108010047041 Complementarity Determining Regions Proteins 0.000 description 2
- 108010021625 Immunoglobulin Fragments Proteins 0.000 description 2
- 102000008394 Immunoglobulin Fragments Human genes 0.000 description 2
- 108010003723 Single-Domain Antibodies Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 229940125644 antibody drug Drugs 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012895 dilution Substances 0.000 description 2
- 238000010790 dilution Methods 0.000 description 2
- 230000002209 hydrophobic effect Effects 0.000 description 2
- 230000002998 immunogenetic effect Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000001273 protein sequence alignment Methods 0.000 description 2
- 239000006228 supernatant Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000283707 Capra Species 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000282575 Gorilla Species 0.000 description 1
- 108010001336 Horseradish Peroxidase Proteins 0.000 description 1
- 241001529936 Murinae Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 102000035195 Peptidases Human genes 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 239000004365 Protease Substances 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- XSQUKJJJFZCRTK-UHFFFAOYSA-N Urea Chemical compound NC(N)=O XSQUKJJJFZCRTK-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000001218 blood-brain barrier Anatomy 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000004202 carbamide Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 239000003085 diluting agent Substances 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005714 functional activity Effects 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 230000002519 immonomodulatory effect Effects 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000000329 molecular dynamics simulation Methods 0.000 description 1
- 230000003472 neutralizing effect Effects 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 229920000136 polysorbate Polymers 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 210000001236 prokaryotic cell Anatomy 0.000 description 1
- 238000012113 quantitative test Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000013097 stability assessment Methods 0.000 description 1
- 238000012430 stability testing Methods 0.000 description 1
- 239000011550 stock solution Substances 0.000 description 1
- 239000012089 stop solution Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Mathematical Physics (AREA)
- Public Health (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Peptides Or Proteins (AREA)
Abstract
本说明书实施例提供一种设计人源化抗体序列的方法,该方法包括确定初始抗体的可变区和CDR区;基于所述初始抗体的所述可变区的序列,从含有多个人源可变区序列的数据库中获取人源可变区序列模板;将所述人源可变区序列模板中的CDR区的序列替换为所述初始抗体的CDR区的序列,以获得目标可变区序列模板;基于所述目标可变区序列模板,使用遗传算法执行迭代模拟进化,确定多个候选可变区序列;基于所述多个候选可变区序列,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列;从所述多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列中确定一个或多个目标人源化抗体序列和/或目标人源化抗体功能片段序列。
Description
交叉引用
本发明要求2022年9月9日提交的申请号为202211101597.X的中国专利申请的优先权,其全部内容通过引用并入本文。
技术领域
本说明书涉及抗体工程领域,特别涉及一种设计人源化抗体序列的方法。
背景技术
抗体可以特异性识别抗原,广泛应用于生物制药和免疫治疗领域,例如癌症治疗、免疫调节疾病治疗和传染病治疗等。抗体的安全性是影响抗体应用的最重要的因素之一。非人源抗体的免疫原性不仅造成抗体药安全性下降,同时刺激机体产生中和抗体,导致抗体活性丧失。因此,在实际应用中,可以对非人源抗体进行人源化处理来改造抗体序列,使其更加接近人类的抗体序列,从而降低抗体的免疫原性,提升抗体药物的安全性。具体地,抗体人源化是指通过将非人源的抗体的部分序列用人源的抗体序列进行替换,使其序列更像人源抗体序列且免疫原性下降或消除的过程。目前,抗体人源化主要包括如下方法:嵌合法、CDR移植、SDR移植、重铺法、基于CDR或SDR移植的生殖细胞谱系人源化等。传统的抗体人源化处理主要依靠人工操作,例如基于经验的理性设计和回复突变位点分析。这样的方式非常依赖于研究者的经验和知识水平,且设计出来的人源化抗体序列的成功率有限,若获得的人源化抗体的亲和力不满足要求,还需重新进行分析和设计人源化抗体序列,会耗费大量时间和精力。因此,有必要提供一种更高效的设计人源化抗体序列的方法。
发明内容
本说明书一个或多个实施例提供一种设计人源化抗体序列的方法。所述方法包括:对初始抗体的序列进行分析,以确定所述初始抗体的可变区和CDR区;基于所述初始抗体的所述可变区的序列,从含有多个人源可变区序列的数据库中获取人源可变区序列模板;将所述人源可变区序列模板中的CDR区的序列替换为所述初始抗体的CDR区的序列,以获得目标可变区序列模板;基于所述目标可变区序列模板,使用遗传算法执行迭代模拟进化,确定多个候选可变区序列;基于所述多个候选可变区序列,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列;从所述多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列中确定一个或多个目标人源化抗体序列和/或目标人源化抗体功能片段序列。
在一些实施例中,所述基于所述目标可变区序列模板,使用遗传算法执行迭代模拟进化,确定多个候选可变区序列包括:基于所述目标可变区序列模板,按照预设突变概率对所述目标可变区序列模板的骨架区执行模拟突变,得到多个初始可变区序列;使用训练后的深度森林模型预测所述多个初始可变区序列中每个初始可变区序列的人源化概率;基于所述多个初始可变区序列和所述人源化概率,使用所述遗传算法执行迭代模拟进化,确定多个候选可变区序列。
在一些实施例中,所述基于所述多个初始可变区序列和所述人源化概率,使用所述遗传算法执行迭代模拟进化,确定多个候选可变区序列包括:对于所述多个初始可变区序列中的每个初始可变区序列,确定所述初始可变区序列与所述目标可变区序列模板之间的距离,并基于所述初始可变区序列与所述目标可变区序列模板之间的距离和所述初始可变区序列的人源化概率,确定所述初始可变区序列的个体适应度;基于所述多个初始可变区序列和所述个体适应度,执行迭代模拟进化,确定多个候选可变区序列。
在一些实施例中,所述个体适应度是使用NGSA-II算法或其衍生算法而确定的。
在一些实施例中,所述目标可变区序列模板包括目标重链可变区序列模板和目标轻链可变区序列模板,并且所述多个候选可变区序列包括多个候选重链可变区序列和多个候选轻链可变区序列。
在一些实施例中,所述基于所述目标可变区序列模板,按照预设突变概率对所述目标可变区序列模板的骨架区执行模拟突变,得到多个初始可变区序列包括:基于所述目标可变区序列模板中对应于第一可变区的第一可变区序列模板,按照所述预设突变概率对所述第一可变区序列模板的骨架区执行模拟突变,获得对应于所述第一可变区的多个初始群体,其中所述多个初始群体中的每个初始群体包括对应于所述第一可变区的所述多个初始可变区序列,所述第一可变区为重链可变区或轻链可变区。
在一些实施例中,所述迭代模拟进化中的每个模拟进化操作包括:基于所述对应于所述第一可变区的所述多个初始可变区序列中每个初始可变区序列的所述个体适应度,从所述多个初始可变区序列中选定多个初始可变区序列作为多个第一序列;保留所述多个初始群体中的所述多个第一序列,去掉所述多个初始群体中未被选定的初始可变区序列,以获得多个第一群体;在所述多个第一群体之间执行模拟迁移,获得多个第二群体,所述多个第二群体中每个第二群体包括多个第二序列;对所述多个第二群体中的所述多个第二序列执行模拟交叉和模拟变异,得到多个第三群体,所述多个第三群体中的每个第三群体包括多个第三序列;从所述多个第三序列中确定一个或多个第一候选可变区序列。
在一些实施例中,所述迭代模拟进化的终止条件包括以下条件中的至少一项:所述迭代模拟进化的总轮数大于或等于第一阈值;所述迭代模拟进化得到的第一候选可变区序列的总数大于或等于第二阈值;本轮模拟进化操作得到的所述一个或多个第一候选可变区序列的多样性小于或等于第三阈值;本轮模拟进化操作中得到的第一候选可变区序列与上一轮模拟进化操作中得到的第一候选可变区序列的平均相似度大于或等于第四阈值。
在一些实施例中,所述第一可变区序列模板包括第一模板和/或第二模板,其中所述第一模板是从所述含有多个人源可变区序列的数据库中获取的与所述初始抗体的第一可变区的骨架区的序列相似度最高的人源可变区序列,第二模板是从所述含有多个人源可变区序列的数据库中获取的与所述初始抗体的第一可变区的全序列的相似度最高的人源可变区序列。
在一些实施例中,所述第一可变区序列模板包括第一模板和第二模板;所述多个初始群体包括基于所述第一模板执行模拟突变获得的多个第一初始群体和基于所述第二模板执行模拟突变获得的多个第二初始群体;所述多个第一群体包括从所述第一初始群体中保留所述第一序列而获得的多个第一保留群体,以及从所述第二初始群体中保留所述第一序列而获得的多个第二保留群体。
在一些实施例中,所述在所述多个第一群体之间执行模拟迁移,获得多个第二群体,包括:在所述多个第一保留群体之间执行模拟迁移、在所述多个第二保留群体之间执行模拟迁移以及在所述第一保留群体和所述第二保留群体之间执行模拟迁移,得到所述多个第二群体。
在一些实施例中,所述训练后的深度森林模型是通过以下步骤得到的:获取对应于所述第一可变区的多个训练样本,其中所述多个训练样本中的每个训练样本包括人源或非人源可变区序列及标签,所述标签指示所述样本可变区序列是人源或者非人源,所述样本可变区序列经过长度标准化处理;使用所述多个训练样本,对初始深度森林模型进行训练,得到训练后的深度森林模型。
在一些实施例中,所述基于所述多个候选可变区序列,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列,包括:从所述多个候选重链可变区序列中确定多个选定的候选重链可变区序列;从所述多个候选轻链可变区序列中确定多个选定的候选轻链可变区序列;基于所述多个选定的候选重链可变区序列和多个选定的候选轻链可变区序列,确定所述多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列。
在一些实施例中,所述对所述初始抗体的序列进行序列分析,以确定所述初始抗体的序列中的可变区和CDR区,包括:对所述初始抗体的序列进行序列分析,以确定所述初始抗体的重链可变区、轻链可变区、重链CDR区和轻链CDR区;对所述重链可变区的序列进行长度标准化处理;对所述轻链可变区的序列进行长度标准化处理。
本说明书一个或多个实施例提供一种设计人源化抗体序列的方法。所述方法包括:对初始抗体的序列进行分析,以确定所述初始抗体的可变区和CDR区;基于所述初始抗体的所述可变区的序列,从含有多个人源可变区序列的数据库中获取人源可变区序列模板;将所述人源可变区序列模板中的CDR区的序列替换为所述初始抗体的CDR区的序列,以获得目标可变区序列模板;基于所述目标可变区序列模板,基于预设突变概率,对所述目标可变区序列模板的骨架区执行模拟突变,获得多个初始可变区序列;使用训练后的深度森林模型,对所述多个初始可变区序列中每个初始可变区序列的人源化概率进行预测;基于所述多个初始可变区序列和所述人源化概率,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列;从所述多个候选人源化抗体序列或其功能片段中确定一个或多个目标人源化抗体序列和/或目标人源化抗体功能片段序列。
在一些实施例中,所述基于所述多个初始可变区序列和所述人源化概率,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列包括:基于所述多个初始可变区序列和所述人源化概率,使用启发式算法,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列。
在一些实施例中,所述启发式算法包括以下算法中的至少一项:遗传算法、粒子群算法、蚁群算法、模拟退火法、列表搜索算法、进化规划、进化策略和神经网络。
在一些实施例中,所述基于所述多个初始可变区序列和所述人源化概率,使用启发式算法,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列包括:基于多个初始可变区序列和所述人源化概率,使用遗传算法执行迭代模拟进化,确定多个候选可变区序列;基于所述多个候选可变区序列,确定所述多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列。
在一些实施例中,所述基于多个初始可变区序列和所述人源化概率,使用遗传算法执行迭代模拟进化,确定多个候选可变区序列包括:对于所述多个初始可变区序列中的每个初始可变区序列,确定所述初始可变区序列与所述目标可变区序列模板之间的距离,并基于所述初始可变区序列与所述目标可变区序列模板之间的距离和所述初始可变区序列的人源化概率,确定所述初始可变区序列的个体适应度;基于所述多个初始可变区序列和所述个体适应度,执行迭代模拟进化,确定多个候选可变区序列。
在一些实施例中,所述个体适应度是使用NGSA-II算法或其衍生算法而确定的。
在一些实施例中,所述目标可变区序列模板包括目标重链可变区序列模板和目标轻链可变区序列模板,并且所述多个候选可变区序列包括多个候选重链可变区序列和多个候选轻链可变区序列。
在一些实施例中,所述基于所述目标可变区序列模板,按照预设突变概率对所述目标可变区序列模板的骨架区执行模拟突变,得到多个初始可变区序列包括:基于所述目标可变区序列模板中对应于第一可变区的第一可变区序列模板,按照所述预设突变概率对所述第一可变区序列模板的骨架区执行模拟突变,获得对应于所述第一可变区的多个初始群体,其中所述多个初始群体中的每个初始群体包括对应于所述第一可变区的所述多个初始可变区序列,所述第一可变区为重链可变区或轻链可变区。
在一些实施例中,所述迭代模拟进化中的每个模拟进化操作包括:基于所述对应于所述第一可变区的所述多个初始可变区序列中每个初始可变区序列的所述个体适应度,从所述多个初始可变区序列中选定多个初始可变区序列作为多个第一序列;保留所述多个初始群体中的所述多个第一序列,去掉所述多个初始群体中未被选定的初始可变区序列,以获得多个第一群体;在所述多个第一群体之间执行模拟迁移,获得多个第二群体,所述多个第二群体中每个第二群体包括多个第二序列;对所述多个第二群体中的所述多个第二序列执行模拟交叉和模拟变异,得到多个第三群体,所述多个第三群体中的每个第三群体包括多个第三序列;从所述多个第三序列中确定一个或多个第一候选可变区序列。
在一些实施例中,所述迭代模拟进化的终止条件包括以下条件中的至少一项:所述迭代模拟进化的总轮数大于或等于第一阈值;所述迭代模拟进化得到的第一候选可变区序列的总数大于或等于第二阈值;本轮模拟进化操作得到的所述一个或多个第一候选可变区序列的多样性小于或等于第三阈值;本轮模拟进化操作中得到的第一候选可变区序列与上一轮模拟进化操作中得到的第一候选可变区序列的平均相似度大于或等于第四阈值。
在一些实施例中,所述第一可变区序列模板包括第一模板和/或第二模板,其中所述第一模板是从所述含有多个人源可变区序列的数据库中获取的与所述初始抗体的第一可变区的骨架区的序列相似度最高的人源可变区序列,第二模板是从所述含有多个人源可变区序列的数据库中获取的与所述初始抗体的第一可变区的全序列的相似度最高的人源可变区序列。
在一些实施例中,所述第一可变区序列模板包括第一模板和第二模板;所述多个初始群体包括基于所述第一模板执行模拟突变获得的多个第一初始群体和基于所述第二模板执行模拟突变获得的多个第二初始群体;所述多个第一群体包括从所述第一初始群体中保留所述第一序列而获得的多个第一保留群体,以及从所述第二初始群体中保留所述第一序列而获得的多个第二保留群体。
在一些实施例中,所述在所述多个第一群体之间执行模拟迁移,获得多个第二群体,包括:在所述多个第一保留群体之间执行模拟迁移、在所述多个第二保留群体之间执行模拟迁移以及在所述第一保留群体和所述第二保留群体之间执行模拟迁移,得到所述多个第二群体。
在一些实施例中,所述基于所述多个候选可变区序列,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列,包括:从所述多个候选重链可变区序列中确定多个选定的候选重链可变区序列;从所述多个候选轻链可变区序列中确定多个选定的候选轻链可变区序列;基于所述多个选定的候选重链可变区序列和多个选定的候选轻链可变区序列,确定所述多个候选人源化抗体序列或和/或多个候选人源化抗体功能片段序列。
在一些实施例中,所述训练后的深度森林模型是通过以下步骤得到的:获取对应于所述第一可变区的多个训练样本,其中所述多个训练样本中的每个训练样本包括人源或非人源可变区序列及标签,所述标签指示所述样本可变区序列是人源或者非人源,所述样本可变区序列经过长度标准化处理;使用所述多个训练样本,对初始深度森林模型进行训练,得到训练后的深度森林模型。
在一些实施例中,所述对所述初始抗体的序列进行序列分析,以确定所述初始抗体的序列中的可变区和CDR区,包括:对所述初始抗体的序列进行序列分析,以确定所述初始抗体的重链可变区、轻链可变区、重链CDR区和轻链CDR区;对所述重链可变区的序列进行长度标准化处理;对所述轻链可变区的序列进行长度标准化处理。
本说明书一个或多个实施例提供了一种计算设备。所述计算设备包括至少一个处理器和至少一个存储设备,其中所述至少一个存储设备中存有用于设计人源化抗体序列的指令集,当执行所述指令集时,处理器执行前述设计人源化序列的方法。
本说明书一个或多个实施例提供了一种非暂时性计算机可读存储介质,其特征在于,所述非暂时性计算机可读存储介质存储有用于设计人源化抗体序列的指令集,所述指令集在由计算设备执行时,使所述计算设备执行前述涉及人源化序列的方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的设计人源化抗体序列的方法;
图2是根据本说明书一些实施例所示的使用遗传算法获得多个候选可变区序列的方法;
图3是根据本说明书一些实施例所示的使用遗传算法获得多个候选可变区序列的方法;
图4是根据本说明书一些实施例所示的设计人源化抗体序列的方法;
图5是根据本说明书一些实施例所示的基于多个候选可变区序列确定一个或多个目标人源化抗体的方法;
图6根据本说明书一些实施例所示的示例性计算设备的示意图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本说明书实施例涉及一种设计人源化抗体的方法。在一些实施例中,该方法可以包括使用计算设备对所述初始抗体的序列进行序列分析,以确定所述初始抗体的序列中的可变区和互补决定区(complementarity determining region,CDR区);基于所述初始抗体的所述可变区的序列,从含有多个人源可变区序列的数据库中确定人源可变区序列模板;将所述人源可变区序列模板中的CDR区的序列替换为所述初始抗体的CDR区的序列,以获得目标可变区序列模板;基于所述目标可变区序列模板,使用遗传算法执行迭代模拟进化,确定多个候选可变区序列;基于所述多个候选可变区序列,确定多个候选人源化抗体序列;从所述多个候选人源化抗体序列中确定一个或多个目标人源化抗体序列。在一些实施例中,所述目标可变区序列模板包括重链可变区序列模板和轻链可变区序列模板,并且所述多个候选可变区序列包括多个候选重链可变区序列和多个候选轻链可变区序列。
在一些实施例中,该方法可以使用计算设备来执行,从而高效获得多个候选人源化序列。例如,计算设备可以采用遗传算法,模拟自然进化的流程,通过模拟突变、群体迁移、模拟交叉、模拟变异的方式,能够基于目标可变区序列模板快速获得多个经人源化处理后的候选人源化抗体序列,从而为抗体的人源化应用提供更多的选择。对于得到的候选人源化抗体序列,还可以采取各种方法进一步进行筛选,例如通过计算设备评估候选人源化抗体的溶解度、翻译后修饰位点、抗原抗体分子对接情况、蛋白稳定性等方面的性质,并根据评估结果,得到筛选后的候选人源化抗体序列。对于筛选后的候选人源化抗体序列,可以将候选人源化抗体合成出来,并通过化学或生物学实验来检测候选人源化抗体的各方面性质,如对抗体的亲和力、抗体的表达效率、抗体的稳定性等。基于实验检测结果,可以从候选人源化抗体中选取性质满足要求的作为目标人源化抗体。
如本文中所使用的,术语“计算设备”可以指一类具有信息处理能力的设备,包括至少一个处理器和至少一个存储设备。所述处理器用于执行各种信息处理流程,例如用于执行遗传算法,以获得多个经人源化处理后的候选人源化抗体序列。所述存储设备用于存储各种信息和数据,还可以存储指令,所述指令可以在处理器中运行以执行本说明书一些实施例中所提供的设计人源化抗体序列的方法中的步骤。在一些实施例中,计算设备还可以包括终端设备,或者与终端设备相连接。终端设备可以包括输入设备,例如鼠标,键盘等。终端设备还可以包括输出设备,例如屏幕、扬声器等。用户可以通过终端设备与处理器和/或存储设备进行交互,例如可以查看和控制所述设计人源化抗体序列的进程,查看获得的候选人源化序列等等。
应当理解的是,本说明书的应用场景仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。
以下将结合附图对本说明书实施例所涉及的方法进行详细说明。值得注意的是,以下实施例仅仅用以解释本说明书,并不构成对本说明书的限定。
图1是根据本说明书一些实施例所示的设计人源化抗体序列的方法。在一些实施例中,流程100至少包括步骤110至步骤160。在一些实施例中,步骤110-160中的至少一部分可以在计算设备(例如计算设备600)上执行。
在步骤110中,可以对初始抗体的序列进行分析,以确定初始抗体的序列中的可变区和CDR区。
在一些实施例中,初始抗体可以是来源于任意非人类物种的抗体,例如来源于小鼠、大鼠、兔、猴、猩猩、狗、猫,等等。通过步骤110-150,可以基于该初始抗体获得人源化处理之后的多个目标抗体序列和/或多个目标抗体功能片段序列,所述多个目标抗体序列或目标抗体功能片段序列与人类抗体序列或抗体功能片段序列的相似度较高(例如大于80%),具有更高的安全性,也能较好地维持该抗体的功能活性。
在一些实施例中,可以采取各种合适的方法对初始抗体的序列进行序列分析。例如,可以在计算设备上使用相应抗体标注软件(例如ANARCI)对初始抗体序列中的进行位置标注,并确定初始抗体中的可变区和CDR区。仅作为示例,可以根据国际免疫遗传学信息系统(international Immunogenetics information system,IMGT)规则对初始抗体中各个位点的氨基酸进行对齐和编号。
在一些实施例中,还可以对编号后的重链可变区序列和轻链可变区序列进行长度标准化处理,以便在后续步骤中将重链可变区序列和轻链可变区序列与标准化的序列模板进行比较,或者确定重链可变区序列和轻链可变区序列的人源化概率。所述长度标准化处理,是指在对齐后,通过填充序列中的空白位置,将重链可变区序列和轻链可变区序列的长度分别修改为重链可变区的标准化长度和轻链可变区的标准化长度。
在一些实施例中,在设计人源化抗体序列的过程中可以使用深度学习模型来预测序列的人源化概率(例如,可参见步骤140使用深度森林模型来预测序列的人源化概率的相关内容)。深度学习模型的训练集中包括从数据库中获取的人源化和非人源化抗体可变区序列。对于所述人源和非人源抗体可变区序列也需要进行标准化长度处理。例如,可以从数据库,如OAS和SAbDab中获取人源和非人源抗体的重链和轻链可变区序列,按照重链和轻链分为两组,分别根据组内氨基酸序列进行坐标对齐并作等长化处理,如根据IMGT规则进行编号和对齐后,其中,序列的空白位置可以用字符“X”填充。经过标准化长度处理,重链组内所有的序列具有相同的长度(即重链可变区的标准化长度),轻链组内所有序列具有相同的长度(即轻链可变区的标准化长度)。在一些实施例中,重链可变区序列的标准化长度和轻链可变区序列的标准化长度可以相同,也可以不同。在一些实施例中,对于初始抗体可变区的序列也可以按照同样的方法进行标准化长度处理,使得初始抗体的重链可变区序列的长度与所述训练集中重链可变区的标准化长度一致,并且初始抗体的轻链可变区的序列的长度与所述训练集中轻链可变区的标准化长度一致。
在步骤120中,可以基于初始抗体的可变区的序列,从含有多个人源可变区序列的数据库中获得人源可变区序列模板。
在一些实施例中,计算设备可以从存储设备或外部设备中获取含有多个人源可变区序列的数据库。该数据库中可以包含来源于各种人源抗体的可变区序列,包括重链可变区序列和轻链可变区序列。在一些实施例中,该数据库中的重链可变区序列和轻链可变区序列也经过长度标准化处理。数据库中的重链可变区序列的长度与步骤110中初始抗体的经过长度标准化处理的重链可变区序列的长度可以是相同的。同理,数据库中的轻链可变区序列的长度与步骤110中初始抗体的经过长度标准化处理的轻链可变区序列的长度可以是相同的。
在一些实施例中,可以根据初始抗体的重链可变区序列和轻链可变区序列,从该数据库中确定人源重链可变区序列模板和人源轻链可变区序列模板。仅作为示例,可以将初始抗体的重链可变区序列中的CDR区用掩码“X”进行替代,保留骨架区(FR区)的序列,然后从数据库中搜索到与初始抗体重链可变区中的骨架区的序列相似度最高的人源化重链可变区模板,作为第一模板。又例如,可以从数据库中搜索到与初始抗体重链可变区的全序列的相似度最高的人源化重链可变区模板,作为第二模板。在一些实施例中,对于重链可变区序列,可以仅确定第一模板或第二模板,也可以同时确定第一模板和第二模板。对于轻链可变区序列,可以按照类似的方式,确定对应于轻链可变区的第一模板和/或第二模板,此处不再赘述。
在步骤130中,可以将人源可变区序列模板中的CDR区的序列替换为初始抗体的CDR区的序列,以获得目标可变区序列模板。
在一些实施例中,将人源可变区序列模板中的CDR区的序列替换为初始抗体的CDR区的序列的过程又称为CDR移植,可以尽可能使得目标可变区序列模板保留初始抗体对于抗原的亲和力。目标可变区序列模板可以包括目标重链可变区序列模板和目标轻链可变区序列模板。具体地,可以将人源重链可变区模板中的CDR区替换为初始抗体的重链可变区的CDR区,获得目标重链可变区模板。类似地,可以将人源轻链可变区模板中的CDR区替换为初始抗体的轻链可变区的CDR区,获得目标轻链可变区模板。
在步骤140中,可以基于目标可变区序列模板,使用遗传算法执行迭代模拟进化,确定多个候选可变区序列。
在一些实施例中,需要使用遗传算法,基于对应于重链可变区的初始群体和对应于轻链可变区的初始群体,分别对这两个初始群体进行迭代模拟进化,确定多个候选重链可变区序列和候选轻链可变区序列。由于获取候选重链可变区序列和获取候选轻链可变区序列的过程是类似的,为了叙述方便,本文中使用“第一可变区”指代重链可变区或轻链可变区。在一些实施例中,可以按照预设突变概率对第一可变区序列模板的骨架区执行模拟突变,获得对应于所述第一可变区的多个初始群体,其中所述多个初始群体中的每个初始群体包括多个初始可变区序列。基于多个初始群体,可以执行所述迭代模拟进化,直至达到终止条件,从而获得对应于所述第一可变区的多个候选可变区序列。
在一些实施例中,遗传算法的基本迭代流程可以包括以下步骤:选取合适的亲代序列,将亲代序列进行重组,得到子代序列,并从子代序列中选择优化的个体保留下来,重复此过程直至达到终止条件,可以得到多个优化的个体。其中,每次迭代视为一次模拟进化的过程。具体地,所述迭代模拟进化中的每个迭代过程可以包括如下步骤:(1)基于所述多个初始可变区序列中每个初始可变区序列的个体适应度,从所述多个初始可变区序列中选定多个初始可变区序列作为第一序列;(2)保留所述多个初始群体中的第一序列,去掉所述多个初始群体中未被选定的初始可变区序列,以获得多个第一群体;(3)在所述多个第一群体之间执行模拟迁移,获得多个第二群体,所述多个第二群体中每个第二群体包括第二序列;(4)对所述多个第二群体中的所述第二序列执行模拟交叉和模拟变异,得到多个第三群体,所述多个第三群体中的每个第三群体包括多个第三序列。(5)从第三序列中确定一个或多个第一候选可变区序列。其中,步骤(1)-(3)相当于是在寻找合适的亲代个体(指具体序列),步骤(4)是将亲代序列进行重组,得到子代个体的过程,步骤(5)是从得到的子代个体中筛选优化个体并保留下来的过程。关于模拟突变、模拟迁移、模拟交叉的更多信息,可以参见说明书的其他部分,如图2部分的描述。
在一些实施例中,使用遗传算法时,用户可以对遗传算法相关的参数进行检查和调整。例如,计算设备600可以将预设的遗传算法相关参数通过输出设备或其他终端设备展示给用户,用户可以对这些参数进行检查和调整。例如,遗传算法相关的参数可以包括:突变的概率、初始群体的个数、初始群体中的个体(即初始可变区序列)的个数、群体中个体发生交叉的概率、群体之间发生迁移的概率。在一些实施例中,用户还可以对终止条件进行检查和调整,例如迭代模拟进化的总轮数。仅作为示例,突变的概率可以是约0.01、0.02、0.05;初始群体的个数可以是2、3、5、10;初始群体中的个体的个数可以是约100、200、500;群体中个体发生交叉的概率可以是约0.7、0.8、0.85;群体之间发生迁移的概率可以是0.005、0.01、0.02。在一些实施例中,获取候选重链可变区所采用的遗传算法相关参数的取值和获取轻链可变区所采用的遗传算法相关参数的取值可以完全相同,部分相同,或完全不同。
在一些实施例中,所使用的遗算法可以是单群体遗传算法或多群体遗传算法。其中,单群体遗传算法是指,在通过迭代模拟进化确定对应于第一可变区的多个候选可变区序列时,只基于一个第一可变区序列模板(例如步骤120中的第一模板或第二模板)生成一个初始群体,后续也不进行群体之间的迁移。而多群体遗传算法中可以生成多个初始群体,每个初始群体中包含多个初始可变区序列。在一些实施例中,遗传算法可使用对应于第一可变区的一个模板或多个模板。例如,可以同时使用第一模板和第二模板分别生成多个初始群体,并分别筛选优化的个体,获得对应于两个模板的两种类型的第一群体。在第一群体之间进行迁移时,可以在同类型的第一群体(即对应于同一模板)之间进行迁移,也可以在不同类型的第一群体(即对应于不同模板)之间进行迁移。更多关于使用多群体遗传算法执行迭代模拟进化的过程的细节可以参见说明书中其他部分,如图2、图3及其相关描述。
在一些实施例中,迭代模拟进化的终止条件可以包括以下条件中的一项或多项:所述迭代模拟进化的总次数大于或等于第一阈值;所述迭代模拟进化得到的第一候选可变区序列的总数大于或等于第二阈值;本轮模拟进化操作得到的所述一个或多个第一候选可变区序列的多样性小于或等于第三阈值;本轮模拟进化操作中得到的第一候选可变区序列与上一轮模拟进化操作中得到的第一候选可变区序列的平均相似度大于或等于第四阈值。
在一些实施例中,可以采用NGSA-II算法或其衍生算法,根据人源化概率和所述初始可变区序列与所述第一可变区序列模板之间的距离,来确定所述个体适应度。在一些实施例中,所述初始可变区序列与所述第一可变区序列模板之间的距离可以是编辑距离,也称为莱文斯坦距离。可以通过计算将一个字符串转换为另一个字符串所需的最小操作数来量化两个字符串彼此之间差异程度,得到所述编辑距离。在一些实施例中,所述初始可变区序列与所述第一可变区序列模板之间的距离可以是基于蛋白质序列比对的替换计分矩阵计算的距离,例如单点可接受(point accepted mutation,PAM)矩阵和预测疏水跨膜(predicted hydrophobic and transmembrane,PHAT)矩阵等。经过遗传算法优化,输出的初始可变区序列相较于初始化模板会以尽可能小的序列改变或者距离增加,获取尽可能大的预测的人源化概率提升。
在一些实施例中,可以使用训练后的深度学习模型来预测个体序列的人源化概率。在一些实施例中,所述训练后的深度学习模型可以是训练后的深度森林模型。相对于其他深度学习模型,使用深度森林的优势如下:(1)处理不同规模的数据,都具有更加稳定良好的学习性能,即对数据规模的要求不高,训练速度快,降低计算成本;(2)与其他深度学习模型(例如深度神经网络)相比,不需要设置复杂的超参数,通过在具体数据集上训练误差最小化来自动设定相应参数,即降低建模难度;(3)深度森林的树结构比神经网络具有更好的解释性,即有利于挖掘和解释深层次生物学含义。如本文中所使用的,术语“人源化概率”为用于衡量人源化程度的一个指标,其可以是0-1之间的数值,可以表示为0.7、0.8等数值形式,也可以表示为70%,80%等百分比形式。可以将初始可变区序列输入至训练后的深度学习模型,所述训练后的深度学习模型可以输出该初始可变区序列的人源化概率。
在一些实施例中,可以获取对应于所述第一可变区(包括重链可变区和轻链可变区)的多个训练样本,其中所述多个训练样本中的每个训练样本包括样本可变区序列及标签,所述标签指示所述样本可变区序列是人源或者非人源。例如,所述标签可以是0或者1。当标签为0时,表示该样本可变区序列为非人源序列;当标签为1时,表示该样本可变区序列为人源序列。或者,当标签为1时,表示该样本可变区序列为人源序列;当标签为0时,表示该样本可变区序列为非人源序列。所述样本可变区序列还经过长度标准化处理,保证各个样本可变区序列转换为特征向量时尺寸保持一致,便于输入深度学习模型进行处理。在获取多个训练样本后,可以对初始深度学习模型(例如深度森林模型)进行训练,得到训练后的深度学习模型。在一些实施例中,可以采用对应于重链可变区的训练样本训练得到用于预测重链可变区序列的人源化概率的深度森林模型;可以采用对应于轻链可变区的训练样本训练得到用于预测轻链可变区序列的人源化概率的深度森林模型。在一些实施例中,所述训练样本可以来源于各类物种,训练后得到的深度森林模型的适应性较高,可以用于对各类物种的人源化概率进行预测。在一些实施例中,可以根据不同的物种,采用对应于该物种的多个训练样本,训练后得到的深度森林模型可专用于预测该物种的可变区序列的人源化概率。
在一些具体实施例中,所述深度学习模型为深度森林模型,构建深度森林模型包括以下步骤:(1)从数据库中获取的人源和非人源抗体的重链和轻链可变区序列样本,按照重链和轻链分为两组,分别按照步骤110中描述的重链和轻链可变区长度标准化处理的方法对重链和轻链组内的序列长度统一化;(2)分别对步骤(1)长度标准化的重链组可变区序列样本和长度标准化轻链组可变区序列样本进行深度森林模型训练,分别得到用于预测重链可变区序列的人源化概率的深度森林模型和预测轻链可变区序列的人源化概率的深度森林模型。
在步骤150中,可以基于多个候选可变区序列,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列。
在一些实施例中,可以通过各种方法,对候选可变区序列进行进一步筛选。例如,可以基于可变区序列数据库对候选重链可变区序列和候选轻链可变区序列进行人源性复核,并根据复核结果筛选出满足要求的候选重链可变区序列和候选轻链可变区序列。所述可变区序列数据库可以包括各种人源和非人源的可变区序列,例如可以是任何公开的包含抗体信息的数据库或其组合,如OAS、SAbDab、NCBI数据库等。可以寻找所述可变区序列数据库中与某个候选可变区序列相似度最高的可变区序列,若所述相似度最高的可变区序列为人源序列,则认为该条序列满足要求。可选地,在人源性复核之前,还可以进行回复突变或生殖细胞谱系抗体基因突变。更多关于对候选可变区序列进行筛选的细节,可以参见图5及其描述。
在一些实施例中,可以通过上述筛选方式从所述多个候选重链可变区序列中确定多个选定的候选重链可变区序列;从所述多个候选轻链可变区序列中确定多个选定的候选轻链可变区序列。在一些实施例中,也可以基于人源化概率,来确定选定的候选轻链可变区序列和选定的候选重链可变区序列。人源化概率可以使用前述深度森林模型来预测。可以将所述多个选定的候选重链可变区序列加上人源重链恒定区,得到多个候选人源化重链序列;将所述多个选定的候选轻链可变区序列加上人源轻链恒定区,得到多个候选人源化轻链序列。例如,所述人源恒定区可以是经过设计或者筛选的IgG1的重链恒定区和轻链恒定区。进一步地,可以将所述多个候选人源化重链序列和所述多个候选人源化轻链序列进行两两组合,确定所述多个候选人源化抗体序列。在一些实施例中,可以随机选取候选人源化重链序列和候选人源化轻链序列来组合成候选人源化抗体序列。或者,也可以选取人源化概率相对较高的候选轻链可变区序列和候选重链可变区序列来组合成候选人源化抗体序列。
在一些实施例中,也可以基于所述多个选定的候选重链可变区序列和/或所述多个选定的候选轻链可变区序列,确定候选人源化抗体功能片段。此处,人源化抗体功能片段可以是指经过人源化处理的能够保留初始抗体的至少部分基本功能的片段,其可以是完整抗体序列的一部分。例如,人源化抗体功能片段可以包括scFv片段(single-chainvariable fragment,单链可变片段)、Fab片段(Antigen-binding fragment,抗原结合片段)、sdAb(Singledomain antibody,单域抗体)等等。scFv片段是由抗体重链可变区和轻链可变区通过15~20个氨基酸的短肽(linker)连接而成的抗体片段,具有抗原结合特性、穿透力强、体内半衰期短、免疫原性低、可在原核细胞系统表达以及易于进行基因工程操作等特点。Fab片段由完整的轻链(可变区和恒定区)和部分重链结构(可变区和一个恒定区片段)组成,轻链与重链通过一个二硫键连接。Fab片段同时具备了抗原结合区和部分恒定区,使其不仅具备了与scFv片段一样的抗体-抗原亲和力、优秀的组织穿透力等,并拥有更稳定的结构,从而在临床诊断和治疗上发挥巨大的作用。sdAb是仅包含整个抗体的单个可变结构域的抗体片段,具有高热稳定性和对变性剂(尿素)、蛋白酶和消化道低pH环境的耐受性,其更易溶于水,组织穿透力高,可穿越脑血屏障,能够识别分子深处不能被其他形式的抗体结合的小表位,在生物化学研究和开发新的诊断和治疗方法方面具有巨大潜力。
在一些实施例中,所述候选人源化抗体序列可以是单克隆抗体序列,也可以是双特异性抗体序列或多特异性抗体序列。在一些实施例中,可以基于前述步骤110-140或类似的方式,确定两个或以上不同初始抗体的候选可变区序列。基于所述两个或以上不同初始抗体的候选重链可变区和轻链可变区,可以进一步设计双特异性抗体序列或多特异性抗体序列。双/多特异型抗体同时具有两种或以上特异性抗原结合位点,与传统单克隆抗体比较,具有靶向性更强、毒性较低的特点。
在步骤160中,可以从多个候选人源化抗体序列中确定一个或多个目标人源化抗体序列和/或目标人源化抗体功能片段序列。
在一些实施例中,可以针对步骤150中组合得到的多个候选人源化抗体序列或多个候选人源化抗体功能片段序列进行进一步筛选。例如可以通过计算设备600进行溶解度预测、翻译后修饰位点预测、抗原抗体分子对接评估及蛋白稳定性评估等方式,筛选出满足条件的较优的候选人源化抗体序列。更多关于对候选人源化抗体序列进行筛选的细节,可以参见图5及其描述。
在一些实施例中,可以根据筛选出来的候选人源化抗体序列,合成对应的候选人源化抗体分子,用于实际实验检测。用户可以将性能较好(例如与抗原的亲和力强、稳定性高、特异性强)的候选人源化抗体分子确定为目标人源化抗体分子,并展开进一步研究。用户还可以将选取的目标人源化抗体分子输入到计算设备中,作为记录,也便于后续分析。通过前述计算机模拟预测和评估的方式,对候选可变区序列和候选人源化抗体序列分别进行过筛选,得到的候选人源化抗体序列的各方面性质更好,可以节约抗体分子合成阶段和实验检测阶段的成本和所耗费的时间和精力。在一些实施例中,也可以根据筛选出来的候选人源化抗体功能片段序列合成人源化抗体功能片段后,按照类似方式进行实验检测,并确定目标人源化抗体功能片段。
在一些实施例中,若候选人源化抗体分子或候选人源化抗体功能片段不满足要求,计算设备600可以重新选取目标可变区序列模板,并再次采用遗传算法进行迭代模拟进化,得到新的候选可变区序列,从而得到新的候选人源化抗体分子和/或候选人源化抗体功能片段。例如,计算设备可以从含有多个人源可变区序列的数据库中选取与抗体的可变区序列相似度第二高的人源可变区序列作为目标可变区序列模板。在一些实施例中,若候选人源化抗体分子或候选人源化抗体功能片段不满足要求,用户可以对遗传算法相关参数进行调整,例如调整突变的概率、迁移的概率等参数。在一些实施例中,用户还可以对遗传算法的终止条件进行调节,例如增加迭代模拟进化的总数目,以获得更多候选人源化抗体分子和/或候选人源化抗体功能片段。
图2是根据本说明书一些实施例所示的使用遗传算法获得多个候选可变区序列的方法。在一些实施例中,流程200描述的是基于单群体遗传算法的示例性流程,至少包括步骤210至步骤280。在一些实施例中,步骤210-280可以在计算设备(例如计算设备600)上执行。
在步骤210中,可以基于目标可变区序列模板中对应于第一可变区的第一可变区序列模板,按照预设突变概率对第一可变区序列模板的骨架区执行模拟突变,获得对应于第一可变区的多个初始群体,其中多个初始群体中的每个初始群体包括多个初始可变区序列。
在一些实施例中,第一可变区是指重链可变区或者轻链可变区。可以基于目标可变区序列模板中的重链可变区序列模板,执行步骤210-280以获得多个候选重链可变区序列模板。也可以基于目标可变区序列模板中的轻链可变区序列模板,执行步骤210-280以获得多个候选轻链可变区模板。例如,所述多个初始群体可以表示为A1,A2…,AN1。N1为初始群体的个数。每个初始群体里可以有N2个初始可变区序列,例如100个、200个、500个等。
在一些实施例中,可以对所述第一可变区序列模板的骨架区上的每个氨基酸按照预设突变概率M1进行模拟突变,结果可以是:该氨基酸未发生突变、突变为其他氨基酸或发生删除。其中,删除的氨基酸可以使用掩码X来表示。预设突变概率M1可以是0.01,0.02,0.05等等。
在步骤220中,可以基于多个初始可变区序列中每个初始可变区序列的个体适应度,从多个初始可变区序列中选定多个初始可变区序列作为第一序列。
在一些实施例中,对于每个初始可变区序列,可以使用训练后的深度森林模型来预测所述初始可变区序列的人源化概率,并基于编辑距离或者基于蛋白质序列比对的替换计分矩阵计算所述初始可变区序列与所述第一可变区序列模板之间的距离。在一些实施例中,可以使用NSGA-II或类似的遗传算法,基于所述初始可变区序列的人源化概率和所述初始可变区序列与所述第一可变区序列模板之间的距离,确定所述初始可变区序列的个体适应度。
在步骤230中,可以保留多个初始群体中的第一序列,去掉多个初始群体中未被选定的初始可变区序列,以获得多个第一群体。
例如,初始群体A1中包括个体a、个体b和个体c等。初始群体A2包括个体d、个体e和个体f等。其中,个体a、个体b、个体d、个体e是选定的初始可变区序列,个体c和个体f是未被选定的初始化可变区序序列,则第一群体A1′包括个体a和个体b,第一群体A2′包括个体d和个体e。
在步骤240中,可以在多个第一群体之间执行模拟迁移,获得多个第二群体,多个第二群体中每个第二群体包括第二序列。
在一些实施例中,对两个群体之间进行模拟迁移,表示一个群体中的每个个体有一定概率(根据迁移率)转移到另一个群体中。例如,第一群体A1′中的个体a可以转移到第一群体A2′中,则第二群体A1″中包括个体b,而第二群体A2″中包括个体a、个体d和个体e。
在步骤250中,可以对多个第二群体中的第二序列执行模拟交叉和模拟变异,得到多个第三群体,多个第三群体中的每个第三群体包括多个第三序列。
在一些实施例中,模拟交叉可以是模拟亲代序列按照一定概率(即交叉率)发生交叉组合,将两个亲代序列的一部分骨架区组合在一起,生成子代序列。其中,CDR区保持不变。例如,第二群体A2″中的个体a的骨架区包括FR1和FR2,个体b的骨架区包括FR3和FR4,则个体a和个体b发生模拟交叉后,生成的新个体的骨架区可以包括FR1+FR3,或FR1+FR4、FR2+FR3、FR2+FR4。在一些实施例中,交叉率可以是0.7、0.8等。
在一些实施例中,在执行模拟交叉之前或之后,还可以按照预设突变概率M对序列中的骨架区进行模拟变异。本步骤中的预设突变概率M和步骤210中的预设突变概率M1可以是相同的,也可以是不同的。
在步骤260中,可以从多个第三序列中确定一个或多个候选可变区序列。
在一些实施例中,可以采用与步骤220类似的方式,确定每个第三序列的个体适应度,并基于个体适应度,从第三序列中选定一个或多个候选可变区序列。
在步骤270中,可以判断是否已达到终止条件。若未达到终止条件,可以回到步骤220,重复步骤220-270。若已达到终止条件,则可以执行步骤280。
在步骤280中,可以得到对应于第一可变区的多个候选可变区序列。
在一些实施例中,每次迭代循环中确定的候选可变区序列都可以保留下来,当达到终止条件后,可以对这些保留下来的候选可变区序列进行进一步筛选,并加上恒定区,组合成完整的候选人源化抗体序列。
图3是根据本说明书一些实施例所示的使用遗传算法获得多个候选可变区序列的方法。在一些实施例中,流程300描述的是基于多群体的遗传算法的示例性流程,至少包括步骤310至步骤380。在一些实施例中,步骤310-380可以在计算设备(例如计算设备600)上执行。
在步骤310中,可以基于第一模板,按照预设突变概率对第一模板的骨架区执行模拟突变,获得多个第一初始群体,其中多个第一初始群体中的每个第一初始群体包括多个初始可变区序列。
在步骤320中,可以基于多个初始可变区序列中每个初始可变区序列的个体适应度,从多个初始可变区序列中选定多个初始可变区序列作为第一序列。
在步骤330中,可以保留多个初始群体中的第一序列,去掉多个初始群体中未被选定的初始可变区序列,以获得多个第一保留群体。
在步骤315中,可以基于第二模板,按照预设突变概率对第二模板的骨架区执行模拟突变,获得多个第二初始群体,其中多个第二初始群体中的每个第二初始群体包括多个初始可变区序列。
在一些实施例中,第二模板与第一模板不同,例如,第一模板是从所述含有多个人源可变区序列的数据库中确定的与所述初始抗体的第一可变区的骨架区的序列相似度最高的人源可变区序列,第二模板是从所述含有多个人源可变区序列的数据库中确定的与所述初始抗体的第一可变区的全序列的相似度最高的人源可变区序列。
在步骤325中,可以基于多个初始可变区序列中每个初始可变区序列的个体适应度,从多个初始可变区序列中选定多个初始可变区序列作为第一序列。
在步骤335中,可以保留多个初始群体中的第一序列,去掉多个初始群体中未被选定的初始可变区序列,以获得多个第二保留群体。
在步骤340中,可以在多个第一保留群体之间、多个第二保留群体之间以及在第一保留群体与第二保留群体之间执行模拟迁移,得到迁移后的第一保留群体和第二保留群体。
在迭代进化的过程中,每一代的两类群体间和每一类的群体内部可以发生一定概率的个体迁移,比如同类群体间的个体迁移概率为X1,不同类群体间的个体迁移概率为X2。在一些实施例中,由于第一保留群体是基于第一模板得到的,第二保留群体是基于第二模板得到的,可以认为第一保留群体和第二保留群体属于不同类型的群体。可以按照迁移率X1在同类群体之间执行迁移,例如多个第一保留群体之间,或多个第二保留群体之间进行迁移。可以按照迁移率X2在不同类群体之间执行迁移,例如一个第一保留群体中的个体,有X2的概率迁移到一个第二保留群体中去。对于迁移后的第一保留群体和第二保留群体,可以分别执行步骤350和步骤355,以生成子代个体。在一些实施例中,X1和X2可以相同,也可以不同。
在步骤350中,可以对迁移后的第一保留群体中的第二序列执行模拟交叉和模拟变异,得到多个第三群体,多个第三群体中的每个第三群体包括多个第三序列。
在步骤355中,可以对迁移后的第一保留群体中的第二序列执行模拟交叉和模拟变异,得到多个第三群体,多个第三群体中的每个第三群体包括多个第三序列。
在步骤350和步骤355中执行模拟交叉的群体进化交叉率为C,在步骤350和步骤355中执行模拟变异的群体突变率为M。所述群体交叉进化率C可以为0.5、0.6、0.7、0.8、0.9等。所述群体突变率M可以是0.001、0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08等。
在步骤360中,可以从多个第三序列中确定一个或多个候选可变区序列。
在步骤370中,可以判断是否已达到终止条件。若未达到终止条件,可以回到步骤320和步骤325,重复执行步骤320-370和步骤325-360。若已达到终止条件,可以执行步骤380。
在步骤380中,可以得到对应于第一可变区的多个候选可变区序列。
图4是根据本说明书一些实施例所示的设计人源化抗体序列的方法。在一些实施例中,流程400可以用于基于初始抗体,设计人源化处理之后的多个目标抗体序列和/或多个目标抗体功能片段序列。在一些实施例中,步骤410-470中的至少一部分可以在计算设备(例如计算设备600)上执行。
在步骤410中,可以对初始抗体的序列进行序列分析,以确定抗体的序列中的可变区和CDR区。
在步骤420中,可以基于初始抗体的可变区的序列,从含有多个人源可变区序列的数据库中获得人源可变区序列模板。
在步骤430中,可以将人源可变区序列模板中的CDR区的序列替换为初始抗体的CDR区的序列以获得目标可变区序列模板。在一些实施例中,可以按照与图1中步骤110-130类似的方式来实施步骤410-430。
在步骤440中,可以基于所述目标可变区序列模板,基于预设突变概率,对所述目标可变区序列模板的骨架区执行模拟突变,获得多个初始可变区序列。更多关于模拟突变及目标可变区序列模板的描述,可以参见说明书其他地方,例如图1中的步骤140和图2中的步骤210及其描述。如本文中所使用的,术语“骨架区”用于形容抗体可变区的一部分时,表示可变区中除了CDR区域以外的区域。
在步骤450中,可以使用训练后的深度森林模型,对所述多个初始可变区序列中每个初始可变区序列的人源化概率进行预测。
在一些实施例中,可以使用对应于重链可变区的深度森林模型,为对应于重链可变区的初始可变区序列预测人源化概率,并使用对应于轻链可变区的深度森林模型,为对应于轻链可变区的初始可变区序列预测人源化概率。更多关于人源化概率预测和训练后的深度森林模型的描述,可以参见说明书的其他地方,例如步骤140。
在步骤460中,可以基于所述多个初始可变区序列和所述人源化概率,确定多个候选人源化抗体序列和/或候选人源化抗体功能片段序列。
在一些实施例中,可以基于所述多个初始可变区序列和所述人源化概率,使用启发式算法,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列。启发式算法是一种基于直观或经验构造的算法,在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解,该可行解与最优解的偏离程度一般不能被预计。例如,启发式算法可以包括遗传算法、粒子群算法、蚁群算法、模拟退火法、列表搜索算法、进化规划、进化策略,神经网络等或其衍生算法或组合。作为示例,可以基于多个初始可变区序列和所述人源化概率,使用遗传算法执行迭代模拟进化,确定多个候选可变区序列,并基于所述多个候选可变区序列,确定所述多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列。更多关于使用遗传算法执行迭代模拟进化的描述,可以参见说明书其他地方,例如图1中的步骤140,以及图2、图3及其相关描述。
在步骤470中,可以从所述多个候选人源化抗体序列和/或候选人源化抗体功能片段序列中确定一个或多个目标人源化抗体序列和/或目标人源化抗体功能片段序列。在一些实施例中,可以参照与步骤160类似的方式,来执行步骤470。
图5是根据本说明书一些实施例所示的基于多个候选可变区序列确定一个或多个目标人源化抗体的方法。在一些实施例中,流程500可以用于进一步筛选候选可变区序列和进一步筛选候选人源抗体化序列,从而得到目标人源抗体化序列。在一些实施例中,流程500至少包括步骤510-570。在一些实施例中,步骤520、步骤550和步骤560是可选的。在一些实施例中,步骤510-570的至少一部分可以在计算设备(例如计算设备600)上执行,例如步骤510-560。
在步骤510中,可以获得可变区序列数据库。
所述可变区序列数据库可以包括各种人源和非人源的可变区序列。例如,可变区序列数据库中可以包括用于训练输出人源化概率的深度森林模型的来源于人类和非人类物种的多个样本可变区序列。又例如,还可以获取NCBI蛋白非冗余数据库,与样本可变区序列进行合并,得到所述可变区序列数据库。
在步骤520中,可以基于多个候选可变区序列进行回复突变或生殖细胞谱系抗体基因突变,其中多个候选可变区序列包括多个候选轻链可变区和多个候选重链可变区。
在一些实施例中,可以根据经验或根据突变位点预测方法,来确定进行回复突变或生殖细胞谱系抗体基因突变的位点。例如,可以根据已报道的各物种来源的抗体的重要位点对采用遗传算法输出的候选可变区序列进行轻链和重链的基于非人源抗体序列的回复突变或者非人源物种的生殖细胞谱系抗体基因(即Germline)突变。例如,兔源抗体经过Kabat编码后,重链的位点49、71-78和94以及轻链的位点1、2、66-71可以考虑回复突变。
在步骤530中,对于多个候选可变区序列中的每个候选可变区序列,可以基于可变区序列数据库进行人源性复核,并根据复核结果过滤不满足要求的候选可变区序列。
在一些实施例中,可以使用序列比对工具(例如Blastp),将使用遗传算法最终获得的可变区序列与步骤420中经过回复突变或生殖细胞谱系抗体基因突变得到的可变区序列合并,再与可变区序列数据库进行比对,如果查询序列找到的总评分(例如Blastp输出结果中total score数值)最高的序列为人源抗体序列,则该候选可变区序列予以保留。若总评分最高的序列不是人源抗体序列,则认为该候选可变区序列不满足要求,不保留该候选可变区序列。
在步骤540中,可以将多个候选轻链可变区和多个候选重链可变区进行两两组合,并与恒定区连接,从而确定多个第一候选人源化抗体序列。
在一些实施例中,可以将经过人源化复核过滤后的重链可变区与轻链可变区分别加上人源的重链恒定区(比如经过设计或者筛选的IgG1的重链恒定区)与轻链恒定区(比如经过设计或者筛选的IgG1的轻链恒定区),将重链全长序列集合与轻链全长序列集合两两任意完全组合成抗体数据集。
在步骤550中,可以对于多个候选人源化抗体序列中的每个候选人源化抗体序列,进行溶解度预测和翻译后修饰位点预测,并根据预测结果从多个第一候选人源化抗体中确定多个第二候选人源化抗体序列。
在一些实施例中,溶解度预测可以使用DeepSCM或者DeepSol等软件。翻译后修饰(PTM)位点预测可以使用MusiteDeep等软件。本发明对此不作限制。可以根据预测结果,将不符合预设标准(例如含有需要规避的PTM的氨基酸位点的和溶解度预测值过低的)的轻重链组合删除,确定多个满足预设标准的第二候选人源化抗体序列。
在步骤560中,可以对多个第二候选人源化抗体,进行抗原抗体分子对接评估及蛋白稳定性评估,并根据评估结果,从多个第二候选人源化抗体中确定一个或多个第三候选人源化抗体序列。
在一些实施例中,可以用IgFold或者DeepAb等抗体预测软件做蛋白结构模拟,抗原结构可以依靠结构生物学实验结果或者蛋白预测软件比如AlphaFold2预测,将抗体与抗原使用ZDOCK、DLAB或者其他软件做分子对接,选取对接打分靠前的抗体。其中蛋白稳定性检测也可以先通过不力场的分子动力学模拟方式做计算评估和初步筛选。
在步骤570中,可以制备所述一个或多个第三候选人源化抗体,通过实验来评价一个或多个第三候选人源化抗体的性能,并根据性能评价结果,从一个或多个第三候选人源化抗体中确定一个或多个目标人源化抗体。
在一些实施例中,可以对合成的第三候选人源化抗体进行表达测试、抗原抗体亲和力测试、稳定性测试等实验,来评价第三候选人源化抗体的性能,并从中确定目标人源化抗体。在一些实施例中,步骤520、步骤550和步骤560是可选的。也可以直接从步骤540中确定的第一候选人源化抗体序列中选取同源度排名靠前的候选抗体进行下游实验验证。
图6是根据本说明书一些实施例所示的示例性计算设备的示意图。计算设备600可以是通用计算机或专用计算机。计算设备600可用于实现如本文所述的设计人源化抗体序列的方法。在图6中,为了方便起见,仅显示了一种这样的计算设备。本领域普通技术人员将理解,计算设备600可以在多个类似平台上以分布式方式实现,以分配处理负荷。
例如,计算设备600可以包括内部通信总线610和连接到网络的通信端口650以促进数据通信。计算设备600还可以包括用于执行程序指令的一个或以上处理器形式的处理器620。计算设备600还可以包括存储设备640,用于存储各种形式的数据和指令。例如,所述指令可以在处理器620中运行,以执行本说明书一些实施例中所提供的设计人源化抗体序列的方法中的步骤(如流程100中的步骤110-160或流程400中的步骤410-470)。存储设备640可以包括磁盘、只读存储器(ROM)随机存取存储器(RAM)等各种存储部件。计算设备600还可以包括输出设备630和输入设备660,用于支持计算设备600和其他设备之间的输入/输出。计算设备600还可以通过通信网络接收外部设备的数据。
仅为了说明,在计算设备600中仅描述了一个处理器620。然而,应当注意的是,本申请中的计算设备600还可以包括多个处理器。因此,由如本申请中所述执行的由一个处理器执行的操作和/或方法步骤也可以由多个处理器联合或单独执行。例如,如果在本申请中,计算设备600的处理器执行操作A和操作B,应该理解,操作A和操作B也可以由计算设备600中的两个或以上不同的处理器联合或单独地执行(例如,第一处理器执行操作A以及第二处理器执行操作B,或者第一和第二处理器共同执行操作A和B)。
本说明书的又一方面还提供了一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质存储有用于设计人源化抗体序列的指令集。当所述指令集在由计算设备(例如计算设备600)执行时,使所述计算设备执行如本文所述的设计人源化抗体的方法,例如流程100中的步骤110-160或流程400中的步骤410-470。
本说明书所披露的设计人源化抗体序列的方法,可能带来的有益效果包括但不限于:(1)本说明书实施例中,基于可变区序列模板,通过采用遗传算法,进行迭代模拟进化,基于人源化概率和个体序列与可变区序列模板之间的距离来筛选优化的突变后的个体序列,并进行模拟迁移、模拟交叉和进一步的个体突变,可以高效生成大量优化的候选可变区序列,节省了设计和筛选人源化抗体序列的时间和精力,并且,通过上述迭代优化过程,可以提升获得的人源化抗体序列的性能,如对抗原的亲和力等等;(2)本说明书实施例中,通过深度森林模型来预测序列人源化的概率,可以处理不同规模的数据,具有更加稳定良好的学习性能,对数据规模的要求不高,训练速度快,可以降低计算成本和时间成本;与其他深度学习模型(例如深度神经网络)相比,不需要设置复杂的超参数,通过在具体数据集上训练误差最小化来自动设定相应参数,即降低建模难度;此外,深度森林的树结构比神经网络具有更好的解释性,有利于挖掘和解释深层次生物学含义。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂公司购买得到的。以下实施例中的定量试验,均设置三次重复实验,结果取平均值。
实施例1确定抗CD137兔抗体的可变区序列及CDR区序列
兔单抗相较于鼠抗体有更高的亲和力、更高的特异性、更高的敏感性,且与人抗体更加同源,甚至能够识别细微的抗原变化(比如甲基化和磷酸化等),是最具潜力的抗体药开发平台。本发明以对兔抗体人源化作为示例性实施例,来说明采用本发明所提供的设计人源化抗体序列的方法的过程。
兔抗体原始序列获得。
选择TNFRSF9蛋白(也称为CD137蛋白)作为抗原,其在NCBI数据库中的Accession号为NP_001552.2,抗原序列为:
MGNSCYNIVATLLLVLNFERTRSLQDPCSNCPAGTFCDNNRNQICSPCPPNSFSSAGGQRTCDICRQCKG
VFRTRKECSSTSNAECDCTPGFHCLGAGCSMCEQDCKQGQELTKKGCKDCCFGTFNDQKRGICRPWTN
CSLDGKSVLVNGTKERDVVCGPSPADLSPGASSVTPPAPAREPGHSPQIISFFLALTSTALLFLLFFLTLRFSVVKRGRKKLLYIFKQPFMRPVQTTQEEDGCSCRFPEEEEGGCEL(SEQ ID NO:1)。
针对抗原制备兔单抗。
(2)原始抗体可变区序列测定与CDR注释。
经序列测定,步骤(1)中获得的兔抗体的重链可变区序列为:
QSVEESGGRLVTPGTPLTLTCTVSGFSLGTFPIGWVRQAPGSGLEWIGIFNTDGSAAYASWARGRFTVFK NSTTVDLKMTSPTTEDTATYFCARINADYSGWYFGIWGPGTLVTVSS(SEQ ID NO:2);经过IMGTnumbering和基于North定义的抗体重链CDR1、2、3分别是TVSGFSLGTFPIG(SEQ ID NO:3)、IFNTDGSAA(SEQ ID NO:4)和ARINADYSGWYFGI(SEQ ID NO:5)。
经序列测定,步骤(1)中获得的兔抗体的轻链可变区序列为:
EMTQTPASVEVAVGGTVTIKCQASQSIYSYLAWYQQKPGQPPKPLIYEASKTPSGVPSRFKGSGSGTEYTLTISGVQCEDAATYYCQKGYSVSNVAFGGGTEVVVK(SEQ ID NO:6)。经过IMGT numbering和基于North定义的抗体轻链的CDR1、2、3分别是QASQSIYSYLA(SEQ ID NO:7)、YEASKTPS(SEQ IDNO:8)和QKGYSVSNVA(SEQ ID NO:9)。
(3)抗体可变区长度标准化处理。
抗体重链可变区经过长度标准化得到qH_formatted是
QXSVEESGGXRLVTPGTPLTLTCTVSGFSLXXXXGTFPIGWVRQAPGSGLEWIGIFNTDXXXGSAAYASWARXGRFTVFKNSTXXTVDLKMTSPTTEDTATYFCARINADYXXXXXXXXXXXXXXXXXXXXXXXSGWYFGIWGPGTLVTVSS(SEQ ID NO:10)。
抗体轻链可变区经过长度标准化得到qKL_formatted是
XXEMTQTPASVEVAVGGTVTIKCQASQSIXXXXXXYSYLAWYQQKPGQPPKPLIYEAXXXXXXXSKTPSGVPXSRFKGSGXXSGTEYTLTISGVQCEDAATYYCQKGYSXXXXXXXXXXVSNVAFGGGTEVVVK(SEQ ID NO:11)。
实施例2确定抗CD137兔抗体的目标可变区序列模板
对于实施例1中步骤(3)得到的qH_formatted,经blastp比对找到人源模板tmp_Hchain-fullSeq。其序列为:
EVQLVESGGXGLVQPGRSLRLSCTASGFTFXXXXGDYAMSWVRQAPGRGLEWIGFIRSKVYDGTTEYAASVKXGRFTISRDDSKSIAHLQMNSLTTEDTAVYYCSRLRADSSDYYXXXXXXXXXXXXXXXXSSPGSYYFDYWGQGTLVTVSS(SEQ ID NO:12)。
用兔抗重链CDR1、2、3对tmp_Hchain-fullSeq做CDR移植,生成对应的template_Hchain-fullSeq在删除掩码“X”后为
EVQLVESGGGLVQPGRSLRLSCTVSGFSLGTFPIGWVRQAPGRGLEWIGIFNTDGSAAYAASVKGRFTISRDDSKSIAHLQMNSLTTEDTAVYYCARINADYSGWYFGIWGQGTLVTVSS(SEQ ID NO:13)。
或者,可以将qH_formatted的CDR先使用“X”掩码遮盖后序列为
QXSVEESGGXRLVTPGTPLTLTCXXXXXXXXXXXXXXXXXWVRQAPGSGLEWIGXXXXXXXXXXXXYASWARXGRFTVFKNSTXXTVDLKMTSPTTEDTATYFCXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXWGPGTLVTVSS(SEQ ID NO:14),再经blastp比对找到人源模板tmp_Hchain-FR的序列:EVQLEESGGXGLVQPGGSLKLSCAASGFTLXXXXSGSSMHWVRQAPGKGLEWVGRIRSKTNSNATAYAASVKXGRFTVSRDDSKNTVYLHMNSLKTEDTAVYFCTRTMTLXXXXXXXXXXXXXXXXXXXXXXXXXXAAFDYWGQGTLVTVSS(SEQ IDNO:15)。
用兔抗重链CDR1、2、3对tmp_Hchain-FR做CDR移植,生成对应的template_Hchain-FR在删除掩码“X”后为EVQLEESGGGLVQPGGSLKLSCTVSGFSLGTFPIGWVRQAPGKGLEWVGIFNTDGSAAYAASVKGRFTVSRDDSKNTVYLHMNSLKTEDTAVYFCARINADYSGWYFGIWGQGTLVTVSS(SEQ ID NO:16)。
对于实施例1中步骤(3)得到的qKL_formatted,经blastp比对找到人源模板tmp_KLchain-fullSeq,其序列为:
DIQMTQSPSSLSVSVGGRVTITCRASQSIXXXXXXSSYLNWYQQKPGKAPKLLIYAAXXXXXXXSSLQSGVPXSRFNGNGXXSGTDFTLTISSLQPEDSATYYCQQSYXXXXXXXXXXXXSILLFGGGTEVEIK(SEQ ID NO:17)。
用兔抗轻链CDR1、2、3对tmp_KLchain-fullSeq做CDR移植,生成对应的template_KLchain-fullSeq在删除掩码“X”后为
DIQMTQSPSSLSVSVGGRVTITCQASQSIYSYLAWYQQKPGKAPKLLIYEASKTPSGVPSRFNGNGSGTDFTLTISSLQPEDSATYYCQKGYSVSNVAFGGGTEVEIK(SEQ ID NO:18)。
或者,可以对qKL_formatted的CDR先使用“X”掩码遮盖后序列为
XXEMTQTPASVEVAVGGTVTIKCXXXXXXXXXXXXXXXXXWYQQKPGQPPKPLIXXXXXXXXXXXXXXXGVPXSRFKGSGXXSGTEYTLTISGVQCEDAATYYCXXXXXXXXXXXXXXXXXXXXFGGGTEVVVK(SEQ ID NO:19),再经blastp比对找到人源模板tmp_KLchain-FR。在本实施例中,人源模板tmp_KLchain-FR的序列与tmp_KLchain-fullSeq相同,也是DIQMTQSPSSLSVSVGGRVTITCRASQSIXXXXXXSSYLNWYQQKPGKAPKLLIYAAXXXXXXXSSLQSGVPXSRFNGNGXXSGTDFTLTISSLQPEDSATYYCQQSYXXXXXXXXXXXXSILLFGGGTEVEIK(SEQ ID NO:17),因此用兔抗轻链CDR1、2、3对tmp_Hchain-FR做CDR移植,生成对应的template_KLchain-FR同样与template_Hchain-fullSeq相同,在删除掩码“X”后也是
DIQMTQSPSSLSVSVGGRVTITCQASQSIYSYLAWYQQKPGKAPKLLIYEASKTPSGVPSRFNGNGSGTDF TLTISSLQPEDSATYYCQKGYSVSNVAFGGGTEVEIK(SEQ ID NO:18)。
实施例3基于深度森林的遗传算法优化和回复突变
使用Python的deep-forest包(https://github.com/kingfengji/gcForest)及其默认参数,对数据库中获取的人源和非人源抗体的重链和轻链可变区序列样本进行长度标准化处理,得到长度标准化重链组和长度标准化的轻链组数据(H_chain_strandard含有序列129838794条,KL_chain_strandard含有序列8165055条),分别训练出深度森林分类模型DFmodel-H和模型DFmodel-KL。模型使用时,任意物种来源的抗体的重链可变区经过DFmodel-H判别会输出划分为人源概率pH;任意物种来源的抗体的轻链可变区经过DFmodel-KL判别会输出划分为人源概率pKL。
使用深度森林模型DFmodel-H(对应于重链可变区)预测template_Hchain-fullSeq和template_Hchain-FR的人源化概率分别为0.695和0.4525。使用深度森林模型DFmodel-KL(对应于轻链可变区)预测template_KLchain-fullSeq和template_KLchain-FR的人源化概率,由于二者序列相同,其人源的概率同为0.9925。基于NSGA-II的多群体遗传算法,对可变区序列模板进行模拟进化,从而得到多个候选可变区序列(参照流程300进行,其中,基于template_Hchain-FR(重链第一模板)、template_Hchain-fullSeq(重链第二模板)、template_KLchain-FR(轻链第一模板)和template_KLchain-fullSeq(轻链第二模板)的群体数量均为3个,初始群体中的每个个体序列是将除CDR外位置按照预设突变概率0.05突变为其他氨基酸或掩码“X”方式随机生成,每个群体的个体个数为100。群体中个体可以发生交叉的交叉率C为0.8,突变率均为0.05,迁移率X1和X2都为0.01,终止条件为完成了1000个优化代数结束)。本实施中,选取了人源化概率最高的(为0.8325)的重链可变区序列以及人源化概率最高(为1)的轻链可变区序列进行后续步骤。将输出的重链和轻链可变区序列进行不同程度的回复突变,回复突变位点涵盖Kabat numbering的重链的位点49、71-78和94以及轻链的位点1、2、66-71。
实施例4人源化后的人源性判断
将抗体重链可变区和轻链可变区按照流程500进行处理,获取优化的人源化序列组合,从抗体重链和轻链可变区人源化后的序列组合中随机选出如下四组作为候选抗体进行蛋白表达和亲和力测试。每个抗体的人源性使用Blastp进行判断,搜索到打分最高的同源序列在NCBI数据库中的Accession号见下表1。
表1四组候选抗体搜索到的打分最高的同源序列在NCBI数据库中的Accession号
/>
从Blastp结果可见,人源化之后的抗体可变区的最近似序列都是人源的抗体序列。
实施例5兔源单克隆抗体经历人源化优化前后的亲和力检测
候选抗体重链可变区和轻链可变区经过如下处理:
(i)N端都添加信号肽MGWSCIILFLVATATGVHS(SEQ ID NO:29);
(ii)重链可变区的C端添加人的IgG1重链恒定区序列
ASTKGPSVFPLAPSSKSTSGGTAALGCLVKDYFPEPVTVSWNSGALTSGVHTFPAVLQSSGLYSLSSVVT
VPSSSLGTQTYICNVNHKPSNTKVDKKVEPKSCDKTHTCPPCPAPELLGGPSVFLFPPKPKDTLMISRTPE
VTCVVVDVSHEDPEVKFNWYVDGVEVHNAKTKPREEQYNSTYRVVSVLTVLHQDWLNGKEYKCKVS
NKALPAPIEKTISKAKGQPREPQVYTLPPSRDELTKNQVSLTCLVKGFYPSDIAVEWESNGQPENNYKTTPPVLDSDGSFFLYSKLTVDKSRWQQGNVFSCSVMHEALHNHYTQKSLSLSPGK(SEQ ID NO:27)形成完整的重链;
(iii)轻链可变区的C端添加人轻链恒定区序列
RTVAAPSVFIFPPSDEQLKSGTASVVCLLNNFYPREAKVQWKVDNALQSGNSQESVTEQDSKDSTYSLSSTLTLSKADYEKHKVYACEVTHQGLSSPVTKSFNRGEC(SEQ ID NO:28)形成完整的轻链。对抗体全序列进行抗体的全合成和抗原抗体亲和力的检测。
将兔抗体原始可变区序列同样带有人的IgG1恒定区(序列同上)的表达载体pcDNA3.4中,与人源化后的候选抗体都瞬时转染CHO-S细胞进行抗体的表达,收集上清用下述ELISA方法进行抗体结合活性验证。该表达上清抗体浓度大部分在1ug/ml~50ug/ml之间,取原液及100倍稀释液检测。一般认为100X稀释液的ELISA检测OD450值大于1.0时认为是强阳性(即对抗原具有相对来说较好的亲和力)。与野生型抗体(即人源化之前的兔源单克隆抗体4C2-WTH)相比,优化后的4个抗体的OD 450值测定结果如下表2:
表2人源化抗体100倍稀释液ELISA亲和力检测的OD450值
因此在OD 450值测定的基础上,我们选取OD 450值大于1.0的三个克隆(即4C2-Candi2、4C2-Candi3、4C2-Candi4),按照间接ELISA法做半最大效应浓度(即EC50)测定,用于评估纯化抗体对于抗原TNFRSF9蛋白的结合能力。步骤如下:将ELISA板用100μl/孔的PBS中0.5μg/ml的重组TNFRSF9蛋白在4℃下包被过夜。用PBS-T(0.05%吐温)洗涤板,并将其用250μl/孔的含1%BSA的PBST在37℃封闭2小时。随后弃去封闭液,向第一个孔加入1μg/ml的纯化抗体100μl,并按照3倍梯度稀释在其他孔中,共计11个测试浓度梯度外加一个空白孔。然后在37℃下孵育1小时。将板用PBST洗涤三次,并用100μl/孔的缀合辣根过氧化物酶的山羊抗小鼠IgG(Fc-特异性)二抗(Jackson,115-035-071)37℃孵育0.5小时。将板用PBST洗涤四次,然后加入TMB显色液(GenScript)并在25℃下在黑暗中孵育15分钟。通过加入50μl的1M HCl终止液(国药,10011018)终止反应。使用酶标仪在450nm下读板,EC50值如表3所示:
表3人源化抗体的ELISA检测亲和力的EC50值
亲和力排名(由高到低) | 克隆号 | EC50(ng/ml) |
1 | 4C2-Candi2 | 2.383 |
2 | 4C2-Candi4 | 2.456 |
3 | 4C2-WTH | 3.796 |
4 | 4C2-Candi3 | 100 |
其中4C2-Candi3的亲和力是4C2-WTH的1/26.3,而人源化之后的4C2-Candi2和4C2-Candi4的EC50值(值越小说明亲和力越高)甚至优于4C2-WTH。这表明通过遗传算法的迭代优化过程,得到的人源化抗体序列的亲和力相比于初始的兔抗体有所提升,进一步证明了本说明书中所提供的设计人源化抗体序列的方法能够提升人源化抗体的性能。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (27)
1.一种设计人源化抗体序列的方法,其特征在于,所述方法包括:
对初始抗体的序列进行分析,以确定所述初始抗体的可变区和CDR区;
基于所述初始抗体的所述可变区的序列,从含有多个人源可变区序列的数据库中获取人源可变区序列模板;
将所述人源可变区序列模板中的CDR区的序列替换为所述初始抗体的CDR区的序列,以获得目标可变区序列模板;
基于所述目标可变区序列模板,使用遗传算法执行迭代模拟进化,确定多个候选可变区序列,包括:
基于所述目标可变区序列模板,按照预设突变概率对所述目标可变区序列模板的骨架区执行模拟突变,得到多个初始可变区序列;
使用训练后的深度森林模型预测所述多个初始可变区序列中每个初始可变区序列的人源化概率;
基于所述多个初始可变区序列和所述人源化概率,使用所述遗传算法执行所述迭代模拟进化,确定所述多个候选可变区序列,包括:
对于所述多个初始可变区序列中的每个初始可变区序列,确定所述初始可变区序列与所述目标可变区序列模板之间的距离,并基于所述初始可变区序列与所述目标可变区序列模板之间的距离和所述初始可变区序列的人源化概率,确定所述初始可变区序列的个体适应度;
基于所述多个初始可变区序列和所述个体适应度,执行所述迭代模拟进化,确定所述多个候选可变区序列;
基于所述多个候选可变区序列,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列;
从所述多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列中确定一个或多个目标人源化抗体序列和/或目标人源化抗体功能片段序列。
2.如权利要求1所述的方法,其特征在于,所述个体适应度是使用NGSA-II算法或其衍生算法而确定的。
3.如权利要求1所述的方法,其特征在于,所述目标可变区序列模板包括目标重链可变区序列模板和目标轻链可变区序列模板,并且所述多个候选可变区序列包括多个候选重链可变区序列和多个候选轻链可变区序列。
4.如权利要求3所述的方法,其特征在于,所述基于所述目标可变区序列模板,按照预设突变概率对所述目标可变区序列模板的骨架区执行模拟突变,得到多个初始可变区序列包括:
基于所述目标可变区序列模板中对应于第一可变区的第一可变区序列模板,按照所述预设突变概率对所述第一可变区序列模板的骨架区执行所述模拟突变,获得对应于所述第一可变区的多个初始群体,其中所述多个初始群体中的每个初始群体包括对应于所述第一可变区的所述多个初始可变区序列,所述第一可变区为重链可变区或轻链可变区。
5.如权利要求4所述的方法,其特征在于,所述迭代模拟进化中的每个模拟进化操作包括:
基于所述对应于所述第一可变区的所述多个初始可变区序列中每个初始可变区序列的所述个体适应度,从所述多个初始可变区序列中选定多个初始可变区序列作为多个第一序列;
保留所述多个初始群体中的所述多个第一序列,去掉所述多个初始群体中未被选定的初始可变区序列,以获得多个第一群体;
在所述多个第一群体之间执行模拟迁移,获得多个第二群体,所述多个第二群体中每个第二群体包括多个第二序列;
对所述多个第二群体中的所述多个第二序列执行模拟交叉和模拟变异,得到多个第三群体,所述多个第三群体中的每个第三群体包括多个第三序列;
从所述多个第三序列中确定一个或多个第一候选可变区序列。
6.如权利要求5所述的方法,其特征在于,所述迭代模拟进化的终止条件包括以下条件中的至少一项:
所述迭代模拟进化的总轮数大于或等于第一阈值;
所述迭代模拟进化得到的第一候选可变区序列的总数大于或等于第二阈值;
本轮模拟进化操作得到的所述一个或多个第一候选可变区序列的多样性小于或等于第三阈值;
本轮模拟进化操作中得到的第一候选可变区序列与上一轮模拟进化操作中得到的第一候选可变区序列的平均相似度大于或等于第四阈值。
7.如权利要求5所述的方法,其特征在于,所述第一可变区序列模板包括第一模板和/或第二模板,其中所述第一模板是从所述含有多个人源可变区序列的数据库中获取的与所述初始抗体的第一可变区的骨架区的序列相似度最高的人源可变区序列,第二模板是从所述含有多个人源可变区序列的数据库中获取的与所述初始抗体的第一可变区的全序列的相似度最高的人源可变区序列。
8.如权利要求7所述的方法,其特征在于:
所述第一可变区序列模板包括第一模板和第二模板;
所述多个初始群体包括基于所述第一模板执行模拟突变获得的多个第一初始群体和基于所述第二模板执行模拟突变获得的多个第二初始群体;
所述多个第一群体包括从所述第一初始群体中保留所述第一序列而获得的多个第一保留群体,以及从所述第二初始群体中保留所述第一序列而获得的多个第二保留群体。
9.如权利要求8所述的方法,其特征在于,所述在所述多个第一群体之间执行模拟迁移,获得多个第二群体,包括:
在所述多个第一保留群体之间执行模拟迁移、在所述多个第二保留群体之间执行模拟迁移以及在所述第一保留群体和所述第二保留群体之间执行模拟迁移,得到所述多个第二群体。
10.如权利要求1所述的方法,其特征在于,所述训练后的深度森林模型是通过以下步骤得到的:
获取对应于第一可变区的多个训练样本,其中所述多个训练样本中的每个训练样本包括人源或非人源可变区序列及标签,所述标签指示所述样本可变区序列是人源或者非人源,所述样本可变区序列经过长度标准化处理;
使用所述多个训练样本,对初始深度森林模型进行训练,得到训练后的深度森林模型。
11.如权利要求3所述的方法,其特征在于,所述基于所述多个候选可变区序列,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列,包括:
从所述多个候选重链可变区序列中确定多个选定的候选重链可变区序列;
从所述多个候选轻链可变区序列中确定多个选定的候选轻链可变区序列;
基于所述多个选定的候选重链可变区序列和多个选定的候选轻链可变区序列,确定所述多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列。
12.如权利要求1所述的方法,其特征在于,所述对初始抗体的序列进行分析,以确定所述初始抗体的序列中的可变区和CDR区,包括:
对所述初始抗体的序列进行序列分析,以确定所述初始抗体的重链可变区、轻链可变区、重链CDR区和轻链CDR区;
对所述重链可变区的序列进行长度标准化处理;
对所述轻链可变区的序列进行长度标准化处理。
13.一种设计人源化抗体序列的方法,其特征在于,所述方法包括:
对初始抗体的序列进行分析,以确定所述初始抗体的可变区和CDR区;
基于所述初始抗体的所述可变区的序列,从含有多个人源可变区序列的数据库中获取人源可变区序列模板;
将所述人源可变区序列模板中的CDR区的序列替换为所述初始抗体的CDR区的序列,以获得目标可变区序列模板;
基于所述目标可变区序列模板,基于预设突变概率,对所述目标可变区序列模板的骨架区执行模拟突变,获得多个初始可变区序列;
使用训练后的深度森林模型,对所述多个初始可变区序列中每个初始可变区序列的人源化概率进行预测;
基于所述多个初始可变区序列和所述人源化概率,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列,包括:
基于所述多个初始可变区序列和所述人源化概率,使用启发式算法,确定所述多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列,包括:
基于多个初始可变区序列和所述人源化概率,使用遗传算法执行迭代模拟进化,确定多个候选可变区序列,包括;
对于所述多个初始可变区序列中的每个初始可变区序列,确定所述初始可变区序列与所述目标可变区序列模板之间的距离,并基于所述初始可变区序列与所述目标可变区序列模板之间的距离和所述初始可变区序列的人源化概率,确定所述初始可变区序列的个体适应度;
基于所述多个初始可变区序列和所述个体适应度,执行所述迭代模拟进化,确定所述多个候选可变区序列;
基于所述多个候选可变区序列,确定所述多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列;
从所述多个候选人源化抗体序列或其功能片段中确定一个或多个目标人源化抗体序列和/或目标人源化抗体功能片段序列。
14.如权利要求13所述的方法,其特征在于,所述启发式算法包括以下算法中的至少一项:遗传算法、粒子群算法、蚁群算法、模拟退火法、列表搜索算法、进化规划、进化策略和神经网络。
15.如权利要求13所述的方法,其特征在于,所述个体适应度是使用NGSA-II算法或其衍生算法而确定的。
16.如权利要求13所述的方法,其特征在于,所述目标可变区序列模板包括目标重链可变区序列模板和目标轻链可变区序列模板,并且所述多个候选可变区序列包括多个候选重链可变区序列和多个候选轻链可变区序列。
17.如权利要求16所述的方法,其特征在于,所述基于所述目标可变区序列模板,按照预设突变概率对所述目标可变区序列模板的骨架区执行模拟突变,得到多个初始可变区序列包括:
基于所述目标可变区序列模板中对应于第一可变区的第一可变区序列模板,按照所述预设突变概率对所述第一可变区序列模板的骨架区执行所述模拟突变,获得对应于所述第一可变区的多个初始群体,其中所述多个初始群体中的每个初始群体包括对应于所述第一可变区的所述多个初始可变区序列,所述第一可变区为重链可变区或轻链可变区。
18.如权利要求17所述的方法,其特征在于,所述迭代模拟进化中的每个模拟进化操作包括:
基于所述对应于所述第一可变区的所述多个初始可变区序列中每个初始可变区序列的所述个体适应度,从所述多个初始可变区序列中选定多个初始可变区序列作为多个第一序列;
保留所述多个初始群体中的所述多个第一序列,去掉所述多个初始群体中未被选定的初始可变区序列,以获得多个第一群体;
在所述多个第一群体之间执行模拟迁移,获得多个第二群体,所述多个第二群体中每个第二群体包括多个第二序列;
对所述多个第二群体中的所述多个第二序列执行模拟交叉和模拟变异,得到多个第三群体,所述多个第三群体中的每个第三群体包括多个第三序列;
从所述多个第三序列中确定一个或多个第一候选可变区序列。
19.如权利要求18所述的方法,其特征在于,所述迭代模拟进化的终止条件包括以下条件中的至少一项:
所述迭代模拟进化的总轮数大于或等于第一阈值;
所述迭代模拟进化得到的第一候选可变区序列的总数大于或等于第二阈值;
本轮模拟进化操作得到的所述一个或多个第一候选可变区序列的多样性小于或等于第三阈值;
本轮模拟进化操作中得到的第一候选可变区序列与上一轮模拟进化操作中得到的第一候选可变区序列的平均相似度大于或等于第四阈值。
20.如权利要求18所述的方法,其特征在于,所述第一可变区序列模板包括第一模板和/或第二模板,其中所述第一模板是从所述含有多个人源可变区序列的数据库中获取的与所述初始抗体的第一可变区的骨架区的序列相似度最高的人源可变区序列,第二模板是从所述含有多个人源可变区序列的数据库中获取的与所述初始抗体的第一可变区的全序列的相似度最高的人源可变区序列。
21.如权利要求20所述的方法,其特征在于:
所述第一可变区序列模板包括第一模板和第二模板;
所述多个初始群体包括基于所述第一模板执行模拟突变获得的多个第一初始群体和基于所述第二模板执行模拟突变获得的多个第二初始群体;
所述多个第一群体包括从所述第一初始群体中保留所述第一序列而获得的多个第一保留群体,以及从所述第二初始群体中保留所述第一序列而获得的多个第二保留群体。
22.如权利要求21所述的方法,其特征在于,所述在所述多个第一群体之间执行模拟迁移,获得多个第二群体,包括:
在所述多个第一保留群体之间执行模拟迁移、在所述多个第二保留群体之间执行模拟迁移以及在所述第一保留群体和所述第二保留群体之间执行模拟迁移,得到所述多个第二群体。
23.如权利要求16所述的方法,其特征在于,所述基于所述多个候选可变区序列,确定多个候选人源化抗体序列和/或多个候选人源化抗体功能片段序列,包括:
从所述多个候选重链可变区序列中确定多个选定的候选重链可变区序列;
从所述多个候选轻链可变区序列中确定多个选定的候选轻链可变区序列;
基于所述多个选定的候选重链可变区序列和多个选定的候选轻链可变区序列,确定所述多个候选人源化抗体序列或和/或多个候选人源化抗体功能片段序列。
24.如权利要求13所述的方法,其特征在于,所述训练后的深度森林模型是通过以下步骤得到的:
获取对应于第一可变区的多个训练样本,其中所述多个训练样本中的每个训练样本包括人源或非人源可变区序列及标签,所述标签指示所述样本可变区序列是人源或者非人源,所述样本可变区序列经过长度标准化处理;
使用所述多个训练样本,对初始深度森林模型进行训练,得到训练后的深度森林模型。
25.如权利要求13所述的方法,其特征在于,所述对所述初始抗体的序列进行序列分析,以确定所述初始抗体的序列中的可变区和CDR区,包括:
对所述初始抗体的序列进行序列分析,以确定所述初始抗体的重链可变区、轻链可变区、重链CDR区和轻链CDR区;
对所述重链可变区的序列进行长度标准化处理;
对所述轻链可变区的序列进行长度标准化处理。
26.一种计算设备,其特征在于,包括至少一个处理器和至少一个存储设备,其中所述至少一个存储设备中存有用于设计人源化抗体序列的指令集,当执行所述指令集时,处理器执行如权利要求1-25中任一项所述的方法。
27.一种非暂时性计算机可读存储介质,其特征在于,所述非暂时性计算机可读存储介质存储有用于设计人源化抗体序列的指令集,所述指令集在由计算设备执行时,使所述计算设备执行如权利要求1-25中任一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211101597 | 2022-09-09 | ||
CN202211101597X | 2022-09-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117153253A CN117153253A (zh) | 2023-12-01 |
CN117153253B true CN117153253B (zh) | 2024-05-07 |
Family
ID=88885185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311160298.8A Active CN117153253B (zh) | 2022-09-09 | 2023-09-08 | 一种设计人源化抗体序列的方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117153253B (zh) |
WO (1) | WO2024051806A1 (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101962408A (zh) * | 2002-07-12 | 2011-02-02 | 杰斐逊·富特 | 超人源化抗体 |
CN102272161A (zh) * | 2008-11-06 | 2011-12-07 | 阿雷克森制药公司 | 免疫原性降低的工程抗体与制备方法 |
CN106047857A (zh) * | 2016-06-01 | 2016-10-26 | 苏州金唯智生物科技有限公司 | 一种发掘特异性功能抗体的方法 |
CN112365919A (zh) * | 2020-12-01 | 2021-02-12 | 北京迈迪培尔信息技术有限公司 | 一种基于遗传算法的抗体计算优化方法 |
CN113838523A (zh) * | 2021-09-17 | 2021-12-24 | 深圳太力生物技术有限责任公司 | 一种抗体蛋白cdr区域氨基酸序列预测方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004006955A1 (en) * | 2001-07-12 | 2004-01-22 | Jefferson Foote | Super humanized antibodies |
JP5250850B2 (ja) * | 2006-06-29 | 2013-07-31 | ディーエスエム アイピー アセッツ ビー.ブイ. | 改善されたポリペプチド発現を達成する方法 |
CA2835094C (en) * | 2011-05-06 | 2020-12-22 | David Gearing | Anti-nerve growth factor antibodies and methods of preparing and using the same |
CN103739707B (zh) * | 2013-12-17 | 2015-12-09 | 上海市免疫学研究所 | 抗禽流感h5n1血凝素抗原的人源化抗体及其制备方法和用途 |
CN104004080A (zh) * | 2014-06-06 | 2014-08-27 | 首都医科大学 | 靶向于RANKL和TNF-α的人源化抗体及其应用 |
DK3256605T3 (da) * | 2015-02-10 | 2022-03-14 | Univ Hong Kong Chinese | Påvisning af mutationer til cancerscreening og føtal analyse |
CA3132189A1 (en) * | 2019-04-09 | 2020-10-15 | Derek Mason | Systems and methods to classify antibodies |
-
2023
- 2023-09-08 CN CN202311160298.8A patent/CN117153253B/zh active Active
- 2023-09-08 WO PCT/CN2023/117671 patent/WO2024051806A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101962408A (zh) * | 2002-07-12 | 2011-02-02 | 杰斐逊·富特 | 超人源化抗体 |
CN102272161A (zh) * | 2008-11-06 | 2011-12-07 | 阿雷克森制药公司 | 免疫原性降低的工程抗体与制备方法 |
CN106047857A (zh) * | 2016-06-01 | 2016-10-26 | 苏州金唯智生物科技有限公司 | 一种发掘特异性功能抗体的方法 |
CN112365919A (zh) * | 2020-12-01 | 2021-02-12 | 北京迈迪培尔信息技术有限公司 | 一种基于遗传算法的抗体计算优化方法 |
CN113838523A (zh) * | 2021-09-17 | 2021-12-24 | 深圳太力生物技术有限责任公司 | 一种抗体蛋白cdr区域氨基酸序列预测方法及系统 |
Non-Patent Citations (3)
Title |
---|
Karl.J.M 等.Antibody humanization by redesign of complementarity-determining region residues proximate to the acceptor framework.ELSEVIER.2014,68-76. * |
程联胜,邢毅,刘兢.基于公共信息资源的p185抗体人源化设计.中国科学技术大学学报.2002,(05),84-93. * |
解伟 ; 潘维 ; 柴彬淑 ; 曹宇 ; 王逸云 ; 徐艳婕 ; 王进 ; .一种新型靶向Frizzled7抗体的筛选及其人源化设计.中国新药杂志.2020,(11),80-88. * |
Also Published As
Publication number | Publication date |
---|---|
WO2024051806A1 (zh) | 2024-03-14 |
CN117153253A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Prihoda et al. | BioPhi: A platform for antibody design, humanization, and humanness evaluation based on natural antibody repertoires and deep learning | |
US20220157403A1 (en) | Systems and methods to classify antibodies | |
JP7459159B2 (ja) | Mhcペプチド結合予測のためのgan-cnn | |
US20190065677A1 (en) | Machine learning based antibody design | |
Kim et al. | Computational and artificial intelligence-based methods for antibody development | |
Mason et al. | Deep learning enables therapeutic antibody optimization in mammalian cells by deciphering high-dimensional protein sequence space | |
CN113838523A (zh) | 一种抗体蛋白cdr区域氨基酸序列预测方法及系统 | |
AU2020403134B2 (en) | Generating protein sequences using machine learning techniques based on template protein sequences | |
CN114464247A (zh) | 基于抗原和抗体序列的结合亲和力预测方法和装置 | |
Li et al. | Machine learning optimization of candidate antibody yields highly diverse sub-nanomolar affinity antibody libraries | |
Wollacott et al. | Quantifying the nativeness of antibody sequences using long short-term memory networks | |
EP3982369A1 (en) | Information processing system, information processing method, program, and method for producing antigen-binding molecule or protein | |
US20240094209A1 (en) | Markers, methods and systems for identifying cell populations, diagnosing, monitoring, predicting and treating conditions | |
CN117153253B (zh) | 一种设计人源化抗体序列的方法 | |
Li et al. | ASAP-SML: An antibody sequence analysis pipeline using statistical testing and machine learning | |
Minot et al. | Meta Learning Improves Robustness and Performance in Machine Learning-Guided Protein Engineering | |
EP4264609A1 (en) | Predicting complete protein representations from masked protein representations | |
Li et al. | Machine Learning Optimization of Candidate Antibodies Yields Highly Diverse Sub-nanomolar Affinity Antibody Libraries | |
Minot | Data efficient machine learning-guided protein engineering | |
WO2024088381A1 (zh) | 人源化抗体序列评估模型的构建方法及其应用 | |
US20240053358A1 (en) | Method for antibody identification from protein mixtures | |
WO2023078420A1 (en) | Methods for antibody optimization | |
Tsuruta et al. | A SARS-CoV-2 Interaction Dataset and VHH Sequence Corpus for Antibody Language Models | |
Wu et al. | Fast and accurate modeling and design of antibody-antigen complex using tFold | |
CA3230174A1 (en) | Residual artificial neural network to generate protein sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |