CN112365919A - 一种基于遗传算法的抗体计算优化方法 - Google Patents
一种基于遗传算法的抗体计算优化方法 Download PDFInfo
- Publication number
- CN112365919A CN112365919A CN202011385205.8A CN202011385205A CN112365919A CN 112365919 A CN112365919 A CN 112365919A CN 202011385205 A CN202011385205 A CN 202011385205A CN 112365919 A CN112365919 A CN 112365919A
- Authority
- CN
- China
- Prior art keywords
- antibody
- sequence
- antigen
- optimized
- cdr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000005457 optimization Methods 0.000 title claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 31
- 230000002068 genetic effect Effects 0.000 title claims abstract description 23
- 238000004364 calculation method Methods 0.000 title claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000003032 molecular docking Methods 0.000 claims abstract description 21
- 238000013461 design Methods 0.000 claims abstract description 17
- 238000012772 sequence design Methods 0.000 claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 108090000765 processed proteins & peptides Proteins 0.000 claims abstract description 7
- 239000000427 antigen Substances 0.000 claims description 66
- 102000036639 antigens Human genes 0.000 claims description 49
- 108091007433 antigens Proteins 0.000 claims description 49
- 238000002965 ELISA Methods 0.000 claims description 10
- NFGXHKASABOEEW-UHFFFAOYSA-N 1-methylethyl 11-methoxy-3,7,11-trimethyl-2,4-dodecadienoate Chemical compound COC(C)(C)CCCC(C)CC=CC(C)=CC(=O)OC(C)C NFGXHKASABOEEW-UHFFFAOYSA-N 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 4
- 238000005215 recombination Methods 0.000 claims description 4
- 230000006798 recombination Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000012854 evaluation process Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 150000001875 compounds Chemical class 0.000 claims 2
- 101150082208 DIABLO gene Proteins 0.000 claims 1
- 102100033189 Diablo IAP-binding mitochondrial protein Human genes 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 4
- 238000004801 process automation Methods 0.000 abstract description 3
- 230000035772 mutation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004191 hydrophobic interaction chromatography Methods 0.000 description 4
- 239000002105 nanoparticle Substances 0.000 description 4
- 238000001542 size-exclusion chromatography Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000005377 adsorption chromatography Methods 0.000 description 2
- 238000012575 bio-layer interferometry Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000004587 chromatography analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- QCAWEPFNJXQPAN-UHFFFAOYSA-N methoxyfenozide Chemical compound COC1=CC=CC(C(=O)NN(C(=O)C=2C=C(C)C=C(C)C=2)C(C)(C)C)=C1C QCAWEPFNJXQPAN-UHFFFAOYSA-N 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000004611 spectroscopical analysis Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000701447 unidentified baculovirus Species 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229940002612 prodrug Drugs 0.000 description 1
- 239000000651 prodrug Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Physiology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明提供了一种基于遗传算法的抗体计算优化方法。该方法涵盖了肽链处理、表位识别、序列注释、CDR H3序列设计、抗体建模、分子对接、抗体性质评估等算法,具备全流程自动化的抗体设计功能。本发明基于已知抗体序列数据,针对其重链高可变H3区段(CDR H3),利用遗传算法,迭代生成和评价随机位点、随机残基组合而成的变异抗体序列,并与原始抗体进行综合评分比较,从而获取优化抗体或剔除低质抗体,最终生成候选抗体序列库,并对候选抗体进行生物物理性质预测。本发明整合了抗体计算优化流程的基本要素,在同一平台实现了流程的自动化。
Description
技术领域
本发明涉及生物信息学技术领域,具体涉及蛋白质分子结构设计,尤其是涉及一种基于遗传算法的抗体计算优化方法。
背景技术
近几年,随着抗体及其靶标的生物信息学、结构生物学数据的不断增加,以及计算工具的迭代发展,针对特定抗原或抗原表位进行计算抗体设计优化的技术得到快速发展。利用计算抗体设计方式可以靶向设计具有表位特异性和亲和性的抗体。计算抗体设计的优势在于,基于人工智能的算法模型可以构建大规模的计算抗体突变库,通过基于知识的机器学习模型对抗体的溶解度、表面疏水性、局部表面电荷、聚集倾向性等抗体关键特性进行评估,从而快速筛选具有开发潜力的先导抗体并进行优化,可以极大的减少临床前药物研发成本和周期。
抗体由重链和轻链组成,重链和轻链与抗原结合的区域称为互补结合区(CDR)。其中CDR H3在与抗原结合中起到重要作用,因此成为抗体优化设计的热点区域。
抗体计算优化设计涉及多个环节,包括但不限于序列注释、序列设计、抗体建模、H3环建模、分子对接、可开发性预测等,实现上述功能通常需要多个不同工具完成,这些工具由不同的研究人员开发,存在算法性能参差不齐、编写语言不一、代码编写复杂,极大限制了研究人员利用这些工具进行抗体设计的能力。
因此,现有的抗体计算优化设计方法需要学习并操作多种不同算法、工具、软件;并且需要依赖专家经验,对抗体的个别位点实施特异性突变,以预测抗体结合性能是否得到提高;其生成的抗体序列受现有抗体序列制约比较明显,无法探索更多可能的抗体更优解。
发明内容
鉴于此,本发明的目的是提供一种基于遗传算法的抗体计算优化方法,针对目前抗体计算设计相关工具分散的缺陷,对现有工具进行改写、优化和封装,构建具备全流程自动化的抗体设计系统,涵盖了肽链处理、表位识别、序列注释、序列设计、抗体同源建模、CDRH3环从头建模、抗原抗体分子对接、抗体生物物理性质预测等功能。
为了达到上述目的,本发明提供如下技术方案:
一种基于遗传算法的抗体计算优化方法,包括:
肽链处理:用户上传抗体-抗原复合物结构文件或抗体、抗原的结构文件,以及抗体序列,并指定抗体、抗原对应的链编号,并在有条件的基础上提供关键抗原表位列表;
表位识别:系统识别抗体-抗原复合物结构文件中的抗体-抗原的接触位点;
序列注释:系统通过抗体编号系统对抗体重链进行编码,并根据注释结果识别抗体CDR H3序列;
序列设计:通过遗传算法对原始抗体的CDR H3序列进行迭代优化设计,输出优化抗体CDR H3序列集合;将优化抗体CDR H3序列接回原始抗体重链序列相应位置,获得优化后的抗体重链,将优化后抗体重链与原始抗体轻链合并,获得优化后的抗体序列;
抗体建模:对优化后的抗体序列进行同源建模,模板采用原始抗体,最后对CDR H3区的结构进行从头建模加以改进,获得优化抗体PDB结构文件;
分子对接:通过各向异性网络模型对优化后的抗体和抗原结构进行柔性对接,采用DFIRE函数进行评分,并将该评分值作为预测的结合自由能ΔG;
抗体性质评估:对输出的优化抗体,通过综合评分结果对优化抗体进行排序,输出优化抗体序列库;并对输出的优化抗体进行生物物理性质预测。
进一步地,在所述数据处理过程中:用户上传抗体-抗原复合物结构文件,系统将根据用户指定的抗体和抗原链编号,从复合物结构文件中提取出对应的链,形成单独的抗体和抗原结构文件;若用户上传单独抗原、抗体结构文件,系统将根据CDR H3和/或关键抗原表位进行分子对接,获取抗体-抗原复合物结构文件;
进一步地,系统识别该抗体和抗原复合物结构文件中的抗体-抗原的接触位点,定义与CDR H3区域位点距离小于等于5埃范围内的抗原位点为初始抗原表位;如果用户提交了关键抗原表位,则将其优先定义为初始抗原表位。
进一步地,在所述序列注释过程中,采用Chothia(H95-H102)、kabat(H95-102)、Contact(H93-H101)、IMGT(H93-H102)其中任一种编号方案对抗体重链进行编码,括号内为该编号方案下CDR H3对应的序列编码范围。
进一步地,所述序列设计过程中,在遗传算法起始时,设置N个起始CDR H3种子序列,在每轮迭代中,根据设置的重组率和变异率,对CDR H3序列进行变异,完成迭代。
进一步地,所述序列设计过程中,在迭代过程中,根据序列综合评分S,决定该序列是否进入下一轮,以及该序列在下一轮所占比例。
进一步地,在迭代过程中,可根据设置的迭代次数完成迭代,或当生成的优化抗体数量达到预设阈值时结束迭代。
进一步地,所述抗体建模过程中,可采用Modeller、SWISS-MODEL、I-TASSER、Rosetta、AbodyBuilder中任一种软件进行同源建模。
进一步地,在抗体分子对接过程中,采用CDR H3和初始抗原表位或关键抗原表位作为对接约束条件,以确保优化后的抗体-抗原结合位点限制在初始抗原表位附近。
进一步地,在抗体分子对接完成后,识别抗原与优化抗体CDR H3的接触位点,定义为优化抗原表位。
进一步地,系统通过预测结合自由能和表位覆盖度对序列进行综合评分:将优化后的抗原表位定义为集合A,初始抗原表位定位为集合B,定义表位覆盖度C;
序列综合评分:S=C×ΔG式(2)。
进一步地,所述抗体性质评估过程中,抗体的生物物理性质指标包括AC-SINS(亲和捕获自相互作用纳米粒子光谱)、CSIBLI(基于生物层干涉法的克隆自相互作用)、PSR(多特异性试剂结合)、BVP-ELISA(杆状病毒颗粒ELISA)、CIC(交叉作用色谱)、ELISA(酶联免疫吸附)、HEK(HEK细胞表达效价)、HIC(疏水作用色谱)、SGAC-SINS(盐梯度亲和捕获自相互作用纳米粒子光谱)、SMAC(立式单层吸附色谱)、SEC(尺寸排阻色谱)、DSF(差示扫描荧光定量)。
本发明的一种基于遗传算法的抗体计算优化方法,其有益效果在于:
(1)本方案整合了抗体计算优化流程的基本要素,可以在同一平台实现流程的自动化。
(2)本方案通过遗传算法进行CDR H3序列设计,可以减少在序列位点突变中对专家经验的依赖。
(3)本方案根据已知抗原的抗体序列,针对整个CDR H3序列进行序列设计,利用遗传算法,迭代生成和评价随机位点、随机残基组合而成的变异抗体序列,扩展了抗体序列的可能形式,并与原始抗体进行综合评分比较,从而获取优化抗体或剔除低质抗体,产生新颖的抗体CDR H3序列和结构,最终生成候选抗体序列库。
(4)本方案通过对候选抗体进行生物物理性质预测,为候选抗体的筛选提供指导。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的抗体计算优化方法示意图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提出一种基于遗传算法的抗体优化方法和系统。该系统基于已知抗体序列数据,针对其重链高可变H3区段(CDR H3),利用遗传算法,迭代生成和评价随机位点、随机残基组合而成的变异抗体序列,并与原始抗体进行综合评分比较,从而获取优化抗体或剔除低质抗体,最终生成候选抗体序列库。
该系统整合了抗体计算设计的完整环节,对部分已有算法工具进行了优化和封装。涵盖了肽链处理、表位识别、序列注释、CDR H3序列设计、抗体同源建模、CDR H3环建模、分子对接、抗体性质评估等算法,具备全流程自动化的抗体设计功能。
该抗体优化方法具体如下:
肽链处理:用户可以单独上传抗体、抗原的结构文件和抗体重链、轻链序列,并指定对应的链编号,并且可以选择是否添加关键抗原表位。用户如果提交抗体-抗原复合物结构文件(.pdb格式),系统将根据用户指定的抗体和抗原链编号,从复合物结构文件中提取出对应的链,形成单独的抗体和抗原结构文件。用户如果提交单独的抗体、抗原结构文件,系统将根据序列注释的CDR H3和/或关键抗原表位进行分子对接,获取抗体-抗原复合物结构文件。
表位识别:对于用户输入的或系统根据抗原、抗体文件构建的抗体-抗原复合物,系统通过prodigy工具识别复合物结构文件中抗体-抗原的接触位点,并进一步定义与原始抗体CDR H3区域位点结合的抗原位点为初始抗原表位,与优化后抗体CDR H3区域位点结合的抗原位点为优化抗原表位。当用户提交了关键抗原表位时,优先将关键抗原表位作为初始抗原表位,不再另外进行初始抗原表位识别。
序列注释:CDR H3区是影响抗体结合效力的关键位点,本方法的策略是通过对抗体CDR H3序列进行优化,提高该区域的结合力。因此首先需要识别抗体的CDR H3序列。系统通过Kabat编号方案对抗体重链进行编码,并根据注释结果识别抗体CDR H3序列,在该编号体系下CDR H3序列范围在H95-H102。
在序列注释过程可采用Chothia(H95-H102)、Kabat(H95-102)、Contact(H93-H101)、IMGT(H93-H102)其中任一种编号方案对抗体重链进行编码,Kabat是最早提出并广泛应用的一种编号方案,因此本发明优先选择Kabat进行抗体编号。
序列设计:通过遗传算法对原始抗体的CDR H3序列进行迭代优化设计,输出优化抗体结构和序列。
在遗传算法起始时,设置N个起始种子(默认值为10),即原始CDR H3序列。在接下来的每一轮迭代中,根据设置的重组率和变异率,对CDR H3序列进行变异。默认的重组率为0.5,变异率为0.2,迭代次数50。在每一轮中,根据序列综合评分,决定该序列是否进入下一轮,以及其在下一轮所占比例。根据设置的迭代次数,完成迭代,或当生成的优化抗体数量达到预设阈值时(M,默认值为10)结束迭代,并输出对应的优化抗体结构和序列。
抗体建模:将遗传算法优化过程中,将生成的CDR H3序列接回原始抗体重链序列相应位置,获得优化后抗体重链。将原始抗体轻链与优化后抗体重链合并,获得优化后的抗体序列。然后通过Modeller中的automodel对优化后的抗体序列进行同源建模,模板采用原始抗体结构文件。然后通过Modeller中提供的loop优化对CDR H3区的结构进行从头建模,获得优化抗体PDB结构文件。
所述抗体建模过程中,可采用Modeller、SWISS-MODEL、I-TASSER、Rosetta、AbodyBuilder中任一种软件进行同源建模,本发明优选采用Modeller同源建模。
分子对接:在lightdock中通过各向异性网络模型(ANN)对优化后的抗体和原始抗原结构进行柔性对接,采用DFIRE函数进行评分,并将该值作为预测的结合自由能ΔG。在对接过程中,将CDR H3和初始抗原表位(或关键抗原表位)作为对接约束条件。通过prodigy识别优化后的抗体与抗原对接位点,并获取优化后的抗原表位。
综合评分:将优化后的抗原表位定义为集合A,初始抗原表位定义为集合B,我们定义了表位覆盖度(C):
综合评分:S=C×ΔG (公式2)
通过设置表位覆盖度这一指标,我们将优化后的抗体-抗原结合位点限制在初始抗原表位附近,以确保我们的计算设计抗体满足最初的目的,即通过序列的优化提升其亲和力。通过综合评分我们对优化抗体序列进行排序。
抗体生物物理性质预测:对输出的≥M个优化抗体,利用Abpred分别预测抗体的12项生物物理指标。包括AC-SINS(亲和捕获自相互作用纳米粒子光谱)、CSIBLI(基于生物层干涉法的克隆自相互作用)、PSR(多特异性试剂结合)、BVP-ELISA(杆状病毒颗粒ELISA)、CIC(交叉作用色谱)、ELISA(酶联免疫吸附)、HEK(HEK细胞表达效价)、HIC(疏水作用色谱)、SGAC-SINS(盐梯度亲和捕获自相互作用纳米粒子光谱)、SMAC(立式单层吸附色谱)、SEC(尺寸排阻色谱)、DSF(差示扫描荧光定量),并分别按照各项评估的结果对优化抗体进行排名。
在本发明提出一种通过遗传算法模型进行抗体计算优化的方案。该方案根据已知抗原的抗体序列,针对其CDR H3区段,利用遗传算法,迭代生成和评价随机位点、随机残基组合而成的变异抗体序列,并与原始抗体进行综合评分比较,从而获取优化抗体或剔除低质抗体,最终生成候选抗体序列库,并对候选抗体进行生物物理性质预测。该方法的技术关键点重点表现在以下三个方面:
1、抗体优化设计流程:面向抗体设计优化问题,集成优化蛋白质序列分析、空间建模、分子对接和属性预测等成熟权威算法工具,构建松耦合、自动化的计算模拟仿真流程。
2、抗体CDR H3变异文库构建算法:针对抗体CDR H3局部搜索空间海量潜在可能,采用启发式遗传算法,以抗体关键性能指标作为评价标准,在可接受的时间和成本下,构建符合预期的变异文库。
3、抗体性能评价策略:考虑计算模拟仿真过程产生的误差和噪声,在常用亲和力评价指的基础上,引入抗原表位覆盖度指标作为限制条件,指导并加速局部搜索过程。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (12)
1.一种基于遗传算法的抗体计算优化方法,其特征在于:包括:
肽链处理:用户上传抗体序列,上传抗体-抗原复合物结构文件或抗体、抗原的结构文件,并指定抗体、抗原对应的链编号,提供关键抗原表位列表;
表位识别:系统识别抗体-抗原复合物结构文件中的抗体-抗原的接触位点;
序列注释:系统通过抗体编号系统对抗体重链进行编码,并根据注释结果识别抗体CDRH3序列;
序列设计:通过遗传算法对原始抗体的CDR H3序列进行迭代优化设计,输出优化抗体CDR H3序列集合;将优化抗体CDR H3序列接回原始抗体重链序列相应位置,获得优化后的抗体重链,将优化后抗体重链与原始抗体轻链合并,获得优化后的抗体序列;
抗体建模:对优化后的抗体序列进行同源建模,模板采用原始抗体,最后对CDR H3区的结构进行从头建模,获得优化抗体PDB结构文件;
分子对接:通过各向异性网络模型对优化后的抗体和抗原结构进行柔性对接,采用DFIRE函数进行评分,并将该评分值作为预测的结合自由能ΔG;
抗体性质评估:对输出的优化抗体,通过综合评分结果对优化抗体进行排序,输出优化抗体序列库;并对输出的优化抗体进行生物物理性质预测。
2.根据权利要求1所述的抗体计算优化方法,其特征在于:在所述肽链处理过程中:用户上传抗体-抗原复合物结构文件,系统将根据用户指定的抗体和抗原链编号,从复合物结构文件中提取出对应的链,形成单独的抗体和抗原结构文件;若用户上传的为单独抗原、抗体结构文件,则先进行分子对接,生成抗体-抗原复合物文件。
3.根据权利要求1所述的抗体计算优化方法,其特征在于:系统根据用户上传的抗原-抗体复合物文件或根据上传的抗原、抗体生成的复合物结构文件,识别抗原与CDR H3接触距离小于等于5埃的位点为初始抗原表位;若用户提交了关键抗原表位数据,则优先将其作为初始抗原表位。
4.根据权利要求1所述的抗体计算优化方法,其特征在于:在所述序列注释过程中,采用Chothia(H95-H102)、Kabat(H95-H102)、Contact(H93-H101)IMGT(H93-H102)其中任一种编号方案对抗体重链进行编码,括号内为在该编号方案中CDR H3所对应的序列编码范围。
5.根据权利要求1所述的抗体计算优化方法,其特征在于:所述序列设计过程中,在遗传算法起始时,设置N个起始CDR H3种子序列,在每轮迭代中,根据设置的重组率和变异率,对CDR H3序列进行变化,完成迭代。
6.根据权利要求5所述的抗体计算优化方法,其特征在于:所述序列设计过程中,在迭代过程中,根据序列综合评分S,决定该序列是否进入下一轮,以及该序列在下一轮所占比例。
7.根据权利要求5或6所述的抗体计算优化方法,其特征在于:在迭代过程中,可根据设置的迭代次数完成迭代,或当生成的优化抗体数量达到预设阈值时结束迭代。
8.根据权利要求1所述的抗体计算优化方法,其特征在于:所述抗体建模过程中,可采用Modeller、SWISS-MODEL、I-TASSER、Rosetta、AbodyBuilder中任一种软件进行同源建模。
9.根据权利要求1所述的抗体计算优化方法,其特征在于:所述抗体分子对接过程中,采用CDR H3和初始抗原表位或关键抗原表位作为对接约束条件。
10.根据权利要求9所述的抗体计算优化方法,其特征在于:所述抗体分子对接完成后,识别抗原与优化后抗体CDR H3的接触位点,将其定义为优化抗原表位。
12.根据权利要求1所述的抗体计算优化方法,其特征在于:所述抗体性质评估过程中,抗体的生物物理性质指标包括AC-SINS、CSIBLI、PSR、BVP-ELISA、CIC、ELISA、HEK、HIC、SGAC-SINS、SMAC、SEC、DSF。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011385205.8A CN112365919A (zh) | 2020-12-01 | 2020-12-01 | 一种基于遗传算法的抗体计算优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011385205.8A CN112365919A (zh) | 2020-12-01 | 2020-12-01 | 一种基于遗传算法的抗体计算优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112365919A true CN112365919A (zh) | 2021-02-12 |
Family
ID=74536519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011385205.8A Pending CN112365919A (zh) | 2020-12-01 | 2020-12-01 | 一种基于遗传算法的抗体计算优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365919A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114116857A (zh) * | 2022-01-26 | 2022-03-01 | 北京晶泰科技有限公司 | 抗体数据库的生成、更新和查询方法、装置及存储介质 |
CN117153253A (zh) * | 2022-09-09 | 2023-12-01 | 南京金斯瑞生物科技有限公司 | 一种设计人源化抗体序列的方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030054407A1 (en) * | 2001-04-17 | 2003-03-20 | Peizhi Luo | Structure-based construction of human antibody library |
US20060095241A1 (en) * | 2004-10-29 | 2006-05-04 | Microsoft Corporation | Systems and methods that utilize machine learning algorithms to facilitate assembly of aids vaccine cocktails |
CN102222177A (zh) * | 2011-07-08 | 2011-10-19 | 上海生物信息技术研究中心 | 抗体蛋白的分子改造辅助预测方法 |
CN103145834A (zh) * | 2013-01-17 | 2013-06-12 | 广州泰诺迪生物科技有限公司 | 一种抗体人源化改造方法 |
CN104530228A (zh) * | 2014-12-18 | 2015-04-22 | 吉林大学 | 一种人源抗乙肝病毒表面抗体及其制备方法和应用 |
CN105447571A (zh) * | 2015-11-20 | 2016-03-30 | 中国电子科技集团公司第二十八研究所 | 一种基于遗传算法的体系结构自动优化方法 |
CN105868583A (zh) * | 2016-04-06 | 2016-08-17 | 东北师范大学 | 一种基于序列使用代价敏感集成和聚类预测表位的方法 |
CN109086568A (zh) * | 2018-08-16 | 2018-12-25 | 福建工程学院 | 计算机抗体组合突变进化系统及方法、信息数据处理终端 |
-
2020
- 2020-12-01 CN CN202011385205.8A patent/CN112365919A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030054407A1 (en) * | 2001-04-17 | 2003-03-20 | Peizhi Luo | Structure-based construction of human antibody library |
US20060095241A1 (en) * | 2004-10-29 | 2006-05-04 | Microsoft Corporation | Systems and methods that utilize machine learning algorithms to facilitate assembly of aids vaccine cocktails |
CN102222177A (zh) * | 2011-07-08 | 2011-10-19 | 上海生物信息技术研究中心 | 抗体蛋白的分子改造辅助预测方法 |
CN103145834A (zh) * | 2013-01-17 | 2013-06-12 | 广州泰诺迪生物科技有限公司 | 一种抗体人源化改造方法 |
CN104530228A (zh) * | 2014-12-18 | 2015-04-22 | 吉林大学 | 一种人源抗乙肝病毒表面抗体及其制备方法和应用 |
CN105447571A (zh) * | 2015-11-20 | 2016-03-30 | 中国电子科技集团公司第二十八研究所 | 一种基于遗传算法的体系结构自动优化方法 |
CN105868583A (zh) * | 2016-04-06 | 2016-08-17 | 东北师范大学 | 一种基于序列使用代价敏感集成和聚类预测表位的方法 |
CN109086568A (zh) * | 2018-08-16 | 2018-12-25 | 福建工程学院 | 计算机抗体组合突变进化系统及方法、信息数据处理终端 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114116857A (zh) * | 2022-01-26 | 2022-03-01 | 北京晶泰科技有限公司 | 抗体数据库的生成、更新和查询方法、装置及存储介质 |
CN114116857B (zh) * | 2022-01-26 | 2022-06-17 | 北京晶泰科技有限公司 | 抗体数据库的生成、更新和查询方法、装置及存储介质 |
CN117153253A (zh) * | 2022-09-09 | 2023-12-01 | 南京金斯瑞生物科技有限公司 | 一种设计人源化抗体序列的方法 |
WO2024051806A1 (zh) * | 2022-09-09 | 2024-03-14 | 南京金斯瑞生物科技有限公司 | 一种设计人源化抗体序列的方法 |
CN117153253B (zh) * | 2022-09-09 | 2024-05-07 | 南京金斯瑞生物科技有限公司 | 一种设计人源化抗体序列的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795836B (zh) | 基于区间与有界概率混合不确定性的机械臂稳健优化方法 | |
Kim et al. | Computational and artificial intelligence-based methods for antibody development | |
US20240144092A1 (en) | Generative machine learning systems for drug design | |
US20220157403A1 (en) | Systems and methods to classify antibodies | |
CN112365919A (zh) | 一种基于遗传算法的抗体计算优化方法 | |
Cheng et al. | Searching toward pareto-optimal device-aware neural architectures | |
Tan et al. | Rapid rule compaction strategies for global knowledge discovery in a supervised learning classifier system | |
CN109086568B (zh) | 计算机抗体组合突变进化系统及方法、信息数据处理终端 | |
CN110428015A (zh) | 一种模型的训练方法及相关设备 | |
CN115620803B (zh) | 一种基于跨图注意力的蛋白质相互作用点位预测方法 | |
WO2023208204A1 (zh) | 基于注意力机制的抗体非定序预测方法和装置 | |
CN118116600B (zh) | 一种基于多组学和临床检验数据的结直肠癌预后方法 | |
Loni et al. | Densedisp: Resource-aware disparity map estimation by compressing siamese neural architecture | |
CN115188412A (zh) | 基于Transformer和图神经网络的药物预测算法 | |
WO2023246834A1 (en) | Reinforcement learning (rl) for protein design | |
Shereen A El-Aal | A proposed recognition system for Alzheimer’s disease based on deep learning and optimization algorithms | |
CN115249054A (zh) | 一种改进的混合多目标粒子群优化特征选择算法 | |
Domingo et al. | A hybrid quantum-classical fusion neural network to improve protein-ligand binding affinity predictions for drug discovery | |
CN115620801A (zh) | 一种蛋白质结合口袋的预测装置和方法 | |
Mahmoodian | Predicting the continuous values of breast cancer relapse time by type-2 fuzzy logic system | |
Wu | Evaluation model of product shape design scheme based on fuzzy genetic algorithm mining spatial association rules | |
Yi et al. | An adaptive constraint-handling approach for optimization problems with expensive objective and constraints | |
Sun et al. | B-cell epitope prediction method based on deep ensemble architecture and sequences | |
Zhang et al. | Data-driven Multiobjective Particle Swarm Optimization based on Data Augmentation Strategy | |
CN106709510A (zh) | 一种基于免疫克隆选择算法的搜索高斯混合模型的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |