CN113808664B - 基于机器学习的抗体筛选方法及装置 - Google Patents
基于机器学习的抗体筛选方法及装置 Download PDFInfo
- Publication number
- CN113808664B CN113808664B CN202111131429.0A CN202111131429A CN113808664B CN 113808664 B CN113808664 B CN 113808664B CN 202111131429 A CN202111131429 A CN 202111131429A CN 113808664 B CN113808664 B CN 113808664B
- Authority
- CN
- China
- Prior art keywords
- antibody
- antigen
- information
- amino acid
- topological structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012216 screening Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000010801 machine learning Methods 0.000 title claims abstract description 29
- 230000003472 neutralizing effect Effects 0.000 claims abstract description 156
- 239000000427 antigen Substances 0.000 claims abstract description 155
- 102000036639 antigens Human genes 0.000 claims abstract description 155
- 108091007433 antigens Proteins 0.000 claims abstract description 155
- 125000003275 alpha amino acid group Chemical group 0.000 claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 49
- 230000009830 antibody antigen interaction Effects 0.000 claims abstract description 25
- 230000005540 biological transmission Effects 0.000 claims abstract description 13
- 150000001413 amino acids Chemical class 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 43
- 230000003993 interaction Effects 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000006386 neutralization reaction Methods 0.000 claims description 21
- 230000002776 aggregation Effects 0.000 claims description 17
- 238000004220 aggregation Methods 0.000 claims description 17
- 108090000623 proteins and genes Proteins 0.000 claims description 15
- 238000003062 neural network model Methods 0.000 claims description 14
- 102000004169 proteins and genes Human genes 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000002910 structure generation Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 18
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 241000700605 Viruses Species 0.000 description 4
- 210000001744 T-lymphocyte Anatomy 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 210000004408 hybridoma Anatomy 0.000 description 3
- 208000036142 Viral infection Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 244000052769 pathogen Species 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009385 viral infection Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000024932 T cell mediated immunity Effects 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000007321 biological mechanism Effects 0.000 description 1
- 229960000074 biopharmaceutical Drugs 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000009614 chemical analysis method Methods 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011275 oncology therapy Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Chemical & Material Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明涉及人工智能技术领域,揭露一种基于机器学习的抗体筛选方法,包括:获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息,并基于所述拓扑结构信息以及所述知识图谱信息构建样本集;利用包含拓扑结构信息以及知识图谱信息的样本集以有向传递方式训练网络模型,构建可感知分子结构与知识图谱特征的抗体预测模型;响应于针对目标抗原进行目标抗体筛选的指令,将待预测目标抗原的氨基酸序列和拓扑结构信息输入至抗体预测模型,得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。本发明能够学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征,并作为中和抗体的预测发现,提高抗体的筛选效果。
Description
技术领域
本发明涉及人工智能技术领域,尤其是涉及到基于机器学习的抗体筛选方法、装置、计算机设备及计算机存储介质。
背景技术
单克隆抗体是病毒治疗、癌症治疗、疾病监测、实验研究中时分重要的生物制品,需求量巨大。传统的单克隆抗体在筛选过程中,需要向免疫动物连续注射抗原,从小白鼠脾脏中取出效应B淋巴细胞,经HAT培养液筛选杂交瘤细胞,再从杂交瘤细胞群中筛选出能够产生针对某一预定抗原决定簇的特异性杂交瘤细胞,由一个细胞培养形成一个细胞群并且收集其所分泌的抗体,即使这样得到的单克隆抗体,让人绝大部分不具有广谱中和活性,需要继续投入大量人工成本进一步筛选,使得单克隆广谱中和抗体的研发成本高。
相关技术中,基于深度学习的单克隆广谱中和抗体的设计方式可大大降低筛选成本,缩短单克隆抗体的筛选时间,提高筛选成功率。然而,考虑到抗体对抗原的中和效力是由抗原、抗原的拓扑结构决定,且抗原抗体相互作用积累有大量知识图谱信息等待挖掘,而基于深度学习所构建的抗体库仅能针对抗体序列信息或抗体的编码基因序列进行处理,并不能学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征,只能用于预测现存某一种特定抗原中和抗体,无法得到广谱中和抗体,针对新发病原的抗体很难进行筛选,导致抗体筛选效果不理想。
发明内容
有鉴于此,本发明提供了一种基于机器学习的抗体筛选方法、装置、计算机设备及计算机存储介质,主要目的在于解决现有技术中基于深度学习所构建的抗体库仅能针对抗体序列信息或抗体的编码基因序列进行处理,无法学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征,导致抗体筛选效果不理想的问题。
依据本发明一个方面,提供了一种基于机器学习的抗体筛选方法,该方法包括:
获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息,并基于所述拓扑结构信息以及所述知识图谱信息构建样本集;
利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型,构建可感知分子结构与知识图谱特征的抗体预测模型,所述抗体预测模型用于感知抗体抗原的氨基酸结合位点,并根据所述氨基酸结合位点输出抗体的氨基酸序列信息;
响应于针对目标抗原进行目标抗体筛选的指令,将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型,得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。
在本发明另一实施例中,所述获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息,并基于所述拓扑结构信息以及所述知识图谱信息构建样本集,具体包括:
预先通过不同渠道发布的蛋白质数据库获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息;
基于所述拓扑结构信息和所述知识图谱信息,将存在中和作用的抗原和抗体作为正样本,将不存在中和作用的抗原和抗体作为负样本,根据所述正样本和所述负样本构建样本集。
在本发明另一实施例中,所述网络模型为基于图神经网络方法改进后的基于结构和知识的多重生成图神经网络模型,包括基于结构和知识图神经网络的第一子模型和基于结构生成图神经网络的第二子模型,所述利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型,构建可感知分子结构与知识图谱特征的抗体预测模型,具体包括:
利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型,提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构;
根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型,输出中和抗体的氨基酸序列;
将所述中和抗体的氨基酸序列作为预测结果,构建可感知分子结构与知识图谱特征的抗体预测模型。
在本发明另一实施例中,所述第一子模型包括结构特征编码模块和抗原抗体结合关系预测模块,所述利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型,提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构,具体包括:
利用所述结构特征编码模块对所述拓扑结构信息进行编码,分别得到抗原和抗体拓扑结构的第一低维特征向量;
利用所述抗原抗体结合关系预测模块对所述知识图谱信息进行预测,得到反映抗原与抗体之间的相互作用的第二低维特征向量;
根据所述第一低维特征向量和所述第二低维特征向量,确定对任一抗原具有高效中和活性的中和抗体拓扑结构。
在本发明另一实施例中,所述根据所述第一低维特征向量和所述第二低维特征向量,确定对任一抗原具有高效中和活性的中和抗体拓扑结构,具体包括:
根据所述第二低维特征向量,确定对任一抗原具有高效中和活性的中和抗体;
根据所述第一低维特征向量,提取对任一抗原具有高效中和活性的中和抗体拓扑结构。
在本发明另一实施例中,所述第二子模型包括卷积模块和聚合模块,所述根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型,输出中和抗体的氨基酸序列,具体包括:
将所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签生成节点属性和描述节点对之间相互作用的边属性后串联输入至卷积模块和聚合模块,所述节点属性表征氨基酸,所述边属性表征氨基酸的相对位置;
利用所述卷积模块和聚合模块更新所述边属性和所述节点属性;
使用分类函数作为输出表征氨基酸的激活函数,输出中和抗体的氨基酸序列。
在本发明另一实施例中,在所述使用分类函数作为输出表征氨基酸的激活函数,输出中和抗体的氨基酸序列之后,所述方法还包括:
利用所述中和抗体的氨基酸序列与针对所述中和抗体拓扑结构配置的氨基酸序列标签计算交叉熵损失函数;
若所述交叉熵损失函数达到收敛状态,或所述交叉熵损失函数输出的损失值小于预设数值,则判定所述第二子模型训练完成。
依据本发明另一个方面,提供了一种基于机器学习的抗体筛选装置,所述装置包括:
获取单元,用于获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息,并基于所述拓扑结构信息以及所述知识图谱信息构建样本集;
构建单元,用于利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型,构建可感知分子结构与知识图谱特征的抗体预测模型,所述抗体预测模型用于感知抗体抗原的氨基酸结合位点,并根据所述氨基酸结合位点输出抗体的氨基酸序列信息;
筛选单元,用于响应于针对目标抗原进行目标抗体筛选的指令,将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型,得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。
在本发明另一实施例中,所述获取单元包括:
获取模块,用于预先通过不同渠道发布的蛋白质数据库获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息;
第一构建模块,用于基于所述拓扑结构信息和所述知识图谱信息,将存在中和作用的抗原和抗体作为正样本,将不存在中和作用的抗原和抗体作为负样本,根据所述正样本和所述负样本构建样本集。
在本发明另一实施例中,所述网络模型为基于图神经网络方法改进后的基于结构和知识的多重生成图神经网络模型,包括基于结构和知识图神经网络的第一子模型和基于结构生成图神经网络的第二子模型,所述构建单元包括:
第一训练模块,用于利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型,提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构;
第二训练模块,用于根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型,输出中和抗体的氨基酸序列;
第二构建模块,用于将所述中和抗体的氨基酸序列作为预测结果,构建可感知分子结构与知识图谱特征的抗体预测模型。
在本发明另一实施例中,所述第一子模型包括结构特征编码模块和抗原抗体结合关系预测模块,所述第一训练模块包括:
编码子模块,用于利用所述结构特征编码模块对所述拓扑结构信息进行编码,分别得到抗原和抗体拓扑结构的第一低维特征向量;
预测子模块,用于利用所述抗原抗体结合关系预测模块对所述知识图谱信息进行预测,得到反映抗原与抗体之间的相互作用的第二低维特征向量;
确定子模块,用于根据所述第一低维特征向量和所述第二低维特征向量,确定对任一抗原具有高效中和活性的中和抗体拓扑结构。
在本发明另一实施例中,所述确定子模块,具体用于根据所述第二低维特征向量,确定对任一抗原具有高效中和活性的中和抗体;
所述确定子模块,具体还用于根据所述第一低维特征向量,提取对任一抗原具有高效中和活性的中和抗体拓扑结构。
在本发明另一实施例中,所述第二子模型包括卷积模块和聚合模块,所述第二训练模块包括:
生成子模块,用于将所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签生成节点属性和描述节点对之间相互作用的边属性后串联输入至卷积模块和聚合模块,所述节点属性表征氨基酸,所述边属性表征氨基酸的相对位置;
更新子模块,用于利用所述卷积模块和聚合模块更新所述边属性和所述节点属性;
输出子模块,用于使用分类函数作为输出表征氨基酸的激活函数,输出中和抗体的氨基酸序列。
在本发明另一实施例中,所述第二训练模块还包括:
计算子模块,用于在所述使用分类函数作为输出表征氨基酸的激活函数,输出中和抗体的氨基酸序列之后,利用所述中和抗体的氨基酸序列与针对所述中和抗体拓扑结构配置的氨基酸序列标签计算交叉熵损失函数;
判定子模块,用于若所述交叉熵损失函数达到收敛状态,或所述交叉熵损失函数输出的损失值小于预设数值,则判定所述第二子模型训练完成。
依据本发明又一个方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于机器学习的抗体筛选方法的步骤。
依据本发明再一个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于机器学习的抗体筛选方法的步骤。
借由上述技术方案,本发明提供一种基于机器学习的抗体筛选方法及装置,通过获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息,并基于拓扑结构信息以及所述知识图谱信息构建样本集,然后利用包含拓扑结构信息以及知识图谱信息的样本集以有向传递方式训练网络模型,构建可感知分子结构与知识图谱特征的抗体预测模型,该抗体预测模型用于感知抗体抗原的氨基酸结合位点,并根据氨基酸结合位点输出抗体的氨基酸序列信息,响应于针对目标抗原进行目标抗体筛选的指令,将待预测目标抗原的氨基酸序列和拓扑结构信息输入至抗体预测模型,得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。与现有技术中基于深度学习所构建的抗体库对抗体进行筛选的方式相比,本申请中利用拓扑结构信息和知识图谱信息作为中和抗体的预测发现,能够学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征,并准确定位到抗原与抗体结合的具体氨基酸位点,提高抗体的筛选效果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种基于机器学习的抗体筛选方法的流程示意图;
图2示出了本发明实施例提供的另一种基于机器学习的抗体筛选方法的流程示意图;
图3示出了本发明实施例提供的一种基于机器学习的抗体筛选装置的结构示意图;
图4示出了本发明实施例提供的另一种基于机器学习的抗体筛选装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明实施例提供了一种基于机器学习的抗体筛选方法,通过学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征,并作为中和抗体的预测发现,提高抗体的筛选效果,如图1所示,该方法包括:
101、获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息,并基于所述拓扑结构信息以及所述知识图谱信息构建样本集。
对于本发明实施例,可预先通过PDB、Uniprot、文献等公开的蛋白质数据库和资料,获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息。其中,抗原及抗体的拓扑结构信息可包括蛋白中氨基酸的空间结构,如α螺旋、β折叠、氨基酸相对位置、氨基酸序列等,抗原抗体相互作用的知识图谱信息可包括抗原抗体的相互作用关系、亲和力强弱等,这里不进行限定。
考虑到抗体对抗原的中和效率是直接由抗体、抗原的拓扑结构决定,这里样本集可以包括基于拓扑结构信息和知识图谱信息确定的正样本和负样本,其中,正样本为存在中和作用的抗原抗体对,负样本为不存在中合作用的抗原抗体对。
可以理解的是,上述公开的蛋白质数据和资料可通过医疗云获取,医疗云(Medical cloud),是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上,结合医疗技术,使用“云计算”来创建医疗健康服务云平台,实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用于结合,医疗云提高医疗机构的效率,方便居民就医。像现在医院的预约挂号、电子病历、医保等都是云计算与医疗领域结合的产物,医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。
在本发明实施例中,执行主体可以为基于机器学习的抗体筛选装置,具体应用在医疗平台的服务器端,可充分利用抗原以及抗体的拓扑结构信息、抗原抗体相互作用的知识图谱信息,将其应用于单克隆广谱中和抗体的筛选,由于引入了拓扑结构信息,使得特征提取更加符合抗原抗体自身特性、可在更短时间内实现精准筛选,由于引入了知识图谱信息,可实现抗原抗体的氨基酸结合位点一一揭示,提高抗体筛选过程的可解释性。
上述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
102、利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型,构建可感知分子结构与知识图谱特征的抗体预测模型。
其中,网络模型为具有单克隆高广谱中和抗体预测的功能,用于感知抗体抗原的氨基酸结合位点,并根据氨基酸结合位点输出抗体的氨基酸序列信息。具体可使用基于图神经网络方法改进后的基于结构和知识的多重生成图神经网络模型SK-MGGCN(Structureand Knowledge based Multi-GenerativeGraph Convolutional Network),SK-MGGCN作为基于图神经网络改进后的自创模型,可包括两个子模型:基于结构和知识的图神经网络模型SK-GCN和基于结构的生成图神经网络模型S-GGCN。SK-GCN的目的在于输入给定抗原的拓扑结构,设计输出对抗原具有高效中和活性的抗体拓扑结构;S-GG CN的目的是根据SK-GCN生成的针对某抗原的中和抗体的拓扑结构,生成该中和抗体的氨基酸序列。
具体利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型的过程中,需要分别针对两个子模型进行训练,首先利用样本集训练基于结构和知识的图神经网络模型SK-GCN,提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构,然后利用中和抗体拓扑结构训练基于结构的生成图神经网络模型S-GGCN,生成中和抗体的氨基酸序列信息。进一步若基于结构和知识的图神经网络模型SK-GCN和基于结构的生成图神经网络模型S-GGCN均通过训练,可判定单克隆广谱中和抗体预测过程完成训练,构建抗体预测模型。
103、响应于针对目标抗原进行目标抗体筛选的指令,将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型,得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。
可以理解的是,训练后的抗体预测模型,可充分利用抗原及抗体的拓扑结构信息,用于新型单克隆广谱中和抗体的预测,具体通过将图神经网络和多重生成模型相结合,可提取对给定抗原具有高效中和活性的中和抗体拓扑结构,进一步根据中和抗体拓扑结构输出中和抗体的氨基酸序列信息作为预测结果,该预测结果不仅停留在抗体预测水平,还能提示生物学机理,实现更深一层的预测,提高模型的可解释性。
本发明实施例提供的一种基于机器学习的抗体筛选方法,通过获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息,并基于拓扑结构信息以及所述知识图谱信息构建样本集,然后利用包含拓扑结构信息以及知识图谱信息的样本集以有向传递方式训练网络模型,构建可感知分子结构与知识图谱特征的抗体预测模型,该抗体预测模型用于感知抗体抗原的氨基酸结合位点,并根据氨基酸结合位点输出抗体的氨基酸序列信息,响应于针对目标抗原进行目标抗体筛选的指令,将待预测目标抗原的氨基酸序列和拓扑结构信息输入至抗体预测模型,得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。与现有技术中基于深度学习所构建的抗体库对抗体进行筛选的方式相比,本申请中利用拓扑结构信息和知识图谱信息作为中和抗体的预测发现,能够学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征,并准确定位到抗原与抗体结合的具体氨基酸位点,提高抗体的筛选效果。
本发明实施例提供了另一种基于机器学习的抗体筛选方法,通过学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征,并作为中和抗体的预测发现,提高抗体的筛选效果,如图2所示,所述方法包括:
201、预先通过不同渠道发布的蛋白质数据库获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息。
可以理解的是,由于抗原及抗体通常为蛋白质,蛋白质数据库作为生物信息许可的数据共享平台,包含有常用蛋白质信息,具体存储有分子结构定性描述、样品来源、表达载体、宿主、化学分析方法、分子结构组成成分等。
这里抗原及抗体的拓扑结构信息相当于蛋白质的拓扑结构,具体表征为蛋白质中氨基酸的空间结构,抗原抗体相互作用的知识图谱信息相当于抗原与抗体之间所发生相互作用的反应,这种反应既可以在机体内进行,也可以在机体外进行,具体表征为抗原抗体结合的特异性、可逆性以及反应中量的关系等。
202、基于所述拓扑结构信息和所述知识图谱信息,将存在中和作用的抗原和抗体作为正样本,将不存在中和作用的抗原和抗体作为负样本,根据所述正样本和所述负样本构建样本集。
为了准确筛选出对抗原具有中和作用的抗体,这里可以利用拓扑结构信息和知识图谱信息来检测抗原抗体是否存在中和作用,存在中和作用的抗体相当于中和抗体,是一种特殊的抗体,可以与细菌病毒、病原体及其产物特异性结合并发挥中和作用。
通常情况下,在病毒感染过程中,大多数抗体是普通的结合抗体,这些抗体通过与抗原结合,向T淋巴细胞发出该抗原已被锁定的信号,激发细胞免疫反应,并进一步摧毁病毒,而中和抗体与病毒结合后,可以直接阻断病毒的进一步感染,这一功能不需要通过激活T淋巴细胞系统即可完成,因此,这里可通过抗体的拓扑结构信息来判断抗体在病毒感染过程中是否需要通过激活T淋巴细胞系统,如果需要,则判定为普通的结合抗体,如果不需要,则判定为中和抗体。
203、利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型,提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构。
其中,第一子模型为基于结构和知识的图神经网络模型,具体包括结构特征编码模块和抗原抗体结合关系预测模块。这里结构特征编码模块的图网络中,节点为氨基酸,边为氨基酸的相对位置,原抗体结合关系预测模块的图网络中,节点为抗原或抗体,边为抗原和抗体之间的相互作用,边的权重为结合的亲和力(或概率)。
具体训练第一子模型的过程中,可以利用结构特征编码模块对拓扑结构信息进行编码,分别得到抗原和抗体拓扑结构的第一低维特征向量,然后利用抗原抗体结合关系预测模块对知识图谱信息进行预测,得到反映抗原与抗体之间的相互作用的第二低维特征向量,并根据第一低维特征向量和所述第二低维特征向量,确定对任一抗原具有高效中和活性的中和抗体拓扑结构。
具体在确定对任一抗原具有高效中和活性的中和抗体拓扑结构过程中,可以首先根据第二低维特征向量,确定对任一抗原具有高效中和活性的中和抗体,然后根据第一低维特征向量,提取对任一抗原具有高效中和活性的中和抗体拓扑结构。
在实际应用场景中,可首先利用结构特征编码模块以有向消息传递的方法,对抗原和抗体的拓扑结构进行编码,分别得到抗原和抗体拓扑结构对应拓扑结构特征向量;进一步地,可利用抗原抗体结合关系预测模块对抗原和抗体之间的相互作用(结合亲和力大小、结合的氨基酸位点)进行预测,得到知识图谱特征向量,最后,可根据知识图谱特征向量确定与抗原有高效中和活性的中和抗体,进而基于拓扑结构特征向量即可提取出该中和抗体的拓扑结构。
204、根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型,输出中和抗体的氨基酸序列。
其中,第二子模型为基于结构的生成图神经网络模型,具体包括卷积模块和聚合模块。这里第二子模型的节点为氨基酸,边为氨基酸的相对位置。输入是一组节点属性和一组描述节点对之间相互作用的边缘属性
具体训练第二子模型的过程中,可以将中和抗体拓扑结构以及针对中和抗体拓扑结构配置的氨基酸序列标签生成节点属性和描述节点对之间相互作用的边属性后串联输入至卷积模块和聚合模块,该节点属性表征氨基酸,边属性表征氨基酸的相对位置,然后利用卷积模块和聚合模块更新边属性和所述节点属性,并使用分类函数作为输出表征氨基酸的激活函数,输出中和抗体的氨基酸序列。
为了进一步保证第二子模型的训练效果,还可以在使用分类函数作为输出表征氨基酸的激活函数,输出中和抗体的氨基酸序列之后,利用中和抗体的氨基酸序列与针对中和抗体拓扑结构配置的氨基酸序列标签计算交叉熵损失函数,若交叉熵损失函数达到收敛状态,或交叉熵损失函数输出的损失值小于预设数值,则判定第二子模型训练完成。
在实际应用场景中,可为抗体拓扑结构配置氨基酸序列标签,将中和抗体拓扑结构和氨基酸序列标签作为第二子模型的输入,将氨基酸序列预测结果作为输出。具体在第二子网络中,可以将节点和边属性嵌入在使用线性变换的m维空间或多层感知器,所生成的节点和边的第一低维特征向量被传入N个节点与边的卷积模块和聚合模块,在卷积模块中,使用一个改进的边卷积层来更新边属性,它将节点和边属性的串联作为输入,并返回对边属性的更新,所用的神经网络结构是注意力层,最后使用分类函数作为输出节点的激活函数,生成节点标签,即抗体的氨基酸序列。
可以理解的是,这里在第二子模型训练过程中,可同时用边和节点来更新节点的特征,相比于仅采用邻近节点信息更新节点特征的方式,本申请中网络模型能够提取到更丰富的图网络信息,提高网络模型的预测性能和效率。
205、将所述中和抗体的氨基酸序列作为预测结果,构建可感知分子结构与知识图谱特征的抗体预测模型。
可以理解的是,第一子模型和第二子模型作为构建抗体预测模型所需的两个网络模型,可以使用设置的损失函数判定是否通过训练,若均通过训练,则判定抗体预测模型训练完成,可实际应用于中和抗体筛选的场景。
206、响应于针对目标抗原进行目标抗体筛选的指令,将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型,得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。
本申请通过改进图神经网络方法,构建抗体预测模型,可充分利用抗原抗体拓扑结构信息和知识图谱信息,用于新型单克隆广谱中和抗体的设计,并提高模型准确度、效率,增加模型可解释性。该模型结构超越了现有用于构建抗体库的时序神经网络和对抗网络,在图神经网络的基础上,增加了基于知识的抗体结构生成功能和氨基酸序列生成功能。由于使用了抗原抗体拓扑结构信息和知识图谱,使得特征提取更加符合抗原抗体自身性质、可在更短时间内实现更精准的设计,由于知识图谱的引入,且可实现抗原抗体的氨基酸结合位点的一一揭示,并通过边的权重对抗原抗体相互作用力强弱进行量化解释,而提高了模型可解释性。
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种基于机器学习的抗体筛选装置,如图3所示,所述装置包括:获取单元31、构建单元32、筛选单元33。
获取单元31,可以用于获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息,并基于所述拓扑结构信息以及所述知识图谱信息构建样本集;
构建单元32,可以用于利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型,构建可感知分子结构与知识图谱特征的抗体预测模型,所述抗体预测模型用于感知抗体抗原的氨基酸结合位点,并根据所述氨基酸结合位点输出抗体的氨基酸序列信息;
筛选单元33,可以用于响应于针对目标抗原进行目标抗体筛选的指令,将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型,得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。
本发明实施例提供的一种基于机器学习的抗体筛选装置,通过获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息,并基于拓扑结构信息以及所述知识图谱信息构建样本集,然后利用包含拓扑结构信息以及知识图谱信息的样本集以有向传递方式训练网络模型,构建可感知分子结构与知识图谱特征的抗体预测模型,该抗体预测模型用于感知抗体抗原的氨基酸结合位点,并根据氨基酸结合位点输出抗体的氨基酸序列信息,响应于针对目标抗原进行目标抗体筛选的指令,将待预测目标抗原的氨基酸序列和拓扑结构信息输入至抗体预测模型,得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。与现有技术中基于深度学习所构建的抗体库对抗体进行筛选的方式相比,本申请中利用拓扑结构信息和知识图谱信息作为中和抗体的预测发现,能够学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征,并准确定位到抗原与抗体结合的具体氨基酸位点,提高抗体的筛选效果。
作为图3中所示基于机器学习的抗体筛选装置的进一步说明,图4是根据本发明实施例另一种基于机器学习的抗体筛选装置的结构示意图,如图4所示,所述获取单元31包括:
获取模块311,可以用于预先通过不同渠道发布的蛋白质数据库获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息;
第一构建模块312,可以用于基于所述拓扑结构信息和所述知识图谱信息,将存在中和作用的抗原和抗体作为正样本,将不存在中和作用的抗原和抗体作为负样本,根据所述正样本和所述负样本构建样本集。
在具体应用场景中,如图4所示,所述网络模型为基于图神经网络方法改进后的基于结构和知识的多重生成图神经网络模型,包括基于结构和知识图神经网络的第一子模型和基于结构生成图神经网络的第二子模型,所述构建单元32包括:
第一训练模块321,可以用于利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型,提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构;
第二训练模块322,可以用于根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型,输出中和抗体的氨基酸序列;
第二构建模块323,可以用于将所述中和抗体的氨基酸序列作为预测结果,构建可感知分子结构与知识图谱特征的抗体预测模型。
在具体应用场景中,如图4所示,所述第一子模型包括结构特征编码模块和抗原抗体结合关系预测模块,所述第一训练模块321包括:
编码子模块3211,可以用于利用所述结构特征编码模块对所述拓扑结构信息进行编码,分别得到抗原和抗体拓扑结构的第一低维特征向量;
预测子模块3212,可以用于利用所述抗原抗体结合关系预测模块对所述知识图谱信息进行预测,得到反映抗原与抗体之间的相互作用的第二低维特征向量;
确定子模块3213,可以用于根据所述第一低维特征向量和所述第二低维特征向量,确定对任一抗原具有高效中和活性的中和抗体拓扑结构。
在具体应用场景中,所述确定子模块3213,具体可以用于根据所述第二低维特征向量,确定对任一抗原具有高效中和活性的中和抗体;
所述确定子模块3213,具体还可以用于根据所述第一低维特征向量,提取对任一抗原具有高效中和活性的中和抗体拓扑结构。
在具体应用场景中,如图4所示,所述第二子模型包括卷积模块和聚合模块,所述第二训练模块322包括:
生成子模块3221,可以用于将所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签生成节点属性和描述节点对之间相互作用的边属性后串联输入至卷积模块和聚合模块,所述节点属性表征氨基酸,所述边属性表征氨基酸的相对位置;
更新子模块3222,可以用于利用所述卷积模块和聚合模块更新所述边属性和所述节点属性;
输出子模块3223,可以用于使用分类函数作为输出表征氨基酸的激活函数,输出中和抗体的氨基酸序列。
在具体应用场景中,如图4所示,所述第二训练模块322还包括:
计算子模块3224,可以用于在所述使用分类函数作为输出表征氨基酸的激活函数,输出中和抗体的氨基酸序列之后,利用所述中和抗体的氨基酸序列与针对所述中和抗体拓扑结构配置的氨基酸序列标签计算交叉熵损失函数;
判定子模块3225,可以用于若所述交叉熵损失函数达到收敛状态,或所述交叉熵损失函数输出的损失值小于预设数值,则判定所述第二子模型训练完成。
需要说明的是,本实施例提供的一种基于机器学习的抗体筛选装置所涉及各功能单元的其他相应描述,可以参考图1、图2中的对应描述,在此不再赘述。
基于上述如图1、图2所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1、图2所示的基于机器学习的抗体筛选方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2所示的方法,以及图3、图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1、图2所示的基于机器学习的抗体筛选方法
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的基于机器学习的抗体筛选装置的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有技术相比,本申请利用拓扑结构信息和知识图谱信息作为中和抗体的预测发现,能够学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征,并准确定位到抗原与抗体结合的具体氨基酸位点,提高抗体的筛选效果。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (7)
1.一种基于机器学习的抗体筛选方法,其特征在于,所述方法包括:
获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息,并基于所述拓扑结构信息以及所述知识图谱信息构建样本集;
利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型,构建可感知分子结构与知识图谱特征的抗体预测模型,所述抗体预测模型用于感知抗体抗原的氨基酸结合位点,并根据所述氨基酸结合位点输出抗体的氨基酸序列信息;
响应于针对目标抗原进行目标抗体筛选的指令,将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型,得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息;
所述网络模型为基于图神经网络方法改进后的基于结构和知识的多重生成图神经网络模型,包括基于结构和知识图神经网络的第一子模型和基于结构生成图神经网络的第二子模型,具体利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型,提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构;根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型,输出中和抗体的氨基酸序列;将所述中和抗体的氨基酸序列作为预测结果,构建可感知分子结构与知识图谱特征的抗体预测模型;
所述第一子模型包括结构特征编码模块和抗原抗体结合关系预测模块,具体利用所述结构特征编码模块对所述拓扑结构信息进行编码,分别得到抗原和抗体拓扑结构的第一低维特征向量;利用所述抗原抗体结合关系预测模块对所述知识图谱信息进行预测,得到反映抗原与抗体之间的相互作用的第二低维特征向量;根据所述第一低维特征向量和所述第二低维特征向量,确定对任一抗原具有高效中和活性的中和抗体拓扑结构;
所述第二子模型包括卷积模块和聚合模块,具体将所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签生成节点属性和描述节点对之间相互作用的边属性后串联输入至卷积模块和聚合模块,所述节点属性表征氨基酸,所述边属性表征氨基酸的相对位置;利用所述卷积模块和聚合模块更新所述边属性和所述节点属性;使用分类函数作为输出表征氨基酸的激活函数,输出中和抗体的氨基酸序列。
2.根据权利要求1所述的方法,其特征在于,所述获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息,并基于所述拓扑结构信息以及所述知识图谱信息构建样本集,具体包括:
预先通过不同渠道发布的蛋白质数据库获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息;
基于所述拓扑结构信息和所述知识图谱信息,将存在中和作用的抗原和抗体作为正样本,将不存在中和作用的抗原和抗体作为负样本,根据所述正样本和所述负样本构建样本集。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一低维特征向量和所述第二低维特征向量,确定对任一抗原具有高效中和活性的中和抗体拓扑结构,具体包括:
根据所述第二低维特征向量,确定对任一抗原具有高效中和活性的中和抗体;
根据所述第一低维特征向量,提取对任一抗原具有高效中和活性的中和抗体拓扑结构。
4.根据权利要求1所述的方法,其特征在于,在所述使用分类函数作为输出表征氨基酸的激活函数,输出中和抗体的氨基酸序列之后,所述方法还包括:
利用所述中和抗体的氨基酸序列与针对所述中和抗体拓扑结构配置的氨基酸序列标签计算交叉熵损失函数;
若所述交叉熵损失函数达到收敛状态,或所述交叉熵损失函数输出的损失值小于预设数值,则判定所述第二子模型训练完成。
5.一种基于机器学习的抗体筛选装置,其特征在于,所述装置包括:
获取单元,用于获取抗原及抗体的拓扑结构信息,以及抗原抗体相互作用的知识图谱信息,并基于所述拓扑结构信息以及所述知识图谱信息构建样本集;
构建单元,用于利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型,构建可感知分子结构与知识图谱特征的抗体预测模型,所述抗体预测模型用于感知抗体抗原的氨基酸结合位点,并根据所述氨基酸结合位点输出抗体的氨基酸序列信息;
筛选单元,用于响应于针对目标抗原进行目标抗体筛选的指令,将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型,得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息;
所述网络模型为基于图神经网络方法改进后的基于结构和知识的多重生成图神经网络模型,包括基于结构和知识图神经网络的第一子模型和基于结构生成图神经网络的第二子模型,所述构建单元包括:第一训练模块,用于利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型,提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构;第二训练模块,用于根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型,输出中和抗体的氨基酸序列;第二构建模块,用于将所述中和抗体的氨基酸序列作为预测结果,构建可感知分子结构与知识图谱特征的抗体预测模型;
所述第一子模型包括结构特征编码模块和抗原抗体结合关系预测模块,所述第一训练模块包括:编码子模块,用于利用所述结构特征编码模块对所述拓扑结构信息进行编码,分别得到抗原和抗体拓扑结构的第一低维特征向量;预测子模块,用于利用所述抗原抗体结合关系预测模块对所述知识图谱信息进行预测,得到反映抗原与抗体之间的相互作用的第二低维特征向量;确定子模块,用于根据所述第一低维特征向量和所述第二低维特征向量,确定对任一抗原具有高效中和活性的中和抗体拓扑结构;
所述第二子模型包括卷积模块和聚合模块,所述第二训练模块包括:生成子模块,用于将所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签生成节点属性和描述节点对之间相互作用的边属性后串联输入至卷积模块和聚合模块,所述节点属性表征氨基酸,所述边属性表征氨基酸的相对位置;更新子模块,用于利用所述卷积模块和聚合模块更新所述边属性和所述节点属性;输出子模块,用于使用分类函数作为输出表征氨基酸的激活函数,输出中和抗体的氨基酸序列。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111131429.0A CN113808664B (zh) | 2021-09-26 | 2021-09-26 | 基于机器学习的抗体筛选方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111131429.0A CN113808664B (zh) | 2021-09-26 | 2021-09-26 | 基于机器学习的抗体筛选方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113808664A CN113808664A (zh) | 2021-12-17 |
CN113808664B true CN113808664B (zh) | 2024-03-19 |
Family
ID=78938771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111131429.0A Active CN113808664B (zh) | 2021-09-26 | 2021-09-26 | 基于机器学习的抗体筛选方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113808664B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114822696B (zh) * | 2022-04-29 | 2023-04-18 | 北京深势科技有限公司 | 基于注意力机制的抗体非定序预测方法和装置 |
CN115116548A (zh) * | 2022-05-05 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备、介质及程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582694A (zh) * | 2020-04-29 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种学习评估方法及装置 |
CN112037912A (zh) * | 2020-09-09 | 2020-12-04 | 平安科技(深圳)有限公司 | 基于医疗知识图谱的分诊模型训练方法、装置及设备 |
CN112084383A (zh) * | 2020-09-07 | 2020-12-15 | 中国平安财产保险股份有限公司 | 基于知识图谱的信息推荐方法、装置、设备及存储介质 |
CN112131402A (zh) * | 2020-09-14 | 2020-12-25 | 刘容恺 | 一种基于蛋白质家族聚类的ppi知识图谱表示学习方法 |
CN112242187A (zh) * | 2020-10-26 | 2021-01-19 | 平安科技(深圳)有限公司 | 基于知识图谱表征学习的医疗方案推荐系统及方法 |
CN113053457A (zh) * | 2021-03-25 | 2021-06-29 | 湖南大学 | 一种基于多通路图卷积神经网络的药物靶标预测方法 |
CN113299338A (zh) * | 2021-06-08 | 2021-08-24 | 上海科技大学 | 基于知识图谱的合成致死基因对预测方法、系统、终端及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737758B (zh) * | 2018-07-03 | 2022-07-05 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
-
2021
- 2021-09-26 CN CN202111131429.0A patent/CN113808664B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582694A (zh) * | 2020-04-29 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种学习评估方法及装置 |
CN112084383A (zh) * | 2020-09-07 | 2020-12-15 | 中国平安财产保险股份有限公司 | 基于知识图谱的信息推荐方法、装置、设备及存储介质 |
CN112037912A (zh) * | 2020-09-09 | 2020-12-04 | 平安科技(深圳)有限公司 | 基于医疗知识图谱的分诊模型训练方法、装置及设备 |
CN112131402A (zh) * | 2020-09-14 | 2020-12-25 | 刘容恺 | 一种基于蛋白质家族聚类的ppi知识图谱表示学习方法 |
CN112242187A (zh) * | 2020-10-26 | 2021-01-19 | 平安科技(深圳)有限公司 | 基于知识图谱表征学习的医疗方案推荐系统及方法 |
CN113053457A (zh) * | 2021-03-25 | 2021-06-29 | 湖南大学 | 一种基于多通路图卷积神经网络的药物靶标预测方法 |
CN113299338A (zh) * | 2021-06-08 | 2021-08-24 | 上海科技大学 | 基于知识图谱的合成致死基因对预测方法、系统、终端及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113808664A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175527B (zh) | 行人再识别方法及装置、计算机设备及可读介质 | |
CN110781765B (zh) | 一种人体姿态识别方法、装置、设备及存储介质 | |
CN112364880B (zh) | 基于图神经网络的组学数据处理方法、装置、设备及介质 | |
CN113808664B (zh) | 基于机器学习的抗体筛选方法及装置 | |
JP2022505775A (ja) | 画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム | |
CN110837550A (zh) | 基于知识图谱的问答方法、装置、电子设备及存储介质 | |
CN111816252A (zh) | 一种药物筛选方法、装置及电子设备 | |
CN111950596A (zh) | 一种用于神经网络的训练方法以及相关设备 | |
WO2024041479A1 (zh) | 一种数据处理方法及其装置 | |
JP2023545423A (ja) | 点群分割方法、装置、機器および記憶媒体 | |
CN110232444B (zh) | 地质监测bp神经网络的优化方法、装置、设备及存储介质 | |
CN113470741B (zh) | 药物靶标关系预测方法、装置、计算机设备及存储介质 | |
CN114464247A (zh) | 基于抗原和抗体序列的结合亲和力预测方法和装置 | |
CN113707309A (zh) | 基于机器学习的疾病预测方法及装置 | |
CN111950702A (zh) | 一种神经网络结构确定方法及其装置 | |
CN112151128A (zh) | 相互作用信息的确定方法、装置、设备及存储介质 | |
CN112420125A (zh) | 分子属性预测方法、装置、智能设备和终端 | |
CN114334036A (zh) | 一种模型训练的方法、相关装置、设备以及存储介质 | |
CN114283899A (zh) | 一种训练分子结合模型的方法、分子筛选方法及装置 | |
Li et al. | Genetic algorithm search space splicing particle swarm optimization as general-purpose optimizer | |
CN114565092A (zh) | 一种神经网络结构确定方法及其装置 | |
US20240079098A1 (en) | Device for predicting drug-target interaction by using self-attention-based deep neural network model, and method therefor | |
CN113570044A (zh) | 客户流失分析模型训练方法及装置 | |
Ramachandran et al. | Deep learning for better variant calling for cancer diagnosis and treatment | |
Halder et al. | ccLoopER: Deep Prediction of C TCF and c ohesin Mediated Chromatin loop ing Using DNA Transform er Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |