CN113807468A - 基于多模态深度编码的hla抗原呈递预测方法和系统 - Google Patents

基于多模态深度编码的hla抗原呈递预测方法和系统 Download PDF

Info

Publication number
CN113807468A
CN113807468A CN202111205908.2A CN202111205908A CN113807468A CN 113807468 A CN113807468 A CN 113807468A CN 202111205908 A CN202111205908 A CN 202111205908A CN 113807468 A CN113807468 A CN 113807468A
Authority
CN
China
Prior art keywords
data
features
model
feature
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111205908.2A
Other languages
English (en)
Other versions
CN113807468B (zh
Inventor
方榯楷
费才溢
徐实
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Chengshi Biomedical Technology Co ltd
Original Assignee
Nanjing Chengshi Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Chengshi Biotechnology Co ltd filed Critical Nanjing Chengshi Biotechnology Co ltd
Priority to CN202111205908.2A priority Critical patent/CN113807468B/zh
Publication of CN113807468A publication Critical patent/CN113807468A/zh
Application granted granted Critical
Publication of CN113807468B publication Critical patent/CN113807468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Abstract

本发明公开了一种基于多模态深度编码的HLA抗原呈递预测方法,包括:1)采用多种不同的深度神经网络来编码已知序列信息2)引入已有的文献与计算工具计算亲和力指数3)多模态特征融合得到预测分数并进行预测。不同于以往的仅基于生物实验或亲和力指数预测的方法,本系统方案能高效地融合多模态信息,进行更加准确高效的预测。且在处理不同方法负样本,处理数据不平衡的模块上有灵活的拓展性,能够更好适应真实的药物研发生产环境。

Description

基于多模态深度编码的HLA抗原呈递预测方法和系统
技术领域
本发明涉及生物信息学领域,尤其涉及一种基于深度编码与多模态融合的预测HLA新生抗原呈递效果的方法和系统。
背景技术
人类白细胞抗原(human leukocyte antigen,缩写为HLA),是编码人类的主要组织相容性复合体(MHC)的基因,与人类的免疫系统功能密切相关。其中部分基因编码细胞表面抗原,成为每个人的细胞不可混淆的“特征”,是免疫系统区分自身和异体物质的基础。HLA基因高度多态化,存在许多不同的等位基因,从而细致调控后天免疫系统。其中有两类,第一类MHC处理细胞内部被分解后的蛋白质(例如病毒的)、第二类当外部入侵者经过胞吞并利用溶酶体处理后形成碎片,MHC再跟这些碎片结合,并呈现在细胞表面上供T细胞所辨识。它们与人类的免疫系统功能密切相关。其中部分基因编码细胞表面抗原,成为每个人的细胞不可混淆的“特征”,是免疫系统区分本身和异体物质的基础。
利用HLA呈递原理的癌症疫苗是当今医学与药物学的热点问题。肿瘤疫苗教导免疫系统将传染性病原体或癌细胞识别为需要消除的外来物质。癌细胞表面存在特殊的蛋白质,通过靶向这些蛋白质,免疫系统可以特异性地消除癌细胞,同时不伤害正常的细胞。此外,疫苗还能防止癌症复发,清除治疗后残留的癌细胞。肿瘤疫苗的分类方法有很多种,依据治疗原理可以划分为预防性和治疗性疫苗两大类,治疗性肿瘤疫苗还可以依据靶点类型和疫苗成药载体的不同进行划分。
其中以mRNA作为载体的治疗性肿瘤疫苗有以下几点突出优势:(1)mRNA可以同时编码多种抗原,具有MHCI和MHCII结合表位的完整蛋白质,以促进体液和细胞适应性免疫反应,提供更强化的抗肿瘤免疫力。(2)与DNA疫苗相比,mRNA疫苗是非整合的,高度可降解的,没有插入诱变潜力。(3)与蛋白质或细胞介导的疫苗相比,mRNA的IVT产生不含细胞和致病性病毒成分,没有感染可能性,正在进行临床试验测试的大多数mRNA疫苗通常具有良好的耐受性,罕有注射部位反应。(4)mRNA癌症疫苗的另一个优点是快速和可扩展的制造。
在疫苗接种期间,裸露或载体负载的mRNA疫苗在抗原呈递细胞(APC)中有效表达肿瘤HLA抗原,促进APC活化和先天/适应性免疫刺激。mRNA疫苗应用受到不稳定性、先天免疫原性和体内递送效率低的限制。目前已经研究了适当的mRNA结构修饰(如密码子优化、核苷酸修饰、自扩增mRNA等)和配制方法(脂质纳米颗粒(LNP)、聚合物、肽等)以克服这些问题。由于具有高效、安全、快速响应和生产成本低的优势,mRNA癌症疫苗是最有发展前景的治疗性肿瘤疫苗技术路线之一。
随着两种用于预防COVID-19的mRNA-LNP疫苗获得批准,mRNA技术路线的可行性和优势已经得到了广泛的认可,并且随着资本的关注以及越来越多的研究人员的参与,mRNA疫苗乃至mRNA药物开发正在经历相当大的爆发式发展。其中一个关键的核心技术点,就是预测mRNA疫苗的核心靶标:新生抗原(Neoantigen)的肿瘤特异性抗原TSA。Neoantigen来源于肿瘤细胞中的随机体细胞突变,不存在于正常细胞中。Neoantigen可被宿主免疫系统识别为“非自身”的序列,引发强烈的免疫反应。预测个性化HLA新生抗原(Neoantigen)疫苗的主要步骤如下:
(1)鉴定和确认在患者肿瘤中表达的具有特异性免疫原性非同义体细胞突变。对肿瘤组织进行活组织检查以进行全外显子组或转录组测序。可以通过比较肿瘤和匹配的健康组织的序列来鉴定肿瘤的非同义体细胞突变,例如点突变和插入缺失、读码框偏移、。
(2)使用主要组织相容性复合物(MHC)I和II类表位预测算法筛选,分析和鉴定具有最高抗原呈递可能性的突变。
(3)基于体外结合测定结果进一步证实候选抗原的排序列表。
步骤(2)中涉及HLA新生抗原呈递预测问题,目前在该领域尚未出现公认完全有效、具有普适性的预测算法,这也是Neoantigen疫苗开发的核心难点。随着人工智能技术在生物信息学中的广泛应用,已经有领域内学者开始尝试利用数据驱动的机器学习方法,快速发现、预测与筛选可用的新生免疫抗原靶点。
其中代表性的工作与技术有,美国杜克大学的NetHMCPan系列的工作(参考文献:Jurtz,Vanessa,et al."NetMHCpan-4.0:improved peptide–MHC class I interactionpredictions integrating eluted ligand and peptide binding affinity data."TheJournal of Immunology 199.9(2017):3360-3368,Reynisson,Birkir,et al."NetMHCpan-4.1and NetMHCIIpan-4.0:improved predictions of MHC antigenpresentation by concurrent motif deconvolution and integration of MS MHCeluted ligand data."Nucleic acids research 48.W1(2020):W449-W454.)采用多层感知机模型预测洗脱配体与MHC抗原结合的亲和力指数,为后续一系列预测模型提供了新的数据特征;丹麦科技大学团队的工作(参考文献:Reynisson,Birkir,et al."Improvedprediction of MHC II antigen presentation through integration and motifdeconvolution of mass spectrometry MHC eluted ligand data."Journal ofproteome research 19.6(2020):2304-2315.)基于洗脱配体数据与基序列的反卷积模型集合来预测MHC II类抗原的预测;美国北卡教堂山大学的团队的工作(参考文献:Smith CC,Chai S,Washington A R,et al.Machine-learning prediction of tumor antigenimmunogenicity in the selection of therapeutic epitopes[J].Cancer immunologyresearch,2019,7(10):1591-1604.)基于免疫原多表位选择的MHC抗原预测模型;美国斯坦福大学的基于深度网络集合的MHCII抗原预测模型MARIA(参考文献:Chen,Binbin,et al."Predicting HLA class II antigen presentation through integrated deeplearning."Nature biotechnology 37.11(2019):1332-1343.Reynisson,Birkir,et al."NetMHCpan-4.1and NetMHCIIpan-4.0:improved predictions of MHC antigenpresentation by concurrent motif deconvolution and integration of MS MHCeluted ligand data."Nucleic acids research 48.W1(2020):W449-W454.),其首次采用深度循环网络来编码HLA抗原多肽序列,比一般的机器学习模型进一步提高了解码复杂数据的能力。
但以上提到的现有主流HLA新生抗原呈递预测方法,往往只基于随机生成阴性训练集、多肽序列、洗脱配体的质谱数据等相关特征、亲和力指数等比较少的特征群,并加以简单的机器学习或深度学习模型。单一化的数据模态与较为简单使其无法充分利用生物信息大数据所蕴含的多模态信息。从实用角度来看,这些方法多受限于特定的小规模数据与研究平台,可拓展性较差,未将HLA新生抗原呈递预测形成一个完整可用的系统。
发明内容
本发明针对背景技术中存在的问题,提出了一种基于多模态深度编码的HLA抗原呈递预测方法和系统。
技术方案:
本发明首先公开了一种基于多模态深度编码的HLA抗原呈递预测方法,它包括以下步骤:
S1、使用全局最大差异打分矩阵生成负样本训练集;
S2、特征选择:选定与HLA抗原呈递相关的特征,作为待融合特征;
S3、归一化处理:设置隐嵌入维度作为不同待融合特征的最终输入维度,将S1中获取的待融合特征进行变换和尺度缩放,获得标准特征;
S4、特征融合:将维度相同的标准特征作线性融合操作,融合后的特征向量/矩阵输入深度神经网络,进行非线性变换与融合,获得表达HLA抗原呈递的最终特征分数;
S5、构建预测模型:特征融合,构建包含最终特征分数的预测模型和优化模型;
S6、求解优化模型,获得最优参数的预测模型;
S7、使用最优参数的预测模型进行HLA抗原呈递预测。
优选的,根据S2中特征选择的不同,S3中选定相应的归一化处理方案,以获取格式、维度统一,便于融合的特征向量;具体为:
-长序列特征,使用随机矩阵将其每个氨基酸编码到可学习的到隐空间,再利用长短记忆循环神经网络进行处理;
-短序列特征,利用独热方法进行编码,编码后的序列送入多层感知机网络模型进行变换;
-向量特征,采用主成分分解PCA进行编码,将所有数据的向量形式的特征组合成特征矩阵,应用主成分分解进行矩阵分解;根据隐嵌入维度选择特定数目的矩阵特征向量作编码变换;
-标量特征,采用多维尺度放缩,高斯核方法进行编码:将所有数据的标量形式的特征作为高斯核的输入,得到高斯核的协方差矩阵;将矩阵的各列进行多维尺度放缩,得到编码变换的特征向量。
优选的,S1中负样本的生成为:使用来自于使用窗口滑动的方法,根据预设的参数阈值,生成阴性序列并使用全局差异打分矩阵筛选生成的序列片段,获得非随机生成的阴性训练集。
优选的,S2中待融合特征选择为:多肽序列特征、上下游序列特征、呈递亲和力特征。
具体的,S3中:
多肽序列特征通过以下方法获得标准特征:对于给定多肽肽链氨基酸序列,使用随机矩阵将其每个氨基酸编码到可学习的到隐空间,再利用长短记忆循环神经网络进行处理得到多肽序列特征;进行随机矩阵编码映射后,根据所有数据中最长肽链序列的长度进行补长,以保证编码与映射模型的参数保持一致;
上下游序列特征通过以下方法获得标准特征:对于给定基因上下游肽链,利用独热方法进行编码,编码后的上下游序列进行裁剪得到定长的序列,此编码序列送入多层感知机网络模型进行变换,提取特征作为上下游序列特征;
呈递亲和力特征通过尺度缩放获得标准特征,以保证模型训练优化过程的数值稳定性。
作为一种实施方式,呈递亲和力特征的尺度变化公式为:
1-log50(kd)
式中,kd表示原始亲和力指数的单位。
作为另一种实施方式,呈递亲和力特征的尺度变化公式为:
Figure BDA0003306829490000051
式中,kd表示原始亲和力指数的单位。
优选的,S4特征融合中,所述线性融合操作包括点乘、或加和、或组合成特征矩阵。
具体的,S5中构建优化模型:
Figure BDA0003306829490000052
式中,fwf是含可学习参数的预测模型;
W表示该模型中可学习参数,包括各融合特征获取时方案权重;wn表示对不同样本的损失函数所赋予权重;N表示样本总数;
xn表示输入的特定数据,yn是训练数据中是否呈递结合的真实值,o’是S逻辑函数,非简单加和,模型公式捕捉了潜在的复杂关系。
优选的,S6中求解优化模型:多次遍历所有训练数据,利用基于随机梯度优化方法的优化器进行优化,得到最优的模型参数,获得预测模型fW。
优选的,采用多策略(所述多策略指负样本和正样本的不同比例)生成负样本构建训练数据数据集,能够全方位提升、检验模型在不同真实生产环境下的优越性与鲁棒性;所述训练数据经过包括重抽样、剔除负样本的数据处理,避免使用的训练的数据正负样本量不平衡的问题。
一种基于多模态深度编码的HLA抗原呈递预测系统,它包括:
-数据收集模块,根据文献、公开数据库,收集成功表达呈递的多肽肽链、上下游等数据对;
-数据集构建模块,根据收集的成功呈递表达抗原的数据对,利用专业计算工具进行负样本生成与筛选;
-数据建模模块,构建预测模型并求解预测模型。
具体的,所述数据建模模块包括:
-特征选择模块,选定与HLA抗原呈递相关的特征,作为待融合特征;
-归一化处理模块,将待融合特征进行变换和尺度缩放,获得标准特征;
-特征融合模块,将多模态的标准特征输入深度神经网络进行融合,得到表达HLA抗原呈递的最终特征分数;
-预测模型构建模块,构建包含最终特征分数的预测模型和优化模型;
-预测模型求解模块,计算获得最优参数的预测模型。
优选的,所述特征融合模块中,采用可变长的维度的输入设计,以便未来加入更多新模态特征的接口。
优选的,所述数据集构建模块中,采用多策略生成负样本构建数据集,能够全方位提升、检验模型在不同真实生产环境下的优越性与鲁棒性;所述训练数据经过包括重抽样、剔除负样本的数据处理,避免使用的训练的数据正负样本量不平衡的问题。
更优的,它还包括:
-测试模块,在完成构建数据模块后,划分出单独的一批数据,以待优化得到最优模型后,验证测试模型的对于未曾见过的抗原数据对的预测效果。
本发明的有益效果
本发明提出了一种全新的基于多特征融合的预测HLA抗原呈递的框架与计算系统,包括:1)使用全局最大差异打分矩阵生成负样本训练集2)采用多种不同的深度神经网络来编码已知序列信息3)引入已有的文献与计算工具计算亲和力指数4)多模态特征融合得到预测分数并进行预测。不同于以往的仅基于生物实验或亲和力指数预测的方法,本系统方案能高效地融合多模态信息,进行更加准确高效的预测。且在处理不同方法负样本,处理数据不平衡的模块上有灵活的拓展性,能够更好适应真实的药物研发生产环境。
基于本申请提出的多模态特征融合预测,并非传统单一的加和,捕捉了多特征之间潜在的复杂关系。
基于归一化处理,最终能得到格式、维度统一,便于融合的特征向量。
基于可变长的维度的输入设计,以便未来加入更多新模态特征的接口。未来加入的新特征只要是能被现有机器学习方法进行编码的,理论上没有任何限制——这也是我们模型“可拓展性”优点的体现。
基于预测系统采用多策略生成负样本构建数据集,能够全方位提升、检验模型在不同真实生产环境下的优越性与鲁棒性。
附图说明
图1为深度编码与多模态融合的预测HLA新生抗原呈递方法的计算流程图
图2为深度编码与多模态融合的预测HLA新生抗原呈递计算系统总结构图
具体实施方式
下面结合实施例对本发明作进一步说明,但本发明的保护范围不限于此:
如图1所示,本发明提出的深度编码与多模态融合的预测HLA新生抗原呈递计算系统分为四部分,下面针对数据收集,数据集构建,模型建构与优化和模型测试进行详细阐述。
(a)数据收集
该模块为根据公开数据库资源,特定文献,收集特定HLA新生抗原呈递的多肽肽链、上下游等数据对,亲和力指数等数据元组,以及配套的数据处理、标准化流程,具体包括:
I.给定特定蛋白质,成功表达呈递的特定HLA新生抗原的特定多态氨基酸序列。
II.该蛋白质对应的上下游各6个、共12个氨基酸长度的上下游相关序列。
III.根据I中蛋白质、多肽数据对,从一系列专业计算工具(参考文献:Jurtz,Vanessa,et al."NetMHCpan-4.0:improved peptide–MHC class I interactionpredictions integrating eluted ligand and peptide binding affinity data."TheJournal of Immunology 199.9(2017):3360-3368.)得到的呈递表达数据对的亲和力指数(affinity score)以及相关特征。
具体而言,我们参考的公开数据源、文献资源有主要有MARIA(参考文献:Chen,Binbin,et al."Predicting HLA class II antigen presentation through integrateddeep learning."Nature biotechnology 37.11(2019):1332-1343.NetMHCpan系列数据,(参考文献:Reynisson,Birkir,et al."NetMHCpan-4.1and NetMHCIIpan-4.0:improvedpredictions of MHC antigen presentation by concurrent motif deconvolution andintegration of MS MHC eluted ligand data."Nucleic acids research 48.W1(2020):W449-W454.),图宾根大学公开MHC配对数据(参考文献:Rammensee,H-G.,et al."SYFPEITHI:database for MHC ligands and peptide motifs."Immunogenetics 50.3(1999):213-219.)。
(b)从全局最大差异打分矩阵生成负的阴性集,基于多策略负样本生成的数据集构建
本发明基于(a)中的方法收集HLA新生抗原成功表达呈递的正样本后,需对应生成的负样本来训练机器学习模型。在过往的研究中,一般认为被呈递的肽段和正常肽段序列相似度和抗原呈递及免疫原性有一定的负相关关系,因此我们使用了全局最大差异打分矩阵的方式生成序列相似度最低肽段作为训练集的阴性样本集。生成的具体方法是使用窗口在的序列上按顺序滑动,将所有产生的序列使用BioPython序列比对软件包进行多序列比对,并且使用冒泡法保留10个序列相似度最低的阴性序列作为阴性训练集。
在真实生产环境中,HLA新生抗原表达呈递失败的概率远高于其成功的概率,所以我们对每一个正样本需要生成多个负样本。生成的具体方式是将模块(a)步骤I的呈递表达数据对输入开源计算工具NetMHCpan(参考文献:Jurtz,Vanessa,et al."NetMHCpan-4.0:improved peptide–MHC class I interaction predictions integrating elutedligand and peptide binding affinity data."The Journal of Immunology 199.9(2017):3360-3368.),根据候选亲和力指数的倒序排名顺序,对每一个成功呈递的正样本数据对生成20-100不等的负样本。但正负样本不平衡的数据对机器学习模型构建与优化是极大的挑战,故我们需要采取从已有的多个负样本候选中,选出特定的负样本,构建正负比相对平衡(阳性数据:阴性数据=1:1)的数据集来训练模型。我们才用了三种不同的负样本(阴性数据)采样生成策略,来尽可能模拟模型可能遇到的各种场景。
I.广义阴性策略:
给定成功表达呈递的阳性数据对,该策略在其所有的对应阴性数据候选池中,随机选取一个作为数据集构建的阴性数据。
II.中义阴性策略
给定成功表达呈递的阳性数据对,该策略在其所有的对应阴性数据候选池中,我们根据其亲和力指数(affinity score)进行降序排序,选择亲和力指数最小、与阳性数据相似度最低的阴性数据作为数据集构建。
III.狭义阴性策略
给定成功表达呈递的阳性数据对,该策略在其所有的对应阴性数据候选中,我们首先剔除其原始亲和力指数(affinity score)<500的阴性数据样本,再对剩下的样本进行降序排序,选择亲和力指数最小、与阳性数据相似度最低的阴性数据作为数据集构建。
在根据不同负样本生成策略构建好数据集后,我们选择k-折交叉验证(k-foldcross validatio)的统计学方法构建各自的训练、测试、验证数据集。并利用多策略负样本生成处理过的图宾根数据集作为公共测试数据集。
(c)基于深度编码和多模态数据的模型建构与优化
如图2的计算流程图所示,我们对模块(b)中的数据集进行编码、并建立模型。我们将不同模态数据划分为:长序列特征,短序列特征,向量特征,标量特征,并对每种特征定义相应的归一化处理方案,以获取格式、维度统一,便于融合的特征向量。其中:
-长序列特征,使用随机矩阵将其每个氨基酸编码到可学习的到隐空间,再利用长短记忆循环神经网络进行处理;
-短序列特征,利用独热方法进行编码,编码后的序列送入多层感知机网络模型进行变换;
-向量特征,采用主成分分解PCA进行编码,将所有数据的向量形式的特征组合成特征矩阵,应用主成分分解进行矩阵分解;根据隐嵌入维度选择特定数目的矩阵特征向量作编码变换;
-标量特征,采用多维尺度放缩,高斯核方法进行编码:将所有数据的标量形式的特征作为高斯核的输入,得到高斯核的协方差矩阵;将矩阵的各列进行多维尺度放缩,得到编码变换的特征向量。
实施例中以多肽序列特征、上下游序列特征、呈递亲和力特征三种为例进行说明,在其他实施例中基于可变长的维度的输入设计,以便未来加入更多新模态特征的接口(未来加入的新特征只要是能被现有机器学习方法进行编码的,理论上没有任何限制——这也是我们模型“可拓展性”优点的体现)。对于给定多肽肽链氨基酸序列,使用随机矩阵将其每个氨基酸编码到可学习的到隐空间,再利用长短记忆循环神经网络(LSTM)(参考文献:Greff,Klaus,et al."LSTM:A search space odyssey."IEEE transactions on neuralnetworks and learning systems 28.10(2016):2222-2232.)进行处理得到多肽序列特征。对于给定基因上下游肽链,利用独热方法(one-hot)进行编码,再将编码后的上下游序列进行裁剪得到定长的序列,再将此编码序列送入多层感知机网络模型进行变换,提取特征。对于亲和力指数特征(affinity score),考虑到原始数据尺度范围阔度较大:从几百到几万不等,我们采用用两种不同方法进行变换与尺度放缩:1-log50(kd),以及
Figure BDA0003306829490000091
以保证模型训练优化过程的数值稳定性。其中kd代表原始亲和力指数的单位。最后将处理好的各模态特征输入特征融合层,并最终得到如下优化模型:
Figure BDA0003306829490000092
其中f是步骤中集成了所有序列编码、多模态融合、特征变换神经网络的预测模型,W是该模型中可学习参数,具体包括:多肽氨基酸编码所用到的随机投影矩阵(从多维高斯分布中生成的随机投影矩阵通常是比较好的特征变换选择,但该投影过程作为一个线性变换,也是可导的,并能根据梯度、对随机投影矩阵参数进行进一步优化);多肽序列序列编码所用的长短期记忆循环神经网络的权重;对经独热编码后上下游序列进行特征变化的多层感知机(多层感知机的每一层就是一个带非线性激活函数的矩阵投影变换,该变换过程是可导的。因此能根据梯度对每一层的矩阵参数进行优化更新);多模态特征融合模块中的注意力矩阵与最终层神经网络的权重。
wn表示对不同样本的损失函数所赋予权重。在训练数据正负比均衡的情况下通常均赋值为1。在可能的训练数据正负比不均衡的情况下,可给赋值给较少的样本更大的权重。其中xn是输入的特定数据(多肽、上下游、亲和力指数等),yn是训练数据中是否呈递结合的真实值,o’是S逻辑函数(sigmoid function)。该模型非传统的简单加和,模型公式捕捉了潜在的复杂关系。
上述最优化模型的求解,可采用批次随机梯度下降策略(参考文献:Goyal,Priya,et al."Accurate,large minibatch sgd:Training imagenet in 1hour."arXivpreprint arXiv:1706.02677(2017).):在多个轮次中,将训练数据分批次输入模型,计算如上的损失函数与梯度,并利用梯度下降更新模型。具体来说,我们采用ADMA优化器(参考文献:Kingma,Diederik P.,and Jimmy Ba."Adam:A method for stochasticoptimization."arXiv preprint arXiv:1412.6980(2014).),其用一阶梯度估计高阶梯度,并能自动调节优化的步长,是模型优化过程更加稳定与稳健。
(d)模型测试与机器学习评价指标
本实例对于MARIA与MetMHCpan两组公开数据,采用上述3-折交叉验证构建数据集。每个数据集采用
Figure BDA0003306829490000101
与1-log50(kd)两种亲和力指数变换方法。每个数据集采用广义阴性,中义阴性,狭义阴性三种不同的数据集构建方法。所有数据集采用上述3-折交叉验证构建数据集选取到以下主要最优超参数:批次优化数=256,优化轮次=30。因此,此示例中,对于每个原始数据集,分别6组不同设定的训练数据。
我们选用广义阴性策略生成的图宾根数据集作为公共测试数据集。我们并采用接收者操作特征曲线(receiver operating characteristic curve,或者叫ROC曲线)下面积AUC与精准度PPV来评价优化后模型的预测能力与性能(表1):
表1.预测模型评价指标
评价指标 描述
精准度/PPV TP/(TP+FP)
AUC ROC曲线下面积
我们采用5次随机训练-测试划分别进行训练与测试,得到的5次结果取平均并计算标准差(在表格中显示为“平均值±标准差”)。以下是在MARIA数据集上训练模型,并在TUBINGEN数据集上得到的测试结果(表2):
表2.MAIRA训练集,TUBINGEN测试集测试结果
Figure BDA0003306829490000102
Figure BDA0003306829490000111
以下是在NETMHCPAN数据集上训练模型,并在TUBINGEN数据集上得到的测试结果(表3):
表3.NETMHCPAN训练集,TUBINGEN测试测试结果
Figure BDA0003306829490000112
以上模型测试结果,在不同数据来源、不同负样本数据集生成策略、不同亲和力变换方法等不同设定下,AUC,PP V均普遍大于0.8,基本达到了真实mRNA疫苗研发生产场景的需求。而标准差普遍小于平均值的5%,验证了该方法与系统的稳定性。在多模态特征模块,我们保留了未来接入更多特征,进一步挖掘大数据潜力的接口,提高了模型的可拓展性。以上实例与测试结果,基本证明了本发明的优越性与可行性。
应当理解的是,本发明的应用不限于上述的据力。对本领域从业技术人员来说,可以根据上述说明加以改进或者变换,特别是基本模型选取与亲和力指数变换的方法,或者选取其他描述HLA新生抗原呈递的数据。所有这些改进和变换,以及参数相关的调节和选取,都应属于本发明所附权利要求的保护范围。

Claims (16)

1.一种基于多模态深度编码的HLA抗原呈递预测方法,其特征在于它包括以下步骤:
S1、使用全局最大差异打分矩阵生成负样本训练集;
S2、特征选择:选定与HLA抗原呈递相关的特征,作为待融合特征;
S3、归一化处理:设置隐嵌入维度作为不同待融合特征的最终输入维度,将S1中获取的待融合特征进行变换和尺度缩放,获得标准特征;
S4、特征融合:将维度相同的标准特征作线性融合操作,融合后的特征向量/矩阵输入深度神经网络,进行非线性变换与融合,获得表达HLA抗原呈递的最终特征分数;
S5、构建预测模型:特征融合,构建包含最终特征分数的预测模型和优化模型;
S6、求解优化模型,获得最优参数的预测模型;
S7、使用最优参数的预测模型进行HLA抗原呈递预测。
2.根据权利要求1所述的方法,其特征在于根据S2中特征选择的不同,S3中选定相应的归一化处理方案;具体为:
-长序列特征,使用随机矩阵将其每个氨基酸编码到可学习的到隐空间,再利用长短记忆循环神经网络进行处理;
-短序列特征,利用独热方法进行编码,编码后的序列送入多层感知机网络模型进行变换;
-向量特征,采用主成分分解PCA进行编码,将所有数据的向量形式的特征组合成特征矩阵,应用主成分分解进行矩阵分解;根据隐嵌入维度选择特定数目的矩阵特征向量作编码变换;
-标量特征,采用多维尺度放缩,高斯核方法进行编码:将所有数据的标量形式的特征作为高斯核的输入,得到高斯核的协方差矩阵;将矩阵的各列进行多维尺度放缩,得到编码变换的特征向量。
3.根据权利要求1所述的方法,S1中负样本的生成为:使用来自于使用窗口滑动的方法,根据预设的参数阈值,生成阴性序列并使用全局差异打分矩阵筛选生成的序列片段,获得非随机生成的阴性训练集。
4.根据权利要求1所述的方法,其特征在于S2中待融合特征选择为:多肽序列特征、上下游序列特征、呈递亲和力特征。
5.根据权利要求4所述的方法,其特征在于S3中:
多肽序列特征通过以下方法获得标准特征:对于给定多肽肽链氨基酸序列,使用随机矩阵将其每个氨基酸编码到可学习的到隐空间,再利用长短记忆循环神经网络进行处理得到多肽序列特征;进行随机矩阵编码映射后,根据所有数据中最长肽链序列的长度进行补长;
上下游序列特征通过以下方法获得标准特征:对于给定基因上下游肽链,利用独热方法进行编码,编码后的上下游序列进行裁剪得到定长的序列,此编码序列送入多层感知机网络模型进行变换,提取特征作为上下游序列特征;
呈递亲和力特征通过尺度缩放获得标准特征。
6.根据权利要求5所述的方法,其特征在于呈递亲和力特征的尺度变化公式为:
1-log50(kd)
式中,kd表示原始亲和力指数的单位。
7.根据权利要求5所述的方法,其特征在于呈递亲和力特征的尺度变化公式为:
Figure FDA0003306829480000021
式中,kd表示原始亲和力指数的单位。
8.根据权利要求1所述的方法,其特征在于S4特征融合中,所述线性融合操作包括点乘、或加和、或组合成特征矩阵。
9.根据权利要求1所述的方法,其特征在于S5中构建优化模型:
Figure FDA0003306829480000022
式中,fwf是含可学习参数的预测模型;
W表示该模型中可学习参数,包括各融合特征获取时方案权重;wn表示对不同样本的损失函数所赋予权重,N表示样本总数;
xn表示输入的特定数据,yn是训练数据中是否呈递结合的真实值,o’是S逻辑函数。
10.根据权利要求1所述的方法,其特征在于S6中求解优化模型:多次遍历所有训练数据,利用基于随机梯度优化方法的优化器进行优化,得到最优的模型参数,获得预测模型fW。
11.根据权利要求10所述的方法,其特征在于采用多策略生成负样本构建训练数据数据集;所述训练数据经过包括重抽样、剔除负样本的数据处理。
12.一种基于多模态深度编码的HLA抗原呈递预测系统,其特征在于它包括:
-数据收集模块,根据文献、公开数据库,收集成功表达呈递的多肽肽链、上下游等数据对;
-数据集构建模块,根据收集的成功呈递表达抗原的数据对,利用专业计算工具进行负样本生成与筛选;
-数据建模模块,构建预测模型并求解预测模型。
13.根据权利要求12所述的系统,其特征在于所述数据建模模块包括:
-特征选择模块,选定与HLA抗原呈递相关的特征,作为待融合特征;
-归一化处理模块,将待融合特征进行变换和尺度缩放,获得标准特征;
-特征融合模块,将多模态的标准特征输入深度神经网络进行融合,得到表达HLA抗原呈递的最终特征分数;
-预测模型构建模块,构建包含最终特征分数的预测模型和优化模型;
-预测模型求解模块,计算获得最优参数的预测模型。
14.根据权利要求13所述的系统,其特征在于所述特征融合模块中,采用可变长的维度的输入设计。
15.根据权利要求12所述的系统,其特征在于所述数据集构建模块中,采用多策略生成负样本构建数据集;所述训练数据经过包括重抽样、剔除负样本的数据处理。
16.根据权利要求12所述的系统,其特征在于它还包括:
-测试模块,在完成构建数据模块后,划分出单独的一批数据,以待优化得到最优模型后,验证测试模型的对于未曾见过的抗原数据对的预测效果。
CN202111205908.2A 2021-10-15 2021-10-15 基于多模态深度编码的hla抗原呈递预测方法和系统 Active CN113807468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111205908.2A CN113807468B (zh) 2021-10-15 2021-10-15 基于多模态深度编码的hla抗原呈递预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111205908.2A CN113807468B (zh) 2021-10-15 2021-10-15 基于多模态深度编码的hla抗原呈递预测方法和系统

Publications (2)

Publication Number Publication Date
CN113807468A true CN113807468A (zh) 2021-12-17
CN113807468B CN113807468B (zh) 2022-05-27

Family

ID=78897830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111205908.2A Active CN113807468B (zh) 2021-10-15 2021-10-15 基于多模态深度编码的hla抗原呈递预测方法和系统

Country Status (1)

Country Link
CN (1) CN113807468B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114242159A (zh) * 2022-02-24 2022-03-25 北京晶泰科技有限公司 抗原肽呈递预测模型的构建方法、抗原肽预测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104838269A (zh) * 2012-11-08 2015-08-12 Umc乌得勒支控股有限公司 用于预测对错配的人白细胞抗原的免疫应答的方法
CN108601731A (zh) * 2015-12-16 2018-09-28 磨石肿瘤生物技术公司 新抗原的鉴别、制造及使用
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN110008828A (zh) * 2019-02-21 2019-07-12 上海工程技术大学 基于差异正则化的成对约束成分分析度量优化方法
CN111105843A (zh) * 2019-12-31 2020-05-05 杭州纽安津生物科技有限公司 一种hla i型分子与多肽的亲和力预测方法
CN113035280A (zh) * 2021-03-02 2021-06-25 四川大学 一种基于深度学习的rbp结合位点预测算法
CN113474840A (zh) * 2018-12-21 2021-10-01 百欧恩泰美国公司 用于预测hla ii类特异性表位及表征cd4+ t细胞的方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104838269A (zh) * 2012-11-08 2015-08-12 Umc乌得勒支控股有限公司 用于预测对错配的人白细胞抗原的免疫应答的方法
CN108601731A (zh) * 2015-12-16 2018-09-28 磨石肿瘤生物技术公司 新抗原的鉴别、制造及使用
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN113474840A (zh) * 2018-12-21 2021-10-01 百欧恩泰美国公司 用于预测hla ii类特异性表位及表征cd4+ t细胞的方法和系统
CN110008828A (zh) * 2019-02-21 2019-07-12 上海工程技术大学 基于差异正则化的成对约束成分分析度量优化方法
CN111105843A (zh) * 2019-12-31 2020-05-05 杭州纽安津生物科技有限公司 一种hla i型分子与多肽的亲和力预测方法
CN113035280A (zh) * 2021-03-02 2021-06-25 四川大学 一种基于深度学习的rbp结合位点预测算法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BIRKIR REYNISSON 等: ""Improved prediction ofMHC II antigen presentation through integration and motif deconvolution of mass spectrometry MHC eluted ligand data"", 《JOURNAL OF PROTEOME RESEARCH》 *
BIRKIR REYNISSON 等: ""Improved prediction ofMHC II antigen presentation through integration and motif deconvolution of mass spectrometry MHC eluted ligand data"", 《JOURNAL OF PROTEOME RESEARCH》, 18 April 2020 (2020-04-18) *
曹聪: ""基于机器学习的MHC肽结合预测算法研究"", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 *
曹聪: ""基于机器学习的MHC肽结合预测算法研究"", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》, 15 August 2020 (2020-08-15) *
胡伟澎: ""基于质谱鉴定多肽组和组织特异性表达谱的MHC-I型表位呈递预测"", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 *
胡伟澎: ""基于质谱鉴定多肽组和组织特异性表达谱的MHC-I型表位呈递预测"", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》, 15 June 2020 (2020-06-15), pages 3 - 4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114242159A (zh) * 2022-02-24 2022-03-25 北京晶泰科技有限公司 抗原肽呈递预测模型的构建方法、抗原肽预测方法及装置

Also Published As

Publication number Publication date
CN113807468B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN113160887B (zh) 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法
KR102607567B1 (ko) Mhc 펩티드 결합 예측을 위한 gan-cnn
CN113762417B (zh) 基于深度迁移的对hla抗原呈递预测系统的增强方法
CN111161793A (zh) 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
CN111105843A (zh) 一种hla i型分子与多肽的亲和力预测方法
CN112071361B (zh) 基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法
Malebary et al. ProtoPred: advancing oncological research through identification of proto-oncogene proteins
CN110136773A (zh) 一种基于深度学习的植物蛋白质互作网络构建方法
CN113807468B (zh) 基于多模态深度编码的hla抗原呈递预测方法和系统
CN114446389B (zh) 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用
Sha et al. DeepSADPr: A hybrid-learning architecture for serine ADP-ribosylation site prediction
Zhang et al. iTCep: a deep learning framework for identification of T cell epitopes by harnessing fusion features
CN113762416B (zh) 基于多模态深度编码的抗原免疫原性预测方法和系统
Gao et al. Neo-epitope identification by weakly-supervised peptide-TCR binding prediction
Liu et al. A Deep Learning Approach for NeoAG-Specific Prediction Considering Both HLA-Peptide Binding and Immunogenicity: Finding Neoantigens to Making T-Cell Products More Personal
Kumar et al. Determination of protein-protein interaction through Artificial Neural Network and Support Vector Machine: A Comparative study
EP4318477A1 (en) Method for predicting t cell activity of peptide-mhc, and analysis device
Tejasri et al. Prediction of All-beta protein secondary structure using GOR method
Jain et al. Prediction and Visualisation of Viral Genome Antigen Using Deep Learning & Artificial Intelligence
CN117690495A (zh) 一种肿瘤新抗原预测方法、系统、电子设备及存储介质
WO2024032909A1 (en) Methods and systems for cancer-enriched motif discovery from splicing variations in tumours
TWI650664B (zh) 建立蛋白質功能缺失評估模型的方法以及利用上述模型的風險評估方法與系統
Jacobs et al. In silico Antibody-Peptide Epitope prediction for Personalized cancer therapy
Carter Sequence‐Based Computational Approaches to Vaccine Discovery and Design
Jia A novel computational algorithm for predicting immune cell types using single-cell RNA sequencing data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230627

Address after: Room 201, 2nd Floor, Building A-4, Building 16, Shuwu, No. 73 Tanmi Road, Jiangbei New District, Nanjing City, Jiangsu Province, 211899

Patentee after: Nanjing Chengshi Biomedical Technology Co.,Ltd.

Address before: 210000 room 209, floor 2, building D-2, building 16, tree house, No. 73, tanmi Road, Jiangbei new area, Nanjing, Jiangsu

Patentee before: Nanjing Chengshi Biotechnology Co.,Ltd.