CN112002374A - 基于深度学习的mhc-i表位亲和力预测方法 - Google Patents

基于深度学习的mhc-i表位亲和力预测方法 Download PDF

Info

Publication number
CN112002374A
CN112002374A CN202010539194.8A CN202010539194A CN112002374A CN 112002374 A CN112002374 A CN 112002374A CN 202010539194 A CN202010539194 A CN 202010539194A CN 112002374 A CN112002374 A CN 112002374A
Authority
CN
China
Prior art keywords
polypeptide
peptide
characteristic
mhc
alleles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010539194.8A
Other languages
English (en)
Other versions
CN112002374B (zh
Inventor
任树成
宋瑾
张恒辉
沈宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhenzhi Medical Technology Co ltd
Original Assignee
Beijing Zhenzhi Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhenzhi Medical Technology Co ltd filed Critical Beijing Zhenzhi Medical Technology Co ltd
Priority to CN202010539194.8A priority Critical patent/CN112002374B/zh
Publication of CN112002374A publication Critical patent/CN112002374A/zh
Application granted granted Critical
Publication of CN112002374B publication Critical patent/CN112002374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Analytical Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Peptides Or Proteins (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种基于深度学习的MHC‑I表位亲和力预测方法,其包括:通过公共数据库获取多数个多肽;根据MHC‑I分子与肽的结合方式将所述多肽转换为21mer肽;提取所述多肽的特征,所述特征包括:序列特征、亲水性特征、极性特征和位置特征;分别对所述多肽的特征进行特征编码,得到4*21维的特征矩阵;将所述公共数据库中的多肽数据作为训练集进行模型训练,根据所述多肽的等位基因的分类,分别将所述多肽的特征矩阵输入预先建立的CNN模型建立预测模型,建立的预测模型的数量与所述多肽的等位基因的分类数据相对应;使用所述公共数据库的多肽数据作为所述预测模型的验证集进行结合亲和力测试。通过本申请能够有效预测MHC‑I表位亲和力,预测准确性较高且更稳定。

Description

基于深度学习的MHC-I表位亲和力预测方法
技术领域
本发明涉及生物信息领域及肿瘤免疫治疗领域,尤其涉及一种基于深度学习的MHC-I表位亲和力预测方法。
背景技术
由于新抗原是免疫疗法的理想靶标,因此了解特异性肽与MHC的等位基因之间的结合亲和力是设计疫苗的必不可少的步骤。大量的肽链使研究费时且费力。随着测序技术和生物信息学的进步,预测肽与MHC等位基因之间的结合亲和力变得更加灵活和经济。
MHC(主要组织相容性复合体)是在大多数脊椎动物基因组中发现的一个基因家族,与免疫系统密切相关。人的MHC也称为人白细胞抗原(HLA)。MHC有两种类型。第一种MHC(MHC-I)处理蛋白质(例如病毒)的内部分解,第二种MHC(MHC-II)仅位于抗原呈递细胞(APC)。这些基因中的一些编码细胞表面抗原,这是不会混淆每个人细胞的“特征”。它们是免疫系统区别于异物的基础。HLA复合体位于6号染色体短臂的21.31区域(6p21.31),由360万个碱基对组成。它是人类染色体中基因密度最高,多态性最多的区域,被称为“人类的化学指纹”。
近来,许多研究者集中在预测肽和MHC等位基因之间的结合亲和力的领域,也出现了一些有很多工具和算法。其中一些人专注于MHC-I,而另一些人专注于MHC-II。但是,目前缺少准确预测MHC-I蛋白与其肽之间的结合亲和力的技术方案。
发明内容
本发明的主要目的在于提供一种基于深度学习的MHC-I表位亲和力预测方法,以解决现有技术缺少准确预测MHC-I蛋白与其肽之间的结合亲和力的技术方案。
根据本发明实施例提出一种基于深度学习的MHC-I表位亲和力预测方法,其包括:通过公共数据库获取多数个多肽;根据MHC-I分子与肽的结合方式将所述多肽转换为21mer肽;提取所述多肽的特征,所述特征包括:序列特征、亲水性特征、极性特征和位置特征;分别对所述多肽的特征进行特征编码,得到4*21维的特征矩阵;将所述公共数据库中的多肽数据作为训练集进行模型训练,根据所述多肽的等位基因的分类,分别将所述多肽的特征矩阵输入预先建立的CNN模型建立预测模型,其中,建立的预测模型的数量与所述多肽的等位基因的分类数据相对应;使用所述公共数据库的多肽数据作为所述预测模型的验证集进行结合亲和力测试。
其中,所述公共数据库的多数个多肽包括以下数据:等位基因、肽段、测量值、测量不等式、测量类型、测量来源和原始等位基因;所述方法还包括:选取所述公共数据库中的HLA-A等位基因和HLA-B等位基因,作为测试集对所述预测模型进行模型评估,评估所述测试模型的准确性。
其中,所述测量值为IC50值,设置小于500nm则为阳性的多肽。
其中,还包括:选取肽数大于20的等位基因的多肽建立预测模型。
其中,所述根据MHC-I分子与肽的结合方式将所述多肽转换为21mer肽的步骤,包括:确定MHC-I分子的锚定点的位置,在所述锚定点的位置插入氨基酸X,转换为11mer肽;在11mer肽的两侧分别插入5bp侧翼序列。
其中,还包括:通过BLOSUM62对多肽进行编码。
其中,在所述特征为序列特征的情况下,所述分别对于每种肽的特征进行特征编码的步骤,包括:分别由数字1到21表示下列21种氨基酸:A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V和X。
其中,在所述特征为亲水性指数的情况下,所述分别对于每种肽的特征进行特征编码的步骤,包括:为每个氨基酸设定亲水指数的特征编码:R为-2.5、K为-1.5、D为-0.9、Q为-0.85、N为-0.78、E为-0.74、H为-0.4、S为-0.18、T为-0.05、P为0.12、Y为0.26、C为0.29、G为0.48、A为0.62、M为0.64、W为0.81、L为1.1、V为1.1、F为1.2、I为1.4、X为0。
其中,在所述特征为极性特征的情况下,所述分别对于每种肽的特征进行特征编码的步骤,包括:根据氨基酸R基团的极性或在pH值下与水相互作用的趋势,将氨基酸分为:极性不变、无极性、负极性、正极性;其中:极性不变的氨基酸包括:A、G、I、L、F、P和V,其特征编码为1;无极性的氨基酸包括:N、C、Q、S、T、W、Y和M,其特征编码为2;负极性的氨基酸包括:D和E,其特征编码为3;正极性的氨基酸包括:R、H和K,其特征编码为4;氨基酸X的特征编码为0。
其中,在所述特征为位置特征的情况下,所述分别对于每种肽的特征进行特征编码的步骤,包括:肽在该位置存在氨基酸则特征编码为1、不存在则特征编码为0。
根据本发明的技术方案,通过使用编码的序列比较以及肽提取特征的化学性质,并使用了卷积神经网络(CNN)建立了预测模型,能够有效预测MHC-I表位亲和力,通过本申请的方法预测准确性较高且更稳定。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的基于深度学习的MHC-I表位亲和力预测方法的流程图;
图2是根据本发明实施例的肽(8-11mer)转换为11mer肽的插入示意图;
图3是根据本发明实施例的肽的特征进行编码的示意图;
图4是根据本发明实施例的每个等位基因的AUC表现示意图;
图5是根据本发明实施例的193个实验中的AUC分布图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图,详细说明本发明各实施例提供的技术方案。
根据本发明实施例提供了一种基于深度学习的MHC-I表位亲和力预测方法,如图1所示,该方法包括以下步骤:
步骤S102,通过公共数据库获取多数个多肽。
为了避免预测结果的偏向性,应使用数据量较大的数据集进行训练。本申请通过公共数据库下载大量数据集,例如从IEDB affinity data(Vita et al.2018)、BD2013(Kimet al.2014)、MS data(Abelin et al.2017)等三篇文献数据集总共获得了525,672个肽段。
步骤S104,根据MHC-I分子与肽的结合方式将所述多肽转换为21mer肽。根据肽与MHC I的结合模式(Motif)将不同长度的肽整合到21mer中。
对于MHC-1复合物,α链具有三个结构域,其中由α1和α2区域形成的凹槽可以结合抗原肽,而α3区域是CD8结合区域。β链仅具有一个的域β2,形成微球蛋白结构。
HLA-I类分子的九个氨基酸的结合核心在MHC-I分子与亲和肽的结合中起主要作用。同时,两侧的肽侧翼残基(PFR)在结合中也起一定作用。在绑定核心中,位置2、3、6、7、9被称为“锚”,并且在绑定中比其他位置扮演更重要的角色。基于此,可以将8–10mer肽转换为11mer肽。具体地,将新的氨基酸(X)插入肽中。
肽的长度一般为8-10个氨基酸,并以9个氨基酸为多。如图2所示,以8-10mer肽为例。X是人工氨基酸,仅与自身有关,与其他20个氨基酸无关。通过与unipro数据库比对查找肽侧翼左右5bp大小残基序列,这样每条肽段就扩充为21mer。
在将所有肽转化为21mer后,所有肽均应由BLOSUM62基质编码(Styczynski等,2008)。X被编码为零的向量,但X与自身之间的分数是1。
步骤S106,提取所述多肽的特征,所述特征包括:序列特征、亲水性特征、极性特征和位置特征。
肽的化学性质强烈影响结合亲和力。当人体被感染时,诸如IFN-γ之类的炎性因子会改变蛋白酶体20S的β亚基组成,使蛋白酶体更可能裂解疏水性和碱性氨基酸(因此该肽更容易与MHC-1结合)。正如Udaka等人所说,(Udaka等1995)通常优选疏水性氨基酸。因此本申请提出了一种提取多肽特征的新方法,提取了四种特征:序列特征(+侧翼序列)、亲水性特征、极性特征和位置特征。
步骤S108,分别对所述多肽的特征进行特征编码,得到4*21维的特征矩阵。
对于序列特征,通过BLOSUM62对21种氨基酸进行了排序。‘A’,‘R’,‘N’,‘D’,‘C’,‘Q’,‘Ev,’G’,‘H’,‘I’,‘L’,‘K’,‘M’,‘F’,‘P’,‘S’,‘T’,‘W’,‘Y’,‘V’,’X’分别由数字1到21表示。
对于亲水性特征特征,使用Eisenberg共识量表(ECS)来评估每个氨基酸的亲水指数。其中,X的亲水指数为零。表1显示了每种氨基酸的编码。
表1
Figure BDA0002538269120000051
对于极性特征,将21个氨基酸分为五类。根据R基团的极性或在生理pH值(接近pH7.0)下与水相互作用的趋势,它们可分为无极性,无电荷的极性,正电荷(碱性)和负电荷(酸性)。并且,X的类别为零。表2显示了每种氨基酸的分类以及编码。
表2
Figure BDA0002538269120000061
对于位置特征,对肽长度采样One-hot编码,即肽在该位置存在氨基酸则编码为1,不存在则编码为0。
这样每个氨基酸可用一个4维的向量来表示,对于每种肽,其特征可使用4*21维的矩阵。
下面举例说明对多肽进行特征编码的详细过程。参考图3,肽段“DVGGGDRW”为8mer肽,在锚点位置插入氨基酸X,即在位置3插入2个氨基酸X、在位置7插入1个氨基酸X,从而得到11mer肽“DVGXXGGDRXW”。接着,通过与unipro数据库比对查找肽侧翼左右5bp大小残基序列(侧翼序列)“AEPTG”和“CWHLL”,在11mer肽的左右两侧插入侧翼序列,得到21mer肽“AEPTG DVGXXGGDRXW CWHLL”。下面对21mer肽进行特征编码,分别对21个氨基酸进行特征编码,得到4*21维的特征矩阵。
步骤S110,将所述公共数据库中的多肽数据作为训练集进行模型训练,将所述多肽的特征矩阵输入预先建立的CNN模型建立预测模型,其中,建立的预测模型的数量与所述多肽的等位基因的分类数量相对应。
CNN可以通过初始特征矩阵找出每种肽的真实特征。简而言之,CNN更适合于MHC-I表位结合亲和力的预测。在步骤S102中,总共获得了525,672个肽段,其中包括等位基因、肽段、测量值、测量不等式、测量类型、测量来源和原始等位基因等数据。使用这些肽作为训练集和验证集,选择肽数大于20的等位基因,然后剩下522,268个肽,这些肽属于193种等位基因,为每个等位基因建立模型,因此总共建立了193个模型。
在本申请中,测量值为IC50值,小于500nm的认为是阳性的肽。也就是说,设定500nm为亲和力划分阈值,小于500nm认为两者具有亲和力,大于500nM认为两者无亲和力,在这522,268个肽中,有338,978个阳性肽。
步骤S112,使用所述公共数据库的多肽数据作为所述预测模型的验证集进行结合亲和力测试。
在Youngmahn Han和Dongsup Kim的论文中(Han and Kim,2017),他们使用DeepCNN与NetMHCPan,SMM,ANN和PickPocket进行了比较(Zhang等,2009)。把IEDB中(上面三个数据集中第一个)按照等位基因和测量类型分组,并分为68个测试子集,其中包括15个HLA-A等位基因的43个子集和10个HLA-B等位基因的25个子集。此处使用了他们的统计数据并评估了基于新功能的CNN。这里称为新的CNN为CN3e方法,表示(Based on CNN Neoantigenprediction)。
F1评分用于评估模型。可以计算为:
Figure BDA0002538269120000071
在这里,真实阳性(TP)表示预测为阳性的阳性样本。假阴性(FN)表示预测为阴性的阳性样本。假阳性(FP)表示预测为阳性的阴性样本。
为了验证模型的准确性,进行了五次交叉验证。将本申请的方法与DCNN、NetMHCPan4.0、SMM、ANN和PickPocket进行了比较。在大多数情况下,本申请方法的准确性高于其他方法。表3中总结了HLA-A和HLA-B等位基因的预测结果。CN3e(CNN-NF)的F1评分的平均值分别为0.643和0.692。该值高于其他方法的值。除此之外,这两个实验的标准偏差均低于其他方法的标准偏差,这意味着本申请的方法更稳定。
表3
Figure BDA0002538269120000081
随机抽取训练集中该等位基因五分之一作为测试集。对193个等位基因实验的曲线下面积(AUC)进行绘图。图4为每个等位基因的AUC表现示意图,图5为193个实验中的AUC分布图。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于深度学习的MHC-I表位亲和力预测方法,其特征在于,包括:
通过公共数据库获取多数个多肽;
根据MHC-I分子与肽的结合方式将所述多肽转换为21mer肽;
提取所述多肽的特征,所述特征包括:序列特征、亲水性特征、极性特征和位置特征;
分别对所述多肽的特征进行特征编码,得到4*21维的特征矩阵;
将所述公共数据库中的多肽数据作为训练集进行模型训练,根据所述多肽的等位基因的分类,分别将所述多肽的特征矩阵输入预先建立的CNN模型建立预测模型,其中,建立的预测模型的数量与所述多肽的等位基因的分类数据相对应;
使用所述公共数据库的多肽数据作为所述预测模型的验证集进行结合亲和力测试。
2.根据权利要求1所述的方法,其特征在于,所述公共数据库的多数个多肽包括以下数据:等位基因、肽段、测量值、测量不等式、测量类型、测量来源和原始等位基因;所述方法还包括:
选取所述公共数据库中的HLA-A等位基因和HLA-B等位基因,作为测试集对所述预测模型进行模型评估,评估所述测试模型的准确性。
3.根据权利要求2所述的方法,其特征在于,所述测量值为IC50值,设置小于500nm则为阳性的多肽。
4.根据权利要求1或2所述的方法,其特征在于,还包括:选取肽数大于20的等位基因的多肽建立预测模型。
5.根据权利要求1所述的方法,其特征在于,所述根据MHC-I分子与肽的结合方式将所述多肽转换为21mer肽的步骤,包括:
确定MHC-I分子的锚定点的位置,在所述锚定点的位置插入氨基酸X,转换为11mer肽;
在11mer肽的两侧分别插入5bp侧翼序列。
6.根据权利要求5所述的方法,其特征在于,还包括:通过BLOSUM62对多肽进行编码。
7.根据权利要求6所述的方法,其特征在于,在所述特征为序列特征的情况下,所述分别对于每种肽的特征进行特征编码的步骤,包括:
分别由数字1到21表示下列21种氨基酸:A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V和X。
8.根据权利要求6所述的方法,其特征在于,在所述特征为亲水性指数的情况下,所述分别对于每种肽的特征进行特征编码的步骤,包括:
为每个氨基酸设定亲水指数的特征编码:R为-2.5、K为-1.5、D为-0.9、Q为-0.85、N为-0.78、E为-0.74、H为-0.4、S为-0.18、T为-0.05、P为0.12、Y为0.26、C为0.29、G为0.48、A为0.62、M为0.64、W为0.81、L为1.1、V为1.1、F为1.2、I为1.4、X为0。
9.根据权利要求6所述的方法,其特征在于,在所述特征为极性特征的情况下,所述分别对于每种肽的特征进行特征编码的步骤,包括:
根据氨基酸R基团的极性或在pH值下与水相互作用的趋势,将氨基酸分为:极性不变、无极性、负极性、正极性;其中:
极性不变的氨基酸包括:A、G、I、L、F、P和V,其特征编码为1;
无极性的氨基酸包括:N、C、Q、S、T、W、Y和M,其特征编码为2;
负极性的氨基酸包括:D和E,其特征编码为3;
正极性的氨基酸包括:R、H和K,其特征编码为4;
氨基酸X的特征编码为0。
10.根据权利要求6所述的方法,其特征在于,在所述特征为位置特征的情况下,所述分别对于每种肽的特征进行特征编码的步骤,包括:
肽在该位置存在氨基酸则特征编码为1、不存在则特征编码为0。
CN202010539194.8A 2020-06-14 2020-06-14 基于深度学习的mhc-i表位亲和力预测方法 Active CN112002374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010539194.8A CN112002374B (zh) 2020-06-14 2020-06-14 基于深度学习的mhc-i表位亲和力预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010539194.8A CN112002374B (zh) 2020-06-14 2020-06-14 基于深度学习的mhc-i表位亲和力预测方法

Publications (2)

Publication Number Publication Date
CN112002374A true CN112002374A (zh) 2020-11-27
CN112002374B CN112002374B (zh) 2022-04-22

Family

ID=73467914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010539194.8A Active CN112002374B (zh) 2020-06-14 2020-06-14 基于深度学习的mhc-i表位亲和力预测方法

Country Status (1)

Country Link
CN (1) CN112002374B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114106137A (zh) * 2021-10-15 2022-03-01 北京臻知医学科技有限责任公司 一种肿瘤新生抗原表位肽Pep1及其多聚体和应用

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005038000A2 (en) * 2003-10-17 2005-04-28 Pecos Labs, Inc. T cell epitopes useful in mycobacterium tuberculosis vaccine and as diagnostic tools and methods for identifying same
CN1659287A (zh) * 2002-04-05 2005-08-24 美国政府健康及人类服务部 诊断肝癌转移或发病可能性及鉴定治疗靶点的方法
TW201533058A (zh) * 2013-10-15 2015-09-01 Novo Nordisk Healthcare Ag 凝血因子vii多肽
CN107847572A (zh) * 2015-05-13 2018-03-27 艾吉纳斯公司 用于癌症治疗和预防的疫苗
CN109671469A (zh) * 2018-12-11 2019-04-23 浙江大学 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法
CN111105843A (zh) * 2019-12-31 2020-05-05 杭州纽安津生物科技有限公司 一种hla i型分子与多肽的亲和力预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1659287A (zh) * 2002-04-05 2005-08-24 美国政府健康及人类服务部 诊断肝癌转移或发病可能性及鉴定治疗靶点的方法
WO2005038000A2 (en) * 2003-10-17 2005-04-28 Pecos Labs, Inc. T cell epitopes useful in mycobacterium tuberculosis vaccine and as diagnostic tools and methods for identifying same
TW201533058A (zh) * 2013-10-15 2015-09-01 Novo Nordisk Healthcare Ag 凝血因子vii多肽
CN107847572A (zh) * 2015-05-13 2018-03-27 艾吉纳斯公司 用于癌症治疗和预防的疫苗
CN109671469A (zh) * 2018-12-11 2019-04-23 浙江大学 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法
CN111105843A (zh) * 2019-12-31 2020-05-05 杭州纽安津生物科技有限公司 一种hla i型分子与多肽的亲和力预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEN ZHANG等: "Quantitative Prediction of MHC-II Peptide Binding Affinity Using Global Description of Peptide Sequences", 《2008 INTERNATIONAL CONFERENCE ON BIOMEDICAL ENGINEERING AND INFORMATICS》 *
于畅宇等: "基于ISC-SVR方法预测Th细胞表位", 《化学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114106137A (zh) * 2021-10-15 2022-03-01 北京臻知医学科技有限责任公司 一种肿瘤新生抗原表位肽Pep1及其多聚体和应用

Also Published As

Publication number Publication date
CN112002374B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN111210871B (zh) 基于深度森林的蛋白质-蛋白质相互作用预测方法
Townshend et al. End-to-end learning on 3d protein structure for interface prediction
CN113160887B (zh) 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法
Wang et al. Predicting protein–protein interactions from protein sequences by a stacked sparse autoencoder deep neural network
CN109671469B (zh) 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法
AU2019221793A1 (en) GAN-CNN for MHC peptide binding prediction
CN113762417B (zh) 基于深度迁移的对hla抗原呈递预测系统的增强方法
CN112002374B (zh) 基于深度学习的mhc-i表位亲和力预测方法
Song et al. Rank preserving hashing for rapid image search
CN105930687A (zh) 一种可在细菌全基因组水平预测外膜蛋白质的方法
CN116913383B (zh) 一种基于多模态的t细胞受体序列分类方法
Liu et al. Protein–Protein Interaction Prediction via Structure‐Based Deep Learning
CN117497058A (zh) 基于图神经网络的抗体抗原中和作用预测方法及装置
CN115497564A (zh) 一种鉴定抗原模型建立方法及鉴定抗原方法
CN117037897A (zh) 一种基于蛋白质结构域特征嵌入的肽与mhc i类蛋白亲和力预测方法
CN111048145A (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
Wang et al. Inferring protein-protein interactions using a hybrid genetic algorithm/support vector machine method
Pfeifer et al. Multiple instance learning allows MHC class II epitope predictions across alleles
Sun et al. B-cell epitope prediction method based on deep ensemble architecture and sequences
Deng et al. Deep learning-enhanced MHC-II presentation prediction and peptidome deconvolution
CN117524318B (zh) 新抗原异质数据整合方法及装置、设备、存储介质
Ray et al. Amino acid biophysical properties in the statistical prediction of peptide-MHC class I binding
Machaca et al. Deep Learning and Transformers in MHC-Peptide Binding and Presentation Towards Personalized Vaccines in Cancer Immunology: A Brief Review
CN117457079B (zh) 基于简并编码及深度学习的mhc预测模型构建方法及系统
CN111607640B (zh) 一对hla等位基因中两个等位基因表达量的定量检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant