CN111105843A - 一种hla i型分子与多肽的亲和力预测方法 - Google Patents

一种hla i型分子与多肽的亲和力预测方法 Download PDF

Info

Publication number
CN111105843A
CN111105843A CN201911411222.1A CN201911411222A CN111105843A CN 111105843 A CN111105843 A CN 111105843A CN 201911411222 A CN201911411222 A CN 201911411222A CN 111105843 A CN111105843 A CN 111105843A
Authority
CN
China
Prior art keywords
model
affinity
data
training
polypeptide
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911411222.1A
Other languages
English (en)
Other versions
CN111105843B (zh
Inventor
莫凡
孙英强
王奎
陈荣昌
王慧敏
韩宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Neoantigen Biotechnology Co ltd
Original Assignee
Hangzhou Neoantigen Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Neoantigen Biotechnology Co ltd filed Critical Hangzhou Neoantigen Biotechnology Co ltd
Priority to CN201911411222.1A priority Critical patent/CN111105843B/zh
Publication of CN111105843A publication Critical patent/CN111105843A/zh
Application granted granted Critical
Publication of CN111105843B publication Critical patent/CN111105843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种HLA I型分子与多肽的亲和力预测方法,本发明将各种算法优势进行了系统整合,通过IEDB数据库、文献调研收集所得数据集以及实验产生数据集整合成数据库;对数据集中各个HLA分型所对应的肽段通过多种编码混合的转换方式进行数值型转换;得到最终的训练数据集;根据对不同学习器组合不同编码方式的深入研究及对数据特性的分析,本发明整合多种算法的混合模型,学习多肽序列的特征,既保证了单一分型在机器学习算法上训练的独立性,又保证了各HLA分型之间在深度学习算法上预测的互补性,从而实现对多肽与特定HLA分子亲和力的预测;本发明利用多个机器学习工具的组合实现了准确预测患者肿瘤中的新生抗原。

Description

一种HLA I型分子与多肽的亲和力预测方法
技术领域
本发明涉及生物信息领域,特别是一种HLA I型分子与多肽的亲和力预测方法。
背景技术
肿瘤免疫治疗是一种新兴的肿瘤治疗手段,其核心技术是以肿瘤新生抗原为靶标,刺激患者免疫系统, 分化和增殖特异性针对肿瘤细胞的免疫效应细胞,精准作用于携带新生抗原靶标的肿瘤细胞。因此,肿瘤 免疫治疗理论上可以清除所有携带特定抗原的肿瘤细胞,并做到对正常细胞没有伤害。反观传统的肿瘤治 疗,无论是手术切除病变组织,或是服用化学药物杀灭增值过快的细胞,又或者是放射线照射杀伤,都会 对患者的正常细胞造成不同程度的破坏,给患者带来诸多痛苦。
免疫系统消灭肿瘤细胞的过程,始于肿瘤新生抗原与肿瘤细胞HLA分子结合,然后该复合体被提呈 到细胞膜表面被T细胞识别,进行被T细胞杀灭。这一过程的实现,有赖于两个条件:1.肿瘤新生抗原 片段与细胞HLA分子结合2.HLA与抗原片段复合体被TCR识别。本发明旨在预测第1个条件达成所需 的条件,即判断哪些肿瘤新生抗原多肽片段会与细胞HLA分子结合。
目前有许多可以预测多肽-HLA亲和力的算法,包括使用比较广泛的NetMHC、NetMHCpan、PSSM 以及pickpocket等。这些算法均存在各自的不足之处,例如,NetMHC系列软件仅使用单一学习器进行预 测模型的构建,泛化能力不足,对很多HLA分型无法预测,分类效果不理想,且缺乏足够的实验证据支 持。NetMHCpan使用人工神经网络(ANN)进行数据的训练,建立了所有HLA分型的统一预测模型,仅 使用单一隐层神经元导致泛化效果不明显,而且对于数据量较大的HLA分型具有预测偏向性。PSSM和 pickpocket基于氨基酸的位置特异性矩阵构建模型,仅考虑了氨基酸之间的内在关系,却忽略了各HLA分 型之间特征学习的独立性,对单一分型的预测效果并不理想。
其他软件,诸如MHCflurry、SYFPEFITHI、AI-MHC(Sidhom,Pardoll,&Baras,2018)、ACME(Hu et al., 2019)等,对不同分型的预测效果有明显的偏向性,对非常见HLA的预测效果较差。
此外,现有算法模型使用的训练数据大多来源于IEDB数据库,没有补充额外的实验数据,尤其是缺 乏阴性结果,导致模型学习量不足或对阴性数据的召回率较低。现今的机器学习算法都有比较成熟的实现 方式,因此对最终学习效果影响最大的因素是训练数据的质量和数量,如何收集到足够且符合预期阴阳比 例的数据是该研究项目需要解决的难题。与HLA具有亲和力的多肽序列的来源主要有结合力实验和质谱 分析两种,有许多文献和学术著作报道过这些实验数据,但目前并没有一个数据库全面汇总这些数据;市 场需要一种将各种算法优势进行了系统整合,生成了一个能够提高分类效果,稳定性高,预测准确性高的 预测模型。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种HLA I型分子与多肽的亲和力预测方法,通过对 不同学习器组合不同编码方式的深入研究,将各种算法优势进行了系统整合,生成了一个能够提高分类效 果,稳定性高,预测准确性高的预测模型。
为了实现上述目标,本发明采用如下的技术方案:
一种HLA I型分子与多肽的亲和力预测方法,包括如下内容:
一,选择数据集;
1)整合数据库,
通过IEDB数据库、临床验证数据和医学文献的调研以及实验产生的数据,共获得147321条多肽序列, 多肽长度为8-11个氨基酸;
2)进一步筛选,
只选择肽段长度为9的数据集,最后得到109935条多肽数据,作为学习器的训练集;
收集获得的多肽序列用A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V这 20个字母表示;
对多肽序列进行量化,通过编码将多肽序列转换为数值型常量;编码方式包括:Blosum矩阵,HLA-Vec, 独热编码;
三,选择学习器,
将多个学习器进行整合,得到混合学习器;所述学习器包括:整合随机森林(RF),卷积神经网络(CNN), 人工神经网络(ANN),支持向量机(SVM),逻辑回归模型(LR),K近邻模型(KNN);
四,搭建机器学习框架,
将多肽序列编码完成后生成的数据使用皮尔逊相关系数计算每一个HLA分型所生成数值型矩阵的各 维度之间的相关性及各维度与类标签的相关性,根据相关性矩阵,计算每一维度强相关性(PCC>0.6)个 数占所有维度强相关性个数合的比例与其对应类标签相关性数值的和,将得到的一维权重矩阵与Blosum 转换后的数值型矩阵相乘,得到最终的训练数据集;
设定500nM为亲和力划分阈值,小于500nM认为两者具有亲和力,大于500nM认为两者无亲和力, 将MHC I类亲和力预测问题转换为机器学习中两分类问题;
将Blosum编码后的数据集选择80%作为训练集、20%作为测试集,进行10折交叉验证,用来测试模 型的准确性;
使用学习器进行训练,模型训练完成后使用每个分型剩余的20%数据进行测试。
前述的一种HLA I型分子与多肽的亲和力预测方法,Blosum矩阵为Blosum50编码矩阵。
前述的一种HLA I型分子与多肽的亲和力预测方法,独热编码包括:One-hot独热编码,One-hot_0.9 独热编码。
前述的一种HLA I型分子与多肽的亲和力预测方法,
三,选择学习器,
学习器为整合随机森林和卷积神经网络两种学习器的混合学习器;
以python3.6作为程序编程语言,调用其机器学习工具包scikit-learn(sklearn)、Keras进行模型构建。
前述的一种HLA I型分子与多肽的亲和力预测方法,卷积神经网络模型包括:2个1维卷积层,嵌入 层和2个全连接层;
卷积层保留了局部空间信息,适合多肽之间连接氨基酸的空间位置信息;
嵌入层用20维向量空间表示每个氨基酸,输出大小为43x20的二维矩阵,向量空间矩阵与32个大小 为7的滤波器进行一维卷积,并返回与输入数据相同的输出长度,从而得到大小为43×32的二维矩阵,激 活函数使用的是带泄露修正线性单元(LeakyReLU),默认学习率为0.3;全连接层dropout为正则化调节 参数,通过在训练期间从CNN随机丢弃25%的单位来防止模型过度拟合;
使用的损失函数为二进制交叉熵函数,使用的优化器是学习率为0.004的Adam优化器,模型的最大 迭代次数设置为100;若损失函数在2个迭代内停止改进,则强制提前停止。
前述的一种HLA I型分子与多肽的亲和力预测方法,随机森林学习器的训练过程中会将经过转换的 9*20维的数据中每一维作为一个特征进行选择性学习,进而根据特征选择的优先性构建分类决策树,特征 之间选择的优先级是根据决策树构建的生成算法进行判定;
在随机森林学习过程中分类决策树的生成需要调节如下参数:弱分类器树(n_estimators)、决策树最 大深度(max_depth)、内部节点划分需最小样本数(min_samples_split)、叶子节点所含最少样本数 (min_samples_leaf),随机森林划分考虑的最大特征数(max_features);
调节参数使用网格法进行穷举计算,调用sklearn.model_selection中的GridSearchCV工具包对各参数 进行选择。
前述的一种HLA I型分子与多肽的亲和力预测方法,述的一种HLA I型分子与多肽的亲和力预测方法, 其特征在于,卷积神经网络模型包括:2个1维卷积层,嵌入层和2个全连接层;
卷积层保留了局部空间信息,适合多肽之间连接氨基酸的空间位置信息;
嵌入层用20维向量空间表示每个氨基酸,输出大小为43x20的二维矩阵,向量空间矩阵与32个大小 为7的滤波器进行一维卷积,并返回与输入数据相同的输出长度,从而得到大小为43×32的二维矩阵,激 活函数使用的是带泄露修正线性单元(LeakyReLU),默认学习率为0.3;全连接层dropout为正则化调节 参数,通过在训练期间从CNN随机丢弃25%的单位来防止模型过度拟合;
使用的损失函数为二进制交叉熵函数,使用的优化器是学习率为0.004的Adam优化器,模型的最大 迭代次数设置为100;若损失函数在2个迭代内停止改进,则强制提前停止。
前述的一种HLA I型分子与多肽的亲和力预测方法,随机森林学习器的训练过程中会将经过转换的 9*20维的数据中每一维作为一个特征进行选择性学习,进而根据特征选择的优先性构建分类决策树,特征 之间选择的优先级是根据决策树构建的生成算法进行判定;
在随机森林学习过程中分类决策树的生成需要调节如下参数:弱分类器树(n_estimators)、决策树最 大深度(max_depth)、内部节点划分需最小样本数(min_samples_split)、叶子节点所含最少样本数 (min_samples_leaf),随机森林划分考虑的最大特征数(max_features);
调节参数使用网格法进行穷举计算,调用sklearn.model_selection中的GridSearchCV工具包对各参数 进行选择。
前述的一种HLA I型分子与多肽的亲和力预测方法,10折交叉验证的具体做法是:将数据集随机分 成10份,每一次使用其中9份作为训练集,剩余一份作为测试集,该过程重复10次,每次测试都会得到 相应的准确率,10次结果的平均值作为对模型精度的评估。
前述的一种HLA I型分子与多肽的亲和力预测方法,
决策树构建的具体流程为:
输入:训练数据集D,特征集A,阈值ε;
输出:决策树T;
1)如果D中所有的实例属于同一类Ck,则置T为单结点树,并将Ck作为该结点的类,返回T;
2)如果
Figure BDA0002350015880000031
则置T为单结点树,并将D中的实例数最大的类Ck作为该结点的类,则返回T;
3)否则,按公式
Figure BDA0002350015880000032
计算A中各特征对D的信息增益比,选择信息增益比最大的特征Ag
4)如果Ag的信息增益比小于阈值ε,则置T为单结点树,并将D中实例数最大的类Ck作为该结点的类, 返回T;
5)否则,对Ag的每一可能值ai,依Ag=ai将D分割为若干非空子集Di,将Di中的实例数最大的类作为 标记,构建子结点,由结点及其子结点构成树T,返回T;
6)对结点i,以Di为训练集,以A-{Ag}为特征集,递归地调用步骤1)-步骤5),得到子树Ti,返回Ti
前述的一种HLA I型分子与多肽的亲和力预测方法,
调节参数使用网格法进行穷举计算,调用sklearn.model_selection中的GridSearchCV工具包对各参数 进行选择,具体过程是:
第一,固定其他参数,将n_estimators值设定2到201之间,以2为步长进行模型训练,得到模型准 确率最高值时对应的n_estimators值;
第二,将max_depth和min_samples_split的值设定在2到21之间,以2为步长,固定其他参数进行 模型训练,得到模型准确率最高值时对应的max_depth和min_samples_split;
第三,将min_samples_leaf和min_samples_split值设定在2到21之间,以2为步长,固定其他参数进 行模型训练,得到模型准确率最高值时对应的min_samples_leaf和min_samples_split;
第四,将max_features值设定在2到51之间,以2为步长进行模型训练,得到模型准确率最高值时对 应的max_features;
经过四次网格穷举选择,最终确定随机森林模型构建所需最佳参数。
本发明的有益之处在于:
本发明将各种算法优势进行了系统整合,通过IEDB(Immune Epitope Database)数据库、文献调研收 集所得数据集以及实验产生数据集整合成数据库;对数据集中各个HLA分型所对应的肽段通过多种编码(blosum矩阵、独热编码、自然语言编码等)混合的转换方式进行数值型转换;得到最终的训练数据集;
根据对不同学习器组合不同编码方式的深入研究及对数据特性的分析,本发明整合随机森林(RF)、 卷积神经网络(CNN)、人工神经网络(ANN)、支持向量机(SVM)等算法的混合模型,学习多肽序列 的特征,既保证了单一分型在机器学习算法上训练的独立性,又保证了各HLA分型之间在深度学习算法 上预测的互补性,从而实现对多肽与特定HLA分子亲和力的预测;
模型通过外部数据测试、交叉验证等方法评判预测效果,通过ROC(receiveroperating characteristic curve,ROC)下的面积AUC(Area Under Curve)、F1等指标进行评判,最后构建出整合随机森林和卷积 神经网络两种学习器的混合模型,具有优秀的分类效果,稳定性好,预测准确性高。
附图说明
图1是本发明训练数据中MHC I型短多肽的长度分布;
图2是本发明实验一的33个中国人群高频HLA在本发明和NetMHCpan的F1值结果图;(横坐标为 33个HLA分型,纵坐标为F1值,圆点代表本发明iNeo_PRED的预测结果,三角形代表NetMHCpan4.0);
图3是本发明实验二在治疗过程中的免疫响应监测结果;(三角形代表:治疗前患者外周血中的T细胞对多肽 的免疫响应率;菱形代表治疗后患者外周血中的T细胞对多肽的免疫响应率,星号代表该患者T细胞受体(TCR) 出现新生克隆或出现丰度显著增加的克隆);
图4是本发明机器学习框架搭建过程中编码过程示例图;
图5是本发明机器学习框架搭建过程中得到最终的训练数据集的计算过程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
一种HLA I型分子与多肽的亲和力预测方法的优化过程,包括:
一、数据集的选择:
由于不同分型对应的训练数据量有较大差异,且不同分型对应的肽段之间有一定的相似性,导 致之前软件的预测结果具有偏向性,对于数据量较少的分型效果同样很差。通过大量预测试,发现想要使 用机器学习方法进行模型构建并得到较好的学习效果,每个分型至少需要1000条多肽序列作为训练数据, 因此本发明使用数据量大于1000的分型用于机器学习模型的构建,对于数据量较少的分型(如下表1中 短肽总数小于1000的HLA分型)使用深度学习网络模型(CNN)进行更深层次的特征挖掘,来弥补个别 分型训练数据量上的不足。
Figure BDA0002350015880000041
Figure BDA0002350015880000051
Figure BDA0002350015880000061
表1
本发明用于MHC I类分子与短多肽的亲和力预测,数据主要来源于IEDB(ImmuneEpitope Database) 数据库、临床验证数据和医学文献(Pubmed数据库2005-2019年文献)的调研以及实验产生的数据,共获 得147321条多肽序列,多肽长度为8-11个氨基酸。
在对原始数据进行整理时,去除了某些包含非蛋白质氨基酸的序列(非蛋白质氨基指的是除组成蛋白 质的20种氨基酸以外的含有氨基和羧基的化合物)。
MHC在人类细胞中存在两种分子类型,分别是MHC I型分子和MHC II型分子。MHC I型分子可以 呈递的多肽长度为8-11个氨基酸,其中以9肽居多,图1的柱图展示了训练数据中MHC I型短多肽的长 度分布。
为保证肽段转换为数值矩阵维度的统一性,对数据进行再次筛选,只选择肽段长度为9的数据集,最 后得到109935条多肽数据,作为学习器的训练集。
二、编码方式的选择:
在生物化学研究中,通常用英文字母来代表20个在人体中常见的氨基酸,对应关系如下表2所 示:
Figure BDA0002350015880000062
Figure BDA0002350015880000071
表2
本发明收集获得的多肽序列均以‘A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、 Y、V’20个字母表示。这些多肽序列首先需要进行量化,转换为数值型常量,本发明选择的编码方式有三 种,下面分别介绍:
2.1 Blosum矩阵,是一种最广泛的氨基酸打分矩阵,根据蛋白质模块数据库BLOCKS (http://www.blocks.fhcrc.org/)中蛋白质序列的高度保守部分的比对而计算得到的,最常用的是Blosum50, 矩阵如下表3所示:
Figure BDA0002350015880000072
表3
其表示以序列平均相似性为50%的BLOCK构建而成,单元格数值计算方式如下:
Figure BDA0002350015880000073
其中,q表示氨基酸对的出现频率,e表示氨基酸对出现的期望频率;
2.2HLA-Vec(Vang&Xie,2017)是一种类比自然语言的处理方法而生成的编码方式,根据已知肽段与 HLA分型的对应关系,将每一条肽段比作一段句子,每一个氨基酸比作一个单词,使用python机器学习 工具包gensim.models中的词转向量法(Word2Vec)为每一个氨基酸生成一个20维的打分矩阵。如下表4所 示:
Figure BDA0002350015880000081
表4
2.3,独热编码(One-Hot Encoding),又称为一位有效编码,其方法是使用N位状态寄存器来对N个 状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效,在肽段编码方式 中每一个氨基酸代表一个状态,20位状态寄存器对20个氨基酸进行编码,生成氨基酸独热编码表,
如下表5所示:
A 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
R 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
N 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
D 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
C 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Q 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
E 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
G 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
H 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
I 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
L 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
K 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
M 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
F 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
P 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
S 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
T 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
Y 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
V 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
表5
本发明对以上三种编码方式进行了深度的探究及验证,最终解决方案包括但不限于三种编码方式及其 组合,通过在其中一种学习器随机森林(RF)上进行比较验证,结果显示(如下表6),Blosum50编码方 式的整体效果优于其他方法及其组合,但其他编码方式在个别分型上的预测效果表现也较为出众。
Figure BDA0002350015880000082
Figure BDA0002350015880000091
表6
说明:
1_Blosum:Blosum50编码方式;2_HLA_vec:自然语言编码方式;3_Blosum+HLA_Vec:Blosum50 编码方式和自然语言编码方式相混合;4_One-hot:独热编码方式;5_One-hot_0.9:独热编码方式(1替换 为0.9,0替换为0.05)
为了能够提高预测模型的稳定性和健壮性,因此,本发明选择Blosum50、HLA_vec、One-hot中的其 中一种或者组合作为肽段的编码方式
三,学习器的选择:
本发明运用混合学习器的实现方法,以下举例描述其中一种方法:采用了整合随机森林和卷积神经网 络两种学习器的组合。
以python3.6作为程序编程语言,调用其机器学习工具包scikit-learn(sklearn)、Keras进行模型构建, sklearn是一款开源的机器学习工具包,它集成了分类、回归、聚类、数据降维、模型选择和数据处理等各 种成熟的机器学习算法,且易于安装和使用。Keras是一个由Python编写的开源人工神经网络库,可以作 为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口,进行深度学习模型的设计、调试、评估、 应用和可视化。本发明最初进行过不同学习器的测试,包括支持向量机(Support Vector Machine,SVM)、 K近邻(k-NearestNeighbor,K-NN)、随机森林(Random Forest,RF)、逻辑回归(Logistic Regression,LR)、 CNN(Convolutional Neural Networks)等,使用F1、AUC(Area Under Curve)、SRCC(Spearman rank correlation coefficients)等作为学习器的评价指标。
F1是查准率和查全率的调和平均值,对于两分类问题,可将样例根据其真实类别与学习器预测类别的 组合划分为真正例(True Positive)、假正例(False Positive)、真反例(True Negative)、假反例(False Negative) 四种情形,可分别用TP、FP、TN、FN表示,分类结果的混淆矩阵如表7所示
Figure BDA0002350015880000092
Figure BDA0002350015880000101
表7
查全率P可定义为:
Figure BDA0002350015880000102
查准率R可定义为:
Figure BDA0002350015880000103
则调和平均值F1定义为:
Figure BDA0002350015880000104
最 大值为1,最小值为0,F1越大则表示模型预测效果越好。
本发明调用sklearn.metrics中的f1-score工具包计算模型预测结果的f1值。AUC(Area Under Curve) 表示受试者操作曲线(Receiver operating characteristic,ROC)下的面积,是用来评价模型分类效果的重要 指标,ROC曲线可由假正例率
Figure BDA0002350015880000105
作为X轴,真正例率
Figure BDA0002350015880000106
作为Y轴制作图像获得,则 曲线下的面积为AUC的值。
本发明调用sklearn.metrics中的roc_auc_score工具包计算模型预测结果的AUC值。斯皮尔曼相关系 数(Spearman rank correlation coefficients,SRCC)它是衡量两个变量的依赖性的非参数指标,利用单调方 程评价两个统计变量的相关性,计算方式如下:
Figure BDA0002350015880000107
其中x表示两个变量中的一个,y表 示两个变量中的另一个,ρ越大表示两个变量的相关性越高,在本发明中表示真实类别与预测类别之间的 相关性,调用scipy.stats中的spearmanr工具包进行SRCC值的计算。
如表8所示,通过实验结果验证和比较,对于上述收集到的训练数据而言,发现各个分类算法在不同 的HLA分型上各有优势,不存在单一算法能够达到比其他算法都要好的结果,如RF在20个不同HLA分 型上AUC值表现最好,而CNN在17个不同HLA分型上AUC值表现也很好,LR在HLA-A*02:01和 HLA-A*26:01上F1值同样达到了最高值,为了能够使最终模型达到更准确的预测结果,所以本发明整合 了多个算法来构建分类模型,充分发挥不同算法在不同HLA分型上优势。
Figure BDA0002350015880000108
Figure BDA0002350015880000111
表8.中国人高频HLA分型在不同分类器上的验证结果比对
此表为33个HLA分型在五个机器学习分类器上的分类效果展示,每个分型中结果最好的加粗, RF:Random Forest随机森林模型;SVM:Support Vector Machine支持向量机模型;KNN:K-NearestNeighbor K近邻模型;LR:Logistic Regression逻辑回归模型,CNN:Convolutional Neural Networks卷积神经网络模 型。
四、机器学习框架搭建:
针对步骤(1)选择得到的33个分型和109935个数据,使用步骤(2)选择的Blosum50进行编码处理。每一 个9肽经过编码生成9*20的一维数据,编码过程示例如图4所示:
然后使用皮尔逊相关系数(Pearson Correlation Coefficient,PCC)计算每一个HLA分型所生成数值型矩阵的各 维度之间的相关性及各维度与类标签的相关性,根据相关性矩阵,计算每一维度强相关性(PCC>0.6)个数占所有 维度强相关性个数合的比例与其对应类标签相关性数值的和,将得到的一维权重矩阵与Blosum50转换后的数值型 矩阵相乘,得到最终的训练数据集,计算过程如图5所示:
N:某一HLA分型样本数;180:九肽转化为180维数据;PCC:皮尔逊相关系数;target:每个样本对应 的类别;Npcc>0.6:每一维相关性大于0.6的个数;W:每一维计算得到的权重;Mi:每一维与类别target 的相关性;Ni:每一维与另外179维相关性大于0.6的个数;B50×W:未进行相关性计算的矩阵(N*180) 的每一维乘以其对应的权重Wi
每一个分型对应的每一条肽段拥有一个表示两者关系的亲和力值(nM)。由于多肽和MHC分子的亲 和力需要达到一定的程度才能形成稳定的聚合物,实验提供的亲和力阈值为500nM,亲和力小于500nM 认为有亲和力(Sette et al.,1994)(Paul et al.,2013),所以本发明设定500nM为亲和力划分阈值,小于500nM 认为两者具有亲和力,大于500nM认为两者无亲和力,将MHC I类亲和力预测问题转换为机器学习中两 分类问题。本发明的随机森林算法针对所有数据量较多(大于1000)的HLA分型单独建立了亲和力预测 模型,卷积神经网络算法对所有HLA分型建立了模型。
随机森林框架搭建步骤如下:将Blosum50编码后的数据集选择80%作为训练集、20%作为测试集, 进行10折交叉验证,用来测试模型的准确性。具体做法是将数据集随机分成10份,每一次使用其中9份 作为训练集,剩余一份作为测试集,该过程重复10次,每次测试都会得到相应的准确率,10次结果的平 均值作为对模型精度的评估。
使用随机森林学习器进行训练,训练过程中会将经过转换的9*20维的数据中每一维作为一个特征进 行选择性学习,进而根据特征选择的优先性构建分类决策树,特征之间选择的优先级是根据C4.5生成算 法进行判定,C4.5算法是决策树生成的一种经典算法,给定一个数据集,其中的每一个元组都能用一组属 性值来描述,每一个元组属于一个互斥的类别中的某一类,C4.5算法的目标是通过学习,找到一个从属性 值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。
在随机森林学习过程中分类决策树的生成需要调节如下参数:弱分类器树(n_estimators)、决策树最 大深度(max_depth)、内部节点划分需最小样本数(min_samples_split)、叶子节点所含最少样本数 (min_samples_leaf),随机森林划分考虑的最大特征数(max_features)等。
为了得到上述参数的最佳数值,我们使用网格法进行穷举计算,本发明调用sklearn.model_selection中 的GridSearchCV工具包对各参数进行选择,具体做法是:第一、固定其他参数,将n_estimators值设定2 到201之间,以2为步长进行模型训练,得到模型准确率最高值时对应的n_estimators值;第二、将max_depth 和min_samples_split的值设定在2到21之间,以2为步长,固定其他参数进行模型训练,得到模型准确 率最高值时对应的max_depth和min_samples_split;第三、将min_samples_leaf和min_samples_split值设 定在2到21之间,以2为步长,固定其他参数进行模型训练,得到模型准确率最高值时对应的 min_samples_leaf和min_samples_split;第四、将max_features值设定在2到51之间,以2为步长进行模 型训练,得到模型准确率最高值时对应的max_features。经过四次网格穷举选择,最终确定随机森林模型 构建所需最佳参数。模型训练完成后使用每个分型剩余的20%数据进行测试。
C4.5决策树构建流程:
输入:训练数据集D,特征集A,阈值ε;
输出:决策树T
(1)如果D中所有的实例属于同一类Ck,则置T为单结点树,并将Ck作为该结点的类,返回T;
(2)如果
Figure BDA0002350015880000132
则置T为单结点树,并将D中的实例数最大的类Ck作为该结点的类,则返回T;
(3)否则,按公式
Figure BDA0002350015880000131
计算A中各特征对D的信息增益比,选择信息增益比最大的特征Ag
(4)如果Ag的信息增益比小于阈值ε,则置T为单结点树,并将D中实例数最大的类Ck作为该结点的类, 返回T;
(5)否则,对Ag的每一可能值ai,依Ag=ai将D分割为若干非空子集Di,将Di中的实例数最大的类作为 标记,构建子结点,由结点及其子结点构成树T,返回T;
(6)对结点i,以Di为训练集,以A-{Ag}为特征集,递归地调用步骤1)-步骤5),得到子树Ti,返回Ti
以上所述的随机森林模型只能在数据量足够多(大于1000)的HLA分型上进行模型构建,CNN弥补 了这种局限性。
CNN构建的MHC-pan模型通过加入假设序列解决了部分分型数据量过少而无法进行随机森林模型构 建的问题。
每一个HLA分型的假设序列由34个氨基酸组成,加上氨基酸个数为9的对应肽段(9肽),共得到 43个氨基酸,通过BLOSUM50将每一个氨基酸转换成长度为20的数据,如上所示。训练集和验证集分 别采用数据的80%、20%用于模型构建,并生成5个基模型,测试集使用IEDB数据库提供的标准数据 (benchmark)中的69个数据集(即对应69个HLA分型),取5个基模型训练结果的平均值作为最终预测值。
本发明CNN模型由2个1维卷积层,2个全连接层构成,CNN整个架构包括卷积层、嵌入层和全连 接层。卷积层保留了局部空间信息,因此非常适合多肽之间连接氨基酸的空间位置信息,嵌入层用20维 向量空间表示每个氨基酸,输出大小为43x20的二维矩阵,向量空间矩阵与32个大小为7的滤波器进行 一维卷积,并返回与输入数据相同的输出长度,从而得到大小为43×32的二维矩阵,激活函数使用的是带 泄露修正线性单元(LeakyReLU),默认学习率为0.3。dropout为正则化调节参数,通过在训练期间从CNN 随机丢弃一定比例的单位来防止模型过度拟合。使用的损失函数为二进制交叉熵函数,使用的优化器是学 习率为0.004的Adam优化器。模型的最大迭代次数设置为100,但是如果损失函数在2个迭代内停止改 进,则强制提前停止。
实验一,
为了比较和说明该发明的效果,我们将随机森林和卷积神经网络的组合作为本发明混合模型的实施例 (iNeo-PRED),测试IEDB数据提供的标准数据(Benchmark),与NetMHCpan软件进行对比。NetMHCpan 是目前公认较好且使用最为广泛的MHC亲和力预测工具(Jurtz et al.,2017)
如图2是33个中国人群高频HLA在本发明和NetMHCpan的F1值比较。
通过比对结果显示,本发明在中国人高频HLA分型上能够得到比NetMHCpan软件更好的多肽亲和力 预测效果。
随后又选取Benchmark数据集(标准数据集)中不同时间的65个HLA分型数据,用iNeo_PRED算 法进行预测,并与NetMHCpan2.8、NetMHCpan3.0、NetMHCpan4.0三个软件的预测结果相比较,详细结 果如下表9:
Figure BDA0002350015880000141
Figure BDA0002350015880000151
表9
说明:RF及CNN验证Benchmark上的多个HLA分型的预测结果。HLA分型:代表各HLA分型名 称;数据类型:各HLA分型数据的表现形式;时间:各HLA分型数据Benchmark收录时间;肽段总数: 各HLA分型内短肽数量;阳性肽总数:各HLA分型短肽数量中包含的阳性肽数量;iNeo-PRED:随机森 林模型与CNN模型的组合;pan2.8:NetMHCpan2.8,MHC亲和力预测软件版本2.8 (http://www.cbs.dtu.dk/services/NetMHCpan-2.8/);pan3.0: NetMHCpan3.0,MHC亲和力预测软件版本3.0 (www.cbs.dtu.dk/services/NetMHCpan- 3.0);Npan4.0:NetMHCpan4.0,MHC亲和力预测软件版本4.0 (http://www.cbs.dtu.dk/ services/NetMHCpan/)
可以看到本发明的分类效果在所有36个HLA分型上都优于NetMHCpan软件,多数分型有大幅度的 提升,对于不同数量的测试集同样也均达到了较好的效果,说明iNeo_PRED模型具有较高的稳定性,并 且在多个HLA分型上AUC达到了1。
实验二:
为了检验本发明中混合模型对新生抗原多肽疫苗与MHC分子亲和力预测的准确性,我们对之前的新 生抗原多肽疫苗治疗晚期肿瘤患者的临床试验(未使用本发明算法)进行了回顾性分析。
根据患者治疗后随访得到的免疫响应结果(外周血免疫细胞INFgamma的ELISpot实验结果),我们 在接受治疗的患者中选择了2例疗效较好的患者(T002和T005)和1例疗效较差的患者(T003),采用本 发明iNeo_PRED算法对这三例患者使用的多肽疫苗进行了多肽-MHC分子亲和力预测,并与实际临床响应 结果进行相关性分析。
这3例患者在临床试验阶段接受的多肽疫苗序列如表10所示:
Figure BDA0002350015880000152
Figure BDA0002350015880000161
表10
这3名患者对应的HLA I类分子分型如表11所示:
Figure BDA0002350015880000162
表11
表11中T002和T005两例患者在多肽疫苗在实际治疗过程中表现出较好的临床响应,说明预测的新 生抗原的确能够与MHC结合并被递呈至细胞表面,进一步激活T细胞,从而杀伤肿瘤细胞。患者接受疫 苗注射后的随访中的体外ELISpot实验结果也证明了这些多肽能够有效激活患者外周血T细胞。部分 ELISpot结果如表12所示:
Figure BDA0002350015880000171
表12
然而,在同一临床试验中,针对患者T003的多肽疫苗的实际疗效较差。这很可能是由于之前采用的 预测方法得到的新生抗原表位与MHC分子的亲和力的准确度不高造成的,多肽不能与MHC结合并被抗 原递呈细胞递呈至细胞表面,故而未能有效激活患者T细胞。患者接受疫苗注射后随访中的体外ELISpot 实验结果也证明了患者外周血T细胞无法有效识别这些疫苗多肽。部分ELISpot结果如表13所示:
Figure BDA0002350015880000172
Figure BDA0002350015880000181
表13
通过分析比较ELISpot实验中测得的斑点数量,在表12和表13的“结果判断”这一列中给出了表格中 对应的多肽是否能够与MHC结合并被抗原递呈细胞成功递呈至细胞表面,从而被患者T细胞有效识别并 成功激活T细胞的最终实验判定。阳性结果表示该条多肽包含了能与MHC分子有效结合的新生表位,对 患者外周血免疫细胞产生有效激活,具有免疫原性;阴性结果则表示该条多肽未包含能与MHC分子有效 结合的表位,不具有免疫原性或免疫原性不显著。
实验结果表明,尽管采用之前的预测模型在临床试验中能够正确地预测出针对T002和T005两例患者 的具有良好的MHC亲和力的多肽序列,产生良好免疫原性;但是针对患者T003进行预测得到的序列的免 疫原性与实际临床试验中测得的免疫原性不符,很可能是由于预测的多肽与MHC分子的实际亲和力较小, 未能实现抗原的有效递呈。
我们以这些回顾性分析数据为基础,采用之前预测方法所得到的多肽序列(表10)为待验证数据,对 本发明iNeo-PRED的预测效果进行检验。首先将上述用于治疗的长度为16-30个氨基酸的疫苗多肽序列切 分成为长度为8-11个氨基酸的短多肽序列,然后将这些短多肽序列与对应患者的HLA分型一起输入至本 发明的模型中进行预测,得到的结果如表14所示:
Figure BDA0002350015880000182
Figure BDA0002350015880000191
表14
我们分析了本发明iNeo-PRED预测得到的新生抗原表位数量与“ELISPOT结果判定”的相关性。从表 14可以看出,“ELISPOT结果判定”均为阳性的T002和T005患者多肽序列中包含的递呈表位(与MHC 亲和力为阳性的新生抗原表位)数量平均值大于16条,最少为8条。而表14中“ELISPOT结果判定”均为 阴性的T003患者多肽序列中包含的递呈表位数量几乎没有,最多的只有2条,其中有两条多肽的表位数 为0。
这表明本发明iNeo-PRED预测得到的表位数量与真实临床试验中免疫响应的结果具有更强的相关性, iNeo-PRED在实际测试中对验证数据有较好的区分度(Wilcoxon ranksum test p=0.001369),初步证明了本 发明iNeo-PRED能够更准确地预测新生抗原表位与MHC分子亲和力。
实验三,
我们开展了一项名为“基于新生抗原的个体化免疫治疗新技术用于晚期恶性肿瘤治疗的安全性和有效 性临床研究”,旨在评价新生抗原多肽疫苗用于标准治疗失败的晚期实体瘤患者的可行性、安全性和初步 有效性。通过该临床试验,我们进一步验证了本发明iNeo-PRED对新生抗原表位与MHC分子亲和力预测 的准确性。
截止2019年5月31日,共有22位受试者进入临床试验,受试者基本情况见表15。通过对获取的受 试者样本进行全外显子测序,根据测序得到的结果筛选了一批体细胞突变并预测出了这些突变对应的新生 多肽序列,然后通过本发明iNeo-PRED预测出其中与MHC分子亲和力强的新生抗原表位,再根据最终的 预测结果为每位受试者筛选出10条以上新生抗原多肽。按照临床使用标准进行多肽生产制备,最终为每 位受试者制备了7-20条多肽疫苗。
Figure BDA0002350015880000192
Figure BDA0002350015880000201
表15
受试者按计划接受5次基础免疫和多次加强免疫,我们对整个治疗过程都进行了免疫监测,包括 ELISpot实验和TCR测序实验。其中,通过ELISpot实验能够检测治疗后是否激活了新生抗原多肽特异性 T细胞,能够直接证明新生抗原亲合力预测的准确性。
结果显示,利用本发明iNeo-PRED预测得到的新生抗原表位设计多肽,21位受试者(P014因提前出组 除外)共有292条多肽用于临床给药,通过ELISpot实验检测发现,超过80%的多肽能够引起患者体内特 异的T细胞激活,同时21位受试者中有12位(57%)治疗后T细胞受体出现的新的克隆或原有丰度显著 增加(图3),这些结果都证明了iNeo-PRED在此次临床试验中准确预测了大多数患者肿瘤细胞内存在的 具有较强MHC亲和力、能够被抗原递呈细胞有效递呈给T细胞的新生抗原表位。
综上所述,本发明利用多个机器学习工具的组合实现了肿瘤新生抗原预测中MHC分子与新生抗原表 位结合与否的判断,在标准数据和实施例中验证了实际临床应用效果,证明其可以准确预测患者肿瘤中的 新生抗原。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不 以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围 内。
序列表
<110> 杭州纽安津生物科技有限公司
<120> 一种HLA I型分子与多肽的亲和力预测方法
<141> 2019-12-30
<160> 19
<170> SIPOSequenceListing 1.0
<210> 1
<211> 16
<212> PRT
<213> Artificial Sequence
<400> 1
His Ser Val Thr Asp Thr Val Asp Tyr Ser Leu Ala Met Pro Gly Ser
1 5 10 15
<210> 2
<211> 28
<212> PRT
<213> Artificial Sequence
<400> 2
Ala Asp Ala Ser His Cys Ile Gln Gln Ile Leu Glu Ala Ala Thr Leu
1 5 10 15
Pro Ser Asp Gly Arg Gly Pro Ser Gly Pro Glu Ala
20 25
<210> 3
<211> 25
<212> PRT
<213> Artificial Sequence
<400> 3
Glu Ser Lys Glu Pro Lys Glu Glu Lys Gln Trp Arg Arg Cys Lys Pro
1 5 10 15
Lys Lys Pro Thr Arg Arg Asp Ala Ser
20 25
<210> 4
<211> 25
<212> PRT
<213> Artificial Sequence
<400> 4
Gln Asn Met Tyr Arg Gly Tyr Arg Pro Arg Phe Arg Arg Gly Pro Leu
1 5 10 15
Arg Gln Arg Gln Pro Arg Glu Asp Gly
20 25
<210> 5
<211> 25
<212> PRT
<213> Artificial Sequence
<400> 5
Ala Gly Gly Leu Ala Glu Gly Ala Gly Ala Leu Ala Pro Pro Pro Leu
1 5 10 15
Pro Pro Gln Ile Lys Val Glu Pro Ile
20 25
<210> 6
<211> 27
<212> PRT
<213> Artificial Sequence
<400> 6
His Glu Ser Gln Val Tyr Thr Leu Asp Val Pro Asp Ala Phe Tyr Tyr
1 5 10 15
Ser Tyr Ser Pro Asp Pro Gly Asn Ala Lys Gly
20 25
<210> 7
<211> 23
<212> PRT
<213> Artificial Sequence
<400> 7
Leu Pro His Pro Arg Arg Arg Glu Ala Pro Gly Ser Leu Pro Leu Ser
1 5 10 15
Pro Arg Gly His Cys Pro Pro
20
<210> 8
<211> 23
<212> PRT
<213> Artificial Sequence
<400> 8
His Ala Gly Gly Asn Glu Lys Leu Val Met Leu Glu Ser Gly Leu Lys
1 5 10 15
Val Tyr Gly Gly Asp Asp Arg
20
<210> 9
<211> 30
<212> PRT
<213> Artificial Sequence
<400> 9
His Arg Pro Leu Tyr Gln Pro Met Gln Pro His Pro Gln His Leu Pro
1 5 10 15
Ser Met Gly Phe Asp Pro Arg Trp Leu Met Met Gln Ser Tyr
20 25 30
<210> 10
<211> 24
<212> PRT
<213> Artificial Sequence
<400> 10
Arg Arg Ala Gln Ser Ala Leu Ala Gln Leu Arg Gly Ile Leu Glu Glu
1 5 10 15
Glu Leu Glu Gly Ile Cys Gly Ala
20
<210> 11
<211> 27
<212> PRT
<213> Artificial Sequence
<400> 11
Gln Gln Asp Leu His Gly Gly Ala Gln Leu Arg Gly Pro Gly Ala Pro
1 5 10 15
Gly His Arg Ala Val Arg Gln Pro Trp Arg Pro
20 25
<210> 12
<211> 21
<212> PRT
<213> Artificial Sequence
<400> 12
Glu Asp Gln Asn Thr Gly Ala Ile Glu Asn Ile Ile Val Glu Val Lys
1 5 10 15
Lys Arg Ala Arg Cys
20
<210> 13
<211> 30
<212> PRT
<213> Artificial Sequence
<400> 13
Ser Lys Gly His Ile Ile His Phe Lys Ser Ala Ile Glu Lys Phe Thr
1 5 10 15
His Asp Tyr Ile Asn Leu Phe His Phe Pro Pro Leu Ile Lys
20 25 30
<210> 14
<211> 27
<212> PRT
<213> Artificial Sequence
<400> 14
Ala Gln Leu Gln Gly Pro Val His Arg Asn Pro Thr Tyr Leu Pro Arg
1 5 10 15
Tyr Arg Ser Arg Gly Pro Pro Arg Pro Arg Pro
20 25
<210> 15
<211> 25
<212> PRT
<213> Artificial Sequence
<400> 15
Leu Ser Ala Pro Arg Tyr Met Asp Leu Leu Met Asp Trp Ile Glu Glu
1 5 10 15
Gln Ile Asn Asn Glu Asp Leu Phe Pro
20 25
<210> 16
<211> 28
<212> PRT
<213> Artificial Sequence
<400> 16
Gly Lys Ala Leu Pro His Arg Gln Asp Pro Cys Gly Gln Asn Pro Gly
1 5 10 15
Gly Pro Gly Gly Arg Val Leu Glu Pro Leu Pro Asp
20 25
<210> 17
<211> 30
<212> PRT
<213> Artificial Sequence
<400> 17
Lys Arg Arg Pro Arg Ser Leu Leu Glu Lys Leu Arg Trp Val Thr Leu
1 5 10 15
Gly Tyr His Tyr Asn Trp Asp Ser Lys Lys Tyr Ser Ala Asp
20 25 30
<210> 18
<211> 29
<212> PRT
<213> Artificial Sequence
<400> 18
Ser Gly Ala Leu Pro Phe Pro Ser Pro Gly Pro Pro Gln Pro Pro Pro
1 5 10 15
Pro Pro Leu Ala Tyr Gly Pro Ala Pro Ser Thr Arg Pro
20 25
<210> 19
<211> 30
<212> PRT
<213> Artificial Sequence
<400> 19
Leu Tyr Glu Arg Gln Pro Phe Pro Asp Asn Tyr Val Asp Arg Leu Phe
1 5 10 15
Leu Glu Glu Leu Arg Lys Asn Ile His Ala Arg Lys Tyr Gln
20 25 30

Claims (9)

1.一种HLA I型分子与多肽的亲和力预测方法,其特征在于,包括如下内容:
一,选择数据集;
1)整合数据库,
通过IEDB数据库、临床验证数据和医学文献的调研以及实验产生的数据,共获得147321条多肽序列,多肽长度为8-11个氨基酸;
2)进一步筛选,
只选择肽段长度为9的数据集,最后得到109935条多肽数据,作为学习器的训练集;
二,对多肽序列进行编码;
收集获得的多肽序列用A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V这20个字母表示;
对多肽序列进行量化,通过编码将多肽序列转换为数值型常量;编码方式包括:Blosum矩阵,HLA-Vec,独热编码;
三,选择学习器,
将多个学习器进行整合,得到混合学习器;所述学习器包括:整合随机森林(RF),卷积神经网络(CNN),人工神经网络(ANN),支持向量机(SVM),逻辑回归模型(LR),K近邻模型(KNN);
四,搭建机器学习框架,
将多肽序列编码完成后生成的数据使用皮尔逊相关系数计算每一个HLA分型所生成数值型矩阵的各维度之间的相关性及各维度与类标签的相关性,根据相关性矩阵,计算每一维度强相关性(PCC>0.6)个数占所有维度强相关性个数合的比例与其对应类标签相关性数值的和,将得到的一维权重矩阵与Blosum转换后的数值型矩阵相乘,得到最终的训练数据集;
设定500nM为亲和力划分阈值,小于500nM认为两者具有亲和力,大于500nM认为两者无亲和力,将MHC I类亲和力预测问题转换为机器学习中两分类问题;
将Blosum编码后的数据集选择80%作为训练集、20%作为测试集,进行10折交叉验证,用来测试模型的准确性;
使用学习器进行训练,模型训练完成后使用每个分型剩余的20%数据进行测试。
2.根据权利要求1所述的一种HLA I型分子与多肽的亲和力预测方法,其特征在于,所述Blosum矩阵为Blosum50编码矩阵。
3.根据权利要求1所述的一种HLA I型分子与多肽的亲和力预测方法,其特征在于,所述独热编码包括:One-hot独热编码,One-hot_0.9独热编码。
4.根据权利要求1所述的一种HLA I型分子与多肽的亲和力预测方法,其特征在于,
三,选择学习器,
学习器为整合随机森林和卷积神经网络两种学习器的混合学习器;
以python3.6作为程序编程语言,调用其机器学习工具包scikit-learn(sklearn)、Keras进行模型构建。
5.根据权利要求4所述的一种HLA I型分子与多肽的亲和力预测方法,其特征在于,卷积神经网络模型包括:2个1维卷积层,嵌入层和2个全连接层;
所述卷积层保留了局部空间信息,适合多肽之间连接氨基酸的空间位置信息;
嵌入层用20维向量空间表示每个氨基酸,输出大小为43x20的二维矩阵,向量空间矩阵与32个大小为7的滤波器进行一维卷积,并返回与输入数据相同的输出长度,从而得到大小为43×32的二维矩阵,激活函数使用的是带泄露修正线性单元(LeakyReLU),默认学习率为0.3;全连接层dropout为正则化调节参数,通过在训练期间从CNN随机丢弃25%的单位来防止模型过度拟合;
使用的损失函数为二进制交叉熵函数,使用的优化器是学习率为0.004的Adam优化器,模型的最大迭代次数设置为100;若损失函数在2个迭代内停止改进,则强制提前停止。
6.根据权利要求4所述的一种HLA I型分子与多肽的亲和力预测方法,其特征在于,所述随机森林学习器的训练过程中会将经过转换的9*20维的数据中每一维作为一个特征进行选择性学习,进而根据特征选择的优先性构建分类决策树,特征之间选择的优先级是根据决策树构建的生成算法进行判定;
在随机森林学习过程中分类决策树的生成需要调节如下参数:弱分类器树(n_estimators)、决策树最大深度(max_depth)、内部节点划分需最小样本数(min_samples_split)、叶子节点所含最少样本数(min_samples_leaf),随机森林划分考虑的最大特征数(max_features);
调节参数使用网格法进行穷举计算,调用sklearn.model_selection中的GridSearchCV工具包对各参数进行选择。
7.根据权利要求1所述的一种HLA I型分子与多肽的亲和力预测方法,其特征在于,10折交叉验证的具体做法是:将数据集随机分成10份,每一次使用其中9份作为训练集,剩余一份作为测试集,该过程重复10次,每次测试都会得到相应的准确率,10次结果的平均值作为对模型精度的评估。
8.根据权利要求1所述的一种HLA I型分子与多肽的亲和力预测方法,其特征在于,
决策树构建的具体流程为:
输入:训练数据集D,特征集A,阈值ε;
输出:决策树T;
1)如果D中所有的实例属于同一类Ck,则置T为单结点树,并将Ck作为该结点的类,返回T;
2)如果
Figure FDA0002350015870000021
则置T为单结点树,并将D中的实例数最大的类Ck作为该结点的类,则返回T;
3)否则,按公式
Figure FDA0002350015870000031
计算A中各特征对D的信息增益比,选择信息增益比最大的特征Ag
4)如果Ag的信息增益比小于阈值ε,则置T为单结点树,并将D中实例数最大的类Ck作为该结点的类,返回T;
5)否则,对Ag的每一可能值ai,依Ag=ai将D分割为若干非空子集Di,将Di中的实例数最大的类作为标记,构建子结点,由结点及其子结点构成树T,返回T;
6)对结点i,以Di为训练集,以A-{Ag}为特征集,递归地调用步骤1)-步骤5),得到子树Ti,返回Ti
9.根据权利要求1所述的一种HLAI型分子与多肽的亲和力预测方法,其特征在于,
调节参数使用网格法进行穷举计算,调用sklearn.model_selection中的GridSearchCV工具包对各参数进行选择,具体过程是:
第一,固定其他参数,将n_estimators值设定2到201之间,以2为步长进行模型训练,得到模型准确率最高值时对应的n_estimators值;
第二,将max_depth和min_samples_split的值设定在2到21之间,以2为步长,固定其他参数进行模型训练,得到模型准确率最高值时对应的max_depth和min_samples_split;
第三,将min_samples_leaf和min_samples_split值设定在2到21之间,以2为步长,固定其他参数进行模型训练,得到模型准确率最高值时对应的min_samples_leaf和min_samples_split;
第四,将max_features值设定在2到51之间,以2为步长进行模型训练,得到模型准确率最高值时对应的max_features;
经过四次网格穷举选择,最终确定随机森林模型构建所需最佳参数。
CN201911411222.1A 2019-12-31 2019-12-31 一种hlai型分子与多肽的亲和力预测方法 Active CN111105843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911411222.1A CN111105843B (zh) 2019-12-31 2019-12-31 一种hlai型分子与多肽的亲和力预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911411222.1A CN111105843B (zh) 2019-12-31 2019-12-31 一种hlai型分子与多肽的亲和力预测方法

Publications (2)

Publication Number Publication Date
CN111105843A true CN111105843A (zh) 2020-05-05
CN111105843B CN111105843B (zh) 2023-07-21

Family

ID=70424530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911411222.1A Active CN111105843B (zh) 2019-12-31 2019-12-31 一种hlai型分子与多肽的亲和力预测方法

Country Status (1)

Country Link
CN (1) CN111105843B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951887A (zh) * 2020-07-27 2020-11-17 深圳市新合生物医疗科技有限公司 基于深度学习的白细胞抗原与多肽结合亲和力预测方法
CN112002374A (zh) * 2020-06-14 2020-11-27 北京臻知医学科技有限责任公司 基于深度学习的mhc-i表位亲和力预测方法
CN112331262A (zh) * 2021-01-06 2021-02-05 北京百度网讯科技有限公司 亲和度预测方法及模型的训练方法、装置、设备及介质
CN113762416A (zh) * 2021-10-15 2021-12-07 南京澄实生物科技有限公司 基于多模态深度编码的抗原免疫原性预测方法和系统
CN113762417A (zh) * 2021-10-15 2021-12-07 南京澄实生物科技有限公司 基于深度迁移的对hla抗原呈递预测系统的增强方法
CN113807468A (zh) * 2021-10-15 2021-12-17 南京澄实生物科技有限公司 基于多模态深度编码的hla抗原呈递预测方法和系统
CN113936748A (zh) * 2021-11-17 2022-01-14 西安电子科技大学 基于集成学习的分子识别特征功能预测方法
CN114093427A (zh) * 2021-11-12 2022-02-25 杭州电子科技大学 一种基于深度学习和机器学习的抗病毒肽预测方法
WO2022121973A1 (zh) * 2020-12-09 2022-06-16 江苏恒瑞医药股份有限公司 基于机器学习的肽免疫原性预测、鉴别系统及方法
CN114743591A (zh) * 2022-03-14 2022-07-12 中国科学院深圳理工大学(筹) 一种mhc可结合肽链的识别方法、装置及终端设备
CN115588462A (zh) * 2022-09-15 2023-01-10 哈尔滨工业大学 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法
KR102547350B1 (ko) * 2022-01-11 2023-06-23 주식회사 네오젠티씨 인간 백혈구 항원의 타입을 결정하기 위한 방법 및 장치
CN116469457A (zh) * 2023-06-14 2023-07-21 普瑞基准科技(北京)有限公司 Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置
CN116564416A (zh) * 2023-07-12 2023-08-08 中国农业科学院蜜蜂研究所 一种基于分段融合的ace抑制小肽筛选方法及其应用
CN116646075A (zh) * 2023-05-23 2023-08-25 天津大学 基于随机森林的脓毒症肾衰竭早期预测系统
CN117457079A (zh) * 2023-11-21 2024-01-26 四川大学 基于简并编码及深度学习的mhc预测模型构建方法及系统
CN117744540A (zh) * 2024-02-19 2024-03-22 青岛哈尔滨工程大学创新发展中心 水下无人航行器的水下作业水动力特性趋势预测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005038000A2 (en) * 2003-10-17 2005-04-28 Pecos Labs, Inc. T cell epitopes useful in mycobacterium tuberculosis vaccine and as diagnostic tools and methods for identifying same
US20150197571A1 (en) * 2012-08-03 2015-07-16 Dana-Farber Cancer Institute, Inc. Single Agent Anti-PD-L1 and PD-L2 Dual Binding Antibodies and Methods of Use
US20160002732A1 (en) * 2012-12-03 2016-01-07 Almac Diagnostics Limited Molecular diagnostic test for cancer
CA3022390A1 (en) * 2016-04-29 2017-11-02 Oncoimmunity As Machine learning algorithm for identifying peptides that contain features positively associated with natural endogenous or exogenous cellular processing, transportation and major histocompatibility complex (mhc) presentation
CN109021062A (zh) * 2018-08-06 2018-12-18 倍而达药业(苏州)有限公司 一种肿瘤新抗原的筛选方法
CN109584966A (zh) * 2019-01-08 2019-04-05 杭州纽安津生物科技有限公司 一种肿瘤通用疫苗的设计方法及其在胰腺癌的应用
KR20190037425A (ko) * 2017-09-29 2019-04-08 사회복지법인 삼성생명공익재단 소화기암 환자의 면역치료 반응성 예측용 cish 마커 및 이의 용도
CN109671469A (zh) * 2018-12-11 2019-04-23 浙江大学 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法
CN110277135A (zh) * 2019-08-10 2019-09-24 杭州新范式生物医药科技有限公司 一种基于预期疗效选择个体化肿瘤新抗原的方法和系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005038000A2 (en) * 2003-10-17 2005-04-28 Pecos Labs, Inc. T cell epitopes useful in mycobacterium tuberculosis vaccine and as diagnostic tools and methods for identifying same
US20150197571A1 (en) * 2012-08-03 2015-07-16 Dana-Farber Cancer Institute, Inc. Single Agent Anti-PD-L1 and PD-L2 Dual Binding Antibodies and Methods of Use
US20160002732A1 (en) * 2012-12-03 2016-01-07 Almac Diagnostics Limited Molecular diagnostic test for cancer
CA3022390A1 (en) * 2016-04-29 2017-11-02 Oncoimmunity As Machine learning algorithm for identifying peptides that contain features positively associated with natural endogenous or exogenous cellular processing, transportation and major histocompatibility complex (mhc) presentation
KR20190037425A (ko) * 2017-09-29 2019-04-08 사회복지법인 삼성생명공익재단 소화기암 환자의 면역치료 반응성 예측용 cish 마커 및 이의 용도
CN109021062A (zh) * 2018-08-06 2018-12-18 倍而达药业(苏州)有限公司 一种肿瘤新抗原的筛选方法
CN109671469A (zh) * 2018-12-11 2019-04-23 浙江大学 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法
CN109584966A (zh) * 2019-01-08 2019-04-05 杭州纽安津生物科技有限公司 一种肿瘤通用疫苗的设计方法及其在胰腺癌的应用
CN110277135A (zh) * 2019-08-10 2019-09-24 杭州新范式生物医药科技有限公司 一种基于预期疗效选择个体化肿瘤新抗原的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHONGHAO LIU ET AL.: "DeepSeqPan, a novel deep convolutional neural network model for pan-specific class I HLApeptide binding affinity prediction" *
李朝: "特异性蛋白质与多肽相互作用预测研究" *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112002374A (zh) * 2020-06-14 2020-11-27 北京臻知医学科技有限责任公司 基于深度学习的mhc-i表位亲和力预测方法
CN111951887A (zh) * 2020-07-27 2020-11-17 深圳市新合生物医疗科技有限公司 基于深度学习的白细胞抗原与多肽结合亲和力预测方法
WO2022121973A1 (zh) * 2020-12-09 2022-06-16 江苏恒瑞医药股份有限公司 基于机器学习的肽免疫原性预测、鉴别系统及方法
CN112331262A (zh) * 2021-01-06 2021-02-05 北京百度网讯科技有限公司 亲和度预测方法及模型的训练方法、装置、设备及介质
CN113762416A (zh) * 2021-10-15 2021-12-07 南京澄实生物科技有限公司 基于多模态深度编码的抗原免疫原性预测方法和系统
CN113762417A (zh) * 2021-10-15 2021-12-07 南京澄实生物科技有限公司 基于深度迁移的对hla抗原呈递预测系统的增强方法
CN113807468A (zh) * 2021-10-15 2021-12-17 南京澄实生物科技有限公司 基于多模态深度编码的hla抗原呈递预测方法和系统
CN113762416B (zh) * 2021-10-15 2023-05-30 南京澄实生物科技有限公司 基于多模态深度编码的抗原免疫原性预测方法和系统
CN114093427A (zh) * 2021-11-12 2022-02-25 杭州电子科技大学 一种基于深度学习和机器学习的抗病毒肽预测方法
CN113936748A (zh) * 2021-11-17 2022-01-14 西安电子科技大学 基于集成学习的分子识别特征功能预测方法
WO2023136486A1 (ko) * 2022-01-11 2023-07-20 주식회사 네오젠티씨 인간 백혈구 항원의 타입을 결정하기 위한 방법 및 장치
KR102547350B1 (ko) * 2022-01-11 2023-06-23 주식회사 네오젠티씨 인간 백혈구 항원의 타입을 결정하기 위한 방법 및 장치
CN114743591A (zh) * 2022-03-14 2022-07-12 中国科学院深圳理工大学(筹) 一种mhc可结合肽链的识别方法、装置及终端设备
CN115588462A (zh) * 2022-09-15 2023-01-10 哈尔滨工业大学 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法
CN116646075A (zh) * 2023-05-23 2023-08-25 天津大学 基于随机森林的脓毒症肾衰竭早期预测系统
CN116469457A (zh) * 2023-06-14 2023-07-21 普瑞基准科技(北京)有限公司 Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置
CN116469457B (zh) * 2023-06-14 2023-10-13 普瑞基准科技(北京)有限公司 Mhc与抗原多肽结合、呈递及免疫原性的预测模型训练方法和装置
CN116564416A (zh) * 2023-07-12 2023-08-08 中国农业科学院蜜蜂研究所 一种基于分段融合的ace抑制小肽筛选方法及其应用
CN116564416B (zh) * 2023-07-12 2023-09-15 中国农业科学院蜜蜂研究所 一种基于分段融合的ace抑制小肽筛选方法及其应用
CN117457079A (zh) * 2023-11-21 2024-01-26 四川大学 基于简并编码及深度学习的mhc预测模型构建方法及系统
CN117744540A (zh) * 2024-02-19 2024-03-22 青岛哈尔滨工程大学创新发展中心 水下无人航行器的水下作业水动力特性趋势预测方法
CN117744540B (zh) * 2024-02-19 2024-04-30 青岛哈尔滨工程大学创新发展中心 水下无人航行器的水下作业水动力特性趋势预测方法

Also Published As

Publication number Publication date
CN111105843B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN111105843B (zh) 一种hlai型分子与多肽的亲和力预测方法
DeWitt III et al. Human T cell receptor occurrence patterns encode immune history, genetic background, and receptor specificity
JP7459159B2 (ja) Mhcペプチド結合予測のためのgan-cnn
CN109671469B (zh) 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法
CN109036553B (zh) 一种基于自动抽取医疗专家知识的疾病预测方法
CN112639831A (zh) 互信息对抗自动编码器
CN112071361B (zh) 基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法
US20070005257A1 (en) Bayesian network frameworks for biomedical data mining
CN114446389B (zh) 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用
CN113762417B (zh) 基于深度迁移的对hla抗原呈递预测系统的增强方法
CN114420211A (zh) 一种基于注意力机制的rna-蛋白质结合位点预测方法
US11749377B2 (en) Method and electronic system for predicting at least one fitness value of a protein, related computer program product
CN111429965A (zh) 一种基于多连体特征的t细胞受体对应表位预测方法
CN117292753A (zh) 基于生物信息的单核苷酸变异致病性分类方法及系统
Sha et al. DeepSADPr: A hybrid-learning architecture for serine ADP-ribosylation site prediction
CN113838570A (zh) 一种基于深度学习的宫颈癌自洽分型方法和系统
CN113807468B (zh) 基于多模态深度编码的hla抗原呈递预测方法和系统
CN112908421B (zh) 肿瘤新生抗原预测方法、装置、设备及介质
Zhao et al. Cox survival analysis of microarray gene expression data using correlation principal component regression
CN115798592A (zh) 抗原呈递预测模型的训练方法及其预测方法、设备和介质
Jia et al. The computational prediction methods for linear b-cell epitopes
Källberg et al. An improved machine learning protocol for the identification of correct Sequest search results
Tong A Comprehensive Comparison of Neural Network-Based Feature Selection Methods in Biological Omics Datasets
Habermann Computational methods to detect HLA-associated mutations
Ding et al. Latent Space Inference For Spatial Transcriptomics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant