CN109671469B - 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 - Google Patents
基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 Download PDFInfo
- Publication number
- CN109671469B CN109671469B CN201811511026.7A CN201811511026A CN109671469B CN 109671469 B CN109671469 B CN 109671469B CN 201811511026 A CN201811511026 A CN 201811511026A CN 109671469 B CN109671469 B CN 109671469B
- Authority
- CN
- China
- Prior art keywords
- polypeptide
- hla type
- predicted
- binding
- affinity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 67
- 102000004196 processed proteins & peptides Human genes 0.000 title claims abstract description 66
- 229920001184 polypeptide Polymers 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 81
- 238000013145 classification model Methods 0.000 claims abstract description 28
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 239000010410 layer Substances 0.000 claims description 39
- 150000001413 amino acids Chemical class 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 241000288105 Grus Species 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 12
- 206010028980 Neoplasm Diseases 0.000 description 9
- 239000013598 vector Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 239000000427 antigen Substances 0.000 description 4
- 102000036639 antigens Human genes 0.000 description 4
- 108091007433 antigens Proteins 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000009169 immunotherapy Methods 0.000 description 2
- 239000003446 ligand Substances 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000002619 cancer immunotherapy Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000007482 whole exome sequencing Methods 0.000 description 1
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于循环神经网络预测多肽与HLA I型分子之间结合关系与结合亲和力的方法,包括:构建两个训练集,其中,训练集1包括多个由多肽‑HLA I型序列及其亲和力组成的训练样本;训练集2包括多个由多肽‑HLA I型序列及其结合关系组成的训练样本;以双向GRU或带有注意力机制的双向GRU为基础,再加一个Sigmoid函数作为输出层组成预测网络,利用训练集1和训练集2训练预测网络,获得回归模型和分类模型;将待预测的多肽‑HLA I型序列输入至回归模型和分类模型,经计算获得多肽与HLA I型之间的预测亲和力数值。该方法能够快速较准确地预测多肽与HLA I型分子之间结合亲和力或结合关系。
Description
技术领域
本发明属于计算机辅助生物分子结合领域,具体涉及一种基于循环神经网络预测多肽与HLA I型分子之间结合关系与结合亲和力的方法。
背景技术
随着对肿瘤研究的不断深入,肿瘤新抗原作为肿瘤免疫治疗的靶点以及疗效的指标已经得到了广泛的认可。然而,识别有效的肿瘤新抗原是一个巨大的挑战。
目前,全外显子组测序结合生物信息学方法已经广泛地应用于潜在新抗原的预测。现有文献报道的用于肿瘤新抗原预测的全流程集成软件有TSNAD(参见文献Zhou,Z.etal.(2017)TSNAD:An integrated software for cancer somatic mutation and tumour-specific neoantigen detection.R.Soc.Open Sci.,4,170050),pVAC-Seq(参见文献Hundal,J.et al.(2016)pVAC-Seq:A genome-guided in silico approach toidentifying tumor neoantigens.Genome Med.,8,11)和INTERGATE-neo(参见文献Zhang,J.et al.(2017)INTEGRATE-neo:A pipeline for personalized gene fusionneoantigen discovery.Bioinformatics,33,555–557)。这些软件的最关键部分是多肽与HLA分子之间结合亲和力的预测。目前已有的用于多肽-HLA结合亲和力预测的方法有NetMHCpan(参见文献Jurtz,V.et al.(2017)NetMHCpan-4.0:Improved Peptide–MHCClass I Interaction Predictions Integrating Eluted Ligand and Peptide BindingAffinity Data.J.Immunol.,ji1700893),PickPocket(参见文献Zhang,H.et al.(2009)The PickPocket method for predicting binding specificities for receptorsbased on receptor pocket similarities:Application to MHC-peptidebinding.Bioinformatics,25,1293–1299),PSSMHCpan(参见文献Liu,G.et al.(2017)PSSMHCpan:A novel PSSM-based software for predicting class I peptide-HLAbinding affinity.Gigascience,6,1–11),HLA-CNN(参见文献Vang,Y.S.and Xie,X.(2017)HLA class I binding prediction via convolutional neuralnetworks.Bioinformatics,33,2658–2665)等。
但是,实验结果表明,现有的工具由于假阳性率过高,不足以用于临床的新抗原预测。因此有必要研发新方法用于多肽-HLA结合亲和力的预测,从而促进肿瘤免疫治疗的发展。
发明内容
本发明的目的是提供一种预测多肽与HLA I型分子之间结合关系与结合亲和力的方法,该方法简称为DeepHLApan。该方法基于深度学习中的循环神经网络(RecurrentNeural Network,RNN),能够快速较准确地预测多肽与HLA I型分子之间的亲和力数值和结合关系。
为实现上述发明目的,本发明提供以下技术方案:
一种预测多肽与HLA I型分子之间结合关系与结合亲和力的方法,包括以下步骤:
构建第一训练集和的第二训练集,其中,第一训练集包括多个由多肽-HLA I型序列、多肽与HLA I型之间的亲和力组成的训练样本;第二训练集包括多个由多肽-HLA I型序列、多肽与HLA I型之间的结合关系组成的训练样本,还包括多个由多肽-HLA I型序列、多肽与HLA I型之间的亲和力组成的训练样本;
以双向GRU(Gated Recurrent Unit,一种基础的RNN变体)或带有注意力机制的双向GRU为基础,再加一个Sigmoid函数作为输出层,组成预测网络,利用第一训练集和第二训练集对预测网络进行训练,获得回归模型和分类模型;
将待预测的多肽-HLA I型序列输入至回归模型和分类模型中,经计算获得多肽与HLA I型之间的预测亲和力和多肽与HLA I型之间的预测结合关系。
该方法通过训练样本训练神经网路,获得能够很好学习训练样本特性的回归模型和分类模型,然后利用回归模型和分类模型学习时确定的模型参数对待预测的多肽-HLA I型序列进行预测,获得多肽与HLA I型之间的预测亲和力和多肽与HLA I型之间的预测结合关系。
为了获得更稳定精准的预测模型,优选地,以三层双向GRU或带有注意力机制的三层双向GRU为基础网络。三层的双向GRU和带有注意力机制的三层双向GRU的网络结构较深,能够更深度地学习训练样本的特性,确定更准确的模型参数。
为了优化回归模型的回归结果,即获得更准确的多肽与HLA I型之间的亲和力,还包括用于优化多肽与HLA I型之间的亲和力数值的全连接层;
训练时,以回归模型和分类模型对第一训练集中训练样本进行预测,输出的多肽与HLA I型之间的预测亲和力和多肽与HLA I型之间的预测结合关系作为全连接层的输入,以第一训练集中训练样本的亲和力数值作为全连接层的输出,以预测值和真实值之间的均方误差作为优选目标,对全连接层进行优化训练,确定全连接层参数;
应用时,若只需得到多肽与HLA I型之间的结合关系,将待预测的多肽-HLA I型序列输入至分类模型中,经计算获得多肽与HLA I型之间的预测结合关系;若想得到具体的亲和力数值,将待预测的多肽-HLA I型序列输入至回归模型和分类模型中,经计算获得多肽与HLA I型之间的预测亲和力和多肽与HLA I型之间的预测结合关系,并将该预测亲和力数值和预测结合关系输入至训练好的全连接层中,输出最终的多肽与HLA I型之间的预测亲和力数值。
全连接层能够根据训练样本对应的亲和力数据和结合关系数据对回归模型的输出结果进行优化,获得更准确的预测亲和力。
优选地,所述全连接层为由20个神经元组成的单层神经网络。
在训练样本和测试样本输入至模型前,需要对样本进行预处理,以适应模型的输入数据的格式要求。具体地,所述多肽-HLA I型序列由多肽和-HLA I型分子顺序连接而成,若序列长度小于49,则在连接后的序列后面添加虚拟氨基酸‘X’,使序列长度达到49。
再者,采用PSSM、稀疏编码或word2vec对多肽-HLA I型序列中氨基酸进行向量表示,获得能够直接输入至基础网络的训练样本。
PSSM最初的计算方法是在给定HLA分型的情况下,对与该分型结合的多肽中每个残基位置上不同氨基酸的频率进行计算。本发明不对单个HLA分型分别计算PSSM,而是对整个数据集中所有多肽进行PSSM的计算。每个位置上不同氨基酸的PSSM值由以下公式计算:
其中Pap表示位置p上氨基酸a的PSSM值,Fap表示位置p上氨基酸a的频率;ω表示Dirichlet分布的值;BGa表示来自Ensembl数据库的氨基酸a的频率。根据公式得到的是20个常用氨基酸在不同位置的PSSM值,在数据输入时添加的虚拟氨基酸‘X’在每个位置上的PSSM值均为0。
稀疏编码也称为one-hot编码。本发明中稀疏编码是将20个常用氨基酸和1个虚拟氨基酸‘X’替换为一个长度为21的向量,其中只有一个位置为1,其他位置均为0,不同氨基酸所代表的向量互不相同。
word2vec是一个用于获取词向量的工具包,本发明利用该工具分别对训练集中的多肽序列进行氨基酸的向量表示。
本发明在Long Short-Term Memory(LSTM,一种基础的RNN变体)和GRU上,对氨基酸的向量表示进行了研究,发现稀疏编码的方法在测试集上的总体性能更好一些,但是在测试集的单独数据集上,PSSM的表现更好,在综合考虑结果之后,优选地,采用PSSM对多肽-HLA I型序列中氨基酸进行向量表示,获得能够直接输入至基础网络的训练样本。
优选地,回归模型输出的由0~1之间的小数,经预设的映射关系形成具体的预测亲和力数值;
分类模型输出的由0~1之间的小数,经预设的分类阈值形成具体的预测结合关系。
在训练和预测时,GRU的输出矩阵经Sigmoid函数(一种激活函数,用于隐层神经元输出)处理后,输出0~1之间的小数,该小数根据预设的映射关系映射处理后形成具体的亲和力数值,或根据预测的分类阈值分类处理后输出用0和1表示的结合关系,其中,0表示不结合,1表示结合。映射关系和分类阈值依实际情况设定,在此不受限制。
本发明具有的有益效果为:
本发明利用循环神经网络建立分类模型、回归模型以及优化全连接层,能够准确预测多肽与HLA I型之间的结合关系和结合力,该预测方法能够应用到肿瘤患者的新抗原预测,为癌症免疫治疗提供治疗靶点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的预测多肽与HLA I型分子之间结合亲和力的流程框图;
图2是实施例提供的网络模型和其他预测软件的ROC曲线图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
本实施例提供的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法,包括预测模型构建和预测应用两个阶段。具体地,预测模型构建包括训练集构建、模型建立和模型训练三个过程。
针对训练集构建:
首先,从公共数据库IEDB、SYFPEITHI、MHCBN和AntiJen等中获取HLA I类等位基因和肽之间的结合数据。从AntiJen和SYFPEITHI收集的数据仅包含结合肽,而其他数据包含结合肽和非结合肽。总共收集得到335102条多肽-HLA结合数据。
然后,对数据进行预处理,具体地,按照以下三个标准筛选多肽-HLA型组合:(1)HLA分子的亚型为HLA I型中的A,B和C亚型;(2)多肽的长度范围为8~15aa;(3)将实验结果不一致的组合舍去。其中,I型HLA与多肽结合的位点长度为34aa。
最后,将筛选获得的数据集分成三类,一类为测试数据集(测试集),包含IEDB最新的多肽-HLA I型组合的信息。一类为用于训练回归模型的数据集(第一训练集),该第一训练集中只包含有结合亲和力数据的多肽-HLAI型组合。一类为用于训练分类模型的数据集(第二训练集),该第二训练集中不仅包含有结合亲和力数据的多肽-HLA组合(结合亲和力的数据以500nM为阈值转换为结合关系),还包含没有结合亲和力数据,但有结合关系的组合,该结合关系是指除结合亲和力外,其他实验指标所判定的结合。这三个数据集中,第一训练集和第二训练集中的数据都不包含测试集的数据。第一训练集包含110266条多肽-HLAI型结合数据,第二训练集包含314229条多肽-HLA I型结合数据,测试集包含13773条结合数据。
针对模型建立:
经过大量的实验,本实施例选择以三层双向GRU或三层带有注意力机制的双向GRU(att-BGRU)为基础网络,再加一个Sigmoid函数作为输出层,组成网络模型,利用训练集1和训练集2对网络模型进行训练,获得回归模型和分类模型,其中,回归模型用于预测多肽与HLA I型之间的亲和力,分类模型用于预测多肽与HLA I型之间的结合关系。
为了优化多肽与HLA I型之间的亲和力,在训练好的回归模型和分类模型后增加一个全连接层,以实现对多肽与HLA I型之间的亲和力预测的优化。具体地,全连接层为由20个神经元组成的单层神经网络。
针对模型训练:
如图1所示,训练模型之前,需要对数据集中的数据进行预处理,具体为,将多肽与HLA I型分子的虚拟序列连接在一起,针对序列长度小于49的多肽-HLA I型序列,在序列后面添加虚拟氨基酸‘X’,使最终序列长度达到49,然后,采用PSSM对长度为49的多肽-HLA I型序列转化为矩阵,即将多肽-HLA I型序列中氨基酸进行向量表示,得到直接能输入至网络的数据。
PSSM最初的计算方法是在给定HLA分型的情况下,对与该分型结合的多肽中每个残基位置上不同氨基酸的频率进行计算。本实施例不对单个HLA分型分别计算PSSM,而是对整个数据集,如第一训练集或第二训练集中的所有多肽进行PSSM的计算。每个位置上不同氨基酸的PSSM值由以下公式计算:
其中Pap表示位置p上氨基酸a的PSSM值,Fap表示位置p上氨基酸a的频率;ω表示Dirichlet分布的值;BGa表示来自Ensembl数据库的氨基酸a的频率。根据以上公式得到的是20个常用氨基酸在不同位置的PSSM值,在数据输入时添加的虚拟氨基酸‘X’在每个位置上的PSSM值均为0。
训练时,以第一训练集对应的多肽-HLA及其亲和力数据作为输入输出,对构建的基础网络进行训练,获得回归模型,以第二训练集对应的多肽-HLA及其结合关系作为输入输出,对构建的基础网络进行训练,获得分类模型。
下面以获得回归模型为例,具体说明训练过程。最开始的输入数据大小为110226*49*49(表示110226个维度为49*49的矩阵),经过第一层的GRU/att-BGRU处理后,输出大小为110226*49*128/110226*49*256的矩阵,第二、三层GRU/att-BGRU处理后数据大小不变,即仍旧输出尺寸为110226*49*128/110226*49*256的矩阵。之后GRU经过flatten层压缩为110226*6272,att-BGRU则经过attention层压缩为110226*12544。
分类模型的训练过程与回归模型类似,区别在于回归模型所用的损失函数为均方误差(mse),分类模型所用的损失函数为二分类交叉熵(binary cross-entropy)。
当回归模型与分类模型训练完毕后,固定回归模型与分类模型的模型参数,利用其后添加的全连接层对多肽与HLA I型之间的预测亲和力进行优化。
具有地,将分别用回归模型与分类模型对第一训练集进行预测得到的结果作为全连接层的输入,以第一训练集中对应的亲和力和结合关系作为全连接层的输出,以预测值和真实值之间的均方误差作为优选目标,对全连接层进行优化训练,确定全连接层参数。
在训练之前,第一训练集或第二训练集被随机分为五个子集。其中一个子集用作验证集,其余子集用作训练集,该过程重复五次,且每次用做验证集的子集不同。在训练过程中,如果当前模型在验证集上的准确度或均方误差优于之前的模型,则保存并替换之前的模型,该过程重复100次。
训练完模型后,对获得模型进行测试,具体利用测试集对模型进行测试。
受试者特性曲线下面积(AUC)是软件比较的主要标准,斯皮尔曼相关性系数(SRCC)是次要标准。由于GRU和att-BGRU的性能相差不多,所以我们将两者均整合进入最后的预测软件中,同时我们还为使用者提供两种预测的结果,分别是预测的亲和力数值(regression)和预测的结合关系(classification)。使用测试集对所提供的四种模型(即classification GRU,classification att-BGRU,combined GRU和combined att-BGRU)进行准确性,精确度进行测试,并与现有最优的各个软件进行性能的比较,发现每个模型的结果都要优于现有的软件(图2)
将测试集拆分为10个来自IEDB的数据集,分别对各软件进行性能的测试,发现本实施例提供的模型(DeepHLApan)在6个数据集里表现最好,而其他软件最多在3个数据集中表现最好(表1)。而SRCC的结果也证明本实施例提供的模型的表现优于其他软件(表2)。
表1
表2
针对预测应用:
如图1所示,以预测亲和力为例,应用时,首先,将待预测的多肽-HLA I型序列进行预处理,即利用虚拟氨基酸‘X’对待预测的多肽-HLA I型序列长度补足到49,再采用PSSM将多肽-HLA I型序列转化为矩阵;然后,将转化的矩阵输入至回归模型经计算输出0~1之间的小数,经预设的映射关系形成多肽与HLA I型之间的预测亲和力数值;将转化的矩阵输入至分类模型中,经计算输出0~1之间的小数,经预设的分类阈值形成多肽与HLA I型之间的预测结合关系,最后将该预测亲和力和预测结合关系输入至训练好的全连接层中,输出最终的多肽与HLA I型之间的预测亲和力数值。
上述方法,利用训练好的模型,能够快速较准确地预测多肽与HLA I型分子之间结合亲和力和结合关系。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于循环神经网络预测多肽与HLA I型分子之间结合关系与结合亲和力的方法,包括以下步骤:
构建第一训练集和第二训练集,其中,第一训练集包括多个由只包含有结合亲和力数据的多肽-HLA I型结合数据组成的训练样本;第二训练集包括多个由没有结合亲和力数据但有结合关系的多肽-HLA I型结合数据组成的训练样本,还包括有结合亲和力数据的多肽-HLA I型结合数据组成的训练样本;
以双向GRU或带有注意力机制的双向GRU为基础,再加一个Sigmoid函数作为输出层,组成预测网络,利用第一训练集和第二训练集对预测网络进行训练,获得回归模型和分类模型;
将待预测的多肽-HLA I型序列输入至回归模型和分类模型中,经计算获得多肽与HLAI型之间的预测亲和力和多肽与HLA I型之间的预测结合关系。
2.如权利要求1所述的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法,其特征在于,以三层双向GRU或带有注意力机制的三层双向GRU为基础网络。
3.如权利要求2所述的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法,其特征在于,还包括用于优化多肽与HLA I型之间的亲和力数值的全连接层;
训练时,以回归模型和分类模型对第一训练集中训练样本进行预测,输出的多肽与HLAI型之间的预测亲和力和多肽与HLA I型之间的预测结合关系作为全连接层的输入,以第一训练集中训练样本的亲和力数值作为全连接层的输出,以预测值和真实值之间的均方误差作为优选目标,对全连接层进行优化训练,确定全连接层参数;
应用时,若只需得到多肽与HLA I型之间的结合关系,将待预测的多肽-HLA I型序列输入至分类模型中,经计算获得多肽与HLA I型之间的预测结合关系;若想得到具体的亲和力数值,将待预测的多肽-HLA I型序列输入至回归模型和分类模型中,经计算获得多肽与HLAI型之间的预测亲和力数值和多肽与HLA I型之间的预测结合关系,并将该预测亲和力和预测结合关系输入至训练好的全连接层中,输出最终的多肽与HLA I型之间的预测亲和力数值。
4.如权利要求3所述的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法,其特征在于,所述全连接层为由20个神经元组成的单层神经网络。
5.如权利要求1~4任一项所述的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法,其特征在于,所述多肽-HLA I型序列由多肽和HLA I型分子顺序连接而成,若序列长度小于49,则在连接后的序列后面添加虚拟氨基酸‘X’,使序列长度达到49。
6.如权利要求5所述的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法,其特征在于,采用PSSM、稀疏编码或word2vec对多肽-HLA I型序列中氨基酸进行向量表示,获得能够直接输入至基础网络的训练样本。
7.如权利要求3所述的预测多肽与HLA I型分子之间结合关系与结合亲和力的方法,其特征在于,回归模型输出的由0~1之间的小数,经预设的映射关系形成具体的预测亲和力数值;
分类模型输出的由0~1之间的小数,经预设的分类阈值形成具体的预测结合关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811511026.7A CN109671469B (zh) | 2018-12-11 | 2018-12-11 | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811511026.7A CN109671469B (zh) | 2018-12-11 | 2018-12-11 | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109671469A CN109671469A (zh) | 2019-04-23 |
CN109671469B true CN109671469B (zh) | 2020-08-18 |
Family
ID=66144292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811511026.7A Active CN109671469B (zh) | 2018-12-11 | 2018-12-11 | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109671469B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970098A (zh) * | 2019-11-26 | 2020-04-07 | 重庆大学 | 一种功能多肽苦味预测方法 |
CN111105843B (zh) * | 2019-12-31 | 2023-07-21 | 杭州纽安津生物科技有限公司 | 一种hlai型分子与多肽的亲和力预测方法 |
CN111445962B (zh) * | 2020-03-27 | 2022-12-16 | 上海祥耀生物科技有限责任公司 | 抗体库的构建方法及装置 |
CN111402953B (zh) * | 2020-04-02 | 2022-05-03 | 四川大学 | 基于层次注意力网络的蛋白质序列分类方法 |
CN112071361B (zh) * | 2020-04-11 | 2024-05-24 | 信华生物药业(广州)有限公司 | 基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法 |
CN112002374B (zh) * | 2020-06-14 | 2022-04-22 | 北京臻知医学科技有限责任公司 | 基于深度学习的mhc-i表位亲和力预测方法 |
CN111951887B (zh) * | 2020-07-27 | 2024-06-28 | 深圳市新合生物医疗科技有限公司 | 基于深度学习的白细胞抗原与多肽结合亲和力预测方法 |
CN111986730A (zh) * | 2020-07-27 | 2020-11-24 | 中国科学院计算技术研究所苏州智能计算产业技术研究院 | 一种预测siRNA沉默效率的方法 |
CN112562790A (zh) * | 2020-12-09 | 2021-03-26 | 中国石油大学(华东) | 基于深度学习调控疾病靶点的中药分子推荐系统、计算机设备、存储介质 |
TW202228153A (zh) * | 2020-12-09 | 2022-07-16 | 大陸商江蘇恆瑞醫藥股份有限公司 | 基於機器學習的肽免疫原性預測、鑑別系統及方法 |
CN114649054A (zh) * | 2020-12-18 | 2022-06-21 | 深圳吉诺因生物科技有限公司 | 基于深度学习的抗原亲和力预测方法和系统 |
CN112908421B (zh) * | 2021-03-22 | 2024-02-06 | 普瑞基准生物医药(苏州)有限公司 | 肿瘤新生抗原预测方法、装置、设备及介质 |
CN114530205A (zh) * | 2021-08-31 | 2022-05-24 | 天津工业大学 | 一种用于人工智能算法的器官芯片数据库向量化方案 |
CN113762417B (zh) * | 2021-10-15 | 2022-05-27 | 南京澄实生物科技有限公司 | 基于深度迁移的对hla抗原呈递预测系统的增强方法 |
CN116705141B (zh) * | 2022-12-15 | 2024-01-09 | 西北大学 | 一种基于cnn-lstm神经网络从核桃酶解产物中筛选阿尔兹海默症预防肽的方法 |
CN116206690B (zh) * | 2023-05-04 | 2023-08-08 | 山东大学齐鲁医院 | 一种抗菌肽生成和识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101622360A (zh) * | 2005-12-15 | 2010-01-06 | 贝克顿迪金森公司 | 脓毒症的诊断 |
US9579370B2 (en) * | 2014-03-04 | 2017-02-28 | The Board Of Regents Of The University Of Texas System | Compositions and methods for enterohemorrhagic Escherichia coli (EHEC)vaccination |
WO2017184590A1 (en) * | 2016-04-18 | 2017-10-26 | The Broad Institute Inc. | Improved hla epitope prediction |
CN107622182A (zh) * | 2017-08-04 | 2018-01-23 | 中南大学 | 蛋白质局部结构特征的预测方法及系统 |
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
-
2018
- 2018-12-11 CN CN201811511026.7A patent/CN109671469B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101622360A (zh) * | 2005-12-15 | 2010-01-06 | 贝克顿迪金森公司 | 脓毒症的诊断 |
US9579370B2 (en) * | 2014-03-04 | 2017-02-28 | The Board Of Regents Of The University Of Texas System | Compositions and methods for enterohemorrhagic Escherichia coli (EHEC)vaccination |
WO2017184590A1 (en) * | 2016-04-18 | 2017-10-26 | The Broad Institute Inc. | Improved hla epitope prediction |
CN107622182A (zh) * | 2017-08-04 | 2018-01-23 | 中南大学 | 蛋白质局部结构特征的预测方法及系统 |
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
Non-Patent Citations (2)
Title |
---|
The quantitative prediction of HLA-B*2705 peptide binding affinities using Support Vector Regression to gain insights into its role for the Spondyloarthropathies;Volkan Uslan etl.;《2015 37th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC)》;20150829;全文 * |
基于双向 GRU 神经网络和双层注意力机制的;张兰霞 等;《计算机应用与软件》;20181130;第35卷(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109671469A (zh) | 2019-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109671469B (zh) | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 | |
JP7459159B2 (ja) | Mhcペプチド結合予測のためのgan-cnn | |
Li et al. | DeepDSC: a deep learning method to predict drug sensitivity of cancer cell lines | |
CN111210871B (zh) | 基于深度森林的蛋白质-蛋白质相互作用预测方法 | |
CN113160887B (zh) | 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法 | |
JP2022532681A (ja) | 結合親和性予測方法及びシステム並びに候補タンパク質結合ペプチド発生方法 | |
CN114503203A (zh) | 使用自注意力神经网络的由氨基酸序列的蛋白质结构预测 | |
Bao et al. | Prediction of protein structure classes with flexible neural tree | |
CN114649054A (zh) | 基于深度学习的抗原亲和力预测方法和系统 | |
KR102184720B1 (ko) | 암 세포 표면의 mhc-펩타이드 결합도 예측 방법 및 분석 장치 | |
CN114446389B (zh) | 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用 | |
Golugula et al. | Evaluating feature selection strategies for high dimensional, small sample size datasets | |
CN113762417B (zh) | 基于深度迁移的对hla抗原呈递预测系统的增强方法 | |
US20020072887A1 (en) | Interaction fingerprint annotations from protein structure models | |
US20240087686A1 (en) | Predicting complete protein representations from masked protein representations | |
CN112908421A (zh) | 肿瘤新生抗原预测方法、装置、设备及介质 | |
Quan et al. | Quantifying intensities of transcription factor-DNA binding by learning from an ensemble of protein binding microarrays | |
Du et al. | DeepUEP: Prediction of urine excretory proteins using deep learning | |
Deng et al. | Deep learning-enhanced MHC-II presentation prediction and peptidome deconvolution | |
Liu et al. | A Deep Learning Approach for NeoAG-Specific Prediction Considering Both HLA-Peptide Binding and Immunogenicity: Finding Neoantigens to Making T-Cell Products More Personal | |
Patro et al. | A computational method for designing diverse linear epitopes including citrullinated peptides with desired binding affinities to intravenous immunoglobulin | |
Machaca et al. | Deep Learning and Transformers in MHC-Peptide Binding and Presentation Towards Personalized Vaccines in Cancer Immunology: A Brief Review | |
Chin et al. | Optimized local protein structure with support vector machine to predict protein secondary structure | |
CN117935925A (zh) | 一种基于集成学习的抗原抗体结合亲和力预测方法和系统 | |
Huang et al. | Capsule network for protein ubiquitination site prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |