CN111951887A - 基于深度学习的白细胞抗原与多肽结合亲和力预测方法 - Google Patents
基于深度学习的白细胞抗原与多肽结合亲和力预测方法 Download PDFInfo
- Publication number
- CN111951887A CN111951887A CN202010732369.7A CN202010732369A CN111951887A CN 111951887 A CN111951887 A CN 111951887A CN 202010732369 A CN202010732369 A CN 202010732369A CN 111951887 A CN111951887 A CN 111951887A
- Authority
- CN
- China
- Prior art keywords
- sequence
- leukocyte antigen
- human leukocyte
- affinity
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000427 antigen Substances 0.000 title claims abstract description 95
- 102000036639 antigens Human genes 0.000 title claims abstract description 93
- 108091007433 antigens Proteins 0.000 title claims abstract description 93
- 210000000265 leukocyte Anatomy 0.000 title claims abstract description 90
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 28
- 229920001184 polypeptide Polymers 0.000 title claims abstract description 28
- 102000004196 processed proteins & peptides Human genes 0.000 title claims abstract description 28
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 102000007079 Peptide Fragments Human genes 0.000 claims abstract description 24
- 108010033276 Peptide Fragments Proteins 0.000 claims abstract description 24
- 150000001413 amino acids Chemical class 0.000 claims description 49
- 230000002457 bidirectional effect Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 13
- 239000012634 fragment Substances 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 102000004169 proteins and genes Human genes 0.000 abstract description 3
- 108090000623 proteins and genes Proteins 0.000 abstract description 3
- 230000006403 short-term memory Effects 0.000 description 20
- 125000003275 alpha amino acid group Chemical group 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012300 Sequence Analysis Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009169 immunotherapy Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K14/00—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- C07K14/435—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
- C07K14/705—Receptors; Cell surface antigens; Cell surface determinants
- C07K14/70503—Immunoglobulin superfamily
- C07K14/70539—MHC-molecules, e.g. HLA-molecules
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6881—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2317/00—Immunoglobulins specific features
- C07K2317/90—Immunoglobulins specific features characterized by (pharmaco)kinetic aspects or by stability of the immunoglobulin
- C07K2317/92—Affinity (KD), association rate (Ka), dissociation rate (Kd) or EC50 value
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Genetics & Genomics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Zoology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biochemistry (AREA)
- Cell Biology (AREA)
- Databases & Information Systems (AREA)
- Wood Science & Technology (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Toxicology (AREA)
Abstract
本发明提供一种基于深度学习的白细胞抗原与多肽结合亲和力预测方法,包括:步骤S101:对人类白细胞抗原序列进行编码;步骤S102:构建人类白细胞抗原序列与肽段对序列;步骤S103:构建人类白细胞抗原序列与肽链对编码矩阵;步骤S104:人类白细胞抗原与肽段结合的亲和力预测模型构建。本发明综合考虑了人类白细胞抗原蛋白序列与肽段各自的序列对亲和力强度的影响,开发了一种基于深度学习的白细胞抗原与多肽结合亲和力预测方法。
Description
技术领域
本发明涉及免疫治疗和人工智能技术领域,特别涉及一种基于深度学习的白细胞抗原与多肽结合亲和力预测方法。
背景技术
目前,人类白细胞抗原与多肽的结合对于表位多肽的递呈到细胞表面并激活随后的T细胞免疫反应具有非常重要的作用。通过构建机器学习模型来预测人类白细胞抗原和多肽的结合亲和力已经成功被应用于免疫治疗的靶标选择。一般来说人类白细胞抗原与多肽的结合预测可以分为抗原亚型特异和泛抗原亚型两种方法。抗原亚型特异方法需要为每一种人类白细胞抗原亚型构建预测模型。另一方面,泛人类白细胞抗原亚型方法可以通过整合白细胞抗原核心区域进行编码,从而对所有的人类白细胞抗原亚型及多肽进行亲和力预测。在过去的若干年中,人类白细胞抗原与多肽结合的实验数据以及机器学习算法共同提高了结合力的预测精度。然而现有的方法由于实验数据的偏向性(与人类白细胞抗原I型A和B类相比,I型C类的实验数据量相对较少),对于I型C类的预测精度有待进一步提高。同时由于I型人类白细胞抗原结合的多肽的长度为8个氨基酸至15个氨基酸,现有算法对于相对较长的多肽(12到15个氨基酸)的预测精度远次于短多肽。因此开发精度更高的人类白细胞抗原与多肽的结合力预测算法具有重要的临床意义。
发明内容
针对存在的上述问题,本发明综合考虑了人类白细胞抗原蛋白序列与肽段各自的序列对亲和力强度的影响,开发了一种基于深度学习的白细胞抗原与多肽结合亲和力预测方法。
本发明实施例提供的一种基于深度学习的白细胞抗原与多肽结合亲和力预测方法,包括:
步骤S101:对人类白细胞抗原序列进行编码;
步骤S102:构建人类白细胞抗原序列与肽段对序列;
步骤S103:构建人类白细胞抗原序列与肽链对编码矩阵;
步骤S104:人类白细胞抗原与肽段结合的亲和力预测模型构建。
优选的,步骤S104:人类白细胞抗原与肽段结合的亲和力预测模型构建,包括:
步骤S201:捕获编码矩阵序列信息;
步骤S202:从多个角度为氨基酸分配权重;
步骤S203:计算人类白细胞抗原序列-肽段的亲和力。
优选的,步骤S201:捕获编码矩阵序列信息,包括:
将所述编码矩阵序列中的每一个氨基酸视为所述人类白细胞抗原序列中的一个结点;
将所述结点的编码向量依次送入双向长短期记忆网络中;所述双向长短期记忆网络可以分别按照所述编码矩阵序列的正向与逆向顺序对所述编码矩阵序列进行特征学习。
优选的,步骤S202:从多个角度为氨基酸分配权重,包括:
通过多头注意力机制将所述编码矩阵序列的特征映射至多个特征空间,并分别计算在每个特征空间下各氨基酸的注意力权重来量化各氨基酸对人类白细胞抗原序列与肽段关联的重要性。
在多个子空间下,我们能得到每个特征空间下各氨基酸的注意力权重。为了将各个特征空间的权重进行整合,我们还通过一个滤片尺寸为head*1*1的卷积神经网络单独为每个特征空间分配权重,随后分别对于每个氨基酸的多个注意力权重进行加权求和,从而得到序列的重要性向量,公式如下:
W=[w1,w2,...,whead]
其中W为卷积神经网络的滤片矩阵,wh为第h个特征空间所对应的权重,xh为第h个特征空间下各氨基酸的注意力权重向量。
优选的,步骤S203:计算人类白细胞抗原序列-肽段的亲和力,包括:
通过两个全连接层整合特征表示,并利用一个Sigmoid函数得到0~1之间的值,作为该对人类白细胞抗原(HLA)序列-肽段对的亲和力分值,公式如下:
temp1=Tanh(out·W1+b1)
x=Sigmoid(temp1·W2+b2)
其中W1与W2分别是两个全连接层的权重矩阵,b1与b2分别为两个全连接层的偏置向量,Tanh表示双曲正切变换。
优选的,步骤S101:对人类白细胞抗原序列进行编码,包括:
人类白细胞抗原核心区域的伪序列来表示人类白细胞抗原亚型。
优选的,步骤S102:构建人类白细胞抗原序列与肽段对序列,包括:
将所述伪序列与相应的肽段序列拼接成一个整体,形成长度为42~49的长序列。
优选的,步骤S103:构建人类白细胞抗原序列与肽链对编码矩阵,包括:
采用BLOSUM62矩阵对所述长序列中的每一个氨基酸进行编码,形成维度为lseq*20的所述编码矩阵,其中lseq表示序列的长度;
或,
采用One-Hot向量对所述长序列中的每一个氨基酸进行编码,形成所述编码矩阵。
与现有技术相比,本发明的方案具有如下优势:
一、从原理上讲,本发明所利用的深度学习算法能学习到人类白细胞抗原(HLA)序列与肽段对更加深层、原始的序列表征,为提供准确可靠的亲和力预测打下坚实的基础。
二、本发明通过基于深度神经网络的双向长短期记忆网络(bidirectional Longshort term memory network),通过一个模型即可完成对大多数A类、B类人类白细胞抗原与多种长度肽段的亲和力预测;并且在当前研究数据较少的情况下,对C类人类白细胞抗原与肽段的亲和力预测能达到与前两类一致的稳定性能。实验证实,本算法在A类、B类和C类I型人类白细胞抗原与长度为8~15氨基酸的肽段序列上的预测性能相较其它预测算法而言性能更优,且更加稳定。
三、通过本算法中的多头注意力机制(multiple head attention mechanism)从多个角度评估序列中各氨基酸的重要性,最终在预测亲和力强度的时候网络能对序列整体有一个全面的认识,并且有选择的增强或减弱各位点的信息,从而得到更加准确、稳定的亲和力预测结果。同时在此过程中还能展示出序列中各个氨基酸位点对于亲和力强度的贡献大小,从而更加准确的认识与分析它们之间的作用机制。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于深度学习的白细胞抗原与多肽结合亲和力预测方法的示意图;
图2为本发明实施例中一种基于深度学习的白细胞抗原与多肽结合亲和力预测方法的算法实现示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
参见图1和图2所示,为本发明的一个实施例,基于深度学习的白细胞抗原与多肽结合亲和力预测方法包括:
步骤S101:对人类白细胞抗原序列进行编码;
为了便于计算机运算,我们用人类白细胞抗原核心区域的伪序列来表示人类白细胞抗原亚型(http://www.cbs.dtu.dk/services/NetMHCpan/)。每一个人类白细胞抗原的伪序列都是长度为34的字符串序列,其中每一个字符代表一个氨基酸。
例如:HLA-A*0101的伪序列为“YFAMYQENMAHTDANTLYI IYRDYTWVARVYRGY”。
在此步骤中,我们所使用的人类白细胞抗原核心区域的伪序列与肽段序列的组成一致,为后续人类白细胞抗原与肽段序列的拼接与编码提供了方便。
步骤S102:构建人类白细胞抗原序列与肽段对序列;
长度为8~15个氨基酸的肽段被用于后续分析。我们将前一步得到的伪序列与相应的肽段序列拼接成一个整体,形成长度为42~49的长序列,从而用于泛抗原亚型模型的建立。
区别于本领域大多数需要为不同人类白细胞抗原构建多个模型的算法,我们的算法通过一个统一的模型将人类白细胞抗原序列与肽段序列拼接后进行分析,能更全面的考虑到人类白细胞抗原序列与肽段序列的相互关系。因此模型支持的人类白细胞抗原更加宽泛,并且支持日后新发现的人类白细胞抗原,而无需重新训练对应的模型。
步骤S103:构建人类白细胞抗原序列与肽链对编码矩阵;
随后,为了对拼接序列进行运算,我们需要将其进行数字编码。BLOSUM62矩阵是一个在生物信息学中用于序列对比的氨基酸替换打分矩阵,其表示了20种氨基酸之间相互的替换分值。因此我们将BLOSUM62矩阵按行提取出来作为对应氨基酸的特征向量。如氨基酸“Y”的BLOSUM62编码为:“-2,-2,-2,-3,-2,-1,-2,-3,2,-1,-1,-2,-1,3,-3,-2,-2,2,7,-1”。随后利用其对前述得到的长序列中的每一个氨基酸进行编码,形成维度为lseq*20的特征编码矩阵,其中lseq表示序列的长度。
替代方案:我们也可以通过One-Hot向量对氨基酸进行编码。由于总共涉及到20个氨基酸,因此One-Hot编码为长度为20的向量。将氨基酸与向量中的每一位对应,当前氨基酸所在的位为1,其余均为0。假如氨基酸“Y”为第19位,那么它的One-Hot向量为:“0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0”。
BLOSUM62编码相比较于其它编码方式(如One-Hot编码),将携带更多的来自生物背景的知识,能更好的在有限的编码位数中表达出各氨基酸之间的潜在关系。
步骤S104:人类白细胞抗原与肽段结合的亲和力预测模型构建。基于建立的预测模型对人体白细胞抗原与肽段结合的亲和力进行预测;该步骤包括:步骤S201:捕获编码矩阵序列信息;
通过双向长短期记忆网络(bidirectional Long short term memory network)从序列的角度对人类白细胞抗原(HLA)序列-肽段编码进行分析。我们将序列中的每一个氨基酸视为序列中的一个结点,随后将各个结点的编码向量依次送入双向长短期记忆网络中。它可以分别按照序列的正向与逆向顺序对序列进行特征学习,这么做的目的是同时捕获序列的上下文特征信息,使得网络能够更好的学习长序列的编码表示。
我们以PyTorch框架为例说明网络的学习过程:
首先,给出双向长短期记忆网络(bidirectional Long short term memorynetwork)的定义:
self.LSTM=nn.LSTM(input_size=parms_Net[′len_acid′],
hidden_size=self.HIDDEN_SIZE,
num_layers=self.LAYER_NUM,
bidirectional=True)
其中,input_size指定了长序列中氨基酸的长度。size指定了双向长短期记忆网络(bidirectional Long short term memory network)应当使用多大规模的参数分析数据,num_layers指定了所用的网络层数,bidirectional指定使用双向网络(bidirectionalLong short term memory network)对数据进行分析。
随后通过outlstm,hiddenlstm=self.LSTM(x)获得双向长短期记忆网络(bidirectional Long short term memory network)所学习到的序列特征,其中x为前述编码好的特征矩阵。
以往的人类白细胞抗原与肽段亲和力预测算法需要将不同长度的肽段填充至统一长度再进行预测,这使得计算资源被浪费在大量没有意义的填充字符上。得益于双向长短期记忆网络(bidirectional Long short term memory network)的序列分析特性,我们的算法可以直接支持不同长度的序列分析,在节省计算资源的同时,也使得网络能更加精确的聚焦于序列本身的有效信息上。
步骤S202:从多个角度为氨基酸分配权重;
通过多头注意力机制(multiple head attention mechanism)将序列特征映射至多个特征空间,并分别计算在每个特征空间下各氨基酸的注意力权重来量化各氨基酸对人类白细胞抗原(HLA)序列与肽段关联的重要性。具体地,通过如下公式实现此过程:
Wi atten=hiddenlstm·Wi project
Contexti=Wi atten·(Tanh(outlstm))T
Headi=importancei·outlstm
其中,网络先通过若干个投影矩阵Wi project将长短期记忆网络(bidirectionalLong short term memory network)中的权重hiddenlstm投影至多个不同的子空间中得到新权重Wi atten;outlstm为双向长短期记忆网络(bidirectional Long short term memorynetwork)的输出,经过双曲正切(Tanh)函数变换后与Wi atten相乘得到上下文向量Contexti,表示的是双向序列表示在不同空间下的上下文表达。
为了计算某个角度下原始序列中各氨基酸的重要性,需要先计算所有空间下的上下文向量随后求和,记为total。随后任一空间的上下文向量Contexti与total的比值即为各氨基酸在此空间下的重要性,记为importancei。importancei是与序列长度相同向量,其中的每一位表示对应的氨基酸在第i个空间下的重要性,越接近于1表示该氨基酸越重要,而越接近于0表示多头注意力机制(multiple head attention mechanism)尝试在第i个空间下屏蔽来自此氨基酸的信息。
最终,原始序列在第i个空间下的加权表示Headi就是importancei与双向长短期记忆网络(bidirectional Long short term memory network)的输出outlstm的乘积。根据之前的定义,来自序列重要位置的信息将会被接近1的权重加权,而不重要的位置将会被分配接近0的权重屏蔽。
在多个子空间下,我们能得到若干个不同的加权序列特征表示。为了将各个特征空间的权重进行整合,我们还通过一个滤片为head*1*1卷积神经网络为每个特征空间分配权重,随后分别对每个氨基酸的多个权重进行加权求和,从而得到该氨基酸的重要性,公式如下:
W=[w1,w2,...,whead]
其中W为卷积神经网络的滤片矩阵,wh为第h个特征空间所对应的权重,xh为第h个特征空间下各氨基酸的注意力权重向量。
代码如下:
self.MixHead=nn.Conv2d(in_channels=self.head,out_channels=1,kernel_size=1)
importance=self.MixHead(x)
其中in_channels指定卷积的深度与前述的子空间数量一致,out_channels指定卷积的输出深度为1,kernel_size指定滤片的尺寸为1*1,x为多头注意力机制(multiplehead attention mechanism)的输出。
该步骤不仅聚焦于序列本身,更希望关注那些在序列中起到重要作用的氨基酸。因此我们通过多头注意力机制(multiple head attention mechanism)从多个特征空间中对序列各位置的重要性加以评估,并着重关注那些重点位置上的氨基酸信息。从而在不同长度、不同类型的序列上取得一致、稳定的预测性能。
步骤S203:计算人类白细胞抗原序列-肽段的亲和力。
通过两个全连接层整合前述的特征表示,并利用一个Sigmoid函数得到0~1之间的值,作为该对人类白细胞抗原(HLA)序列-肽段对的亲和力分值,公式如下:
temp1=Tanh(out·W1+b1)
x=Sigmoid(temp1·W2+b2)
其中W1与W2分别是两个全连接层的权重矩阵,b1与b2分别为两个全连接层的偏置向量。为了增加模型的非线性表达能力,我们还在两个全连接层之间增加一个双曲正切(Tanh)变换。Sigmoid函数负责将实数转换成0~1之间的小数,表示该对人类白细胞抗原(HLA)序列-肽段对的亲和力分值,越接近于1表示亲和力越强。
代码如下:
out_fc1=nh.Linear(in_features=2*self.HIDDEN_SIZE,out_features=self.HIDDEN_SIZE)
out_fc2=nn.Linear(in_features=self.HlDDEN_SlZE,out_features=1)
temp1=out_fc1(out)
temp1=torch.Tanh(temp1)
temp2=out_fc2(temp1)
x=torch.sigmoid(temp)
如果需要得到具体的亲和力数值,只需要通过对该亲和力分值进行转换即可:
Affnity=500001-x
其中x为亲和力分值,Affnity为亲和力强度,越接近于0表示亲和力越强。一般而言,500以内的亲和力强度说明该人类白细胞抗原(HLA)序列-肽段之间存在较强的亲和力。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,包括:
步骤S101:对人类白细胞抗原序列进行编码;
步骤S102:构建所述人类白细胞抗原序列与肽段对序列;
步骤S103:构建所述人类白细胞抗原序列与肽链对编码矩阵;
步骤S104:人类白细胞抗原与肽段结合的亲和力预测模型构建。
2.如权利要求1所述的基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,所述步骤S104:人类白细胞抗原与肽段结合的亲和力预测模型构建,包括:
步骤S201:捕获编码矩阵序列信息;
步骤S202:从多个角度为氨基酸分配权重;
步骤S203:计算人类白细胞抗原序列-肽段的亲和力。
3.如权利要求2所述的基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,所述步骤S201:捕获编码矩阵序列信息,包括:
将所述编码矩阵序列中的每一个氨基酸视为所述人类白细胞抗原序列中的一个结点;
将所述结点的编码向量依次送入双向长短期记忆网络中;所述双向长短期记忆网络可以分别按照所述编码矩阵序列的正向与逆向顺序对所述编码矩阵序列进行特征学习。
5.如权利要求2所述的基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,所述步骤S203:计算人类白细胞抗原序列-肽段的亲和力,包括:
通过两个全连接层整合特征表示,并利用一个Sigmoid函数得到0~1之间的值,作为该对人类白细胞抗原(HLA)序列-肽段对的亲和力分值,公式如下:
temp1=Tanh(out·W1+b1)
x=Sigmoid(temp1·W2+b2)
其中W1与W2分别是两个全连接层的权重矩阵,b1与b2分别为两个全连接层的偏置向量,Tanh表示双曲正切变换。
6.如权利要求1所述的基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,所述步骤S101:对人类白细胞抗原序列进行编码,包括:
人类白细胞抗原核心区域的伪序列来表示人类白细胞抗原亚型。
7.如权利要求6所述的基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,所述步骤S102:构建人类白细胞抗原序列与肽段对序列,包括:
将所述伪序列与相应的肽段序列拼接成一个整体,形成长度为42~49的长序列。
8.如权利要求7所述的基于深度学习的白细胞抗原与多肽结合亲和力预测方法,其特征在于,所述步骤S103:构建人类白细胞抗原序列与肽链对编码矩阵,包括:
采用BLOSUM62矩阵对所述长序列中的每一个氨基酸进行编码,形成维度为lseq*20的所述编码矩阵,其中lseq表示序列的长度;
或,
采用One-Hot向量对所述长序列中的每一个氨基酸进行编码,形成所述编码矩阵。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010732369.7A CN111951887A (zh) | 2020-07-27 | 2020-07-27 | 基于深度学习的白细胞抗原与多肽结合亲和力预测方法 |
US17/148,589 US20220028487A1 (en) | 2020-07-27 | 2021-01-14 | Deep learning-based method for predicting binding affinity between human leukocyte antigens and peptides |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010732369.7A CN111951887A (zh) | 2020-07-27 | 2020-07-27 | 基于深度学习的白细胞抗原与多肽结合亲和力预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111951887A true CN111951887A (zh) | 2020-11-17 |
Family
ID=73338219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010732369.7A Pending CN111951887A (zh) | 2020-07-27 | 2020-07-27 | 基于深度学习的白细胞抗原与多肽结合亲和力预测方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220028487A1 (zh) |
CN (1) | CN111951887A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360644A (zh) * | 2021-12-30 | 2022-04-15 | 山东师范大学 | T细胞受体与抗原表位的结合预测方法及系统 |
CN115406815A (zh) * | 2022-11-02 | 2022-11-29 | 杭州华得森生物技术有限公司 | 基于多源数据融合的肿瘤细胞检测设备及其方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116206690B (zh) * | 2023-05-04 | 2023-08-08 | 山东大学齐鲁医院 | 一种抗菌肽生成和识别方法及系统 |
CN116825198B (zh) * | 2023-07-14 | 2024-05-10 | 湖南工商大学 | 基于图注意机制的肽序列标签鉴定方法 |
CN116913383B (zh) * | 2023-09-13 | 2023-11-28 | 鲁东大学 | 一种基于多模态的t细胞受体序列分类方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1898263A (zh) * | 2003-12-30 | 2007-01-17 | 安万特药物公司 | 编码新的前列腺素受体蛋白的核酸及其使用方法 |
CN101090729A (zh) * | 2003-05-30 | 2007-12-19 | 艾更斯司股份有限公司 | 前列腺干细胞抗原(psca)变体及其序列 |
CN109584960A (zh) * | 2018-12-14 | 2019-04-05 | 上海鲸舟基因科技有限公司 | 预测肿瘤新生抗原的方法、装置及存储介质 |
CN109671469A (zh) * | 2018-12-11 | 2019-04-23 | 浙江大学 | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 |
CN110612116A (zh) * | 2017-05-08 | 2019-12-24 | 磨石肿瘤生物技术公司 | 甲病毒新抗原载体 |
EP3633681A1 (en) * | 2018-10-05 | 2020-04-08 | NEC OncoImmunity AS | Method and system for binding affinity prediction and method of generating a candidate protein-binding peptide |
CN111105843A (zh) * | 2019-12-31 | 2020-05-05 | 杭州纽安津生物科技有限公司 | 一种hla i型分子与多肽的亲和力预测方法 |
CN111415707A (zh) * | 2020-03-10 | 2020-07-14 | 四川大学 | 临床个体化肿瘤新抗原的预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230042048A (ko) * | 2020-07-17 | 2023-03-27 | 제넨테크, 인크. | 펩타이드 결합, 제시, 및 면역원성을 예측하기 위한 어텐션-기반 신경망 |
-
2020
- 2020-07-27 CN CN202010732369.7A patent/CN111951887A/zh active Pending
-
2021
- 2021-01-14 US US17/148,589 patent/US20220028487A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101090729A (zh) * | 2003-05-30 | 2007-12-19 | 艾更斯司股份有限公司 | 前列腺干细胞抗原(psca)变体及其序列 |
CN1898263A (zh) * | 2003-12-30 | 2007-01-17 | 安万特药物公司 | 编码新的前列腺素受体蛋白的核酸及其使用方法 |
CN110612116A (zh) * | 2017-05-08 | 2019-12-24 | 磨石肿瘤生物技术公司 | 甲病毒新抗原载体 |
EP3633681A1 (en) * | 2018-10-05 | 2020-04-08 | NEC OncoImmunity AS | Method and system for binding affinity prediction and method of generating a candidate protein-binding peptide |
CN109671469A (zh) * | 2018-12-11 | 2019-04-23 | 浙江大学 | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 |
CN109584960A (zh) * | 2018-12-14 | 2019-04-05 | 上海鲸舟基因科技有限公司 | 预测肿瘤新生抗原的方法、装置及存储介质 |
CN111105843A (zh) * | 2019-12-31 | 2020-05-05 | 杭州纽安津生物科技有限公司 | 一种hla i型分子与多肽的亲和力预测方法 |
CN111415707A (zh) * | 2020-03-10 | 2020-07-14 | 四川大学 | 临床个体化肿瘤新抗原的预测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360644A (zh) * | 2021-12-30 | 2022-04-15 | 山东师范大学 | T细胞受体与抗原表位的结合预测方法及系统 |
CN115406815A (zh) * | 2022-11-02 | 2022-11-29 | 杭州华得森生物技术有限公司 | 基于多源数据融合的肿瘤细胞检测设备及其方法 |
Also Published As
Publication number | Publication date |
---|---|
US20220028487A1 (en) | 2022-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111951887A (zh) | 基于深度学习的白细胞抗原与多肽结合亲和力预测方法 | |
CN110555523B (zh) | 一种基于脉冲神经网络的短程跟踪方法及系统 | |
US11581067B2 (en) | Method and apparatus for generating a chemical structure using a neural network | |
CN110059620A (zh) | 基于时空注意力的骨骼行为识别方法 | |
CN110677284B (zh) | 一种基于元路径的异构网络链路预测的方法 | |
JP2021524099A (ja) | 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法 | |
CN112561064B (zh) | 基于owkbc模型的知识库补全方法 | |
CN112420123A (zh) | 自监督学习模型的训练方法和装置、设备以及存储介质 | |
CN116189265A (zh) | 基于轻量化语义Transformer模型的素描人脸识别方法、装置及设备 | |
CN105354800A (zh) | 基于图像结构的粒子群优化非凸压缩感知图像重构方法 | |
CN116740422A (zh) | 基于多模态注意力融合技术的遥感图像分类方法及装置 | |
CN113808664B (zh) | 基于机器学习的抗体筛选方法及装置 | |
Kalash et al. | Relative saliency and ranking: Models, metrics, data and benchmarks | |
CN113436224B (zh) | 一种基于显式构图规则建模的智能图像裁剪方法及装置 | |
Kauffman et al. | Rectangular knot diagrams classification with deep learning | |
CN113782096A (zh) | Rna碱基不成对概率的预测方法及装置 | |
CN111340917B (zh) | 三维动画生成方法、装置、存储介质和计算机设备 | |
KR20210035702A (ko) | 인공 신경망의 양자화 방법 및 인공 신경망을 이용한 연산 방법 | |
Cheng et al. | Deepeye: A compact and accurate video comprehension at terminal devices compressed with quantization and tensorization | |
JP2020119551A (ja) | 情報処理方法及び情報処理装置 | |
CN110147804A (zh) | 一种不平衡数据处理方法、终端及计算机可读存储介质 | |
JP2020113116A (ja) | モーション生成装置、モーション生成方法、及びプログラム | |
CN112306846B (zh) | 一种基于深度学习的移动应用黑盒测试方法 | |
WO2023231796A1 (zh) | 一种视觉任务处理方法及其相关设备 | |
Li et al. | Human Motion Prediction via Adaptive Fusing Autoregressive and Non-Autoregressive Attention Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |