CN116130005A

CN116130005A - 多表位疫苗的串联设计方法及装置、设备、存储介质

Info

Publication number: CN116130005A
Application number: CN202310046004.2A
Authority: CN
Inventors: 万季; 康微; 潘有东; 赵钊; 王弈
Original assignee: Beijing Xinhe Ruien Biomedical Technology Co ltd; Shenzhen Xinhe Ruien Biomedical Technology Co ltd; Shenzhen Neocura Biotechnology Corp
Current assignee: Beijing Xinhe Ruien Biomedical Technology Co ltd; Shenzhen Xinhe Ruien Biomedical Technology Co ltd; Shenzhen Neocura Biotechnology Corp
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-05-16
Anticipated expiration: 2043-01-30
Also published as: CN116130005B; WO2024160126A1

Abstract

本发明属于生物信息学技术领域，公开了一种多表位疫苗的串联设计方法及装置、设备、存储介质，通过获取候选疫苗序列的多序列比对数据和序列特征矩阵，据此计算初始PSSM进行特征编码获得作用特征信息，同时对序列特征矩阵进行局部特征提取获得局部特征信息；然后根据局部特征信息和作用特征信息获得增强PSSM，再根据增强PSSM和序列特征矩阵计算候选疫苗序列的各个位点的预测裂解概率，最后构建混合整数线性规划问题进行优化求解获得多个多表位疫苗，从而可以提取候选疫苗序列的相邻氨基酸残基的局部隐藏模式和特征，对初始PSSM进行修正获取更加精准的增强PSSM参与后续的表位串联设计，提高所设计的多表位疫苗的准确性和可靠。

Description

多表位疫苗的串联设计方法及装置、设备、存储介质

技术领域

发明属于生物信息学技术领域，具体涉及一种多表位疫苗的串联设计方法及装置、设备、存储介质。

背景技术

近年来T细胞免疫治疗技术在肿瘤治疗等领域取得了巨大的成功。其原理是基于可以在细胞表面递呈的外源性表位多肽以及内源性肿瘤相关和特异表位确定抗原靶点，从而合成相关的用于免疫治疗的疫苗。T细胞疫苗具有不少传统疫苗（如抗体疫苗、减毒活疫苗）所不具备的优势，T细胞疫苗具有细胞层免疫，而传统疫苗产生体液免疫。T细胞疫苗消除了常规减毒活疫苗中存在的恢复毒性的风险，并可以通过串联设计来减少潜在的毒性和炎症反应。

由于单一表位在人体内所引起的免疫反应概率较低，研究者通常将多个表位用间隔物(linker)串联起来从而构建出复合的多表位疫苗。该类疫苗可以根据疾病的具体情况以及病人的特异多组学信息进行定制化设计，从而达到T细胞的激活和疫苗免疫原性的增强。通常T细胞多表位疫苗的串联设计过程由三个阶段组成：发现潜在的表位，选择具有免疫原性的表位作为候选表位，并将候选表位进行排列组合后串联以确定疫苗序列。

其中，表位被由几个氨基酸构成的间隔物（linker）连接，旨在引起表位的N端和C端正确的蛋白酶体水解，从而增加表位的恢复可能性和整个疫苗的有效免疫原性。由于串联疫苗（即多表位疫苗）的免疫原性和间隔物的选择和表位的组合顺序密切相关，因此在海量的表位组合中选择出最优的串联方案对T细胞多表位疫苗的临床疗效具有重要的意义。

当前的表位串联设计方法较多的使用了位置特异性矩阵 (Position-SpecificScoring Matrix, PSSM)来提取各个表位的水解信息，然而传统获取PSSM的方法采取的是常规的统计学方法，这些传统统计方法严重依赖于数据集质量和数据量的大小。为此，当数据量较少（即候选疫苗序列的同源蛋白序列不多）时，使用PSSM提取到的水解信息是不准确的。

从当前已知数据库的质量和数量角度考虑传统方法可行信以及传统方法获得结果的准确度考虑，仅仅考虑对于设计一个含有5个间隔物的串联疫苗而言，需要考虑的间隔物的排序便有120种排列组合的可能情况，再加上6个表位的排列组合，单仅仅设计一个此类串联疫苗就需要考虑近10万种可能的组合（表位和间隔物排列相互独立）。

因此，传统利用简单统计学的方法所获得的PSSM，其本身准确性和可信度并不能得到较好的保证，这就导致传统的以PSSM为核心的设计方法所设计出的串联疫苗，其准确性和可靠性受到质疑，在临床使用上其效果得不到很好的保证。

发明内容

本发明的目的在于提供一种多表位疫苗的串联设计方法及装置、设备、存储介质，可以获取更加精准的位置特异性矩阵，从而提高串联设计的多表位疫苗的准确性和可靠性。

本发明第一方面公开一种多表位疫苗的串联设计方法，包括：

获取候选疫苗序列的多序列比对数据和序列特征矩阵；

根据所述多序列比对数据，计算得到初始位置特异性矩阵；

根据所述序列特征矩阵和所述初始位置特异性矩阵进行特征编码，获得作用特征信息；

对所述序列特征矩阵进行局部特征提取，获得局部特征信息；

根据所述局部特征信息和所述作用特征信息，获得目标位置特异性矩阵；

根据所述目标位置特异性矩阵和所述序列特征矩阵，计算所述候选疫苗序列的各个位点的预测裂解概率；

计算所述候选疫苗序列的各个表位的免疫原性指标；

根据候选间隔物序列、所述候选疫苗序列、所述目标位置特异性矩阵、所述预测裂解概率和所述免疫原性指标，构建混合整数线性规划问题；

对所述混合整数线性规划问题进行求解获得最大化免疫原性的多个目标表位；其中多个目标表位包括所述候选疫苗序列的部分表位；

对多个目标表位进行排列组合以及从所述间隔物序列中获取不同排列组合对应的目标间隔物，串联获得多个多表位疫苗。

本发明第二方面公开一种多表位疫苗的串联设计装置，包括：

第一获取单元，用于获取候选疫苗序列的多序列比对数据和序列特征矩阵；

第一计算单元，用于根据所述多序列比对数据，计算得到初始位置特异性矩阵；

编码单元，用于根据所述序列特征矩阵和所述初始位置特异性矩阵进行特征编码，获得作用特征信息；

提取单元，用于对所述序列特征矩阵进行局部特征提取，获得局部特征信息；

第二计算单元，用于根据所述局部特征信息和所述作用特征信息，获得目标位置特异性矩阵；

第三计算单元，用于根据所述目标位置特异性矩阵和所述序列特征矩阵，计算所述候选疫苗序列的各个位点的预测裂解概率；

第四计算单元，用于计算所述候选疫苗序列的各个表位的免疫原性指标；

构建单元，用于根据候选间隔物序列、所述候选疫苗序列、所述目标位置特异性矩阵、所述预测裂解概率和所述免疫原性指标，构建混合整数线性规划问题；

求解单元，用于对所述混合整数线性规划问题进行求解获得最大化免疫原性的多个目标表位；其中多个目标表位包括所述候选疫苗序列的部分表位；

串联单元，用于对多个目标表位进行排列组合以及从所述间隔物序列中获取不同排列组合对应的目标间隔物，串联获得多个多表位疫苗。

本发明第三方面公开一种电子设备，包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行第一方面公开的多表位疫苗的串联设计方法。

本发明第四方面公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行第一方面公开的多表位疫苗的串联设计方法。

本发明的有益效果在于，所提供的多表位疫苗的串联设计方法及装置、设备、存储介质，首先获取候选疫苗序列的多序列比对数据和序列特征矩阵，以及根据序列特征矩阵和基于多序列比对数据计算的初始PSSM进行特征编码，获得作用特征信息，同时对序列特征矩阵进行局部特征提取获得局部特征信息；然后根据局部特征信息和作用特征信息获得增强PSSM，再根据增强PSSM和序列特征矩阵计算候选疫苗序列的各个位点的预测裂解概率，最后根据候选间隔物序列、候选疫苗序列、目标位置特异性矩阵、预测裂解概率和免疫原性指标，构建混合整数线性规划问题进行优化求解，获得多个多表位疫苗，从而可以通过提取候选疫苗序列的相邻氨基酸残基的局部隐藏模式和特征，获得局部特征信息，以对初始PSSM进行修正获取更加精准的增强PSSM参与后续的表位串联设计，可以提高所设计的多表位疫苗的准确性和可靠性。

附图说明

此处的附图，示出了本发明所述技术方案的具体实例，并与具体实施方式构成说明书的一部分，用于解释本发明的技术方案、原理及效果。

除非特别说明或另有定义，不同附图中，相同的附图标记代表相同或相似的技术特征，对于相同或相似的技术特征，也可能会采用不同的附图标记进行表示。

图1是本发明公开的一种多表位疫苗的串联设计方法的流程图；

图2是本发明公开的一种多表位疫苗的串联设计装置的结构示意图；

图3是本发明公开的一种电子设备的结构示意图。

附图标记说明：

201、第一获取单元；202、第一计算单元；203、编码单元；204、提取单元；205、第二计算单元；206、第三计算单元；207、第四计算单元；208、构建单元；209、求解单元；210、串联单元；301、存储器；302、处理器。

具体实施方式

为了便于理解本发明，下面将参照说明书附图对本发明的具体实施例进行更详细的描述。

除非特别说明或另有定义，本文所使用的所有技术和科学术语与所属技术领域的技术人员通常理解的含义相同。在结合本发明的技术方案以现实的场景的情况下，本文所使用的所有技术和科学术语也可以具有与实现本发明的技术方案的目的相对应的含义。本文所使用的“第一、第二…”仅仅是用于对名称的区分，不代表具体的数量或顺序。本文所使用的术语“和／或”包括一个或多个相关的所列项目的任意的和所有的组合。

除非特别说明或另有定义，本文所使用的“所述”、“该”为相应位置之前所提及或描述的技术特征或技术内容，该技术特征或技术内容与其所提及的技术特征或技术内容可以是相同的，也可以是相似的。此外，本文所使用的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

毫无疑义，与本发明的目的相违背，或者明显矛盾的技术内容或技术特征，应被排除在外。

如图1所示，本发明实施例公开一种多表位疫苗的串联设计方法。该方法的执行主体可为如计算机电脑、笔记本电脑、平板电脑等电子设备，或内嵌于电子设备中的多表位疫苗的串联设计装置，本发明对此不作限定。该方法包括以下步骤S10~S90：

S10、获取候选疫苗序列的多序列比对数据和序列特征矩阵。

该步骤中，首先获取候选疫苗序列，可以通过对患者生物学样本，例如肿瘤组织样本进行DNA测序，获取所需等位基因的DNA测序数据，并根据翻译规则对DNA测序数据进行翻译，得到多个候选疫苗序列。多个候选疫苗序列可由多个表位进行排列组合而获得的，各个候选疫苗序列之间具有不同的表位排列顺序。同时获取可用于串联表位的间隔物序列。

获取多个候选疫苗序列之后，可以采用局部比对算法的搜索工具（Basic LocalAlignment Search Tool，blast），其是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具，以候选疫苗序列作为blast的输入，可以获得每个候选疫苗序列的多序列比对（Multiple Sequence Alignment，MSA）数据。该MSA数据可以视作是由字符组成的矩阵，该MSA数据包括候选疫苗序列及其同源蛋白序列。

获取多个候选疫苗序列之后，可以对每个候选疫苗序列进行embedding操作，该操作的目的是为了将候选疫苗序列的MSA数据转换为一个特定的序列特征矩阵（即embedding矩阵），该embedding矩阵与候选疫苗序列对应，且该embedding矩阵可以被神经网络所读取，并用于神经网络中的各种计算。

具体地，利用Structure2vec算法将候选疫苗序列作为输入，候选疫苗序列的序列特征矩阵作为输出，该embedding矩阵的维度为

，其中

为MSA数据中同源蛋白序列的个数，

为候选疫苗序列的序列长度。

S20、根据多序列比对数据，计算得到初始位置特异性矩阵。

在本发明实施例中，定义一个“bagging MSA”，该“bagging MSA”用于训练获得第一卷积神经网络（ Convolutional NeuralNetwork ，CNN）模型，在对该第一卷积神经网络模型的每次训练迭代中，从每一个MSA数据中随机抽取一小部分同源蛋白序列作为“bagging MSA”，并在每次训练迭代中重复这一操作。具体地，引入一个固定的超参数R来确定每次训练迭代中随机选择的同源蛋白序列在MSA数据中的比例，该超参数R在训练过程中是一个固定值，可根据相关经验确定。例如，当指定R=[10%，20%]时，对于每个批次中随机选择一个大于10%和小于20%的比例，根据这个比例随机抽出MSA数据中的部分同源蛋白序列。

通过这种方式，能够得到许多“bagging MSA”。然后利用每次训练迭代中抽取的“bagging MSA”通过统计学方法计算得到“弱PSSM”。该“弱PSSM”是指通过统计学方法计算得到的位置特异性矩阵（Position-SpecificScoring Matrix，PSSM）。具体地，“弱PSSM”中每一行代表不同的氨基酸，每一列代表候选疫苗序列中每个氨基酸的位置。“弱PSSM”中每一个元素是根据“bagging MSA ”计算出该位置上对应氨基酸出现的频率，将该频率除以0.05后再计算该值的对数求得的。

基于此，根据“bagging MSA”计算出来的多个“弱PSSM”和步骤S10中获取的序列特征矩阵（即embedding矩阵）作为该第一卷积神经网络模型的输入，同时按照“弱PSSM”的计算规则，利用完整的MSA数据计算得到原始PSSM，将原始PSSM作为该第一卷积神经网络模型训练的标签，以便于计算模型损失函数，以此更新模型参数进而获取准确模型输出结果。

在本发明实施例中，将第一卷积神经网络模型训练迭代完成时最后一次计算出的“弱PSSM”作为初始位置特异性矩阵，即初始PSSM。

S30、对序列特征矩阵进行局部特征提取，获得局部特征信息。

在本发明实施例中，可以将上述训练迭代完成的第一卷积神经网络模型，用于局部语境特征编码，从而提取获得候选疫苗序列的表位局部特征信息。具体的，将embedding矩阵输入训练完成的第一卷积神经网络模型进行局部特征提取，可以获取候选疫苗序列的局部特征信息。具体地，通过应用一维卷积从输入的embedding矩阵中提取相邻氨基酸残基的局部隐藏模式和特征，获得局部特征信息。也即，该第一卷积神经网络模型包含三个一维卷积层以及整顿线性单元（rectified linear unit，ReLU）激活函数，每个一维卷积层的卷积核大小为

。该第一卷积神经网络模型输出的从候选疫苗序列中提取出来的局部特征信息由一个局部特征矩阵表示，局部特征矩阵的维度为

，其中

为MSA数据中同源蛋白序列的个数，

为候选疫苗序列的序列长度。

S40、根据序列特征矩阵和初始位置特异性矩阵进行特征编码，获得作用特征信息。

虽然步骤S30中的第一卷积神经网络模型能够捕捉到空间或时间结构的局部关系。但是，简单地将窗口大小和网络深度增加到无限大来捕捉足够的长距离序列信息是不现实的。由于氨基酸残基的长距离相互依赖关系在氨基酸序列信息中十分关键，为此，本发明实施例设计了长距离相互依赖的特征编码模块，以捕获氨基酸残基的长距离相互依赖关系，从而获得候选疫苗序列中氨基酸的相互作用信息。

具体地，该特征编码模块包含了两个堆叠的双长短期记忆（ Long Short TermMemory，LSTM）神经网络，以初始位置特异性矩阵和特征矩阵（即embedding矩阵）作为该特征编码模块的输入数据，输入数据按其原始顺序和反向顺序被送入特征编码模块，两个输出被串联起来，形成最终的特征表示，以此获得氨基酸的相互作用特征信息。

S50、根据局部特征信息和作用特征信息，获得目标位置特异性矩阵。

最后，将以上获得的局部特征信息和相互作用特征信息通过一个全连接网络获得增强PSSM，作为目标位置特异性矩阵，该矩阵维度为

，其中

为MSA数据中同源蛋白序列的个数，

为候选疫苗序列的序列长度。

相比利用统计学的方法所获得的初始位置特异性矩阵，通过利用局部上下文特征编码模块应用一维卷积提取相邻氨基酸残基的局部隐藏模式和特征，再通过两个堆叠的双LSTM神经网络，可以充分从序列中提取出增强的PSSM特征，从而提高准确性和可靠性。

S60、根据目标位置特异性矩阵和序列特征矩阵，计算候选疫苗序列的各个位点的预测裂解概率。

步骤S60可以具体包括以下步骤S601~S603：

S601、根据序列特征矩阵，计算候选疫苗序列的各个位点的先验裂解概率。

鉴于蛋白酶体裂解的肽的平均长度在7到9个氨基酸之间，根据研究表明先验裂解概率的合理值可能在0.15到0.20之间。为了更加准确计算先验裂解概率，在步骤S601之前，还可以先获取候选疫苗序列的VHSE描述向量，该VHSE描述向量用于表示候选疫苗序列的亲疏水特性、几何特性和电荷特性等物理化学性质。从而可以融合考虑候选疫苗序列的物理化学性质，来预测候选疫苗序列各个位点可能裂解的概率，进而提高预测准确率。

其中VHSE描述向量（VHSE scales）是根据通过18个疏水特性、17个立体特性和15个电子特性进行主成分分析所得到的一个向量。VHSE描述向量包括至少八个VHSE描述子，分别是VHSE1、VHSE2、VHSE3、VHSE4、VHSE5、VHSE6、VHSE7、VHSE8；各个VHSE描述子的值都能够在一定程度上反应候选疫苗序列的物理化学性质。其中，VHSE1和VHSE2代表候选疫苗序列的亲疏水特性，VHSE3和VHSE4代表候选疫苗序列的几何特性，VHSE5~VHSE8代表候选疫苗序列的电荷特性。

具体的，首先利用vhseScales软件，将候选疫苗序列作为输入，计算出的相应肽序列中所有氨基酸的VHSE scales的平均值。每个VHSE scale代表一个氨基酸的属性获得VHSE scales。具体输入和输出如下所示：

输入：vhseScales（seq = "QWGRRCCGWGPGRRYCVRWC"）

输出：-0.1150 0.0630 -0.0055 0.7955 0.4355 0.2485 0.1740 -0.0960

输出的八个值分别对应：

VHSE1 VHSE2 VHSE3 VHSE4 VHSE5 VHSE6 VHSE7 VHSE8 。

相应的，步骤S601具体为：根据序列特征矩阵和VHSE描述向量，计算候选疫苗序列的各个位点的先验裂解概率。

进一步的，本发明还进一步引入第二卷积神经网络（ Convolutional NeuralNetwork ，CNN）模型，用以计算候选疫苗序列各个位点的先验裂解概率

。步骤S601中可以直接将序列特征矩阵和VHSE描述向量输入第二卷积神经网络模型，该第二卷积神经网络模型将计算并输出候选疫苗序列的各个位点的先验裂解概率。

其中，该第二卷积神经网络模型使用局部滑动窗口的方法，固定窗口大小为3。在本发明实施例中，该第二卷积神经网络模型包括卷积层、注意层、第一全连接层、第二全连接层和输出层。基于此，步骤S601具体可以包括以下步骤S6011~S6014：

S6011、将序列特征矩阵输入卷积层以对序列特征矩阵进行卷积计算，获得第一特征矩阵。

具体地，卷积层包括三个，用于从embedding矩阵中捕捉特征。在第一卷积层中，使用的卷积核（即卷积滤波器）大小为1×200，目的是从embedding矩阵中提取简单的特征。第二卷积层使用三个平行的卷积块，每个卷积块都有不同的卷积核，核大小分别为3×150，6×150和9×150；第二卷积层的三个卷积核以平行方式转换来自第一卷积层的特征。第三卷积层也使用了三个具有不同卷积核的卷积块，核大小分别为5×200，10×200和15×200；以进一步多样化和改善第二卷积层提取的特征，从而获得第一特征矩阵。其中第一卷积层的输入为embedding矩阵，第二、三卷积层的输入分别为上一个卷积层的输出矩阵。

S6012、将第一特征矩阵和VHSE描述向量输入注意层，以使注意层根据VHSE描述向量学习得到权重参数和偏置参数，并根据权重参数和偏置参数对第一特征矩阵进行更新获得第二特征矩阵。

三个卷积层后紧接着注意层。注意层旨在从卷积层输出的大量特征，以物理化学指标（VHSE scales）作为依据，在三层卷积层输出的第一特征矩阵的基础上进一步提取特征信息，获得第二特征矩阵。该注意层的输入为第三卷积层的输出矩阵和VHSE scales，注意层会利用自注意力机制，为卷积层的输出矩阵的每一列分配一个权重参数和偏置参数，权重参数和偏置参数是基于VHSE scales学习得到的，将卷积层输出的第一特征矩阵中每一列将乘上其对应的权重并加上对应的偏置，以此获得更新后的第二特征矩阵。

这样做的目的是使得模型既考虑了候选疫苗序列的特征信息，又考虑了候选疫苗序列背后所蕴含的物理化学性质，以此可以进一步更加科学准确的预测先验裂解概率

。

S6013、将第二特征矩阵输入第一全连接层以对第二特征矩阵进行特征提取，获得第三特征矩阵。

S6014、将第三特征矩阵输入第二全连接层，以使第二全连接层根据第三特征矩阵的特征空间映射得到标签信息，并根据标签信息获得候选疫苗序列的各个位点的先验裂解概率。

注意力层之后是两个全连接层。第一全连接层的输入是注意层的输出矩阵（即第二特征矩阵），该层将重新组合注意层中获得的第二特征矩阵，以产生覆盖第二特征矩阵的整个背景的第三特征矩阵。第二全连接层将作为分类器，接收前一个全连接层输出的第三特征矩阵，利用非线性变换将第三特征矩阵产生的特征空间映射到相应的标签上，根据标签信息获得每个位点可能的裂解概率并经输出层输出。由此，便获得了候选疫苗序列的各个位点的先验裂解概率。

S602、根据目标位置特异性矩阵，计算各个位点的第一概率和第二概率。

S603、根据第一概率、第二概率和先验裂解概率，利用贝叶斯公式计算获得各个位点的预测裂解概率。

在本发明应用场景中，需要确保所设计的多表位疫苗进入患者体内后能够以最大概率在正确位置断裂（疫苗在该位置断裂不会影响其各个表位的免疫原性），为此如何计算疫苗各个位点裂解的概率成了该问题的关键。本发明设计了基于PSSM的裂解位置模型，该模型可以用于计算候选疫苗序列的各个位点在患者体内的断裂概率。具体地，该模型以获取的增强PSSM作为目标PSSM，并在此基础上，将相邻位置的氨基酸考虑在内，并假设它们的影响是独立的，计算各个位点的第一概率和第二概率；然后根据各个位点的第一概率、第二概率和先验裂解概率，利用贝叶斯公式计算获得各个位点的预测裂解概率。其中，利用贝叶斯公式建立的裂解位置模型如下公式（1）和（2）所示：

（1）

（2）

式中，

表示裂解位点为

的先验概率；

为第一概率，表示与裂解位点

距离为

的氨基酸为

的概率；

、

均为预设距离阈值，例如可预设为

、

；

为第二概率，表示在裂解位点为

的条件下，

附近的氨基酸为

的概率；

表示氨基酸

位于距离裂解位点

的目标PSSM的内容；

表示氨基酸

与裂解位点之间间隔的氨基酸为

的条件下，候选疫苗序列在位点

裂解的概率。

根据上述模型可知，要想计算出预测裂解概率

，需要知道

和

的值。

其中，第一概率

可根据目标PSSM，通过以下公式（3）计算得到：

（3）

另外，由以上公式（1）和（2），可推得以下公式（4）：

（4）

因此在计算第一概率后，可根据目标位置特异性矩阵和第一概率，通过以上公式（4）计算候选疫苗序列各个位点的第二概率

。

最后，分别将计算得到的第一概率、第二概率和先验裂解概率代入公式（1）计算获得候选疫苗序列各个位点的预测裂解概率

。

S70、计算候选疫苗序列的各个表位的免疫原性指标。

在串联设计疫苗时，需要保证疫苗所选用的表位，具有尽可能大的免疫原性。但关于免疫原性大小并没有一个统计的衡量指标。据研究表明，通常表位的免疫原性与其对应的等位基因在人群中出现的概率成正相关。根据该研究结果，本发明构造了衡量表位免疫原性大小的指标

，该免疫原性指标

将表位

对疫苗免疫原性的总体贡献定义为对数转换的HLA结合强度

在特定HLA等位基因组

上的加权求和，具体公式如下式（5）所示：

（5）

其中，

是目标人群中个体出现等位基因

的概率，

是表位与HLA的结合强度（此处用亲和力）代替。具体地，根据等位基因频率网络数据库（Allele Frequency NetDatabase）获取相关等位基因在患者所在人群中出现的频率

，并利用NetMHCpan软件计算选疫苗序列中各个表位与HLA的结合亲和力

，由此，根据上式（5），即可计算出各个表位的免疫原性指标

。

S80、根据候选间隔物序列、候选疫苗序列、目标位置特异性矩阵、预测裂解概率和免疫原性指标，构建混合整数线性规划问题。

为了选择出免疫原性最大，且在正确位置裂解概率最大的多表位疫苗，本发明构建混合整数线性规划（Mixed-Integer Linear Programming，MILP）问题/模型。该问题/模型基于免疫原性指标、预测裂解概率以及增强PSSM，以候选间隔物序列、候选疫苗序列为输入，在疫苗免疫原性最大化、在正确位置裂解概率最大、PSSM约束条件下，模型将输出一个包含了由目标表位（筛选出的部分表位）所构成的具有不同表位排列顺序的疫苗列表。该疫苗列表按照免疫原性由小到大或由大到小的顺序对所设计的多表位疫苗进行排序。

具体的，MILP问题/模型的目标函数如下式（6）所示：

（6）

MILP问题/模型的约束条件包括基础线性约束，基础线性约束用于筛选所选表位和间隔物的氨基酸序列，并计算每个位置的裂解分数。确保所得到的解决方案的一致性，重建所选表位和间隔物的氨基酸序列，并计算每个位置的裂解分数。裂解分数与该特定位置的裂解概率成正比，并被计算为周围氨基酸的偏移相关分数的总和。具体约束内容包括一致性约束、裂解计算约束和PSSM矩阵约束，如下：

1）一致性约束：设置一致性约束是为了确保对于不同的候选疫苗序列，若候选疫苗序列中含有相同表位，若该表位在不同候选疫苗序列的同一位置，且该表位周围氨基酸种类和排列都相同时，该表位对于不同候选疫苗序列的免疫原性的贡献应该相同。具体地，一致性约束数学公式如下：

其中，

分别代表氨基酸、表位以及表位位置的索引，

分别代表序列位置、间隔物和间隔物内部位置的索引。

为示性函数，若表位

在位置

上则取1，反之为0。

也为示性函数，如果间隔物

的

位置上含有氨基酸

，则取值为1，反之为0。

2）裂解计算约束：该约束用于计算裂解分数。其中

表示计算位置

的裂解时，位置

的氨基酸的裂解贡献。如果

是空的，则为零。

可以由裂解位置模型计算求得。具体约束条件及计算步骤如下：

其中，

为示性函数，如果氨基酸

在整个序列的

上取1，反之为0。

为示性函数，如果在位置

上有氨基酸，则取值为1，反之为0。

代表在位置

和位置

上有多少个氨基酸，若

则该值取负。

代表在位置

上氨基酸。

3）PSSM矩阵约束：由于PSSM每一列都对应着候选疫苗序列中的具体某一个位置，即PSSM为一个有限维的矩阵，且根据研究表明在疫苗序列中，裂解概率主要受到裂解位置临近的5个氨基酸的影响。为此，在利用PSSM进行计算时需要引入PSSM矩阵的约束，以防止计算时超出PSSM矩阵范围的错误，同时简化计算量。PSSM矩阵约束具体数学形式如下：

代表用于索引PSSM矩阵的第

个偏移量（介于-4和1之间）。

为PSSM中有关偏移量

和氨基酸

的内容。

为示性函数，若偏移量

为

，则取值为1，反之为0。

为示性函数，若

不在PSSM的边界上取1，反之取0。

为示性函数，如果

的取值范围在[-L,-4]之间，则取值为1，反之为0。

为示性函数，若

取值范围为[1,L]则取值为1，反之为0。L为候选疫苗序列的最大长度。

表示计算表位的覆盖率和保存率可能选项的集合。

进一步优选的，考虑到在多表位疫苗串联设计的过程当中，通常会要求该多表位疫苗覆盖某些病原体或者是HLA等位基因，此时可以通过增加表位选择约束进行设定，从而限制迫使筛选出的多表位疫苗覆盖一定数量的病原体和/或HLA等位基因，以确保筛选出符合要求的疫苗序列。此外，它们还可以限制所选择的表位具有一定的最低平均保护性。表位选择约束的具体数学形式如下所示：

表示计算表位的覆盖率和保存率可能选项的集合。

表示示性函数，如果表位

覆盖选项

，则取值为1，反之为0。

和

分别代表最大覆盖率和最小平均留存率。

进一步优选的，还可以提供一些自定义设置，即增加一些可选约束，比如与多表位疫苗的“串珠”结构中某些位置的绑定裂解分数有关的裂解约束，利用该约束可以筛选出间隔物内部的最小裂解率

、最大裂解率为

、表位内部最大裂解率为

、N端裂解和C端裂解的最小概率分别为

和

的疫苗序列。裂解约束的具体数学形式如下所示：

为表位和间隔物长度。

S90、对混合整数线性规划问题进行求解获得最大化免疫原性的多个目标表位；对多个目标表位进行排列组合以及从间隔物序列中获取不同排列组合对应的目标间隔物，串联获得多个多表位疫苗。

其中多个目标表位包括候选疫苗序列的部分表位，多个多表位疫苗具有不同表位排列顺序。在求解过程中，在满足上述约束条件的前提下优化求解公式（6）的目标函数，可以筛选出部分满足条件的表位作为目标表位，并根据目标表位的不同排列组合及其裂解位置模型，获取对于目标表位的各种排列组合条件下，满足裂解位置约束条件的间隔物，并输出间隔物与目标表位组合为串联疫苗序列，即获得多表位疫苗。

举例来说，输出的疫苗列表为：

1、DPADRCKEV-HHH-VLDKTKFLV-HH-AVDPADRCK

2、VLDKTKFLV-HH-AVDPADRCK-HHH-DPADRCKEV

3、AVDPADRCK-HHH-DPADRCKEV-HH-VLDKTKFLV

4、DPADRCKEV-HHH-VLDKTKFLV-WWQW-AVDPADRCK

5、DPADRCKEV-WWQW-VLDKTKFLV-HHH-AVDPADRCK

然后，计算上述五个串联疫苗序列的免疫原性指标并对其从大到小排序，可获得排序后的疫苗列表如下：

1、DPADRCKEV-HHH-VLDKTKFLV-HH-AVDPADRCK

2、AVDPADRCK-HHH-DPADRCKEV-HH-VLDKTKFLV

3、DPADRCKEV-HHH-VLDKTKFLV-WWQW-AVDPADRCK

4、VLDKTKFLV-HH-AVDPADRCK-HHH-DPADRCKEV

5、DPADRCKEV-WWQW-VLDKTKFLV-HHH-AVDPADRCK

可见，实施本发明实施例，可以通过提取候选疫苗序列的相邻氨基酸残基的局部隐藏模式和特征，获得局部特征信息，以对初始PSSM进行修正获取更加精准的增强PSSM参与后续的表位串联设计，可以提高所设计的多表位疫苗的准确性和可靠性。

除此之外，还可以通过利用蛋白质的亲疏水性等物理化学性质，筛选出一批可能的目标表位和和间隔物。再利用神经网络的方法，充分提取候选疫苗序列的PSSM，并最终采用MILP的方法，将串联疫苗的设计问题转换成一个约束优化问题进行求解，以选择和组装一个可以最大化免疫原性表位的表位子集，该表位子集符合预先指定的设计约束条件，包括其保护性、对病原体和HLA等位基因的覆盖，以及其内部和N-端和C-端的裂解概率，使得免疫疫苗的设计效率，实用效果和安全性达到最佳。

如图2所示，本发明实施例公开一种多表位疫苗的串联设计装置，包括第一获取单元201、第一计算单元202、编码单元203、提取单元204、第二计算单元205、第三计算单元206、第四计算单元207、构建单元208、求解单元209、串联单元210，其中，

第一获取单元201，用于获取候选疫苗序列的多序列比对数据和序列特征矩阵；

第一计算单元202，用于根据多序列比对数据，计算得到初始位置特异性矩阵；

编码单元203，用于根据序列特征矩阵和初始位置特异性矩阵进行特征编码，获得作用特征信息；

提取单元204，用于对序列特征矩阵进行局部特征提取，获得局部特征信息；

第二计算单元205，用于根据局部特征信息和作用特征信息，获得目标位置特异性矩阵；

第三计算单元206，用于根据目标位置特异性矩阵和序列特征矩阵，计算候选疫苗序列的各个位点的预测裂解概率；

第四计算单元207，用于计算候选疫苗序列的各个表位的免疫原性指标；

构建单元208，用于根据候选间隔物序列、候选疫苗序列、目标位置特异性矩阵、预测裂解概率和免疫原性指标，构建混合整数线性规划问题；

求解单元209，用于对混合整数线性规划问题进行求解获得最大化免疫原性的多个目标表位；其中多个目标表位包括候选疫苗序列的部分表位；

串联单元210，用于对多个目标表位进行排列组合以及从间隔物序列中获取不同排列组合对应的目标间隔物，串联获得多个多表位疫苗。

作为一种可选的实施方式，上述第三计算单元206可以包括以下未图示的子单元：

第一计算子单元，用于根据序列特征矩阵，计算候选疫苗序列的各个位点的先验裂解概率；

第二计算子单元，用于根据目标位置特异性矩阵，计算各个位点的第一概率和第二概率；

第三计算子单元，用于根据第一概率、第二概率和先验裂解概率，利用贝叶斯公式计算获得各个位点的预测裂解概率。

作为一种可选的实施方式，多表位疫苗的串联设计装置，还可以包括未图示的第二获取单元，用于获取候选疫苗序列的VHSE描述向量；VHSE描述向量用于表示候选疫苗序列的亲疏水特性、几何特性和电荷特性；

相应的，上述的第一计算子单元，具体用于根据序列特征矩阵和VHSE描述向量，计算候选疫苗序列的各个位点的先验裂解概率。

作为一种可选的实施方式，上述的第一计算子单元可以具体包括以下未图示的模块：

卷积模块，用于对序列特征矩阵进行卷积计算，获得第一特征矩阵；

注意模块，用于根据VHSE描述向量学习得到权重参数和偏置参数，并根据权重参数和偏置参数，对第一特征矩阵进行更新获得第二特征矩阵；

提取模块，用于对第二特征矩阵进行特征提取，获得第三特征矩阵；

分类模块，用于根据第三特征矩阵的特征空间映射得到标签信息，并根据标签信息获得候选疫苗序列的各个位点的先验裂解概率。

如图3所示，本发明实施例还公开一种电子设备，包括存储有可执行程序代码的存储器301以及与存储器301耦合的处理器302；

其中，处理器302调用存储器301中存储的可执行程序代码，执行上述各实施例中描述的多表位疫苗的串联设计方法。

本发明实施例还公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行上述各实施例中描述的多表位疫苗的串联设计方法。

以上实施例的目的，是对本发明的技术方案进行示例性的再现与推导，并以此完整的描述本发明的技术方案、目的及效果，其目的是使公众对本发明的公开内容的理解更加透彻、全面，并不以此限定本发明的保护范围。

以上实施例也并非是基于本发明的穷尽性列举，在此之外，还可以存在多个未列出的其他实施方式。在不违反本发明构思的基础上所作的任何替换与改进，均属本发明的保护范围。

Claims

1.多表位疫苗的串联设计方法，其特征在于，包括：

获取候选疫苗序列的多序列比对数据和序列特征矩阵；

根据所述多序列比对数据，计算得到初始位置特异性矩阵；

计算所述候选疫苗序列的各个表位的免疫原性指标；

2.如权利要求1所述的多表位疫苗的串联设计方法，其特征在于，根据所述目标位置特异性矩阵和所述序列特征矩阵，计算所述候选疫苗序列的各个位点的预测裂解概率，包括：

根据所述序列特征矩阵，计算所述候选疫苗序列的各个位点的先验裂解概率；根据所述目标位置特异性矩阵，计算各个所述位点的第一概率和第二概率；

根据所述第一概率、所述第二概率和所述先验裂解概率，利用贝叶斯公式计算获得各个所述位点的预测裂解概率。

3.如权利要求2所述的多表位疫苗的串联设计方法，其特征在于，所述方法还包括：

获取所述候选疫苗序列的VHSE描述向量；所述VHSE描述向量用于表示所述候选疫苗序列的亲疏水特性、几何特性和电荷特性；

以及，根据所述序列特征矩阵，计算所述候选疫苗序列的各个位点的先验裂解概率，包括：

根据所述序列特征矩阵和所述VHSE描述向量，计算所述候选疫苗序列的各个位点的先验裂解概率。

4.如权利要求3所述的多表位疫苗的串联设计方法，其特征在于，根据所述序列特征矩阵和所述VHSE描述向量，计算所述候选疫苗序列的各个位点的先验裂解概率，包括：

对所述序列特征矩阵进行卷积计算，获得第一特征矩阵；

根据所述VHSE描述向量学习得到权重参数和偏置参数；

根据所述权重参数和所述偏置参数，对所述第一特征矩阵进行更新获得第二特征矩阵；

对所述第二特征矩阵进行特征提取，获得第三特征矩阵；

根据所述第三特征矩阵的特征空间映射得到标签信息，并根据所述标签信息获得所述候选疫苗序列的各个位点的先验裂解概率。

5.多表位疫苗的串联设计装置，其特征在于，包括：

6.如权利要求5所述的多表位疫苗的串联设计装置，其特征在于，所述第三计算单元包括：

第一计算子单元，用于根据所述序列特征矩阵，计算所述候选疫苗序列的各个位点的先验裂解概率；

第二计算子单元，用于根据所述目标位置特异性矩阵，计算各个所述位点的第一概率和第二概率；

第三计算子单元，用于根据所述第一概率、所述第二概率和所述先验裂解概率，利用贝叶斯公式计算获得各个所述位点的预测裂解概率。

7.如权利要求6所述的多表位疫苗的串联设计装置，其特征在于，还包括第二获取单元，用于获取所述候选疫苗序列的VHSE描述向量；所述VHSE描述向量用于表示所述候选疫苗序列的亲疏水特性、几何特性和电荷特性；

所述第一计算子单元，具体用于根据所述序列特征矩阵和所述VHSE描述向量，计算所述候选疫苗序列的各个位点的先验裂解概率。

8.如权利要求7所述的多表位疫苗的串联设计装置，其特征在于，所述第一计算子单元包括：

卷积模块，用于对所述序列特征矩阵进行卷积计算，获得第一特征矩阵；

注意模块，用于根据所述VHSE描述向量学习得到权重参数和偏置参数，并根据所述权重参数和所述偏置参数，对所述第一特征矩阵进行更新获得第二特征矩阵；

提取模块，用于对所述第二特征矩阵进行特征提取，获得第三特征矩阵；

分类模块，用于根据所述第三特征矩阵的特征空间映射得到标签信息，并根据所述标签信息获得所述候选疫苗序列的各个位点的先验裂解概率。

9.电子设备，其特征在于，包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至4任一项所述的多表位疫苗的串联设计方法。

10.计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至4任一项所述的多表位疫苗的串联设计方法。