CN116072231B

CN116072231B - 基于氨基酸序列的密码子优化设计mRNA疫苗的方法

Info

Publication number: CN116072231B
Application number: CN202211265184.5A
Authority: CN
Inventors: 钱朝晖; 陆剑; 昝富文; 吴鑫凯; 单科家
Original assignee: Peking University; Institute of Pathogen Biology of CAMS
Current assignee: Peking University; Institute of Pathogen Biology of CAMS
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2024-02-13
Anticipated expiration: 2042-10-17
Also published as: CN116072231A

Abstract

本发明公开了基于氨基酸序列的密码子优化在mRNA疫苗研发中的应用。基于目标抗原蛋白的氨基酸序列，对其CDS在密码子适应指数(CAI)水平上进行优化得到HighestCAI序列，在最小折叠自由能(MFE)水平上进行优化得到LowestMFE序列，再以HighestCAI序列作为祖先序列进行MFE的定向优化，在某一个或某几个世代分别取MFE值最低的序列作为兼顾翻译效率和mRNA稳定性的优化序列，最终将这些序列通过细胞水平的蛋白表达验证，获得稳定高表达的CDS序列应用于mRNA疫苗的设计。本发明采用不同方式的密码子优化策略以提高mRNA疫苗转导机体后产生有效抗原量，为进一步优化疫苗生产提供了指导。

Description

基于氨基酸序列的密码子优化设计mRNA疫苗的方法

技术领域

本发明属于生物技术领域，涉及mRNA疫苗的制备，具体涉及一种通过优化密码子设计mRNA疫苗的方法。

背景技术

群体免疫或社区免疫已被提议作为一项保护弱势群体的战略，可以通过过去感染或接种疫苗的免疫来建立。现有的针对高致病性新型冠状病毒SARS-CoV-2(severe acuterespiratory syndrome coronavirus-2)的疫苗主要有传统的灭活疫苗(Sinopharm-BBIBP-CorV,Sinovac-CoronaVac,Covaxin–BBV152)，为针对整个病毒经过灭活处理后的疫苗；同时也有蛋白疫苗(Novavax–NVX-CoV2373)以及病毒载体疫苗(Johnson&JohnsonJanssen-Ad26.COV2.S,Oxford-AstraZeneca-AZD1222/ChAdOx1,Sputnik V-Gam-COVID-Vac-rAd26/rAd5)等，这些主要是针对病毒的刺突蛋白(spike protein，S蛋白)全长或受体结合域(RBD)；还有mRNA疫苗(Pfizer-BioNTech Comirnaty-BNT162b2&Moderna-mRNA-1273)，此类疫苗是通过一定的技术手段，将体外转录编码特定蛋白的mRNA或编码某一病原的特定基因的RNA导入体内，在体内翻译表达蛋白，作为抗原激活集体的免疫，此类疫苗显示出较优越的免疫效果以及应用前景。此外，现有的研究数据表明，由于SARS-CoV-2S蛋白分布在病毒表面，且具有较高的免疫原性，以上提及的疫苗接种后产生的中和抗体主要是针对S蛋白，故S蛋白在疫苗生产制备中尤为关键。

到目前为止，SARS-CoV-2已经发生了多次突变，产生了若干变种。世卫组织将SARS-CoV-2变种分为两类:VOC(variants of concern)和VOI(variants of interest)。其中备受关注的VOC包括Alpha(B.1.1.7)、Beta(B.1.351)、Gamma(P.1)、Delta(B.1.617.2)、Omicron(B.1.1.529)；被监测的VOI包括Epsilon(B.1.427/B.1.429)、Zeta(P.2)、Eta(B.1.525)、Theta(P.3)、Iota(B.1.526/B.1.526.1)、Kappa(B.1.617)、Delta Plus(B.1.617.2.1)、Lambda(C.37)和Mu(B.1.621)。SARS-CoV-2变种的出现进一步限制了疫苗的成功和自然免疫，因为它们包含基因组改变，特别是S蛋白编码区，与以前流行的毒株相比，这些改变增加了它们的适应能力。SARS-CoV-2S蛋白是4种主要的病毒结构蛋白之一，由S1和S2两个亚基组成。N端S1亚基包含物种特异性的受体结合域(receptor bindingdomain，RBD)，在流行的变种中观察到的大多数增强适合性的氨基酸突变都在该结构域内，它们的出现可能通过逃避自然免疫和疫苗诱导免疫而影响病毒的传播能力、毒性和再感染率。因此，研究针对SARS-CoV-2变种S蛋白的疫苗有助于更新改进疫苗配方和治疗方案，以遏制病毒的传播。

发明内容

针对目前现有mRNA疫苗技术中存在的蛋白表达水平不是很高的现象，本发明采用不同方式的密码子优化的策略，以提高mRNA疫苗转导机体后产生有效抗原量，为进一步优化疫苗生产提供指导。

密码子的选择是设计mRNA疫苗的一个重要考虑因素，因为不同的密码子使用会影响mRNA翻译效率和mRNA稳定性，从而影响抗原的表达。在本发明的实施例中，基于新冠病毒的S蛋白，尝试对其CDS的密码子适应指数(codon adaptation index，CAI)以及最小折叠自由能(minimum folding energy，MFE)进行优化，最终得到了稳定高表达的CDS序列应用于mRNA疫苗的设计。

(一)CAI水平的优化

mRNA翻译效率的提升意味着细胞可以通过合成更少的mRNA就可以维持原有的蛋白表达水平。基因的翻译延伸速率是决定基因翻译效率的重要因素之一。在翻译延伸的过程中，A-site上tRNA的结合是主要的限速步骤。由于不同密码子对应的tRNA胞内浓度不同，所以不同密码子解码所需要的时间也存在较大差异。一般认为，生物体内的基因往往经历了较强的翻译效率选择，所以其编码序列(CDS)上的密码子往往与细胞内的tRNA存在共演化关系，共演化的结果即CDS上的不同密码子的使用频率与胞内tRNA的供给相符合。所以我们通过对密码子使用水平的分析就可以找出较高翻译效率的密码子用于后续的优化设计。

同义密码子相对使用频率(relative synonymous codon usage，RSCU)可以用于反映氨基酸所对应的同义密码子的相对使用情况。计算过程如下：

其中，RSCU_ij代表第i个氨基酸的第j种密码子的相对使用频率，X_ij代表第i个氨基酸的第j种密码子的出现次数，n_i为第i个氨基酸所对应的密码子的数目。根据RSCU值我们可以计算得到每个密码子对应的相对适应度w_ij，即当前密码子对应的RSCU值与氨基酸所对应的使用频率最高的密码子的比值：

w_ij值在0与1之间，越接近1表示密码子适应性越高。结合基因的mRNA水平表达量，我们可以估计细胞内所有mRNA的密码子使用频率，再根据上述过程计算w_ij值。具体计算如下：

其中，Codon_ln代表某一密码子l在第n个基因上的出现次数，TPM_n代表该基因在宿主组织或细胞中的mRNA表达水平，m为基因的总数。TPM(Transcripts Per Kilobase ofexon model per Million mapped reads)为每千个碱基的转录每百万映射读取的转录本，为大于0的实数，通过基因组测序获得。目标转录本t的TPM用TPM_t表示，其计算过程如下：

其中，q_t为RNA测序产生的reads能够映射到目标转录本上的读数，l_t为目标转录本的长度，T表示所有的转录本。将目标转录本上的读数经过转录本长度矫正后，再除以经转录本长度矫正后的所有转录本映射读数的总和即可计算得到目标转录本的TPM_t。一个基因通常对应多个转录本，为了去除转录本的冗余和计算方便，本发明中使用基因对应的最长转录本来代表该基因进行统计。TPM_n即为第n个基因对应的最长转录本的TPM_t。

我们从GTEx数据库收集到人类各个组织中的基因表达量信息(https://storage.googleapis.com/gtex_analysis_v8/rna_seq_data/GTEx_Analysis_2017-06-05_v8_RNASeQCv1.1.9_gene_tpm.gct.gz)，并取其在不同组织中表达量的中位数来代表，根据上述描述过程计算得到各个密码子所对应的w_ij。基因的CAI值即为CDS上各个密码子所对应的w_ij的几何平均数。

在经典的CAI计算过程当中，X_ij为物种中高表达的几十上百个基因中CDS上的各密码子的出现次数，无法反应细胞内RNA水平密码子使用的真实情况。二代测序技术的普及和组学技术的发展使得我们可以对细胞中转录本进行精确定量。本发明在统计密码子数目时引入了基因表达量(TPM)对每条转录本进行加权，可以更好地实现细胞内的密码子使用环境进行量化。

对于S蛋白上的氨基酸，都选择其w_ij＝1的密码子进行编码。如果实验需要避开某种特定的酶切位点，则在酶切位点处顺延使用次优的密码子进行编码。

(二)MFE水平的优化

mRNA的折叠结构的稳定有利于延长其在细胞内的半衰期，增加蛋白持续表达周期。我们开发了MFE遗传优化算法对S蛋白序列的CDS组成进行优化迭代以提高mRNA的稳定性。在迭代的过程中，LinearFold软件被用来预测mRNA的二级结构和MFE值。

本发明中MFE水平的优化算法基于遗传算法开发，旨在生成一个群体后，在变异传代的过程中对MFE指标进行定向优化，具体实施步骤如下：

1.根据提供的氨基酸序列，随机生成N条对应的CDS序列作为祖先群体；

2.对群体中的每条序列分别生成M个子序列，每个子序列中随机引入m个同义突变；

3.计算群体中所有序列对应的MFE值，并保留MFE值最低的N条，完成群体的一次世代演替；

4.将2-3步骤循环T次，或者最近的50轮演替中群体序列的最低MFE值没有发生改变(演化过程接近收敛)，输出最后的群体序列。

在针对新冠病毒序列的具体优化过程中，我们针对S蛋白的氨基酸全长，使用以下参数进行了针对MFE的优化：种群规模N为200，最大迭代次数T为1600，个体的后代数目M为10，每条序列中引入同义突变数目m为100，并获得了优化后的CDS序列(LowestMFE：群体序列中MFE最低的个体)。

上述的参数中的群体大小N和子序列数目M可以根据计算环境中的算力大小进行适当调整。N和M的值越大，每个循环中的群体序列数目也越多，选择的效力会增加，但MFE值的计算耗时也相应增加，通常，50≤N≤10000，1≤M≤1000。m值可在优化氨基酸序列长度的1/100至1/5的区间内选择。在本发明实施例中，m值设定为S蛋白氨基酸序列长度的1/10，即在每条子序列生成的过程中都会有1/10的氨基酸对应的密码子使用发生改变。该值过小会降低每次循环的优化效果，使得收敛过程变得缓慢，过大则会在局部最优点附近来回震荡无法收敛。T则可以根据运算速度和时间要求进行设定，如果时间充裕且没有达到收敛时，更多的迭代可以让群体的MFE优化更好。

(三)兼顾翻译效率和mRNA稳定性的优化

通过上述CAI水平的优化方法得到HighestCAI序列，以HighestCAI序列作为祖先序列，根据上述的MFE遗传优化算法进行MFE的定向优化，在某一个或某几个世代分别取MFE值最低的序列作为兼顾翻译效率和mRNA稳定性的优化序列。

(四)细胞水平的蛋白表达验证

将HighestCAI序列、LowestMFE序列和一个或多个兼顾翻译效率和mRNA稳定性的优化序列分别通过表达载体在细胞中进行表达并检测其表达量，选择其中的一个或多个表达水平高的序列用于mRNA疫苗设计。

为了探究上述不同水平的优化策略对蛋白表达的影响，本发明实施例中分别对BA.2.12.1和BA.4/5的病毒S基因的CDS序列进行了CAI(HighestCAI)和MFE(LowestMFE)的优化设计。为了验证CAI优化对蛋白表达的提升作用，我们生成了一条密码子随机使用的半优化序列，其CAI值为0.7，介于HighestCAI和原始病毒CDS之间，作为优化实验的对照之一。同时，我们也在针对MFE的遗传优化算法的选择环节加入对序列CAI的考虑，得到了兼顾翻译效率和mRNA稳定性的优化后序列(MFE_CAI)。即使用HighestCAI序列作为祖先序列，进行MFE的定向优化。在第500个世代和第1000个世代分别取MFE值最低的序列作为备选(MFE_CAI1，MFE_CAI2)。最后，我们将上述不同方案设计得到的DNA序列和原始病毒的CDS序列，以及对照序列一起进行细胞水平的蛋白表达验证。

将筛选出的优化DNA序列用于mRNA疫苗的制备，步骤如下：

1)质粒构建：将优化DNA序列构建到质粒载体中，通常在优化DNA序列的两端加上提高翻译效率的5’-UTR和3’-UTR，在5’-UTR的5’端为启动子(promoter)序列，必要时在3’-UTR的3’端加上终止子(terminator)序列；

2)模板生成：将步骤1)构建好的质粒载体酶切进行线性化，再通过DNA凝胶电泳和切胶回收获取线性化质粒DNA；

3)体外转录：利用体外转录试剂盒将以线性化的质粒DNA为模板进行体外转录，获得目的mRNA；

4)mRNA的修饰：分别利用加帽酶和加尾酶对体外转录后的mRNA进行加帽及加尾增强其稳定性，以期mRNA作为疫苗时有更高的翻译效率；同时，还可以对mRNA进行核苷酸修饰，如假尿嘧啶化修饰等

5)制备递送系统：将修饰后的mRNA利用一定的递送系统包被，例如制备成基于聚合物或脂质的纳米颗粒(LNP)，得到mRNA疫苗。

必要时，可以在上述步骤3)和4)中加入RNase抑制剂，防止RNA降解；在步骤3)RNA合成结束后，利用DNase I去除模板DNA。

本发明基于全球范围流行的SARS-CoV-2突变株omicron S蛋白氨基酸序列，对病毒S蛋白基因进行密码子优化，提高了S蛋白在真核细胞中的表达水平。密码子使用水平和稳定性对基因表达的影响已经在多项研究中被验证，我们的方法也对于其他的基因优化表达具有普适的效果。而对于mRNA疫苗来说，有效抗原的高效表达可以降低疫苗的接种剂量和接种次数，减轻病人接种后的不适反应，降低生产成本。所以本发明可以为新型疫苗的设计提供更有效的解决途径，为疫苗生产提供实际的指导意义。

附图说明

图1是实施例中针对新冠病毒突变株BA.2.12.1和BA.4/5的S蛋白CDS序列优化后和原始序列蛋白表达的western blot实验结果，其中，BA.2.12.1毒株除原始病毒序列s1外有4条优化序列，分别编号为s2-s5，依次代表mRNA折叠自由能条件最优(LowestMFE)，对照序列(CAI＝0.7)，密码子适应性最优(HighestCAI)，兼顾翻译效率和稳定性的方案CAI_MFE1；BA.4/5毒株除原始病毒序列s1外有5条优化序列，分别编号为s2-s6，依次代表mRNA折叠自由能条件最优(LowestMFE)，对照序列(CAI＝0.7)，密码子适应性最优(HighestCAI)，兼顾翻译效率和稳定性的两种方案CAI_MFE1和CAI_MFE2；MOCK为空白对照，s1为优化前病毒的原始基因序列。全长S蛋白(Full length S，简称FL S)和裂解后的S蛋白(Cleaved S)以及内参蛋白(Actin)的条带在胶图右侧分别进行了标记。

具体实施方式

下面结合附图，通过实施例详细介绍本发明CDS优化的具体构建过程，并通过实施例进一步阐述本发明CDS优化的使用方法和实验结果。

本发明中分别对当前全球流行的SARS-CoV-2omicron突变株BA.2.12.1和BA.4/5的病毒S基因的CDS序列进行了CAI(HighestCAI)和MFE(LowestMFE)的优化设计，同时在针对MFE的遗传优化算法的选择环节加入对序列CAI权重的考虑，得到了兼顾翻译效率和mRNA稳定性的优化后序列(MFE_CAI)，并将上述设计中得到的CDS序列和原始CDS序列一起进行细胞水平的蛋白表达验证。

一、病毒S基因CDS序列的优化

根据SARS-CoV-2omicron突变株BA.2.12.1的S蛋白氨基酸序列(见序列表中SEQID NO：1)，我们分别从密码子适应性与mRNA折叠自由能两个角度对CDS序列进行优化设计。同时添加人类中高翻译效率的RPL30基因的UTR(untranslated region)序列，即：

5’-UTR:

5’-CCTTTCTCGTTCCCCGGCCATCTTAGCGGCTGCTGTTGGTTGGGGGCCGTCCCGCTCCTAAGGCAGGAAG-3’(SEQ ID NO：2)；

3’-UTR:

5’-ACCTTTTCACCTACAAAATTTCACCTGCAAACCTTAAACCTGCAAAATTTTCCTTTAATAAAATTTGCTTGTTTTAAAAA-3’(SEQ ID NO：3)。

病毒的原始CDS序列从NCBI数据库中下载得到。针对BA.2.12.1，我们进行了四种优化模式的探索。第一种为密码子适应性最优(HighestCAI)，对于蛋白上的每个氨基酸，我们选取都w_ij＝1的密码子来进行编码。第二种为折叠自由能条件最优(LowestMFE)，通过本发明中开发的MFE优化算法获得，具体参数如下：N＝200，T＝1600，M＝10，m＝100。第三种和第四种分别兼顾了翻译效率和稳定性，使用HighestCAI序列作为祖先序列，进行MFE的定向优化。在第500个世代和第1000个世代分别取MFE最低的序列(MFE_CAI1，MFE_CAI2)。另外一条对照序列则为密码子随机使用条件下生成的序列(CAI值为0.7)。针对BA.4/5的S基因蛋白序列，我们采用了完全一样的参数和步骤，生成对应的优化和对照CDS序列。

BA.2.12.1突变株S蛋白的原始CDS序列、LowestMFE序列、HighestCAI序列、MFE_CAI1序列分别如序列表中SEQ ID NO：4、5、6、7所示。BA.4/5突变株S蛋白的氨基酸序列、原始CDS序列、LowestMFE序列、HighestCAI序列、MFE_CAI1序列和MFE_CAI2序列分别如序列表中SEQ ID NO：8、9、10、11、12和13所示。

我们将5’UTR序列直接插入到pcDNA3.1(+)载体质粒的Hind III酶切位点的后面，同时使用配套的3’UTR序列，以及RPL30自带的kozak序列AGGAAG，优化后的序列均已规避Hind III和Xba I的酶切位点(BA.2.12.1突变株S蛋白基因克隆酶切位点)。

二、基因获取

1.基因合成：将经过优化后的omicron突变株BA.2.12.1及BA.4/5株的S蛋白基因发送至南京金斯瑞生物科技有限公司进行基因合成，返回质粒冻干粉约4μg；

2.转化：以40μL ddH₂O溶解冻干粉质粒，取1μL加入一种DH5α大肠杆菌工程菌感受态，冰浴30min，42℃热激1min，冰浴5min，加入无抗性的无菌LB中，37℃恒温摇床培养箱培育1h，转入50mL氨苄抗性的LB中，过夜培养；

3.收获细胞：将过夜培养的菌液转移至50mL离心管中，3000g离心10min，弃上清，收集沉淀细胞；

4.质粒提取：利用axygen公司质粒中提试剂盒进行质粒中提，简要如下：向bufferS1中加入配套RNAse，混匀后取5mL加入沉淀细胞中，重悬细胞；加入5mL buffer S2，轻微颠倒混匀以裂解细胞；静置3min后，加入buffer S3 5mL，颠倒混匀，以中和S2，防止过分裂解引起基因组DNA污染；加入buffer B，颠倒混匀后3000g离心10min。固定好吸附柱后，将离心后上清液倒入吸附柱中，抽干液体，加入buffer W1 7mL，待其抽干后，加入按说明书要求配备无水乙醇的buffer W2 8mL，再次抽干；取下吸附膜，以300μL buffer W2再次洗涤，离心甩干后，加入300μL 65℃预热的ddH₂O，浸润后12000g离心30s，弃去吸附膜，管中液体即为质粒提取液。以Nano drop超微量光度计测定质粒浓度以及280/260 260/230比值，标记。

三、S蛋白表达

1.细胞准备：HEK 293T细胞

(1)细胞复苏：从液氮罐中取出冻存的HEK 293T细胞一只，于37℃恒温水浴锅中迅速解冻融化，在生物安全柜中，取10mL完全培养基(含有10％FBS的DMEM培养基)到15mL离心管中，并移入冻存的细胞，500g离心5min以去除细胞冻存液。将离心后上清弃去，以10mL完全培养基重悬细胞，接种至75cm²细胞培养瓶中，37℃5％CO₂培养箱中培养2天，至细胞密度95％左右；

(2)细胞传代：将细胞密度95％的细胞培养基弃去，以5mL细胞用PBS洗涤细胞后弃去，加入1mL 0.25％trypsin-EDTA消化细胞2min，以10mL完全培养基中和，吹吸混匀细胞，转移15mL离心管中，500g离心5min，弃去上清，以完全培养基重悬细胞，六分之一传代，隔天即可长满。复苏后细胞经过一到两次传代即可进行实验操作；

(3)铺板：细胞密度95％左右的293T细胞以PBS洗涤，0.25％trypsin-EDTA消化并重悬后，接种六孔板，37℃5％CO₂培养箱过夜培养。

2.细胞转染

(1)转染试剂：PEI(sigma公司)以生理盐水稀释PEI至1mg/mL，过0.22μm滤膜备用；

(2)转染：以无血清DMEM培养基为母液，六孔板每孔以500μL配置，每孔加入2μg质粒，4μL转染试剂PEI，混匀静置15min；将六孔板中完全培养基弃去，更换为无血清DMEM培养基，将配置且静置后的转染液体加入各孔中，标记，混匀，37℃5％CO₂培养箱培养；转染6小时候，更换为完全培养基。

3.蛋白收集

(1)细胞收集：转染后48小时，弃去六孔板中培养基，每孔加入1.5mL培养基，并以此吹下细胞于1.5mL EP管中，12000g 30s离心洗涤细胞，弃去上清；

(2)细胞裂解：RIPA裂解液

于冰上裂解细胞，每管加入120μL RIPA裂解液，将细胞吹散混匀，冰上静置30分钟，中途可震荡一下，以充分裂解；

(3)收集蛋白：充分裂解后，将各管与4℃12000g离心30分钟，取出100μL上清到新的EP管备用；

(4)蛋白定量：thermo蛋白定量试剂盒

配置母液：A液:B液＝49:1

取ELISA板一块，每孔加入10μL蛋白样品，再加入200μL蛋白定量母液，轻晃混匀，37℃静置孵育30分钟；同时设置标准品蛋白浓度梯度，用于绘制标准曲线；样品孵育完成后，用酶标仪检测吸光度，波长560；

(5)样品制备：根据标准曲线确定蛋白样品浓度，通过用RIPA稀释使得各样品浓度保持一致，加入变形胶蛋白，98℃煮样10分钟。

4.表达检测

(1)10％SDS-PAGE胶配置：采用雅酶试剂盒，根据说明书要求配置PAGE胶，简要如下：放置好1.5mm胶板后，下层胶A、B液按1:1稀释配置混液，1:100加入促凝剂，每块胶板灌注7.5mL下层胶混液，以异丙醇封胶；静置20分钟后，弃去上层异丙醇，以自来水轻柔冲洗三次，纯净水轻柔冲洗三次，洁净滤纸吸去多于残留纯净水；配置上层胶混液，上层胶A、B液1:1配置混液，1:100加入促凝剂，并以此加满胶板上层，插入1.5mm 15孔胶梳，静置20分钟，即可用于western检测。

(2)Running buffer配置：配置10X running buffer储备液(2.5L)：Tris 75.5g，甘氨酸470g，SDS25g，搅拌溶解，使用时稀释为1X。

(3)Western：将配置好的各样品按照一定顺序加入胶孔中，并加marker指示蛋白大小，80V 30分钟，120V 1小时20分钟；

(4)转膜液配置：配置10X转膜储备液(2L)：Tris 60g，甘氨酸28g，以纯净水稀释，搅拌混匀；使用时稀释为1X，并加入甲醇至终浓度20％；备好的转膜液4度预冷备用；

(5)转膜(湿转)：跑胶结束后，进行转膜操作，简要如下：转膜夹板中包含海绵两块，厚滤纸两张，转膜时，将胶板撬开，将胶与NC膜(硝酸纤维素膜)贴合，两侧各有一张滤纸及海绵，夹板整体顺序为正极-海绵-滤纸-NC膜-胶-滤纸-海绵-负极；转膜为80V，2小时；

(6)封闭：转膜结束后，取出转好的膜，用5％的脱脂牛奶(以TBST溶解稀释)在摇床上封闭1小时；

(7)一抗孵育：封闭后的NC膜根据marker大小进行裁剪，使用针对S蛋白的抗体在摇床上抗体孵育2小时，此次实验中，S蛋白用Sino Biological Inc公司SARS-CoV-2(2019nCoV)Spike,Rabbit PAb(40591-T62)和SARS-CoV-2(2019nCoV)Spike S2,RabbitPAb(40590-T62)抗体孵育，1:2000用封闭液稀释；sigma公司anti-β-actin from mouse抗体孵育，1:3000稀释；

(8)洗膜：以TBST替换一抗，摇床洗膜3次，每次15分钟；

(9)二抗孵育：根据一抗来源，用其对应的HRP(辣根过氧化物酶)标记的二抗进行孵育，即S蛋白对应二抗为抗兔二抗，actin对应抗体为抗鼠二抗，抗体1:5000稀释，摇床上1小时；

(10)洗膜：同一抗后洗膜；

(11)显色：将HRP底物以说明书方式稀释。我们采用的bio-rad显色试剂盒，将显色液A、B以1:1方式稀释，取出膜，沥干多于水分，将显色液加至膜上，摇晃至全部覆盖整张膜，避光1分钟，在化学发光成像仪扫膜成像。

实验结果：

蛋白印记结果如图1所示，显示原始的病毒CDS序列蛋白的表达(从左至右第2泳道和第8泳道)与Mock组(第1泳道和第7泳道)类似，说明蛋白的表达量极少。而无论是基于CAI还是MFE的优化方法，都可以显著提高BA.2.12.1和BA.4/5的S蛋白的表达(第3、5、9、11泳道)。兼顾CAI和MFE两者的优化也同样可以显著提高蛋白的表达水平(第6、12、13泳道)。该结果说明了原始的病毒序列在制作mRNA疫苗时可能遇到的表达障碍，并揭示了密码子选择对于抗原蛋白表达的重要性。同时，该结果也证实了本研究中提出的序列优化方法在mRNA疫苗优化设计中的潜在作用。

Claims

1.一种mRNA疫苗的设计方法，其特征在于，基于氨基酸序列通过优化密码子设计mRNA疫苗序列，包括：

1)基于目标抗原蛋白的氨基酸序列，对其编码序列CDS进行密码子适应指数CAI优化，得到HighestCAI序列，其中在统计密码子数目时引入基因表达量TPM对每条转录本进行加权，即：

其中，X_ij代表第i个氨基酸的第j种密码子的出现次数，Codon_ln代表某一密码子l在第n个基因上的出现次数，TPM_n代表该基因在宿主组织或细胞中的mRNA表达水平，m为基因的总数；TPM为每千个碱基的转录每百万映射读取的转录本，为大于0的实数，通过基因组测序获得；目标转录本t的TPM用TPM_t表示，其计算过程如下：

其中，q_t为RNA测序产生的reads能够映射到目标转录本上的读数，l_t为目标转录本的长度，T表示所有的转录本；第n个基因的TPM_n使用该基因对应的最长转录本的TPM_t来代表；

之后根据X_ij计算同义密码子相对使用频率RSCU：

其中，RSCU_ij代表第i个氨基酸的第j种密码子的相对使用频率，n_i为第i个氨基酸所对应的密码子的数目；根据RSCU值计算得到每个密码子对应的相对适应度w_ij，即当前密码子对应的RSCU值与氨基酸所对应的使用频率最高的密码子的比值：

w_ij值在0与1之间，越接近1表示密码子适应性越高；基因的CAI值即为CDS上各个密码子所对应的w_ij的几何平均数，选取CAI值最高即密码子适应性最优的HighestCAI序列；

2)通过MFE遗传优化算法对目标抗原蛋白序列的CDS组成进行优化迭代以提高其mRNA的稳定性，获得最小折叠自由能MFE最低的LowestMFE序列，步骤如下：

2a)根据目的抗原蛋白的氨基酸序列，随机生成N条对应的CDS序列作为祖先群体；

2b)对群体中的每条序列分别生成M个子序列，每个子序列中随机引入m个同义突变；

2c)计算群体中所有序列对应的MFE值，并保留MFE值最低的N条，完成群体的一次世代演替；

2d)将步骤2b)至2c)循环T次，或者最近的50轮演替中群体序列的最低MFE值没有发生改变，输出最后的群体序列，其中MFE值最低的序列即LowestMFE序列；

3)使用HighestCAI序列作为祖先序列，根据2)所述的MFE遗传优化算法进行MFE的定向优化，在某一个或某几个世代分别取MFE值最低的序列作为兼顾翻译效率和mRNA稳定性的优化序列；

4)将HighestCAI序列、LowestMFE序列和一个或多个兼顾翻译效率和mRNA稳定性的优化序列分别通过表达载体在细胞中进行表达并检测其表达量，选择其中的一个或多个表达水平高的序列用于mRNA疫苗设计。

2.如权利要求1所述的设计方法，其特征在于，在MFE遗传优化算法中，50≤N≤10000，1≤M≤1000；m值为优化氨基酸序列长度的1/100至1/5。

3.如权利要求1所述的设计方法，其特征在于，所述mRNA疫苗为针对新型冠状病毒SARS-CoV-2的mRNA疫苗，所述目标抗原蛋白为新型冠状病毒的S蛋白。

4.如权利要求3所述的设计方法，其特征在于，在MFE遗传优化算法中，N为200，M为10，m为100，最大迭代次数T为1600。

5.如权利要求1所述的设计方法，其特征在于，在CAI优化中，选择w_ij＝1的密码子进行编码，如果需要避开某种酶切位点，则在酶切位点处顺延使用次优的密码子进行编码，得到HighestCAI序列。