CN116417065A

CN116417065A - 一种蛋白质表达体系的密码子优化方法及蛋白质表达体系

Info

Publication number: CN116417065A
Application number: CN202211060298.6A
Authority: CN
Inventors: 郭敏; 熊亮; 周伟峰; 徐丽琼; 徐秀珍; 唐磊; 曹平生; 于雪
Original assignee: Kangma Healthcode Shanghai Biotech Co Ltd
Current assignee: Kangma Healthcode Shanghai Biotech Co Ltd
Priority date: 2021-12-31
Filing date: 2022-08-31
Publication date: 2023-07-11
Also published as: CN114360645A

Abstract

本发明公开了一种蛋白质表达体系的密码子优化方法及蛋白质表达体系，该密码子优化方法基于所述蛋白质表达体系中细胞提取物的来源物种的核糖体蛋白，对编码所述核糖体蛋白的DNA序列的密码子进行统计，获得核糖体蛋白氨基酸序列中每种氨基酸残基对应的同义密码子中各密码子的相对频率，选择相对频率最高的密码子，并将该密码子用作目标蛋白的氨基酸序列中同种氨基酸残基的密码子。本发明的密码子优化方法能在使用较少计算资源的情况下，快速获得一个不含特定位点，且相较于优化前具有较高蛋白表达效率的DNA序列。

Description

一种蛋白质表达体系的密码子优化方法及蛋白质表达体系

技术领域

本发明属于生物合成技术领域，尤其涉及一种蛋白质表达体系的密码子优化方法及蛋白质表达体系。

背景技术

密码子优化即通过改变待表达目标蛋白质的DNA编码序列，以达到提高目标蛋白质在表达体系内的表达量和/或表达活性的操作。

密码子优化过程需要考虑的因素主要有：DNA及其转录出的mRNA的理化性质、蛋白质表达体系的密码子偏好性、目标蛋白质的二维和三维结构等。目前常见的蛋白质表达体系的密码子优化方法考虑的主要参数包括：宿主细胞中基因的密码子偏好性、宿主细胞二联密码子偏好性、宿主细胞tRNA拷贝数、GC含量和mRNA二级结构等。

理论上，由于同义密码子的存在，用于表达同一个目标蛋白的DNA序列种类非常多，并且该DNA序列种类数会随着蛋白质氨基酸序列长度的增加而呈几何级数增长。举例来说，假设待表达目标蛋白的氨基酸序列为a₁a₂...a_n，第m位氨基酸残基(m为自然数，且1≤m≤n)对应的同义密码子的数量为x_m，则该蛋白氨基酸序列对应的DNA编码序列的种类数为：

举例来说，对于下列一段长度为40个氨基酸残基的多肽：

DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVV，

根据下列20种天然氨基酸列表和对应于每一种氨基酸的密码子表，

20种天然氨基酸列表

中文名称	英文名称	三字母缩写	单字母符号
				甘氨酸	Glycine	Gly	G
丙氨酸	Alanine	Ala	A
				缬氨酸	Valine	Val	V
亮氨酸	Leucine	Leu	L
				异亮氨酸	Isoleucine	Ile	I
脯氨酸	Proline	Pro	P
				苯丙氨酸	Phenylalanine	Phe	F
酪氨酸	Tyrosine	Tyr	Y
				色氨酸	Tryptophan	Trp	W
丝氨酸	Serine	Ser	S
				苏氨酸	Threonine	Thr	T
半胱氨酸	Cystine	Cys	C
				蛋氨酸	Methionine	Met	M
天冬酰胺	Asparagine	Asn	N
				谷氨酰胺	Glutamine	Gln	Q
天冬氨酸	Aspartic acid	Asp	D
				谷氨酸	Glutamic acid	Glu	E
赖氨酸	Lysine	Lys	K
				精氨酸	Arginine	Arg	R
组氨酸	Histidine	His	H

密码子表

各种氨基酸残基的同义密码子的数量如下表所示：

因此，如果蛋白质表达体系为真核细胞，则可能对应的DNA序列的个数为：

2*4*2*2*6*2*2*2*2*2*2*4*2*2*2*2*6*4*2*2*4*2*2*4*4*2*2*2*4*2*3*3*4*6*1*4*4*4*4*4＝273,593,677,362,757,632。

对于包括更多氨基酸残基的蛋白来说，该值会指数级增长。因此，如果使用这种暴力枚举法来进行密码子优化求解，由于同义DNA序列的数量过多，在求解时将占用过多计算资源和时间。这种方法一般是直接针对编码目标蛋白的DNA序列进行优化的，最终选用哪种DNA序列进行蛋白表达还需要采用不同的DNA序列进行海量的表达实验，以从中选择表达效率较高且稳定的DNA序列，工作量巨大。另外，这种方法也未考虑到影响蛋白表达效率的其他不利因素。

发明内容

本发明的目的是克服现有密码子优化方法的上述缺点，寻找一种优化对象有别于目标蛋白的DNA编码序列，优化方法有别于暴力枚举法的密码子优化算法，以提高优化效率及优化后的目标蛋白表达效率。

核糖体是由核糖体RNA和核糖体蛋白质构成的一种特殊细胞器，在从mRNA翻译到蛋白质的过程中起到了关键性作用。经研究发现，核糖体蛋白的表达量对生物体的正常功能十分重要。鉴于核糖体蛋白在生物体内的重要性，编码核糖体蛋白的DNA受到较大的选择压力，促使其向高稳定性和高表达效率的方向演化。由此推断，基于目标生物的核糖体蛋白的编码DNA序列的密码子偏好性规律来优化目标蛋白的编码DNA序列将会大大提高目标蛋白在目标生物体内、外的表达量和/或表达活性。

在实际的蛋白质表达过程中，无论是基于有细胞还是无细胞表达体系，均需要先制备出用于编码目标蛋白质的DNA。为避免目标DNA片段被限制性内切酶降解，在保持密码子的同义性和相对较高的表达效率的前提下，需要避免相应的限制性内切酶的酶切位点。此外，鉴于特定序列可能对蛋白表达有特殊的负面影响，有时也可能需要去掉除酶切位点外的基于该特定序列的其他特定位点。

密码子优化过程中去除DNA序列中的限制性内切酶的酶切位点的问题可以看作一个约束优化问题。问题中的强制性约束为同义密码子以及需要避免的位点，优化目标为序列中的同义密码子在表达核糖体蛋白中的相对频率较高。

为实现以上发明目的，第一方面，本发明提供一种蛋白质表达体系的密码子优化方法，基于所述蛋白质表达体系中细胞提取物的来源物种的核糖体蛋白，对编码所述核糖体蛋白的DNA序列的密码子进行统计，获得核糖体蛋白氨基酸序列中每种氨基酸残基对应的同义密码子中各密码子的相对频率，选择相对频率最高的密码子，并将该密码子用作目标蛋白的氨基酸序列中同种氨基酸残基的密码子。

进一步地，所述相对频率为由统计数据经归一化处理后得到，所述统计数据包括每种氨基酸残基的同义密码子中各密码子的使用次数，同义密码子中各密码子的相对频率为自身使用次数与同义密码子中各密码子的使用次数之和的比值。

进一步地，剔除相对频率不超过0.05的密码子。

进一步地，还识别编码目标蛋白的DNA序列中是否存在限制目标蛋白表达的特定位点，若存在，则对该特定位点的核苷酸序列进行优化。

进一步地，所述特定位点为限制性内切酶的酶切位点。

进一步地，对编码目标蛋白的DNA序列的优化过程如下：输入待优化的基于目标蛋白的序列R0，如R0为DNA序列，则将其翻译成氨基酸序列；在所述氨基酸序列的每个氨基酸残基对应的同义密码子中，选择与所述核糖体蛋白的氨基酸序列中同种氨基酸残基的同义密码子中相对频率最高的密码子相同的密码子组成优化DNA序列R1。

进一步地，对所述编码目标蛋白的DNA序列进行分段优化。

进一步地，所述分段的长度为m个碱基，6≤m≤300，且为3的整数倍。

进一步地，还输入需要避免的特定位点的集合A，将所述优化DNA序列R1划分成n个分段，识别各分段中是否存在从属于所述集合A的特定位点，如存在，则对该特定位点进行优化；将各段优化后序列拼合形成优化DNA序列R2。

第二方面，本发明提供一种蛋白质表达体系，包括细胞提取物和编码目标蛋白的DNA序列，所述编码目标蛋白的DNA序列由如第一方面任一技术方案所述的蛋白质表达体系的密码子优化方法进行优化后得到。

进一步地，所述细胞提取物的来源物种为大肠杆菌、枯草芽孢杆菌、酿酒酵母、毕氏酵母和克鲁维酵母中的一种。

进一步地，所述克鲁维酵母为乳酸克鲁维酵母、马克斯克鲁维酵母、多布克鲁维酵母、海泥克鲁维酵母、非发酵克鲁维酵母、威克海姆克鲁维酵母、耐热克鲁维酵母、脆壁克鲁维酵母、湖北克鲁维酵母、多孢克鲁维酵母、暹罗克鲁维酵母和亚罗克鲁维酵母中的一种。

相对于现有技术，本发明的有益效果是：

1.优化方法的构思源于用于表达目标蛋白的细胞提取物的来源物种的核糖体蛋白的编码DNA序列的密码子偏好性，将该密码子偏好性进行定量统计后移植于目标蛋白的编码DNA序列的密码子优化，一定程度上会获得类似于核糖体蛋白的高稳定性和高表达效率的优点。该核糖体蛋白所属的核糖体是目标蛋白赖以表达的“蛋白质工厂”，从目标蛋白表达的生物机理角度进行优化，采用优化后的DNA序列可有效提高目标蛋白的表达效率和稳定性。

2.相比于全局暴力枚举方法，分段优化能使每一段优化所需考虑的同义序列数量大大减少，可大幅降低计算所需资源和时间，提高运算效率。

3.对特定位点进行优化可破坏限制性内切酶的酶切位点，也能使优化更有针对性，从而可进一步减少运算量。

附图说明

图1是本发明方法一个实施例中密码子偏好性选择流程图。

图2是本发明方法一个实施例的流程图。

图3是本发明方法一个实施例中分段优化的流程图。

图4是本发明表达体系一个实施例中优化前后表达量对比图。

图5是本发明表达体系另一个实施例中优化前后表达量对比图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例1：

乳酸克鲁维酵母(Kluyveromyces lactis)是生物工程中常用的一种酵母，能用于大规模生产蛋白质。通过对其核糖体蛋白质编码DNA序列所使用的密码子进行统计，进行归一化处理后，剔除相对频率不足0.05的密码子，所得密码子相对频率如下表所示：

实施例2：

参阅图1-图3，输入的DNA序列是AACCTTTGGGAAACCCTC，需要避免的位点为“CCC”和“GGG”这一相互匹配的双链，目标蛋白表达体系的来源物种为乳酸克鲁维酵母，DNA序列分段为9个字符一段，密码子的排列依据为同义密码子的相对频率。密码子优化步骤如下:

1调取上述实施例1所得的同义密码子排序。

2根据密码子表将输入的DNA序列翻译成氨基酸序列“NLWETL”；

3根据氨基酸序列和密码子排序，生成的初始DNA序列为：AACTTGTGGGAAACCTTG

4将初始的DNA序列切分成”AACTTGTGG”和”GAAACCTTG”两段

5第一段中不含需要避免的位点，因此直接作为该段的解；

6第二段中不含需要避免的位点，因此直接作为该段的解；

7按照顺序拼合序列，拼合后的结果为“AACTTGTGGGAAACCTTG”，含有位点GGG；

8对涉及的密码子组合R4：“TGGGAA”进行同义搜索，可能出现的组合有：“TGGGAA”和“TGGGAG”；

9上述两个密码子组合均无法避开“GGG”位点，因此优化失败。

实施例3：

参阅图1-图3，输入的DNA序列是ACCCTAGGACTTTACTACCGA，需要避免的位点为”GTAC”和”GGGTTT”，目标蛋白表达体系的来源物种为乳酸克鲁维酵母，DNA序列分段为9个字符一段，密码子的排列依据为同义密码子的相对频率。密码子优化步骤如下:

1调取上述实施例1所得的同义密码子排序；

2根据密码子表将输入的序列翻译成氨基酸序列”TLGLYYR”；

3根据氨基酸序列和密码子排序，生成的初始DNA序列为：ACCTTGGGTTTGTACTACAGA；

4将初始的DNA序列切分成”ACCTTGGGT”，”TTGTACTAC”和“AGA”三段；

5第一段中不含需要避免的位点，因此直接作为该段的解；

6第二段中含有“GTAC”，所涉及的密码子区域R4为：”TTGTAC”

7枚举算法生成TTGTAC对应的同义密码子的有序组合，组合为：{“TTGTAC”,”TTGTAT”,”TTATAC”,”TTATAT”,“CTATAC”,“CTATAT”}；

8序列“TTGTAC”,不能满足不含”GTAC”的需求；

9序列“TTGTAT”，发现已经满足需求；

10第二段将被修改为“TTGTATTAC”；

11最后一段“AGA”不含需要避免的位点，因此将被直接拼合；

12拼合序列，生成结果为：ACCTTGGGTTTGTATTACAGA，验证该序列发现含有需要避免的位点GGGTTT，所涉及的密码子组合为“TTGGGTTTG”；

13枚举算法生成TTGGGTTTG对应的同义密码子组合，组合的前几个分别为：(1)TTGGGTTTA；(2)TTAGGTTTG；

14逐一进行检验，发现TTAGGTTTG能避开指定位点；

15将最终的序列修改成ACCTTAGGTTTGTATTACAGA；

16步骤15的序列不含需要避免的位点，因此输出优化后的序列“ACCTTAGGTTTGTATTACAGA”。

实施例4：

参阅图1-图3，输入的DNA序列是TTCGGGACATGA，不需避免位点。目标蛋白表达体系的来源物种为乳酸克鲁维酵母，DNA序列分段为9个字符一段，密码子的排列依据为同义密码子频率。密码子优化步骤如下:

1调取上述实施例1所得的同义密码子排序。

2根据密码子表将输入的序列翻译成氨基酸序列”FAT*”；

3根据氨基酸序列和密码子排序，生成的初始DNA序列为：TTCGCTACCTAA，直接输出。

实施例5：

参阅图1-图3，输入的DNA序列是ACCCTAGGACTTTACTACCGA，需要避免的位点为GGGTTTA。目标蛋白表达体系的来源物种为乳酸克鲁维酵母，DNA序列分段为9个字符一段，密码子的排列依据为同义密码子频率。密码子优化步骤如下:

1调取上述实施例1所得的同义密码子排序；

2根据密码子表将输入的序列翻译成氨基酸序列”TLGLYYR”；

5三段都不含需要避免的位点，因此直接按顺序拼合三段，得：ACCTTGGGTTTGTACTACAGA；

6对步骤5对应序列进行检验，发现不含需要避免的位点，因此直接输出“ACCTTGGGTTTGTACTACAGA”。

实施例6：

比较使用本方案进行序列优化前后，目标蛋白E表达量的变化。蛋白E为荧光蛋白，可产生自发荧光，通过荧光仪读值可以得到蛋白E的荧光亮度。

蛋白E密码子优化前的核苷酸序列如下，该序列命名为EO

ATGattacagaaacatcatcaccgttcagatctatattctcccacagtgggaaaCACCACCATCACCACCACCATCACGGGAGCGGCGAGAACTTaTATTTCCAGGGATCCCGGAATGAATTCGGATCTCAATTCGAGCTCCGTCGACAAGCTgGCGGCCGCGTGAGCAAGGGCGAGGAGCTGTTCACCGGGGTGGTGCCCATCCTGGTCGAGCTGGACGGCGACGTAAACGGCCACAAGTTCAGCGTGCGCGGCGAGGGCGAGGGCGATGCCACCAACGGCAAGCTGACCCTGAAGTTCATCTGCACCACCGGCAAGCTGCCCGTGCCCTGGCCCACCCTCGTGACCACCCTGACCTACGGCGTGCAGTGCTTCAGCCGCTACCCCGACCACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGCGCACCATCTCCTTCAAGGACGACGGCACCTACAAGACCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAGCTGAAGGGCATCGACTTCAAGGAGGACGGCAACATCCTGGGGCACAAGCTGGAGTACAACTTCAACAGCCACAACGTCTATATCACGGCCGACAAGCAGAAGAACGGCATCAAGGCGAACTTCAAGATCCGCCACAACGTCGAGGACGGCAGCGTGCAGCTCGCCGACCACTACCAGCAGAACACCCCCATCGGCGACGGCCCCGTGCTGCTGCCCGACAACCACTACCTGAGCACCCAGTCCAAGCTGAGCAAAGACCCCAACGAGAAGCGCGATCACATGGTCCTGCTGGAGTTCGTGACCGCCGCCGGGATCACTCTCGGCATGGACGAGCTGTACAAG

该序列的密码子优化步骤如下：

1、该DNA所对应的氨基酸序列为：

MITETSSPFRSIFSHSGKHHHHHHHHGSGENLYFQGSRNEFGSQFELRRQAGGRVSKGEELFTGVVPILVELDGDVNGHKFSVRGEGEGDATNGKLTLKFICTTGKLPVPWPTLVTTLTYGVQCFSRYPDHMKQHDFFKSAMPEGYVQERTISFKDDGTYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNFNSHNVYITADKQKNGIKANFKIRHNVEDGSVQLADHYQQNTPIGDGPVLLPDNHYLSTQSKLSKDPNEKRDHMVLLEFVTAAGITLGMDELYK

2、根据实施例1的结果，给该蛋白每个氨基酸残基依次选择对应的同义密码子，所形成的核苷酸序列如下所示，该优化后序列命名为EXL：

ATGATCACCGAAACCTCTTCTCCATTCAGATCTATCTTCTCTCACTCTGGTAAGCACCACCACCACCACCACCACCACGGTTCTGGTGAAAACTTGTACTTCCAAGGTTCTAGAAACGAATTCGGTTCTCAATTCGAATTGAGAAGACAAGCTGGTGGTAGAGTTTCTAAGGGTGAAGAATTGTTCACCGGTGTTGTTCCAATCTTGGTTGAATTGGACGGTGACGTTAACGGTCACAAGTTCTCTGTTAGAGGTGAAGGTGAAGGTGACGCTACCAACGGTAAGTTGACCTTGAAGTTCATCTGTACCACCGGTAAGTTGCCAGTTCCATGGCCAACCTTGGTTACCACCTTGACCTACGGTGTTCAATGTTTCTCTAGATACCCAGACCACATGAAGCAACACGACTTCTTCAAGTCTGCTATGCCAGAAGGTTACGTTCAAGAAAGAACCATCTCTTTCAAGGACGACGGTACCTACAAGACCAGAGCTGAAGTTAAGTTCGAAGGTGACACCTTGGTTAACAGAATCGAATTGAAGGGTATCGACTTCAAGGAAGACGGTAACATCTTGGGTCACAAGTTGGAATACAACTTCAACTCTCACAACGTTTACATCACCGCTGACAAGCAAAAGAACGGTATCAAGGCTAACTTCAAGATCAGACACAACGTTGAAGACGGTTCTGTTCAATTGGCTGACCACTACCAACAAAACACCCCAATCGGTGACGGTCCAGTTTTGTTGCCAGACAACCACTACTTGTCTACCCAATCTAAGTTGTCTAAGGACCCAAACGAAAAGAGAGACCACATGGTTTTGTTGGAATTCGTTACCGCTGCTGGTATCACCTTGGGTATGGACGAATTGTACAAG

3、由于没有需要避免的位点，因此名为EXL的上述序列即密码子优化的结果。

利用蛋白表达体系表达后，测量产物的荧光值，单位RFU，如图4所示。荧光值的强弱代表了EGFP蛋白表达量的高低。从图4中可看到，密码子优化后的蛋白E(EXL)的荧光值与密码子优化前的蛋白E(EO)相比，有了明显提升。由于荧光值与蛋白表达量正相关，所以密码子优化后，蛋白E的表达量明显提升。

实施例7：

通过对蛋白L的纯化后的电泳图来判断蛋白L的表达量，比较密码子优化前后蛋白L的表达量变化。

蛋白L优化前的序列如下，记为LO

ATGAACGTTATTGCTATTTTGAACCACATGGGCGTTTACTTCAAGGAAGAACCAATTAGAGAATTGCACAGAGCTTTGGAAAGATTGAACTTCCAAATTGTTTACCCAAACGACAGAGACGACTTGTTGAAGTTGATTGAAAACAACGCTAGATTGTGCGGCGTTATTTTCGACTGGGACAAGTACAACTTGGAATTGTGCGAAGAAATTTCTAAGATGAACGAAAACTTGCCATTGTACGCTTTCGCTAACACTTACTCTACTTTGGACGTTTCTTTGAACGACTTGAGATTGCAAATTTCTTTCTTCGAATACGCTTTGGGCGCTGCTGAAGACATTGCTAACAAGATTAAGCAAACTACTGACGAATACATTAACACTATTTTGCCACCATTGACTAAGGCTTTGTTCAAGTACGTTAGAGAAGGCAAGTACACTTTCTGCACTCCAGGCCACATGGGCGGCACTGCTTTCCAAAAGTCTCCAGTTGGCTCTTTGTTCTACGACTTCTTCGGCCCAAACACTATGAAGTCTGACATTTCTATTTCTGTTTCTGAATTGGGCTCTTTGTTGGACCACTCTGGCCCACACAAGGAAGCTGAACAATACATTGCTAGAGTTTTCAACGCTGACAGATCTTACATGGTTACTAACGGCACTTCTACTGCTAACAAGATTGTTGGCATGTACTCTGCTCCAGCTGGCTCTACTATTTTGATTGACAGAAACTGCCACAAGTCTTTGACTCACTTGATGATGATGTCTGACGTTACTCCAATTTACTTCAGACCAACTAGAAACGCTTACGGCATTTTGGGCGGCATTCCACAATCTGAATTCCAACACGCTACTATTGCTAAGAGAGTTAAGGAAACTCCAAACGCTACTTGGCCAGTTCACGCTGTTATTACTAACTCTACTTACGACGGCTTGTTGTACAACACTGACTTCATTAAGAAGACTTTGGACGTTAAGTCTATTCACTTCGACTCTGCTTGGGTTCCATACACTAACTTCTCTCCAATTTACGAAGGCAAGTGCGGCATGTCTGGCGGCAGAGTTGAAGGCAAGGTTATTTACGAAACTCAATCTACTCACAAGTTGTTGGCTGCTTTCTCTCAAGCTTCTATGATTCACGTTAAGGGCGACGTTAACGAAGAAACTTTCAACGAAGCTTACATGATGCACACTACTACTTCTCCACACTACGGCATTGTTGCTTCTACTGAAACTGCTGCTGCTATGATGAAGGGCAACGCTGGCAAGAGATTGATTAACGGCTCTATTGAAAGAGCTATTAAGTTCAGAAAGGAAATTAAGAGATTGAGAACTGAATCTGACGGCTGGTTCTTCGACGTTTGGCAACCAGACCACATTGACACTACTGAATGCTGGCCATTGAGATCTGACTCTACTTGGCACGGCTTCAAGAACATTGACAACGAACACATGTACTTGGACCCAATTAAGGTTACTTTGTTGACTCCAGGCATGGAAAAGGACGGCACTATGTCTGACTTCGGCATTCCAGCTTCTATTGTTGCTAAGTACTTGGACGAACACGGCATTGTTGTTGAAAAGACTGGCCCATACAACTTGTTGTTCTTGTTCTCTATTGGCATTGACAAGACTAAGGCTTTGTCTTTGTTGAGAGCTTTGACTGACTTCAAGAGAGCTTTCGACTTGAACTTGAGAGTTAAGAACATGTTGCCATCTTTGTACAGAGAAGACCCAGAATTCTACGAAAACATGAGAATTCAAGAATTGGCTCAAAACATTCACAAGTTGATTGTTCACCACAACTTGCCAGACTTGATGTACAGAGCTTTCGAAGTTTTGCCAACTATGGTTATGACTCCATACGCTGCTTTCCAAAAGGAATTGCACGGCATGACTGAAGAAGTTTACTTGGACGAAATGGTTGGCAGAATTAACGCTAACATGATTTTGCCATACCCACCAGGCGTTCCATTGGTTATGCCAGGCGAAATGATTACTGAAGAATCTAGACCAGTTTTGGAATTCTTGCAAATGTTGTGCGAAATTGGCGCTCACTACCCAGGCTTCGAAACTGACATTCACGGCGCTTACAGACAAGCTGACGGCAGATACACTGTTAAGGTTTTGAAGGAAGAATCTAAGAAG

该序列的密码子优化步骤如下：

1、该DNA序列所对应的氨基酸序列为：

MNVIAILNHMGVYFKEEPIRELHRALERLNFQIVYPNDRDDLLKLIENNARLCGVIFDWDKYNLELCEEISKMNENLPLYAFANTYSTLDVSLNDLRLQISFFEYALGAAEDIANKIKQTTDEYINTILPPLTKALFKYVREGKYTFCTPGHMGGTAFQKSPVGSLFYDFFGPNTMKSDISISVSELGSLLDHSGPHKEAEQYIARVFNADRSYMVTNGTSTANKIVGMYSAPAGSTILIDRNCHKSLTHLMMMSDVTPIYFRPTRNAYGILGGIPQSEFQHATIAKRVKETPNATWPVHAVITNSTYDGLLYNTDFIKKTLDVKSIHFDSAWVPYTNFSPIYEGKCGMSGGRVEGKVIYETQSTHKLLAAFSQASMIHVKGDVNEETFNEAYMMHTTTSPHYGIVASTETAAAMMKGNAGKRLINGSIERAIKFRKEIKRLRTESDGWFFDVWQPDHIDTTECWPLRSDSTWHGFKNIDNEHMYLDPIKVTLLTPGMEKDGTMSDFGIPASIVAKYLDEHGIVVEKTGPYNLLFLFSIGIDKTKALSLLRALTDFKRAFDLNLRVKNMLPSLYREDPEFYENMRIQELAQNIHKLIVHHNLPDLMYRAFEVLPTMVMTPYAAFQKELHGMTEEVYLDEMVGRINANMILPYPPGVPLVMPGEMITEESRPVLEFLQMLCEIGAHYPGFETDIHGAYRQADGRYTVKVLKEESKK

2、根据实施例1的结果，给该蛋白每个氨基酸残基依次选择对应的同义密码子，所形成的核苷酸序列如下所示，该序列记为LXL：

ATGAACGTTATCGCTATCTTGAACCACATGGGTGTTTACTTCAAGGAAGAACCAATCAGAGAATTGCACAGAGCTTTGGAAAGATTGAACTTCCAAATCGTTTACCCAAACGACAGAGACGACTTGTTGAAGTTGATCGAAAACAACGCTAGATTGTGTGGTGTTATCTTCGACTGGGACAAGTACAACTTGGAATTGTGTGAAGAAATCTCTAAGATGAACGAAAACTTGCCATTGTACGCTTTCGCTAACACCTACTCTACCTTGGACGTTTCTTTGAACGACTTGAGATTGCAAATCTCTTTCTTCGAATACGCTTTGGGTGCTGCTGAAGACATCGCTAACAAGATCAAGCAAACCACCGACGAATACATCAACACCATCTTGCCACCATTGACCAAGGCTTTGTTCAAGTACGTTAGAGAAGGTAAGTACACCTTCTGTACCCCAGGTCACATGGGTGGTACCGCTTTCCAAAAGTCTCCAGTTGGTTCTTTGTTCTACGACTTCTTCGGTCCAAACACCATGAAGTCTGACATCTCTATCTCTGTTTCTGAATTGGGTTCTTTGTTGGACCACTCTGGTCCACACAAGGAAGCTGAACAATACATCGCTAGAGTTTTCAACGCTGACAGATCTTACATGGTTACCAACGGTACCTCTACCGCTAACAAGATCGTTGGTATGTACTCTGCTCCAGCTGGTTCTACCATCTTGATCGACAGAAACTGTCACAAGTCTTTGACCCACTTGATGATGATGTCTGACGTTACCCCAATCTACTTCAGACCAACCAGAAACGCTTACGGTATCTTGGGTGGTATCCCACAATCTGAATTCCAACACGCTACCATCGCTAAGAGAGTTAAGGAAACCCCAAACGCTACCTGGCCAGTTCACGCTGTTATCACCAACTCTACCTACGACGGTTTGTTGTACAACACCGACTTCATCAAGAAGACCTTGGACGTTAAGTCTATCCACTTCGACTCTGCTTGGGTTCCATACACCAACTTCTCTCCAATCTACGAAGGTAAGTGTGGTATGTCTGGTGGTAGAGTTGAAGGTAAGGTTATCTACGAAACCCAATCTACCCACAAGTTGTTGGCTGCTTTCTCTCAAGCTTCTATGATCCACGTTAAGGGTGACGTTAACGAAGAAACCTTCAACGAAGCTTACATGATGCACACCACCACCTCTCCACACTACGGTATCGTTGCTTCTACCGAAACCGCTGCTGCTATGATGAAGGGTAACGCTGGTAAGAGATTGATCAACGGTTCTATCGAAAGAGCTATCAAGTTCAGAAAGGAAATCAAGAGATTGAGAACCGAATCTGACGGTTGGTTCTTCGACGTTTGGCAACCAGACCACATCGACACCACCGAATGTTGGCCATTGAGATCTGACTCTACCTGGCACGGTTTCAAGAACATCGACAACGAACACATGTACTTGGACCCAATCAAGGTTACCTTGTTGACCCCAGGTATGGAAAAGGACGGTACCATGTCTGACTTCGGTATCCCAGCTTCTATCGTTGCTAAGTACTTGGACGAACACGGTATCGTTGTTGAAAAGACCGGTCCATACAACTTGTTGTTCTTGTTCTCTATCGGTATCGACAAGACCAAGGCTTTGTCTTTGTTGAGAGCTTTGACCGACTTCAAGAGAGCTTTCGACTTGAACTTGAGAGTTAAGAACATGTTGCCATCTTTGTACAGAGAAGACCCAGAATTCTACGAAAACATGAGAATCCAAGAATTGGCTCAAAACATCCACAAGTTGATCGTTCACCACAACTTGCCAGACTTGATGTACAGAGCTTTCGAAGTTTTGCCAACCATGGTTATGACCCCATACGCTGCTTTCCAAAAGGAATTGCACGGTATGACCGAAGAAGTTTACTTGGACGAAATGGTTGGTAGAATCAACGCTAACATGATCTTGCCATACCCACCAGGTGTTCCATTGGTTATGCCAGGTGAAATGATCACCGAAGAATCTAGACCAGTTTTGGAATTCTTGCAAATGTTGTGTGAAATCGGTGCTCACTACCCAGGTTTCGAAACCGACATCCACGGTGCTTACAGACAAGCTGACGGTAGATACACCGTTAAGGTTTTGAAGGAAGAATCTAAGAAG

3、由于没有需要避免的位点，因此名为LXL的上述序列即密码子优化的结果。

利用体外蛋白表达体系表达后，进行镍磁珠亲和纯化。因为在蛋白L的C末端带有histag标签，可与镍发生特异性吸附。对纯化后洗脱下来的蛋白进行SDS-PAGE，比较蛋白L的表达量，如图5所示，蛋白L的大小为82.8kDa，如,5中箭头所示。结果显示，经过密码子优化后，表达量有了明显提升，目的蛋白电泳条带明显增强。

为具体验证本密码子优化方法对不同蛋白的有效性，选择DpnI、TNF-α、Pfu和mScarlet四种蛋白进行优化前后的蛋白表达实验结果对比。每种蛋白优化前后的氨基酸序列相同，优化后的核苷酸序列名称和蛋白名称均加上前缀“XL”来区分。

1.DpnI蛋白

氨基酸序列为：

ELHFNLELVETYKSNSQKARILTEDWVYRQSYCPNCGNNPLNHFENNRPVADFYCNHCSEEFELKSKKGNFSSTINDGAYATMMKRVQADNNPNFFFLTYTKNFEVNNFLVLPKQFVTPKSIIQRKPLAPTARRAGWIGCNIDLSQVPSKGRIFLVQDGQVRDPEKVTKEFKQGLFLRKSSLSSRGWTIEILNCIDKIEGSEFTLEDMYRFESDLKNIFVKNNHIKEKIRQQLQILRDKEIIEFKGRGKYRKL

优化前的核苷酸序列DpnI为：

GAATTGCATTTCAACTTGGAATTGGTTGAAACTTATAAGTCAAACTCACAAAAGGCTAGAATTTTGACTGAAGATTGGGTTTACAGACAATCTTATTGTCCAAATTGTGGTAATAACCCATTGAATCATTTCGAAAATAACAGACCAGTTGCTGATTTCTATTGTAATCATTGTTCAGAAGAGTTCGAATTGAAGTCTAAAAAGGGTAATTTCTCTTCAACTATCAACGATGGTGCTTATGCTACTATGATGAAGAGAGTTCAAGCTGATAATAATCCAAATTTCTTCTTCTTGACCTACACTAAGAATTTCGAAGTTAATAACTTCTTGGTGTTGCCAAAGCAATTCGTTACTCCAAAATCAATTATCCAAAGAAAGCCATTGGCTCCAACTGCTAGAAGAGCTGGTTGGATTGGTTGTAATATTGATTTGTCTCAAGTGCCATCAAAGGGTAGAATTTTTCTTGTTCAAGATGGTCAAGTTAGAGATCCAGAAAAAGTTACTAAAGAGTTTAAACAGGGTTTGTTTTTGAGAAAATCCTCATTGTCATCAAGAGGTTGGACTATTGAAATTTTGAATTGTATCGACAAGATCGAAGGTTCTGAGTTTACTTTGGAAGATATGTATAGATTCGAGTCAGATTTGAAAAACATCTTTGTTAAGAACAACCACATCAAAGAAAAGATTAGACAACAATTGCAGATCTTGAGAGATAAGGAAATTATTGAGTTTAAAGGTAGGGGTAAATACAGAAAATTG

采用本密码子优化方法优化后的核苷酸序列XL-DpnI为：

GAATTGCACTTCAACTTGGAATTGGTTGAAACCTACAAGTCTAACTCTCAAAAGGCTAGAATCTTGACCGAAGACTGGGTTTACAGACAATCTTACTGTCCAAACTGTGGTAACAACCCATTGAACCACTTCGAAAACAACAGACCAGTTGCTGACTTCTACTGTAACCACTGTTCTGAAGAATTCGAATTGAAGTCTAAGAAGGGTAACTTCTCTTCTACCATCAACGACGGTGCTTACGCTACCATGATGAAGAGAGTTCAAGCTGACAACAACCCAAACTTCTTCTTCTTGACCTACACCAAGAACTTCGAAGTTAACAACTTCTTGGTTTTGCCAAAGCAATTCGTTACCCCAAAGTCTATCATCCAAAGAAAGCCATTGGCTCCAACCGCTAGAAGAGCTGGTTGGATCGGTTGTAACATCGACTTGTCTCAAGTTCCATCTAAGGGTAGAATCTTCTTGGTTCAAGACGGTCAAGTTAGAGACCCAGAAAAGGTTACCAAGGAATTCAAGCAAGGTTTGTTCTTGAGAAAGTCTTCTTTGTCTTCTAGAGGTTGGACCATCGAAATCTTGAACTGTATCGACAAGATCGAAGGTTCTGAATTCACCTTGGAAGACATGTACAGATTCGAATCTGACTTGAAGAACATCTTCGTTAAGAACAACCACATCAAGGAAAAGATCAGACAACAATTGCAAATCTTGAGAGACAAGGAAATCATCGAATTCAAGGGTAGAGGTAAGTACAGAAAGTTG

实验结果如下表

RFU	DPNI	XL-DPNI	PC
				1	185	637	3435
2	210	673	3536
				3	217	613	3723
均值	204	641	3564

由表中三组数据可见，经密码子优化后的蛋白表达量是优化前的3倍以上，效果提升明显。

2.TNF-α蛋白

氨基酸序列为：

SVPGPYQAATGPSSAPSAPPSYEETVAVNSYYPTPPAPMPGPTTGLVTGPDGKGMNPPSYYTQPAPIPNNNPITVQTVYVQHPITFLDRPIQMCCPSCNKMIVSQLSYNAGALTWLSCGSLCLLGCIAGCCFIPFCVDALQDVDHYCPNCRALLGTYKRL

优化前的核苷酸序列TNF-α为：

tcggttccaggaccttaccaggcggccactgggccttcctcagcaccatccgcacctccatcctatgaagagacagtggctgttaacagttattaccccacacctccagctcccatgcctgggccaactacggggcttgtgacggggcctgatgggaagggcatgaatcctccttcgtattatacccagccagcgcccatccccaataacaatccaattaccgtgcagacggtctacgtgcagcaccccatcacctttttggaccgccctatccaaatgtgttgtccttcctgcaacaagatgatcgtgagtcagctgtcctataacgccggtgctctgacctggctgtcctgcgggagcctgtgcctgctggggtgcatagcgggctgctgcttcatccccttctgcgtggatgccctgcaggacgtggaccattactgtcccaactgcagagctctcctgggcacctacaagcgtttg

采用本密码子优化方法优化后的核苷酸序列XL-TNF-α为：

TCTGTTCCAGGTCCATACCAAGCTGCTACCGGTCCATCTTCTGCTCCATCTGCTCCACCATCTTACGAAGAAACCGTTGCTGTTAACTCTTACTACCCAACCCCACCAGCTCCAATGCCAGGTCCAACCACCGGTTTGGTTACCGGTCCAGACGGTAAGGGTATGAACCCACCATCTTACTACACCCAACCAGCTCCAATCCCAAACAACAACCCAATCACCGTTCAAACCGTTTACGTTCAACACCCAATCACCTTCTTGGACAGACCAATCCAAATGTGTTGTCCATCTTGTAACAAGATGATCGTTTCTCAATTGTCTTACAACGCTGGTGCTTTGACCTGGTTGTCTTGTGGTTCTTTGTGTTTGTTGGGTTGTATCGCTGGTTGTTGTTTCATCCCATTCTGTGTTGACGCTTTGCAAGACGTTGACCACTACTGTCCAAACTGTAGAGCTTTGTTGGGTACCTACAAGAGATTG

实验结果如下表

RFU	TNF-α	XL-TNF-α	PC
				1	238	462	4249
2	269	527	4777
				3	287	533	4892
均值	265	507	4639

由表中三组数据可见，经密码子优化后的蛋白表达量是优化前的近2倍，效果提升明显。

3.Pfu蛋白

氨基酸序列为：

ILDVDYITEEGKPVIRLFKKENGKFKIEHDRTFRPYIYALLRDDSKIEEVKKITGERHGKIVRIVDVEKVEKKFLGKPITVWKLYLEHPQDVPTIREKVREHPAVVDIFEYDIPFAKRYLIDKGLIPMEGEEELKILAFDIETLYHEGEEFGKGPIIMISYADENEAKVITWKNIDLPYVEVVSSEREMIKRFLRIIREKDPDIIVTYNGDSFDFPYLAKRAEKLGIKLTIGRDGSEPKMQRIGDMTAVEVKGRIHFDLYHVITRTINLPTYTLEAVYEAIFGKPKEKVYADEIAKAWESGENLERVAKYSMEDAKATYELGKEFLPMEIQLSRLVGQPLWDVSRSSTGNLVEWFLLRKAYERNEVAPNKPSEEEYQRRLRESYTGGFVKEPEKGLWENIVYLDFRALYPSIIITHNVSPDTLNLEGCKNYDIAPQVGHKFCKDIPGFIPSLLGHLLEERQKIKTKMKETQDPIEKILLDYRQKAIKLLANSFYGYYGYAKARWYCKECAESVTAWGRKYIELVWKELEEKFGFKVLYIDTDGLYATIPGGESEEIKKKALEFVKYINSKLPGLLELEYEGFYKRGFFVTKKRYAVIDEEGKVITRGLEIVRRDWSEIAKETQARVLETILKHGDVEEAVRIVKEVIQKLANYEIPPEKLAIYEQITRPLHEYKAIGPHVAVAKKLAAKGVKIKPGMVIGYIVLRGDGPISNRAILAEEYDPKKHKYDAEYYIENQVLPAVLRILEGFGYRKEDLRYQKTRQVGLTSWLNIKKS

优化前的核苷酸序列Pfu为：

GGATCCattttagatgtggattacataactgaagaaggaaaacctgttattaggctattcaaaaaagagaacggaaaatttaagatagagcatgatagaacttttagaccatacatttacgctcttctcagggatgattcaaagattgaagaagttaagaaaataacgggggaaaggcatggaaagattgtgagaattgttgatgtagagaaggttgagaaaaagtttctcggcaagcctattaccgtgtggaaactttatttggaacatccccaagatgttcccactattagagaaaaagttagagaacatccagcagttgtggacatcttcgaatacgatattccatttgcaaagagatacctcatcgacaaaggcctaataccaatggagggggaagaagagctaaagattcttgccttcgatatagaaaccctctatcacgaaggagaagagtttggaaaaggcccaattataatgattagttatgcagatgaaaatgaagcaaaggtgattacttggaaaaacatagatcttccatacgttgaggttgtatcaagcgagagagagatgataaagagatttctcaggattatcagggagaaggaccctgacattatagttacttataatggagactcattcgacttcccatatttagcgaaaagggcagaaaaacttgggattaaattaaccattggaagagatggaagcgagcccaagatgcagagaataggcgatatgacggctgtagaagtcaagggaagaatacatttcgacttgtatcatgtaataacaaggacaataaatctcccaacatacacactagaggctgtatatgaagcaatttttggaaagccaaaggagaaggtatacgccgacgagatagcaaaagcctgggaaagtggagagaaccttgagagagttgccaaatactcgatggaagatgcaaaggcaacttatgaactcgggaaagaattccttccaatggaaattcagctttcaagattagttggacaacctttatgggatgtttcaaggtcaagcacagggaaccttgtagagtggttcttacttaggaaagcctacgaaagaaacgaagtagctccaaacaagccaagtgaagaggagtatcaaagaaggctcagggagagctacacaggtggattcgttaaagagccagaaaaggggttgtgggaaaacatagtatacctagattttagagccctatatccctcgattataattacccacaatgtttctcccgatactctaaatcttgagggatgcaagaactatgatatcgctcctcaagtaggccacaagttctgcaaggacatccctggttttataccaagtctcttgggacatttgttagaggaaagacaaaagattaagacaaaaatgaaggaaactcaagatcctatagaaaaaatactccttgactatagacaaaaagcgataaaactcttagcaaattctttctacggatattatggctatgcaaaagcaagatggtactgtaaggagtgtgctgagagcgttactgcctggggaagaaagtacatcgagttagtatggaaggagctcgaagaaaagtttggatttaaagtcctctacattgacactgatggtctctatgcaactatcccaggaggagaaagtgaggaaataaagaaaaaggctctagaatttgtaaaatacataaattcaaagctccctggactgctagagcttgaatatgaagggttttataagaggggattcttcgttacgaagaagaggtatgcagtaatagatgaagaaggaaaagtcattactcgtggtttagagatagttaggagagattggagtgaaattgcaaaagaaactcaagctagagttttggagacaatactaaaacacggagatgttgaagaagctgtgagaatagtaaaagaagtaatacaaaaacttgccaattatgaaattccaccagagaagctcgcaatatatgagcagataacaagaccattacatgagtataaggcgataggtcctcacgtagctgttgcaaagaaactagctgctaaaggagttaaaataaagccaggaatggtaattggatacatagtacttagaggcgatggtccaattagcaatagggcaattctagctgaggaatacgatcccaaaaagcacaagtatgacgcagaatattacattgagaaccaggttcttccagcggtacttaggatattggagggatttggatacagaaaggaagacctcagataccaaaagacaagacaagtcggcctaacttcctggcttaacattaaaaaatccagccatggaggaagctt

采用本密码子优化方法优化后的核苷酸序列XL-Pfu为：

ATCTTGGACGTTGACTACATCACCGAAGAAGGTAAGCCAGTTATCAGATTGTTCAAGAAGGAAAACGGTAAGTTCAAGATCGAACACGACAGAACCTTCAGACCATACATCTACGCTTTGTTGAGAGACGACTCTAAGATCGAAGAAGTTAAGAAGATCACCGGTGAAAGACACGGTAAGATCGTTAGAATCGTTGACGTTGAAAAGGTTGAAAAGAAGTTCTTGGGTAAGCCAATCACCGTTTGGAAGTTGTACTTGGAACACCCACAAGACGTTCCAACCATCAGAGAAAAGGTTAGAGAACACCCAGCTGTTGTTGACATCTTCGAATACGACATCCCATTCGCTAAGAGATACTTGATCGACAAGGGTTTGATCCCAATGGAAGGTGAAGAAGAATTGAAGATCTTGGCTTTCGACATCGAAACCTTGTACCACGAAGGTGAAGAATTCGGTAAGGGTCCAATCATCATGATCTCTTACGCTGACGAAAACGAAGCTAAGGTTATCACCTGGAAGAACATCGACTTGCCATACGTTGAAGTTGTTTCTTCTGAAAGAGAAATGATCAAGAGATTCTTGAGAATCATCAGAGAAAAGGACCCAGACATCATCGTTACCTACAACGGTGACTCTTTCGACTTCCCATACTTGGCTAAGAGAGCTGAAAAGTTGGGTATCAAGTTGACCATCGGTAGAGACGGTTCTGAACCAAAGATGCAAAGAATCGGTGACATGACCGCTGTTGAAGTTAAGGGTAGAATCCACTTCGACTTGTACCACGTTATCACCAGAACCATCAACTTGCCAACCTACACCTTGGAAGCTGTTTACGAAGCTATCTTCGGTAAGCCAAAGGAAAAGGTTTACGCTGACGAAATCGCTAAGGCTTGGGAATCTGGTGAAAACTTGGAAAGAGTTGCTAAGTACTCTATGGAAGACGCTAAGGCTACCTACGAATTGGGTAAGGAATTCTTGCCAATGGAAATCCAATTGTCTAGATTGGTTGGTCAACCATTGTGGGACGTTTCTAGATCTTCTACCGGTAACTTGGTTGAATGGTTCTTGTTGAGAAAGGCTTACGAAAGAAACGAAGTTGCTCCAAACAAGCCATCTGAAGAAGAATACCAAAGAAGATTGAGAGAATCTTACACCGGTGGTTTCGTTAAGGAACCAGAAAAGGGTTTGTGGGAAAACATCGTTTACTTGGACTTCAGAGCTTTGTACCCATCTATCATCATCACCCACAACGTTTCTCCAGACACCTTGAACTTGGAAGGTTGTAAGAACTACGACATCGCTCCACAAGTTGGTCACAAGTTCTGTAAGGACATCCCAGGTTTCATCCCATCTTTGTTGGGTCACTTGTTGGAAGAAAGACAAAAGATCAAGACCAAGATGAAGGAAACCCAAGACCCAATCGAAAAGATCTTGTTGGACTACAGACAAAAGGCTATCAAGTTGTTGGCTAACTCTTTCTACGGTTACTACGGTTACGCTAAGGCTAGATGGTACTGTAAGGAATGTGCTGAATCTGTTACCGCTTGGGGTAGAAAGTACATCGAATTGGTTTGGAAGGAATTGGAAGAAAAGTTCGGTTTCAAGGTTTTGTACATCGACACCGACGGTTTGTACGCTACCATCCCAGGTGGTGAATCTGAAGAAATCAAGAAGAAGGCTTTGGAATTCGTTAAGTACATCAACTCTAAGTTGCCAGGTTTGTTGGAATTGGAATACGAAGGTTTCTACAAGAGAGGTTTCTTCGTTACCAAGAAGAGATACGCTGTTATCGACGAAGAAGGTAAGGTTATCACCAGAGGTTTGGAAATCGTTAGAAGAGACTGGTCTGAAATCGCTAAGGAAACCCAAGCTAGAGTTTTGGAAACCATCTTGAAGCACGGTGACGTTGAAGAAGCTGTTAGAATCGTTAAGGAAGTTATCCAAAAGTTGGCTAACTACGAAATCCCACCAGAAAAGTTGGCTATCTACGAACAAATCACCAGACCATTGCACGAATACAAGGCTATCGGTCCACACGTTGCTGTTGCTAAGAAGTTGGCTGCTAAGGGTGTTAAGATCAAGCCAGGTATGGTTATCGGTTACATCGTTTTGAGAGGTGACGGTCCAATCTCTAACAGAGCTATCTTGGCTGAAGAATACGACCCAAAGAAGCACAAGTACGACGCTGAATACTACATCGAAAACCAAGTTTTGCCAGCTGTTTTGAGAATCTTGGAAGGTTTCGGTTACAGAAAGGAAGACTTGAGATACCAAAAGACCAGACAAGTTGGTTTGACCTCTTGGTTGAACATCAAGAAGTCT

实验结果如下表

RFU	Pfu	XL-Pfu	PC
				1	210	467	2899
2	242	469	3083
				3	261	488	3122
均值	238	475	3035

由表中三组数据可见，经密码子优化后的蛋白表达量是优化前的2倍左右，效果提升明显。

4.mScarlet蛋白

氨基酸序列为：

VSKGEAVIKEFMRFKVHMEGSMNGHEFEIEGEGEGRPYEGTQTAKLKVTKGGPLPFSWDILSPQFMYGSRAFIKHPADIPDYYKQSFPEGFKWERVMNFEDGGAVTVTQDTSLEDGTLIYKVKLRGTNFPPDGPVMQKKTMGWEASTERLYPEDGVLKGDIKMALRLKDGGRYLADFKTTYKAKKPVQMPGAYNVDRKLDITSHNEDYTVVEQYERSEGRHSTGGMDELYK

优化前的核苷酸序列mScarlet为：

GTTTCAAAGGGTGAAGCTGTTATTAAGGAGTTTATGAGATTCAAAGTGCATATGGAAGGTTCTATGAATGGTCATGAATTTGAAATTGAGGGTGAAGGTGAAGGTAGACCATATGAAGGTACTCAAACTGCTAAATTGAAGGTTACTAAAGGTGGTCCATTGCCATTCTCATGGGATATTTTGTCACCACAATTCATGTATGGTTCTAGAGCTTTCATTAAGCATCCAGCTGATATTCCAGATTACTATAAGCAATCATTCCCAGAAGGTTTCAAGTGGGAAAGAGTTATGAATTTTGAAGATGGTGGTGCTGTTACTGTTACTCAAGATACTTCATTGGAAGATGGTACTTTGATCTATAAGGTTAAGTTGAGAGGTACTAATTTCCCACCAGATGGTCCAGTTATGCAAAAGAAAACTATGGGTTGGGAAGCTAGTACTGAAAGATTGTATCCAGAAGATGGTGTTTTGAAGGGTGACATTAAGATGGCTTTGAGATTGAAAGATGGTGGTAGATATTTGGCTGATTTCAAGACTACTTATAAGGCTAAGAAGCCAGTTCAAATGCCAGGTGCTTACAATGTTGATAGAAAATTGGATATCACCTCTCATAATGAAGATTATACTGTTGTTGAGCAATACGAAAGATCTGAAGGTAGACATTCTACTGGTGGTATGGATGAATTGTATAAG

采用本密码子优化方法优化后的核苷酸序列XL-mScarlet为：

GTTTCTAAGGGTGAAGCTGTTATCAAGGAATTCATGAGATTCAAGGTTCACATGGAAGGTTCTATGAACGGTCACGAATTCGAAATCGAAGGTGAAGGTGAAGGTAGACCATACGAAGGTACCCAAACCGCTAAGTTGAAGGTTACCAAGGGTGGTCCATTGCCATTCTCTTGGGACATCTTGTCTCCACAATTCATGTACGGTTCTAGAGCTTTCATCAAGCACCCAGCTGACATCCCAGACTACTACAAGCAATCTTTCCCAGAAGGTTTCAAGTGGGAAAGAGTTATGAACTTCGAAGACGGTGGTGCTGTTACCGTTACCCAAGACACCTCTTTGGAAGACGGTACCTTGATCTACAAGGTTAAGTTGAGAGGTACCAACTTCCCACCAGACGGTCCAGTTATGCAAAAGAAGACCATGGGTTGGGAAGCcTCTACCGAAAGATTGTACCCAGAAGACGGTGTTTTGAAGGGTGACATCAAGATGGCTTTGAGATTGAAGGACGGTGGTAGATACTTGGCTGACTTCAAGACCACCTACAAGGCTAAGAAGCCAGTTCAAATGCCAGGTGCTTACAACGTTGACAGAAAGTTGGACATCACCTCTCACAACGAAGACTACACCGTTGTTGAACAATACGAAAGATCTGAAGGTAGACACTCTACCGGTGGTATGGACGAATTGTACAAG实验结果如下表

RFU	mScarlet	XL-mScarlet	PC
				1	3306	6299	5682
2	3849	7413	6056
				3	4313	7462	6667
均值	3823	7058	6135

在本发明中提及的蛋白表达体系请参考本申请人的相关在先专利文献，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种蛋白质表达体系的密码子优化方法，其特征在于，基于所述蛋白质表达体系中细胞提取物的来源物种的核糖体蛋白，对编码所述核糖体蛋白的DNA序列的密码子进行统计，获得核糖体蛋白氨基酸序列中每种氨基酸残基对应的同义密码子中各密码子的相对频率，选择相对频率最高的密码子，并将该密码子用作目标蛋白的氨基酸序列中同种氨基酸残基的密码子。

2.如权利要求1所述的蛋白质表达体系的密码子优化方法，其特征在于，所述相对频率为由统计数据经归一化处理后得到，所述统计数据包括每种氨基酸残基的同义密码子中各密码子的使用次数，同义密码子中各密码子的相对频率为自身使用次数与同义密码子中各密码子的使用次数之和的比值。

3.如权利要求2所述的蛋白质表达体系的密码子优化方法，其特征在于，剔除相对频率不超过0.05的密码子。

4.如权利要求1所述的蛋白质表达体系的密码子优化方法，其特征在于，还识别编码目标蛋白的DNA序列中是否存在限制目标蛋白表达的特定位点，若存在，则对该特定位点的核苷酸序列进行优化。

5.如权利要求4所述的蛋白质表达体系的密码子优化方法，其特征在于，所述特定位点为限制性内切酶的酶切位点。

6.如权利要求1所述的蛋白质表达体系的密码子优化方法，其特征在于，对编码目标蛋白的DNA序列的优化过程如下：输入待优化的基于目标蛋白的序列R0，如R0为DNA序列，则将其翻译成氨基酸序列；在所述氨基酸序列的每个氨基酸残基对应的同义密码子中，选择与所述核糖体蛋白的氨基酸序列中同种氨基酸残基的同义密码子中相对频率最高的密码子相同的密码子组成优化DNA序列R1。

7.如权利要求6所述的蛋白质表达体系的密码子优化方法，其特征在于，对所述编码目标蛋白的DNA序列进行分段优化。

8.如权利要求7所述的蛋白质表达体系的密码子优化方法，其特征在于，所述分段的长度为m个碱基，6≤m≤300，且为3的整数倍。

9.如权利要求8所述的蛋白质表达体系的密码子优化方法，其特征在于，还输入需要避免的特定位点的集合A，将所述优化DNA序列R1划分成n个分段，识别各分段中是否存在从属于所述集合A的特定位点，如存在，则对该特定位点进行优化；将各段优化后序列拼合形成优化DNA序列R2。

10.一种蛋白质表达体系，其特征在于，包括细胞提取物和编码目标蛋白的DNA序列，所述编码目标蛋白的DNA序列由如权利要求1至9任一项所述的蛋白质表达体系的密码子优化方法进行优化后得到。

11.如权利要求10所述的蛋白质表达体系，其特征在于，所述细胞提取物的来源物种为大肠杆菌、枯草芽孢杆菌、酿酒酵母、毕氏酵母和克鲁维酵母中的一种。

12.如权利要求11所述的蛋白质表达体系，其特征在于，所述克鲁维酵母为乳酸克鲁维酵母、马克斯克鲁维酵母、多布克鲁维酵母、海泥克鲁维酵母、非发酵克鲁维酵母、威克海姆克鲁维酵母、耐热克鲁维酵母、脆壁克鲁维酵母、湖北克鲁维酵母、多孢克鲁维酵母、暹罗克鲁维酵母和亚罗克鲁维酵母中的一种。