CN115595329A - 一种用于蛋白质合成的表达序列的构建方法 - Google Patents

一种用于蛋白质合成的表达序列的构建方法 Download PDF

Info

Publication number
CN115595329A
CN115595329A CN202110771297.1A CN202110771297A CN115595329A CN 115595329 A CN115595329 A CN 115595329A CN 202110771297 A CN202110771297 A CN 202110771297A CN 115595329 A CN115595329 A CN 115595329A
Authority
CN
China
Prior art keywords
ala
thr
gly
cys
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110771297.1A
Other languages
English (en)
Inventor
郭敏
徐丽琼
唐磊
于雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kangma Healthcode Shanghai Biotech Co Ltd
Original Assignee
Kangma Healthcode Shanghai Biotech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kangma Healthcode Shanghai Biotech Co Ltd filed Critical Kangma Healthcode Shanghai Biotech Co Ltd
Priority to CN202110771297.1A priority Critical patent/CN115595329A/zh
Publication of CN115595329A publication Critical patent/CN115595329A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/67General methods for enhancing the expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/80Vectors or expression systems specially adapted for eukaryotic hosts for fungi
    • C12N15/81Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts
    • C12N15/815Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts for yeasts other than Saccharomyces
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P21/00Preparation of peptides or proteins
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/22Vectors comprising a coding region that has been codon optimised for expression in a respective host

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Mycology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

本发明公开一种用于蛋白质合成的表达序列的构建方法,其核心在于基于tRNA基因拷贝数的高低,从编码氨基酸的同义密码子中筛选出用于构建表达序列的密码子。该方法区别于传统的依据密码子偏好等参数的算法。本发明公开的表达序列的构建方法,把tRNA基因拷贝数高低作为选择同义密码子的主要依据,是一种简单有效的密码子算法,而且能够提到蛋白质表达水平。本发明提供的密码子算法可用于构建蛋白质的表达序列、制备基因工程细胞、进行体外蛋白合成等多种用途。

Description

一种用于蛋白质合成的表达序列的构建方法
技术领域
本发明涉及一种蛋白工程技术领域,具体涉及用于蛋白质合成的表达序列的构建方法。
背景技术
将遗传信息从核酸模板传递至具有生物功能的蛋白质的过程中,其中一个至关重要的环节是以三联体密码的形式编码蛋白质的结构单元——氨基酸。在遗传密码中,mRNA中三个相邻的碱基组成一个密码子,一个密码子可以编码一种氨基酸,在生物体中有20 种氨基酸、61种密码子。在蛋白质翻译过程中,每种氨基酸至少对应一个密码子。一种氨基酸可以由多个不同的密码子编码,该现象称为密码子简并性。编码同一个氨基酸的密码子称为同义密码子。编码同一种氨基酸的不同的同义密码子通常具有不同的使用频率,某些密码子比其它同义密码子具有更高的使用频率。这种同义密码子使用频率的差异广泛地存在于细菌、真菌、植物、动物以及人体中,而且从某个单一物种基因组中的基因到不同物种的基因组。上述生物体中编码同一种氨基酸的同义密码子的非均衡使用现象,称为密码子使用偏性或者密码子偏好性。不同生物的密码子的偏好性存在着显著差异。(梁菲菲. 《密码子偏性的影响因素及研究意义》[J].畜牧与饲料科学,2010,31(1):118-119.)
对某种生物来源的基因在不同物种的宿主细胞中进行异源表达时,由于基因来源生物与宿主生物密码子偏好性的不同,往往导致基因低表达或者不表达;为了提高外源基因在宿主细胞中的表达水平,有必要对密码子进行优化以适应宿主细胞的物种。对外源基因进行密码子优化的传统方法,主要根据宿主表达系统的密码子偏好性等因素,在不改变蛋白氨基酸序列的前提下从大量编码序列中筛选出能够在宿主表达系统中最高效表达蛋白的编码序列。目前,密码子优化过程中影响蛋白表达的常被考虑的主要因素包括宿主细胞密码子偏好性、终止密码子数量、GC含量、稀有密码子含量、mRNA抑制性调控模序(motif)数量、mRNA二级结构、关键密码子和机器学习中数学模型打分、microRNA结合位点、 G4含量以及蛋白二级结构密码子偏好性等(CN110070913A)。目前最常用的密码子优化策略是密码子偏好性优化策略,具体地,是将供体的密码子替换为宿主基因组中最高使用频率的同义密码子。(Zhipeng Zhoua et al.Codon usage is an important determinant of geneexpression levels largely through its effects on transcription[J].PNAS,2016,1606724113)
转运RNA(tRNA)是生物体内广泛存在的一类非编码RNA分子,是一种小分子量的核糖核酸,是基因表达过程中联系核苷酸序列和氨基酸序列的重要纽带。tRNA能够解读 mRNA中的密码子所表达的遗传信息,并识别密码子所指定的氨基酸。与mRNA中的密码子配对的tRNA中的三个碱基称为反密码子。与密码子的简并性相适应,携带的氨基酸相同而反密码子不同的一组tRNA为同功tRNA。每种生物体内都有许多的tRNA池,即具有一定的tRNA丰度。不同生物的tRNA丰度存在显著差异。任何一种生物中tRNA的种类和数量是一定的。在同功(即“同工”)tRNA中,各种tRNA的数量并不相同。tRNA是与密码子相对应的。在蛋白翻译过程中,密码子需要和携带对应反密码子的tRNA相互识别和作用,才能把游离的氨基酸残基转移到多肽链上,因此,这些对应的tRNA的丰度就决定了蛋白质合成的资源。传统观点认为,密码子的使用频率与相应的tRNA含量呈正相关,某种tRNA丰度越高,其相应的密码子的偏爱就越强,同样地,基因中某种密码子的含量较高,其相应的tRNA含量在基因表达的某个部位也会相应较高。(冯德江等.《tRNA丰度与基因表达的关系》[J].中国生物工程杂志,2002,22(6):4-8.;梁菲菲.《密码子偏性的影响因素及研究意义》[J].畜牧与饲料科学,2010,31(1):118-119.)
蛋白质合成主要包括传统的细胞内合成技术和新一代的体外合成技术。传统的蛋白表达系统是指通过模式生物如细菌、真菌、植物细胞或动物细胞等表达外源基因的一种分子生物学技术。体外蛋白合成系统,也称为无细胞表达系统,在1960年代应运而生,其以外源的mRNA或者DNA作为蛋白质的合成模板,通过人为控制添加蛋白质合成所需的底物、能量、以及转录和/或翻译相关因子等物质,实现外源蛋白质的合成。其中,基于细胞提取物的体外蛋白合成系统一般是指在细菌、真菌、植物细胞或动物细胞的裂解体系中,加入核酸模板(mRNA模板或者DNA模板)、RNA聚合酶、氨基酸、能量等组分,完成目标蛋白的快速高效翻译。体外蛋白合成系统可以无需进行质粒构建、转化、细胞培养、细胞收集和破碎步骤,是一种相对快速、省时、便捷的蛋白质表达方式,是蛋白质领域的重要工具(“Garcia RA,RileyMR.Applied biochemistry and biotechnology.Humana Press.1981, 263-264”;“FrommHJ,Hargrove M.Essentials of Biochemistry.2012”;CN109988801A;“Assenberg R,WanPT,Geisse S,Mayr LM.Advances in recombinant protein expression for use inpharmaceutical research.Current Opinion in Structural Biology.2013,23(3):393-402”;“Anne Zemella,Lena Thoring,Christian Hoffmeister and Stefan Kubick.Cell-free protein synthesis:pros and cons of prokaryotic and eukaryoticsystems.Chembiochem.2015, 16:2420-2431”)。体外蛋白合成系统还可以表达对细胞具有毒害作用或者含有非天然氨基酸(如D-氨基酸)的特殊蛋白质,能够同时平行合成多种蛋白质,便于开展高通量药物筛选和蛋白质组学的研究(Spirin AS,Swartz JR.Chapter1.Cell-Free Protein Synthesis Systems:Historical Landmarks,Classification,andGeneral Methods.Wiley-VCH Verlag GmbH&Co.KGaA,2008:1-34.)。利用体外合成系统生产的蛋白质产品,可广泛应用于医药、食品、营养品、膳食补充剂、化妆品等各领域,包括但不限于申请人的PROTEINNTM、 PROTNTM、普罗敦TM、普敦TM等品牌的蛋白质产品。编码目标蛋白的核酸模板对于体外蛋白合成系统至关重要,核酸模板的表达水平与提供转录和/或翻译相关生物因子的物种密切相关,合适的密码子选择有利于提高核酸模板的表达为蛋白产物的能力。
发明内容
针对上述技术背景,本发明的目的之一是提供一种用于蛋白质合成的表达序列的构建方法,其核心在于基于tRNA基因拷贝数的高低,从编码氨基酸的同义密码子中筛选出用于构建表达序列的密码子。该方法能够提供一种表达序列的构建算法或密码子优化算法。该方法区别于传统的依据密码子偏好等参数的算法。本发明提供的表达序列的构建方法,把tRNA基因拷贝数高低作为选择同义密码子的主要依据,是一种简单有效的密码子算法,而且能够提高蛋白质表达水平。本发明提供的密码子算法可用于构建蛋白质的表达序列、制备基因工程细胞、进行体外蛋白合成等多种用途。
其中,tRNA基因的拷贝数,简称为tRNA拷贝数,简记为tRCN。
1.用于蛋白质合成的表达序列的构建方法
1.1.本发明第一方面公开一种用于蛋白质合成的表达序列的构建方法,包括以下步骤:
(i)选定一段氨基酸序列;
(ii)选定一个物种,该物种的细胞能够提供合成所述氨基酸序列所需的tRNA;
(iii)确定所述氨基酸序列的每种氨基酸在所述物种细胞基因组中的三联体密码的种类以及相应的tRNA拷贝数分布情况;所述物种细胞基因组中tRNA拷贝数为正数的三联体密码构成的组记为TCF组;确定每种氨基酸的最低tRNA拷贝数和最高tRNA拷贝数,相应的三联体密码分别记为TCcmin、TCcmax,相应的氨基酸分别记为TCcmin氨基酸、TCcmax氨基酸;
(iv)每个氨基酸的三联体密码各自独立地选自TCF组中相应的同义密码子,得到编码所述氨基酸序列的表达序列,用于合成所述氨基酸序列所示的蛋白质。
优选地,得到的编码所述氨基酸序列的所述表达序列为DNA序列、RNA序列或者其组合。
所述物种细胞基因组中的三联体密码的种类根据密码子或者反密码子的种类确定。
优选方式之一,所有种类氨基酸中,至少80%种类、至少85%种类、至少90%种类、至少95%种类或者100%种类的氨基酸各自独立地满足至少一个氨基酸的三联体密码为相应的TCcmax
优选方式之一,所述表达序列中,所有氨基酸的三联体密码均为相应的TCcmax
优选方式之一,所述表达序列中,至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所有种类氨基酸中,至少80%种类、至少85%种类、至少90%种类或者至少95%种类的氨基酸各自独立地满足至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所述表达序列中,每种氨基酸各自独立地满足至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所述表达序列中,每种氨基酸的各同义密码子的数量百分比,各自独立地与所述物种细胞中相应tRNA拷贝数的数量百分比正相关。
所述物种细胞中,每种氨基酸的tRNA拷贝数按拷贝数相对值计量,所述最低tRNA拷贝数对应0,所述最高tRNA拷贝数对应1,介于两者之间的tRNA拷贝数对应于相对于最低tRNA拷贝数的增量除以Dmax-min,所述Dmax-min为最高tRNA拷贝数与最低tRNA 拷贝数的差值。
优选方式之一,每个氨基酸各自独立地选择tRNA拷贝数相对值≥0.5、≥0.6、≥0.7、≥0.8 或者≥0.9的三联体密码。
1.2.本发明第二方面公开一种用于蛋白质合成的表达序列的构建方法,包括以下步骤:
(i)选定一段基础核酸序列,所述基础核酸序列编码一段特定的氨基酸序列;
(ii)选定一个物种,该物种细胞能够提供合成所述氨基酸序列所需的tRNA;
(iii)确定所述氨基酸序列中的每种氨基酸在所述物种细胞基因组中的三联体密码的种类以及相应的tRNA拷贝数分布情况;确定每种氨基酸的最高tRNA拷贝数TCcmax
(iv)对所述基础核酸序列中的至少一个氨基酸进行密码子优化,得到编码所述氨基酸序列的经优化的表达序列;所述密码子优化,指从非TCcmax的三联体密码优化为具有更高tRNA拷贝数的三联体密码。
所述“更高tRNA拷贝数的三联体密码”,指经优化后的密码子的tRNA拷贝数大于优化前密码子的tRNA拷贝数,且小于等于最高tRNA拷贝数。
所述基础核酸序列可以为天然序列或者人工序列。所述人工序列指天然序列以外的其他序列类型,可以不改变氨基酸种类只改变三联密码种类,也可以改变氨基酸种类。
优选方式之一,所述基础核酸序列为DNA、RNA或者其组合。
优选方式之一,所述人工序列包括但不限于基于天然序列的改造序列。
所述“基于天然序列的改造序列”,可以为不改变氨基酸种类的改造序列,也可以为改变氨基酸序列但不改变基本功能的改造序列,还可以为与天然序列至少具有高度序列一致性的改造序列。所述高度序列一致性,指至少50%序列一致性,比如至少60%序列一致性、至少70%序列一致性、至少80%序列一致性、至少90%序列一致性等。
所述物种细胞基因组中的三联体密码的种类根据密码子或者反密码子的种类确定。
所述物种细胞基因组中tRNA拷贝数为正数的三联体密码构成的组记为TCF组,与第一方面一致。
优选方式之一,所述经优化的表达序列中,所有三联体密码各自独立地选自所述TCF 组中相应的同义密码子。
优选方式之一,所有种类氨基酸中,至少80%种类、至少85%种类、至少90%种类、至少95%种类或者100%种类的氨基酸各自独立地满足该种类氨基酸至少一个氨基酸的三联体密码为相应的TCcmax
优选方式之一,所述经优化的表达序列中,至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所有种类氨基酸中,至少80%种类、至少85%种类、至少90%种类或者至少95%种类的氨基酸各自独立地满足该种类氨基酸至少50%数量、至少 60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所述经优化的表达序列中,每种氨基酸各自独立地满足至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所述经优化的表达序列中,每种氨基酸的各同义密码子的数量百分比,各自独立地与所述物种细胞中相应tRNA拷贝数的数量百分比正相关。
与第一方面一致,将所述基础核酸序列中,相应氨基酸的非TCcmax的三联体密码构成的组记为NMTC组。
优选方式之一,所述NMTC组中,至少一个三联体密码优化为相应的TCcmax
优选方式之一,对所述NMTC组中至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地进行密码子优化。
优选方式之一,所述NMTC组中,至少80%种类、至少85%种类、至少90%种类或者至少95%种类的氨基酸各自独立地满足该种类氨基酸至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地进行密码子优化。
优选方式之一,所述NMTC组中,每种氨基酸各自独立地满足至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地进行密码子优化。
所述NMTC组中任一种氨基酸的优化程度记为优化度,简记为pi。所述优化度指进行了密码子优化的三联体密码个数占相应氨基酸的非TCcmax三联体密码总数的百分比。
优选方式之一,所述NMTC组中,至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码的优化度各自独立地至少为50%、至少为60%、至少为70%、至少为80%或者至少为90%。
优选方式之一,所述NMTC组中,至少80%种类、至少85%种类、至少90%种类或者至少95%种类的氨基酸各自独立地满足该种类氨基酸至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码的优化度各自独立地至少为50%、至少为60%、至少为70%、至少为80%或者至少为90%。
优选方式之一,所述NMTC组中,所有种类氨基酸的三联体密码的优化度各自独立地至少为50%、至少为60%、至少为70%、至少为80%或者至少为90%。
优选方式之一,所述NMTC组中,每种氨基酸的各同义密码子的优化度,各自独立地分别与所述物种细胞中相应tRNA拷贝数的数量百分比正相关。
优选方式之一,所述NMTC组中的所有三联体密码均优化为相应氨基酸的TCcmax,此时所述优化所得表达序列中的所有三联体密码的优化度均为100%,且所述经优化的表达序列中所有的三联体密码均为相应氨基酸的TCcmax
1.3.物种的细胞来源
本发明第一方面和第二方面所公开的构建方法中,所述物种的来源包括但不限于:原核细胞、真核细胞、及其组合。
优选方式之一,所述物种的来源为:大肠杆菌、酵母细胞、哺乳动物细胞、植物细胞、昆虫细胞、线虫细胞、病原体或者其组合。
优选方式之一,所述物种的来源为:克鲁维酵母、酿酒酵母、毕氏酵母或者其组合。
优选方式之一,所述物种的来源为:乳酸克鲁维酵母、马克斯克鲁维酵母、多布克鲁维酵母、海泥克鲁维酵母、威克海姆克鲁维酵母、脆壁克鲁维酵母、湖北克鲁维酵母、多孢克鲁维酵母、暹罗克鲁维酵母、亚罗克鲁维酵母、或者其组合。
优选方式之一,所述物种的细胞为野生型细胞或者经改造的细胞。
1.4.氨基酸序列
本发明第一方面和第二方面所公开的构建方法中,所述氨基酸序列的氨基酸个数至少为2、至少为10或者至少为50,或者选自10~50或50~100中任一种数量的氨基酸个数,或者选自20~100中任一种数量的氨基酸个数,或者选自20~50中任一种数量的氨基酸个数。
优选方式之一,本发明第一方面和第二方面所公开的构建方法中,所述氨基酸序列选自以下任一种蛋白、任意组合方式的融合蛋白、任意组合方式的组合物:荧光素酶、绿色荧光蛋白、增强绿色荧光蛋白、黄色荧光蛋白、氨酰tRNA合成酶、甘油醛-3-磷酸脱氢酶、过氧化氢酶、肌动蛋白、抗体、抗体的可变区域、抗体的单链及其片段、纳米抗体、α-淀粉酶、肠道菌素A、丙型肝炎病毒E2糖蛋白、胰岛素及其前体、胰高血糖素样肽、干扰素、白介素、溶菌酶素、血清白蛋白、甲状腺素运载蛋白、酪氨酸酶、木聚糖酶、β-半乳糖苷酶,前述任一种蛋白的部分结构域,前述任一种蛋白的亚基或片段,或前述任一种的变体。
优选方式之一,所述氨基酸序列为增强型绿色荧光蛋白或者其变体。
优选方式之一,所述氨基酸序列含有SEQ ID No.:1所示的氨基酸序列。
优选方式之一,所述氨基酸序列为SEQ ID No.:2所示的氨基酸序列。
优选方式之一,所述氨基酸序列为纳米抗体。
优选方式之一,所述氨基酸序列含有SEQ ID No.:13所示的纳米抗体。
优选方式之一,所述氨基酸序列为SEQ ID No.:13所示的纳米抗体。
2.本发明第三方面公开一种核酸构建物,所述核酸构建物包括使用第一方面或第二方面所述用于蛋白质合成的表达序列的构建方法获得的表达序列。
优选方式之一,所述核酸构建物的序列包括SEQ ID No.:7、8、9、10、11或14所示的核苷酸序列。
优选方式之一,所述核酸构建物的序列为SEQ ID No.:7、8、9、10、11或14所示的核苷酸序列。
3.本发明第四方面公开一种载体,所述载体中包括第三方面所述核酸构建物。
优选方式之一,所述载体的类型选自:细菌质粒、噬菌体、酵母质粒、动物细胞载体、穿梭载体、及其组合。
4.本发明第五方面公开一种基因工程细胞,所述基因工程细胞的基因组中至少一个位点整合有第三方面所述核酸构建物,或者所述基因工程细胞中含有第四方面所述载体。
优选方式之一,所述基因工程细胞的染色体中至少一个位点整合有第三方面所述核酸构建物。
优选方式之一,所述基因工程细胞中含有第四方面所述载体,且所述载体为质粒载体。
5.本发明第六方面公开一种试剂盒,所述试剂盒提供下述至少一种物质:
(k1)本发明第三方面所述核酸构建物;
(k2)本发明第四方面所述载体;和
(k3)本发明第五方面所述基因工程细胞。
所述试剂盒还独立地可选地包括(k4)标签;
所述试剂盒还独立地可选地包括(k5)说明书。
6.本发明第七方面公开一种蛋白质体外反应体系,所述蛋白质体外反应体系包括:
(r1)体外蛋白合成体系;和
(r2)编码目标蛋白的核酸模板;
所述体外蛋白合成体系能够与所述编码目标蛋白的核酸模板共同提供合成目标蛋白所需的翻译相关元件;所述翻译相关元件包括tRNA;
所述编码目标蛋白的核酸模板含有所述目标蛋白的编码序列;所述目标蛋白的编码序列通过第一方面或者第二方面所述构建方法确定。
所述编码目标蛋白的核酸模板可以为DNA、RNA或者其组合。
7.本发明第八方面公开一种体外蛋白合成方法,包括以下步骤:
步骤i:提供第七方面所述的蛋白质体外反应体系;
步骤ii:在适当条件下进行孵育反应,得到目标蛋白产物。
还可选地包括步骤iii:纯化、检测或者其组合。
有益效果
(1)本发明提供的用于蛋白质合成的表达序列的构建方法,其核心在于基于tRNA基因拷贝数的高低,从编码氨基酸的同义密码子中筛选出用于构建表达序列的密码子。该方法提供一种表达序列的构建算法或者密码子优化算法。本发明提供的表达序列的构建方法把tRNA拷贝数作为选择同义密码子优化的主要依据,是一种简单有效的密码子算法,而且能够提高蛋白质表达水平。该方法区别于传统的主要依据密码子偏好的算法,传统算法中主要根据密码子使用频率的高低进行优化。
(2)发明构思
本申请的发明人发现,在有些菌株中,密码子的使用频率与相应的tRNA拷贝数的对应性并不强,甚至较弱。密码子在使用频率方面的偏好性与tRNA拷贝数之间的不一致,导致进行密码子优化时产生两个相冲突的优化方式,相应的密码子优化的技术效果具有不可预估性。本发明采用tRNA拷贝数作为优化算法的调节机制,区别于传统的调节密码子使用频率的算法,结果发现,能够提高蛋白质表达水平。
为了阐述本发明,在实施例中以乳酸克鲁酵母作为提供tRNA的物种,采用tRNA拷贝数作为优化参数,首次发现:对于构建表达序列的密码子算法,选择较高的tRNA拷贝数而非较高的密码子使用频率,在基于乳酸克鲁维酵母的体外蛋白合成体系中,能够产生更高的蛋白表达效率和蛋白合成量,可提高的程度显著,举例如可提高39%、80%甚至翻倍。
附图说明
图1、乳酸克鲁维酵母NRRL Y-1140(Kluyveromyces lactis NRRL Y-1140)的密码子使用频率百分比(UFi)和tRNA拷贝数百分比(CNFi)的归一化比较结果。纵坐标轴为氨基酸种类及相应的反密码子种类,横坐标为密码子使用频率百分比(UFi)和tRNA拷贝数百分比(CNFi)。其中,密码子使用频率百分比(UFi),指一种氨基酸AAj的一种同义密码子的使用频率fi占该种氨基酸的所有同义密码子的使用频率之和
Figure BDA0003152366430000141
的百分数,也即
Figure BDA0003152366430000142
其中,mj为该种氨基酸AAj在乳酸克鲁维酵母NRRL Y-1140中的同义密码子的种类数。tRNA拷贝数百分比(CNFi),指一种氨基酸AAj的一种同义密码子对应的tRNA拷贝数(CNi)占该种氨基酸在乳酸克鲁维酵母NRRL Y-1140中的所有同义密码子的tRNA拷贝数之和
Figure BDA0003152366430000143
的百分数,也即
Figure BDA0003152366430000144
图2.含有编码mEGFP的核苷酸序列的质粒DNA的质粒图谱。其中,mEGFP是一种绿色荧光蛋白,是一种增强型绿色荧光蛋白eGFP的A206K突变体。
图3.优化度100%(klpi-100)相对于未优化(优化度0%,klpi-0)的表达序列用于蛋白合成的测试结果,3h和20h表示进行体外蛋白合成反应的时间分别为3小时、20小时。klpi-100、klpi-0所用的DNA模板分别包括SEQ ID No.:10、SEQ ID No.:6所示的核苷酸序列。 50%(v/v)lysate表示体外蛋白合成体系中使用的细胞提取物的体积用量为50%(v/v)。
图4.优化度100%(klpi-100)相对于未优化(优化度0%,klpi-0)的表达序列用于蛋白合成的测试结果,3h和21h表示进行体外蛋白合成反应的时间分别为3小时、21小时。klpi-100、klpi-0所用的DNA模板分别包括SEQ ID No.:10、SEQ ID No.:6所示的核苷酸序列。 80%(v/v)lysate表示体外蛋白合成体系中使用的细胞提取物的体积用量为80%(v/v)。
图5.不同优化度的表达序列用于蛋白合成的测试结果,图(A)和图(B)的体外蛋白合成反应时间分别为3小时、20小时。klpi-100、klpi-67、klpi-33、klpi-0分别表示优化度为100%、 67%、33%、0%,所用的DNA模板分别包括SEQ ID No.:10、SEQ ID No.:8、SEQ IDNo.:7、 SEQ ID No.:6所示的核苷酸序列。1μL、0.67μL对应的DNA模板的终浓度分别为16.75 ng/μL、11.25ng/μL。
图6.klpi-100(优化度100%)、kl-prop(按tRNA拷贝数比例)、kl-freq(按密码子使用频率)三种不同密码子优化方式得到的表达序列用于蛋白合成的测试结果,所用的DNA模板分别包括SEQ ID No.:10、SEQ ID No.:11、SEQ ID No.:12所示的核苷酸序列。3h和21h表示进行体外蛋白合成反应的时间分别为3小时、21小时。1μL、0.67μL对应的DNA模板的终浓度分别为16.75ng/μL、11.25ng/μL。
图7.氨基酸Gly未优化但其余氨基酸均优化到100%的klpi-ΔG优化方式表达序列用于蛋白合成的测试结果。klpi-0对应未优化也即优化度0%的组别。3H和20H表示进行体外蛋白合成反应的时间分别为3小时、20小时。klpi-ΔG、klpi-0所用的DNA模板分别包括SEQ ID No.:9、SEQ ID No.:6所示的核苷酸序列。
图8.比较本发明的密码子算法(OptKM2)和诺华网站的综合算法(OptNV)构建的DNA模板用于体外蛋白合成的测试结果。目标蛋白为eGFP的纳米抗体的融合蛋白antiEGFP-mScarlet,对纳米抗体部分采用所示两种不同的密码子算法。其中,NC表示没有加入DNA模板的阴性对照组。OptKM2、OptNV所用的DNA模板分别包括SEQ ID No.:14、SEQ IDNo.:15所示的核苷酸序列。
核苷酸和/或氨基酸序列表
SEQ ID No.:1,绿色荧光蛋白mEGFP的氨基酸序列,238个氨基酸(也即238aa)。
SEQ ID No.:2,含mEGFP的翻译区对应的氨基酸序列,序列长度为292aa。
SEQ ID No.:3,前导肽,序列长度为17aa。
SEQ ID No.:4,八组氨酸,序列长度为8aa。
SEQ ID No.:5,Linker和MCS位点,序列长度为28aa。
SEQ ID No.:6,SEQ ID No.:2所示氨基酸序列的未经优化的表达序列,879个核苷酸单元(也即879nt)。也记为优化度0%的表达序列。对应klpi-0。
SEQ ID No.:7,基于SEQ ID No.:6,采用本发明的密码子算法进行密码子优化得到的核苷酸序列,序列长度为879nt;其中,非最高tRNA拷贝数的密码子中,优化33%数量,且均优化到相应氨基酸的最高tRNA拷贝数对应的同义密码子(TCcmax)。也记为优化度 33%的表达序列。对应klpi-33。
SEQ ID No.:8,基于SEQ ID No.:6,采用本发明的密码子算法进行密码子优化得到的核苷酸序列,序列长度为879nt;其中,非最高tRNA拷贝数的密码子中,优化67%数量,且均优化到相应氨基酸的最高tRNA拷贝数对应的同义密码子(TCcmax)。也记为优化度 67%的表达序列。对应klpi-67。
SEQ ID No.:9,基于SEQ ID No.:6,非最高tRNA拷贝数密码子中优化90%数量得到的核苷酸序列,均优化到相应氨基酸的最高tRNA拷贝数对应的同义密码子(TCcmax),序列长度为879nt。其中,Gly的密码子未优化,其余氨基酸均100%优化。对应klpi-90或者对应klpi-ΔG。
SEQ ID No.:10,基于SEQ ID No.:6,所有非最高tRNA拷贝数密码子均优化到相应的 TCcmax(相应的氨基酸的最高tRNA拷贝数对应的同义密码子),序列长度为879nt。也记为优化度100%的表达序列。对应klpi-100。
SEQ ID No.:11,基于SEQ ID No.:6,各种氨基酸的同义密码子分布,根据乳酸克鲁酵母基因组中各同功tRNA的tRNA拷贝数百分比确定各同义密码子的数量,优化得到的核苷酸序列(对应kl-prop)。序列长度为879nt。其中,一种氨基酸的各同义密码子的数量与乳酸克鲁酵母中该种氨基酸的各同功tRNA的tRNA拷贝数百分比基本一致。
SEQ ID No.:12,基于SEQ ID No.:6,按照密码子使用频率进行优化得到的核苷酸序列 (对应kl-frep),序列长度为879nt。由生工生物工程(上海)股份有限公司提供。
SEQ ID No.:13,eGFP的纳米抗体的氨基酸序列,序列长度为117aa。来自于iCAN数据库CAN378(http://ican.ils.seu.edu.cn/Home/Index/can)。
SEQ ID No.:14,基于SEQ ID No.:13,按照本发明的算法进行密码子优化后得到的核苷酸序列,序列长度为351nt。按照tRNA拷贝数进行密码子优化、得到的用于合成eGFP纳米抗体的表达序列。
SEQ ID No.:15,基于SEQ ID No.:13,按照诺华网站(https://www.novoprolabs.com/) 的综合优化算法进行密码子优化后得到的核苷酸序列,是用于合成eGFP纳米抗体的表达序列,序列长度为351nt。使用该优化算法时,输入蛋白的氨基酸序列,使用的优化参数包括密码子使用偏好(Codon usage bias)、5'区优化(5'regionoptimization)、DNA重复序列(DNA repeats)、mRNA二级结构(mRNA secondarystructure)、GC含量(GC content)、 SD序列(SD sequence)和排除特定的限制性酶切位点(Exclude restriction sites specified)。
SEQ ID No.:16,荧光蛋白mScarlet的核苷酸序列,序列长度为693nt。
具体序列信息见本申请序列表。
具体实施方式
本发明术语、名词、短语的含义。
本部分的含义解释适用于本发明的全文,既适用于下文,也适用于上文。本发明中涉及引用文献时,相关术语、名词、短语在引用文献中的定义也一并被引用,但是,与本发明中的定义相冲突时,以本发明中的定义为准。在引用文献中的定义与本发明中的定义发生冲突时,并不影响所引用的成分、物质、组合物、材料、体系、配方、种类、方法、设备等选用引用文献中确定的内容。
密码子(codon):也称为三联体密码,是mRNA或DNA正义链上的三联体核苷酸序列,该序列编码着一个特定的氨基酸。
密码子简并性:一种氨基酸可以由多个不同密码子编码的现象。
同义密码子:编码同一个氨基酸的密码子称为同义密码子。
反密码子:tRNA上与mRNA中的密码子配对的3个碱基称为反密码子。tRNA的反密码子与mRNA的密码子互补。
tRNA:转运RNA。在生物体内,DNA分子上的tRNA基因经过转录生成tRNA前体,然后被加工成成熟的tRNA。
同功tRNA:也称为同工tRNA,携带的氨基酸相同而反密码子不同的一组tRNA。
正义链:DNA双链中,与mRNA核苷酸序列一致的那条链(T代替U),称为正义链。如无特别说明,本发明中某个蛋白的编码序列指正义链的核苷酸序列,也即与mRNA的遗传信息相一致的那条链的核苷酸序列。
反义链:DNA双链中,与正义链互补的那条链,称为反义链。也是作为转录模板、与mRNA互补的那条链。
基因拷贝数:指某一种基因或某一段特定的DNA序列在单倍体基因组中出现的数目。
tRNA拷贝数:简记为tRCN,指tRNA基因的拷贝数,可以采用反密码子或者相应DNA的种类作为分类依据。tRNA拷贝数是不同于tRNA丰度的概念。tRNA丰度直接表示tRNA 的含量,是动态变化的。而tRNA拷贝数则是反映基因组中tRNA基因的含量,是相对稳定的。而tRNA基因经过转录和加工后才得到tRNA。
TCF组:某个物种细胞基因组中tRNA拷贝数为正数的三联体密码构成的组记为TCF组。
TCcmin:某物种的细胞基因组中,某种氨基酸的最低tRNA拷贝数对应的三联体密码;相应的氨基酸分别记为TCcmin氨基酸。
TCcmax:某物种的细胞基因组中,某种氨基酸的最高tRNA拷贝数对应的三联体密码;相应的氨基酸分别记为TCcmax氨基酸。
NMTC组:某个基础核酸序列中,氨基酸的非TCcmax的三联体密码构成的组。
优化度:NMTC组中任一种氨基酸的优化程度记为优化度,简记为pi。所述优化度指进行了密码子优化的三联体密码个数占相应氨基酸的非TCcmax三联体密码总数的百分比。
aa,表示一个氨基酸单元。
nt,表示一个核苷酸单元。
基因:包括编码区和非编码区。编码区为能够转录为相应的mRNA,进而指导蛋白质合成的区段,也即能够编码蛋白质的区段。非编码区为不能编码蛋白质的区段。
核苷酸序列:由核苷酸单元构成的序列。
核酸序列:核酸物质的序列,包括DNA序列、RNA序列及其组合。
编码序列:coding sequence,缩写为CDS。与蛋白质的密码子完全对应的核苷酸序列,该序列中间不含其它非该蛋白质对应的序列(不考虑mRNA加工等过程中的序列变化)。
编码基因:编码蛋白质的有效基因片段,可以为连续的,也可以为不连续的。编码基因中必然包括编码序列。
核酸模板:也称为遗传模板,指作为蛋白合成模板的核酸序列,包括DNA模板、mRNA模板及其组合。本发明的实施方式中,所述核酸模板各自独立地可以为DNA模板、mRNA 模板或者其组合。本发明的实施方式中,所述核酸模板可以各自独立地优选为DNA模板。本发明中,如无特别说明,编码目标蛋白的核酸模板优选但不限于DNA模板。
“编码X蛋白的核酸模板”指核酸模板中含有该X蛋白的编码序列,以该核酸模板为基础可以经至少翻译过程(还比如经过转录、翻译过程)合成X蛋白,而且允许该核酸模板中含有非编码区,还允许含有除X蛋白以外的其它多肽或蛋白的编码序列。例如“编码 RNA聚合酶的核酸模板”,至少包括RNA聚合酶的编码序列,此外还允许包括非编码区、融合标签等其它核酸序列;相应地表达产物至少含有RNA聚合酶结构,可以为RNA聚合酶分子或其融合蛋白,还可以为包括RNA聚合酶分子或/和其融合蛋白分子的混合组分。
核酸载体,包括克隆载体和表达载体。所述表达载体包括DNA表达载体和RNA表达载体。所述克隆载体上具有可以插入外源核酸片段的位点,举例如,可以将外源DNA片段插入到DNA克隆载体的多克隆位点处。
翻译区:mRNA的区段或者与mRNA互补的DNA区段,对应能够最终翻译为氨基酸序列的区段。
非翻译区:mRNA的区段或者与mRNA互补的DNA区段,不能够翻译为氨基酸序列。
表达序列:能够最终翻译为氨基酸序列的核苷酸序列。
体外蛋白合成反应,是指在体外无细胞合成体系中合成蛋白的反应,至少包括翻译过程。包括但不限于IVT反应(体外翻译反应)、IVTT反应(体外转录翻译反应)、IVDTT 反应(体外复制转录翻译反应)。本发明中,优选IVTT反应。IVTT反应,对应IVTT体系,是在体外将DNA转录翻译为蛋白质(Protein)的过程,因此,我们还将这类的体外蛋白合成体系称为D2P体系、D-to-P体系、D_to_P体系、DNA-to-Protein体系、D2Protein体系、 D-to-Protein体系;相应的体外蛋白合成方法,还称为D2P方法、D-to-P方法、D_to_P方法、 DNA-to-Protein方法、D2Protein方法、D-to-Protein方法。
“无细胞体系”,是指进行体外蛋白合成时,并非通过完整细胞分泌表达的方式。需要说明的是,本发明的体外无细胞蛋白合成体系中,也允许添加细胞组分以促进反应,但所添加的细胞不以分泌表达外源目标蛋白为主要目的。此外,在本发明指导下构建的无完整细胞的D2P体系中,有意地添加少量完整细胞(例如,其提供的蛋白含量与细胞提取物提供的蛋白含量相比,不超过30wt%),这样的“规避”方式,也囊括在本发明的保护范围之内。
D2P,DNA-to-Protein,从DNA模板到蛋白质产物。比如,D2P技术、D2P体系、D2P 方法、D2P试剂盒等等。
mR2P,mRNA-to-Protein,从mRNA模板到蛋白质产物。比如,mR2P技术、mR2P体系、mR2P方法、mR2P试剂盒等等。
IVTT,in vitro transcription translation,体外转录翻译。
IVDTT,in vitro duplication transcription translation,体外复制转录翻译。
CFPS体系:cell-free protein synthesis system,无细胞蛋白合成体系。
“本发明的表达系统”、“本发明的体外表达系统”、“体外无细胞表达系统”、“体外无细胞表达体系”可互换使用,均指本发明的体外蛋白表达体系,也可采用其它描述方式,如:蛋白质体外合成系统、体外蛋白合成体系、无细胞系统、无细胞体系、无细胞蛋白合成体系、无细胞体外蛋白合成体系、体外无细胞蛋白合成体系、体外无细胞合成体系、 CFS体系(cell-free system)、CFPS体系(cell-free protein synthesis system)等描述方式。根据反应机理,可包括体外翻译体系(可简记为IVT体系,一种mR2P体系)、体外转录翻译体系(可简记为IVTT体系,一种D2P体系)、体外复制转录翻译体系(可简记为IVDTT 体系,一种D2P体系)等。本发明中,优选IVTT体系。我们还将体外蛋白合成系统称为“蛋白质合成工厂”(“Protein Factory”或“proteinfactory”或“Proteinfactory”)。本发明提供的体外蛋白合成系统,对其组分采用开放式的描述方式。本发明的无细胞蛋白合成体系是以外源DNA、mRNA或者其组合作为蛋白质合成的核酸模板,通过人工控制补加蛋白质合成所需的底物和转录、翻译相关生物因子等物质,实现目标蛋白的体外合成。
本发明中,“蛋白”与“蛋白质”具有相同含义,均译为protein,可以互换使用。
本发明中,“系统”和“体系”,均译为system,可以互换使用。
本发明中,“蛋白合成量”、“蛋白表达量”与“蛋白表达产量”具有相同含义,可互换使用。
本发明中,细胞提取物、细胞提取液、细胞裂解物、细胞破碎物、细胞溶解产物的含义相同,可以互换使用,英文可采用cell extract、cell lysate等描述方式。
本发明中,能量体系、能量系统、能量供应体系具有同等含义,可互换使用。能量再生体系、能量再生系统具有同等含义,可互换使用。能量再生系统是能量系统的优选实施方式或者组成部分。
本发明中,“翻译相关元件”,translation-related elements(TRELs),指从核酸模板到蛋白质产物合成过程中所需的相关功能元件,不局限于翻译过程需要的功能元件;当核酸模板为DNA时,还广义地包括转录过程中需要的功能元件。所述翻译相关元件,可通过细胞提取物(各种内源性因子)、体外蛋白合成体系的其它外源添加组分(如外源RNA 聚合酶、tRNA、核糖体、其它翻译相关酶、起始因子、延伸因子、终止因子等翻译相关元件,或者其组合)、核酸模板上的功能元件(如控制目标蛋白转录/翻译的功能元件、抗性基因翻译系统、lac抑制子翻译系统、控制质粒拷贝数的翻译系统等)等方式提供。所述控制目标蛋白转录/翻译的功能元件,举例如启动子、终止子、增强子、IRES元件、 kozak序列、其它调节翻译水平的元件、信号序列、前导序列、功能标签(如筛选标记标签、增强翻译水平的标签)等。
纯化的翻译相关元件,其中“纯化的”相对于细胞提取物的集成提供方式,是非集成式的,但并不排除部分功能组分以组合方式制备纯化的组合元件。纯化的翻译相关元件,指经人工合成或者提取获得的单一种类翻译相关元件或者不同种类翻译相关元件的组合。对于集成提供方式,各翻译相关元件的种类和比例依赖来源菌株的固有属性,除了通过对菌株进行内源性基因改造外,细胞提取物提供的翻译相关元件的种类和比例的可调性极低。而“纯化的”提供方式可以对不同种类的翻译相关元件进行灵活地组合,能够精确地调整和控制各翻译相关元件的种类和比例。所述“纯化的”并非限定纯度必需是100%,相应的纯度主要依赖于制备方法及纯化方式,优选纯度高于80%,更优选高于85%,更优选高于90%,比如纯度高于91%、92%、93%、94%、95%、96%、97%、98%、99%或99.9%,比如纯度为100%。
本发明中,“翻译相关酶”,translation-related enzymes(TRENs),指从核酸模板到蛋白质产物合成过程中所需的酶物质,不局限于翻译过程需要的酶;当核酸模板为DNA时,还广义地包括转录过程中需要的酶。所述翻译相关酶包括但不限于:氨酰tRNA合成酶、RNA聚合酶、肽基转移酶、等、或者其组合,还可以包括转录酶、DNA聚合酶、等、或者其组合。
翻译后修饰:也称翻译后加工,post-translational modification,PTM。PTM系统对于蛋白质的正常折叠、活性和稳定性具有重大作用。
扩增相关元件,包括DNA扩增相关元件和RNA扩增相关元件。
DNA扩增相关元件,至少包括DNA聚合酶。依据不同的扩增机理,还可以包括诸如解旋酶(HDA扩增)、重组酶和单链DNA结合蛋白(RPA扩增)、等其它因子。
氨基酸混合物,指含有至少两种氨基酸的混合物。
氨基酸:本发明中,如无特别说明,所述氨基酸可以为天然氨基酸,也可以为非天然氨基酸,可以为L-氨基酸、D-氨基酸或者其组合,还可以为放射性同位素标记的氨基酸、经修饰的氨基酸等结构。所述经修饰的氨基酸,指连接有化学修饰基团的氨基酸,其结构没有特别限制,包括但不限于通过氨基酸侧基进行修饰。上述氨基酸的定义范围涵盖本发明中任一种包括氨基酸单元的物质,包括但不限于:多肽及其衍生物、蛋白及其衍生物、多肽标签、蛋白标签、多肽序列、蛋白序列、氨基酸修饰物、多肽修饰物、蛋白修饰物、蛋白类物质、抗体类物质、前述任一种的部分结构域、前述任一种的亚基或片段(包括前述任一种的结构域)、前述任一种的变体(包括前述任一种的结构域、亚基、片段的变体)。所述“前述任一种的变体”包括但不限于“前述任一种的突变体”。本发明中,对于表示手性类型的“L-”、“D-”,下标形式与非下标形式具有相同含义。
肽,是两个或两个以上氨基酸以肽键相连的化合物。本发明中,肽与肽段具有同等含义,可互换使用。
蛋白:本发明的“蛋白”泛指一段氨基酸序列代表的化合物,氨基酸单元的个数至少为2,可以选自10~50或者大于50。本发明本发明的“蛋白”包括但不限于10~50个氨基酸组成的多肽、50个以上的氨基酸组成的蛋白。融合蛋白也是一种蛋白。比如,本发明中的目标蛋白,其氨基酸个数至少为2,可以选自10~50或者大于50。本发明中的“蛋白”,如无特别说明,还包括氨基酸单元数小于等于50的肽。
多肽的衍生物、蛋白的衍生物:本发明涉及的任一种多肽或蛋白,如无特别说明(例如指定具体序列),应理解还包括其衍生物。所述多肽的衍生物、蛋白的衍生物,至少包括含有C端标签、含有N端标签、含有C端及N端标签。其中,C端指COOH端,N 端指NH2端,本领域技术人员理解其含义。所述标签可以为多肽标签,也可以为蛋白标签。一些标签举例包括但不限于,组氨酸标签(一般含有至少5个组氨酸残基;比如6×His, HHHHHH;又比如8×His标签,HHHHHHHH)、Glu-Glu、c-myc表位(EQKLISEEDL)、
Figure BDA0003152366430000201
标签(DYKDDDDK)、蛋白C(EDQVDPRLIDGK)、Tag-100(EETARFQPGYRS)、 V5表位标记(V5 epitope,GKPIPNPLLGLDST)、VSV-G(YTDIEMNRLGK)、Xpress (DLYDDDDK)、血凝素(hemagglutinin,YPYDVPDYA)、β-半乳糖苷酶(β-galactosidase)、硫氧还原蛋白(thioredoxin)、组氨酸位点硫氧还原蛋白(His-patch thioredoxin)、IgG结合域(IgG-binding domain)、内含肽-几丁质结合域(intein-chitin binding domain)、T7基因10(T7 gene 10)、谷胱甘肽S-转移酶(glutathione-S-transferase,GST)、绿色荧光蛋白 (GFP)、增强型绿色荧光蛋白(eGFP)及其突变体、麦芽糖结合蛋白(maltose binding protein,MBP)等。
蛋白类物质,本发明中,广义地指含有多肽或蛋白片段的物质。比如,多肽衍生物、蛋白衍生物、糖蛋白等也包含在蛋白类物质的范畴之内。
抗体、抗原:本发明涉及的抗体、抗原,如无特别说明,应理解还包括其结构域、亚基、片段、单链、单链片段、变体。比如,涉及“抗体”,如无特别说明,还包括其片段、重链、缺失轻链的重链(如纳米抗体)、互补决定区(CDR)等。比如,涉及“抗原”,如无特别说明,还包括抗原决定基(epitope)、表位肽。
抗体类物质,本发明中,包括但不限于抗体、抗体的片段、抗体的单链、单链的片段、抗体融合蛋白、抗体片段的融合蛋白等及其衍生物与变体,只要能够产生抗体-抗原的特异性结合作用即可。
抗原类物质,本发明中,包括但不限于,本领域技术人员所知的抗原以及能够发挥抗原功能、特异性结合抗体类物质的物质。
scFV:single chain antibody variable fragment,是由抗体重链的可变区与轻链的可变区在一段肽链的连接下构成的小分子,是具有抗体活性的最小功能结构单位。
Fab:是抗体上与抗原结合的区域,它由重链和轻链各一个常域和一个变域组成,这些结构域在单体的氨基末端形成副位,即抗原结合位点,这两个可变区域结合在它们的特定抗原上的表位上。
F(ab’)2:是抗体在胃蛋白酶作用下形成的产物,胃蛋白酶催化抗体在铰链区域下方裂解,形成F(ab’)2片段和pFc’片段。轻度还原后,F(ab’)2片段可分裂为两个Fab’片段。
同源性(homology),如没有特别说明,指具有至少50%同源性;优选至少60%同源性,更优选至少70%同源性,更优选至少75%同源性,更优选至少80%同源性,更优选至少85%同源性,更优选至少90%同源性;还比如至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%的同源性。描述对象举例如本发明书提及的Ω序列的同源序列。这里的同源性指序列上的相似性或一致性,数值上可以等同于序列相似性或一致性(identity)。
序列一致性:sequence identity,指在对比框范围内,所有序列单元(氨基酸或者核苷酸)的匹配程度,是生物技术领域的公知概念,可以采用常规方法进行计算,比如可以通过BLAST工具进行计算。
同源物,指具有同源性序列的物质,也可称为同源体。
“变体”,variant,指具有不同结构(包括但不限于进行微小变异),但仍能保持或基本保持原有功能或性能的物质。所述“保持”指不降低,也即包括维持原有水平或者有所提升。所述变体包括但不限于核酸变体、多肽变体、蛋白变体。获得相关变体的方式包括但不限于结构单元的重组、删除或缺失、插入、移位、置换等。所述变体包括但不限于经修饰的产物、基因改造产物、融合产物等。为获得基因改造产物,进行基因改造的方式包括但不限于基因重组(对应基因重组产物)、基因删除或缺失、插入、移码、碱基置换等。基因突变产物,也称为基因突变体,属于基因改造产物的一种类型。所述变体的优选方式之一是同源体。
经修饰的产物:包括但不限于化学修饰产物、氨基酸修饰物、多肽修饰物、蛋白修饰物等。所述化学修饰产物指采用有机化学、无机化学、高分子化学等化学合成方法进行改造的产物。修饰方法举例如离子化、盐化、脱盐化、络合、解络合、螯合、解螯合、加成反应、取代反应、消除反应、插入反应、氧化反应、还原反应、翻译后修饰等修饰方法,具体举例如氧化、还原化、甲基化、去甲基化、氨基化、羧基化、硫化等修饰方法。
“突变体”,mutant,本发明中如无特别说明,指仍能保持或基本保持原有功能或性能的突变产物,对突变位点的数量没有特别限制。所述“保持”指不降低,也即包括维持原有水平或者有所提升。所述突变体包括但不限于基因突变体、多肽的突变体、蛋白的突变体。突变体是变体的一种类型。获得相关突变体的方式包括但不限于结构单元的重组、删除或缺失、插入、移位、置换等。基因的结构单位为碱基,多肽和蛋白的结构单元为氨基酸。基因突变的类型包括但不限于基因删除或缺失、插入、移码、碱基置换等。
“改性”产物,包括但不限于本发明的衍生物、经修饰的产物、基因改造产物、融合产物等,可以保持原有的功能或性能,也可以优化、改变其功能或性能。
“可选地”,表示可以有,也可以无,以能够实现本发明的技术方案为选择标准。本发明中,“可选方式”,表示只要适用于本发明的技术方案,就可以用来实施本发明。
本发明中,“优选(比如,prefer,preferable,preferably,preferred等)”、“较佳”、“更优选”、“更佳”、“最优选”等优选实施方式,不构成对发明的涵盖范围及保护范围的任何意义上的限制,并非用于限定本发明的范围和实施方式,仅用于提供一些实施方式作为举例。
本发明的描述中,对于“优选之一”、“优选方式之一”、“优选实施方式之一”、“优选例之一”、“优选例”、“在一优选的实施方式中”、“一些优选例中”、“一些优选方式中”、“优选为”、“优选”、“优选地”、“更优选”、“更优地”、“进一步优选”、“最优选”等优选方式,以及“实施方式之一”、“方式之一”、“示例”、“具体示例”、“举例如”、“作为举例”、“例如”、“比如”、“如”等示意的列举方式,同样不构成对发明的涵盖范围及保护范围的任何意义上的限制,且各方式所描述的具体特征包含于本发明的至少一个具体实施方式中。本发明中,各方式所描述的具体特征可以在任何的一个或者多个具体实施方式中以合适的方式结合。本发明中,各优选方式对应的技术特征或技术方案也可以通过任意合适的方式结合。
本发明中,“其任意组合”,在数量上表示“大于1”,在涵盖范围上表示以下情形构成的组:“任选其中一个,或者任选其中至少两个构成的组”。
本发明中,“一个或多个”、“一种或多种”等“一或多”的描述,与“至少一个”、“至少一种”、“其组合”、“或其组合”、“及其组合”、“或其任意组合”、“及其任意组合”等具有相同含义,可以互换使用,表示数量上等于“1”或“大于1”。
本发明中,采用“或/和”、“和/或”表示“任选其一或者任选其组合”,也表示至少其一。
本发明所述的“通常”、“常规”、“一般”、“经常”、“往往”等方式描述的现有技术手段,也都被引用作为本发明内容的参考,如无特别说明,可视为本发明的部分技术特征的优选方式之一,且需要注意的是,不构成对发明的涵盖范围及保护范围的任何意义上的限制。
数值范围:本发明中的数值范围,举例如10~50、50~100、20~100、20~50等,如无特别说明,均包括两个端点。
在本发明提及的所有文献及这些文献直接引用或者间接引用的文献,都在本申请中被引用作为参考,就如同每一篇文献被单独引用作为参考那样。
应理解,在本发明范围内,本发明的上述各技术特征和在下文(包括但不限于实施例) 中具体描述的各技术特征之间都可以通过任意合适的方式互相组合,从而构成新的或优选的技术方案,只要能够用于实施本发明的即可。限于篇幅,不再一一累述。
本发明的目的之一是提供一种用于蛋白质合成的表达序列的构建方法,其核心在于:基于tRNA基因拷贝数的高低,从编码氨基酸的同义密码子中筛选出用于构建表达序列的密码子。该方法区别于传统的主要依据密码子偏好的优化算法;本发明提供的表达序列的构建方法,把tRNA基因的拷贝数作为选择同义密码子的主要依据,是一种简单有效的密码子算法。本发明提供的密码子算法可用于构建蛋白质的表达序列、制备基因工程细胞、体外蛋白合成等多种领域。
其中,tRNA基因的拷贝数,简称为tRNA拷贝数,简记为tRCN。
1.用于蛋白质合成的表达序列的构建方法
1.1.本发明第一方面公开一种用于蛋白质合成的表达序列的构建方法,包括以下步骤:
(i)选定一段氨基酸序列;
(ii)选定一个物种,该物种的细胞能够提供合成所述氨基酸序列所需的tRNA;
(iii)确定所述氨基酸序列的每种氨基酸在所述物种细胞基因组中的三联体密码的种类以及相应的tRNA拷贝数分布情况;所述物种细胞基因组中tRNA拷贝数为正数的三联体密码构成的组记为TCF组;确定每种氨基酸的最低tRNA拷贝数和最高tRNA拷贝数,相应的三联体密码分别记为TCcmin、TCcmax,相应的氨基酸分别记为TCcmin氨基酸、TCcmax氨基酸;
(iv)每个氨基酸的三联体密码各自独立地选自TCF组中相应的同义密码子,得到编码所述氨基酸序列的表达序列,用于合成所述氨基酸序列所示的蛋白质。
本发明第一方面公开的构建方法可以针对一段氨基酸序列构建出相应的表达序列。
优选地,得到的编码所述氨基酸序列的所述表达序列为DNA序列、RNA序列或者其组合。
所述物种细胞基因组中的三联体密码的种类根据密码子或者反密码子的种类确定。
优选方式之一,所有种类氨基酸中,至少80%种类、至少85%种类、至少90%种类、至少95%种类或者100%种类的氨基酸各自独立地满足至少一个氨基酸的三联体密码为相应的TCcmax
优选方式之一,所述表达序列中,所有氨基酸的三联体密码均为相应的TCcmax
优选方式之一,所述表达序列中,至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所有种类氨基酸中,至少80%种类、至少85%种类、至少90%种类或者至少95%种类的氨基酸各自独立地满足至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所述表达序列中,每种氨基酸各自独立地满足至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所述表达序列中,每种氨基酸的各同义密码子的数量百分比,各自独立地与所述物种细胞中相应tRNA拷贝数的数量百分比正相关。参考实施例中的kl-prop组。
所述物种细胞中,每种氨基酸的tRNA拷贝数按拷贝数相对值计量,所述最低tRNA拷贝数对应0,所述最高tRNA拷贝数对应1,介于两者之间的tRNA拷贝数对应于相对于最低tRNA拷贝数的增量除以Dmax-min,所述Dmax-min为最高tRNA拷贝数与最低tRNA 拷贝数的差值。
优选方式之一,每个氨基酸各自独立地选择tRNA拷贝数相对值≥0.5、≥0.6、≥0.7、≥0.8 或者≥0.9的三联体密码。
1.2.本发明第二方面公开一种用于蛋白质合成的表达序列的构建方法,包括以下步骤:
(i)选定一段基础核酸序列,所述基础核酸序列编码一段特定的氨基酸序列;
(ii)选定一个物种,该物种细胞能够提供合成所述氨基酸序列所需的tRNA;
(iii)确定所述氨基酸序列中的每种氨基酸在所述物种细胞基因组中的三联体密码的种类以及相应的tRNA拷贝数分布情况;确定每种氨基酸的最高tRNA拷贝数TCcmax
(iv)对所述基础核酸序列中的至少一个氨基酸进行密码子优化,得到编码所述氨基酸序列的经优化的表达序列;所述密码子优化,指从非TCcmax的三联体密码优化为具有更高tRNA拷贝数的三联体密码。
本发明第二方面公开的构建方法可以对已有表达序列进行优化得到新的表达序列。
所述“更高tRNA拷贝数的三联体密码”,指经优化后的密码子的tRNA拷贝数大于优化前密码子的tRNA拷贝数,且小于等于最高tRNA拷贝数。
所述基础核酸序列可以为天然序列或者人工序列。所述人工序列指天然序列以外的其他序列类型,可以不改变氨基酸种类只改变三联密码种类,也可以改变氨基酸种类。
优选方式之一,所述基础核酸序列为DNA、RNA或者其组合。
优选方式之一,所述人工序列包括但不限于基于天然序列的改造序列。
所述“基于天然序列的改造序列”,可以为不改变氨基酸种类的改造序列,也可以为改变氨基酸序列但不改变基本功能的改造序列,还可以为与天然序列至少具有高度序列一致性的改造序列。所述高度序列一致性,指至少50%序列一致性,比如至少60%序列一致性、至少70%序列一致性、至少80%序列一致性、至少90%序列一致性等。
优选方式之一,所述人工序列还可以是采用任意已知的密码子算法进行优化后得到的核酸序列。
所述物种细胞基因组中的三联体密码的种类根据密码子或者反密码子的种类确定。
所述物种细胞基因组中tRNA拷贝数为正数的三联体密码构成的组记为TCF组,与第一方面一致。
优选方式之一,所述经优化的表达序列中,所有三联体密码各自独立地选自所述TCF 组中相应的同义密码子。
优选方式之一,所有种类氨基酸中,至少80%种类、至少85%种类、至少90%种类、至少95%种类或者100%种类的氨基酸各自独立地满足该种类氨基酸至少一个氨基酸的三联体密码为相应的TCcmax
优选方式之一,所述经优化的表达序列中,至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所有种类氨基酸中,至少80%种类、至少85%种类、至少90%种类或者至少95%种类的氨基酸各自独立地满足该种类氨基酸至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所述经优化的表达序列中,每种氨基酸各自独立地满足至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所述经优化的表达序列中,每种氨基酸的各同义密码子的数量百分比,各自独立地与所述物种细胞中相应tRNA拷贝数的数量百分比正相关。参考实施例中的 kl-prop组。
与第一方面一致,将所述基础核酸序列中,相应氨基酸的非TCcmax的三联体密码构成的组记为NMTC组。
优选方式之一,所述NMTC组中,至少一个三联体密码优化为相应的TCcmax
优选方式之一,对所述NMTC组中至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地进行密码子优化。
优选方式之一,所述NMTC组中,至少80%种类、至少85%种类、至少90%种类或者至少95%种类的氨基酸各自独立地满足该种类氨基酸至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地进行密码子优化。
优选方式之一,所述NMTC组中,每种氨基酸各自独立地满足至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地进行密码子优化。
所述NMTC组中任一种氨基酸的优化程度记为优化度,简记为pi。所述优化度指进行了密码子优化的三联体密码个数占相应氨基酸的非TCcmax三联体密码总数的百分比。
优选方式之一,所述NMTC组中,至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码的优化度各自独立地至少为50%、至少为60%、至少为70%、至少为80%或者至少为90%。
优选方式之一,所述NMTC组中,至少80%种类、至少85%种类、至少90%种类或者至少95%种类的氨基酸各自独立地满足该种类氨基酸至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码的优化度各自独立地至少为50%、至少为60%、至少为70%、至少为80%或者至少为90%。
优选方式之一,所述NMTC组中,所有种类氨基酸的三联体密码的优化度各自独立地至少为50%、至少为60%、至少为70%、至少为80%或者至少为90%。
优选方式之一,所述NMTC组中,每种氨基酸的各同义密码子的优化度,各自独立地分别与所述物种细胞中相应tRNA拷贝数的数量百分比正相关。参考实施例中的kl-prop组。
优选方式之一,所述NMTC组中的所有三联体密码均优化为相应氨基酸的TCcmax,此时所述优化所得表达序列中的所有三联体密码的优化度均为100%,且所述经优化的表达序列中所有的三联体密码均为相应氨基酸的TCcmax
1.3.提供tRNA的物种
本发明第一方面和第二方面中选定的物种,是提供蛋白合成所需tRNA的物种。所述物种的种类决定了细胞基因组中各氨基酸的tRNA拷贝数及其分布情况,从而提供了对核酸序列进行密码子筛选和优化的重要依据。
不同物种细胞的tRNA拷贝数信息可以利用各种数据库或者已有文献获得,比如利用 gtrnadb数据库进行检索获得。以Kluyveromyces lactis NRRL Y-1140为例,相应的tRNA 拷贝数信息详见http://gtrnadb.ucsc.edu/GtRNAdb2/genomes/eukaryota/Kluy_ lact_NRRL_Y_1140/,从数据库中,可以获知包括但不限于:氨基酸种类数、所有氨基酸的tRNA拷贝数(以反密码子进行分类统计)等信息,如下所示。
Figure BDA0003152366430000261
Figure BDA0003152366430000262
Figure BDA0003152366430000263
Figure BDA0003152366430000271
Figure BDA0003152366430000272
根据数据库提供的tRNA拷贝数信息,可以获得相应物种的基因组中各种氨基酸的最高tRNA拷贝数信息。举例如表2所示的乳酸克鲁维酵母NRRL Y-1140的最高tRNA拷贝数信息。
表2.乳酸克鲁维酵母NRRL Y-1140的最高tRNA拷贝数汇总表
Figure BDA0003152366430000273
Figure BDA0003152366430000281
本发明第一方面和第二方面所公开的构建方法中,所述物种的来源包括但不限于:原核细胞、真核细胞及其组合。
优选方式之一,所述物种的来源为:大肠杆菌、酵母细胞、哺乳动物细胞、植物细胞、昆虫细胞、线虫细胞、病原体或者其组合。
优选方式之一,所述物种的来源为:克鲁维酵母、酿酒酵母、毕氏酵母或者其组合。
优选方式之一,所述物种的来源为:乳酸克鲁维酵母、马克斯克鲁维酵母、多布克鲁维酵母、海泥克鲁维酵母、威克海姆克鲁维酵母、脆壁克鲁维酵母、湖北克鲁维酵母、多孢克鲁维酵母、暹罗克鲁维酵母、亚罗克鲁维酵母、或者其组合。
优选方式之一,所述物种的细胞为野生型细胞或者经改造的细胞。
1.4.根据tRNA拷贝数确定同义密码子的方法
选定一个拟优化密码子的氨基酸后,从相应物种基因组的tRNA拷贝数信息中,找到该种氨基酸的tRNA拷贝数分布情况,同时确定与选定的tRNA拷贝数相对应的反密码子类型。然后,可以根据密码子和反密码子的对照表(表3)确定与反密码子对应的密码子。表3提供了据密码子和反密码子的对照表,该对照表适用于所有物种,该表中的密码子对应DNA正义链中的三联体密码,相应的mRNA中的密码子将T改为U即可。表3中的“*”对应终止密码子。
表3.密码子(DNA正义链)和反密码子(tRNA)对照表
Figure BDA0003152366430000282
Figure BDA0003152366430000291
对于本发明第一方面提供的构建方法,依次确定所有氨基酸单元的密码子类型,就可以得到编码所述氨基酸序列的表达序列,也即采用本发明的算法构建的核苷酸序列。
对于本发明第二方面提供的构建方法,分别确定待进行密码子优化的氨基酸,按照上述方法确定具有更高tRNA拷贝数的密码子类型,替换原有的三个碱基,完成目标序列中密码子的替换后,即可得到经优化的表达序列。
1.5.分析方法
为了更清晰地对表达序列构建方法或密码子优化算法进行分析,本发明提供了以下的表征参数。
以归一化的方式,将密码子使用频率转化为密码子使用频率百分比(UFi),将tRNA拷贝数转化为tRNA拷贝数百分比(CNFi),以便进行两者之间的直观比较。
密码子使用频率百分比(UFi),指一种氨基酸AAj的一种同义密码子的使用频率fi占该种氨基酸的所有同义密码子的使用频率之和
Figure BDA0003152366430000292
的百分数,也即
Figure BDA0003152366430000293
其中,mj为该种氨基酸AAj在相应物种中的同义密码子的种类数。
tRNA拷贝数百分比(CNFi),指一种氨基酸AAj的一种同义密码子对应的tRNA拷贝数(CNi)占该种氨基酸在相应物种中的所有同义密码子的tRNA拷贝数之和
Figure BDA0003152366430000294
的百分数,也即
Figure BDA0003152366430000295
相应的计算方式还可以参考实施例1中的表4。
1.6.氨基酸序列
所述表达序列所编码的氨基酸序列,可以为目标蛋白的氨基酸序列,也可以为目标蛋白的前体的氨基酸序列。所述目标蛋白的前体,作为举例,比如可以包括前导肽序列,然后在成熟的蛋白序列中切除前导肽序列,得到目标蛋白的序列。
本发明第一方面和第二方面所公开的构建方法中,所述氨基酸序列的氨基酸个数至少为2、至少为10或者至少为50,或者选自10~50或50~100中任一种数量的氨基酸个数,或者选自20~100中任一种数量的氨基酸个数,或者选自20~50中任一种数量的氨基酸个数。
优选方式之一,本发明第一方面和第二方面所公开的构建方法中,所述氨基酸序列选自以下任一种蛋白、任意组合方式的融合蛋白、任意组合方式的组合物:荧光素酶、绿色荧光蛋白、增强绿色荧光蛋白、黄色荧光蛋白、氨酰tRNA合成酶、甘油醛-3-磷酸脱氢酶、过氧化氢酶、肌动蛋白、抗体、抗体的可变区域、抗体的单链及其片段、纳米抗体、α-淀粉酶、肠道菌素A、丙型肝炎病毒E2糖蛋白、胰岛素及其前体、胰高血糖素样肽、干扰素、白介素、溶菌酶素、血清白蛋白、甲状腺素运载蛋白、酪氨酸酶、木聚糖酶、β-半乳糖苷酶,前述任一种蛋白的部分结构域,前述任一种蛋白的亚基或片段,或前述任一种的变体。
优选方式之一,所述氨基酸序列为增强型绿色荧光蛋白或者其变体。
优选方式之一,所述氨基酸序列含有SEQ ID No.:1所示的氨基酸序列。
优选方式之一,所述氨基酸序列为SEQ ID No.:2所示的氨基酸序列。
优选方式之一,所述氨基酸序列为纳米抗体。
优选方式之一,所述氨基酸序列含有SEQ ID No.:13所示的纳米抗体。
优选方式之一,所述氨基酸序列为SEQ ID No.:13所示的纳米抗体。
所述目标蛋白可以为天然蛋白或其改造产物,也可以为人工合成序列。所述天然蛋白的来源没有特别限制,包括但不限于:真核细胞、原核细胞、病原体;其中真核细胞来源包括但不限于:哺乳动物细胞、植物细胞、酵母细胞、昆虫细胞、线虫细胞、及其组合;所述哺乳动物细胞来源可以包括但不限于鼠源(包括大鼠、小鼠、豚鼠、金地鼠、仓鼠等)、兔源、猴源、人源、猪源、羊源、牛源、狗源、马源等。所述病原体包括病毒、衣原体、支原体等。所述病毒包括HPV、HBV、TMV、冠状病毒、轮状病毒,等。
所述目标蛋白的类型包括但不限于多肽(本发明中“目标蛋白”广义地包括多肽)、荧光类蛋白、酶及相应的酶原、抗体、抗原、免疫球蛋白、激素、胶原、聚氨基酸、疫苗等,前述任一种蛋白的部分结构域,前述任一种蛋白的亚基或片段,以及前述任一种蛋白的变体。所述“前述任一种蛋白的亚基或片段”包括“前述任一种蛋白的部分结构域”的亚基或片段。所述“前述任一种蛋白的变体”包括“前述任一种蛋白的部分结构域、前述任一种蛋白的亚基或片段”的变体。所述“前述任一种蛋白的变体”包括但不限于前述任一种蛋白的突变体。本发明中,其它位置的连续两个或两个以上“前述”的情形,含义做类似解释。
所述目标蛋白的结构,既可以为完整结构,也可以选自相应的部分结构域、亚基、片段、二聚体、多聚体、融合蛋白、糖蛋白等。不完整的抗体结构的举例如,纳米抗体(缺失轻链的重链抗体,VHH,保留了重链抗体完整的抗原结合能力)、重链可变区、互补决定区(CDR)等。
例如,所述目标蛋白可以选自包括但不限于以下任一种蛋白、任意组合方式的融合蛋白、任意组合方式的组合物:荧光素酶(如萤火虫荧光素酶)、绿色荧光蛋白(GFP)、增强绿色荧光蛋白(eGFP)、黄色荧光蛋白(YFP)、氨酰tRNA合成酶、甘油醛-3-磷酸脱氢酶、过氧化氢酶(Catalase,举例如鼠过氧化氢酶)、肌动蛋白、抗体、抗体的可变区域(如抗体的单链可变区域,scFV)、抗体的单链及其片段(如抗体的重链、纳米抗体、抗体的轻链)、α-淀粉酶、肠道菌素A、丙型肝炎病毒E2糖蛋白、胰岛素及其前体、胰高血糖素样肽(GLP-1)、干扰素(包括但不限于干扰素α,如干扰素αA、干扰素β、干扰素γ等)、白介素(如白细胞介素-1β、白介素2、白介素12,等)、溶菌酶素、血清白蛋白(包括但不限于人血清白蛋白、牛血清白蛋白)、甲状腺素运载蛋白、酪氨酸酶、木聚糖酶、β-半乳糖苷酶(β-galactosidase,LacZ,举例如大肠杆菌β-半乳糖苷酶),等,前述任一种蛋白的部分结构域,前述任一种蛋白的亚基或片段,或前述任一种的变体 (如前述定义,所述变体包括突变体,举例如萤光素酶突变体、eGFP的突变体,所述变体还可以是同源体)。所述氨酰tRNA合成酶,举例如人赖氨酸-tRNA合成酶(lysine-tRNA synthetase)、人亮氨酸-tRNA合成酶(leucine-tRNA synthetase)等。所述甘油醛-3-磷酸脱氢酶,举例如拟南芥甘油醛3-磷酸脱氢酶,glyceraldehyde-3-phosphatedehydrogenase。还可参考专利文献CN109423496A公开的蛋白种类。所述任意组合方式的组合物,可以包括前述任一种蛋白,也可以包括前述任意组合方式的融合蛋白。
一些优选方式中,采用GFP、eGFP、mScarlet等之一,或其类似物质、或其突变体等具有荧光性质的目标蛋白对蛋白合成能力进行评估。
所述目标蛋白的应用领域包括但不限于生物医药、分子生物、医学、体外检测、医疗诊断、再生医学、生物工程、组织工程、干细胞工程、基因工程、聚合物工程、表面工程、纳米工程、化妆品、食品、食品添加剂、营养剂、农业、饲料、生活用品、洗涤、环境、化学染色、荧光标记等领域。
1.7.表达序列的举例
优选方式之一,本发明第一方面和第二方面所公开的构建方法中,所述表达序列编码以下任一种蛋白、任意组合方式的融合蛋白、任意组合方式的组合物:荧光素酶、绿色荧光蛋白、增强绿色荧光蛋白、黄色荧光蛋白、氨酰tRNA合成酶、甘油醛-3-磷酸脱氢酶、过氧化氢酶、肌动蛋白、抗体、抗体的可变区域、抗体的单链及其片段、纳米抗体、α-淀粉酶、肠道菌素A、丙型肝炎病毒E2糖蛋白、胰岛素及其前体、胰高血糖素样肽、干扰素、白介素、溶菌酶素、血清白蛋白、甲状腺素运载蛋白、酪氨酸酶、木聚糖酶、β-半乳糖苷酶,前述任一种蛋白的部分结构域,前述任一种蛋白的亚基或片段,或前述任一种的变体。
优选方式之一,所述表达序列编码增强型绿色荧光蛋白或者其变体。
优选方式之一,所述表达序列编码SEQ ID No.:1所示的蛋白。
优选方式之一,所述表达序列编码SEQ ID No.:2所示的氨基酸序列。
优选方式之一,所述表达序列编码纳米抗体。
优选方式之一,所述表达序列编码SEQ ID No.:13所示的纳米抗体。
优选方式之一,所述表达序列包括SEQ ID No.:7、8、9、10、11或14所示的核苷酸序列。
优选方式之一,所述表达序列为SEQ ID No.:7、8、9、10、11或14所示的核苷酸序列。
1.8.表达系统
将所述表达序列翻译或者转录翻译为相应的目标蛋白的表达系统,可以为体内表达系统,也可为体外表达系统。可以通过宿主细胞进行表达,也可以在体外蛋白合成体系中进行表达。
2.本发明第三方面公开一种核酸构建物,所述核酸构建物包括使用第一方面或第二方面所述用于蛋白质合成的表达序列的构建方法获得的表达序列。
优选方式之一,所述核酸构建物的序列包括SEQ ID No.:7、8、9、10、11或14所示的核苷酸序列。
优选方式之一,所述核酸构建物的序列为SEQ ID No.:7、8、9、10、11或14所示的核苷酸序列。
3.本发明第四方面公开一种载体,所述载体中包括第三方面所述核酸构建物。
所述载体优选为重组载体。
所述载体可以为不同种载体的组合。
所述载体的举例包括但不限于:细菌质粒、噬菌体、酵母质粒、动物细胞载体、穿梭载体、及其组合。
一些优选的具体实施方式中,所述载体为转座子载体。
用于制备重组载体的方法是本领域普通技术人员所熟知的,只要其能够在宿主体内复制和稳定,任何质粒和载体都是可以被采用的。
一些优选的具体实施方式中,所述载体为表达载体。
本领域普通技术人员可以使用熟知的方法构建含有第三方面所述核酸构建物的表达载体。这些方法包括但不限于体外重组DNA技术、DNA合成技术、体内重组技术等。
制备本发明第七方面中的“编码目标蛋白的核酸模板”时所涉及的各种载体均在本发明第四方面的载体范围之内。
4.本发明第五方面公开一种基因工程细胞,所述基因工程细胞的基因组中至少一个位点整合有第三方面所述核酸构建物,或者所述基因工程细胞中含有第四方面所述载体。
一些优选的具体实施方式中,所述基因工程细胞的染色体中至少一个位点整合有第三方面所述核酸构建物。
一些优选的具体实施方式中,所述基因工程细胞还包括含有编码转座酶基因的载体或其染色体上整合有转座酶基因。
本发明第三方面所述构建物或第四方面所述载体,可以用于转化适当的基因工程细胞。基因工程细胞可以选自包括但不限于下述细胞类型的组:原核细胞、低等真核细胞、高等动物细胞。原核细胞的举例,如大肠杆菌,链霉菌属、农杆菌。低等真核细胞的举例,如酵母细胞。高等动物细胞的举例,如昆虫细胞。本领域一般技术人员都清楚如何选择适当的载体和基因工程细胞。用重组DNA转化基因工程细胞可用本领域技术人员熟知的常规技术进行。当宿主为原核生物(如大肠杆菌)时,可以用CaCl2法处理,也可用电穿孔法进行。当宿主是真核生物,可选用如下的DNA转染方法:磷酸钙共沉淀法,常规机械方法(如显微注射、电穿孔、脂质体包装等)。转化植物也可使用农杆菌转化或基因枪转化等方法,例如叶盘法、幼胚转化法、花芽浸泡法等。
一些优选的具体实施方式种,所述基因工程细胞中含有第四方面所述载体,且所述载体为质粒载体。
5.本发明第六方面公开一种试剂盒,所述试剂盒提供下述至少一种物质:
(k1)本发明第三方面所述核酸构建物;
(k2)本发明第四方面所述载体;和
(k3)本发明第五方面所述基因工程细胞。
所述试剂盒还独立地可选地包括(k4)标签;
所述试剂盒还独立地可选地包括(k5)说明书。
6.本发明第七方面公开一种蛋白质体外反应体系,所述蛋白质体外反应体系包括:
(r1)体外蛋白合成体系;和
(r2)编码目标蛋白的核酸模板。
所述体外蛋白合成体系能够与所述编码目标蛋白的核酸模板共同提供合成目标蛋白所需的翻译相关元件;所述翻译相关元件包括tRNA。
所述编码目标蛋白的核酸模板含有所述目标蛋白的编码序列;所述目标蛋白的编码序列通过第一方面或者第二方面所述构建方法确定。
所述编码目标蛋白的核酸模板可以为DNA、RNA或者其组合。
6.1.体外蛋白合成体系
所述体外蛋白合成体系能够提供体外合成蛋白过程所需的各种因子。可通过细胞提取物的方式集成式地提供,也可通过外源添加的方式分开提供(如日本的PURE系统,比如PURExpress试剂盒),还可通过两者的组合方式提供。
所述体外蛋白合成体系的各组分的种类和含量,没有特别限制,只要所构成的体系能够与编码目标蛋白的核酸模板进行反应合成目标蛋白即可。
所述体外蛋白合成体系的各组分的加入顺序没有特别限制。
所述体外蛋白合成体系中的翻译相关元件可以通过细胞提取物、外源添加的翻译相关元件、或者其组合方式提供。
一些优选方式中,所述体外蛋白合成体系至少包括细胞提取物;可选地包括外源添加的翻译相关元件。
一些优选方式中,所述体外蛋白合成体系包括外源添加的翻译相关元件。
一些优选方式中,所述体外蛋白合成体系能够供应RNA聚合酶,所述RNA聚合酶的来源可以选自:内源性表达的RNA聚合酶(经由细胞提取物提供)、外源添加的RNA 聚合酶、编码RNA聚合酶的外源核酸模板的翻译产物,及其组合。
一些优选方式中,所述体外蛋白合成体系能够识别所述编码目标蛋白的核酸模板中的启动子。
一些优选方式中,所述体外蛋白合成体系包括RNA聚合酶,所述RNA聚合酶通过细胞提取物方式、外源添加方式、或者两种方式的组合方式提供。
一些优选方式中,所述体外蛋白合成体系能够供应的RNA聚合酶为T7 RNA聚合酶。
一些优选方式中,所述编码目标蛋白的核酸模板含有能够启动目标蛋白的基因转录程序的T7启动子,所述体外蛋白合成体系包括T7 RNA聚合酶、编码T7 RNA聚合酶的外源核酸模板或者其组合。
一些优选方式中,所述体外无细胞蛋白合成体系包括细胞提取物,所述细胞提取物包括内源性表达的T7 RNA聚合酶。
一些优选方式中,所述体外蛋白合成体系包括能量系统。
一些优选方式中,所述体外蛋白合成体系包括合成RNA的底物。
一些优选方式中,所述体外蛋白合成体系包括合成蛋白的底物。
一些优选方式中,所述体外蛋白合成体系能够供应DNA聚合酶,所述DNA聚合酶的来源可以选自:内源性表达的DNA聚合酶(经由细胞提取物提供)、外源添加的DNA 聚合酶、编码DNA聚合酶的外源核酸模板的翻译产物,及其组合。
一些优选方式中,所述体外蛋白合成体系能够供应的DNA聚合酶为phi29 DNA聚合酶。
一些优选方式中,所述体外蛋白合成体系包括DNA聚合酶、合成DNA的底物。
一些优选方式中,所述体外蛋白合成体系,包括细胞提取物、能量系统、合成RNA的底物、合成蛋白的底物。
一些优选方式中,所述体外蛋白合成体系,包括细胞提取物、能量系统、合成蛋白的底物、RNA聚合酶(包含于细胞提取物或/和独立地外源添加)、合成RNA的底物。所述“包含于细胞提取物”也即所述细胞提取物包括内源性表达的RNA聚合酶。
一些优选方式中,所述体外蛋白合成体系包括细胞提取物(可选地含有内源性表达的 RNA聚合酶和/或DNA聚合酶)、能量系统、合成RNA的底物、合成蛋白的底物、外源添加的RNA聚合酶。
一些优选方式中,所述体外蛋白合成体系,包括细胞提取物、能量系统、合成蛋白的底物、RNA聚合酶(包含于细胞提取物或/和独立地外源添加)、合成RNA的底物、DNA 聚合酶(包含于细胞提取物或/和独立地外源添加)、合成DNA的底物。
一些优选方式中,所述体外蛋白合成体系,包括乳酸克鲁维酵母细胞提取物(含有内源性表达的T7 RNA聚合酶)、能量系统、合成RNA的底物、合成蛋白的底物。
一些优选方式中,所述体外蛋白合成体系,包括乳酸克鲁维酵母细胞提取物(宿主细胞未内源性整合RNA聚合酶的编码基因)、能量系统、外源添加的RNA聚合酶、合成 RNA的底物、合成蛋白的底物。
一些优选方式中,所述体外蛋白合成体系包括细胞提取物(可选地含有内源性表达的 RNA聚合酶和/或DNA聚合酶)、能量系统、合成RNA的底物、合成蛋白的底物、外源添加的RNA聚合酶、外源添加的DNA聚合酶、合成DNA的底物。
一些优选方式中,所述体外蛋白合成体系包括纯化的翻译相关元件、能量系统、合成 RNA的底物、合成蛋白的底物;所述纯化的翻译相关元件可以包括但不限于:tRNA、核糖体、氨酰tRNA合成酶、RNA聚合酶、起始因子、延伸因子、终止因子。还可进一步包括包括肽基转移酶等。
所述体外蛋白合成体系中可选地包括以下任一种外源添加组分或者其组合:DNA扩增相关元件、RNA扩增相关元件、RNA酶抑制剂、拥挤剂、镁离子、钾离子、可溶性氨基酸盐、抗氧化剂或还原剂、防冻剂、海藻糖、反应促进剂、消泡剂、烷烃、缓冲剂、水性溶剂。
一些优选方式中,所述体外蛋白合成体系可选地包括以下任一种外源添加组分或者其组合:RNA酶抑制剂、拥挤剂、镁离子、钾离子、可溶性氨基酸盐、抗氧化剂或还原剂、防冻剂、海藻糖、反应促进剂、消泡剂、烷烃、缓冲剂、水性溶剂、编码RNA聚合酶的外源核酸模板、DNA聚合酶、编码DNA聚合酶的外源核酸模板、其它DNA扩增相关元件、合成DNA的底物、RNA扩增相关元件。当所述体外蛋白合成体系中含有DNA聚合酶或者编码DNA聚合酶的外源核酸模板时,一些优选方式中还含有合成DNA的底物。
所述体外蛋白合成体系的一些优选的具体实施方式,还包括但不限于,例如WO2016005982A1所记载的基于大肠杆菌的无细胞蛋白合成体系。本发明的其它引用文献、其直接及间接引用文献中所记载的包括但不限于基于麦胚细胞、兔网织红细胞、酿酒酵母、毕赤酵母、马克斯克鲁维酵母的体外无细胞蛋白合成体系,也均作为本发明的体外蛋白合成体系的实施方式纳入本发明。举例如,文献“Lu,Y.Advances in Cell-FreeBiosynthetic Technology.Current Developments in Biotechnology andBioengineering,2019, Chapter 2,23-45”中包括但不限于“2.1Systems andAdvantages”部分第27-28页所引用文献中记载的体外无细胞蛋白合成体系,均可作为实施本发明的体外蛋白合成体系。举例如 (除非和本发明相冲突,否则,下述文献及其引用文献以全部内容、全部目的被引用),文献CN106978349A、CN108535489A、CN108690139A、CN108949801A、CN108642076A、 CN109022478A、CN109423496A、CN109423497A、CN109423509A、CN109837293A、 CN109971783A、CN109988801A、CN109971775A、CN110093284A、CN110408635A、 CN110408636A、CN110551745A、CN110551700A、CN110551785A、CN110819647A、 CN110845622、CN110938649A、CN110964736A、CN111378706A、CN111378707A、 CN111378708A、CN111718419A、CN111748569A、CN2019107298813、CN2019112066163、 CN2018112862093(CN111118065A)、CN2019114181518、CN2020100693833、 CN2020101796894、CN202010269333X、CN2020102693382、CN2020115115662及其引用文献中记载的体外无细胞蛋白合成体系,均可作为实施本发明的体外蛋白合成体系。
所述体外蛋白合成体系的细胞提取物的来源细胞没有特别限制,只要能够体外表达所述目标蛋白即可。现有技术已公开的适用原核细胞提取物、真核细胞提取物(可以优选酵母细胞提取物,还可以更优先乳酸克鲁维酵母)来源的体外蛋白合成体系的外源蛋白,或者适用于细胞内合成的原核细胞体系、真核细胞体系(可以优选为酵母细胞体系,还可以更优选为乳酸克鲁维酵母体系)的内源蛋白,也均可以采用本发明的体外蛋白合成体系进行合成,或者尝试用本发明提供的体外蛋白合成体系进行合成。
所述体外蛋白合成体系的优选方式之一为IVTT体系。
一些优选方式中,所述体外蛋白合成体系含有细胞提取物、内源性表达的RNA聚合酶(包含于前述细胞提取物中)或者外源添加的RNA聚合酶、能量系统、合成RNA的底物、合成蛋白的底物、拥挤剂、镁离子、钾离子、缓冲液,还可选地包括以下任一种外源组分:编码RNA聚合酶的外源核酸模板(可以独立地优选为DNA模板)、内源性表达的DNA聚合酶或者外源添加的DNA聚合酶、编码DNA聚合酶的外源核酸模板(可以独立地优选为DNA模板)、其它DNA扩增相关元件、合成DNA的底物、翻译相关元件、 RNA扩增相关元件、RNA酶抑制剂、可溶性氨基酸盐、抗氧化剂或还原剂、防冻剂、海藻糖、反应促进剂、消泡剂、烷烃、水性溶剂。所述细胞提取物在一些优选方式中为真核细胞提取物,在一些优选方式中为酵母细胞提取物,在一些优选方式中为乳酸克鲁维酵母细胞提取物。
一些优选方式中,所述体外蛋白合成体系含有细胞提取物(细胞来源经过菌株改造,已把RNA聚合酶的编码基因整合到细胞基因组中或者插入到细胞内游离质粒中),还含有选自以下组的一种或多种外源组分:4-羟乙基哌嗪乙磺酸钾(HEPES-K)、三羟甲基氨基甲烷(Tris)或其盐(如盐酸盐)、醋酸钾、谷氨酸钾(可以优选L-谷氨酸钾)、氯化钾、醋酸镁、谷氨酸镁(可以优选L-谷氨酸镁)、天门冬氨酸镁(可以优选L-天门冬氨酸镁)、葡萄糖酸镁、可溶性氨基酸盐、核苷三磷酸混合物(NTPs)、氨基酸混合物、磷酸肌酸、磷酸肌酸酶、磷酸肌酸激酶、葡萄糖、L-阿拉伯糖、蔗糖、麦芽糖、淀粉、糖原、糊精、玉米糊精、麦芽糊精、环糊精、磷酸盐(如磷酸钾)、DNA扩增相关元件、脱氧核苷三磷酸混合物、RNA扩增相关元件、RNA酶抑制剂、聚乙二醇、葡聚糖、蔗糖聚合物、二硫苏糖醇(DTT)。所述细胞提取物在一些优选方式中为真核细胞提取物,在一些优选方式中为酵母细胞提取物,在一些优选方式中为乳酸克鲁维酵母细胞提取物。
一些优选方式中,所述体外蛋白合成体系含有细胞提取物,还含有选自以下组的一种或多种外源组分:HEPES-K、Tris或其盐、醋酸钾、谷氨酸钾(可以优选L-谷氨酸钾)、氯化钾、醋酸镁、谷氨酸镁(可以优选L-谷氨酸镁)、天门冬氨酸镁(可以优选L-天门冬氨酸镁)、葡萄糖酸镁、可溶性氨基酸盐、核苷三磷酸混合物(NTPs)、氨基酸混合物、磷酸肌酸、磷酸肌酸酶、磷酸肌酸激酶、葡萄糖、L-阿拉伯糖、蔗糖、麦芽糖、淀粉、糖原、糊精、玉米糊精、麦芽糊精、环糊精、磷酸盐(如磷酸钾)、外源性T7 RNA聚合酶、外源性phi29 DNA聚合酶、其它DNA扩增相关元件、脱氧核苷三磷酸混合物、RNA 扩增相关元件、RNA酶抑制剂、聚乙二醇、葡聚糖、蔗糖聚合物、二硫苏糖醇。所述细胞提取物在一些优选方式中为真核细胞提取物,在一些优选方式中为酵母细胞提取物,在一些优选方式中为乳酸克鲁维酵母细胞提取物。
一些优选方式中,所述体外蛋白合成体系含有细胞提取物(来源细胞可选地经过菌株改造,可选地把RNA聚合酶的编码基因整合到细胞基因组中或者插入到细胞内游离质粒中),还含有选自以下组的一种或多种外源组分:HEPES-K、三羟甲基氨基甲烷盐酸盐(Tris·HCl)、醋酸钾、谷氨酸钾(可以优选L-谷氨酸钾)、氯化钾、醋酸镁、谷氨酸镁 (可以优选L-谷氨酸镁)、天门冬氨酸镁(可以优选L-天门冬氨酸镁)、葡萄糖酸镁、可溶性氨基酸盐、核苷三磷酸混合物(NTPs)、氨基酸混合物、磷酸肌酸、磷酸肌酸酶、磷酸肌酸激酶、葡萄糖、L-阿拉伯糖、蔗糖、麦芽糖、淀粉、糖原、糊精、玉米糊精、麦芽糊精、环糊精、磷酸钾、RNA酶抑制剂、聚乙二醇、葡聚糖、蔗糖聚合物、二硫苏糖醇、海藻糖、氧化铝促进剂、消泡剂、烷烃、外源性T7 RNA聚合酶、外源性phi29 DNA 聚合酶、编码T7 RNA聚合酶的DNA模板、编码phi29 DNA聚合酶的DNA模板、其它 DNA扩增相关元件、脱氧核苷三磷酸混合物、RNA扩增相关元件。所述细胞提取物在一些优选方式中为真核细胞提取物,在一些优选方式中为酵母细胞提取物,在一些优选方式中为乳酸克鲁维酵母细胞提取物。
一些优选方式中,所述体外蛋白合成体系含有细胞提取物,还含有选自以下组的一种或多种外源组分:HEPES-K、Tris·HCl(pH8.0)、醋酸钾、谷氨酸钾(可以优选L-谷氨酸钾)、氯化钾、醋酸镁、谷氨酸镁(可以优选L-谷氨酸镁)、天门冬氨酸镁(可以优选L-天门冬氨酸镁)、葡萄糖酸镁、葡萄糖、L-阿拉伯糖、蔗糖、麦芽糖、麦芽糊精、玉米糊精、环糊精、核苷三磷酸混合物(四种核苷三磷酸混合物,其中单一核苷三磷酸的浓度可以均相同,也可以彼此独立)、氨基酸混合物(甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、苯丙氨酸、脯氨酸、色氨酸、丝氨酸、酪氨酸、半胱氨酸、蛋氨酸、天冬酰胺、谷氨酰胺、苏氨酸、天冬氨酸、谷氨酸、赖氨酸、精氨酸和/或组氨酸;可以优选二十种氨基酸的混合物;其中,单一氨基酸浓度可以均相同,也可以彼此独立)、磷酸钾、外源性T7 RNA聚合酶、外源性phi29 DNA聚合酶、其它DNA扩增相关元件、脱氧核苷三磷酸混合物、RNA扩增相关元件、RNA酶抑制剂、聚乙二醇、葡聚糖、蔗糖聚合物、二硫苏糖醇。所述细胞提取物在一些优选方式中为真核细胞提取物,在一些优选方式中为酵母细胞提取物,在一些优选方式中为乳酸克鲁维酵母细胞提取物。
具体地,一些优选方式中,所述体外蛋白合成体系含有50%~80%(v/v)细胞提取物,还含有选自以下组的一种或多种成分:9.78mM Tris·HCl(pH8.0)、20~80mM醋酸钾、 2~10mM醋酸镁、1.5~8mM L-天门冬氨酸镁(可以更优选1.5~6mM)、0~20mM D- 天门冬氨酸镁、1.5~10mM葡萄糖酸镁、0.5~5mM四种核苷三磷酸(单一核苷三磷酸浓度可以均相同,如1.8mM;也可以彼此独立)、0.1~1mM二十种氨基酸混合物(甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、苯丙氨酸、脯氨酸、色氨酸、丝氨酸、酪氨酸、半胱氨酸、蛋氨酸、天冬酰胺、谷氨酰胺、苏氨酸、天冬氨酸、谷氨酸、赖氨酸、精氨酸和组氨酸,单一氨基酸浓度可以均相同,如0.5mM,也可以彼此独立)、10~40mM 葡萄糖、5~110mM L-阿拉伯糖、200~400mM麦芽糊精(以葡萄糖单体计量,如320mM 时对应约52mg/mL)、10~40mM磷酸钾、0.5%~5%(w/v)聚乙二醇(如2%(w/v))、 0.4~5mM二硫苏糖醇(如0.44mM)。所述细胞提取物在一些优选方式中为真核细胞提取物,在一些优选方式中为酵母细胞提取物,在一些优选方式中为乳酸克鲁维酵母细胞提取物。
6.2.外源核酸模板
本发明的外源核酸模板,如无特别说明,特指编码目标蛋白的核酸模板。此外,本发明的外源核酸模板,在指明的情况下,还可以包括编码体外蛋白合成过程所需蛋白因子或蛋白酶的核酸模板,举例如编码RNA聚合酶的外源核酸模板、编码DNA聚合酶的外源核酸模板。
若合成体系中没有编码目标蛋白的核酸模板,目标蛋白体外合成反应就无法进行。
本发明的实施方式中的编码目标蛋白的核酸模板可以独立地为DNA模板、mRNA模板、或者其组合。
本发明的实施方式中的编码目标蛋白的核酸模板可以独立地优选为DNA模板。
所述编码目标蛋白的核酸模板作为合成目标蛋白的直接模板(mRNA)、间接模板(DNA)、或者其组合。
所述编码目标蛋白的核酸模板允许包括非编码区。所述表达产物可以为多肽或蛋白,也可以为融合蛋白。
在外源核酸模板中,所述目标蛋白的基因可以是两倍甚至更多倍串联的。
对一个核酸模板分子完成一次翻译(或转录翻译)过程,允许合成的多肽或蛋白分子数量可以为1个、2个或更多个。
转录翻译方式的蛋白合成过程以DNA模板为间接模板,仅翻译方式的蛋白合成过程可以以mRNA模板作为直接模板。
一些优选方式中,本发明的所述体外蛋白合成体系为体外转录翻译体系,也即IVTT 体系,采用DNA模板作为编码目标蛋白的核酸模板。
所述编码目标蛋白的核酸模板含有合成目标蛋白所需的翻译相关元件。
本发明的任一实施方式中,可以独立地优选如下,所述编码目标蛋白的核酸模板含有所述细胞提取物能够识别的启动子元件。
一些优选方式中,所述编码目标蛋白的核酸模板含有所述细胞提取物能够识别的启动子元件。
一些优选方式中,所述编码目标蛋白的核酸模板含有能够启动目标蛋白的基因转录程序的T7启动子,也即目标蛋白的基因转录过程由核酸模板上的T7启动子启动。
一些优选方式中,所述编码目标蛋白的核酸模板含有能够启动目标蛋白的基因转录程序的T7启动子(此时,T7启动子位于核酸模板目标蛋白的编码序列的上游,由T7启动子启动目标蛋白的基因转录程序),所述体外蛋白合成体系包括细胞提取物,所述细胞提取物中含有内源性表达的T7 RNA聚合酶。
一些优选方式中,所述编码目标蛋白的核酸模板包括目标蛋白翻译系统、抗性基因翻译系统、lac抑制子翻译系统;上述各翻译系统中分别包括相应的启动子。
一些优选方式中,所述编码目标蛋白的核酸模板还含有控制质粒拷贝数的基因。
一些优选方式中,所述编码目标蛋白的核酸模板还含有转录增强元件,如kozak序列。
一些优选方式中,所述编码目标蛋白的核酸模板还含有翻译增强元件,如翻译增强子元件、IRES元件、kozak序列等。
所述外源核酸模板,包括但不限于所述编码目标蛋白的核酸模板,还可以采用以下文献中公开的核酸模板结构:CN108690139A、CN109022478A、CN109423497A、CN109837293A、CN109971775A、CN110408635A、CN110408636A、CN110551700A、CN110551745A、CN110819647A、CN110845622A等文献。
6.2.1.外源DNA模板(包括编码目标蛋白的DNA模板)
本发明的外源DNA模板,如无特别说明,特指编码目标蛋白的DNA模板。
本发明的外源DNA模板,可以为DNA、cDNA、甲基化DNA、或者其组合。其中, cDNA可以由RNA或miRNA经逆转录获得。miRNA(MicroRNA)是一类由内源基因编码的长度约为20~25个核苷酸的非编码单链RNA分子。
所述编码目标蛋白的DNA模板中含有目标蛋白的编码序列。
一些优选方式中,所述编码目标蛋白的DNA模板中含有目标蛋白的编码基因。
所述编码目标蛋白的DNA模板根据目标蛋白的氨基酸序列确定。
所述编码目标蛋白的DNA模板还可以含有启动子、终止子、增强子(举例如CN109423497A、CN109022478A、CN109837293A(CN201711194355.9)、CN109971775A 等文献中记载及其引用文献中记载的增强子元件,例如Ω序列及其同源序列、组合的增强子元件)、kozak序列(参考CN109022478A、CN109837293A、CN109971775A等文献及其引用文献)、IRES元件(内部核糖体进入序列,参考CN109022478A、CN109423497A 等文献及其引用文献)、多克隆位点(MCS)、控制质粒拷贝数的基因等其它功能元件。所述编码目标蛋白的DNA模板还可以含有编码信号肽(对应signal sequence)、前导肽 (对应leader sequence)、功能标签(如纯化标签、增溶标签)、连接肽等其它氨基酸链的编码序列/编码基因。所述编码目标蛋白的DNA模板还可以含有5’非翻译序列、3’非翻译序列。专利申请CN201911204796.1及其引用文献中直接或间接披露的增溶标签的核酸序列均作为参考纳入本发明。
一些优选方式中,所述编码目标蛋白的DNA模板含有纯化标签序列,经翻译后的表达产物中带有纯化标签,能够和纯化介质进行特异性结合,将翻译后的蛋白产物从反应混合体系中捕获分离出来。
一些优选方式中,所述编码目标蛋白的DNA模板含有启动子元件。所述启动子元件要求能够被所使用的细胞提取物或者所述体外蛋白合成体系的其它组分所识别;可以是野生型细胞提取物能识别的启动子,也可以将细胞提取物的来源菌株改造成能识别该启动子的菌株。本发明DNA模板中的启动子可选自以下组:AOD1、MOX、AUG1、AOX1、 GAP、FLD1、PEX8、YPT1、LAC4、PGK、ADH4、AMY1、GAM1、XYL1、XPR2、 TEF、RPS7、T7、其组合。参考包括但不限于以下文献及其引用文献:“Cereghino G. Applications of yeast in biotechnology:protein production and genetic analysis.Current Opinion in Biotechnology,1999,10(5),422-427”。
一些优选例中,外源DNA模板采用T7启动子启动目标蛋白的转录程序;所述T7 启动子是能够对T7 RNA聚合酶有特异性反应的强启动子。
一些优选例中,外源DNA模板含有能够启动目标蛋白的基因转录过程的T7启动子。
关于外源DNA模板的浓度选取,根据实验方案拟表达的目标蛋白量、蛋白合成速率等因素确定。一些优选方式中,外源DNA模板的浓度采用1~400ng/μL。另一些优选方式中,外源DNA模板的浓度采用1~80ng/μL。另一些优选方式中,外源DNA模板的浓度采用5~50ng/μL。另一些优选方式中,外源DNA模板的浓度采用1~50ng/μL。本发明中,如无特别说明,上述DNA模板的浓度为其在体外蛋白合成体系中的终浓度。
所述外源DNA模板可以是环状DNA,也可以是线性DNA。可以是单链的,也可以是双链的。所述目标蛋白的编码基因可以选自包括但不限于:基因组序列、cDNA序列、及其组合。所述外源DNA模板还可以含有启动子序列、5’非翻译序列、3’非翻译序列。
一些优选方式中,所述外源DNA模板还包括选自下组的任一种元件或其组合:启动子、终止子、poly(A)元件、转运元件、基因靶向元件、筛选标记基因、增强子、IRES元件、kozak序列、抗性基因、转座酶编码基因、信号序列(signal sequence)、前导序列(leadingsequence或leader sequence,举例如CN109022478A中记载及其引用的前导序列)、控制质粒拷贝数的基因(rop基因)、增强翻译水平的标签(如CN2019112066163所记载的多肽标签)、其它功能标签(如纯化标签、荧光标签、增溶标签等)等。可参考 US20060211083A1等文献。
所述外源DNA模板还可构建于表达载体之中。本领域普通技术人员可以使用熟知的方法构建含有目标蛋白的编码基因的表达载体。这些方法包括体外重组DNA技术、DNA 合成技术、体内重组技术等。
例如,将“Z1-Z2”结构的核酸构建物插入到质粒载体的克隆位点,作为质粒DNA;其中,Z1为启动子,“-”为共价键或者核苷酸片段,Z2为目标蛋白的编码序列。一些优选方式中,Z1为T7启动子。
一些优选方式中,所述外源DNA模板为环状DNA,可以进一步优选为质粒DNA。相应的质粒DNA没有特别限制,只要能够与体系的细胞提取物进行反应合成目标蛋白即可。通常地,质粒中含有启动子、终止子、非翻译区(UTR)等功能元件。一些优选方式中所述质粒含有体外蛋白合成体系能够识别的启动子;具体地,一些优选方式中,所述质粒含有细胞提取物能够识别的启动子。举例如,含有T7启动子的质粒原则上都可以作为外源DNA模板或质粒载体。例如大肠杆菌的pET系列质粒、pGEM系列质粒等均可以用来实施本发明。另一些优选方式中,所述质粒DNA含有能够被外源添加组分所识别的启动子。
以外源DNA模板采用T7启动子启动目标蛋白的转录程序为例,所述T7启动子可以被细胞提取物中内源性表达的T7 RNA聚合酶所识别,也可以被外源添加的T7 RNA聚合酶所识别,还可以为被外源添加的T7 RNA聚合酶的编码基因的翻译产物所识别。
线性DNA可以通过体外核酸扩增技术获得。可采用的扩增技术没有特别限制,包括但不限于PCR扩增技术、恒温扩增技术、常温扩增技术、室温扩增技术等。一些优选方式中,采用的恒温扩增技术为常温扩增技术。
一些优选方式中,所述外源DNA模板为线性DNA,且为PCR线性片段。所述PCR 线性片段可以通过已报道的PCR技术获得。
另一些优选方式中,所述外源DNA模板为线性DNA,且为采用扩增系统得到的双链线性DNA。所述扩增系统没有特别限制,可以从包括但不限于现有的商业化试剂盒、文献报道的扩增系统中选取,只要能够扩增本发明的编码目标蛋白的DNA模板即可。举例如,包括但不限于Biocompare、Neta Scientific Inc、ABM公司、Thermo Fisher Scientific 公司、Expedeon公司、Vivantis公司等企业提供的商业化DNA扩增系统。
另一些优选方式中,采用双链DNA作为外源DNA模板,且构建于环状质粒载体中。所采用的质粒载体,典型地,含有T7启动子、T7或LAC4终止子、5’UTR、3’UTR等功能元件。
在一些具体实施方式中,采用双链DNA作为外源DNA模板,构建于环状质粒载体中;这些质粒含有T7启动子,作为启动目标蛋白转录翻译的启动子。
一些具体实施方式中,改造型乳酸克鲁维酵母可内源性表达T7 RNA聚合酶,由改造菌株制备细胞提取物,进而构建体外无细胞蛋白合成体系,该体系中的T7启动子可适用于各种蛋白的体外无细胞表达。该质粒中还包含LAC4终止子、UTR等功能元件。
在一些具体实施方式中,质粒DNA中包括以下功能元件:启动子、5’非编码区、目标蛋白的编码序列、3’非编码区、终止子、复制起始位点(f1 ori)、AmpR启动子、氨苄青霉素抗性基因(AmpR基因)、高拷贝数复制起始位点(ori)、控制质粒拷贝数的基因(rop基因)、lacI启动子、lacI的编码序列。
一些具体实施方式中,质粒DNA至少包括表4所标示的结构元件。
表4.一种质粒DNA的主要结构元件的说明
Figure BDA0003152366430000411
另一些具体实施方式中,除了表4的功能元件,在5’UTR与目标蛋白的编码序列之间还具有纯化标签,举例如多聚组氨酸标签(His-tag)。
另一些具体实施方式中,除了表4的功能元件,在5’UTR下游存在kozak序列,用于提高翻译水平。
另一些具体实施方式中,除了具体实施方式表4的功能元件,在5’UTR与目标蛋白的编码序列之间、5’UTR的下游,还具有信号肽的编码序列(信号序列)。
另一些具体实施方式中,质粒DNA中包括以下功能元件:启动子、5’非编码区、前导序列、目标蛋白的编码序列、3’非编码区、终止子、复制起始位点(f1 ori)、AmpR启动子、AmpR基因、高拷贝数复制起始位点(ori)、控制质粒拷贝数的基因(rop基因)、lacI启动子、lacI的编码序列。
另一些具体实施方式中,质粒DNA中包括以下功能元件:启动子、5’非编码区、信号肽的编码序列、目标蛋白的编码序列、3’非编码区、终止子、f1 ori、AmpR启动子、 AmpR基因、ori、rop基因、lacI启动子、lacI的编码序列。具体地举例如,质粒DNA中包括以下功能元件:T7启动子、5’非编码区、信号肽的编码序列、目标蛋白的编码序列、 3’非编码区、T7终止子或LAC4终止子、f1 ori、AmpR启动子、AmpR基因、ori、rop 基因、lacI启动子、lacI的编码序列。
另一些具体实施方式中,质粒DNA中包括以下功能元件:启动子、5’非编码区、信号肽的编码序列、纯化标签的编码序列、多克隆位点(MCS)、目标蛋白的编码序列、3’非编码区、终止子、f1 ori、AmpR启动子、AmpR基因、ori、rop基因、lacI启动子、lacI 的编码序列。具体地举例如,质粒DNA中包括以下功能元件:T7启动子、5’非编码区、信号肽的编码序列、纯化标签的编码序列、MCS、目标蛋白的编码序列、3’非编码区、 LAC4终止子或T7终止子、f1ori、AmpR启动子、AmpR基因、ori、rop基因、lacI启动子、lacI的编码序列。
质粒的基本结构构建及将目标蛋白的编码基因插入到质粒载体的方法,可采用本领域常规技术手段,这里不再赘述。作为举例,可以参考CN108690139A、CN107574179A、CN108949801A等专利文献。作为举例,质粒的基本结构还可以参阅中国专利申请文献CN201910460987.8的附图。
本发明中,编码非目标蛋白的DNA模板的浓度可以参考上述编码目标蛋白的DNA模板的用量,根据所需的该非目标蛋白的表达量确定。所述非目标蛋白,指并非目的表达蛋白,而是为了促进反应进行而合成的翻译产物。
6.2.2.外源mRNA模板
本发明还可以采用外源mRNA模板代替外源DNA模板,或者采用外源mRNA模板与外源DNA模板的混合物,加入到上述体外蛋白合成体系中,进行体外蛋白合成反应,合成mRNA模板所编码的目标蛋白。
7.本发明第八方面公开一种体外蛋白合成方法,包括以下步骤:
步骤i:提供第七方面所述的蛋白质体外反应体系;
步骤ii:在适当条件下进行孵育反应,得到目标蛋白产物。
还可选地包括步骤iii:纯化、检测或者其组合。
所述纯化、检测,均可采用本技术领域的常规技术手段,还可以参考包括但不限于第 6部分“蛋白质体外反应体系”涉及的引用文献中采用的纯化技术、检测技术。
8.下面结合下述的具体实施例和附图,进一步阐述本发明。应理解,这些实施例仅用于阐述说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,优先按照、参考上文所述的具体实施方式指引的条件,然后可按照常规条件,例如“Sambrook等人,分子克隆:实验室手册(New York:Cold Spring HarborLaboratoryPress, 1989)”、《无细胞蛋白合成实验手册》“Edited by Alexander S.Spirinand James R.Swartz. Cell-free protein synthesis:methods and protocols[M].2008”等文献中所述的实验条件,或者按照制造厂商所建议的条件。
除非另外说明,否则本发明中提及的百分比和份数是重量百分比和重量份数。
如无特别说明,则本发明实施例中所用的材料和试剂均为市售产品。
本发明以乳酸克鲁维酵母(Kluyveromyces lactis,简写为K.lactis或kl或Kl)作为实施例中的细胞提取物来源;需要说明的是,同样的设计和分析、实验方法也适用于本文所述的其他细胞提取物来源,例如,其他酵母细胞、动物细胞等真核细胞(哺乳动物细胞、植物细胞、昆虫细胞),以及原核细胞(如大肠杆菌)。
实施例1
1.1.选定提供tRNA的物种
选择乳酸克鲁维酵母作为提供tRNA的物种。
根据http://www.kazusa.or.jp数据库,检索确认Kluyveromyces lactis NRRLY-1140 (ATCC 8585)的密码子使用频率表“Kluyveromyces lactis NRRL Y-1140[gbpln]:5217 CDS's(2488222codons)”。
根据gtrnadb数据库,检索确认Kluyveromyces lactis NRRL Y-1140的tRNA拷贝数表。
采用归一化的分析方式,将乳酸克鲁维酵母NRRL Y-1140的密码子使用频率转化为密码子使用频率百分比(UFi),将tRNA拷贝数转化为tRNA拷贝数百分比(CNFi),两者在图1中进行比较,图1中,横坐标为密码子使用频率百分比(UFi)和tRNA拷贝数百分比 (CNFi),纵坐标轴为氨基酸种类及相应的密码子种类。星号“*”代表终止密码子。
其中,密码子使用频率百分比(UFi),指一种氨基酸AAj的一种同义密码子的使用频率fi占该种氨基酸的所有同义密码子的使用频率之和
Figure BDA0003152366430000431
的百分数,也即
Figure BDA0003152366430000432
其中,mj为该种氨基酸AAj在乳酸克鲁维酵母NRRL Y-1140中的同义密码子的种类数。
tRNA拷贝数百分比(CNFi),指一种氨基酸AAj的一种同义密码子对应的tRNA拷贝数(CNi)占该种氨基酸在乳酸克鲁维酵母NRRL Y-1140中的所有同义密码子的tRNA拷贝数之和
Figure BDA0003152366430000433
的百分数,也即
Figure BDA0003152366430000434
以丙氨酸(Ala)和精氨酸(Arg)为例,相应的
Figure BDA0003152366430000435
分别为10、12,相应的
Figure BDA0003152366430000436
分别为20.8、66.1,相应的密码子使用频率百分比(UFi)和tRNA拷贝数百分比(CNFi) 的计算结果分别如下表5所示。
表5.密码子使用频率百分比(UFi)和tRNA拷贝数百分比(CNFi)计算举例
Figure BDA0003152366430000441
从图1中可以看出,密码子使用频率与相应的tRNA拷贝数之间的正相关性较弱。比如 (1)密码子使用频率均大于0,而tRNA拷贝数为0的反密码子有19个,并且相应的密码子使用频率百分比的平均值高达31.2%;其中天冬氨酸D(Asp)中tRNA拷贝数为0的反密码子ATC所对应的密码子GAU的使用频率百分比达到69.4%。tRNA拷贝数的分布相对而言较为集中,而密码子使用频率的分布相对而言更分散。(2)高的密码子使用频率并非都对应高的tRNA拷贝数。比如甘氨酸的密码子GGU的使用频率(UFi=49.5%)高于同义密码子GGC的使用频率(UFi=13.4%),但相应的tRNA拷贝数,却是GCC(对应CGG)高于ACC(对应GGU)。有12种氨基酸存在这种同义密码子使用率高低与相应的tRNA拷贝数高低趋势相反的情况,包括C(Cys)、D(Asp)、G(Gly)、H(His)、I(Ile)、K(Lys)、L(Leu)、 N(Asn)、R(Arg)、S(Ser)、T(Thr)、Y(Tyr)。
乳酸克鲁维酵母NRRL Y-1140的最高tRNA拷贝数汇总于表2。
1.2.构建编码氨基酸序列的表达序列
1.2.1.确定翻译区的氨基酸序列
选择目标蛋白为eGFP(增强型绿色荧光蛋白)的A206K突变体,记为mEGFP。其氨基酸序列如SEQ ID No.:1所示,共有238个氨基酸。
确定翻译区的氨基酸序列如SEQ ID No.:2所示,共有292个氨基酸,包括如表6所述的功能元件。
表6.目标蛋白为mEGFP的翻译区的元件组成
Figure BDA0003152366430000442
Figure BDA0003152366430000451
1.2.2.构建编码翻译区氨基酸序列的表达序列
未经优化的翻译区的核苷酸序列如SEQ ID No.:6所示,对应图3、图4、图5、图7中的 klpi-0实验组。其中,20种氨基酸(j=20)的每种氨基酸AAj中,非TCcmax三联体密码对应的氨基酸的总数汇总于表7。
表7.核苷酸序列SEQ ID No.:6中不具有最高tRNA拷贝数的氨基酸数量的汇总表。
Figure BDA0003152366430000452
NMTC组:将所述核酸序列SEQ ID No.:6中,相应氨基酸的非TCcmax三联体密码构成的组记为NMTC组。
对非TCcmax的三联体密码进行优化,任一种氨基酸AAj被密码子优化的数量,称为优化数,记为ONj
所述NMTC组中任一种氨基酸AAj的优化度记为pi,所述优化度指一种氨基酸进行了密码子优化的三联体密码个数ONj占相应氨基酸的非TCcmax的三联体密码总数的百分比。
klpi-100实验组:所有种类的氨基酸均选取优化度为100%,且根据表2中的最高tRNA 拷贝数,将核酸序列SEQ ID No.:6中所有的非TCcmax三联体密码均优化为相应的TCcmax,优化所得表达序列如SEQ ID No.:10所示,记为klpi-100实验组。
klpi-67实验组:各种氨基酸的优化度约为67%(详见表9),且根据乳酸克鲁维酵母NRRL Y-1140的tRNA拷贝数分布情况,针对核酸序列SEQ ID No.:6中每种氨基酸的所有非TCcmax三联体密码,每种氨基酸随机选择约67%数量优化为相应的TCcmax,优化所得表达序列如SEQ ID No.:8所示,记为klpi-67实验组。
klpi-33实验组:各种氨基酸的优化度约为33%(详见表9),且根据乳酸克鲁维酵母 NRRL Y-1140的tRNA拷贝数分布情况,针对核酸序列SEQ ID No.:6中每种氨基酸的所有非TCcmax三联体密码,每种氨基酸随机选择约33%数量优化为相应的TCcmax(优化度33%),优化所得表达序列如SEQ ID No.:7所示,记为klpi-33实验组。
上述klpi-100实验组、klpi-67实验组、klpi-33实验组中,每种氨基酸进行了密码子优化的个数(优化数ONj)如表8所示。表8中还列举了klpi-67实验组中进行密码子优化的氨基酸的相对位置,而klpi-33实验组中进行密码子优化的氨基酸的相对位置则是其它的非 TCcmax的位置集合;klpi-100实验组的优化位置则综合了klpi-33实验组与klpi-67实验组的所有优化位置。20种氨基酸(j=20)中,一种氨基酸AAj在核苷酸序列SEQ ID No.:6中的数量Nj如表7所示,从N端至C端将该种氨基酸自1、2、3……、Nj依次排序,以此标示一种氨基酸沿氨基酸序列分布的相对位置。
上述klpi-100实验组、klpi-67实验组、klpi-33实验组中,对SEQ ID No.:6进行优化前后,核苷酸序列的每种氨基酸中,TCcmax氨基酸(具有最高tRNA拷贝数的氨基酸)占该种氨基酸总数Nj的百分含量如表9所示。
表8.三种不同优化度对应的需优化密码子的氨基酸个数。
Figure BDA0003152366430000461
Figure BDA0003152366430000471
其中,优化度约33%的优化位置与优化度约67%的位置完全错开,不重叠,两者的优化位置的总数等于相应氨基酸的非TCcmax总数,两者的优化位置的所有位置共同构成NMTC组。
表9.密码子优化前后的核苷酸序列中,每种氨基酸中,TCcmax氨基酸占该种氨基酸的总数Nj的含量(百分比计量)。
Figure BDA0003152366430000472
Figure BDA0003152366430000481
kl-prop实验组:各种氨基酸选取不同的优化度分别进行密码子优化。根据乳酸克鲁维酵母NRRL Y-1140的tRNA拷贝数分布情况,针对基础核酸序列,按照相应氨基酸的各同功tRNA的tRNA拷贝数百分比确定各同义密码子的最终个数。以氨基酸T(Thr)为例,在乳酸克鲁酵母中有四种反密码子AGT、GGT、TGT、CGT,相应的tRNA拷贝数比例为 6:0:2:1,假如翻译区中氨基酸T的个数为18,那么优化所得表达序列中,相应同义密码子的个数应分别为12、0、4、2。基于核酸序列SEQ ID No.:6,优化所得表达序列如SEQ ID No.:11所示,长度为879nt。
在kl-prop组中,不同氨基酸的优化度,同种氨基酸的不同同义密码子的个数比,都根据来源细胞基因组中的tRNA拷贝数百分比的相对值进行确定。对于这种同义密码子的最终数量随tRNA拷贝数百分比相对值确定的优化方法,可以有多种不同的实现方式。比如,不考虑基础核酸序列的原有同义密码子分布情况,随机选择待优化位置,直至满足所有氨基酸种类的各同义密码子的比例要求。又比如,可以结合基础核酸序列的原有同义密码子分布情况,在优化位置数最少的情况下(这里称为“少改动原则”),随机选择待优化位置,直至满足所有氨基酸种类的各同义密码子的比例要求。又比如,结合基础核酸序列的原有同义密码子分布情况,进行密码子优化时,优先选取tRNA拷贝数变大的优化方式(这里称为“tRNA拷贝数变多原则”),直至满足所有氨基酸种类的各同义密码子的比例要求。又比如,还可以同时考虑“少改动原则”和“tRNA拷贝数变多原则”。
klpi-ΔG组:基于SEQ ID No.:6,除Gly外的各种氨基酸的所有非最高tRNA拷贝数密码子均优化到最高tRNA拷贝数的三联体密码,序列长度为879nt。优化所得表达序列如SEQ ID No.:9所示。
kl-freq组:基于SEQ ID No.:6,主要根据物种偏好(密码子使用偏好或者使用频率) 进行密码子优化,优化所得表达序列如SEQ ID No.:12所示。
1.3.构建含编码mEGFP的核苷酸序列的表达载体
采用PCR扩增、同源片段重组等方法,实施例1的1.2中对翻译区SEQ ID No.:2的各种核苷酸序列插入/取代到质粒表达载体中的MCS(多克隆位点序列),构建得到编码目标蛋白mEGFP的重组载体。该重组载体转化E.coli克隆宿主DH5α后,利用AmpR抗性筛选单克隆,PCR检测呈阳性,并经最终测序确认。得到编码目标蛋白的质粒DNA。质粒图谱如图2所示,包括以下各功能元件:T7启动子、5’UTR、前导肽(leader peptide)的编码序列、8×His(组氨酸标签)、MCS序列(multiple cloning site,MCS,多克隆位点)、 mEGFP的编码序列(SEQ IDNo.:1所示)、3’UTR、LAC4终止子、f1 ori(复制起始位点)、 AmpR启动子、AmpR基因、ori(高拷贝数复制起始位点)、rop基因(控制质粒拷贝数的基因)、lacI启动子、lacI的编码基因等功能元件。
进行DNA扩增。扩增体系各组分的终浓度分别为:1×phi29反应缓冲液(成分包括200mM Tris-HCl,20mM MgCl2,10mM(NH4)2SO4,10mM KCl,pH7.5),0.8 mg/ml牛血清白蛋白(BSA),0.5mM脱氧核苷三磷酸混合物(dNTPs),1.24μM 随机引物,0.004mg/mL phi29 DNA聚合酶,1.14ng/μL上述质粒(pD2P-mEGFP,作为模板)。将上述的反应体系混匀后,放置在室温过夜反应20小时,或者放置在 37℃反应2小时,获得DNA模板。测定260nm处OD值,计算核酸浓度,反应液冷冻或冷藏备用,作为后续实施例中的核酸模板。
1.4.制备细胞提取物
细胞提取物的来源选取酵母细胞,具体为乳酸克鲁维酵母细胞(Kluyveromyceslactis,K.lactis)。
采用基于乳酸克鲁维酵母菌株ATCC8585的改造菌株;采用CN109423496A所记载的方法,将T7 RNA聚合酶的编码基因整合到乳酸克鲁维酵母的基因组中,获得改造菌株,使其可以内源性表达T7 RNA聚合酶;以改造菌株培养出细胞原料,然后制备细胞提取物。
乳酸克鲁维酵母细胞提取物的制备过程采用现有技术手段,参考CN109593656A记载的方法制备。制备步骤概括而言,包括:提供经发酵培养的乳酸克鲁维酵母细胞的适量原料,用液氮将细胞速冻,将细胞打碎,离心收集上清液,即可得到细胞提取物,编号为CMT200325(CVT18)。所得乳酸克鲁维酵母细胞提取物中的蛋白浓度为20 ~40mg/mL。
根据对照实验比较,在不加入任何外源RNA聚合酶的情况下,没有内源性整合T7RNA聚合酶的编码基因的乳酸克鲁维酵母体系,几乎不能进行体外蛋白合成反应;经上述内源性整合改造后,在不加入任何外源RNA聚合酶的情况下可以实现目标蛋白的高效表达,可以作为外源添加方式的替代方式,且能够达到传统体外蛋白合成体系的蛋白合成水平(传统体外蛋白合成体系中,采用未进行T7 RNA聚合酶内源性改造的菌株制备细胞提取物,并在合成体系中添加外源T7 RNA聚合酶)。本发明的密码子优化所得核酸构建物,对于未进行T7 RNA聚合酶内源性改造的菌株的体外蛋白合成体系同样适用,能取得相同或相类似的优化效果。
1.5.体外蛋白合成体系的蛋白合成能力测试
1.5.1.体外无细胞蛋白合成体系(不添加外源RNA聚合酶)
每个体系体积为200μL,在平底的48孔细胞培养板中进行反应。每个样品设置3 个平行样,计算均值和标准偏差(error bar)。
实验组:各组分的终浓度分别为:9.78mM pH8.0三羟甲基氨基甲烷(HCl调节pH值),80mM醋酸钾,24mM磷酸三钾,7mM天门冬氨酸镁,2.1%(w/v)PFG8000, 15mM葡萄糖,320mM麦芽糊精(以葡萄糖单元计算摩尔浓度,质量体积浓度为52 mg/mL),1.8mM核苷三磷酸混合物(腺嘌呤核苷三磷酸、鸟嘌呤核苷三磷酸、胞嘧啶核苷三磷酸和尿嘧啶核苷三磷酸,每种核苷三磷酸的终浓度均为0.45mM),二十种氨基酸混合物(甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、苯丙氨酸、脯氨酸、色氨酸、丝氨酸、酪氨酸、半胱氨酸、蛋氨酸、天冬酰胺、谷氨酰胺、苏氨酸、天冬氨酸、谷氨酸、赖氨酸、精氨酸和组氨酸,每种氨基酸终浓度均为0.035mM),50%~80%(v/v) 乳酸克鲁维酵母细胞提取物。
阴性对照组(Negative control group,NC组):不加DNA模板。
1.5.2.进行体外蛋白合成反应:NC组不添加外源DNA模板;向上述实验组、阳性对照组、空白对照组的每个独立的体外无细胞蛋白合成体系中,分别加入编码 mEGFP的DNA模板(采用实施例1中1.3.体外扩增方法获得,终浓度16.75ng/μL或 11.25ng/μL),混匀后,所有体系均放置在(30℃)中,摇床反应过夜,分别在3h、 20~24h的时间点取样进行荧光蛋白活性测试。
1.5.3.荧光蛋白活性测定:反应结束后,将待测样品立即放置于infinite F200TECAN多功能酶标仪,检测荧光信号强弱,以相对荧光单位值(Relative FluorescenceUnit,RFU)作为活性单位。RFU值的大小能够反映mEGFP蛋白合成量的多少,mEGFP的质量体积浓度C(单位μg/mL)与RFU值之间的换算关系为:
Figure BDA0003152366430000501
在本发明的测试范围内,C与RFU之间基本符合线性关系。
分别对各反应体系的取样进行荧光测试。样品处理:4000转/分钟,4℃离心1分钟。将待测样品放置于infinite F200 TECAN多功能酶标仪,采用的检测波长激发波长/发射波长(Ex/Em):488nm/507nm,测定相对荧光单位值(RFU)。
1.6.实验结果
1.6.1.比较klpi-100实验组(密码子优化度100%)与klpi-0实验组(密码子未优化)
一个实施例中,优化度100%(klpi-100)相对于未优化(优化度0%,klpi-0)的表达序列的蛋白合成测试结果如图3、图4所示。klpi-100、klpi-0的DNA模板分别包括SEQ IDNo.:10、SEQ ID No.:6所示的翻译区核苷酸序列。50%(v/v)lysate、80%(v/v)lysate表示体外蛋白合成体系中使用的细胞提取物的体积用量分别为50%(v/v)。图3中对体外蛋白合成反应(IVTT反应)的测试时间点为3小时和20小时,图4中对体外蛋白合成反应的测试时间点为3小时和21小时。
图3中,细胞提取物的体积用量为50%(v/v)时,进行IVTT反应3小时,klpi-100 实验组的RFU值(3247±54)相比于klpi-0实验组(2074±21)提高56.6%,进行IVTT 反应20小时,klpi-100实验组的RFU值(4311±167)相比于klpi-0实验组(2784±192) 提高54.8%。
图4中,细胞提取物的体积用量为80%(v/v)时,进行IVTT反应3小时,klpi-100 实验组的RFU值(5620±314)相比于klpi-0实验组(3066±143)提高83.3%,进行IVTT 反应20小时,klpi-100实验组的RFU值(6439±422)相比于klpi-0实验组(4282±170) 提高50.4%。
1.6.2.比较不同优化度的表达序列的体外蛋白合成能力
一个实施例中,优化度分别为100%、67%、33%、0%的klpi-100、klpi-67、klpi-33、 klpi-0实验组的IVTT反应测试结果如图5和表10所示,所用的DNA模板分别包括SEQ IDNo.:10、SEQ ID No.:8、SEQ ID No.:7、SEQ ID No.:6所示的翻译区核苷酸序列。其中,1μL、0.67μL对应的DNA模板的终浓度分别为16.75ng/μL、11.25ng/μL。从图中可以看出,按本发明的密码子优化算法进行优化的优化度越高,对体外蛋白合成能力的促进作用越显著。1μL的DNA模板浓度组别中,进行体外蛋白合成反应3小时(图5(A)),klpi-100、klpi-67、 klpi-33组相对于klpi-0组的RFU值分别提高65.3%、38.1%、5.8%,反应20小时后(图5(B)) 分别提高52.1%、44.9%、8.7%。0.67μL的DNA模板浓度组别中,进行体外蛋白合成反应3 小时,klpi-100、klpi-67、klpi-33组相对于klpi-0组的RFU值分别提高69.3%、28.5%、19.2%,反应20小时后分别提高48.5%、34.8%、5.5%。
表10.不同优化度的表达序列的体外蛋白合成测试的RFU值
Figure BDA0003152366430000511
1.6.3.比较不同密码子优化方式(优化度100%、按tRNA拷贝数比例优化、按密码子使用频率优化)的体外蛋白合成能力
一个实施例中,优化度100%(klpi-100)、按tRNA拷贝数比例优化(kl-prop)、按密码子使用频率优化(kl-freq)的体外蛋白合成能力的比较结果如图6和表11所示,所用的DNA模板分别包括SEQ ID No.:10、SEQ ID No.:11、SEQ ID No.:12所示的翻译区核苷酸序列。3h和21h表示进行体外蛋白合成反应的时间分别为3小时、21小时。1μL、0.67μL 对应的DNA模板的终浓度分别为16.75ng/μL、11.25ng/μL。
1μL的DNA模板浓度组别中,进行体外蛋白合成反应3小时,klpi-100、kl-prop组相对于kl-freq组的RFU值分别提高81.6%、35.8%,反应21小时后分别提高79.7%、47.0%。0.67μL的DNA模板浓度组别中,进行体外蛋白合成反应3小时,klpi-100、kl-prop组相对于kl-freq组的RFU值分别提高107.0%、29.9%,反应21小时后分别提高116.9%、40.1%。
表11.不同密码子优化方式的表达序列的体外蛋白合成测试的RFU值
Figure BDA0003152366430000512
1.6.4.比较klpi-ΔG组与klpi-0组的体外蛋白合成能力
一个实施例中,klpi-ΔG组(未优化Gly,平均优化度约90%)与klpi-0组的体外蛋白合成能力测试结果如图7所示。图中3H和20H表示进行体外蛋白合成反应的时间分别为3小时、20小时。klpi-ΔG、klpi-0所用的DNA模板分别包括SEQ ID No.:10、SEQ ID No.:9所示的核苷酸序列。其中,IVTT反应3小时,klpi-ΔG组的RFU值相对于klpi-0组提高约88%,反应20小时提高约52%。
实施例2.比较本发明的密码子构建方法和已知的密码子综合优化算法
2.1.选定翻译区部分的氨基酸序列,采用不同方法构建表达序列,制备DNA模板
翻译区编码融合蛋白antiEGFP-mScarlet。其中,antiEGFP为氨基酸序列如SEQ IDNo.: 13所示的纳米抗体anti-eGFP,分别采用下述OptKM2组、OptNV组的方法确定相应的核苷酸序列。mScarlet是一种明亮的红色荧光蛋白,相应的核苷酸序列如SEQ ID No.:16所示。
OptKM2组:融合蛋白中antiEGFP采用本发明的密码子算法确定核苷酸序列。采用实施例1的构建方法,根据Kluyveromyces lactis NRRL Y-1140的tRNA拷贝数分布情况确定每种氨基酸的最高tRNA拷贝数对应的反密码子、同义密码子,进而确定编码纳米抗体anti-eGFP的核苷酸序列。所有氨基酸均选择最高tRNA拷贝数对应的同义密码子。antiEGFP段的表达序列如SEQ ID No.:14所示。
OptNV组:按照NovoPro公司网站(https://www.novoprolabs.com/)的综合优化算法构建核苷酸序列。antiEGFP段的表达序列如SEQ ID No.:15所示。所用优化算法的输入参数为蛋白序列,优化参数包括密码子使用偏好(Codon usage bias)、5'区优化(5'regionoptimization)、DNA重复序列(DNA repeats)、mRNA二级结构(mRNA secondarystructure)、 GC含量(GC content)、SD序列(SD sequence)和排除特定的限制性酶切位点(Exclude restriction sites specified)。
采用实施例1中1.3.部分的方法分别构建含编码antiEGFP-mScarlet融合蛋白的核苷酸序列的表达载体,并进行体外扩增,获得编码antiEGFP-mScarlet融合蛋白的DNA模板。其中,OptKM2组和OptNV组的DNA模板中,antiEGFP纳米抗体段分别对应SEQ ID No.:14、SEQ ID No.:15所示的核苷酸序列,荧光标记段的核苷酸序列均如SEQ ID No.:16所示。本发明综合术语anti-eGFP和antiEGFP等同,可以替换使用。
2.2.制备细胞提取物
采用实施例1中1.4.部分的方法制备Kluyveromyces lactis NRRL Y-1140的细胞提取物。
2.3.体外蛋白合成体系的蛋白合成能力测试
本实施例的体外无细胞蛋白合成方法中使用的体外蛋白合成体系(IVTT体系)包括以下组分(终浓度):9.78mM的pH8.0三羟甲基氨基甲烷盐酸(Tris-HCl),80mM醋酸钾,5mM醋酸镁,1.8mM核苷三磷酸混合物(腺嘌呤核苷三磷酸、鸟嘌呤核苷三磷酸、胞嘧啶核苷三磷酸和尿嘧啶核苷三磷酸,每种核苷三磷酸的浓度均为1.8mM),0.7 mM的氨基酸混合物(甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、苯丙氨酸、脯氨酸、色氨酸、丝氨酸、酪氨酸、半胱氨酸、蛋氨酸、天冬酰胺、谷氨酰胺、苏氨酸、天冬氨酸、谷氨酸、赖氨酸、精氨酸和组氨酸,每种氨基酸各自浓度均为0.7mM),15mM葡萄糖, 320mM麦芽糊精(以葡萄糖单元计量摩尔浓度,对应约52mg/mL),24mM磷酸三钾, 2%(w/v)聚乙二醇8000,最后加入50%体积的细胞提取物(具体为酵母细胞提取物,更具体地为乳酸克鲁维酵母细胞提取物)。
IVTT反应:向上述体外蛋白合成体系中加入终浓度15ng/μL DNA模板(所编码的蛋白中含有mScarlet荧光标记),进行体外蛋白质合成反应,混匀后放置在25~30℃环境中反应,反应时间为2小时。合成所述DNA模板编码的antiEGFP-mScarlet融合蛋白,得到含有所述antiEGFP-mScarlet融合蛋白的IVTT反应液。采用紫外吸收法测量RFU值,结合其浓度与RFU值的标准曲线,可计算蛋白含量。RFU值的测试条件为:激发波长(Ex) 为569nm,发射波长(Em)为593nm。
阴性对照组(Negative control group,NC组):不加DNA模板。
实验结果如图8所示。采用本发明算法方法构建表达序列的OptKM2组,相比于采用已知的综合算法构建的OptNV组,RFU值提高了39.1%。
上述仅为本发明的部分实施例,本发明并不仅限于上述实施例的内容。应理解,对于本领域中的技术人员来说,在本发明技术方案的构思范围内或指导、启示下,可以有各种变化和更改,所做的任何具有等同技术效果的变化和更改,以及按照本发明构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,均在本发明保护范围之内。
序列表
<110> 康码(上海)生物科技有限公司
<120> 一种用于蛋白质合成的表达序列的构建方法
<130> 2021
<141> 2021-07-07
<160> 16
<170> SIPOSequenceListing 1.0
<210> 1
<211> 238
<212> PRT
<213> 人工序列(artificial sequence)
<400> 1
Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu Val
1 5 10 15
Glu Leu Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Arg Gly Glu
20 25 30
Gly Glu Gly Asp Ala Thr Asn Gly Lys Leu Thr Leu Lys Phe Ile Cys
35 40 45
Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr Leu
50 55 60
Thr Tyr Gly Val Gln Cys Phe Ser Arg Tyr Pro Asp His Met Lys Gln
65 70 75 80
His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val Gln Glu Arg
85 90 95
Thr Ile Ser Phe Lys Asp Asp Gly Thr Tyr Lys Thr Arg Ala Glu Val
100 105 110
Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly Ile
115 120 125
Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly His Lys Leu Glu Tyr Asn
130 135 140
Phe Asn Ser His Asn Val Tyr Ile Thr Ala Asp Lys Gln Lys Asn Gly
145 150 155 160
Ile Lys Ala Asn Phe Lys Ile Arg His Asn Val Glu Asp Gly Ser Val
165 170 175
Gln Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Gly Pro
180 185 190
Val Leu Leu Pro Asp Asn His Tyr Leu Ser Thr Gln Ser Lys Leu Ser
195 200 205
Lys Asp Pro Asn Glu Lys Arg Asp His Met Val Leu Leu Glu Phe Val
210 215 220
Thr Ala Ala Gly Ile Thr Leu Gly Met Asp Glu Leu Tyr Lys
225 230 235
<210> 2
<211> 292
<212> PRT
<213> 人工序列(artificial sequence)
<400> 2
Met Ile Thr Glu Thr Ser Ser Pro Phe Arg Ser Ile Phe Ser His Ser
1 5 10 15
Gly Lys His His His His His His His His Gly Ser Gly Glu Asn Leu
20 25 30
Tyr Phe Gln Gly Ser Arg Asn Glu Phe Gly Ser Gln Phe Glu Leu Arg
35 40 45
Arg Gln Ala Gly Gly Arg Val Ser Lys Gly Glu Glu Leu Phe Thr Gly
50 55 60
Val Val Pro Ile Leu Val Glu Leu Asp Gly Asp Val Asn Gly His Lys
65 70 75 80
Phe Ser Val Arg Gly Glu Gly Glu Gly Asp Ala Thr Asn Gly Lys Leu
85 90 95
Thr Leu Lys Phe Ile Cys Thr Thr Gly Lys Leu Pro Val Pro Trp Pro
100 105 110
Thr Leu Val Thr Thr Leu Thr Tyr Gly Val Gln Cys Phe Ser Arg Tyr
115 120 125
Pro Asp His Met Lys Gln His Asp Phe Phe Lys Ser Ala Met Pro Glu
130 135 140
Gly Tyr Val Gln Glu Arg Thr Ile Ser Phe Lys Asp Asp Gly Thr Tyr
145 150 155 160
Lys Thr Arg Ala Glu Val Lys Phe Glu Gly Asp Thr Leu Val Asn Arg
165 170 175
Ile Glu Leu Lys Gly Ile Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly
180 185 190
His Lys Leu Glu Tyr Asn Phe Asn Ser His Asn Val Tyr Ile Thr Ala
195 200 205
Asp Lys Gln Lys Asn Gly Ile Lys Ala Asn Phe Lys Ile Arg His Asn
210 215 220
Val Glu Asp Gly Ser Val Gln Leu Ala Asp His Tyr Gln Gln Asn Thr
225 230 235 240
Pro Ile Gly Asp Gly Pro Val Leu Leu Pro Asp Asn His Tyr Leu Ser
245 250 255
Thr Gln Ser Lys Leu Ser Lys Asp Pro Asn Glu Lys Arg Asp His Met
260 265 270
Val Leu Leu Glu Phe Val Thr Ala Ala Gly Ile Thr Leu Gly Met Asp
275 280 285
Glu Leu Tyr Lys
290
<210> 3
<211> 17
<212> PRT
<213> 人工序列(artificial sequence)
<400> 3
Ile Thr Glu Thr Ser Ser Pro Phe Arg Ser Ile Phe Ser His Ser Gly
1 5 10 15
Lys
<210> 4
<211> 8
<212> PRT
<213> 人工序列(artificial sequence)
<400> 4
His His His His His His His His
1 5
<210> 5
<211> 28
<212> PRT
<213> 人工序列(artificial sequence)
<400> 5
Gly Ser Gly Glu Asn Leu Tyr Phe Gln Gly Ser Arg Asn Glu Phe Gly
1 5 10 15
Ser Gln Phe Glu Leu Arg Arg Gln Ala Gly Gly Arg
20 25
<210> 6
<211> 879
<212> PRT
<213> 人工序列(artificial sequence)
<400> 6
Ala Thr Gly Ala Thr Thr Ala Cys Ala Gly Ala Ala Ala Cys Ala Thr
1 5 10 15
Cys Ala Thr Cys Ala Cys Cys Gly Thr Thr Cys Ala Gly Ala Thr Cys
20 25 30
Thr Ala Thr Ala Thr Thr Cys Thr Cys Cys Cys Ala Cys Ala Gly Thr
35 40 45
Gly Gly Gly Ala Ala Ala Cys Ala Cys Cys Ala Cys Cys Ala Thr Cys
50 55 60
Ala Cys Cys Ala Cys Cys Ala Cys Cys Ala Thr Cys Ala Cys Gly Gly
65 70 75 80
Gly Ala Gly Cys Gly Gly Cys Gly Ala Gly Ala Ala Cys Thr Thr Ala
85 90 95
Thr Ala Thr Thr Thr Cys Cys Ala Gly Gly Gly Ala Thr Cys Cys Cys
100 105 110
Gly Gly Ala Ala Thr Gly Ala Ala Thr Thr Cys Gly Gly Ala Thr Cys
115 120 125
Thr Cys Ala Ala Thr Thr Cys Gly Ala Gly Cys Thr Cys Cys Gly Thr
130 135 140
Cys Gly Ala Cys Ala Ala Gly Cys Thr Gly Gly Cys Gly Gly Cys Cys
145 150 155 160
Gly Cys Gly Thr Gly Ala Gly Cys Ala Ala Gly Gly Gly Cys Gly Ala
165 170 175
Gly Gly Ala Gly Cys Thr Gly Thr Thr Cys Ala Cys Cys Gly Gly Gly
180 185 190
Gly Thr Gly Gly Thr Gly Cys Cys Cys Ala Thr Cys Cys Thr Gly Gly
195 200 205
Thr Cys Gly Ala Gly Cys Thr Gly Gly Ala Cys Gly Gly Cys Gly Ala
210 215 220
Cys Gly Thr Ala Ala Ala Cys Gly Gly Cys Cys Ala Cys Ala Ala Gly
225 230 235 240
Thr Thr Cys Ala Gly Cys Gly Thr Gly Cys Gly Cys Gly Gly Cys Gly
245 250 255
Ala Gly Gly Gly Cys Gly Ala Gly Gly Gly Cys Gly Ala Thr Gly Cys
260 265 270
Cys Ala Cys Cys Ala Ala Cys Gly Gly Cys Ala Ala Gly Cys Thr Gly
275 280 285
Ala Cys Cys Cys Thr Gly Ala Ala Gly Thr Thr Cys Ala Thr Cys Thr
290 295 300
Gly Cys Ala Cys Cys Ala Cys Cys Gly Gly Cys Ala Ala Gly Cys Thr
305 310 315 320
Gly Cys Cys Cys Gly Thr Gly Cys Cys Cys Thr Gly Gly Cys Cys Cys
325 330 335
Ala Cys Cys Cys Thr Cys Gly Thr Gly Ala Cys Cys Ala Cys Cys Cys
340 345 350
Thr Gly Ala Cys Cys Thr Ala Cys Gly Gly Cys Gly Thr Gly Cys Ala
355 360 365
Gly Thr Gly Cys Thr Thr Cys Ala Gly Cys Cys Gly Cys Thr Ala Cys
370 375 380
Cys Cys Cys Gly Ala Cys Cys Ala Cys Ala Thr Gly Ala Ala Gly Cys
385 390 395 400
Ala Gly Cys Ala Cys Gly Ala Cys Thr Thr Cys Thr Thr Cys Ala Ala
405 410 415
Gly Thr Cys Cys Gly Cys Cys Ala Thr Gly Cys Cys Cys Gly Ala Ala
420 425 430
Gly Gly Cys Thr Ala Cys Gly Thr Cys Cys Ala Gly Gly Ala Gly Cys
435 440 445
Gly Cys Ala Cys Cys Ala Thr Cys Thr Cys Cys Thr Thr Cys Ala Ala
450 455 460
Gly Gly Ala Cys Gly Ala Cys Gly Gly Cys Ala Cys Cys Thr Ala Cys
465 470 475 480
Ala Ala Gly Ala Cys Cys Cys Gly Cys Gly Cys Cys Gly Ala Gly Gly
485 490 495
Thr Gly Ala Ala Gly Thr Thr Cys Gly Ala Gly Gly Gly Cys Gly Ala
500 505 510
Cys Ala Cys Cys Cys Thr Gly Gly Thr Gly Ala Ala Cys Cys Gly Cys
515 520 525
Ala Thr Cys Gly Ala Gly Cys Thr Gly Ala Ala Gly Gly Gly Cys Ala
530 535 540
Thr Cys Gly Ala Cys Thr Thr Cys Ala Ala Gly Gly Ala Gly Gly Ala
545 550 555 560
Cys Gly Gly Cys Ala Ala Cys Ala Thr Cys Cys Thr Gly Gly Gly Gly
565 570 575
Cys Ala Cys Ala Ala Gly Cys Thr Gly Gly Ala Gly Thr Ala Cys Ala
580 585 590
Ala Cys Thr Thr Cys Ala Ala Cys Ala Gly Cys Cys Ala Cys Ala Ala
595 600 605
Cys Gly Thr Cys Thr Ala Thr Ala Thr Cys Ala Cys Gly Gly Cys Cys
610 615 620
Gly Ala Cys Ala Ala Gly Cys Ala Gly Ala Ala Gly Ala Ala Cys Gly
625 630 635 640
Gly Cys Ala Thr Cys Ala Ala Gly Gly Cys Gly Ala Ala Cys Thr Thr
645 650 655
Cys Ala Ala Gly Ala Thr Cys Cys Gly Cys Cys Ala Cys Ala Ala Cys
660 665 670
Gly Thr Cys Gly Ala Gly Gly Ala Cys Gly Gly Cys Ala Gly Cys Gly
675 680 685
Thr Gly Cys Ala Gly Cys Thr Cys Gly Cys Cys Gly Ala Cys Cys Ala
690 695 700
Cys Thr Ala Cys Cys Ala Gly Cys Ala Gly Ala Ala Cys Ala Cys Cys
705 710 715 720
Cys Cys Cys Ala Thr Cys Gly Gly Cys Gly Ala Cys Gly Gly Cys Cys
725 730 735
Cys Cys Gly Thr Gly Cys Thr Gly Cys Thr Gly Cys Cys Cys Gly Ala
740 745 750
Cys Ala Ala Cys Cys Ala Cys Thr Ala Cys Cys Thr Gly Ala Gly Cys
755 760 765
Ala Cys Cys Cys Ala Gly Thr Cys Cys Ala Ala Gly Cys Thr Gly Ala
770 775 780
Gly Cys Ala Ala Ala Gly Ala Cys Cys Cys Cys Ala Ala Cys Gly Ala
785 790 795 800
Gly Ala Ala Gly Cys Gly Cys Gly Ala Thr Cys Ala Cys Ala Thr Gly
805 810 815
Gly Thr Cys Cys Thr Gly Cys Thr Gly Gly Ala Gly Thr Thr Cys Gly
820 825 830
Thr Gly Ala Cys Cys Gly Cys Cys Gly Cys Cys Gly Gly Gly Ala Thr
835 840 845
Cys Ala Cys Thr Cys Thr Cys Gly Gly Cys Ala Thr Gly Gly Ala Cys
850 855 860
Gly Ala Gly Cys Thr Gly Thr Ala Cys Ala Ala Gly Thr Ala Ala
865 870 875
<210> 7
<211> 879
<212> PRT
<213> 人工序列(artificial sequence)
<400> 7
Ala Thr Gly Ala Thr Thr Ala Cys Ala Gly Ala Ala Ala Cys Ala Thr
1 5 10 15
Cys Ala Thr Cys Thr Cys Cys Ala Thr Thr Cys Ala Gly Ala Thr Cys
20 25 30
Thr Ala Thr Thr Thr Thr Cys Thr Cys Cys Cys Ala Cys Ala Gly Thr
35 40 45
Gly Gly Cys Ala Ala Ala Cys Ala Cys Cys Ala Cys Cys Ala Cys Cys
50 55 60
Ala Cys Cys Ala Cys Cys Ala Cys Cys Ala Thr Cys Ala Cys Gly Gly
65 70 75 80
Gly Thr Cys Thr Gly Gly Cys Gly Ala Gly Ala Ala Cys Thr Thr Gly
85 90 95
Thr Ala Thr Thr Thr Cys Cys Ala Ala Gly Gly Ala Thr Cys Cys Cys
100 105 110
Gly Gly Ala Ala Thr Gly Ala Ala Thr Thr Cys Gly Gly Ala Thr Cys
115 120 125
Thr Cys Ala Ala Thr Thr Cys Gly Ala Ala Cys Thr Cys Ala Gly Ala
130 135 140
Cys Gly Ala Cys Ala Ala Gly Cys Thr Gly Gly Cys Gly Gly Cys Cys
145 150 155 160
Gly Cys Gly Thr Thr Thr Cys Thr Ala Ala Gly Gly Gly Cys Gly Ala
165 170 175
Ala Gly Ala Gly Cys Thr Gly Thr Thr Cys Ala Cys Thr Gly Gly Cys
180 185 190
Gly Thr Gly Gly Thr Gly Cys Cys Cys Ala Thr Cys Thr Thr Gly Gly
195 200 205
Thr Thr Gly Ala Gly Cys Thr Gly Gly Ala Cys Gly Gly Cys Gly Ala
210 215 220
Cys Gly Thr Ala Ala Ala Cys Gly Gly Cys Cys Ala Cys Ala Ala Gly
225 230 235 240
Thr Thr Cys Ala Gly Cys Gly Thr Gly Cys Gly Cys Gly Gly Cys Gly
245 250 255
Ala Ala Gly Gly Cys Gly Ala Ala Gly Gly Cys Gly Ala Thr Gly Cys
260 265 270
Cys Ala Cys Cys Ala Ala Cys Gly Gly Cys Ala Ala Gly Thr Thr Gly
275 280 285
Ala Cys Cys Cys Thr Gly Ala Ala Gly Thr Thr Cys Ala Thr Cys Thr
290 295 300
Gly Cys Ala Cys Cys Ala Cys Thr Gly Gly Cys Ala Ala Gly Cys Thr
305 310 315 320
Gly Cys Cys Cys Gly Thr Gly Cys Cys Cys Thr Gly Gly Cys Cys Cys
325 330 335
Ala Cys Cys Cys Thr Cys Gly Thr Gly Ala Cys Thr Ala Cys Cys Cys
340 345 350
Thr Gly Ala Cys Thr Thr Ala Cys Gly Gly Cys Gly Thr Thr Cys Ala
355 360 365
Gly Thr Gly Cys Thr Thr Cys Ala Gly Cys Cys Gly Cys Thr Ala Cys
370 375 380
Cys Cys Cys Gly Ala Cys Cys Ala Cys Ala Thr Gly Ala Ala Gly Cys
385 390 395 400
Ala Gly Cys Ala Cys Gly Ala Cys Thr Thr Cys Thr Thr Cys Ala Ala
405 410 415
Gly Thr Cys Cys Gly Cys Cys Ala Thr Gly Cys Cys Cys Gly Ala Ala
420 425 430
Gly Gly Cys Thr Ala Cys Gly Thr Cys Cys Ala Ala Gly Ala Gly Cys
435 440 445
Gly Cys Ala Cys Cys Ala Thr Thr Thr Cys Cys Thr Thr Cys Ala Ala
450 455 460
Gly Gly Ala Cys Gly Ala Cys Gly Gly Cys Ala Cys Cys Thr Ala Cys
465 470 475 480
Ala Ala Gly Ala Cys Cys Ala Gly Ala Gly Cys Cys Gly Ala Ala Gly
485 490 495
Thr Thr Ala Ala Gly Thr Thr Cys Gly Ala Gly Gly Gly Cys Gly Ala
500 505 510
Cys Ala Cys Thr Cys Thr Gly Gly Thr Gly Ala Ala Cys Cys Gly Cys
515 520 525
Ala Thr Cys Gly Ala Gly Cys Thr Gly Ala Ala Gly Gly Gly Cys Ala
530 535 540
Thr Cys Gly Ala Cys Thr Thr Cys Ala Ala Gly Gly Ala Gly Gly Ala
545 550 555 560
Cys Gly Gly Cys Ala Ala Cys Ala Thr Cys Thr Thr Gly Gly Gly Gly
565 570 575
Cys Ala Cys Ala Ala Gly Cys Thr Gly Gly Ala Gly Thr Ala Cys Ala
580 585 590
Ala Cys Thr Thr Cys Ala Ala Cys Ala Gly Cys Cys Ala Cys Ala Ala
595 600 605
Cys Gly Thr Cys Thr Ala Cys Ala Thr Cys Ala Cys Thr Gly Cys Thr
610 615 620
Gly Ala Cys Ala Ala Gly Cys Ala Gly Ala Ala Gly Ala Ala Cys Gly
625 630 635 640
Gly Cys Ala Thr Thr Ala Ala Gly Gly Cys Thr Ala Ala Cys Thr Thr
645 650 655
Cys Ala Ala Gly Ala Thr Thr Ala Gly Ala Cys Ala Cys Ala Ala Cys
660 665 670
Gly Thr Cys Gly Ala Gly Gly Ala Cys Gly Gly Cys Ala Gly Cys Gly
675 680 685
Thr Thr Cys Ala Gly Cys Thr Cys Gly Cys Cys Gly Ala Cys Cys Ala
690 695 700
Cys Thr Ala Cys Cys Ala Gly Cys Ala Ala Ala Ala Cys Ala Cys Cys
705 710 715 720
Cys Cys Cys Ala Thr Cys Gly Gly Cys Gly Ala Cys Gly Gly Cys Cys
725 730 735
Cys Cys Gly Thr Gly Thr Thr Gly Cys Thr Gly Cys Cys Ala Gly Ala
740 745 750
Cys Ala Ala Cys Cys Ala Cys Thr Ala Cys Cys Thr Gly Thr Cys Thr
755 760 765
Ala Cys Cys Cys Ala Gly Thr Cys Cys Ala Ala Gly Cys Thr Gly Thr
770 775 780
Cys Thr Ala Ala Gly Gly Ala Cys Cys Cys Ala Ala Ala Cys Gly Ala
785 790 795 800
Gly Ala Ala Gly Cys Gly Cys Gly Ala Cys Cys Ala Cys Ala Thr Gly
805 810 815
Gly Thr Cys Thr Thr Gly Thr Thr Gly Gly Ala Gly Thr Thr Cys Gly
820 825 830
Thr Thr Ala Cys Cys Gly Cys Cys Gly Cys Thr Gly Gly Gly Ala Thr
835 840 845
Cys Ala Cys Thr Cys Thr Cys Gly Gly Cys Ala Thr Gly Gly Ala Cys
850 855 860
Gly Ala Gly Thr Thr Gly Thr Ala Cys Ala Ala Gly Thr Ala Ala
865 870 875
<210> 8
<211> 879
<212> PRT
<213> 人工序列(artificial sequence)
<400> 8
Ala Thr Gly Ala Thr Thr Ala Cys Thr Gly Ala Ala Ala Cys Thr Thr
1 5 10 15
Cys Thr Thr Cys Ala Cys Cys Gly Thr Thr Cys Ala Gly Ala Thr Cys
20 25 30
Thr Ala Thr Ala Thr Thr Cys Thr Cys Thr Cys Ala Cys Thr Cys Thr
35 40 45
Gly Gly Gly Ala Ala Gly Cys Ala Cys Cys Ala Cys Cys Ala Thr Cys
50 55 60
Ala Cys Cys Ala Cys Cys Ala Cys Cys Ala Cys Cys Ala Cys Gly Gly
65 70 75 80
Cys Ala Gly Cys Gly Gly Cys Gly Ala Ala Ala Ala Cys Thr Thr Ala
85 90 95
Thr Ala Cys Thr Thr Cys Cys Ala Gly Gly Gly Cys Thr Cys Thr Ala
100 105 110
Gly Ala Ala Ala Cys Gly Ala Ala Thr Thr Cys Gly Gly Cys Thr Cys
115 120 125
Thr Cys Ala Ala Thr Thr Cys Gly Ala Gly Thr Thr Gly Cys Gly Thr
130 135 140
Ala Gly Ala Cys Ala Ala Gly Cys Thr Gly Gly Cys Gly Gly Cys Ala
145 150 155 160
Gly Ala Gly Thr Gly Ala Gly Cys Ala Ala Gly Gly Gly Cys Gly Ala
165 170 175
Gly Gly Ala Ala Thr Thr Gly Thr Thr Cys Ala Cys Cys Gly Gly Gly
180 185 190
Gly Thr Thr Gly Thr Thr Cys Cys Ala Ala Thr Thr Cys Thr Gly Gly
195 200 205
Thr Cys Gly Ala Ala Thr Thr Gly Gly Ala Cys Gly Gly Cys Gly Ala
210 215 220
Cys Gly Thr Thr Ala Ala Cys Gly Gly Cys Cys Ala Cys Ala Ala Gly
225 230 235 240
Thr Thr Cys Thr Cys Thr Gly Thr Thr Ala Gly Ala Gly Gly Cys Gly
245 250 255
Ala Gly Gly Gly Cys Gly Ala Gly Gly Gly Cys Gly Ala Cys Gly Cys
260 265 270
Thr Ala Cys Thr Ala Ala Cys Gly Gly Cys Ala Ala Gly Cys Thr Gly
275 280 285
Ala Cys Thr Thr Thr Gly Ala Ala Gly Thr Thr Cys Ala Thr Thr Thr
290 295 300
Gly Cys Ala Cys Thr Ala Cys Cys Gly Gly Cys Ala Ala Gly Thr Thr
305 310 315 320
Gly Cys Cys Ala Gly Thr Thr Cys Cys Ala Thr Gly Gly Cys Cys Ala
325 330 335
Ala Cys Thr Thr Thr Gly Gly Thr Thr Ala Cys Cys Ala Cys Thr Thr
340 345 350
Thr Gly Ala Cys Cys Thr Ala Cys Gly Gly Cys Gly Thr Gly Cys Ala
355 360 365
Ala Thr Gly Cys Thr Thr Cys Thr Cys Thr Ala Gly Ala Thr Ala Cys
370 375 380
Cys Cys Ala Gly Ala Cys Cys Ala Cys Ala Thr Gly Ala Ala Gly Cys
385 390 395 400
Ala Ala Cys Ala Cys Gly Ala Cys Thr Thr Cys Thr Thr Cys Ala Ala
405 410 415
Gly Thr Cys Thr Gly Cys Thr Ala Thr Gly Cys Cys Ala Gly Ala Ala
420 425 430
Gly Gly Cys Thr Ala Cys Gly Thr Thr Cys Ala Gly Gly Ala Ala Ala
435 440 445
Gly Ala Ala Cys Thr Ala Thr Cys Thr Cys Thr Thr Thr Cys Ala Ala
450 455 460
Gly Gly Ala Cys Gly Ala Cys Gly Gly Cys Ala Cys Thr Thr Ala Cys
465 470 475 480
Ala Ala Gly Ala Cys Thr Cys Gly Cys Gly Cys Thr Gly Ala Gly Gly
485 490 495
Thr Gly Ala Ala Gly Thr Thr Cys Gly Ala Ala Gly Gly Cys Gly Ala
500 505 510
Cys Ala Cys Cys Thr Thr Gly Gly Thr Thr Ala Ala Cys Ala Gly Ala
515 520 525
Ala Thr Thr Gly Ala Ala Thr Thr Gly Ala Ala Gly Gly Gly Cys Ala
530 535 540
Thr Thr Gly Ala Cys Thr Thr Cys Ala Ala Gly Gly Ala Ala Gly Ala
545 550 555 560
Cys Gly Gly Cys Ala Ala Cys Ala Thr Thr Cys Thr Gly Gly Gly Cys
565 570 575
Cys Ala Cys Ala Ala Gly Thr Thr Gly Gly Ala Ala Thr Ala Cys Ala
580 585 590
Ala Cys Thr Thr Cys Ala Ala Cys Thr Cys Thr Cys Ala Cys Ala Ala
595 600 605
Cys Gly Thr Thr Thr Ala Thr Ala Thr Thr Ala Cys Gly Gly Cys Cys
610 615 620
Gly Ala Cys Ala Ala Gly Cys Ala Ala Ala Ala Gly Ala Ala Cys Gly
625 630 635 640
Gly Cys Ala Thr Cys Ala Ala Gly Gly Cys Gly Ala Ala Cys Thr Thr
645 650 655
Cys Ala Ala Gly Ala Thr Cys Cys Gly Cys Cys Ala Cys Ala Ala Cys
660 665 670
Gly Thr Thr Gly Ala Ala Gly Ala Cys Gly Gly Cys Thr Cys Thr Gly
675 680 685
Thr Gly Cys Ala Ala Thr Thr Gly Gly Cys Thr Gly Ala Cys Cys Ala
690 695 700
Cys Thr Ala Cys Cys Ala Ala Cys Ala Gly Ala Ala Cys Ala Cys Thr
705 710 715 720
Cys Cys Ala Ala Thr Thr Gly Gly Cys Gly Ala Cys Gly Gly Cys Cys
725 730 735
Cys Ala Gly Thr Thr Cys Thr Gly Thr Thr Gly Cys Cys Cys Gly Ala
740 745 750
Cys Ala Ala Cys Cys Ala Cys Thr Ala Cys Thr Thr Gly Ala Gly Cys
755 760 765
Ala Cys Thr Cys Ala Ala Thr Cys Cys Ala Ala Gly Thr Thr Gly Ala
770 775 780
Gly Cys Ala Ala Ala Gly Ala Cys Cys Cys Cys Ala Ala Cys Gly Ala
785 790 795 800
Ala Ala Ala Gly Ala Gly Ala Gly Ala Thr Cys Ala Cys Ala Thr Gly
805 810 815
Gly Thr Thr Cys Thr Gly Cys Thr Gly Gly Ala Ala Thr Thr Cys Gly
820 825 830
Thr Gly Ala Cys Thr Gly Cys Thr Gly Cys Cys Gly Gly Cys Ala Thr
835 840 845
Thr Ala Cys Thr Thr Thr Gly Gly Gly Cys Ala Thr Gly Gly Ala Cys
850 855 860
Gly Ala Ala Cys Thr Gly Thr Ala Cys Ala Ala Gly Thr Ala Ala
865 870 875
<210> 9
<211> 879
<212> PRT
<213> 人工序列(artificial sequence)
<400> 9
Ala Thr Gly Ala Thr Thr Ala Cys Thr Gly Ala Ala Ala Cys Thr Thr
1 5 10 15
Cys Thr Thr Cys Thr Cys Cys Ala Thr Thr Cys Ala Gly Ala Thr Cys
20 25 30
Thr Ala Thr Thr Thr Thr Cys Thr Cys Thr Cys Ala Cys Thr Cys Thr
35 40 45
Gly Gly Thr Ala Ala Gly Cys Ala Cys Cys Ala Cys Cys Ala Cys Cys
50 55 60
Ala Cys Cys Ala Cys Cys Ala Cys Cys Ala Cys Cys Ala Cys Gly Gly
65 70 75 80
Thr Thr Cys Thr Gly Gly Thr Gly Ala Ala Ala Ala Cys Thr Thr Gly
85 90 95
Thr Ala Cys Thr Thr Cys Cys Ala Ala Gly Gly Thr Thr Cys Thr Ala
100 105 110
Gly Ala Ala Ala Cys Gly Ala Ala Thr Thr Cys Gly Gly Thr Thr Cys
115 120 125
Thr Cys Ala Ala Thr Thr Cys Gly Ala Ala Thr Thr Gly Ala Gly Ala
130 135 140
Ala Gly Ala Cys Ala Ala Gly Cys Thr Gly Gly Thr Gly Gly Thr Ala
145 150 155 160
Gly Ala Gly Thr Thr Thr Cys Thr Ala Ala Gly Gly Gly Thr Gly Ala
165 170 175
Ala Gly Ala Ala Thr Thr Gly Thr Thr Cys Ala Cys Thr Gly Gly Thr
180 185 190
Gly Thr Thr Gly Thr Thr Cys Cys Ala Ala Thr Thr Thr Thr Gly Gly
195 200 205
Thr Thr Gly Ala Ala Thr Thr Gly Gly Ala Cys Gly Gly Thr Gly Ala
210 215 220
Cys Gly Thr Thr Ala Ala Cys Gly Gly Thr Cys Ala Cys Ala Ala Gly
225 230 235 240
Thr Thr Cys Thr Cys Thr Gly Thr Thr Ala Gly Ala Gly Gly Thr Gly
245 250 255
Ala Ala Gly Gly Thr Gly Ala Ala Gly Gly Thr Gly Ala Cys Gly Cys
260 265 270
Thr Ala Cys Thr Ala Ala Cys Gly Gly Thr Ala Ala Gly Thr Thr Gly
275 280 285
Ala Cys Thr Thr Thr Gly Ala Ala Gly Thr Thr Cys Ala Thr Thr Thr
290 295 300
Gly Cys Ala Cys Thr Ala Cys Thr Gly Gly Thr Ala Ala Gly Thr Thr
305 310 315 320
Gly Cys Cys Ala Gly Thr Thr Cys Cys Ala Thr Gly Gly Cys Cys Ala
325 330 335
Ala Cys Thr Thr Thr Gly Gly Thr Thr Ala Cys Thr Ala Cys Thr Thr
340 345 350
Thr Gly Ala Cys Thr Thr Ala Cys Gly Gly Thr Gly Thr Thr Cys Ala
355 360 365
Ala Thr Gly Cys Thr Thr Cys Thr Cys Thr Ala Gly Ala Thr Ala Cys
370 375 380
Cys Cys Ala Gly Ala Cys Cys Ala Cys Ala Thr Gly Ala Ala Gly Cys
385 390 395 400
Ala Ala Cys Ala Cys Gly Ala Cys Thr Thr Cys Thr Thr Cys Ala Ala
405 410 415
Gly Thr Cys Thr Gly Cys Thr Ala Thr Gly Cys Cys Ala Gly Ala Ala
420 425 430
Gly Gly Thr Thr Ala Cys Gly Thr Thr Cys Ala Ala Gly Ala Ala Ala
435 440 445
Gly Ala Ala Cys Thr Ala Thr Thr Thr Cys Thr Thr Thr Cys Ala Ala
450 455 460
Gly Gly Ala Cys Gly Ala Cys Gly Gly Thr Ala Cys Thr Thr Ala Cys
465 470 475 480
Ala Ala Gly Ala Cys Thr Ala Gly Ala Gly Cys Thr Gly Ala Ala Gly
485 490 495
Thr Thr Ala Ala Gly Thr Thr Cys Gly Ala Ala Gly Gly Thr Gly Ala
500 505 510
Cys Ala Cys Thr Thr Thr Gly Gly Thr Thr Ala Ala Cys Ala Gly Ala
515 520 525
Ala Thr Thr Gly Ala Ala Thr Thr Gly Ala Ala Gly Gly Gly Thr Ala
530 535 540
Thr Thr Gly Ala Cys Thr Thr Cys Ala Ala Gly Gly Ala Ala Gly Ala
545 550 555 560
Cys Gly Gly Thr Ala Ala Cys Ala Thr Thr Thr Thr Gly Gly Gly Thr
565 570 575
Cys Ala Cys Ala Ala Gly Thr Thr Gly Gly Ala Ala Thr Ala Cys Ala
580 585 590
Ala Cys Thr Thr Cys Ala Ala Cys Thr Cys Thr Cys Ala Cys Ala Ala
595 600 605
Cys Gly Thr Thr Thr Ala Cys Ala Thr Thr Ala Cys Thr Gly Cys Thr
610 615 620
Gly Ala Cys Ala Ala Gly Cys Ala Ala Ala Ala Gly Ala Ala Cys Gly
625 630 635 640
Gly Thr Ala Thr Thr Ala Ala Gly Gly Cys Thr Ala Ala Cys Thr Thr
645 650 655
Cys Ala Ala Gly Ala Thr Thr Ala Gly Ala Cys Ala Cys Ala Ala Cys
660 665 670
Gly Thr Thr Gly Ala Ala Gly Ala Cys Gly Gly Thr Thr Cys Thr Gly
675 680 685
Thr Thr Cys Ala Ala Thr Thr Gly Gly Cys Thr Gly Ala Cys Cys Ala
690 695 700
Cys Thr Ala Cys Cys Ala Ala Cys Ala Ala Ala Ala Cys Ala Cys Thr
705 710 715 720
Cys Cys Ala Ala Thr Thr Gly Gly Thr Gly Ala Cys Gly Gly Thr Cys
725 730 735
Cys Ala Gly Thr Thr Thr Thr Gly Thr Thr Gly Cys Cys Ala Gly Ala
740 745 750
Cys Ala Ala Cys Cys Ala Cys Thr Ala Cys Thr Thr Gly Thr Cys Thr
755 760 765
Ala Cys Thr Cys Ala Ala Thr Cys Thr Ala Ala Gly Thr Thr Gly Thr
770 775 780
Cys Thr Ala Ala Gly Gly Ala Cys Cys Cys Ala Ala Ala Cys Gly Ala
785 790 795 800
Ala Ala Ala Gly Ala Gly Ala Gly Ala Cys Cys Ala Cys Ala Thr Gly
805 810 815
Gly Thr Thr Thr Thr Gly Thr Thr Gly Gly Ala Ala Thr Thr Cys Gly
820 825 830
Thr Thr Ala Cys Thr Gly Cys Thr Gly Cys Thr Gly Gly Thr Ala Thr
835 840 845
Thr Ala Cys Thr Thr Thr Gly Gly Gly Thr Ala Thr Gly Gly Ala Cys
850 855 860
Gly Ala Ala Thr Thr Gly Thr Ala Cys Ala Ala Gly Thr Ala Ala
865 870 875
<210> 10
<211> 879
<212> PRT
<213> 人工序列(artificial sequence)
<400> 10
Ala Thr Gly Ala Thr Thr Ala Cys Thr Gly Ala Ala Ala Cys Thr Thr
1 5 10 15
Cys Thr Thr Cys Thr Cys Cys Ala Thr Thr Cys Ala Gly Ala Thr Cys
20 25 30
Thr Ala Thr Thr Thr Thr Cys Thr Cys Thr Cys Ala Cys Thr Cys Thr
35 40 45
Gly Gly Cys Ala Ala Gly Cys Ala Cys Cys Ala Cys Cys Ala Cys Cys
50 55 60
Ala Cys Cys Ala Cys Cys Ala Cys Cys Ala Cys Cys Ala Cys Gly Gly
65 70 75 80
Cys Thr Cys Thr Gly Gly Cys Gly Ala Ala Ala Ala Cys Thr Thr Gly
85 90 95
Thr Ala Cys Thr Thr Cys Cys Ala Ala Gly Gly Cys Thr Cys Thr Ala
100 105 110
Gly Ala Ala Ala Cys Gly Ala Ala Thr Thr Cys Gly Gly Cys Thr Cys
115 120 125
Thr Cys Ala Ala Thr Thr Cys Gly Ala Ala Thr Thr Gly Ala Gly Ala
130 135 140
Ala Gly Ala Cys Ala Ala Gly Cys Thr Gly Gly Cys Gly Gly Cys Ala
145 150 155 160
Gly Ala Gly Thr Thr Thr Cys Thr Ala Ala Gly Gly Gly Cys Gly Ala
165 170 175
Ala Gly Ala Ala Thr Thr Gly Thr Thr Cys Ala Cys Thr Gly Gly Cys
180 185 190
Gly Thr Thr Gly Thr Thr Cys Cys Ala Ala Thr Thr Thr Thr Gly Gly
195 200 205
Thr Thr Gly Ala Ala Thr Thr Gly Gly Ala Cys Gly Gly Cys Gly Ala
210 215 220
Cys Gly Thr Thr Ala Ala Cys Gly Gly Cys Cys Ala Cys Ala Ala Gly
225 230 235 240
Thr Thr Cys Thr Cys Thr Gly Thr Thr Ala Gly Ala Gly Gly Cys Gly
245 250 255
Ala Ala Gly Gly Cys Gly Ala Ala Gly Gly Cys Gly Ala Cys Gly Cys
260 265 270
Thr Ala Cys Thr Ala Ala Cys Gly Gly Cys Ala Ala Gly Thr Thr Gly
275 280 285
Ala Cys Thr Thr Thr Gly Ala Ala Gly Thr Thr Cys Ala Thr Thr Thr
290 295 300
Gly Cys Ala Cys Thr Ala Cys Thr Gly Gly Cys Ala Ala Gly Thr Thr
305 310 315 320
Gly Cys Cys Ala Gly Thr Thr Cys Cys Ala Thr Gly Gly Cys Cys Ala
325 330 335
Ala Cys Thr Thr Thr Gly Gly Thr Thr Ala Cys Thr Ala Cys Thr Thr
340 345 350
Thr Gly Ala Cys Thr Thr Ala Cys Gly Gly Cys Gly Thr Thr Cys Ala
355 360 365
Ala Thr Gly Cys Thr Thr Cys Thr Cys Thr Ala Gly Ala Thr Ala Cys
370 375 380
Cys Cys Ala Gly Ala Cys Cys Ala Cys Ala Thr Gly Ala Ala Gly Cys
385 390 395 400
Ala Ala Cys Ala Cys Gly Ala Cys Thr Thr Cys Thr Thr Cys Ala Ala
405 410 415
Gly Thr Cys Thr Gly Cys Thr Ala Thr Gly Cys Cys Ala Gly Ala Ala
420 425 430
Gly Gly Cys Thr Ala Cys Gly Thr Thr Cys Ala Ala Gly Ala Ala Ala
435 440 445
Gly Ala Ala Cys Thr Ala Thr Thr Thr Cys Thr Thr Thr Cys Ala Ala
450 455 460
Gly Gly Ala Cys Gly Ala Cys Gly Gly Cys Ala Cys Thr Thr Ala Cys
465 470 475 480
Ala Ala Gly Ala Cys Thr Ala Gly Ala Gly Cys Thr Gly Ala Ala Gly
485 490 495
Thr Thr Ala Ala Gly Thr Thr Cys Gly Ala Ala Gly Gly Cys Gly Ala
500 505 510
Cys Ala Cys Thr Thr Thr Gly Gly Thr Thr Ala Ala Cys Ala Gly Ala
515 520 525
Ala Thr Thr Gly Ala Ala Thr Thr Gly Ala Ala Gly Gly Gly Cys Ala
530 535 540
Thr Thr Gly Ala Cys Thr Thr Cys Ala Ala Gly Gly Ala Ala Gly Ala
545 550 555 560
Cys Gly Gly Cys Ala Ala Cys Ala Thr Thr Thr Thr Gly Gly Gly Cys
565 570 575
Cys Ala Cys Ala Ala Gly Thr Thr Gly Gly Ala Ala Thr Ala Cys Ala
580 585 590
Ala Cys Thr Thr Cys Ala Ala Cys Thr Cys Thr Cys Ala Cys Ala Ala
595 600 605
Cys Gly Thr Thr Thr Ala Cys Ala Thr Thr Ala Cys Thr Gly Cys Thr
610 615 620
Gly Ala Cys Ala Ala Gly Cys Ala Ala Ala Ala Gly Ala Ala Cys Gly
625 630 635 640
Gly Cys Ala Thr Thr Ala Ala Gly Gly Cys Thr Ala Ala Cys Thr Thr
645 650 655
Cys Ala Ala Gly Ala Thr Thr Ala Gly Ala Cys Ala Cys Ala Ala Cys
660 665 670
Gly Thr Thr Gly Ala Ala Gly Ala Cys Gly Gly Cys Thr Cys Thr Gly
675 680 685
Thr Thr Cys Ala Ala Thr Thr Gly Gly Cys Thr Gly Ala Cys Cys Ala
690 695 700
Cys Thr Ala Cys Cys Ala Ala Cys Ala Ala Ala Ala Cys Ala Cys Thr
705 710 715 720
Cys Cys Ala Ala Thr Thr Gly Gly Cys Gly Ala Cys Gly Gly Cys Cys
725 730 735
Cys Ala Gly Thr Thr Thr Thr Gly Thr Thr Gly Cys Cys Ala Gly Ala
740 745 750
Cys Ala Ala Cys Cys Ala Cys Thr Ala Cys Thr Thr Gly Thr Cys Thr
755 760 765
Ala Cys Thr Cys Ala Ala Thr Cys Thr Ala Ala Gly Thr Thr Gly Thr
770 775 780
Cys Thr Ala Ala Gly Gly Ala Cys Cys Cys Ala Ala Ala Cys Gly Ala
785 790 795 800
Ala Ala Ala Gly Ala Gly Ala Gly Ala Cys Cys Ala Cys Ala Thr Gly
805 810 815
Gly Thr Thr Thr Thr Gly Thr Thr Gly Gly Ala Ala Thr Thr Cys Gly
820 825 830
Thr Thr Ala Cys Thr Gly Cys Thr Gly Cys Thr Gly Gly Cys Ala Thr
835 840 845
Thr Ala Cys Thr Thr Thr Gly Gly Gly Cys Ala Thr Gly Gly Ala Cys
850 855 860
Gly Ala Ala Thr Thr Gly Thr Ala Cys Ala Ala Gly Thr Ala Ala
865 870 875
<210> 11
<211> 879
<212> PRT
<213> 人工序列(artificial sequence)
<400> 11
Ala Thr Gly Ala Thr Thr Ala Cys Thr Gly Ala Ala Ala Cys Thr Thr
1 5 10 15
Cys Thr Thr Cys Thr Cys Cys Ala Thr Thr Cys Ala Gly Ala Thr Cys
20 25 30
Thr Ala Thr Thr Thr Thr Cys Thr Cys Thr Cys Ala Cys Thr Cys Thr
35 40 45
Gly Gly Cys Ala Ala Gly Cys Ala Cys Cys Ala Cys Cys Ala Cys Cys
50 55 60
Ala Cys Cys Ala Cys Cys Ala Cys Cys Ala Cys Cys Ala Cys Gly Gly
65 70 75 80
Cys Thr Cys Ala Gly Gly Cys Gly Ala Ala Ala Ala Cys Thr Thr Gly
85 90 95
Thr Ala Cys Thr Thr Cys Cys Ala Ala Gly Gly Cys Ala Gly Cys Ala
100 105 110
Gly Ala Ala Ala Cys Gly Ala Ala Thr Thr Cys Gly Gly Cys Thr Cys
115 120 125
Thr Cys Ala Ala Thr Thr Cys Gly Ala Ala Thr Thr Gly Ala Gly Ala
130 135 140
Ala Gly Ala Cys Ala Ala Gly Cys Thr Gly Gly Cys Gly Gly Ala Ala
145 150 155 160
Gly Ala Gly Thr Thr Thr Cys Ala Ala Ala Gly Gly Gly Cys Gly Ala
165 170 175
Ala Gly Ala Ala Thr Thr Gly Thr Thr Cys Ala Cys Thr Gly Gly Ala
180 185 190
Gly Thr Thr Gly Thr Thr Cys Cys Ala Ala Thr Thr Thr Thr Gly Gly
195 200 205
Thr Thr Gly Ala Ala Thr Thr Gly Gly Ala Cys Gly Gly Gly Gly Ala
210 215 220
Cys Gly Thr Thr Ala Ala Cys Gly Gly Cys Cys Ala Cys Ala Ala Gly
225 230 235 240
Thr Thr Cys Ala Gly Cys Gly Thr Thr Cys Gly Thr Gly Gly Cys Gly
245 250 255
Ala Gly Gly Gly Cys Gly Ala Ala Gly Gly Cys Gly Ala Cys Gly Cys
260 265 270
Thr Ala Cys Thr Ala Ala Cys Gly Gly Cys Ala Ala Gly Thr Thr Ala
275 280 285
Ala Cys Thr Cys Thr Ala Ala Ala Gly Thr Thr Cys Ala Thr Thr Thr
290 295 300
Gly Cys Ala Cys Ala Ala Cys Thr Gly Gly Cys Ala Ala Gly Thr Thr
305 310 315 320
Gly Cys Cys Ala Gly Thr Gly Cys Cys Ala Thr Gly Gly Cys Cys Ala
325 330 335
Ala Cys Ala Thr Thr Ala Gly Thr Thr Ala Cys Gly Ala Cys Thr Cys
340 345 350
Thr Ala Ala Cys Thr Thr Ala Cys Gly Gly Ala Gly Thr Gly Cys Ala
355 360 365
Ala Thr Gly Cys Thr Thr Cys Thr Cys Gly Ala Gly Ala Thr Ala Cys
370 375 380
Cys Cys Ala Gly Ala Cys Cys Ala Cys Ala Thr Gly Ala Ala Ala Cys
385 390 395 400
Ala Ala Cys Ala Cys Gly Ala Cys Thr Thr Cys Thr Thr Cys Ala Ala
405 410 415
Gly Thr Cys Thr Gly Cys Thr Ala Thr Gly Cys Cys Ala Gly Ala Gly
420 425 430
Gly Gly Cys Thr Ala Cys Gly Thr Ala Cys Ala Ala Gly Ala Ala Cys
435 440 445
Gly Thr Ala Cys Thr Ala Thr Thr Thr Cys Thr Thr Thr Cys Ala Ala
450 455 460
Ala Gly Ala Cys Gly Ala Cys Gly Gly Ala Ala Cys Thr Thr Ala Cys
465 470 475 480
Ala Ala Gly Ala Cys Thr Ala Gly Ala Gly Cys Thr Gly Ala Ala Gly
485 490 495
Thr Thr Ala Ala Ala Thr Thr Cys Gly Ala Ala Gly Gly Gly Gly Ala
500 505 510
Cys Ala Cys Ala Thr Thr Gly Gly Thr Thr Ala Ala Cys Cys Gly Thr
515 520 525
Ala Thr Thr Gly Ala Ala Thr Thr Ala Ala Ala Gly Gly Gly Cys Ala
530 535 540
Thr Thr Gly Ala Cys Thr Thr Cys Ala Ala Ala Gly Ala Ala Gly Ala
545 550 555 560
Cys Gly Gly Cys Ala Ala Cys Ala Thr Ala Cys Thr Ala Gly Gly Cys
565 570 575
Cys Ala Cys Ala Ala Gly Cys Thr Cys Gly Ala Ala Thr Ala Cys Ala
580 585 590
Ala Cys Thr Thr Cys Ala Ala Cys Thr Cys Thr Cys Ala Cys Ala Ala
595 600 605
Cys Gly Thr Thr Thr Ala Cys Ala Thr Thr Ala Cys Thr Gly Cys Thr
610 615 620
Gly Ala Cys Ala Ala Gly Cys Ala Gly Ala Ala Gly Ala Ala Cys Gly
625 630 635 640
Gly Cys Ala Thr Thr Ala Ala Gly Gly Cys Ala Ala Ala Cys Thr Thr
645 650 655
Cys Ala Ala Gly Ala Thr Thr Cys Gly Gly Cys Ala Cys Ala Ala Cys
660 665 670
Gly Thr Thr Gly Ala Ala Gly Ala Cys Gly Gly Cys Thr Cys Thr Gly
675 680 685
Thr Thr Cys Ala Ala Cys Thr Gly Gly Cys Thr Gly Ala Cys Cys Ala
690 695 700
Cys Thr Ala Cys Cys Ala Ala Cys Ala Ala Ala Ala Cys Ala Cys Ala
705 710 715 720
Cys Cys Thr Ala Thr Thr Gly Gly Cys Gly Ala Cys Gly Gly Ala Cys
725 730 735
Cys Ala Gly Thr Thr Thr Thr Gly Thr Thr Gly Cys Cys Ala Gly Ala
740 745 750
Cys Ala Ala Cys Cys Ala Cys Thr Ala Cys Thr Thr Gly Thr Cys Thr
755 760 765
Ala Cys Gly Cys Ala Ala Thr Cys Ala Ala Ala Gly Thr Thr Gly Ala
770 775 780
Gly Cys Ala Ala Ala Gly Ala Cys Cys Cys Ala Ala Ala Cys Gly Ala
785 790 795 800
Gly Ala Ala Gly Ala Gly Gly Gly Ala Cys Cys Ala Cys Ala Thr Gly
805 810 815
Gly Thr Gly Thr Thr Gly Thr Thr Ala Gly Ala Ala Thr Thr Cys Gly
820 825 830
Thr Thr Ala Cys Thr Gly Cys Ala Gly Cys Thr Gly Gly Cys Ala Thr
835 840 845
Thr Ala Cys Ala Cys Thr Ala Gly Gly Ala Ala Thr Gly Gly Ala Cys
850 855 860
Gly Ala Gly Thr Thr Gly Thr Ala Cys Ala Ala Ala Thr Ala Ala
865 870 875
<210> 12
<211> 879
<212> PRT
<213> 人工序列(artificial sequence)
<400> 12
Ala Thr Gly Ala Thr Thr Ala Cys Thr Gly Ala Ala Ala Cys Thr Thr
1 5 10 15
Cys Thr Thr Cys Ala Cys Cys Thr Thr Thr Thr Ala Gly Ala Thr Cys
20 25 30
Thr Ala Thr Thr Thr Thr Cys Thr Cys Thr Cys Ala Thr Thr Cys Thr
35 40 45
Gly Gly Thr Ala Ala Ala Cys Ala Thr Cys Ala Thr Cys Ala Thr Cys
50 55 60
Ala Cys Cys Ala Thr Cys Ala Thr Cys Ala Thr Cys Ala Thr Gly Gly
65 70 75 80
Thr Thr Cys Thr Gly Gly Thr Gly Ala Ala Ala Ala Thr Thr Thr Gly
85 90 95
Thr Ala Thr Thr Thr Cys Cys Ala Ala Gly Gly Thr Thr Cys Thr Ala
100 105 110
Gly Ala Ala Ala Thr Gly Ala Ala Thr Thr Thr Gly Gly Thr Thr Cys
115 120 125
Cys Cys Ala Ala Thr Thr Cys Gly Ala Ala Thr Thr Gly Ala Gly Ala
130 135 140
Ala Gly Ala Cys Ala Ala Gly Cys Thr Gly Gly Thr Gly Gly Thr Ala
145 150 155 160
Gly Ala Gly Thr Thr Thr Cys Thr Ala Ala Ala Gly Gly Thr Gly Ala
165 170 175
Ala Gly Ala Ala Thr Thr Gly Thr Thr Cys Ala Cys Thr Gly Gly Ala
180 185 190
Gly Thr Thr Gly Thr Thr Cys Cys Ala Ala Thr Thr Thr Thr Ala Gly
195 200 205
Thr Thr Gly Ala Ala Thr Thr Ala Gly Ala Thr Gly Gly Thr Gly Ala
210 215 220
Cys Gly Thr Thr Ala Ala Thr Gly Gly Thr Cys Ala Thr Ala Ala Gly
225 230 235 240
Thr Thr Cys Thr Cys Thr Gly Thr Thr Ala Gly Ala Gly Gly Thr Gly
245 250 255
Ala Ala Gly Gly Thr Gly Ala Ala Gly Gly Thr Gly Ala Cys Gly Cys
260 265 270
Ala Ala Cys Thr Ala Ala Thr Gly Gly Thr Ala Ala Ala Thr Thr Ala
275 280 285
Ala Cys Thr Thr Thr Gly Ala Ala Gly Thr Thr Cys Ala Thr Thr Thr
290 295 300
Gly Thr Ala Cys Thr Ala Cys Thr Gly Gly Thr Ala Ala Ala Thr Thr
305 310 315 320
Gly Cys Cys Thr Gly Thr Thr Cys Cys Ala Thr Gly Gly Cys Cys Ala
325 330 335
Ala Cys Thr Cys Thr Ala Gly Thr Thr Ala Cys Thr Ala Cys Thr Thr
340 345 350
Thr Gly Ala Cys Thr Thr Ala Thr Gly Gly Thr Gly Thr Thr Cys Ala
355 360 365
Ala Thr Gly Thr Thr Thr Cys Thr Cys Thr Ala Gly Ala Thr Ala Thr
370 375 380
Cys Cys Thr Gly Ala Thr Cys Ala Thr Ala Thr Gly Ala Ala Ala Cys
385 390 395 400
Ala Ala Cys Ala Thr Gly Ala Thr Thr Thr Cys Thr Thr Thr Ala Ala
405 410 415
Ala Thr Cys Thr Gly Cys Ala Ala Thr Gly Cys Cys Thr Gly Ala Ala
420 425 430
Gly Gly Thr Thr Ala Thr Gly Thr Thr Cys Ala Ala Gly Ala Ala Ala
435 440 445
Gly Ala Ala Cys Thr Ala Thr Thr Thr Cys Thr Thr Thr Cys Ala Ala
450 455 460
Gly Gly Ala Thr Gly Ala Thr Gly Gly Thr Ala Cys Thr Thr Ala Thr
465 470 475 480
Ala Ala Ala Ala Cys Thr Ala Gly Ala Gly Cys Thr Gly Ala Ala Gly
485 490 495
Thr Thr Ala Ala Ala Thr Thr Thr Gly Ala Ala Gly Gly Ala Gly Ala
500 505 510
Thr Ala Cys Ala Thr Thr Ala Gly Thr Thr Ala Ala Thr Ala Gly Ala
515 520 525
Ala Thr Thr Gly Ala Ala Thr Thr Gly Ala Ala Ala Gly Gly Thr Ala
530 535 540
Thr Thr Gly Ala Thr Thr Thr Cys Ala Ala Gly Gly Ala Ala Gly Ala
545 550 555 560
Thr Gly Gly Thr Ala Ala Cys Ala Thr Thr Thr Thr Ala Gly Gly Thr
565 570 575
Cys Ala Thr Ala Ala Ala Thr Thr Ala Gly Ala Ala Thr Ala Thr Ala
580 585 590
Ala Thr Thr Thr Cys Ala Ala Thr Thr Cys Ala Cys Ala Thr Ala Ala
595 600 605
Thr Gly Thr Thr Thr Ala Thr Ala Thr Thr Ala Cys Thr Gly Cys Thr
610 615 620
Gly Ala Thr Ala Ala Ala Cys Ala Ala Ala Ala Gly Ala Ala Thr Gly
625 630 635 640
Gly Thr Ala Thr Thr Ala Ala Gly Gly Cys Ala Ala Ala Thr Thr Thr
645 650 655
Cys Ala Ala Ala Ala Thr Cys Ala Gly Ala Cys Ala Thr Ala Ala Thr
660 665 670
Gly Thr Thr Gly Ala Ala Gly Ala Thr Gly Gly Thr Thr Cys Ala Gly
675 680 685
Thr Thr Cys Ala Ala Thr Thr Gly Gly Cys Thr Gly Ala Thr Cys Ala
690 695 700
Thr Thr Ala Thr Cys Ala Ala Cys Ala Ala Ala Ala Thr Ala Cys Thr
705 710 715 720
Cys Cys Ala Ala Thr Thr Gly Gly Thr Gly Ala Cys Gly Gly Thr Cys
725 730 735
Cys Ala Gly Thr Ala Thr Thr Gly Thr Thr Ala Cys Cys Ala Gly Ala
740 745 750
Thr Ala Ala Thr Cys Ala Thr Thr Ala Thr Thr Thr Gly Thr Cys Thr
755 760 765
Ala Cys Thr Cys Ala Ala Thr Cys Thr Ala Ala Ala Thr Thr Gly Thr
770 775 780
Cys Thr Ala Ala Ala Gly Ala Thr Cys Cys Ala Ala Ala Thr Gly Ala
785 790 795 800
Ala Ala Ala Ala Ala Gly Ala Gly Ala Thr Cys Ala Thr Ala Thr Gly
805 810 815
Gly Thr Thr Thr Thr Gly Thr Thr Ala Gly Ala Ala Thr Thr Cys Gly
820 825 830
Thr Thr Ala Cys Ala Gly Cys Thr Gly Cys Thr Gly Gly Thr Ala Thr
835 840 845
Thr Ala Cys Thr Thr Thr Gly Gly Gly Thr Ala Thr Gly Gly Ala Thr
850 855 860
Gly Ala Ala Thr Thr Gly Thr Ala Thr Ala Ala Ala Thr Ala Ala
865 870 875
<210> 13
<211> 117
<212> PRT
<213> 人工序列(artificial sequence)
<400> 13
Met Ala Gln Val Gln Leu Val Glu Ser Gly Gly Ala Leu Val Gln Pro
1 5 10 15
Gly Gly Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Pro Val Asn
20 25 30
Arg Tyr Ser Met Arg Trp Tyr Arg Gln Ala Pro Gly Lys Glu Arg Glu
35 40 45
Trp Val Ala Gly Met Ser Ser Ala Gly Asp Arg Ser Ser Tyr Glu Asp
50 55 60
Ser Val Lys Gly Arg Phe Thr Ile Ser Arg Asp Asp Ala Arg Asn Thr
65 70 75 80
Val Tyr Leu Gln Met Asn Ser Leu Lys Pro Glu Asp Thr Ala Val Tyr
85 90 95
Tyr Cys Asn Val Asn Val Gly Phe Glu Tyr Trp Gly Gln Gly Thr Gln
100 105 110
Val Thr Val Ser Ser
115
<210> 14
<211> 351
<212> PRT
<213> 人工序列(artificial sequence)
<400> 14
Ala Thr Gly Gly Cys Thr Cys Ala Ala Gly Thr Thr Cys Ala Ala Thr
1 5 10 15
Thr Gly Gly Thr Thr Gly Ala Ala Thr Cys Thr Gly Gly Cys Gly Gly
20 25 30
Cys Gly Cys Thr Thr Thr Gly Gly Thr Thr Cys Ala Ala Cys Cys Ala
35 40 45
Gly Gly Cys Gly Gly Cys Thr Cys Thr Thr Thr Gly Ala Gly Ala Thr
50 55 60
Thr Gly Thr Cys Thr Thr Gly Cys Gly Cys Thr Gly Cys Thr Thr Cys
65 70 75 80
Thr Gly Gly Cys Thr Thr Cys Cys Cys Ala Gly Thr Thr Ala Ala Cys
85 90 95
Ala Gly Ala Thr Ala Cys Thr Cys Thr Ala Thr Gly Ala Gly Ala Thr
100 105 110
Gly Gly Thr Ala Cys Ala Gly Ala Cys Ala Ala Gly Cys Thr Cys Cys
115 120 125
Ala Gly Gly Cys Ala Ala Gly Gly Ala Ala Ala Gly Ala Gly Ala Ala
130 135 140
Thr Gly Gly Gly Thr Thr Gly Cys Thr Gly Gly Cys Ala Thr Gly Thr
145 150 155 160
Cys Thr Thr Cys Thr Gly Cys Thr Gly Gly Cys Gly Ala Cys Ala Gly
165 170 175
Ala Thr Cys Thr Thr Cys Thr Thr Ala Cys Gly Ala Ala Gly Ala Cys
180 185 190
Thr Cys Thr Gly Thr Thr Ala Ala Gly Gly Gly Cys Ala Gly Ala Thr
195 200 205
Thr Cys Ala Cys Thr Ala Thr Thr Thr Cys Thr Ala Gly Ala Gly Ala
210 215 220
Cys Gly Ala Cys Gly Cys Thr Ala Gly Ala Ala Ala Cys Ala Cys Thr
225 230 235 240
Gly Thr Thr Thr Ala Cys Thr Thr Gly Cys Ala Ala Ala Thr Gly Ala
245 250 255
Ala Cys Thr Cys Thr Thr Thr Gly Ala Ala Gly Cys Cys Ala Gly Ala
260 265 270
Ala Gly Ala Cys Ala Cys Thr Gly Cys Thr Gly Thr Thr Thr Ala Cys
275 280 285
Thr Ala Cys Thr Gly Cys Ala Ala Cys Gly Thr Thr Ala Ala Cys Gly
290 295 300
Thr Thr Gly Gly Cys Thr Thr Cys Gly Ala Ala Thr Ala Cys Thr Gly
305 310 315 320
Gly Gly Gly Cys Cys Ala Ala Gly Gly Cys Ala Cys Thr Cys Ala Ala
325 330 335
Gly Thr Thr Ala Cys Thr Gly Thr Thr Thr Cys Thr Thr Cys Thr
340 345 350
<210> 15
<211> 351
<212> PRT
<213> 人工序列(artificial sequence)
<400> 15
Ala Thr Gly Gly Cys Thr Cys Ala Ala Gly Thr Thr Cys Ala Gly Cys
1 5 10 15
Thr Ala Gly Thr Gly Gly Ala Ala Ala Gly Thr Gly Gly Gly Gly Gly
20 25 30
Cys Gly Cys Thr Cys Thr Ala Gly Thr Thr Cys Ala Ala Cys Cys Gly
35 40 45
Gly Gly Thr Gly Gly Thr Thr Cys Ala Thr Thr Ala Cys Gly Thr Thr
50 55 60
Thr Ala Thr Cys Cys Thr Gly Cys Gly Cys Ala Gly Cys Thr Thr Cys
65 70 75 80
Thr Gly Gly Thr Thr Thr Cys Cys Cys Gly Gly Thr Cys Ala Ala Cys
85 90 95
Ala Gly Gly Thr Ala Thr Ala Gly Cys Ala Thr Gly Ala Gly Ala Thr
100 105 110
Gly Gly Thr Ala Thr Ala Gly Ala Cys Ala Ala Gly Cys Thr Cys Cys
115 120 125
Gly Gly Gly Thr Ala Ala Gly Gly Ala Ala Ala Gly Ala Gly Ala Ala
130 135 140
Thr Gly Gly Gly Thr Ala Gly Cys Ala Gly Gly Thr Ala Thr Gly Ala
145 150 155 160
Gly Cys Ala Gly Cys Gly Cys Ala Gly Gly Thr Gly Ala Thr Ala Gly
165 170 175
Ala Thr Cys Cys Thr Cys Thr Thr Ala Thr Gly Ala Ala Gly Ala Thr
180 185 190
Thr Cys Cys Gly Thr Thr Ala Ala Gly Gly Gly Ala Ala Gly Ala Thr
195 200 205
Thr Thr Ala Cys Thr Ala Thr Thr Ala Gly Thr Cys Gly Thr Gly Ala
210 215 220
Thr Gly Ala Cys Gly Cys Gly Ala Gly Gly Ala Ala Thr Ala Cys Thr
225 230 235 240
Gly Thr Cys Thr Ala Thr Thr Thr Gly Cys Ala Ala Ala Thr Gly Ala
245 250 255
Ala Cys Thr Cys Thr Thr Thr Gly Ala Ala Ala Cys Cys Thr Gly Ala
260 265 270
Ala Gly Ala Thr Ala Cys Ala Gly Cys Gly Gly Thr Cys Thr Ala Thr
275 280 285
Thr Ala Cys Thr Gly Thr Ala Ala Thr Gly Thr Ala Ala Ala Thr Gly
290 295 300
Thr Thr Gly Gly Gly Thr Thr Thr Gly Ala Ala Thr Ala Thr Thr Gly
305 310 315 320
Gly Gly Gly Thr Cys Ala Gly Gly Gly Thr Ala Cys Ala Cys Ala Gly
325 330 335
Gly Thr Gly Ala Cys Thr Gly Thr Thr Thr Cys Thr Thr Cys Ala
340 345 350
<210> 16
<211> 693
<212> PRT
<213> 人工序列(artificial sequence)
<400> 16
Gly Thr Thr Thr Cys Ala Ala Ala Gly Gly Gly Thr Gly Ala Ala Gly
1 5 10 15
Cys Thr Gly Thr Thr Ala Thr Thr Ala Ala Gly Gly Ala Gly Thr Thr
20 25 30
Thr Ala Thr Gly Ala Gly Ala Thr Thr Cys Ala Ala Ala Gly Thr Gly
35 40 45
Cys Ala Thr Ala Thr Gly Gly Ala Ala Gly Gly Thr Thr Cys Thr Ala
50 55 60
Thr Gly Ala Ala Thr Gly Gly Thr Cys Ala Thr Gly Ala Ala Thr Thr
65 70 75 80
Thr Gly Ala Ala Ala Thr Thr Gly Ala Gly Gly Gly Thr Gly Ala Ala
85 90 95
Gly Gly Thr Gly Ala Ala Gly Gly Thr Ala Gly Ala Cys Cys Ala Thr
100 105 110
Ala Thr Gly Ala Ala Gly Gly Thr Ala Cys Thr Cys Ala Ala Ala Cys
115 120 125
Thr Gly Cys Thr Ala Ala Ala Thr Thr Gly Ala Ala Gly Gly Thr Thr
130 135 140
Ala Cys Thr Ala Ala Ala Gly Gly Thr Gly Gly Thr Cys Cys Ala Thr
145 150 155 160
Thr Gly Cys Cys Ala Thr Thr Cys Thr Cys Ala Thr Gly Gly Gly Ala
165 170 175
Thr Ala Thr Thr Thr Thr Gly Thr Cys Ala Cys Cys Ala Cys Ala Ala
180 185 190
Thr Thr Cys Ala Thr Gly Thr Ala Thr Gly Gly Thr Thr Cys Thr Ala
195 200 205
Gly Ala Gly Cys Thr Thr Thr Cys Ala Thr Thr Ala Ala Gly Cys Ala
210 215 220
Thr Cys Cys Ala Gly Cys Thr Gly Ala Thr Ala Thr Thr Cys Cys Ala
225 230 235 240
Gly Ala Thr Thr Ala Cys Thr Ala Thr Ala Ala Gly Cys Ala Ala Thr
245 250 255
Cys Ala Thr Thr Cys Cys Cys Ala Gly Ala Ala Gly Gly Thr Thr Thr
260 265 270
Cys Ala Ala Gly Thr Gly Gly Gly Ala Ala Ala Gly Ala Gly Thr Thr
275 280 285
Ala Thr Gly Ala Ala Thr Thr Thr Thr Gly Ala Ala Gly Ala Thr Gly
290 295 300
Gly Thr Gly Gly Thr Gly Cys Thr Gly Thr Thr Ala Cys Thr Gly Thr
305 310 315 320
Thr Ala Cys Thr Cys Ala Ala Gly Ala Thr Ala Cys Thr Thr Cys Ala
325 330 335
Thr Thr Gly Gly Ala Ala Gly Ala Thr Gly Gly Thr Ala Cys Thr Thr
340 345 350
Thr Gly Ala Thr Cys Thr Ala Thr Ala Ala Gly Gly Thr Thr Ala Ala
355 360 365
Gly Thr Thr Gly Ala Gly Ala Gly Gly Thr Ala Cys Thr Ala Ala Thr
370 375 380
Thr Thr Cys Cys Cys Ala Cys Cys Ala Gly Ala Thr Gly Gly Thr Cys
385 390 395 400
Cys Ala Gly Thr Thr Ala Thr Gly Cys Ala Ala Ala Ala Gly Ala Ala
405 410 415
Ala Ala Cys Thr Ala Thr Gly Gly Gly Thr Thr Gly Gly Gly Ala Ala
420 425 430
Gly Cys Thr Ala Gly Thr Ala Cys Thr Gly Ala Ala Ala Gly Ala Thr
435 440 445
Thr Gly Thr Ala Thr Cys Cys Ala Gly Ala Ala Gly Ala Thr Gly Gly
450 455 460
Thr Gly Thr Thr Thr Thr Gly Ala Ala Gly Gly Gly Thr Gly Ala Cys
465 470 475 480
Ala Thr Thr Ala Ala Gly Ala Thr Gly Gly Cys Thr Thr Thr Gly Ala
485 490 495
Gly Ala Thr Thr Gly Ala Ala Ala Gly Ala Thr Gly Gly Thr Gly Gly
500 505 510
Thr Ala Gly Ala Thr Ala Thr Thr Thr Gly Gly Cys Thr Gly Ala Thr
515 520 525
Thr Thr Cys Ala Ala Gly Ala Cys Thr Ala Cys Thr Thr Ala Thr Ala
530 535 540
Ala Gly Gly Cys Thr Ala Ala Gly Ala Ala Gly Cys Cys Ala Gly Thr
545 550 555 560
Thr Cys Ala Ala Ala Thr Gly Cys Cys Ala Gly Gly Thr Gly Cys Thr
565 570 575
Thr Ala Cys Ala Ala Thr Gly Thr Thr Gly Ala Thr Ala Gly Ala Ala
580 585 590
Ala Ala Thr Thr Gly Gly Ala Thr Ala Thr Cys Ala Cys Cys Thr Cys
595 600 605
Thr Cys Ala Thr Ala Ala Thr Gly Ala Ala Gly Ala Thr Thr Ala Thr
610 615 620
Ala Cys Thr Gly Thr Thr Gly Thr Thr Gly Ala Gly Cys Ala Ala Thr
625 630 635 640
Ala Cys Gly Ala Ala Ala Gly Ala Thr Cys Thr Gly Ala Ala Gly Gly
645 650 655
Thr Ala Gly Ala Cys Ala Thr Thr Cys Thr Ala Cys Thr Gly Gly Thr
660 665 670
Gly Gly Thr Ala Thr Gly Gly Ala Thr Gly Ala Ala Thr Thr Gly Thr
675 680 685
Ala Thr Ala Ala Gly
690

Claims (15)

1.一种用于蛋白质合成的表达序列的构建方法,其特征在于,包括以下步骤:
(i)选定一段氨基酸序列;
(ii)选定一个物种,该物种的细胞能够提供合成所述氨基酸序列所需的tRNA;
(iii)确定所述氨基酸序列的每种氨基酸在所述物种细胞基因组中的三联体密码的种类以及相应的tRNA拷贝数分布情况;所述物种细胞基因组中tRNA拷贝数为正数的三联体密码构成的组,记为TCF组;确定每种氨基酸的最低tRNA拷贝数和最高tRNA拷贝数,相应的三联体密码分别记为TCcmin、TCcmax,相应的氨基酸分别记为TCcmin氨基酸、TCcmax氨基酸;
(iv)每个氨基酸的三联体密码各自独立地选自TCF组中相应的同义密码子,得到编码所述氨基酸序列的表达序列,用于合成所述氨基酸序列所示的蛋白质。
2.根据权利要求1所述用于蛋白质合成的表达序列的构建方法,其特征在于,得到的编码所述氨基酸序列的所述表达序列为DNA序列、RNA序列或者其组合;
优选方式之一,所有种类氨基酸中,至少80%种类、至少85%种类、至少90%种类、至少95%种类或者100%种类的氨基酸各自独立地满足至少一个氨基酸的三联体密码为相应的TCcmax
优选方式之一,所述表达序列中,所有氨基酸的三联体密码均为相应的TCcmax
优选方式之一,所述表达序列中,至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所有种类氨基酸中,至少80%种类、至少85%种类、至少90%种类或者至少95%种类的氨基酸各自独立地满足至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所述表达序列中,每种氨基酸各自独立地满足至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所述表达序列中,每种氨基酸的各同义密码子的数量百分比,各自独立地与所述物种细胞中相应tRNA拷贝数的数量百分比正相关;
所述物种细胞中,每种氨基酸的tRNA拷贝数按拷贝数相对值计量,所述最低tRNA拷贝数对应0,所述最高tRNA拷贝数对应1,介于两者之间的tRNA拷贝数对应于相对于最低tRNA拷贝数的增量除以Dmax-min,所述Dmax-min为最高tRNA拷贝数与最低tRNA拷贝数的差值;
优选方式之一,每个氨基酸各自独立地选择tRNA拷贝数相对值≥0.5、≥0.6、≥0.7、≥0.8或者≥0.9的三联体密码。
3.一种用于蛋白质合成的表达序列的构建方法,其特征在于,包括以下步骤:
(i)选定一段基础核酸序列,所述基础核酸序列编码一段特定的氨基酸序列;
(ii)选定一个物种,该物种的细胞能够提供合成所述氨基酸序列所需的tRNA;
(iii)确定所述氨基酸序列中的每种氨基酸在所述物种细胞基因组中的三联体密码的种类以及相应的tRNA拷贝数分布情况;确定每种氨基酸的最高tRNA拷贝数,相应的三联体密码记为TCcmax
(iv)对所述基础核酸序列中的至少一个氨基酸进行密码子优化,得到编码所述氨基酸序列的经优化的表达序列;所述密码子优化,指从非TCcmax的三联体密码优化为具有更高tRNA拷贝数的三联体密码。
4.根据权利要求3所述用于蛋白质合成的表达序列的构建方法,其特征在于,所述基础核酸序列为天然序列或者人工序列;
优选方式之一,所述基础核酸序列为DNA、RNA或者其组合;
优选方式之一,所述人工序列包括基于天然序列的改造序列。
5.根据权利要求3所述用于蛋白质合成的表达序列的构建方法,其特征在于,
所述物种细胞基因组中tRNA拷贝数为正数的三联体密码构成的组记为TCF组;
优选方式之一,所述经优化的表达序列中,所有三联体密码各自独立地选自所述TCF组中相应的同义密码子;
优选方式之一,所有种类氨基酸中,至少80%种类、至少85%种类、至少90%种类、至少95%种类或者100%种类的氨基酸各自独立地满足该种类氨基酸至少一个氨基酸的三联体密码为相应的TCcmax
优选方式之一,所述经优化的表达序列中,至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所有种类氨基酸中,至少80%种类、至少85%种类、至少90%种类或者至少95%种类的氨基酸各自独立地满足该种类氨基酸至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所述经优化的表达序列中,每种氨基酸各自独立地满足至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地为相应的TCcmax
优选方式之一,所述经优化的表达序列中,每种氨基酸的各同义密码子的数量百分比,各自独立地与所述物种细胞中相应tRNA拷贝数的数量百分比正相关;
将所述基础核酸序列中,相应氨基酸的非TCcmax的三联体密码构成的组记为NMTC组;
优选方式之一,所述NMTC组中,至少一个三联体密码优化为相应的TCcmax
优选方式之一,对所述NMTC组中至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地进行密码子优化;
优选方式之一,所述NMTC组中,至少80%种类、至少85%种类、至少90%种类或者至少95%种类的氨基酸各自独立地满足该种类氨基酸至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地进行密码子优化;
优选方式之一,所述NMTC组中,每种氨基酸各自独立地满足至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码各自独立地进行密码子优化;
所述NMTC组中任一种氨基酸的优化程度度记为优化度,所述优化度指进行了密码子优化的三联体密码个数占相应氨基酸的非TCcmax三联体密码总数的百分比;
优选方式之一,所述NMTC组中,至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码的优化度各自独立地至少为50%、至少为60%、至少为70%、至少为80%或者至少为90%;
优选方式之一,所述NMTC组中,至少80%种类、至少85%种类、至少90%种类或者至少95%种类的氨基酸各自独立地满足该种类氨基酸至少30%数量、至少40%数量、至少50%数量、至少60%数量、至少70%数量、至少80%数量或者至少90%数量的三联体密码的优化度各自独立地至少为50%、至少为60%、至少为70%、至少为80%或者至少为90%;
优选方式之一,所述NMTC组中,所有种类氨基酸的三联体密码的优化度各自独立地至少为50%、至少为60%、至少为70%、至少为80%或者至少为90%;
优选方式之一,所述NMTC组中,每种氨基酸的各同义密码子的优化度,各自独立地分别与所述物种细胞中相应tRNA拷贝数的数量百分比正相关;
优选方式之一,所述NMTC组中的所有三联体密码均优化为相应氨基酸的TCcmax,此时所述经优化的表达序列中的所有三联体密码的优化度均为100%,且所述经优化的表达序列中所有的三联体密码均为相应氨基酸的TCcmax
6.根据权利要求1-5中任一项所述用于蛋白质合成的表达序列的构建方法,其特征在于,所述物种的来源为:原核细胞、真核细胞或者其组合;
优选方式之一,所述物种的来源为:大肠杆菌、酵母细胞、哺乳动物细胞、植物细胞、昆虫细胞、线虫细胞、病原体或者其组合;
优选方式之一,所述物种的来源为:克鲁维酵母、酿酒酵母、毕氏酵母或者其组合;
优选方式之一,所述物种的来源为:乳酸克鲁维酵母、马克斯克鲁维酵母、多布克鲁维酵母、海泥克鲁维酵母、威克海姆克鲁维酵母、脆壁克鲁维酵母、湖北克鲁维酵母、多孢克鲁维酵母、暹罗克鲁维酵母、亚罗克鲁维酵母、或者其组合。
7.根据权利要求1-6中任一项所述用于蛋白质合成的表达序列的构建方法,其特征在于,所述物种的细胞为野生型细胞或者经改造的细胞。
8.根据权利要求1-7中任一项所述用于蛋白质合成的表达序列的构建方法,其特征在于,所述氨基酸序列的氨基酸个数至少为2、至少为10或者至少为50,或者选自10~50或50~100中任一数量的氨基酸个数,或者选自20~100中任一数量的氨基酸个数,或者选自20~50中任一数量的氨基酸个数。
9.根据权利要求1-7中任一项所述用于蛋白质合成的表达序列的构建方法,其特征在于,所述氨基酸序列选自以下任一种蛋白、任意组合方式的融合蛋白、任意组合方式的组合物:荧光素酶、绿色荧光蛋白、增强绿色荧光蛋白、黄色荧光蛋白、氨酰tRNA合成酶、甘油醛-3-磷酸脱氢酶、过氧化氢酶、肌动蛋白、抗体、抗体的可变区域、抗体的单链及其片段、纳米抗体、α-淀粉酶、肠道菌素A、丙型肝炎病毒E2糖蛋白、胰岛素及其前体、胰高血糖素样肽、干扰素、白介素、溶菌酶素、血清白蛋白、甲状腺素运载蛋白、酪氨酸酶、木聚糖酶、β-半乳糖苷酶,前述任一种蛋白的部分结构域,前述任一种蛋白的亚基或片段,或前述任一种的变体;
优选方式之一,所述氨基酸序列为增强型绿色荧光蛋白或者其变体;
优选方式之一,所述氨基酸序列含有SEQ ID No.:1所示的氨基酸序列;
优选方式之一,所述氨基酸序列为SEQ ID No.:2所示的氨基酸序列;
优选方式之一,所述氨基酸序列为纳米抗体;
优选方式之一,所述氨基酸序列含有SEQ ID No.:13所示的纳米抗体;
优选方式之一,所述氨基酸序列为SEQ ID No.:13所示的纳米抗体。
10.一种核酸构建物,其特征在于,所述核酸构建物包括使用权利要求1-8中任一项所述用于蛋白质合成的表达序列的构建方法获得的表达序列;
优选方式之一,所述核酸构建物的序列包括SEQ ID No.: 7、8、9、10、11或14所示的核苷酸序列;
优选方式之一,所述核酸构建物的序列为SEQ ID No.: 7、8、9、10、11或14所示的核苷酸序列。
11.一种载体,其特征在于,所述载体中包括权利要求9所述核酸构建物;
优选方式之一,所述载体的类型选自:细菌质粒、噬菌体、酵母质粒、动物细胞载体、穿梭载体、及其组合。
12.一种基因工程细胞,其特征在于,所述基因工程细胞的基因组中至少一个位点整合有权利要求9所述核酸构建物,或者所述基因工程细胞中含有权利要求10所述载体;
优选方式之一,所述基因工程细胞的染色体中至少一个位点整合有权利要求9所述核酸构建物;
优选方式之一,所述基因工程细胞中含有权利要求10所述载体,且所述载体为质粒载体。
13.一种试剂盒,其特征在于,提供下述至少一种物质:
(k1) 权利要求9所述核酸构建物;
(k2) 权利要求10所述载体;和
(k3) 权利要求11所述基因工程细胞;
所述试剂盒还独立地可选地包括(k4)标签;
所述试剂盒还独立地可选地包括(k5)说明书。
14.一种蛋白质体外反应体系,其特征在于,所述蛋白质体外反应体系包括:
(r1) 体外蛋白合成体系;和
(r2) 编码目标蛋白的核酸模板;
所述体外蛋白合成体系能够与所述编码目标蛋白的核酸模板共同提供合成目标蛋白所需的翻译相关元件;所述翻译相关元件包括tRNA;
所述编码目标蛋白的核酸模板含有所述目标蛋白的编码序列;所述目标蛋白的编码序列通过权利要求1-8中任一项所述构建方法确定;
所述编码目标蛋白的核酸模板为DNA、RNA或者其组合。
15.一种体外蛋白合成方法,其特征在于,包括以下步骤:
步骤i:提供权利要求13所述的蛋白质体外反应体系;
步骤ii:在适当条件下进行孵育反应,得到目标蛋白产物;
还可选地包括步骤iii:纯化、检测或者其组合。
CN202110771297.1A 2021-07-07 2021-07-07 一种用于蛋白质合成的表达序列的构建方法 Pending CN115595329A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110771297.1A CN115595329A (zh) 2021-07-07 2021-07-07 一种用于蛋白质合成的表达序列的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110771297.1A CN115595329A (zh) 2021-07-07 2021-07-07 一种用于蛋白质合成的表达序列的构建方法

Publications (1)

Publication Number Publication Date
CN115595329A true CN115595329A (zh) 2023-01-13

Family

ID=84840373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110771297.1A Pending CN115595329A (zh) 2021-07-07 2021-07-07 一种用于蛋白质合成的表达序列的构建方法

Country Status (1)

Country Link
CN (1) CN115595329A (zh)

Similar Documents

Publication Publication Date Title
EP3162889B1 (en) Engineered escherichia coli for producing 1,5-pentanediamine by whole-cell catalysis and application thereof
CN101400796B (zh) 在真细菌宿主细胞内表达正交翻译组分的系统
Zhang et al. Establishing a eukaryotic Pichia pastoris cell-free protein synthesis system
JP2022502039A (ja) タンパク質精製方法
Spirin et al. Cell-free protein synthesis: methods and protocols
EP2069481A2 (en) Genetic incorporation of unnatural amino acids into proteins in mammalian cells
WO2017106583A1 (en) Cytoplasmic expression system
CN110408635B (zh) 一种含有链霉亲和素元件的核酸构建物在蛋白质表达、纯化中的应用
CN110093284B (zh) 一种在细胞中提高蛋白合成效率的方法
KR102345759B1 (ko) 뉴클레아제 시스템의 녹-아웃에 의한 시험관 내 생합성 활성을 조절하기 위한 방법
US20200270338A1 (en) Expression constructs, host cells, and methods for producing insulin
US11371047B2 (en) Promoter construct for cell-free protein synthesis
CN110551745A (zh) 一种多重组氨酸序列标签及其在蛋白质表达、纯化中的应用
JP7028986B2 (ja) タンパク質合成効率を高めることができるタンデムdnaエレメント
CN109439683B (zh) 抑制、敲除和/或表达基因在提高丙酮酸代谢路径产物及提高单克隆抗体表达量中的应用
CN115595329A (zh) 一种用于蛋白质合成的表达序列的构建方法
CN113215005A (zh) 一种体外无细胞蛋白合成体系(d2p体系)、其试剂盒及其应用
US20060141571A1 (en) Method for promoting cell growth and increasing the production of the expressed target gene products
JP2022535651A (ja) 好熱性タンパク質を利用した組換えインビトロ転写及び翻訳のための系、方法及び組成物
CA2428693A1 (en) In vitro protein synthesis using glycolytic intermediates as an energy source
WO2024051855A1 (zh) 一种核酸构建物以及在ivtt体系中的应用
Spirin et al. Cell-free protein synthesis systems: historical landmarks, classification, and general methods
Mack et al. A high-throughput microtiter plate-based screening method for the detection of full-length recombinant proteins
CN113493813A (zh) 含外源镁离子的体外无细胞蛋白合成体系与试剂盒及其应用
CN113493801A (zh) 一种含外源镁离子的体外无细胞蛋白合成体系和试剂盒及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination