CN115176016A - 增强的表达系统及其使用方法 - Google Patents

增强的表达系统及其使用方法 Download PDF

Info

Publication number
CN115176016A
CN115176016A CN202180015538.8A CN202180015538A CN115176016A CN 115176016 A CN115176016 A CN 115176016A CN 202180015538 A CN202180015538 A CN 202180015538A CN 115176016 A CN115176016 A CN 115176016A
Authority
CN
China
Prior art keywords
sequence
itr
seq
vector
transposon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180015538.8A
Other languages
English (en)
Inventor
陈纪
章雨
王荣颢
李雅蓉
赵彬
练杜娟
张玉琛
黄翠
张峥
蔡洁行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Biologics Shanghai Co Ltd
Original Assignee
Wuxi Biologics Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Biologics Shanghai Co Ltd filed Critical Wuxi Biologics Shanghai Co Ltd
Publication of CN115176016A publication Critical patent/CN115176016A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/705Receptors; Cell surface antigens; Cell surface determinants
    • C07K14/70503Immunoglobulin superfamily
    • C07K14/70532B7 molecules, e.g. CD80, CD86
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K16/00Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K16/00Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies
    • C07K16/18Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies against material from animals or humans
    • C07K16/24Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies against material from animals or humans against cytokines, lymphokines or interferons
    • C07K16/241Tumor Necrosis Factors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1051Gene trapping, e.g. exon-, intron-, IRES-, signal sequence-trap cloning, trap vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/62DNA sequences coding for fusion proteins
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • C12N9/1241Nucleotidyltransferases (2.7.7)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/30Non-immunoglobulin-derived peptide or protein having an immunoglobulin constant or Fc region, or a fragment thereof, attached thereto
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/90Vectors containing a transposable element

Landscapes

  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Cell Biology (AREA)
  • Toxicology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本公开涉及利用piggyBac转座子和/或调节元件的有效蛋白表达系统。

Description

增强的表达系统及其使用方法
技术领域
本公开涉及利用piggyBac转座子和/或调节元件的有效蛋白表达系统。
背景技术
目前有许多用于重组蛋白的表达系统,例如,细菌、酵母、真菌、昆虫、植物和哺乳动物细胞。蛋白表达系统的显著不同会影响蛋白质的表达、分离和纯化。举例来说,细菌等低级表达系统不能用于表达需要如糖基化等复杂的翻译后修饰以实现其生物活性的特定类型的蛋白。此外,许多治疗性蛋白需要例如糖基化等复杂的翻译后修饰以实现生物学活性。
用于生产治疗性重组蛋白的哺乳动物表达系统通常被药物公司使用。哺乳动物细胞具有进行适当的蛋白质折叠和复杂的翻译后修饰的能力,这对于许多蛋白的治疗活性来说是必需的。已批准许多哺乳动物细胞表达系统用于生产治疗性蛋白。然而,建立用于治疗性重组蛋白的稳定的哺乳动物细胞表达系统是耗时的,并且表达水平通常没有得到优化,因此对于大规模生产是不理想的。
因此,需要一种改进的表达系统,其可用作灵活的平台以产生可以以提高的水平表达各种治疗性重组蛋白的稳定细胞系。生产可能会以及时的方式用于制造过程的、用于在相同宿主细胞中表达重组蛋白的稳定细胞系的能力在早期药物开发期间会是特别有用的。还需要具有增强的转录和翻译效率的表达系统。
发明内容
本公开涉及利用piggyBac转座子和/或调节元件的有效蛋白表达系统。该表达系统提供了可有效地将目标核酸整合至细胞的基因组中并且可显著增加细胞(例如,中国仓鼠卵巢细胞)中的蛋白表达的通用工具。在一方面,表达系统可有效地将转座子载体中的载体序列(例如,两个piggyBac ITR之间的序列)移动至靶基因组中。所述系统可用于建立用于表达各种蛋白(例如,抗体重链和轻链)的稳定细胞系。在一方面,piggyBac表达系统可与中国仓鼠卵巢(CHO)细胞一起使用以产生重组蛋白用于研究和生物药物制造目的二者。
在一方面,本文提供一种核酸,其包含5’-ITR(反向末端重复);3’-ITR序列;和调节元件序列,其与选自由SEQ ID NOs:1-30和SEQ ID NOs:35-58组成的组的序列至少80%、85%、90%、95%或100%相同。
在一些实施方案中,5’ITR序列包含与SEQ ID NO:68至少80%、85%、90%、95%或100%相同的序列或由其组成,3’ITR序列包含与SEQ ID NO:60至少80%、85%、90%、95%或100%相同的序列或由其组成。
在一些实施方案中,5’ITR序列包含SEQ ID NO:68,3’ITR序列包含SEQ ID NO:60。
在一些实施方案中,如本文所述的核酸还包含5’-内部结构域和3’-内部结构域。在一些实施方案中,5’-内部结构域包含与SEQ ID NO:66至少80%、85%、90%、95%或100%相同的序列。在一些实施方案中,3’-内部结构域包含与SEQ ID NO:67至少80%、85%、90%、95%或100%相同的序列。在一些实施方案中,5’-内部结构域紧邻5’-ITR,3’-内部结构域紧邻3’-ITR。
在一些实施方案中,所述核酸包含选自由SEQ ID NOs:1-15组成的组的一个以上的调节元件序列(例如,SEQ ID NO:2)。
在一些实施方案中,所述核酸包含选自由SEQ ID NOs:35-46组成的组的一个以上的调节元件序列(例如,SEQ ID NO:36)。
在一些实施方案中,如本文所述的核酸还包含启动子和编码多肽的序列。在一些实施方案中,编码多肽的序列可操作地连接至启动子。在一些实施方案中,编码多肽的序列位于两个调节元件序列之间。
在一些实施方案中,如本文所述的核酸还包含启动子和编码两个以上的多肽的序列。在一些实施方案中,编码两个以上的多肽序列可操作地连接至启动子。在一些实施方案中,序列编码抗体重链和抗体轻链。
在一些实施方案中,所述核酸还包含与选自由SEQ ID NOs:35-46组成的组的序列至少80%、85%、90%、95%或100%相同的WXRE序列。在一些实施方案中,核酸包含两个以上的表达盒。在一些实施方案中,核酸包含选择标记物。在一些实施方案中,选择标记物是抗生素抗性基因、编码荧光蛋白的序列、或lacZ。
在一方面,本文提供一种载体,其包含如本文所述的核酸。
在一方面,本文提供一种转座子载体,其从5’至3’包含:5’ITR序列,其由与SEQ IDNO:68至少95%相同的序列组成;非转座子异源DNA序列;和3’ITR序列,其由与SEQ ID NO:60至少95%相同的序列组成。
在一些实施方案中,5’ITR序列由SEQ ID NO:68组成,3’ITR序列由SEQ ID NO:60组成。
在一些实施方案中,如本文所述的转座子载体还包含5’-内部结构域和3’-内部结构域。在一些实施方案中,5’-内部结构域包含与SEQ ID NO:66至少80%、85%、90%、95%或100%相同的序列。在一些实施方案中,3’-内部结构域包含与SEQ ID NO:67至少80%、85%、90%、95%或100%相同的序列。在一些实施方案中,5’-内部结构域紧邻5’-ITR,3’-内部结构域紧邻3’-ITR。
在一些实施方案中,非转座子异源DNA序列包含启动子和编码一种以上的多肽的序列。在一些实施方案中,编码一种以上的多肽的序列可操作地连接至启动子。在一些实施方案中,启动子是巨细胞病毒(CMV)启动子。
在一些实施方案中,非转座子异源DNA序列还包含与选自由SEQ ID NOs:1-30和35-58组成的组的序列至少80%、85%、90%、95%或100%相同的调节元件序列。
在一些实施方案中,非转座子异源DNA序列还包含与选自由SEQ ID NOs:35-46组成的组的序列至少80%、85%、90%、95%或100%相同的WXRE序列。
在一些实施方案中,非转座子异源DNA序列包含多克隆位点。
在一方面,本文提供一种表达系统,其包含:(a)第一核酸,其包含5’-ITR序列;非转座子异源DNA序列,其包含与选自由SEQ ID NOs:1-30和35-58组成的组的序列为至少80%、85%、90%、95%或100%同一性的调节元件序列;3’-ITR序列;和(b)第二核酸,其编码piggyBac转座酶。
在一些实施方案中,第二核酸编码具有与SEQ ID NO:33至少80%、85%、90%、95%或100%相同的氨基酸序列的piggyBac转座酶。
在一些实施方案中,非转座子异源DNA序列包含启动子和编码一种以上的多肽的序列。在一些实施方案中,编码一种以上的多肽的序列可操作地连接至启动子。
在一些实施方案中,序列编码抗体重链和/或抗体轻链。在一些实施方案中,序列编码单克隆抗体、双特异性抗体、重组蛋白、或融合蛋白。
在一些实施方案中,启动子是CMV启动子。在一些实施方案中,启动子是诱导型启动子(例如,热休克启动子、金属硫蛋白启动子、或糖皮质激素应答元件)。
在一些实施方案中,非转座子异源DNA序列还包含调节元件序列,所述调节元件序列与选自由SEQ ID NOs:1-30和35-58组成的组的序列至少80%、85%、90%、95%或100%相同。
在一些实施方案中,非转座子异源DNA序列还包含WXRE调节元件序列,所述WXRE调节元件序列与选自由SEQ ID NOs:35-46组成的组的序列至少80%、85%、90%、95%或100%相同。
在一方面,本文提供一种分离的核酸,其包含与选自由SEQ ID NOs:1-30和35-58组成的组的序列至少80%、85%、90%、95%或100%相同的调节元件序列。
在一些实施方案中,所述核酸还包含启动子和蛋白编码序列。
在一些实施方案中,调节元件序列位于启动子和蛋白编码序列之间。
在一些实施方案中,调节元件序列位于蛋白编码序列的3’端。
在一些实施方案中,调节元件序列可转录至5’-UTR或3’-UTR。在一些实施方案中,分离的核酸还包含5’-ITR和3’-ITR,和调节元件序列位于5’-ITR和3’-ITR之间。
在一方面,本文提供一种载体,其包含如本文所述的核酸。
在一方面,本文提供一种含有piggyBac转座子的载体,所述piggyBac转座子在5’至3’方向上包含以下遗传元件:5’-ITR,其包含TRL、5’-ITR间隔区、IRL;启动子;调节元件序列,其与选自由SEQ ID NOs:1-30和35-58组成的组的序列至少80%、85%、90%、95%或100%相同;蛋白编码序列;和3’-ITR,其包含IRR、3’-ITR间隔区、TRR
在一方面,本文提供一种含有piggyBac转座子的载体,所述piggyBac转座子在5’至3’方向上包含以下遗传元件:5’-ITR,其包含TRL、5’-ITR间隔区、IRL;启动子;蛋白编码序列;调节元件序列,其与选自由SEQ ID NOs:1-30和35-58组成的组的序列至少80%、85%、90%、95%或100%相同;和3’-ITR,其包含IRR、3’-ITR间隔区、TRR
在一方面,本文提供一种含有piggyBac转座子的载体,所述piggyBac转座子在5’至3’方向上包含以下遗传元件:3’-ITR,其包含TRR、3’-ITR间隔区、IRR;启动子;调节元件序列,其与选自由SEQ ID NOs:1-30和35-58组成的组的序列至少80%、85%、90%、95%或100%相同;蛋白编码序列;和5’-ITR,其包含IRL、5’-ITR间隔区、TRL
在一方面,本文提供一种含有piggyBac转座子的载体,所述piggyBac转座子在5’至3’方向上包含以下遗传元件:3’-ITR,其包含TRR、3’-ITR间隔区、IRR;启动子;蛋白编码序列;调节元件序列,其与选自由SEQ ID NOs:1-30和35-58组成的组的序列至少80%、85%、90%、95%或100%相同;和5’-ITR,其包含IRL、5’-ITR间隔区、TRL
在一些实施方案中,5’-ITR包含与SEQ ID NO:68的反向序列或反向互补序列至少80%、85%、90%、95%或100%相同的序列或由其组成。
在一些实施方案中,3’-ITR包含与SEQ ID NO:60的反向序列或反向互补序列至少80%、85%、90%、95%或100%相同的序列或由其组成。
在一些实施方案中,TRL包含与SEQ ID NO:61的反向序列或反向互补序列至少80%、85%、90%、95%或100%相同的序列或由其组成。
在一些实施方案中,5’-ITR间隔区包含与SEQ ID NO:62的反向序列或反向互补序列至少80%、85%、90%、95%或100%相同的序列或由其组成。
在一些实施方案中,IRL包含与SEQ ID NO:63的反向序列或反向互补序列至少80%、85%、90%、95%或100%相同的序列或由其组成。
在一些实施方案中,TRR包含与SEQ ID NO:64的反向序列或反向互补序列至少80%、85%、90%、95%或100%相同的序列或由其组成。
在一些实施方案中,IRR包含与SEQ ID NO:65的反向序列或反向互补序列至少80%、85%、90%、95%或100%相同的序列或由其组成。
在一些实施方案中,载体包含两个以上的调节元件序列,其各自与选自由SEQ IDNOs:1-30和35-58组成的组序列至少80%、85%、90%、95%或100%相同。
在一些实施方案中,载体还包含5’-内部结构域序列和3’-内部结构域序列。
在一些实施方案中,5’-内部结构域序列包含与SEQ ID NO:66至少或约80%、85%、90%、95%或100%相同的序列或由其组成,3’-内部结构域序列包含与SEQ ID NO:67至少或约80%、85%、90%、95%或100%相同的序列或由其组成。
在一些实施方案中,调节元件序列可转录至5’-UTR或3’-UTR。
在一些实施方案中,载体还包含编码piggyBac转座酶的序列。在一些实施方案中,编码piggyBac转座酶的序列在5’-ITR和3’-ITR之间的区域之外。
在一方面,本文提供一种产生用于表达目标多肽的细胞的方法,所述方法包括:(a)将以下引入细胞:转座子载体,其包含:5’-ITR(反向末端重复)序列;3’-ITR序列;调节元件序列,其与选自由SEQ ID NOs:1-30和35-58组成的组的序列至少80%、85%、90%、95%或100%相同;和编码目标多肽的序列;和(b)在合适的条件下培养细胞。在一些实施方案中,将piggyBac转座子整合至细胞的基因组,从而产生用于表达目标多肽的细胞。
在一些实施方案中,所述方法还包括将含有编码piggyBac转座酶的序列的载体引入细胞。
在一些实施方案中,转座子载体包含编码piggyBac转座酶的序列。
在一些实施方案中,转座子载体通过显微注射、高速推进(high velocitypropulsion)、透化、融合、或电穿孔而引入细胞。在一些实施方案中,细胞是中国仓鼠卵巢(CHO)细胞。在一些实施方案中,细胞是哺乳动物细胞或昆虫细胞。
在一方面,本文提供一种细胞,其包含如本文所述的核酸、如本文所述的载体、或如本文所述的表达系统。
在一些实施方案中,所述细胞是中国仓鼠卵巢(CHO)细胞。
在一方面,本文提供一种表达蛋白的方法,所述方法包括:在允许细胞表达蛋白的条件下培养如本文所述的细胞;和收集和纯化蛋白。
在一方面,本文提供一种蛋白,其由如本文所述的细胞表达、或通过如本文所述的方法产生。
在一方面,本文提供一种药物组合物,其包含如本文所述的蛋白和药学上可接受的载体。
在一方面,本文提供一种核酸,其包含5’-ITR序列;3’-ITR序列;和衍生自CHO的一个以上的调节元件序列。
在一方面,本文提供一种表达系统,其包含:(a)第一核酸,其包含piggyBac转座子,所述piggyBac转座子在5’至3’方向上包含以下遗传元件:第一TTAA序列;5’-ITR,其包含TRL、5’-ITR间隔区和IRL;5’-内部结构域(ID);目标序列;3’-ID;3’-ITR,其包含IRR、3’-ITR间隔区和TRR;和第二TTAA序列;和(b)第二核酸,其编码piggyBac转座酶。
在一方面,本文提供一种产生用于表达目标多肽的细胞的方法,所述方法包括:(a)将以下引入细胞:转座子载体,其在5’至3’方向上包含以下遗传元件:第一TTAA序列;5’-ITR,其包含TRL、5’-ITR间隔区和IRL;5’-内部结构域(ID);目标序列;3’-ID;3’-ITR,其包含IRR、3’-ITR间隔区和TRR;和第二TTAA序列;和(b)在合适的条件下培养细胞。
在一方面,本文提供一种细胞系,其基因组稳定地整合有包含以下遗传元件的piggyBac转座子:5’-ITR序列;调节元件序列,其与选自由SEQ ID NOs:1-15组成的组的序列至少80%、85%、90%、95%或100%相同;和3’-ITR序列。
在一方面,本文提供一种细胞系,其基因组稳定地整合有包含以下遗传元件的piggyBac转座子:5’-ITR,其包含TRL、5’-ITR间隔区和IRL;5’-内部结构域(ID);目标序列;3’-ID;3’-ITR,其包含IRR、3’-ITR间隔区和TR。
在一方面,本公开提供一种转座子载体,其包含:第一PB转座酶识别位点序列,其包含与SEQ ID NO:31至少95%相同的序列或由其组成;非转座子异源DNA序列;和第二PB转座酶识别位点序列,其包含与SEQ ID NO:32至少95%相同的序列或由其组成。
在一方面,本公开还涉及一种载体,其包含如本文所述的多核苷酸分子。在一些实施方案中,载体是重组表达载体。
在一些实施方案中,本文提供还包含编码一种以上的蛋白的一种以上的基因的载体。
在一些实施方案中,蛋白是抗体、融合蛋白、酶、可溶性蛋白、膜蛋白、结构蛋白、核糖体蛋白、酶原、细胞表面受体蛋白、转录调节蛋白、翻译调节蛋白、染色质蛋白、激素、细胞周期调节蛋白、G蛋白、神经活性肽、免疫调节蛋白、血液组分蛋白(blood componentprotein)、离子门蛋白(ion gate protein)、热休克蛋白、二氢叶酸还原酶、抗生素抗性蛋白、任一所述蛋白的功能性片段、任一所述蛋白的表位片段、及其任意组合。
在一方面,本公开涉及包含如本文所述的载体的重组宿主细胞。
除非另外指出,否则本文所使用的所有技术和科学术语具有与本发明所属技术领域普通技术人员通常所理解的相同的含义。本文描述了用于本发明的方法和材料;也可使用本领域已知的其它的合适的方法和材料。材料、方法、和实例仅是说明性的而不旨在进行限制。本文提及的所有出版物、专利申请、专利、序列、数据库条目、和参考文献以其整体通过引用结合在此。在冲突的情况下,包括定义在内的本说明书将占主导。
本发明的其它特征和优点将从以下详细的说明和附图、以及从权利要求书中显而易见。
附图说明
图1A是显示piggyBac转座子质粒的示意图。
图1B是显示piggyBac转座酶质粒的示意图。
图2是显示转染的宿主细胞中的三种抗体(A、B、和C)的蛋白表达水平的条形图。
图3是显示在具有不同调节元件的宿主细胞中的蛋白表达水平的条形图。
图4是显示用具有或不具有调节元件的piggyBac转座子质粒转染的宿主细胞中的三种抗体(D、E、和F)的蛋白表达水平的条形图。
图5显示(1)piggyBac 5’-ITR;(2)piggyBac 3’-ITR;和(3)piggyBac转座酶氨基酸的序列。
图6显示WXRE IDs:A-L的序列。
图7显示WXRE IDs:A-L的反向互补序列。
图8显示人CMW启动子和人EF-1α基因内含子1的序列。
图9示出其中未插入WXRE的GFP表达载体的示意图。
图10示出其中插入WXRE的GFP表达载体的示意图。
图11示出在添加转录调节元件A~K后对融合蛋白的表达水平的影响,其中A1和A2分别示出转录调节元件A的正反两个方向,其它以此类推。
图12示出在添加转录调节元件A~K后对融合蛋白的表达的单位生产率(specificproductivity)的影响,其中A1和A2分别示出转录调节元件A的正反两个方向,其它以此类推。
图13示出插入WXRE的、表达阿达木单抗重链的载体的示意图。其中,HC的含义是重链。
图14示出插入WXRE的、表达阿达木单抗轻链的载体的示意图。其中,LC的含义是轻链。
图15示出在不同转录调节元件组合条件下阿达木单抗的第14天表达水平的比较,其中,在样品1至样品12中,重链上游的转录调节元件和轻链上游的转录调节元件的组分示于表8。
图16示出PD-L1的A链、阿达木单抗的重链(HC)和轻链(LC)的氨基酸序列。
具体实施方式
DNA转座子是一种天然存在于动物基因组中的重复序列。piggyBac转座子首先发现于昆虫基因组,该序列包含包括转座酶和反向末端重复序列的关键元件。piggyBac转座子系统可在基因组和质粒之间“剪切和粘贴”以替换DNA序列。与其它转座子系统相比,piggyBac转座酶能够将末端反向重复序列和位于重复序列之间的序列精确地替换入含有“TTAA”核苷酸序列的基因组DNA中,而不进行基因组DNA的任何其它修饰或丧失。转座子系统已用于干细胞研究、基因修饰和许多细胞工程领域。
更快和更有效的蛋白表达技术是学术界和工业的主要关注之一。瞬时表达技术可在约2周内递送克级(gram-scale)重组蛋白,但与经典的稳定细胞池(stable cell pool)相比,蛋白表达水平比较受限。另一方面,稳定细胞池的基因组受到外源DNA插入的几率低,很大程度由于传统的稳定转染方法是将外源DNA随机整合至基因组。该低效率的DNA整合问题会导致抗生素筛选期间的恢复较为缓慢。尽管重组蛋白表达水平比较高,用稳定池生产蛋白的耗时限制了该经典技术的广泛使用,无法满足工业的需求。
一些现有转座子系统可用于构建生产重组蛋白的稳定细胞系。然而,这些系统(例如,Tol2转座子)通常花费多于一个月的时间以产生有应用价值的稳定细胞系,使其相对于经典稳定细胞池方法的缺乏时间优势。与其它转座子系统(例如,睡美人(SleepingBeauty)和Mos1)相比,本公开中所描述的用于CHO细胞系的piggyBac系统的效率具有显著的效率优势。
此外,外源蛋白表达可通过调节元件(RE)来调节。具有调节转录以及翻译功能的许多因子可对蛋白表达水平产生影响。本公开还提供了已通过RNA丰度分析鉴定的许多DNA调节元件。进一步进行实验以证明它们可以改善外源蛋白表达。
本公开提供了利用piggyBac转座子和/或调节元件的高度有效的表达系统。表达系统可建立可以在相对短的时间内以提高的水平表达重组蛋白的稳定细胞系。
PiggyBac转座子和转座酶
在睡美人转座子系统从青鳉鱼的基因组复活后,基于DNA的转座子系统首先作为用于哺乳动物细胞的基因组工程化的有效工具出现。转座子DNA载体可工程化用于许多目的,包括转基因、基因治疗、基因捕获、或将其它DNA元件插入细胞的基因组中。piggyBac(PB)转座子系统是具有天然活性的并最初发现于昆虫细胞,同时在来自甘蓝蠖度尺蛾(cabbage looper moth)Trichoplusia ni的TN-386细胞系中传播杆状病毒(Baculo-virus)。
基于PiggyBac的基因转移(mobilization)是通过‘剪切和粘贴’机制来进行的。当piggyBac转座酶蛋白在哺乳动物细胞中表达时,其结合至转座子的反向重复序列位置,使DNA产生切口并释放转座子两端的3’羟基。这导致侧翼TTAA序列的亲水性攻击(hydrophilic attack)和发夹形成,从其质粒骨架释放转座子。然后通过互补TTAA突出端的连接,由宿主细胞因子修复质粒骨架。PiggyBac转座酶将TTAA序列置于哺乳动物细胞的基因组DNA中。通过转座子的发夹解离(hairpin resolution)和转座子上的30个羟基对基因组DNA的亲水性攻击,产生基因组DNA中交错的4碱基对(bp)切割,形成在断裂的两侧具有TTAA突出端的瞬时双链(ds)断裂。然后,将转座子在TTAA位点处插入基因组DNA,导致该TTAA的复制,使得TTAA发现于转座子的两端。序列将被插入基因组,并且序列将被传递给所有的后代细胞。在通过piggyBac转座酶切除转座子的情况下,可以诱导并选择以去除转基因的细胞,重新连接单链TTAA以形成单个TTAA。因此,piggyBac转座的独特机制导致独特的优点:转座子序列的无缝切除。在piggyBac从DNA切除转座子后,其无缝产生原始piggyBac靶位点。piggyBac的详细说明可发现于,例如,Woodard,等,"piggyBac-ing models andnew therapeutic strategies."Trends in biotechnology33.9(2015):525-533;Cary等"Transposon mutagenesis of baculoviruses:analysis of Trichoplusia nitransposon IFP2 insertions within the FP-locus of nuclear polyhedrosisviruses."Virology 172.1(1989):156-169;二者以其整体通过引用结合在此。
野生型piggyBac是具有反向末端重复(ITR)的2472bp转座子和ITR内的594氨基酸转座酶。PB转座酶识别PB 5’-ITR和PB 3’-ITR。野生型5’-ITR包括左末端重复(TRL)、31bp间隔区(5’-ITR间隔区)、和左内部重复(IRL)。野生型5’-ITR的序列为CCCTAGAAAGATAATCATATTGTGACGTACGTTAAAGATAATCATGCGTA AAATTGACGCATG(SEQ ID NO:68)。在野生型5’-ITR中,TRL的序列为CCCTAGAAAGATA(SEQ ID NO:61);31bp间隔区的序列为ATCATATTGTGACGTACGTTAAAGATAATCA(SEQ ID NO:62);和IRL的序列为TGCGTAAAATTGACGCATG(SEQ ID NO:63)。
类似地,野生型3’-ITR包括右末端重复(TRR)、短间隔区(GAC;3’-ITR间隔区)、和右内部重复(IRR)。野生型3’-ITR的序列为CATGCGTCAATTTTACGCAGACTATCTTTCTAGGG(SEQID NO:60)。在野生型3’-ITR中,TRR的序列为TATCTTTCTAGGG(SEQ ID NO:64);IRR的序列为CATGCGTCAATTTTACGCA(SEQ ID NO:65)。如图5中所示,末端重复由单下划线表示,内部重复由双下划线表示。
如本文所用,术语“5’-ITR”是指由piggyBac转座酶识别的用于转座子活性的序列,包括TRL、IRL、任选地和在其间的间隔区(例如,31bp间隔区)。如本文所用,术语“3’-ITR”是指由piggyBac转座酶识别的用于转座子活性的序列,包括TRR、IRR、任选地和在其间的间隔区。
本公开提供了piggyBac表达系统。在一些实施方案中,在两个分别的质粒(例如,转座子载体和转座酶载体)上携带piggyBac转座酶和piggyBac转座子(图1A-1B)。还可以在同一质粒(cis)上递送转座酶和转座子,其中转座酶基因在转座子反向末端重复元件(ITR)的外侧。
在一些实施方案中,转座子载体具有piggyBac(PB)5’-和3’-反向末端重复(ITR)。5’-ITR可包含例如TRL、和IRL、和任选地间隔区(例如,31bp间隔区),或由其组成。3’-ITR可包含例如TRR、和IRR、和任选地间隔区(例如,GAC),或由其组成。目标序列(例如,目标基因或GOI)可在5’-ITR和3’-ITR之间或在PB转座酶识别位点序列之间插入载体。在一些实施方案中,GOI可操作地连接至启动子。在一些实施方案中,GOI可操作地连接至一个、两个、三个、四个、五个、或更多个调节元件。调节元件可位于GOI的5’处或GOI的3’端。在一些实施方案中,调节元件在启动子和GOI之间或在GOI和polyA信号序列之间。polyA信号序列为对转录的mRNA进行多聚腺苷酸化提供信号。在一些实施方案中,转座子载体可进一步包含选择标记物。选择标记物可以可操作地连接至相同启动子或不同启动子。在一些实施方案中,选择标记物和GOI可在相同启动子的控制下。在一些实施方案中,选择标记物可具有其自己的启动子。通常,宿主细胞的基因组其自身不提供选择标记物功能。因此,可对具有正确修饰的细胞进行选择标记物的筛选。
在一些实施方案中,目标序列包含各种遗传元件,例如,限制性位点、loxP位点、调节元件、启动子、增强子、表达盒、基因操纵子等。在一些实施方案中,目标序列不具有任何蛋白编码序列。
在一些实施方案中,提供PB转座酶载体。PB转座酶载体设计成表达PB转座酶。在实验期间,用两种载体转染宿主细胞(例如,CHO-K1细胞)。表达自PB转座酶载体的PB转座酶识别位于转座子载体上的PB 5’-ITR和PB3’-ITR,并将PB 5’-ITR和3’-ITR之间的核酸序列(包括PB 5’-ITR和3’-ITR二者)有效地移动并整合至细胞中的染色体TTAA位点。在一些实施方案中,然后通过选择标记物(例如,抗生素抗性基因)和蛋白表达活性来选择细胞。
在一些实施方案中,5’-内部结构域和3’-内部结构域可用于与5’-ITR和3’-ITR连接以增加PB转座子的整合效率(例如,与不具有5’-内部结构域序列或3’-内部结构域序列的PB转座子相比,增加至少10%、20%、30%、40%、50%)。在一些实施方案中,PB转座子识别位点包含与图5中所示的5’-内部结构域序列至少80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%相同的5’-内部结构域序列。图5中的5’-内部结构域序列为
TGTTTTATCGGTCTGTATATCGAGGTTTATTTATTAATTTGAATAGATATTAAGTTTTATTATATTTACACTTACATACTAATAATAAATTCAACAAACAATTTATTTATGTTTATTTATTTATTAAAAAAAAACAAAAACTCAAAATTTCTTCTATAAAGTAACAAAACT(SEQ ID NO:66)。
在一些实施方案中,PB转座子识别位点包含3’-内部结构域序列。3’-内部结构域序列可与图5中所示的3’-内部结构域序列至少80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%相同。图5中的3’-内部结构域序列为:
TATCTATAACAAGAAAATATATATATAATAAGTTATCACGTAAGTAGAACATGAAATAACAATATAATTATCGTATGAGTTAAATCTTAAAAGTCACGTAAAAGATAATCATGCGTCATTTTGACTCACGCGGTCGTTATAGTTCAAAATCAGTGACACTTACCGCATTGACAAGCACGCCTCACGGGAGCTCCAAGCGGCGACTGAGATGTCCTAAATGCACAGCGACGGATTCGCGCTATTTAGAAAGAGAGAGCAATATTTCAAGAATG(SEQ ID NO:67)。
在一些实施方案中,PB转座子包含具有SEQ ID NO:66的至少或约50、100、110、120、130、140、150、160、170或172个连续核苷酸的5’-内部结构域序列。在一些实施方案中,PB转座子包含具有SEQ ID NO:67的至少或约50、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、或272个连续核苷酸的3’-内部结构域序列。
在一些实施方案中,PB转座子不具有5’-内部结构域序列。在一些实施方案中,PB转座子不具有3’-内部结构域序列。
如本文所用,术语“PB转座酶5’-识别位点”是指PB转座酶识别并与之相互作用的两个位点对之一,其位于核酸的5’方向上(例如,基于编码序列或参照序列的有义链上5’至3’方向)。术语“PB转座酶3’-识别位点”是指PB转座酶识别并与之相互作用的两个位点对之一,其位于核酸的3’方向上(例如,基于编码序列或参照序列的有义链上5’至3’方向)。在一些实施方案中,PB转座酶5’-识别位点序列包含TRL或由其组成。在一些实施方案中,PB转座酶3’-识别位点序列包含TRR或由其组成。在一些实施方案中,PB转座酶5’-识别位点包含TRL和IRL、任选地和间隔区和/或内部结构域序列,或者由其组成。在一些实施方案中,PB转座酶3’-识别位点包含TRR和IRR、任选地和间隔区和/或内部结构域序列,或者由其组成。
5’-ITR和3’-ITR的位置可在转座子载体上互换。因此,在一些实施方案中,PB转座酶3’-识别位点序列包含TRL或由其组成。在一些实施方案中,PB转座酶5’-识别位点序列包含TRR或由其组成。在一些实施方案中,PB转座酶3’-识别位点包含TRL和IRL、任选地和间隔区和/或内部结构域序列,或者由其组成。在一些实施方案中,PB转座酶5’-识别位点包含TRR和IRR、任选地和间隔区和/或内部结构域序列,或者由其组成。
在一些实施方案中,PB转座酶5’-识别位点包含与SEQ ID NO:31至少80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%相同的序列、或由其组成。在一些实施方案中,PB转座酶3’-识别位点包含与SEQ ID NO:32至少80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%相同的序列、或由其组成。在一些实施方案中,PB转座酶5’-识别位点包含具有SEQ ID NO:31的至少或约50、100、110、120、130、140、150、160、170、180、190、200、210、220、或230个连续核苷酸或完整序列的序列,或者由其组成。在一些实施方案中,PB转座酶3’-识别位点包含具有SEQ ID NO:32的至少或约50、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、或310个连续核苷酸或完整序列的序列,或者由其组成。
在一些实施方案中,ITR或PB转座酶识别位点之间的序列的长度为至少或约1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、或100kb。在一些实施方案中,转座子包含范围在1.5-3kb、1.5-5kb、1.5-10kb、1.5-20kb、1.5-30kb、1.5-50kb、1.5-75kb、2-5kb、2-10kb、2-20kb、2-30kb、2-50kb、2-75kb、3-5kb、3-10kb、3-20kb、3-30kb、3-50kb、3-75kb、5-10kb、5-20kb、5-30kb、5-50kb、5-75kb、10-20kb、10-30kb、10-50kb、或10-75kb之间的插入物。
本公开还提供用于制备含有目标基因或目标序列的转座子载体的载体。在一些实施方案中,载体包含如本文所述的5’-ITR和3’-ITR、和5’-ITR和3’-ITR之间的连接子序列。在一些实施方案中,载体包含如本文所述的PB转座酶5’-识别位点和PB转座酶3’-识别位点、和两种识别位点之间的连接子序列。在一些实施方案中,连接子序列是短长度的DNA(例如,小于20、30、40、50、60、70、80、90、100或200个核苷酸),其包含位置靠近的许多不同核酸内切酶限制性位点。连接子序列的存在是有利的,因为其允许容易地插入和去除各种外源序列如表达盒,由此简化制备含有特定靶向的DNA片段的载体的过程。如本文所用,表达盒是具有要通过转染的细胞表达的基因和该基因的调节序列的载体或序列的不同组件。在一些实施方案中,转座子载体可具有各种调节元件或遗传元件,例如启动子(例如,诱导型启动子)、增强子、或绝缘子,等等。
当将该转座子载体引入宿主细胞时,在存在对于侧翼反向序列为特异性的转座酶活性的情况下,靶向的DNA序列将从引入的载体切除并将插入基因组中的位置。在存在转座酶活性的情况下,促进靶向的DNA的转座。编码转座酶的基因可物理地连接至已存在于宿主细胞的基因组中的转座子载体,或作为单独的载体的一部分引入细胞。在一些实施方案中,可使用诱导型启动子作为引发生产或转座酶活性的手段。
调节元件
本公开还提供各种调节元件。如本文所用,本公开中的术语“调节元件”是指参与基因转录和/或翻译调节的序列。在一些实施方案中,调节元件是转录调节元件或翻译调节元件。在一些实施方案中,调节元件可以使mRNA稳定化。在一些实施方案中,这些调节元件衍生自CHO-K1细胞。在一些实施方案中,这些调节元件可增加目标基因的表达水平。
本公开表明,表1中所列出的调节元件可增加目标基因的表达水平。不希望受理论束缚,已假设这些调节元件可增加转录效率并且稳定转录的mRNA。在一些实施方案中,这些调节元件可使mRNA抵抗降解。
SEQ ID NOs:1-15是调节元件的序列。反向互补序列提供于SEQ ID NOs:16-30。在一方面,本公开提供分离的多核苷酸分子,其包含:(i)SEQ ID NOs:1-15的任一者的序列;(ii)SEQ ID NOs:1-15的任一者的序列的反向互补序列;(iii)在高严格性杂交条件或非常高严格性杂交条件下,能够与(i)或(ii)的序列杂交的序列的反向互补序列;和(iv)与SEQID NOs:1-30至少或约80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%相同的序列。如本文所用,本公开中的术语“反向互补序列”是与原始多核苷酸的序列的方向相反并且还与原始多核苷酸的序列互补的序列。示例性地,如果原始多核苷酸序列是ACTGAAC,则其反向互补序列为GTTCAGT。
在一方面,本公开还提供包含启动子和目标基因的序列。调节元件序列可位于目标基因的5’处(例如,在启动子和目标基因之间)、或位于目标基因的3’端(例如,在目标基因和polyA信号序列之间)。
在一些实施方案中,调节元件具有与SEQ ID NOs:1-30的任一者的序列具有至少或约80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%(包括在这些值之间的所有范围和百分比)的序列同一性。在一些实施方案中,所述序列与选自SEQ ID NOs:1-30的序列相差至少或约1、2、3、4、5、6、7、8、9、或10个核苷酸。在一些实施方案中,所述序列与选自SEQ ID NOs:1-30的序列相差不超过1、2、3、4、5、6、7、8、9、或10个核苷酸。
序列可具有正向或反向。在一些实施方案中,调节元件序列可增加外源蛋白的表达量约或至少1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、20%、30%、40%、50%、60%、70%、或80%(例如,与不具有调节元件序列的对照序列相比)。
调节元件序列可位于启动子之后(例如,在编码序列的有义链上从5’至3’)或位于编码多肽的多核苷酸之后(例如,在编码序列的有义链上从5’至3’)。在一些实施方案中,调节元件位于编码多肽的多核苷酸之前(例如,转录至5’-非翻译区(5’-UTR))。在一些实施方案中,在调节元件序列和启动子之间、或在调节元件序列和编码多肽的多核苷酸之间存在至少或约0、1、2、3、4、5、6、7、8、9、10、100、200、300、400、500、600、700、800、900、或1000个核苷酸。在一些实施方案中,在调节元件序列和启动子之间、或在调节元件序列和编码多肽的多核苷酸之间存在不超过1、2、3、4、5、6、7、8、9、10、100、200、300、400、500、600、700、800、900、或l000个核苷酸。
在一些实施方案中,调节元件序列可位于编码多肽的多核苷酸之后(例如,紧接其后)(例如,转录至3’-UTR)。在一些实施方案中,在调节元件序列和编码多肽的序列的末端之间、或在调节元件序列和polyA信号序列之间存在至少或约0、1、2、3、4、5、6、7、8、9、10、100、200、300、400、500、600、700、800、900、或1000个核苷酸。在一些实施方案中,在调节元件序列和编码多肽的序列的末端之间、或在调节元件序列和polyA信号序列之间存在不超过0、1、2、3、4、5、6、7、8、9、10、100、200、300、400、500、600、700、800、900、或1000个核苷酸。
本公开还提供筛选调节元件序列的方法。在一些实施方案中,RNA测序(RNA-seq)可用于测序并定量细胞(例如,CHO细胞)中的mRNA。提取总RNA。在一些实施方案中,cDNA产生自提取的RNA。将RNA的量按丰度排名。并且选择排名在前的RNA的非翻译区的序列。在一些实施方案中,进行如本文所述的实验以验证调节元件对蛋白表达的作用。在一方面,通过高通量测序方法(例如,RNA-seq)测序并定量不同阶段的期望的宿主细胞(例如,CHO-K1细胞)的mRNA。在一些实施方案中,可进行瞬时转染以及稳定转染。可以通过瞬时转染在适当时间(例如,第6天、第8天、第10天、第12天、或第14天)后从适当数量(例如,至少或约10、20或30个)的样品提取总RNA,或者在适当时间(例如,第6天、第8天、第10天、第12天、或第14天)的传统补料分批工艺(fed-batch process)(例如,14天补料分批工艺)后,从适当数量(例如,至少或约10、20、或30个)的稳定转染样品(例如,稳定的蛋白表达细胞系)提取总RNA。
在一些实施方案中,可相应地产生cDNA(例如,通过逆转录)并用于测序(例如,高通量测序)。借助于测序数据和相对读长(read)数,可提取mRNA并按所有样品中的平均丰度来排名。在一些实施方案中,可从排名在前的mRNA(例如,至少或约前5名、前10名、前15名、前20名、前25名、前30名、前35名、前40名、或更多)的非翻译区提取调节元件(RE)序列。
在一些实施方案中,本文所述的调节元件序列可并入融合蛋白表达质粒(例如,紧接在重组蛋白表达基因之前、或紧接其后)。在一些实施方案中,不含有任何调节元件序列的对照样品可用于确定调节元件的作用。
WXRE调节元件
调节元件可调节基因转录和/或翻译。在一些实施方案中,调节元件是转录调节元件,例如WXRE调节元件。如图6中所示,本公开中的WXRE包括转录调节元件A(SEQ ID NO:35)、转录调节元件B(SEQ ID NO:36)、转录调节元件C(SEQ ID NO:37)、转录调节元件D(SEQID NO:38)、转录调节元件E(SEQ ID NO:39)、转录调节元件F(SEQ ID NO:40)、转录调节元件G(SEQ ID NO:41)、转录调节元件H(SEQ ID NO:42)、转录调节元件I(SEQ ID NO:43)、转录调节元件J(SEQ ID NO:44)、转录调节元件K(SEQ ID NO:45)、和转录调节元件L(SEQ IDNO:46)。相应地,如图7中所示,本公开中WXRE的反向互补序列包括转录调节元件A的反向互补序列(SEQ ID NO:47)、转录调节元件B的反向互补序列(SEQ ID NO:48)、转录调节元件C的反向互补序列(SEQ ID NO:49)、转录调节元件D的反向互补序列(SEQ ID NO:50)、转录调节元件E的反向互补序列(SEQ ID NO:51)、转录调节元件F的反向互补序列(SEQ ID NO:52)、转录调节元件G的反向互补序列(SEQ ID NO:53)、转录调节元件H的反向互补序列(SEQID NO:54)、转录调节元件I的反向互补序列(SEQ ID NO:55)、转录调节元件J的反向互补序列(SEQ ID NO:56)、转录调节元件K的反向互补序列(SEQ ID NO:57)、转录调节元件L的反向互补序列(SEQ ID NO:58)。
在一些实施方案中,WXRE序列具有与SEQ ID NOs:35-58的任一者的序列的至少或约80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%(包括这些值之间的所有范围和百分比)的序列同一性。在一些实施方案中,WXRE序列与选自SEQ ID NOs:35-58的序列相差至少或约1、2、3、4、5、6、7、8、9、或10个核苷酸。在一些实施方案中,WXRE序列与选自SEQ ID NOs:35-58的序列相差不超过1、2、3、4、5、6、7、8、9、或10个核苷酸。
WXRE序列可具有正向或反向。如本文所用,当有义链(从5’至3’)具有与目标序列相同的序列时,目标序列具有正向。当有义链具有与目标序列反向互补的序列时,目标序列具有反向。与SEQ ID NOs:35-46反向互补的序列分别记载于SEQ ID NO:47-58。
在一些实施方案中,WXRE序列可增加外源蛋白的表达量约或至少10%、20%、30%、40%、50%,60%,70%、或80%(例如,与不具有WXRE序列的对照序列相比)。
在一些实施方案中,WXRE序列、启动子、和编码多肽的多核苷酸可操作地连接在一起。在一些实施方案中,WXRE序列、启动子、编码多肽的多核苷酸、和一种以上的其它调节元件可操作地连接在一起。在一些实施方案中,其它调节元件是如本文所述的调节元件(例如,SEQ ID NOs:1-30)。在一些实施方案中,EF-1α的内含子(例如,人EF-1α的第一内含子)可用于增加表达。可操作地连接在一起的WXRE序列、启动子、和编码多肽的多核苷酸可具有多种顺序。例如,WXRE序列可位于启动子之前(例如,在编码序列的有义链上从5’至3’)或位于编码多肽的多核苷酸之后(例如,在编码序列的有义链上从5’至3’)。在一些实施方案中,在WXRE序列和启动子之间、或在WXRE序列和编码多肽的多核苷酸之间存在至少或约0、1、2、3、4、5、6、7、8、9、10、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000或5000个核苷酸。在一些实施方案中,在WXRE序列和启动子之间、或在WXRE序列和编码多肽的多核苷酸之间存在不超过1、2、3、4、5、6、7、8、9、10、100、200、300、400、500、600、700、800、900、l000、2000、3000、4000或5000个核苷酸。在一些实施方案中,一种以上的其它调节元件位于启动子和编码多肽的序列之间。
在一些实施方案中,使用在本公开中所列出的转录调节元件(WXRE)可以使外源蛋白仍维持其生物活性、同时极大增加表达水平(例如,至少1、2、3、4、5、6、7、8、9、10、15、20、25、或30倍)。
在一些实施方案中,本公开中所列出的转录调节元件(WXRE)可与其它调节元件作为整体一起使用,在使外源蛋白的表达水平能够大幅提高的同时仍维持其生物活性。
因此,在一方面,本公开涉及分离的多核苷酸分子,其包含选自由(i)至(iv)组成的组的核苷酸序列:(i)SEQ ID NOs:35-46的任一者的序列;(ii)SEQ ID NOs:35-46的任一者的序列的反向互补序列;(iii)能够在高严格性杂交条件或非常高严格性杂交条件下与(i)或(ii)的序列杂交的序列的反向互补序列;和(iv)与(i)或(ii)的序列具有至少80%序列同一性、或至少90%序列同一性、可选地至少95%序列同一性、优选至少97%序列同一性、更优选至少98%序列同一性、最优选至少99%序列同一性的序列。
各种WXRE序列及其使用方法描述于例如WO2020/034097A1和WO2020/034986A1,其以其整体通过引用结合在此。
在本公开的一些实施方案中,WXRE序列可插入两个载体中。它们可为相同的或不同的,并可具有正向或反向。两个载体中的WXRE的示例性组合列于表2。
表2两个载体中的WXRE的示例性组合
Figure BDA0003805140420000221
Figure BDA0003805140420000231
Figure BDA0003805140420000241
Figure BDA0003805140420000251
Figure BDA0003805140420000261
表达系统
本公开提供利用如本文所述的piggyBac转座子和/或一种以上的调节元件的有效蛋白表达系统。如本文所用,术语“蛋白表达系统”或“表达系统”是指包括宿主和含有异源序列(例如,外源基因)的载体的系统,并且可通过该系统实现异源序列在宿主中的表达。蛋白表达系统通常包含以下部分:(1)宿主,即表达蛋白的生物体,其可选自细菌、酵母、植物细胞、动物细胞等;(2)一种以上的载体。载体的类型与宿主匹配。根据宿主的不同,载体可以是原核(细菌)表达载体、酵母表达载体、植物表达载体、哺乳动物表达载体、昆虫表达载体等。载体包含异源基因的片段。异源基因可以通过载体的介导而在宿主中表达。在一些实施方案中,分泌表达的蛋白产物。在一些实施方案中,载体整合至宿主细胞DNA。
载体可以是用于多核苷酸的递送运载体(delivery vehicle)。在一些实施方案中,载体包括可操作地插入其中的编码特定蛋白的多核苷酸序列,并且允许在基因工程化重组技术中表达该蛋白。载体可用于转化、转导或转染宿主细胞。本公开中的载体可以是任何合适的载体,其包括染色体、非染色体、和合成核酸载体(包括一组合适的表达各种元件的核酸序列)。例如,载体可以是重组质粒载体、重组真核病毒载体、重组噬菌体载体、重组酵母微型染色体载体、重组细菌人工染色体载体、或重组酵母质粒载体。
在一些实施方案中,本公开中的载体可包括SV40的衍生物、细菌质粒、噬菌体DNA、杆状病毒、酵母质粒、衍生自质粒和噬菌体DNA的组合的载体、和例如病毒核酸(RNA或DNA)等载体。在一些实施方案中,载体是腺相关病毒(AAV)载体。
如本文所用,本公开中的术语“宿主细胞”是指接受引入其中的异源多核苷酸和/或载体的细胞。宿主细胞可以是真核宿主细胞或原核宿主细胞,其中真核宿主细胞可以是哺乳动物宿主细胞、昆虫宿主细胞、植物宿主细胞、真菌宿主细胞、真核藻类(algae)宿主细胞、线虫类(nematode)宿主细胞、原生动物宿主细胞、和鱼宿主细胞。示例性地,本公开中的宿主细胞是真核宿主细胞,例如哺乳动物宿主细胞。在一些实施方案中,哺乳动物宿主细胞是中国仓鼠卵巢(CHO)细胞、COS细胞、Vero细胞、SP2/0细胞、NS/O骨髓瘤细胞、幼仓鼠肾细胞(immature hamster kidney cell)、HeLa细胞、人B细胞、cv-1/EBNA细胞、L细胞、3T3细胞、HEPG2细胞、PerC6细胞、人胚胎肾293(HEK 293)细胞、或MDCK细胞。在一些实施方案中,细胞是具有腺病毒5型(ad5)的转化早期区域(E1)的人胚胎视网膜细胞(PER.C6)。CHO细胞常规用于生物医药蛋白的生产。在一些实施方案中,CHO细胞是CHO-K1细胞、CHO-DG44细胞、或CHO-S细胞。在优选实施方案中,CHO细胞是CHO-K1细胞。
蛋白表达中的关键步骤是筛选已成功地转染有含有编码目标蛋白的异源基因的载体的重组宿主细胞。大部分常用的选择标记物包含在载体中。选择标记物可以是允许分离含有标记物的重组宿主细胞和不含有标记物的重组宿主细胞的基因或DNA序列。选择标记物和选择培养基的组合允许已转染有载体的重组宿主细胞的生长,而在一些实施方案中,抑制未成功转染的宿主细胞的生长。
抗生素抗性基因是用于重组宿主细胞选择的最常用的标记物。可使用作为选择标记物的抗生素抗性基因与含有抗生素的选择培养基的组合以实现选择。示例性抗生素选择标记物包括但不限于氨苄青霉素抗性基因、氯霉素抗性基因、卡那霉素抗性基因、四环素抗性基因、多粘菌素B抗性基因、红霉素抗性基因、羧苄青霉素抗性基因、链霉素抗性基因、大观霉素抗性基因、杀稻瘟菌素抗性基因、新霉素抗性基因、嘌呤霉素抗性基因、博莱霉素抗性基因、和潮霉素B抗性基因。因此,选择抗生素包括但不限于氨苄青霉素、氯霉素、卡那霉素、四环素、多粘菌素B、红霉素、羧苄青霉素、链霉素、大观霉素、杀稻瘟菌素、新霉素、嘌呤霉素、博莱霉素、和潮霉素B。在一些实施方案中,选择标记物是杀稻瘟菌素抗性基因。在一些实施方案中,选择标记物是博莱霉素抗性基因。
在一些实施方案中,选择培养基可包含以下成分的一种以上:血清、多糖(例如,葡萄糖(glucose)和/或右旋糖(dextrose))、丙酮酸钠、谷胱甘肽、乙醇胺、氨基酸(例如甘氨酸、丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、谷氨酰胺、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸、和/或缬氨酸)或其盐、维生素(例如,抗坏血酸磷酸盐、氯化胆碱、D-泛酸钙、叶酸、烟酰胺、吡哆醇盐酸盐、核黄素、盐酸硫胺、和/或肌醇(i-inositol))、无机盐(例如,氯化钙、硝酸铁、硫酸镁、氯化钾、碳酸氢钠、氯化钠、和/或磷酸氢二钠)、蛋白质(例如,人转铁蛋白和/或重组胰岛素)、和/或微量元素(例如,偏钒酸铵、硫酸铜、二氯化锰(manganous chloride)、和/或亚硒酸钠)。
表达系统可用于表达各种蛋白或多肽,例如抗体、融合蛋白、酶、可溶性蛋白、膜蛋白、结构蛋白、核糖体蛋白、酶原、细胞表面受体蛋白、转录调节蛋白、翻译调节蛋白、染色质蛋白、激素、细胞周期调节蛋白、G蛋白、神经活性肽、免疫调节蛋白、血液组分蛋白、离子门蛋白、热休克蛋白、二氢叶酸还原酶、抗生素抗性蛋白、任一所述蛋白的功能性片段、任一所述蛋白的表位片段、及其任意组合。
如本文所用,本公开中的术语“抗体”是指免疫球蛋白、其片段、或它们的衍生物,并且包括任何含有抗原结合位点的多肽,无论其是体外或体内产生的。该术语包括但不限于多克隆抗体、单克隆抗体、单特异性抗体、双特异性抗体、三特异性抗体、多特异性抗体、非特异性抗体、人源化抗体、全人源抗体(fully human antibody)、嵌合抗体、单结构域抗体、单链抗体、合成抗体、重组抗体、杂合抗体(heterozygous antibody)、突变抗体(mutated antibody)、和移植抗体(grafted antibody)。术语“抗体”还包括抗体片段例如Fab、Fab’、F(ab’)2、Fv、scFv、Fd、dAb、和保持抗原结合功能的其它抗体片段。典型地,此类片段将包括抗原结合片段。
如本文所用,本公开中的术语“融合蛋白”是指包含两个以上的蛋白或其片段的分子,所述两个以上的蛋白或其片段通过共价键经由它们各自的肽主链连接,更优选地,融合蛋白是通过编码这些蛋白的多核苷酸分子的基因表达来产生的。在一些实施方案中,融合蛋白包括免疫球蛋白结构域。在一些实施方案中,融合蛋白是Fc融合蛋白。
在一些实施方案中,可用于与表达系统相连的抗体包括,例如,阿达木单抗(Adalimumab)、贝洛托舒单抗(Bezlotoxumab)、阿维鲁单抗(Avelumab)、度匹鲁单抗(Dupilumab)、德瓦鲁单抗(Durvalumab)、奥瑞珠单抗(Ocrelizumab)、柏达鲁单抗(Brodalumab)、瑞利珠单抗(Reslizumab)、奥拉单抗(Olaratumab)、达雷木单抗(Daratumumab)、埃罗妥珠单抗(Elotuzumab)、耐昔妥珠单抗(Necitumumab)、英夫利昔单抗(Infliximab)、奥托萨昔单抗(Obiltoxaximab)、阿特珠单抗(Atezolizumab)、苏金单抗(Secukinumab)、美泊利单抗(Mepolizumab)、纳武单抗(Nivolumab)、阿利库单抗(Alirocumab)、依洛库单抗(Evolocumab)、地努妥昔单抗(Dinutuximab)、贝伐珠单抗(Bevacizumab)、派姆单抗(Pembrolizumab)、雷莫芦单抗(Ramucirumab)、维多珠单抗(Vedolizumab)、司妥昔单抗(Siltuximab)、阿伦单抗(Alemtuzumab)、曲妥珠单抗(Trastuzumab)、帕妥珠单抗(Pertuzumab)、奥滨尤妥珠单抗(Obinutuzumab)、本妥昔单抗(Brentuximab)、雷昔库单抗(Raxibacumab)、贝利木单抗(Belimumab)、伊匹单抗(Ipilimumab)、迪诺苏单抗(Denosumab)、奥法木单抗(Ofatumumab)、贝索单抗(Besilesomab)、托珠单抗(Tocilizumab)、卡那津单抗(Canakinumab)、戈利木单抗(Golimumab)、乌司奴单抗(Ustekinumab)、赛妥珠单抗(Certolizumab)、卡妥索单抗(Catumaxomab)、依库珠单抗(Eculizumab)、兰尼单抗(Ranibizumab)、帕尼单抗(Panitumumab)、那他珠单抗(Natalizumab)、奥马珠单抗(Omalizumab)、西妥昔单抗(Cetuximab)、依法珠单抗(Efalizumab)、替伊莫单抗(Ibritumomab)、法索单抗(Fanolesomab)、托西莫单抗(Tositumomab)、吉妥珠单抗(Gemtuzumab)、帕利珠单抗(Palivizumab)、耐昔妥珠单抗(Necitumumab)、巴利昔单抗(Basiliximab)、利妥昔单抗(Rituximab)、卡罗单抗(Capromab)、沙妥莫单抗(Satumomab)、和莫罗单抗(Muromonab)。
在一些实施方案中,可用于本公开的融合蛋白包括,例如,依那西普(Etanercept)、阿法西普(Alefacept)、阿巴西普(Abatacept)、利纳西普(Rilonacept)、罗米司亭(Romiplostim)、贝拉西普(Belatacept)、和阿柏西普(Aflibercept)。
在一些实施方案中,表达系统提供至少两个转座子载体。一个转座子载体设计成携带编码第一多肽(例如,抗体重链)的序列。第二转座子载体设计成携带编码第二多肽(例如,抗体轻链)的序列。在一些实施方案中,一个单一的转座子载体提供编码两个以上的多肽的序列。例如,编码抗体重链的序列和编码抗体轻链的序列可在同一转座子载体上。它们可位于转座子载体中的相同的表达盒中或位于不同表达盒中。
在一些实施方案中,转座子载体可包括从5’至3’包含一个以上的以下元件或由其组成的序列:TTAA,5’-ITR,任选地5’-内部结构域,启动子,目标基因,选择标记物,任选地3’-内部结构域,3’-ITR,和TTAA。在一些实施方案中,转座子载体可包括从5’至3’包含一个以上的以下元件或由其组成的序列:PB转座酶5’-识别位点,启动子,目标基因,选择标记物,和PB转座酶3’-识别位点。在一些实施方案中,序列可进一步包括两个以上的调节元件。一个或两个调节元件可位于启动子和目标基因之间和/或目标基因和polyA信号序列之间。因此,在一些实施方案中,转座子载体可包括从5’至3’包含一个以上的以下元件或由其组成的序列:TTAA,5’-ITR,任选地5’-内部结构域,启动子,调节元件,目标基因,调节元件,polyA信号序列,用于选择标记物的启动子,选择标记物,用于选择标记物的polyA信号序列,任选地3’-内部结构域,3’-ITR,和TTAA。在一些实施方案中,转座子载体可包括从5’至3’包含一个以上的以下元件或由其组成的序列:PB转座酶5’-识别位点,启动子,调节元件,目标基因,调节元件,polyA信号序列,用于选择标记物的启动子,选择标记物,用于选择标记物的polyA信号序列,和PB转座酶3’-识别位点。
目标基因可实际上包含编码两个以上的多肽(例如,抗体重链和抗体轻链)的序列。这些序列可通过编码自切割肽(例如,P2A或T2A)或蛋白酶识别位点(例如,弗林(furin))的序列而彼此分隔。由此,开放阅读框(ORF)编码单个多蛋白,所述多蛋白在翻译期间或翻译后可切割成单个蛋白。类似地,转座酶载体可具有包含启动子、piggyBac转座酶编码序列、polyA信号序列或者由其组成的序列。在一些实施方案中,转座酶载体进一步包含选择标记物。
目标基因的表达可通过WXRE转录调节元件来进一步增强。在一些实施方案中,转座子载体可包括从5’至3’包含一种以上的以下元件或由其组成的序列:TTAA,5’-ITR,任选地5’-内部结构域,WXRE转录调节元件,启动子,任选地人EF-1α的第一内含子,调节元件,目标基因,调节元件,polyA信号序列,用于选择标记物的启动子,选择标记物,用于选择标记物的polyA信号序列,任选地3’-内部结构域,3’-ITR,和TTAA。在一些实施方案中,转座子载体可包括从5’至3’包含一种以上的以下元件或由其组成的序列:PB转座酶5’-识别位点,WXRE转录调节元件,启动子,任选地人EF-1α的第一内含子,调节元件,目标基因,调节元件,polyA信号序列,用于选择标记物的启动子,选择标记物,用于选择标记物的polyA信号序列,和PB转座酶5’-识别位点。
在一些实施方案中,启动子是CMV启动子。在一些实施方案中,CMV启动子与SEQID:59中所示序列具有序列同一性。在一些实施方案中,与SEQ ID:59中所示序列具有序列同一性的序列与SEQ ID:59中所示序列具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%(包括这些值之间的所有范围和百分比)的序列同一性。
在一些实施方案中,启动子是诱导型启动子。诱导型启动子包括任何能够通过给定基因应答于暴露于诱导剂而增加基因产物的产生量的启动子。因此,使用该构建体允许控制引入宿主细胞的靶标功能性基因或转座酶的表达。本领域技术人员知晓诱导型启动子,并且存在多种可用于驱动表达的诱导型启动子。诱导型系统包括,例如,热休克启动子系统、金属硫蛋白系统、糖皮质激素系统、组织特异性启动子等。通过热休克调节的启动子,例如通常与编码70kDa热休克蛋白的基因相关的启动子,可在暴露于升高的温度后增加几倍的表达。糖皮质激素系统也在触发基因的表达方面良好地起作用。该系统由编码糖皮质激素受体蛋白(GR)的基因组成,所述蛋白在存在类固醇激素(即,糖皮质激素或其合成等同物之一如地塞米松)的情况下与激素形成复合物。然后,该复合物结合至称为糖皮质激素应答元件(GRE)的短核苷酸序列(26bp),并且该结合激活连接的基因的表达。因此,诱导型启动子可用作环境诱导型启动子用于控制引入的基因的表达。
在一些实施方案中,诱导型启动子是T7启动子。在一些实施方案中,诱导型启动子是PA1lacO1启动子。在一些实施方案中,诱导型启动子是由选自包括以下的组的试剂来激活的:IPTG、水杨酸钠、octapine、胭脂氨酸、群体信号(quorum signal)3OC6HSL、aTc、枯茗酸(cuminic acid)、DAPG、和水杨酸。在一些实施方案中,诱导型启动子具有终止子并且终止子在诱导型启动子的下游。由外源提供的启动子调节的诱导型启动子的实例包括锌诱导型绵羊金属硫蛋白(MT)启动子、地塞米松(Dex)诱导型小鼠乳腺肿瘤病毒(MMTV)启动子、T7聚合酶启动子系统、蜕皮激素昆虫启动子、四环素抑制型系统(tetracycline-repressiblesystem)、四环素诱导型系统、和雷帕霉素诱导型系统。
启动子还可以是多顺反子的(双顺反子的或三顺反子的)。例如,在一些实施方案中,转录单位可工程化为含有IRES(内部核糖体进入位点)的双顺反子单位,这允许通过来自单一启动子的信息而共表达基因产物(例如,编码抗体重链和抗体轻链)。可选地,在一些情况中,单一启动子可指导如下RNA的表达,所述RNA在单一开放阅读框(ORF)中包含通过编码自切割肽(例如,P2A或T2A)或蛋白酶识别位点(例如,弗林)的序列而彼此分隔的两种或三种基因(例如,编码TCR的α链和/或β链)。因此,ORF编码单一的多蛋白,所述多蛋白在翻译期间(在2A如T2A的情况中)或翻译后切割为单个的蛋白。在一些情况中,例如T2A等肽可导致核糖体跳过2A元件的C末端处的肽键的合成(核糖体跳跃(ribosome skipping)),导致2A序列的末端和下游的下一个肽之间的分离。
人EF-1α的第一内含子可用于增加表达水平。人EF-1α的第一内含子可具有与SEQID:34中所示序列具有序列同一性的序列。在一些实施方案中,与SEQ ID:34中所示序列具有序列同一性的序列与SEQ ID:34(人EF-1α的第一内含子)中所示序列具有至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%(包括这些值之间的所有范围和百分比)的序列同一性。
在一些实施方案中,如本文所述的表达系统可增加外源蛋白的表达量约或至少1、2、3、4、5、6、7、8、9、10、15、20、30、40、或50倍(例如,与不具有调节元件序列或piggyBac转座子的对照表达系统相比)。
本公开还提供了与本文所述的任意核苷酸序列至少1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%相同的核酸序列,和与本文所述的任意氨基酸序列至少1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%相同的氨基酸序列。在一些实施方案中,本公开涉及编码如本文所述的任意肽的核苷酸序列、或由如本文所述的任意核苷酸序列编码的任意氨基酸序列。在一些实施方案中,核酸序列小于10、20、30、40、50、60、70、80、90、100、110、120、130、150、200、250、300、350、400、500、600、700、800、900、1000、或5000个核苷酸。在一些实施方案中,氨基酸序列小于5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、500、或1000个氨基酸残基。
如本文所用,本公开中的术语“序列同一性”和“百分比同一性”是指两个以上的多核苷酸或多肽之间相同(即,同一)核苷酸或氨基酸的百分比。两个以上的多核苷酸或多肽之间的序列同一性可通过以下方法来确定。对齐多核苷酸或多肽的核苷酸序列或氨基酸序列,对在对齐的多核苷酸或多肽中含有相同核苷酸或氨基酸残基的位置的数量进行评分,并与在对齐的多核苷酸或多肽中含有不同核苷酸或氨基酸残基的位置的数量相比较。多核苷酸可在一个位置处不同,例如,通过含有不同的核苷酸(即,置换或突变)或通过删除核苷酸(一个以上)(即,在一个或两个多核苷酸中插入核苷酸(一个以上)或删除核苷酸(一个以上))。多肽可在一个位置处不同,例如,通过含有不同的氨基酸(即,置换或突变)或通过删除氨基酸(一个以上)(即,在一个或两个多肽中插入氨基酸(一个以上)或删除氨基酸(一个以上))。可通过将含有相同核苷酸或氨基酸残基的位置的数量除以多核苷酸或多肽中氨基酸残基的总数来计算序列同一性。例如,可通过将含有相同核苷酸或氨基酸残基的位置的数量除以多核苷酸或多肽中核苷酸或氨基酸残基的总数来计算百分比同一性。因此,两条序列之间的百分比同一性是由序列共享的相同位置的数量的函数,考虑到空位的数量、和各空位的长度,需要将其引入以用于两条序列的最佳对齐。为了本公开的目的,序列的比较和两条序列之间的百分比同一性的确定可例如使用Blossum 62评分矩阵和空位罚分12、空位延伸罚分4、和移码空位罚分5来完成。
本公开还提供包含如本文所述的重组宿主细胞的试剂盒,和/或包含如本文所述的载体或表达系统的试剂盒。
使用表达系统、转座子载体、和转座酶载体的方法
本公开提供使用表达系统、转座子载体、和转座酶载体的方法。
在一方面,本文提供使用表达系统以在宿主细胞(例如,中国仓鼠卵巢(CHO)细胞、CHO-K1细胞、或任何通常用于本领域已知的蛋白表达的细胞)中产生重组蛋白的方法。
在一些实施方案中,适当数量的宿主细胞(例如,至少或约100万、200万、300万、500万、600万、800万、900万、1000万、2000万、3000万、4000万、5000万、或1亿个)由适当量的转座子载体(例如,重组蛋白表达质粒)和转座酶载体(例如,转座酶表达质粒)转染。在一些实施方案中,细胞密度在350万至450万个细胞/mL之间。在一些实施方案中,宿主细胞由总计至少或约1μg的转座子载体转染(例如,至少或约1μg、2μg、3μg、4μg、5μg、6μg、7μg、8μg、9μg、10μg、20μg、30μg、40μg、50μg、或100μg)。
在一些实施方案中,用于转染的转座子载体(例如,重组蛋白表达质粒)和转座酶载体(例如,转座酶表达质粒)具有约1:1、约2:1、约3:1、约4:1、约5:1、约6:1、约7:1、约8:1、约9:1、约10:1、约11:1、约12:1、约13:1、约14:1、约15:1、约16:1、约17:1、约18:1、约19:1、或约20:1的质量比。然后,将转染的细胞重悬于适当体积(例如,至少或约1mL、2mL、3mL、4mL、5mL、6mL、7mL、8mL、9mL、10mL、15mL、20mL、30mL、40mL、或50mL)的宿主细胞培养物中。所得溶液可混合并培养在振荡培养箱(例如,
Figure BDA0003805140420000351
振荡培养箱)中。
许多转化或转染技术可用于将载体引入细胞。电穿孔也是用于将DNA引入细胞的常用方法。在该技术中,对细胞进行高场强(high field strength)的电脉冲,所述电脉冲可逆地透化生物膜,允许外源DNA序列的进入。在一些实施方案中,用载体显微注射受精卵。在一些实施方案中,可添加PEI(聚醚酰亚胺)以将如本文所述的质粒转导至宿主细胞(例如,CHO-K1细胞)。在一些实施方案中,通过使用微量移液管可将载体直接显微注射至细胞中。可选地,高速弹道法(high velocity ballistic)可用于将携DNA小颗粒(small DNAassociated particles)推入细胞。在一些实施方案中,通过聚乙二醇的存在来透化细胞,从而允许DNA通过扩散进入细胞。还可通过将原生质体与其它含有DNA的载体融合来将DNA引入细胞。这些载体包括小细胞(minicell)、细胞、溶酶体或其它可溶性脂质表面体(lipid-surfaced body)。所得细胞培养物可在培养箱(例如,振荡培养箱)中的合适的容器(例如,离心管(spin tube))中培养。
在适当时间(例如,至少或约2小时、4小时、6小时、12小时、18小时、24小时、30小时、36小时或更多)的转染后,可将适当体积(例如,至少或约1mL、2mL、5mL、10mL、15mL、或20mL)的含有选择用抗生素(例如,杀稻瘟菌素、遗传霉素(G-418)、潮霉素B、霉酚酸、嘌呤霉素、博莱霉素)的新鲜培养基加入转染的细胞培养物中。抗生素试剂对应于如本文所述的抗生素抗性基因。可对天然宿主细胞(例如,无修饰的细胞)确定(例如,通过杀伤曲线实验)抗生素的浓度。此外,补充培养基的浓度可与用于选择的正常抗生素浓度的水平为相同的或较高的(例如,至少或约2倍、3倍、4倍、5倍或更高)。
在一些实施方案中,用含有所选抗生素试剂的新鲜培养基进行细胞传代(例如,每天、每2天、每3天、每4天、每5天、或每6天)。可基于细胞生长条件(例如,细胞的存活率、生长速率、和倍增时间)来调整接种密度。
在一些实施方案中,在适当时间(大约1周、大约2周、大约3周、大约4周、大约5周或更长)的抗生素选择后,细胞培养物可用于以与各转染的细胞培养物所确定的大约相同的接种密度分别接种生产基础培养基。可在振荡培养箱中培养生产细胞培养物。
在一些实施方案中,生产过程可通过批次补料培养来进行。合适类型和量的补料培养基(feeding medium)可相应地向培养物补充。
在一些方面,本公开提供设计用于快速提高异源多聚体(例如,抗体)表达的方法。例如,为了抗体的有效表达,抗体重链和抗体轻链需要以大致1:1比来表达。如果选择抗生素的浓度过低,细胞中功能性载体的量可能过小。如果选择抗生素的浓度过高,这可产生不利于培养细胞的条件。在一些实施方案中,本方法中的表达系统涉及一对两个载体,一个携带编码抗体重链的异源基因,另一个携带编码抗体轻链的异源基因。两个载体中的选择标记物可不相同。在一个实施方案中,第一载体中的选择标记物是杀稻瘟菌素,而第二载体中的是博莱霉素。杀稻瘟菌素和博莱霉素的浓度可为如本文所述的任何浓度。在一些实施方案中,该方法还可涉及包含编码抗体重链的异源基因和编码抗体轻链的异源基因的一个载体。需要适当地调整两个载体的比。基于在许多不同条件下的试验,已确定本文所提供的方法可高效率地表达抗体,并且可用于在相当短的时间内可靠地提高异源多聚体表达。此外,本文所提供的方法可高表达水平地表达抗体。因此,在一些实施方案中,该方法涉及转染细胞一对两个转座子载体,一个携带编码第一多肽的异源基因,另一个携带编码第二多肽的异源基因。使用两种选择标记物。一种选择标记物是杀稻瘟菌素抗性基因,另一种选择标记物是博莱霉素抗性基因。在一些实施方案中,杀稻瘟菌素以1-15μg/mL的量存在于选择培养基中,博莱霉素以50-1500μg/mL的量存在。在一些实施方案中,在约18~30小时(例如,约24小时)的转染后,在含有杀稻瘟菌素(例如,9μg/mL)和博莱霉素(例如,400μg/mL)的适当的细胞培养基中培养细胞。然后,每隔2至4天将细胞传代至含有杀稻瘟菌素和博莱霉素的新培养基。当细胞存活率恢复至90%以上时,可通过批次补料培养来评价异源多聚体的表达水平。在一些实施方案中,批次补料培养可为如本文所述的任何培养基。在一些实施方案中,批次补料培养包含杀稻瘟菌素和博莱霉素。
本公开还提供制备转基因动物的方法。在一方面,方法涉及将以下离体引入非人脊椎动物胚胎或受精的卵母细胞:包含如本文所述的转座子载体的核酸,和在相同的载体中或分别的载体上的、编码如本文所述的转座酶的核苷酸序列。可选择所得非人脊椎动物胚胎或受精的卵母细胞,然后在有利于胚胎发育为转基因非人脊椎动物的条件下将其植入相同物种的养母(foster mother)。然后,胚胎可发育为转基因非人脊椎动物,从而产生含有外源核苷酸序列的转基因非人脊椎动物。
可使用许多选择标记物,包括,例如,提供抗生素、农药(pesticide)、杀虫剂(insecticide)、除草剂抗性的基因;修饰宿主的生理机能诸如例如眼睛颜色或绿色荧光蛋白以产生改变的可见表型的基因;等。插入的DNA整合在基因组中并且可稳定传递至后续的后代。在一些实施方案中,进行杂交育种(cross-breeding)以产生具有插入的序列的杂合或纯合转基因动物。
在一些实施方案中,动物是牛、猫、犬、马、绵羊、小鼠、大鼠、豚鼠、仓鼠、貂(mink)、熊猫、或猪。在一些实施方案中,细胞是哺乳动物来源的,并且可获得自本文所描述的各种动物。
在一方面,本公开涉及制备稳定表达蛋白的重组宿主细胞的方法,所述方法包括将如本文所述的载体插入宿主细胞的步骤。在一些实施方案中,宿主细胞是中国仓鼠卵巢(CHO)细胞。在一些实施方案中,本文提供包括在允许蛋白生产的条件下培养如本文所述的重组宿主细胞的步骤的方法。
在一方面,本公开还提供用于鉴定具有期望的性质(例如,结合特异性或功能性)的多肽的方法。该方法涉及产生编码具有不同性质的多肽的多核苷酸、优选地质粒载体或双链DNA PCR扩增子的不同集合,其中所述多核苷酸包含编码位于ITR序列之间的多肽的序列,所述ITR序列由至少一种转座酶识别并与至少一种转座酶一起起作用。然后将多核苷酸的不同集合引入宿主细胞。与所述反向末端重复序列一起起作用的至少一种转座酶在宿主细胞中表达,使得多核苷酸的不同集合整合至宿主细胞基因组中,以提供表达所述多核苷酸的不同集合的宿主细胞群,所述多核苷酸编码具有不同性质的多肽。然后筛选宿主细胞以鉴定表达具有期望的性质(例如,结合特异性或功能性)的多肽的宿主细胞。然后从宿主细胞确定插入的序列。
在一方面,本公开涉及包含如本文所述的重组宿主细胞的试剂盒,在用于检测由于异常蛋白质表达而导致的疾病的试剂或试剂盒的制备中使用如本文所述的重组宿主细胞的方法。在一方面,本公开还提供在用于治疗或预防疾病的药物组合物的制备中使用如本文所述的重组宿主细胞的方法。本文还提供含有至少一种(例如,一种、两种、三种、或四种)本文所述的蛋白(例如,抗体或抗原结合片段)的药物组合物。药物组合物可以以本领域已知的任何方式来配制。
实施例
在以下实施例中进一步描述本发明,以下实施例不限制权利要求中所描述的本发明的范围。
实施例1:载体文库的构建和表达绿色荧光蛋白的稳定池(stable pool)的构建
1.1含有中国仓鼠卵巢细胞的基因组片段的载体文库的制备
1.1.1用含有限制性核酸内切酶BamHI的酶切试剂盒(NEB)中的BamHI对1μg的GFP表达载体(即,如图9所示的载体)进行酶切从而线性化,并在37℃下过夜(酶切反应中试剂的组成和含量如表3中所示),其中BamHI可以替换为任何其它存在于与GFP对应的启动子上游的与特异性酶切位点对应的内切酶。
GFP表达载体的示意图如图9所示。
表3酶切反应中试剂的组成和含量
反应组分 体积
NEB CutSmart缓冲液(Cat#B7204S) 5μL
BamHI 5μL
GFP表达载体 1μg
超纯水 补足总体积至50μL
1.1.2收获大约五百万个CHO宿主细胞,使用DNeasy血液&组织试剂盒(DNeasyBlood&Tissue Kit)(QIAGEN)提取CHO宿主细胞的基因组DNA,并将所述基因组DNA溶解于100μL的前述试剂盒的洗脱缓冲液中。
1.1.3用100单位(unit)的限制性核酸内切酶BglII(NEB)或DpnII(NEB)对5μg基因组DNA进行酶切(酶切反应中试剂的组成和含量如表4所示)。其它限制性核酸内切酶也可使用,只要与步骤1.1.1中的线性化载体的核酸内切酶的粘性末端匹配即可。
表4酶切反应中试剂的组成和含量
反应组分 体积
NEB CutSmart缓冲液(Cat#B7204S) 5μL
BamHI 5μL
CHO基因组DNA 1μg
超纯水 补足总体积至50μL
1.1.4在37℃下用2单位的小牛肠碱性磷酸酶(NEB)处理1.1.1中的线性化载体约30分钟。其它类型的碱性磷酸酶也可以使用。
1.1.5将1.1.4中线性化GFP表达载体和1.1.3中酶切后的CHO基因组DNA分别通过琼脂糖凝胶电泳进行分离。切胶回收GFP表达载体的片段和酶切后的基因组的1-4kb的片段,使用QIAquick凝胶提取试剂盒(Gel Extraction Kit)(QIAGEN)从电泳后的琼脂糖凝胶中提取DNA。
1.1.6将1.1.5中回收的GFP表达载体片段和基因组片段,使用DNA连接试剂盒(Ligation Kit)(Takara,Cat#6022)进行连接,,在16℃条件下进行连接反应45分钟(连接反应中试剂的组成和含量如表5所示)。
表5连接反应中试剂的组成和含量
反应组分 体积
回收后的CHO基因组DNA 4μL
回收后的载体 6μL
溶液I(Solution I) 20μg
超纯水 10μL
1.1.7取10μL通过1.1.6得到的连接产物,添加100μL感受态细胞,冰浴30分钟,在42℃下热激1分钟,然后置于冰上1分钟。向每管细胞添加500μL的不含抗生素的新鲜LB培养基,在37℃的温度下对细胞进行45分钟复苏。跳过涂板步骤,直接添加500mL的含有100mg/L的氨苄青霉素的培养基。使用质粒大提试剂盒(Plasmid Maxi Kit)(QIAGEN)进行载体提取。提取的DNA用作载体文库。
1.1.8使用限制性位点仅位于载体骨架原核区的限制性核酸内切酶(例如,PvuI(NEB))将1.1.7中获得的载体文库线性化,并在与1.1.1中相同的反应条件、37℃下过夜。第二天,通过酚-氯仿法来回收DNA并用于转染。
1.2表达绿色荧光蛋白的稳定池的构建
1.2.1将约五百万个CHO宿主细胞离心,弃去上清液。同时,将Amaxa SF细胞系4D-核转染试剂盒L(Amaxa SF Cell Line 4D-Nucleofector Kit L)(Lonza,Cat#VCA-1005)中的90μL的SF细胞系溶液(Cell Line Solution)、20μL的补充液I(Supplement I)和0.3μg至0.6μg的通过步骤1.1.8获得的线性化载体文库均匀混合,用该混合溶液重悬细胞并转移入电穿孔试管(electroporation cuvette)中。使用4D-NucleofectorTMSystem电穿孔仪中对应于各宿主细胞的程序对细胞进行转染。将电穿孔的细胞用5mL的不含抗生素的培养基进行重悬,并置于37℃下的摇床进行培养。
1.2.2转染24小时后,在细胞培养基中添加等体积的含有对应于载体中的抗性基因的抗生素的选择培养基进行筛选(在本实验中,抗生素为博莱霉素(800μg/mL))。
1.2.3每隔2至4天对细胞进行计数,根据细胞的生长情况进行细胞传代,并通过使用具有对应于载体中的抗性基因的抗生素的选择培养基进行筛选(在本实验中,抗生素为博莱霉素(400μg/mL))。当细胞存活率恢复至90%以上时,准备进行单克隆筛选。
实施例2:高表达绿色荧光蛋白的克隆的筛选
2.1单细胞分选和扩增
2.1.1将实施例1的步骤1.2.3中的恢复后的池中具有较高GFP表达水平(例如,表达水平的前0.5%)的细胞,通过FACS AriaII流式细胞仪分选至96孔板中进行培养。
2.1.2每隔2至4天更换板中75%的培养基,直至恢复的细胞肉眼可见。
2.2筛选高表达GFP的克隆
将2.1.2中恢复的细胞分别依次转移至新的96孔板中,共计约300个克隆(各孔中的所有细胞来源于一个细胞,在此称为一个克隆)。通过FACS AriaII流式细胞仪检测GFP的表达水平,将检测强度前10%的克隆转移至24孔板进行扩增。
实施例3:转录调节元件的筛选、鉴定和验证
3.1转录调节元件的候选序列的鉴定
3.1.1当在2.2中的24孔板中扩增的细胞基本上铺满板底时,使用DNeasy血液&组织试剂盒(QIAGEN)提取各克隆的基因组。
3.1.2在载体中分别设计正向引物和反向引物(分别距离BamHI的限制性位点的上游和下游约200bp),并对3.1.1中提取的基因组依次进行PCR扩增,其中,PCR反应的正向引物的序列为:GCAAAAAAGGGAATAAGGGCGACACGG(SEQ ID NO:69),PCR反应的反向引物的序列为:CATAGCCCATATATGGAGTTCCGCGTTA(SEQ ID NO:70)。
上述PCR反应的反应体系如表6所示。
表6 PCR反应的反应体系
反应组分 体积
5X Q5反应缓冲液 5μL
10mM dNTPs 0.5μL
10μM正向引物 1.25μL
10μM反向引物 1.25μL
基因组 1μL
Q5 DNA聚合酶(Cat#M0491S) 0.25μl
超纯水 15.75μL
上述PCR反应的反应步骤如表7所示。
表7 PCR反应的反应步骤
Figure BDA0003805140420000421
3.1.3将PCR产物通过琼脂糖凝胶电泳进行分离,切胶以回收1kb以上的特异性条带(一个以上),使用QIAquick凝胶提取试剂盒(Gel Extraction Kit)(QIAGEN)提取DNA。
3.1.4将回收的条带(一个以上)送去测序,鉴定出候选转录调节元件的序列A~G。
3.1.5通过测序鉴定得到的转录调节元件的序列A~G如下,其中,
转录调节元件A的序列为如SEQ ID NO:35中所示的序列(转录调节元件A的反向序列为如SEQ ID NO:47中所示的序列);
转录调节元件B的序列为如SEQ ID NO:36中所示的序列(转录调节元件B的反向序列为如SEQ ID NO:48中所示的序列);
转录调节元件C的序列为如SEQ ID NO:37中所示的序列(转录调节元件C的反向序列为如SEQ ID NO:49中所示的序列);
转录调节元件D的序列为如SEQ ID NO:38中所示的序列(转录调节元件D的反向序列为如SEQ ID NO:50中所示的序列);
转录调节元件E的序列为如SEQ ID NO:39中所示的序列(转录调节元件E的反向序列为如SEQ ID NO:51中所示的序列);
转录调节元件F的序列为如SEQ ID NO:40中所示的序列(转录调节元件F的反向序列为如SEQ ID NO:52中所示的序列);
转录调节元件G的序列为如SEQ ID NO:41中所示的序列(转录调节元件G的反向序列为如SEQ ID NO:53中所示的序列);
转录调节元件H的序列为如SEQ ID NO:42中所示的序列(转录调节元件H的反向序列为如SEQ ID NO:54中所示的序列);
转录调节元件I的序列为如SEQ ID NO:43中所示的序列(转录调节元件I的反向序列为如SEQ ID NO:55中所示的序列);
转录调节元件J的序列为如SEQ ID NO:44中所示的序列(转录调节元件J的反向序列为如SEQ ID NO:56中所示的序列);和
转录调节元件K的序列为如SEQ ID NO:45中所示的序列(转录调节元件K的反向序列为如SEQ ID NO:57中所示的序列)。
3.2转录调节元件的验证
3.2.1使用In-Fusion克隆试剂盒(Cloning Kit)(Takara)将在3.1.5中通过测序鉴定得到的转录调节元件A~K分别插入含有GFP基因的载体中的相应启动子的上游的BamHI限制性位点。获得如图10所示的其中插入有转录调节元件的载体(其中,WXRE显示转录调节元件A~K中的一种)。使用限制性位点仅位于载体骨架原核区的限制性核酸内切酶(例如,PvuI(NEB)),将前述载体线性化,并在37℃下过夜。第二天通过酚-氯仿回收DNA并用于转染。
3.2.2将约五百万个CHO宿主细胞离心,弃去上清液。同时,将Amaxa SF细胞系4D-核转染试剂盒L(Lonza,Cat#VCA-1005)中的90μL的SF细胞系溶液、20μL的补充液I和30μg的含有要表达的蛋白的基因的线性化载体(通过3.2.1获得)均匀混合,用该混合溶液重悬细胞并转移入电穿孔试管中。使用4D-NucleofectorTMSystem电穿孔仪中对应于各宿主细胞的程序对细胞进行转染。用5mL的不含抗生素的培养基重悬电穿孔的细胞,并置于37℃下的摇床进行培养。各样品包含一种转录调节元件或者为无任何转录调节元件的对照。
3.2.3转染24小时后,在细胞培养基中添加等体积的含有对应于载体中的抗性基因的抗生素的选择培养基进行筛选。每隔2至4天使用含有抗生素(一种以上)的培养基对细胞进行传代。
3.2.4在细胞存活率恢复至90%以上后,通过批次补料培养来评价转录调节元件A~K对蛋白的表达水平的影响。
实施例4:转录调节元件对用于表达异源蛋白的蛋白表达系统的表达水平的影响
4.1.1将转录调节元件A~K以正反两个方向分别通过使用In-Fusion克隆试剂盒(Takara)构建至融合蛋白(前述融合蛋白为PD-L1的A链,其序列为如SEQ ID NO:71中所示的序列)的启动子的上游BamHI位置。获得如图10所示的其中插入有转录调节元件的载体(其中WXRE是转录调节元件A~K中的一种),其中转录调节元件的尾号编号(tail number)1表示正向,转录调节元件的尾号编号2表示反向。例如,转录调节元件A1(如SEQ ID NO:35中所示)显示出序列的正向((即,5’至3’),在编码序列的有义链中转录。转录调节元件A2显示出序列的反向互补序列并如SEQ ID NO:47中所示。即,实施例4中的蛋白编码序列的有义链中的转录调节元件A1等同于本公开的实施例3中的转录调节元件A。
使用限制性位点仅位于载体骨架原核区的限制性核酸内切酶(例如,PvuI(NEB)),将前述载体线性化,并在37℃的条件下过夜。第二天,通过酚-氯仿回收DNA并用于转染。
4.1.2将约五百万个CHO宿主细胞离心离心,弃去上清液。同时,将Amaxa SF细胞系4D-核转染试剂盒L(Lonza,Cat#VCA-1005)中的90μL的SF细胞系溶液、20μL的补充液I和30μg的含有融合蛋白的基因的线性化载体(通过4.1.1获得)均匀混合,用该混合溶液重悬细胞并转移入电穿孔试管中。使用4D-NucleofectorTMSystem电穿孔仪中对应于各宿主细胞的程序对细胞进行转染。用5mL的不含抗生素的培养基重悬电穿孔的细胞,并置于37℃下的摇床进行培养。一组中的样品仅包含某一方向(即,正向或反向)的一个转录调节元件,并将不包含任何转录调节元件的样品作为对照。
4.1.3转染24小时后,将等体积的含有800μg/mL的博莱霉素的培养基加入转染的细胞中。
4.1.4每隔2至4天使用含有400μg/mL的博莱霉素的培养基对细胞进行传代。
4.1.5当细胞存活率恢复至90%以上后,通过批次补料培养对融合蛋白PD-L1的表达水平进行评价。
4.1.6验证通过表达而获得的PD-L1的序列是否与SEQ ID NO:71中所示的序列相同。
4.2实验结果
如图11所示,和不具有转录调节元件的对照组相比,在融合蛋白的启动子的上游插入转录调节元件可以提高目标蛋白的表达水平约10%至25%(参见图11中的A2、B1、B2、D2、E2、F2、G1、H1、I2、J1、和K2)。前述序列在某一方向上对蛋白表达的促进作用优于另一方向,这可能和启动子的方向性有关。
如图12所示,和表达水平相对应,正向或者反向转录调节元件可使单位生产率有约10%的提高能使单位生产率有约10%的提高(参见图12中的A2、B1、B2、D2、E2、F2、G1、H1、I2、J1、和K2)。
与此同时,通过验证来确证了通过表达而获得的PD-L1的序列与SEQ ID NO:71中所示的序列为相同的。
实施例5:转录调节元件对蛋白表达系统用于表达阿达木单抗的表达水平的影响
5.1.1将转录调节元件A的反向序列(A2)、转录调节元件B的正向序列(B1)和转录调节元件G的正向序列(G1)分别通过使用Takara的In-Fusion克隆试剂盒构建至可表达阿达木单抗的基因的启动子的上游(具体条件如表7所示)。分别获得如图13和图14所示的其中插入有转录调节元件的载体(其中WXRE是转录调节元件A~G中的一种),其中,将“重链上游的转录调节元件”克隆至如图13所示的载体中,并将“轻链上游的转录调节元件”克隆至如图14所示的载体中。其中,图13中的阿达木单抗的重链(HC)的氨基酸序列如SEQ ID NO:72中所示;图14中的阿达木单抗的轻链(LC)的氨基酸序列如SEQ ID NO:73中所示。
使用限制性位点仅位于载体的骨架的原核区的限制性核酸内切酶(例如,PvuI(NEB)),将前述载体线性化,并在37℃下过夜。第二天通过酚-氯仿回收DNA并用于转染。
表8不同条件下的相应转录调节元件
样品ID 重链上游的转录调节元件 轻链上游的转录调节元件
1 B1 B1
2 B1 G1
3 G1 G1
4 B1 A2
5 G1 A2
6(用于1-5的对照) N/A N/A
7 H1 H1
8 I2 I2
9 J1 J1
10 K1 K1
11 K2 K2
12(用于7-11的对照) N/A N/A
5.1.2将约五百万个CHO宿主细胞离心,弃去上清液。同时,将Amaxa SF细胞系4D-核转染试剂盒L(Lonza,Cat#VCA-1005)中的90μL的SF细胞系溶液、20μL的补充液I和30μg的含有阿达木单抗的序列的线性化载体(通过5.1.1获得)均匀混合,用该混合溶液重悬细胞并转移入电穿孔试管中。使用4D-NucleofectorTMSystem电穿孔仪中对应于各宿主细胞的程序对细胞进行转染。用5mL的不含抗生素的培养基重悬电穿孔的细胞,并置于37℃下的摇床进行培养。一组中的样品仅包含某一方向(即,正向或反向)的一个转录调节元件,并将不包含任何转录调节元件的样品作为对照。
5.1.3使用设计用于快速评价抗体表达的方法。该方法可以确保抗体重链和轻链以1:1的比例粗略表达,并且可以在相当短的时间内可靠地评价抗体表达。转染24小时后,将等体积的含有18μg/mL的杀稻瘟菌素和800μg/mL的博莱霉素的培养基加入转染的细胞中。
5.1.4每隔2至4天使用含有9μg/mL的杀稻瘟菌素和400μg/mL的博莱霉素的培养基对细胞进行传代。
5.1.5当细胞存活率恢复至90%以上时,通过批次补料培养来对阿达木单抗的表达水平进行评价。由于阿达木单抗的重链表达载体和轻链表达载体均可以被转染至同一宿主细胞中,因此阿达木单抗的重链和轻链能够同时表达。由于前述重链和轻链能够在宿主细胞内自组装,获得完整的阿达木单抗。
5.1.6确定所获得的阿达木单抗的生物活性。
5.2实验结果
和对照组相比,在一些含有转录调节元件B的正向序列中(参见样品1、2、和4),阿达木单抗的表达水平有10%至20%的提高(如图15所示)。
通过确定由本异源蛋白表达载体表达的阿达木单抗的生物活性,发现其生物活性与已知的市售阿达木单抗的生物活性相同。
实施例6:基于转座子的稳定池开发
将重组蛋白表达基因和抗生素抗性基因插入可由piggyBac转座酶识别的一对末端重复序列之间。例如,如果重组蛋白(例如,抗体或Fc融合蛋白)包含多种表达单元,这些不同的表达单元可克隆至含有不同抗生素抗性基因的载体中。
通过无内毒素质粒试剂盒来分别制备含有piggyBac转座酶表达基因的质粒和含有重组蛋白表达基因的质粒。这些质粒都无需通过消化而线性化。
用于转染的宿主细胞是悬浮适应的CHO-K1细胞。宿主细胞的期望的活细胞密度在100万至300万个细胞/mL之间。
为了产生表达不同人IgG1抗体(A、B和C)的细胞池,通过总计20μg的、10:1质量比的用于表达抗体的转座子载体和转座酶载体来转染1000万个宿主细胞。转座子载体包括约1:1比的用于抗体重链的转座子载体和用于抗体轻链的转座子载体。
然后,将转染的细胞重悬于10mL的细胞培养物中。对于对照,通过相同量的线性化抗体表达质粒转染相同量的宿主细胞。这些线性化抗体表达核酸未插入转座酶表达质粒中。将细胞与质粒混合并在
Figure BDA0003805140420000481
振荡培养箱中培养。
转染24小时后,将10mL的含有选择用抗生素的新鲜培养基添加至细胞培养物。抗生素试剂对应于抗生素抗性基因。通过对宿主细胞的杀伤曲线实验来确定抗生素的浓度。此外,补充培养基的浓度是选择用抗生素浓度的水平的二倍。这将允许所得细胞培养物的实际抗生素浓度处于所选抗生素浓度水平。
用含有所选抗生素试剂的新鲜培养基,每隔2至4天进行细胞传代。基于细胞的存活率、生长速率和倍增时间来调整接种密度。
大约2周的培养后,细胞培养物用于以对于各转染的细胞培养物所确定的相同的接种密度接种生产基础培养基。在振荡培养箱中培养生产细胞培养物。
通过批次补料培养进行生产过程。相应地将合适的类型和量的补料培养基补充至培养物。
结果示于图2。在14天的培养后,应用piggyBac转座子系统的宿主细胞的批次补料培养产生2.4g/L抗体A、4.1g/L抗体B、和4.6g/L抗体C(PB D14滴度)。如图所示,可变区的不同序列可导致不同的表达水平。但对于每种抗体,piggyBac转座子表达系统显著增加表达水平。
相反,传统稳定池对照产生小于0.2g/L的抗体(传统池D14滴度)。因此,在相同条件下,piggyBac转座子系统增加蛋白表达超过10倍。
实施例7:调节元件筛选
如下文中所述,在不同阶段对CHO-K1细胞的mRNA进行RNA测序。进行瞬时转染和稳定转染,并从以下提取总RNA:1)瞬时转染后第6天的10个样品;2)瞬时转染后第8天的10个样品;和3)传统14天批次补料过程的第10天的10个稳定转染样品。
产生cDNA并测序。基于相对读长数,提取mRNA并通过全部30个样品的平均丰度来排名。从排名在前的mRNA提取调节元件(RE)序列并列于下表中。
表1.
Figure BDA0003805140420000501
进行实验以评价这些RE序列对蛋白表达的作用。将这些RE序列并入融合蛋白表达质粒,紧接重组蛋白表达基因之后。对照样品不包含任何调节元件序列。
通过20μg的具有不同RE序列的融合蛋白表达质粒转染总计1000万个宿主细胞。将转染的细胞重悬于10mL的宿主细胞培养物中。混合所得溶液并在
Figure BDA0003805140420000511
振荡培养箱中培养。
在转染24小时后,将10mL的含有选择用抗生素的新鲜培养基加入转染的细胞培养物中。用含有所选抗生素试剂的新鲜培养基,每隔2至4天进行细胞传代。基于细胞的存活率、生长速率和倍增时间来调整接种密度。
在大约2周的抗生素选择后,细胞培养物分别用于以与对于各转染的细胞培养物所确定的相同的接种密度接种生产基础培养基。在振荡培养箱中培养生产细胞培养物。
通过批次补料培养来进行生产过程。相应地将合适的类型和量的补料培养基补充至培养物。
如图3中所示,与对照相比,大部分的调节元件将蛋白表达增加至少10%生产率。
实施例8:piggyBac和调节元件的组合
将重组蛋白表达基因、一个典型调节元件序列和抗生素抗性基因克隆在可由piggyBac重组酶识别的一对末端重复序列之间。例如,如果重组蛋白(例如,抗体或Fc融合蛋白)包含多种表达单元,这些不同的表达单元可克隆至含有不同抗生素抗性基因的载体中。
通过无内毒素质粒试剂盒来分别制备含有piggyBac转座酶表达基因的质粒和含有重组蛋白表达基因的质粒。这些质粒都不通过消化而线性化。
用于转染的宿主细胞是悬浮适应的CHO-K1细胞。宿主细胞的期望的活细胞密度在100万至300万个细胞/mL之间。
为了产生表达不同人IgG1抗体(D、E、和F)的细胞池,通过20μg的、10:1质量比的piggyBac转座子载体(具有或不具有WXRE ID:B(SEQ ID NO:36))和转座酶载体来转染1000万个宿主细胞。然后,将转染的细胞重悬于10mL的宿主细胞培养物中。作为传统稳定池对照,通过相同量的线性化抗体表达质粒转染相同量的宿主细胞。混合所得溶液并在
Figure BDA0003805140420000512
振荡培养箱中培养。
在转染24小时后,将10mL的含有选择用抗生素的新鲜培养基加入转染的细胞培养物中。抗生素试剂对应于如本文中所决定的抗生素抗性基因。通过对宿主细胞的杀伤曲线实验来确定抗生素的浓度。此外,补充培养基的浓度是选择用的所选抗生素浓度的水平的二倍,使得所得细胞培养物的实际抗生素浓度与所选抗生素浓度相同。
用含有所选抗生素试剂的新鲜培养基,每隔2至4天进行细胞传代。基于细胞的存活率和倍增时间来调整接种密度。
在2周的抗生素选择后,细胞培养物分别用于以对于各转染的细胞培养物所确定的相同的接种密度接种生产基础培养基。在振荡培养箱中培养生产细胞培养物。
通过批次补料培养进行生产过程。相应地将合适的类型和量的补料培养基补充至培养物。
如图4中所示,14天后,使用仅piggyBac转座子系统(无RE序列)的三组生产细胞培养物的蛋白表达(滴度)分别为2.1g/L、3.9g/L和5.5g/L。然而,当RE序列存在于抗体表达质粒中时,表达分别增加至2.8g/L、5.2g/L和6.5g/L。结果表明,piggyBac转座子系统和调节元件序列(例如,WXRE)的组合可进一步增加蛋白生产。
其它实施方案
应理解,尽管已结合本发明的详细说明来描述本发明,但前述描述旨在进行说明而不限制本发明的范围,本发明的范围由所附权利要求的范围来限定。其它方面、优点、和修饰在所附权利要求的范围内。
序列表
<110> 上海药明生物技术有限公司(WuXi Biologics (shanghai) Co., Ltd.)
药明生物技术爱尔兰有限公司(WuXi Biologics Ireland Limited)
<120> 增强的表达系统及其使用方法
<130> 6711-2018311IB
<150> 202010102211.1
<151> 2020-02-19
<150> PCT/CN2020/081464
<151> 2020-03-26
<160> 73
<170> SIPOSequenceListing 1.0
<210> 1
<211> 51
<212> DNA
<213> 人工序列
<400> 1
gcctctttct tgttaacatg tccaataaaa agaaacttta gttgtactag t 51
<210> 2
<211> 50
<212> DNA
<213> 人工序列
<400> 2
gaggactcta gctaactccc tggaacaaat aaagttattt tccagcttaa 50
<210> 3
<211> 219
<212> DNA
<213> 人工序列
<400> 3
gcctgatccc tggcatttca ggcagctctg aaccgtgctg tgtgtgctct ggaacctcct 60
tctctgctct caggttcccc agctcccatc ttggatccag tggagagggt ttgcttctgc 120
caccaacagc tccctttggt acatgctcag cattcaggag tctttaaggc aataccatca 180
gagagcaaat aaataaacgc gtttatgtct ctaagcaca 219
<210> 4
<211> 51
<212> DNA
<213> 人工序列
<400> 4
acaggttcaa tcagctgtgc atttggaaaa ataaaacttt attaaatcag a 51
<210> 5
<211> 64
<212> DNA
<213> 人工序列
<400> 5
agtcaacaag cccctaggcc tcaataaagg cagctgcctc tgttccccac agcctaaacc 60
ctca 64
<210> 6
<211> 25
<212> DNA
<213> 人工序列
<400> 6
gcccaataaa gactgtttgt gctaa 25
<210> 7
<211> 43
<212> DNA
<213> 人工序列
<400> 7
gggcccctca tacactgctt ccattaaaga ctgtttaagt agt 43
<210> 8
<211> 160
<212> DNA
<213> 人工序列
<400> 8
ggattcatac aatcaatggc aggacttgag agtttgtact gaatcatgat caataccatg 60
tatgctgcca gatggagttc aacattgtta atcgggagac ttgttcatgc ttaagctggg 120
aatggttttg tcctgtaata aaaatataga gcctttcaaa 160
<210> 9
<211> 86
<212> DNA
<213> 人工序列
<400> 9
gacctaagtt aaccagttcc agaaacaaga tcctgaatta agtacgattt ggtgtgtctt 60
ttgggacaat aaagacttgt attgat 86
<210> 10
<211> 38
<212> DNA
<213> 人工序列
<400> 10
agatgtaaaa cgtaaataaa aagcctccat agactgtt 38
<210> 11
<211> 54
<212> DNA
<213> 人工序列
<400> 11
gcccatctca aggatcaggg ttacctttgt aataaacatc ccagagcttt agtg 54
<210> 12
<211> 30
<212> DNA
<213> 人工序列
<400> 12
atctgttctg tcagattttc aataaacctg 30
<210> 13
<211> 33
<212> DNA
<213> 人工序列
<400> 13
ttgtgtatga ataaataaaa agacaggaac tga 33
<210> 14
<211> 86
<212> DNA
<213> 人工序列
<400> 14
aatggtctct aggagacatg ctggagaaat gtctgtactc ttgccttttt aggcaactgt 60
gctcaattaa acagcatgat aaaatt 86
<210> 15
<211> 216
<212> DNA
<213> 人工序列
<400> 15
caaattggat ctgtcacctg tcaccatagc tgactgctgc ttgccatcca tacaacacca 60
gggcttagga caaatgggac tgatgtcatc ttgagctttt attttgacca tgatttattt 120
ggagtggaga cattgttttt tttcttttct tttttttaaa aagaaagaac atgtcgtgta 180
ggttgtctga aaataaagtg catttaaatt cactta 216
<210> 16
<211> 51
<212> DNA
<213> 人工序列
<400> 16
actagtacaa ctaaagtttc tttttattgg acatgttaac aagaaagagg c 51
<210> 17
<211> 50
<212> DNA
<213> 人工序列
<400> 17
ttaagctgga aaataacttt atttgttcca gggagttagc tagagtcctc 50
<210> 18
<211> 219
<212> DNA
<213> 人工序列
<400> 18
tgtgcttaga gacataaacg cgtttattta tttgctctct gatggtattg ccttaaagac 60
tcctgaatgc tgagcatgta ccaaagggag ctgttggtgg cagaagcaaa ccctctccac 120
tggatccaag atgggagctg gggaacctga gagcagagaa ggaggttcca gagcacacac 180
agcacggttc agagctgcct gaaatgccag ggatcaggc 219
<210> 19
<211> 51
<212> DNA
<213> 人工序列
<400> 19
tctgatttaa taaagtttta tttttccaaa tgcacagctg attgaacctg t 51
<210> 20
<211> 64
<212> DNA
<213> 人工序列
<400> 20
tgagggttta ggctgtgggg aacagaggca gctgccttta ttgaggccta ggggcttgtt 60
gact 64
<210> 21
<211> 25
<212> DNA
<213> 人工序列
<400> 21
ttagcacaaa cagtctttat tgggc 25
<210> 22
<211> 43
<212> DNA
<213> 人工序列
<400> 22
actacttaaa cagtctttaa tggaagcagt gtatgagggg ccc 43
<210> 23
<211> 160
<212> DNA
<213> 人工序列
<400> 23
tttgaaaggc tctatatttt tattacagga caaaaccatt cccagcttaa gcatgaacaa 60
gtctcccgat taacaatgtt gaactccatc tggcagcata catggtattg atcatgattc 120
agtacaaact ctcaagtcct gccattgatt gtatgaatcc 160
<210> 24
<211> 86
<212> DNA
<213> 人工序列
<400> 24
atcaatacaa gtctttattg tcccaaaaga cacaccaaat cgtacttaat tcaggatctt 60
gtttctggaa ctggttaact taggtc 86
<210> 25
<211> 38
<212> DNA
<213> 人工序列
<400> 25
aacagtctat ggaggctttt tatttacgtt ttacatct 38
<210> 26
<211> 54
<212> DNA
<213> 人工序列
<400> 26
cactaaagct ctgggatgtt tattacaaag gtaaccctga tccttgagat gggc 54
<210> 27
<211> 30
<212> DNA
<213> 人工序列
<400> 27
caggtttatt gaaaatctga cagaacagat 30
<210> 28
<211> 33
<212> DNA
<213> 人工序列
<400> 28
tcagttcctg tctttttatt tattcataca caa 33
<210> 29
<211> 86
<212> DNA
<213> 人工序列
<400> 29
aattttatca tgctgtttaa ttgagcacag ttgcctaaaa aggcaagagt acagacattt 60
ctccagcatg tctcctagag accatt 86
<210> 30
<211> 216
<212> DNA
<213> 人工序列
<400> 30
taagtgaatt taaatgcact ttattttcag acaacctaca cgacatgttc tttcttttta 60
aaaaaaagaa aagaaaaaaa acaatgtctc cactccaaat aaatcatggt caaaataaaa 120
gctcaagatg acatcagtcc catttgtcct aagccctggt gttgtatgga tggcaagcag 180
cagtcagcta tggtgacagg tgacagatcc aatttg 216
<210> 31
<211> 238
<212> DNA
<213> 人工序列
<400> 31
ttaaccctag aaagataatc atattgtgac gtacgttaaa gataatcatg cgtaaaattg 60
acgcatgtgt tttatcggtc tgtatatcga ggtttattta ttaatttgaa tagatattaa 120
gttttattat atttacactt acatactaat aataaattca acaaacaatt tatttatgtt 180
tatttattta ttaaaaaaaa acaaaaactc aaaatttctt ctataaagta acaaaact 238
<210> 32
<211> 311
<212> DNA
<213> 人工序列
<400> 32
tatctataac aagaaaatat atatataata agttatcacg taagtagaac atgaaataac 60
aatataatta tcgtatgagt taaatcttaa aagtcacgta aaagataatc atgcgtcatt 120
ttgactcacg cggtcgttat agttcaaaat cagtgacact taccgcattg acaagcacgc 180
ctcacgggag ctccaagcgg cgactgagat gtcctaaatg cacagcgacg gattcgcgct 240
atttagaaag agagagcaat atttcaagaa tgcatgcgtc aattttacgc agactatctt 300
tctagggtta a 311
<210> 33
<211> 594
<212> PRT
<213> 人工序列
<400> 33
Met Gly Ser Ser Leu Asp Asp Glu His Ile Leu Ser Ala Leu Leu Gln
1 5 10 15
Ser Asp Asp Glu Leu Val Gly Glu Asp Ser Asp Ser Glu Ile Ser Asp
20 25 30
His Val Ser Glu Asp Asp Val Gln Ser Asp Thr Glu Glu Ala Phe Ile
35 40 45
Asp Glu Val His Glu Val Gln Pro Thr Ser Ser Gly Ser Glu Ile Leu
50 55 60
Asp Glu Gln Asn Val Ile Glu Gln Pro Gly Ser Ser Leu Ala Ser Asn
65 70 75 80
Arg Ile Leu Thr Leu Pro Gln Arg Thr Ile Arg Gly Lys Asn Lys His
85 90 95
Cys Trp Ser Thr Ser Lys Ser Thr Arg Arg Ser Arg Val Ser Ala Leu
100 105 110
Asn Ile Val Arg Ser Gln Arg Gly Pro Thr Arg Met Cys Arg Asn Ile
115 120 125
Tyr Asp Pro Leu Leu Cys Phe Lys Leu Phe Phe Thr Asp Glu Ile Ile
130 135 140
Ser Glu Ile Val Lys Trp Thr Asn Ala Glu Ile Ser Leu Lys Arg Arg
145 150 155 160
Glu Ser Met Thr Gly Ala Thr Phe Arg Asp Thr Asn Glu Asp Glu Ile
165 170 175
Tyr Ala Phe Phe Gly Ile Leu Val Met Thr Ala Val Arg Lys Asp Asn
180 185 190
His Met Ser Thr Asp Asp Leu Phe Asp Arg Ser Leu Ser Met Val Tyr
195 200 205
Val Ser Val Met Ser Arg Asp Arg Phe Asp Phe Leu Ile Arg Cys Leu
210 215 220
Arg Met Asp Asp Lys Ser Ile Arg Pro Thr Leu Arg Glu Asn Asp Val
225 230 235 240
Phe Thr Pro Val Arg Lys Ile Trp Asp Leu Phe Ile His Gln Cys Ile
245 250 255
Gln Asn Tyr Thr Pro Gly Ala His Leu Thr Ile Asp Glu Gln Leu Leu
260 265 270
Gly Phe Arg Gly Arg Cys Pro Phe Arg Met Tyr Ile Pro Asn Lys Pro
275 280 285
Ser Lys Tyr Gly Ile Lys Ile Leu Met Met Cys Asp Ser Gly Thr Lys
290 295 300
Tyr Met Ile Asn Gly Met Pro Tyr Leu Gly Arg Gly Thr Gln Thr Asn
305 310 315 320
Gly Val Pro Leu Gly Glu Tyr Tyr Val Lys Glu Leu Ser Lys Pro Val
325 330 335
His Gly Ser Cys Arg Asn Ile Thr Cys Asp Asn Trp Phe Thr Ser Ile
340 345 350
Pro Leu Ala Lys Asn Leu Leu Gln Glu Pro Tyr Lys Leu Thr Ile Val
355 360 365
Gly Thr Val Arg Ser Asn Lys Arg Glu Ile Pro Glu Val Leu Lys Asn
370 375 380
Ser Arg Ser Arg Pro Val Gly Thr Ser Met Phe Cys Phe Asp Gly Pro
385 390 395 400
Leu Thr Leu Val Ser Tyr Lys Pro Lys Pro Ala Lys Met Val Tyr Leu
405 410 415
Leu Ser Ser Cys Asp Glu Asp Ala Ser Ile Asn Glu Ser Thr Gly Lys
420 425 430
Pro Gln Met Val Met Tyr Tyr Asn Gln Thr Lys Gly Gly Val Asp Thr
435 440 445
Leu Asp Gln Met Cys Ser Val Met Thr Cys Ser Arg Lys Thr Asn Arg
450 455 460
Trp Pro Met Ala Leu Leu Tyr Gly Met Ile Asn Ile Ala Cys Ile Asn
465 470 475 480
Ser Phe Ile Ile Tyr Ser His Asn Val Ser Ser Lys Gly Glu Lys Val
485 490 495
Gln Ser Arg Lys Lys Phe Met Arg Asn Leu Tyr Met Ser Leu Thr Ser
500 505 510
Ser Phe Met Arg Lys Arg Leu Glu Ala Pro Thr Leu Lys Arg Tyr Leu
515 520 525
Arg Asp Asn Ile Ser Asn Ile Leu Pro Asn Glu Val Pro Gly Thr Ser
530 535 540
Asp Asp Ser Thr Glu Glu Pro Val Met Lys Lys Arg Thr Tyr Cys Thr
545 550 555 560
Tyr Cys Pro Ser Lys Ile Arg Arg Lys Ala Asn Ala Ser Cys Lys Lys
565 570 575
Cys Lys Lys Val Ile Cys Arg Glu His Asn Ile Asp Met Cys Gln Ser
580 585 590
Cys Phe
<210> 34
<211> 943
<212> DNA
<213> 人工序列
<400> 34
gtaagtgccg tgtgtggttc ccgcgggcct ggcctcttta cgggttatgg cccttgcgtg 60
ccttgaatta cttccacgcc cctggctgca gtacgtgatt cttgatcccg agcttcgggt 120
tggaagtggg tgggagagtt cgaggccttg cgcttaagga gccccttcgc ctcgtgcttg 180
agttgaggcc tggcttgggc gctggggccg ccgcgtgcga atctggtggc accttcgcgc 240
ctgtctcgct gctttcgata agtctctagc catttaaaat ttttgatgac ctgctgcgac 300
gctttttttc tggcaagata gtcttgtaaa tgcgggccaa gatctgcaca ctggtatttc 360
ggtttttggg gccgcgggcg gcgacggggc ccgtgcgtcc cagcgcacat gttcggcgag 420
gcggggcctg cgagcgcggc caccgagaat cggacggggg tagtctcaag ctggccggcc 480
tgctctggtg cctggcctcg cgccgccgtg tatcgccccg ccctgggcgg caaggctggc 540
ccggtcggca ccagttgcgt gagcggaaag atggccgctt cccggccctg ctgcagggag 600
ctcaaaatgg aggacgcggc gctcgggaga gcgggcgggt gagtcaccca cacaaaggaa 660
aagggccttt ccgtcctcag ccgtcgcttc atgtgactcc acggagtacc gggcgccgtc 720
caggcacctc gattagttct cgagcttttg gagtacgtcg tctttaggtt ggggggaggg 780
gttttatgcg atggagtttc cccacactga gtgggtggag actgaagtta ggccagcttg 840
gcacttgatg taattctcct tggaatttgc cctttttgag tttggatctt ggttcattct 900
caagcctcag acagtggttc aaagtttttt tcttccattt cag 943
<210> 35
<211> 3619
<212> DNA
<213> 人工序列
<400> 35
gatctgcctg cctctgcccc gtgagtgctg ggattaaagg ccagcaccgc catgcctggc 60
ctcctttaag tgcaggtgta gcacgccaga aataccctgc tggtgacagt gtgagccaca 120
tgcgtgagac tgctgcagag gtcccagctt aggttgtgcc cttctttctt gagaaatgtc 180
ttacttggtg attttgagtg gaaacatgta tttagctgac atatgagcct agtcttttat 240
gtataaatgt gtgttatatt tctagataca aaaatattaa aaattagaaa tcttcagggc 300
tggagagggg ttcattggtt aagagctcat tggttaaggg ctgctcctgt ataggacccg 360
ggttacctgt cagcaccgta tgacggctct caaccatctg cagctcccgt tccagaggac 420
ccagtgtctt cttctggcct ctacagacat acatatagac aaaacaccca tacacaaaaa 480
tttaattaga aatcttaatt tttttctttc aattttctag attgactggg gataactttt 540
ttgttaactt tactgtcttg aggataacgt tcagtatgag ttgtatttct agagtttgtc 600
tttattttta ggcaaaaata acctttatta ccattttggg gggtgactgt tttacaactt 660
ttccaacttt ctgcttcatc tcttgtgtcc tatataggcc cctatttact gtcattatta 720
gagataggac ttgatgtcat gtcaactcca tctttgttat aaatctcaag aagagctaat 780
ttcttttgtg ttattacaac caaaaataaa caaggtagct tataaacagt gacttatttt 840
tatagttcta gatatgggaa gatcatggtg acagtagatt caatgtctag ttggaagttg 900
actcttcttc atagatggaa tccttgctat aatataatct caggatggaa gggatgagct 960
aagccctctg ggatctctta ttaatctgtt cattcattta cttattgcat agtgctctaa 1020
ttctgttcat ggagactctg ttcttacaca ttaggtggtt agggagggac atgatcaatc 1080
aggacatagg agcaacaata atttttatta tatttcccaa aatacatggc agttcctgac 1140
cttgctttat tactgcaaac atacagcttg tggccattgg acttagccat atgagaaatg 1200
taagaattta ttttatattg tagctgcaaa tggtaggttc atcaaattgt gccttaagtt 1260
cacatcttaa tttgctacaa aaaaaaaaga ggagtagtgt aagttacatt taattttcaa 1320
ttacttagta acagtttgta agtgctactt gatcctgttt tatatctagc attgagtata 1380
gatcaacaag tgtttcaatt cttgtttgga catgctgttc tctccttcat cacaagttac 1440
ttctggctaa acaaggcaca aatttcgcat gaccaccaat ccaaggacag ggcgacaatt 1500
ttaatgagtt tcattgagag ctggccaact gagcatctgt tccttttgtt ttcctgtacg 1560
tggtaagcca gtgtttctac actccttagc cttgttgctg tgtgtatagt gtggggtgga 1620
tttgtttttg ctgttctttt ttcttttttc taccctctac ttcagtggtg cacggttaga 1680
aatcttgtgg cgtctggcac ggtggtataa ttccttccat gctcttgggt gaggaaataa 1740
gtttgctcat tgctgctcat cagtctgttt cacttgctcc cagatggtga ccttctcgtc 1800
ccattcttgc ttgttttaac attattctga cacctatttt ctttcattgt ccccttaacc 1860
actctaattg aataatgatt tctgtaattt ccatttggaa cacaaccagc ttcctggttc 1920
cttttattgg cccacatcct gtcttctagt tcattgcttc agatttgagc caaatcatca 1980
aataaaaata cgtaactgaa aaaaatgttt attgcagtgg cctcctctag catggcaaca 2040
atgagagttt tcctttctta ttgctaaaca tgttatatct gtctcatgat ttcatactgt 2100
ctctcctggc ctcatttact gcttgacctt taaaagaaat gactcaaaga tatttttgta 2160
gttctgtaag catttctcta gttcttgttc ttcaccttta gttcttaaca gtagttttgt 2220
ctgctacact gacgtggctg tgaggacttt ccttcagaaa ctggcgtctg atactgattc 2280
aaactggtct ccattgtggc ctacatgtcc agctgtctcc atgtaacgcc actgaaatac 2340
agtgaagcca gccttttttt cccccttatg gttcaaagca actgaatttc agtcagagta 2400
attttggttt gggtatcaat actaattgta gtcttagacc ttttaattat tacttgtttg 2460
cattttacag aagacattgg tccttctcaa aagcagagat gaaacctgta gtattttgtg 2520
tgtagttttc ctctgctggt tgccctgtaa ctattcagtt cctgtaagga agcacagctg 2580
cttcataagc taccttaggc tgacagcagt ctcctgaaag aaagagttca agaaagaaac 2640
atttaaaaat aaaaatgggg aggggtccaa gtagtatttg aagccatgaa atatcttgaa 2700
tatagtttgc ttttttgttt tgttttgtct gtctgtctgt ccgatgtagc tttggccata 2760
tcaaccaggc tgtccttgaa ctcacagaaa tccacctgcc tccgcctccc aagtgctgga 2820
tgcaccacca tgccagctag tttgcttttt agagcatctc atctgctgct cacagccctg 2880
gtgctttatg ggatttgttt ggggaacatg atgagctcta tatttattgt agctttaaat 2940
ggacagcggt tattgactgt cagcttagtc tttaaaatct ataatcacat tgtacctaat 3000
tgtcaacctt catgtttttt aattatgaaa aaaactgaga acattaattt ttatgttatc 3060
ttgttattga ctttattgaa atactacaga aaattttggt ttgaggcttt tccataattt 3120
acccttacac ctcacacccc ttccataaac atgtgcagtt aaaattgaat tgttcgggca 3180
cttctacctt gatacctggc ctacagtggg aaaggtctgt ctttctttgg aataagccca 3240
tcagtggcct tgtgtacatt ctgtattttt gttgtttgtt attactgttt tttacttggg 3300
actaataatc tgtttgaaac tgactgagat agaaagatgt gatgttcctt cccactcact 3360
ccggattttg atagaagact tgttttattt atttccaaaa ttatatccgc aggaaacaag 3420
ctgtttaaat tcagattatg ctgaagcaaa atggtcctgg tatgagaagc aacgtgctgt 3480
tttacgagca cagagtccct tttctcataa ctgattgata gtaaatattt tcctgaagaa 3540
ttattgccaa ccatgaacag tgcaactgtt tcactttttt tccgtgctac ttgctgtacc 3600
agccattgtc ggtaattaa 3619
<210> 36
<211> 1114
<212> DNA
<213> 人工序列
<400> 36
gatctgaagt ttggatctgc agaacccaca caaaggccta cgggcttagt agtgtacctg 60
caatttcagc acttggaagg ctgagaaagg atcccaaggg cagctggcta gctaggctag 120
tgttagctga gagctctggg ttcgtggagc gactctggtt cagtgaataa gatagagagt 180
gacatcagct ttgggcttcc acagcaaatg agctcacttg catgcaaaca gaaatgcaaa 240
cacatgcaca aagcaaaaca aaaggaacac aggccaaagg tgggtcattc ctataccatc 300
ccctcagcag ggtgcagtcc ccacaccctg acccagttcc ctcatgatgt tagagaaaat 360
aactttgccc ccttcaacga acatttcagc tccagagaac ctggcccact ttgaaagctt 420
taattagaaa tgtgcaatta cccggaacag atgtctgttg tgattgtgga gacataggtt 480
aaagaatcac acagcagttt gcgtggttac agaaaggttg caagtaactt taaaacacag 540
tttttggtaa gtctccaaca tgttacctaa catagcatgg cctcgattac atgtaagcag 600
tgagtctccg gctgcctggt ttgtgagggt aatgtacttc agcaatagtg ctgaggctgt 660
acagtgagtg actcatcacc ctaaaaaagt atcgaattcc agtcttcaga gttagctttc 720
agtaaaacca agtcagtggt gaaatggctc agtaggtaag ggcacccgct gccaagccca 780
agacctgtgt cctgtccctg ggatccagtt ggtggaaaga gagaacggac tcctgcaagg 840
tggcctctga cctacatgcc tgaattctgc cagacattaa gtaaaaacaa acgcaaaaag 900
ggaagtgggc tcacgcataa ggcactcact ggactctact cttctactct gtggttactt 960
tttggtgttc aagcatacca taccttgatc tacatgattt ttactccaaa gacacagcca 1020
gggtaatgtt gtgtgatgga tcagtcttat ttgttacttg tttactagta cttactgaga 1080
ttgtcgatgg ctttaatgtc aacatgagtg tgga 1114
<210> 37
<211> 4068
<212> DNA
<213> 人工序列
<400> 37
gatcttctag gtctggctct gagttgaaag gctctgatgc tgggcgaaac atctctcctc 60
tggggctcag ttttctcatc tgttagaaaa ggacacagct gacctgttgg cttctaatag 120
ttggacagag gctaggattc tgagtctcat tttactacaa atattctttt aatttcttaa 180
gtcactaaac agcatcagca aggcagggtc gagacatgcg agcaagaatg agattggatt 240
ctgactcagg tttcaacttg ctgtcaatta ctgacaatgt aagttcattc atcttataga 300
cttttgtaga acttttgttt ctctccacta taatttcgtt actgttccat attacagtat 360
gctaaagtta atggtaaaag ttctcacaga attcctagtc ttttcctctt catatttaat 420
ctcctttcct tcctcctgtc cttactcatt gtgaaattct cttttgtatg catgacttgg 480
aaacatattt ccttggtggt aaggtagtag gagacaattt attcactttt cacgtatgtc 540
gtaattggca tattgctgat aaagtttttc aaccatggga acatggtctt gtaagaatta 600
tttcacattt ttcccagtcc aagcccataa tgaaaattga ttctgaattt tttctgtatt 660
tttaattctt ctgtttgcag ttgtaggaga ataaccctgc agcatctgag agaccaagct 720
aattacaaga atgactagaa atcctttgca tttttaaaac aattttatac atatgtcact 780
ttgtctttct aaaaaataaa aataaaaaaa atacctaaga gccgagtttg tgttaaaggc 840
taatgattgt attgtacaat tagtaagaat taaggacaaa ggtctcttta cctgaagttt 900
cctgggtgct tttattcatt cattcattca ttcattcatt cattcattca tttagtcaaa 960
ttagttcatt tctgatgcaa tgactgactg attactcccc agaccaatgc tccttcctgt 1020
tttaggttca cagatagcat ttcctacctt ctcttgtcct tccttttgtc caaaattttg 1080
agttctagac aaccacagaa ttgcctagaa atgctggaca gaattcatgc atctgattcc 1140
tggtaagacc gtcgatgcac tataaacttg cagaagctga cagcagactg ttcttcactt 1200
caactcattt atccctttcc tttgggttct gtccaaatca catcaccaga tcacaagaac 1260
ctaacatcag attgagacgt aaatagatga tatcacattg gatttccacc attgagccac 1320
accaccagcc acctgcctga taactttcac agtcccagaa gatattatac aagttactag 1380
ggcaaaaaga gatcaaagtc tgaatcagct gtgaacccta tgaatggcaa tacctactta 1440
tcaggcaata caagcccacc cgtgtgatag tggaataaca gtaatatggg caatcactgg 1500
attgagtcct ggccccactg cagagaatcc atgccaagca ctgtaaatcc aggaagaaaa 1560
aaaaaaacct atcactgaag aagacataaa ccctagaaag gaacttacta ctcttactta 1620
actgagtgag caaagcaaca agttatcttc taagtactta tgctggtgct catacacaaa 1680
attatccatc attcttaatt agagaattct ctctagtgaa tggttgtgga ttcaaagact 1740
cataaatacc aagggtgcta agaatgagcg acaattaaga actcagccct aaacaagatt 1800
tttatacctc atcttctaag gctcagaaac attgtggaag aaggtgtcaa aagaatgtaa 1860
gagtgaaaag agtgagaagg gctgccaata tcatctttgc tatcatgaac tcacaaaagc 1920
tgcagttgtt agtgccagga ctgtgtgaca ttgtcactac caacactcag ccttgggtgg 1980
ggaggagggc ataatgtcat actcttcatc attgagccat tggttactaa cagattctag 2040
gagaatcact ctctcttgtt atgtatccat ccatgaatct acaaggctcc attgggcagt 2100
tccaaactgg aggtcagaaa aatttcactg atgaaactca ctgggacaca atcaaaaata 2160
tgaaagagct ttgtagccat ctttttttct gacaagggtg ggagaggcat aacaaggaag 2220
gtaaataatt gattgcatta tatacacata tgaaactgtc aaagaacgca atttaaaaag 2280
tacatagtaa gtggttttcc atacaattta atttattatc acacagttgt tctttacagt 2340
atgtcttgat tatctctatc cctgactccc atgtcacccc cacaaacacc ctcaatatat 2400
ctccctccac cttatcaccc cttaatttct ttcattttac tattttatag ataatccact 2460
gaattcaatt agtgctgtct gttggaaagc cgaaggagac cgatatgttg gcttgatttg 2520
acacaggtct tctgcaggtg accaagatga agtgacttga atgtgatagc catgctatga 2580
aaaagagggc ttcatgtatt gtatcaaaag ggagcgtttc tcagctcctc tctccagcct 2640
ctgtctcata ttctttctgc tccgtcttcc tctgtaacat agtaaatttg tacagaacgg 2700
tcacaagtca caaatttggt agactacatg atgaaatttg caatgacttt ggagtactta 2760
acatggattt gaatgtccat ttggcatcgt tctagaagat aagtccaaag taagtgtgct 2820
atcttaccat cttccttcct tgtaggagtc ggccacgttt cccactctag accttagctc 2880
ctctagttag ctgcttcaaa gcatcaagtg gagtccgcat aatcactttg tactaattca 2940
taagctcata aatccagaca aagtgaaagt caaatctcaa gtcctgggcc acttatttgt 3000
tttctgtgca tcggacttag gattatttgc cctcttcctg ttccactgca tcagttctgt 3060
cagtgggggg ggggggggtt gggagtgtgt gtgtgtgtgt gtgtgtgtgt gtgtgtgtgt 3120
gtgtgtgtgt tgcttacaaa gctgtcataa tgatgaaaca gagtatcagt cacatggtaa 3180
ccacatctaa gtagagaatg tgcttctaca atgtgagctt cctctcagtg tgtccatgtc 3240
atcatagagg aggcttcttt cccagtgcac atgaaggctt cagaactaag tttgaatagg 3300
actatgtgat cagccctgaa aagcctgcag tactccttgg tgctgtgctt gaaccctcct 3360
gtttctctgc gcggtctttg tagggagact atggatataa actatttggg tggtctcttt 3420
tttttcatca ggaagacaga ggtatactgt tgattctaga catgtcaggt tgaggaaatg 3480
gaccttatgc ctaattcctt cctaattcat acagagtttc agctttaaag gacagattaa 3540
tagcggtttg agatgatttc agctctgtga cctggccatt gtgctgtgtg ttagatttcc 3600
atgctggtaa gtgaaacaat tttagggctc taaaaactca cttcaggctc taagcagcac 3660
tccacctagc cagaatgggg gagatgcagc taaacagctg ctcatgtgag cagggttacc 3720
aactccagtc gacagccagg ccagcatgac tcaccagtgt gaaactgcca agaggataat 3780
ttgatctggg gctgaatgaa caggactgca gtgtctgtcc agaccaaagt gagggatcct 3840
cccttgtctg catgtgaatc cagaccacac ctactgtctt gtaggctttg cttaccccca 3900
cccctgtatc tcattatgat gctgttcaca agttgaagta gagccagcta tgagactcat 3960
tgcataatat tcacattaga aaccactctc ttcattctat ttctatcata ggatttctaa 4020
cttaacttgt tgaaggtgtg gatattgaca tctttgagaa gaagaaga 4068
<210> 38
<211> 3949
<212> DNA
<213> 人工序列
<400> 38
gatctgtgta gctgccacaa cacttgatct cggagtgagg ccctaactcc attgatgggt 60
gtcagctctc atcagtcgca ctgttagcaa caggagatcc agctgactgc ctctcaagtt 120
atacagtgtg tgcaccagct tccaccacag cagctgctgc tgtcagtttg gaaataaagt 180
tcattcctac cttgcaggca ctttggcatt tgctttggga ttatttgcac ctcaggaaga 240
tccatcacta gttttcatta ttctgaatgc aatggattat cagcctgtaa ataatcaagt 300
agacctcact ggatttaaac attggaagct aagctatcaa gcagatttat gaagttcaca 360
tgcttgtgca atgtgagaag ctgacttttt ggagctgcag tggcagccaa ccaagcagcc 420
tgaggtttgt tcttgaaagg gagagtgtgg actaaaggaa gcctagaaag acacagaata 480
aaatcaggag ggcagatcca gttaatactg aacaccacaa gtttatttct caccactctc 540
atatacctta accaaaaggt gaacatgagt tccttcatac aaagcaaaca ctcttttctt 600
gctgaatttt tcaccaattt ggtaaccata ccttagattc aaattctagt tacctgttct 660
ttagggacag gtgtcagcac atctcagacc aagtctgttt ttatttagca taagacaccc 720
catgccatga tgcaatatcc tactgtagcc acacctttga cctttaggtt ttatgatttc 780
ctaaggacag ttatgaactc tctgcccttg agccaagatg gagtccagcc gtctttatgg 840
gaactagcag tgcaatgtga ttctctcatc cattgcattc gtcaaaaggc aattgtgagt 900
aaagggagga tgtagtggtt catctatttg cctgactgat atcctaacag ctcccctagt 960
ttttaatttt tttttagttc ttgtgaagat gtcatggctg gtctggagct cctgggtata 1020
ctgtagccta ttttactgtc taagcctctg gggtagctgg gattgctgga tcatggtgac 1080
aggtaactca ctacccaatt ttaaagtgaa tttgtaatga aaggatgatg attgttacct 1140
acttgttagg gctaggaatt gatttcttcc caacatttta gagattttcc ctgtgtatta 1200
atggcattta tcttgcatct acaattgatg ctgttcaaag ctgcccaggc tggcctctaa 1260
ctcacagaga tgcaaatgcc tctgcctccc gagtgctggg attaaaggcg tgcaccacta 1320
atgcctggct ctttttaaaa tcttttaggt tattgcttcc taagctctag tgactatggg 1380
tagatatcaa agacaataca gttttcattg gttctgtttt ggtgtgtagt ttttgttggc 1440
tactttcttc tttacacaga tttcatgtag tgcacactca tcttgagctc tctacatagc 1500
acaagaggac cttgcaggct tgattatcca gccgctaatt cctaagtgct gagtgacaag 1560
tgtgtgacac tgtgcctctc attttgttgg ttattttaga aagagtctta ctaagttgcc 1620
cagactaggc tcaaactctg aatatctccc agctttagcc tccatagtct tgcatttaca 1680
ggcagtttaa tcttgagcta acagtccctg ctgataccaa gtttttattc taggtgtcca 1740
agaggaactg tagcagtgaa ctccagtcta gccaaagaca cttgaccatt gcactctgga 1800
tcttgtcttt agatatgtat tttgggggat ttctttttaa tcaacaggaa atcaaataaa 1860
cttaaaaaag aatttacgca ggcagcactg gttcaagtat ttaatctcaa caccctgtag 1920
atataggcaa aagtatctct gagcagaaag atagccaggg ttacaaagag aaaaactgtc 1980
tcaaaaatta tatatatgtg agtgagtgtg tgcgtgttag ttattttaaa ttatatgtat 2040
aaatgtacat gcatatgcaa gagcccatgg agatcaggag aaattgtgtt ctctaagagc 2100
tgtagttact ggtgggtgaa agccaccagg gttgggagag agaaatagaa ctgtagtact 2160
atgatagaac aagaagtgct cttaacctga gttatggttc tagctcaata gatacactat 2220
tcacagttat tttaaagata ctgttgttgt tgtcttttac tgtgcatttg ggtgataaaa 2280
catgatccaa cacactcaac aaatccacat ggagtttatt ggaaaaggga ataaagggag 2340
gggtaggtgt taaccaatag ggagcagaaa tggaaagaga gaaaacagat gggaggcact 2400
tgcttataaa gggaaaggaa acagttaaga atgaggctca gtagttgggg cctttgaaac 2460
catagtcact gaactgcctt tggccaagat ttacatggtc tctgtatgca gaatcctaat 2520
tcagtcaatt aacacatgca ccacacagcc atgcaaactt tgacagtctt tgagatgtca 2580
gcaaggaaca atcacctgtg aaaaacagat cccagggcaa gggcaggtca cctggaaaag 2640
agaagagaag atggatccca gagcagggag ggaatccaag tgttagagag gccactaggc 2700
caggaaagga tctctaagga agcaacaggc ccaggagagt gctgatgtgg agtgacatgt 2760
ggagatcaag agaaaacacc agggtgggag gagagaaatt ggcagctgga tcagggccag 2820
gtcgcacaga acctagggag agggagaatc caggttatca acaattatta ctaggcagta 2880
ctacattttc tgtgtcctat tatttctgta gttacttaca aaatatttga gttataaaaa 2940
ggaataaaga gccgggcagt ggtggcacat ggcattaaca ccagcacttg ggagacacag 3000
gcagttgcat ctatgtgagt ttgaggccag cctggtctac agagggagtc ccaggaccaa 3060
aagccacaga gtaactttgt catacaaact gatccagtag gcttcatctc agatacgcag 3120
tgatggttca acatacaaaa atcagtaact gtaatccacc ataaaaataa actttaaaaa 3180
acactttttt attatccctt tacatgctta caaagtcatt gataagccag gtattggggg 3240
tgcatgcctt taatcccagt acttgggagg cagaggcagg tggatcactg tgagttcaag 3300
gccagcctga tctccagagc gagtgccagg ataggcttca aagctgcacg gagaaaccct 3360
gtcttgaaaa accaataaat aaataaataa ataaatagtc attgacaaga aacaaacatc 3420
ataaaagtct tggagatatt atggatacaa tttacataca cacacataat gaaggacatt 3480
tacagcaaac ctatagacaa catcaaatac aatggagaga aaaaacaaag gaattcctat 3540
aaaatctgta acttgacaag tttgtgaagt ctatatctac tcaatacagt acttgaagtt 3600
ctagatagac ccattaaaca gctaaaggac aacaaggaaa ggaagaagta gaagtgttgt 3660
tacttgttga tgatatagtg gtaccaccta agtgacacta aaaattcatc aatggaagta 3720
caggtgatta aaactttcag caaagtgacg ggatacaaga gtaactaaaa caaccattag 3780
ccctcctatg taaaaatggc aaacagcttg agaatgaaat aaaagaagca gcagcaatca 3840
caatagcttc aaataatata aaatacattc tagtaactct aacttgttta attaaaaaaa 3900
ctttaagtgt ttgaagaaag aaattgaaga agatatgagg cgatggaaa 3949
<210> 39
<211> 1128
<212> DNA
<213> 人工序列
<400> 39
gatcaggagt tcaaggccac actgaggtac acgaaattca accagtctga tagatataag 60
agctgggtgc gtgtggctcg cacctcaggt ggagacagga gtataaggct ggaggaggca 120
gtatttaggc ttattcatat agaggatttg taaagacagg acctccccag cacttccatc 180
tgaacatttg gtacaggtaa gaagtcccta tagagttggc tcctttaatt ctcttatgtc 240
tcaacattta cccaattatc tgacatctca ctcagcgttt ttactattta aaccaatttg 300
aagaaatgct acagagcacc ttttaacctc tacaaacaca cataaacaca gagagagaga 360
gagagagaga gagagagaga gagagagaga cagagacaga gacagagaca gagacagaga 420
cagagaaaca aatgtaataa cgaaagaagt catgtcatga gaaccctgag gctgcggtcc 480
acacccatct gtggccagga cacagaggcc tagaggagcc ctgtgacaca agcactctct 540
acaactggcc cttgtcccgt gcagggggca gaaaggacag attttgttgt gcagaagctt 600
tatcatcagc agcatacact gggcctctct gtccttcact gtcacatgct cctagggagt 660
tcagtcggga ggtcatgtat gtgcactatg gacctgtccc acagacactc tgtcctaatg 720
cgttctgctg gggtattttg gcaatgctgc aattgagcag tgatgtttca aggtgcacta 780
gttgttcccc ccatattctc caacacaatc aatgccacat tgtaaatcaa aacattcagg 840
ctcccctgtg aattgtaagg attttattat tggaatcctg gttttagata cctggagggt 900
agggtagggc ttgcttcatc tattcaggtg tgtaggcaag tggctccctt gagtcttatt 960
gcccagatgg attcatcaac agaatttgtt agcatctatt ttctgctgca aagagaaccc 1020
ggtgaggtat ctgaggtgtc agaggtgaag gacatctcac tgagcataca tgggacacct 1080
catgggaggg actgaaacct gtctgccaga gcacctgggt ctgaccat 1128
<210> 40
<211> 1352
<212> DNA
<213> 人工序列
<400> 40
gatctctcag cttcctgctt tttaaaagta ttttatttta tttttatacc cattgatgtt 60
ttttgtcgtg ggtgtcggat accctgaaac tggaggtttt cattttatat ttatgttaat 120
caatgttttg ccatgggtgt tgcgtcccct gaaactggag ctacagacag gtgtgagctg 180
ccatgtgggg ctgggaactg aacttgagtc ctctggaaga ggagtcagtg ctcttaacta 240
gtgagccatc tctctaggcc ctcagcttcc tgctttggct accagctgac atgcctctcc 300
caccattatg aatgccccct caggaacctc tggaactgaa aaccaaaata aactttttaa 360
agttgcttta gttcatggca ttttatcaca acaatagaca agaaactaat acagtaatac 420
atggcttttt aaatgatttg acagattcat gtaagtatat agtgaatttg ggtcattttt 480
caccctttaa taccattgtc atcctccttc ctaaccagct gggaccctct tcctcagcag 540
gccctcttct actttcattt tttttttttt tttttgtgtg tgtgtgtgtg tgtgtgtgta 600
tgtgtgctcg cgcgtgtgct gtgtccttat gtttatttat ataaaaaata gcgcattgac 660
tctaactttt actacacctt actggttata tatgtatgtg tatgccatgg tacatgtgca 720
gagaacaaag gacaactttc cgggagtcat ttctatcctt ccactatgca tgtggtttct 780
gggatagaac tcaggtcatt agccttggca gcaagcctct taaccctctg aaccatctcc 840
ctggcctggc attttaaaat aatctttgat gcttctatca gtatcttggc cactgataat 900
ctataattat ttctctaaga ctatttgttt tccacaaaca aaatgctata agctgggaga 960
tttataaaga agagatacat ttggctcaca gctctggaaa ctgggaagtc caaaagcatg 1020
acaccagcag ctgtcaaatg cctttctgca gtatcataag aaatcagagg acagcacatg 1080
acaagaatgt tacaaaagga caggacaagt gttccaggct tggtctatgg ttttcatcat 1140
ttaaggccgc caattccatc acaagtgttc tcttccctat gatttcatgt aattctaaag 1200
acattctaaa accccacacc caaatactat tagcacaaga cattggagat tttagtttca 1260
atcttagctt taggggagag acactcagtt cataacagta tccccaagat ttccagtatc 1320
cagtgctgtc tcaatgcaat actactcaga ag 1352
<210> 41
<211> 1246
<212> DNA
<213> 人工序列
<400> 41
gatctttcca ttttctggta tcttctttaa tttctttctt ttaagactca aagttcttgc 60
tagacaggtc tttcacttgt ttggttatca ttaccccaag atattttatg ttgtttggct 120
attgtaaagg atgatgtttc tctgatttat ttctcagccc atttatctcc tgtgtataat 180
agggctagtg attttttgag ttaatcttgt atccttccac ttagctgaag gtgtttatca 240
gctgtagtag ttccctggta gagttttttg ggttacttat gtaactatca tatcatctgc 300
aaacagtaaa aatttgactt cttcctttcc aatttgtatc cccttgttct cctttttgtt 360
gtcatattgc cccagataga acttcaagta caagcagaag tcattctctt ctgcttcatc 420
tgtgttggga tgttcaggtc ttgctggcgt agagtcccta gattctagtg gtgtcatatt 480
gttttttctg ttattgaatg cgtttttata ttgttgtctt cccatctctt cttccagtgg 540
gttcaggtgc cgtctcttcc tctcctggtg tgtatgggtc caaggttctc tttggtggat 600
gcaagagggt ctgatactct gatgggtctt atggtgggtt caggcgggtc tggggcactc 660
cctctctagg tgggggtggg aactggacta gcacagtgat gtcatcagac ttgaggttgc 720
ttggtcctca gggggcaagt tgatttgcct gcagtcccca ggacaggagt tcccagagtg 780
gacaggcaga agtcgggctc aaggcagggg ccaagctcta catgtgattt ttaaaatgag 840
agttcagatt catgtaggca gatgataagc tcagggagag aaatgaccta tttctaaaaa 900
ctgatgacgt gaagattgag agaaagggtg gatttttgaa aaagaatcgg tagggagcta 960
aaaaggaaaa gagaaattaa ggatgactct caggttttgg acttgaatgt tggatggatg 1020
tttgtcccat ttgtagaaag gagaacacag gtgatttaga agtctgaggt gaggatgtca 1080
cctcatgact taaagaatct gaggttttag aatcaaatct cagggaacat cattagcaga 1140
gggaccctgt tgggtcttgc cagatgctga gcttcagctg tctcctgttt tcccacattt 1200
cctgtttttc ctaacttgta tagactctgg gaaaagaagg taccag 1246
<210> 42
<211> 1886
<212> DNA
<213> 人工序列
<400> 42
gcagtacaac atctcttgct ttgctcggga atgtgggcac tctgaatgtg atcctgaccc 60
ttttgggaat agagcaggtc catccgggac ttcaacccat agaatctaaa catgggaaac 120
catatttatc aaggtctttc tagcagctac agaatcatct atcctgctac tagactcaga 180
gcagaggcta caggaggtgt cagacagaac tcactttaga gtcttcagta caagataagc 240
ttcaggccag acctgcttcc agctctccag gctttccaaa gaccaagtgg gttggagaga 300
actctggcct agcaggcttg aaagaaactt ggttgggact gttaacttca gtcaatttgc 360
tccttgcagc aggtattgtt aacatgaggc agagatggga gggtgaaatg agagacaatt 420
ggtcagaact gttgatgccc aaagagctat ttaactaatt aaaacaattt aaactgttaa 480
gaaaattttt gtggttttat tgtatcatga ggcattgaaa catctgaaca aatcaatatc 540
tgggcggtga ggcagctgct ttctccttca cttctttggg ttactagagc aacttgtcag 600
tagattaaaa aacaaaatga aacaaaaaca aaaaccgaca atcttttgca ttacttaagt 660
ctttccaagg catgcgctgg tacaacacaa acttctcctg tcagatgcaa ctagtctagc 720
atccaaacat catgcacaac accgtggtga cagaagcgca ctgcacctac tcccacctcg 780
gccctgctca tttgtgtatg atatttggag catctggagg agtgagatag tattgggaag 840
aggagggagg aggaaacagc gtgaggatct ggccaggtgg aggtcagccg aagttgtgca 900
gggcaagcct gaacatgtca ttggtgcaaa cccaagcatc gttgatgttc tttaatagaa 960
acatctggtg gaaacccatg atgggatctt catcggcctg tatggaagaa aaaatgattc 1020
agtaagaggg ctaggaacag gaagaacgtt cagtggtaga acaaggcaga gaatacagac 1080
tccaggatca ggcacctact ctcttaaacc cgaatgccag tacagaacag gtacttgtga 1140
atgtgaactg ccatgtgtga aacattgttg atcatgcaaa agtcaataaa tggctgctca 1200
cactgccatg tatcattgaa aaggcagcac atttaccagc taactaggcg acagagcaga 1260
agacttgcct gtctctaaac tcggcaatgt ctctgggtag atgtgatcaa agaatgtaaa 1320
gactcttgta gcacttatta tttaatttat agtaccaaaa aactgtaagc aatcttagtg 1380
ttcaagagga actgacagaa gagtaaggct ggacttgtag gtagtgcttc tgggtctaat 1440
aaagaggcac agacactctc tttccacaca cctattgccc gcccctctcc acacgcatat 1500
cggattcagg ctcagccaat ttgtcctgct ttaggaagaa gctttggaaa cactatcaaa 1560
ctacgaagga accagacaca gggacacaca ccttaaaaag accaaggttg tgctcaaagg 1620
gtaaaggcac ttgccctata agactagtga tacgagttgg aaggagagag agatttcctc 1680
tgacctttac atgagtgttg tagcatacac agaatacact catcatgtaa acacacataa 1740
catatgcaca atgttgcttt ttcactaaat tcttttcttt cctttttctt tttttggttt 1800
ttcgagacag ggtttctctg tgtagctttg gaacctatcc tggcactcgc tctagagacc 1860
aggctggcct cgaactcaca gagatc 1886
<210> 43
<211> 1118
<212> DNA
<213> 人工序列
<400> 43
gatctgaagt ttggatctgc agaacccaca caaaggccta cgggcttagt agtgtacctg 60
caatttcagc acttggaagg ctgagaaagg atcccaaggg cagctggcta gctaggctag 120
tgttagctga gagctctggg ttcgtggagc gactctggtt cagtgaataa gatagagagt 180
gacatcagct ttgggcttcc acagcaaatg agctcacttg catgcaaaca gaaatgcaaa 240
cacatgcaca aagcaaaaca aaaggaacac aggccaaagg tgggtcattc ctataccatc 300
ccctcagcag ggtgcagtcc ccacaccctg acccagttcc ctcatgatgt tagagaaaat 360
aactttgccc ccttcaacga acatttcagc tccaagagaa cctggcccac tttgaaagct 420
ttaattagaa atgtgcaatt acccggaaca gatgtctgtt gtgattgtgg agacataggt 480
taaagaatca cacagcagtt tgcgtggtta cagaaggttg caagtaactt taaaacacag 540
tttttggtaa gtctccaaca tgttacctaa catagcatgg cctcgattac atgtaagcag 600
tgagtctccg gctgcctggt ttgtgagggt aatgtacttc agcaatagtg ctgaggctgt 660
acagtgagtg actcatcacc ctaaaaaagt atcgaattcc agtcttcaga gttagctttc 720
agtaaaacca agtcagtggt gaaatggctc agtaggtaag ggcacccgct gccaagccca 780
agacctgtgt cctgtccctg ggatccagtt ggtggaaaga gagaacggac tcctgcaagg 840
tggcctctga cctacatgcc tgaattctgc cagacattaa gtaaaaacaa acgcaaaaag 900
ggaagtgggc tcacgcataa ggcactcact ggactctact cttctactct gtggttactt 960
tttggtgttc aagcatacca taccttgatc tacatgattt ttactccaaa gacacagcca 1020
gggtaatgtt gtgtgatgga tcagtcttat ttgttacttg tttactagta cttactgaga 1080
ttgtcgatgg ctttaatgtc aacatgagtg tggagatc 1118
<210> 44
<211> 1611
<212> DNA
<213> 人工序列
<400> 44
gatcttttgt ggactcagaa ggtcgctgct tctatgagca gctggagaga ggaaggagaa 60
ggtctttttc tggtcttctt cagcaaggtt gtcccctatc cacagccctc atcccgagtc 120
aaagatgaga tggtaggaac ttacatatca caagtgccaa ggcaggggac agtcagctaa 180
gccaggtttc cttaagtact gtgggggctc tgggagaatt gagacctgtc ttaccctgga 240
ccaatggcca ttcaggatat ttcatgctcc agcaagcatc caatagttca ttgatatcct 300
cccaccaagg cagagttttg gatggacttt tccacctgta tggcctttca gtgtggcaaa 360
ctttcatacc tgaaattcag gcaaagctcc tgaagtttgg aaaacccagg ccttactggg 420
ctggtcaact ggtctacatc tccttagtga tgacaatggc atgtcctccc atccctctga 480
ctaagctgcc acaatgttcc tctgcctgca gcctgggttt ctcagggata tgtctaggta 540
agtcccctac agctccaaga ctactgtcta gcataaaagc tttgagaaca agactgagag 600
tttagaggcc ttcatgcaat ctttggggaa catcagaccc agatgtcatg gctggggtca 660
catggtagtt gagacccatg ccctgcctgg actccatgca aggtcagaca gtgaactttg 720
gggacagaag ttgaagccca catagagccc tgccagtgag ggctacaaga agaagccaaa 780
ccctttgacc aatctgtacc tgaacccaag aagaaccagt tggaggagcc aggctgggaa 840
atggacccct aagagatttc ctaggcagcc tttgctttcc ttgttgcctc aggcctgata 900
tggccaggaa gggaagcacc tgtctatagc ctagaccaca tcttatcact ctaaggtgga 960
accagatgag tgtccaccaa ctagcctgac tttccccctg ctgagaactt actgtgtgca 1020
ttgagcactt actgtgaaca tcctattagg taatccacca ctcttattcc caccccccca 1080
gactgttagc cagtacaatg gctaggtggg tggcaggacc agaggagcat agttgtatgt 1140
ggccctgtgt atcaggctca gactgcaaca tctagtgggc taccagtggc ctaacactag 1200
ctgcctataa gaataggtat gcccttgcct gttttcattc catctatagt ttcttcattt 1260
cccttggaat ttttagtaaa gttgctttgt ttttgtttgt ttgtttgggt ttttgttgtt 1320
gttgttcagt tgggcaggtc caaaagaaag aggcctctgg ctgtgtagct ctcatactcc 1380
tcagggcctc tttctcatga gtgcacctac ccgataccaa cctctctcct agtacctgga 1440
gaagcaaaac ccagaacagg aaaataaagg tcaaaataga ggtcataggg aagaagcagg 1500
cctaatattt aacactttta agaataacta actgggttga ctgtccaaaa gccgcacatg 1560
tctaatggtg ttgaatgtcc attcttatct agaaattgct tagaagtgat c 1611
<210> 45
<211> 1299
<212> DNA
<213> 人工序列
<400> 45
cccttgcaca taagcggcat gtgtccccag cctggagggc tacgtgtgat attttccccc 60
tggcatgtaa gaagtcttca gtgggccagc aaaatgcttt ctatgaaagt ctgtgacact 120
ggcgtgcact taccctgctt gtagaaagta aattggcctg tttagccatg caatgctgtt 180
ttagttgcag cattcctaga gtaaaaagaa cttttgatgc cattgaacct aaagctcaga 240
aatttggaat gtaaagctgt cattgcaaca cacatttcta aatctttacc catgttttgg 300
aaaatacaat aaattcagaa attgtcagta actgaattgc tatgtcttaa aagcatttac 360
tattgacatg ttttgggaga attaaagtta gcttggaaat ttaaaaaaaa aatgaagaat 420
tcaaacatat tgaaaaatag attgatatta gtaaatatta atatctttta catatagaag 480
tgtcatagtg ccactctatt acattgaatc atttagactt gttattttca tagatttatt 540
ttataaattt attttttctg ctaatctttt tattttaaat tggttcttca caatcttaag 600
tgacaaaata ttctcaatat tggcaattat atattgcttt tatatgcaaa tttaaaatag 660
gatacataaa ttgcaaatta attttgttac tgtaggaatt atttgaaata tactggctgt 720
agtcactaat gtagatttac aggattcatc tttcaccatt gtagttctgt acccattctt 780
gatgaaaaag ggtagatttg accaactccc ctttaatagg gtttcatttt ggttttgtca 840
gagattaaag tagcataaat cacattaaca tggaaaaagt acaatattta tttagtgcaa 900
ttttgtcagt gccacccaaa gacaagataa acaaatactt aaagaactga tgaatgaaaa 960
gcaattattt agatattgat gtagacttta aaaagtgaca agttgtgaga aaagcaacta 1020
cattttgcat gaaggcttaa aggatgaaca acttttagga tgttcatgcc tttcttggtc 1080
tctaccatta gtagaatcat tgttttccta atgaaaggat ggattctgtc acatctccca 1140
aaaattagaa tggtcctata ttgtccattt ctcaaatatc tttaattcat aaataaccaa 1200
agtgtcaggt tgcatgacat gttttggact acttgatttt aggagcctaa tattccctgg 1260
ttacccttta aatgcaagca ccattctaat agctggatc 1299
<210> 46
<211> 1108
<212> DNA
<213> 人工序列
<400> 46
gaagtttgga tctgcagaac ccacacaaag gcctacgggc ttagtagtgt acctgcaatt 60
tcagcacttg gaaggctgag aaaggatccc aagggcagct ggctagctag gctagtgtta 120
gctgagagct ctgggttcgt ggagcgactc tggttcagtg aataagatag agagtgacat 180
cagctttggg cttccacagc aaatgagctc acttgcatgc aaacagaaat gcaaacacat 240
gcacaaagca aaacaaaagg aacacaggcc aaaggtgggt cattcctata ccatcccctc 300
agcagggtgc agtccccaca ccctgaccca gttccctcat gatgttagag aaaataactt 360
tgcccccttc aacgaacatt tcagctccaa gagaacctgg cccactttga aagctttaat 420
tagaaatgtg caattacccg gaacagatgt ctgttgtgat tgtggagaca taggttaaag 480
aatcacacag cagtttgcgt ggttacagaa ggttgcaagt aactttaaaa cacagttttt 540
ggtaagtctc caacatgtta cctaacatag catggcctcg attacatgta agcagtgagt 600
ctccggctgc ctggtttgtg agggtaatgt acttcagcaa tagtgctgag gctgtacagt 660
gagtgactca tcaccctaaa aaagtatcga attccagtct tcagagttag ctttcagtaa 720
aaccaagtca gtggtgaaat ggctcagtag gtaagggcac ccgctgccaa gcccaagacc 780
tgtgtcctgt ccctgggatc cagttggtgg aaagagagaa cggactcctg caaggtggcc 840
tctgacctac atgcctgaat tctgccagac attaagtaaa aacaaacgca aaaagggaag 900
tgggctcacg cataaggcac tcactggact ctactcttct actctgtggt tactttttgg 960
tgttcaagca taccatacct tgatctacat gatttttact ccaaagacac agccagggta 1020
atgttgtgtg atggatcagt cttatttgtt acttgtttac tagtacttac tgagattgtc 1080
gatggcttta atgtcaacat gagtgtgg 1108
<210> 47
<211> 3619
<212> DNA
<213> 人工序列
<400> 47
ttaattaccg acaatggctg gtacagcaag tagcacggaa aaaaagtgaa acagttgcac 60
tgttcatggt tggcaataat tcttcaggaa aatatttact atcaatcagt tatgagaaaa 120
gggactctgt gctcgtaaaa cagcacgttg cttctcatac caggaccatt ttgcttcagc 180
ataatctgaa tttaaacagc ttgtttcctg cggatataat tttggaaata aataaaacaa 240
gtcttctatc aaaatccgga gtgagtggga aggaacatca catctttcta tctcagtcag 300
tttcaaacag attattagtc ccaagtaaaa aacagtaata acaaacaaca aaaatacaga 360
atgtacacaa ggccactgat gggcttattc caaagaaaga cagacctttc ccactgtagg 420
ccaggtatca aggtagaagt gcccgaacaa ttcaatttta actgcacatg tttatggaag 480
gggtgtgagg tgtaagggta aattatggaa aagcctcaaa ccaaaatttt ctgtagtatt 540
tcaataaagt caataacaag ataacataaa aattaatgtt ctcagttttt ttcataatta 600
aaaaacatga aggttgacaa ttaggtacaa tgtgattata gattttaaag actaagctga 660
cagtcaataa ccgctgtcca tttaaagcta caataaatat agagctcatc atgttcccca 720
aacaaatccc ataaagcacc agggctgtga gcagcagatg agatgctcta aaaagcaaac 780
tagctggcat ggtggtgcat ccagcacttg ggaggcggag gcaggtggat ttctgtgagt 840
tcaaggacag cctggttgat atggccaaag ctacatcgga cagacagaca gacaaaacaa 900
aacaaaaaag caaactatat tcaagatatt tcatggcttc aaatactact tggacccctc 960
cccattttta tttttaaatg tttctttctt gaactctttc tttcaggaga ctgctgtcag 1020
cctaaggtag cttatgaagc agctgtgctt ccttacagga actgaatagt tacagggcaa 1080
ccagcagagg aaaactacac acaaaatact acaggtttca tctctgcttt tgagaaggac 1140
caatgtcttc tgtaaaatgc aaacaagtaa taattaaaag gtctaagact acaattagta 1200
ttgataccca aaccaaaatt actctgactg aaattcagtt gctttgaacc ataaggggga 1260
aaaaaaggct ggcttcactg tatttcagtg gcgttacatg gagacagctg gacatgtagg 1320
ccacaatgga gaccagtttg aatcagtatc agacgccagt ttctgaagga aagtcctcac 1380
agccacgtca gtgtagcaga caaaactact gttaagaact aaaggtgaag aacaagaact 1440
agagaaatgc ttacagaact acaaaaatat ctttgagtca tttcttttaa aggtcaagca 1500
gtaaatgagg ccaggagaga cagtatgaaa tcatgagaca gatataacat gtttagcaat 1560
aagaaaggaa aactctcatt gttgccatgc tagaggaggc cactgcaata aacatttttt 1620
tcagttacgt atttttattt gatgatttgg ctcaaatctg aagcaatgaa ctagaagaca 1680
ggatgtgggc caataaaagg aaccaggaag ctggttgtgt tccaaatgga aattacagaa 1740
atcattattc aattagagtg gttaagggga caatgaaaga aaataggtgt cagaataatg 1800
ttaaaacaag caagaatggg acgagaaggt caccatctgg gagcaagtga aacagactga 1860
tgagcagcaa tgagcaaact tatttcctca cccaagagca tggaaggaat tataccaccg 1920
tgccagacgc cacaagattt ctaaccgtgc accactgaag tagagggtag aaaaaagaaa 1980
aaagaacagc aaaaacaaat ccaccccaca ctatacacac agcaacaagg ctaaggagtg 2040
tagaaacact ggcttaccac gtacaggaaa acaaaaggaa cagatgctca gttggccagc 2100
tctcaatgaa actcattaaa attgtcgccc tgtccttgga ttggtggtca tgcgaaattt 2160
gtgccttgtt tagccagaag taacttgtga tgaaggagag aacagcatgt ccaaacaaga 2220
attgaaacac ttgttgatct atactcaatg ctagatataa aacaggatca agtagcactt 2280
acaaactgtt actaagtaat tgaaaattaa atgtaactta cactactcct cttttttttt 2340
tgtagcaaat taagatgtga acttaaggca caatttgatg aacctaccat ttgcagctac 2400
aatataaaat aaattcttac atttctcata tggctaagtc caatggccac aagctgtatg 2460
tttgcagtaa taaagcaagg tcaggaactg ccatgtattt tgggaaatat aataaaaatt 2520
attgttgctc ctatgtcctg attgatcatg tccctcccta accacctaat gtgtaagaac 2580
agagtctcca tgaacagaat tagagcacta tgcaataagt aaatgaatga acagattaat 2640
aagagatccc agagggctta gctcatccct tccatcctga gattatatta tagcaaggat 2700
tccatctatg aagaagagtc aacttccaac tagacattga atctactgtc accatgatct 2760
tcccatatct agaactataa aaataagtca ctgtttataa gctaccttgt ttatttttgg 2820
ttgtaataac acaaaagaaa ttagctcttc ttgagattta taacaaagat ggagttgaca 2880
tgacatcaag tcctatctct aataatgaca gtaaataggg gcctatatag gacacaagag 2940
atgaagcaga aagttggaaa agttgtaaaa cagtcacccc ccaaaatggt aataaaggtt 3000
atttttgcct aaaaataaag acaaactcta gaaatacaac tcatactgaa cgttatcctc 3060
aagacagtaa agttaacaaa aaagttatcc ccagtcaatc tagaaaattg aaagaaaaaa 3120
attaagattt ctaattaaat ttttgtgtat gggtgttttg tctatatgta tgtctgtaga 3180
ggccagaaga agacactggg tcctctggaa cgggagctgc agatggttga gagccgtcat 3240
acggtgctga caggtaaccc gggtcctata caggagcagc ccttaaccaa tgagctctta 3300
accaatgaac ccctctccag ccctgaagat ttctaatttt taatattttt gtatctagaa 3360
atataacaca catttataca taaaagacta ggctcatatg tcagctaaat acatgtttcc 3420
actcaaaatc accaagtaag acatttctca agaaagaagg gcacaaccta agctgggacc 3480
tctgcagcag tctcacgcat gtggctcaca ctgtcaccag cagggtattt ctggcgtgct 3540
acacctgcac ttaaaggagg ccaggcatgg cggtgctggc ctttaatccc agcactcacg 3600
gggcagaggc aggcagatc 3619
<210> 48
<211> 1114
<212> DNA
<213> 人工序列
<400> 48
tccacactca tgttgacatt aaagccatcg acaatctcag taagtactag taaacaagta 60
acaaataaga ctgatccatc acacaacatt accctggctg tgtctttgga gtaaaaatca 120
tgtagatcaa ggtatggtat gcttgaacac caaaaagtaa ccacagagta gaagagtaga 180
gtccagtgag tgccttatgc gtgagcccac ttcccttttt gcgtttgttt ttacttaatg 240
tctggcagaa ttcaggcatg taggtcagag gccaccttgc aggagtccgt tctctctttc 300
caccaactgg atcccaggga caggacacag gtcttgggct tggcagcggg tgcccttacc 360
tactgagcca tttcaccact gacttggttt tactgaaagc taactctgaa gactggaatt 420
cgatactttt ttagggtgat gagtcactca ctgtacagcc tcagcactat tgctgaagta 480
cattaccctc acaaaccagg cagccggaga ctcactgctt acatgtaatc gaggccatgc 540
tatgttaggt aacatgttgg agacttacca aaaactgtgt tttaaagtta cttgcaacct 600
ttctgtaacc acgcaaactg ctgtgtgatt ctttaaccta tgtctccaca atcacaacag 660
acatctgttc cgggtaattg cacatttcta attaaagctt tcaaagtggg ccaggttctc 720
tggagctgaa atgttcgttg aagggggcaa agttattttc tctaacatca tgagggaact 780
gggtcagggt gtggggactg caccctgctg aggggatggt ataggaatga cccacctttg 840
gcctgtgttc cttttgtttt gctttgtgca tgtgtttgca tttctgtttg catgcaagtg 900
agctcatttg ctgtggaagc ccaaagctga tgtcactctc tatcttattc actgaaccag 960
agtcgctcca cgaacccaga gctctcagct aacactagcc tagctagcca gctgcccttg 1020
ggatcctttc tcagccttcc aagtgctgaa attgcaggta cactactaag cccgtaggcc 1080
tttgtgtggg ttctgcagat ccaaacttca gatc 1114
<210> 49
<211> 4068
<212> DNA
<213> 人工序列
<400> 49
tcttcttctt ctcaaagatg tcaatatcca caccttcaac aagttaagtt agaaatccta 60
tgatagaaat agaatgaaga gagtggtttc taatgtgaat attatgcaat gagtctcata 120
gctggctcta cttcaacttg tgaacagcat cataatgaga tacaggggtg ggggtaagca 180
aagcctacaa gacagtaggt gtggtctgga ttcacatgca gacaagggag gatccctcac 240
tttggtctgg acagacactg cagtcctgtt cattcagccc cagatcaaat tatcctcttg 300
gcagtttcac actggtgagt catgctggcc tggctgtcga ctggagttgg taaccctgct 360
cacatgagca gctgtttagc tgcatctccc ccattctggc taggtggagt gctgcttaga 420
gcctgaagtg agtttttaga gccctaaaat tgtttcactt accagcatgg aaatctaaca 480
cacagcacaa tggccaggtc acagagctga aatcatctca aaccgctatt aatctgtcct 540
ttaaagctga aactctgtat gaattaggaa ggaattaggc ataaggtcca tttcctcaac 600
ctgacatgtc tagaatcaac agtatacctc tgtcttcctg atgaaaaaaa agagaccacc 660
caaatagttt atatccatag tctccctaca aagaccgcgc agagaaacag gagggttcaa 720
gcacagcacc aaggagtact gcaggctttt cagggctgat cacatagtcc tattcaaact 780
tagttctgaa gccttcatgt gcactgggaa agaagcctcc tctatgatga catggacaca 840
ctgagaggaa gctcacattg tagaagcaca ttctctactt agatgtggtt accatgtgac 900
tgatactctg tttcatcatt atgacagctt tgtaagcaac acacacacac acacacacac 960
acacacacac acacacacac acactcccaa cccccccccc ccccactgac agaactgatg 1020
cagtggaaca ggaagagggc aaataatcct aagtccgatg cacagaaaac aaataagtgg 1080
cccaggactt gagatttgac tttcactttg tctggattta tgagcttatg aattagtaca 1140
aagtgattat gcggactcca cttgatgctt tgaagcagct aactagagga gctaaggtct 1200
agagtgggaa acgtggccga ctcctacaag gaaggaagat ggtaagatag cacacttact 1260
ttggacttat cttctagaac gatgccaaat ggacattcaa atccatgtta agtactccaa 1320
agtcattgca aatttcatca tgtagtctac caaatttgtg acttgtgacc gttctgtaca 1380
aatttactat gttacagagg aagacggagc agaaagaata tgagacagag gctggagaga 1440
ggagctgaga aacgctccct tttgatacaa tacatgaagc cctctttttc atagcatggc 1500
tatcacattc aagtcacttc atcttggtca cctgcagaag acctgtgtca aatcaagcca 1560
acatatcggt ctccttcggc tttccaacag acagcactaa ttgaattcag tggattatct 1620
ataaaatagt aaaatgaaag aaattaaggg gtgataaggt ggagggagat atattgaggg 1680
tgtttgtggg ggtgacatgg gagtcaggga tagagataat caagacatac tgtaaagaac 1740
aactgtgtga taataaatta aattgtatgg aaaaccactt actatgtact ttttaaattg 1800
cgttctttga cagtttcata tgtgtatata atgcaatcaa ttatttacct tccttgttat 1860
gcctctccca cccttgtcag aaaaaaagat ggctacaaag ctctttcata tttttgattg 1920
tgtcccagtg agtttcatca gtgaaatttt tctgacctcc agtttggaac tgcccaatgg 1980
agccttgtag attcatggat ggatacataa caagagagag tgattctcct agaatctgtt 2040
agtaaccaat ggctcaatga tgaagagtat gacattatgc cctcctcccc acccaaggct 2100
gagtgttggt agtgacaatg tcacacagtc ctggcactaa caactgcagc ttttgtgagt 2160
tcatgatagc aaagatgata ttggcagccc ttctcactct tttcactctt acattctttt 2220
gacaccttct tccacaatgt ttctgagcct tagaagatga ggtataaaaa tcttgtttag 2280
ggctgagttc ttaattgtcg ctcattctta gcacccttgg tatttatgag tctttgaatc 2340
cacaaccatt cactagagag aattctctaa ttaagaatga tggataattt tgtgtatgag 2400
caccagcata agtacttaga agataacttg ttgctttgct cactcagtta agtaagagta 2460
gtaagttcct ttctagggtt tatgtcttct tcagtgatag gttttttttt ttcttcctgg 2520
atttacagtg cttggcatgg attctctgca gtggggccag gactcaatcc agtgattgcc 2580
catattactg ttattccact atcacacggg tgggcttgta ttgcctgata agtaggtatt 2640
gccattcata gggttcacag ctgattcaga ctttgatctc tttttgccct agtaacttgt 2700
ataatatctt ctgggactgt gaaagttatc aggcaggtgg ctggtggtgt ggctcaatgg 2760
tggaaatcca atgtgatatc atctatttac gtctcaatct gatgttaggt tcttgtgatc 2820
tggtgatgtg atttggacag aacccaaagg aaagggataa atgagttgaa gtgaagaaca 2880
gtctgctgtc agcttctgca agtttatagt gcatcgacgg tcttaccagg aatcagatgc 2940
atgaattctg tccagcattt ctaggcaatt ctgtggttgt ctagaactca aaattttgga 3000
caaaaggaag gacaagagaa ggtaggaaat gctatctgtg aacctaaaac aggaaggagc 3060
attggtctgg ggagtaatca gtcagtcatt gcatcagaaa tgaactaatt tgactaaatg 3120
aatgaatgaa tgaatgaatg aatgaatgaa tgaataaaag cacccaggaa acttcaggta 3180
aagagacctt tgtccttaat tcttactaat tgtacaatac aatcattagc ctttaacaca 3240
aactcggctc ttaggtattt tttttatttt tattttttag aaagacaaag tgacatatgt 3300
ataaaattgt tttaaaaatg caaaggattt ctagtcattc ttgtaattag cttggtctct 3360
cagatgctgc agggttattc tcctacaact gcaaacagaa gaattaaaaa tacagaaaaa 3420
attcagaatc aattttcatt atgggcttgg actgggaaaa atgtgaaata attcttacaa 3480
gaccatgttc ccatggttga aaaactttat cagcaatatg ccaattacga catacgtgaa 3540
aagtgaataa attgtctcct actaccttac caccaaggaa atatgtttcc aagtcatgca 3600
tacaaaagag aatttcacaa tgagtaagga caggaggaag gaaaggagat taaatatgaa 3660
gaggaaaaga ctaggaattc tgtgagaact tttaccatta actttagcat actgtaatat 3720
ggaacagtaa cgaaattata gtggagagaa acaaaagttc tacaaaagtc tataagatga 3780
atgaacttac attgtcagta attgacagca agttgaaacc tgagtcagaa tccaatctca 3840
ttcttgctcg catgtctcga ccctgccttg ctgatgctgt ttagtgactt aagaaattaa 3900
aagaatattt gtagtaaaat gagactcaga atcctagcct ctgtccaact attagaagcc 3960
aacaggtcag ctgtgtcctt ttctaacaga tgagaaaact gagccccaga ggagagatgt 4020
ttcgcccagc atcagagcct ttcaactcag agccagacct agaagatc 4068
<210> 50
<211> 3949
<212> DNA
<213> 人工序列
<400> 50
tttccatcgc ctcatatctt cttcaatttc tttcttcaaa cacttaaagt ttttttaatt 60
aaacaagtta gagttactag aatgtatttt atattatttg aagctattgt gattgctgct 120
gcttctttta tttcattctc aagctgtttg ccatttttac ataggagggc taatggttgt 180
tttagttact cttgtatccc gtcactttgc tgaaagtttt aatcacctgt acttccattg 240
atgaattttt agtgtcactt aggtggtacc actatatcat caacaagtaa caacacttct 300
acttcttcct ttccttgttg tcctttagct gtttaatggg tctatctaga acttcaagta 360
ctgtattgag tagatataga cttcacaaac ttgtcaagtt acagatttta taggaattcc 420
tttgtttttt ctctccattg tatttgatgt tgtctatagg tttgctgtaa atgtccttca 480
ttatgtgtgt gtatgtaaat tgtatccata atatctccaa gacttttatg atgtttgttt 540
cttgtcaatg actatttatt tatttattta tttattggtt tttcaagaca gggtttctcc 600
gtgcagcttt gaagcctatc ctggcactcg ctctggagat caggctggcc ttgaactcac 660
agtgatccac ctgcctctgc ctcccaagta ctgggattaa aggcatgcac ccccaatacc 720
tggcttatca atgactttgt aagcatgtaa agggataata aaaaagtgtt ttttaaagtt 780
tatttttatg gtggattaca gttactgatt tttgtatgtt gaaccatcac tgcgtatctg 840
agatgaagcc tactggatca gtttgtatga caaagttact ctgtggcttt tggtcctggg 900
actccctctg tagaccaggc tggcctcaaa ctcacataga tgcaactgcc tgtgtctccc 960
aagtgctggt gttaatgcca tgtgccacca ctgcccggct ctttattcct ttttataact 1020
caaatatttt gtaagtaact acagaaataa taggacacag aaaatgtagt actgcctagt 1080
aataattgtt gataacctgg attctccctc tccctaggtt ctgtgcgacc tggccctgat 1140
ccagctgcca atttctctcc tcccaccctg gtgttttctc ttgatctcca catgtcactc 1200
cacatcagca ctctcctggg cctgttgctt ccttagagat cctttcctgg cctagtggcc 1260
tctctaacac ttggattccc tccctgctct gggatccatc ttctcttctc ttttccaggt 1320
gacctgccct tgccctggga tctgtttttc acaggtgatt gttccttgct gacatctcaa 1380
agactgtcaa agtttgcatg gctgtgtggt gcatgtgtta attgactgaa ttaggattct 1440
gcatacagag accatgtaaa tcttggccaa aggcagttca gtgactatgg tttcaaaggc 1500
cccaactact gagcctcatt cttaactgtt tcctttccct ttataagcaa gtgcctccca 1560
tctgttttct ctctttccat ttctgctccc tattggttaa cacctacccc tccctttatt 1620
cccttttcca ataaactcca tgtggatttg ttgagtgtgt tggatcatgt tttatcaccc 1680
aaatgcacag taaaagacaa caacaacagt atctttaaaa taactgtgaa tagtgtatct 1740
attgagctag aaccataact caggttaaga gcacttcttg ttctatcata gtactacagt 1800
tctatttctc tctcccaacc ctggtggctt tcacccacca gtaactacag ctcttagaga 1860
acacaatttc tcctgatctc catgggctct tgcatatgca tgtacattta tacatataat 1920
ttaaaataac taacacgcac acactcactc acatatatat aatttttgag acagtttttc 1980
tctttgtaac cctggctatc tttctgctca gagatacttt tgcctatatc tacagggtgt 2040
tgagattaaa tacttgaacc agtgctgcct gcgtaaattc ttttttaagt ttatttgatt 2100
tcctgttgat taaaaagaaa tcccccaaaa tacatatcta aagacaagat ccagagtgca 2160
atggtcaagt gtctttggct agactggagt tcactgctac agttcctctt ggacacctag 2220
aataaaaact tggtatcagc agggactgtt agctcaagat taaactgcct gtaaatgcaa 2280
gactatggag gctaaagctg ggagatattc agagtttgag cctagtctgg gcaacttagt 2340
aagactcttt ctaaaataac caacaaaatg agaggcacag tgtcacacac ttgtcactca 2400
gcacttagga attagcggct ggataatcaa gcctgcaagg tcctcttgtg ctatgtagag 2460
agctcaagat gagtgtgcac tacatgaaat ctgtgtaaag aagaaagtag ccaacaaaaa 2520
ctacacacca aaacagaacc aatgaaaact gtattgtctt tgatatctac ccatagtcac 2580
tagagcttag gaagcaataa cctaaaagat tttaaaaaga gccaggcatt agtggtgcac 2640
gcctttaatc ccagcactcg ggaggcagag gcatttgcat ctctgtgagt tagaggccag 2700
cctgggcagc tttgaacagc atcaattgta gatgcaagat aaatgccatt aatacacagg 2760
gaaaatctct aaaatgttgg gaagaaatca attcctagcc ctaacaagta ggtaacaatc 2820
atcatccttt cattacaaat tcactttaaa attgggtagt gagttacctg tcaccatgat 2880
ccagcaatcc cagctacccc agaggcttag acagtaaaat aggctacagt atacccagga 2940
gctccagacc agccatgaca tcttcacaag aactaaaaaa aaattaaaaa ctaggggagc 3000
tgttaggata tcagtcaggc aaatagatga accactacat cctcccttta ctcacaattg 3060
ccttttgacg aatgcaatgg atgagagaat cacattgcac tgctagttcc cataaagacg 3120
gctggactcc atcttggctc aagggcagag agttcataac tgtccttagg aaatcataaa 3180
acctaaaggt caaaggtgtg gctacagtag gatattgcat catggcatgg ggtgtcttat 3240
gctaaataaa aacagacttg gtctgagatg tgctgacacc tgtccctaaa gaacaggtaa 3300
ctagaatttg aatctaaggt atggttacca aattggtgaa aaattcagca agaaaagagt 3360
gtttgctttg tatgaaggaa ctcatgttca ccttttggtt aaggtatatg agagtggtga 3420
gaaataaact tgtggtgttc agtattaact ggatctgccc tcctgatttt attctgtgtc 3480
tttctaggct tcctttagtc cacactctcc ctttcaagaa caaacctcag gctgcttggt 3540
tggctgccac tgcagctcca aaaagtcagc ttctcacatt gcacaagcat gtgaacttca 3600
taaatctgct tgatagctta gcttccaatg tttaaatcca gtgaggtcta cttgattatt 3660
tacaggctga taatccattg cattcagaat aatgaaaact agtgatggat cttcctgagg 3720
tgcaaataat cccaaagcaa atgccaaagt gcctgcaagg taggaatgaa ctttatttcc 3780
aaactgacag cagcagctgc tgtggtggaa gctggtgcac acactgtata acttgagagg 3840
cagtcagctg gatctcctgt tgctaacagt gcgactgatg agagctgaca cccatcaatg 3900
gagttagggc ctcactccga gatcaagtgt tgtggcagct acacagatc 3949
<210> 51
<211> 1128
<212> DNA
<213> 人工序列
<400> 51
atggtcagac ccaggtgctc tggcagacag gtttcagtcc ctcccatgag gtgtcccatg 60
tatgctcagt gagatgtcct tcacctctga cacctcagat acctcaccgg gttctctttg 120
cagcagaaaa tagatgctaa caaattctgt tgatgaatcc atctgggcaa taagactcaa 180
gggagccact tgcctacaca cctgaataga tgaagcaagc cctaccctac cctccaggta 240
tctaaaacca ggattccaat aataaaatcc ttacaattca caggggagcc tgaatgtttt 300
gatttacaat gtggcattga ttgtgttgga gaatatgggg ggaacaacta gtgcaccttg 360
aaacatcact gctcaattgc agcattgcca aaatacccca gcagaacgca ttaggacaga 420
gtgtctgtgg gacaggtcca tagtgcacat acatgacctc ccgactgaac tccctaggag 480
catgtgacag tgaaggacag agaggcccag tgtatgctgc tgatgataaa gcttctgcac 540
aacaaaatct gtcctttctg ccccctgcac gggacaaggg ccagttgtag agagtgcttg 600
tgtcacaggg ctcctctagg cctctgtgtc ctggccacag atgggtgtgg accgcagcct 660
cagggttctc atgacatgac ttctttcgtt attacatttg tttctctgtc tctgtctctg 720
tctctgtctc tgtctctgtc tctctctctc tctctctctc tctctctctc tctctctctg 780
tgtttatgtg tgtttgtaga ggttaaaagg tgctctgtag catttcttca aattggttta 840
aatagtaaaa acgctgagtg agatgtcaga taattgggta aatgttgaga cataagagaa 900
ttaaaggagc caactctata gggacttctt acctgtacca aatgttcaga tggaagtgct 960
ggggaggtcc tgtctttaca aatcctctat atgaataagc ctaaatactg cctcctccag 1020
ccttatactc ctgtctccac ctgaggtgcg agccacacgc acccagctct tatatctatc 1080
agactggttg aatttcgtgt acctcagtgt ggccttgaac tcctgatc 1128
<210> 52
<211> 1352
<212> DNA
<213> 人工序列
<400> 52
cttctgagta gtattgcatt gagacagcac tggatactgg aaatcttggg gatactgtta 60
tgaactgagt gtctctcccc taaagctaag attgaaacta aaatctccaa tgtcttgtgc 120
taatagtatt tgggtgtggg gttttagaat gtctttagaa ttacatgaaa tcatagggaa 180
gagaacactt gtgatggaat tggcggcctt aaatgatgaa aaccatagac caagcctgga 240
acacttgtcc tgtccttttg taacattctt gtcatgtgct gtcctctgat ttcttatgat 300
actgcagaaa ggcatttgac agctgctggt gtcatgcttt tggacttccc agtttccaga 360
gctgtgagcc aaatgtatct cttctttata aatctcccag cttatagcat tttgtttgtg 420
gaaaacaaat agtcttagag aaataattat agattatcag tggccaagat actgatagaa 480
gcatcaaaga ttattttaaa atgccaggcc agggagatgg ttcagagggt taagaggctt 540
gctgccaagg ctaatgacct gagttctatc ccagaaacca catgcatagt ggaaggatag 600
aaatgactcc cggaaagttg tcctttgttc tctgcacatg taccatggca tacacataca 660
tatataacca gtaaggtgta gtaaaagtta gagtcaatgc gctatttttt atataaataa 720
acataaggac acagcacacg cgcgagcaca catacacaca cacacacaca cacacacaaa 780
aaaaaaaaaa aaaaatgaaa gtagaagagg gcctgctgag gaagagggtc ccagctggtt 840
aggaaggagg atgacaatgg tattaaaggg tgaaaaatga cccaaattca ctatatactt 900
acatgaatct gtcaaatcat ttaaaaagcc atgtattact gtattagttt cttgtctatt 960
gttgtgataa aatgccatga actaaagcaa ctttaaaaag tttattttgg ttttcagttc 1020
cagaggttcc tgagggggca ttcataatgg tgggagaggc atgtcagctg gtagccaaag 1080
caggaagctg agggcctaga gagatggctc actagttaag agcactgact cctcttccag 1140
aggactcaag ttcagttccc agccccacat ggcagctcac acctgtctgt agctccagtt 1200
tcaggggacg caacacccat ggcaaaacat tgattaacat aaatataaaa tgaaaacctc 1260
cagtttcagg gtatccgaca cccacgacaa aaaacatcaa tgggtataaa aataaaataa 1320
aatactttta aaaagcagga agctgagaga tc 1352
<210> 53
<211> 1246
<212> DNA
<213> 人工序列
<400> 53
ctggtacctt cttttcccag agtctataca agttaggaaa aacaggaaat gtgggaaaac 60
aggagacagc tgaagctcag catctggcaa gacccaacag ggtccctctg ctaatgatgt 120
tccctgagat ttgattctaa aacctcagat tctttaagtc atgaggtgac atcctcacct 180
cagacttcta aatcacctgt gttctccttt ctacaaatgg gacaaacatc catccaacat 240
tcaagtccaa aacctgagag tcatccttaa tttctctttt cctttttagc tccctaccga 300
ttctttttca aaaatccacc ctttctctca atcttcacgt catcagtttt tagaaatagg 360
tcatttctct ccctgagctt atcatctgcc tacatgaatc tgaactctca ttttaaaaat 420
cacatgtaga gcttggcccc tgccttgagc ccgacttctg cctgtccact ctgggaactc 480
ctgtcctggg gactgcaggc aaatcaactt gccccctgag gaccaagcaa cctcaagtct 540
gatgacatca ctgtgctagt ccagttccca cccccaccta gagagggagt gccccagacc 600
cgcctgaacc caccataaga cccatcagag tatcagaccc tcttgcatcc accaaagaga 660
accttggacc catacacacc aggagaggaa gagacggcac ctgaacccac tggaagaaga 720
gatgggaaga caacaatata aaaacgcatt caataacaga aaaaacaata tgacaccact 780
agaatctagg gactctacgc cagcaagacc tgaacatccc aacacagatg aagcagaaga 840
gaatgacttc tgcttgtact tgaagttcta tctggggcaa tatgacaaca aaaaggagaa 900
caaggggata caaattggaa aggaagaagt caaattttta ctgtttgcag atgatatgat 960
agttacataa gtaacccaaa aaactctacc agggaactac tacagctgat aaacaccttc 1020
agctaagtgg aaggatacaa gattaactca aaaaatcact agccctatta tacacaggag 1080
ataaatgggc tgagaaataa atcagagaaa catcatcctt tacaatagcc aaacaacata 1140
aaatatcttg gggtaatgat aaccaaacaa gtgaaagacc tgtctagcaa gaactttgag 1200
tcttaaaaga aagaaattaa agaagatacc agaaaatgga aagatc 1246
<210> 54
<211> 1886
<212> DNA
<213> 人工序列
<400> 54
gatctctgtg agttcgaggc cagcctggtc tctagagcga gtgccaggat aggttccaaa 60
gctacacaga gaaaccctgt ctcgaaaaac caaaaaaaga aaaaggaaag aaaagaattt 120
agtgaaaaag caacattgtg catatgttat gtgtgtttac atgatgagtg tattctgtgt 180
atgctacaac actcatgtaa aggtcagagg aaatctctct ctccttccaa ctcgtatcac 240
tagtcttata gggcaagtgc ctttaccctt tgagcacaac cttggtcttt ttaaggtgtg 300
tgtccctgtg tctggttcct tcgtagtttg atagtgtttc caaagcttct tcctaaagca 360
ggacaaattg gctgagcctg aatccgatat gcgtgtggag aggggcgggc aataggtgtg 420
tggaaagaga gtgtctgtgc ctctttatta gacccagaag cactacctac aagtccagcc 480
ttactcttct gtcagttcct cttgaacact aagattgctt acagtttttt ggtactataa 540
attaaataat aagtgctaca agagtcttta cattctttga tcacatctac ccagagacat 600
tgccgagttt agagacaggc aagtcttctg ctctgtcgcc tagttagctg gtaaatgtgc 660
tgccttttca atgatacatg gcagtgtgag cagccattta ttgacttttg catgatcaac 720
aatgtttcac acatggcagt tcacattcac aagtacctgt tctgtactgg cattcgggtt 780
taagagagta ggtgcctgat cctggagtct gtattctctg ccttgttcta ccactgaacg 840
ttcttcctgt tcctagccct cttactgaat cattttttct tccatacagg ccgatgaaga 900
tcccatcatg ggtttccacc agatgtttct attaaagaac atcaacgatg cttgggtttg 960
caccaatgac atgttcaggc ttgccctgca caacttcggc tgacctccac ctggccagat 1020
cctcacgctg tttcctcctc cctcctcttc ccaatactat ctcactcctc cagatgctcc 1080
aaatatcata cacaaatgag cagggccgag gtgggagtag gtgcagtgcg cttctgtcac 1140
cacggtgttg tgcatgatgt ttggatgcta gactagttgc atctgacagg agaagtttgt 1200
gttgtaccag cgcatgcctt ggaaagactt aagtaatgca aaagattgtc ggtttttgtt 1260
tttgtttcat tttgtttttt aatctactga caagttgctc tagtaaccca aagaagtgaa 1320
ggagaaagca gctgcctcac cgcccagata ttgatttgtt cagatgtttc aatgcctcat 1380
gatacaataa aaccacaaaa attttcttaa cagtttaaat tgttttaatt agttaaatag 1440
ctctttgggc atcaacagtt ctgaccaatt gtctctcatt tcaccctccc atctctgcct 1500
catgttaaca atacctgctg caaggagcaa attgactgaa gttaacagtc ccaaccaagt 1560
ttctttcaag cctgctaggc cagagttctc tccaacccac ttggtctttg gaaagcctgg 1620
agagctggaa gcaggtctgg cctgaagctt atcttgtact gaagactcta aagtgagttc 1680
tgtctgacac ctcctgtagc ctctgctctg agtctagtag caggatagat gattctgtag 1740
ctgctagaaa gaccttgata aatatggttt cccatgttta gattctatgg gttgaagtcc 1800
cggatggacc tgctctattc ccaaaagggt caggatcaca ttcagagtgc ccacattccc 1860
gagcaaagca agagatgttg tactgc 1886
<210> 55
<211> 1118
<212> DNA
<213> 人工序列
<400> 55
gatctccaca ctcatgttga cattaaagcc atcgacaatc tcagtaagta ctagtaaaca 60
agtaacaaat aagactgatc catcacacaa cattaccctg gctgtgtctt tggagtaaaa 120
atcatgtaga tcaaggtatg gtatgcttga acaccaaaaa gtaaccacag agtagaagag 180
tagagtccag tgagtgcctt atgcgtgagc ccacttccct ttttgcgttt gtttttactt 240
aatgtctggc agaattcagg catgtaggtc agaggccacc ttgcaggagt ccgttctctc 300
tttccaccaa ctggatccca gggacaggac acaggtcttg ggcttggcag cgggtgccct 360
tacctactga gccatttcac cactgacttg gttttactga aagctaactc tgaagactgg 420
aattcgatac ttttttaggg tgatgagtca ctcactgtac agcctcagca ctattgctga 480
agtacattac cctcacaaac caggcagccg gagactcact gcttacatgt aatcgaggcc 540
atgctatgtt aggtaacatg ttggagactt accaaaaact gtgttttaaa gttacttgca 600
accttctgta accacgcaaa ctgctgtgtg attctttaac ctatgtctcc acaatcacaa 660
cagacatctg ttccgggtaa ttgcacattt ctaattaaag ctttcaaagt gggccaggtt 720
ctcttggagc tgaaatgttc gttgaagggg gcaaagttat tttctctaac atcatgaggg 780
aactgggtca gggtgtgggg actgcaccct gctgagggga tggtatagga atgacccacc 840
tttggcctgt gttccttttg ttttgctttg tgcatgtgtt tgcatttctg tttgcatgca 900
agtgagctca tttgctgtgg aagcccaaag ctgatgtcac tctctatctt attcactgaa 960
ccagagtcgc tccacgaacc cagagctctc agctaacact agcctagcta gccagctgcc 1020
cttgggatcc tttctcagcc ttccaagtgc tgaaattgca ggtacactac taagcccgta 1080
ggcctttgtg tgggttctgc agatccaaac ttcagatc 1118
<210> 56
<211> 1611
<212> DNA
<213> 人工序列
<400> 56
gatcacttct aagcaatttc tagataagaa tggacattca acaccattag acatgtgcgg 60
cttttggaca gtcaacccag ttagttattc ttaaaagtgt taaatattag gcctgcttct 120
tccctatgac ctctattttg acctttattt tcctgttctg ggttttgctt ctccaggtac 180
taggagagag gttggtatcg ggtaggtgca ctcatgagaa agaggccctg aggagtatga 240
gagctacaca gccagaggcc tctttctttt ggacctgccc aactgaacaa caacaacaaa 300
aacccaaaca aacaaacaaa aacaaagcaa ctttactaaa aattccaagg gaaatgaaga 360
aactatagat ggaatgaaaa caggcaaggg catacctatt cttataggca gctagtgtta 420
ggccactggt agcccactag atgttgcagt ctgagcctga tacacagggc cacatacaac 480
tatgctcctc tggtcctgcc acccacctag ccattgtact ggctaacagt ctgggggggt 540
gggaataaga gtggtggatt acctaatagg atgttcacag taagtgctca atgcacacag 600
taagttctca gcagggggaa agtcaggcta gttggtggac actcatctgg ttccacctta 660
gagtgataag atgtggtcta ggctatagac aggtgcttcc cttcctggcc atatcaggcc 720
tgaggcaaca aggaaagcaa aggctgccta ggaaatctct taggggtcca tttcccagcc 780
tggctcctcc aactggttct tcttgggttc aggtacagat tggtcaaagg gtttggcttc 840
ttcttgtagc cctcactggc agggctctat gtgggcttca acttctgtcc ccaaagttca 900
ctgtctgacc ttgcatggag tccaggcagg gcatgggtct caactaccat gtgaccccag 960
ccatgacatc tgggtctgat gttccccaaa gattgcatga aggcctctaa actctcagtc 1020
ttgttctcaa agcttttatg ctagacagta gtcttggagc tgtaggggac ttacctagac 1080
atatccctga gaaacccagg ctgcaggcag aggaacattg tggcagctta gtcagaggga 1140
tgggaggaca tgccattgtc atcactaagg agatgtagac cagttgacca gcccagtaag 1200
gcctgggttt tccaaacttc aggagctttg cctgaatttc aggtatgaaa gtttgccaca 1260
ctgaaaggcc atacaggtgg aaaagtccat ccaaaactct gccttggtgg gaggatatca 1320
atgaactatt ggatgcttgc tggagcatga aatatcctga atggccattg gtccagggta 1380
agacaggtct caattctccc agagccccca cagtacttaa ggaaacctgg cttagctgac 1440
tgtcccctgc cttggcactt gtgatatgta agttcctacc atctcatctt tgactcggga 1500
tgagggctgt ggatagggga caaccttgct gaagaagacc agaaaaagac cttctccttc 1560
ctctctccag ctgctcatag aagcagcgac cttctgagtc cacaaaagat c 1611
<210> 57
<211> 1299
<212> DNA
<213> 人工序列
<400> 57
gatccagcta ttagaatggt gcttgcattt aaagggtaac cagggaatat taggctccta 60
aaatcaagta gtccaaaaca tgtcatgcaa cctgacactt tggttattta tgaattaaag 120
atatttgaga aatggacaat ataggaccat tctaattttt gggagatgtg acagaatcca 180
tcctttcatt aggaaaacaa tgattctact aatggtagag accaagaaag gcatgaacat 240
cctaaaagtt gttcatcctt taagccttca tgcaaaatgt agttgctttt ctcacaactt 300
gtcacttttt aaagtctaca tcaatatcta aataattgct tttcattcat cagttcttta 360
agtatttgtt tatcttgtct ttgggtggca ctgacaaaat tgcactaaat aaatattgta 420
ctttttccat gttaatgtga tttatgctac tttaatctct gacaaaacca aaatgaaacc 480
ctattaaagg ggagttggtc aaatctaccc tttttcatca agaatgggta cagaactaca 540
atggtgaaag atgaatcctg taaatctaca ttagtgacta cagccagtat atttcaaata 600
attcctacag taacaaaatt aatttgcaat ttatgtatcc tattttaaat ttgcatataa 660
aagcaatata taattgccaa tattgagaat attttgtcac ttaagattgt gaagaaccaa 720
tttaaaataa aaagattagc agaaaaaata aatttataaa ataaatctat gaaaataaca 780
agtctaaatg attcaatgta atagagtggc actatgacac ttctatatgt aaaagatatt 840
aatatttact aatatcaatc tatttttcaa tatgtttgaa ttcttcattt tttttttaaa 900
tttccaagct aactttaatt ctcccaaaac atgtcaatag taaatgcttt taagacatag 960
caattcagtt actgacaatt tctgaattta ttgtattttc caaaacatgg gtaaagattt 1020
agaaatgtgt gttgcaatga cagctttaca ttccaaattt ctgagcttta ggttcaatgg 1080
catcaaaagt tctttttact ctaggaatgc tgcaactaaa acagcattgc atggctaaac 1140
aggccaattt actttctaca agcagggtaa gtgcacgcca gtgtcacaga ctttcataga 1200
aagcattttg ctggcccact gaagacttct tacatgccag ggggaaaata tcacacgtag 1260
ccctccaggc tggggacaca tgccgcttat gtgcaaggg 1299
<210> 58
<211> 1108
<212> DNA
<213> 人工序列
<400> 58
ccacactcat gttgacatta aagccatcga caatctcagt aagtactagt aaacaagtaa 60
caaataagac tgatccatca cacaacatta ccctggctgt gtctttggag taaaaatcat 120
gtagatcaag gtatggtatg cttgaacacc aaaaagtaac cacagagtag aagagtagag 180
tccagtgagt gccttatgcg tgagcccact tccctttttg cgtttgtttt tacttaatgt 240
ctggcagaat tcaggcatgt aggtcagagg ccaccttgca ggagtccgtt ctctctttcc 300
accaactgga tcccagggac aggacacagg tcttgggctt ggcagcgggt gcccttacct 360
actgagccat ttcaccactg acttggtttt actgaaagct aactctgaag actggaattc 420
gatacttttt tagggtgatg agtcactcac tgtacagcct cagcactatt gctgaagtac 480
attaccctca caaaccaggc agccggagac tcactgctta catgtaatcg aggccatgct 540
atgttaggta acatgttgga gacttaccaa aaactgtgtt ttaaagttac ttgcaacctt 600
ctgtaaccac gcaaactgct gtgtgattct ttaacctatg tctccacaat cacaacagac 660
atctgttccg ggtaattgca catttctaat taaagctttc aaagtgggcc aggttctctt 720
ggagctgaaa tgttcgttga agggggcaaa gttattttct ctaacatcat gagggaactg 780
ggtcagggtg tggggactgc accctgctga ggggatggta taggaatgac ccacctttgg 840
cctgtgttcc ttttgttttg ctttgtgcat gtgtttgcat ttctgtttgc atgcaagtga 900
gctcatttgc tgtggaagcc caaagctgat gtcactctct atcttattca ctgaaccaga 960
gtcgctccac gaacccagag ctctcagcta acactagcct agctagccag ctgcccttgg 1020
gatcctttct cagccttcca agtgctgaaa ttgcaggtac actactaagc ccgtaggcct 1080
ttgtgtgggt tctgcagatc caaacttc 1108
<210> 59
<211> 680
<212> DNA
<213> 人工序列
<400> 59
gttgacattg attattgact agttattaat agtaatcaat tacggggtca ttagttcata 60
gcccatatat ggagttccgc gttacataac ttacggtaaa tggcccgcct ggctgaccgc 120
ccaacgaccc ccgcccattg acgtcaataa tgacgtatgt tcccatagta acgccaatag 180
ggactttcca ttgacgtcaa tgggtggagt atttacggta aactgcccac ttggcagtac 240
atcaagtgta tcatatgcca agtacgcccc ctattgacgt caatgacggt aaatggcccg 300
cctggcatta tgcccagtac atgaccttat gggactttcc tacttggcag tacatctacg 360
tattagtcat cgctattacc atggtgatgc ggttttggca gtacatcaat gggcgtggat 420
agcggtttga ctcacgggga tttccaagtc tccaccccat tgacgtcaat gggagtttgt 480
tttggcacca aaatcaacgg gactttccaa aatgtcgtaa caactccgcc ccattgacgc 540
aaatgggcgg taggcgtgta cggtgggagg tctatataag cagagctcgt ttagtgaacc 600
gtcagatcgc ctggagacgc catccacgct gttttgacct ccatagaaga caccgggacc 660
gatccagcct ccggactcta 680
<210> 60
<211> 35
<212> DNA
<213> 人工序列
<400> 60
catgcgtcaa ttttacgcag actatctttc taggg 35
<210> 61
<211> 13
<212> DNA
<213> 人工序列
<400> 61
ccctagaaag ata 13
<210> 62
<211> 31
<212> DNA
<213> 人工序列
<400> 62
atcatattgt gacgtacgtt aaagataatc a 31
<210> 63
<211> 19
<212> DNA
<213> 人工序列
<400> 63
tgcgtaaaat tgacgcatg 19
<210> 64
<211> 13
<212> DNA
<213> 人工序列
<400> 64
tatctttcta ggg 13
<210> 65
<211> 19
<212> DNA
<213> 人工序列
<400> 65
catgcgtcaa ttttacgca 19
<210> 66
<211> 171
<212> DNA
<213> 人工序列
<400> 66
tgttttatcg gtctgtatat cgaggtttat ttattaattt gaatagatat taagttttat 60
tatatttaca cttacatact aataataaat tcaacaaaca atttatttat gtttatttat 120
ttattaaaaa aaaacaaaaa ctcaaaattt cttctataaa gtaacaaaac t 171
<210> 67
<211> 272
<212> DNA
<213> 人工序列
<400> 67
tatctataac aagaaaatat atatataata agttatcacg taagtagaac atgaaataac 60
aatataatta tcgtatgagt taaatcttaa aagtcacgta aaagataatc atgcgtcatt 120
ttgactcacg cggtcgttat agttcaaaat cagtgacact taccgcattg acaagcacgc 180
ctcacgggag ctccaagcgg cgactgagat gtcctaaatg cacagcgacg gattcgcgct 240
atttagaaag agagagcaat atttcaagaa tg 272
<210> 68
<211> 63
<212> DNA
<213> 人工序列
<400> 68
ccctagaaag ataatcatat tgtgacgtac gttaaagata atcatgcgta aaattgacgc 60
atg 63
<210> 69
<211> 27
<212> DNA
<213> 人工序列
<400> 69
gcaaaaaagg gaataagggc gacacgg 27
<210> 70
<211> 28
<212> DNA
<213> 人工序列
<400> 70
catagcccat atatggagtt ccgcgtta 28
<210> 71
<211> 447
<212> PRT
<213> 人工序列
<400> 71
Phe Thr Val Thr Val Pro Lys Asp Leu Tyr Val Val Glu Tyr Gly Ser
1 5 10 15
Asn Met Thr Ile Glu Cys Lys Phe Pro Val Glu Lys Gln Leu Asp Leu
20 25 30
Ala Ala Leu Ile Val Tyr Trp Glu Met Glu Asp Lys Asn Ile Ile Gln
35 40 45
Phe Val His Gly Glu Glu Asp Leu Lys Val Gln His Ser Ser Tyr Arg
50 55 60
Gln Arg Ala Arg Leu Leu Lys Asp Gln Leu Ser Leu Gly Asn Ala Ala
65 70 75 80
Leu Gln Ile Thr Asp Val Lys Leu Gln Asp Ala Gly Val Tyr Arg Cys
85 90 95
Met Ile Ser Tyr Gly Gly Ala Asp Tyr Lys Arg Ile Thr Val Lys Val
100 105 110
Asn Ala Pro Tyr Asn Lys Ile Asn Gln Arg Ile Leu Val Val Asp Pro
115 120 125
Val Thr Ser Glu His Glu Leu Thr Cys Gln Ala Glu Gly Tyr Pro Lys
130 135 140
Ala Glu Val Ile Trp Thr Ser Ser Asp His Gln Val Leu Ser Gly Lys
145 150 155 160
Thr Thr Thr Thr Asn Ser Lys Arg Glu Glu Lys Leu Phe Asn Val Thr
165 170 175
Ser Thr Leu Arg Ile Asn Thr Thr Thr Asn Glu Ile Phe Tyr Cys Thr
180 185 190
Phe Arg Arg Leu Asp Pro Glu Glu Asn His Thr Ala Glu Leu Val Ile
195 200 205
Pro Glu Leu Pro Leu Ala His Pro Pro Asn Glu Arg Thr Pro Arg Asp
210 215 220
Cys Gly Cys Lys Pro Cys Ile Cys Thr Val Pro Glu Val Ser Ser Val
225 230 235 240
Phe Ile Phe Pro Pro Lys Pro Lys Asp Val Leu Thr Ile Thr Leu Thr
245 250 255
Pro Lys Val Thr Cys Val Val Val Asp Ile Ser Lys Asp Asp Pro Glu
260 265 270
Val Gln Phe Ser Trp Phe Val Asp Asp Val Glu Val His Thr Ala Gln
275 280 285
Thr Gln Pro Arg Glu Glu Gln Phe Asn Ser Thr Phe Arg Ser Val Ser
290 295 300
Glu Leu Pro Ile Met His Gln Asp Trp Leu Asn Gly Lys Glu Phe Lys
305 310 315 320
Cys Arg Val Asn Ser Ala Ala Phe Pro Ala Pro Ile Glu Lys Thr Ile
325 330 335
Ser Lys Thr Lys Gly Arg Pro Lys Ala Pro Gln Val Tyr Thr Ile Pro
340 345 350
Pro Pro Lys Glu Gln Met Ala Lys Asp Lys Val Ser Leu Thr Cys Met
355 360 365
Ile Thr Asp Phe Phe Pro Glu Asp Ile Thr Val Glu Trp Gln Trp Asn
370 375 380
Gly Gln Pro Ala Glu Asn Tyr Lys Asn Thr Gln Pro Ile Met Asp Thr
385 390 395 400
Asp Gly Ser Tyr Phe Val Tyr Ser Lys Leu Asn Val Gln Lys Ser Asn
405 410 415
Trp Glu Ala Gly Asn Thr Phe Thr Cys Ser Val Leu His Glu Gly Leu
420 425 430
His Asn His His Thr Glu Lys Ser Leu Ser His Ser Pro Gly Lys
435 440 445
<210> 72
<211> 451
<212> PRT
<213> 人工序列
<400> 72
Glu Val Gln Leu Val Glu Ser Gly Gly Gly Leu Val Gln Pro Gly Arg
1 5 10 15
Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Asp Asp Tyr
20 25 30
Ala Met His Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val
35 40 45
Ser Ala Ile Thr Trp Asn Ser Gly His Ile Asp Tyr Ala Asp Ser Val
50 55 60
Glu Gly Arg Phe Thr Ile Ser Arg Asp Asn Ala Lys Asn Ser Leu Tyr
65 70 75 80
Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys
85 90 95
Ala Lys Val Ser Tyr Leu Ser Thr Ala Ser Ser Leu Asp Tyr Trp Gly
100 105 110
Gln Gly Thr Leu Val Thr Val Ser Ser Ala Ser Thr Lys Gly Pro Ser
115 120 125
Val Phe Pro Leu Ala Pro Ser Ser Lys Ser Thr Ser Gly Gly Thr Ala
130 135 140
Ala Leu Gly Cys Leu Val Lys Asp Tyr Phe Pro Glu Pro Val Thr Val
145 150 155 160
Ser Trp Asn Ser Gly Ala Leu Thr Ser Gly Val His Thr Phe Pro Ala
165 170 175
Val Leu Gln Ser Ser Gly Leu Tyr Ser Leu Ser Ser Val Val Thr Val
180 185 190
Pro Ser Ser Ser Leu Gly Thr Gln Thr Tyr Ile Cys Asn Val Asn His
195 200 205
Lys Pro Ser Asn Thr Lys Val Asp Lys Lys Val Glu Pro Lys Ser Cys
210 215 220
Asp Lys Thr His Thr Cys Pro Pro Cys Pro Ala Pro Glu Leu Leu Gly
225 230 235 240
Gly Pro Ser Val Phe Leu Phe Pro Pro Lys Pro Lys Asp Thr Leu Met
245 250 255
Ile Ser Arg Thr Pro Glu Val Thr Cys Val Val Val Asp Val Ser His
260 265 270
Glu Asp Pro Glu Val Lys Phe Asn Trp Tyr Val Asp Gly Val Glu Val
275 280 285
His Asn Ala Lys Thr Lys Pro Arg Glu Glu Gln Tyr Asn Ser Thr Tyr
290 295 300
Arg Val Val Ser Val Leu Thr Val Leu His Gln Asp Trp Leu Asn Gly
305 310 315 320
Lys Glu Tyr Lys Cys Lys Val Ser Asn Lys Ala Leu Pro Ala Pro Ile
325 330 335
Glu Lys Thr Ile Ser Lys Ala Lys Gly Gln Pro Arg Glu Pro Gln Val
340 345 350
Tyr Thr Leu Pro Pro Ser Arg Asp Glu Leu Thr Lys Asn Gln Val Ser
355 360 365
Leu Thr Cys Leu Val Lys Gly Phe Tyr Pro Ser Asp Ile Ala Val Glu
370 375 380
Trp Glu Ser Asn Gly Gln Pro Glu Asn Asn Tyr Lys Thr Thr Pro Pro
385 390 395 400
Val Leu Asp Ser Asp Gly Ser Phe Phe Leu Tyr Ser Lys Leu Thr Val
405 410 415
Asp Lys Ser Arg Trp Gln Gln Gly Asn Val Phe Ser Cys Ser Val Met
420 425 430
His Glu Ala Leu His Asn His Tyr Thr Gln Lys Ser Leu Ser Leu Ser
435 440 445
Pro Gly Lys
450
<210> 73
<211> 214
<212> PRT
<213> 人工序列
<400> 73
Asp Ile Gln Met Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly
1 5 10 15
Asp Arg Val Thr Ile Thr Cys Arg Ala Ser Gln Gly Ile Arg Asn Tyr
20 25 30
Leu Ala Trp Tyr Gln Gln Lys Pro Gly Lys Ala Pro Lys Leu Leu Ile
35 40 45
Tyr Ala Ala Ser Thr Leu Gln Ser Gly Val Pro Ser Arg Phe Ser Gly
50 55 60
Ser Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Ser Leu Gln Pro
65 70 75 80
Glu Asp Val Ala Thr Tyr Tyr Cys Gln Arg Tyr Asn Arg Ala Pro Tyr
85 90 95
Thr Phe Gly Gln Gly Thr Lys Val Glu Ile Lys Arg Thr Val Ala Ala
100 105 110
Pro Ser Val Phe Ile Phe Pro Pro Ser Asp Glu Gln Leu Lys Ser Gly
115 120 125
Thr Ala Ser Val Val Cys Leu Leu Asn Asn Phe Tyr Pro Arg Glu Ala
130 135 140
Lys Val Gln Trp Lys Val Asp Asn Ala Leu Gln Ser Gly Asn Ser Gln
145 150 155 160
Glu Ser Val Thr Glu Gln Asp Ser Lys Asp Ser Thr Tyr Ser Leu Ser
165 170 175
Ser Thr Leu Thr Leu Ser Lys Ala Asp Tyr Glu Lys His Lys Val Tyr
180 185 190
Ala Cys Glu Val Thr His Gln Gly Leu Ser Ser Pro Val Thr Lys Ser
195 200 205
Phe Asn Arg Gly Glu Cys
210

Claims (65)

1.一种核酸,其包含:
5’-ITR(反向末端重复)序列;
3’-ITR序列;和
调节元件序列,其与选自由SEQ ID NOs:1-15和SEQ ID NOs:35-58组成的组的序列至少80%、85%、90%、95%或100%相同。
2.根据权利要求1所述的核酸,其中所述5’ITR序列包含与SEQ ID NO:68至少80%、85%、90%、95%或100%相同的序列或由其组成,所述3’ITR序列包含与SEQ ID NO:60至少80%、85%、90%、95%或100%相同的序列或由其组成。
3.根据权利要求1所述的核酸,其中所述5’ITR序列包含SEQ ID NO:68,所述3’ITR序列包含SEQ ID NO:60。
4.根据权利要求1所述的核酸,其还包含5’-内部结构域和3’-内部结构域,其中所述5’-内部结构域包含与SEQ ID NO:66至少80%、85%、90%、95%或100%相同的序列,其中所述3’-内部结构域包含与SEQ ID NO:67至少80%、85%、90%、95%或100%相同的序列,其中所述5’-内部结构域紧邻所述5’-ITR,所述3’-内部结构域紧邻所述3’-ITR。
5.根据权利要求1所述的核酸,其中所述核酸包含选自由SEQ ID NOs:1-15组成的组的一个以上的调节元件序列(例如,SEQ ID NO:2)。
6.根据权利要求1所述的核酸,其中所述核酸包含选自由SEQ ID NOs:35-46组成的组的一个以上的调节元件序列(例如,SEQ ID NO:36)。
7.根据权利要求1至6中任一项所述的核酸,其还包含启动子和编码多肽的序列,其中所述编码多肽的序列可操作地连接至所述启动子。
8.根据权利要求7所述的核酸,其中所述编码多肽的序列位于两个调节元件序列之间。
9.根据权利要求1至6中任一项所述的核酸,其还包含启动子和编码两个以上的多肽的序列,其中所述编码两个以上的多肽的序列可操作地连接至所述启动子。
10.根据权利要求9所述的核酸,其中所述序列编码抗体重链和抗体轻链。
11.根据权利要求1至10中任一项所述的核酸,其中所述核酸还包含与选自由SEQ IDNOs:35-46组成的组的序列具有至少80%、85%、90%、95%或100%同一性的WXRE序列。
12.根据权利要求1至10中任一项所述的核酸,其中所述核酸包含两个以上的表达盒。
13.根据权利要求1至12中任一项所述的核酸,其中所述核酸包含选择标记物。
14.根据权利要求13所述的核酸,其中所述选择标记物是抗生素抗性基因、编码荧光蛋白的序列、或lacZ。
15.一种载体,其包含根据权利要求1-14中任一项所述的核酸。
16.一种转座子载体,其从5’至3’包含:
5’ITR序列,其由与SEQ ID NO:68具有至少95%同一性的序列组成;
非转座子异源DNA序列;和
3’-ITR序列,其由与SEQ ID NO:60具有至少95%同一性的序列组成。
17.根据权利要求16所述的转座子载体,其中所述5’ITR序列由SEQ ID NO:68组成,所述3’ITR序列由SEQ ID NO:60组成。
18.根据权利要求16所述的转座子载体,其还包含5’-内部结构域和3’-内部结构域,其中所述5’-内部结构域包含与SEQ ID NO:66具有至少80%、85%、90%、95%或100%同一性的序列,其中所述3’-内部结构域包含与SEQ ID NO:67具有至少80%、85%、90%、95%或100%同一性的序列,其中所述5’-内部结构域紧邻所述5’-ITR,所述3’-内部结构域紧邻所述3’-ITR。
19.根据权利要求16至18中任一项所述的转座子载体,其中所述非转座子异源DNA序列包含启动子和编码一种以上的多肽的序列,其中所述编码一种以上的多肽的序列可操作地连接至所述启动子。
20.根据权利要求19所述的转座子载体,其中所述启动子是巨细胞病毒(CMV)启动子。
21.根据权利要求16至20中任一项所述的转座子载体,其中所述非转座子异源DNA序列还包含与选自由SEQ ID NOs:1-30组成的组的序列至少80%、85%、90%、95%或100%相同的调节元件序列。
22.根据权利要求16至21中任一项所述的转座子载体,其中所述非转座子异源DNA序列还包含与选自由SEQ ID NOs:35-46组成的组的序列至少80%、85%、90%、95%或100%相同的WXRE序列。
23.根据权利要求16至22中任一项所述的转座子载体,其中所述非转座子异源DNA序列包含多克隆位点。
24.一种表达系统,其包含:
(a)第一核酸,其包含
5’-ITR序列,
非转座子异源DNA序列,其包含与选自由SEQ ID NOs:1-30组成的组的序列至少80%、85%、90%、95%或100%相同的调节元件序列,
3’-ITR序列;和
(b)第二核酸,其编码piggyBac转座酶。
25.根据权利要求24所述的表达系统,其中所述第二核酸编码具有与SEQ ID NO:33至少80%、85%、90%、95%或100%相同的氨基酸序列的piggyBac转座酶。
26.根据权利要求24所述的表达系统,其中所述非转座子异源DNA序列包含启动子和编码一种以上的多肽的序列,其中所述编码一种以上的多肽的序列可操作地连接至所述启动子。
27.根据权利要求26所述的表达系统,其中所述序列编码抗体重链和/或抗体轻链。
28.根据权利要求26所述的表达系统,其中所述序列编码单克隆抗体、双特异性抗体、重组蛋白、或融合蛋白。
29.根据权利要求26所述的表达系统,其中所述启动子是CMV启动子。
30.根据权利要求26所述的表达系统,其中所述启动子是诱导型启动子(例如,热休克启动子、金属硫蛋白启动子、或糖皮质激素应答元件)。
31.根据权利要求24至30中任一项所述的表达系统,其中所述非转座子异源DNA序列还包含与选自由SEQ ID NOs:1-30组成的组的序列至少80%、85%、90%、95%或100%相同的调节元件序列。
32.根据权利要求24至31中任一项所述的表达系统,其中所述非转座子异源DNA序列还包含与选自由SEQ ID NOs:35-46组成的组的序列至少80%、85%、90%、95%或100%相同的WXRE调节元件序列。
33.一种分离的核酸,其包含与选自由SEQ ID NOs:1-30组成的组的序列至少80%、85%、90%、95%或100%相同的调节元件序列。
34.根据权利要求33所述的分离的核酸,其中所述核酸还包含启动子和蛋白编码序列。
35.根据权利要求34所述的分离的核酸,其中所述调节元件序列位于所述启动子和所述蛋白编码序列之间。
36.根据权利要求34所述的分离的核酸,其中所述调节元件序列位于所述蛋白编码序列的3’端。
37.根据权利要求33至36中任一项所述的分离的核酸,其中所述调节元件序列可转录至5’-UTR或3’-UTR。
38.根据权利要求33至37中任一项所述的分离的核酸,其中所述分离的核酸还包含5’-ITR和3’-ITR,所述调节元件序列位于5’-ITR和3’-ITR之间。
39.一种载体,其包含根据权利要求33至38中任一项所述的核酸。
40.一种含有piggyBac转座子的载体,所述piggyBac转座子在5’至3’方向上包含以下遗传元件:
5’-ITR,其包含TRL、5’-ITR间隔区、IRL
启动子;
调节元件序列,其与选自由SEQ ID NOs:1-30组成的组的序列至少80%、85%、90%、95%或100%相同;
蛋白编码序列;和
3’-ITR,其包含IRR、3’-ITR间隔区、TRR
41.一种含有piggyBac转座子的载体,所述piggyBac转座子在5’至3’方向上包含以下遗传元件:
5’-ITR,其包含TRL、5’-ITR间隔区、IRL
启动子;
蛋白编码序列;
调节元件序列,其与选自由SEQ ID NOs:1-30组成的组的序列至少80%、85%、90%、95%或100%相同;和
3’-ITR,其包含IRR、3’-ITR间隔区、TRR
42.一种含有piggyBac转座子的载体,所述piggyBac转座子在5’至3’方向上包含以下遗传元件:
3’-ITR,其包含TRR、3’-ITR间隔区、IRR
启动子;
调节元件序列,其与选自由SEQ ID NOs:1-30组成的组的序列至少80%、85%、90%、95%或100%相同;
蛋白编码序列;和
5’-ITR,其包含IRL、5’-ITR间隔区、TRL
43.一种含有piggyBac转座子的载体,所述piggyBac转座子在5’至3’方向上包含以下遗传元件:
3’-ITR,其包含TRR、3’-ITR间隔区、IRR
启动子;
蛋白编码序列;
调节元件序列,其与选自由SEQ ID NOs:1-30组成的组的序列至少80%、85%、90%、95%或100%相同;和
5’-ITR,其包含IRL、5’-ITR间隔区、TRL
44.根据权利要求42或43所述的载体,其中所述TRL包含与SEQ ID NO:61的反向序列或反向互补序列至少80%、85%、90%、95%或100%相同的序列或由其组成;其中所述5’-ITR间隔区包含与SEQ ID NO:62的反向序列或反向互补序列至少80%、85%、90%、95%或100%相同的序列或由其组成;其中所述IRL包含与SEQ ID NO:63的反向序列或反向互补序列至少80%、85%、90%、95%或100%相同的序列或由其组成;其中所述TRR包含与SEQ IDNO:64的反向序列或反向互补序列至少80%、85%、90%、95%或100%相同的序列或由其组成;和其中所述IRR包含与SEQ ID NO:65的反向序列或反向互补序列至少80%、85%、90%、95%或100%相同的序列或由其组成。
45.根据权利要求40至44中任一项所述的载体,其中所述载体包含两个以上的调节元件序列,其各自与选自由SEQ ID NOs:1-30组成的组的序列至少80%、85%、90%、95%或100%相同。
46.根据权利要求40至45中任一项所述的载体,其中所述载体还包含5’-内部结构域序列和3’-内部结构域序列。
47.根据权利要求46所述的载体,其中所述5’-内部结构域序列包含与SEQ ID NO:66至少或约80%、85%、90%、95%或100%相同的序列或由其组成和
所述3’-内部结构域序列包含与SEQ ID NO:67至少或约80%、85%、90%、95%或100%相同的序列或由其组成。
48.根据权利要求40至47中任一项所述的载体,其中所述调节元件序列可转录至5’-UTR或3’-UTR。
49.根据权利要求40至48中任一项所述的载体,其中所述载体还包含编码piggyBac转座酶的序列,其中所述编码piggyBac转座酶的序列在5’-ITR和3’-ITR之间的区域之外。
50.一种产生用于表达目标多肽的培养物中的细胞的方法,所述方法包括:
(a)将以下引入细胞:
转座子载体,其包含:
5’-ITR(反向末端重复)序列;
3’-ITR序列;
调节元件序列,其与选自由SEQ ID NOs:1-30和SEQ ID NOs:35-58组成的组的序列至少80%、85%、90%、95%或100%相同;和
编码目标多肽的序列;和
(b)在合适的条件下培养细胞,其中将所述piggyBac转座子整合至细胞的基因组,
从而产生用于表达目标多肽的细胞。
51.根据权利要求50所述的方法,其中所述方法还包括将含有编码piggyBac转座酶的序列的载体引入细胞。
52.根据权利要求50所述的方法,其中所述转座子载体包含编码piggyBac转座酶的序列。
53.根据权利要求50至52中任一项所述的方法,其中所述转座子载体通过显微注射、高速推进、透化、融合、或电穿孔而引入细胞。
54.根据权利要求50至53中任一项所述的方法,其中所述细胞是中国仓鼠卵巢(CHO)细胞。
55.根据权利要求50至53中任一项所述的方法,其中所述细胞是哺乳动物细胞或昆虫细胞。
56.一种细胞,其包含根据权利要求1至14和33至38中任一项所述的核酸、根据权利要求15至23、39至49中任一项所述的载体、或根据权利要求24至32中任一项所述的表达系统。
57.根据权利要求56所述的方法,其中所述细胞是中国仓鼠卵巢(CHO)细胞。
58.一种表达蛋白的方法,所述方法包括:
在允许细胞表达所述蛋白的条件下培养根据权利要求56或57所述的细胞;和
收集和纯化所述蛋白。
59.一种蛋白,其由根据权利要求56或57所述的细胞表达、或通过根据权利要求58所述的方法产生。
60.一种药物组合物,其包含根据权利要求59所述的蛋白和药学上可接受的载体。
61.一种核酸,其包含:
5’-ITR序列;
3’-ITR序列;和
衍生自CHO的一个以上的调节元件序列。
62.一种表达系统,其包含:
(a)第一核酸,其包含piggyBac转座子,所述piggyBac转座子在5’至3’方向上包含以下遗传元件:
第一TTAA序列;
5’-ITR,其包含TRL、5’-ITR间隔区和IRL
5’-内部结构域(ID);
目标序列;
3’-ID;
3’-ITR,其包含IRR、3’-ITR间隔区和TRR;和
第二TTAA序列;和
(b)第二核酸,其编码piggyBac转座酶。
63.一种产生用于表达目标多肽的细胞的方法,所述方法包括:
(a)将以下引入细胞:
转座子载体,其在5’至3’方向上包含以下遗传元件:
第一TTAA序列;
5’-ITR,其包含TRL、5’-ITR间隔区和IRL
5’-内部结构域(ID);
目标序列;
3’-ID;
3’-ITR,其包含IRR、3’-ITR间隔区和TRR;和
第二TTAA序列;和
(b)在合适的条件下培养所述细胞。
64.一种细胞系,其基因组稳定地整合有包含以下遗传元件的piggyBac转座子:
5’-ITR序列;
调节元件序列,其与选自由SEQ ID NOs:1-30和35-58组成的组的序列至少80%、85%、90%、95%或100%相同;和
3’-ITR序列。
65.一种细胞系,其基因组稳定地整合有包含以下遗传元件的piggyBac转座子:
5’-ITR,其包含TRL、5’-ITR间隔区和IRL
5’-内部结构域(ID);
目标序列;
3’-ID;
3’-ITR,其包含IRR、3’-ITR间隔区和TRR
CN202180015538.8A 2020-02-19 2021-02-18 增强的表达系统及其使用方法 Pending CN115176016A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN202010102211 2020-02-19
CN2020101022111 2020-02-19
CN2020081464 2020-03-26
CNPCT/CN2020/081464 2020-03-26
PCT/CN2021/076719 WO2021164704A2 (en) 2020-02-19 2021-02-18 Enhanced expression system and methods of use thereof

Publications (1)

Publication Number Publication Date
CN115176016A true CN115176016A (zh) 2022-10-11

Family

ID=74884769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180015538.8A Pending CN115176016A (zh) 2020-02-19 2021-02-18 增强的表达系统及其使用方法

Country Status (6)

Country Link
US (1) US20230203530A1 (zh)
EP (1) EP4107272A2 (zh)
KR (1) KR20220140620A (zh)
CN (1) CN115176016A (zh)
BR (1) BR112022016617A2 (zh)
WO (1) WO2021164704A2 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116445542A (zh) * 2022-01-10 2023-07-18 佛山汉腾生物科技有限公司 表达载体及其应用

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101297031A (zh) * 2005-05-14 2008-10-29 复旦大学 在脊椎动物中作为遗传操作和分析工具的piggyBac
CN101343638A (zh) * 2008-08-20 2009-01-14 中国人民解放军军事医学科学院军事兽医研究所 一种基于piggyBac转座子的弓形虫基因转移载体及构建方法
US20090042297A1 (en) * 2007-06-01 2009-02-12 George Jr Alfred L Piggybac transposon-based vectors and methods of nucleic acid integration
US20150218584A1 (en) * 2012-09-24 2015-08-06 Lonza Biologics Plc. Expression vectors comprising chimeric cytomegalovirus promoter and enhancer sequences
CN106755096A (zh) * 2016-12-20 2017-05-31 上海药明生物技术有限公司 利用piggyBac转座子在CHO细胞中获得表达目标蛋白的稳定细胞群的方法
US20180258436A1 (en) * 2015-10-08 2018-09-13 Dna2.0, Inc. Dna vectors, transposons and transposases for eukaryotic genome modification
CN110462040A (zh) * 2017-01-10 2019-11-15 英特拉克森公司 通过新基因开关表达系统调节多肽的表达

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9428767B2 (en) * 2014-04-09 2016-08-30 Dna2.0, Inc. Enhanced nucleic acid constructs for eukaryotic gene expression
US10233454B2 (en) * 2014-04-09 2019-03-19 Dna2.0, Inc. DNA vectors, transposons and transposases for eukaryotic genome modification
WO2020034097A1 (en) 2018-08-14 2020-02-20 Wuxi Biologics (Shanghai) Co., Ltd. Transcriptional regulatory element and its use in enhancing the expression of exogenous protein

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101297031A (zh) * 2005-05-14 2008-10-29 复旦大学 在脊椎动物中作为遗传操作和分析工具的piggyBac
US20090042297A1 (en) * 2007-06-01 2009-02-12 George Jr Alfred L Piggybac transposon-based vectors and methods of nucleic acid integration
CN101343638A (zh) * 2008-08-20 2009-01-14 中国人民解放军军事医学科学院军事兽医研究所 一种基于piggyBac转座子的弓形虫基因转移载体及构建方法
US20150218584A1 (en) * 2012-09-24 2015-08-06 Lonza Biologics Plc. Expression vectors comprising chimeric cytomegalovirus promoter and enhancer sequences
US20180258436A1 (en) * 2015-10-08 2018-09-13 Dna2.0, Inc. Dna vectors, transposons and transposases for eukaryotic genome modification
CN106755096A (zh) * 2016-12-20 2017-05-31 上海药明生物技术有限公司 利用piggyBac转座子在CHO细胞中获得表达目标蛋白的稳定细胞群的方法
CN110462040A (zh) * 2017-01-10 2019-11-15 英特拉克森公司 通过新基因开关表达系统调节多肽的表达

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ROLAND RAD等: "PiggyBac Transposon Mutagenesis: A Tool for Cancer Gene Discovery in Mice", SCIENCE., 23 June 2013 (2013-06-23), pages 1104 - 1107 *
刘珊;刘志刚;张国强;俞炜源;: "CHO细胞高效表达载体的优化", 军事医学科学院院刊, no. 04, 30 August 2006 (2006-08-30), pages 5 - 9 *

Also Published As

Publication number Publication date
WO2021164704A3 (en) 2021-09-23
JP2023515501A (ja) 2023-04-13
BR112022016617A2 (pt) 2022-11-22
EP4107272A2 (en) 2022-12-28
WO2021164704A2 (en) 2021-08-26
KR20220140620A (ko) 2022-10-18
US20230203530A1 (en) 2023-06-29

Similar Documents

Publication Publication Date Title
KR102272932B1 (ko) 이종 유전자로 무장된 종양살상 아데노바이러스
KR102235603B1 (ko) 향상된 이식유전자 발현 및 가공
CA2195303C (en) Method for selecting high-expressing host cells
KR20210143897A (ko) 오리지아스로부터의 트랜스포사제를 이용한 핵산 작제물의 진핵세포로의 통합
KR101476010B1 (ko) 고생산성 세포의 수립을 위한 발현 벡터 및 고생산성 세포
KR102365484B1 (ko) 하이브리드 chef1 프로모터를 이용한 향상된 재조합 단백질 발현
KR20210144861A (ko) 아마이엘로이스로부터의 트랜스포사제를 이용한 핵산 작제물의 진핵세포 게놈으로의 전위
KR20200126997A (ko) 인간 대상체에서의 비-노화-관련 청각 손상의 치료를 위한 조성물 및 방법
KR20220002609A (ko) 포유동물 세포의 특성을 변경하기 위한 인공 마이크로-rna 및 이들 생성물의 조성물을 사용한 포유동물 세포의 변형
KR102370150B1 (ko) 전사 조절 인자 및 이의 외래 단백질 발현 증강에 있어서의 응용
CN109071633A (zh) 基于使用表达增强性基因座来制备抗体的组合物和方法
KR20170044194A (ko) 아데노바이러스의 제조를 위한 공정
KR20220098384A (ko) 폼페병 및 리소좀 장애를 치료하기 위한 간-특이적 프로모터를 포함하는 치료적 아데노-관련 바이러스
KR20160102024A (ko) 아데노바이러스 및 상응하는 플라스미드의 제조 방법
KR20210005922A (ko) 형질 세포 고갈을 위한 항-bcma car-t-세포
KR20200066349A (ko) 복제 가능 아데노바이러스 벡터
TW202233841A (zh) 用於眼適應症之載體化抗TNF-α抗體
CN115176016A (zh) 增强的表达系统及其使用方法
CN102329784A (zh) 一种日本乙型脑炎病毒样颗粒及其制备方法和应用
CN113874512A (zh) 诱导毛细胞分化的组合物和方法
CN109970861B (zh) 一种靶向线粒体的nd4融合蛋白及其制备方法和应用
CN115029380B (zh) 一种新型冠状病毒SARS-CoV-2复制子及其细胞模型、构建方法和应用
JP7483907B2 (ja) 強化された発現系及びその使用方法
CN111321171A (zh) 一种应用CRISPR/Cas9介导ES打靶技术制备基因打靶动物模型的方法
RU2817770C2 (ru) Интеграция конструкций нуклеиновой кислоты в эукариотические клетки с транспозазой из oryzias

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination