CN117321197A - 背景依赖性、双链dna特异性脱氨酶及其用途 - Google Patents

背景依赖性、双链dna特异性脱氨酶及其用途 Download PDF

Info

Publication number
CN117321197A
CN117321197A CN202280018202.1A CN202280018202A CN117321197A CN 117321197 A CN117321197 A CN 117321197A CN 202280018202 A CN202280018202 A CN 202280018202A CN 117321197 A CN117321197 A CN 117321197A
Authority
CN
China
Prior art keywords
seq
deaminase
base editor
amino acid
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280018202.1A
Other languages
English (en)
Inventor
F·法扎德法德
N·加拉伊
G·郑
L·林
J·S·姜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
March Therapy Co
Original Assignee
March Therapy Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by March Therapy Co filed Critical March Therapy Co
Publication of CN117321197A publication Critical patent/CN117321197A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/80Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor

Landscapes

  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)

Abstract

描述了能够以背景依赖性方式使双链DNA中的胞嘧啶核苷酸脱氨基的脱氨酶结构域。还披露了非天然存在或工程改造的靶向碱基编辑器,其含有这些脱氨酶结构域与一个或多个靶向结构域(例如Cas9、Cpf1、ZF、TALE)的组合,这些靶向结构域识别和/或结合特定的靶序列。这些碱基编辑器有助于对细胞或受试者基因组内,例如人线粒体基因组内的靶位点进行特异性和有效的编辑,且脱靶效应低。还提供了使用这些脱氨酶结构域和碱基编辑器的方法。

Description

背景依赖性、双链DNA特异性脱氨酶及其用途
相关申请的交叉引用
本申请要求2021年1月12日提交的美国申请号63/136,524的权益和优先权,其内容通过引用以其整体结合。
序列表的引用
2022年1月12日提交的序列表为名为“MILA100_ST25.txt”的文本文件,创建于2022年1月12日,大小为374,384字节,根据37 C.F.R.§1.52(e)(5)特此通过引用并入。
技术领域
所披露的发明总体上涉及用于靶向和编辑核酸(特别是在目的靶序列处的可编程脱氨基)的组合物和方法。
背景技术
核酸序列的靶向编辑,例如靶向切割基因组DNA或引入特定的修饰到基因组DNA,是基因功能研究的非常有前途的方法,并且还具有为人类遗传性疾病提供新疗法的潜力。当前的基因组工程改造工具,包括工程改造的锌指核酸酶(ZFN)、转录激活子样效应物核酸酶(TALEN)和CRISRPR-Cas系统,可实现基因组中序列特异性DNA切割。此可编程的切割可在切割位点通过非同源末端连接(NHEJ)导致DNA突变或在切割位点周围通过同源定向修复(HDR)导致DNA替换。然而,这些技术的一个缺点是,它们通常会导致基因编辑效率较低,以及可能与所期望改变竞争的不需要的基因改变。
由于许多遗传病原则上可以通过在基因组中的特定位置实现特定的核苷酸变化(例如,与疾病相关的基因的特定密码子中的C到T的变化)来治疗,因此碱基编辑器被认为是一种无需引入双链DNA(dsDNA)断裂即可实现这种精确的基因编辑的可编程方法。由于先前描述的(胞苷或腺苷)脱氨酶作用于单链核酸,因此它们在碱基编辑中的使用需要解开双链DNA(dsDNA),例如通过Cas9系统或类似的RNA指导酶。因此,现有的碱基编辑器使用与Cas9或其他RNA指导酶融合的DNA修饰结构域(即ssDNA特异性脱氨酶结构域)。由于Cas9酶及其指导RNA与基因组靶标的结合会导致生成暴露单链DNA区域的R环,因此碱基编辑器会在由暴露的ssDNA区域定义的小窗口内修饰碱基。使用胞嘧啶脱氨酶的碱基编辑器实现了C->T突变(Komor,A.等人,Nature[自然]533,420–424(2016)),并且与腺苷脱氨酶融合的碱基编辑器实现了A->G突变(Gaudelli,N.等人,Nature[自然]551,464–471(2017))。然而,由于对ssDNA作为底物的严格要求,将ssDNA特异性脱氨酶与dsDNA特异性DNA结合结构域(例如锌指和TALE)组合使用的努力并未产生有效的碱基编辑器。
最近,报道了一种具有双链DNA活性的胞嘧啶脱氨酶,其实现了线粒体基因组编辑(Mok BY.等人,Nature[自然],583(7817):631-637(2020);WO 2021/155065A1)。这种名为DddA的胞苷脱氨酶在双链DNA上产生C->U转换,然后通过细胞修复和复制机制将其转换为C->T。然而,DddA具有严格的背景特异性(context specificity),并且只能编辑胸腺嘧啶之前的脱氧胞苷(从而将TC转换为TT),这限制了其对非常窄的序列背景的适用性。因此,尽管取得了很大进展,但仍然需要组合物、系统和方法来扩展当前的碱基编辑能力,特别是在不适合被RNA指导的编辑器编辑的细胞器如线粒体中。
因此,本发明的目的是提供用于核酸编辑的组合物和方法。
本发明的目的是提供能够实现dsDNA的碱基编辑的组合物和方法,而不需要DNA解旋或依赖任何辅助核酸部分(例如,指导RNA)来实现其功能。
本发明的目的是提供组合物和方法,其能够在任何给定序列背景(例如,NACN、NCCN、NGCN、NTCN)中高效地在dsDNA中引入胞苷的所期望修饰(例如,碱基编辑)。
本发明的目的是提供能够以最小的脱靶活性实现核酸碱基编辑的组合物和方法。
本发明的另一个目的是提供能够以改进的精度实现核酸碱基编辑的组合物和方法。
本发明的另一个目的是提供能够调整碱基编辑器的活性窗口以最大化在中靶编辑和最小化旁观者脱靶的组合物和方法。
本发明的另一个目的是提供能够在广泛范围的靶核酸上实现核酸碱基编辑的组合物和方法。
本发明的另一个目的是提供用于在人类(核或线粒体)基因组中的任何位点处进行核酸碱基编辑的组合物和方法。
本发明的另一个目的是提供用于体外dsDNA核酸编辑的组合物和方法,用于包括多样性产生和表观遗传测序的应用。
对已包括在本说明书中的文件、行为、材料、装置、文章等的任何讨论不被看作是承认任何或所有这些事项形成现有技术基础的一部分或任何或所有这些事项是与本披露相关的领域中的公共常识,虽然它在本申请的每个权利要求的优先权日之前存在。
贯穿本说明书,“包含(comprise)”一词或变化形式(例如“包含了(comprises)”或“包含着(comprising)”)应被理解为意指包括所陈述的要素、整体或步骤,或者多个要素、整体或步骤的群组,但不排除任何其他要素、整体或步骤,或者多个要素、整体或步骤的群组。
发明内容
已经发现了能够使双链DNA中的胞嘧啶脱氨基的脱氨酶结构域。所披露的脱氨酶结构域中的一些具有更高的序列特异性,而其他结构域可以比先前表征的脱氨酶编辑更广泛范围的靶序列(即,具有更广泛的背景特异性)。基于这些和其他特征,与先前表征的dsDNA特异性脱氨酶相比,脱氨酶被认为表现出减少的脱靶编辑和/或能够在更广泛的背景下引入编辑。提供了用于靶向和编辑核酸的试剂、组合物、试剂盒和方法,包括使用脱氨酶结构域编辑细胞或受试者基因组内的单个靶位点。
具体地,披露了可以使双链DNA脱氨基的分离的脱氨酶结构域。与脱氨酶结构域对不含靶核苷酸序列的双链DNA的脱氨酶活性相比,脱氨酶结构域对含有靶核苷酸序列的双链DNA可具有更大的脱氨酶活性。通常,靶核苷酸序列包含两个或更多个靶核苷酸,每个靶核苷酸均被单独完全或部分限定,并且彼此处于固定的顺序关系。在一些形式中,靶核苷酸序列含有两个或更多个靶核苷酸,其中靶核苷酸各自被单独完全或部分限定并且彼此处于固定的顺序关系。
在一些形式中,脱氨酶背景特异性可以表示为概率序列标识图(sequence logo),其中脱氨酶在某个阈值(例如,25%或50%)下编辑的靶核苷酸背景中的异质性用一组比对序列表示。比对被描述为给定位置处存在的字母堆叠,并且比对中每个核酸的观察到的频率由堆叠中每个字母的高度表示。
在优选的形式中,脱氨酶结构域不是来自新洋葱伯克霍尔德菌(Burkholderiacenocepacia)的DddA的脱氨酶结构域。在一些形式中,脱氨酶结构域不是来自新洋葱伯克霍尔德菌的DddA的同源物的脱氨酶结构域。在一些形式中,脱氨酶结构域不是来自伯克霍尔德菌属的DddA的脱氨酶结构域。
在一些形式中,脱氨酶结构域可以分成两个部分,由此脱氨酶结构域仅能够在两个部分接近或组合在一起时使靶核苷酸序列脱氨。这对于防止脱氨酶活性是有用的,除非靶向结构域使脱氨酶部分接近靶序列。在一些形式中,拆分脱氨酶结构域的每个部分包括完整脱氨酶结构域的超过50%,使得组合部分包括脱氨酶结构域的至少一些部分的两个拷贝。在一些形式中,拆分脱氨酶结构域的每个部分包括完整脱氨酶结构域的至少55%、60%、65%、70%、75%、80%、85%、90%、95%或多于95%。在其他形式中,拆分脱氨酶结构域的每个部分恰好包含完整脱氨酶结构域的50%,使得两个部分的组合提供脱氨酶结构域的精确100%的结构组分。通常,拆分脱氨酶结构域的两部分通过一个或多个辅助结构域彼此靠近。
在一些形式中,脱氨酶结构域可以使胞嘧啶核苷酸脱氨基(本文称为“胞嘧啶脱氨酶”)。其中胞嘧啶核苷酸可以脱氨基的示例性靶核苷酸序列包括但不限于任何给定背景下的AC、CC、GC、TC。通过频率序列标识图分析,可以将靶核苷酸序列有效地显示为主导序列。在前述的一些形式中,3'末端C被脱氨基。示例性胞嘧啶脱氨酶包括具有SEQ ID NO:1、SEQID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:9、SEQ ID NO:11、SEQ ID NO:14、SEQ IDNO:15和SEQ ID NO:16中任一个的氨基酸序列的脱氨酶结构域。
在一些形式中,脱氨酶结构域可以使腺嘌呤核苷酸脱氨基(本文中称为“腺苷脱氨酶”)。
在一些形式中,脱氨酶结构域包括BE_R1_11,其具有SEQ ID NO:1的氨基酸序列、或与SEQ ID NO:1具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸、或其片段。在一些形式中,脱氨酶结构域包括BE_R1_12,其具有SEQ ID NO:2的氨基酸序列、或与SEQ ID NO:2具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸、或其片段。在一些形式中,脱氨酶结构域包括BE_R1_28,其具有SEQ ID NO:3的氨基酸序列、或与SEQ ID NO:3具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸、或其片段。
靶向碱基编辑器,包括脱氨酶结构域和靶向结构域,还描述了与碱基编辑器靶序列的特异性结合。示例性靶向结构域包括TALE、BAT、CRISPR-Cas9、Cfp1和锌指。
在一些形式中,靶向碱基编辑器靶序列被选择为存在于靶核酸中脱氨酶结构域的靶核苷酸序列的实例的20个核苷酸内,其中靶核苷酸序列的实例被选择为由靶向碱基编辑器进行碱基编辑。在一些形式中,被选择为由该靶向碱基编辑器进行碱基编辑的该靶核苷酸序列的该实例的20个核苷酸内的碱基编辑器靶序列是该靶核酸中位于靶核苷酸序列的任何实例的30个核苷酸内的唯一碱基编辑器靶序列。在一些形式中,靶核酸中的靶核苷酸序列的实例是靶核酸中在靶核苷酸序列的实例的20个核苷酸内的碱基编辑器靶序列的20个核苷酸内脱氨酶结构域的靶核苷酸序列的唯一实例。
在前述任一项中,碱基编辑器靶序列可以存在于线粒体DNA、或叶绿体DNA、或质体DNA、或任何其他具有基因组的膜细胞器中。碱基编辑器还可以在体外用于作用于例如试管中的合成或天然DNA。
在一些形式中,碱基编辑器包括两个部分,其中第一部分包括第一拆分脱氨酶结构域,第二部分包括第二拆分脱氨酶结构域。在一些形式中,第一部分包括包含SEQ ID NO:122-181中任一个的氨基酸序列的拆分脱氨酶结构域,并且第二部分包括包含SEQ ID No:127-181中任一个的氨基酸序列的拆分脱氨酶结构域,其中第一和第二拆分脱氨酶结构域单独是无活性的,但是当它们靠近在一起时能够脱氨基。在一些形式中,第一拆分脱氨酶结构域包括SEQ ID No:122-126中任一个的氨基酸序列。以其他形式中,第一和第二拆分脱氨酶结构域均包含野生型脱氨酶结构域活性位点。
在某些形式中,第一和第二拆分脱氨酶结构域各自包含BE_R1_11的片段或变体。例如,在一些形式中,第一拆分脱氨酶结构域包括SEQ ID NO:122、或127-135、或150中的任一个,并且第二拆分脱氨酶结构域包括SEQ IDNO:127-135或150中的任一个。在一些形式中,第一拆分脱氨酶结构域包括SEQ ID NO:122,并且第二拆分脱氨酶结构域包括SEQ IDNO:127-134或150中的任一个。在特定形式中,第一拆分脱氨酶结构域包括SEQ ID NO:129,并且第二拆分脱氨酶结构域包括SEQ ID NO:150。
在某些形式中,第一和第二拆分脱氨酶结构域各自包含BE_R1_12的片段或变体。例如,在一些形式中,第一拆分脱氨酶结构域包括SEQ ID NO:124、或136-140、或156-167中的任一个,并且
第二拆分脱氨酶结构域包括SEQ ID NO:136-140或156-167中的任一个。在一些形式中,第一拆分脱氨酶结构域包括SEQ ID NO:124,并且第二拆分脱氨酶结构域包括SEQ IDNO:156-166中的任一个。在特定形式中,第一拆分脱氨酶结构域包括SEQ ID NO:137,并且
第二拆分脱氨酶结构域包括SEQ ID NO:142。在另一种形式中,第一拆分脱氨酶结构域包括SEQ ID NO:139,并且第二拆分脱氨酶结构域包括SEQ ID NO:144。
在某些形式中,第一和第二拆分脱氨酶结构域各自包含BE_R1_41的片段或变体。例如,在一些形式中,第一拆分脱氨酶结构域包括SEQ ID NO:168-171中的任一个,并且第二拆分脱氨酶结构域包括SEQ IDNo:172-175中的任一个。在特定形式中,第一拆分脱氨酶结构域包括SEQ ID NO:168,并且第二拆分脱氨酶结构域包括SEQ ID NO:173。在另一种形式中,第一拆分脱氨酶结构域包括SEQ ID NO:171,并且第二拆分脱氨酶结构域包括SEQ IDNO:175。在其他形式中,第一拆分脱氨酶结构域包括SEQ ID NO:171,并且第二拆分脱氨酶结构域包括SEQ ID NO:173。
在某些形式中,第一和第二拆分脱氨酶结构域各自包含BE_R1_28的片段或变体。例如,在一些形式中,第一拆分脱氨酶结构域包括SEQ ID NO:123、或146-149、或151-155中的任一个,并且第二拆分脱氨酶结构域包括SEQ ID NO:146-149或151-155中的任一个。在特定形式中,第一拆分脱氨酶结构域包括SEQ ID NO:123,并且第二拆分脱氨酶结构域包括SEQ ID NO:149或151-153中的任一个。
在某些形式中,第一和第二拆分脱氨酶结构域各自包含BE_R4_21的片段或变体。例如,在一些形式中,第一拆分脱氨酶结构域包括SEQ ID NO:125或176-177中的任一个,并且第二拆分脱氨酶结构域包括SEQ ID NO:176-177中的任一个。在特定形式中,第一拆分脱氨酶结构域包括SEQ ID NO:125,并且第二拆分脱氨酶结构域包括SEQ ID NO:177。在其他形式中,第一拆分脱氨酶结构域包括SEQ ID NO:176,并且第二拆分脱氨酶结构域包括SEQID NO:177。
在某些形式中,第一和第二拆分脱氨酶结构域各自包含BE_R2_11的片段或变体。例如,在一些形式中,第一拆分脱氨酶结构域包括SEQ ID NO:126或180-181中的任一个,并且第二拆分脱氨酶结构域包括SEQ ID NO:180-181中的任一个。在特定形式中,第一拆分脱氨酶结构域包括SEQ ID NO:125,并且第二拆分脱氨酶结构域包括SEQ ID NO:180-181中的任一个。在另一种形式中,第一拆分脱氨酶结构域包括SEQ ID NO:180,并且第二拆分脱氨酶结构域包括SEQ ID NO:181。
其他脱氨酶可以以类似的方式拆分以产生类似的结果。此外,还可以使用其他拆分和编辑来实现保持脱氨酶各部分无活性直到接近的目的。
在一些形式中,第一部分或第二部分或第一部分和第二部分两者包括选自TALE、BAT、CRISPR-Cas9、Cfp1或锌指的可编程DNA结合结构域。
例如,在一些形式中,一个可编程DNA结合结构域是选自由以下组成的组的TALE:左手侧TALE(Left hand side TALE)和右手侧TALE。术语“左”和“右”的使用仅是为了方便,并不意味着DNA结合结构域结合在靶序列的哪一侧。此外,不同类别的DNA结合结构域(例如,TALE和ZF、ZF和TALE、BAT和TALE、dCas9和TALE)可以一起使用。在示例性形式中,一个可编程DNA结合结构域是包括SEQ ID NO:90、92、95、97-106中任一个的氨基酸序列的左手侧TALE。在另一示例性形式中,一个可编程DNA结合结构域是包括SEQ ID NO:91、93-94、96、108-113中任一个的氨基酸序列的右手侧TALE。在一些形式中,一个或多个可编程DNA结合结构域是结合线粒体mND1 DNA的TALE,其具有包括SEQ ID NOS:95-96中任一个的氨基酸序列。因此,在特定形式中,一个可编程DNA结合结构域是结合线粒体mND1 DNA的右手侧TALE,其具有包括SEQ ID NO:96的氨基酸序列。在另一种特定形式中,一个可编程DNA结合结构域是结合线粒体hND1 DNA的左手侧TALE,其具有包括SEQ ID NO:95的氨基酸序列。在一些形式中,一个或多个可编程DNA结合结构域是结合线粒体mCOX1DNA的TALE,其具有包括SEQ IDNO:99-106或108-113中任一个的氨基酸序列。例如,在一些形式中,一个可编程DNA结合结构域是结合线粒体mCOX1 DNA的右手侧TALE,其具有包括SEQ ID NO:108-113中任一个的氨基酸序列。在一些形式中,一个可编程DNA结合结构域是结合线粒体mCOX1 DNA的左手侧TALE,其具有包括SEQ ID NO:90-106中任一个的氨基酸序列。在其他形式中,一个或多个可编程DNA结合结构域是结合h12DNA的TALE,其具有包括SEQ ID NO:98的氨基酸序列。在其他形式中,一个可编程DNA结合结构域是具有NT(G)N末端结构域的TALE,其具有包括SEQ IDNO:114的氨基酸序列。在一些形式中,一个可编程DNA结合结构域是具有NT(bn)N末端结构域的TALE,其具有包括SEQ ID NO:115的氨基酸序列。在其他形式中,一个或多个可编程DNA结合结构域是结合线粒体ND6 DNA的TALE,其具有包括SEQ ID NO:92-94中任一个的氨基酸序列。在一些形式中,一个可编程DNA结合结构域是结合线粒体ND6DNA的右手侧TALE,其具有包括SEQ ID NO:93-94中任一个的氨基酸序列。在一些形式中,一个可编程DNA结合结构域是结合线粒体mND6 DNA的左手侧TALE,其具有包括SEQ ID NO:92的氨基酸序列。在其他形式中,一个或多个可编程DNA结合结构域是结合线粒体hND DNA的TALE,其具有包括SEQID NO:90-91中任一个的氨基酸序列。例如,在一些形式中,一个可编程DNA结合结构域是结合线粒体hND DNA的右手侧TALE,其具有包括SEQ ID NO:90的氨基酸序列。在一些形式中,一个可编程DNA结合结构域是结合线粒体hND DNA的左手侧TALE,其具有包括SEQ ID NO:91的氨基酸序列。在其他形式中,一个可编程DNA结合结构域是结合h11 DNA的TALE,其具有包括SEQ ID NO:97的氨基酸序列。可编程DNA结合结构域可以设计为靶向任何所期望的靶序列。
在一些形式中,第一部分和第二部分中的一个或两个独立地包含锌指可编程DNA结合结构域。例如,在一些形式中,一个可编程DNA结合结构域是选自左手侧锌指和右手侧锌指的锌指。在示例性形式中,一个可编程DNA结合结构域是结合线粒体mCOX1 DNA的锌指,其具有包括SEQ ID NO:82-89中任一个的氨基酸序列。在一些形式中,一个可编程DNA结合结构域是结合线粒体mCOX1 DNA的右手侧锌指,其具有SEQ ID NO:82-86或87-89中任一个的氨基酸序列。在一些形式中,一个可编程DNA结合结构域是结合线粒体mCOX1 DNA的左手侧锌指,其具有包括SEQ IDNO:82-86中任一个的氨基酸序列。在其他形式中,一个可编程DNA结合结构域是结合hND DNA的锌指,其具有包括SEQ ID NO:74-81中任一个的氨基酸序列。例如,在一些形式中,一个可编程DNA结合结构域是结合hND DNA的右手侧锌指,其具有SEQ ID NO:78-81中任一个的氨基酸序列。在一些形式中,一个可编程DNA结合结构域是结合线粒体hND DNA的左手侧锌指,其具有包括SEQ ID NO:74-77中任一个的氨基酸序列。
在一些形式中,第一部分和第二部分中的一个或两个独立地包含BAT可编程DNA结合结构域。例如,在一些形式中,一个可编程DNA结合结构域是选自由以下组成的组的BAT:左手侧BAT和右手侧BAT。在一些形式中,一个可编程DNA结合结构域是结合mCOX1 DNA的BAT,其具有包括SEQ ID NO:118-119中任一个的氨基酸序列。在一些形式中,一个可编程DNA结合结构域是结合mCOX1 DNA的右手侧BAT,其具有SEQ ID NO:119中任一个的氨基酸序列。在一些形式中,一个可编程DNA结合结构域是结合mCOX1 DNA的左手侧BAT,其具有包括SEQ ID NO:118中任一个的氨基酸序列。在一些形式中,一个可编程DNA结合结构域是结合ND6 DNA的BAT,其具有包括SEQ ID NO:120-121中任一个的氨基酸序列。在一些形式中,一个可编程DNA结合结构域是结合hND DNA的右手侧BAT,其具有SEQ ID NO:121中任一个的氨基酸序列。在一些形式中,一个可编程DNA结合结构域是结合hND DNA的左手侧BAT,其具有包括SEQ ID NO:120中任一个的氨基酸序列。
在示例性形式中,靶向DNA编辑器的第一部分包括包含SEQ ID NO:120的氨基酸序列的第一拆分脱氨酶结构域,以及左手TALE可编程DNA结合结构域,由此第二部分包括包含SEQ ID NO:156、158、160或164中任一个的氨基酸序列的第二拆分脱氨酶结构域,以及右手TALE可编程DNA结合结构域。
在示例性形式中,靶向DNA编辑器的第一部分包括包含SEQ ID NO:169的氨基酸序列的第一拆分脱氨酶结构域,以及左手TALE可编程DNA结合结构域;其中第二部分包括包含SEQ ID NO:173或175中任一个的氨基酸序列的第二拆分脱氨酶结构域,以及右手TALE可编程DNA结合结构域。
在示例性形式中,靶向DNA编辑器的第一部分包括包含SEQ ID NO:171的氨基酸序列的第一拆分脱氨酶结构域,以及左手TALE可编程DNA结合结构域;其中第二部分包括包含SEQ ID NO:175中任一个的氨基酸序列的第二拆分脱氨酶结构域,以及右手TALE可编程DNA结合结构域。
在示例性形式中,靶向DNA编辑器的第一部分包括包含氨基酸序列的第一拆分脱氨酶结构域,包括包含SEQ ID NO:169的氨基酸序列的第一拆分脱氨酶结构域,以及左手BAT可编程DNA结合结构域;其中第二部分包括包含SEQ ID NO:173或175中任一个的氨基酸序列的第二拆分脱氨酶结构域,以及右手TALE可编程DNA结合结构域。
在示例性形式中,靶向DNA编辑器的第一部分包括第一拆分脱氨酶结构域和第一卷曲螺旋结构域以及任选的左手TALE可编程DNA结合结构域,该第一拆分脱氨酶结构域包括含有SEQ ID NO:169的氨基酸序列的第一拆分脱氨酶结构域,由此该第二部分包括(d)第二拆分脱氨酶结构域(其包括SEQ ID NO:173或175中任一个的氨基酸序列),以及第二卷曲螺旋结构域,任选地右手TALE可编程DNA结合结构域,由此该第一和第二卷曲螺旋结构域当该第一和第二部分组合后相互作用。
在一些形式中,第一部分和第二部分各自包含独立地选自由以下组成的组的可编程DNA结合结构域:TALE、BAT、CRISPR-Cas9、Cfp1和锌指。在一些形式中,第一部分是TALE并且第二部分是TALE,第一部分是TALE并且第二部分是BAT,第一部分是TALE并且第二部分是锌指,第一部分是TALE并且第二部分是CRISPR-Cas9,第一部分是TALE并且第二部分是Cfp1,第一部分是BAT并且第二部分是TALE,第一部分是BAT并且第二部分是BAT,第一部分是BAT并且第二部分是锌指,第一部分是BAT并且第二部分是CRISPR-Cas9,第一部分是BAT并且第二部分是Cfp1,第一部分是锌指并且第二部分是TALE,第一部分是锌指并且第二部分是BAT,第一部分是锌指并且第二部分是锌指,第一部分是锌指并且第二部分是CRISPR-Cas9,第一部分是锌指并且第二部分是Cfp1,第一部分是CRISPR-Cas9并且第二部分是TALE,第一部分是CRISPR-Cas9并且第二部分是BAT,第一部分是CRISPR-Cas9并且第二部分是锌指,第一部分是CRISPR-Cas9并且第二部分是CRISPR-Cas9,第一部分是CRISPR-Cas9并且第二部分是Cfp1,第一部分是Cfp1并且第二部分是TALE,第一部分是Cfp1并且第二部分是BAT,第一部分是Cfp1并且第二部分是锌指,第一部分是Cfp1并且第二部分是CRISPR-Cas9或第一部分是Cfp1并且第二部分是Cfp1。
在一些形式中,靶向碱基编辑器的第一部分和第二部分中的一个或两个包括至少一个接头。在一些形式中,第一部分和第二部分中的一个或两者包括至少一个接头,由此接头位于可编程DNA结合结构域和拆分脱氨酶结构域之间。在一些形式中,第一部分和第二部分都包含可编程DNA结合结构域和拆分脱氨酶结构域之间的接头。示例性接头的长度在2至200个氨基酸之间。例如,在一些形式中,接头的长度在2至16个氨基酸之间。
在特定形式中,接头包括GS、GSG、GSS或SEQ ID NO:23-27或30中任一个的氨基酸序列。接头还可以是现有技术中已知的任何形式的刚性或柔性接头(参见例如:网站ncbi.nlm.nih.gov/pmc/articles/PMC3726540/)。
碱基编辑器可以被配置为将靶核酸置于来自靶DNA链上的可编程结合结构域结合位点的期望数量的碱基对内。在一些形式中,碱基编辑器被配置为使得靶核酸距靶DNA链上的可编程结合结构域结合位点9与11个碱基对之间。在一些形式中,靶DNA链上两个可编程结合结构域的两个结合位点之间的距离在12与22个碱基对之间。在其他形式中,靶DNA链上两个可编程结合结构域的两个结合位点之间的距离在14至19个碱基对之间。
通常,碱基编辑器的第一部分和第二部分中的至少一个包括细胞靶向部分。一般而言,第一部分和第二部分都包含细胞靶向部分,例如相同的细胞靶向部分。示例性细胞靶向部分包括线粒体靶向序列(MTS)和核定位序列(NLS)。示例性的NLS包括SEQ ID NO:34-39中任一个的氨基酸序列。示例性MTS包括SEQ ID NO:22、69、71、182或183中任一个的氨基酸序列。
在一些形式中,靶向碱基编辑器的第一部分和第二部分中的至少一个包括碱基切除修复抑制剂。在一些形式中,碱基切除修复抑制剂是哺乳动物核或线粒体DNA糖基化酶抑制剂,例如尿嘧啶糖基化酶抑制剂。示例性碱基切除修复抑制剂具有包括SEQ ID NO:21或70中任一个的氨基酸序列。
还提供了使用所披露的脱氨酶结构域和碱基编辑器的方法。在一些形式中,碱基编辑器可用于对靶核酸进行碱基编辑。例如,披露了一种方法,该方法包括使靶核酸和靶向碱基编辑器接触,其中靶核酸是双链DNA,由此靶向碱基编辑器使靶核苷酸序列的实例脱氨基。通常,靶核苷酸序列中的脱氨基核苷酸被转换为胸腺嘧啶或鸟嘌呤核苷酸。该转换完成了靶核苷酸序列的碱基编辑。
在该方法的一些形式中,靶核酸是线粒体DNA。其中可以将核苷酸脱氨基的示例性靶核苷酸序列包括但不限于AC、CC、GC和TC。在一些形式中,靶核苷酸序列中的最后一个C被靶向碱基编辑器脱氨基。在一些形式中,线粒体DNA中的靶核苷酸序列的实例包含在线粒体DNA序列中。当靶核苷酸序列的实例在碱基编辑器靶DNA结合序列的例如1个和25个碱基之间(包括端值)时,可以实现碱基编辑。在一些形式中,当靶核苷酸序列的实例在碱基编辑器靶DNA结合序列的15和20个碱基之间(包括端值)时,实现最佳碱基编辑。在一些形式中,通过改变接头结构域的长度、刚性或柔性,或通过改变DNA结合结构域的特异性或类型,或通过改变碱基编辑器的两个部分中的一个或两个中的一个或两个拆分脱氨酶结构域内的拆分位点,或通过改变脱氨酶的类型,或通过改变DNA结合位点之间的距离,增加或减少DNA靶区域内碱基编辑的活性窗口。例如,在一些形式中,通过增加碱基编辑器的两个部分中的一个或两个中的接头结构域的长度来增加DNA靶区域内的碱基编辑的活性窗口。在其他形式中,通过增加碱基编辑器的两个部分中的一个或两个中的接头结构域的长度来减小DNA靶区域内的碱基编辑的活性窗口。在一些形式中,通过减小碱基编辑器的两个部分中的一个或两个中的接头结构域的长度来增加DNA靶区域内的碱基编辑的活性窗口。在其他形式中,通过减小碱基编辑器的两个部分中的一个或两个中的接头结构域的长度来减小DNA靶区域内的碱基编辑的活性窗口。在一些形式中,通过改变碱基编辑器的两个部分之一或两者中的DNA结合结构域的特异性或类型来增加DNA靶区域内的碱基编辑的活性窗口。在其他形式中,通过改变碱基编辑器的两个部分之一或两者中的DNA结合结构域的特异性或类型来减小DNA靶区域内的碱基编辑的活性窗口。
在一些形式中,通过改变碱基编辑器的两个部分中的每一个中的一个或两个拆分脱氨酶结构域中的拆分位点来增加DNA靶区域内的碱基编辑的活性窗口。在其他形式中,通过改变碱基编辑器的两个部分中的每一个中的一个或两个拆分脱氨酶结构域中的拆分位点来减小DNA靶区域内的碱基编辑的活性窗口。
靶核酸可以在细胞中。因此,在该方法的一些形式中,通过促进靶向碱基编辑器进入细胞来实现使靶核酸与靶向碱基编辑器接触。在一些形式中,细胞位于动物体内。因此,在该方法的一些形式中,通过向动物施用靶向碱基编辑器来实现使靶核酸与靶向碱基编辑器接触。
还描述了通过酶促方法鉴定靶核酸中经修饰的(例如,甲基化的)核苷酸的方法。特别地,披露了一种方法,该方法包括使一种或多种靶核酸与对胞苷的不同修饰具有不同活性的一种或多种脱氨酶结构域接触,并且随后对靶核酸进行测序。例如,在一些形式中,一个或多个脱氨酶结构域共同或单独地对未修饰的胞嘧啶(C)、甲基化胞嘧啶(mC)或氧化的mC碱基(包括hmC、fC和caC或其组合)中的一种或多种有活性。因此,在一些形式中,该方法包括使一个或多个靶核酸与一个或多个脱氨酶结构域接触,这些脱氨酶结构域对胞嘧啶的不同修饰(包括一种或多种或未修饰的(C)、甲基化的(mC)或氧化的mC碱基(例如,hmC、fC和caC))具有不同的活性,然后对靶核酸进行测序。
优选地,靶核酸是双链胞嘧啶甲基化DNA并且脱氨酶结构域可以使双链DNA脱氨基。胞嘧啶甲基化DNA是指其中一个、少数、许多或大部分胞嘧啶被甲基化的DNA。天然DNA,例如基因组DNA,仅一些胞嘧啶甲基化。示例性的双链胞嘧啶甲基化DNA包括基因组DNA,例如植物基因组DNA、动物基因组DNA和人类基因组DNA。在一些形式中,脱氨酶结构域基本上仅使靶核酸中的非甲基化胞嘧啶核苷酸脱氨基。在一些形式中,靶核酸中基本上所有非甲基化胞嘧啶核苷酸被脱氨酶结构域脱氨基,但经修饰的胞苷未被修饰(或修饰程度比未修饰的碱基小得多)。优选地,脱氨酶结构域使靶核酸中90%或更多的非甲基化胞嘧啶核苷酸脱氨基。在一些形式中,脱氨酶结构域基本上仅共同使靶核酸中的非甲基化胞嘧啶核苷酸脱氨基。在一些形式中,靶核酸中基本上所有非甲基化胞嘧啶核苷酸被脱氨酶结构域共同脱氨基,但经修饰的胞苷未被修饰(或修饰程度比未修饰的碱基小得多)。优选地,脱氨酶结构域共同使靶核酸中90%或更多的非甲基化胞嘧啶核苷酸脱氨基。通过对脱氨基的靶核酸进行测序,鉴定出靶核酸中的甲基化胞嘧啶核苷酸(即,这些是未被一个或多个脱氨酶编辑的胞苷)。
还提供了在活细胞内部或外部的靶核酸池中产生序列多样性的方法。例如,本文披露的脱氨酶可用于通过非靶向碱基编辑在DNA序列池中引入随机的、非靶向突变。示例性方法包括使脱氨酶结构域和靶核酸的多个拷贝在导致每个靶核酸拷贝平均0.1至5.0个核苷酸脱氨基的时间和条件下接触。优选地,靶核酸是双链DNA并且脱氨酶结构域可以使双链DNA脱氨基。
在一些形式中,靶核酸的拷贝是体外。在一些形式中,靶核酸拷贝中的脱氨基核苷酸通过体外反应转换为胸腺嘧啶或鸟嘌呤核苷酸。在一些形式中,该方法进一步包括将脱氨基的核苷酸转换为规范对应物,例如dU转化为dT,以及dI转化为dA,随后进行选择程序,例如但不限于mRNA展示、核糖体展示或SELEX。在一些形式中,转换是通过PCR扩增进行的。在其他形式中,多样化的DNA被转化到细胞中,用于体内选择和定向进化应用。DNA多样性生成方法为制备随机DNA提供了针对易错PCR的替代,特别是在要多样化的片段远大于可以轻松PCR扩增的大小的情况下。
在一些形式中,当靶核酸的拷贝中的脱氨基的核苷酸被转换为胸腺嘧啶或鸟嘌呤核苷酸时,该转换完成了靶核酸的一些或全部拷贝的一个或多个碱基编辑。在一些形式中,通过在细胞中孵育靶核酸的拷贝,将靶核酸的拷贝中的脱氨基的核苷酸转换为胸腺嘧啶或鸟嘌呤核苷酸。例如,靶核酸的拷贝可以在细胞中,并且促进脱氨酶结构域进入细胞使脱氨酶结构域和靶核酸的拷贝接触。
还描述了通过编辑受试者细胞中线粒体DNA中的一个或多个核酸来治疗或预防受试者线粒体遗传病的方法。在一些形式中,该方法向细胞引入靶向胞嘧啶脱氨酶碱基编辑器,其包括脱氨酶结构域和与靶核苷酸(或靶核苷酸附近的序列)相互作用的DNA相互作用结构域,其中靶向碱基编辑器使线粒体DNA内的靶核酸脱氨。在一些形式中,DNA相互作用结构域是DNA结合结构域或与其靶位点相互作用的转录因子、与启动子或复制起点相互作用并沿着dsDNA上的特定区域携带脱氨酶的RNA或DNA聚合酶。在一些形式中,靶核苷酸序列中的脱氨基核苷酸被转换为胸腺嘧啶或鸟嘌呤核苷酸。通常,这些方法将线粒体DNA编辑为非致病形式。在一些形式中,脱氨基的核苷酸位于选自以下的位置:m.583G>A、m.616T>C、m.1606G>A、m.1644G>A、m.3258T>C、m.3271T>C、m.3460G>A、m.4298G>A、m.5728T>C、m.5650G>A、m.3243A>G、m.8344A>G、m.14459G>A、m.11778G>A、m.14484T>C、m.8993T>C、m.14484T>C、m.3460G>A和m.1555A>G。在一些形式中,细胞选自由以下组成的组:成纤维细胞、淋巴细胞、胰腺细胞、肌肉细胞、神经元细胞和干细胞。
在一些形式中,细胞位于动物体内,并且通过向动物施用脱氨酶结构域来实现使脱氨酶结构域与靶核酸的拷贝接触。在一些形式中,当靶核酸的拷贝位于细胞中时,脱氨酶结构域可由细胞中的转基因表达构建体(例如,表达载体)编码。在这种形式中,通过在细胞中瞬时表达脱氨酶结构域,作为独立的酶或者作为与诸如DNA结合结构域、转录因子或DNA或RNA聚合酶(例如T7 RNA聚合酶)等一些其他蛋白质结构域的融合物,实现使脱氨酶结构域与靶核酸的拷贝的接触。
还提供了包含或表达靶向碱基编辑器的载体。示例性载体包括改变的腺病毒(AAV)载体或慢病毒载体。在一些形式中,靶向碱基编辑器被封装在载体内。在一些形式中,脱氨酶结构域包括载体内的靶向碱基编辑器。
所披露的方法的另外优点将部分地在下面的描述中阐述,并且部分地将从描述中理解,或者可以通过所披露的方法和组合物的实践而获知。所披露的方法和组合物的优点将通过所附权利要求中特别指出的要素和组合来实现和获得。应理解,如所声明的前面的大体描述以及以下的详细描述都只是示例性和说明性的,而不限制所要求的发明。
附图说明
附图示出了所披露的方法和组合物的几个实施例,并且与说明书一起用于解释所披露的方法和组合物的原理。
图1是逐步系统的示意图,该系统用于产生推定的脱氨酶结构域并对其进行实验评估和表征,并鉴定对双链DNA(dsDNA)具有活性的脱氨酶,并确定它们的编辑背景特异性;合成来自pfam数据库中胞嘧啶脱氨酶样(CDA)超家族的每个脱氨酶蛋白家族的多个结构域,并通过无细胞体外转录/翻译进行表达(从上到下,DNA序列包括ATCCGATCAGAGCT(SEQID NO:287)、5'-ATTTGATTAGAGTT-3'(SEQ ID NO:289)和3'-TAGGCTAGTTTTGA-5'(SEQ IDNO:290)),然后通过使用ssDNA和dsDNA底物的测定进行表征,以使用下一代测序(NGS)技术确定链偏向性和序列特异性。这些只是说明性的序列。脱氨基测定中使用的实际底物的序列显示在图2中。用于NGS测定的实际底物是SEQ ID NO:73:
图2A-2C是凝胶电泳图像,显示了脱氨基测定中脱氨酶结构域在双链(图2A,2B)或单链(图2C)的经FAM标记的DNA底物上的活性。图2D是凝胶电泳图像,其分别在不存在(-)或存在(+)脱氨酶结构域BE_R1_11、BE_R1_12、BE_R1_28和BE_R1_41中的每一者的情况下示出了所示脱氨酶结构域对双链DNA底物的活性,其中泳道1-6中的每一个分别含有以下序列(1)A[15]TGCGCCA[15](SEQ ID NO:268)、(2)A[15]ACA[15](SEQ ID NO:269)、(3)A[15]CCA[15](SEQ ID NO:270)、(4)A[15]GCA[15](SEQ ID NO:271)、(5)A[15]TCA[15](SEQ ID NO:272)、(6)A[15]ACGCCTCA[15](SEQ ID NO:273)(ssDNA底物序列)。对于双链DNA底物,互补链与给定的底物退火。
图3A-3B是显示了DNA脱氨基测定的NGS(图3A)和桑格测序(图3B;从上到下,显示了序列ATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCCAGGGTGGTTT(SEQ ID NO:291)和ATGAATCGGTCAATGCGTGGGGAGAGGTGGTTTGTGTATTGGGTGCCAGGGTGGTTT(SEQ ID NO:292)的脱氨酶活性)结果的图像。这些图展示了显示dsCDA对dsDNA处理结果的示例性数据。
图4A-4B是分别基于在50%(图4A)和25%(图4B)的编辑阈值水平下的编辑效率,与所示脱氨酶一起孵育的dsDNA底物中突变胞嘧啶侧翼区域的概率序列标识图。图4A示出了(顶行)背景独立性脱氨酶的实例(具有混合的特异性),其可以在任何背景(NCN)中编辑胞嘧啶,以及(底部两行)经鉴定的背景依赖性脱氨酶的实例,其对胞嘧啶之前的某些序列具有特异性。
图5显示单独或组合的拆分脱氨酶的脱氨酶测定。BE11、BE12和BE28脱氨酶结构域的各个N末端和C末端半部分对DNA底物的活性通过凝胶电泳图像显示,该凝胶电泳图像分别针对每种脱氨酶比较了对照、以及r个N末端片段(N1、N2、N3、N4、N5)和5个C末端片段(C1、C2、C3、C4、C5)中的每一者(单独和组合形式);碱基编辑器的N末端和C末端部分的图表明了所测试的碱基编辑器中N末端或C末端脱氨酶(Deam_N/Deam_C)分子的相对构型。
图6示出了MafB19-deam家族中对dsDNA有活性或无活性的成员的序列比对标识图,以及该脱氨酶家族的dsDNA特异性成员中存在的特征基序,这些特征基序可用作鉴定该家族中另外的dsDNA特异性脱氨酶的特征。
图7显示MafB19-deam家族中的独特分支,该家族大多数已鉴定的dsDNA特异性脱氨酶都位于该分支中。
图8示出了SCP1201-deam家族中对dsDNA有活性或无活性的成员的序列比对标识图,以及该脱氨酶家族的dsDNA特异性成员中存在的特征基序,这些特征基序可用作鉴定该家族中另外的dsDNA特异性脱氨酶的特征。
图9是用于快速测试碱基编辑器的体外系统的示意图。碱基编辑器是通过克隆设计器TALE下游的脱氨酶结构域来制作的。整个盒被克隆到T7启动子的下游,并用作体外翻译(IVT)反应的模板。将靶标(编码目的DNA结合结构域(例如设计器TALE)的结合位点)克隆到质粒上,然后将这些质粒用作IVT反应中的dsDNA底物。在IVT系统中表达后,碱基编辑器蛋白(例如TALE-脱氨酶融合蛋白)与其底物质粒上的靶标结合,并向靶标质粒引入编辑。然后对底物质粒进行PCR扩增,并通过测序或T7核酸内切酶测定确定编辑的位置/频率。
图10A-10C是从对不同dsDNA底物中靶向胞嘧啶侧翼区域的NGS测序中获得的概率序列标识图结果,这些底物是ACACACACACACACAC(SEQ ID NO:191)(图10A),ACGTGTACACGTACGT(SEQ ID NO:192)、GCGCGCGCGCGCGCGCG(SEQ ID NO:193)和CCGGCCGGCCGGCCGG(SEQ ID NO:194)(图10B),或TCGAGATCTCGATCGA(SEQ ID NO:195)、TCTCTCTCTCTCTCTC(SEQ ID NO:196)和CCCCCCCCCCCCCCCC(SEQ ID NO:197)(图10C),它们分别与BER1_11、BE_R1_12、BE_R1_28或BE_R1_41一起孵育。
图11A-11B的图示出了(图11A)基于图9中的方案的修改、用于克隆设计者TALE下游的脱氨酶拆分结构域(被称为TALE_左和TALE_右)的体外系统的示意图;以及(图11B)基于BE_R1_12的不同拆分碱基编辑器设计策略,其示出了:BE_R1_12(wt)、无活性“死”蛋白中突变的活性位点序列(HAE至HAA)以及三种不同的截短蛋白20、40和60。还显示了结构域组织,包括添加TALE左(L)和右(R)结构域,以及由此产生的组合功能碱基编辑器,该编辑器使用TALE L和R结合结构域在靶DNA上共定位。
图12的图示出了对于图11中描述的每种不同碱基编辑器设计而言在靶(多聚胞嘧啶)DNA底物上的碱基编辑器脱氨酶活性的结果,这些设计包括仅TALE_R(对照)以及TALE_R_BE_R1_12(截短的20、40或60),其各自与仅TALE_L(对照)组合,或与TALE_L和无活性“死”BE_R1_12蛋白中突变的活性位点序列(HAE至HAA)组合。经编辑的碱基(C到T)分别在针对每个构建体对显示的测序数据中指示。CCCCCCCCCCCCCCCC(SEQ ID NO:197)、CCCCCCCTTTTTTCCC(SEQ ID NO:198)、CCCCCCTTTTTTTCCC(SEQ ID NO:199)部分编辑在桑格色谱图(Sanger Chromatogram)中表示为混合峰。在这种情况下,碱基判定软件将主要峰称为一致碱基,而实际上该位置包含碱基的混合物。
图13的图示出了碱基编辑器脱氨酶对以下多种不同靶DNA底物的活性结果:CCCCCCCCCCCCCCCC(SEQ ID NO:197),ACACACACACACACAC(SEQ ID NO:191)、ACGTACGTACGTACGT(SEQ ID NO:200)、CCGGCCGGCCGGCCGG(SEQ ID NO:201)和GCGCGCGCGCGCGCGC(SEQ ID NO:202)、CTCTCTCTCTCTCTCT(SEQ ID NO:203)或TCGATCGATCGATCGA(SEQ ID NO:204),以及碱基编辑器TALE_R_BE_R1_12的序列背景(截断的30),与TALE_L和非活性“死”BE_R1_12蛋白中的突变活性位点序列(HAE到HAA)组合。经编辑的碱基(C至T)分别在针对每个底物(包括CCCCCCCTTTTTTCCC(SEQ ID NO:205)、ACACACACATACACAC(SEQ ID NO:191)、ACGTGTATATGT ACGT(SEQ ID NO:192)、ACGTGTATATGTACGT(SEQ ID NO:206)、GCGC GCGCGTGCGCGC(SEQ ID NO:207)、TCTTTTTTTTTTTCTC(SEQ ID NO:208)、TCGAGATCTCGATCGA(SEQ ID NO:195)或TCGAGATCTTGATCGA(SEQ ID NO:209))显示的测序数据中指示。部分编辑在桑格色谱图中表示为混合峰。在这种情况下,碱基判定软件将主要峰称为一致碱基,而实际上该位置包含碱基的混合物。
图14是显示降低和优化碱基编辑器的编辑活性窗口的实验的图。该图描绘了设计策略,以及由此产生的使用TALE L和R结合结构域在靶DNA上共定位的组合功能性碱基编辑器,以及4种不同的碱基编辑器(基于BE_R1_41,包括四种不同的截短突变体,由在位置G43或G108(位于HVE结合位点的任一侧)处拆分wt BE_R1_41然后分别以4种方式重新组合整个脱氨酶结构域而产生)中的每一种对靶(聚胞嘧啶)DNA底物CCCCCCCCCCCCCCCC(SEQ ID NO:197)的碱基编辑器脱氨酶活性的结果。经编辑的碱基(C至T)分别在针对每个底物(包括CCCCCCTTTTTTCCCC(SEQ ID NO:210)、CCCCCCTTTTTTTCCC(SEQ ID NO:199)、CCCCCCCTTTTTTTTC(SEQ ID NO:211))显示的测序数据中指示。每个设计都描述并定量了相应的活性位置窗口。
图15的图分别示出通过使用TALE L和R结构域重组具有2个活性位点的在G108(N)和G43(C)处截短的BE_R1_41而形成的碱基编辑器以及通过使用TALE L和R结构域重组具有一个活性位点的在G108(N)和G108(C)处截短的BE_R1_41而形成的碱基编辑器对多种不同靶DNA底物CCCCCCCCCCCCCCCC(SEQ ID NO:197)、ACACACACACACACAC(SEQ ID NO:191)、ACGTACGTACGTACGT(SEQ ID NO:200)、CCGGCCGGCCGGCCGG(SEQ ID NO:201)和GCGCGCGCGCGCGCGC(SEQ ID NO:202)、TCTCTCTCTCTCTCTC(SEQ ID NO:196)、GAGAGAGAGAGAGAGA(SEQ ID NO:212)或TCGATCGATCGATCGA(SEQ ID NO:204)的碱基编辑器脱氨酶活性的结果。经编辑的碱基(C至T)在针对每个底物(分别是CCCCCCCTTTTTCCCC(SEQID NO:213)、CCCCCCCCCTTTTCC(SEQ ID NO:214)、ACACACACATACACAC(SEQ ID NO:215)、ACGTGTATATGTACGT(SEQ ID NO:206)、CCGGCCGGTTGGC CGG(SEQ ID NO:216)、TCTTTTTTTTTTTCTC(SEQ ID NO:217)、TCTCTCTCTTTCTCTC(SEQ ID NO:218)、GAGAAAAAAAAAGAGA(SEQ ID NO:219)或TCGAGATCTTGATCGA(SEQ ID NO:209),或为TCGAGATTTTGATCGA(SEQ ID NO:220))显示的测序数据中指示。
图16A-16C的图分别示出阴性对照(无编辑器)、以及通过使用TALE L和R结构域重组具有2个活性位点的在G108(N)和G43(C)处截短的BE_R1_41而形成的碱基编辑器、以及通过使用TALE L和R结构域重组具有一个活性位点的在G108(N)和G108(C)处截短的BE_R1_41而形成的碱基编辑器中的每一者对三种不同靶DNA底物CCCCCCCCCCCCCCCC(SEQ ID NO:197)、ACGTACGTACGTACGT(SEQ ID NO:200)、TCTCTCTCTCTCTCTC(SEQ ID NO:196)中的每一者(图16A)、和两种不同靶DNA底物GAGAGAGAGAGAGAGA(SEQ ID NO:212)、TCGATCGATCGATCGA(SEQ ID NO:204)(图16B)以及三种不同靶DNA底物CCGGCCGGCCGGCCGG(SEQ ID NO:201)、ACACACACATACACAC(SEQ ID NO:191)或GCGCGCGCGCGCGCGC(SEQ ID NO:202)(图16C)的碱基编辑器脱氨酶活性的结果。经编辑的碱基(C到T)分别在针对每个底物显示的测序数据中指示。每个设计都描述并定量了相应的活性位置窗口。
图17A-17B显示了拆分脱氨酶碱基编辑器的预测模型以及目靶区域上正向链和反向链上的活性窗口的位置(图17A)和确认该模型的数据(图17B)。图17B是示出测定结果的图,该测定将通过使用TALE L和R结合结构域重组在G108(N)和G108(C)处截短的BE_R1_41(具有一个活性位点)而形成的碱基编辑器的脱氨酶拆分半部分交换以评估对聚C或聚GDNA底物CCCCCCCCCCCCCCCC(SEQ ID NO:197)和GGGGGGGGGG GGGGGG(SEQ ID NO:221)的编辑效率和活性窗口位置。经编辑的碱基(C至T或G至A)分别在针对每个底物(包括CCCCCCCCTTTTTTTC(SEQ ID NO:197)、CCCCCCCCCCCCCTCC(SEQ ID NO:222)和GGAGGGGGGGGGGGGG(SEQ ID NO:223))显示的测序数据中指示。
图18的图分别示出通过使用TALE L和R结构域重组具有2个活性位点的在G108(N)和G43(C)处截短的BE_R1_41而形成的碱基编辑器以及通过使用TALE L和R结构域重组具有一个活性位点的在G108(N)和G108(C)处截短的BE_R1_41而形成的碱基编辑器对靶DNA底物的推定碱基编辑器活性窗口,该碱基编辑器结合至DNA序列TCTAGCCTAGCCGTTTXXXXXXXXXXXXXXXXAGGGTGAGCATCAAA CTCA(SEQ ID NO:224)。相应的活性位置窗口,显示为与基于脱氨酶性质的螺旋DNA变化相互作用的函数,表明周期性和不对称的活性窗口。活性窗口的跨度和位置取决于多种因素,诸如位置拆分设计(即脱氨酶两半中的每一个的重复/截短位点的位置)、接头类型和DNA结合结构域等,如文中所述。
图19的图示出通过各自使用TALE L和R结构域重组BE_R4_7、BE_R4_12、BE_R4_13、BE_R4_17、BE_R4_18、BE_R4_19、BE_R4_20和BE_R4_21而形成的碱基编辑器中的每一个对聚C靶DNA底物CCCCCCCCCCCCCCCC(SEQ ID NO:197)的碱基编辑器脱氨酶活性的结果。经编辑的碱基(C到T)分别在针对每个底物显示的测序数据中指示。每个设计都描述并定量了相应的活性位置窗口。
图20的图示出了对于通过使用TALE L和R结构域重组具有2个活性位点的在G108(N)和G43(C)截短的BE_R1_41形成的碱基编辑器,对不同长度的多种靶DNA底物(分别为聚C5-聚C20,具有序列CCCCC(SEQ ID NO:225)、CCCCCC(SEQ ID NO:226)、CCCCCCC(SEQ IDNO:227)、CCCCCCCC(SEQ ID NO:228)、CCCCCCCCC(SEQ ID NO:229)、CCCCCCCCCC(SEQ IDNO:230)、CCCCCCCCCCC(SEQ ID NO:231)、CCCCCCCCCCCC(SEQ ID NO:232)、CCCCCCCCCCCCC(SEQ ID NO:233)、CCCCCCCCCCCCCC(SEQ ID NO:234)、CCCCCCCCCCCCCCC(SEQ ID NO:235)、CCCCCCCCCCCCCCCC(SEQ ID NO:236)、CCCCCCCCCCCCCCCCC(SEQ ID NO:237)、CCCCCCCCCCCCCCCCCC(SEQ ID NO:238)、CCCCCCCCCCCCCCCCCCC(SEQ ID NO:239)、CCCCCCCCCCCCCCCCCCCC(SEQ ID NO:240))的推定碱基编辑器脱氨酶活性。经编辑的碱基(C至T)在针对每个底物(分别是包括CCCCCCTTTTTCCC(SEQ ID NO:241)、CCCCCCCTTTTTCCCC(SEQ ID NO:242)、CCCCCCCCTTTTTCCCC(SEQ ID NO:243)、CCCCCCCCTTTTTTTCCCC(SEQ IDNO:244)、CCCCCCCCCCCTTTCCCCCC(SEQ ID NO:245))显示的测序数据中指示。每个设计都描述并定量了相应的活性位置窗口。
图21A-B示出了通过分别使用TALE L和R结构域、或BAT_L和TALE_R结构域、或TALE_L和BAT_R结合结构域重组具有2个活性位点的在G108(N)和G43(C)处截短的BE_R1_41而形成的碱基编辑器对多种靶DNA底物的推定碱基编辑器脱氨酶活性。图21A显示了上述碱基编辑组合对各种不同长度的靶DNA底物(聚C10-聚C18,分别包括CCCCCCCCCC(SEQ ID NO:230)、CCCCCCCCCCCC(SEQ ID NO:232)、CCCCCCCCCCCCCC(SEQ ID NO:234)、CCCCCCCCCCCCCCC(SEQ ID NO:235)、CCCCCCCCCCCCCCCC(SEQ ID NO:236)、CCCCCCCCCCCCCCCCCC(SEQ ID NO:238),包括CCCCCCTTTTTCCC(SEQ ID NO:241)、CCCCCCCTTTTTCCCC(SEQ ID NO:242)、CCCCCCTTTTTCCCC(SEQ ID NO:246)、CCCCCCCCCTTTCCC(SEQ ID NO:247)、CCCCCCCCCTTTCCCC(SEQ ID NO:248)、CCCCCCCCCTTTTTCCCC(SEQ ID NO:249)、CCCCCCCCCTTTTCCCCC(SEQ ID NO:250))的作用。图21B显示上述碱基编辑器脱氨酶对聚C16底物的作用,并确定DNA结合结构域的性质影响碱基编辑器的活性窗口和编辑效率。经编辑的碱基(C至T)分别在针对每个底物(包括CCCCCCTTTTTCCCC(SEQ ID NO:246)、CCCCCCCCCTTTCCC(SEQ ID NO:247)和CCCCCCCTTTCCCCCC(SEQ ID NO:251))显示的测序数据中指示。每个设计都描述并定量了相应的活性位置窗口。
图22是示出基于BE_R1_41的不同拆分碱基编辑器设计策略的图,该图示出了包括BE_R1_41(N或C)片段的结构域组织,每个片段添加了TALE左(L)和右(R)结构域,以及卷曲螺旋(“螺旋”)结构域,以增强柔性和活性窗口尺寸。来自CCCCCCCCCCCCCCCC(SEQ ID NO:236)底物(其显示编辑(C到T))的经编辑的碱基分别在针对每个底物(包括CCCCCCTTTTTTTCCC(SEQ ID NO:252)、CCCCCCCTTTTTTTTC(SEQ ID NO:253)是TTTTTTTTTTTTCCCC(SEQ ID NO:254))显示的测序数据中指示。
图23A-23B显示证明靶碱基最佳位置的数据。图23A的图示出碱基编辑器TALE_L_“死”dBE_R1_12与TALE_R_BE_R1_12(截短的60)组合对五种不同靶DNA底物中的每一种的碱基编辑器脱氨酶活性的结果,每种靶DNA底物对应于修复致病性线粒体突变(小鼠线粒体中的mCox1V421A),对应于将C6589转换为T,并且相对于TALE结合位点具有C6589的单碱基移位,分别包括GTAGGAGCAACATAA(SEQ ID NO:255)、CGTAGGAGCAACATA(SEQ ID NO:256)、TCGTAGGAGCAACAT(SEQ ID NO:257)、TTCGTAGGAGCAACA(SEQ ID NO:258)、ATTCGTAGGAGCAAC(SEQ ID NO:259)。经编辑的碱基(C到T)分别在针对每个底物(包括TCGTAGGAGTAAACAT(SEQID NO:260))显示的测序数据中指示。每个设计都描述并定量了相应的活性位置窗口。当该C残基距离左侧TALE结合位点10bp(对应于双螺旋1圈)时,存在经编辑的碱基(C6589C至T)。图23B是分别对于C6589(距离=8-12)和C6593(距离=12-16)处的每一个C核苷酸,dC-dT编辑效率相对于靶dC与左侧TALE结合位点的距离的图。在此实例中,C6589是靶碱基,C6593是旁观者碱基。这种方法(每次将靶标窗口滑动1bp)可用于最大化对靶碱基的编辑效率,并最小化任何给定靶标的旁观者碱基编辑
图24的图总结了影响活性窗口的长度和位置的因素以及根据图10-23中的数据确定的不同拆分碱基编辑器设计规则。双链靶DNA的每条相对链上都显示了两部分拆分碱基编辑器的每个部分,每个核酸都显示为X。拆分碱基编辑器的每个部分都包括DNA结合结构域和脱氨酶N或C结构域,两者通过接头连接(显示为N结构域结合至5’DNA链并且C结构域结合至3’DNA链)。在所描述的实例中,DNA结合结构域识别位点之间的距离总共显示为19个残基,其中脱氨酶活性窗口包括每条链上的7个核酸,其中有3个核酸重叠(由箭头指示)。
图25A-25B示出了(图25A)拆分BE12碱基编辑器的两个部分中的每一个的结构域组织的示意图,其中每种拆分脱氨酶(“死”dBE_12-N–TALE_L;和BE_12-C–TALE_R)包括MTS靶向序列,融合至UGI(以限制线粒体尿嘧啶DNA糖基化酶的活性)和GFP(在左侧TALE融合的情况下)或mKate(在右侧TALE融合的情况下),所产生的组合功能性碱基编辑器使用TALE L和R结合结构域共定位于靶线粒体DNA(hND1基因)处;以及(图25B)显微照片,该显微照片示出了在HEK293T细胞系中使用与不同的基于BE_12的脱氨酶截短突变体共转染的BE_12-死在hND1基因座处进行碱基编辑的结果,其中箭头指示编辑后的样品中T7核酸内切酶的预期切割产物的位置。
图26是分别对于在G108(N)和G43(C)处切割的死dBE12或BE41,基于BE12或BE41的拆分碱基编辑器的结构域组织的示意图,其中每种拆分脱氨酶包括TALE_L和TALE_R DNA结合结构域、MTS靶向序列,融合至UGI(以限制线粒体尿嘧啶DNA糖基化酶的活性)和GFP(在左侧TALE或BAT融合的情况下)或mKate(在右侧TALE或BAT融合的情况下)。靶基因座(hND1)(ACTCAATCCTCTGATC(SEQ ID NO:261))中的经编辑的碱基(C至T)分别在针对每个底物显示的测序数据中指示。
图27A-27B示出了(图27A)靶向线粒体hND1基因的四个拆分BE41碱基编辑器中的每一个的结构域组织的示意图,其中每种拆分脱氨酶包括TALE DNA结合结构域(TALE_L-BE_41-N(1);和TALE_R-BE_41-C(2))或BAT结合结构域(BAT_L-BE_41-N(3);和BAT_R-BE_41-C(4)),各自包括MTS靶向序列,融合至UGI(以限制线粒体尿嘧啶DNA糖基化酶的活性)和GFP(在左侧TALE或BAT融合的情况下)或mKate(在右侧TALE或BAT融合的情况下);以及(图27B)显微照片,该显微照片示出了图27A所示的N-((1)或(2))与C-((1)或(2))构建体在HEK293T细胞系中的不同组合的结果,其中箭头指示编辑后的样品中T7核酸内切酶的预期切割产物的位置。
图28A-28B示出了(图28A)拆分BE41碱基编辑器的两个部分的结构域组织的示意图,其中每种拆分脱氨酶包括左手侧TALE DNA结合结构域(TALE_L-BE_41-N)或右手侧锌指(ZF_R2),各自包括MTS靶向序列,融合至UGI(以限制线粒体尿嘧啶DNA糖基化酶的活性)和GFP(在左侧融合的情况下)或mKate(在右侧融合的情况下);以及(图28B)靶向DNA(ACTCAATCCTCTGATC(SEQ ID NO:261))中的编辑碱基(C至T)在测序数据中标出并针对经处理的和对照DNA样品显示,并且分别描绘和定量了每种设计的对应位置活性窗口。
图29A-29B示出了用于基于BE41的碱基编辑器的两个单AAV碱基编辑器设计的结构域组织的示意图,包括:MTS靶向序列和锌指左侧(ZF_L)DNA结合结构域、BE_41-C,融合至P2A并直接与融合至UGI(以限制线粒体尿嘧啶DNA糖基化酶的活性)的MTS-BE_41-N融合,右侧ZF融合至GFP;或MTS靶向序列和锌指左侧(ZF_L)DNA结合结构域、BE_41-C,其融合至TAA_IRES并直接与融合至UGI(以限制线粒体尿嘧啶DNA糖基化酶的活性)的MTS-BE_41-N融合,右侧ZF融合至GFP(图29A)。显示了在具有A中所示构建体的AAV颗粒的不同MOI下的T7内切核酸酶测定的结果(图29B)。
图30是用于编辑小鼠NIH3T3细胞系中的mND1基因座的基于BE41的拆分碱基编辑器的结构域组织的示意图,包括:MTS靶向序列和TALE左侧DNA结合结构域,融合至在G108处切割的BE_41-N,融合至UGI和GFP;以及MTS靶向序列和TALE右侧DNA结合结构域,融合至在G43处切割的BE_41-C,融合至UGI和mKate。
图31A-31B示出了基于NGS确定的编辑效率和脱靶(图31A),以及碱基编辑器处理的样品中的靶基因座相比于阴性对照序列CATTAGTAGAACGCA(SEQ ID NO:262)的桑格色谱图(图31B)。显示了序列CATTAGTAAAACGCA(SEQ ID NO:263)中位置G2820处经编辑的(G至A)核酸碱基。
图32A-32D显示不同的dsDNA特异性脱氨酶(dsCDA)对胞苷修饰具有不同的活性。图32A是胞嘧啶(C)、5-甲基胞嘧啶(5mC)、5-羟甲基胞嘧啶(5hmC)、5-甲酰基胞嘧啶(5fC)和5-羧基胞嘧啶(5caC)的结构示意图。图32B-32D是使用脱氨酶BE_R1_11、BE_R1_12、BE_R1_28、BE_R1_41、BE_R2_11、BE_R2_19、BE_R2_28、BE_R2_31和DddA中的每一者分别对不含甲基化(图32B)、5-甲基胞嘧啶(5mC)(图32C)和5-羟甲基胞嘧啶(5hmC)(图32C)的DNA底物进行的脱氨酶测定的显微照片。
图33A-33B显示使用BamH1甲基化酶通过甲基化来保护胞嘧啶的测定(将胞嘧啶转换为甲基化的5mC)。图33A是测定的示意图,该测定用无MT酶(对照)、BAMHI MT酶或CpG MT酶预处理dsDNA底物,然后添加ds-脱氨酶,然后测序,由此将未经修饰的胞嘧啶脱氨基成为尿嘧啶并检测为T,经修饰的胞嘧啶未被脱氨基。图33B显示未处理(无MT酶)或用(BamH1MT酶)处理然后脱氨基并测序的底物DNA的概率序列标识图。
图34A-34C是测序色谱图,其分别示出了BE_R1_11脱氨酶(图34A)、BE_R1_28脱氨酶(图34B)或BE_R1_41脱氨酶(图34C)对被修饰成包括5caC、5fC、5hmC或5mC的DNA底物GTACACCATCCGTCCC(SEQ ID NO:274)和GTGTTCTCTATTTCAC(SEQ ID NO:275)的活性。GTGTTCTCTATTTCAC(SEQ ID NO:275)。
图35是分别示出Tet2氧化酶和BGT葡糖基化酶对DNA底物的活性的示意图,该DNA底物具有在位置5处含有甲基胞嘧啶并且在位置10处含有羟甲基胞嘧啶的序列CCGTCGGACCGC(SEQ ID NO:278),该序列被转换为在位置5处含有羧基胞嘧啶并且在位置10处含有葡萄糖基-甲基胞嘧啶的CCGTCGGACCGC(SEQ ID NO:279)。
图36示出了测序色谱图,其分别示出了BE_R1_12和BE_R1_41脱氨酶单独(BE12/BE41)或在氧化和葡糖基化后(BE12+TET2-BGT/BE41+TET2-BGT)在时间点1小时(t1)和2小时(t2)孵育中的每个时间点对分别包括5mC、5hmC、5fC和5caC的DNA底物GTACACCATCCGTCCC(SEQ ID NO:274)的差异活性。在不存在被TET2和BGT氧化和葡糖基化的情况下,GTACACCATCCGTCCC(SEQ IDNO:274)中的5mC被BE_R1_41脱氨为T,产生GTACACCATTTGTCCC(SEQ ID NO:276);BE_R1_41将5hmC脱氨基为T,分别产生GTACACCATTTGTCCC(SEQ ID NO:276)和GTACACCATTTGTTCC(SEQ ID NO:277)。该图说明,对于对mC或hmC有活性的脱氨酶(如BE41),TET2+BGT处理可用于保护甲基化DNA免于脱氨基。一些脱氨酶(例如BE12)虽然能够在正常背景下进行编辑,但本质上对经修饰的DNA活性较低,并且可以在不需要初始TET2+BGT处理的情况下使用。
图37的示意图显示一种或多种脱氨酶对底物DNACTAACTTACCATGATTAATTTAAGAATTCTCATCGTCA(SEQ ID NO:280)的活性,分别产生三种不同的脱氨基产物TTAATTTACTATGATTAATTTAAGAATTCTTATTGTTA(SEQ ID NO:281)、CTAATTTACCATAATTAATTTAAGAATTCTTATCGTTA(SEQ ID NO:282)和CTAACTTATCATAATTAATTTAAAAATTCTTATCGTCA(SEQ ID NO:283)。
图38A-B8显示由BE_R1_12脱氨酶在DNA底物上的脱氨酶活性产生的频率序列标识图(图38A)和NGS比对序列(图38B)。
图39的示意图显示了附接到T7 RNA聚合酶(T7 RNAP)的碱基编辑器(BE)作为靶向结构域,以在由DNA底物GATTGAATGGTACTGATCAGATCCTCAAGAGTAGCAGT(SEQ ID NO:284)上的T7启动子和终止子定义的窗口内引入多样性,脱氨基为GATTGAATGGTACTGATTAGATTTTTAAGAGTAGCAGT(SEQ ID NO:285)。该图演示了表观遗传测序方法的概念/工作流程。
图40是附接到dCas9结合位点的碱基编辑器(拆分BE41),其中dCas9/gRNA充当双链DNA上T7启动子区下游聚合酶的道路阻断物;拆分BE41的一半显示与T7聚合酶融合,另一半显示为自由浮动的酶。
图41是显示不同形式的拆分脱氨酶的图。
具体实施方式
通过参考以下对具体实施例和其中包括的实例的详细描述以及附图及其之前和之后的描述,可以更容易地理解所披露的方法和组合物。
当前的基因组编辑技术在靶基因座处引入双链(ds)DNA断裂,作为基因校正的第一步。尽管大多数遗传病都是由点突变引起的,但依靠DNA切割然后重组来修复点突变的方法效率低下,并且通常会因细胞对dsDNA断裂的反应而在靶基因座处诱导大量随机插入和缺失(indel)。对于大多数已知的遗传性疾病,需要纠正靶基因座中的点突变,而不是随机破坏基因,才能解决疾病的根本原因。
碱基编辑是一种最新的基因组编辑方法,能够以可编程方式将一个靶DNA碱基直接、不可逆地转换为另一个碱基,无需dsDNA主链切割或供体模板。目前的碱基编辑方法主要利用与RNA指导的DNA结合结构域(例如dCas9或nCas9)融合的ssDNA特异性DNA脱氨酶(例如APOBEC或AID)。指导RNA/Cas9在靶基因座处形成的R环暴露了ssDNA区域,该区域充当ssDNA脱氨酶的底物。使用RNA指导蛋白进行碱基编辑虽然功能强大,但也有其固有的局限性。例如,它不能用于编辑线粒体基因组(或包含叶绿体和质体等基因组的其他膜细胞器),因为目前没有有效的方法将指导RNA或其他核酸递送到线粒体腔。
将ssDNA特异性脱氨酶融合到dsDNA结合结构域(例如锌指和TALE)并没有产生有效的碱基编辑器,主要是因为ssDNA特异性脱氨酶对dsDNA几乎没有活性。为了解决这一限制,我们对生命之树进行了挖掘,并发现了对dsDNA具有活性并能够在各种序列背景中编辑dsDNA的脱氨酶。因此,脱氨酶能够在比以前更广泛的背景中编辑dsDNA,并且与之前表征的脱氨酶相比,脱靶编辑减少。如实例中所示,这些脱氨酶对双链和单链DNA底物有活性,而不是像几乎所有先前表征的脱氨酶(DddA除外)那样仅对单链DNA有活性。
披露了胞嘧啶脱氨酶。还提供了含有与可编程靶向结构域(例如,DNA结合结构域)连接或关联的此类脱氨酶的碱基编辑器。脱氨酶及其碱基编辑器能够精确编辑体外(例如,在试管中)和体内(例如,在活细胞中)的DNA。碱基编辑器可以有效地纠正与人类疾病相关的多种点突变。这种定制设计的碱基编辑器提供了一种通用且有效的方法,将靶向(位点特异性)碱基编辑引入基因组,并使靶向基因校正或基因组编辑成为人类细胞中的可行选择。由于所描述的碱基编辑器仅具有蛋白质性质,并且不需要任何核酸部分(例如指导RNA),因此这些碱基编辑器可以有效地用于将核酸递送至靶DNA位置具有挑战性的情况,诸如编辑线粒体基因组、叶绿体和其他质体。
所披露的方法和组合物的另外优点将部分地在下面的描述中阐述,并且部分地将从描述中理解,或者可以通过所披露的方法和组合物的实践而获知。所披露的方法和组合物的优点将通过所附权利要求中特别指出的要素和组合来实现和获得。应理解,如所声明的前面的大体描述以及以下的详细描述都只是示例性和说明性的,而不限制所要求的发明。
应当理解,所披露的方法和组合物不限于特定的合成方法、特定的分析技术或特定的试剂,除非另有说明,并且因此可以变化。还应当理解,本文使用的术语仅是为了描述具体的实施例的目的,并不旨在是限制性的。
I.定义
术语“脱氨酶”或“脱氨酶结构域”是指催化脱氨基反应的多肽、蛋白质或酶。基于脱氨酶的序列特异性,脱氨酶能够以非靶向方式使DNA中的腺嘌呤(A)或胞嘧啶(C)脱氨基。dsDNA特异性脱氨酶可以对双链DNA进行脱氨基反应,而ssDNA特异性脱氨酶严格作用于作为底物的单链DNA。
术语“碱基编辑器(BE)”是指包含脱氨酶结构域和一个或多个功能结构域的组合物。脱氨酶结构域和一个或多个功能结构域可以通过接头融合或缀合。因此,在一些形式中,碱基编辑器是融合蛋白。碱基编辑器能够对靶核酸(例如DNA或RNA)中的靶核苷酸序列内的碱基(例如A或C)进行修饰。在一些形式中,碱基编辑器能够使核酸(例如双链DNA分子)内的碱基脱氨基。优选地,碱基编辑器能够以靶向方式使DNA中的腺嘌呤(A)或胞嘧啶(C)脱氨基。
术语“接头”是指连接两个分子或部分(例如,融合蛋白的两个结构域,诸如例如腺苷或胞嘧啶脱氨酶结构域和靶向结构域(例如,DNA结合蛋白或结构域))的键(例如,共价键)、化学基团或分子。典型地,接头位于两个基团、分子或其他部分之间或两侧是两个基团、分子或其他部分,并且通过共价键连接每一个,从而连接两者。在一些形式中,接头是一个氨基酸或多个氨基酸(例如,肽)。在一些形式中,接头是有机分子、基团、聚合物或化学部分。
术语“突变”是指导致给定参考序列发生改变的序列变化。突变包括序列(例如核酸或氨基酸序列)内的残基被另一残基取代,或者序列内一个或多个残基的缺失或插入。在一些形式中,通过鉴定原始残基、随后鉴定残基在序列中的位置以及新取代的残基(例如,D10A)的身份来描述突变。在一些形式中,通过鉴定序列内残基的位置、原始残基随后是新取代的残基的身份(例如,5650G>A)来描述突变。突变可能会也可能不会对受试者的可观察特征(表型)产生明显的变化。
术语“靶核酸”是指含有可以被脱氨酶结构域或碱基编辑器识别和/或脱氨基的靶核苷酸序列的核酸分子。靶核酸可以是但不限于活细胞内部或外部的染色体DNA、线粒体DNA、RNA、质粒、表达载体等。
术语“靶核苷酸序列”是指含有比不同核苷酸序列中的核苷酸优先被脱氨酶结构域脱氨基的核苷酸的核苷酸序列。靶核苷酸序列的特定实例可被靶向以进行脱氨基。靶核苷酸序列可包括两个或更多个核苷酸(例如,2、3、4、5、6、7、8、9、10或更多个)。靶核苷酸序列中的两个或更多个核苷酸(称为靶核苷酸)限定了使该靶序列脱氨基的脱氨酶结构域的靶特异性。在一些形式中,靶核苷酸序列中的两个或更多个靶核苷酸各自被单独完全或部分限定并且彼此处于固定的顺序关系。一般而言,“靶核苷酸序列”内的特定核苷酸被脱氨酶结构域脱氨基。例如,在示例性靶核苷酸序列CNAC中,靶核苷酸序列中的最后一个C可以被脱氨酶结构域(例如,胞嘧啶脱氨酶)脱氨基。选择用于脱氨基的该核苷酸可以称为“靶核苷酸”。
术语“碱基编辑器靶序列”是指靶核酸分子内被靶向碱基编辑器识别并结合的序列。一般而言,碱基编辑器靶序列与由靶向碱基编辑器脱氨基的靶核苷酸序列不同和/或不重叠。因此,碱基编辑器靶序列涵盖这样的核酸序列,一旦该核酸序列被靶向碱基编辑器结合,则将靶向碱基编辑器定位在核酸分子中靶核苷酸序列的实例附近。碱基编辑器靶序列和靶核苷酸序列实例的这种共定位有利于靶核苷酸序列实例的优先和特异性脱氨基。通常,与靶向碱基编辑器相关的靶向结构域,例如DNA结合结构域,识别并结合碱基编辑器靶序列。
“对双链DNA的脱氨酶活性”是指脱氨酶对全部包含靶核苷酸序列的一组一个或多个双链DNA区段的脱氨酶活性。对双链DNA的脱氨酶活性不需要辅助因子(例如指导RNA)的活性来解开双链DNA。因此,这种活性与ssDNA特异性脱氨酶(诸如APOBEC和AID)的脱氨酶活性不同,ssDNA特异性脱氨酶只能在存在辅助因子(诸如RNA指导的DNA结合结构域(即dCas9和指导RNA))的情况下才能接近dsDNA并使其脱氨基。
如果核苷酸序列(例如靶核苷酸序列)中的核苷酸必须是一种特定核苷酸(例如,C),则该核苷酸是“完全限定的”。如果核苷酸序列(例如靶核苷酸序列)中的核苷酸可以是两个或更多个特定核苷酸(例如,C或A)但不能是任何核苷酸(即,不能是N),则该核苷酸是“部分限定的”。如果核苷酸序列(例如靶核苷酸序列)中的核苷酸可以是任何核苷酸(即,N),则该核苷酸是“未限定的”。
核苷酸序列中的一组核苷酸“彼此具有固定的顺序关系”是指这样的核苷酸,这些核苷酸相对于核苷酸序列的每个实例,在核苷酸序列上处于相同的顺序并且彼此间隔相同数量的核苷酸。在间隔的情况下,这并不意味着或要求核苷酸序列的给定实例中的核苷酸全部彼此等距间隔(例如,全部彼此之间具有一个核苷酸)。而是,这意味着核苷酸序列的每个实例中的核苷酸具有与核苷酸序列的所有实例中相同的核苷酸间隔。例如,考虑靶核苷酸序列(C/T)NAC。在该核苷酸序列中,第一核苷酸是部分限定的,第二核苷酸是未限定的,而第三和第四核苷酸是完全限定的。因此,这表示包括三种核苷酸的完全或部分限定的核苷酸序列。关于间隔,(C/T)核苷酸与A核苷酸之间有一个核苷酸,与C核苷酸之间有两个核苷酸;A核苷酸与C核苷酸之间没有核苷酸。该相同的间隔将存在于该靶核苷酸序列的每个实例中。关于核苷酸的顺序,(C/T)、A和C将在此靶核苷酸序列的每个实例中以相同的顺序出现。
就多肽而言,“分离的”或“纯化的”是指该多肽在某种程度上与其通常在自然界中发现的细胞组分(例如,其他多肽、脂质、碳水化合物和核酸)分离。纯化的多肽可以在非还原性聚丙烯酰胺凝胶上产生单一主带。纯化的多肽可以是至少约75%纯的(例如,至少80%、85%、90%、95%、97%、98%、99%或100%纯)。纯化的多肽可以通过例如从天然来源提取、通过化学合成或通过在宿主细胞或转基因植物中重组生产来获得,并且可以使用例如亲和色谱、免疫沉淀、尺寸排阻色谱、和离子交换色谱法来纯化。纯化的程度可以使用任何适当的方法来测量,包括但不限于柱色谱法。
“引入”是指建立联系。“接触”或“进行接触”是指允许或促进至少两个元件之间的紧邻或相关联的状态。例如,将碱基编辑器、载体或其他试剂引入细胞是提供细胞与碱基编辑器、载体或药剂之间的接触。该术语涵盖通过任何合适的手段,例如通过转染、电穿孔、转导、基因枪、纳米颗粒递送等以任何合适的配制品将接触的碱基编辑器、载体或药剂渗透到细胞内部。
术语“表达”涵盖由启动子驱动的特定核苷酸序列的转录和/或翻译。“表达载体”或“表达盒”是指含有重组多核苷酸的载体,该重组多核苷酸具有与待表达的核苷酸序列可操作地连接的表达控制序列。表达载体包含足够的用于表达的顺式作用元件;用于表达的其他元件可以由宿主细胞提供或在体外表达系统中提供。表达载体包括本领域已知的所有那些,例如粘粒、质粒(例如,裸露的或包含在脂质体中)、噬菌粒、BAC、YAC和病毒载体(例如,源自慢病毒、逆转录病毒、腺病毒和腺相关病毒的载体),其掺入重组多核苷酸。
术语“可操作地连接”或“操作性地连接”是指元件(例如,调控序列和异源核酸序列)之间的功能性连接,该功能性连接允许它们以其预期的方式发挥作用(例如,导致异源核酸序列的表达)。该术语涵盖将调控区域和待转录的序列定位在核酸中以影响这种序列的转录或翻译。例如,为了使编码序列处于启动子的控制之下,多肽的翻译阅读框的翻译起始位点通常位于启动子下游一个至约五十个核苷酸之间。然而,启动子可位于翻译起始位点上游约5,000个核苷酸处或转录起始位点上游约2,000个核苷酸处。启动子典型地包含至少一个核心(基础)启动子。可操作地连接至蛋白质的细胞器定位序列将指导连接的蛋白质定位于特定的细胞器。
术语“核定位序列”或“NLS”是指例如通过核转运促进肽或蛋白质输入细胞核的氨基酸序列。核定位序列是本领域已知的并且对于技术人员来说是显而易见的。例如,NLS序列描述于国际PCT申请号PCT/EP2000/011690中,对于其披露的示例性核定位序列将其内容通过引用并入本文。
如本文使用的术语“有效量”是指足够引起期望的生物反应的生物活性剂的量。例如,在一些形式中,碱基编辑器的有效量可以指足以诱导靶核苷酸序列编辑的碱基编辑器的量。如本领域技术人员将理解的,药剂(例如,脱氨酶结构域或碱基编辑器)的有效量可以根据各种因素而变化,例如,所期望的生物应答,例如,根据特定的等位基因、基因组或待编辑的靶位点,根据所靶向的细胞或组织,以及根据所使用的药剂。
术语“核酸”和“核酸分子”是指包含核碱基和酸性部分的分子,例如核苷、核苷酸或核苷酸聚合物。通常,聚合核酸,例如包含三个或更多个核苷酸的核酸分子是线性分子,其中相邻的核苷酸通过磷酸二酯键彼此连接。在一些形式中,“核酸”是指单个核酸残基(例如核苷酸和/或核苷)。在一些形式中,“核酸”是指包括三个或更多个单独的核苷酸残基的寡核苷酸链。如本文所用,术语“寡核苷酸”和“多核苷酸”可以互换使用来指核苷酸聚合物(例如,至少三个核苷酸的序列)。核酸涵盖RNA以及单链和/或双链DNA。核酸可以是天然地发生的,例如,在基因组、转录物、mRNA、tRNA、rRNA、siRNA、snRNA、质粒、粘粒、染色体、染色单体、或其他天然存在的核酸分子的背景下。另一方面,核酸分子可以是非天然存在的分子,例如,重组DNA或RNA、人工染色体、工程改造的基因组或其片段、或合成的DNA、RNA、DNA/RNA杂合体、或包括非天然存在的核苷酸或核苷。此外,术语“核酸”、“DNA”、“RNA”和/或类似术语包括核酸类似物,例如,具有除磷酸二酯主链外的类似物。核酸可以从天然来源中纯化,使用重组表达系统产生并任选地纯化,化学合成等。在适当的地方,例如,在化学合成分子的情况下,核酸可包含核苷类似物,例如具有经化学修饰的碱基或糖和主链修饰的类似物。除非另行说明,核酸序列是以5’至3’方向存在的。在一些形式中,核酸是或包含天然核苷(例如腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷);核苷类似物(例如2-氨基腺苷酸、2-硫代胸苷、肌苷、吡咯并-嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷酸、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷、C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷酸、7-去氮杂腺苷、7-去氮杂鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟嘌呤和2-硫代胞苷);化学修饰的碱基;生物修饰的碱基(例如甲基化碱基);插入的碱基;经修饰的糖(例如,2'-氟核糖、核糖、2'-脱氧核糖、阿拉伯糖和己糖);和/或经修饰的磷酸基团(例如,硫代磷酸酯和5'-N-亚磷酰胺连接)。
术语“肽”是指由化学键合在一起的氨基酸组成的一类化合物。一般来说,氨基酸通过酰胺连接(CONH)以化学方式结合在一起;然而,氨基酸可以通过本领域已知的其他化学键结合在一起。例如,氨基酸可以通过胺连接而结合。本文使用的肽包括氨基酸寡聚物以及小肽和大肽,包括多肽。因此,术语“蛋白质”、“肽”和“多肽”在本文中可互换使用。蛋白质、肽或多肽可以具有任何大小、结构或功能。蛋白质、肽或多肽还可以是单分子或可以是多分子复合物。蛋白、肽或多肽可以是天然存在的蛋白或肽的片段。蛋白、肽或多肽可以是天然存在的、重组的、或合成的或这些的任意组合。
术语“序列同一性百分比(%)”描述了在比对序列以及必要时引入缺口以获得最大序列同一性百分比之后,候选序列中与参考核酸序列中的核苷酸或氨基酸相同的核苷酸或氨基酸的百分比。用于确定序列同一性百分比的比对可以以本领域技术范围内的各种方式实现,例如,使用公开可获得的计算机软件,如BLAST、BLAST-2、ALIGN、ALIGN-2或Megalign(DNASTAR)软件。用于测量比对的适当参数,包括在被比较的序列的全长上实现最大比对所需的任何算法,可以通过已知的方法来确定。
“同一性”可以很容易地通过已知方法计算,包括但不限于以下中描述的那些:Computational Molecular Biology[计算分子生物学],Lesk,A.M.,编辑,牛津大学出版社,纽约,1988;Biocomputing:Informatics and Genome Projects[生物计算:信息学和基因组项目],Smith,D.W.,编辑,Academic Press[学术出版社],纽约,1993;ComputerAnalysis of Sequence Data[序列数据的计算机分析],第I部分,Griffin,A.M.,和Griffin,H.G.,编辑,Humana Press[胡玛纳出版社],新泽西州,1994;Sequence Analysisin Molecular Biology[分子生物学的序列分析],von Heinje,G.,Academic Press[学术出版社],1987;和Sequence Analysis Primer[序列分析引物],Gribskov,M.和Devereux,J.,编辑,M.Stockton Press[斯托克顿出版社],纽约,1991;以及Carillo,H.,和Lipman,D.,SIAM J Applied Math.[应用数学杂志]48:1073(1988)。设计了用于确定同一性的优选方法,以得到测试序列之间的最大匹配。用于确定同一性和相似性的方法被编入可公开获得的计算机程序中。两个序列之间的同一性百分比可以通过使用分析软件(即,威斯康星州麦迪逊市遗传学计算机组的序列分析软件包)来确定,该分析软件结合了Needelman和Wunsch(J.Mol.Biol.[分子生物学杂志],48:443-453,1970)算法(例如,NBLAST和XBLAST)。在一些形式中,默认参数可用于确定本披露的多核苷酸或多肽的同一性。
在一些形式中,给定核酸或氨基酸序列C相对于给定核酸或氨基酸序列D的序列同一性%(其可以可替代地表述为给定序列C与、跟或针对给定序列D具有或包含一定序列同一性%)计算如下:
100乘以分数W/Z,
其中W是由序列比对程序在所述程序对C和D的比对中评分为相同匹配的核苷酸或氨基酸的数量,而其中Z是D中核苷酸或氨基酸的总数。应当理解,当序列C的长度不等于序列D的长度时,C与D的序列同一性%将不等于D与C的序列同一性%。
如本文所用,术语“受试者”是指任何个体、生物体或实体。受试者可以是脊椎动物,例如哺乳动物。因此,受试者可以是人或动物,例如小鼠、大鼠、兔、山羊、猪、线虫、黑猩猩或马。该术语不指示具体的年龄或性别。因此,预期涵盖成人和新生的受试者以及胎儿,无论雄性或雌性。受试者可以是健康的或患有或易患疾病、障碍或病症。患者是指患有疾病或障碍的受试者。术语“患者”包括人和兽医学的受试者。
除非本文另有说明,否则本文对值的范围的叙述仅旨在用作单独提及落入该范围内的每个单独值的简写方法,并且每个单独值被并入说明书中,就如同在本文单独地陈述该值一般。
当在核酸序列标识图的背景中使用时,术语“位”是对应于给定核酸序列标识图内的核酸的字母的高度的量度。核酸序列标识图包括对应于序列内每个位置处的核酸的堆叠字母。字母的相对大小表示对应的一个或多个核酸在大量比对的核酸序列中的频率。字母的总高度描述了该位置的信息内容,以位(bit)为单位。
术语“约”的使用旨在描述在大约+/-10%的范围内高于或低于所述值的值;在其他形式中,值的范围可以在大约+/-5%的范围内高于或低于所述值内;在其他形式中,值的范围可以在大约+/-2%的范围内高于或低于所述值内;在其他形式中,值的范围可以在大约+/-1%的范围内高于或低于所述值内。上述范围旨在根据上下文确定,并且未隐含进一步限制。
II.组合物
披露了用于靶向和编辑核酸的试剂和组合物。此类试剂和组合物包括能够使单链和/或双链DNA中的靶核苷酸脱氨基的胞嘧啶脱氨酶结构域。还披露了非天然存在的或工程改造的DNA碱基编辑器,其含有此类脱氨酶结构域与一个或多个靶向结构域(例如Cas9、Cpf1、ZF、TALE)的组合,靶向结构域识别和/或结合特定的靶序列。这些碱基编辑器有助于对细胞或受试者基因组内,例如人线粒体基因组内的靶位点进行特异性和有效的编辑,且脱靶效应低。
描述了包含一个或多个功能性脱氨酶蛋白的组合物,所述功能性脱氨酶蛋白是具有双链DNA脱氨酶活性的非天然存在的多肽。一般而言,组合物包含一个或多个赋予双链DNA脱氨酶活性的最小结构域。示例性蛋白质结构域对应于SEQ ID NO:1-16、18-19或40-67中任一个的氨基酸序列,或与SEQ ID NO:1-16、18-19或40-67中任一个具有至少90%序列同一性的氨基酸序列的相应区域。
在一些形式中,组合物包含功能性双链DNA脱氨酶蛋白的非天然存在的多肽片段,其通过在功能性脱氨酶结构域内的切割位点处切割脱氨酶蛋白而获得。例如,在一些形式中,该片段对应于N末端片段,其中该片段包括切割的功能性脱氨酶结构域的N末端部分。在其他形式中,该片段对应于C末端片段,其中该片段包括切割的功能性脱氨酶结构域的C末端部分。当N末端片段与C末端片段共定位时,或当C末端片段与N末端片段共定位时,脱氨酶活性恢复。
还描述了碱基编辑器,其包括具有第一和第二单体的异二聚体,第一单体包括第一可编程DNA结合蛋白和切割的双链DNA脱氨酶的N末端或C末端片段,并且第二单体包括第二可编程DNA结合蛋白和切割的双链DNA脱氨酶的N末端或C末端片段。通常,第一和第二单体的二聚化重建功能性双链DNA脱氨酶蛋白质和功能性双链DNA脱氨酶活性。在一些形式中,第一和/或第二可编程DNA结合蛋白是相同的。在其他形式中,第一和/或第二可编程DNA结合蛋白是不同的。示例性的第一和/或第二可编程DNA结合蛋白包括Cas结构域(例如,Cas9)、切口酶、锌指蛋白、TALE蛋白和TALE样蛋白。因此,在一些形式中,碱基编辑器包括具有第一和第二单体的异二聚体,第一单体包括:Cas结构域、切口酶、锌指蛋白或TALE蛋白;和切割的双链DNA脱氨酶的N末端或C末端片段,并且第二单体包括:Cas结构域、切口酶、锌指蛋白或TALE蛋白;和第二可编程DNA结合蛋白和切割的双链DNA脱氨酶的N末端或C末端片段,由此第一和第二单体的二聚化重建双链DNA脱氨酶活性。示例性的Cas结构域包括Cas9、Casl2e、Casl2d、Casl2a、Casl2bl、Cas13a、Casl2c和Argonaute。
在一些形式中,碱基编辑器包括接头。根据设计参数,接头可以是刚性的或柔性的,以适应更高的效率或扩大或缩小的活性窗口。例如,在一些形式中,第一单体包括将第一可编程DNA结合蛋白与切割的双链DNA脱氨酶的N末端或C末端片段连接的接头。在一些形式中,第二单体包括将第一可编程DNA结合蛋白与切割的双链DNA脱氨酶的N末端或C末端片段连接的接头。示例性接头包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个氨基酸。优选的接头包括2-10个氨基酸。
在一些形式中,碱基编辑器包括一个或多个尿嘧啶糖基化酶抑制剂(UGI)结构域和/或一个或多个靶向序列。示例性靶向序列包括核定位序列(NLS)、线粒体靶向序列(MTS)。示例性MTS序列包括SOD2序列和COX8序列。
因此,在某些形式中,碱基编辑器包括具有以下结构之一的第一和/或第二单体:
[A]-[可编程DNA结合蛋白]-[切割的双链DNA脱氨酶的N末端或C末端片段]-[B];或
[A]-[切割的双链DNA脱氨酶的N末端或C末端片段][可编程DNA结合蛋白]-[B],
其中“[A]”和/或“[B]”代表任选的一个或多个另外的功能结构域并且其中“]-[”是任选的接头。
在示例性形式中,碱基编辑器具有以下结构:
[SOD2]-[UGI](1-2)-[mitoTALE]-[切割的双链DNA脱氨酶的N末端或C末端片段]-[UGI](1-2)。
在一些形式中,第一单体和第二单体分别结合至靶位点任一侧的第一核苷酸序列和第二核苷酸序列。示例性靶位点包括被碱基编辑器脱氨基的靶碱基。在一些形式中,靶碱基是C。例如,在一些形式中,C在5'-TC-3'序列背景内。在其他形式中,C在5'-TCC-3'序列背景内。通常,核苷酸序列各自与被碱基编辑器脱氨基的靶碱基位于同一链上。在特定形式中,第一和第二核苷酸序列各自与包含被碱基编辑器脱氨基的靶碱基的链位于相同的链上。在另一种形式中,第一和第二核苷酸序列各自与包含被碱基编辑器脱氨基的靶碱基的链位于相对的链上。在一些形式中,第一和第二核苷酸序列位于相对的链上。还描述了包括一个或多个指导RNA的碱基编辑器。例如,在一些形式中,第一和/或第二可编程DNA结合蛋白是核酸可编程DNA结合蛋白,并且一个或多个指导RNA引导碱基编辑器在靶位点处结合第一或第二核苷酸序列。还描述了编码碱基编辑器的第一或第二单体的分离的核酸。还描述了包含编码碱基编辑器的第一或第二单体的分离的核酸的载体。还描述了包含载体的细胞,这些载体包含编码碱基编辑器的第一或第二单体的分离的核酸。
A.脱氨酶结构域
披露了脱氨酶、脱氨酶结构域和包括此类脱氨酶结构域的多肽。“脱氨酶”或“脱氨酶结构域”是指催化脱氨基反应的多肽、蛋白质或酶。脱氨反应包括但不限于从分子例如含氮碱基(例如胞嘧啶、腺嘌呤)去除氨基。在一些形式中,含氮碱基是核苷、核苷酸或核酸的一部分。因此,所披露的脱氨酶可以催化游离碱基、游离核苷、游离核苷酸和/或多核苷酸的脱氨基作用。在一些形式中,脱氨酶结构域能够使核糖核酸(RNA)或脱氧核糖核酸(DNA)底物中的含氮碱基脱氨基。在一些形式中,脱氨酶结构域催化RNA和DNA两者的脱氨基。RNA或DNA底物可以是单链(ss)或双链(ds)。在一些形式中,脱氨酶结构域催化ssDNA或dsDNA的脱氨基。在一些形式中,脱氨酶结构域催化ssDNA和dsDNA两者的脱氨基。
本文提供的脱氨酶结构域可以衍生自任何生物体。因此,脱氨酶结构域可以来自原核生物或真核生物。在一些形式中,脱氨酶是脊椎动物脱氨酶或无脊椎动物脱氨酶。在一些形式中,脱氨酶结构域是人、黑猩猩、大猩猩、猴、牛、狗、大鼠、小鼠、鱼、苍蝇、蠕虫、真菌、细菌、病毒或噬菌体脱氨酶结构域。
在优选的形式中,脱氨酶结构域可能衍生自的生物包括但不限于斯蒂氏斯凯尔曼菌(Skermanella stibiiresistens)、斑点猴面花(Erythranthe guttata)、甜橙(Citrussinensis)、大庆食烃菌(Hydrocarboniphaga daqingensis)、Tieghemostelium lacteum、寄生水霉(Saprolegnia parasitica)、Vitrella brassicaformis、婴儿利什曼虫(Leishmania infantum)、米氏西蒙斯氏菌(Simonsiella muelleri)、梭菌目细菌(Clostridiales bacterium)、拟孢囊菌(Kibdelosporangium aridum)、Desmosporaactiva、淋病奈瑟氏菌(Neisseria gonorrhoeae)、阿氏芽孢杆菌(Bacillus asahii)、Saezia sanguinis、炭疽芽孢杆菌(Bacillus anthracis)、毛喉梭状芽胞杆菌(Hungateiclostridiumclariflavum)、瘤胃球菌属物种(Ruminococcus sp.)CAG:563、双孢梭菌(Clostridium disporicum)、橘色梅泽氏菌(Umezawaea tangerina)、Conchiformibius steedae、天蓝色链霉菌(Streptomyces coelicolor)、链霉菌科(Streptomycetaceae)细菌MP113-05、疣孢菌属物种(Verrucosispora sp)LHW63014、产气弧菌(Vibrio aerogenes)、尖孢镰孢菌(Fusarium oxysporum)、长孢轮枝菌(Verticilliumlongisporum)、藏红花软骨霉状菌(Chondromyces crocatus)、金色链霉菌(Kitasatosporaaureofaciens)、Colletotrichum orchidophilum、茄子野野村氏菌(Nonomuraea solani)、海绵海水杆菌(Aquimarina spongiae)、奥氏更格卢鼠(Dipodomys ordii)、斑尾鸽(Patagioenas fasciata monilis)、Streptomyces phaeoluteigriseus、斑点叉尾鮰(Ictalurus punctatus)、卡西科拉棒孢霉(Corynespora cassiicola)、平胸龟(Platysternon megacephalum)、链霉菌属物种(Streptomyces sp.)AC1-42W、Gimesiamaris、荚壳伯克霍尔德菌(Burkholderia glumae)、多瓣中草菌(Nakamurellamultipartita)、Stackebrandtia nassauensis、刚毛北里孢菌(Kitasatospora setae)、白曲霉(Aspergillus kawachii)、肿痂链霉菌(Streptomyces turgidiscabies)、绿蜥蜴(Anolis carolinensis)、深红沙雷氏菌(Serratia rubidaea)、Ruminiclostridiumcellulolyticum、Alloactinosynnema iranicum、劳蒙光杆状菌(Photorhabduslaumondii)、大肠杆菌(Escherichia coli)、金黄色葡萄球菌(Staphylococcus aureus)、伤寒沙门氏菌(Salmonella typhi)、腐败希瓦氏菌(Shewanella putrefaciens)、流感嗜血杆菌(Haemophilus influenzae)、新月柄杆菌(Caulobacter crescentus)、枯草芽孢杆菌(Bacillus subtilis)、和秀丽隐杆线虫(Caenorhabditis elegans)
在一些形式中,脱氨酶结构域可能衍生自的生物包括但不限于斯科曼氏球菌属物种(Skermanella sp.)、沟酸浆属物种(Erythranthe sp.)、柑橘属物种(Citrus sp.)、食烃菌属物种(Hydrocarboniphaga sp.)、Tieghemostelium sp.、水霉属物种(Saprolegniasp.)、Vitrella sp.、利什曼原虫属物种(Leishmaniasp.)、西蒙斯氏菌属物种(Simonsiella sp.)、梭菌目物种(Clostridiales sp.)、拟孢囊菌属物种(Kibdelosporangium sp.)、链孢子菌属物种(Desmospora sp.)、奈瑟氏菌属物种(Neisseria sp.)、芽孢杆菌属物种(Bacillus sp.)、Saezia sp.、芽孢杆菌属物种(Bacillus sp.)、Hungateiclostridium sp.、瘤胃球菌属物种(Ruminococcus sp.)、梭菌属物种(Clostridium sp.)、梅泽宾夫氏菌属物种(Umezawaea sp.)、Conchiformibiussp.、链霉菌属物种(Streptomyces sp.)、Streptomycetaceae物种(Streptomycetaceaesp.)、疣孢菌属物种(Verrucosisporasp.)、弧菌属物种(Vibrio sp.)、镰刀菌属物种(Fusarium sp.)、轮枝孢属物种(Verticillium sp.)、软骨霉状菌属物种(Chondromycessp.)、北里孢菌属物种(Kitasatospora sp.)、刺盘孢属物种(Colletotrichum sp.)、野野村菌属物种(Nonomuraea sp.)、海水杆菌属物种(Aquimarina sp.)、更格卢鼠属物种(Dipodomys sp.)、美洲鸽属物种(Patagioenas sp.)、真鮰属物种(Ictalurussp.)、棒孢属物种(Corynespora sp.)、平胸龟属物种(Platysternon sp.)、链霉菌属物种(Streptomyces sp.)、Gimesia sp.、伯克霍尔德菌属物种(Burkholderia sp.)、中村氏菌科物种(Nakamurella sp.)、斯塔堪布瑞德氏菌属物种(Stackebrandtia sp.)、北里孢菌属物种(Kitasatospora sp.)、曲霉属物种(Aspergillus sp.)、安乐蜥属物种(Anolis sp.)、沙雷氏菌属物种(Serratiasp.)、瘤胃梭菌属物种(Ruminiclostridium sp.)、Alloactinosynnema sp.、光杆状菌属物种(Photorhabdus sp.)、大肠杆菌属物种(Escherichia sp.)、葡萄球菌属物种(Staphylococcus sp.)、沙门氏菌属物种(Salmonella sp.)、希瓦氏菌属物种(Shewanella sp.)、嗜血杆菌属物种(Haemophilussp.)、柄杆菌属物种(Caulobacter sp.)、芽孢杆菌属物种(Bacillus sp.)、和隐杆线虫属物种(Caenorhabditis sp.)。
披露的脱氨酶或脱氨酶结构域可以属于任何已知的脱氨酶族或家族。参见,例如,Iyer LM等人,Nucleic Acids Res.[核酸研究],39(22):9473-97(2011),其通过引用以其全文并入本文。示例性脱氨酶族包括但不限于CDD/CDA胞苷脱氨酶、杀稻瘟菌素S-脱氨酶(BSD)、植物Des/Cda、LmjF36.5940样、PITG_06599样、DYW样、BURPS668_1122、Pput_2613、SCP1.201、YwqJ、MafB19、TadA-Tad2(ADAT2)、Bd3614、Tad1、RibD样(二氨基-羟基-磷酸核糖基氨基嘧啶脱氨酶)、鸟嘌呤脱氨酶、dCMP脱氨酶和ComE、AID/APOBEC、ZK287.1、B3gp45、XOO_2897和OTT_1508(参见Iyer LM等人的表1)。在优选的形式中,脱氨酶或脱氨酶结构域衍生自胞苷脱氨酶样(CDA)、MafB19样脱氨酶、SCP1201-deam、SNAD1、SNAD2、SNAD4、CMP/dCMP、Pput2613-deam、LmjF365940-deam、LoxI_N、DAAD、DYW、YwqJ-脱氨酶或SUKH-4家族。
CDA家族含有游离核苷酸和核酸脱氨酶(其作用于腺苷、胞嘧啶、鸟嘌呤和胞苷)并且统称为脱氨酶超家族。保守折叠由三层α/β/α结构组成,具有3个螺旋和4个链,按2134的顺序(Liaw SH等人,J Biol Chem.[生物化学杂志],279:35479-35485(2004);Iyer LM等人,Nucleic Acids Res.[核酸研究],39(22):9473-97(2011))。基于螺旋(螺旋-4)的存在,该超家族进一步分为两个主要部分,螺旋(螺旋-4)使末端链(链4和5)在其存在时彼此平行,或在其不存在时反平行。脱氨酶的活性位点由三个残基组成,这些残基在保守螺旋2和3之间配位锌离子。这些残基通常作为[HCD]xE和CxxC基序出现在螺旋2和3的开头。锌离子激活水分子,水分子与连接胺基的碳原子形成四面体中间体。随后进行碱基的脱氨基。MafB19样脱氨酶家族是以奈瑟氏球菌属MafB19为原型的核酸/核苷酸脱氨酶超家族的成员。该家族的成员存在于多种细菌种类中,预计在细菌多态性毒素系统中充当毒素。SCP1.201样脱氨酶是以链霉菌属SCP1.201为原型的核酸/核苷酸脱氨酶超家族的成员。该家族的成员预计在细菌多态性毒素系统中充当毒素。
脱氨酶或脱氨酶结构域可以是来自生物体(包括任何前述生物体,例如细菌)的天然存在的脱氨酶的变体。在一些形式中,脱氨酶或脱氨酶结构域在自然界中并不存在。例如,在一些形式中,脱氨酶或脱氨酶结构域显示出与天然存在的脱氨酶结构域具有至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的序列同一性。
脱氨酶或脱氨酶结构域的大小可以变化。在一些形式中,脱氨酶或脱氨酶结构域的长度是约50-250、50-200、50-150、50-100、100-250、100-200、100-150、100-120、120-160、120-140、140-160、150-250、150-200、200-250或200-220个氨基酸。在一些形式中,脱氨酶或脱氨酶结构域的长度是约40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240或250个氨基酸。
在一些形式中,所披露的脱氨酶或脱氨酶结构域可以拆分成两个或更多个(例如,2、3、4或5个)不同的部分。在此类形式中,拆分脱氨酶结构域仅当子组分组合(例如共表达或共引入)和/或接近在一起(例如通过DNA靶向结构域)时才能够使底物脱氨基。例如,实例1证明单个脱氨酶结构域可以分成N末端和C末端部分,其在组合后表现出脱氨酶活性。本领域普通技术人员将理解,脱氨酶结构域可在不同位置处拆分,并且将能够确定单个脱氨酶结构域应在何处拆分,以便在其互补组分组合后保留脱氨酶活性。
在一些形式中,脱氨酶结构域是胞嘧啶脱氨酶(本文也称为胞苷脱氨酶),其催化胞苷或胞嘧啶的水解脱氨基。在一些形式中,胞嘧啶脱氨酶分别催化胞苷或脱氧胞苷水解脱氨基为尿苷或脱氧尿苷。在一些形式中,胞嘧啶脱氨酶结构域催化胞嘧啶水解脱氨基为尿嘧啶。
在一些形式中,脱氨酶结构域是腺苷脱氨酶(本文也称为腺嘌呤脱氨酶),其催化腺嘌呤或腺苷的水解脱氨基。在一些形式中,腺苷脱氨酶催化腺苷或脱氧腺苷分别水解脱氨基为肌苷或脱氧肌苷。
在特定形式中,披露了分离的脱氨酶结构域,其中脱氨酶结构域可以使双链DNA脱氨基。与脱氨酶结构域对不含靶核苷酸序列的双链DNA的脱氨酶活性相比,脱氨酶结构域对含有靶核苷酸序列的双链DNA可具有更大的脱氨酶活性。优选地,靶核苷酸序列含有两个或更多个(例如,2、3、4、5、6、7、8、9、10或更多个)靶核苷酸,其中靶核苷酸各自被单独完全或部分限定并且彼此处于固定的顺序关系。在一些形式中,靶核苷酸序列包括三个或更多个靶核苷酸。在一些形式中,靶核苷酸序列包括四个或更多个靶核苷酸。在一些形式中,靶核苷酸序列包括五个或更多个靶核苷酸。在这种形式中,靶核苷酸各自单独地被完全或部分地定义并且彼此处于固定的顺序关系。优选地,脱氨酶结构域不是来自新洋葱伯克霍尔德菌(Burkholderia cenocepacia)的DddA的脱氨酶结构域(参见Mok BY.等人,Nature[自然],583(7817):631-637(2020))。
脱氨酶结构域可以在含有靶核苷酸序列的核酸底物(例如,ssDNA、dsDNA、RNA)脱氨基方面表现出一系列编辑效率。在一些形式中,含有靶核苷酸的核酸底物的编辑效率是至少1%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、或至少95%。在一些形式中,含有靶核苷酸的核酸底物的编辑效率为至少1%。在一些形式中,含有靶核苷酸的核酸底物的编辑效率为至少10%。在一些形式中,含有靶核苷酸的核酸底物的编辑效率为至少25%。在一些形式中,含有靶核苷酸的核酸底物的编辑效率为至少50%。
在一些形式中,被脱氨酶结构域识别和/或脱氨基的靶核苷酸序列可以表示为序列标识图。序列标识图是氨基酸或核酸多序列比对的图形表示。参见例如图4A-4C。每个标识图都包含符号堆叠,序列中的每个位置有一个符号堆叠。堆叠的总高度表示该位置处的序列保守性,而堆叠内符号的高度表示该位置处每个氨基酸或核酸的相对频率。在每个堆叠中,字符按其相对频率排序,堆叠的总高度由位置的信息内容(以位为单位)确定(参见see Dey,KK.等人,BMC Bioinformatics.[BMC生物信息学]19,473(2018);Schneider TD.等人,Nucleic Acids Res.[核酸研究],18(20):6097-100(1990))。
靶核苷酸可以各自表现出由在定义的编辑阈值处的脱氨酶概率序列标识图定义的背景特异性。紧邻靶核苷酸之前的残基是最重要的特异性定义残基,因此有意义的特异性是ACN、CCN、GCN、TCN。这种特异性对于减少脱靶编辑很有用。但广泛的特异性脱氨酶允许编辑更广泛的靶标,并且脱靶编辑可能受到本文描述的其他特征和设计的限制。
作为脱氨酶特异性的实例,BE_11_R1可以以几乎相同的概率编辑所有TC、AC和CC背景,但它对GC背景活性较低。对于相同的脱氨酶,靶核苷酸之后的位置可以是几乎相同概率的任何核苷酸。因此,基于图4中显示的标识图,BE_R1_11的优选(最有可能)位点是TCA,但其他位点也很可能。对于像BE_R2_17这样的窄特异性脱氨酶,最可能(观察到的)编辑位点是TCT、TCG和TCA(这意味着,在我们的底物中所有64种可能的3核苷酸组合中,这3种组合是被这种脱氨酶编辑的主要组合,效率至少为50%)。
本领域普通技术人员可以容易地确定用于衍生任何披露的脱氨酶结构域的序列标识图的适当方法。实例1中描述了非限制性实例。简而言之,在一些形式中,目的脱氨酶结构域可以与不同的核酸底物(即具有不同的序列)一起孵育,所述底物含有不同序列背景中的靶核苷酸(例如,胞嘧啶脱氨酶结构域的情况下为C,腺苷脱氨酶结构域的情况下为A)。然后对底物进行测序。然后鉴定由靶核苷酸编辑(脱氨基)产生的序列变体,并且可以从这些序列变体的多重序列比对生成序列标识图。本领域中有多种工具可用于生成序列标识图。非限制性实例包括Seq2Logo(网站cbs.dtu.dk/biotools/Seq2Logo/)、WebLogo(互联网网站weblogo.berkeley.edu/logo.cgi)和Weblogo(Crooks GE等人,Genome Research[基因组研究],14:1188-1190(2004))。在一些形式中,可以针对不同水平的编辑(脱氨基)效率(例如1%、10%、25%或50%)确定序列标识图(参见例如图4A-4C)。
因此,在一些形式中,所披露的脱氨酶结构域对含有表示为序列标识图的靶核苷酸序列的核酸底物具有脱氨酶活性。在一些形式中,靶核苷酸序列(序列标识图)中的靶核苷酸各自表现出约0.1至2.0位(包括端值)。例如,在一些形式中,靶核苷酸序列(序列标识图)中的靶核苷酸各自表现出约0.1、约0.2、约0.25、约0.3、约0.4、约0.5、约0.6、约0.7、约0.75、约0.8、约0.9、约1.0、约1.1、约1.2、约1.25、约1.3、约1.4、约1.5、约1.6、约1.7、约1.75、约1.8、约1.9或约2.0位。
在一些形式中,当靶核苷酸序列的约1%至约90%被编辑时,靶核苷酸序列(序列标识图)中的靶核苷酸各自表现出约0.1至约2.0位。例如,在一些形式中,当靶核苷酸序列的1%或更多被编辑时,靶核苷酸各自表现出至少0.1位。在一些形式中,当靶核苷酸序列的10%或更多被编辑时,靶核苷酸各自表现出至少0.1位。在一些形式中,当靶核苷酸序列的25%或更多被编辑时,靶核苷酸各自表现出至少0.1位。在一些形式中,当靶核苷酸序列的50%或更多被编辑时,靶核苷酸各自表现出至少0.1位。
在一些形式中,当靶核苷酸序列的1%或更多被编辑时,靶核苷酸各自表现出至少0.25位。在一些形式中,当靶核苷酸序列的10%或更多被编辑时,靶核苷酸各自表现出至少0.25位。在一些形式中,当靶核苷酸序列的25%或更多被编辑时,靶核苷酸各自表现出至少0.25位。在一些形式中,当靶核苷酸序列的50%或更多被编辑时,靶核苷酸各自表现出至少0.25位。在一些形式中,当靶核苷酸序列的1%或更多被编辑时,靶核苷酸各自表现出至少0.5位。在一些形式中,当靶核苷酸序列的10%或更多被编辑时,靶核苷酸各自表现出至少0.5位。在一些形式中,当靶核苷酸序列的25%或更多被编辑时,靶核苷酸各自表现出至少0.5位。在一些形式中,当靶核苷酸序列的50%或更多被编辑时,靶核苷酸各自表现出至少0.5位。
在特定形式中,分离的脱氨酶结构域可以使含有胞嘧啶的核苷酸脱氨基(称为胞嘧啶脱氨酶)。可以通过胞嘧啶脱氨酶脱氨基的示例性靶核苷酸序列包括但不限于AC、CC、GC和TC。在一些形式中,可以被胞嘧啶脱氨酶脱氨基的靶核苷酸序列包括但不限于Ac、Cc、Gc和Tc,其中N独立地代表任何核苷酸,并且被脱氨基的含有胞嘧啶的核苷酸是小写的。
1.示例性胞嘧啶脱氨酶结构域
在各种形式中,dsDNA碱基编辑器或包含
dsDNA碱基编辑器的多肽(例如,DNAbp和CDA)可被工程改造以包括胞嘧啶脱氨酶(CDA)或其无活性或截短的片段。下面提供了可以根据所披露的组合物和方法使用的示例性胞嘧啶脱氨酶的氨基酸序列。
在各种形式中,CDA蛋白是BE11(Uniprot ID NO.:A0A1Y5Y1M1_KIBAR的组分),具有以下氨基酸序列:
或与SEQ ID NO:1的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在各种形式中,CDA蛋白是BE12(Uniprot ID NO.:A0A2T4Z6L8_9BACL的组分),具有以下氨基酸序列:
或与SEQ ID NO:2的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在各种形式中,CDA蛋白是BE28(Uniprot ID NO.:A0A0K1EKV1_CHOCO的组分),具有以下氨基酸序列:
或与SEQ ID NO:3的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在各种形式中,CDA蛋白是BE_R1_41(Uniprot ID NO.:C5ALM7_BURGB的组分),具有以下氨基酸序列:
或与SEQ ID NO:4的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R2_7(Uniprot ID NO.:A0A1U7ISE2_9CYAN的组分),具有以下氨基酸序列:
或与SEQ ID NO:8的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R2_11(Uniprot ID NO.:A0A2T4Z7P2_9BACL的组分),具有以下氨基酸序列:
或与SEQ ID NO:9的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R2_17(Uniprot ID NO.:D2ZY33_NEIMU的组分),具有以下氨基酸序列:
或与SEQ ID NO:10的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R2_18(Uniprot ID NO.:A0A0A8K6F0_9RHIZ的组分),具有以下氨基酸序列:
或与SEQ ID NO:11的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R2_29(Uniprot ID NO.:D2QYF9_PIRSD的组分),具有以下氨基酸序列:
或与SEQ ID NO:14的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R2_31(Uniprot ID NO.:G8SI56_ACTS5的组分),具有以下氨基酸序列:
或与SEQ ID NO:15的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R2_48(Uniprot ID NO.:A0A2T4Z6L8_9BACL的组分),具有以下氨基酸序列:
或与SEQ ID NO:16的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R1_10(Uniprot ID NO.:A0A3P2ALZ1_9FIRM的组分),具有以下氨基酸序列:
或与SEQ ID NO:40的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R1_15(Uniprot ID NO.:A0A433SEU4_9BURK的组分),具有以下氨基酸序列:
或与SEQ ID NO:41的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R1_21(Uniprot ID NO.:A0A3P2A0L6_9NEIS的组分),具有以下氨基酸序列:
或与SEQ ID NO:42的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R2_1(Uniprot ID NO.:A0A0F6W299_9DELT的组分),具有以下氨基酸序列:
或与SEQ ID NO:43的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R2_3(Uniprot ID NO.:A0A0N9HXW6_9PSEU的组分),具有以下氨基酸序列:
或与SEQ ID NO:44的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R2_19(Uniprot ID NO.:A0A1I4B7X1_9PSEU的组分),具有以下氨基酸序列:
或与SEQ ID NO:45的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R2_20(Uniprot ID NO.:A0A1M7DT37_9FIRM的组分),具有以下氨基酸序列:
或与SEQ ID NO:46的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R2_21(Uniprot ID NO.:A0A1N6MQY7_9GAMM的组分),具有以下氨基酸序列:
或与SEQ ID NO:47的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R2_28(Uniprot ID NO.:B9JGM2_AGRRK的组分),具有以下氨基酸序列:
或与SEQ ID NO:48的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_4(Uniprot ID NO.:B9JGM2_AGRRK的组分),具有以下氨基酸序列:
或与SEQ ID NO:40的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_6(Uniprot ID NO.:A0A7G9FZY2_9FIRM的组分),具有以下氨基酸序列:
或与SEQ ID NO:50的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_7(Uniprot ID NO.:A0A7X7XYI6_CLOSP的片段),具有以下氨基酸序列:
或与SEQ ID NO:51的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_10(Uniprot ID NO.:MBR1615955.1的组分),具有以下氨基酸序列:
或与SEQ ID NO:52的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_12(Uniprot ID NO.:MGYP000605828529的组分),具有以下氨基酸序列:
或与SEQ ID NO:53的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_13(Uniprot ID NO.:WP_021798742的组分),具有以下氨基酸序列:
或与SEQ ID NO:54的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_14(Uniprot ID NO.:WP_059988487的组分),具有以下氨基酸序列:
或与SEQ ID NO:55的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_15(Uniprot ID NO.:WP_082507154的组分),具有以下氨基酸序列:
或与SEQ ID NO:56的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_16(Uniprot ID NO.:WP_112210906的组分),具有以下氨基酸序列:
或与SEQ ID NO:57的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_17(Uniprot ID NO.:WP_133186147的组分),具有以下氨基酸序列:
或与SEQ ID NO:58的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_18(Uniprot ID NO.:WP_157869269的组分),具有以下氨基酸序列:
或与SEQ ID NO:59的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_19(Uniprot ID NO.:WP_165946289的组分),具有以下氨基酸序列:
或与SEQ ID NO:60的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_20(Uniprot ID NO.:WP_174422267的组分),具有以下氨基酸序列:
或与SEQ ID NO:61的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_21(Uniprot ID NO.:WP_189594293的组分),具有以下氨基酸序列:
或与SEQ ID NO:62的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_22(Uniprot ID NO.:MGYP000498443267的组分),具有以下氨基酸序列:
或与SEQ ID NO:63的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_23(Uniprot ID NO.:WP_195441564的组分),具有以下氨基酸序列:
或与SEQ ID NO:64的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_24(Uniprot ID NO.:WP_211232061的组分),具有以下氨基酸序列:
或与SEQ ID NO:65的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_25(Uniprot ID NO.:MGYP000402883179的组分),具有以下氨基酸序列:
或与SEQ ID NO:66的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是BE_R4_26(Uniprot ID NO.:MGYP000186340475的组分),具有以下氨基酸序列:
或与SEQ ID NO:67的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
在一些形式中,CDA蛋白是以下氨基酸序列的一个或多个片段:
或与SEQ ID NO:68的CDA具有至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性的氨基酸序列,或其片段。
MafB19脱氨酶结构域
在一些形式中,脱氨酶结构域是MafB19脱氨酶结构域。MafB19脱氨酶家族活性和非活性成员的序列比对用于鉴定MafB19脱氨酶家族中dsDNA特异性脱氨酶的特征基序。MafB19脱氨酶家族中的dsDNA特异性CDA中存在的特定特征基序包括:(M/L)P基序;T(V/I/L/A)A(R/K/V)基序;(Y/F/W)G(V/H/I/R/K)N基序;HAE=>活性位点基序;VD(R/K)基序存在于对dsDNA有活性的MafB19-deam家族的几乎所有成员中;和CXXC基序(规范的CXXC锌结合基序)。因此,在一些形式中,与MafB19脱氨酶家族相关的脱氨酶结构域包括一个或多个结构特征,该一个或多个结构特征包括(M/L)P基序;T(V/I/L/A)A(R/K/V)基序;(Y/F/W)G(V/H/I/R/K)N基序;HAE活性位点基序;VD(R/K)基序和规范的CXXC锌结合基序。
SCP1201脱氨酶结构域
在一些形式中,脱氨酶结构域是SCP1201脱氨酶家族脱氨酶结构域。SCP1201脱氨酶家族活性和非活性成员的序列比对用于鉴定SCP1201脱氨酶家族中dsDNA特异性脱氨酶的特征基序。SCP1201脱氨酶家族中的dsDNA特异性CDA中存在的特定特征基序包括:L(P/L)基序;(Y/F/E/Q)(D/E/N)G(K/R/D)(T/K/N)TXG(V/L/T)(L/M/F)基序;(P/S/T)(N/G/E/Q)Y基序;(G/S)HVE(G/A/Q)-G或S位于保守活性位点基序(HVE)之前,后接(G/A/Q);HNN基序(或较小程度的(H/I)(N/D)(N/H))G(T/I)C(G/P/N/H)(Y/F)C基序-G(T/I)位于规范的CXXC锌结合基序之前;(T/A)LL(P/E)基序;L(E/D/R/K)V(V/I)PP基序和G(N/D)XXXPK基序。Cx(Y/F)C是SCP1201脱氨酶的dsDNA特异性脱氨酶中的普遍基序。除BE_R1_28外,该家族的所有活性成员在锌结合基序中的两个C残基之间严格具有2个氨基酸。该家族的非活性成员在两个C残基之间都具有多于两个氨基酸残基。在该家族的活性成员中,G(T/I)基序位于锌结合基序之前。因此,在一些形式中,与SCP1201脱氨酶家族相关的脱氨酶结构域包括一个或多个结构特征,该一个或多个结构特征包括L(P/L)基序;(Y/F/E/Q)(D/E/N)G(K/R/D)(T/K/N)TXG(V/L/T)(L/M/F)基序;(P/S/T)(N/G/E/Q)Y基序;(G/S)HVE(G/A/Q);HNN基序(或较小程度的(H/I)(N/D)(N/H))G(T/I)C(G/P/N/H)(Y/F)C基序;(T/A)LL(P/E)基序;L(E/D/R/K)V(V/I)PP基序和G(N/D)XXXPK基序。
在特定形式中,分离的脱氨酶结构域可以使含腺嘌呤的核苷酸脱氨基(称为腺苷脱氨酶)。在一些形式中,腺苷脱氨酶是能够催化将腺嘌呤(或分子的腺嘌呤部分)转换为次黄嘌呤(或分子的次黄嘌呤部分)的水解脱氨基反应的蛋白质、多肽或蛋白质或多肽的一个或多个功能结构域。含腺嘌呤分子可以是腺苷(A),并且含次黄嘌呤分子可以是肌苷(I)。含腺嘌呤分子可以是DNA或RNA。
基于本披露,另外的合适的脱氨酶结构域及其序列对于本领域技术人员来说将是显而易见的。例如,SEQ ID NO:1-16中任一个的序列或本文披露的任何登录号可用作查询序列以鉴定其同源物和其他相关蛋白质、多肽或其结构域。预期此类同源物和其他相关蛋白质、多肽或其结构域可表现出针对RNA或DNA底物的脱氨酶活性,因此可根据所披露的组合物和方法使用。
在一些形式中,合适的脱氨酶结构域(例如,腺苷脱氨酶或胞嘧啶脱氨酶)与本文披露的任何SEQ ID编号或Uniprot登录号的序列(诸如SEQ ID NO:1-16,并且包括编码其氨基酸序列的核酸序列)具有至少50%、至少60%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%的序列同一性。优选地,序列同一性超过查询序列的长度的至少50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或100%。因此,在一些形式中,分离的胞嘧啶脱氨酶与SEQ ID NO:1-16中任一个的序列具有至少50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或100%序列同一性,并且包括其中提供氨基酸序列的核酸序列。
应当理解,还披露了胞嘧啶或腺苷脱氨酶变体,其包括相对于本文披露的任何脱氨酶的一个或多个突变(例如,保守或非保守突变)。还预期其他胞嘧啶或腺苷脱氨酶变体可以从本文披露的那些变体中演化而来,例如,基于结构数据,或通过一系列直接演化方法(随机诱变和选择/筛选),对脱氨酶的特定区域中的一个或多个氨基酸残基进行靶向突变。因此,可以将一个或多个突变引入任何披露的脱氨酶结构域中。在一些形式中,此类突变可以改变底物结合、改变结合底物的构象、改变底物对脱氨酶活性位点的可接近性、改变对靶核苷酸(例如,C或A)向脱氨酶活性位点的非最佳呈递的耐受性和/或改变靶核苷酸序列特异性(识别)和/或编辑效率。在一些形式中,合适的胞嘧啶或腺苷脱氨酶包括与SEQ ID NO:1-20、40-68中列出的任何一个氨基酸序列或本文另行描述的任何一种脱氨酶相比具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、21个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个或更多个突变的氨基酸序列。在一些形式中,胞嘧啶或腺苷脱氨酶包括与SEQID NO:1-16或40-68中列出的任何一个氨基酸序列相比具有至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少60个、至少70个、至少80个、至少90个或至少100个相同的连续氨基酸残基的氨基酸序列。
B.碱基编辑器
还披露了包括脱氨酶结构域和一个或多个功能结构域的碱基编辑器。在一些形式中,碱基编辑器包括“拆分”脱氨酶,例如,被切割成两个或更多个不同片段的脱氨酶。每个拆分片段通常缺乏脱氨酶活性,使得两个或更多个片段的重新关联(例如通过共定位)恢复或增强脱氨酶活性。因此,在一些形式中,碱基编辑器是拆分碱基编辑器。通常,拆分碱基编辑器依赖于一个或多个功能结构域的特异性相互作用来在核酸内的特定位置共定位脱氨酶结构域并重建脱氨酶活性。功能结构域可以是多肽或蛋白质、或其部分、或赋予碱基编辑器所期望特性或功能的任何部分。所期望特性或功能可以是例如定位至细胞器、酶活性、蛋白质相互作用、表位标记或DNA和/或RNA结合。在一些形式中,碱基编辑器包括(1)可编程DNA结合结构域;和(2)脱氨酶结构域,以及任选地在DNA结合结构域和脱氨酶结构域之间的一个或多个接头,和/或一个或多个另外的功能结构域,例如靶向基序。在一些形式中,脱氨酶结构域是拆分脱氨酶结构域,即无活性的脱氨酶结构域或其片段。通常,两个或更多个拆分脱氨酶结构域的共定位(例如,通过在由一个或多个可编程DNA结合结构域确定的靶DNA链上相关联)激活两个或更多个拆分脱氨酶结构域中的一个或多个中的脱氨酶活性。
1.拆分脱氨酶结构域
在一些形式中,组合物包含功能性双链DNA脱氨酶蛋白的非天然存在的多肽片段,其通过在功能性脱氨酶结构域内的切割位点处切割脱氨酶蛋白而获得。例如,在一些形式中,该片段对应于N末端片段,其中该片段包括切割的功能性脱氨酶结构域的N末端部分。在其他形式中,该片段对应于C末端片段,其中该片段包括切割的功能性脱氨酶结构域的C末端部分。当N末端片段与C末端片段共定位时,或当C末端片段与N末端片段共定位时,脱氨酶活性恢复。图41中显示了拆分脱氨酶的不同形式和构型的实例。
还描述了碱基编辑器,其包括具有第一和第二单体的异二聚体,第一单体包括第一可编程DNA结合蛋白和切割的双链DNA脱氨酶的N末端或C末端片段,并且第二单体包括第二可编程DNA结合蛋白和切割的双链DNA脱氨酶的N末端或C末端片段。通常,第一和第二单体的二聚化重建功能性双链DNA脱氨酶蛋白质和功能性双链DNA脱氨酶活性。
i.示例性拆分脱氨酶结构域
描述了缺乏脱氨酶活性的示例性拆分脱氨酶结构域。通常,通过将一个或多个突变引入脱氨酶结构域来使拆分脱氨酶结构域失活。突变包括脱氨酶结构域内给定位置处的一个或多个氨基酸的特异性缺失、取代和添加。在一些形式中,拆分脱氨酶结构域包括在具有SEQ ID NO:1-17、40-68中任一个的氨基酸序列的任何脱氨酶结构域中的一个或多个给定位置处的一个或多个氨基酸的一个或多个特异性缺失、取代或添加。
a.无活性脱氨酶结构域
在一些形式中,拆分脱氨酶是脱氨酶蛋白的无活性形式。例如,在一些形式中,拆分脱氨酶是脱氨酶结构域的“死”或完全无活性的变体。在优选的形式中,死脱氨酶结构域是在DNA结合区中具有一个或多个突变体的脱氨酶蛋白。通常,无活性脱氨酶结构域与一个或多个相同类型的完整的、截短的或切割的脱氨酶结构域片段的共定位可以通过提供截短的或切割的片段的缺失结构组分来重建截短的或切割的脱氨酶结构域片段的活性。当在某些拆分位点处切割脱氨酶可能不够充分时,这种方法对于制备需要二聚化(或多聚化)才能发挥其活性的拆分脱氨酶特别有用。
在一些形式中,死脱氨酶结构域基于具有以下氨基酸序列的BE_R1_11(BE_R1_11_死):
或与SEQ ID NO:122具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,死脱氨酶结构域基于具有以下氨基酸序列的BE_R1_28(BE_R1_28_死):
或与SEQ ID NO:123具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,死脱氨酶结构域基于具有以下氨基酸序列的BE_R1_12(BE_R1_12_死):
或与SEQID NO:124具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,死脱氨酶结构域基于具有以下氨基酸序列的BE_R4_21(BE_R4_21_死):
或与SEQ ID NO:125具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,死脱氨酶结构域基于具有以下氨基酸序列的BE_R2_11(BE_R2_11_死):
或与SEQ ID NO:126具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
b.截短的或切割的拆分脱氨酶结构域
在一些形式中,拆分脱氨酶是脱氨酶蛋白的截短形式或切割形式。可以设计拆分蛋白,以便在重建后靶标上存在一个或多个(2x)活性位点。例如,在一些形式中,拆分脱氨酶是脱氨酶结构域的完全无活性的截短片段或切割片段。在优选的形式中,截短的或切割的脱氨酶结构域是一种脱氨酶蛋白,该脱氨酶蛋白的氨基(NH)或羧基(COOH)末端区域,或氨基(NH)和羧基(COOH)末端区域两者都被移除了一个或多个氨基酸。
在一些形式中,脱氨酶蛋白的截短或切割形式是从氨基(NH)末端、或从羧基(COOH)末端、或从氨基(NH)末端和从羧基(COOH)末端两者计数缺乏特定数量的连续氨基酸残基的截短或切割的脱氨酶蛋白。例如,在一些形式中,脱氨酶蛋白的截短或切割形式是从氨基(NH)末端、或从羧基(COOH)末端、或从氨基(NH)末端和羧基(COOH)末端两者计数缺乏(Δ)5个连续氨基酸残基,或10个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个或100个连续氨基酸残基的截短或切割的脱氨酶蛋白。
(1)拆分BE_R1_11脱氨酶蛋白
在一些形式中,脱氨酶蛋白的截短形式或切割形式是BE_R1_11脱氨酶蛋白的截短形式或切割形式。
BE_R1_11的切割氨基(NH)片段
在一些形式中,脱氨酶蛋白的截短或切割形式是截短或切割的BE_R1_11脱氨酶蛋白,其在特定氨基酸残基处切割以产生BE_R1_11脱氨酶蛋白的对应于氨基(NH)末端的片段。在一些形式中,脱氨酶蛋白的截短或切割形式是切割的BE_R1_11脱氨酶蛋白片段,其包括在(NH)末端处的由在包括Gly30、或Gly41、或Ser70、或Gly90、或Gly100中任一个的位置处进行切割而产生的氨基酸残基。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly30处切割的BE_R1_11脱氨酶蛋白的切割形式(BE_R1_11_N_G30),其具有以下氨基酸序列:
TKSANSGGAAKDLAKYRERQGMPRAGSADDAHTAARLDVG(SEQ ID NO:127),或与SEQ IDNO:127具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly41处切割的BE_R1_11脱氨酶蛋白的切割形式(BE_R1_11_N_G41),其具有以下氨基酸序列:
或与SEQ ID NO:128具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Ser70处切割的BE_R1_11脱氨酶蛋白的切割形式(BE_R1_11_N_S70),其具有以下氨基酸序列:
或与SEQ ID NO:129具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly90处切割的BE_R1_11脱氨酶蛋白的切割形式(BE_R1_11_N_G90),其具有以下氨基酸序列:
或与SEQ ID NO:130具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly100处切割的BE_R1_11脱氨酶蛋白的切割形式(BE_R1_11_N_G100),其具有以下氨基酸序列:
或与SEQ ID NO:131具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
BE_R1_11的切割羧基(COOH)片段
在一些形式中,脱氨酶蛋白的截短或切割形式是截短或切割的BE_R1_11脱氨酶蛋白,其在特定氨基酸残基处切割以产生BE_R1_11脱氨酶蛋白的对应于羧基(COOH)末端的片段。在一些形式中,脱氨酶蛋白的截短或切割形式是切割的BE_R1_11脱氨酶蛋白片段,其包括在羧基(COOH)末端处的由在包括Gly30、或Gly41、或Ser70、或Gly90、或Gly100中任一个的位置处进行切割而产生的氨基酸残基。
在一些形式中,脱氨酶蛋白的截短形式或切割形式是在氨基(NH)末端缺乏氨基酸残基的切割的BE_R1_11脱氨酶蛋白。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly30处切割的BE_R1_11脱氨酶蛋白的切割形式(BE_R1_11_C_G30),其具有以下氨基酸序列:
或与SEQ ID NO:132具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式或切割形式是在氨基酸Gly41处截短的BE_R1_11脱氨酶蛋白的截短形式或切割形式(BE_R1_11_C_G41),其具有以下氨基酸序列:
或与SEQ ID NO:133具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Ser70处切割的BE_R1_11脱氨酶蛋白的切割形式(BE_R1_11_C_S70),其具有以下氨基酸序列:
或与SEQ ID NO:150具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly90处切割的BE_R1_11脱氨酶蛋白的切割形式(BE_R1_11_C_G90),其具有以下氨基酸序列:
GGVGSLMRGVGISRLTVNSPSGRFEITASRPSVPRRING(SEQ ID NO:134),或与SEQ ID NO:134具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly100处切割的BE_R1_11脱氨酶蛋白的切割形式(BE_R1_11_C_G100),其具有以下氨基酸序列:
ISRLTVNSPSGRFEITASRPSVPRRING(SEQ ID NO:135),或与SEQ ID NO:135具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
拆分BE_R1_11脱氨酶蛋白的组合
在一些形式中,BE_R1_11脱氨酶蛋白的截短形式或切割形式单独缺乏脱氨酶功能。在一些形式中,BE_R1_11脱氨酶蛋白的两个或更多个截短形式或切割形式的组合重建了脱氨酶功能。例如,在一些形式中,将缺乏氨基(NH)末端的一个或多个氨基酸残基的一个截短或切割形式的BE_R1_11脱氨酶蛋白或来自完整BE_R1_11脱氨酶结构域的羧基(COOH)末端的片段组合,在与缺乏羧基(COOH)末端的一个或多个氨基酸残基的一个或多个截短或切割形式的BE_R1_11脱氨酶蛋白或来自完整BE_R1_11脱氨酶结构域的氨基(NH)末端的片段组合或共定位后变得具有功能。例如,在一些形式中,碱基编辑器包括具有SEQ ID NO:127-131中任一个的氨基酸序列的拆分BE_R1_11脱氨酶结构域,其中碱基编辑器在与具有SEQ ID NO:132-135中任一个的氨基酸序列的另一个拆分BE_R1_11脱氨酶结构域共定位或组合后,或与“死”形式的BE_R1_11脱氨酶结构域(其具有SEQ ID NO:122的氨基酸序列或与SEQ ID NO:122有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸)一起后,具有重建的脱氨酶活性。
(2)拆分BE_R1_12脱氨酶蛋白
在一些形式中,脱氨酶蛋白的截短形式或切割形式是BE_R1_12脱氨酶蛋白的截短形式或切割形式。
BE_R1_12的切割氨基(NH)片段
在一些形式中,脱氨酶蛋白的截短或切割形式是截短的切割的BE_R1_12脱氨酶蛋白片段,其包括在(NH)末端处的由在包括Gly31、或Gly40、或Gly85、Gly110、或Gly140中任一个的位置处进行切割而产生的氨基酸残基。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly31处切割的BE_R1_12脱氨酶蛋白的切割形式(BE_R1_12_N_G31),其具有以下氨基酸序列:
FSKAESGYIEIQRFRRILNMPRYSLTNGRTG(SEQ ID NO:136),或与SEQ ID NO:136具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly40处切割的BE_R1_12脱氨酶蛋白的切割形式(BE_R1_12_N_G40),其具有以下氨基酸序列:
FSKAESGYIEIQRFRRILNMPRYSLTNGRTGTVARVEVNG(SEQ ID NO:137),或与SEQ IDNO:137具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly85处切割的BE_R1_12脱氨酶蛋白的切割形式(BE_R1_12_N_G85),其具有以下氨基酸序列:
或与SEQ ID NO:138具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly110处切割的BE_R1_12脱氨酶蛋白的切割形式(BE_R1_12_N_G110),其具有以下氨基酸序列:
或与SEQ ID NO:139具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly140处切割的BE_R1_12脱氨酶蛋白的切割形式(BE_R1_12_N_G140),其具有以下氨基酸序列:
或与SEQ ID NO:140具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
BE_R1_12的切割羧基(COOH)片段
在一些形式中,脱氨酶蛋白的切割形式是切割的BE_R1_12脱氨酶蛋白片段,其包括在羧基(COOH)末端处的由在包括Gly31、或Gly40、或Gly85、Gly110或Gly140中任一个的位置处进行切割而产生的氨基酸残基。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly31处切割的BE_R1_12脱氨酶蛋白的切割形式(BE_R1_12_C_G31),其具有以下氨基酸序列:
或与SEQ ID NO:141具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly40处切割的BE_R1_12脱氨酶蛋白的切割形式(BE_R1_12_C_G40),其具有以下氨基酸序列:
或与SEQ ID NO:142具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly85处切割的BE_R1_12脱氨酶蛋白的切割形式(BE_R1_12_C_G85),其具有以下氨基酸序列:
或与SEQ ID NO:143具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly110处切割的BE_R1_12脱氨酶蛋白的切割形式(BE_R1_12_C_G110),其具有以下氨基酸序列:
或与SEQ ID NO:144具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly140处切割的BE_R1_12脱氨酶蛋白的切割形式(BE_R1_12_C_G140),其具有以下氨基酸序列:
IEELTIYSGGRDAIIIKAIK(SEQ ID NO:145),或与SEQ ID NO:145具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
BE_R1_12的截短片段
在一些形式中,脱氨酶蛋白的截短或切割形式是从氨基(NH)末端计数缺乏特定数量的连续氨基酸残基(即,产生包括完整的羧基(COOH)末端的片段)的截短或切割的BE_R1_28脱氨酶蛋白。例如,在一些形式中,脱氨酶蛋白的截短或切割形式是从氨基(NH)末端计数缺乏(Δ)5个连续氨基酸残基,或10个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个或100个连续氨基酸残基的截短或切割的BE_R1_28脱氨酶蛋白。
在一些形式中,脱氨酶蛋白的截短形式是从氨基(NH)末端缺少(Δ)20个连续氨基酸残基的截短的BE_R1_12脱氨酶蛋白(BE_R1_12_C_Δ20),其具有以下氨基酸序列:
或与SEQ ID NO:156具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式是从氨基(NH)末端缺少(Δ)25个连续氨基酸残基的截短的BE_R1_12脱氨酶蛋白(BE_R1_12_C_Δ25),其具有以下氨基酸序列:
或与SEQ ID NO:157具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式是从羧基(COOH)末端缺少(Δ)30个连续氨基酸残基的截短的BE_R1_12脱氨酶蛋白(BE_R1_12_C_Δ30),其具有以下氨基酸序列:
或与SEQ ID NO:158具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式是从氨基(NH)末端缺少(Δ)35个连续氨基酸残基的截短的BE_R1_12脱氨酶蛋白(BE_R1_12_C_Δ35),其具有以下氨基酸序列:
或与SEQ ID NO:159具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式是从氨基(NH)末端缺少(Δ)40个连续氨基酸残基的截短的BE_R1_12脱氨酶蛋白(BE_R1_12_C_Δ40),其具有以下氨基酸序列:
或与SEQ ID NO:160具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式是从氨基(NH)末端缺少(Δ)45个连续氨基酸残基的截短的BE_R1_12脱氨酶蛋白(BE_R1_12_C_Δ45),其具有以下氨基酸序列:
或与SEQ ID NO:161具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式是从氨基(NH)末端缺少(Δ)50个连续氨基酸残基的截短的BE_R1_12脱氨酶蛋白(BE_R1_12_C_Δ50),其具有以下氨基酸序列:
或与SEQ ID NO:162具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式是从氨基(NH)末端缺少(Δ)55个连续氨基酸残基的截短的BE_R1_12脱氨酶蛋白(BE_R1_12_C_Δ55),其具有以下氨基酸序列:
或与SEQ ID NO:163具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式是从氨基(NH)末端缺少(Δ)60个连续氨基酸残基的截短的BE_R1_12脱氨酶蛋白(BE_R1_12_C_Δ60),其具有以下氨基酸序列:
或与SEQ ID NO:164具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式是从氨基(NH)末端缺少(Δ)70个连续氨基酸残基的截短的BE_R1_12脱氨酶蛋白(BE_R1_12_C_Δ70),其具有以下氨基酸序列:
或与SEQID NO:165具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式是从氨基(NH)末端缺少(Δ)75个连续氨基酸残基的截短的BE_R1_12脱氨酶蛋白(BE_R1_12_C_Δ75),其具有以下氨基酸序列:
或与SEQ ID NO:166具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式是从氨基(NH)末端缺少(Δ)100个连续氨基酸残基的截短的BE_R1_12脱氨酶蛋白(BE_R1_12_C_Δ100),其具有以下氨基酸序列:
或与SEQ ID NO:167具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
拆分BE_R1_12脱氨酶蛋白的组合
在一些形式中,BE_R1_12脱氨酶蛋白的截短形式或切割形式单独缺乏脱氨酶功能。在一些形式中,BE_R1_12脱氨酶蛋白的两个或更多个截短形式或切割形式的组合重建了脱氨酶功能。例如,在一些形式中,将缺乏氨基(NH)末端的一个或多个氨基酸残基的一个截短或切割形式的BE_R1_12脱氨酶蛋白或来自完整BE_R1_12脱氨酶结构域的羧基(COOH)末端的片段组合,在与缺乏羧基(COOH)末端的一个或多个氨基酸残基的一个或多个截短或切割形式的BE_R1_12脱氨酶蛋白或来自完整BE_R1_12脱氨酶结构域的氨基(NH)末端的片段组合或共定位后变得具有功能。例如,在一些形式中,碱基编辑器包括具有SEQ ID NO:141-145中任一个的氨基酸序列的拆分BE_R1_12脱氨酶结构域,其中碱基编辑器在与具有SEQ ID NO:136-140中任一个的氨基酸序列的另一个拆分BE_R1_12脱氨酶结构域共定位或组合后,或与“死”形式的BE_R1_12脱氨酶结构域(其具有SEQ ID NO:124的氨基酸序列或与SEQ ID NO:124有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸)一起后,具有重建的脱氨酶活性。
在一些形式中,碱基编辑器包括具有SEQ ID NO:146-167中任一个的氨基酸序列的拆分BE_R1_12脱氨酶结构域,其中碱基编辑器在与具有SEQ ID NO:136-140中任一个的氨基酸序列的另一个拆分BE_R1_12脱氨酶结构域共定位或组合后,或与“死”形式的BE_R1_12脱氨酶结构域(其具有SEQ ID NO:124的氨基酸序列或与SEQ ID NO:124有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸)一起后,具有重建的脱氨酶活性。
(3)拆分BE_R1_28脱氨酶蛋白
在一些形式中,脱氨酶蛋白的截短形式或切割形式是BE_R1_28脱氨酶蛋白的截短形式或切割形式。
BE_R1_28的切割氨基(NH)片段
在一些形式中,脱氨酶蛋白的截短或切割形式是截短的切割的BE_R1_28脱氨酶蛋白片段,其包括在(NH)末端处的由在包括Gly33、或Gly51、或Lys71、Gly101、或Gly126中任一个的位置处进行切割而产生的氨基酸残基。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly33处切割的BE_R1_12脱氨酶蛋白的切割形式(BE_R1_28_N_G33),其具有以下氨基酸序列:
GVGGAITATVGSTAGAAGRAAARAPSLPAYAGG(SEQ ID NO:146),或与SEQ ID NO:146具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式或切割形式是在氨基酸Gly51处截短的BE_R1_28脱氨酶蛋白的截短形式或切割形式(BE_R1_28_N_G51),其具有以下氨基酸序列:
或与SEQ ID NO:147具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Lys71处切割的BE_R1_28脱氨酶蛋白的切割形式(BE_R1_28_N_K71),其具有以下氨基酸序列:
或与SEQ ID NO:148具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly101处切割的BE_R1_28脱氨酶蛋白的切割形式(BE_R1_28_N_G101),其具有以下氨基酸序列:
或与SEQ ID NO:149具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
BE_R1_28的切割羧基(COOH)片段
在一些形式中,脱氨酶蛋白的截短或切割形式是截短的切割的BE_R1_28脱氨酶蛋白片段,其包括在羧基(COOH)末端处的由在包括Gly33、或Gly51、或Lys71、Gly101、或Gly126中任一个的位置处进行切割而产生的氨基酸残基。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly33末端(BE_R1_28_C_G33)处切割的BE_R1_28脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
或与SEQ ID NO:151具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly51(BE_R1_28_C_G51)处切割的BE_R1_28脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
或与SEQ ID NO:152具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Lys71(BE_R1_28_C_K71)处切割的BE_R1_28脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
或与SEQ ID NO:153具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly101处切割的BE_R1_28脱氨酶蛋白的切割形式(BE_R1_28_C_G101),其具有以下氨基酸序列:
ATGCDAMLPRMLPPDAHLRVVGPNGYDQVFVGL(SEQ ID NO:154),或与SEQ ID NO:154具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly126(BE_R1_28_C_G126)处切割的BE_R1_28脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
YDQVFVGL(SEQ ID NO:155),或与SEQ ID NO:155具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
拆分BE_R1_28脱氨酶蛋白的组合
在一些形式中,BE_R1_28脱氨酶蛋白的截短形式或切割形式单独缺乏脱氨酶功能。在一些形式中,BE_R1_28脱氨酶蛋白的两个或更多个截短形式或切割形式的组合重建了脱氨酶功能。例如,在一些形式中,将缺乏氨基(NH)末端的一个或多个氨基酸残基的一个截短或切割形式的BE_R1_28脱氨酶蛋白或来自完整BE_R1_28脱氨酶结构域的羧基(COOH)末端的片段组合,在与缺乏羧基(COOH)末端的一个或多个氨基酸残基的一个或多个截短或切割形式的BE_R1_28脱氨酶蛋白或来自完整BE_R1_28脱氨酶结构域的氨基(NH)末端的片段组合或共定位后变得具有功能。例如,在一些形式中,碱基编辑器包括具有SEQ ID NO:151-155中任一个的氨基酸序列的拆分BE_R1_28脱氨酶结构域,其中碱基编辑器在与具有SEQ ID NO:146-149中任一个的氨基酸序列的另一个拆分BE_R1_28脱氨酶结构域共定位或组合后,或与“死”形式的BE_R1_12脱氨酶结构域(其具有SEQ ID NO:123的氨基酸序列或与SEQ ID NO:123有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸)一起后,具有重建的脱氨酶活性。
(4)拆分BE_R1_41脱氨酶蛋白
在一些形式中,脱氨酶蛋白的截短形式或切割形式是BE_R1_41脱氨酶蛋白的截短形式或切割形式。
BE_R1_41的切割氨基(NH)片段
在一些形式中,脱氨酶蛋白的截短或切割形式是切割的BE_R1_41脱氨酶蛋白片段,其包括在氨基(NH)末端处的由在包括Gly33、或Gly43、Gly69、或Gly108中任一个的位置处进行切割而产生的氨基酸残基。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly33(BE_R1_41_N_G33)处切割的BE_R1_41脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
GSYTLGSYQISAPQLPAYNGQTVGTFYYVNGAG(SEQ ID NO:168),或与SEQ ID NO:168具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式或切割形式是在氨基酸Gly43处截短的BE_R1_41脱氨酶蛋白的截短形式或切割形式(BE_R1_41_N_G43),其具有以下氨基酸序列:
GSYTLGSYQISAPQLPAYNGQTVGTFYYVNGAGGLESRTFSSG(SEQ ID NO:169),或与SEQ IDNO:169具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly69(BE_R1_41_N_G69)处切割的BE_R1_41脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
或与SEQ ID NO:170具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly108(BE_R1_41_N_G108)处切割的BE_R1_41脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
或与SEQ ID NO:171具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
BE_R1_41的切割羧基(COOH)片段
在一些形式中,脱氨酶蛋白的截短或切割形式是截短的切割的BE_R1_41脱氨酶蛋白片段,其包括在(COOH)末端处的由在包括Gly33、或Gly43、或Gly69、或Gly108中任一个的位置处进行切割而产生的氨基酸残基。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly33末端(BE_R1_41_C_G33)处切割的BE_R1_41脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
或与SEQ ID NO:172具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly43(BE_R1_41_C_G43)处切割的BE_R1_41脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
或与SEQ ID NO:173具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Lys71(BE_R1_41_C_G69)处切割的BE_R1_41脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
或与SEQ ID NO:174具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly108(BE_R1_28_C_G108)处切割的BE_R1_41脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
AIPVKRGATGETRTFTGNSKSPKSPVKGEC(SEQ ID NO:175),或与SEQ ID NO:175具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
拆分BE_R1_41脱氨酶蛋白的组合
在一些形式中,BE_R1_41脱氨酶蛋白的截短形式或切割形式单独缺乏脱氨酶功能。在一些形式中,BE_R1_41脱氨酶蛋白的两个或更多个截短形式或切割形式的组合重建了脱氨酶功能。例如,在一些形式中,将缺乏氨基(NH)末端的一个或多个氨基酸残基的一个截短或切割形式的BE_R1_41脱氨酶蛋白或来自完整BE_R1_41脱氨酶结构域的羧基(COOH)末端的片段组合,在与缺乏羧基(COOH)末端的一个或多个氨基酸残基的一个或多个截短或切割形式的BE_R1_41脱氨酶蛋白或来自完整BE_R1_41脱氨酶结构域的氨基(NH)末端的片段组合或共定位后变得具有功能。例如,在一些形式中,碱基编辑器包括具有SEQ ID NO:168-172中任一个的氨基酸序列的拆分BE_R1_41脱氨酶结构域,其中碱基编辑器在与具有SEQ ID NO:173-175中任一个的氨基酸序列的另一个拆分BE_R1_41脱氨酶结构域共定位或组合后,或与“死”形式的BE_R1_12脱氨酶结构域(其具有SEQ ID NO:123的氨基酸序列或与SEQ ID NO:123有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸)一起后,具有重建的脱氨酶活性。
(5)拆分BE_R4_21脱氨酶蛋白
在一些形式中,脱氨酶蛋白的截短形式或切割形式是BE_R4_21脱氨酶蛋白的截短形式或切割形式。
BE_R4_21的切割氨基(NH)片段
在一些形式中,脱氨酶蛋白的截短或切割形式是切割的BE_R4_21脱氨酶蛋白片段,其包括在氨基(NH)末端处的由在包括Ser62或Gly127中任一个的位置处进行切割而产生的氨基酸残基。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Ser62(BE_R4_21_N_S62)处切割的BE_R4_21脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
或与SEQ ID NO:176具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的截短形式或切割形式是在氨基酸Gly127处截短的BE_R4_21脱氨酶蛋白的截短形式或切割形式(BE_R4_21_N_G127),其具有以下氨基酸序列:
或与SEQ ID NO:177具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
BE_R4_21的切割羧基(COOH)片段
在一些形式中,脱氨酶蛋白的截短或切割形式是截短的或切割的BE_R4_21脱氨酶蛋白片段,其包括在(COOH)末端处的由在包括Ser62或Gly127中任一个的位置处进行切割而产生的氨基酸残基。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Ser62末端(BE_R4_21_C_S62)处切割的BE_R4_21脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
或与SEQ IDNO:178具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是在氨基酸Gly127(BE_R4_21_C_G127)处切割的BE_R4_21脱氨酶蛋白的切割形式,其具有以下氨基酸序列:
TVTPSSRWSASRTFTGNDRDPKPWPR(SEQ ID NO:179),或与SEQ ID NO:179具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
拆分BE_R4_21脱氨酶蛋白的组合
在一些形式中,BE_R4_21脱氨酶蛋白的截短形式或切割形式单独缺乏脱氨酶功能。在一些形式中,BE_R4_21脱氨酶蛋白的两个或更多个截短形式或切割形式的组合重建了脱氨酶功能。例如,在一些形式中,将缺乏氨基(NH)末端的一个或多个氨基酸残基的一个截短或切割形式的BE_R4_21脱氨酶蛋白或来自完整BE_R4_21脱氨酶结构域的羧基(COOH)末端的片段组合,在与缺乏羧基(COOH)末端的一个或多个氨基酸残基的一个或多个截短或切割形式的BE_R4_21脱氨酶蛋白或来自完整BE_R4_21脱氨酶结构域的氨基(NH)末端的片段组合或共定位后变得具有功能。例如,在一些形式中,碱基编辑器包括具有SEQ ID NO:176-177中任一个的氨基酸序列的拆分BE_R4_21脱氨酶结构域,其中碱基编辑器在与具有SEQ ID NO:178-179中任一个的氨基酸序列的另一个拆分BE_R4_21脱氨酶结构域共定位或组合后,或与“死”形式的BE_R4_21脱氨酶结构域(其具有SEQ ID NO:125的氨基酸序列或与SEQ ID NO:125有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸)一起后,具有重建的脱氨酶活性。
(6)拆分BE_R2_11脱氨酶蛋白
在一些形式中,脱氨酶蛋白的截短形式或切割形式是BE_R2_11脱氨酶蛋白的截短形式或切割形式。
BE_R2_11的截短片段
在一些形式中,脱氨酶蛋白的截短形式或切割形式是BE_R2_11脱氨酶蛋白的片段,其包括从氨基(NH)末端截短54或39个连续氨基酸残基产生的氨基酸残基。
在一些形式中,脱氨酶蛋白的切割形式是从氨基(NH)末端去除54个残基而产生的BE_R2_11脱氨酶蛋白的截短形式(BE_R2_11_Δ54),其具有以下氨基酸序列:
或与SEQ ID NO:180具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,脱氨酶蛋白的切割形式是从氨基(NH)末端去除39个残基而产生的BE_R2_11脱氨酶蛋白的截短形式(BE_R2_11_Δ39),其具有以下氨基酸序列:
或与SEQ ID NO:181具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
拆分BE_R2_11脱氨酶蛋白的组合
在一些形式中,BE_R2_11脱氨酶蛋白的截短形式或切割形式单独缺乏脱氨酶功能。在一些形式中,BE_R2_11脱氨酶蛋白的两个或更多个截短形式或切割形式的组合重建了脱氨酶功能。例如,在一些形式中,将缺乏氨基(NH)末端的一个或多个氨基酸残基的一个截短或切割形式的BE_R2_11脱氨酶蛋白或来自完整BE_R2_11脱氨酶结构域的羧基(COOH)末端的片段组合,在与缺乏羧基(COOH)末端的一个或多个氨基酸残基的一个或多个截短或切割形式的BE_R2_11脱氨酶蛋白或来自完整BE_R2_11脱氨酶结构域的氨基(NH)末端的片段组合或共定位后变得具有功能。例如,在一些形式中,碱基编辑器包括具有SEQ ID NO:180或181的氨基酸序列的拆分BE_R2_11脱氨酶结构域,其中碱基编辑器在与具有SEQ IDNO:180-181的氨基酸序列的另一个拆分BE_R2_11脱氨酶结构域共定位或组合后,或与“死”形式的BE_R2_11脱氨酶结构域(其具有SEQ ID NO:126的氨基酸序列或与SEQ ID NO:126有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸)一起后,具有重建的脱氨酶活性。
2.功能结构域
碱基编辑器通常包括一个或多个功能结构域。功能结构域包括可编程DNA结合结构域/靶向结构域、核酸酶和其他结构域。在一些形式中,功能结构域是靶向结构域。在一些形式中,靶向结构域可以识别和/或结合核酸(例如,DNA或RNA序列)中的特定靶序列。因此,在一些形式中,靶向结构域是DNA和/或RNA结合蛋白或结构域,例如TALE、CRISPR-Cas9、Cfp1或锌指。因此,在一些形式中,碱基编辑器是靶向碱基编辑器,其包括脱氨酶结构域和一个或多个靶向结构域(例如,DNA结合蛋白或结构域),其中每个靶向结构域特异性结合靶序列。
碱基编辑器可以包括任意数量的功能结构域,只要它保留所期望的活性(例如,脱氨酶活性)。例如,碱基编辑器可以包括范围1-5个功能结构域。在一些形式中,碱基编辑器包括1、2、3、4、5或更多个功能(例如,靶向)结构域。在一些形式中,碱基编辑器包括脱氨酶结构域和一个功能结构域。在一些形式中,碱基编辑器包括脱氨酶结构域和两个功能结构域。在一些形式中,碱基编辑器包括脱氨酶结构域和三个功能结构域。在一些形式中,靶向碱基编辑器包括脱氨酶结构域和一个靶向结构域。在一些形式中,靶向碱基编辑器包括脱氨酶结构域和两个靶向结构域。在一些形式中,靶向碱基编辑器包括脱氨酶结构域和三个靶向结构域。
一个或多个功能结构域和脱氨酶结构域可以在碱基编辑器内以任何取向排列。例如,脱氨酶结构域可以位于碱基编辑器的N末端或C末端。在一些形式中,碱基编辑器符合以下架构/结构:
NH2[脱氨酶结构域]-[功能结构域]COOH;或
NH2[功能结构域]-[脱氨酶结构域]COOH
其中NH2是碱基编辑器的N末端,并且COOH是碱基编辑器的C末端。优选地,功能结构域是靶向结构域。在一些形式中,上述通用架构中使用的“-”表示任选接头的存在。
在一些形式中,本文披露的碱基编辑器不包括接头。在一些形式中,接头存在于碱基编辑器内的一个或多个结构域或蛋白质之间(例如,脱氨酶结构域和第一功能(例如,靶向)结构域和/或第二功能结构域之间)。在一些形式中,脱氨酶结构域和功能(例如,靶向)结构域通过本领域已知的任何合适的接头融合,例如,下文标题为“接头”的小节中提供的任何接头。在一些形式中,形成碱基编辑器的各种结构域或组分通过包括约1-200个氨基酸(包括端值)的接头融合。在一些形式中,接头包括1至5、1至10、1至20、1至30、1至40、1至50、1至60、1至80、1至100、1至150、1至200、5至10、5至20、5至30、5至40、5至60、5至80、5至100、5至150、5至200、10至20、10至30、10至40、10至50、10至60、10至80、10至100、10至150、10至200、20至30、20至40、20至50、20至60、20至80、20至100、20至150、20至200、30至40、30至50、30至60、30至80、30至100、30至150、30至200、40至50、40至60、40至80、40至100、40至150、40至200、50至60、50至80、50至100、50至150、50至200、60至80、60至100、60至150、60至200、80至100、80至150、80至200、100至150、100至200、或150至200个氨基酸。
在特定形式中,披露了靶向碱基编辑器,其包括本文披露的任何脱氨酶结构域和靶向结构域,其中靶向结构域特异性结合碱基编辑器靶序列。优选地,靶向结构域是或包括TALE、CRISPR-Cas效应子蛋白(例如,Cas9、Cfp1)或锌指蛋白或结构域。例如,在靶向结构域是或包括CRISPR-Cas效应子蛋白(例如,Cas9、Cfp1)的情况下,碱基编辑器靶序列可以与原型间隔子序列相同或包括原型间隔子序列。
碱基编辑器靶序列可以存在于支持靶核苷酸序列脱氨基的脱氨酶结构域的靶核苷酸序列的任何距离内的靶核酸中。所披露的靶向碱基编辑器的优选设计原则是选择碱基编辑器靶序列(和靶向结构域)以及脱氨酶结构域和靶向结构域的连接,使得靶向结构域结合靶核酸中有待脱氨基的靶核苷酸序列的实例附近的靶核酸。这种邻近性应当使得对于给定的靶碱基编辑器和靶核酸,脱氨酶结构域可以使靶核酸中的靶核苷酸序列的预期实例脱氨基。例如,碱基编辑靶序列可以存在于脱氨酶结构域的靶核苷酸序列实例的1-100、20-80、40-60、10-50、20-40、1-10、1-20、10-20或5-10个核苷酸内的靶核酸中。在一些形式中,碱基编辑器靶序列存在于脱氨酶结构域的靶核苷酸序列实例的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90或90-100个核苷酸内的靶核酸中。在优选的形式中,碱基编辑器靶序列被选择为存在于脱氨酶结构域的靶核苷酸序列实例的20个核苷酸内的靶核酸中。优选地,选择靶核苷酸序列的实例以由靶向碱基编辑器进行碱基编辑。
在一些形式中,靶核苷酸序列的实例是靶核酸中靶核苷酸序列的唯一实例。在一些情况下,靶核酸中存在靶核苷酸序列的多个实例(例如,2、3、4、5或更多个)。因此,在一些形式中,可以基于距靶向碱基编辑器靶序列的距离来描述或指定被选为由靶向碱基编辑器进行碱基编辑的靶核苷酸的多个实例中的特定实例(例如,作为距靶标碱基编辑器靶序列的指定距离内的唯一实例)。
例如,在一些形式中,被选择进行碱基编辑的靶核苷酸序列(在靶核酸中)的实例是碱基编辑器靶序列的1-100个、20-80个、40-60个、10-50个、20-40个、1-10个、1-20个、10-20个或5-10个核苷酸内脱氨酶结构域的靶核苷酸序列的唯一实例。在一些形式中,(靶核酸中的)被选择进行碱基编辑的靶核苷酸序列的实例是碱基编辑器靶序列的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、30-35个、35-40个、40-45个、45-50个、50-60个、60-70个、70-80个、80-90个或90-100个核苷酸内脱氨酶结构域的靶核苷酸序列的唯一实例。在一些形式中,选择进行碱基编辑的(靶核酸中的)靶核苷酸序列的实例是碱基编辑器靶序列的20个核苷酸内的脱氨酶结构域的靶核苷酸序列的唯一实例。
然而,与该“唯一实例”距离无关,(靶核酸中的)被选择进行碱基编辑的靶核苷酸序列的实例可以是距所选碱基编辑器靶序列的任何距离(只要它小于或等于指定的“唯一实例”距离)。例如,(靶核酸中的)被选择进行碱基编辑的靶核苷酸序列的实例可以是碱基编辑器靶序列的20个核苷酸内脱氨酶结构域的靶核苷酸序列的唯一实例,而被选择进行碱基编辑的靶核苷酸序列的实例本身在碱基编辑器靶序列的20个核苷酸或更短的范围内。更一般地,在一些形式中,(靶核酸中的)被选择进行碱基编辑的靶核苷酸序列的实例可以是碱基编辑器靶序列的1-100个、20-80个、40-60个、10-50个、20-40个、1-10个、1-20个、10-20个或5-10个核苷酸内脱氨酶结构域的靶核苷酸序列的唯一实例,而被选择进行碱基编辑的靶核苷酸序列的实例本身在碱基编辑器靶序列的1-100个、20-80个、40-60个、10-50个、20-40个、1-10个、1-20个、10-20个或5-10个核苷酸或更短的范围内。因此,在一些形式中,(靶核酸中的)被选择进行碱基编辑的靶核苷酸序列的实例可以是碱基编辑器靶序列的20个核苷酸内脱氨酶结构域的靶核苷酸序列的唯一实例,而被选择进行碱基编辑的靶核苷酸序列的实例本身在碱基编辑器靶序列的20个、19个、18个、17个、16个、15个、14个、13个、12个、11个、10个、9个、8个、7个、6个、5个、4个、3个、2个或1个核苷酸内。
在一些形式中,靶核酸中存在碱基编辑器靶序列的多个实例(例如,2、3、4、5或更多个)。因此,在一些形式中,可以基于距被选为由靶向碱基编辑器进行碱基编辑的靶核苷酸序列的实例的距离来描述或指定所选碱基编辑器靶序列(例如,作为靶核酸中在被选为进行碱基编辑的靶核苷酸序列的实例的指定距离内的唯一碱基编辑器靶序列)。例如,在一些形式中,(靶核酸中的)被选择进行碱基编辑的靶核苷酸序列的1-100个、20-80个、40-60个、10-50个、20-40个、1-10个、1-20个、10-20个或5-10个核苷酸内的碱基编辑器靶序列是靶核酸中被选择进行碱基编辑的靶核苷酸序列的1-100个、20-80个、40-60个、10-50个、20-40个、1-10个、1-20个、10-20个或5-10个核苷酸内的唯一碱基编辑器靶序列。在一些形式中,(靶核酸中的)被选择进行碱基编辑的靶核苷酸序列的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、30-35个、35-40个、40-45个、45-50个、50-60个、60-70个、70-80个、80-90个或90-100个核苷酸内的碱基编辑器靶序列是靶核酸中被选择进行碱基编辑的靶核苷酸序列的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、30-35个、35-40个、40-45个、45-50个、50-60个、60-70个、70-80个、80-90个或90-100个核苷酸内的唯一碱基编辑器靶序列。在一些形式中,(靶核酸中的)被选择进行碱基编辑的靶核苷酸序列的20个核苷酸内的碱基编辑器靶序列是靶核酸中被选择进行碱基编辑的靶核苷酸序列的20个核苷酸内的唯一碱基编辑器靶序列。
在一些形式中,(靶核酸中的)被选择进行碱基编辑的靶核苷酸序列的1-100个、20-80个、40-60个、10-50个、20-40个、1-10个、1-20个、10-20个或5-10个核苷酸内的碱基编辑器靶序列是靶核酸中在靶核苷酸序列的任何实例的1-100个、20-80个、40-60个、10-50个、20-40个、1-10个、1-20个、10-20个或5-10个核苷酸内的唯一碱基编辑器靶序列。在一些形式中,(靶核酸中的)被选择进行碱基编辑的靶核苷酸序列的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、30-35个、35-40个、40-45个、45-50个、50-60个、60-70个、70-80个、80-90个或90-100个核苷酸内的碱基编辑器靶序列是靶核酸中靶核苷酸序列的任何实例的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、30-35个、35-40个、40-45个、45-50个、50-60个、60-70个、70-80个、80-90个或90-100个核苷酸内的唯一碱基编辑器靶序列。在一些形式中,(靶核酸中的)被选择进行碱基编辑的靶核苷酸序列的20个核苷酸内的碱基编辑器靶序列是靶核酸中在靶核苷酸序列的任何实例的20个核苷酸内的唯一碱基编辑器靶序列。
在一些形式中,靶核酸中(例如,被选为由靶向碱基编辑器进行碱基编辑)的靶核苷酸序列的实例是靶核酸中在靶核苷酸序列的实例的20个核苷酸内的碱基编辑器靶序列的20个核苷酸内脱氨酶结构域的靶核苷酸序列的唯一实例。在一些形式中,靶核酸中(例如,被选为由靶向碱基编辑器进行碱基编辑)的靶核苷酸序列的实例是靶核酸中在靶核苷酸序列的实例的1-100个、20-80个、40-60个、10-50个、20-40个、1-10个、1-20个、10-20个或5-10个核苷酸内的碱基编辑器靶序列的1-100个、20-80个、40-60个、10-50个、20-40个、1-10个、1-20个、10-20个或5-10个核苷酸内脱氨酶结构域的靶核苷酸序列的唯一实例。在一些形式中,靶核酸中(例如,被选为由靶向碱基编辑器进行碱基编辑)的靶核苷酸序列的实例是靶核酸中在靶核苷酸序列的实例的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、30-35个、35-40个、40-45个、45-50个、50-60个、60-70个、70-80个、80-90个或90-100个核苷酸内的碱基编辑器靶序列的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、30-35个、35-40个、40-45个、45-50个、50-60个、60-70个、70-80个、80-90个或90-100个核苷酸内脱氨酶结构域的靶核苷酸序列的唯一实例。
在前述任一项中,碱基编辑器靶序列可以在核DNA或线粒体DNA中。在一些优选的形式中,碱基编辑器靶序列存在于线粒体DNA中。
i.可编程DNA结合蛋白
在一些形式中,碱基编辑器包括至少一个可编程DNA结合蛋白。在一些形式中,碱基编辑器包括多于单个可编程DNA结合蛋白。例如,在一些形式中,碱基编辑器包括第一和第二可编程DNA结合蛋白。在一些形式中,第一和/或第二可编程DNA结合蛋白是相同的。在其他形式中,第一和/或第二可编程DNA结合蛋白是不同的。示例性的第一和/或第二可编程DNA结合蛋白包括Cas结构域(例如,Cas9)、切口酶、锌指蛋白和TALE蛋白。因此,在一些形式中,碱基编辑器包括具有第一和第二单体的异二聚体,第一单体包括:Cas结构域、切口酶、锌指蛋白或TALE蛋白;和切割的双链DNA脱氨酶的N末端或C末端片段,并且第二单体包括:Cas结构域、切口酶、锌指蛋白或TALE蛋白;和第二可编程DNA结合蛋白和切割的双链DNA脱氨酶的N末端或C末端片段,由此第一和第二单体的二聚化重建双链DNA脱氨酶活性。示例性的Cas结构域包括Cas9、Casl2e、Casl2d、Casl2a、Casl2bl、Cas13a、Casl2c和Argonaute。
ii.示例性功能结构域
在一些形式中,碱基编辑器包括一个或多个作为可编程DNA结合因子(例如可编程DNA结合蛋白)的功能结构域。术语“可编程DNA结合蛋白”、“pDNA结合蛋白”、“pDNA结合蛋白结构域”或“pDNAbp”是指定位至并结合特定靶DNA核苷酸序列(例如基因组的基因座)的任何蛋白质。该术语涵盖RNA可编程蛋白质,其与一个或多个核酸分子(即,在Cas系统的情况下,包括例如指导RNA)相关联(例如形成复合物),该一个或多个核酸分子指导或以其他方式编程蛋白质以定位至与蛋白质相关联的一个或多个核酸分子(或其部分或区域)互补的特定靶核苷酸序列(例如,DNA序列)。该术语还包括以氨基酸可编程方式直接结合核苷酸序列的蛋白质,例如锌指蛋白和TALE蛋白。示例性RNA可编程蛋白是CRISPR-Cas9蛋白,以及Cas9等同物、同系物、直向同源物或旁系同源物,无论是天然存在的还是非天然存在的(例如工程改造的或修饰的),并且可以包括来自任何类型的CRISPR系统(例如II型、V型、VI型)的Cas9等同物,包括Cpfl(V型CRISPR-Cas系统)、C2cl(V型CRISPR-Cas系统)、C2c2(VI型CRISPR-Cas系统)、C2c3(V型CRISPR-Cas系统)、dCas9、GeoCas9、CjCas9、Cas12a、Casl2b、Cas12c、Casl2d、Cas12g、Cas12h、Cas12i、Cas13d、Cas14、Argonaute和nCas9。另外的Cas等效物描述于以下文献中:Makarova等人,"C2c2 is a single-component programmableRNAguided RNA-targeting CRISPR effector[C2c2是一种单组分可编程型RNA引导的RNA靶向性CRISPR效应子]"Science[科学]2016;353(6299),所述文献的内容通过引用并入本文。
a.锌指
在一些形式中,靶向碱基编辑器包括一个或多个锌指蛋白或锌指DNA结合结构域作为一个或多个靶向结构域。定制设计的碱基编辑器将脱氨酶结构域与锌指结构域组合,提供了一种将靶向(位点特异性)碱基编辑引入基因组的通用且有效的方法。
锌指是可以与DNA结合的蛋白质结构域大家族的一部分。锌指是真核生物中最常见的DNA结合基序之一。据估计,酵母基因组编码了500种锌指蛋白,所有哺乳动物基因中可能有1%编码含有锌指的蛋白。锌指由两条反向平行的β链以及α螺旋组成。锌离子对于这种结构域类型的稳定性至关重要-在没有金属离子的情况下,结构域会解折叠,因为它太小而无法具有疏水核心。每个单独手指的结构都高度保守,由大约30个氨基酸残基组成,构建为ββα折叠并由锌离子结合在一起。α-螺旋出现在手指的C末端部分,而β-片出现在N末端部分。
锌指蛋白根据可用于锌配位的半胱氨酸和组氨酸残基的数量和位置进行分类。以非洲爪蟾转录因子IIIA为代表的CCHH类是最大的。这些蛋白质包含两个或更多个串联重复的指。相比之下,类固醇受体仅包含半胱氨酸残基,其形成具有四个(C4)和五个(C5)半胱氨酸的两种类型的锌配位结构。另一类锌指包含CCHC指。CCHC指存在于果蝇、哺乳动物和逆转录病毒蛋白中,显示共有序列C-N2-C-N4-H-N4-C(SEQ ID NO:28)。C-N5-C-N12-H-N4-C(SEQID NO:29)类型的CCHC指的构型存在于神经锌指因子/髓鞘转录因子家族。最后,一些酵母转录因子(例如GAL4和CHA4)包含配位两个锌离子的非典型C6锌指结构。锌指通常多个拷贝(最多37个)/蛋白质存在。这些拷贝可以串联排列,形成单个簇或多个簇,或者它们可以分散在整个蛋白质中。
每个锌指基序通常被认为识别并结合三碱基对序列,因此,包含更多锌指的蛋白质靶向更长的序列,因此对靶位点具有更大的特异性和亲和力。在一些形式中,单独锌指结构域与3bp亚位点结合,而指阵列可以结合扩展的9或12bp序列靶标。
原则上可以设计为靶向任何目的基因组位置的锌指DNA结合结构域可以是Cys2His2锌指的串联阵列,每个锌指通常识别靶DNA序列中的三到四个核苷酸。Cys2His2结构域具有一般结构:Phe(有时是Tyr)-Cys-(2至4个氨基酸)-Cys-(3个氨基酸)-Phe(有时是Tyr)-(5个氨基酸)-Leu-(2个氨基酸)-His-(3个氨基酸)-His。通过将多个指连接在一起(数量各不相同:在已发表的研究中,每个单体使用了三到六个指),ZFN对可以设计为与18-36个核苷酸长的基因组序列结合。锌指蛋白与锌结合并形成结合DNA双螺旋大沟的结构域。每个DNA结合指中关键氨基酸的变化有助于结合亲和力和特异性。
已发表的文献描述了许多不同的公开可用的锌指工程改造方法,这些方法可大致分为两大类:(1)模块化组装方法,在该方法中将具有预先表征的特异性的各个指连接在一起,以设计与特定DNA序列结合的蛋白质,或(2)基于选择的方法,该方法需要多个大型随机文库(例如,利用噬菌体展示技术从随机化锌指文库中选择理想的突变体可生成DNA特异性结合结构域)。
工程改造方法包括但不限于理性设计和各类经验选择方法。合理设计包括例如使用三联体(或四联体)核苷酸序列和单个锌指氨基酸序列的数据库,其中每个三联体或四联体核苷酸序列与结合特定三联体或四联体序列的一个或多个锌指氨基酸序列相关联。参见例如,美国专利号6,140,081;6,453,242;6,534,261;6,610,512;6,746,838;6,866,997;7,067,617;美国公开申请号2002/0165356;2004/0197892;2007/0154989;2007/0213269;以及国际专利申请公开号WO 98/53059和WO 2003/016496。
许多研究表明,构建高质量多指结构域的关键要求是考虑较长阵列中单独指结构域的背景依赖性活性。用于构建多指结构域的寡聚池工程改造(OPEN)方法解决了单独锌指的背景依赖性活性,但也比之前描述的方法更稳健且相对更容易执行。参见国际专利申请公开号WO 2009/146179,其通过引用以其全文并入本文。OPEN是可扩展的,可用于为大量不同的靶位点并行生成高质量的多指结构域。OPEN是通过构建锌指池的大型档案来实现的,这些锌指池被设计以结合各种DNA序列。迄今为止,OPEN已被用于为超过500个不同的靶位点生成多指结构域,这些靶位点在基于细菌细胞的测定中发挥良好作用。
锌指核酸酶(ZFN),包括衍生自与切割结构域连接的锌指蛋白的DNA结合结构域(诸如IIS型酶Fokl),通常用于通过由非同源末端连接(NHEJ)修复的双链DNA断裂来诱导靶向(位点特异性)DNA突变(例如,缺失)。本文披露的靶向碱基编辑器可以以类似的方式使用,不同的是使用脱氨酶结构域代替切割结构域,导致与DNA切割相比的DNA的靶向碱基编辑。因此,用于工程改造含有一个或多个锌指蛋白或DNA结合结构域的碱基编辑器的方法是显而易见的,并且可以改编自本领域已知的用于产生ZFN的那些方法。
ZFN以二聚体发挥作用,每个单体都含有与一系列人工锌指融合的非特异性切割结构域,这些人工锌指被工程改造以结合目的靶DNA序列。因此,在一些形式中,所披露的靶向碱基编辑器还可以以二聚体发挥作用,这些二聚体结合至脱氨酶结构域的靶核苷酸序列侧翼(例如,上游和下游)的碱基编辑器靶序列。当(碱基编辑器的)脱氨酶结构域被拆分成两个不同的部分时,这特别有用。因此,在一些形式中,脱氨酶结构域的N末端部分连接至第一锌指结构域,而脱氨酶结构域的C末端部分连接至第二锌指结构域。两个锌指结构域和/或由锌指结构域结合的碱基编辑器靶序列可以但不必相同。可以设计和选择锌指结构域,使得两个锌指-脱氨酶结构域分子在靶核酸上最佳间隔开,使得它们二聚化。在一些形式中,这样的拆分靶向碱基编辑器仅能够在子组分组合(例如,共表达或共引入)并二聚化时使靶核苷酸序列脱氨基。
锌指结构多样,表现出广泛的功能,从DNA或RNA结合到蛋白质-蛋白质相互作用和膜关联。UniProtKB中注释了多于40个类型的锌指。最常见的是C2H2型、CCHC型、PHD型和RING型。实例包括UniProtKB登录号Q7Z142、P55197、Q9P2R3、Q9P2G1、Q9P2S6、Q8IUH5、P19811、Q92793、P36406、095081和Q9ULV3。
在一些形式中,锌指蛋白是(Q7Z142-1),其具有以下氨基酸序列:
或与SEQ ID NO:72具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
识别线粒体hND DNA区域的锌指
在一些形式中,锌指蛋白是左手侧(L)锌指(ZF)蛋白。在一些形式中,左手侧锌指蛋白是识别hND1 DNA序列的ZF。在一些形式中,识别hND1DNA序列的左手侧锌指蛋白是(ZF_hND-L1),其具有以下氨基酸序列:
或与SEQ ID NO:74具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别hND1 DNA序列的左手侧锌指蛋白是(ZF_hND-L2),其具有以下氨基酸序列:
或与SEQ ID NO:75具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别hND1 DNA序列的左手侧锌指蛋白是(ZF_hND-L3),其具有以下氨基酸序列:
或与SEQ ID NO:76具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别hND1 DNA序列的左手侧锌指蛋白是(ZF_hND-L4),其具有以下氨基酸序列:
或与SEQ ID NO:77具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,锌指蛋白是右手侧(R)锌指(ZF)蛋白。在一些形式中,右手侧锌指蛋白是识别hND1 DNA序列的ZF。在一些形式中,识别hND1DNA序列的右手侧锌指蛋白是:
或与SEQ ID NO:78具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别hND1 DNA序列的右手侧锌指蛋白是(ZF_hND-R2),其具有以下氨基酸序列:
或与SEQ ID NO:79具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别hND1 DNA序列的右手侧锌指蛋白是(ZF_hND-R3),其具有以下氨基酸序列:
或与SEQ ID NO:80具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别hND1 DNA序列的右手侧锌指蛋白是(ZF_hND-R4),其具有以下氨基酸序列:
或与SEQ ID NO:81具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
识别线粒体mCOX1 DNA区域的锌指
在一些形式中,左手侧锌指蛋白是识别mCOX DNA序列的ZF。在一些形式中,识别mCOX DNA序列的左手侧锌指蛋白是(ZF_mCOX1-L1),其具有以下氨基酸序列:
或与SEQ ID NO:82具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,左手侧锌指蛋白是识别mCOX1 DNA序列的ZF。在一些形式中,识别mCOX1 DNA序列的左手侧锌指蛋白是(ZF_mCOX1-L2),其具有以下氨基酸序列:
或与SEQ ID NO:83具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的左手侧锌指蛋白是(ZF_mCOX1-L3),其具有以下氨基酸序列:
或与SEQ ID NO:84具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的左手侧锌指蛋白是(ZF_mCOX1-L4),其具有以下氨基酸序列:
或与SEQ ID NO:85具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的左手侧锌指蛋白是(ZF_mCOX1-L5),其具有以下氨基酸序列:
或与SEQ ID NO:86具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的右手侧锌指蛋白是(ZF_mCOX1-R1),其具有以下氨基酸序列:
或与SEQ ID NO:87具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的右手侧锌指蛋白是(ZF_mCOX1-R2),其具有以下氨基酸序列:
或与SEQ ID NO:88具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的右手侧锌指蛋白是(ZF_mCOX1-R3),其具有以下氨基酸序列:
或与SEQ ID NO:89具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
b.转录激活子样(TAL)效应子
在一些形式中,靶向碱基编辑器包括一个或多个转录激活子样(TAL)效应子作为一个或多个靶向结构域。定制设计的碱基编辑器将脱氨酶结构域与TAL效应子组合,提供了一种将靶向(位点特异性)碱基编辑引入基因组的通用且有效的方法。
TAL效应子是植物病原细菌的蛋白质,由病原体注入植物细胞,进入细胞核并作为转录因子发挥作用,启动特定的植物基因。转录激活因子样效应子(TALE)的模块化DNA识别结构域最初是在黄单胞菌属病原细菌编码的天然转录因子中发现的,最近在青枯雷尔氏菌(Ralstonia solanacearum)中发现。黄单胞菌TALE在基因组工程改造领域应用最广泛。TAL效应子的一级氨基酸序列决定了其结合的核苷酸序列。因此,可以预测TAL效应子的靶位点,并且也可以为了结合特定核苷酸序列(例如本文所述的碱基编辑器靶序列)的目的而工程改造和生成TAL效应子。
TAL效应子DNA结合结构域内的每个模块都包含一段通常由34个残基组成的保守序列,其通过位置12和13的二残基(称为“重复可变二残基”(RVD))介导与单个核苷酸的相互作用。具有不同特异性的模块可以融合到定制的阵列中,而不会出现背景依赖性问题,而背景依赖性问题是生成锌指阵列的主要限制。因此,这种简单的“一个模块对应一个核苷酸”密码可以快速且经济地生成具有新颖特异性的TALE。
TAL效应子DNA结合结构域是氨基酸重复的串联序列,每个序列长约34个残基。这些重复彼此非常相似;通常它们主要在两个位置上不同(氨基酸12和13,称为重复可变残基,或RVD)。每个RVD指定优先结合四种可能的核苷酸之一,这意味着每个TALE重复结合单个碱基对,尽管已知NN RVD除了鸟嘌呤之外还结合腺嘌呤。RVD及其相应靶核苷酸的非限制性实例如下表1所示。还参见国际专利申请公开号WO 2010/079430,其通过引用以其全文并入本文。
表1.示例性RVD及其相应的靶核苷酸。
RVD 核苷酸
HD C
NG T
NI A
NN G或A
NS A或C或G
HG T
IG T
天然TALE对靶位点开头存在T有严格要求(T0规则),这是由TALE N末端结构域决定的特异性。已经描述了工程改造的TALE N末端结构域,其放宽这种特异性并允许以其他核苷酸开头的靶向序列(Lamb,B.M.,Mercer,A.C.和Barbas III,C.F.(2013).Directedevolution of the TALE N-terminal domain for recognition of all 5′bases.[用于识别所有5'碱基的TALE N末端结构域的定向演化]Nucleic acids research[核酸研究],41(21),9779-9785)。
TAL效应子DNA结合在机制上不如锌指蛋白那么了解,但它们看似更简单的代码有利于可编程的位点特异性DNA结合。TALE还具有相对较长的靶序列(迄今为止报道的最短者结合13个核苷酸/单体),并且似乎对结合位点之间的间隔子长度的要求不如ZFN严格。单体和二聚TALEN可包括多于10个、多于14个、多于20个或多于24个重复。
将TAL工程改造以与特异性核酸结合的方法描述于以下文献中:Cermak等人,Nucl.Acids Res.[核酸研究]1-11(2011)。美国公开申请号2011/0145940,其披露了TAL效应子以及使用它们修饰DNA的方法。Miller等人,Nature Biotechnol[自然生物科技]29:143(2011)报道了通过将TAL截短变体与Fokl核酸酶的催化结构域连接来制备用于位点特异性核酸酶架构的转录激活子样效应物核酸酶(TALEN)。由此产生的TALEN可以诱导永生化人细胞的基因修饰。TALE结合结构域的一般设计原理可以在例如WO 2011/072246(其特此通过引用以其全文并入)中找到。
序列特异性TALE可以识别预选靶核酸(例如,存在于染色体或线粒体DNA上)内的特定序列。因此,在一些形式中,可以扫描靶核苷酸序列的TALE识别位点,并且可以基于靶序列选择特定的TALE。在其他形式中,TALE可以被工程改造为靶向特定序列。可以设计包含多个DNA结合重复的序列特异性TAL效应子,这些重复组合起来与碱基编辑器靶序列结合。如本文所述,TAL效应子包括许多不完全的重复,这些重复决定了它们与DNA相互作用的特异性。每个重复结合单个碱基,具体取决于重复序列残基12和13处的特定二氨基酸序列。因此,通过工程改造TAL效应子内的重复(例如,使用本领域已知的标准技术),可以靶向特定的DNA位点。
与ZFN类似,一些TALEN含有仅以二聚体发挥作用的核酸内切酶(例如Fokl),可利用其来增强TAL效应子的靶点特异性。例如,在一些情况下,每个Fokl单体都可以与识别不同DNA靶序列的TAL效应子序列融合,并且只有当两个识别位点非常接近时,非活性单体才会聚集在一起以创建功能性TALEN。本文披露的靶向碱基编辑器可以以类似的方式使用,不同的是使用脱氨酶结构域代替核酸内切酶(例如,Fokl),导致与DNA切割相比的DNA的靶向碱基编辑。因此,用于工程改造含有一个或多个TAL效应子的碱基编辑器的方法是显而易见的,并且可以改编自本领域已知的用于产生TALEN的那些方法。
如上所述,当使用锌指作为碱基编辑器的一个或多个靶向结构域时,所披露的包含TAL效应子作为靶向结构域的靶向碱基编辑器也可以在一些形式中以二聚体发挥作用。因此,在一些形式中,所披露的靶向碱基编辑器可以以二聚体发挥作用,这些二聚体结合至脱氨酶结构域的靶核苷酸序列侧翼(例如,上游和下游)的碱基编辑器靶序列。当(碱基编辑器的)脱氨酶结构域被拆分成两个不同的部分时,这特别有用。因此,在一些形式中,脱氨酶结构域的N末端部分连接至第一TAL效应子,而脱氨酶结构域的C末端部分连接至第二TAL效应子。两个TAL效应子和/或由TAL效应子结合的碱基编辑器靶序列可以但不必相同。可以设计和选择TAL效应子,使得两个TALE-脱氨酶结构域分子在靶核酸上最佳间隔开,使得它们二聚化。在一些形式中,这样的拆分靶向碱基编辑器仅能够在子组分组合(例如,共表达或共引入)并二聚化时使靶核苷酸序列脱氨基。
在一些形式中,TALE蛋白是左手侧(L)TALE蛋白或右手侧(R)TALE蛋白。在一些形式中,TALE蛋白是识别hND1 DNA序列的TALE。
识别hND DNA区域的TALE
在一些形式中,识别hND1 DNA序列的左手侧TALE蛋白是(TALE_hND-L1),其具有以下氨基酸序列:
或与SEQ ID NO:90具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别hND1 DNA序列的右手侧TALE蛋白是(TALE_hND-R1),其具有以下氨基酸序列:
或与SEQ ID NO:91具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,TALE蛋白是识别mND6 DNA序列的TALE。在一些形式中,识别mND6DNA序列的左手侧TALE蛋白是(TALE_mND6-L1),其具有以下氨基酸序列:
或与SEQ ID NO:92具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mND6 DNA序列的右手侧TALE蛋白是(TALE_mND6-R1),其具有以下氨基酸序列:
或与SEQ ID NO:93具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mND6 DNA序列的右手侧TALE蛋白是(TALE_mND6-R2),其具有以下氨基酸序列:
或与SEQ ID NO:94具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,TALE蛋白是识别mND1 DNA序列的TALE。在一些形式中,识别mND1DNA序列的左手侧TALE蛋白是(TALE_mND1-L1),其具有以下氨基酸序列:
或与SEQ ID NO:95具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mND1 DNA序列的左手侧TALE蛋白是(TALE_mND1-L2),其具有以下氨基酸序列:
或与SEQ ID NO:96具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,TALE蛋白是识别h11 DNA序列的TALE。在一些形式中,识别h11 DNA序列的TALE蛋白是(TALE_h11),其具有以下氨基酸序列:
或与SEQ ID NO:97具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,TALE蛋白是识别h12 DNA序列的TALE。在一些形式中,识别h12 DNA序列的TALE蛋白是(TALE_h12),其具有以下氨基酸序列:
或与SEQ ID NO:98具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,TALE蛋白是识别mCOX1 DNA序列的TALE。在一些形式中,识别mCOX1DNA序列的左手侧TALE蛋白是(TALE_mCOX1-L1),其具有以下氨基酸序列:
或与SEQ ID NO:99具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的左手侧TALE蛋白是(TALE_mCOX1-L2),其具有以下氨基酸序列:
或与SEQID NO:100具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的左手侧TALE蛋白是(TALE_mCOX1-L3),其具有以下氨基酸序列:
或与SEQ ID NO:101具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的左手侧TALE蛋白是(TALE_mCOX1-L4),其具有以下氨基酸序列:
或与SEQ ID NO:102具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的左手侧TALE蛋白是(TALE_mCOX1-L5),其具有以下氨基酸序列:
或与SEQ ID NO:103具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的左手侧TALE蛋白是(TALE_mCOX1-L6),其具有以下氨基酸序列:
或与SEQ ID NO:104具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的左手侧TALE蛋白是(TALE_mCOX1-L7),其具有以下氨基酸序列:
或与SEQ ID NO:105具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的左手侧TALE蛋白是(TALE_mCOX1-L7),其具有以下氨基酸序列:
或与SEQ ID NO:106具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的右手侧TALE蛋白是(TALE_mCOX1-R1),其具有以下氨基酸序列:
或与SEQ ID NO:108具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的右手侧TALE蛋白是(TALE_mCOX1-R2),其具有以下氨基酸序列:
或与SEQ ID NO:109具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的右手侧TALE蛋白是(TALE_mCOX1-R3),其具有以下氨基酸序列:
或与SEQ ID NO:110具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的右手侧TALE蛋白是(TALE_mCOX1-R4),其具有以下氨基酸序列:
或与SEQ ID NO:111具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的右手侧TALE蛋白是(TALE_mCOX1-R5),其具有以下氨基酸序列:
或与SEQ ID NO:112具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,识别mCOX1 DNA序列的右手侧TALE蛋白是(TALE_mCOX1-R6),其具有以下氨基酸序列:
或与SEQ ID NO:113具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,TALE蛋白识别NT(G)DNA序列(TALE_NT(G))并具有以下氨基酸序列:
或与SEQ ID NO:114具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,TALE蛋白识别NT(bN)DNA序列(TALE_NT(bN))并具有以下氨基酸序列:
或与SEQ ID NO:115具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
c.BAT蛋白
在一些形式中,DNA结合蛋白是TALE样(例如,BAT)蛋白。与TALE不同,天然BAT不遵循T0规则,并且在其N末端结构域具有宽松的特异性,因此它们可以设计为与具有任何起始核苷酸的靶标结合。在一些形式中,BAT蛋白是左手侧BAT蛋白或右手侧BAT蛋白。在一些形式中,BAT蛋白是识别hND1 DNA序列的左手侧BAT蛋白。在一些形式中,识别hND1 DNA序列的左手侧BAT蛋白是(BAT_hND1-L),其具有以下氨基酸序列:
或与SEQ ID NO:106具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,BAT蛋白是识别hND1 DNA序列的右手侧BAT蛋白。在一些形式中,识别hND1 DNA序列的右手侧BAT蛋白是(BAT_hND1-R),其具有以下氨基酸序列:
或与SEQ ID NO:117具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,BAT蛋白是识别mCOX1 DNA序列的左手侧BAT蛋白。在一些形式中,识别mCOX1 DNA序列的左手侧BAT蛋白是(BAT_mCOX1-L),其具有以下氨基酸序列:
或与SEQ ID NO:118具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,BAT蛋白是识别mCOX1 DNA序列的右手侧BAT蛋白。在一些形式中,识别mCOX1 DNA序列的右手侧BAT蛋白是(BAT_mCOX1-R),其具有以下氨基酸序列:
或与SEQ ID NO:119具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,BAT蛋白是识别mND6 DNA序列的左手侧BAT蛋白。在一些形式中,识别mND6 DNA序列的左手侧BAT蛋白是(BAT_mND6-L),其具有以下氨基酸序列:
或与SEQ ID NO:120具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
在一些形式中,BAT蛋白是识别mND6 DNA序列的右手侧BAT蛋白。在一些形式中,识别mND6 DNA序列的右手侧BAT蛋白是(BAT_mND6-R),其具有以下氨基酸序列:
或与SEQ ID NO:121具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
d.CRISPR-Cas效应子蛋白
在一些形式中,靶向碱基编辑器包括一个或多个Crispr-Cas效应子蛋白作为一个或多个靶向结构域。CRISPR-Cas系统的优点是,它不需要生成针对特定序列的定制蛋白,而是可以通过指导分子对单个Cas蛋白进行编程来识别特定的核酸靶标。换言之,可以使用所述指导分子将Crispr-Cas效应子蛋白募集至特定的目的核酸靶基因座。
优选地,CRISPR-Cas效应子蛋白被认为基本上缺乏所有DNA切割活性(例如,当突变型酶的DNA切割活性不超过该酶的非突变形式的DNA切割活性的约25%、10%、5%、1%、0.1%、0.01%或更少时)。实例可以是当突变形式的DNA切割活性是零或与非突变形式相比是可忽视的时候。在这种形式中,CRISPR-Cas蛋白被用作通用DNA结合蛋白。
CRISPR(成簇规则间隔短回文重复)是包含碱基序列的多个短直接重复的DNA基因座的缩写。原核CRISPR/Cas系统已适用于用作在真核生物中使用的基因编辑(沉默、增强或改变特异性基因)(参见例如,Cong,Science[科学],15:339(6121):819–823(2013)和Jinek等人,Science[科学],337(6096):816-21(2012))。制备用于使用CRISPR/Cas系统进行基因组编辑的组合物的方法详细描述于WO 2013/176772和WO 2014/018423(通过引用以其全文并入本文)中。
如本文所用,术语“Cas”通常指CRISPR-Cas系统或复合物的效应子蛋白。术语“Cas”可以与术语“CRISPR”蛋白、“CRISPR-Cas蛋白”、“CRISPR效应子”、“CRISPR-Cas效应子”、“CRISPR酶”、“CRISPR-Cas酶”等互换使用,除非另有明显说明。通常,一般而言,“CRISPR系统”统指涉及CRISPR相关(“Cas”)基因的表达或指导其活性的转录物和其他元件,包括编码Cas基因的序列、tracr(反式激活CRISPR)序列(例如tracrRNA或活性部分tracrRNA)、tracr-配对序列(在内源CRISPR系统的上下文中包含“直接重复”和tracrRNA处理的部分直接重复)、指导序列(在内源CRISPR系统的上下文中也称为“间隔子”)、或来自CRISPR基因座的其他序列和转录物。可操作地连接至指导序列(例如,同向重复-间隔子-同向重复)的一个或多个tracr配对序列也可被称为加工前的前crRNA(前CRISPR RNA)或被核酸酶加工后的crRNA。
在一些形式中,tracrRNA和crRNA连接并形成嵌合crRNA-tracrRNA杂合体,其中成熟的crRNA通过合成茎环与部分tracrRNA融合以模拟天然的crRNA:tracrRNA双链体,如Cong,Science[科学],15:339(6121):819–823(2013)和Jinek等人,Science[科学],337(6096):816-21(2012)中所描述的。单个融合的crRNA-tracrRNA构建体也可称为指导RNA或gRNA(或单指导RNA(sgRNA))。在sgRNA中,crRNA部分可被鉴定为“靶序列”,而tracrRNA通常被称为“支架”。
Crispr-Cas效应子蛋白可以是但不限于II型、V型或VI型Cas效应子蛋白。
Crispr-Cas效应子蛋白的非限制性实例包括Casl、CaslB、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csnl和Csxl2)、CaslO、Csyl、Csy2、Csy3、Csel、Cse2、Cscl、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmrl、Cmr3、Cmr4、Cmr5、Cmr6、Csbl、Csb2、Csb3、Csxl7、Csxl4、CsxlO、Csxl6、CsaX、Csx3、Csxl、Csxl5、Csfl、Csf2、Csf3、Csf4、其同系物、或其经修饰形式。在一些形式中,未修饰的CRISPR酶具有DNA切割活性。优选地,Crispr-Cas效应子蛋白相对于相应的野生型酶是突变的,使得突变的CRISPR酶缺乏切割含有靶序列的靶多核苷酸的一条或两条链的能力。
(1)Cas9
在一些形式中,II型CRISPR酶是Cas9酶,例如国际专利申请公开号WO/2014/093595中所披露的。在一些形式中,Cas9酶是肺炎链球菌、酿脓链球菌或嗜热链球菌Cas9,并且可以包括衍生自这些生物体的突变Cas9。该酶可以是Cas9同系物或直向同源物。另外的直向同源物包括例如来自以下的Cas9酶:白喉杆菌(Corynebacter diptheriae)、凸腹真杆菌(Eubacterium ventriosum)、巴氏链球菌(Streptococcus pasteurianus)、香肠乳杆菌(Lactobacillus farciminis)、Sphaeroachaeta globus、固氮螺菌属(Azospirillum)B510、嗜重氮葡糖醋杆菌(Gluconacetobacter diazotrophicus)、灰色奈瑟氏菌(Neisseria cinereal)、肠罗氏菌(Roseburia intestinalis)、Parvibaculumlavamentivorans、金黄色葡萄球菌(Staphylococcus aureus)、Nitratifractorsalsuginis DSM 16511、拉里弯杆菌(Camplyobacter lari)CF89-12、和嗜热链球菌(Streptococcus thermophilus)LMD-9。
在一些形式中,Cas9效应子蛋白及其直向同源物可以被修饰以增强功能。例如,CRISPR-Cas9系统的改进的靶标特异性可以通过包括但不限于以下各项的方法来实现:设计和制备具有最佳活性的指导RNA;选择特定长度的Cas9酶;通过截短编码Cas9酶的核酸分子截短Cas9酶以使其长度小于对应的野生型Cas9酶并生成嵌合Cas9酶,其中酶的不同部分在不同直向同源物之间互换或交换,以达到具有定制特异性的嵌合酶。
Cas9酶可以包含一个或多个突变,并且可以用作通用DNA结合蛋白,与功能结构域融合或不与功能结构域融合或可操作地连接。突变可以是人工引入的突变并且可以包括但不限于催化结构域中的一个或多个突变。参照Cas9酶,催化结构域的实例可以包括但不限于RuvC I、RuvC II、RuvC III以及HNH结构域。合适突变的优选实例是Cas9的N末端RuvC I结构域中的一个或多个催化残基或内部HNH结构域中的一个或多个催化残基。在一些形式中,Cas9是(或衍生自)酿脓链球菌Cas9(SpCas9)。在此类形式中,优选的突变位于SpCas9的位置10、762、840、854、863和/或986中的任何或所有位置处或参考SpCas9的位置编号的其他Cas9直向同源物中的对应位置处(其可例如通过标准序列比对工具(例如Lasergene 10套件的ClustalW或MegAlign)确定)。特别地,SpCas9中优选以下任何或所有突变:D10A、E762A、H840A、N854A、N863A和/或D986A;还设想了对任何替代氨基酸的保守取代。参考SpCas9在其他Cas9直向同源物中的位置编号,在相应位置处的相同突变(或这些突变的保守取代)也是优选的。特别优选的是SpCas9中的D10和H840。然而,在其他Cas9中,对应于SpCas9 D10和H840的残基也是优选的。这些是有利的,因为当单独突变时,它们提供切口酶活性,并且当两种突变都存在时,Cas9被转换为催化无效突变体,这对于通用DNA结合是有用的。
在一些示例形式中,Cas9蛋白可包含诱导型二聚体,或包含以下或基本上由以下组成或由以下组成:诱导型异二聚体。在一些形式中,诱导型异二聚体的第一半部分或第一部分或第一片段是以下或包含以下或由以下组成或基本上由以下组成:FKBP(任选地FKBP12)。在诱导型CRISPR-Cas系统的一些形式中,诱导型异二聚体的第二半部分或第二部分或第二片段是以下或包含以下或由以下组成或基本上由以下组成:FRB。第一CRISPR酶融合构建体的排列可以包含以下或由以下组成或基本上由以下组成:N’末端Cas9部分-FRB-NES。第一CRISPR酶融合构建体的排列还可以包含以下或由以下组成或基本上由以下组成:NES-N’末端Cas9部分-FRB-NES。第二CRISPR酶融合构建体的排列可以包含以下或基本上由以下组成或由以下组成:C'末端Cas9部分-FKBP-NLS。第二CRISPR酶融合构建体的排列可以包含以下或由以下组成或基本上由以下组成:NLS-C’末端Cas9部分-FKBP-NLS。可以存在将Cas9部分与诱导型二聚体的一半或部分或片段分开的接头。诱导物能量源可包含以下或基本上由以下组成或由以下组成:雷帕霉素。诱导型二聚体可以是诱导型同二聚体。在一些形式中,在诱导型CRISPR-Cas系统中,CRISPR酶是Cas9,例如SpCas9或SaCas9。在诱导型CRISPR-Cas系统的一些形式中,根据或参考SpCas9,Cas9在以下任一拆分点处拆分成两部分:202A/203S之间的拆分位置;255F/256D之间的拆分位置;310E/311I之间的拆分位置;534R/535K之间的拆分位置;572E/573C之间的拆分位置;713S/714G之间的拆分位置;1003L/104E之间的拆分位置;1054G/1055E之间的拆分位置;1114N/1115S之间的拆分位置;1152K/1153S之间的拆分位置;1245K/1246G之间的拆分位置;或1098和1099之间的拆分。
在一些形式中,使用嵌合Cas9蛋白。嵌合Cas9蛋白是包含源自不同Cas9直向同源物的片段的蛋白质。例如,第一Cas9直向同源物的N末端可以与第二Cas9直向同源物的C末端融合以产生所得Cas9嵌合蛋白。这些嵌合Cas9蛋白可能比产生嵌合蛋白的单个Cas9酶的原始特异性或效率具有更高的特异性或更高的效率。这些嵌合蛋白还可包含一个或多个突变或可连接至一个或多个功能结构域。
具有不同PAM特异性的Cas9蛋白也适用。通常,Cas9蛋白,例如来自酿脓链球菌(spCas9)的Cas9,需要规范的NGG PAM序列来结合特定的核酸区域。在一些形式中,碱基编辑器可能需要放置在精确的位置,例如靶碱基放置在4个碱基区域内(例如“脱氨基窗口”),该区域位于PAM上游大约15个碱基处。参见Komor,A.C.等人,Nature[自然]533,420-424(2016),所述文献的全部内容特此通过引用并入。因此,在一些形式中,碱基编辑器可以含有能够结合不含有规范(例如,NGG)PAM序列的核苷酸序列的Cas9蛋白。结合非规范PAM序列的Cas9结构域已在本领域中描述并且对于本领域技术人员来说是显而易见的。例如,结合非规范PAM序列的Cas9结构域已被描述于以下文献中:Kleinstiver,BP.等人,Nature[自然]523,481-485(2015);和Kleinstiver,BP.等人,Nature Biotechnology[自然生物技术]33,1293-1298(2015);每一篇的全部内容均通过引用并入本文。
在优选的形式中,CRISPR酶是死Cas(dCas),其是具有降低的核酸酶活性的CRISPR酶。例如,与不具有任何突变的CRISPR酶相比,核酸酶活性可以减少至少97%或100%(即,不超过3%,有利地0%核酸酶活性)。在一些形式中,dCas可以是死Cas9(dCas9)。在一些形式中,dCas9可包含至少一个突变或两个或更多个突变。在一些形式中,至少一个突变可以在位置H840处(或在任何相应直向同源物中的相应位置处)。在一些形式中,两个或更多个突变可以包含根据SpCas9蛋白的位置D10、E762、H840、N854、N863或D986(或任何对应直向同源物中的对应位置)中的两个或更多个位置处、根据SaCas9蛋白的位置N580处的突变。
(2)Cas12a(Cpf1)
在一些形式中,CRISPR效应子是2类V型CRISPR效应子。在一些形式中,CRISPR效应子是2类V-A型;2类V-B型;2类V-C型;2类V-U型;2类V-U1型;2类V-U2型;2类V-U3型;2类V-U4型;或2类V-U5型CRISPR效应子。
在一些形式中,CRISPR效应子是Cas12a(Cpf1)。Cas12s效应子蛋白包括衍生自以下属的生物体的效应子蛋白,该属包括链球菌属、弯曲杆菌属、Nitratifractor、葡萄球菌属、细小棒菌属(Parvibaculum)、罗氏菌属、奈瑟氏菌属(Neisseria)、葡糖醋杆菌属、固氮螺菌属、Sphaerochaeta、乳酸杆菌属、真细菌属、棒状杆菌属、肉杆菌属(Carnobacterium)、红细菌属、李斯特菌属(Listeria)、帕鲁迪菌属(Paludibacter)、梭菌属、毛螺旋菌科(Lachnospiraceae)、Clostridiaridium、纤毛菌属、弗朗西丝菌属、军团杆菌属、脂环酸芽孢杆菌属、甲烷嗜甲基菌(Methanomethyophilus)、卟啉单胞菌属(Porphyromonas)、普雷沃菌属、拟杆菌门、创伤球菌属(Helcococcus)、钩端螺旋体属(Letospira)、脱硫弧菌属、脱硫盐碱杆菌属(Desulfonatronum)、丰祐菌科(Opitutaceae)、肿块芽孢杆菌属(Tuberibacillus)、芽孢杆菌属、短芽孢杆菌属、甲基杆菌属或氨基酸球菌属。
在一些形式中,效应子蛋白(例如,Cpf1)包含来自以下生物体的效应子蛋白(例如,Cpf1):变异链球菌(S.mutans)、无乳链球菌、似马链球菌(S.equisimilis)、血链球菌(S.sanguinis)、肺炎链球菌;空肠弯曲杆菌(C.jejuni)、大肠弯曲杆菌;N.salsuginis、N.tergarcus;耳葡萄球菌(S.auricularis)、肉葡萄球菌(S.carnosus);脑膜炎奈瑟氏菌(N.meningitides)、淋病奈瑟氏菌(N.gonorrhoeae);单核增生李斯特菌、伊氏李斯特菌(L.ivanovii);肉毒梭菌(C.botulinum)、艰难梭菌、破伤风梭菌(C.tetani)、索氏梭菌(C.sordellii)。
效应子蛋白可以包括嵌合效应子蛋白,该嵌合效应子蛋白包含来自第一效应子蛋白(例如Cpf1)直向同源物的第一片段和来自第二效应子蛋白(例如Cpf1)直向同源物的第二片段,并且其中第一效应子蛋白直向同源物和第二效应子蛋白直向同源物是不同的。Cpf1效应子蛋白可以被修饰,例如工程改造或非天然存在的效应子蛋白或Cpf1。在一些形式中,修饰可以包括效应子蛋白的一个或多个氨基酸残基的突变。一个或多个突变可以处于效应子蛋白的一个或多个催化活性结构域中。与缺乏所述一个或多个突变的效应子蛋白相比,该效应子蛋白可以具有降低或废除的核酸酶活性。在优选的形式中,一个或多个突变可以包括两个突变。效应子蛋白不可以引导感兴趣的靶座位处的一条或另一条DNA或RNA链的切割。在优选的形式中,Cpf1效应子蛋白是FnCpf1效应子蛋白。在优选的形式中,参照FnCpf1效应子蛋白的氨基酸位置编号,一个或多个修饰或突变的氨基酸残基是D917A、E1006A或D1255A。在进一步优选的形式中,一个或多个突变的氨基酸残基是参照AsCpf1中的氨基酸位置的D908A、E993A和D1263A,或参照LbCpf1中的氨基酸位置的LbD832A、E925A、D947A和D1180A。
在一些形式中,两个或更多个突变中的一个或多个突变可以位于效应子蛋白的催化活性结构域中,包括RuvC结构域。在一些形式中,RuvC结构域可包含RuvCI、RuvCII或RuvCIII结构域,或与RuvCI、RuvCII或RuvCIII结构域同源的催化活性结构域。可使用本文披露的组合物递送的另外的Cas12a酶在国际专利申请号WO/2016/205711、WO/2017/106657和WO/2017/172682中讨论。
在一些形式中,原型间隔子相邻基序(PAM)或PAM样基序指导效应子蛋白复合物与目的靶基因座的结合。在一些形式中,PAM是5'TTN,其中N是A/C/G或T,效应子蛋白是FnCpf1p。在一些形式中,PAM是5’TTTV,其中V是A/C或G,效应子蛋白是AsCpf1、LbCpf1或PaCpf1p。在一些形式中,PAM是5’TTN,其中N是A/C/G或T,效应子蛋白是FnCpf1p,并且PAM位于原型间隔子5’末端的上游。在一些形式中,PAM是5’CTA,其中效应子蛋白是FnCpf1p,并且PAM位于原型间隔子或靶基因座的5’末端的上游。
e.碱基切除修复抑制剂
在一些形式中,靶向碱基编辑器进一步包括碱基切除修复(BER)抑制剂。碱基切除修复可纠正不会显著扭曲DNA螺旋结构的小碱基损伤。这种损伤通常是由脱氨基、氧化或甲基化造成的。BER发生在细胞核和线粒体中,主要使用不同的蛋白质亚型或遗传上较远的蛋白质。BER由DNA糖基化酶启动,该酶识别并去除受损碱基,留下脱碱基位点,并通过短补丁修复或长补丁修复进一步处理。至少有11种不同的哺乳动物DNA糖基化酶是已知的,每一种都能识别一些相关的损伤,并且通常在特异性上有一些重叠。
对由披露的脱氨酶或碱基编辑器对靶核苷酸脱氨基引起的错配(例如I:T;U:G)的存在的DNA修复(例如BER)响应可能导致在细胞中完成所期望碱基编辑的效率降低。因此,BER抑制剂可以抑制或减少不期望的BER活性,从而将DNA恢复到其原始状态。
例如,腺嘌呤的脱氨基作用导致次黄嘌呤的形成(本文中用“I”表示肌苷,由次黄嘌呤形成的核苷)。对I:T配对存在的BER响应可能是细胞中碱基编辑效率降低的原因。烷基腺嘌呤DNA糖基化酶(也称为DNA-3-甲基腺嘌呤糖基化酶、3-烷基腺嘌呤DNA糖基化酶或N-甲基嘌呤DNA糖基化酶)催化细胞中次黄嘌呤从DNA中去除,这可以启动碱基切除修复,从而导致I:T对逆转为A:T对。
因此,在一些形式中,BER抑制剂是烷基腺嘌呤DNA糖基化酶(例如,人烷基腺嘌呤DNA糖基化酶)的抑制剂。在一些形式中,BER抑制剂是多肽抑制剂。在一些形式中,BER抑制剂是结合次黄嘌呤的蛋白质(例如,在DNA中)。在一些形式中,BER抑制剂是无催化活性的烷基腺嘌呤DNA糖基化酶蛋白或其结合结构域。在一些形式中,BER抑制剂是不从DNA切除次黄嘌呤的无催化活性的烷基腺嘌呤DNA糖基化酶蛋白或其结合结构域。能够抑制(例如,空间阻断)烷基腺嘌呤DNA糖基化酶碱基切除修复酶的其他蛋白质也是合适的。此外,任何阻断或抑制碱基切除修复的蛋白质也是有用的。
胞嘧啶脱氨基导致尿嘧啶(“U”)的形成。对U:G配对存在的BER响应可能是细胞中碱基编辑效率降低的原因。至少四种不同的人DNA糖基化酶可以去除尿嘧啶,从而启动碱基切除修复,导致U:G对回复为C:G对。这些酶称为尿嘧啶DNA糖基化酶(UDG),包括UNG、SMUG1、TDG和MBD4。
因此,在一些形式中,BER抑制剂是尿嘧啶糖基化酶抑制剂(“UGI”)。优选地,UGI是能够抑制尿嘧啶-DNA糖基化酶碱基切除修复酶的肽或蛋白质,例如上面列出的那些。本文使用的术语“尿嘧啶糖基化酶抑制剂”或“UGI”是指能够抑制尿嘧啶-DNA糖基化酶碱基切除修复酶的蛋白质。在一些形式中,UGI结构域包括野生型UGI或如SEQ ID NO:21中所示的UGI。在一些形式中,本文提供的UGI蛋白包括UGI片段和与UGI或UGI片段同源的蛋白。例如,在一些形式中,UGI结构域包括SEQ ID NO:21中所示的氨基酸序列的片段。在一些形式中,UGI包含以下氨基酸序列或其片段:
在一些形式中,UGI包含与SEQ ID NO:21所示的氨基酸序列具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性的氨基酸序列。在一些形式中,UGI是结合单链DNA的蛋白质(例如,塔斯马尼亚欧文菌(Erwinia tasmaniensis)单链结合蛋白)。在一些形式中,UGI抑制剂是结合尿嘧啶(例如DNA中的尿嘧啶)的蛋白质。在一些形式中,尿嘧啶糖基化酶抑制剂是无催化活性的尿嘧啶DNA-糖基化酶(例如,不从DNA切除尿嘧啶的UDG)。其他合适的UGI在本领域中是已知的并且包括例如以下文献中描述的那些:Wang等人,J.Biol.Chem.[生物化学杂志]264:1163-1171(1989);Lundquist等人,J.Biol.Chem.[生物化学杂志]272:21408-21419(1997);Ravishankar等人,Nucleic Acids Res.[核酸研究]26:4880-4887(1998);Putnam等人,J.Mol.Biol.[分子生物学杂志]287:331-346(1999)和U.S.2019/0093099,所述文献中的每一个的全部内容通过引用并入本文。因此,在一些形式中,碱基编辑器包含规范的UGI氨基酸序列,即:
不希望受任何特定理论的束缚,碱基切除修复可以被结合经编辑的链、阻断经编辑的碱基、抑制烷基腺嘌呤DNA糖基化酶、抑制一个或多个尿嘧啶DNA糖基化酶、抑制碱基切除修复、保护经编辑的碱基和/或促进未编辑链的固定的分子抑制。认为BER抑制剂的使用可以提高能够实现A至G碱基编辑或C至T碱基编辑的脱氨酶或其碱基编辑器的编辑效率。
在一些形式中,另外包括BER抑制剂的碱基编辑器符合以下架构/结构:
NH2[脱氨酶结构域]-[功能结构域]-[BER抑制剂]COOH;
NH2[脱氨酶结构域]-[BER抑制剂]-[功能结构域]COOH;
NH2[BER抑制剂]-[脱氨酶结构域]-[功能结构域]COOH;
NH2[BER抑制剂]-[功能结构域]-[脱氨酶结构域]COOH
NH2[功能结构域]-[脱氨酶结构域]-[BER抑制剂]COOH
NH2[功能结构域]-[BER抑制剂]-[脱氨酶结构域]COOH
其中NH2是碱基编辑器的N末端,COOH是碱基编辑器的C末端,“-”表示存在任选的接头。优选地,功能结构域是靶向结构域,例如DNA结合蛋白或结构域,例如锌指、TAL效应子或Crispr-Cas效应子。
4.接头
接头可用于融合或连接本文所述的任何结构域。一般而言,此类接头除了连接或保持结构域之间的某些最小距离或其他空间关系之外没有特定的生物活性。然而,在某些形式中,可以选择接头以影响接头和/或所连接的组分的一些性质,例如接头的折叠、柔性、净电荷或疏水性。在特定形式中,碱基编辑器包含一个或多个接头,以将脱氨酶结构域和功能(例如,靶向)结构域分开足够的距离,以确保每个结构域保留其所需的功能特性。
典型地,接头位于两个基团、分子或其他部分之间或两侧是两个基团、分子或其他部分,并且通过共价键连接每一个,从而连接两者。接头可以是简单的共价键,或者它可以是长度为许多原子的聚合接头。接头可以是氨基酸或多个氨基酸(例如,肽或蛋白质)。在优选的形式中,接头含有氨基酸。在一些形式中,接头优选是肽。优选的肽接头序列采用柔性延伸构象并且不表现出形成有序二级结构的倾向。优选地,接头包含氨基酸。柔性接头中的典型氨基酸包括Gly(G)、Asn(N)和Ser(S)。因此,在特定形式中,接头含有Gly(G)、Asn(N)和Ser(S)氨基酸中的一个或多个的组合。其他近中性氨基酸,例如Thr(T)和Ala(A),也可用于接头序列中。
在一些形式中,接头的长度可以是2-200个氨基酸,例如2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150或150-200个氨基酸。更长或更短的接头也是合适的。GlySer接头例如GS、GGS、GGGS(SEQ ID NO:23)或GSG可以以3、4、5、6、7、9、12或更多的重复使用,以提供合适的长度。合适的接头包括但不限于(GGGS)n(SEQ ID NO:23)、(SGGS)n(SEQ ID NO:24)、(GGGGS)n(SEQ ID NO:25)、(EAAAK)n(SEQ ID NO:26)、(G)n、(GGS)n、SGSETPGTSESATPES(SEQ ID NO:27;称为XTEN接头)和(XP)n,或任何这些的组合,其中n独立地是1至30之间的整数,并且其中X是任何氨基酸。在一些形式中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些形式中,N末端和C末端NLS也可以充当接头(例如,PKKKRKVEASSPKKRKVEAS;SEQ ID NO:30)。
在其他形式中,接头不是肽样的。接头可以是有机分子、基团、聚合物或化学部分。在某些形式中,接头是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在一些形式中,接头是酰胺连接的碳-氮键。在一些形式中,接头是环状或无环、经取代或未取代、支链或非支链脂族或杂脂族接头。在一些形式中,接头是聚合的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在一些形式中,接头包括氨基链烷酸的单体、二聚体或聚合物。在一些形式中,接头包括氨基链烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在一些形式中,接头包括氨基己酸(Ahx)的单体、二聚体或多聚体。在一些形式中,接头基于碳环部分(例如,环戊烷、环己烷)、聚乙二醇部分(PEG)、或芳基或杂芳基部分。在一些形式中,接头基于苯环。接头可包括官能化部分以促进亲核体(例如,硫醇、氨基)从肽附接至接头。任何亲核体都可以用作接头的一部分。示例性亲核体包括但不限于活化酯、活化酰胺、迈克尔受体、烷基卤、芳基卤、酰基卤和异硫氰酸酯。
示例性接头披露于以下:Maratea等人(1985),Gene[基因]40:39-46;Murphy等人,(1986)Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]83:8258-62;美国专利号4,935,233;和4,751,180。
i.卷曲螺旋接头
在一些形式中,脱氨酶、拆分脱氨酶结构域、碱基编辑器、靶向结构域或其他披露的结构域、蛋白质或多肽可以与接头融合或可操作地连接,这些接头包括但不限于具有卷曲螺旋构型的蛋白质。
在一些形式中,卷曲螺旋接头具有与另一个卷曲螺旋接头配对的序列。例如,在一些形式中,两个或更多个不同的卷曲螺旋接头共定位以提供更刚性的构象,其可以限制和指导碱基编辑器在靶DNA链上的位置。例如,在一些形式中,碱基编辑器包括与第一卷曲螺旋接头结合的拆分脱氨酶蛋白结构域和与第二卷曲螺旋接头结合的第二拆分脱氨酶结构域。卷曲螺旋结构域的共定位提供了更刚性的接头来指导共定位脱氨酶结构域在靶DNA链上的位置。在一些形式中,第一卷曲螺旋接头包括以下氨基酸序列:GGGSGGSGEIAALEAKNAALKAEIAALEAKIAALKAGY(SEQ ID NO:184)。在其他形式中,卷曲螺旋包含与SEQ ID NO:184具有约50%、55%、60%、65%、70%、75%、80%、85%、90%或95%同一性的氨基酸序列。
在一些形式中,第二卷曲螺旋接头包括以下氨基酸序列:GGSGGSYKIAALKAENAALEAKIAALKAEIAALEAGC(SEQ ID NO:185)。在其他形式中,卷曲螺旋包含与SEQ ID NO:185具有约50%、55%、60%、65%、70%、75%、80%、85%、90%或95%同一性的氨基酸序列。
通常,第一卷曲螺旋接头在共定位后与第二卷曲螺旋接头配对。
5.其他结构域和修饰
脱氨酶、碱基编辑器、靶向结构域或其他披露的结构域、蛋白质或多肽可以以各种方式进行修饰。在一些形式中,一个或多个修饰可以使蛋白质或肽更稳定(例如,抵抗体内降解)或更能够渗透到细胞或亚细胞区室中,或具有本领域技术人员将理解的其他所期望特性。此类修饰包括但不限于化学修饰、N末端修饰、C末端修饰、肽键修饰、主链修饰、残基修饰、D-氨基酸或非天然氨基酸或其他。在一些形式中,可以同时使用一个或多个修改。在优选的形式中,脱氨酶、碱基编辑器、靶向结构域或其他披露的结构域、蛋白质或多肽对蛋白水解稳定。例如,可以通过N-甲基化或C-甲基化保护部分肽键来提高肽的稳定性和活性。认为修饰,例如酰胺化,也增强肽对肽酶的稳定性。
修饰可能会也可能不会导致功能改变。举例而言,并且特别是就脱氨酶或碱基编辑器而言,不导致功能改变的修饰包括例如用于表达到特定宿主中的密码子优化,或为脱氨酶或碱基编辑器提供特定标志物或表位标签(例如,用于可视化和/或分离或纯化)。
在一些形式中,脱氨酶、碱基编辑器、靶向结构域或其他披露的结构域、蛋白质或多肽可以与结构域融合或可操作地连接,这些结构域包括但不限于转录激活子、转录阻遏子、重组酶、转座酶、组蛋白重塑剂、DNA甲基转移酶、隐花色素、光诱导型/控制型结构域或者化学诱导型/控制型结构域。
i.核定位序列
在一些形式中,脱氨酶、碱基编辑器、靶向结构域或其他披露的结构域、蛋白质或多肽可以包括以下或与以下相关联:一个或多个(例如,两个或更多个、三个或多个、或四个或更多个)核定位序列(NLS)。任何方便的NLS都可以使用。实例包括1类和2类“单部分NLS”以及3-5类NLS(Kosugi等人,J Biol Chem.[生物化学杂志]284(1):478-485(2009))。在某些情况下,NLS具有以下式:(K/R)(K/R)X10-12(K/R)3-5。在某些情况下,NLS具有以下式:K(K/R)X(K/R)(SEQ ID NO:31)。NLS可置于脱氨酶、碱基编辑器、靶向结构域或其他披露的结构域、蛋白质或多肽的N末端或C末端。在某些情况下,将NLS放置在N末端是有利的。
可以使用的NLS的实例包括:T-ag NLS(PKKKRKV;SEQ ID NO:32)、T-Ag衍生的NLS(PKKKRKVEDPYC-SV40;SEQ ID NO:33)、NLS SV40(PKKKRKVGPKKKRKVGPKKKRKVGPKKKRKVGC;SEQ ID NO:34)、半胱氨酸-TAT的CYGRKKRRQRRR-N末端半胱氨酸(SEQ ID NO:35)、CSIPPEVKFNKPFVYLI(SEQ ID NO:36)、DRQIKIWFQNRRMKVVKK(SEQ ID NO:37)、SV40 T-Ag衍生的NLS的PKKKRKVEDPYC-C末端半胱氨酸(SEQ ID NO:38)和cMyc NLS(PAAKRVKLD;SEQ IDNO:39)。其他有用的NLS在Kosugi等人,J Biol Chem.[生物化学杂志]284(1):478-485(2009)中有所描述。
ii.线粒体定位序列
脱氨酶、碱基编辑器、靶向结构域或其他披露的结构域、蛋白质或多肽可以包括以下或与以下相关联:一个或多个(例如,两个或更多个、三个或多个、或四个或更多个)线粒体靶向序列(MTS),或线粒体靶向序列(MTS)。可以使用任何方便的线粒体定位序列。线粒体定位序列的实例包括:PEDEIWLPEPESVDVPAKPISTSSMMM(SEQ ID NO:22),SDHB的线粒体定位序列、单/二/三苯基磷或其他磷鎓、VAMP 1A、VAMP 1B、DGAT2的67个N末端氨基酸和Bax的20个N末端氨基酸。MTS可置于脱氨酶、碱基编辑器、靶向结构域或其他披露的结构域、蛋白质或多肽的N末端或C末端。
a.衍生自Cox8的MTS
在一些形式中,线粒体靶向序列(MTS)衍生自Cox8。在一些形式中,线粒体定位序列衍生自Cox8,线粒体细胞色素c氧化酶亚基VIII。在一些形式中,衍生自COX8的线粒体定位序列包括以下氨基酸序列:MSVLTPLLLRGLTGSARRLPVPRAKIHSL(SEQ ID NO:69)。在其他形式中,衍生自COX8的线粒体定位序列包括与SEQ ID NO:69有约50%、55%、60%、65%、70%、75%、80%、85%、90%或95%同一性的氨基酸序列。
在其他形式中,衍生自Cox8的线粒体定位序列包括以下氨基酸序列:SVLTPLLLRSLTGSARRLMVPRAQVHSK(SEQ ID NO:183)。在其他形式中,衍生自Cox8的线粒体定位序列包括与SEQ ID NO:183具有约50%、55%、60%、65%、70%、75%、80%、85%、90%或95%同一性的氨基酸序列。
b.衍生自SOD2的MTS
在一些形式中,线粒体靶向序列(MTS)衍生自SOD2。在一些形式中,衍生自SOD2的线粒体定位序列包括以下氨基酸序列:MLSRAVCGTSRQLAPVLGYLGSRQKHSLPD(SEQ ID NO:71)。在其他形式中,衍生自SOD2的线粒体定位序列包括与SEQ ID NO:71有约50%、55%、60%、65%、70%、75%、80%、85%、90%或95%同一性的氨基酸序列。在其他形式中,衍生自SOD2的线粒体定位序列包括以下氨基酸序列:LCRAACSTGRRLGPVAGAAGSRHKHSLPD(SEQ IDNO:182)。在其他形式中,衍生自SOD2的线粒体定位序列包括与SEQ ID NO:182具有约50%、55%、60%、65%、70%、75%、80%、85%、90%或95%同一性的氨基酸序列。
c.I-Tev I核酸酶
在一些形式中,碱基编辑器包括一个或多个核酸酶,诸如来自归巢核酸内切酶I-Tev(I-TevI酶;Kleinstiver等人,G3 Genes|Genomes|Genetics[G3:基因、基因组、遗传学],第4卷,第6期,2014年6月1日,第1155–1165页,https://doi.org/10.1534/g3.114.011445)的小型、序列耐受性单体核酸酶结构域。I-TevI核酸酶结构域的另外特异性有可能减少脱靶位点的切割,因为在混杂DNA结合产生的位点附近中可能找不到所需的切割基序。在一些形式中,I-Tev I核酸酶可用作切口酶来误导线粒体修复系统并将修复朝着所期望结果引导(即编辑的靶标)
在一些形式中,靶向碱基编辑器包括一个或多个I-TEVI结构域。在一些形式中,I-TEVI结构域具有以下氨基酸序列:
或与SEQ ID NO:186具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
d.2A自切割肽
在一些形式中,靶向碱基编辑器进一步包括2A肽基序。2A自切割肽或2A肽是一类18-22个氨基酸长的肽,其可在细胞中蛋白质翻译过程中诱导核糖体跳跃。这些肽共享DxExNPGP核心序列基序,并在广泛的病毒家族中发现。它们通过导致核糖体无法形成肽键来帮助生成多蛋白。
2A肽的成员以首次描述它们的病毒命名。例如,F2A,第一个描述的2A肽,衍生自口蹄疫病毒。“2A”这个名字本身就来自于这种病毒的基因编号方案。用于碱基编辑器的示例性2A肽包括P2A、E2A、F2A和T2A。在一些形式中,2A肽具有氨基酸序列ATNFSLLKQAGDVEENPGP(SEQ IDNO:187),或与SEQ ID NO:187具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸,或其片段。
e.IRES
在一些形式中,靶向碱基编辑器进一步包括IRES基序。内部核糖体进入位点(缩写为IRES)是一种RNA元件,它允许以不依赖帽的方式启动翻译,作为蛋白质合成更大过程的一部分。在真核翻译中,起始通常发生在mRNA分子的5'末端,因为起始复合物的组装需要5'帽识别。IRES元件的位置通常在5’UTR中,但也可能出现在mRNA的其他位置。IRES可用于在预期真核细胞中表达具有确定终止密码子的多顺反子蛋白,同时避免在大肠杆菌中克隆dsDNA特异性脱氨酶时观察到P2A肽的毒性。IRES设计用于制作单AAV碱基编辑器(使用ZF作为DNA结合结构域),其中所有必需的组分都包装到单个AAV载体中,然后用于成功编辑人细胞系中的线粒体基因组。
在一些形式中,当拆分脱氨酶结构域或碱基编辑器将通过载体例如病毒载体递送时,碱基编辑器包括一个或多个IRES结构域。在一些形式中,IRES结构域具有以下核酸序列:
或与SEQ ID NO:188具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的核酸,或其片段。
f.CBh启动子
在一些形式中,靶向碱基编辑器进一步包括用于重组腺相关病毒介导的基因表达的启动子。在一些形式中,启动子序列是CBh启动子。
在一些形式中,CBh启动子具有以下核酸序列:
或与SEQ ID NO:189具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的核酸,或其片段。
g.聚腺苷酸化基序
在一些形式中,靶向碱基编辑器进一步包括用于重组腺相关病毒介导的基因表达的聚腺苷酸化基序。示例性的聚腺苷酸化基序包括来自SV40、hGH、BGH和rbGlob的那些。在一些形式中,聚腺苷酸化基序来自BGH,其具有以下核酸序列:
或与SEQ ID NO:190具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的核酸,或其片段。
6.示例性碱基编辑器配置
在一些形式中,靶向碱基编辑器包括第一部分和第二部分,其中第一部分包括
(a)第一拆分脱氨酶结构域,其包括SEQ ID NO:120的氨基酸序列,和
(b)左手TALE可编程DNA结合结构域;以及
其中第二部分包含
(c)第二拆分脱氨酶结构域,其包括SEQ ID NO:156、158、160或164中任一个的氨基酸序列,以及
(d)右手TALE可编程DNA结合结构域。
在一些形式中,靶向碱基编辑器包括第一部分和第二部分,其中第一部分包括
(a)第一拆分脱氨酶结构域,其包括SEQ ID NO:169的氨基酸序列,和
(b)左手TALE可编程DNA结合结构域;以及
其中第二部分包含
(c)第二拆分脱氨酶结构域,其包括SEQ ID NO:173或175中任一个的氨基酸序列,以及
(d)右手TALE可编程DNA结合结构域。
在一些形式中,靶向碱基编辑器包括第一部分和第二部分,其中第一部分包括
(a)第一拆分脱氨酶结构域,其包括SEQ ID NO:171的氨基酸序列,和
(b)左手TALE可编程DNA结合结构域;以及
其中第二部分包含
(c)第二拆分脱氨酶结构域,其包括SEQ ID NO:175中任一个的氨基酸序列,以及
(d)右手TALE可编程DNA结合结构域。
在一些形式中,靶向碱基编辑器包括第一部分和第二部分,其中第一部分包括
(a)第一拆分脱氨酶结构域,其包括SEQ ID NO:169的氨基酸序列,和
(b)左手BAT可编程DNA结合结构域;以及
其中第二部分包含
(c)第二拆分脱氨酶结构域,其包括SEQ ID NO:173或175中任一个的氨基酸序列,以及
(d)右手TALE可编程DNA结合结构域。
在一些形式中,靶向碱基编辑器包括第一部分和第二部分,其中第一部分包括
(a)第一拆分脱氨酶结构域,其包括SEQ ID NO:169的氨基酸序列,和
(b)第一卷曲螺旋结构域,以及
(c)任选地左手TALE可编程DNA结合结构域;以及
其中第二部分包含
(d)第二拆分脱氨酶结构域,其包括SEQ ID NO:173或175中任一个的氨基酸序列,以及
(e)第二卷曲螺旋结构域,以及
(f)任选地右手TALE可编程DNA结合结构域;
其中第一和第二卷曲螺旋结构域在第一和第二部分组合后在一起相互作用。
还描述了包括或表达靶向碱基编辑器的载体。
在一些形式中,载体是改变的腺病毒(AAV)载体或慢病毒载体。通常,靶向碱基编辑器封装在载体内。
7.示例性碱基编辑器序列
在示例性形式中,碱基编辑器基于BE_R1_12脱氨酶结构域,包括第一部分和第二部分。在示例性形式中,碱基编辑器包括具有死的或无活性的拆分BE_R1_12脱氨酶结构域的第一部分,和具有截短的拆分BE_R1_12脱氨酶结构域的第二部分。
在示例性形式中,碱基编辑器包括如下配置的第一部分:
pCBh-科扎克起始密码子-mCox8 MTS-接头-TALE_R_mCox1-接头-dBE_R1_12-接头-UGI-bGH聚A。
在示例性形式中,BE_R1_12碱基编辑器的第一部分具有以下核酸序列:
在示例性形式中,BE_R1_12碱基编辑器的第一部分是具有以下氨基酸序列的融合蛋白:
在示例性形式中,碱基编辑器包括如下配置的第二部分:
pCBh-科扎克-起始密码子-mCox8 MTS-接头-BAT_R_mCox1-接头-BE_R1_12(Δ60)-接头-UGI-聚A。
在示例性形式中,BE_R1_12碱基编辑器的第二部分具有以下核酸序列:
在示例性形式中,BE_R1_12碱基编辑器的第二部分是具有以下氨基酸序列的融合蛋白:
III.方法
本文披露了与所披露的组合物和试剂(包括脱氨酶结构域、碱基编辑器等)相关的各种方法及其用途。例如,披露了进行基因组修饰、使靶核酸脱氨基、在体外或体内进行核酸(碱基)编辑、鉴定靶核酸中的甲基化核苷酸以及在靶核酸池中产生序列多样性的方法。
A.核酸编辑
披露了序列特异性DNA脱氨酶和靶向碱基编辑器,其能够在体外(例如,在试管中)和体内(例如,在活细胞中)实现DNA的精确或非靶向编辑。与已知仅对单链DNA有活性的大多数先前表征的DNA脱氨酶不同(IyerLM.等人,Nucleic Acids Research[核酸研究]39,9473-9497(2011)),本文披露的脱氨酶对双链DNA(dsDNA)具有活性并拥有不同程度的序列特异性。例如,脱氨酶和靶向碱基编辑器可以在某些情况下使dsDNA脱氨基,但在其他情况下则不能。这些功能使得DNA脱氨酶和靶向碱基编辑器比使用ssDNA特异性脱氨酶的碱基编辑器更适用于某些应用。例如,利用所披露的dsDNA特异性脱氨酶,制备仅有蛋白质的碱基编辑器(例如,通过将脱氨酶融合至一系列仅有蛋白质的靶向结构域),其不需要任何另外的RNA或DNA部分来实现其功能。这些仅有蛋白质的编辑器对于编辑位于核酸递送效率不高的细胞区室(例如线粒体和叶绿体)中的DNA种类特别有用,从而避免了应用RNA指导的碱基编辑器编辑这些细胞器的基因组的一个主要限制。此外,由于其序列特异性,所披露的碱基编辑器可以实现具有核苷酸分辨率的精确基因组编辑,而不在给定靶位点附近的旁观者核苷酸中引入突变。现有的碱基编辑器缺乏核苷酸分辨率特异性,并且可能在编辑窗口内向旁观者碱基引入不需要的突变,但是所披露的配备有序列特异性DNA脱氨酶的碱基编辑器拥有源自脱氨酶结构域的另外一层特异性。这在解决人遗传病和其他生物技术应用方面具有广泛的用途。例如,所披露的靶向碱基编辑器(其包括融合至可编程DNA结合结构域(例如,Cas9、Cfp1、TALE、锌指(ZF)等)的具有所期望特异性的脱氨酶结构域)可用于执行序列特异性碱基编辑,其特异性可能受到DNA结合结构域的特异性以及脱氨酶结构域两者的影响。
作为进一步的实例,在一些形式中,当与Cas9(或另一种DNA结合蛋白)拴系时,腺苷脱氨酶定位于目的基因并催化DNA底物中的A至G突变。该碱基编辑器可用于靶向和恢复疾病相关基因中的单核苷酸多态性(SNP),这需要A到G的恢复。该碱基编辑器还可用于靶向和恢复疾病相关基因中的SNP,这需要通过将与T相对的A突变为G,将T恢复为C。然后,T可以替换为C,例如通过碱基切除修复机制,或者可能在后续几轮DNA复制中发生改变。
因此,披露了一种进行核酸编辑的方法。在一些形式中,该方法涉及使靶核酸和靶向碱基编辑器接触,由此靶核酸内的靶核苷酸序列的一个或多个实例被靶向碱基编辑器脱氨基。在一些形式中,靶核酸是单链DNA或双链DNA。优选地,靶核酸是双链DNA。
优选地,靶核苷酸序列中的靶核苷酸被脱氨基。“脱氨基”是指从靶核苷酸中的碱基(例如,A、C)除去氨基。优选地,该去除是由所披露的脱氨酶经由水解脱氨基来催化的。在该方法的一些形式中,靶核苷酸序列中的脱氨基核苷酸被转换为胸腺嘧啶或鸟嘌呤核苷酸,分别表示为T和G。在一些形式中,C被转换为T。在一些形式中,A被转换为G。通常,这种转换完成靶核苷酸序列的碱基编辑。“碱基编辑”是指任选地通过中间体将核苷酸完全转换为另一种核苷酸。例如,腺嘌呤(A)通过腺苷脱氨酶或其碱基编辑器脱氨基导致形成次黄嘌呤(I),其优选与胞嘧啶(C)碱基配对。DNA修复和/或复制机器将I修复为G,该修复完成碱基编辑。因此,碱基编辑可以将A·T碱基对改变为G·C。
类似地,胞嘧啶(C)通过胞嘧啶脱氨酶或其碱基编辑器脱氨基导致尿嘧啶(U)的形成,其优选与腺苷(A)碱基配对。DNA修复和/或复制机器随后将U修复为T,该修复完成了碱基编辑。因此,碱基编辑可以将C·G碱基对改变为T·A。
只要选择合适的脱氨酶或其碱基编辑器,任何靶核苷酸序列都可以脱氨基。在一些形式中,靶核苷酸序列是AC、CC、GC、TC。在任何前述示例性靶核苷酸序列中,在一些形式中,靶核苷酸序列中的最后一个C被脱氨酶或其靶向碱基编辑器脱氨基。
在一些形式中,以至少1%、2%、3%、4%、5%、10%、15%、20%、25%、30%、35%、40%、45%或50%的效率编辑预期靶核苷酸序列。在一些形式中,该方法导致小于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%或小于0.1%插入缺失形成。在一些形式中,靶核苷酸处的预期产物与非预期产物的比率为至少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1或200:1或更多。在一些形式中,预期点突变与插入缺失形成的比率大于1:1、10:1、50:1、100:1、500:1或1000:1或更大。
在一些形式中,靶核酸是核(例如,染色体)DNA。在一些形式中,靶核酸是细胞器基因组(线粒体、叶绿体或质体)。在一些形式中,靶核酸在细胞外,以纯化或未纯化的基因组DNA、质粒、PCR产物的形式或合成DNA的一些形式。
线粒体基因组工程改造
在一些形式中,靶核酸是线粒体DNA。因此,在一些形式中,线粒体DNA中位于碱基编辑器靶序列的指定距离(例如,20个核苷酸)内的靶核苷酸序列的实例包含在线粒体DNA序列中。
所披露的试剂和组合物,包括脱氨酶及其碱基编辑器,可用于工程改造线粒体基因组。这可用于模拟线粒体遗传病(即向线粒体基因组引入致病突变)或纠正与线粒体遗传病相关的致病变异。由于缺乏将指导RNA(gRNA)递送至线粒体的有效机制,RNA指导的基因组编辑方法尚未被成功用于线粒体基因组的工程改造(Gammage PA.等人,Trends Genet.[遗传学趋势],34(2):101–110(2018))。仅有蛋白质的DNA结合结构域(诸如与ssDNA特异性脱氨酶融合的TALE和ZF)无法有效编辑线粒体DNA中的靶序列,因为这些DNA结合结构域与Cas9不同,在与DNA结合时不会暴露ssDNA区域。最近,dsDNA特异性胞苷脱氨酶(DddA)与TALE融合,以在人细胞培养物中实现线粒体基因组工程改造(Mok等人,2020)。然而,由于这种脱氨酶的背景依赖性,只能引入TC到TT突变,这对应于MITOMAP数据库中已确认的4/93致病性突变。相反,所披露的脱氨酶及其碱基编辑器具有扩展的序列特异性,并且共同地可以在任何序列背景(AC、CC、GC和TC)中编辑胞嘧啶,从而允许校正用现有工具无法解决的79/93线粒体基因突变。
因此,在核酸编辑方法的一些形式中,靶核酸在细胞中(例如,在线粒体中)。在一些形式中,该方法涉及通过促进靶向碱基编辑器进入细胞来使靶核酸与靶向碱基编辑器接触。“促进进入”包括使靶向碱基编辑器与细胞接触,其中靶向碱基编辑器被配制或组成为能够进入细胞。在一些形式中,细胞位于受试者(例如动物)体内。因此,在一些形式中,通过向受试者(例如动物)施用靶向碱基编辑器来实现使靶核酸与靶向碱基编辑器接触。
还披露了通过向细胞引入靶向胞嘧啶或腺苷脱氨酶碱基编辑器在体内进行线粒体基因组工程改造的方法,其中线粒体DNA内的靶核苷酸序列被靶向碱基编辑器脱氨基。在一些形式中,细胞位于受试者(例如动物)体内。
在一些形式中,线粒体DNA中的靶核苷酸或靶核苷酸序列的编辑导致线粒体中的突变(例如,致病性或疾病相关突变)的校正。致病性或疾病相关的线粒体突变是本领域已知的,其中一些在MITOMAP数据库(http://www.mitomap.org/)(人线粒体DNA变异的数据库)中编目。表2提供了致病性线粒体突变的非限制性列表。
表2.示例性致病性线粒体突变、基因座和相关疾病。
LHON:莱伯氏遗传性视神经病变;MELAS:线粒体脑肌病、乳酸性酸中毒和中风样发作;NARP:神经病、共济失调和色素性视网膜炎;MILS:母系遗传的利氏综合征;MERRF:肌阵挛性癫痫,伴有参差不齐的红色纤维。
在一些形式中,通过披露的靶向碱基编辑器脱氨基的靶核苷酸选自表2中列出的突变。在一些形式中,通过披露的靶向碱基编辑器脱氨基的靶核苷酸选自m.583G>A、m.616T>C、m.1606G>A、m.1644G>A、m.3258T>C、m.3271T>C、m.3460G>A、m.4298G>A、m.5728T>C、m.5650G>A、m.3243A>G、m.8344A>G、m.14459G>A、m.11778G>A、m.14484T>C、m.8993T>C、m.14484T>C、m.3460G>A、ad m.1555A>G。最优选的是m.3243A>G、m.8344A>G、m.14459G>A、m.11778G>A、m.14484T>C、m.8993T>C、m.14484T>C、m.3460G>A和m.1555A>G。
因此,披露了一种通过修复其潜在突变来解决线粒体遗传病的方法。该方法涉及向细胞引入靶向胞嘧啶或腺苷脱氨酶碱基编辑器,其中线粒体DNA内的靶核苷酸序列被靶向碱基编辑器脱氨基。在一些形式中,靶核苷酸序列中的脱氨基核苷酸被转换为胸腺嘧啶或鸟嘌呤核苷酸。该转换完成了靶核苷酸序列的碱基编辑。碱基编辑导致修复致病性或线粒体疾病相关突变,并将该突变恢复为线粒体核酸中的WT或非致病性形式。可以使用任何合适的衍生自患者的细胞,包括但不限于成纤维细胞、淋巴细胞、胰腺细胞、肌肉细胞、神经元细胞、和干细胞,包括iPSC。在一些形式中,细胞位于受试者(例如动物或人)体内;因此,碱基编辑器可以用来修复致病性突变和潜在的疾病状况。由于缺乏任何可靠的技术来对线粒体基因组进行精确编辑,制作线粒体遗传病的细胞或动物模型一直具有挑战性。除了纠正致病性线粒体变异以治疗线粒体疾病(即基因治疗应用),所披露的碱基编辑器还可用于制作线粒体遗传病的细胞或动物模型的方法中。这些方法使得能够对这些遗传病以及线粒体生理学和遗传异质性进行正向遗传学研究。此外,所披露的碱基编辑器使得能够对诸如癌症、代谢障碍和衰老等复杂疾病进行正向遗传学研究,并且可以帮助揭示线粒体编码基因和突变在这些疾病和类似的非遗传定义疾病中的作用。
因此,披露了一种制作线粒体遗传病的细胞模型的方法。该方法涉及向细胞引入靶向胞嘧啶或腺苷脱氨酶碱基编辑器,其中线粒体DNA内的靶核苷酸序列被靶向碱基编辑器脱氨基。在一些形式中,靶核苷酸序列中的脱氨基核苷酸被转换为胸腺嘧啶或鸟嘌呤核苷酸。该转换完成了靶核苷酸序列的碱基编辑。碱基编辑导致在先前野生型或未突变的靶线粒体核酸中引入致病性或线粒体疾病相关突变。可以使用任何合适的细胞,包括但不限于成纤维细胞、淋巴细胞、胰腺细胞、肌肉细胞、神经元细胞、和干细胞,包括iPSC。在一些形式中,细胞位于受试者(例如动物)体内;由此,可以制作线粒体疾病的动物模型。
可以从表2中选择可以经历碱基编辑以产生用于疾病建模的致病性突变的示例性野生型线粒体DNA靶核苷酸序列,并且包括但不限于CACcCTC、GAGaCAA、CAGaGCC、TCGcATA、GTCaGAG、TAAcAAC、AGTaAAT、TAGaCAA、CACcGCT和AGAaACCA,其中被编辑以产生致病性突变的靶核苷酸是小写的。
可以通过本领域已知的多种手段将用于核酸编辑方法的各种试剂和组合物引入细胞或受试者。例如,脱氨酶、靶向碱基编辑器或其他试剂可以以各种形式递送,例如DNA、RNA、蛋白质的组合或其组合。例如,碱基编辑器可以作为DNA编码多核苷酸或RNA编码多核苷酸或作为蛋白质来递送。在碱基编辑器包含Crispr-Cas效应子蛋白作为靶向结构域的情况下,适当的指导RNA或crRNA可以作为DNA编码多核苷酸或RNA来递送。预想所有可能的组合,包括混合递送形式。
在一些形式中,该方法包括将一个或多个多核苷酸,例如一个或多个载体、其一个或多个转录物、和/或由其转录的一个或多个蛋白质递送至宿主细胞。用于将核酸编辑试剂引入或提供至细胞中的合适载体包括但不限于衍生自例如噬菌体、杆状病毒、逆转录病毒(例如慢病毒)、腺病毒、痘病毒、Epstein-Barr病毒和腺相关病毒(AAV)的质粒和病毒载体。病毒载体可以衍生自DNA病毒(例如,dsDNA或ssDNA病毒)或RNA病毒(例如,ssRNA病毒),或者它可以是病毒样颗粒(VLP)。许多载体和表达系统可从商业供应商处获得,包括艾德基因公司(Addgene)、诺瓦根公司(Novagen)(麦迪逊,威斯康辛州)、克隆科技公司(Clontech)(帕洛阿尔托,加利福尼亚州)、斯图特基因公司(Stratagene)(拉荷亚,加利福尼亚州)和英杰公司(Invitrogen)/生命技术公司(Life Technologies)(卡尔斯巴德,加利福尼亚州)。有利的载体包括慢病毒和腺伴随病毒并且所述载体的亚型还可以针对靶向的特定细胞类型来选择。
可以通过多种病毒或非病毒技术将核酸编辑试剂(例如,碱基编辑器)引入细胞。试剂可以在病毒载体(例如逆转录病毒如慢病毒、腺病毒、痘病毒、Epstein-Barr病毒、腺相关病毒(AAV)、病毒样颗粒(VLP)等)中递送。还可以使用非病毒方法,例如物理和/或化学方法,包括但不限于阳离子脂质体和聚合物、外来体、DNA纳米线、基因枪、显微注射、电穿孔、核转染、粒子轰击、超声利用、磁转染、以及与细胞穿透肽的缀合。此类方法描述于例如Nayerossadat N.等人,Adv.Biomed.Res,[先进生物学研究],1:27(2012)和Lino CA等人,Drug Deliv.[药物递送],25(1):1234-1257(2018)中。技术人员基于本领域已知的递送方法在其各自的优点和缺点的背景下将能够确定最佳方法。
在一些形式中,可以通过编码脱氨酶或碱基编辑器的mRNA将脱氨酶或其碱基编辑器引入细胞。mRNA可含有修饰,例如N6-甲基腺苷(m6A)、5-甲基胞嘧啶(m5C)、假尿苷(ψ)、N1-甲基假尿苷(me1ψ)和5-甲氧基尿苷(5moU);5’帽;聚(A)尾;一个或多个核定位信号;或其组合。mRNA可以针对在真核细胞中的表达进行密码子优化,并且可以通过电穿孔、转染和/或纳米颗粒介导的递送引入到细胞中。脱氨酶或碱基编辑器还可以通过编码RNA指导的核酸内切酶的病毒载体引入,或者脱氨酶或碱基编辑器蛋白或碱基编辑器蛋白-RNA复合物的直接电穿孔引入。
核酸编辑试剂可以各自单独地包含在组合物中并单独地或共同地引入到细胞中。可替代地,这些组分可以以单一组合物的形式提供以引入细胞。
B.鉴定经修饰的核苷酸
还提供了用于鉴定靶核酸中核苷酸修饰(即表观遗传标志物)的存在和/或位置的方法。
表观遗传测序通常用于通过DNA测序来鉴定和定位基因组中核苷酸的修饰。虽然存在多种修饰,但最普遍和最重要的是5-甲基胞嘧啶(5-mC)和5-羟甲基胞嘧啶(5-hmC)。用于鉴定这些表观遗传修饰的主要技术是亚硫酸氢盐测序(Raiber EA.等人,Nat Rev Chem[自然评论化学]1,0069(2017))。在这种方法中,提取的基因组用化学亚硫酸氢盐处理,将所有未经修饰的胞嘧啶转化为尿嘧啶。在测序过程中,这些被读作“T”。虽然这种技术被广泛采用,但它会导致所用99%的DNA分子被化学破坏。此外,它还会导致测序错误,因为所有未经修饰的C到U的转换会扭曲碱基的分布。此外,转换率不是100%,导致经修饰的胞嘧啶可能被错误鉴定。新英格兰生物实验室(NEB)新开发的方法用APOBEC取代了亚硫酸氢盐的严苛化学处理:APOBEC是一种ssDNA特异性酶,类似地将胞嘧啶转换为尿嘧啶(https://www.neb.com/tools-and-resources/feature-articles/enzymatic-methyl-se q-the-next-generation-of-methylome-analysis)。然而,APOBEC也会使5mC和5hmC脱氨基,因此无法区分胞嘧啶及其修饰形式。为了检测5mC和5hmC,该方法还利用TET2和氧化增强剂,将5mC和5hmC酶促修饰为非APOBEC底物的形式。TET2酶将5mC转换为5caC,氧化增强剂将5hmC转换为5ghmC。最终,胞嘧啶被测序为胸腺嘧啶,5mC和5hmC被测序为胞嘧啶,从而保护了原始5mC和5hmC序列信息的完整性。虽然这是一项改进,但它仍然扭曲了碱基的分布,使标准基因组测序变得具有挑战性。由于需要使用TET2和氧化增强剂以及ssDNA形式的DNA存在作为APOBEC的底物,使得该过程受到限制、复杂且低效。
亚硫酸氢盐测序的一项重大改进是最近开发的TET辅助吡啶硼烷测序(TAPS)(LiuY.等人,Nat Biotechnol[自然生物技术]37,424–429(2019))。该方法使用酶处理和化学处理的组合以将5-mC和5-hmC转换为U。TAPS的严苛度低于亚硫酸氢盐测序,并减轻了因碱基分布倾斜而产生的测序假象。然而,其主要局限性是无法区分5-mC和5-hmC。
所披露的脱氨酶及其碱基编辑器对dsDNA具有活性,并且可以检测(或演化为检测)DNA上的甲基化(5mC和5hmC)或其他修饰,从而极大地促进和改进了现有的表观遗传测序工作流程,并且开辟了通过测序检测甲基化以外的表观遗传标志物的新领域。表观遗传标志物鉴定可用于各种研发和诊断应用,包括癌症和许多其他疾病的检测,并为基因组数据提供另外的信息层。
因此,提供了用于确定表观遗传标志物的存在和/或位置的方法。在一些形式中,该方法涉及确定DNA中经修饰的核苷酸(例如,5mC和5hmC)的存在和/或位置。示例性方法包括使靶核酸与脱氨酶结构域接触,其中靶核酸是双链胞嘧啶甲基化DNA,并对靶核酸进行测序以鉴定靶核酸中的甲基化胞嘧啶核苷酸。优选地,脱氨酶结构域可以使双链DNA脱氨基并且对非甲基化胞苷和各种形式的胞苷修饰(例如,mC和hmC)具有不同的活性(例如,不同的脱氨基速率)。在一些形式中,将脱氨酶结构域和靶核酸在适合脱氨酶结构域使靶核酸脱氨基的条件下孵育一段时间。在一些形式中,脱氨酶结构域基本上仅使靶核酸中的非甲基化胞嘧啶核苷酸脱氨基。在一些形式中,在用dsCDA处理之前,首先使用TET2和BGT酶处理(通过现有技术中已知的方法)将DNA底物上的甲基化核苷酸转换为氧化形式(例如caC和fC),以允许更好地区分甲基化和非甲基化胞嘧啶。在一些形式中,靶核酸中基本上所有(或大部分)非甲基化胞嘧啶核苷酸被脱氨酶结构域脱氨基。对脱氨基的靶核酸进行测序后,鉴定出靶核酸中的甲基化胞嘧啶核苷酸(它们被测序为胞嘧啶)。此外,可以鉴定靶核酸中未修饰的胞嘧啶,因为它们被测序为胸腺嘧啶。用于核酸测序的适当方法是本领域已知的。可以进行各种类型的测序,包括靶向测序、全基因组测序或全外显子组测序。可以对核酸样品进行单末端或双末端测序。
合适的测序方法包括但不限于桑格测序、高通量测序、焦磷酸测序、边合成边测序、单分子测序、纳米孔测序(例如,MinION)、半导体测序、连接法测序、杂交测序、数字基因表达(赫利克斯公司(Helicos))、下一代测序(例如,Roche 454、Solexa平台,如HiSeq2000和SOLiD)、单分子合成测序(SMSS)(赫利克斯公司)、大规模并行测序、克隆单分子阵列(Solexa)、单分子实时测序(SMRT)、鸟枪测序、Maxim-Gilbert测序、引物步移、使用PacBio、SOLiD、Ion Torrent或Nanopore平台进行测序以及本领域已知的任何其他测序方法。
在一些形式中,脱氨酶结构域使靶核酸中的至少50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或99.5%非甲基化胞嘧啶核苷酸脱氨基。在一些形式中,脱氨酶结构域使靶核酸中的50-100%、50-90%、50-80%、60-100%、60-90%、60-80%、70-100%、70-90%、70-80%、80-100%、80-95%、80-90%、90-100%、90-95%、95-100%或95-99.5%非甲基化胞嘧啶核苷酸脱氨基。优选地,脱氨酶结构域使靶核酸中90%或更多(例如,95%、96%、97%、98%、99%、99.5%或更多)的非甲基化胞嘧啶核苷酸脱氨基。
在一些形式中,脱氨酶是dsDNA特异性胞嘧啶脱氨酶,并且优选地,基本上非序列特异性胞嘧啶脱氨酶。例如,脱氨酶结构域可以优先但不限于使特定靶核苷酸序列脱氨基。在一些形式中,dsDNA特异性脱氨酶的混合物可用于最小化由任何单个脱氨酶施加的序列偏向性,并且独立于其序列背景使非甲基化胞嘧啶脱氨基。
不同的dsDNA特异性脱氨酶(dsCDA)对胞苷及其各种修饰(即表观遗传标志物5mC、5hmC、5fC、5caC)表现出不同的活性。可以利用此特征来差异地标记各种表观遗传标志物(胞苷修饰),然后可以通过测序方法读取这些标志物。该方法提供了亚硫酸氢盐测序的酶替代方案,并解决了与亚硫酸氢盐处理DNA相关的缺点和技术限制,从而最小化并且产生更高质量结果。如实例中所述,已显示脱氨酶对非甲基化胞苷[(m)C]更有活性,但对甲基化胞苷(5mC和5hmC)没有。此外,非甲基化dC残基的编辑效率(C到T转换)较高,表明dsCDA对非甲基化和甲基化DNA的作用不同。研究发现,5hmC和5mC在受到葡糖基化和氧化保护时更能抵抗脱氨基作用。
C.产生序列多样性
随机诱变包含一组产生序列多样性和密切相关变体库的技术,以探索基因和蛋白质功能。这些方法中常见的是易错PCR(Wilson DS和Keefe AD.,Curr Protoc Mol Biol.[分子生物学当代指南]2001;PMID:18265275),其中使用易错聚合酶或另一种突变酶来多样化/扩增目的基因并引入可能影响基因功能的随机突变。尽管它很实用,但易错PCR在其能够产生的突变类型方面存在偏向性。另一种方法是DNA改组(Joern J.M.(2003)DNAShuffling.[DNA改组]来自:Arnold F.H.,Georgiou G.(编辑)Methods in MolecularBiologyTM[分子生物学方法TM],第231卷.Humana Press.[哈马纳出版社]internet sitedoi.org/10.1385/1-59259-395-X:85),其中两个相似基因之间的短序列被随机改组以产生变异基因文库。这种方法的主要限制是要求两个基因具有显著的序列相似性。在另一种方法中,使用转座酶将一小段DNA随机插入基因中(Cartman ST和Minton NP,Appl EnvironMicrobiol[应用与环境微生物学],76(4):1103-9(2010))。虽然不太常用,但基于转座酶的方法对其插入位点有要求。最后,可以通过使用甲磺酸乙酯(EMS)等化学物质来实现随机突变,该化学物质主要对鸟苷核苷酸进行修饰。化学诱变方法通常需要体内DNA修复机制,并且仅对鸟苷进行修饰,限制了可以生成的序列的多样性。
所披露的dsDNA特异性脱氨酶可用于以可调效率将随机突变引入目的DNA分子中,从而促进和简化定向演化工作流程,以优化各种遗传编码的生物分子(例如,抗体、适配体等)。因此,提供了用于随机突变DNA序列池的方法。还提供了用于在靶核酸池中产生序列多样性的方法。在此类方法中,脱氨酶优选是基本上非序列特异性脱氨酶或序列特异性脱氨酶混合物,该混合物共同可以以最小背景依赖性编辑靶序列。例如,脱氨酶结构域可以优先但不限于使特定靶核苷酸序列脱氨基,或者同时使用具有不同特异性的多种脱氨酶。
在一些形式中,此类方法涉及使脱氨酶结构域和靶核酸的多个拷贝在导致靶核酸脱氨基的时间和条件下接触。在一些形式中,该方法实现每个靶核酸拷贝平均0.1至5.0个核苷酸的脱氨基。在一些形式中,该方法实现每个靶核酸拷贝平均约0.1、0.5、1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5或5.0个核苷酸的脱氨基。优选地,靶核酸是双链DNA并且脱氨酶结构域可以使双链DNA脱氨基。
在一些形式中,靶核酸的拷贝是体外。因此,靶核酸拷贝中的脱氨基核苷酸可以通过体外反应转换为胸腺嘧啶或鸟嘌呤核苷酸。
在一些形式中,该方法还包括对靶核酸的脱氨基拷贝进行选择或筛选程序,该程序可以在体内或体外进行。选择或筛选方法通过对靶核酸文库施加一定的选择压力来直接消除不需要的变体。合适的选择程序包括但不限于mRNA展示、核糖体展示和SELEX(体外),或基于体内细胞的选择方法(后者需要在将多样化DNA片段引入细胞之前将其克隆到合适的载体中)。
在一些形式中,靶核酸的拷贝中的脱氨基的核苷酸被转换为胸腺嘧啶或鸟嘌呤核苷酸,其中该转换完成了靶核酸的一些或全部拷贝的一个或多个碱基编辑。
在一些形式中,通过在细胞中孵育靶核酸的拷贝,可以将靶核酸的拷贝中的脱氨基的核苷酸转换为胸腺嘧啶或鸟嘌呤核苷酸。因此,在一些形式中,靶核酸的拷贝在细胞中,并且通过促进脱氨酶结构域进入细胞(例如,通过mRNA或蛋白质的电穿孔、用表达载体转染、转化等),使脱氨酶结构域与靶核酸的拷贝接触。
在一些形式中,脱氨酶结构域是分离的脱氨酶结构域。在一些形式中,脱氨酶结构域融合至靶向结构域(例如,DNA结合结构域、转录因子、DNA或RNA聚合酶(例如正交RNA聚合酶,诸如人细胞中的T7 RNA聚合酶)、其他复制和转录辅助因子等),使得脱氨酶结构域优先与靶向结构域共定位在靶向结构域所占据的DNA序列上(例如DNA结合结构域靶位点、转录因子靶位点、DNA聚合酶融合物情况下的整个基因组、启动子和由RNA聚合酶融合物转录的基因等)。该方法可用于通过将dsDNA特异性脱氨酶融合至一个或多个转录因子或其他目的DNA相互作用结构域并将融合物引入细胞中,以高通量鉴定转录因子或其他DNA相互作用蛋白的结合位点(作为ChIP-Seq的替代方案),其中目的结构域与DNA的相互作用被脱氨酶以C到T突变的形式独特地标记,然后可以通过全基因组测序进行检测。
在其他形式中,该方法可用于持续高效地使细胞内的目的基因座多样化,例如通过将脱氨酶结构域融合到DNA相互作用结构域。可以选择DNA相互作用结构域,以便在整个基因组中产生突变(例如,脱氨酶结构域与DNA聚合酶融合,或者可以使用DNA聚合酶的辅助蛋白)。可替代地,只有基因组或质粒的限定片段可以被靶向,例如,脱氨酶结构域与RNA聚合酶融合以靶向由该聚合酶启动子定义的区域。脱氨酶可以与不天然编码T7启动子的宿主中的正交DNA聚合酶(例如T7 RNA聚合酶)融合。目的DNA片段可以放置在T7前面并在给定宿主中表达,以持续使该目的区段多样化,而不使基因组的其余部分多样化。这种连续的体内多样化策略可用于细胞条形码化应用的目的性状的持续进化。与ssDNA特异性脱氨酶相比,使用dsDNA特异性脱氨酶将在这些应用中带来更高的编辑效率。例如,之前已经描述过与ssDNA特异性脱氨酶融合的T7 RNA聚合酶,但在不应用选择的情况下,使用此类设计进行编辑的效率被限制在<1%,这可能是因为在转录期间瞬时生成的ssDNA底物(即转录气泡)被埋在聚合酶中,并且不能轻易与ssDNA特异性脱氨酶接近(参见网页nature.com/articles/s41467-021-21876-z和互联网站点pubs.acs.org/doi/10.1021/jacs.8b04001)。当聚合酶沿着其转录盒前行时,dsDNA特异性脱氨酶可以很容易地接近其优选底物(dsDNA),因此与只能作用于暴露的ssNDA的ssDNA特异性脱氨酶相比实现更高的编辑效率,这一特征对于持续的体内演化和细胞条形码化应用来说是理想的。
在一些形式中,细胞位于动物体内。因此,在一些形式中,将脱氨酶结构域施用于动物以使其与靶核酸的拷贝接触。
在一些形式中,当靶核酸的拷贝位于细胞中时,脱氨酶结构域由细胞中的表达载体编码。因此,在一些形式中,在细胞中表达脱氨酶结构域(例如,瞬时地)导致使脱氨酶结构域与靶核酸的拷贝接触。
在示例性方法中,用dsDNA特异性脱氨酶处理目的dsDNA(例如,编码目的蛋白质的基因)以创建目的基因的变体文库,然后可以对该文库进行各种定向演化策略(例如,核糖体展示)或其他基于选择/筛选的方法。如实例中所述,在gRNA结合位点的上游观察到C到T编辑,证明在定义的靶区域中成功的靶向编辑。
IV.试剂盒
所披露的试剂、材料和组合物以及其他材料可以以任何合适的组合包装在一起作为可用于执行或帮助执行所披露的方法的试剂盒。如果给定试剂盒中的组分被设计并适合在所披露的方法中一起使用,则这是有用的。
在一些形式中,试剂盒可以包括例如一个或多个核酸构建体,其包括编码脱氨酶结构域或碱基编辑器的核苷酸序列。试剂盒可以包括含有此类多核苷酸的表达载体。在其他形式中,试剂盒可以包括在合适的缓冲液中的脱氨酶蛋白或其碱基编辑器。试剂盒可以另外地或可替代地包括表达脱氨酶结构域或其碱基编辑器的细胞。
在一些形式中,试剂盒包括用于进行脱氨基测定和/或分析基因表达的试剂。例如,试剂盒可包括PCR试剂、测序试剂、流式细胞术试剂、引物及其组合。优选地,试剂盒包括指导材料。指导材料可包括出版物、记录、图表或可用于传达试剂盒的组合物和方法的有用性的任何其他表达介质。例如,指导材料可以提供使用试剂盒组分的方法的说明,例如进行体外或体内靶向核酸编辑。
V.脱氨酶结构域的鉴定和表征方法
还描述了鉴定对双链DNA(dsDNA)有活性的脱氨酶结构域并确定其编辑背景特异性的方法。这些方法系统地表征了基因组学和宏基因组数据库中可用的脱氨酶结构域。在一些形式中,这些方法包括从一个或多个脱氨酶蛋白家族中鉴定一个或多个代表性脱氨酶结构域的一个或多个步骤。在一些形式中,这些方法鉴定一个或多个基因组学和宏基因组数据库内的胞苷脱氨酶样(CDA)超家族中的脱氨酶结构域。示例性基因组学和宏基因组学数据库包括互联网资源pfam数据库,其可在万维网a//pfam.xfam.org/clan/CDA上获得。pfam数据库中的蛋白质功能通常通过计算进行注释。例如,使用商业上可获得的基因合成服务来合成在一个或多个数据库中鉴定的基因域。
该方法包括表达基因的一个或多个步骤,例如使用体外转录/翻译系统。该方法包括表征合成的、表达的脱氨酶结构域的活性的步骤。通常,该方法包括表征脱氨酶的一个或多个步骤,例如使用一种或多种测定法确定它们对ssDNA和dsDNA底物的链偏向性和序列特异性功能。示例性测定包括DNA测序和/或脱氨基测定。示例性的测序测定包括(i)通过体外翻译表达给定的CDA结构域;(ii)将dsDNA质粒添加到体外翻译反应中;随后(iii)在适合脱氨酶活性的条件下孵育一段时间;以及(iv)对所得DNA产物进行序列分析以确定脱氨酶活性。示例性条件包括:37℃孵育两小时;通过短暂加热至95℃使反应失活;残留DNA产物的扩增,例如通过PCR;并进行测序以确定DNA的完整性。示例性测序技术包括下一代测序(NGS)和桑格测序。在一些形式中,当这些方法鉴定活性脱氨酶结构域时,这些方法包括一个或多个步骤以鉴定相同或不同基因组学和宏基因组数据库内的遗传相关的蛋白质基因亚家族中的类似脱氨酶结构域。例如,在一些形式中,这些方法在第一筛选中发现含有活性dsDNA特异性CDA的亚家族中重复筛选,这导致鉴定一个或多个dsCDA。这些方法还包括鉴定存在于所鉴定的dsCDA中并且不存在于非活性dsCDA中的特征基序。这些特征基序可用于鉴定数据库中的其他dsDNA。
类似的方法可用于快速表征来自基因组和宏基因组数据库的其他RNA和DNA修饰/加工酶。
通过以下编号的段落可以进一步理解所披露的组合物和方法。
1.一种分离的脱氨酶结构域,其中该脱氨酶结构域可以使双链DNA脱氨基,其中与该脱氨酶结构域对不包含靶核苷酸序列的双链DNA的脱氨酶活性相比,该脱氨酶结构域对包含该靶核苷酸序列的双链DNA具有更大的脱氨酶活性,
其中该靶核苷酸各自单独地被完全或部分地定义并且彼此处于固定的顺序关系,并且
其中该脱氨酶结构域不是来自新洋葱伯克霍尔德菌的DddA的脱氨酶结构域。
2.如段落1所述的脱氨酶结构域,其中该靶核苷酸序列包含两个或更多个靶核苷酸,
其中该靶核苷酸各自单独地被完全或部分地定义并且彼此处于固定的顺序关系。
3.如段落1或2所述的脱氨酶结构域,其中该靶核苷酸是GC、AC或CC。
4.如段落1-3中任一项所述的脱氨酶结构域,其中该脱氨酶结构域包含两个部分,
其中该脱氨酶结构域仅当该两个部分组合在一起时才能够脱氨基。
5.如段落1-4中任一项所述的脱氨酶结构域,其中该脱氨酶结构域可以使胞嘧啶核苷酸脱氨基。
6.如段落1-5中任一项所述的脱氨酶结构域,其中该靶核苷酸序列是AC。
7.如段落1-5中任一项所述的脱氨酶结构域,其中该靶核苷酸序列是CC。
8.如段落1-5中任一项所述的脱氨酶结构域,其中该靶核苷酸序列是GC。
9.如段落1或4所述的脱氨酶结构域,其中该靶核苷酸序列是TC。
10.如段落1-9中任一项所述的脱氨酶结构域,其中脱氨酶结构域包含SEQ ID NO:1-4、9、11、14-16、或40-67中任一个的氨基酸序列或其片段或变体。
11.如段落10所述的脱氨酶结构域,其中该脱氨酶结构域包含具有以下的BE_R1_41:SEQ ID NO:4的氨基酸序列、或与SEQ ID NO:4具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸、或其片段。
12.如段落11所述的脱氨酶结构域,其中该脱氨酶结构域包含具有以下的BE_R1_11:SEQ ID NO:1的氨基酸序列、或与SEQ ID NO:1具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸、或其片段。
13.如段落11所述的脱氨酶结构域,其中该脱氨酶结构域包含具有以下的BE_R1_12:SEQ ID NO:2的氨基酸序列、或与SEQ ID NO:2具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸、或其片段。
14.如段落11所述的脱氨酶结构域,其中该脱氨酶结构域包含具有以下的BE_R1_28:SEQ ID NO:3的氨基酸序列、或与SEQ ID NO:3具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸、或其片段。
15.一种靶向碱基编辑器,其包含如段落1-14中任一项所述的脱氨酶结构域和靶向结构域,其中该靶向结构域特异性结合碱基编辑器靶序列。
16.如段落15所述的靶向碱基编辑器,其中该靶向结构域包含TALE、BAT、CRISPR-Cas9、Cfp1或锌指。
17.如段落15或16所述的靶向碱基编辑器,其中该碱基编辑器靶序列被选择为存在于靶核酸中该脱氨酶结构域的该靶核苷酸序列的实例的20个核苷酸内,
其中该靶核苷酸序列的该实例被选择为由该靶向碱基编辑器进行碱基编辑。
18.如段落17所述的靶向碱基编辑器,其中被选择为由该靶向碱基编辑器进行碱基编辑的该靶核苷酸序列的该实例的20个核苷酸内的碱基编辑器靶序列是该靶核酸中位于靶核苷酸序列的任何实例的20个核苷酸内的唯一碱基编辑器靶序列。
19.如段落17或18所述的靶向碱基编辑器,其中该靶核酸中的该靶核苷酸序列的实例是该靶核酸中在该靶核苷酸序列的实例的20个核苷酸内的碱基编辑器靶序列的20个核苷酸内脱氨酶结构域的靶核苷酸序列的唯一实例。
20.如段落15-19中任一项所述的靶向碱基编辑器,其中该碱基编辑器靶序列存在于线粒体DNA、或叶绿体DNA、或质体DNA中。
21.如段落15-20中任一项所述的靶向碱基编辑器,其中该碱基编辑器包含两个部分,
其中第一部分包括第一拆分脱氨酶结构域,并且其中第二部分包含第二拆分脱氨酶结构域。
22.如段落21所述的靶向碱基编辑器,其中该第一部分包含拆分脱氨酶结构域,该拆分脱氨酶结构域包含SEQ ID NO:122-181中任一个的氨基酸序列,并且
其中该第二部分包含拆分脱氨酶结构域,该拆分脱氨酶结构域包含SEQ ID No:127-181中任一个的氨基酸序列,并且
其中该第一和第二拆分脱氨酶结构域单独时无活性,但当靠近在一起时能够脱氨基。
23.如段落21-22中任一项所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ ID No:122-126中任一个的氨基酸序列。
24.如段落21-22中任一项所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域都包含野生型脱氨酶结构域活性位点。
25.如段落21-24中任一项所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域各自包含BE_R1_11的片段或变体。
26.如段落25所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:122、或127-135、或150中任一个,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:127-135或150中任一个。
27.如段落25所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:122,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:127-134或150中任一个。
28.如段落25所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:129,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:150。
29.如段落21至24中任一项所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域各自包含BE_R1_12的片段或变体。
30.如段落29所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:124、或136-140、或156-167中任一个,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:136-140或156-167中任一个。
31.如段落29或30所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQID NO:124,并且其中该第二拆分脱氨酶结构域包含SEQ ID NO:156-166中任一个。
32.如段落29或30所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQID NO:137,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:142。
33.如段落29或30所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQID NO:139,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:144。
34.如段落22所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域各自包含BE_R1_41的片段或变体。
35.如段落34所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:168-171中任一个,并且
其中该第二拆分脱氨酶结构域包含SEQ ID No:172-175中任一个。
36.如段落34-35中任一项所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ ID NO:168,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:173。
37.如段落34-35所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQID NO:171,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:175。
38.如段落34所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:171,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:173。
39.如段落21至24中任一项所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域各自包含BE_R1_28的片段或变体。
40.如段落39所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:123、或146-149、或151-155中任一个,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:146-149或151-155中任一个。
41.如段落39或40所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQID NO:123,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:149或151-153中任一个。
42.如段落21至24中任一项所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域各自包含BE_R4_21的片段或变体。
43.如段落42所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:125或176-177中任一个,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:176-177中任一个。
44.如段落42所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:125,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:177。
45.如段落42所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:176,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:177。
46.如段落21至24中任一项所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域各自包含BE_R2_11的片段或变体。
47.如段落46所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:126或180-181中任一个,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:180-181中任一个。
48.如段落42所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:125,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:180-181中任一个。
49.如段落42所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:180,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:181。
50.如段落22至49中任一项所述的靶向碱基编辑器,其中该第一部分或该第二部分或该第一部分和该第二部分两者包含选自由以下组成的组的可编程DNA结合结构域:TALE、BAT、CRISPR-Cas9、Cfp1或锌指。
51.如段落50所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是选自由以下组成的组的TALE:左手侧TALE和右手侧TALE。
52.如段落50或51所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是包含SEQ ID NO:90、92、95、97-106中任一个的氨基酸序列的左手侧TALE。
53.如段落50-52中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是包含SEQ ID NO:91、93-94、96、108-113中任一个的氨基酸序列的右手侧TALE。
54.如段落50-53中任一项所述的靶向碱基编辑器,其中一个或多个可编程DNA结合结构域是结合线粒体mND1 DNA、具有包含SEQ ID NO:95-96中任一个的氨基酸序列的TALE。
55.如段落50-54中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体mND1 DNA、具有包含SEQ ID NO:96的氨基酸序列的右手侧TALE。
56.如段落54或55中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体hND1 DNA、具有包含SEQ ID NO:95的氨基酸序列的左手侧TALE。
57.如段落51所述的靶向碱基编辑器,其中一个或多个可编程DNA结合结构域是结合线粒体mCOX1 DNA、具有包含SEQ ID NO:99-106或108-113中任一个的氨基酸序列的TALE。
58.如段落57所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体mCOX1 DNA、具有包含SEQ ID NO:108-113中任一个的氨基酸序列的右手侧TALE。
59.如段落57或58中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体mCOX1 DNA、具有包含SEQ ID NO:90-106中任一个的氨基酸序列的左手侧TALE。
60.如段落50所述的靶向碱基编辑器,其中一个或多个可编程DNA结合结构域是结合h12 DNA、具有包含SEQ ID NO:98的氨基酸序列的TALE。
61.如段落50所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是具有NT(G)N末端结构域、具有包含SEQ ID NO:114的氨基酸序列的TALE。
62.如段落50中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是具有NT(bn)N末端结构域、具有包含SEQ ID NO:115的氨基酸序列的TALE。
63.如段落51所述的靶向碱基编辑器,其中一个或多个可编程DNA结合结构域是结合线粒体ND6 DNA、具有包含SEQ ID NO:92-94中任一个的氨基酸序列的TALE。
64.如段落63所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体ND6 DNA、具有包含SEQ ID NO:93-94中任一个的氨基酸序列的右手侧TALE。
65.如段落63或64中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体mND6 DNA、具有包含SEQ ID NO:92的氨基酸序列的左手侧TALE。
66.如段落51所述的靶向碱基编辑器,其中一个或多个可编程DNA结合结构域是结合线粒体hND DNA、具有包含SEQ ID NO:90-91中任一个的氨基酸序列的TALE。
67.如段落66所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体hND DNA、具有包含SEQ ID NO:90的氨基酸序列的右手侧TALE。
68.如段落66或67中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体hND DNA、具有包含SEQ ID NO:91的氨基酸序列的左手侧TALE。
69.如段落50所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合h11DNA、具有包含SEQ ID NO:97的氨基酸序列的TALE。
70.如段落50-69中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分中的一个或两个独立地包含锌指可编程DNA结合结构域。
71.如段落50-70中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是选自由以下组成的组的锌指:左手侧锌指和右手侧锌指。
72.如段落50或57或70-71中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合mCOX1 DNA、具有包含SEQ ID NO:82-89中任一个的氨基酸序列的锌指。
73.如段落50或70-72中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合mCOX1 DNA、具有SEQ ID NO:82-86或87-89中任一个的氨基酸序列的右手侧锌指。
74.如段落50或70-73中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合mCOX1 DNA、具有包含SEQ ID NO:82-86中任一个的氨基酸序列的左手侧锌指。
75.如段落50、或66、或70-71所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合hND DNA、具有包含SEQ ID NO:74-81中任一个的氨基酸序列的锌指。
76.如段落50或70或74-75中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合hND DNA、具有SEQ ID NO:78-81中任一个的氨基酸序列的右手侧锌指。
77.如段落50或70、或74-76中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合hND DNA、具有包含SEQ ID NO:74-77中任一个的氨基酸序列的左手侧锌指。
78.如段落50-77中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分中的一个或两个独立地包含BAT可编程DNA结合结构域。
79.如段落50-78所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是选自由以下组成的组的BAT:左手侧BAT和右手侧BAT。
80.如段落50或57或72中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合mCOX1 DNA、具有包含SEQ ID NO:118-119中任一个的氨基酸序列的BAT。
81.如段落50、或57、或70、或72、或80中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合mCOX1 DNA、具有SEQ ID NO:119中任一个的氨基酸序列的右手侧BAT。
82.如段落50、或57、或70、或72、或80-81中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合mCOX1 DNA、具有包含SEQ ID NO:118中任一个的氨基酸序列的左手侧BAT。
83.如段落50、或70、或63、或78-79所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合ND6 DNA、具有包含SEQ IDNO:120-121中任一个的氨基酸序列的BAT。
84.如段落50、或70、或63、或78-79、或83中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合hND DNA、具有SEQ ID NO:121中任一个的氨基酸序列的右手侧BAT。
85.如段落50、或70、或63、或78-79、或83-84中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合hND DNA、具有包含SEQ ID NO:120中任一个的氨基酸序列的左手侧BAT。
86.如段落21-22中任一项所述的靶向碱基编辑器,其中该第一部分包含
(a)包含SEQ ID NO:120的氨基酸序列的第一拆分脱氨酶结构域,和
(b)左手TALE可编程DNA结合结构域;并且
其中该第二部分包含
(c)包含SEQ ID NO:156、158、160或164中任一个的氨基酸序列的第二拆分脱氨酶结构域,和
(d)右手TALE可编程DNA结合结构域。
87.如段落21-22中任一项所述的靶向碱基编辑器,其中该第一部分包含
(a)包含SEQ ID NO:169的氨基酸序列的第一拆分脱氨酶结构域,和
(b)左手TALE可编程DNA结合结构域;并且
其中该第二部分包含
(c)包含SEQ ID NO:173或175中任一个的氨基酸序列的第二拆分脱氨酶结构域,和
(d)右手TALE可编程DNA结合结构域。
88.如段落21-22中任一项所述的靶向碱基编辑器,其中该第一部分包含
(a)包含SEQ ID NO:171的氨基酸序列的第一拆分脱氨酶结构域,和
(b)左手TALE可编程DNA结合结构域;并且
其中该第二部分包含
(c)包含SEQ ID NO:175中任一个的氨基酸序列的第二拆分脱氨酶结构域,和
(d)右手TALE可编程DNA结合结构域。
89.如段落21-22中任一项所述的靶向碱基编辑器,其中该第一部分包含
(a)包含SEQ ID NO:169的氨基酸序列的第一拆分脱氨酶结构域,和
(b)左手BAT可编程DNA结合结构域;并且
其中该第二部分包含
(c)包含SEQ ID NO:173或175中任一个的氨基酸序列的第二拆分脱氨酶结构域,和
(d)右手TALE可编程DNA结合结构域。
90.如段落21-22中任一项所述的靶向碱基编辑器,其中该第一部分包含
(a)包含SEQ ID NO:169的氨基酸序列的第一拆分脱氨酶结构域,和
(b)第一卷曲螺旋结构域,以及
(c)任选地左手TALE可编程DNA结合结构域;并且
其中该第二部分包含
(d)包含SEQ ID NO:173或175中任一个的氨基酸序列的第二拆分脱氨酶结构域,和
(e)第二卷曲螺旋结构域,以及
(f)任选地右手TALE可编程DNA结合结构域;
其中该第一和第二卷曲螺旋结构域在该第一和第二部分组合后在一起相互作用。
91.如段落22-91中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分中的一个或两个包含至少一个接头。
92.如段落50-90中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分中的一个或两个包含至少一个接头,并且
其中该接头位于该可编程DNA结合结构域和该拆分脱氨酶结构域之间。
93.如段落92中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分都包含该可编程DNA结合结构域和该拆分脱氨酶结构域之间的接头。
94.如段落91-93中任一项所述的靶向碱基编辑器,其中该接头的长度在2与200个氨基酸之间。
95.如段落94所述的靶向碱基编辑器,其中该接头的长度在2与16个氨基酸之间。
96.如段落91-95中任一项所述的靶向碱基编辑器,其中该接头包含GS、GSG、GSS或SEQ ID NO:23-27或30中任一个的氨基酸序列。
97.如段落50-96中任一项所述的靶向碱基编辑器,其中该碱基编辑器被配置为使得该靶核酸距靶DNA链上的可编程结合结构域结合位点9与11个碱基对之间。
98.如段落50-97中任一项所述的靶向碱基编辑器,其中靶DNA链上两个可编程结合结构域的两个结合位点之间的距离在12与22个碱基对之间。
99.如段落98所述的靶向碱基编辑器,其中靶DNA链上两个可编程结合结构域的两个结合位点之间的距离在14与19个碱基对之间。
100.如段落22-99中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分中的至少一个包含细胞靶向部分。
101.如段落100所述的靶向碱基编辑器,其中该第一部分和该第二部分都包含细胞靶向部分。
102.如段落101所述的靶向碱基编辑器,其中该第一部分和该第二部分都包含相同的细胞靶向部分。
103.如段落100-102中任一项所述的靶向碱基编辑器,其中细胞靶向部分选自由以下组成的组:线粒体靶向序列(MTS)和核定位序列(NLS)。
104.如段落103所述的靶向碱基编辑器,其中该NLS包含SEQ ID NO:34-39中任一个的氨基酸序列。
105.如段落104所述的靶向碱基编辑器,其中该MTS包含SEQ ID NO:22、69、71、182或183中任一个的氨基酸序列。
106.如段落22-105中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分中的至少一个包含碱基切除修复抑制剂。
107.如段落106所述的靶向碱基编辑器,其中该碱基切除修复抑制剂是哺乳动物DNA糖基化酶抑制剂。
108.如段落106或107所述的靶向碱基编辑器,其中该碱基切除修复抑制剂是尿嘧啶糖基化酶抑制剂。
109.如段落106-108中任一项所述的靶向碱基编辑器,其中该碱基切除修复抑制剂具有包含SEQ ID NO:21或70中任一个的氨基酸序列。
110.一种方法,其包括
使靶核酸与如段落17-109中任一项所述的靶向碱基编辑器接触,其中该靶核酸是双链DNA,由此该靶核苷酸序列的实例被该靶向碱基编辑器脱氨基。
111.如段落110所述的方法,其中该靶核苷酸序列中的脱氨基的核苷酸被转换为胸腺嘧啶或鸟嘌呤核苷酸,其中该转换完成了该靶核苷酸序列的碱基编辑。
112.如段落110或111所述的方法,其中该靶核酸是线粒体DNA。
113.如段落110-112中任一项所述的方法,其中该靶核苷酸序列是AC。
114.如段落110-112中任一项所述的方法,其中该靶核苷酸序列是CC。
115.如段落110-112中任一项所述的方法,其中该靶核苷酸序列是GC。
116.如段落110-112中任一项所述的方法,其中该靶核苷酸序列是TC。
117.如段落110-116中任一项所述的方法,其中该靶向碱基编辑器使该靶核苷酸序列中的最后一个C脱氨基。
118.如段落110-117中任一项所述的方法,其中该靶DNA中的靶核苷酸序列的实例在该碱基编辑器靶序列的20个核苷酸内。
119.如段落110-118中任一项所述的方法,其中该靶核酸在细胞中,其中使该靶核酸与该靶向碱基编辑器接触通过促进该靶向碱基编辑器进入该细胞来实现。
120.如段落119所述的方法,其中该细胞在动物体内,其中通过向该动物施用该靶向碱基编辑器来实现该靶核酸与该靶向碱基编辑器的接触。
121.一种方法,其包括:
使靶核酸与一个或多个脱氨酶结构域接触,其中该靶核酸是双链胞嘧啶甲基化DNA,其中该脱氨酶结构域可以使双链DNA脱氨基,其中该脱氨酶结构域基本上仅使该靶核酸中的非甲基化胞嘧啶核苷酸脱氨基,
其中该靶核酸中的基本上所有非甲基化胞嘧啶核苷酸均被该脱氨酶结构域脱氨基;以及
对脱氨基的靶核酸进行测序,由此鉴定该靶核酸中的甲基化胞嘧啶核苷酸。
122.如段落121所述的方法,其中该脱氨酶结构域使该靶核酸中的90%或更多的非甲基化胞嘧啶核苷酸脱氨基。
123.一种方法,其包括:
使脱氨酶结构域和靶核酸的多个拷贝在导致该靶核酸的每个拷贝平均0.1至5.0个核苷酸脱氨基的时间和条件下接触,
其中该靶核酸是双链DNA,其中该脱氨酶结构域可以使双链DNA脱氨基。
124.如段落123所述的方法,其中该靶核酸的拷贝在体外。
125.如段落124所述的方法,其中该靶核酸的拷贝中的脱氨基的核苷酸通过体外反应转换为胸腺嘧啶或鸟嘌呤核苷酸。
126.如段落121-125中任一项所述的方法,其进一步包括对该靶核酸的脱氨基的拷贝进行选择程序。
127.如段落126所述的方法,其中该选择程序包含mRNA展示、核糖体展示或SELEX或基于细胞的选择测定。
128.如段落125-127中任一项所述的方法,其中该靶核酸的拷贝中的脱氨基的核苷酸被转换为胸腺嘧啶或鸟嘌呤核苷酸,其中该转换完成了靶核酸的一些或全部拷贝的一个或多个碱基编辑。
129.如段落123所述的方法,其中该靶核酸的拷贝中的脱氨基的核苷酸通过在细胞中孵育该靶核酸的拷贝然后进行DNA复制/扩增步骤来转换为胸腺嘧啶或鸟嘌呤核苷酸。
130.如段落123所述的方法,其中该靶核酸的拷贝在细胞中,其中使该脱氨酶结构域与该靶核酸的拷贝接触通过促进该脱氨酶结构域进入这些细胞来实现。
131.如段落130所述的方法,其中这些细胞在动物体中,其中使该脱氨酶结构域与该靶核酸的拷贝接触通过向该动物施用该脱氨酶结构域来实现。
132.如段落130所述的方法,其中该靶核酸的拷贝在细胞中,其中该脱氨酶结构域由这些细胞中的转基因表达构建体编码,其中使该脱氨酶结构域与该靶核酸的拷贝接触通过在这些细胞中瞬时表达该脱氨酶结构域来实现。
133.一种通过编辑受试者的细胞中线粒体DNA中的一个或多个核酸来治疗或预防该受试者的线粒体遗传病的方法,该方法包括
将如段落1-110中任一项所述的靶向胞嘧啶脱氨酶碱基编辑器引入该细胞,
其中线粒体DNA内的靶核酸被该靶向碱基编辑器脱氨基。
134.如段落133所述的方法,其中该靶核苷酸序列中的脱氨基的核苷酸被转换为胸腺嘧啶或鸟嘌呤核苷酸。
135.如段落133-134中任一项所述的方法,其中将该线粒体DNA中的一个或多个核酸编辑成非致病性形式。
136.如段落133-135中任一项所述的方法,其中该脱氨基的核苷酸位于选自以下的位置:m.583G>A、m.616T>C、m.1606G>A、m.1644G>A、m.3258T>C、m.3271T>C、m.3460G>A、m.4298G>A、m.5728T>C、m.5650G>A、m.3243A>G、m.8344A>G、m.14459G>A、m.11778G>A、m.14484T>C、m.8993T>C、m.14484T>C、m.3460G>A和m.1555A>G。
137.如段落133-136中任一项所述的方法,其中该细胞选自由以下组成的组:成纤维细胞、淋巴细胞、胰腺细胞、肌肉细胞、神经元细胞和干细胞。
138.一种载体,其包含或表达如段落22-110中任一项所述的靶向碱基编辑器。
139.如段落138所述的载体,其中该载体是改变的腺病毒(AAV)载体、慢病毒载体或病毒样颗粒(VLP)。
140.如段落138或139所述的载体,其中该靶向碱基编辑器封装在该载体内。
141.如段落120或129-137中任一项所述的方法,其中该脱氨酶结构域构成载体内的靶向碱基编辑器。
142.如段落22至49中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分各自包含独立地选自由以下组成的组的可编程DNA结合结构域:TALE、BAT、CRISPR-Cas9、Cfp1和锌指。
143.如段落50/142所述的靶向碱基编辑器,其中该第一部分是TALE并且该第二部分是TALE,其中该第一部分是TALE并且该第二部分是BAT,其中该第一部分是TALE并且该第二部分是锌指,其中该第一部分是TALE并且该第二部分是CRISPR-Cas9,其中该第一部分是TALE并且该第二部分是Cfp1,其中该第一部分是BAT并且该第二部分是TALE,其中该第一部分是BAT并且该第二部分是BAT,其中该第一部分是BAT并且该第二部分是锌指,其中该第一部分是BAT并且该第二部分是CRISPR-Cas9,其中该第一部分是BAT并且该第二部分是Cfp1,其中该第一部分是锌指并且该第二部分是TALE,其中该第一部分是锌指并且该第二部分是BAT,其中该第一部分是锌指并且该第二部分是锌指,其中该第一部分是锌指并且该第二部分是CRISPR-Cas9,其中该第一部分是锌指并且该第二部分是Cfp1,其中该第一部分是CRISPR-Cas9并且该第二部分是TALE,其中该第一部分是CRISPR-Cas9并且该第二部分是BAT,其中该第一部分是CRISPR-Cas9并且该第二部分是锌指,其中该第一部分是CRISPR-Cas9并且该第二部分是CRISPR-Cas9,其中该第一部分是CRISPR-Cas9并且该第二部分是Cfp1,其中该第一部分是Cfp1并且该第二部分是TALE,其中该第一部分是Cfp1并且该第二部分是BAT,其中该第一部分是Cfp1并且该第二部分是锌指,其中该第一部分是Cfp1并且该第二部分是CRISPR-Cas9,或其中该第一部分是Cfp1并且该第二部分是Cfp1。
144.一种编辑线粒体中线粒体DNA或叶绿体中叶绿体DNA中的一个或多个核酸的方法,该方法包括
将如段落1-110中任一项所述的靶向胞嘧啶脱氨酶碱基编辑器引入该线粒体或该叶绿体,
其中线粒体或叶绿体DNA内的靶核酸被该靶向碱基编辑器脱氨基。
145.如段落144所述的方法,其中该线粒体或该叶绿体在体外。
146.如段落1或2所述的脱氨酶结构域,其中这些靶核苷酸各自表现出由在定义的编辑阈值处的脱氨酶概率序列标识图定义的背景特异性。
参考以下非限制性实例来进一步理解本发明。
实例
提出以下实例是为了向本领域普通技术人员提供如何制备和评估本文要求保护的化合物、组合物、制品、装置和/或方法的完整披露和描述,并且旨在纯粹示例性的并且不旨在限制本披露。
实例1:对ssDNA和/或dsDNA具有活性的胞嘧啶脱氨酶结构域的生成和鉴定。
材料与方法
对基因组学和宏基因组数据库中可用的各种推定脱氨酶结构域进行系统表征,以评估脱氨酶蛋白和碱基编辑器的活性。从pfam数据库(https://pfam.xfam.org/clan/CDA,该数据库中的蛋白质功能通常通过计算进行注释)上可获得的胞苷脱氨酶样(CDA)族的每个脱氨酶蛋白质家族中选择多个代表性结构域。编码这些蛋白质结构域的序列是使用商业合成资源合成的,并使用无细胞体外转录/翻译系统表达。一般来说,通过筛选鉴定的结构域/多肽是天然蛋白质的一部分,然而,使用GBLOCK TM基因片段合成系统(IDT)仅合成与分离的脱氨酶结构域相对应的序列。发现合成的体外系统可以有效评估这些酶的活性,因为发现dsDNA特异性脱氨酶在细胞中表达时是有毒的,因为它们会在整个基因组中引入不需要的突变。该系统能够对碱基编辑器活性进行有效的体外评估,这些活性通常在活细胞环境中进行评估。随后,使用各种测定(DNA测序或脱氨基测定)评估脱氨酶结构域对ssDNA和dsDNA底物的活性,以确定其链偏向性和序列特异性。图1中说明了此方法的概述。
对于测序测定,将dsDNA质粒添加到表达给定CDA结构域的体外翻译反应中,并在37℃下孵育两小时。将双链DNA底物(例如质粒或PCR扩增子)与体外翻译(IVT)表达的蛋白质一起孵育,可以鉴定高水平的脱氨基(C到T或G到A)突变,这些突变可以通过以下进行检测:PCR扩增(使用dU许可聚合酶,诸如Q5U或κU+聚合酶),然后对扩增的DNA进行NGS高通量测序或桑格测序。随后,通过在95℃短暂加热样品来灭活反应,对底物进行PCR扩增和测序(使用NGS或桑格测序)。在第一轮中发现含有活性dsDNA特异性CDA(MafB19和SCP1201脱氨酶)的亚家族中进行了另外几轮的筛选(R2-R4),这导致了另外dsCDA的鉴定。
对于脱氨酶测定,采用基于USER(尿嘧啶特异性切除试剂)酶的脱氨基测定来测试各种脱氨酶结构域对底物的活性。该测定的工作原理是胞嘧啶靶残基的脱氨基导致靶胞嘧啶转换为尿嘧啶。USER酶切除尿嘧啶碱基并在该位置切割DNA主链,将DNA底物切割成两个较短的片段。DNA底物的一个末端可以用染料(例如用FAM标记)进行标记。在链的脱氨基、切除和切割后,可以对底物进行电泳,并且可以通过检测标记来可视化底物和从其释放的任何片段。将dsDNA底物(A(15)XA(15))用作底物,其中X是显示为底物的序列之一(例如,被称为AC的底物对应于[A(15)]AC[A(15)])。
在各种情况下使用了含有dC的经FAM标记的ssDNA或dsDNA底物。与体外翻译结构域一起孵育后,添加USER酶以切割脱氨基底物。通过在变性TBE-尿素凝胶上运行反应来分析底物切割。
为了系统地确定已鉴定的自由浮动形式的dsDNA特异性脱氨酶的背景特异性,测试IVT系统中针对编码所有可能的三联体核苷酸(NNN)的合成底物的活性,并通过Illumina测序读出其活性。从NGS数据中鉴定出编辑频率>50%的位点(对应于胞苷),并提取经编辑的胞苷侧翼的核苷酸并用于制作代表每种脱氨酶的编辑背景的序列标识图。本实验中使用的dsDNA底物的序列是:
底物附加了仅有AT的衔接子,以促进NGS文库制备的下游扩增。
结果
通过脱氨基测定检测ssDNA和dsDNA上脱氨酶结构域的活性。在第一筛选中,编码55种不同脱氨酶的基因在体外表达,并且确定它们对ssDNA和dsDNA底物(A(15)ACCGCTCA(15);SEQ ID NO:39)的活性(表3)。电泳后观察到的切割事件表明特定脱氨酶对指定底物的活性(图2A-2C)。据观察,脱氨酶BE11(SEQ ID NO:1)、BE12(SEQ ID NO:2)、BE28(SEQ IDNO:3)和BE41(SEQ ID NO:4)对dsDNA和ssDNA均具有活性,而BE47(SEQ ID NO:5)、BE54(SEQID NO:6)和BE55(SEQ ID NO:7)对ssDNA有活性(图2A、2C)。
受这些结果的启发,进一步筛选来自上述鉴定的活性dsDNA特异性脱氨酶所属的蛋白质家族(特别是MafB19-deam和SCP1201-deam家族)的其他脱氨酶结构域。第二筛选通过脱氨酶测定确定了另外脱氨酶结构域的活性,包括对dsDNA具有高活性的那些:BE_R2_18(SEQ ID NO:11)、BE_R2_27、BE_R2_29(SEQ ID NO:14)、BE_R2_31(SEQ ID NO:15)和BE_R2_48(SEQ ID NO:16);BE_R2_11(SEQ ID NO:9)、19(SEQ ID NO:45)、28(SEQ ID NO:48),而BE_R2_7(SEQ ID NO:8)、BE_R2_17(SEQ ID NO:10)和BE_R2_26(SEQ ID NO:12)对dsDNA表现出较低的活性(图2B)。这导致鉴定出对dsDNA有活性的另外脱氨酶结构域,其中对dsDNA显示出高活性。进行了另外几轮潜在dsDNA特异性脱氨酶的筛选(R3和R4轮)。表3中总结了所鉴定的结构域的生化表征结果和序列细节。
然后研究了所鉴定的dsDNA特异性脱氨酶结构域是否具有一定程度的序列特异性。脱氨酶测定中使用了在不同背景下的含有dC的不同底物,包括使用dsDNA底物(A(15)XA(15))作为底物,其中X是显示为底物的序列之一(例如,称为AC的底物对应于[A(15)]AC[A(15)])。使用的dsDNA底物包括:
1.AAAAAAAAAAAAAAATGCGCCAAAAAAAAAAAAAAA(SEQ ID NO:268)
2.AAAAAAAAAAAAAAAACAAAAAAAAAAAAAAA(SEQ ID NO:269)
3.AAAAAAAAAAAAAAACCAAAAAAAAAAAAAAA(SEQ ID NO:270)
4.AAAAAAAAAAAAAAAGCAAAAAAAAAAAAAAA(SEQ ID NO:271)
5.AAAAAAAAAAAAAAATCAAAAAAAAAAAAAAA(SEQ ID NO:272)
6.AAAAAAAAAAAAAAAACCCCTCAAAAAAAAAAAAAAA(SEQ ID NO:273)
唯一已知的dsDNA特异性脱氨酶(dddA,最近描述的一种来自细菌毒素的脱氨酶)被用作阳性对照。
不同的脱氨酶结构域对不同的底物表现出不同水平的活性,表明这些酶具有一定程度的序列特异性(图2D)。基于这些结果(图2D),观察到分离的脱氨酶的以下序列特异性或偏好:
BE_R1_11:TC特异性。对AC和GC在较小程度上具有特异性
BE_R1_12:AC和GC特异性。对CC在较小程度上具有特异性
BE_R1_28:TC特异性(背景特定性比BE_R1_11和BE_R1_41更严格)
BE_R1_41:TC特异性。对AC和CC在较小程度上具有特异性。
接下来,通过测序分析DNA脱氨基事件。测序结果表明,脱氨酶对dsDNA具有高活性,并具有一定程度的序列特异性,并且这些酶在不同背景下以不同的效率对dC进行脱氨基(图3A-3B)。
NGS数据用于确定所鉴定的dsDNA特异性脱氨酶的序列特异性。简而言之,将dsDNA质粒底物与体外翻译的脱氨酶一起孵育。随后,对底物进行PCR扩增,并在第二轮PCR中添加Illumina衔接子和条形码。鉴定了具有指定编辑频率的SNP变体,并确定了每个编辑效率水平(25%或50%编辑位点)的序列频率标识图(图4A-4B)。这些结果表明,所鉴定的脱氨酶具有不同的底物特异性,并且可以共同允许在任何给定背景(NCN)中编辑任何胞苷。根据靶序列背景,可以从所鉴定的脱氨酶组中选择具有更宽松或严格序列特异性的脱氨酶。
由于其对dsDNA的活性,如果不以某种方式遏制其活性,所鉴定的脱氨酶在活细胞中表达时可能具有毒性。在自然系统中,这些蛋白质的活性在转录或翻译水平上遏制,或者通过隔离到特定的细胞区室或通过抑制性蛋白质的共表达(例如毒素-抗毒素系统中的情况)来遏制。先前已使用将有毒蛋白质拆分成无活性的两半来表达有毒蛋白质,例如FokI(核酸内切酶)和DddA(DNA脱氨酶)。当共表达时,这些非活性的半部分可以重建蛋白质的活性形式。通过控制两半的定位,可以确保蛋白质的全功能形式仅在所期望的区室/位置(例如所期望的DNA序列)中重建,并且有毒蛋白质在基因组其余部分上的脱靶活性被最小化。
考虑到这一点,创建了所鉴定的脱氨酶的拆分版本,以便将它们用于体内应用,而不会对细胞造成毒性。所鉴定的脱氨酶在其编码基因的不同位置被拆分(以形成蛋白质的不同N末端半部分和C末端半部分),并通过脱氨酶测定评估它们的活性(作为单独的半部分或当互补的半部分组合时)。如图5所示,一些拆分形式在与其互补的一半混合时表现出活性(BE11:N3+C3,BE12:N2+C2,BE12:N4+C4)。
对所鉴定的具有dsDNA活性的胞苷脱氨酶结构域(也称为“dsCDA”)的序列进行比较基因组学。大多数所鉴定的脱氨酶属于CDA族内的两个主要家族(MafB19和SCP1201)。图7A显示了对dsCDA有活性的MafB19家族成员、对dsDNA无活性的成员以及整个MafB19家族鉴定的序列比对标识图和特征基序。
经过实验测试的MafB19-deam家族的dsDNA特异性CDA中存在特定的保守残基(即特征基序),但在该家族的非活性成员中不存在。这些特征可用于预测和鉴定该家族中的其他有活性成员,包括:
(M/L)P基序
T(V/I/L/A)A(R/K/V)基序
(Y/F/W)G(V/H/I/R/K)N基序
HAE=>活性位点基序
VD(R/K)基序=>存在于对dsDNA有活性的MafB19-deam家族的几乎所有成员中
CXXC基序=>规范的CXXC锌结合基序。
所鉴定的特征基序可用于鉴定该家族内其他dsDNA特异性脱氨酶。
鉴定了MafB19-deam家族中的分支,该家族中大多数所鉴定的dsDNA特异性脱氨酶都位于该分支(图7B)。该独特的分支与该家族中的其他脱氨酶趋异(通过与对齐树根和大多数其他分支的较大进化距离表明)。
对SCP1201-deam蛋白家族进行了类似的分析(图8)。经实验测试的SCP1201-deam家族中dsDNA特异性CDA中存在的特定特征基序包括:
L(P/L)基序;
(Y/F/E/Q)(D/E/N)G(K/R/D)(T/K/N)TXG(V/L/T)(L/M/F)基序;
(P/S/T)(N/G/E/Q)Y基序;
(G/S)HVE(G/A/Q)=>G或S位于保守活性位点基序(HVE)之前,后接(G/A/Q);
HNN基序(或较小程度的(H/I)(N/D)(N/H));
G(T/I)C(G/P/N/H)(Y/F)C基序=>G(T/I)位于规范的CXXC锌结合基序之前;
Cx(Y/F)C是该家族的dsDNA特异性脱氨酶中的普遍基序。除BE_R1_28外,该家族的所有活性成员在锌结合基序中的两个C残基之间严格具有2个氨基酸。该家族的非活性成员在两个C残基之间都具有多于两个氨基酸残基。在该家族的活性成员中,G(T/I)基序位于锌结合基序之前。
(T/A)LL(P/E)基序;
L(E/D/R/K)V(V/I)PP基序;以及
G(N/D)XXXPK基序。
所鉴定的特征基序可用于鉴定每个家族内其他dsDNA特异性脱氨酶。
为了进一步表征dsDNA/脱氨酶相互作用,计算了与dsDNA结合的脱氨酶的预测结构模型。
计算了与dsDNA对接的BE12的预测结构,作为MafB19-deam家族的示例性代表。确定了与MafB19-deam家族的特征残基相对应的位置。脱氨酶似乎通过与DNA的小沟和大沟相互作用来与dsDNA结合。保守/特征基序聚簇在酶活性位点(HAE)和DNA结合位点周围。特征基序(特别是VDR和G(V/H/I/R/K)N基序)似乎稳定了脱氨酶与dsDNA的相互作用。VDR基序中的R残基直接与dsDNA主链相互作用,并且可以通过突出或碱基翻转机制参与双链DNA的解旋。
还计算了与dsDNA对接的BE41的预测结构,作为SCP1201-deam家族的示例性代表。确定了与SCP1201-deam家族的特征残基相对应的位置。脱氨酶似乎通过与DNA的小沟和大沟相互作用来与dsDNA结合。保守/特征基序聚簇在酶活性位点(HAE)和DNA结合位点周围。特征基序(特别是(Y/F/E/Q)(D/E/N)G(K/Q/T)(T/K)TXG(V/L/T)(L/M/F)、(P/S/T)(N/G/E/Q)Y、SG和HNN基序)似乎稳定了脱氨酶与dsDNA的相互作用。
表3:所鉴定的dsDNA特异性CDA结构域的身份和序列
实例2:用于线粒体基因组工程改造的仅有蛋白质的碱基编辑器的生成和鉴定
由线粒体基因组突变引起的线粒体遗传病是一类毁灭性的人类疾病,由于缺乏精确编辑这些突变的技术,目前无法治愈这些疾病。大多数这些突变(93个已确认的致病性突变中的78个)都是单点突变的形式,并且可以通过碱基编辑来修复,但是,由于缺乏将核酸传递到线粒体的有效机制,现有的RNA指导技术(如基于CRISPR的技术)尚未成功应用于线粒体。使用CRISPR和任何依赖DNA(例如模板)或RNA(例如向导RNA)部分进行编辑的编辑系统的主要限制是缺乏可用于将这些部分穿梭穿过线粒体双膜进入线粒体腔的机制。尽管有报道声称使用RNA指导系统(例如CRISPR-Cas9)成功编辑线粒体基因组,但它们仍然存在争议且不可重复。大多数这些研究提供的证据是间接的(例如qPCR),而不是显示编辑的直接证据(对编辑的基因座进行测序)。
在缺乏精确的基因组编辑器(其主要依赖RNA指导的蛋白质,如CRISPR-Cas9)的情况下,可编程的仅有蛋白质的核酸酶(线粒体锌指核酸酶(mitoZFN)、线粒体TALE核酸酶(mitoTALEN)和线粒体限制性酶(mitoRE))已被用来改变细胞培养物/患者衍生的样品/动物模型中线粒体基因组异质性的水平。所有这些方法都依赖于(拆分)核酸酶与可编程DNA结合结构域的融合。DNA结合结构域(ZF、TALE、RE)的设计方式使其能够以高亲和力与线粒体基因组的突变拷贝(但不是WT拷贝)结合,从而优先结合并切割线粒体基因组的突变拷贝,从而使异质性转向所期望的(wt)等位基因。该方法仅适用于具有显著水平异质性的疾病(wt和突变等位基因都大量存在),并且目前在解决该疾病方面不是非常有效。
由于它们对dsDNA的活性,全长dsDNA特异性脱氨在细胞中表达时具有毒性(它可以在整个基因组中引入全局突变)。为了控制毒性,最近的研究使用了以前在TALEN和ZFN以及其他毒性结构域中FokI核酸酶的情况下使用的策略,即将毒性蛋白分成两半。然后,他们将每个脱氨酶一半融合到附加有线粒体靶向肽和UGI(阻止修复机制)的TALE结构域。
与TALEN方法类似,TALE结合位点设计在靶位点的两侧。一旦与它们的靶标结合,它们就会使脱氨酶的两半在一起,形成功能性胞苷脱氨酶,其可以使脱氨酶结合位点附近的胞苷脱氨基。
然而,Mok等人描述的基于dsDNA特异性DddA的最近方法的主要限制是其狭窄的背景特异性。由于DddA的背景特异性(只能编辑TC背景中的胞苷,如Mok等人论文的上述序列标识图所示),已发布的碱基编辑器只能编辑胸腺嘧啶前面的胞苷,占已证实人致病突变的4/93。
通过利用一组dsDNA特异性脱氨酶,开发了一套仅有蛋白质的碱基编辑器,可以在任何背景下(NCN:ACN、CCN、GCN、TCN)高效编辑胞苷。此外,还开发了工程改造规则,这些规则允许调整脱氨酶在靶区域上的活性窗口,并使用这些原理在体外和体内(核或线粒体基因组)有效地工程改造和精确地编辑不同的dsDNA底物。由于用于将指导RNA递送至线粒体的基于CRISPR的方法的局限性,以及基于dddA的方法的背景特异性有限,本文描述的碱基编辑器能够在更广泛的序列背景中进行碱基编辑,并且特别适合线粒体基因组工程改造应用以及其他膜细胞器中的碱基编辑。
通过将dsDNA特异性胞苷脱氨酶融合到可编程DNA结合结构域,对dsDNA进行位点特异性脱氨基
基因编辑实验通常在细胞中进行,每轮实验可能需要数天甚至数周的时间。为了减少这个时间,并避免使用碱基编辑器可能出现的毒性问题,最初的实验建立了基于体外转录/翻译(IVT)系统(以前用于鉴定新颖dsDNA特异性脱氨酶)的体外系统,以快速测试基因编辑器和碱基编辑器的体外性能(图9)。
简而言之,碱基编辑器是通过克隆设计器TALE下游的脱氨酶结构域来制作的。整个盒被克隆到T7启动子下游并用作IVT反应的模板。将靶标(编码目的DNA结合结构域(例如设计器TALE)的结合位点)克隆到质粒上,然后将这些质粒用作IVT反应中的dsDNA底物。在IVT系统中表达后,碱基编辑器蛋白(例如TALE脱氨酶融合物)与其底物质粒上的靶标结合,并向靶标质粒引入编辑。然后对底物质粒进行PCR扩增,并通过测序或T7核酸内切酶测定确定编辑的位置/频率。
使用具有不同序列背景的不同底物测试了TALE-全长脱氨酶融合物对所鉴定的dsDNA特异性脱氨酶子集的活性。脱氨酶在所有可能的二核苷酸环境(AC、CC、GC、TC)上都有活性,并且不同的融合物对不同的底物显示出不同的活性窗口和编辑效率(图10A-10B)。
有意义的是,在编辑窗口中观察到10bp的周期。编辑在某些底物(例如聚C或聚TC)中比其他底物更明显。最佳编辑窗口周期性发生(10bp周期,对应于双螺旋一圈)。这表明脱氨酶只能进入双螺旋的一侧。TALE_BE_R1_11和TALE_BE_R1_12中的周期性窗口不太明显,因为这些脱氨酶过于活性,或者TALE和脱氨酶核心之间的接头过于柔性。这与以下一致并支持以下:预测脱氨酶与DNA小沟和大沟相互作用的结构预测模型。当与TALE融合时,脱氨酶的运动将受到一侧的限制,因此脱氨酶将比另一侧更好地进入双螺旋的一侧。
计算了与DNA结合的TALE-脱氨酶融合物的预测模型(使用BE_R1_41作为dsDNA特异性CDA的实例)。该模型表明,脱氨酶与TALE融合时会优先进入双螺旋的一侧。与DNA大沟和小沟相互作用的要求决定了在这些实验中观察到的约10bp的活性周期窗口。
拆分碱基编辑器设计
基因编辑实验通常在细胞中进行,每轮实验可能需要数天甚至数周的时间。为了减少这个时间,并避免使用碱基编辑器可能出现的毒性问题,最初的实验使用了基于体外转录/翻译(IVT)系统(以前用于鉴定新颖dsDNA特异性脱氨酶)的体外系统,以快速测试基因编辑器和碱基编辑器的体外性能。碱基编辑器的一半是通过克隆设计器TALE下游的脱氨酶拆分域而制成的(称为TALE_左和TALE_右)。整个盒被克隆到T7启动子下游并用作IVT反应的模板。将靶标(编码目的DNA结合结构域(例如设计器TALE)的结合位点)克隆到质粒上,然后将这些质粒用作IVT反应中的dsDNA底物。在IVT系统中表达后,碱基编辑器蛋白(例如TALE脱氨酶)与其底物质粒上的靶标结合,并向靶标质粒引入编辑。然后对底物质粒进行PCR扩增,并通过测序或T7核酸内切酶测定确定编辑的位置/频率。
在缺乏所鉴定的脱氨酶的结构数据的情况下,使用SPELL网络工具设计了拆分脱氨酶蛋白,该网络工具预测蛋白质中可能在组装后产生功能性蛋白质的位置。通过在IVT系统中共表达预测的拆分半部分,然后进行脱氨基测定来测试拆分形式。包括BE_R1_11(N3+C3)和BE_R1_12(N2+C2和N4+C4)在内的一些设计显示出一定水平的活性(当任何一个拆分半部分单独表达时,没有检测到活性)。然而,这些拆分变体的活性显著低于全长脱氨酶,并且当与TALE DNA结合结构域融合时不会导致靶区域的显著编辑(图5)。
为MafB19-deam家族创建拆分脱氨酶TALE融合物的最初尝试暗示了这些脱氨酶活性的其他要求的可能性,并启发我们提出制造拆分蛋白的替代方法。设计拆分蛋白时,目标是在目的蛋白质中找到一个位置,一旦蛋白质在该位置拆分成两半,两半蛋白质就不再保留活性,但一旦这两半在一定条件下在一起,活性就会重建。第一次尝试在没有结构数据的情况下使用现有工具设计拆分CDA蛋白质失败了,并且在没有关于蛋白质结构的先验知识的情况下寻求一种新的、更通用的方法来制造拆分蛋白质。我们没有像传统上那样将蛋白质拆分成N末端和C末端半部分,而是设计了一种方法,该方法涉及用本身不保留活性的截短的蛋白质拷贝来补充全长蛋白质的无活性(死)拷贝。一旦酶的死拷贝和酶的截短拷贝共定位,酶活性就会重建。例如,可以通过将两个部分融合到DNA分子上具有并列结合位点的DNA结合结构域来实现共定位。
BE_R1_12用于与TALE DNA结合结构域融合的初步研究(当表达为全长脱氨酶时显示出很强的活性),以证明这种条件性蛋白质共定位和激活概念。
首先,通过将保守的谷氨酸(HAE基序中的E残基,根据与已知胞嘧啶脱氨酶(诸如APOBEC和AID)的同源性,预测其是酶的活性位点)突变为丙氨酸,产生“死”(无活性)BE_R1_12(死BE12或dBE12)蛋白。
脱氨酶的死拷贝与TALE_左(TALE_L)结构域融合,该结构域结合底物质粒中靶区域的左侧。全长活性BE_R1_12也从N末端每5个氨基酸依次截短(截短的结构域仍保留HAE活性位点)。截短的结构域与TALE_右(TALE_R)结构域(其与跨TALE_L结合位点的靶区域的另一侧结合)融合。两个TALE-脱氨酶融合物半部分在IVT系统中单独或组合进行测试。与传统的拆分蛋白设计方法不同,这种新方法不需要有关蛋白质结构的信息,并且可能允许制造以二聚体形式而非单体形式变得有活性的功能性拆分蛋白(图11)。
将拆分TALE-BE_R1_12碱基编辑器与处理侧翼为TALE结合位点的含有聚C的底物一起孵育,并通过桑格测序读出碱基编辑的结果。TALE_R_截短_BE12融合物以及TALE-死_BE12融合物对dsDNA含聚C底物无活性。然而,当同时添加TALE_R_截短_BE12和TALE_L_死_BE12时,脱氨酶活性在TALE结合位点附近重建,从而导致靶区域中胞苷的有效编辑(图12-13)。与只能在TC背景中有效编辑胞苷的dddA不同,拆分BE12碱基编辑器可以有效编辑所有可能的背景(AC、CC、GC、TC),因此作为背景非依赖性碱基编辑器起作用。在此设计中,最大活性窗口朝向靶区域的中间。
实例3:另外的拆分碱基编辑器架构(使用2x脱氨酶活性位点而不是1x活性位点产生高效的拆分碱基编辑器)
设计了另一种方法来产生拆分碱基编辑器,其中不是活性位点的一个拷贝,而是活性位点的两个拷贝被定位到靶区域,从而导致更高的中靶活性。为了实现这一目标,我们在脱氨酶活性位点的两侧使用了两个不同的拆分位点,而不是使用单个拆分位点。拆分位点的选择方式使得任何单个片段都不会产生酶活性,但一旦与TALE融合并在TALE与其靶标结合后定位在靶区域上,它们就可以相互补充。当使用每个拆分位点的较大片段时,这种方法可以在靶标上提供活性位点(HVE)的2x副本,而不是传统方法中的1x,从而实现更高的编辑活性。
BE41的切割(拆分)片段
这种方法通过产生BE41(一种属于SCP1201-deam家族的蛋白质,是dddA的同源物,其蛋白质结构和拆分位点之前已被鉴定)的拆分片段来证明。基于同源性,BE41中的位置G43和G108被鉴定为潜在的拆分位点。然后将N末端和C末端片段融合到TALE_R和TALE_LDNA结合结构域中,并在IVT系统中单独或组合(N末端+C末端片段)表达它们。使用含有侧翼为TALE结合位点的16bp聚C的质粒作为底物(聚C底物中靶区域的所有位置都可能被编辑,从而可以更好地定量和可视化整个靶区域的编辑活性/效率)。有意义的是,拆分位点的位置影响碱基编辑器的活性窗口(被编辑的靶区域内的位置,如桑格色谱图顶部的红色曲线所示)。包含C_G43片段的组合的活性窗口在16bp靶区域的位置6-13之间,而使用C_G108片段时的活性窗口在位置8-15之间。C_G108相比于C_G43组合中的活性窗口移动2bp可能是由于C_G108片段中C_ter片段的长度更短(因此柔性降低)。这个未来可用于调整此类碱基编辑器的活性窗口。该实验表明,脱氨酶中拆分位点的位置影响碱基编辑器的活性窗口,并且可用于调整此类碱基编辑器的活性窗口。为脱氨酶蛋白设计另外的拆分位点有助于在需要时进一步调整碱基编辑器的活性窗口(图14)。
BE41_N_G108+BE41_C_43组合(2x活性位点拆分设计)
BE41_N_G108+BE41_C_43组合(2x活性位点拆分设计)产生比BE41_N_G108+BE41_C_G108更高的编辑效率。1x活性位点组合在TC和CC背景中有活性,但在AC或GC背景中无活性。具有2x活性位点的设计在TC和CC背景中相对更具有活性,在AC背景中也有些活性,在GC背景中有稍微活性。在活性窗口的中间观察到最大活性。对于2x活性位点设计,在(在16bp靶区域中的)位置9-11观察到最大活性,并随着距中心距离的增加而下降。1x活性位点设计的最大活性在(在16bp靶区域中的)位置11-13观察到,并随着距离的增加而下降。红色星号表示编辑位点的位置。与星号对应的位置处的峰的相对高度表示编辑效率(正向链上的C至T转换(如所示)或G至A转换(反向互补链上的C至T转换))(图15)。
2x活性位点BE41碱基编辑器设计
2x活性位点BE41碱基编辑器设计显示出比1x BE41碱基编辑器更高的活性。两种BE41碱基编辑器架构都擅长在属于其相应活性窗口的CC和TC背景中进行编辑。BE41更偏好聚C而不是聚TC。1x活性位点BE41碱基编辑器在AC背景中有困难。
BE41碱基编辑器可以使反向链上的胞苷脱氨基,导致PCR扩增后正向链上发生G到A的突变。反向链上的活性窗口是正向链上的窗口的相对侧。
与可以在任何背景下编辑胞嘧啶的BE12碱基编辑器不同,BE41碱基编辑器很难在GC背景中编辑胞嘧啶,在AC背景中以较小程度编辑胞嘧啶。在这些背景中,在与最大活性窗口相对应的位置(在2x活性位点设计的情况下,距左侧TALE 10bp,在1x活性位点设计的情况下,距左侧TALE 12bp)观察到一定程度的编辑。(图16A-C)。
实例4:碱基编辑器活性窗口:影响活性窗口的因素以及如何调整它们
确定交换脱氨酶的拆分两半会影响编辑效率,但不会显著改变活性窗口的位置。已经确定靶区域中DNA的方向性很重要。
在TALE_右与TALE_左之间交换脱氨酶半部分不会改变活性窗口的位置,也就是说,对于该特定脱氨酶(BE41),靶区域内正向链右侧(而非左侧)上的胞嘧啶被优先编辑,这与脱氨酶拆分半部分的取向无关。将较小的片段融合到具有更靠近活性窗口的结合位点的TALE(在这种情况下是右TALE)导致更高的效率,可能是因为相对于活性窗口,大片段和小片段具有更好的空间适应性。这是一种反直觉的观察;然而,这可以通过以下发现来解释:脱氨酶通过DNA的小沟和大沟与dsDNA相互作用并结合。这种结合要求是脱氨基活性所必需的,并且限制了碱基编辑器的活性窗口。由于dsDNA螺旋每圈为10bp,在本实验使用的16bp靶区域内,只有一对小沟槽和大沟槽能够接近脱氨酶进行结合,因此只要半圈正向链就满足脱氨酶结合要求并被有效脱氨基。
拆分碱基编辑器的结构建模
对计算结构模型进行计算以对重建的拆分TALE-BE41与DNA双螺旋的结合进行建模(图17A)。该模型预测反向链上的胞苷也应该能够被脱氨酶接近并进行脱氨基,这通过使用聚G底物代替聚C被验证为真。当使用聚G底物代替聚C时,靶区域前半部分的位置被脱氨基(反向链上的Cs),进一步证实了所提出的模型(图17B)。
这些发现表明,这类利用dsDNA特异性脱氨酶的碱基编辑器具有周期性的活性窗口,其中在正向和反向链上具有不对称相。
基于该模型,脱氨酶活性位点相对于DNA可接近侧(即靶区域内DNA的可接近的小沟和大沟)的位置将影响活性窗口的位置。拆分位点的位置会影响活性位点相对于DNA的相对位置。数据表明,改变接头的柔性和长度可能会影响酶活性位点相对于DNA可接近侧的位置,从而影响编辑窗口和效率。因此,脱氨酶本身可以充当接头并影响脱氨酶与dsDNA的可接近性。这些发现对于调整此类碱基编辑器的活性窗口和最小化旁观者残基的突变非常有价值。
调整碱基编辑器活性窗口
基于计算模型和数据的拆分BE41碱基编辑器的活性窗口如(图18)所描绘。指示了与每条DNA链的活性窗口相对应的TALE结合位点和位置。活性窗口可能会根据脱氨酶的性质、拆分位点的位置、所使用的接头类型等而变化。但是,当脱氨酶结合需要与DNA的小沟和大沟相互作用时,预期会出现周期性和不对称的活性窗口。
使用不同dsCDA产生的碱基编辑器对给定底物显示出不同的活性窗口和编辑效率(图19),进一步表明不同的脱氨酶具有不同的活性窗口。
DNA结合结构域之间距离的影响
DNA结合位点之间需要保持最佳距离,以确保高效编辑。对于拆分BE41脱氨酶,该距离在14-19个碱基对之间。如果靶区域(两个DNA结合位点之间的距离)<14bp,脱氨酶将没有足够的空间来适应靶区域并以正确的取向进入DNA的小沟和大沟。另一方面,如果靶区域>19bp,编辑效率会下降,可能是因为两个脱氨酶之间的距离太远,并且它们的相互作用(从而编辑效率)变得依赖于dsDNA的分子运动和其他因素。DNA结合位点之间的最佳距离代表脱氨酶的两半可以有效相互作用的最佳距离。该最佳距离可能会根据脱氨酶和DNA结合结构域的性质、连接这些结构域的接头以及脱氨酶结构域中拆分位点的位置而变化(图20)。
实例5:DNA结合结构域/接头的性质影响碱基编辑器活性窗口
为了进一步证实该模型,将TALE DNA结合结构域替换为靶向相同DNA序列的BATDNA结合结构域(最近描述的TALE样DNA结合结构域,具有与TALE相同的DNA结合编码)。尽管BAT重复使用与TALE相同的RDV编码(A:NI、C:HD、G:NN、T:NG),但TALE和BAT的N末端和C末端不同。与遵循T0规则的TALE不同(TALE结合位点需要严格以T开头),BAT N末端结构域的结合更加灵活,并且BAT结合位点可以以四个核苷酸中的任何一个开头。BAT的C末端与TALE不同源并且更短(BATa中为30个氨基酸,相比于本实验中使用的TALE中为41个氨基酸)。
用同义BAT替换TALE结构域之一导致更短的活性窗口,其中活性窗口向TALE结构域移动(图27A-B)。较短的活性窗口表明活性脱氨酶在双螺旋上的较短跨度上重建,因为BAT C末端的柔性较低和/或长度较短。用同义BAT替换两个TALE结构域完全废除了碱基编辑活性,可能是因为BAT的较短C末端结构域不够长/柔性,不足以允许脱氨酶半部分相互作用。通过在HEK293细胞中表达构建体并通过T7核酸内切酶测定评估编辑结果,进一步验证了BAT-TALE对的活性(图27B)。
这个实验证明了主要两点:
i)BAT(以及可能的其他TALE样蛋白质)可以用作此类碱基编辑器中TALE的替代品;以及
ii)活性窗口取决于与脱氨酶结构域融合的DNA结合结构域的类型,并且可以通过改变脱氨酶半部分和DNA结合结构域之间的接头的序列/长度来调节。
脱氨酶结构域的C末端结构域应被视为接头的一部分,因为其柔性和长度将有助于脱氨酶半部分彼此之间以及与DNA的相互作用。这种见解对于调整碱基编辑器的活性窗口和缩小窗口以避免靶区域中旁观者C残基残基的突变非常有用。
DNA结合位点与TALE/BAT DNA结合结构域对之间的距离的影响
DNA结合结构域的性质影响碱基编辑器的活性窗口。在BE41情况下,当TALE用作左和右DNA结合结构域时,可以实现更宽的活性窗口和高效编辑:
用同义BAT结构域替换左侧TALE可以实现高效编辑和窄活性窗口;
用BAT替换右侧TALE会导致活性窗口变小,但代价是编辑效率降低。
这些数据表明,DNA结合结构域的性质(即DNA结合结构域和脱氨酶接头(例如DNA结合结构域的C末端结构域)的性质)是此类碱基编辑器设计中的重要因素,并且可能通过限制靶区域内活性脱氨酶可以有效重建的区域影响窗口活性和编辑效率。此特征是此类碱基编辑器中的重要设计因素和一个参数,其可以根据要求(例如修复致病性突变)被调整以实现更宽或更窄的活性窗口并调节编辑效率。调整编辑窗口对于避免靶区域内的脱靶(旁观者C残基)非常重要。(图21B)
实例6:通过宽松脱氨酶运动来扩大碱基编辑器的活性窗口
评估了由DNA结合结构域引起的柔性的缺乏是否限制了活性脱氨酶的重建以及脱氨酶对DNA双螺旋的接近。潜在地,宽松相互作用有利于脱氨酶接近DNA并延长活性窗口。
为了检验这一假设,将互补的卷曲螺旋结构域附加到与或不与TALE融合的拆分脱氨酶的末端,并测试这些经修饰的碱基编辑器的活性。如图22所示,在存在卷曲螺旋的情况下替换或移除这些TALE中的一个会导致活性窗口的延伸,这表明通过移除其附接的DNA结合结构域来宽松脱氨酶半部分之一可能有助于将脱氨酶活性窗口朝着被移除的TALE方向延伸(即移除右侧TALE导致活性窗口向右延伸,以及移除左侧TALE导致活性窗口向左延伸)。
正如预期的那样,由于特异性的丧失,同时去除两个TALE会导致编辑下降到检测限以下。这些结果表明,编辑窗口受到TALE对脱氨酶半部分施加的限制。
实例7:通过移动碱基编辑器的活性窗口来调整中靶活性并最小化减少旁观者脱靶
当通过碱基编辑安装突变时,通常希望最小化靶区域附近的旁观者C的突变,同时最大化靶C残基的编辑效率。
鉴定了定义Mt-CBE碱基编辑器活性窗口的规则后,设计了可以安装与修复致病性线粒体突变(小鼠线粒体中的mCox1 V421A,对应于将C6589转换为T)相对应的突变的碱基编辑器,以最小化旁观者C残基(C6593)的脱靶突变。
为此,制备了编码具有1bp移位的mCox1靶区域的多个质粒底物。C6589残基前面有G残基(GC背景),因此选择了BE12碱基编辑器,该编辑器之前已被证明可以在GC背景中编辑胞苷(注意:dddA对含有GC的底物没有活性)。通过在两个非可变结合位点内滑动靶区域,可以评估和优化碱基编辑器活性窗口内靶碱基的位置,而无需产生结合不同DNA序列的新碱基编辑器。图23A-23B中所示,当该C残基距离左侧TALE结合位点10bp(对应于双螺旋的1圈)时,C6589的最大中靶编辑发生,表明在此碱基编辑器架构中,脱氨酶可以更好地接近此位置的dsDNA。当靶残基在两个方向上远离位置10时,活性下降,但当靶残基向右移动时,活性下降更剧烈。在C6593的情况下观察到相同的趋势,当该残基通过靶窗口内的位置14时,脱氨活性低于检测限。
数据:
i)在致病性突变的背景下,证明了对GC背景中的C残基进行有效和靶向的编辑;
ii)描述BE12碱基编辑器的活性窗口以及调整该活性窗口的方法;以及
iii)提供用于编辑致病性C6593突变的碱基编辑架构,并通过将靶碱基放置在距左侧TALE结合位点10个碱基对的位置来最小化脱靶。
类似的靶标滑动方法可以优化其他碱基编辑器的编辑效率,并最小化其他碱基编辑器的旁观者脱靶,而无需产生多个DNA结合结构域和碱基编辑器。
概述:碱基编辑器设计
影响碱基编辑活性窗口和编辑效率的不同参数包括:
1.DNA结合结构域的性质。
已经确定,不同类型的可编程dsDNA特异性DNA结合结构域(包括TALE、ZF和BAT)可用于在产生这些碱基编辑器时提供特异性。
还已经确定DNA结合结构域的性质影响活性窗口的位置和跨度。鉴于dsDNA特异性脱氨酶目前具有一些固有的局限性(例如,ZF不能针对所有可能的靶标进行设计,TALE和ZF以及可能的BAT与某些靶标的结合比其他靶标更好等),对于任何给定的靶标,可能需要对脱氨酶的性质进行一些优化来优化碱基编辑器的性能。
2.dsDNA特异性脱氨酶的性质。
所使用的脱氨酶结构域的性质影响其中胞苷碱基可以被编辑的序列背景。先前公开的dddA脱氨酶数据表明dddA脱氨酶只能在TC背景中编辑C(Mok等人)。
这里提供的数据描述了可以在不同背景下编辑胞苷的各种脱氨酶。这组脱氨酶可共同用于在任何可能的背景(AC、CC、GC、TC)中编辑胞苷。可以选择脱氨酶,对给定的靶点允许最大程度的中靶编辑和最小程度的脱靶编辑。还已证明,脱氨酶的性质也会影响正向或反向链上活性窗口的位置和跨度。
3.拆分位点的位置/性质
数据表明,拆分位点的位置影响正向和反向链上碱基编辑器的活性窗口(的位置和跨度)。不同的拆分位置可用于调整脱氨酶的活性窗口。已经设计并提供了两种用于产生拆分碱基编辑器的设计:
i.第一种设计策略涉及将脱氨酶的“死”/无活性全长拷贝融合到一个DNA结合结构域,并将具有完整活性位点的脱氨酶的截短拷贝融合到DNA结合结构域的另一个拷贝(BE12用作概念证明)。脱氨酶的两个拷贝(死的或截短的)均不具有活性(单独或作为与DNA结合结构域的融合物)。然而,当它们在靶DNA上聚集在一起时,它们可以相互补充并重建脱氨酶活性(这种通用设计也可用于产生其他酶的拆分版本,而无需了解其结构)。在此设计中,酶的死拷贝(包含失活的活性位点)补充了酶的截短拷贝(具有功能性活性位点但缺乏一个或多个必要的结构元件)的结构元件。这种方法可用于产生其活性也需要二聚化的拆分蛋白。
ii.第二种设计策略包括从单个蛋白质的两个独立的拆分位点获得的更大片段(BE41被用作概念证明)。这两个片段(即N末端和C末端截短的重叠片段)单独均不具有活性,但它们一旦通过DNA结合结构域被带到靶标上,就会重建酶活性。在这种设计中,每个片段都补充了另一个片段所缺乏的结构基序,并且由于靶标上有两个共定位的活性位点,因此实现了更高的酶活性。
上述方法(i)和(ii)并不知晓结构数据,并且可以在不得到蛋白质结构的情况下应用,并且可以允许产生需要二聚体或多聚体形成才能发挥其活性的拆分蛋白质。这些与传统方法不同,在传统方法中,蛋白质在单个位点拆分为不重叠的N末端和C末端。为了用传统方法设计拆分蛋白,通常需要结构数据。更重要的是,只有一个蛋白质拷贝可以在靶标上有效地重建,因此需要二聚化或多聚化的蛋白质无法使用传统方法转化为拆分版本。
4.接头的性质
已经证明,接头的长度和性质可以通过允许/限制dsDNA上脱氨酶活性可以沿着双螺旋重建的区域来影响活性窗口的位置和跨度。
应当注意的是,DNA结合结构域和脱氨酶结构域中可能存在的且直接附接于接头的非必需序列应被视为接头的延伸。例如,天然存在的TALE和TALE样蛋白可以耐受其C末端结构域的截短,而不影响其结合亲和力。作为DNA结合结构域或脱氨酶结构域主体一部分的非必需氨基酸应被视为接头的延伸,并且它们的组成(长度/柔性)可以作为可调整的参数来调整碱基编辑器的编辑效率和活性窗口。
5.DNA结合结构域之间的距离
影响靶区域上活性窗口位置的另一个参数是DNA结合因子之间的距离。已经证明,为了实现最佳活性,两个结合位点之间的距离需要在一定范围内:如果距离太短,将发生最小/无编辑,可能是因为脱氨酶的半部分到dsDNA受到空间阻碍;另一方面,如果距离太远,脱氨酶的半部分的有效浓度下降,并且脱氨酶的半部分的相互作用变得不那么有效。
对于测试的碱基编辑器设计,发现最佳活性窗口在14-20bp之间。当使用不同类型的DNA结合结构域/脱氨酶/接头时,最佳距离可能略有不同。可能需要至少一圈dsDNA(10bp)距离才能实现有效编辑,因为低于该范围,脱氨酶对dsDNA的接近将受到空间阻碍(图24)。
实例8:使用Mt-CBE碱基编辑器编辑线粒体基因组
为了证明拆分BE12碱基编辑器的活性,将靶向线粒体hND1基因的TALE拆分脱氨酶融合物与UGI(以限制线粒体尿嘧啶DNA糖基化酶的活性)和GFP(在左侧TALE融合的情况下)和mKate(在右侧TALE融合的情况下)融合,并将构建体共转染至HEK293T细胞系。3天后收获细胞并通过T7核酸内切酶测定评估编辑结果(图25A-25B)。
比较了拆分BE12与BE41碱基编辑器在HEK293线粒体中编辑hND1靶标的活性窗口。BE12编辑器显示更窄的活性窗口,而BE41编辑器可实现更高效的编辑和更宽的活性窗口。两个碱基编辑器的活性窗口与体外实验中观察到的编辑窗口一致。鉴于BE12编辑器的活性窗口较窄,该编辑器更适合需要最小化旁观者脱靶编辑的情况(图26)。
实例9:使用替代性DNA结合结构域(TALE、BAT、ZF)
评估了几种替代性DNA结合因子,包括锌指(ZF)、TALE和TALE样(BAT)蛋白,以用于使用Mt-CBE进行碱基编辑。
锌指
锌指(ZF)被作为DNA结合因子评估。每个ZF重复识别3个核苷酸(三联体),而TALE和TALE样蛋白情况下则识别一个核苷酸/重复(重复次数越少,在细胞中可能更稳定)。ZF比TALE和TALE样更小(两个ZF-BE可以装入载体),这使得它们成为AAV基因递送的更好候选者,但是,ZF不能针对任何给定靶标进行设计(有64种可能的三联体核苷酸,但只有其中约50种可以被现有的ZF靶向)。
TALE和TALE样蛋白质
还评估了TALE和TALE样蛋白质。这些是重复的DNA/RNA结合结构域(其中许多仍未表征),其具有与TALE相同的二核苷酸结合编码:
TALE(T0规则。具有天然N末端结构域的TALE需要在其结合位点开头有T才能有效结合。TALE N末端的突变版本已演化为对其他核苷酸具有宽松的特异性);
RipTAL(G0规则。结合位点的第一个碱基必须是G);
BAT(宽松结合。结合位点可以以任何核苷酸开头);
MorTL(已鉴定的宏基因组序列);
基因组数据库中存在许多其他未表征的TALE样蛋白;
重复通常是可互换的(你可以用TALE样重复替换一个或几个TALE重复,并且它们仍然结合到相同的靶标)。
BAT
BAT在线粒体中发挥作用,可用作碱基编辑器设计的替代性DNA结合结构域。正如所讨论的,使用BAT将允许调整碱基编辑器的活性窗口并最小化旁观者脱靶。此外,BAT的结合特异性比TALE和ZF更宽松。BAT与TALE不同,TALE严格要求其结合位点开头有T(T0规则),BAT具有更宽松的N末端结合特异性,并且不遵循T0规则。
BAT的结合位点可以以任何核苷酸开始,而不仅仅是T。锌指只能靶向序列的子集(并非每个三联体核苷酸都可以用ZF重复作为靶标)。凭借其宽松的特异性和简单的同义编码(如TALE),BAT为碱基编辑器的设计提供了有意义的替代性DNA结合结构域。
实例10:扩大dsDNA碱基编辑可靶向的序列范围:工程改造TALE N末端、BAT和ZF
在设计碱基编辑器时,要求DNA结合位点与一个或多个靶碱基的接近度落入碱基编辑器的活性窗口内(例如,在16bp靶区域内,与左侧TALE结合位点的距离为约10bp,与右侧TALE结合位点的距离为约6bp)对DNA结合位点的位置施加了额外的限制。例如,要使用BE12碱基编辑器实现最大碱基编辑,左侧结合结构域之间的距离应为9-11bp。此外,可编程DNA结合结构域(例如锌指和TALE)具有一些固有的局限性,可能使靶向某些碱基具有挑战性。对于ZF,无法靶向序列的子集,因为对于约15/64三联体核苷酸,没有可以识别它们的ZF重复。如果这15个核苷酸重复中的任何一个出现在潜在结合位点附近,则无法设计ZF。另一方面,T0规则和一些其他因素(包括结合位点处前几个bp的性质)对于TALE的有效结合非常重要,但可能无法对每个给定靶标都满足这些要求。
这些限制给设计碱基编辑器以安装m6589C>T突变带来了挑战。考虑到该靶碱基周围的序列背景,ZF或TALE无法设计为提供高结合得分。尽管如此,一系列使用低得分ZF和TALE的碱基编辑器被设计并进行了实验测试,但没有观察到靶碱基的高编辑效率,这可能是因为DNA结合结构域的结合亲和力低。对缺乏合适背景(例如,在天然TALE结构域的情况下,距靶碱基的最佳距离处存在T0)的靶标进行碱基编辑是通过两种并行方法实现的:
1)使用在其N末端具有宽松突变的TALE;以及
2)使用BAT。
对于第一种方法,使用在其N末端具有宽松突变的TALE,TALE N末端的突变宽松了T0特异性,并允许靶向以除T之外的核苷酸开头的结合位点(参见下表4)。将这些宽松突变并入TALE蛋白允许设计具有更高结合得分的TALE(箭头显示结合位点的位置),其用于编辑靶核苷酸(图23A-23B)。
表4:TALE N末端的突变宽松了T0要求(Lamb,等人,2013,其内容通过引用并入本文)。
对于第二种方法,使用BAT代替TALE,初步研究表明,与TALE不同,BAT对其靶位点的起始核苷酸没有明显的限制。这种宽松的特异性极大地扩展了它们可以靶向的DNA序列的范围。作为第二种方法,设计了具有相对高结合得分的BAT并且能够安装C6589T突变(图27A-27B)。
此外,我们证明ZF可以代替TALE作为DNA结合结构域(图28)。改变DNA结合结构域的类型会导致碱基编辑器活性窗口的变化,进一步表明DNA结合结构域及其C末端可以限制脱氨酶结构域。这一发现可用于调整这些脱氨酶的活性窗口并减少旁观者脱靶。由于尺寸较小,基于ZF的编辑器对于AAV递送很有吸引力。
实例11:使用ZF结合结构域的单一AAV碱基编辑器设计
TALE和BAT是相对较大的蛋白质,当这些结构域用作DNA结合结构域时,拆分碱基编辑器的两半中只有一个可以装入单个腺相关病毒(AAV)载体中。另一方面,ZF是相对较小的DNA结合结构域,并且可以将碱基编辑器的两半都放入单个AAV(可以在其LTR重复之间容纳约4.5kb的货物)中。
测试了将拆分ZF-脱氨酶的两半容纳到单个AAV中的两种不同方法:
1)P2A肽(经历翻译跳跃并允许真核生物中从同一转录物的多种蛋白质的多顺反子表达);以及
2)内部核糖体进入位点(IRES),其作为内部起始位点并允许在哺乳动物细胞中转录物的双顺反子表达。
尽管进行了多次尝试,但不可能在大肠杆菌中克隆P2A构建体(所有获得的菌落都含有使蛋白质失去功能的失活突变(移码或终止密码子)),这表明即使框内拆分脱氨酶的基础/隐蔽表达对细胞也是有毒的。
由于在该设计中,脱氨酶的N末端和C末端被翻译成单个多肽,如果表达,它们可以自发地重建对细胞有毒的功能性dsDNA特异性脱氨酶。
另一方面,在IRES设计中,两个拆分半部分表达为两条独立的多肽链,并且只能在它们所附接的DNA结合结构域所定义的靶区域附近共定位和重建功能性脱氨酶(在IRES前有一个终止密码子(TAA)以确保翻译终止)。可以克隆并测序验证该构建体,并确认其在哺乳动物细胞线粒体中的活性。使用HEK293 AAVpro细胞系(天惠华公司(Teknova))将IRES载体包装到AAV2衣壳中,并使用病毒颗粒以指定的MOI转导HEK293细胞。两周后收获细胞,并通过T7核酸内切酶测定评估hND1基因座的编辑。(图29A-29B)
实例12:编辑小鼠NIH3T3和ES细胞系中的线粒体基因组
通过编辑NIH3T3细胞中的mND1基因座,在小鼠NIH3T3细胞系中进行碱基编辑。通过转染或转导(AAV2衣壳)将编码拆分BE41碱基编辑器两半的载体递送至NIH3T3,且不进行选择。T7核酸内切酶测定用于检测编辑结果。转染后5天,通过T7核酸内切酶测定检测转染细胞中的编辑。对于AAV转导,转导后2周通过T7核酸内切酶测定检测编辑。观察到的NIH3T3细胞系的递送效率<20%,这在很大程度上解释了与HEK细胞相比表观编辑效率相对较低的原因。
在小鼠NIH3T3细胞系中成功展示碱基编辑后,进一步展示了将这些编辑引入小鼠ES细胞中。(图30)
在小鼠ES细胞中安装致病性ND1 E24K突变(m.2820G>A)
实验设计:
通过电穿孔将带有嘌呤霉素选择标志物的拆分脱氨酶构建体(靶向小鼠ND1基因的TALE-BE-左和TALE-BE-右)递送至C57BL/6J胚胎干(ES)细胞。
在嘌呤霉素存在下选择转染子一周,然后挑取克隆群并将其转移至96孔板的各个孔中并提取其总DNA。
使用基因特异性引物扩增靶区域,并通过第二轮PCR将Illumina衔接子添加到扩增子。扩增子通过Illumina MiSeq(2x100 bp配对末端)进行测序。对读段进行解复用,合并配对读段,并通过Geneious Prime的变异/SNP分析模块进行分析。
在阴性(GFP处理)对照中未检测到高于NGS检测限(0.1%)的变异
在用碱基编辑器构建体处理的细胞中,含有中靶编辑(m.2820G>A)的等位基因构成主要变异(56.43%)。还检测到非常低水平(0.12%)的旁观者突变(m.2817G>A)。未检测到高于检测限的indel(插入/删除)(图31A-31B)。
概述:用于基因组工程改造应用的碱基编辑器
这些数据为基因组工程改造建立了稳健系统,可以实现背景特异性编辑,几乎无旁观者编辑,可用于编辑线粒体和核基因组。
线粒体基因组编辑对癌症、衰老和其他遗传病有很多影响。在缺乏允许操纵线粒体基因组和进行正向遗传学研究的遗传工具的情况下,所描述的基因组编辑系统能够增强对迄今为止仅限于相关研究的遗传病的理解。所披露的碱基编辑器促进了利用正向遗传学研究线粒体突变的影响,以清楚地了解线粒体在这些疾病中的影响,并开发适当的疗法。
类似的方法可用于通过挖掘自然多样性或演化对dsDNA具有活性的腺苷脱氨酶(ADA)来开发双链DNA特异性腺苷脱氨酶(dsADA)。这种dsADA可以实现A到G(和T到C)碱基编辑,类似于dsCDA的C到T(和A到G)突变数据中所证明的情况。经由dsADA的碱基编辑有潜力解决线粒体中另外40个致病突变,将可寻址突变的数量从38/93增加到78/93。
碱基编辑器应用不限于线粒体或核基因组,它还可用于编辑细胞内外以及膜细胞器(例如叶绿体和质体)内的其他dsDNA部分。
使用RNA指导的核酸酶作为DNA结合结构域(代替TALE或ZF):对于核基因组工程改造应用,RNA指导的蛋白(例如CRISPR-Cas9)可用作DNA结合蛋白,代替TALE和ZF。dsCDA的背景特异性可以限制旁观者突变,这可能比使用ssDNA特异性CDA(例如APOBEC)作为脱氨酶结构域(在现有的基于CRISPR的碱基编辑技术中使用)更有优势。
动物模型制作:制作线粒体遗传病动物模型:由于缺乏任何可靠的技术来对线粒体基因组进行精确编辑,制作线粒体遗传病的动物模型即使不是不可能,也是极其困难的。碱基编辑器不仅可以帮助修复遗传病,还可以用于制作动物模型。这将使这些遗传病以及线粒体生理学和遗传异质性的正向遗传学研究成为可能,而由于缺乏线粒体基因工程改造技术,迄今为止这是不可能的。
工程改造植物中的线粒体和叶绿体(以及编码自身基因组的其他细胞器):使用CRISPR工程改造其他具有自身基因组的膜细胞器(例如叶绿体和其他质体)面临着与编辑线粒体相同的挑战。仅有蛋白质的编辑器(与dsDNA特异性脱氨酶融合的可编程DNA结合结构域)可用于编辑这些细胞器基因组(例如,改良作物,或使它们对某些遗传病(如雄性不育症)免疫)
用于研究代谢障碍、癌症和衰老或生物技术应用的功能遗传筛选(例如,工程改造乙醇耐受性或改善酵母的有氧发酵或改良作物):由于缺乏选择性诱变线粒体基因组的方法,因此不可能将功能性遗传筛选策略应用于线粒体基因组。所鉴定的脱氨酶可以在目的细胞(例如,哺乳动物细胞、酵母细胞等)的线粒体中瞬时表达,以将遗传多样性引入这些细胞的线粒体中。然后可以对这些细胞进行选择性压力或功能筛选方案(例如,针对更快的增殖或癌症标志物、衰老标志物或乙醇耐受性的存在进行选择),以鉴定与这些疾病或过程有关的遗传变异。
实例13:酶促表观遗传测序
已经确定不同的dsDNA特异性脱氨酶(dsCDA)对胞苷及其各种修饰(包括表观遗传标志物,例如5mC、5hmC、5fC、5caC)表现出不同的活性(图32A)。可以利用此特征来差异地标记各种表观遗传胞苷修饰,然后可以通过测序方法读取这些标志物。
方法
该方法提供了亚硫酸氢盐测序的酶替代方案,并解决了与亚硫酸氢盐处理DNA相关的缺点和技术限制,从而最小化并且产生更高质量结果。
脱氨基测定
通过脱氨基测定对非甲基化和甲基化胞苷(5mC和5hmC)测试dsDNA特异性脱氨酶的活性。使用与互补序列退火的[A15]TC[A15](SEQ ID NO:272)、[A15]T(5mC)[A15]和[A15]T(5hmC)[A15]作为底物。
用以评估对经修饰的核苷酸的dsCDA活性的测定
为了评估dsCDA对甲基胞苷(5mC)的活性,将约1kb PCR片段使用BamH1甲基转移酶(位点特异性MT酶)和CpG甲基转移酶(在CpG序列处甲基化DNA)进行甲基化,并用作底物。全长、分离的dsDNA特异性脱氨酶结构域(dsCDA)在IVT系统中表达两小时。将表达的dsCDA与底物一起孵育一小时,然后对反应中的底物进行PCR扩增,并通过桑格以及NGS测序评估编辑频率(图33A)。
用以评估对经修饰的核苷酸的不同dsCDA活性的测定
在24小时的时段内,利用三种dsDNA脱氨酶(包括BE_R1_11、BE_R1_28和BE_R1_41)中的每一种,使用两种DNA底物中的每一种进行脱氨酶测定,这两种底物包括GTACACCATCCGTCCC(SEQ ID NO:274)和GTGTTCTCTATTTCAC(SEQ ID NO:274),其各自被修饰成分别包括5caC、5fC、5hmC或5mC。孵育15分钟、45分钟、2小时和24小时后对样品进行测序。
酶促氧化和葡糖基化
将含有GTACACCATCCGTCCC(SEQ ID NO:274)和GTGTTCTCTATTTCAC(SEQ ID NO:275)的DNA底物通过用TET2酶处理进行氧化,并通过用BGT酶处理进行葡糖基化,然后与BE_R1_12或BE_R1_41脱氨酶一起孵育一小时或两小时,评估脱氨基的功效。
结果
脱氨基测定证明脱氨酶对非甲基化胞苷[(m)C](图32B)更有活性,但对甲基化胞苷(5mC和5hmC)没有(图32C-D)。
鉴定DNA修饰的测定表明,对非甲基化dC残基的编辑效率(C到T转换)更高,这表明dsCDA对非甲基化和甲基化DNA的作用不同,这一点在样品的NGS结果的频率序列标识图中得到了证明,其中用BamH1甲基转移酶处理底物然后再用BE_R1_12处理(图33B)。
分别对于BE_R1_11(图34A)、BE_R1_28(图34B)和BE_R1_41(图34C)显示了使用每种DNA底物(SEQ ID NO:274和275)的脱氨酶测定的结果。
氧化和葡糖基化增强了脱氨酶保护,如通过以下指示:GTACACCATCCGTCCC(SEQ IDNO:274)中BE_R1_41将5mC脱氨基为T,从而产生GTACACCATTTGTCCC(SEQ ID NO:276),以及在不存在被TET2和BGT氧化和葡糖基化的情况下,BE_R1_41将5hmC脱氨基为T,从而产生GTACACCATTTGTCCC(SEQ ID NO:276)和GTACACCATTTGTTCC(SEQ ID NO:277)(参见图36)。
亚硫酸氢盐会损伤DNA并使其片段化。ssDNA脱氨酶需要DNA变性并使其暴露以损伤。因此,dsDNA脱氨酶提供了更好的解决方案,因为经修饰的胞嘧啶不会脱氨基并在测序过程中显示为胞嘧啶。未修饰的胞嘧啶被脱氨基并在测序过程中显示为尿嘧啶。
DNA可以通过亚硫酸氢盐或dsCDA处理进行修饰,然后进行PCR扩增和测序。
实例14:DNA中的多样性生成
已经建立了在DNA中引入多样性的方法。
方法
为了在目的dsDNA(例如,编码目的蛋白质的基因)中生成多样性,用dsDNA特异性脱氨酶处理dsDNA,以创建目的基因的变体文库。然后对文库进行各种定向演化策略(例如核糖体展示)或其他基于选择/筛选的方法。多样性生成可以在体外进行(例如,通过使脱氨酶蛋白与目的DNA底物接触)或在体内进行(通过将脱氨酶结构域作为分离的结构域或与寻址结构域(例如,DNA结合结构域、RNA聚合酶结构域、转录因子或其他DNA相互作用结构域)融合)。
在代表性实例中,一种或多种脱氨酶对底物DNA CTAACTTACCATGATTAATTTAAGAATTCTCATCGTCA(SEQ ID NO:280)的活性分别产生三种不同的脱氨基产物TTAATTTACTATGATTAATTTAAGAATTCTTATTGTTA(SEQ ID NO:281)、CTAATTTACCATAATTAATTTAAGAATTCTTATCGTTA(SEQ ID NO:282)和CTAACTTATCATAATTAATTTAAAAATTCTTATCGTCA(SEQ ID NO:283)(图37A-B)。
结果
体外多样性生成:由BE_R1_12脱氨酶对DNA底物的脱氨酶活性产生的PCR片段的频率序列标识图和NGS读段如图39A-39B所示,其显示了在具有不同序列的文库内由于脱氨酶活性双链DNA底物而生成的在不同位置处C到T和G到A的不同脱氨基。简而言之,分离的BE_R1_12在IVT系统中于37℃下表达两小时,然后将表达的脱氨酶与dsDNA底物一起孵育一小时。通过NGS评估经编辑/多样化的底物。这种方法可以作为易错PCR的替代方法,用于制作目的DNA变体文库。
体内多样性生成测定:全长脱氨酶可用于体外多样性生成;然而,它可能会导致体内应用毒性。为了规避这个限制,使用了拆分方法。BE41(BE41_G108_C)的一个拆分半部分与T7 RNA聚合酶(作为靶向结构域)融合。第二半部分(BE41_G108_N)作为自由浮动酶表达。将T7启动子附加到靶序列的上游,然后将其与BE41_G108_C-T7融合蛋白和BE41_G108_N蛋白一起孵育(图40)。CRISPRi(即gRNA/dCas9)用于阻断T7 RNA聚合酶在靶标上的前进,并描绘T7启动子下游多样性生成的边界,同时增加脱氨酶在靶区域上的停留时间。该方法可用于在活细胞内的特定区域中有效地生成多样性,以实现目的性状的连续体内演化和细胞条形码化。与先前描述的基于ssDNA特异性脱氨酶的应用相比,所披露的脱氨酶对dsDNA的活性对于这些应用将是有利的,因为基于ssDNA特异性脱氨酶的ssDNA底物是瞬时生成的(在转录泡内),并且大部分与聚合酶蛋白一起保留,因此脱氨酶无法接近。
其他DNA相互作用结构域可以以类似的方式用作DNA靶向结构域。在一些形式下,类似的方法可用于鉴定目的DNA相互作用蛋白(例如转录因子)的全基因组靶位点,作为传统ChIP-Seq的高通量替代方案。为此,dsDNA特异性脱氨酶结构域(全长或拆分形式)与目的DNA结合结构域融合,融合蛋白在目的细胞(通常是目的DNA相互作用蛋白的天然细胞类型)中表达。然后,可以通过对细胞的整个基因组进行测序并寻找具有升高的(C到T)突变的基因组区段来鉴定DNA相互作用结构域的足迹(即结合位点)。
在体内测定中,gRNA/dCas9用于阻断T7聚合酶在靶标上的前进并增加脱氨酶在靶区域(由T7启动子和gRNA结合位点定义)上的停留时间,导致底物序列的多样性。
应当理解,所披露的方法和组合物不限于所描述的具体方法、方案和试剂,因为这些可以变化。还应理解,本文所用的术语仅用于描述特定实施例的目的,而不旨在限制本发明的范围,该范围将仅受所附权利要求的限制。
披露了可用于以下、可与以下联合使用、可用于制备以下或是以下的产物的材料、组合物和组分:所披露的方法和组合物。这些和其他材料在本文中披露,并且应当理解,当披露这些材料的组合、子集、相互作用、组等时,虽然可能未明确披露这些化合物的各个单独和集体的组合和排列的具体参考,但每一个都在本文中具体考虑和描述。例如,如果披露和讨论了步骤,并且讨论了可以对包括该步骤的多个组分进行的多个修改,则步骤的每个和所有组合和排列以及可能的修改都是具体考虑,除非特别指出相反的情况。因此,如果披露了分子A、B和C的类别以及分子D、E和F的类别以及组合分子A-D的实例,则即使没有单独列举每个分子,每个是单独和集体考虑的。因此,在该实例中,组合A-E、A-F、B-D、B-E、B-F、C-D、C-E和C-F中的每一个被具体考虑并且应当被认为是从A、B和C;D、E和F;以及示例组合A-D的披露中披露的。同样,还具体考虑和披露了这些的任何子集或组合。因此,例如,A-E、B-F和C-E的子组被具体考虑并且应当被认为是从A、B和C;D、E和F;以及示例组合A-D的披露中披露的。此外,如上所设想和披露的材料、组合物、组分等中的每一个也可以具体地且独立地包括在此类材料的任何组、子组、列表、集等中或从此类材料的任何组、子组、列表、集等中排除。这些概念适用于本申请的所有方面,包括但不限于制造和使用所披露的组合物的算法或方法中的步骤。因此,如果存在可以执行的多种另外步骤,则应当理解,这些另外步骤中的每一个都可以利用所披露的方法的任何具体实施例或实施例的组合来执行,并且每个这样的组合是具体考虑的并应考虑为是披露的。
必须注意的是,如本文和所附权利要求所用,单数形式“一种”、“一个”和“该”包括复数指示物,除非上下文另有明确规定。
在本说明书的整个描述和权利要求书中,词语“包含(comprise)”和该词语的变体,例如“包含着(comprising)”和“包含了(comprises)”,意思是“包括但不限于”,并且不旨在排除例如其他添加物、组分、整数或步骤。
“任选的”或“任选地”是指随后描述的事件、情况或材料可能会或可能不会发生或存在,并且该描述包括事件、情况或材料发生或存在的实例以及其不发生或不存在的实例。
除非上下文另有明确指示,否则使用“能”一词表示所提及对象或条件的选项或能力。一般来说,以这种方式使用“能”意味着积极地陈述选项或能力,同时也保留该选项或能力在所提及的对象或条件的其他形式或实施例中可能不存在的可能性。除非上下文另有明确指示,否则使用“可以”一词表示所指对象或条件的选项或能力。一般来说,以这种方式使用“可以”意味着积极地陈述选项或能力,同时也保留该选项或能力在所提及的对象或条件的其他形式或实施例中可能不存在的可能性。除非上下文另有明确指示,否则本文中使用的“可以”并不指对象或条件的未知或可疑的特征。
在本文中范围可以表达为从“约”一个具体值,和/或至“约”其他具体值。当表述这样的范围时,还具体考虑并认为披露的是从一个特定值和/或到另一特定值的范围,除非上下文另外具体指出。类似地,当通过使用先行词“约”将值表述为近似值时,应当理解,该特定值形成应被考虑为披露的另一个具体考虑的实施例,除非上下文另外具体指出。将进一步理解,每个范围的端点相对于其他端点都是重要的,并且独立于其他端点,除非上下文另外具体指出。应当理解,明确披露的范围内包含的所有单独值和值的子范围也被具体考虑并且应当被认为是披露的,除非上下文另外具体指出。最后,应当理解,所有范围指所列举的范围作从第一端点(包括第一端点)到第二端点(包括第二端点)的单独数字的范围和集合。在后一种情况下,应当理解,可以选择任何单独的数字作为范围所指的数量、值或特征的一种形式。以这种方式,范围描述了从第一端点(包括第一端点)到第二端点(包括第二端点)的一组数字或值,可以从中选择该组的单个成员(即单个数字)作为范围所指的数量、值或特征。无论在特定情况下是否明确披露了这些实施例中的一些或全部,前述内容均适用。
除非另外限定,否则在此使用的所有技术术语和科学术语均具有与披露的方法和组合物所属领域的技术人员通常理解的相同的含义。尽管与本文描述的那些类似或等同的任何方法和材料可以用于本发明的方法和组合物的实践或测试,但是特别有用的方法、装置和材料如所描述的。本文引用的出版物和它们引用的材料都通过引用特别结合在此。本文中的任何内容均不应被解释为承认本发明无权凭借在先发明而早于此类披露。不承认任何参考文献构成现有技术。对参考文献的讨论陈述其作者的主张,申请人保留质疑所引用的文献的准确性和针对性的权利。应当清楚地理解,尽管本文引用了许多出版物,但是这样的引用并不构成承认这些文献中的任何文献形成本领域公知常识的一部分。
尽管材料、组合物、组分、步骤、技术等的描述可以包括许多选项和替代方案,但这不应被解释为且不承认这些选项和替代方案彼此等同或者,特别地,是明显的替代方案。
本文披露的每种组合物旨在并且应当被认为是本文具体披露的。此外,可以在本披露内鉴定的每个子组旨在并且应当被认为是在本文中具体披露的。因此,特别考虑的是,任何组合物或组合物亚组可以被明确地包括在使用中或从使用中排除,或者包括在组合物列表中或从组合物列表中排除。例如,脱氨酶或脱氨酶结构域的任何组或集可以已经具体地排除以下:来自新洋葱伯克霍尔德菌的DddA的脱氨酶结构域、来自骨霉状菌(Chondromyces crocatus)的Uniprot ID号:A0A0K1EKV1_CHOCO的脱氨酶结构域、来自荚壳伯克霍尔德菌(Burkholderia glumae)(菌株BGR1)的Uniprot ID号:C5ALM7_BURGB、或这些的任意组合。
本领域技术人员仅使用常规实验将认识到或能确定本文所述方法和组合物的具体实施例的许多等效形式。此类等效形式旨在为下列权利要求所涵盖。
序列表
<110> 马奇疗法公司
<120> 背景依赖性、双链DNA特异性脱氨酶及其用途
<130> MILA 100
<140> US
<141> 2022-01-10
<150> 63/136,524
<151> 2021-01-12
<160> 297
<170> PatentIn 3.5版
<210> 1
<211> 138
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 1
Thr Lys Ser Ala Asn Ser Gly Gly Ala Ala Lys Asp Leu Ala Lys Tyr
1 5 10 15
Arg Glu Arg Gln Gly Met Pro Arg Ala Gly Ser Ala Asp Asp Ala His
20 25 30
Thr Ala Ala Arg Leu Asp Val Gly Gly Arg Ser Phe Tyr Gly His Asn
35 40 45
Ala His Gly Arg Asn Ile Asp Ile Lys Val Asn Ala Gln Thr Lys Thr
50 55 60
His Ala Glu Ala Asp Val Phe Gln Gln Ala Lys Asn Ala Lys Val Ser
65 70 75 80
Ala Asp Arg Ala Thr Leu His Val Asp Arg Asp Leu Cys Asp Ala Cys
85 90 95
Gly Ile Lys Gly Gly Val Gly Ser Leu Met Arg Gly Val Gly Ile Ser
100 105 110
Arg Leu Thr Val Asn Ser Pro Ser Gly Arg Phe Glu Ile Thr Ala Ser
115 120 125
Arg Pro Ser Val Pro Arg Arg Ile Asn Gly
130 135
<210> 2
<211> 160
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 2
Phe Ser Lys Ala Glu Ser Gly Tyr Ile Glu Ile Gln Arg Phe Arg Arg
1 5 10 15
Ile Leu Asn Met Pro Arg Tyr Ser Leu Thr Asn Gly Arg Thr Gly Thr
20 25 30
Val Ala Arg Val Glu Val Asn Gly Arg Arg Ile Phe Gly Val Asn Thr
35 40 45
Ser Leu Ile Lys Asn Ser Lys Tyr Ala Pro Arg Asp Met Asp Leu Arg
50 55 60
Arg Arg Trp Leu Arg Glu Val Asn Trp Val Pro Pro Lys Lys Asn Lys
65 70 75 80
Pro Asn His Leu Gly His Ala Gln Ser Leu Ser His Ala Glu Ser His
85 90 95
Ala Leu Ile Arg Ala Tyr Glu Arg Met Glu Arg Leu Gly Gly Gln Leu
100 105 110
Pro Lys Lys Leu Thr Met Val Val Asp Arg Pro Thr Cys Asn Ile Cys
115 120 125
Arg Gly Glu Met Pro Ala Leu Leu Lys Arg Leu Gly Ile Glu Glu Leu
130 135 140
Thr Ile Tyr Ser Gly Gly Arg Asp Ala Ile Ile Ile Lys Ala Ile Lys
145 150 155 160
<210> 3
<211> 136
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 3
Gly Val Gly Gly Ala Ile Thr Ala Thr Val Gly Ser Thr Ala Gly Ala
1 5 10 15
Ala Gly Arg Ala Ala Ala Arg Ala Pro Ser Leu Pro Ala Tyr Ala Gly
20 25 30
Gly Lys Thr Ser Gly Val Leu Arg Thr Thr Ala Gly Asp Thr Ala Leu
35 40 45
Leu Ser Gly Tyr Lys Gly Pro Ser Ala Ser Met Pro Arg Gly Thr Pro
50 55 60
Gly Met Asn Gly Arg Ile Lys Ser His Val Glu Ala His Ala Ala Ala
65 70 75 80
Val Met Arg Glu Gln Gly Met Lys Glu Gly Thr Leu Tyr Ile Asn Arg
85 90 95
Val Pro Cys Ser Gly Ala Thr Gly Cys Asp Ala Met Leu Pro Arg Met
100 105 110
Leu Pro Pro Asp Ala His Leu Arg Val Val Gly Pro Asn Gly Tyr Asp
115 120 125
Gln Val Phe Val Gly Leu Pro Asp
130 135
<210> 4
<211> 166
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 4
Asp Pro Ile Gly Leu Met Gly Gly Leu Asn Leu Tyr Gln Tyr Ala Pro
1 5 10 15
Asn Ser Ile Ala Trp Thr Asp Trp Trp Gly Leu Ala Gly Ser Tyr Thr
20 25 30
Leu Gly Ser Tyr Gln Ile Ser Ala Pro Gln Leu Pro Ala Tyr Asn Gly
35 40 45
Gln Thr Val Gly Thr Phe Tyr Tyr Val Asn Gly Ala Gly Gly Leu Glu
50 55 60
Ser Arg Thr Phe Ser Ser Gly Gly Pro Thr Pro Tyr Pro Asn Tyr Ala
65 70 75 80
Asn Ala Gly His Val Glu Gly Gln Ser Ala Leu Phe Met Arg Asp Asn
85 90 95
Gly Ile Ser Asp Gly Leu Val Phe His Asn Asn Pro Glu Gly Thr Cys
100 105 110
Gly Phe Cys Val Asn Met Thr Glu Thr Leu Leu Pro Glu Asn Ser Lys
115 120 125
Leu Thr Val Val Pro Pro Glu Gly Ala Ile Pro Val Lys Arg Gly Ala
130 135 140
Thr Gly Glu Thr Arg Thr Phe Thr Gly Asn Ser Lys Ser Pro Lys Ser
145 150 155 160
Pro Val Lys Gly Glu Cys
165
<210> 5
<400> 5
000
<210> 6
<400> 6
000
<210> 7
<400> 7
000
<210> 8
<211> 118
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 8
Met Pro Pro Ala Gly Ser Glu Thr Asp Lys Ser Thr Ile Ala Lys Leu
1 5 10 15
Glu Ile Ser Gly Gln Asn Phe Phe Gly Ile Asn Ser Gly Ser Asn Pro
20 25 30
Asn Pro Arg Gln Ile Thr Phe Asn Val Asn Pro Ile Thr Lys Thr His
35 40 45
Ala Glu Ala Asp Ala Phe Gln Gln Ala Ala Asp Val Gly Ile Arg Gly
50 55 60
Gly Lys Ala Arg Leu Ile Val Asp Arg Asp Leu Cys Ala Ala Cys Gly
65 70 75 80
Ile Arg Gly Gly Val Asn Ser Met Ala Trp Gln Leu Gly Ile Glu Glu
85 90 95
Leu Glu Ile Ile Thr Pro Ser Val Ser Lys Thr Ile Ala Val Lys Pro
100 105 110
Pro Asn Arg Arg Arg Gln
115
<210> 9
<211> 162
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 9
Ser Gln Phe Asp Asn Val Arg Lys Asp Met Gly Leu Pro Ala Arg Ile
1 5 10 15
Gly Asp Asp Asp Pro Tyr Thr Thr Ser Val Leu Arg Ile Asp Gly His
20 25 30
Glu Tyr Trp Gly Lys Asn Gly Lys Trp Val Thr Lys Gly Lys Thr Ser
35 40 45
Asn Tyr Thr Asp Lys Ala His Tyr Asp Lys Val Arg Lys Glu Leu Gly
50 55 60
Thr Ser Ala Glu Val Pro Gly His Ala Glu Gly Val Ala Phe Asn Lys
65 70 75 80
Ala Tyr Gln Val Arg Lys Asn Thr Gly Thr Lys Gly Gly Asn Ala Val
85 90 95
Leu Tyr Val Asp Lys Ile Pro Cys Val Met Cys Lys Pro Gly Ile Ala
100 105 110
Thr Leu Met Arg Ser Ala Lys Val Asp His Leu Asp Leu His Tyr Leu
115 120 125
Gln Asp Gly Lys Met His His Val Gln Tyr Val Arg Asn Pro Asp Thr
130 135 140
Asp Ala Val Tyr Asn Pro Phe Ser Gly Lys Trp Thr Lys Pro Ser Lys
145 150 155 160
Lys Lys
<210> 10
<211> 206
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 10
Gly Arg Leu Lys Lys Asp Glu Arg Val Tyr Arg Asn Ala His Gln Pro
1 5 10 15
Phe Arg Leu Gln Asn Gln Tyr Tyr Asp Glu Glu Thr Gly Leu His Tyr
20 25 30
Asn Leu Met Arg Tyr Tyr Glu Pro Glu Ala Gly Arg Phe Val Asn Gln
35 40 45
Asp Pro Ile Gly Leu Leu Gly Gly Asp Asn Leu Tyr Trp Phe Ala Pro
50 55 60
Asn Ala Ala Met Trp Leu Asp Pro Trp Gly Leu Ala Val Val Asp Ala
65 70 75 80
Ile Phe Glu Met Gln Gly His Thr Phe Thr Gly Thr Asn Pro Leu Asp
85 90 95
Arg Asn Pro Arg Ile Ser Ser Pro Ile Gln Gly Leu Ser Ala Val Asn
100 105 110
Asn Asp Lys Phe Lys Met His Ala Glu Ile Asp Ala Met Thr Gln Ala
115 120 125
His Asp Lys Gly Leu Arg Gly Gly Lys Gly Val Leu Lys Ile Lys Gly
130 135 140
Lys Asn Ala Cys Ser Tyr Cys Lys Gly Asp Ile Lys Lys Met Ala Leu
145 150 155 160
Lys Leu Asp Leu Asp Glu Leu Glu Val His Asn His Asp Gly Thr Val
165 170 175
His Lys Phe Ser Lys Gly Asp Leu Lys Pro Val Lys Lys Gly Gly Lys
180 185 190
Gly Trp Lys Lys Pro Lys Lys Ser Lys Lys Pro Gly Ala Cys
195 200 205
<210> 11
<211> 159
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 11
Arg Ala Pro Glu Ala Ile Gln Thr Leu Arg Asp Ser Tyr Gly Thr Asp
1 5 10 15
Leu Leu Gly Arg Pro Leu Leu Gly Asp Ser Asp Thr Val Ala His Gly
20 25 30
Ile Val Asp Gly Glu Thr Phe Met Gly Val Asn Ser Gly Ala Ile Val
35 40 45
Glu Tyr Ser Gln Arg Asp Leu Asn Asp Ala Lys Arg Ala Leu Ile Pro
50 55 60
Leu Val Arg Lys Arg Pro Asp Ile Met Ser Thr His Asn Ile Gly Gln
65 70 75 80
Arg Pro Asn Asp Ala Leu Phe His Ala Glu Ser Thr Val Leu Leu Arg
85 90 95
Ala Ala Arg Ala Asn Asp Gly Thr Leu Ser Gly Lys Val Ile Asp Ile
100 105 110
Thr Val Asp Arg Pro Ile Cys Ser Ser Cys Lys Lys Val Leu Pro Leu
115 120 125
Ile Gly Gln Glu Leu Gly Asn Pro Ile Val Arg Phe Thr Glu Pro Ser
130 135 140
Gly Arg Val Arg Thr Met His Asn Gly Glu Trp Lys Asp Gln Asp
145 150 155
<210> 12
<400> 12
000
<210> 13
<400> 13
000
<210> 14
<211> 212
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 14
Gly Ala Leu Asp Asn Leu Ala Gln Thr Val Thr Val Ala Asp Asn Ala
1 5 10 15
Thr Pro Ser Ser Ala Asp Ile Phe Ala Glu Ile Ala Lys Ser Gly Asp
20 25 30
Asn Ala Ser Gln Ser Thr Val Asp Thr Phe Thr Asp Leu Ala Lys Ser
35 40 45
Leu Asp Glu Ala Pro Pro Leu Asp Gln Ser Asn Ala Pro Asn Arg Thr
50 55 60
Pro Trp Asp Thr Ile Asp His Phe Arg Ser His Lys Gln Gly Met Ala
65 70 75 80
Glu Leu Gly Asp Ala Ile Pro Val Lys Gly Asp Lys Leu Gly Thr Val
85 90 95
Ala Phe Val Glu Ile Glu Gly Ser Lys Val Phe Gly Val Asn Ser Thr
100 105 110
Ala Leu Val Asp Asp Ala Asp Lys Ala Leu Gly Arg Met Trp Arg Asp
115 120 125
Arg Leu Gly Phe Asn Ser Gly Gln Ala Gln Ala Leu Phe His Gly Glu
130 135 140
Ala His Ser Leu Met Arg Ala Tyr Glu Lys Phe Ser Gly Lys Leu Pro
145 150 155 160
Lys Asp Leu Thr Leu Tyr Val Asp Arg Leu Thr Cys Gly Pro Cys Gln
165 170 175
Gly Ala Leu Pro Asp Leu Met Lys Ala Met Gly Ile Glu Arg Leu Lys
180 185 190
Ile Val Thr Lys Ser Gly Arg Val Gly Glu Ile Ser Gly Gly Val Phe
195 200 205
Arg Trp Leu Glu
210
<210> 15
<211> 183
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 15
Gly Gly Gly Thr Val Thr Val Ser Ser Thr Ala Ser Ala Gln Val Tyr
1 5 10 15
Ala Thr Ala Gln Thr Glu Val Glu Val Thr Lys Lys Thr Lys Glu Leu
20 25 30
Ala Ala Glu Gln Gln Gln Ala Gln Ala Tyr Gln Cys Pro Val Thr Gly
35 40 45
Lys Ala Cys Thr Gly Asp Pro Phe Asn Asp Leu Ala Ala Phe Arg Lys
50 55 60
Arg Gln Gly Met Pro Glu Ala Gly Thr Asp Ala Asp Lys Asp Thr Ala
65 70 75 80
Ala Arg Leu Asp Val Gly Gly Gln Ile Phe Tyr Gly Arg Asn Gly Lys
85 90 95
Gly Lys Val Thr Asp Ile Pro Val Asn Ala Tyr Thr Arg Asp His Ala
100 105 110
Glu Gly Asp Val Phe Gln Gln Ala Lys Asn Ala Lys Ile Thr Ala Asp
115 120 125
Arg Ala Val Met Tyr Val Asp Arg Pro Leu Cys Asp Gly Cys Gly Ala
130 135 140
Tyr Gly Gly Val Gly Ser Leu Leu Arg Gly Thr Gly Ile Lys Glu Val
145 150 155 160
Val Val Val Ala Pro Asn Gly Arg Phe Leu Ile Thr Ala Ala Arg Pro
165 170 175
Ser Thr Pro Gln Pro Leu Asp
180
<210> 16
<211> 171
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 16
Gly Ala Ala Ser Val Gly Arg Gly Ala Ser His Phe Ser Lys Ala Glu
1 5 10 15
Ser Gly Tyr Ile Glu Ile Gln Arg Phe Arg Arg Ile Leu Asn Met Pro
20 25 30
Arg Tyr Ser Leu Thr Asn Gly Arg Thr Gly Thr Val Ala Arg Val Glu
35 40 45
Val Asn Gly Arg Arg Ile Phe Gly Val Asn Thr Ser Leu Ile Lys Asn
50 55 60
Ser Lys Tyr Ala Pro Arg Asp Met Asp Leu Arg Arg Arg Trp Leu Arg
65 70 75 80
Glu Val Asn Trp Val Pro Pro Lys Lys Asn Lys Pro Asn His Leu Gly
85 90 95
His Ala Gln Ser Leu Ser His Ala Glu Ser His Ala Leu Ile Arg Ala
100 105 110
Tyr Glu Arg Met Glu Arg Leu Gly Gly Gln Leu Pro Lys Lys Leu Thr
115 120 125
Met Val Val Asp Arg Pro Thr Cys Asn Ile Cys Arg Gly Glu Met Pro
130 135 140
Ala Leu Leu Lys Arg Leu Gly Ile Glu Glu Leu Thr Ile Tyr Ser Gly
145 150 155 160
Gly Arg Asp Ala Ile Ile Ile Lys Ala Ile Lys
165 170
<210> 17
<400> 17
000
<210> 18
<400> 18
000
<210> 19
<400> 19
000
<210> 20
<400> 20
000
<210> 21
<211> 84
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 21
Met Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu
1 5 10 15
Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val
20 25 30
Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp
35 40 45
Glu Ser Thr Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu
50 55 60
Tyr Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys
65 70 75 80
Ile Lys Met Leu
<210> 22
<211> 27
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 22
Pro Glu Asp Glu Ile Trp Leu Pro Glu Pro Glu Ser Val Asp Val Pro
1 5 10 15
Ala Lys Pro Ile Ser Thr Ser Ser Met Met Met
20 25
<210> 23
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 23
Gly Gly Gly Ser
1
<210> 24
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 24
Ser Gly Gly Ser
1
<210> 25
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 25
Gly Gly Gly Gly Ser
1 5
<210> 26
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 26
Glu Ala Ala Ala Lys
1 5
<210> 27
<211> 16
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 27
Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser
1 5 10 15
<210> 28
<211> 14
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<220>
<221> N
<222> (2)..(3)
<223> 任何氨基酸
<220>
<221> N
<222> (5)..(8)
<223> 任何氨基酸
<220>
<221> N
<222> (10)..(13)
<223> 任何氨基酸
<400> 28
Cys Asn Asn Cys Asn Asn Asn Asn His Asn Asn Asn Asn Cys
1 5 10
<210> 29
<211> 25
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<220>
<221> N
<222> (2)..(6)
<223> 任何氨基酸
<220>
<221> N
<222> (8)..(19)
<223> 任何氨基酸
<220>
<221> N
<222> (21)..(24)
<223> 任何氨基酸
<400> 29
Cys Asn Asn Asn Asn Asn Cys Asn Asn Asn Asn Asn Asn Asn Asn Asn
1 5 10 15
Asn Asn Asn His Asn Asn Asn Asn Cys
20 25
<210> 30
<211> 20
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 30
Pro Lys Lys Lys Arg Lys Val Glu Ala Ser Ser Pro Lys Lys Arg Lys
1 5 10 15
Val Glu Ala Ser
20
<210> 31
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<220>
<221> N
<222> (2)..(2)
<223> 赖氨酸或精氨酸
<220>
<221> X
<222> (3)..(3)
<223> 赖氨酸或精氨酸
<220>
<221> N
<222> (4)..(4)
<223> 赖氨酸或精氨酸
<400> 31
Lys Asn Xaa Asn
1
<210> 32
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 32
Pro Lys Lys Lys Arg Lys Val
1 5
<210> 33
<211> 12
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 33
Pro Lys Lys Lys Arg Lys Val Glu Asp Pro Tyr Cys
1 5 10
<210> 34
<211> 33
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 34
Pro Lys Lys Lys Arg Lys Val Gly Pro Lys Lys Lys Arg Lys Val Gly
1 5 10 15
Pro Lys Lys Lys Arg Lys Val Gly Pro Lys Lys Lys Arg Lys Val Gly
20 25 30
Cys
<210> 35
<211> 12
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 35
Cys Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg
1 5 10
<210> 36
<211> 17
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 36
Cys Ser Ile Pro Pro Glu Val Lys Phe Asn Lys Pro Phe Val Tyr Leu
1 5 10 15
Ile
<210> 37
<211> 18
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 37
Asp Arg Gln Ile Lys Ile Trp Phe Gln Asn Arg Arg Met Lys Val Val
1 5 10 15
Lys Lys
<210> 38
<211> 12
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 38
Pro Lys Lys Lys Arg Lys Val Glu Asp Pro Tyr Cys
1 5 10
<210> 39
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 39
Pro Ala Ala Lys Arg Val Lys Leu Asp
1 5
<210> 40
<211> 166
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 40
Met Glu Met Gly Thr Arg Ser Leu Pro Gln Glu Thr Glu Tyr Met Arg
1 5 10 15
Glu Ala Leu Lys Glu Ala Glu Lys Ala Tyr Ala Leu Gly Glu Thr Pro
20 25 30
Ile Gly Cys Val Ile Val Trp Arg Gly Glu Ile Ile Gly Arg Gly Tyr
35 40 45
Asn Arg Arg Ala Ile Asp Lys Ser Val Leu Ala His Ala Glu Ile Thr
50 55 60
Ala Ile Ala Glu Ala Glu Arg Tyr Leu Ala Asp Trp Arg Leu Glu Glu
65 70 75 80
Ala Thr Leu Tyr Val Thr Leu Glu Pro Cys Pro Met Cys Ala Gly Ala
85 90 95
Ile Val Gln Ala Arg Val Gly Arg Val Val Tyr Ala Thr Ala Asn Leu
100 105 110
Lys Ala Gly Ser Ala Gly Thr Val Ile Asp Met Met His Val Ala Gly
115 120 125
Phe Asn His Gln Val Glu Val Val Gly Gly Ile Leu Glu Lys Glu Cys
130 135 140
Thr Asp Leu Leu Lys Arg Phe Phe Arg Glu Leu Arg Ala Glu Lys Asp
145 150 155 160
Lys Pro Tyr Pro Pro Lys
165
<210> 41
<211> 145
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 41
Glu Val Gln Ala Arg Leu Asn Gly Leu Ala Ala Glu Ala Arg Gln Gly
1 5 10 15
Leu Pro Pro Asn Lys Gly Asn Val Ala Val Ala Glu Ile Asn Ile Pro
20 25 30
Glu Leu Ala Asp Gln Pro Phe Ile Thr Lys Ala Phe Ser Gly Tyr Gln
35 40 45
Thr Asp Lys Asp Gly Phe Val Gly Lys Pro Ser Gly Asn Val Asp Thr
50 55 60
Trp Ala Leu Gln Pro Gln Lys Ser Ser Pro Glu Phe Ile Gly Gly Pro
65 70 75 80
Gly Ala Tyr Phe Arg Asp Val Asp Thr Glu Phe Lys Ile Leu Glu Asn
85 90 95
Leu Ala Gln Lys Leu Gly Pro Asn Thr Asn Ala Thr Gly Thr Val Asn
100 105 110
Leu Ile Ser Glu Lys Val Val Cys Pro Ser Cys Thr Thr Val Ile Met
115 120 125
Gln Phe Arg Glu Arg Tyr Pro Asn Ile Gln Leu Asn Ile Phe Thr Arg
130 135 140
Asp
145
<210> 42
<211> 128
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 42
Ile Asn Tyr Ala Lys Glu Asn Gly Ile Thr Gly Gly Arg Asn Val Ala
1 5 10 15
Val Phe Glu Tyr Ile Asp Leu Asn Gly Lys Ile Gln Thr Ile Ile Lys
20 25 30
Ala Ser Glu Arg Gly Lys Gly His Ala Glu Arg Leu Ile Ala Met Glu
35 40 45
Leu Gln Asn Lys Gly Ile Pro Asn Ser Asn Val Thr Arg Ile Tyr Ser
50 55 60
Glu Leu Glu Pro Cys Ser Ala Pro Gly Gly Tyr Cys Ser Asn Met Ile
65 70 75 80
Lys Tyr Gly Ser Pro Asn Gly Leu Gly Pro Tyr Ser Asn Ala Lys Val
85 90 95
Thr Tyr Ser Phe Ser Tyr Gly Gly Asn Pro His Asn Ala Glu Ala Ala
100 105 110
Arg Gln Gly Val Asp Ala Leu Arg Lys Ala Arg Glu Gln Gln Lys Arg
115 120 125
<210> 43
<211> 277
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 43
Gly Gly Thr Pro Ser Cys Ser Thr Thr Leu Asp Gly Leu Val Pro Thr
1 5 10 15
Asp Ala Leu Glu Glu Phe Ala Thr Arg Ala Tyr Thr Gln Glu Glu Gly
20 25 30
Ala Cys Ser Gly Tyr Tyr Val Val Gly Ser Ala Asn Ser Ala Arg Val
35 40 45
Glu Gly Val Leu Thr Ala Cys Asp Ala Thr Thr Thr Ser Val Gly Asn
50 55 60
Glu Trp Arg Glu Glu Ala Gly Thr Thr Arg Ala Cys Gln Leu Phe Gly
65 70 75 80
Trp Pro Gly Ala Ile Pro Glu Ser Val Glu Ile Asp Arg Ala Arg Cys
85 90 95
Arg Leu Ala Glu Gln Asp Trp Ala Arg Leu Gln Gln Arg Arg Glu Asp
100 105 110
Cys Gly Leu Pro Pro Arg Thr Leu Val Pro Asn Asp Gly His Thr Val
115 120 125
Ala Ile Leu Thr Thr Pro Gly Glu Asp Glu Ile Thr Gly Leu Asn Gly
130 135 140
Arg Thr Gly Gly Ala Gln Pro Tyr Arg Ala Arg Ala Val Glu Glu Gly
145 150 155 160
Thr Cys Pro Pro Pro Leu Thr Arg Thr Tyr Gly Glu Asp Ala Thr Arg
165 170 175
Tyr Arg Gly Ala Gly Pro Thr His Cys His Ala Glu Gly Asp Ala Leu
180 185 190
Glu Gln Leu Ser Val Leu Arg Met Arg Glu Pro Gly Thr Pro Gly Ala
195 200 205
Gly Asp Pro Arg Gln Gly Ala Thr Gly Gly Arg Thr Thr Gly Ser Ala
210 215 220
Glu Leu Ile Val Asp Arg Asp Pro Cys Ala Met Ser Cys Ala Pro Arg
225 230 235 240
Gly Val Asp Arg Met Arg Ser Ile Ala Gly Leu Glu Glu Leu Ile Val
245 250 255
Arg Ser Pro Gln Gly Thr Arg Arg Tyr Ala Asp Gly Leu Pro Glu Thr
260 265 270
Gly Val Pro Leu Asp
275
<210> 44
<211> 262
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 44
Gly Arg Leu Gly Ser Glu Val Gly Glu Gly Val Leu Ala Ala Arg Pro
1 5 10 15
Ala Asp Gly His Thr Ile Lys Val Thr Glu Ser Gly Arg Ile Ile Arg
20 25 30
Cys Ser Arg Cys Asp Asp Ile Leu Asp Leu Leu Asp Glu Tyr Arg Ala
35 40 45
Val Phe Ala Asp Asn Pro Gly Tyr Val Glu Arg Leu Gly Arg Ile Glu
50 55 60
Asp Leu Ala Asp Ala Ala Arg Lys Ala Arg Lys Ala Lys Asn Pro Asn
65 70 75 80
Ala Ser Gln Leu Ala Asp Gln Ala Ala Asp Asp Ala Ala Ala Leu Leu
85 90 95
Arg Asp Val Arg Thr Ser Ala Gln Ala Arg Gly Asn Leu Ala Arg Glu
100 105 110
Gly Gln Pro Leu Ser Gly Ala Gly Arg Leu Pro Ala Glu Val Val Gln
115 120 125
Pro Ile Ser Pro Ala Arg Ile Gln Glu Gly Leu Asn Ser Leu Ala Ala
130 135 140
Gln Arg Val Gln Arg Gly Leu Pro Pro Ala Gly Ser Ala Thr Asp Val
145 150 155 160
Ser Thr Val Cys Arg Leu Asp Ile Gly Gly Glu Ser Phe Tyr Gly Val
165 170 175
Asn Ala His His Thr Thr Met Asp Leu His Val Asn Ala Gln Thr Ala
180 185 190
Thr His Ala Glu Gly Gln Ala Phe Gln Leu Gly Ala Arg Ser Leu Pro
195 200 205
Ala Ser Arg Glu Thr Arg Ala Val Leu Tyr Val Asp Arg Glu Leu Cys
210 215 220
Arg Ala Cys Gly Asp Phe Gly Gly Val Glu Ser Met Ala Lys Gln Leu
225 230 235 240
Gly Leu Leu Gln Leu Asp Val Tyr Thr Pro Asn Gly Leu Ala Leu Thr
245 250 255
Leu Asp Phe Ala Gly Arg
260
<210> 45
<211> 169
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 45
Gly Ser Tyr Ala Ser Pro Asp Pro Leu Gly Leu Glu Ala Ala Pro Asn
1 5 10 15
Asn His Ala Tyr Val Ala Asn Pro Ala Thr Ala Ala Asp Pro Thr Gly
20 25 30
Leu Ile Pro Cys Asp Val Ala Asp Asp Leu Ala Ala Tyr Arg Gln Arg
35 40 45
Gln Gly Met Pro Val Ala Gly Ser Ala Glu Asp Ala His Thr Ala Ala
50 55 60
Arg Leu Asp Val Asp Gly Gln Ser Phe Tyr Gly Arg Asn Gly His Gly
65 70 75 80
Met Asp Ile Asp Ile Arg Ala Asn Ala Gln Thr Lys Thr His Ala Glu
85 90 95
Ala Gln Ala Phe Gln Glu Ala Lys Asn Ala Gly Val Ser Gly Lys Thr
100 105 110
Gly Thr Leu Tyr Val Asp Arg Asp Phe Cys Arg Ala Cys Gly Pro Asn
115 120 125
Gly Gly Val Gly Ser Leu Met Arg Gly Leu Gly Leu Glu Arg Leu Glu
130 135 140
Val His Thr Pro Ser Gly Arg Tyr Thr Ile Asp Ala Thr Lys Arg Pro
145 150 155 160
Ser Ile Pro Val Pro Trp Ser Glu Gly
165
<210> 46
<211> 129
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 46
Met Pro Val Ala Gly Ser Val Asp Asp Lys His Thr Ala Ala Lys Leu
1 5 10 15
Ile Phe Gly Asp Asn Glu Tyr Tyr Gly His Asn Gly His Gly Met Gln
20 25 30
Asp Glu Val Lys Gly Ala Phe Ser Val Asn Ala Gln Thr Ala Thr His
35 40 45
Ala Glu Gly Leu Ala Phe Tyr Asn Ala Lys Thr Ser Gly Val Glu Gly
50 55 60
Thr Ser Ala Thr Leu Ile Thr Asp Arg Pro Ala Cys Ala Ser Cys Gly
65 70 75 80
Tyr Tyr Gly Gly Ile Arg Ser Met Ala Lys Asp Met Gly Ile Asn Asp
85 90 95
Leu Thr Val Val Ser Pro Asn Asn Ala Pro Ile Thr Phe Asn Pro Gln
100 105 110
Val Lys Pro Ile Pro Asn Pro Phe Pro Lys Pro Val Pro Lys Thr Ile
115 120 125
Arg
<210> 47
<211> 175
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 47
Gly Leu Ala Gly Gly Glu Lys Pro Tyr Ala Tyr Val Gly Asn Pro Ala
1 5 10 15
Gln Ala Val Asp Pro Leu Gly Leu Ala Gly Cys Glu Asp Pro Trp Lys
20 25 30
Ile Val Asp Arg Phe Arg Arg Ser Lys Asn Lys Met Glu Pro Leu Gly
35 40 45
Asp Arg Ile Pro Gly Ala Ile Asp Lys Asp Gly Leu His Thr Val Ala
50 55 60
Phe Phe Glu Met Asn Gly Arg Arg Val Phe Gly Val Asn Ser Gly Thr
65 70 75 80
Leu Tyr Lys Lys Asp Lys Ala Leu Gly Lys Gln Trp Asn Glu Lys Ile
85 90 95
Asp Tyr Leu Thr Lys Glu Glu Lys Gly Thr Ser Ala Phe His Ala Glu
100 105 110
Gly His Ala Leu Met Arg Ala His Lys Lys Phe Gly Gly Val Met Pro
115 120 125
Lys Glu Ile Thr Met Tyr Val Asp Arg Val Thr Cys Asn His Cys Glu
130 135 140
Arg Phe Leu Pro Ala Leu Met Lys Glu Met Gly Ile Glu Lys Leu Lys
145 150 155 160
Leu Phe Ser Lys Asn Gly Thr Ser Ser Val Leu His Ala Ala Arg
165 170 175
<210> 48
<211> 144
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 48
Gly Ser Asn Gly Ala Ile Tyr Ser Asp Val Ala Ala Ala Gln Lys Ala
1 5 10 15
Ala Thr Thr Ala Ser Arg Ile Gly Phe Asn Asp Leu Ala Thr Phe Arg
20 25 30
Val Gln Leu Gly Leu Pro Pro Ala Gly Thr Ala Ala Asp Lys Ser Thr
35 40 45
Leu Ala Val Ile Glu Ile Asn Gly Gln Lys Ile Tyr Gly Val Asn Ala
50 55 60
His Gly Gln Pro Val Ser Gly Val Asn Ala Ile Ser Ser Thr His Ala
65 70 75 80
Glu Ile Asp Ala Leu Asn Gln Ile Lys Gln Gln Gly Ile Asp Val Ser
85 90 95
Gly Gln Asn Leu Thr Leu Tyr Val Asp Arg Thr Pro Cys Ala Ala Cys
100 105 110
Gly Thr Asn Gly Gly Ile Arg Ser Met Val Glu Gln Leu Gly Leu Lys
115 120 125
Gln Leu Thr Val Val Gly Pro Asp Gly Pro Met Ile Val Thr Pro Arg
130 135 140
<210> 49
<211> 141
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 49
Asp Lys Val Ala Asp Asp Val Val Glu Asp Ala Ala Lys Ala Ile Lys
1 5 10 15
Gly Gly Ser Ser Ser Ile Asn Leu Pro Glu Tyr Asp Gly Lys Thr Thr
20 25 30
His Gly Val Leu Val Leu Asp Asp Gly Thr Gln Val Pro Phe Ser Ser
35 40 45
Gly Asn Ala Asn Pro Asn Tyr Lys Asn Tyr Ile Pro Ala Ser His Val
50 55 60
Glu Gly Lys Ser Ala Ile Tyr Met Arg Glu Asn Gly Ile Asn Asn Gly
65 70 75 80
Thr Val Phe His Asn Asn Thr Asp Gly Thr Cys Pro Tyr Cys Asp Lys
85 90 95
Met Leu Pro Thr Leu Leu Glu Glu Gly Ser Thr Leu Thr Val Val Pro
100 105 110
Pro Ala Asn Ala Asn Ala Pro Lys Pro Ser Trp Val Asp Thr Val Lys
115 120 125
Thr Tyr Ile Gly Asn Asp Lys Ile Pro Lys Lys Pro Lys
130 135 140
<210> 50
<211> 125
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 50
Met Ser Leu Pro Glu Tyr Asp Gly Thr Thr Thr His Gly Val Leu Val
1 5 10 15
Leu Asp Asp Gly Thr Gln Ile Gly Phe Thr Ser Gly Asn Gly Asp Pro
20 25 30
Arg Tyr Thr Asn Tyr Arg Asn Asn Gly His Val Glu Gln Lys Ser Ala
35 40 45
Leu Tyr Met Arg Glu Asn Asn Ile Ser Asn Ala Thr Val Tyr His Asn
50 55 60
Asn Thr Asn Gly Thr Cys Gly Tyr Cys Asn Thr Met Thr Ala Thr Phe
65 70 75 80
Leu Pro Glu Gly Ala Thr Leu Thr Val Val Pro Pro Glu Asn Ala Val
85 90 95
Ala Asn Asn Ser Arg Ala Ile Asp Tyr Val Lys Thr Tyr Thr Gly Thr
100 105 110
Ser Asn Asp Pro Lys Ile Ser Pro Arg Tyr Lys Gly Asn
115 120 125
<210> 51
<211> 143
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 51
Met Ser Ile Thr Asp Arg Leu Ala Lys Gln Lys Glu Lys Gln Asp Asn
1 5 10 15
Thr Asn Ile Ile Asp Asn Arg Pro Lys Leu Pro Asp Tyr Asp Gly Lys
20 25 30
Thr Thr His Gly Ile Leu Val Thr Pro Asn Ser Glu His Ile Pro Phe
35 40 45
Ser Ser Gly Asn Pro Asn Pro Asn Tyr Lys Asn Tyr Ile Pro Ala Ser
50 55 60
His Val Glu Gly Lys Ser Ala Ile Tyr Met Arg Glu Asn Gly Ile Thr
65 70 75 80
Ser Gly Thr Ile Tyr Tyr Asn Asn Thr Asp Gly Thr Cys Pro Tyr Cys
85 90 95
Asp Lys Met Leu Ser Thr Leu Leu Glu Glu Gly Ser Val Leu Glu Val
100 105 110
Ile Pro Pro Ile Asn Ala Lys Ala Pro Lys Pro Ser Trp Val Asp Lys
115 120 125
Pro Lys Thr Tyr Ile Gly Asn Asn Lys Val Pro Lys Pro Asn Lys
130 135 140
<210> 52
<211> 117
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 52
Glu Leu Pro Pro Tyr Asp Gly Lys Thr Thr Tyr Gly Val Leu Ile Leu
1 5 10 15
Asp Asp Gly Lys Gln Tyr Ser Phe Asn Ser Gly Lys Pro Ala Pro Ile
20 25 30
Tyr Arg Asn Tyr Ile Pro Ala Ser His Val Glu Gly Lys Ala Ala Ile
35 40 45
Tyr Met Arg Glu Asn Lys Ile Gln Ser Gly Thr Val Tyr His Asn Asn
50 55 60
Thr Asp Gly Thr Cys Pro Tyr Cys Asp Lys Met Leu Pro Thr Leu Leu
65 70 75 80
Glu Lys Asp Ser Thr Leu Lys Val Val Pro Pro Gln Asn Ala Thr Ser
85 90 95
Ser Lys Lys Gly Trp Ile Thr Asn Glu Lys Ile Tyr Ile Gly Asn Asp
100 105 110
Lys Ile Pro Lys Thr
115
<210> 53
<211> 146
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 53
Thr Asp Glu Phe Lys Leu Ala Tyr Glu Gln Leu Lys Asp Ile Glu Gln
1 5 10 15
Ala Tyr Glu Tyr Ala Asn Ile Asp Lys Asp Lys Ile Asp Ile Pro Asp
20 25 30
Phe Asp Gly Lys Ile Thr Trp Gly Ile Leu Val Leu Glu Asp Gly Thr
35 40 45
Cys Ile Thr Phe Ser Ser Gly Asn Ala Asn Pro Met Phe Asn His Tyr
50 55 60
Ile Pro Ala Ser His Ala Glu Gly Lys Ala Ala Ile Tyr Met Arg Gln
65 70 75 80
Lys Gly Ile Lys His Gly Val Ile Phe His Asn Asn Thr Asp Gly Thr
85 90 95
Cys Pro Tyr Cys Asn Thr Met Leu Pro Thr Leu Leu Glu Glu Asn Ser
100 105 110
Thr Leu Ile Val Val Pro Pro Ile Asn Ala Val Ala Lys Lys Arg Gly
115 120 125
Trp Ile Asp Lys Ile Lys Ile Tyr Thr Gly Asn Asn Lys Ile Pro Lys
130 135 140
Thr Asn
145
<210> 54
<211> 156
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 54
Gly Ala Ser Gly Ala Ala Gly His Gly Leu Ser Thr Thr Gly Lys Asn
1 5 10 15
Val Leu Gly His Phe Glu Pro Thr Pro Thr Thr Pro Gln Gly Thr Ser
20 25 30
Ser Asp Thr Ile Ala Glu Met Leu Asn Ser Ala Ser Gln Pro Gly Arg
35 40 45
Thr Ala Gly Val Leu Asp Ile Asp Gly Glu Leu Thr Pro Leu Thr Ser
50 55 60
Gly Arg Pro Ser Leu Pro Asn Tyr Ile Ala Ser Gly His Val Glu Gly
65 70 75 80
Gln Ala Ala Met Ile Met Arg Gln Gln Gln Val Gln Ser Ala Thr Val
85 90 95
Tyr His Asp Asn Pro Asn Gly Thr Cys Gly Tyr Cys Tyr Ser Gln Leu
100 105 110
Pro Thr Leu Leu Pro Glu Gly Ala Ala Leu Asp Val Val Pro Pro Ala
115 120 125
Gly Thr Val Pro Pro Ser Asn Arg Trp His Asn Gly Gly Pro Ser Phe
130 135 140
Ile Gly Asn Ser Ser Glu Pro Lys Pro Trp Pro Arg
145 150 155
<210> 55
<211> 159
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 55
Ser His Tyr Ala Glu Glu Tyr Lys Gln Leu Leu Lys Asp Ile Asp Thr
1 5 10 15
Lys Arg Glu Ala Glu Glu Ala Ala Leu Leu Arg Glu Ala Tyr Pro Ser
20 25 30
Met Glu Gly Ala Thr Leu Pro Pro Phe Asp Gly Lys Thr Thr Ile Gly
35 40 45
Leu Met Phe Tyr Thr Asp Ala Ser Gly Gln Tyr Gln Val Lys Lys Leu
50 55 60
Phe Ser Gly Glu Lys Val Leu Ser Asn Tyr Asp Ala Thr Gly His Val
65 70 75 80
Glu Gly Lys Ala Ala Leu Ile Met Arg Asn Glu Lys Ile Thr Glu Ala
85 90 95
Val Val Met His Asn His Pro Ser Gly Thr Cys Asn Tyr Cys Asp Lys
100 105 110
Gln Val Glu Thr Leu Leu Pro Lys Asn Ala Thr Leu Arg Val Ile Pro
115 120 125
Pro Glu Asn Ala Lys Ala Pro Thr Ser Tyr Trp Asn Asp Gln Pro Thr
130 135 140
Thr Tyr Arg Gly Asp Gly Lys Asp Pro Lys Ala Pro Ser Lys Lys
145 150 155
<210> 56
<211> 146
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 56
Ala Ser Ala Ser Pro Ser Thr Asn Ser Ala Gly Ser Ser Gly Lys Asn
1 5 10 15
Val Arg Leu Pro Arg Asp Tyr Ala Ser Glu Leu Pro Glu Tyr Asp Gly
20 25 30
Lys Thr Thr Tyr Gly Val Leu Val Thr Asn Glu Gly Lys Val Ile Gln
35 40 45
Leu Arg Ser Gly Gly Lys Glu Val Pro Tyr Ser Gly Tyr Lys Ala Val
50 55 60
Ser Ala Ser His Val Glu Gly Lys Ala Ala Ile Trp Ile Arg Glu Asn
65 70 75 80
Ala Ser Ser Gly Gly Thr Val Tyr His Asn Asn Thr Thr Gly Thr Cys
85 90 95
Gly Tyr Cys Asn Ser Gln Val Lys Ala Leu Leu Pro Glu Gly Val Glu
100 105 110
Leu Lys Ile Val Pro Pro Ala Asn Ala Val Ala Arg Asn Ser Gln Ala
115 120 125
Lys Ala Ile Pro Thr Ile Asn Val Gly Asn Ala Thr Gln Pro Gly Arg
130 135 140
Lys Pro
145
<210> 57
<211> 149
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 57
Lys Pro Glu Ala Leu Lys Asp Ala Arg Glu Pro Lys Thr Lys Pro Pro
1 5 10 15
His Asn Arg Val His Gln Asp Pro Asn Thr Ser Trp Asn Pro Asn Asn
20 25 30
Tyr Pro Asp Thr Pro Ser Gly Gln Leu Pro Ala Tyr Asp Gly Lys Asn
35 40 45
Thr Leu Gly Arg Ile Glu Ile Asp Gly Glu Ile Tyr His Val Lys Asn
50 55 60
Gly Lys Gly Gln Pro Gly Glu Thr Leu Lys Thr Asp Pro Thr Val Lys
65 70 75 80
Ala Gly Ala Val Ser Pro Ser His Ala Glu Gly His Ala Val Ala Ile
85 90 95
Met Lys Glu Thr Gly Thr Lys Glu Ala Val Leu Asp Ile Asn His Pro
100 105 110
Thr Gly Pro Cys Gly Phe Cys Asp Lys Val Leu Glu Asn Met Leu Pro
115 120 125
Glu Gly Ser Lys Leu Thr Val Asn Trp Pro Asn Gly Ser Gln Val Phe
130 135 140
Thr Gly Asn Ser Lys
145
<210> 58
<211> 157
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 58
Ser His Tyr Ala Lys Glu Tyr Lys Gln Leu Leu Ala Asp Ile Asp Ala
1 5 10 15
Leu Ala Glu Ala Arg Glu Asp Ala Leu Leu Arg Glu Gln Phe Pro Ser
20 25 30
Met Asp Ala Val Thr Leu Pro Pro Phe Asp Gly Lys Thr Thr Ile Gly
35 40 45
Tyr Met Phe Tyr Thr Asp Ala Asn Gly Gln Tyr His Val Arg Lys Leu
50 55 60
Tyr Ser Gly Gly Lys Val Leu Ser Asn Tyr Asp Ser Ser Gly His Val
65 70 75 80
Glu Gly Met Ala Ala Leu Ile Met Arg Lys Gly Arg Ile Thr Glu Ala
85 90 95
Val Val Met His Asn His Pro Ser Gly Thr Cys His Tyr Cys Asn Gly
100 105 110
Gln Val Glu Thr Leu Leu Pro Lys Asn Ala Lys Leu Lys Val Ile Pro
115 120 125
Pro Ala Asn Ala Lys Ala Pro Thr Lys Tyr Trp Tyr Asp Gln Pro Val
130 135 140
Asp Tyr Leu Gly Asn Ser Asn Asp Pro Lys Pro Pro Ser
145 150 155
<210> 59
<211> 153
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 59
Gly Gly Ser Ala Val Val Gly Gly Gly Ile Ala Ala Thr Gly Ala Lys
1 5 10 15
Ala Leu Thr Thr Gly Lys Lys Leu Thr Glu Ser Pro Gly Thr Leu Asn
20 25 30
Ala Ala Gln Arg Leu Leu Ala Ser Ile Gly Glu Glu Gly Lys Thr Ala
35 40 45
Gly Val Leu Glu Val Asp Gly Ala Leu Phe Pro Leu Val Ser Gly Lys
50 55 60
Ser Val Leu Pro Asn Tyr Ala Ala Ser Gly His Val Glu Gly Gln Ala
65 70 75 80
Ala Leu Leu Met Gln Gly Met Gly Ala Thr Asn Gly Arg Leu Leu Ile
85 90 95
Asp Asn Pro Asn Gly Ile Cys Gly Tyr Cys Thr Ser Gln Val Pro Thr
100 105 110
Leu Leu Pro Glu Asn Ala Val Leu Glu Val Gly Thr Pro Leu Gly Thr
115 120 125
Val Thr Pro Ser Ala Arg Trp Ser Ala Ser Lys Pro Phe Ile Gly Asn
130 135 140
Asp Arg Glu Pro Lys Pro Trp Pro Arg
145 150
<210> 60
<211> 135
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 60
Ile Gly Lys Val Gly Lys Leu Arg Phe Ala Pro Lys Val Glu Ser Ala
1 5 10 15
Glu Ser Met Leu Arg Ser Leu Ser Gln Glu Gly Lys Thr Ala Gly Val
20 25 30
Leu Asp Ile Asn Gly Glu Leu Ile Pro Leu Val Ser Gly Thr Ser Ser
35 40 45
Leu Lys Asn Tyr Ala Ala Ser Gly His Val Glu Gly Gln Ala Ala Leu
50 55 60
Ile Met Arg Glu Arg Gly Val Ala Ser Ala Arg Leu Ile Ile Asp Asn
65 70 75 80
Pro Ser Gly Ile Cys Gly Tyr Cys Arg Ser Gln Val Pro Thr Leu Leu
85 90 95
Pro Ala Gly Ala Thr Leu Glu Val Thr Thr Pro Arg Gly Thr Val Pro
100 105 110
Pro Thr Ala Arg Trp Ser Asn Gly Lys Thr Phe Val Gly Asn Glu Asn
115 120 125
Asp Pro Lys Pro Trp Pro Arg
130 135
<210> 61
<211> 171
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 61
Leu Glu Asp Lys Ile Asp Tyr Asp Asp Leu Val Arg Lys Arg Glu Lys
1 5 10 15
Ala Arg Glu Asp Leu Leu Glu Ala Glu Lys Arg Leu Arg Glu Glu Glu
20 25 30
Ile Arg Ala Lys Tyr Pro Thr Pro Glu Glu Ala Gln Leu Pro Pro Tyr
35 40 45
Asp Gly Asp Thr Thr Tyr Ala Leu Met Tyr Tyr Thr Asp Glu His Gly
50 55 60
Lys Ser His Val Val Glu Leu Ser Ser Gly Gly Ala Asp Asp Glu His
65 70 75 80
Ser Asn Tyr Ala Ala Ala Gly His Thr Glu Gly Gln Ala Ala Val Ile
85 90 95
Met Arg Gln Arg Lys Ile Thr Ser Ala Val Val Val His Asn Asn Thr
100 105 110
Asp Gly Thr Cys Pro Phe Cys Val Ala His Leu Pro Thr Leu Leu Pro
115 120 125
Ser Gly Ala Glu Leu Arg Val Val Pro Pro Arg Ser Ala Lys Ala Lys
130 135 140
Lys Pro Gly Trp Ile Asp Val Ser Lys Thr Phe Glu Gly Asn Ala Arg
145 150 155 160
Lys Pro Leu Asp Asn Lys Asn Lys Lys Ser Thr
165 170
<210> 62
<211> 153
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 62
Gly Gly Ser Ala Val Val Gly Ala Gly Val Val Ala Thr Gly Ala Lys
1 5 10 15
Ala Val Thr Thr Gly Lys Ser Leu Ser Glu Ser Gln Ala Thr Leu Ser
20 25 30
Val Ala Gln Arg Leu Leu Ala Thr Ile Gly Glu Glu Gly Lys Thr Ala
35 40 45
Gly Val Leu Glu Leu Asp Gly Glu Leu Ile Pro Leu Val Ser Gly Lys
50 55 60
Ser Ser Leu Pro Asn Tyr Ala Ala Ser Gly His Val Glu Gly Gln Ala
65 70 75 80
Ala Leu Ile Met Arg Asp Arg Gly Ala Thr Ser Gly Arg Leu Leu Ile
85 90 95
Asp Asn Pro Ser Gly Ile Cys Gly Tyr Cys Lys Ser Gln Val Ala Thr
100 105 110
Leu Leu Pro Glu Asn Ala Thr Leu Gln Val Gly Thr Pro Leu Gly Thr
115 120 125
Val Thr Pro Ser Ser Arg Trp Ser Ala Ser Arg Thr Phe Thr Gly Asn
130 135 140
Asp Arg Asp Pro Lys Pro Trp Pro Arg
145 150
<210> 63
<211> 152
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 63
Asp Ser Ala Val Asp Arg Leu Glu Gln Glu Leu Glu Lys Leu Asp Val
1 5 10 15
Arg Asn Phe Phe Glu Asp Glu Ser Glu Thr Glu Ser Gly Ser Ser Ser
20 25 30
Ile Asn Leu Pro Glu Tyr Asp Gly Lys Thr Thr His Gly Val Leu Val
35 40 45
Leu Asp Asp Gly Thr Gln Val Pro Phe Ser Ser Gly Asn Ala Asn Pro
50 55 60
Asn Tyr Lys Asn Tyr Ile Pro Ala Ser His Val Glu Gly Lys Ser Ala
65 70 75 80
Ile Tyr Met Arg Glu Asn Gly Ile Asn Asn Gly Thr Val Phe His Asn
85 90 95
Asn Thr Asp Gly Thr Cys Pro Tyr Cys Asp Lys Met Leu Pro Thr Leu
100 105 110
Leu Asp Glu Gly Ser Thr Leu Thr Val Val Pro Pro Thr Asn Ala Ser
115 120 125
Ala Pro Lys Pro Ser Trp Val Asp Thr Val Lys Thr Tyr Ile Gly Asn
130 135 140
Asp Lys Ile Pro Lys Lys Pro Lys
145 150
<210> 64
<211> 149
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 64
Ser Gly Tyr Asp Ser Gln Tyr Pro Cys Lys Glu Glu Met Ser Ala Gly
1 5 10 15
Ala Gly Glu Ser Gly Arg Lys Thr Ile Ser Leu Pro Glu Tyr Asp Gly
20 25 30
Thr Thr Thr His Gly Val Leu Val Leu Asp Asp Gly Thr Gln Ile Gly
35 40 45
Phe Thr Ser Gly Asn Gly Asp Pro Arg Tyr Thr Asn Tyr Arg Asn Asn
50 55 60
Gly His Val Glu Gln Lys Ser Ala Leu Tyr Met Arg Glu Asn Asn Ile
65 70 75 80
Ser Asn Ala Thr Val Tyr His Asn Asn Thr Asn Gly Thr Cys Gly Tyr
85 90 95
Cys Asn Thr Met Thr Ala Thr Phe Leu Pro Glu Gly Ala Thr Leu Thr
100 105 110
Val Val Pro Pro Glu Asn Ala Val Ala Asn Asn Ser Arg Ala Ile Asp
115 120 125
Tyr Val Lys Thr Tyr Thr Gly Thr Ser Asn Asp Pro Lys Ile Ser Pro
130 135 140
Arg Tyr Lys Gly Asn
145
<210> 65
<211> 147
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 65
Ala Ser Pro Ala Val Gly Thr Asn Ala Ala Gly Ser Ser Gly Lys Asn
1 5 10 15
Val Arg Met Pro Arg Asp Tyr Ala Ser Glu Leu Pro Glu Tyr Asp Gly
20 25 30
Lys Thr Thr His Gly Val Leu Val Thr Asn Glu Gly Lys Val Ile Gln
35 40 45
Leu Arg Ser Gly Gly Lys Glu Glu Pro Tyr Thr Gly Tyr Lys Ala Val
50 55 60
Ser Ala Ser His Val Glu Gly Lys Ala Ala Ile Trp Ile Arg Glu Asn
65 70 75 80
Gly Ser Ser Gly Gly Thr Val Tyr His Asn Asn Thr Thr Gly Thr Cys
85 90 95
Gly Tyr Cys Asn Ser Gln Val Lys Ala Leu Leu Pro Glu Gly Val Glu
100 105 110
Leu Lys Ile Val Pro Pro Thr Asn Ala Val Ala Lys Asn Ala Gln Ala
115 120 125
Arg Ala Val Pro Thr Ile Asn Val Gly Asn Gly Thr Gln Pro Gly Arg
130 135 140
Lys Gln Lys
145
<210> 66
<211> 136
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 66
Tyr Val Gly Glu Asn Gly Val Trp Val His Asn Ala Ser Ser Glu Tyr
1 5 10 15
Gly Glu Val Pro Glu Leu Pro Glu Phe Asn Gly Lys Lys Thr Glu Gly
20 25 30
Val Phe Arg Thr Ala Asp Gly Lys Glu Ile Lys Phe Glu Ser Gly Gly
35 40 45
Ser Thr Glu Tyr Lys Asn Pro Ser Ala Ser His Ala Glu Gly Lys Ala
50 55 60
Ala Ile Tyr Met Arg Glu Asn Gly Ile Lys Glu Gly Thr Val Phe His
65 70 75 80
Asn Asn Pro Asn Gly Thr Cys Asn Tyr Cys Asp Lys Gly Leu Ala Thr
85 90 95
Leu Leu Pro Glu Gly Ala Arg Leu Thr Val Val Pro Pro Ile Gly Ala
100 105 110
Val Ala Pro Asn Lys Tyr Trp Val Asp Val Pro Lys Thr Tyr Thr Gly
115 120 125
Asn Gly Asn Leu Pro Ser Met Lys
130 135
<210> 67
<211> 140
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 67
His Val Gly Lys Cys Arg Leu Leu Val His Asn Ala Asn Cys Asn Gln
1 5 10 15
Glu Lys Pro Val Leu Pro Lys Tyr Asp Gly Lys Thr Thr Glu Gly Val
20 25 30
Met Val Thr Pro Asp Gly Lys Gln Ile Ser Phe Lys Ser Gly Asn Ser
35 40 45
Ser Thr Pro Ser Tyr Pro Gln Tyr Lys Ala Gln Ser Ala Ser His Val
50 55 60
Glu Gly Lys Ala Ala Leu Tyr Met Arg Glu Asn Gly Ile Asn Glu Ala
65 70 75 80
Thr Val Phe His Asn Asn Pro Asn Gly Thr Cys Gly Phe Cys Asp Arg
85 90 95
Gln Val Pro Ala Leu Leu Pro Lys Gly Ala Lys Leu Thr Val Val Pro
100 105 110
Pro Ser Asn Ser Val Ala Asn Asn Val Arg Ala Ile Pro Val Pro Lys
115 120 125
Thr Tyr Ile Gly Asn Ser Thr Val Pro Lys Ile Lys
130 135 140
<210> 68
<211> 676
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 68
Met Ala Leu Ser Arg Ala Val Cys Gly Thr Ser Arg Gln Leu Ala Pro
1 5 10 15
Val Leu Gly Tyr Leu Gly Ser Arg Gln Lys His Ser Leu Pro Asp Tyr
20 25 30
Pro Tyr Asp Val Pro Asp Tyr Ala Gly Tyr Pro Tyr Asp Val Pro Asp
35 40 45
Tyr Ala Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Met Asp Ile Ala
50 55 60
Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile Lys
65 70 75 80
Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val Gly
85 90 95
His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro Ala
100 105 110
Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile Ala Ala Leu
115 120 125
Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys Gln Trp Ser
130 135 140
Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly Glu Leu Arg
145 150 155 160
Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys Ile Ala Lys
165 170 175
Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp Arg Asn Ala
180 185 190
Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Gln Gln Val Val Ala Ile
195 200 205
Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu
210 215 220
Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val
225 230 235 240
Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln
245 250 255
Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln
260 265 270
Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr
275 280 285
Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro
290 295 300
Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu
305 310 315 320
Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu
325 330 335
Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln
340 345 350
Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His
355 360 365
Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly
370 375 380
Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln
385 390 395 400
Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp
405 410 415
Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu
420 425 430
Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser
435 440 445
Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro
450 455 460
Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile
465 470 475 480
Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu
485 490 495
Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val
500 505 510
Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val
515 520 525
Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp
530 535 540
His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala
545 550 555 560
Val Lys Lys Gly Leu Gly Gly Ser Gly Ser Tyr Ala Leu Gly Pro Tyr
565 570 575
Gln Ile Ser Ala Pro Gln Leu Pro Ala Tyr Asn Gly Gln Thr Val Gly
580 585 590
Thr Phe Tyr Tyr Val Asn Asp Ala Gly Gly Leu Glu Ser Lys Val Phe
595 600 605
Ser Ser Gly Gly Pro Thr Pro Tyr Pro Asn Tyr Ala Asn Ala Gly His
610 615 620
Val Glu Gly Gln Ser Ala Leu Phe Met Arg Asp Asn Gly Ile Ser Glu
625 630 635 640
Gly Leu Val Phe His Asn Asn Pro Glu Gly Thr Cys Gly Phe Cys Val
645 650 655
Asn Met Thr Glu Thr Leu Leu Pro Glu Asn Ala Lys Met Thr Val Val
660 665 670
Pro Pro Glu Gly
675
<210> 69
<211> 29
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 69
Met Ser Val Leu Thr Pro Leu Leu Leu Arg Gly Leu Thr Gly Ser Ala
1 5 10 15
Arg Arg Leu Pro Val Pro Arg Ala Lys Ile His Ser Leu
20 25
<210> 70
<211> 83
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 70
Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu Val
1 5 10 15
Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val Ile
20 25 30
Gly Asn Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp Glu
35 40 45
Ser Thr Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu Tyr
50 55 60
Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys Ile
65 70 75 80
Lys Met Leu
<210> 71
<211> 30
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 71
Met Leu Ser Arg Ala Val Cys Gly Thr Ser Arg Gln Leu Ala Pro Val
1 5 10 15
Leu Gly Tyr Leu Gly Ser Arg Gln Lys His Ser Leu Pro Asp
20 25 30
<210> 72
<211> 202
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 72
Met Pro Asp Phe Thr Ile Ile Gln Pro Asp Arg Lys Phe Asp Ala Ala
1 5 10 15
Ala Val Ala Gly Ile Phe Val Arg Ser Ser Thr Ser Ser Ser Phe Pro
20 25 30
Ser Ala Ser Ser Tyr Ile Ala Ala Lys Lys Arg Lys Asn Val Asp Asn
35 40 45
Thr Ser Thr Arg Lys Pro Tyr Ser Tyr Lys Asp Arg Lys Arg Lys Asn
50 55 60
Thr Glu Glu Ile Arg Asn Ile Lys Lys Lys Leu Phe Met Asp Leu Gly
65 70 75 80
Ile Val Arg Thr Asn Cys Gly Ile Asp Asn Glu Lys Gln Asp Arg Glu
85 90 95
Lys Ala Met Lys Arg Lys Val Thr Glu Thr Ile Val Thr Thr Tyr Cys
100 105 110
Glu Leu Cys Glu Gln Asn Phe Ser Ser Ser Lys Met Leu Leu Leu His
115 120 125
Arg Gly Lys Val His Asn Thr Pro Tyr Ile Glu Cys His Leu Cys Met
130 135 140
Lys Leu Phe Ser Gln Thr Ile Gln Phe Asn Arg His Met Lys Thr His
145 150 155 160
Tyr Gly Pro Asn Ala Lys Ile Tyr Val Gln Cys Glu Leu Cys Asp Arg
165 170 175
Gln Phe Lys Asp Lys Gln Ser Leu Arg Thr His Trp Asp Val Ser His
180 185 190
Gly Ser Gly Asp Asn Gln Ala Val Leu Ala
195 200
<210> 73
<211> 264
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 73
taataattat attattattt taaattaatt atttaaccgt ggtgcgcggg gtcgcccagc 60
aatagtatag gttgtcgagt atgaagggtc taaaagattt taagacacct tacggacgaa 120
gagtttctct cttagtcccc tgatctgcag aacccaggat atcaagcaca tttcacttca 180
cgtgttttga tgaaactata catcacccgc gccacaggcg ctgtgcggtt tataatatat 240
tataatttat atttatatta aatt 264
<210> 74
<211> 120
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 74
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Thr Ser Gly Ser Leu Val Arg His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Asp Cys
35 40 45
Arg Asp Leu Ala Arg His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Gln Asn Ser Thr Leu Thr
65 70 75 80
Glu His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Glu Arg Ser His Leu Arg Glu His Gln Arg
100 105 110
Thr His Thr Gly Lys Lys Thr Ser
115 120
<210> 75
<211> 148
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 75
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Arg Asn Asp Thr Leu Thr Glu His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Arg Glu
35 40 45
Asp Asn Leu His Thr His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Asp Cys Arg Asp Leu Ala
65 70 75 80
Arg His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Gln Asn Ser Thr Leu Thr Glu His Gln Arg
100 105 110
Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
115 120 125
Phe Ser Thr Lys Asn Ser Leu Thr Glu His Gln Arg Thr His Thr Gly
130 135 140
Lys Lys Thr Ser
145
<210> 76
<211> 120
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 76
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Asp Pro Gly His Leu Val Arg His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Gln Asn
35 40 45
Ser Thr Leu Thr Glu His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Arg Ser Asp Lys Leu Thr
65 70 75 80
Glu His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Gln Arg Ala Asn Leu Arg Ala His Gln Arg
100 105 110
Thr His Thr Gly Lys Lys Thr Ser
115 120
<210> 77
<211> 148
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 77
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Gln Leu Ala His Leu Arg Ala His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Thr Ser
35 40 45
Gly Glu Leu Val Arg His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Arg Glu Asp Asn Leu His
65 70 75 80
Thr His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Asp Pro Gly His Leu Val Arg His Gln Arg
100 105 110
Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
115 120 125
Phe Ser Asp Ser Gly Asn Leu Arg Val His Gln Arg Thr His Thr Gly
130 135 140
Lys Lys Thr Ser
145
<210> 78
<211> 120
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 78
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Thr Lys Asn Ser Leu Thr Glu His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Ser Lys
35 40 45
Lys Ala Leu Thr Glu His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Thr Ser Gly Glu Leu Val
65 70 75 80
Arg His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Thr Ser Gly Asn Leu Val Arg His Gln Arg
100 105 110
Thr His Thr Gly Lys Lys Thr Ser
115 120
<210> 79
<211> 148
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 79
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Thr Ser Gly Asn Leu Val Arg His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Thr Lys
35 40 45
Asn Ser Leu Thr Glu His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Ser Lys Lys Ala Leu Thr
65 70 75 80
Glu His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Thr Ser Gly Glu Leu Val Arg His Gln Arg
100 105 110
Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
115 120 125
Phe Ser Thr Ser Gly Asn Leu Val Arg His Gln Arg Thr His Thr Gly
130 135 140
Lys Lys Thr Ser
145
<210> 80
<211> 120
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 80
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Thr Ser Gly Asn Leu Thr Glu His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Arg Ser
35 40 45
Asp Asn Leu Val Arg His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Thr Ser Gly His Leu Val
65 70 75 80
Arg His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Arg Ala Asp Asn Leu Thr Glu His Gln Arg
100 105 110
Thr His Thr Gly Lys Lys Thr Ser
115 120
<210> 81
<211> 148
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 81
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Thr Ser Gly Asn Leu Thr Glu His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Arg Ser
35 40 45
Asp Asn Leu Val Arg His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Thr Ser Gly His Leu Val
65 70 75 80
Arg His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Arg Ala Asp Asn Leu Thr Glu His Gln Arg
100 105 110
Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
115 120 125
Phe Ser Thr Ser Gly Asn Leu Val Arg His Gln Arg Thr His Thr Gly
130 135 140
Lys Lys Thr Ser
145
<210> 82
<211> 148
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 82
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser His Lys Asn Ala Leu Gln Asn His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Thr Ser
35 40 45
Gly Asn Leu Thr Glu His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Thr Ser Gly Asn Leu Thr
65 70 75 80
Glu His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser His Thr Gly His Leu Leu Glu His Gln Arg
100 105 110
Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
115 120 125
Phe Ser Thr Thr Gly Ala Leu Thr Glu His Gln Arg Thr His Thr Gly
130 135 140
Lys Lys Thr Ser
145
<210> 83
<211> 148
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 83
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Ser Arg Arg Thr Cys Arg Ala His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser His Lys
35 40 45
Asn Ala Leu Gln Asn His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Thr Ser Gly Asn Leu Thr
65 70 75 80
Glu His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Thr Ser Gly Asn Leu Thr Glu His Gln Arg
100 105 110
Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
115 120 125
Phe Ser His Thr Gly His Leu Leu Glu His Gln Arg Thr His Thr Gly
130 135 140
Lys Lys Thr Ser
145
<210> 84
<211> 148
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 84
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Arg Ser Asp His Leu Thr Asn His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Ser Arg
35 40 45
Arg Thr Cys Arg Ala His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser His Lys Asn Ala Leu Gln
65 70 75 80
Asn His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Thr Ser Gly Asn Leu Thr Glu His Gln Arg
100 105 110
Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
115 120 125
Phe Ser Thr Ser Gly Asn Leu Thr Glu His Gln Arg Thr His Thr Gly
130 135 140
Lys Lys Thr Ser
145
<210> 85
<211> 148
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 85
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Glu Arg Ser His Leu Arg Glu His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Arg Ser
35 40 45
Asp His Leu Thr Asn His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Ser Arg Arg Thr Cys Arg
65 70 75 80
Ala His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser His Lys Asn Ala Leu Gln Asn His Gln Arg
100 105 110
Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
115 120 125
Phe Ser Thr Ser Gly Asn Leu Thr Glu His Gln Arg Thr His Thr Gly
130 135 140
Lys Lys Thr Ser
145
<210> 86
<211> 148
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 86
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Arg Arg Asp Glu Leu Asn Val His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Arg Arg
35 40 45
Asp Glu Leu Asn Val His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Thr Thr Gly Asn Leu Thr
65 70 75 80
Val His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Arg Thr Asp Thr Leu Arg Asp His Gln Arg
100 105 110
Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
115 120 125
Phe Ser Thr Lys Asn Ser Leu Thr Glu His Gln Arg Thr His Thr Gly
130 135 140
Lys Lys Thr Ser
145
<210> 87
<211> 148
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 87
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Gln Leu Ala His Leu Arg Ala His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Gln Arg
35 40 45
Ala His Leu Glu Arg His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Arg Ser Asp Asn Leu Val
65 70 75 80
Arg His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Thr Ser Gly Ser Leu Val Arg His Gln Arg
100 105 110
Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
115 120 125
Phe Ser Thr Thr Gly Asn Leu Thr Val His Gln Arg Thr His Thr Gly
130 135 140
Lys Lys Thr Ser
145
<210> 88
<211> 148
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 88
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Arg Arg Asp Glu Leu Asn Val His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Gln Leu
35 40 45
Ala His Leu Arg Ala His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Gln Arg Ala His Leu Glu
65 70 75 80
Arg His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Arg Ser Asp Asn Leu Val Arg His Gln Arg
100 105 110
Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
115 120 125
Phe Ser Thr Ser Gly Ser Leu Val Arg His Gln Arg Thr His Thr Gly
130 135 140
Lys Lys Thr Ser
145
<210> 89
<211> 148
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 89
Met Glu Pro Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
1 5 10 15
Phe Ser Arg Arg Asp Glu Leu Asn Val His Gln Arg Thr His Thr Gly
20 25 30
Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Thr Ser
35 40 45
Gly Ser Leu Val Arg His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr
50 55 60
Lys Cys Pro Glu Cys Gly Lys Ser Phe Ser Thr Thr Gly Asn Leu Thr
65 70 75 80
Val His Gln Arg Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu
85 90 95
Cys Gly Lys Ser Phe Ser Arg Lys Asp Asn Leu Lys Asn His Gln Arg
100 105 110
Thr His Thr Gly Glu Lys Pro Tyr Lys Cys Pro Glu Cys Gly Lys Ser
115 120 125
Phe Ser Arg Ser Asp Lys Leu Val Arg His Gln Arg Thr His Thr Gly
130 135 140
Lys Lys Thr Ser
145
<210> 90
<211> 675
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 90
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His
305 310 315 320
Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
530 535 540
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val
595 600 605
Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala
610 615 620
Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu
625 630 635 640
Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val
645 650 655
Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys
660 665 670
Gly Leu Gly
675
<210> 91
<211> 777
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 91
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
530 535 540
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val
595 600 605
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
610 615 620
Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu
625 630 635 640
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala
645 650 655
Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg
660 665 670
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val
675 680 685
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
690 695 700
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
705 710 715 720
Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu
725 730 735
Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu
740 745 750
Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala
755 760 765
Leu Asp Ala Val Lys Lys Gly Leu Gly
770 775
<210> 92
<211> 675
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 92
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys His Ala
530 535 540
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
595 600 605
Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala
610 615 620
Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu
625 630 635 640
Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val
645 650 655
Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys
660 665 670
Gly Leu Gly
675
<210> 93
<211> 675
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 93
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys His Ala
530 535 540
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His
580 585 590
Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
595 600 605
Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala
610 615 620
Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu
625 630 635 640
Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val
645 650 655
Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys
660 665 670
Gly Leu Gly
675
<210> 94
<211> 673
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 94
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys His Ala
530 535 540
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg
595 600 605
Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu
610 615 620
Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu
625 630 635 640
Gly Gly Ser Ala Ile Pro Val Lys Arg Gly Ala Thr Gly Glu Thr Lys
645 650 655
Val Phe Thr Gly Asn Ser Asn Ser Pro Lys Ser Pro Thr Lys Gly Gly
660 665 670
Cys
<210> 95
<211> 675
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 95
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys His Ala
530 535 540
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
595 600 605
Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala
610 615 620
Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu
625 630 635 640
Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val
645 650 655
Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys
660 665 670
Gly Leu Gly
675
<210> 96
<211> 675
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 96
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys His Ala
530 535 540
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His
580 585 590
Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
595 600 605
Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala
610 615 620
Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu
625 630 635 640
Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val
645 650 655
Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys
660 665 670
Gly Leu Gly
675
<210> 97
<211> 641
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 97
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys His Ala
530 535 540
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg
595 600 605
Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu
610 615 620
Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu
625 630 635 640
Gly
<210> 98
<211> 641
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 98
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys His Ala
530 535 540
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg
595 600 605
Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu
610 615 620
Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu
625 630 635 640
Gly
<210> 99
<211> 844
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 99
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala
530 535 540
His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
595 600 605
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
610 615 620
Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu
625 630 635 640
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
645 650 655
Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
660 665 670
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
675 680 685
Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val
690 695 700
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
705 710 715 720
Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu
725 730 735
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
740 745 750
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala
755 760 765
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
770 775 780
Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Arg
785 790 795 800
Pro Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala
805 810 815
Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly
820 825 830
Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu
835 840
<210> 100
<211> 811
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 100
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala
530 535 540
His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
595 600 605
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
610 615 620
Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu
625 630 635 640
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
645 650 655
Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
660 665 670
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
675 680 685
Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val
690 695 700
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
705 710 715 720
Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu
725 730 735
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
740 745 750
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Arg Pro Ala
755 760 765
Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala
770 775 780
Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg
785 790 795 800
Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Gly
805 810
<210> 101
<211> 777
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 101
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala
530 535 540
His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
595 600 605
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
610 615 620
Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu
625 630 635 640
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
645 650 655
Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
660 665 670
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
675 680 685
Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val
690 695 700
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
705 710 715 720
Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Arg Pro Ala Leu Glu
725 730 735
Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu
740 745 750
Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala
755 760 765
Leu Asp Ala Val Lys Lys Gly Leu Gly
770 775
<210> 102
<211> 675
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 102
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala
530 535 540
His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
595 600 605
Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala
610 615 620
Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu
625 630 635 640
Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val
645 650 655
Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys
660 665 670
Gly Leu Gly
675
<210> 103
<211> 539
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 103
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala
485 490 495
Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala
500 505 510
Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg
515 520 525
Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Gly
530 535
<210> 104
<211> 641
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 104
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys His Ala
530 535 540
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg
595 600 605
Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu
610 615 620
Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu
625 630 635 640
Gly
<210> 105
<211> 777
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 105
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Ser Arg Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
165 170 175
Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys His Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala
340 345 350
Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
435 440 445
Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
530 535 540
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His
580 585 590
Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val
595 600 605
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
610 615 620
Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu
625 630 635 640
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
645 650 655
Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg
660 665 670
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
675 680 685
Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val
690 695 700
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
705 710 715 720
Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu
725 730 735
Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu
740 745 750
Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala
755 760 765
Leu Asp Ala Val Lys Lys Gly Leu Gly
770 775
<210> 106
<211> 776
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 106
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Tyr His Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly Glu
85 90 95
Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys Ile
100 105 110
Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp Arg
115 120 125
Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val Val
130 135 140
Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln
145 150 155 160
Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln
165 170 175
Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr
180 185 190
Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro
195 200 205
Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu
210 215 220
Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys His Ala His Gly Leu
225 230 235 240
Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln
245 250 255
Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His
260 265 270
Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly
275 280 285
Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln
290 295 300
Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly
305 310 315 320
Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu
325 330 335
Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser
340 345 350
Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro
355 360 365
Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile
370 375 380
Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu
385 390 395 400
Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val
405 410 415
Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln
420 425 430
Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln
435 440 445
Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr
450 455 460
Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro
465 470 475 480
Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu
485 490 495
Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu
500 505 510
Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln
515 520 525
Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His
530 535 540
Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly
545 550 555 560
Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln
565 570 575
Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp
580 585 590
Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu
595 600 605
Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser
610 615 620
Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro
625 630 635 640
Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile
645 650 655
Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu
660 665 670
Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val
675 680 685
Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln
690 695 700
Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln
705 710 715 720
Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu Ser
725 730 735
Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr
740 745 750
Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu
755 760 765
Asp Ala Val Lys Lys Gly Leu Gly
770 775
<210> 107
<400> 107
000
<210> 108
<211> 777
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 108
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala
530 535 540
His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
595 600 605
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
610 615 620
Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu
625 630 635 640
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
645 650 655
Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
660 665 670
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
675 680 685
Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val
690 695 700
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
705 710 715 720
Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu
725 730 735
Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu
740 745 750
Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala
755 760 765
Leu Asp Ala Val Lys Lys Gly Leu Gly
770 775
<210> 109
<211> 675
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 109
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala
530 535 540
His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
595 600 605
Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala
610 615 620
Ser Asn Ile Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu
625 630 635 640
Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val
645 650 655
Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys
660 665 670
Gly Leu Gly
675
<210> 110
<211> 641
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 110
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala
530 535 540
His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly
545 550 555 560
Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys
565 570 575
Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn
580 585 590
Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg
595 600 605
Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu
610 615 620
Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu
625 630 635 640
Gly
<210> 111
<211> 607
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 111
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala
530 535 540
His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly
545 550 555 560
Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro Asp
565 570 575
Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys
580 585 590
Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Gly
595 600 605
<210> 112
<211> 539
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 112
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala
485 490 495
Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala
500 505 510
Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg
515 520 525
Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Gly
530 535
<210> 113
<211> 607
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 113
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val
130 135 140
Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val
145 150 155 160
Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln
165 170 175
Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu
180 185 190
Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
195 200 205
Pro Gln Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
210 215 220
Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly
225 230 235 240
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys
245 250 255
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala
260 265 270
His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly
275 280 285
Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys
290 295 300
Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn
305 310 315 320
Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val
325 330 335
Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala
340 345 350
Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu
355 360 365
Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala
370 375 380
Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala
385 390 395 400
Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val
405 410 415
Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val
420 425 430
Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu
435 440 445
Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu
450 455 460
Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr
465 470 475 480
Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala
485 490 495
Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly
500 505 510
Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys
515 520 525
Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys His Ala
530 535 540
His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly
545 550 555 560
Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro Asp
565 570 575
Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys
580 585 590
Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Gly
595 600 605
<210> 114
<211> 138
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 114
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Ser Arg Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly
85 90 95
Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys
100 105 110
Ile Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp
115 120 125
Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn
130 135
<210> 115
<211> 137
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 115
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
1 5 10 15
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
20 25 30
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
35 40 45
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
50 55 60
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
65 70 75 80
Tyr His Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly Glu
85 90 95
Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys Ile
100 105 110
Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp Arg
115 120 125
Asn Ala Leu Thr Gly Ala Pro Leu Asn
130 135
<210> 116
<211> 639
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 116
Ser Thr Ala Phe Val Asp Gln Asp Lys Gln Met Ala Asn Arg Leu Asn
1 5 10 15
Leu Ser Pro Leu Glu Arg Ser Lys Ile Glu Lys Gln Tyr Gly Gly Ala
20 25 30
Thr Thr Leu Ala Phe Ile Ser Asn Lys Gln Asn Glu Leu Ala Gln Ile
35 40 45
Leu Ser Arg Ala Asp Ile Leu Lys Ile Ala Ser Tyr Asp Cys Ala Ala
50 55 60
His Ala Leu Gln Ala Val Leu Asp Cys Gly Pro Met Leu Gly Lys Arg
65 70 75 80
Gly Phe Ser Gln Ser Asp Ile Val Lys Ile Ala Gly Asn Gly Gly Gly
85 90 95
Ala Gln Ala Leu Gln Ala Val Leu Asp Leu Glu Ser Met Leu Gly Lys
100 105 110
Arg Gly Phe Ser Arg Asp Asp Ile Ala Lys Met Ala Gly His Asp Gly
115 120 125
Gly Ala Gln Thr Leu Gln Ala Val Leu Asp Leu Glu Ser Ala Phe Arg
130 135 140
Glu Arg Gly Phe Ser Gln Ala Asp Ile Val Lys Ile Ala Gly Asn Gly
145 150 155 160
Gly Gly Ala Gln Ala Leu Tyr Ser Val Leu Asp Val Glu Pro Thr Leu
165 170 175
Gly Lys Arg Gly Phe Ser Arg Ala Asp Ile Val Lys Ile Ala Gly Asn
180 185 190
Ile Gly Gly Ala Gln Ala Leu His Thr Val Leu Asp Leu Glu Pro Ala
195 200 205
Leu Gly Lys Arg Gly Phe Ser Arg Ile Asp Ile Val Lys Ile Ala Ala
210 215 220
Asn Asn Gly Gly Ala Gln Ala Leu His Ala Val Leu Asp Leu Gly Pro
225 230 235 240
Thr Leu Arg Glu Cys Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile Ala
245 250 255
Gly His Asp Gly Gly Ala Gln Ala Leu Gln Met Val Leu Asp Leu Gly
260 265 270
Pro Ala Leu Gly Lys Arg Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile
275 280 285
Ala Gly His Asp Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp Leu
290 295 300
Glu Pro Ala Leu Cys Glu Arg Gly Phe Gly Gln Ala Thr Ile Ala Lys
305 310 315 320
Met Ala Gly Asn Gly Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp
325 330 335
Leu Glu Pro Ala Leu Arg Lys Arg Asp Phe Arg Gln Ala Asp Ile Ile
340 345 350
Lys Ile Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu Gln Ala Val Ile
355 360 365
Glu His Gly Pro Thr Leu Arg Gln His Gly Phe Asn Leu Ala Asp Ile
370 375 380
Val Lys Met Ala Gly Asn Asn Gly Gly Ala Gln Ala Leu Gln Ala Val
385 390 395 400
Leu Asp Leu Lys Pro Val Leu Asp Glu His Gly Phe Ser Gln Ala Asp
405 410 415
Ile Val Lys Ile Ala Gly His Asp Gly Gly Thr Gln Ala Leu His Ala
420 425 430
Val Leu Asp Leu Glu Arg Met Leu Gly Glu Arg Gly Phe Ser Arg Ala
435 440 445
Asp Ile Val Asn Val Ala Gly His Asp Gly Gly Ala Gln Ala Leu Lys
450 455 460
Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe Ser Arg
465 470 475 480
Ala Asp Ile Val Lys Ile Ala Gly Asn Asn Gly Gly Ala Gln Ala Leu
485 490 495
Lys Ala Val Leu Glu His Glu Ala Thr Leu Asp Glu Arg Gly Phe Ser
500 505 510
Arg Ala Asp Ile Val Asn Val Ala Gly Asn Gly Gly Gly Ala Gln Ala
515 520 525
Leu Lys Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe
530 535 540
Asn Leu Thr Asp Ile Val Glu Met Ala Ala Asn Gly Gly Gly Ala Gln
545 550 555 560
Ala Leu Lys Ala Val Leu Glu His Gly Pro Thr Leu Arg Gln Arg Gly
565 570 575
Leu Ser Leu Ile Asp Ile Val Glu Ile Ala Gly Asn Gly Gly Gly Ala
580 585 590
Gln Ala Leu Lys Ala Val Leu Lys Tyr Gly Pro Val Leu Met Gln Ala
595 600 605
Gly Arg Ser Asn Glu Glu Ile Val His Val Ala Ala Arg Arg Gly Gly
610 615 620
Ala Gly Arg Ile Arg Lys Met Val Ala Pro Leu Leu Glu Arg Gln
625 630 635
<210> 117
<211> 639
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 117
Ser Thr Ala Phe Val Asp Gln Asp Lys Gln Met Ala Asn Arg Leu Asn
1 5 10 15
Leu Ser Pro Leu Glu Arg Ser Lys Ile Glu Lys Gln Tyr Gly Gly Ala
20 25 30
Thr Thr Leu Ala Phe Ile Ser Asn Lys Gln Asn Glu Leu Ala Gln Ile
35 40 45
Leu Ser Arg Ala Asp Ile Leu Lys Ile Ala Ser Tyr Asp Cys Ala Ala
50 55 60
His Ala Leu Gln Ala Val Leu Asp Cys Gly Pro Met Leu Gly Lys Arg
65 70 75 80
Gly Phe Ser Gln Ser Asp Ile Val Lys Ile Ala Gly Asn Asn Gly Gly
85 90 95
Ala Gln Ala Leu Gln Ala Val Leu Asp Leu Glu Ser Met Leu Gly Lys
100 105 110
Arg Gly Phe Ser Arg Asp Asp Ile Ala Lys Met Ala Gly Asn Gly Gly
115 120 125
Gly Ala Gln Thr Leu Gln Ala Val Leu Asp Leu Glu Ser Ala Phe Arg
130 135 140
Glu Arg Gly Phe Ser Gln Ala Asp Ile Val Lys Ile Ala Gly Asn Gly
145 150 155 160
Gly Gly Ala Gln Ala Leu Tyr Ser Val Leu Asp Val Glu Pro Thr Leu
165 170 175
Gly Lys Arg Gly Phe Ser Arg Ala Asp Ile Val Lys Ile Ala Gly Asn
180 185 190
Gly Gly Gly Ala Gln Ala Leu His Thr Val Leu Asp Leu Glu Pro Ala
195 200 205
Leu Gly Lys Arg Gly Phe Ser Arg Ile Asp Ile Val Lys Ile Ala Ala
210 215 220
Asn Asn Gly Gly Ala Gln Ala Leu His Ala Val Leu Asp Leu Gly Pro
225 230 235 240
Thr Leu Arg Glu Cys Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile Ala
245 250 255
Gly Asn Ile Gly Gly Ala Gln Ala Leu Gln Met Val Leu Asp Leu Gly
260 265 270
Pro Ala Leu Gly Lys Arg Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile
275 280 285
Ala Gly Asn Gly Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp Leu
290 295 300
Glu Pro Ala Leu Cys Glu Arg Gly Phe Gly Gln Ala Thr Ile Ala Lys
305 310 315 320
Met Ala Gly Asn Asn Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp
325 330 335
Leu Glu Pro Ala Leu Arg Lys Arg Asp Phe Arg Gln Ala Asp Ile Ile
340 345 350
Lys Ile Ala Gly His Asp Gly Gly Ala Gln Ala Leu Gln Ala Val Ile
355 360 365
Glu His Gly Pro Thr Leu Arg Gln His Gly Phe Asn Leu Ala Asp Ile
370 375 380
Val Lys Met Ala Gly Asn Gly Gly Gly Ala Gln Ala Leu Gln Ala Val
385 390 395 400
Leu Asp Leu Lys Pro Val Leu Asp Glu His Gly Phe Ser Gln Ala Asp
405 410 415
Ile Val Lys Ile Ala Gly His Asp Gly Gly Thr Gln Ala Leu His Ala
420 425 430
Val Leu Asp Leu Glu Arg Met Leu Gly Glu Arg Gly Phe Ser Arg Ala
435 440 445
Asp Ile Val Asn Val Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu Lys
450 455 460
Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe Ser Arg
465 470 475 480
Ala Asp Ile Val Lys Ile Ala Gly His Asp Gly Gly Ala Gln Ala Leu
485 490 495
Lys Ala Val Leu Glu His Glu Ala Thr Leu Asp Glu Arg Gly Phe Ser
500 505 510
Arg Ala Asp Ile Val Asn Val Ala Gly His Asp Gly Gly Ala Gln Ala
515 520 525
Leu Lys Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe
530 535 540
Asn Leu Thr Asp Ile Val Glu Met Ala Ala His Asp Gly Gly Ala Gln
545 550 555 560
Ala Leu Lys Ala Val Leu Glu His Gly Pro Thr Leu Arg Gln Arg Gly
565 570 575
Leu Ser Leu Ile Asp Ile Val Glu Ile Ala Gly Asn Gly Gly Gly Ala
580 585 590
Gln Ala Leu Lys Ala Val Leu Lys Tyr Gly Pro Val Leu Met Gln Ala
595 600 605
Gly Arg Ser Asn Glu Glu Ile Val His Val Ala Ala Arg Arg Gly Gly
610 615 620
Ala Gly Arg Ile Arg Lys Met Val Ala Pro Leu Leu Glu Arg Gln
625 630 635
<210> 118
<211> 639
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 118
Ser Thr Ala Phe Val Asp Gln Asp Lys Gln Met Ala Asn Arg Leu Asn
1 5 10 15
Leu Ser Pro Leu Glu Arg Ser Lys Ile Glu Lys Gln Tyr Gly Gly Ala
20 25 30
Thr Thr Leu Ala Phe Ile Ser Asn Lys Gln Asn Glu Leu Ala Gln Ile
35 40 45
Leu Ser Arg Ala Asp Ile Leu Lys Ile Ala Ser Tyr Asp Cys Ala Ala
50 55 60
His Ala Leu Gln Ala Val Leu Asp Cys Gly Pro Met Leu Gly Lys Arg
65 70 75 80
Gly Phe Ser Gln Ser Asp Ile Val Lys Ile Ala Gly His Asp Gly Gly
85 90 95
Ala Gln Ala Leu Gln Ala Val Leu Asp Leu Glu Ser Met Leu Gly Lys
100 105 110
Arg Gly Phe Ser Arg Asp Asp Ile Ala Lys Met Ala Gly Asn Ile Gly
115 120 125
Gly Ala Gln Thr Leu Gln Ala Val Leu Asp Leu Glu Ser Ala Phe Arg
130 135 140
Glu Arg Gly Phe Ser Gln Ala Asp Ile Val Lys Ile Ala Gly His Asp
145 150 155 160
Gly Gly Ala Gln Ala Leu Tyr Ser Val Leu Asp Val Glu Pro Thr Leu
165 170 175
Gly Lys Arg Gly Phe Ser Arg Ala Asp Ile Val Lys Ile Ala Gly Asn
180 185 190
Gly Gly Gly Ala Gln Ala Leu His Thr Val Leu Asp Leu Glu Pro Ala
195 200 205
Leu Gly Lys Arg Gly Phe Ser Arg Ile Asp Ile Val Lys Ile Ala Ala
210 215 220
Asn Gly Gly Gly Ala Gln Ala Leu His Ala Val Leu Asp Leu Gly Pro
225 230 235 240
Thr Leu Arg Glu Cys Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile Ala
245 250 255
Gly His Asp Gly Gly Ala Gln Ala Leu Gln Met Val Leu Asp Leu Gly
260 265 270
Pro Ala Leu Gly Lys Arg Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile
275 280 285
Ala Gly Asn Asn Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp Leu
290 295 300
Glu Pro Ala Leu Cys Glu Arg Gly Phe Gly Gln Ala Thr Ile Ala Lys
305 310 315 320
Met Ala Gly His Asp Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp
325 330 335
Leu Glu Pro Ala Leu Arg Lys Arg Asp Phe Arg Gln Ala Asp Ile Ile
340 345 350
Lys Ile Ala Gly His Asp Gly Gly Ala Gln Ala Leu Gln Ala Val Ile
355 360 365
Glu His Gly Pro Thr Leu Arg Gln His Gly Phe Asn Leu Ala Asp Ile
370 375 380
Val Lys Met Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu Gln Ala Val
385 390 395 400
Leu Asp Leu Lys Pro Val Leu Asp Glu His Gly Phe Ser Gln Ala Asp
405 410 415
Ile Val Lys Ile Ala Gly Asn Gly Gly Gly Thr Gln Ala Leu His Ala
420 425 430
Val Leu Asp Leu Glu Arg Met Leu Gly Glu Arg Gly Phe Ser Arg Ala
435 440 445
Asp Ile Val Asn Val Ala Gly His Asp Gly Gly Ala Gln Ala Leu Lys
450 455 460
Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe Ser Arg
465 470 475 480
Ala Asp Ile Val Lys Ile Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu
485 490 495
Lys Ala Val Leu Glu His Glu Ala Thr Leu Asp Glu Arg Gly Phe Ser
500 505 510
Arg Ala Asp Ile Val Asn Val Ala Gly Asn Gly Gly Gly Ala Gln Ala
515 520 525
Leu Lys Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe
530 535 540
Asn Leu Thr Asp Ile Val Glu Met Ala Ala Asn Ile Gly Gly Ala Gln
545 550 555 560
Ala Leu Lys Ala Val Leu Glu His Gly Pro Thr Leu Arg Gln Arg Gly
565 570 575
Leu Ser Leu Ile Asp Ile Val Glu Ile Ala Gly Asn Gly Gly Gly Ala
580 585 590
Gln Ala Leu Lys Ala Val Leu Lys Tyr Gly Pro Val Leu Met Gln Ala
595 600 605
Gly Arg Ser Asn Glu Glu Ile Val His Val Ala Ala Arg Arg Gly Gly
610 615 620
Ala Gly Arg Ile Arg Lys Met Val Ala Pro Leu Leu Glu Arg Gln
625 630 635
<210> 119
<211> 639
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 119
Ser Thr Ala Phe Val Asp Gln Asp Lys Gln Met Ala Asn Arg Leu Asn
1 5 10 15
Leu Ser Pro Leu Glu Arg Ser Lys Ile Glu Lys Gln Tyr Gly Gly Ala
20 25 30
Thr Thr Leu Ala Phe Ile Ser Asn Lys Gln Asn Glu Leu Ala Gln Ile
35 40 45
Leu Ser Arg Ala Asp Ile Leu Lys Ile Ala Ser Tyr Asp Cys Ala Ala
50 55 60
His Ala Leu Gln Ala Val Leu Asp Cys Gly Pro Met Leu Gly Lys Arg
65 70 75 80
Gly Phe Ser Gln Ser Asp Ile Val Lys Ile Ala Gly Asn Gly Gly Gly
85 90 95
Ala Gln Ala Leu Gln Ala Val Leu Asp Leu Glu Ser Met Leu Gly Lys
100 105 110
Arg Gly Phe Ser Arg Asp Asp Ile Ala Lys Met Ala Gly Asn Gly Gly
115 120 125
Gly Ala Gln Thr Leu Gln Ala Val Leu Asp Leu Glu Ser Ala Phe Arg
130 135 140
Glu Arg Gly Phe Ser Gln Ala Asp Ile Val Lys Ile Ala Gly Asn Asn
145 150 155 160
Gly Gly Ala Gln Ala Leu Tyr Ser Val Leu Asp Val Glu Pro Thr Leu
165 170 175
Gly Lys Arg Gly Phe Ser Arg Ala Asp Ile Val Lys Ile Ala Gly Asn
180 185 190
Ile Gly Gly Ala Gln Ala Leu His Thr Val Leu Asp Leu Glu Pro Ala
195 200 205
Leu Gly Lys Arg Gly Phe Ser Arg Ile Asp Ile Val Lys Ile Ala Ala
210 215 220
Asn Asn Gly Gly Ala Gln Ala Leu His Ala Val Leu Asp Leu Gly Pro
225 230 235 240
Thr Leu Arg Glu Cys Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile Ala
245 250 255
Gly Asn Asn Gly Gly Ala Gln Ala Leu Gln Met Val Leu Asp Leu Gly
260 265 270
Pro Ala Leu Gly Lys Arg Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile
275 280 285
Ala Gly Asn Asn Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp Leu
290 295 300
Glu Pro Ala Leu Cys Glu Arg Gly Phe Gly Gln Ala Thr Ile Ala Lys
305 310 315 320
Met Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp
325 330 335
Leu Glu Pro Ala Leu Arg Lys Arg Asp Phe Arg Gln Ala Asp Ile Ile
340 345 350
Lys Ile Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu Gln Ala Val Ile
355 360 365
Glu His Gly Pro Thr Leu Arg Gln His Gly Phe Asn Leu Ala Asp Ile
370 375 380
Val Lys Met Ala Gly Asn Asn Gly Gly Ala Gln Ala Leu Gln Ala Val
385 390 395 400
Leu Asp Leu Lys Pro Val Leu Asp Glu His Gly Phe Ser Gln Ala Asp
405 410 415
Ile Val Lys Ile Ala Gly Asn Ile Gly Gly Thr Gln Ala Leu His Ala
420 425 430
Val Leu Asp Leu Glu Arg Met Leu Gly Glu Arg Gly Phe Ser Arg Ala
435 440 445
Asp Ile Val Asn Val Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu Lys
450 455 460
Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe Ser Arg
465 470 475 480
Ala Asp Ile Val Lys Ile Ala Gly Asn Gly Gly Gly Ala Gln Ala Leu
485 490 495
Lys Ala Val Leu Glu His Glu Ala Thr Leu Asp Glu Arg Gly Phe Ser
500 505 510
Arg Ala Asp Ile Val Asn Val Ala Gly Asn Asn Gly Gly Ala Gln Ala
515 520 525
Leu Lys Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe
530 535 540
Asn Leu Thr Asp Ile Val Glu Met Ala Ala Asn Gly Gly Gly Ala Gln
545 550 555 560
Ala Leu Lys Ala Val Leu Glu His Gly Pro Thr Leu Arg Gln Arg Gly
565 570 575
Leu Ser Leu Ile Asp Ile Val Glu Ile Ala Gly Asn Gly Gly Gly Ala
580 585 590
Gln Ala Leu Lys Ala Val Leu Lys Tyr Gly Pro Val Leu Met Gln Ala
595 600 605
Gly Arg Ser Asn Glu Glu Ile Val His Val Ala Ala Arg Arg Gly Gly
610 615 620
Ala Gly Arg Ile Arg Lys Met Val Ala Pro Leu Leu Glu Arg Gln
625 630 635
<210> 120
<211> 639
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 120
Ser Thr Ala Phe Val Asp Gln Asp Lys Gln Met Ala Asn Arg Leu Asn
1 5 10 15
Leu Ser Pro Leu Glu Arg Ser Lys Ile Glu Lys Gln Tyr Gly Gly Ala
20 25 30
Thr Thr Leu Ala Phe Ile Ser Asn Lys Gln Asn Glu Leu Ala Gln Ile
35 40 45
Leu Ser Arg Ala Asp Ile Leu Lys Ile Ala Ser Tyr Asp Cys Ala Ala
50 55 60
His Ala Leu Gln Ala Val Leu Asp Cys Gly Pro Met Leu Gly Lys Arg
65 70 75 80
Gly Phe Ser Gln Ser Asp Ile Val Lys Ile Ala Gly Asn Gly Gly Gly
85 90 95
Ala Gln Ala Leu Gln Ala Val Leu Asp Leu Glu Ser Met Leu Gly Lys
100 105 110
Arg Gly Phe Ser Arg Asp Asp Ile Ala Lys Met Ala Gly His Asp Gly
115 120 125
Gly Ala Gln Thr Leu Gln Ala Val Leu Asp Leu Glu Ser Ala Phe Arg
130 135 140
Glu Arg Gly Phe Ser Gln Ala Asp Ile Val Lys Ile Ala Gly Asn Gly
145 150 155 160
Gly Gly Ala Gln Ala Leu Tyr Ser Val Leu Asp Val Glu Pro Thr Leu
165 170 175
Gly Lys Arg Gly Phe Ser Arg Ala Asp Ile Val Lys Ile Ala Gly Asn
180 185 190
Gly Gly Gly Ala Gln Ala Leu His Thr Val Leu Asp Leu Glu Pro Ala
195 200 205
Leu Gly Lys Arg Gly Phe Ser Arg Ile Asp Ile Val Lys Ile Ala Ala
210 215 220
Asn Asn Gly Gly Ala Gln Ala Leu His Ala Val Leu Asp Leu Gly Pro
225 230 235 240
Thr Leu Arg Glu Cys Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile Ala
245 250 255
Gly Asn Asn Gly Gly Ala Gln Ala Leu Gln Met Val Leu Asp Leu Gly
260 265 270
Pro Ala Leu Gly Lys Arg Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile
275 280 285
Ala Gly Asn Asn Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp Leu
290 295 300
Glu Pro Ala Leu Cys Glu Arg Gly Phe Gly Gln Ala Thr Ile Ala Lys
305 310 315 320
Met Ala Gly Asn Gly Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp
325 330 335
Leu Glu Pro Ala Leu Arg Lys Arg Asp Phe Arg Gln Ala Asp Ile Ile
340 345 350
Lys Ile Ala Gly Asn Gly Gly Gly Ala Gln Ala Leu Gln Ala Val Ile
355 360 365
Glu His Gly Pro Thr Leu Arg Gln His Gly Phe Asn Leu Ala Asp Ile
370 375 380
Val Lys Met Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu Gln Ala Val
385 390 395 400
Leu Asp Leu Lys Pro Val Leu Asp Glu His Gly Phe Ser Gln Ala Asp
405 410 415
Ile Val Lys Ile Ala Gly Asn Asn Gly Gly Thr Gln Ala Leu His Ala
420 425 430
Val Leu Asp Leu Glu Arg Met Leu Gly Glu Arg Gly Phe Ser Arg Ala
435 440 445
Asp Ile Val Asn Val Ala Gly His Asp Gly Gly Ala Gln Ala Leu Lys
450 455 460
Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe Ser Arg
465 470 475 480
Ala Asp Ile Val Lys Ile Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu
485 490 495
Lys Ala Val Leu Glu His Glu Ala Thr Leu Asp Glu Arg Gly Phe Ser
500 505 510
Arg Ala Asp Ile Val Asn Val Ala Gly Asn Gly Gly Gly Ala Gln Ala
515 520 525
Leu Lys Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe
530 535 540
Asn Leu Thr Asp Ile Val Glu Met Ala Ala Asn Gly Gly Gly Ala Gln
545 550 555 560
Ala Leu Lys Ala Val Leu Glu His Gly Pro Thr Leu Arg Gln Arg Gly
565 570 575
Leu Ser Leu Ile Asp Ile Val Glu Ile Ala Gly Asn Ile Gly Gly Ala
580 585 590
Gln Ala Leu Lys Ala Val Leu Lys Tyr Gly Pro Val Leu Met Gln Ala
595 600 605
Gly Arg Ser Asn Glu Glu Ile Val His Val Ala Ala Arg Arg Gly Gly
610 615 620
Ala Gly Arg Ile Arg Lys Met Val Ala Pro Leu Leu Glu Arg Gln
625 630 635
<210> 121
<211> 639
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 121
Ser Thr Ala Phe Val Asp Gln Asp Lys Gln Met Ala Asn Arg Leu Asn
1 5 10 15
Leu Ser Pro Leu Glu Arg Ser Lys Ile Glu Lys Gln Tyr Gly Gly Ala
20 25 30
Thr Thr Leu Ala Phe Ile Ser Asn Lys Gln Asn Glu Leu Ala Gln Ile
35 40 45
Leu Ser Arg Ala Asp Ile Leu Lys Ile Ala Ser Tyr Asp Cys Ala Ala
50 55 60
His Ala Leu Gln Ala Val Leu Asp Cys Gly Pro Met Leu Gly Lys Arg
65 70 75 80
Gly Phe Ser Gln Ser Asp Ile Val Lys Ile Ala Gly Asn Gly Gly Gly
85 90 95
Ala Gln Ala Leu Gln Ala Val Leu Asp Leu Glu Ser Met Leu Gly Lys
100 105 110
Arg Gly Phe Ser Arg Asp Asp Ile Ala Lys Met Ala Gly Asn Ile Gly
115 120 125
Gly Ala Gln Thr Leu Gln Ala Val Leu Asp Leu Glu Ser Ala Phe Arg
130 135 140
Glu Arg Gly Phe Ser Gln Ala Asp Ile Val Lys Ile Ala Gly Asn Ile
145 150 155 160
Gly Gly Ala Gln Ala Leu Tyr Ser Val Leu Asp Val Glu Pro Thr Leu
165 170 175
Gly Lys Arg Gly Phe Ser Arg Ala Asp Ile Val Lys Ile Ala Gly Asn
180 185 190
Ile Gly Gly Ala Gln Ala Leu His Thr Val Leu Asp Leu Glu Pro Ala
195 200 205
Leu Gly Lys Arg Gly Phe Ser Arg Ile Asp Ile Val Lys Ile Ala Ala
210 215 220
His Asp Gly Gly Ala Gln Ala Leu His Ala Val Leu Asp Leu Gly Pro
225 230 235 240
Thr Leu Arg Glu Cys Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile Ala
245 250 255
Gly His Asp Gly Gly Ala Gln Ala Leu Gln Met Val Leu Asp Leu Gly
260 265 270
Pro Ala Leu Gly Lys Arg Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile
275 280 285
Ala Gly Asn Gly Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp Leu
290 295 300
Glu Pro Ala Leu Cys Glu Arg Gly Phe Gly Gln Ala Thr Ile Ala Lys
305 310 315 320
Met Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp
325 330 335
Leu Glu Pro Ala Leu Arg Lys Arg Asp Phe Arg Gln Ala Asp Ile Ile
340 345 350
Lys Ile Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu Gln Ala Val Ile
355 360 365
Glu His Gly Pro Thr Leu Arg Gln His Gly Phe Asn Leu Ala Asp Ile
370 375 380
Val Lys Met Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu Gln Ala Val
385 390 395 400
Leu Asp Leu Lys Pro Val Leu Asp Glu His Gly Phe Ser Gln Ala Asp
405 410 415
Ile Val Lys Ile Ala Gly His Asp Gly Gly Thr Gln Ala Leu His Ala
420 425 430
Val Leu Asp Leu Glu Arg Met Leu Gly Glu Arg Gly Phe Ser Arg Ala
435 440 445
Asp Ile Val Asn Val Ala Gly His Asp Gly Gly Ala Gln Ala Leu Lys
450 455 460
Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe Ser Arg
465 470 475 480
Ala Asp Ile Val Lys Ile Ala Gly Asn Gly Gly Gly Ala Gln Ala Leu
485 490 495
Lys Ala Val Leu Glu His Glu Ala Thr Leu Asp Glu Arg Gly Phe Ser
500 505 510
Arg Ala Asp Ile Val Asn Val Ala Gly His Asp Gly Gly Ala Gln Ala
515 520 525
Leu Lys Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe
530 535 540
Asn Leu Thr Asp Ile Val Glu Met Ala Ala His Asp Gly Gly Ala Gln
545 550 555 560
Ala Leu Lys Ala Val Leu Glu His Gly Pro Thr Leu Arg Gln Arg Gly
565 570 575
Leu Ser Leu Ile Asp Ile Val Glu Ile Ala Gly Asn Ile Gly Gly Ala
580 585 590
Gln Ala Leu Lys Ala Val Leu Lys Tyr Gly Pro Val Leu Met Gln Ala
595 600 605
Gly Arg Ser Asn Glu Glu Ile Val His Val Ala Ala Arg Arg Gly Gly
610 615 620
Ala Gly Arg Ile Arg Lys Met Val Ala Pro Leu Leu Glu Arg Gln
625 630 635
<210> 122
<211> 138
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 122
Thr Lys Ser Ala Asn Ser Gly Gly Ala Ala Lys Asp Leu Ala Lys Tyr
1 5 10 15
Arg Glu Arg Gln Gly Met Pro Arg Ala Gly Ser Ala Asp Asp Ala His
20 25 30
Thr Ala Ala Arg Leu Asp Val Gly Gly Arg Ser Phe Tyr Gly His Asn
35 40 45
Ala His Gly Arg Asn Ile Asp Ile Lys Val Asn Ala Gln Thr Lys Thr
50 55 60
His Ala Ala Ala Asp Val Phe Gln Gln Ala Lys Asn Ala Lys Val Ser
65 70 75 80
Ala Asp Arg Ala Thr Leu His Val Asp Arg Asp Leu Cys Asp Ala Cys
85 90 95
Gly Ile Lys Gly Gly Val Gly Ser Leu Met Arg Gly Val Gly Ile Ser
100 105 110
Arg Leu Thr Val Asn Ser Pro Ser Gly Arg Phe Glu Ile Thr Ala Ser
115 120 125
Arg Pro Ser Val Pro Arg Arg Ile Asn Gly
130 135
<210> 123
<211> 136
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 123
Gly Val Gly Gly Ala Ile Thr Ala Thr Val Gly Ser Thr Ala Gly Ala
1 5 10 15
Ala Gly Arg Ala Ala Ala Arg Ala Pro Ser Leu Pro Ala Tyr Ala Gly
20 25 30
Gly Lys Thr Ser Gly Val Leu Arg Thr Thr Ala Gly Asp Thr Ala Leu
35 40 45
Leu Ser Gly Tyr Lys Gly Pro Ser Ala Ser Met Pro Arg Gly Thr Pro
50 55 60
Gly Met Asn Gly Arg Ile Lys Ser His Val Ala Ala His Ala Ala Ala
65 70 75 80
Val Met Arg Glu Gln Gly Met Lys Glu Gly Thr Leu Tyr Ile Asn Arg
85 90 95
Val Pro Cys Ser Gly Ala Thr Gly Cys Asp Ala Met Leu Pro Arg Met
100 105 110
Leu Pro Pro Asp Ala His Leu Arg Val Val Gly Pro Asn Gly Tyr Asp
115 120 125
Gln Val Phe Val Gly Leu Pro Asp
130 135
<210> 124
<211> 150
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 124
Ile Gln Arg Phe Arg Arg Ile Leu Asn Met Pro Arg Tyr Ser Leu Thr
1 5 10 15
Asn Gly Arg Thr Gly Thr Val Ala Arg Val Glu Val Asn Gly Arg Arg
20 25 30
Ile Phe Gly Val Asn Thr Ser Leu Ile Lys Asn Ser Lys Tyr Ala Pro
35 40 45
Arg Asp Met Asp Leu Arg Arg Arg Trp Leu Arg Glu Val Asn Trp Val
50 55 60
Pro Pro Lys Lys Asn Lys Pro Asn His Leu Gly His Ala Gln Ser Leu
65 70 75 80
Ser His Ala Ala Ser His Ala Leu Ile Arg Ala Tyr Glu Arg Met Glu
85 90 95
Arg Leu Gly Gly Gln Leu Pro Lys Lys Leu Thr Met Val Val Asp Arg
100 105 110
Pro Thr Cys Asn Ile Cys Arg Gly Glu Met Pro Ala Leu Leu Lys Arg
115 120 125
Leu Gly Ile Glu Glu Leu Thr Ile Tyr Ser Gly Gly Arg Asp Ala Ile
130 135 140
Ile Ile Lys Ala Ile Lys
145 150
<210> 125
<211> 153
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 125
Gly Gly Ser Ala Val Val Gly Ala Gly Val Val Ala Thr Gly Ala Lys
1 5 10 15
Ala Val Thr Thr Gly Lys Ser Leu Ser Glu Ser Gln Ala Thr Leu Ser
20 25 30
Val Ala Gln Arg Leu Leu Ala Thr Ile Gly Glu Glu Gly Lys Thr Ala
35 40 45
Gly Val Leu Glu Leu Asp Gly Glu Leu Ile Pro Leu Val Ser Gly Lys
50 55 60
Ser Ser Leu Pro Asn Tyr Ala Ala Ser Gly His Val Ala Gly Gln Ala
65 70 75 80
Ala Leu Ile Met Arg Asp Arg Gly Ala Thr Ser Gly Arg Leu Leu Ile
85 90 95
Asp Asn Pro Ser Gly Ile Cys Gly Tyr Cys Lys Ser Gln Val Ala Thr
100 105 110
Leu Leu Pro Glu Asn Ala Thr Leu Gln Val Gly Thr Pro Leu Gly Thr
115 120 125
Val Thr Pro Ser Ser Arg Trp Ser Ala Ser Arg Thr Phe Thr Gly Asn
130 135 140
Asp Arg Asp Pro Lys Pro Trp Pro Arg
145 150
<210> 126
<211> 162
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 126
Ser Gln Phe Asp Asn Val Arg Lys Asp Met Gly Leu Pro Ala Arg Ile
1 5 10 15
Gly Asp Asp Asp Pro Tyr Thr Thr Ser Val Leu Arg Ile Asp Gly His
20 25 30
Glu Tyr Trp Gly Lys Asn Gly Lys Trp Val Thr Lys Gly Lys Thr Ser
35 40 45
Asn Tyr Thr Asp Lys Ala His Tyr Asp Lys Val Arg Lys Glu Leu Gly
50 55 60
Thr Ser Ala Glu Val Pro Gly His Ala Ala Gly Val Ala Phe Asn Lys
65 70 75 80
Ala Tyr Gln Val Arg Lys Asn Thr Gly Thr Lys Gly Gly Asn Ala Val
85 90 95
Leu Tyr Val Asp Lys Ile Pro Cys Val Met Cys Lys Pro Gly Ile Ala
100 105 110
Thr Leu Met Arg Ser Ala Lys Val Asp His Leu Asp Leu His Tyr Leu
115 120 125
Gln Asp Gly Lys Met His His Val Gln Tyr Val Arg Asn Pro Asp Thr
130 135 140
Asp Ala Val Tyr Asn Pro Phe Ser Gly Lys Trp Thr Lys Pro Ser Lys
145 150 155 160
Lys Lys
<210> 127
<211> 40
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 127
Thr Lys Ser Ala Asn Ser Gly Gly Ala Ala Lys Asp Leu Ala Lys Tyr
1 5 10 15
Arg Glu Arg Gln Gly Met Pro Arg Ala Gly Ser Ala Asp Asp Ala His
20 25 30
Thr Ala Ala Arg Leu Asp Val Gly
35 40
<210> 128
<211> 51
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 128
Thr Lys Ser Ala Asn Ser Gly Gly Ala Ala Lys Asp Leu Ala Lys Tyr
1 5 10 15
Arg Glu Arg Gln Gly Met Pro Arg Ala Gly Ser Ala Asp Asp Ala His
20 25 30
Thr Ala Ala Arg Leu Asp Val Gly Gly Arg Ser Phe Tyr Gly His Asn
35 40 45
Ala His Gly
50
<210> 129
<211> 80
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 129
Thr Lys Ser Ala Asn Ser Gly Gly Ala Ala Lys Asp Leu Ala Lys Tyr
1 5 10 15
Arg Glu Arg Gln Gly Met Pro Arg Ala Gly Ser Ala Asp Asp Ala His
20 25 30
Thr Ala Ala Arg Leu Asp Val Gly Gly Arg Ser Phe Tyr Gly His Asn
35 40 45
Ala His Gly Arg Asn Ile Asp Ile Lys Val Asn Ala Gln Thr Lys Thr
50 55 60
His Ala Glu Ala Asp Val Phe Gln Gln Ala Lys Asn Ala Lys Val Ser
65 70 75 80
<210> 130
<211> 99
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 130
Thr Lys Ser Ala Asn Ser Gly Gly Ala Ala Lys Asp Leu Ala Lys Tyr
1 5 10 15
Arg Glu Arg Gln Gly Met Pro Arg Ala Gly Ser Ala Asp Asp Ala His
20 25 30
Thr Ala Ala Arg Leu Asp Val Gly Gly Arg Ser Phe Tyr Gly His Asn
35 40 45
Ala His Gly Arg Asn Ile Asp Ile Lys Val Asn Ala Gln Thr Lys Thr
50 55 60
His Ala Glu Ala Asp Val Phe Gln Gln Ala Lys Asn Ala Lys Val Ser
65 70 75 80
Ala Asp Arg Ala Thr Leu His Val Asp Arg Asp Leu Cys Asp Ala Cys
85 90 95
Gly Ile Lys
<210> 131
<211> 110
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 131
Thr Lys Ser Ala Asn Ser Gly Gly Ala Ala Lys Asp Leu Ala Lys Tyr
1 5 10 15
Arg Glu Arg Gln Gly Met Pro Arg Ala Gly Ser Ala Asp Asp Ala His
20 25 30
Thr Ala Ala Arg Leu Asp Val Gly Gly Arg Ser Phe Tyr Gly His Asn
35 40 45
Ala His Gly Arg Asn Ile Asp Ile Lys Val Asn Ala Gln Thr Lys Thr
50 55 60
His Ala Glu Ala Asp Val Phe Gln Gln Ala Lys Asn Ala Lys Val Ser
65 70 75 80
Ala Asp Arg Ala Thr Leu His Val Asp Arg Asp Leu Cys Asp Ala Cys
85 90 95
Gly Ile Lys Gly Gly Val Gly Ser Leu Met Arg Gly Val Gly
100 105 110
<210> 132
<211> 98
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 132
Gly Arg Ser Phe Tyr Gly His Asn Ala His Gly Arg Asn Ile Asp Ile
1 5 10 15
Lys Val Asn Ala Gln Thr Lys Thr His Ala Glu Ala Asp Val Phe Gln
20 25 30
Gln Ala Lys Asn Ala Lys Val Ser Ala Asp Arg Ala Thr Leu His Val
35 40 45
Asp Arg Asp Leu Cys Asp Ala Cys Gly Ile Lys Gly Gly Val Gly Ser
50 55 60
Leu Met Arg Gly Val Gly Ile Ser Arg Leu Thr Val Asn Ser Pro Ser
65 70 75 80
Gly Arg Phe Glu Ile Thr Ala Ser Arg Pro Ser Val Pro Arg Arg Ile
85 90 95
Asn Gly
<210> 133
<211> 87
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 133
Arg Asn Ile Asp Ile Lys Val Asn Ala Gln Thr Lys Thr His Ala Glu
1 5 10 15
Ala Asp Val Phe Gln Gln Ala Lys Asn Ala Lys Val Ser Ala Asp Arg
20 25 30
Ala Thr Leu His Val Asp Arg Asp Leu Cys Asp Ala Cys Gly Ile Lys
35 40 45
Gly Gly Val Gly Ser Leu Met Arg Gly Val Gly Ile Ser Arg Leu Thr
50 55 60
Val Asn Ser Pro Ser Gly Arg Phe Glu Ile Thr Ala Ser Arg Pro Ser
65 70 75 80
Val Pro Arg Arg Ile Asn Gly
85
<210> 134
<211> 39
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 134
Gly Gly Val Gly Ser Leu Met Arg Gly Val Gly Ile Ser Arg Leu Thr
1 5 10 15
Val Asn Ser Pro Ser Gly Arg Phe Glu Ile Thr Ala Ser Arg Pro Ser
20 25 30
Val Pro Arg Arg Ile Asn Gly
35
<210> 135
<211> 28
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 135
Ile Ser Arg Leu Thr Val Asn Ser Pro Ser Gly Arg Phe Glu Ile Thr
1 5 10 15
Ala Ser Arg Pro Ser Val Pro Arg Arg Ile Asn Gly
20 25
<210> 136
<211> 31
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 136
Phe Ser Lys Ala Glu Ser Gly Tyr Ile Glu Ile Gln Arg Phe Arg Arg
1 5 10 15
Ile Leu Asn Met Pro Arg Tyr Ser Leu Thr Asn Gly Arg Thr Gly
20 25 30
<210> 137
<211> 40
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 137
Phe Ser Lys Ala Glu Ser Gly Tyr Ile Glu Ile Gln Arg Phe Arg Arg
1 5 10 15
Ile Leu Asn Met Pro Arg Tyr Ser Leu Thr Asn Gly Arg Thr Gly Thr
20 25 30
Val Ala Arg Val Glu Val Asn Gly
35 40
<210> 138
<211> 86
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 138
Phe Ser Lys Ala Glu Ser Gly Tyr Ile Glu Ile Ile Gln Arg Phe Arg
1 5 10 15
Arg Ile Leu Asn Met Pro Arg Tyr Ser Leu Thr Asn Gly Arg Thr Gly
20 25 30
Thr Val Ala Arg Val Glu Val Asn Gly Arg Arg Ile Phe Gly Val Asn
35 40 45
Thr Ser Leu Ile Lys Asn Ser Lys Tyr Ala Pro Arg Asp Met Asp Leu
50 55 60
Arg Arg Arg Trp Leu Arg Glu Val Asn Trp Val Pro Pro Lys Lys Asn
65 70 75 80
Lys Pro Asn His Leu Gly
85
<210> 139
<211> 111
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 139
Phe Ser Lys Ala Glu Ser Gly Tyr Ile Glu Ile Ile Gln Arg Phe Arg
1 5 10 15
Arg Ile Leu Asn Met Pro Arg Tyr Ser Leu Thr Asn Gly Arg Thr Gly
20 25 30
Thr Val Ala Arg Val Glu Val Asn Gly Arg Arg Ile Phe Gly Val Asn
35 40 45
Thr Ser Leu Ile Lys Asn Ser Lys Tyr Ala Pro Arg Asp Met Asp Leu
50 55 60
Arg Arg Arg Trp Leu Arg Glu Val Asn Trp Val Pro Pro Lys Lys Asn
65 70 75 80
Lys Pro Asn His Leu Gly His Ala Gln Ser Leu Ser His Ala Glu Ser
85 90 95
His Ala Leu Ile Arg Ala Tyr Glu Arg Met Glu Arg Leu Gly Gly
100 105 110
<210> 140
<211> 141
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 140
Phe Ser Lys Ala Glu Ser Gly Tyr Ile Glu Ile Ile Gln Arg Phe Arg
1 5 10 15
Arg Ile Leu Asn Met Pro Arg Tyr Ser Leu Thr Asn Gly Arg Thr Gly
20 25 30
Thr Val Ala Arg Val Glu Val Asn Gly Arg Arg Ile Phe Gly Val Asn
35 40 45
Thr Ser Leu Ile Lys Asn Ser Lys Tyr Ala Pro Arg Asp Met Asp Leu
50 55 60
Arg Arg Arg Trp Leu Arg Glu Val Asn Trp Val Pro Pro Lys Lys Asn
65 70 75 80
Lys Pro Asn His Leu Gly His Ala Gln Ser Leu Ser His Ala Glu Ser
85 90 95
His Ala Leu Ile Arg Ala Tyr Glu Arg Met Glu Arg Leu Gly Gly Gln
100 105 110
Leu Pro Lys Lys Leu Thr Met Val Val Asp Arg Pro Thr Cys Asn Ile
115 120 125
Cys Arg Gly Glu Met Pro Ala Leu Leu Lys Arg Leu Gly
130 135 140
<210> 141
<211> 129
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 141
Thr Val Ala Arg Val Glu Val Asn Gly Arg Arg Ile Phe Gly Val Asn
1 5 10 15
Thr Ser Leu Ile Lys Asn Ser Lys Tyr Ala Pro Arg Asp Met Asp Leu
20 25 30
Arg Arg Arg Trp Leu Arg Glu Val Asn Trp Val Pro Pro Lys Lys Asn
35 40 45
Lys Pro Asn His Leu Gly His Ala Gln Ser Leu Ser His Ala Glu Ser
50 55 60
His Ala Leu Ile Arg Ala Tyr Glu Arg Met Glu Arg Leu Gly Gly Gln
65 70 75 80
Leu Pro Lys Lys Leu Thr Met Val Val Asp Arg Pro Thr Cys Asn Ile
85 90 95
Cys Arg Gly Glu Met Pro Ala Leu Leu Lys Arg Leu Gly Ile Glu Glu
100 105 110
Leu Thr Ile Tyr Ser Gly Gly Arg Asp Ala Ile Ile Ile Lys Ala Ile
115 120 125
Lys
<210> 142
<211> 120
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 142
Arg Arg Ile Phe Gly Val Asn Thr Ser Leu Ile Lys Asn Ser Lys Tyr
1 5 10 15
Ala Pro Arg Asp Met Asp Leu Arg Arg Arg Trp Leu Arg Glu Val Asn
20 25 30
Trp Val Pro Pro Lys Lys Asn Lys Pro Asn His Leu Gly His Ala Gln
35 40 45
Ser Leu Ser His Ala Glu Ser His Ala Leu Ile Arg Ala Tyr Glu Arg
50 55 60
Met Glu Arg Leu Gly Gly Gln Leu Pro Lys Lys Leu Thr Met Val Val
65 70 75 80
Asp Arg Pro Thr Cys Asn Ile Cys Arg Gly Glu Met Pro Ala Leu Leu
85 90 95
Lys Arg Leu Gly Ile Glu Glu Leu Thr Ile Tyr Ser Gly Gly Arg Asp
100 105 110
Ala Ile Ile Ile Lys Ala Ile Lys
115 120
<210> 143
<211> 75
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 143
His Ala Gln Ser Leu Ser His Ala Glu Ser His Ala Leu Ile Arg Ala
1 5 10 15
Tyr Glu Arg Met Glu Arg Leu Gly Gly Gln Leu Pro Lys Lys Leu Thr
20 25 30
Met Val Val Asp Arg Pro Thr Cys Asn Ile Cys Arg Gly Glu Met Pro
35 40 45
Ala Leu Leu Lys Arg Leu Gly Ile Glu Glu Leu Thr Ile Tyr Ser Gly
50 55 60
Gly Arg Asp Ala Ile Ile Ile Lys Ala Ile Lys
65 70 75
<210> 144
<211> 50
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 144
Gln Leu Pro Lys Lys Leu Thr Met Val Val Asp Arg Pro Thr Cys Asn
1 5 10 15
Ile Cys Arg Gly Glu Met Pro Ala Leu Leu Lys Arg Leu Gly Ile Glu
20 25 30
Glu Leu Thr Ile Tyr Ser Gly Gly Arg Asp Ala Ile Ile Ile Lys Ala
35 40 45
Ile Lys
50
<210> 145
<211> 20
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 145
Ile Glu Glu Leu Thr Ile Tyr Ser Gly Gly Arg Asp Ala Ile Ile Ile
1 5 10 15
Lys Ala Ile Lys
20
<210> 146
<211> 33
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 146
Gly Val Gly Gly Ala Ile Thr Ala Thr Val Gly Ser Thr Ala Gly Ala
1 5 10 15
Ala Gly Arg Ala Ala Ala Arg Ala Pro Ser Leu Pro Ala Tyr Ala Gly
20 25 30
Gly
<210> 147
<211> 51
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 147
Gly Val Gly Gly Ala Ile Thr Ala Thr Val Gly Ser Thr Ala Gly Ala
1 5 10 15
Ala Gly Arg Ala Ala Ala Arg Ala Pro Ser Leu Pro Ala Tyr Ala Gly
20 25 30
Gly Lys Thr Ser Gly Val Leu Arg Thr Thr Ala Gly Asp Thr Ala Leu
35 40 45
Leu Ser Gly
50
<210> 148
<211> 71
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 148
Gly Val Gly Gly Ala Ile Thr Ala Thr Val Gly Ser Thr Ala Gly Ala
1 5 10 15
Ala Gly Arg Ala Ala Ala Arg Ala Pro Ser Leu Pro Ala Tyr Ala Gly
20 25 30
Gly Lys Thr Ser Gly Val Leu Arg Thr Thr Ala Gly Asp Thr Ala Leu
35 40 45
Leu Ser Gly Tyr Lys Gly Pro Ser Ala Ser Met Pro Arg Gly Thr Pro
50 55 60
Gly Met Asn Gly Arg Ile Lys
65 70
<210> 149
<211> 101
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 149
Gly Val Gly Gly Ala Ile Thr Ala Thr Val Gly Ser Thr Ala Gly Ala
1 5 10 15
Ala Gly Arg Ala Ala Ala Arg Ala Pro Ser Leu Pro Ala Tyr Ala Gly
20 25 30
Gly Lys Thr Ser Gly Val Leu Arg Thr Thr Ala Gly Asp Thr Ala Leu
35 40 45
Leu Ser Gly Tyr Lys Gly Pro Ser Ala Ser Met Pro Arg Gly Thr Pro
50 55 60
Gly Met Asn Gly Arg Ile Lys Ser His Val Glu Ala His Ala Ala Ala
65 70 75 80
Val Met Arg Glu Gln Gly Met Lys Glu Gly Thr Leu Tyr Ile Asn Arg
85 90 95
Val Pro Cys Ser Gly
100
<210> 150
<211> 58
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 150
Ala Asp Arg Ala Thr Leu His Val Asp Arg Asp Leu Cys Asp Ala Cys
1 5 10 15
Gly Ile Lys Gly Gly Val Gly Ser Leu Met Arg Gly Val Gly Ile Ser
20 25 30
Arg Leu Thr Val Asn Ser Pro Ser Gly Arg Phe Glu Ile Thr Ala Ser
35 40 45
Arg Pro Ser Val Pro Arg Arg Ile Asn Gly
50 55
<210> 151
<211> 101
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 151
Lys Thr Ser Gly Val Leu Arg Thr Thr Ala Gly Asp Thr Ala Leu Leu
1 5 10 15
Ser Gly Tyr Lys Gly Pro Ser Ala Ser Met Pro Arg Gly Thr Pro Gly
20 25 30
Met Asn Gly Arg Ile Lys Ser His Val Glu Ala His Ala Ala Ala Val
35 40 45
Met Arg Glu Gln Gly Met Lys Glu Gly Thr Leu Tyr Ile Asn Arg Val
50 55 60
Pro Cys Ser Gly Ala Thr Gly Cys Asp Ala Met Leu Pro Arg Met Leu
65 70 75 80
Pro Pro Asp Ala His Leu Arg Val Val Gly Pro Asn Gly Tyr Asp Gln
85 90 95
Val Phe Val Gly Leu
100
<210> 152
<211> 83
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 152
Tyr Lys Gly Pro Ser Ala Ser Met Pro Arg Gly Thr Pro Gly Met Asn
1 5 10 15
Gly Arg Ile Lys Ser His Val Glu Ala His Ala Ala Ala Val Met Arg
20 25 30
Glu Gln Gly Met Lys Glu Gly Thr Leu Tyr Ile Asn Arg Val Pro Cys
35 40 45
Ser Gly Ala Thr Gly Cys Asp Ala Met Leu Pro Arg Met Leu Pro Pro
50 55 60
Asp Ala His Leu Arg Val Val Gly Pro Asn Gly Tyr Asp Gln Val Phe
65 70 75 80
Val Gly Leu
<210> 153
<211> 63
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 153
Ser His Val Glu Ala His Ala Ala Ala Val Met Arg Glu Gln Gly Met
1 5 10 15
Lys Glu Gly Thr Leu Tyr Ile Asn Arg Val Pro Cys Ser Gly Ala Thr
20 25 30
Gly Cys Asp Ala Met Leu Pro Arg Met Leu Pro Pro Asp Ala His Leu
35 40 45
Arg Val Val Gly Pro Asn Gly Tyr Asp Gln Val Phe Val Gly Leu
50 55 60
<210> 154
<211> 33
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 154
Ala Thr Gly Cys Asp Ala Met Leu Pro Arg Met Leu Pro Pro Asp Ala
1 5 10 15
His Leu Arg Val Val Gly Pro Asn Gly Tyr Asp Gln Val Phe Val Gly
20 25 30
Leu
<210> 155
<211> 8
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 155
Tyr Asp Gln Val Phe Val Gly Leu
1 5
<210> 156
<211> 141
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 156
Met Pro Arg Tyr Ser Leu Thr Asn Gly Arg Thr Gly Thr Val Ala Arg
1 5 10 15
Val Glu Val Asn Gly Arg Arg Ile Phe Gly Val Asn Thr Ser Leu Ile
20 25 30
Lys Asn Ser Lys Tyr Ala Pro Arg Asp Met Asp Leu Arg Arg Arg Trp
35 40 45
Leu Arg Glu Val Asn Trp Val Pro Pro Lys Lys Asn Lys Pro Asn His
50 55 60
Leu Gly His Ala Gln Ser Leu Ser His Ala Glu Ser His Ala Leu Ile
65 70 75 80
Arg Ala Tyr Glu Arg Met Glu Arg Leu Gly Gly Gln Leu Pro Lys Lys
85 90 95
Leu Thr Met Val Val Asp Arg Pro Thr Cys Asn Ile Cys Arg Gly Glu
100 105 110
Met Pro Ala Leu Leu Lys Arg Leu Gly Ile Glu Glu Leu Thr Ile Tyr
115 120 125
Ser Gly Gly Arg Asp Ala Ile Ile Ile Lys Ala Ile Lys
130 135 140
<210> 157
<211> 135
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 157
Thr Asn Gly Arg Thr Gly Thr Val Ala Arg Val Glu Val Asn Gly Arg
1 5 10 15
Arg Ile Phe Gly Val Asn Thr Ser Leu Ile Lys Asn Ser Lys Tyr Ala
20 25 30
Pro Arg Asp Met Asp Leu Arg Arg Arg Trp Leu Arg Glu Val Asn Trp
35 40 45
Val Pro Pro Lys Lys Asn Lys Pro Asn His Leu Gly His Ala Gln Ser
50 55 60
Leu Ser His Ala Glu Ser His Ala Leu Ile Arg Ala Tyr Glu Arg Met
65 70 75 80
Glu Arg Leu Gly Gly Gln Leu Pro Lys Lys Leu Thr Met Val Val Asp
85 90 95
Arg Pro Thr Cys Asn Ile Cys Arg Gly Glu Met Pro Ala Leu Leu Lys
100 105 110
Arg Leu Gly Ile Glu Glu Leu Thr Ile Tyr Ser Gly Gly Arg Asp Ala
115 120 125
Ile Ile Ile Lys Ala Ile Lys
130 135
<210> 158
<211> 130
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 158
Gly Thr Val Ala Arg Val Glu Val Asn Gly Arg Arg Ile Phe Gly Val
1 5 10 15
Asn Thr Ser Leu Ile Lys Asn Ser Lys Tyr Ala Pro Arg Asp Met Asp
20 25 30
Leu Arg Arg Arg Trp Leu Arg Glu Val Asn Trp Val Pro Pro Lys Lys
35 40 45
Asn Lys Pro Asn His Leu Gly His Ala Gln Ser Leu Ser His Ala Glu
50 55 60
Ser His Ala Leu Ile Arg Ala Tyr Glu Arg Met Glu Arg Leu Gly Gly
65 70 75 80
Gln Leu Pro Lys Lys Leu Thr Met Val Val Asp Arg Pro Thr Cys Asn
85 90 95
Ile Cys Arg Gly Glu Met Pro Ala Leu Leu Lys Arg Leu Gly Ile Glu
100 105 110
Glu Leu Thr Ile Tyr Ser Gly Gly Arg Asp Ala Ile Ile Ile Lys Ala
115 120 125
Ile Lys
130
<210> 159
<211> 125
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 159
Val Glu Val Asn Gly Arg Arg Ile Phe Gly Val Asn Thr Ser Leu Ile
1 5 10 15
Lys Asn Ser Lys Tyr Ala Pro Arg Asp Met Asp Leu Arg Arg Arg Trp
20 25 30
Leu Arg Glu Val Asn Trp Val Pro Pro Lys Lys Asn Lys Pro Asn His
35 40 45
Leu Gly His Ala Gln Ser Leu Ser His Ala Glu Ser His Ala Leu Ile
50 55 60
Arg Ala Tyr Glu Arg Met Glu Arg Leu Gly Gly Gln Leu Pro Lys Lys
65 70 75 80
Leu Thr Met Val Val Asp Arg Pro Thr Cys Asn Ile Cys Arg Gly Glu
85 90 95
Met Pro Ala Leu Leu Lys Arg Leu Gly Ile Glu Glu Leu Thr Ile Tyr
100 105 110
Ser Gly Gly Arg Asp Ala Ile Ile Ile Lys Ala Ile Lys
115 120 125
<210> 160
<211> 120
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 160
Arg Arg Ile Phe Gly Val Asn Thr Ser Leu Ile Lys Asn Ser Lys Tyr
1 5 10 15
Ala Pro Arg Asp Met Asp Leu Arg Arg Arg Trp Leu Arg Glu Val Asn
20 25 30
Trp Val Pro Pro Lys Lys Asn Lys Pro Asn His Leu Gly His Ala Gln
35 40 45
Ser Leu Ser His Ala Glu Ser His Ala Leu Ile Arg Ala Tyr Glu Arg
50 55 60
Met Glu Arg Leu Gly Gly Gln Leu Pro Lys Lys Leu Thr Met Val Val
65 70 75 80
Asp Arg Pro Thr Cys Asn Ile Cys Arg Gly Glu Met Pro Ala Leu Leu
85 90 95
Lys Arg Leu Gly Ile Glu Glu Leu Thr Ile Tyr Ser Gly Gly Arg Asp
100 105 110
Ala Ile Ile Ile Lys Ala Ile Lys
115 120
<210> 161
<211> 115
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 161
Val Asn Thr Ser Leu Ile Lys Asn Ser Lys Tyr Ala Pro Arg Asp Met
1 5 10 15
Asp Leu Arg Arg Arg Trp Leu Arg Glu Val Asn Trp Val Pro Pro Lys
20 25 30
Lys Asn Lys Pro Asn His Leu Gly His Ala Gln Ser Leu Ser His Ala
35 40 45
Glu Ser His Ala Leu Ile Arg Ala Tyr Glu Arg Met Glu Arg Leu Gly
50 55 60
Gly Gln Leu Pro Lys Lys Leu Thr Met Val Val Asp Arg Pro Thr Cys
65 70 75 80
Asn Ile Cys Arg Gly Glu Met Pro Ala Leu Leu Lys Arg Leu Gly Ile
85 90 95
Glu Glu Leu Thr Ile Tyr Ser Gly Gly Arg Asp Ala Ile Ile Ile Lys
100 105 110
Ala Ile Lys
115
<210> 162
<211> 110
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 162
Ile Lys Asn Ser Lys Tyr Ala Pro Arg Asp Met Asp Leu Arg Arg Arg
1 5 10 15
Trp Leu Arg Glu Val Asn Trp Val Pro Pro Lys Lys Asn Lys Pro Asn
20 25 30
His Leu Gly His Ala Gln Ser Leu Ser His Ala Glu Ser His Ala Leu
35 40 45
Ile Arg Ala Tyr Glu Arg Met Glu Arg Leu Gly Gly Gln Leu Pro Lys
50 55 60
Lys Leu Thr Met Val Val Asp Arg Pro Thr Cys Asn Ile Cys Arg Gly
65 70 75 80
Glu Met Pro Ala Leu Leu Lys Arg Leu Gly Ile Glu Glu Leu Thr Ile
85 90 95
Tyr Ser Gly Gly Arg Asp Ala Ile Ile Ile Lys Ala Ile Lys
100 105 110
<210> 163
<211> 105
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 163
Tyr Ala Pro Arg Asp Met Asp Leu Arg Arg Arg Trp Leu Arg Glu Val
1 5 10 15
Asn Trp Val Pro Pro Lys Lys Asn Lys Pro Asn His Leu Gly His Ala
20 25 30
Gln Ser Leu Ser His Ala Glu Ser His Ala Leu Ile Arg Ala Tyr Glu
35 40 45
Arg Met Glu Arg Leu Gly Gly Gln Leu Pro Lys Lys Leu Thr Met Val
50 55 60
Val Asp Arg Pro Thr Cys Asn Ile Cys Arg Gly Glu Met Pro Ala Leu
65 70 75 80
Leu Lys Arg Leu Gly Ile Glu Glu Leu Thr Ile Tyr Ser Gly Gly Arg
85 90 95
Asp Ala Ile Ile Ile Lys Ala Ile Lys
100 105
<210> 164
<211> 100
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 164
Met Asp Leu Arg Arg Arg Trp Leu Arg Glu Val Asn Trp Val Pro Pro
1 5 10 15
Lys Lys Asn Lys Pro Asn His Leu Gly His Ala Gln Ser Leu Ser His
20 25 30
Ala Glu Ser His Ala Leu Ile Arg Ala Tyr Glu Arg Met Glu Arg Leu
35 40 45
Gly Gly Gln Leu Pro Lys Lys Leu Thr Met Val Val Asp Arg Pro Thr
50 55 60
Cys Asn Ile Cys Arg Gly Glu Met Pro Ala Leu Leu Lys Arg Leu Gly
65 70 75 80
Ile Glu Glu Leu Thr Ile Tyr Ser Gly Gly Arg Asp Ala Ile Ile Ile
85 90 95
Lys Ala Ile Lys
100
<210> 165
<211> 90
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 165
Val Asn Trp Val Pro Pro Lys Lys Asn Lys Pro Asn His Leu Gly His
1 5 10 15
Ala Gln Ser Leu Ser His Ala Glu Ser His Ala Leu Ile Arg Ala Tyr
20 25 30
Glu Arg Met Glu Arg Leu Gly Gly Gln Leu Pro Lys Lys Leu Thr Met
35 40 45
Val Val Asp Arg Pro Thr Cys Asn Ile Cys Arg Gly Glu Met Pro Ala
50 55 60
Leu Leu Lys Arg Leu Gly Ile Glu Glu Leu Thr Ile Tyr Ser Gly Gly
65 70 75 80
Arg Asp Ala Ile Ile Ile Lys Ala Ile Lys
85 90
<210> 166
<211> 85
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 166
Pro Lys Lys Asn Lys Pro Asn His Leu Gly His Ala Gln Ser Leu Ser
1 5 10 15
His Ala Glu Ser His Ala Leu Ile Arg Ala Tyr Glu Arg Met Glu Arg
20 25 30
Leu Gly Gly Gln Leu Pro Lys Lys Leu Thr Met Val Val Asp Arg Pro
35 40 45
Thr Cys Asn Ile Cys Arg Gly Glu Met Pro Ala Leu Leu Lys Arg Leu
50 55 60
Gly Ile Glu Glu Leu Thr Ile Tyr Ser Gly Gly Arg Asp Ala Ile Ile
65 70 75 80
Ile Lys Ala Ile Lys
85
<210> 167
<211> 65
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 167
His Ala Leu Ile Arg Ala Tyr Glu Arg Met Glu Arg Leu Gly Gly Gln
1 5 10 15
Leu Pro Lys Lys Leu Thr Met Val Val Asp Arg Pro Thr Cys Asn Ile
20 25 30
Cys Arg Gly Glu Met Pro Ala Leu Leu Lys Arg Leu Gly Ile Glu Glu
35 40 45
Leu Thr Ile Tyr Ser Gly Gly Arg Asp Ala Ile Ile Ile Lys Ala Ile
50 55 60
Lys
65
<210> 168
<211> 33
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 168
Gly Ser Tyr Thr Leu Gly Ser Tyr Gln Ile Ser Ala Pro Gln Leu Pro
1 5 10 15
Ala Tyr Asn Gly Gln Thr Val Gly Thr Phe Tyr Tyr Val Asn Gly Ala
20 25 30
Gly
<210> 169
<211> 43
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 169
Gly Ser Tyr Thr Leu Gly Ser Tyr Gln Ile Ser Ala Pro Gln Leu Pro
1 5 10 15
Ala Tyr Asn Gly Gln Thr Val Gly Thr Phe Tyr Tyr Val Asn Gly Ala
20 25 30
Gly Gly Leu Glu Ser Arg Thr Phe Ser Ser Gly
35 40
<210> 170
<211> 69
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 170
Gly Ser Tyr Thr Leu Gly Ser Tyr Gln Ile Ser Ala Pro Gln Leu Pro
1 5 10 15
Ala Tyr Asn Gly Gln Thr Val Gly Thr Phe Tyr Tyr Val Asn Gly Ala
20 25 30
Gly Gly Leu Glu Ser Arg Thr Phe Ser Ser Gly Gly Pro Thr Pro Tyr
35 40 45
Pro Asn Tyr Ala Asn Ala Gly His Val Glu Gly Gln Ser Ala Leu Phe
50 55 60
Met Arg Asp Asn Gly
65
<210> 171
<211> 108
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 171
Gly Ser Tyr Thr Leu Gly Ser Tyr Gln Ile Ser Ala Pro Gln Leu Pro
1 5 10 15
Ala Tyr Asn Gly Gln Thr Val Gly Thr Phe Tyr Tyr Val Asn Gly Ala
20 25 30
Gly Gly Leu Glu Ser Arg Thr Phe Ser Ser Gly Gly Pro Thr Pro Tyr
35 40 45
Pro Asn Tyr Ala Asn Ala Gly His Val Glu Gly Gln Ser Ala Leu Phe
50 55 60
Met Arg Asp Asn Gly Ile Ser Asp Gly Leu Val Phe His Asn Asn Pro
65 70 75 80
Glu Gly Thr Cys Gly Phe Cys Val Asn Met Thr Glu Thr Leu Leu Pro
85 90 95
Glu Asn Ser Lys Leu Thr Val Val Pro Pro Glu Gly
100 105
<210> 172
<211> 105
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 172
Gly Leu Glu Ser Arg Thr Phe Ser Ser Gly Gly Pro Thr Pro Tyr Pro
1 5 10 15
Asn Tyr Ala Asn Ala Gly His Val Glu Gly Gln Ser Ala Leu Phe Met
20 25 30
Arg Asp Asn Gly Ile Ser Asp Gly Leu Val Phe His Asn Asn Pro Glu
35 40 45
Gly Thr Cys Gly Phe Cys Val Asn Met Thr Glu Thr Leu Leu Pro Glu
50 55 60
Asn Ser Lys Leu Thr Val Val Pro Pro Glu Gly Ala Ile Pro Val Lys
65 70 75 80
Arg Gly Ala Thr Gly Glu Thr Arg Thr Phe Thr Gly Asn Ser Lys Ser
85 90 95
Pro Lys Ser Pro Val Lys Gly Glu Cys
100 105
<210> 173
<211> 95
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 173
Gly Pro Thr Pro Tyr Pro Asn Tyr Ala Asn Ala Gly His Val Glu Gly
1 5 10 15
Gln Ser Ala Leu Phe Met Arg Asp Asn Gly Ile Ser Asp Gly Leu Val
20 25 30
Phe His Asn Asn Pro Glu Gly Thr Cys Gly Phe Cys Val Asn Met Thr
35 40 45
Glu Thr Leu Leu Pro Glu Asn Ser Lys Leu Thr Val Val Pro Pro Glu
50 55 60
Gly Ala Ile Pro Val Lys Arg Gly Ala Thr Gly Glu Thr Arg Thr Phe
65 70 75 80
Thr Gly Asn Ser Lys Ser Pro Lys Ser Pro Val Lys Gly Glu Cys
85 90 95
<210> 174
<211> 72
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 174
Asp Asn Gly Ile Ser Asp Gly Leu Val Phe His Asn Asn Pro Glu Gly
1 5 10 15
Thr Cys Gly Phe Cys Val Asn Met Thr Glu Thr Leu Leu Pro Glu Asn
20 25 30
Ser Lys Leu Thr Val Val Pro Pro Glu Gly Ala Ile Pro Val Lys Arg
35 40 45
Gly Ala Thr Gly Glu Thr Arg Thr Phe Thr Gly Asn Ser Lys Ser Pro
50 55 60
Lys Ser Pro Val Lys Gly Glu Cys
65 70
<210> 175
<211> 30
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 175
Ala Ile Pro Val Lys Arg Gly Ala Thr Gly Glu Thr Arg Thr Phe Thr
1 5 10 15
Gly Asn Ser Lys Ser Pro Lys Ser Pro Val Lys Gly Glu Cys
20 25 30
<210> 176
<211> 62
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 176
Gly Gly Ser Ala Val Val Gly Ala Gly Val Val Ala Thr Gly Ala Lys
1 5 10 15
Ala Val Thr Thr Gly Lys Ser Leu Ser Glu Ser Gln Ala Thr Leu Ser
20 25 30
Val Ala Gln Arg Leu Leu Ala Thr Ile Gly Glu Glu Gly Lys Thr Ala
35 40 45
Gly Val Leu Glu Leu Asp Gly Glu Leu Ile Pro Leu Val Ser
50 55 60
<210> 177
<211> 127
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 177
Gly Gly Ser Ala Val Val Gly Ala Gly Val Val Ala Thr Gly Ala Lys
1 5 10 15
Ala Val Thr Thr Gly Lys Ser Leu Ser Glu Ser Gln Ala Thr Leu Ser
20 25 30
Val Ala Gln Arg Leu Leu Ala Thr Ile Gly Glu Glu Gly Lys Thr Ala
35 40 45
Gly Val Leu Glu Leu Asp Gly Glu Leu Ile Pro Leu Val Ser Gly Lys
50 55 60
Ser Ser Leu Pro Asn Tyr Ala Ala Ser Gly His Val Glu Gly Gln Ala
65 70 75 80
Ala Leu Ile Met Arg Asp Arg Gly Ala Thr Ser Gly Arg Leu Leu Ile
85 90 95
Asp Asn Pro Ser Gly Ile Cys Gly Tyr Cys Lys Ser Gln Val Ala Thr
100 105 110
Leu Leu Pro Glu Asn Ala Thr Leu Gln Val Gly Thr Pro Leu Gly
115 120 125
<210> 178
<211> 91
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 178
Gly Lys Ser Ser Leu Pro Asn Tyr Ala Ala Ser Gly His Val Glu Gly
1 5 10 15
Gln Ala Ala Leu Ile Met Arg Asp Arg Gly Ala Thr Ser Gly Arg Leu
20 25 30
Leu Ile Asp Asn Pro Ser Gly Ile Cys Gly Tyr Cys Lys Ser Gln Val
35 40 45
Ala Thr Leu Leu Pro Glu Asn Ala Thr Leu Gln Val Gly Thr Pro Leu
50 55 60
Gly Thr Val Thr Pro Ser Ser Arg Trp Ser Ala Ser Arg Thr Phe Thr
65 70 75 80
Gly Asn Asp Arg Asp Pro Lys Pro Trp Pro Arg
85 90
<210> 179
<211> 26
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 179
Thr Val Thr Pro Ser Ser Arg Trp Ser Ala Ser Arg Thr Phe Thr Gly
1 5 10 15
Asn Asp Arg Asp Pro Lys Pro Trp Pro Arg
20 25
<210> 180
<211> 108
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 180
His Tyr Asp Lys Val Arg Lys Glu Leu Gly Thr Ser Ala Glu Val Pro
1 5 10 15
Gly His Ala Glu Gly Val Ala Phe Asn Lys Ala Tyr Gln Val Arg Lys
20 25 30
Asn Thr Gly Thr Lys Gly Gly Asn Ala Val Leu Tyr Val Asp Lys Ile
35 40 45
Pro Cys Val Met Cys Lys Pro Gly Ile Ala Thr Leu Met Arg Ser Ala
50 55 60
Lys Val Asp His Leu Asp Leu His Tyr Leu Gln Asp Gly Lys Met His
65 70 75 80
His Val Gln Tyr Val Arg Asn Pro Asp Thr Asp Ala Val Tyr Asn Pro
85 90 95
Phe Ser Gly Lys Trp Thr Lys Pro Ser Lys Lys Lys
100 105
<210> 181
<211> 123
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 181
Lys Trp Val Thr Lys Gly Lys Thr Ser Asn Tyr Thr Asp Lys Ala His
1 5 10 15
Tyr Asp Lys Val Arg Lys Glu Leu Gly Thr Ser Ala Glu Val Pro Gly
20 25 30
His Ala Glu Gly Val Ala Phe Asn Lys Ala Tyr Gln Val Arg Lys Asn
35 40 45
Thr Gly Thr Lys Gly Gly Asn Ala Val Leu Tyr Val Asp Lys Ile Pro
50 55 60
Cys Val Met Cys Lys Pro Gly Ile Ala Thr Leu Met Arg Ser Ala Lys
65 70 75 80
Val Asp His Leu Asp Leu His Tyr Leu Gln Asp Gly Lys Met His His
85 90 95
Val Gln Tyr Val Arg Asn Pro Asp Thr Asp Ala Val Tyr Asn Pro Phe
100 105 110
Ser Gly Lys Trp Thr Lys Pro Ser Lys Lys Lys
115 120
<210> 182
<211> 29
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 182
Leu Cys Arg Ala Ala Cys Ser Thr Gly Arg Arg Leu Gly Pro Val Ala
1 5 10 15
Gly Ala Ala Gly Ser Arg His Lys His Ser Leu Pro Asp
20 25
<210> 183
<211> 28
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 183
Ser Val Leu Thr Pro Leu Leu Leu Arg Ser Leu Thr Gly Ser Ala Arg
1 5 10 15
Arg Leu Met Val Pro Arg Ala Gln Val His Ser Lys
20 25
<210> 184
<211> 38
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 184
Gly Gly Gly Ser Gly Gly Ser Gly Glu Ile Ala Ala Leu Glu Ala Lys
1 5 10 15
Asn Ala Ala Leu Lys Ala Glu Ile Ala Ala Leu Glu Ala Lys Ile Ala
20 25 30
Ala Leu Lys Ala Gly Tyr
35
<210> 185
<211> 37
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 185
Gly Gly Ser Gly Gly Ser Tyr Lys Ile Ala Ala Leu Lys Ala Glu Asn
1 5 10 15
Ala Ala Leu Glu Ala Lys Ile Ala Ala Leu Lys Ala Glu Ile Ala Ala
20 25 30
Leu Glu Ala Gly Cys
35
<210> 186
<211> 182
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 186
Lys Ser Gly Ile Tyr Gln Ile Lys Asn Thr Leu Asn Asn Lys Val Tyr
1 5 10 15
Val Gly Ser Ala Lys Asp Phe Glu Lys Arg Trp Lys Arg His Phe Lys
20 25 30
Asp Leu Glu Lys Gly Cys His Ser Ser Ile Lys Leu Gln Arg Ser Phe
35 40 45
Asn Lys His Gly Asn Val Phe Glu Cys Ser Ile Leu Glu Glu Ile Pro
50 55 60
Tyr Glu Lys Asp Leu Ile Ile Glu Arg Glu Asn Phe Trp Ile Lys Glu
65 70 75 80
Leu Asn Ser Lys Ile Asn Gly Tyr Asn Ile Ala Asp Ala Thr Phe Gly
85 90 95
Asp Thr Cys Ser Thr His Pro Leu Lys Glu Glu Ile Ile Lys Lys Arg
100 105 110
Ser Glu Thr Val Lys Ala Lys Met Leu Lys Leu Gly Pro Asp Gly Arg
115 120 125
Lys Ala Leu Tyr Ser Lys Pro Gly Ser Lys Asn Gly Arg Trp Asn Pro
130 135 140
Glu Thr His Lys Phe Cys Lys Cys Gly Val Arg Ile Gln Thr Ser Ala
145 150 155 160
Tyr Thr Cys Ser Lys Cys Arg Asn Arg Ser Gly Glu Asn Asn Ser Phe
165 170 175
Phe Asn His Lys His Ser
180
<210> 187
<211> 19
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 187
Ala Thr Asn Phe Ser Leu Leu Lys Gln Ala Gly Asp Val Glu Glu Asn
1 5 10 15
Pro Gly Pro
<210> 188
<211> 462
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 188
gagggcccgg aaacctggcc ctgtcttctt gacgagcatt cctaggggtc tttcccctct 60
cgccaaagga atgcaaggtc tgttgaatgt cgtgaaggaa gcagttcctc tggaagcttc 120
ttgaagacaa acaacgtctg tagcgaccct ttgcaggcag cggaaccccc cacctggcga 180
caggtgcctc tgcggccaaa agccacgtgt ataagataca cctgcaaagg cggcacaacc 240
ccagtgccac gttgtgagtt ggatagttgt ggaaagagtc aaatggctca cctcaagcgt 300
attcaacaag gggctgaagg atgcccagaa ggtaccccat tgtatgggat ctgatctggg 360
gcctcggtgc acatgcttta catgtgttta gtcgaggtta aaaaacgtct aggccccccg 420
aaccacgggg acgtggtttt cctttgaaaa acacgatgat aa 462
<210> 189
<211> 816
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 189
cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60
gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120
atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180
aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240
catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300
catggtcgag gtgagcccca cgttctgctt cactctcccc atctcccccc cctccccacc 360
cccaattttg tatttattta ttttttaatt attttgtgca gcgatggggg cggggggggg 420
gggggggcgc gcgccaggcg gggcggggcg gggcgagggg cggggcgggg cgaggcggag 480
aggtgcggcg gcagccaatc agagcggcgc gctccgaaag tttcctttta tggcgaggcg 540
gcggcggcgg cggccctata aaaagcgaag cgcgcggcgg gcgggagtcg ctgcgcgctg 600
ccttcgcccc gtgccccgct ccgccgccgc ctcgcgccgc ccgccccggc tctgactgac 660
cgcgttactc ccacaggtga gcgggcggga cggcccttct cctccgggct gtaattagct 720
gagcaagagg taagggttta agggatggtt ggttggtggg gtattaatgt ttaattacct 780
ggagcacctg cctgaaatca ctttttttca ggttgg 816
<210> 190
<211> 225
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 190
ctgtgccttc tagttgccag ccatctgttg tttgcccctc ccccgtgcct tccttgaccc 60
tggaaggtgc cactcccact gtcctttcct aataaaatga ggaaattgca tcgcattgtc 120
tgagtaggtg tcattctatt ctggggggtg gggtggggca ggacagcaag ggggaggatt 180
gggaagacaa tagcaggcat gctggggatg cggtgggctc tatgg 225
<210> 191
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 191
acacacacac acacac 16
<210> 192
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 192
acgtgtacac gtacgt 16
<210> 193
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 193
gcgcgcgcgc gcgcgcg 17
<210> 194
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 194
ccggccggcc ggccgg 16
<210> 195
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 195
tcgagatctc gatcga 16
<210> 196
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 196
tctctctctc tctctc 16
<210> 197
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 197
cccccccccc cccccc 16
<210> 198
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 198
cccccccttt tttccc 16
<210> 199
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 199
cccccctttt tttccc 16
<210> 200
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 200
acgtacgtac gtacgt 16
<210> 201
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 201
ccggccggcc ggccgg 16
<210> 202
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 202
gcgcgcgcgc gcgcgc 16
<210> 203
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 203
ctctctctct ctctct 16
<210> 204
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 204
tcgatcgatc gatcga 16
<210> 205
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 205
cccccccttt tttccc 16
<210> 206
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 206
acgtgtatat gtacgt 16
<210> 207
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 207
gcgcgcgcgt gcgcgc 16
<210> 208
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 208
tctttttttt tttctc 16
<210> 209
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 209
tcgagatctt gatcga 16
<210> 210
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 210
cccccctttt ttcccc 16
<210> 211
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 211
cccccccttt tttttc 16
<210> 212
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 212
gagagagaga gagaga 16
<210> 213
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 213
cccccccttt ttcccc 16
<210> 214
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 214
ccccccccct tttcc 15
<210> 215
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 215
acacacacat acacac 16
<210> 216
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 216
ccggccggtt ggccgg 16
<210> 217
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 217
tctttttttt tttctc 16
<210> 218
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 218
tctctctctt tctctc 16
<210> 219
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 219
gagaaaaaaa aagaga 16
<210> 220
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 220
tcgagatttt gatcga 16
<210> 221
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 221
gggggggggg gggggg 16
<210> 222
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 222
cccccccccc ccctcc 16
<210> 223
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 223
ggaggggggg gggggg 16
<210> 224
<211> 51
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<220>
<221> n
<222> (17)..(32)
<223> 任何核苷酸
<220>
<221> 尚未归类的特征
<222> (17)..(32)
<223> n是a, c, g, 或t
<400> 224
tctagcctag ccgtttnnnn nnnnnnnnnn nnagggtgag catcaaactc a 51
<210> 225
<400> 225
000
<210> 226
<400> 226
000
<210> 227
<400> 227
000
<210> 228
<400> 228
000
<210> 229
<400> 229
000
<210> 230
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 230
cccccccccc 10
<210> 231
<211> 11
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 231
cccccccccc c 11
<210> 232
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 232
cccccccccc cc 12
<210> 233
<211> 13
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 233
cccccccccc ccc 13
<210> 234
<211> 14
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 234
cccccccccc cccc 14
<210> 235
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 235
cccccccccc ccccc 15
<210> 236
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 236
cccccccccc cccccc 16
<210> 237
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 237
cccccccccc ccccccc 17
<210> 238
<211> 18
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 238
cccccccccc cccccccc 18
<210> 239
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 239
cccccccccc ccccccccc 19
<210> 240
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 240
cccccccccc cccccccccc 20
<210> 241
<211> 14
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 241
cccccctttt tccc 14
<210> 242
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 242
cccccccttt ttcccc 16
<210> 243
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 243
cccccccctt tttcccc 17
<210> 244
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 244
cccccccctt tttttcccc 19
<210> 245
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 245
cccccccccc ctttcccccc 20
<210> 246
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 246
cccccctttt tcccc 15
<210> 247
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 247
ccccccccct ttccc 15
<210> 248
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 248
ccccccccct ttcccc 16
<210> 249
<211> 18
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 249
ccccccccct ttttcccc 18
<210> 250
<211> 18
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 250
ccccccccct tttccccc 18
<210> 251
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 251
cccccccttt cccccc 16
<210> 252
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 252
cccccctttt tttccc 16
<210> 253
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 253
cccccccttt tttttc 16
<210> 254
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 254
tttttttttt ttcccc 16
<210> 255
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 255
gtaggagcaa cataa 15
<210> 256
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 256
cgtaggagca acata 15
<210> 257
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 257
tcgtaggagc aacat 15
<210> 258
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 258
ttcgtaggag caaca 15
<210> 259
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 259
attcgtagga gcaac 15
<210> 260
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 260
tcgtaggagt aaacat 16
<210> 261
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 261
actcaatcct ctgatc 16
<210> 262
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 262
cattagtaga acgca 15
<210> 263
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 263
cattagtaaa acgca 15
<210> 264
<211> 4262
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 264
cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60
gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120
atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180
aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240
catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300
catggtcgag gtgagcccca cgttctgctt cactctcccc atctcccccc cctccccacc 360
cccaattttg tatttattta ttttttaatt attttgtgca gcgatggggg cggggggggg 420
gggggggcgc gcgccaggcg gggcggggcg gggcgagggg cggggcgggg cgaggcggag 480
aggtgcggcg gcagccaatc agagcggcgc gctccgaaag tttcctttta tggcgaggcg 540
gcggcggcgg cggccctata aaaagcgaag cgcgcggcgg gcgggagtcg ctgcgcgctg 600
ccttcgcccc gtgccccgct ccgccgccgc ctcgcgccgc ccgccccggc tctgactgac 660
cgcgttactc ccacaggtga gcgggcggga cggcccttct cctccgggct gtaattagct 720
gagcaagagg taagggttta agggatggtt ggttggtggg gtattaatgt ttaattacct 780
ggagcacctg cctgaaatca ctttttttca ggttggagca gagctggttt agtggatatc 840
ttaagccacc atggcctctg tcctgacgcc actgctgctg aggagcctga ccggctcggc 900
ccggcggctc atggtgccgc gggctcaggt ccactcgaag tctagagata tcgccgacct 960
cagaaccctg ggttacagtc agcagcaaca ggagaagata aaacctaagg tgcgctccac 1020
tgttgctcaa catcatgagg cattggtggg ccacggattt acacacgccc atatagtagc 1080
cttgtcccaa caccccgctg ctcttggtac tgttgctgta aaatatcaag acatgatagc 1140
agcattgcct gaagccactc acgaggctat cgttggagta ggaaagtatc atggggctcg 1200
cgcacttgag gctttgctca ccgttgcagg tgaacttcga ggcccacctc ttcagctcga 1260
caccggacaa ttgctcaaga ttgccaagcg agggggggtc accgccgtag aagccgtcca 1320
tgcttggcgc aacgcactca ctggggcccc cctgaactta acgcccgagc aggtggttgc 1380
tatagcgtcg cacgatggcg gtaagcaagc ccttgaaaca gttcaggcct tgttacctgt 1440
cttatgccag gcacatggac tgactcctga acaggtagtt gcgattgcct cacatgacgg 1500
aggtaaacaa gctttagaaa cagtgcaggc tttgctcccg gttctttgtc aggcgcatgg 1560
cttgactccg gaacaggttg tcgctattgc ttcacacgat gggggtaaac aagccctcga 1620
aacagtgcaa gcccttttac cggtcctatg ccacgcacac ggtttgacac cagaacaggt 1680
agtagctata gcctcgaata ttggtggtaa gcaagcctta gagaccgtgc agcggttact 1740
gcctgtactg tgtcaagctc acgggcttac acctgagcaa gtagttgcaa tagcaagtca 1800
cgacggcggt aaacaagcct tggagaccgt tcaagctctc cttccagtat tgtgtcaagc 1860
acatggccta actcccgagc aggtagtggc tatcgctagt aacggtggtg ggaaacaggc 1920
actagagaca gttcaagctc tacttccagt gttgtgccag gctcacgggc tcacacccca 1980
acaagttgtc gccatcgcca gtaatggagg tggaaagcag gccctcgaaa ccgtgcaacg 2040
gctccttcca gtgctctgcc aagcgcatgg acttacgcca gagcaggtgg tggcaatagc 2100
ctcgcatgac ggcggcaagc aggcgttgga gaccgtccaa gcattgctgc cagttttatg 2160
tcaggcacat ggtttaacac cacaacaggt agtcgcaata gctagcaaca atggcggaaa 2220
acaggctctg gaaactgtcc aacgattgct acccgttctg tgtcaggccc atggattgac 2280
gccgcaacaa gtggtcgcga ttgcgagtca cgacggaggt aaacaggccc tggaaacggt 2340
gcagagacta ctccccgtcc tctgccaagc ccacggtctc acgcctgagc aggtagtagc 2400
gatagcatct cacgacggtg gtaagcaagc gttagagaca gtacaagcgt tactaccagt 2460
tctctgtcaa gctcatgggc taacgccgga acaggttgtc gctattgcaa gcaacatcgg 2520
cgggaaacag gcattagaga cggtccaagc gctgttgccc gtactgtgtc aggcgcatgg 2580
tctgacaccg gagcaagttg tggccatcgc gtccaacggt ggtggtaaac aggcattgga 2640
aaccgtacag gcgcttttgc ctgtgctttg tcaagcgcac ggacttactc cggaacaggt 2700
agtggcgatc gcaagccatg atggaggaaa acaagcactt gagactgttc aaagattatt 2760
gccagtgcta tgtcaagcac acggtcttac cccagaacag gtcgtagcca tagcttctaa 2820
tattggaggc aaacaagcct tagaaacagt ccaagcttta ttacccgtgt tatgtcaggc 2880
tcacggcctc actcccgaac aagtcgttgc cattgcatcg aacggcggtg gaaagcaagc 2940
tctggagacg gtacaacgtt tgcttccggt actttgccag gcacacggat taacgcccga 3000
gcaggtggtt gctatagcgt cgaacattgg cggtaagcaa gcccttgaaa cagttcaggc 3060
cttgttacct gtcttatgcc aggcacatgg actgacgcct cagcaagtag tggctattgc 3120
ttccaacggc ggcggacgcc cagcactcga gagtatcgta gcacagctca gtcgcccaga 3180
tcccgccttg gctgccctca ccaatgatca ccttgtggca ctcgcttgcc ttgggggtcg 3240
ccctgctctg gatgcagtta agaaaggcct aggcggcagc ttcagcaaag cggaatctgg 3300
gtatattgag atacaacgct tcaggagaat tctcaacatg ccccgctatt cacttacgaa 3360
tggccgtact ggtacggtgg cgcgtgtgga ggtaaacggg cgtcgcattt tcggggttaa 3420
tacttcgttg attaagaact ctaagtatgc tccgcgcgac atggacttac gccgccgttg 3480
gctgcgcgag gttaactggg tgcccccaaa aaaaaacaaa ccaaaccact taggacacgc 3540
gcagagcctg tcgcacgccg catcccacgc tttgatccgc gcatacgaac gtatggagcg 3600
tcttgggggt cagttaccaa agaaacttac tatggtagtc gatcgcccca cctgcaatat 3660
ctgtcgcggg gagatgcccg cgctactaaa gcgcctgggg attgaagaac ttaccatcta 3720
ttcaggtggc cgcgatgcaa tcatcattaa ggcgattaag tccggagggt cgactaatct 3780
gagcgacatt atagaaaaag aaacaggtaa gcagttggtc atccaagaga gtattttgat 3840
gctgccagag gaagtcgagg aggtaattgg taacaaacca gagagtgaca ttcttgtgca 3900
taccgcttat gacgagtcaa ctgacgagaa tgttatgctc ttgacctctg atgcacccga 3960
atacaaacct tgggcactcg ttatccagga cagtaatgga gaaaataaaa taaaaatgtt 4020
gtaatgagct cggatccctg tgccttctag ttgccagcca tctgttgttt gcccctcccc 4080
cgtgccttcc ttgaccctgg aaggtgccac tcccactgtc ctttcctaat aaaatgagga 4140
aattgcatcg cattgtctga gtaggtgtca ttctattctg gggggtgggg tggggcagga 4200
cagcaagggg gaggattggg aagacaatag caggcatgct ggggatgcgg tgggctctat 4260
gg 4262
<210> 265
<211> 1057
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 265
Met Ala Ser Val Leu Thr Pro Leu Leu Leu Arg Ser Leu Thr Gly Ser
1 5 10 15
Ala Arg Arg Leu Met Val Pro Arg Ala Gln Val His Ser Lys Ser Arg
20 25 30
Asp Ile Ala Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu
35 40 45
Lys Ile Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala
50 55 60
Leu Val Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln
65 70 75 80
His Pro Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile
85 90 95
Ala Ala Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys
100 105 110
Tyr His Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly Glu
115 120 125
Leu Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys Ile
130 135 140
Ala Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp Arg
145 150 155 160
Asn Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val Val
165 170 175
Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln
180 185 190
Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln
195 200 205
Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr
210 215 220
Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro
225 230 235 240
Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu
245 250 255
Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys His Ala His Gly Leu
260 265 270
Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln
275 280 285
Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His
290 295 300
Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly
305 310 315 320
Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln
325 330 335
Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly
340 345 350
Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu
355 360 365
Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser
370 375 380
Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro
385 390 395 400
Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile
405 410 415
Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu
420 425 430
Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val
435 440 445
Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln
450 455 460
Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln
465 470 475 480
Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr
485 490 495
Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro
500 505 510
Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu
515 520 525
Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu
530 535 540
Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln
545 550 555 560
Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His
565 570 575
Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly
580 585 590
Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln
595 600 605
Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp
610 615 620
Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu
625 630 635 640
Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser
645 650 655
Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro
660 665 670
Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile
675 680 685
Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu
690 695 700
Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val
705 710 715 720
Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln
725 730 735
Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln
740 745 750
Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu Ser
755 760 765
Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr
770 775 780
Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu
785 790 795 800
Asp Ala Val Lys Lys Gly Leu Gly Gly Ser Phe Ser Lys Ala Glu Ser
805 810 815
Gly Tyr Ile Glu Ile Gln Arg Phe Arg Arg Ile Leu Asn Met Pro Arg
820 825 830
Tyr Ser Leu Thr Asn Gly Arg Thr Gly Thr Val Ala Arg Val Glu Val
835 840 845
Asn Gly Arg Arg Ile Phe Gly Val Asn Thr Ser Leu Ile Lys Asn Ser
850 855 860
Lys Tyr Ala Pro Arg Asp Met Asp Leu Arg Arg Arg Trp Leu Arg Glu
865 870 875 880
Val Asn Trp Val Pro Pro Lys Lys Asn Lys Pro Asn His Leu Gly His
885 890 895
Ala Gln Ser Leu Ser His Ala Ala Ser His Ala Leu Ile Arg Ala Tyr
900 905 910
Glu Arg Met Glu Arg Leu Gly Gly Gln Leu Pro Lys Lys Leu Thr Met
915 920 925
Val Val Asp Arg Pro Thr Cys Asn Ile Cys Arg Gly Glu Met Pro Ala
930 935 940
Leu Leu Lys Arg Leu Gly Ile Glu Glu Leu Thr Ile Tyr Ser Gly Gly
945 950 955 960
Arg Asp Ala Ile Ile Ile Lys Ala Ile Lys Ser Gly Gly Ser Thr Asn
965 970 975
Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu Val Ile Gln
980 985 990
Glu Ser Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val Ile Gly Asn
995 1000 1005
Lys Pro Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp Glu Ser
1010 1015 1020
Thr Asp Glu Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu Tyr
1025 1030 1035
Lys Pro Trp Ala Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys
1040 1045 1050
Ile Lys Met Leu
1055
<210> 266
<211> 3680
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 266
cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60
gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120
atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180
aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240
catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300
catggtcgag gtgagcccca cgttctgctt cactctcccc atctcccccc cctccccacc 360
cccaattttg tatttattta ttttttaatt attttgtgca gcgatggggg cggggggggg 420
gggggggcgc gcgccaggcg gggcggggcg gggcgagggg cggggcgggg cgaggcggag 480
aggtgcggcg gcagccaatc agagcggcgc gctccgaaag tttcctttta tggcgaggcg 540
gcggcggcgg cggccctata aaaagcgaag cgcgcggcgg gcgggagtcg ctgcgcgctg 600
ccttcgcccc gtgccccgct ccgccgccgc ctcgcgccgc ccgccccggc tctgactgac 660
cgcgttactc ccacaggtga gcgggcggga cggcccttct cctccgggct gtaattagct 720
gagcaagagg taagggttta agggatggtt ggttggtggg gtattaatgt ttaattacct 780
ggagcacctg cctgaaatca ctttttttca ggttggagca gagctggttt agtggatatc 840
ttaagccacc atggcctctg tcctgacgcc actgctgctg aggagcctga ccggctcggc 900
ccggcggctc atggtgccgc gggctcaggt ccactcgaag tctagatcca ctgctttcgt 960
tgatcaggac aaacagatgg ccaaccgtct gaacctgtct ccgctggaac gctccaaaat 1020
cgagaaacag tacggcggtg ccactaccct ggccttcatt tctaacaagc aaaatgaact 1080
ggcgcagatc ctgagccgcg cggatatcct gaagatcgcg tcttatgatt gcgcggcaca 1140
cgcgttgcag gctgttctgg attgcggccc gatgctgggc aagcgtggct tttcccaatc 1200
tgacatcgtc aagattgcgg gcaatggtgg cggtgcccag gctctgcagg cagttctgga 1260
tctggaaagc atgctgggta aacgcggttt cagccgtgat gacatagcga aaatggcagg 1320
taacggcggc ggtgcacaaa ctctgcaagc cgtactggat ctggagtccg cgtttagaga 1380
gcgtggcttt tctcaagcag acattgtaaa gatagcgggc aacaatgggg gtgctcaagc 1440
actatatagc gtcctggacg tagagccgac cctgggtaaa cgtggtttct cacgtgctga 1500
catcgtgaag atcgccggca acatcggtgg cgcccaggcc ctgcacactg tgcttgatct 1560
ggagcctgca ctaggaaaac gaggattttc ccgtattgac atcgttaaaa tcgcggccaa 1620
caatggtggc gcgcaagcat tgcacgctgt tttagacctg ggtccgacgc tgcgtgagtg 1680
tggtttcagt caggcgacca tcgcgaagat tgctggtaat aatggaggag cacaagcact 1740
gcaaatggta cttgacctgg gacccgcatt aggcaaaagg ggcttctccc aggcaactat 1800
tgctaaaatt gctggtaaca atggaggggc tcaagcactg cagaccgttc ttgacctgga 1860
accggctctg tgcgagcgtg gttttggcca agcaacaatt gccaaaatgg ctggaaatat 1920
cgggggtgcg caggcattac aaacagtatt ggatttagaa ccagcgctgc gaaaacgaga 1980
cttcagacag gccgatatta taaaaattgc gggaaatatt ggtggagctc aggctctaca 2040
ggcggttatt gaacacggac cgactttgag acaacatggc tttaacctgg cggacatcgt 2100
gaaaatggct gggaacaatg gcggggccca agcgcttcag gccgtcttag atttaaaacc 2160
cgtcttggat gagcacggct tcagccaggc tgacatcgtc aaaatcgcag gcaatatcgg 2220
tgggacccaa gcgctgcatg cggtgctgga tttggagcgt atgctggggg agcgcggttt 2280
cagcagagca gacatcgtga atgtggcggg aaacattggt ggtgcacagg ctctaaaggc 2340
ggtattagag catgaagcta ctcttaatga aagaggattc tcccgcgccg acatcgttaa 2400
aatcgctggc aacggtggcg gtgcccaagc tcttaaagca gttcttgagc acgaggcaac 2460
actggatgaa cgcggtttct cgcgcgcgga tattgtaaat gttgccggga acaacggagg 2520
cgcacaggcg ctgaaagcag tgttggaaca cgaggcgacg ttaaacgaac gtgggtttaa 2580
tctgacagac atcgtggaga tggctgctaa cggcggtggc gcacaggcat taaaggctgt 2640
ccttgagcat ggtccgaccc ttcgccagcg cggcttgagc ttgattgaca ttgtcgaaat 2700
tgccgggaat ggcggaggag cacaagcgtt gaaagcagtc ttaaagtatg gaccggtcct 2760
tatgcaggcc ggccgtagta atgaagaaat cgtccacgta gcggcgcgac gtggtggagc 2820
aggtcgtatt cgtaaaatgg tagctccgct gctcgagcgt cagggcctag gcggcagcat 2880
ggacttgagg agacgctggc tgcgggaggt gaattgggtg cctccgaaga aaaataagcc 2940
aaaccacctg ggccacgctc agtccctttc tcacgctgaa tctcacgccc tgattagagc 3000
ttatgaacgc atggagcgcc tcgggggcca actgcctaag aaactgacaa tggtggttga 3060
ccgccctact tgtaacattt gcaggggcga gatgcctgcc ctcctgaaac gcttgggcat 3120
tgaagagctg accatctact ccggcgggcg cgacgccatc attatcaagg ccatcaaatc 3180
cggagggtcg actaatctga gcgacattat agaaaaagaa acaggtaagc agttggtcat 3240
ccaagagagt attttgatgc tgccagagga agtcgaggag gtaattggta acaaaccaga 3300
gagtgacatt cttgtgcata ccgcttatga cgagtcaact gacgagaatg ttatgctctt 3360
gacctctgat gcacccgaat acaaaccttg ggcactcgtt atccaggaca gtaatggaga 3420
aaataaaata aaaatgttgt aatgagctcg gatccctgtg ccttctagtt gccagccatc 3480
tgttgtttgc ccctcccccg tgccttcctt gaccctggaa ggtgccactc ccactgtcct 3540
ttcctaataa aatgaggaaa ttgcatcgca ttgtctgagt aggtgtcatt ctattctggg 3600
gggtggggtg gggcaggaca gcaaggggga ggattgggaa gacaatagca ggcatgctgg 3660
ggatgcggtg ggctctatgg 3680
<210> 267
<211> 863
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 267
Met Ala Ser Val Leu Thr Pro Leu Leu Leu Arg Ser Leu Thr Gly Ser
1 5 10 15
Ala Arg Arg Leu Met Val Pro Arg Ala Gln Val His Ser Lys Ser Arg
20 25 30
Ser Thr Ala Phe Val Asp Gln Asp Lys Gln Met Ala Asn Arg Leu Asn
35 40 45
Leu Ser Pro Leu Glu Arg Ser Lys Ile Glu Lys Gln Tyr Gly Gly Ala
50 55 60
Thr Thr Leu Ala Phe Ile Ser Asn Lys Gln Asn Glu Leu Ala Gln Ile
65 70 75 80
Leu Ser Arg Ala Asp Ile Leu Lys Ile Ala Ser Tyr Asp Cys Ala Ala
85 90 95
His Ala Leu Gln Ala Val Leu Asp Cys Gly Pro Met Leu Gly Lys Arg
100 105 110
Gly Phe Ser Gln Ser Asp Ile Val Lys Ile Ala Gly Asn Gly Gly Gly
115 120 125
Ala Gln Ala Leu Gln Ala Val Leu Asp Leu Glu Ser Met Leu Gly Lys
130 135 140
Arg Gly Phe Ser Arg Asp Asp Ile Ala Lys Met Ala Gly Asn Gly Gly
145 150 155 160
Gly Ala Gln Thr Leu Gln Ala Val Leu Asp Leu Glu Ser Ala Phe Arg
165 170 175
Glu Arg Gly Phe Ser Gln Ala Asp Ile Val Lys Ile Ala Gly Asn Asn
180 185 190
Gly Gly Ala Gln Ala Leu Tyr Ser Val Leu Asp Val Glu Pro Thr Leu
195 200 205
Gly Lys Arg Gly Phe Ser Arg Ala Asp Ile Val Lys Ile Ala Gly Asn
210 215 220
Ile Gly Gly Ala Gln Ala Leu His Thr Val Leu Asp Leu Glu Pro Ala
225 230 235 240
Leu Gly Lys Arg Gly Phe Ser Arg Ile Asp Ile Val Lys Ile Ala Ala
245 250 255
Asn Asn Gly Gly Ala Gln Ala Leu His Ala Val Leu Asp Leu Gly Pro
260 265 270
Thr Leu Arg Glu Cys Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile Ala
275 280 285
Gly Asn Asn Gly Gly Ala Gln Ala Leu Gln Met Val Leu Asp Leu Gly
290 295 300
Pro Ala Leu Gly Lys Arg Gly Phe Ser Gln Ala Thr Ile Ala Lys Ile
305 310 315 320
Ala Gly Asn Asn Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp Leu
325 330 335
Glu Pro Ala Leu Cys Glu Arg Gly Phe Gly Gln Ala Thr Ile Ala Lys
340 345 350
Met Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu Gln Thr Val Leu Asp
355 360 365
Leu Glu Pro Ala Leu Arg Lys Arg Asp Phe Arg Gln Ala Asp Ile Ile
370 375 380
Lys Ile Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu Gln Ala Val Ile
385 390 395 400
Glu His Gly Pro Thr Leu Arg Gln His Gly Phe Asn Leu Ala Asp Ile
405 410 415
Val Lys Met Ala Gly Asn Asn Gly Gly Ala Gln Ala Leu Gln Ala Val
420 425 430
Leu Asp Leu Lys Pro Val Leu Asp Glu His Gly Phe Ser Gln Ala Asp
435 440 445
Ile Val Lys Ile Ala Gly Asn Ile Gly Gly Thr Gln Ala Leu His Ala
450 455 460
Val Leu Asp Leu Glu Arg Met Leu Gly Glu Arg Gly Phe Ser Arg Ala
465 470 475 480
Asp Ile Val Asn Val Ala Gly Asn Ile Gly Gly Ala Gln Ala Leu Lys
485 490 495
Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe Ser Arg
500 505 510
Ala Asp Ile Val Lys Ile Ala Gly Asn Gly Gly Gly Ala Gln Ala Leu
515 520 525
Lys Ala Val Leu Glu His Glu Ala Thr Leu Asp Glu Arg Gly Phe Ser
530 535 540
Arg Ala Asp Ile Val Asn Val Ala Gly Asn Asn Gly Gly Ala Gln Ala
545 550 555 560
Leu Lys Ala Val Leu Glu His Glu Ala Thr Leu Asn Glu Arg Gly Phe
565 570 575
Asn Leu Thr Asp Ile Val Glu Met Ala Ala Asn Gly Gly Gly Ala Gln
580 585 590
Ala Leu Lys Ala Val Leu Glu His Gly Pro Thr Leu Arg Gln Arg Gly
595 600 605
Leu Ser Leu Ile Asp Ile Val Glu Ile Ala Gly Asn Gly Gly Gly Ala
610 615 620
Gln Ala Leu Lys Ala Val Leu Lys Tyr Gly Pro Val Leu Met Gln Ala
625 630 635 640
Gly Arg Ser Asn Glu Glu Ile Val His Val Ala Ala Arg Arg Gly Gly
645 650 655
Ala Gly Arg Ile Arg Lys Met Val Ala Pro Leu Leu Glu Arg Gln Gly
660 665 670
Leu Gly Gly Ser Met Asp Leu Arg Arg Arg Trp Leu Arg Glu Val Asn
675 680 685
Trp Val Pro Pro Lys Lys Asn Lys Pro Asn His Leu Gly His Ala Gln
690 695 700
Ser Leu Ser His Ala Glu Ser His Ala Leu Ile Arg Ala Tyr Glu Arg
705 710 715 720
Met Glu Arg Leu Gly Gly Gln Leu Pro Lys Lys Leu Thr Met Val Val
725 730 735
Asp Arg Pro Thr Cys Asn Ile Cys Arg Gly Glu Met Pro Ala Leu Leu
740 745 750
Lys Arg Leu Gly Ile Glu Glu Leu Thr Ile Tyr Ser Gly Gly Arg Asp
755 760 765
Ala Ile Ile Ile Lys Ala Ile Lys Ser Gly Gly Ser Thr Asn Leu Ser
770 775 780
Asp Ile Ile Glu Lys Glu Thr Gly Lys Gln Leu Val Ile Gln Glu Ser
785 790 795 800
Ile Leu Met Leu Pro Glu Glu Val Glu Glu Val Ile Gly Asn Lys Pro
805 810 815
Glu Ser Asp Ile Leu Val His Thr Ala Tyr Asp Glu Ser Thr Asp Glu
820 825 830
Asn Val Met Leu Leu Thr Ser Asp Ala Pro Glu Tyr Lys Pro Trp Ala
835 840 845
Leu Val Ile Gln Asp Ser Asn Gly Glu Asn Lys Ile Lys Met Leu
850 855 860
<210> 268
<211> 36
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 268
aaaaaaaaaa aaaaatgcgc caaaaaaaaa aaaaaa 36
<210> 269
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 269
aaaaaaaaaa aaaaaacaaa aaaaaaaaaa aa 32
<210> 270
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 270
aaaaaaaaaa aaaaaccaaa aaaaaaaaaa aa 32
<210> 271
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 271
aaaaaaaaaa aaaaagcaaa aaaaaaaaaa aa 32
<210> 272
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 272
aaaaaaaaaa aaaaatcaaa aaaaaaaaaa aa 32
<210> 273
<211> 37
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 273
aaaaaaaaaa aaaaaacccc tcaaaaaaaa aaaaaaa 37
<210> 274
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 274
gtacaccatc cgtccc 16
<210> 275
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 275
gtgttctcta tttcac 16
<210> 276
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 276
gtacaccatt tgtccc 16
<210> 277
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 277
gtacaccatt tgttcc 16
<210> 278
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 278
ccgtcggacc gc 12
<210> 279
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 279
ccgtcggacc gc 12
<210> 280
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 280
ctaacttacc atgattaatt taagaattct catcgtca 38
<210> 281
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 281
ttaatttact atgattaatt taagaattct tattgtta 38
<210> 282
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 282
ctaatttacc ataattaatt taagaattct tatcgtta 38
<210> 283
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 283
ctaacttatc ataattaatt taaaaattct tatcgtca 38
<210> 284
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 284
gattgaatgg tactgatcag atcctcaaga gtagcagt 38
<210> 285
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 285
gattgaatgg tactgattag atttttaaga gtagcagt 38
<210> 286
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<220>
<221> c
<222> (17)..(17)
<223> 5-甲基胞苷
<400> 286
aaaaaaaaaa aaaaatcaaa aaaaaaaaaa aa 32
<210> 287
<211> 14
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 287
atccgatcag agct 14
<210> 288
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<220>
<221> c
<222> (17)..(17)
<223> 5-羟甲基胞嘧啶
<400> 288
aaaaaaaaaa aaaaatcaaa aaaaaaaaaa aa 32
<210> 289
<211> 14
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 289
atttgattag agtt 14
<210> 290
<211> 14
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 290
taggctagtt ttga 14
<210> 291
<211> 57
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 291
atgaatcggc caacgcgcgg ggagaggcgg tttgcgtatt gggcgccagg gtggttt 57
<210> 292
<211> 57
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 292
atgaatcggt caatgcgtgg ggagaggtgg tttgtgtatt gggtgccagg gtggttt 57
<210> 293
<211> 15
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 293
Asp Ile Val Gly Val Lys Gln Trp Ser Gly Ala Arg Ala Leu Glu
1 5 10 15
<210> 294
<211> 15
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 294
Asp Ile Val Gly Val Lys Ser Arg Ser Gly Ala Arg Ala Leu Glu
1 5 10 15
<210> 295
<211> 15
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 295
Asp Ile Val Gly Val Lys Arg Gly Ala Gly Ala Arg Ala Leu Glu
1 5 10 15
<210> 296
<211> 14
<212> PRT
<213> 人工序列
<220>
<223> 合成的肽
<400> 296
Asp Ile Val Gly Val Lys Tyr His Gly Ala Arg Ala Leu Glu
1 5 10
<210> 297
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 合成的肽
<400> 297
cccccccctt tttttc 16

Claims (146)

1.一种分离的脱氨酶结构域,其中该脱氨酶结构域可以使双链DNA脱氨基,其中与该脱氨酶结构域对不包含靶核苷酸序列的双链DNA的脱氨酶活性相比,该脱氨酶结构域对包含该靶核苷酸序列的双链DNA具有更大的脱氨酶活性,
其中这些靶核苷酸各自单独地被完全或部分定义并且彼此具有固定的顺序关系,并且
其中该脱氨酶结构域不是来自新洋葱伯克霍尔德菌的DddA的脱氨酶结构域。
2.如权利要求1所述的脱氨酶结构域,其中该靶核苷酸序列包含两个或更多个靶核苷酸,
其中这些靶核苷酸各自单独地被完全或部分定义并且彼此具有固定的顺序关系。
3.如权利要求1或2所述的脱氨酶结构域,其中这些靶核苷酸是GC、AC或CC。
4.如权利要求1-3中任一项所述的脱氨酶结构域,其中脱氨酶结构域包含两个部分,
其中该脱氨酶结构域仅当该两个部分组合在一起时才能脱氨基。
5.如权利要求1-4中任一项所述的脱氨酶结构域,其中该脱氨酶结构域可以使胞嘧啶核苷酸脱氨基。
6.如权利要求1-5中任一项所述的脱氨酶结构域,其中该靶核苷酸序列是AC。
7.如权利要求1-5中任一项所述的脱氨酶结构域,其中该靶核苷酸序列是CC。
8.如权利要求1-5中任一项所述的脱氨酶结构域,其中该靶核苷酸序列是GC。
9.如权利要求1或4所述的脱氨酶结构域,其中该靶核苷酸序列是TC。
10.如权利要求1-9中任一项所述的脱氨酶结构域,其中脱氨酶结构域包含SEQ ID NO:1-4、9、11、14-16、或40-67中任一个的氨基酸序列或其片段或变体。
11.如权利要求10所述的脱氨酶结构域,其中该脱氨酶结构域包含具有以下的BE_R1_41:SEQ ID NO:4的氨基酸序列、或与SEQ ID NO:4具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸、或其片段。
12.如权利要求11所述的脱氨酶结构域,其中该脱氨酶结构域包含具有以下的BE_R1_11:SEQ ID NO:1的氨基酸序列、或与SEQ ID NO:1具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸、或其片段。
13.如权利要求11所述的脱氨酶结构域,其中该脱氨酶结构域包含具有以下的BE_R1_12:SEQ ID NO:2的氨基酸序列、或与SEQ ID NO:2具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸、或其片段。
14.如权利要求11所述的脱氨酶结构域,其中该脱氨酶结构域包含具有以下的BE_R1_28:SEQ ID NO:3的氨基酸序列、或与SEQ ID NO:3具有至少70%、75%、80%、85%、90%、95%或99%序列同一性的氨基酸、或其片段。
15.一种靶向碱基编辑器,其包含如权利要求1-14中任一项所述的脱氨酶结构域和靶向结构域,其中该靶向结构域特异性结合碱基编辑器靶序列。
16.如权利要求15所述的靶向碱基编辑器,其中该靶向结构域包含TALE、BAT、CRISPR-Cas9、Cfp1或锌指。
17.如权利要求15或16所述的靶向碱基编辑器,其中该碱基编辑器靶序列被选择为存在于靶核酸中在该脱氨酶结构域的靶核苷酸序列的实例的20个核苷酸内,
其中该靶核苷酸序列的实例被选择为由该靶向碱基编辑器进行碱基编辑。
18.如权利要求17所述的靶向碱基编辑器,其中被选择为由该靶向碱基编辑器进行碱基编辑的该靶核苷酸序列的实例的20个核苷酸内的碱基编辑器靶序列是该靶核酸中在靶核苷酸序列的任何实例的20个核苷酸内的唯一碱基编辑器靶序列。
19.如权利要求17或18所述的靶向碱基编辑器,其中该靶核酸中的靶核苷酸序列的实例是该靶核酸中在该靶核苷酸序列的实例的20个核苷酸内的,该碱基编辑器靶序列的20个核苷酸内的该脱氨酶结构域的靶核苷酸序列的唯一实例。
20.如权利要求15-19中任一项所述的靶向碱基编辑器,其中该碱基编辑器靶序列存在于线粒体DNA、或叶绿体DNA、或质体DNA中。
21.如权利要求15-20中任一项所述的靶向碱基编辑器,其中该碱基编辑器包含两个部分,
其中第一部分包括第一拆分脱氨酶结构域,并且其中第二部分包含第二拆分脱氨酶结构域。
22.如权利要求21所述的靶向碱基编辑器,其中该第一部分包含拆分脱氨酶结构域,该拆分脱氨酶结构域包含SEQ ID NO:122-181中任一个的氨基酸序列,并且
其中该第二部分包含拆分脱氨酶结构域,该拆分脱氨酶结构域包含SEQ ID No:127-181中任一个的氨基酸序列,并且
其中该第一和第二拆分脱氨酶结构域单独时无活性,但当靠近在一起时能够脱氨基。
23.如权利要求21-22中任一项所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ ID No:122-126中任一个的氨基酸序列。
24.如权利要求21-22中任一项所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域都包含野生型脱氨酶结构域活性位点。
25.如权利要求21-24中任一项所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域各自包含BE_R1_11的片段或变体。
26.如权利要求25所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:122、或127-135、或150中任一个,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:127-135或150中任一个。
27.如权利要求25所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:122,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:127-134或150中任一个。
28.如权利要求25所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:129,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:150。
29.如权利要求21至24中任一项所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域各自包含BE_R1_12的片段或变体。
30.如权利要求29所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:124、或136-140、或156-167中任一个,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:136-140或156-167中任一个。
31.如权利要求29或30所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQID NO:124,并且其中该第二拆分脱氨酶结构域包含SEQ ID NO:156-166中任一个。
32.如权利要求29或30所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQID NO:137,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:142。
33.如权利要求29或30所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQID NO:139,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:144。
34.如权利要求22所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域各自包含BE_R1_41的片段或变体。
35.如权利要求34所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:168-171中任一个,并且
其中该第二拆分脱氨酶结构域包含SEQ ID No:172-175中任一个。
36.如权利要求34-35中任一项所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ ID NO:168,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:173。
37.如权利要求34-35所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQID NO:171,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:175。
38.如权利要求34所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:171,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:173。
39.如权利要求21至24中任一项所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域各自包含BE_R1_28的片段或变体。
40.如权利要求39所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:123、或146-149、或151-155中任一个,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:146-149或151-155中任一个。
41.如权利要求39或40所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQID NO:123,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:149或151-153中任一个。
42.如权利要求21至24中任一项所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域各自包含BE_R4_21的片段或变体。
43.如权利要求42所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:125或176-177中任一个,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:176-177中任一个。
44.如权利要求42所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:125,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:177。
45.如权利要求42所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:176,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:177。
46.如权利要求21至24中任一项所述的靶向碱基编辑器,其中该第一和第二拆分脱氨酶结构域各自包含BE_R2_11的片段或变体。
47.如权利要求46所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:126或180-181中任一个,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:180-181中任一个。
48.如权利要求42所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:125,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:180-181中任一个。
49.如权利要求42所述的靶向碱基编辑器,其中该第一拆分脱氨酶结构域包含SEQ IDNO:180,并且
其中该第二拆分脱氨酶结构域包含SEQ ID NO:181。
50.如权利要求22至49中任一项所述的靶向碱基编辑器,其中该第一部分或该第二部分或该第一部分和该第二部分两者包含选自由以下组成的组的可编程DNA结合结构域:TALE、BAT、CRISPR-Cas9、Cfp1或锌指。
51.如权利要求50所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是选自由以下组成的组的TALE:左手侧TALE和右手侧TALE。
52.如权利要求50或51所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是包含SEQ ID NO:90、92、95、97-106中任一个的氨基酸序列的左手侧TALE。
53.如权利要求50-52中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是包含SEQ ID NO:91、93-94、96、108-113中任一个的氨基酸序列的右手侧TALE。
54.如权利要求50-53中任一项所述的靶向碱基编辑器,其中一个或多个可编程DNA结合结构域是结合线粒体mND1 DNA、具有包含SEQ ID NO:95-96中任一个的氨基酸序列的TALE。
55.如权利要求50-54中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体mND1 DNA、具有包含SEQ ID NO:96的氨基酸序列的右手侧TALE。
56.如权利要求54或55中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体hND1 DNA、具有包含SEQ ID NO:95的氨基酸序列的左手侧TALE。
57.如权利要求51所述的靶向碱基编辑器,其中一个或多个可编程DNA结合结构域是结合线粒体mCOX1 DNA、具有包含SEQ ID NO:99-106或108-113中任一个的氨基酸序列的TALE。
58.如权利要求57所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体mCOX1 DNA、具有包含SEQ ID NO:108-113中任一个的氨基酸序列的右手侧TALE。
59.如权利要求57或58中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体mCOX1 DNA、具有包含SEQ ID NO:90-106中任一个的氨基酸序列的左手侧TALE。
60.如权利要求50所述的靶向碱基编辑器,其中一个或多个可编程DNA结合结构域是结合h12 DNA、具有包含SEQ ID NO:98的氨基酸序列的TALE。
61.如权利要求50所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是具有NT(G)N末端结构域、具有包含SEQ ID NO:114的氨基酸序列的TALE。
62.如权利要求50中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是具有NT(bn)N末端结构域、具有包含SEQ ID NO:115的氨基酸序列的TALE。
63.如权利要求51所述的靶向碱基编辑器,其中一个或多个可编程DNA结合结构域是结合线粒体ND6 DNA、具有包含SEQ ID NO:92-94中任一个的氨基酸序列的TALE。
64.如权利要求63所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体ND6 DNA、具有包含SEQ ID NO:93-94中任一个的氨基酸序列的右手侧TALE。
65.如权利要求63或64中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体mND6 DNA、具有包含SEQ ID NO:92的氨基酸序列的左手侧TALE。
66.如权利要求51所述的靶向碱基编辑器,其中一个或多个可编程DNA结合结构域是结合线粒体hND DNA、具有包含SEQ ID NO:90-91中任一个的氨基酸序列的TALE。
67.如权利要求66所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体hND DNA、具有包含SEQ ID NO:90的氨基酸序列的右手侧TALE。
68.如权利要求66或67中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合线粒体hND DNA、具有包含SEQ ID NO:91的氨基酸序列的左手侧TALE。
69.如权利要求50所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合h11DNA、具有包含SEQ ID NO:97的氨基酸序列的TALE。
70.如权利要求50-69中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分中的一个或两个独立地包含锌指可编程DNA结合结构域。
71.如权利要求50-70中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是选自由以下组成的组的锌指:左手侧锌指和右手侧锌指。
72.如权利要求50或57或70-71中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合mCOX1 DNA、具有包含SEQ ID NO:82-89中任一个的氨基酸序列的锌指。
73.如权利要求50或70-72中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合mCOX1 DNA、具有SEQ ID NO:82-86或87-89中任一个的氨基酸序列的右手侧锌指。
74.如权利要求50或70-73中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合mCOX1 DNA、具有包含SEQ ID NO:82-86中任一个的氨基酸序列的左手侧锌指。
75.如权利要求50、或66、或70-71所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合hND DNA、具有包含SEQ ID NO:74-81中任一个的氨基酸序列的锌指。
76.如权利要求50或70或74-75中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合hND DNA、具有SEQ ID NO:78-81中任一个的氨基酸序列的右手侧锌指。
77.如权利要求50或70、或74-76中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合hND DNA、具有包含SEQ ID NO:74-77中任一个的氨基酸序列的左手侧锌指。
78.如权利要求50-77中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分中的一个或两个独立地包含BAT可编程DNA结合结构域。
79.如权利要求50-78所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是选自由以下组成的组的BAT:左手侧BAT和右手侧BAT。
80.如权利要求50或57或72中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合mCOX1 DNA、具有包含SEQ ID NO:118-119中任一个的氨基酸序列的BAT。
81.如权利要求50、或57、或70、或72、或80中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合mCOX1 DNA、具有SEQ ID NO:119中任一个的氨基酸序列的右手侧BAT。
82.如权利要求50、或57、或70、或72、或80-81中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合mCOX1 DNA、具有包含SEQ ID NO:118中任一个的氨基酸序列的左手侧BAT。
83.如权利要求50、或70、或63、或78-79所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合ND6 DNA、具有包含SEQ ID NO:120-121中任一个的氨基酸序列的BAT。
84.如权利要求50、或70、或63、或78-79、或83中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合hND DNA、具有SEQ ID NO:121中任一个的氨基酸序列的右手侧BAT。
85.如权利要求50、或70、或63、或78-79、或83-84中任一项所述的靶向碱基编辑器,其中一个可编程DNA结合结构域是结合hND DNA、具有包含SEQ ID NO:120中任一个的氨基酸序列的左手侧BAT。
86.如权利要求21-22中任一项所述的靶向碱基编辑器,其中该第一部分包含
(a)包含SEQ ID NO:120的氨基酸序列的第一拆分脱氨酶结构域,和
(b)左手TALE可编程DNA结合结构域;并且
其中该第二部分包含
(c)包含SEQ ID NO:156、158、160或164中任一个的氨基酸序列的第二拆分脱氨酶结构域,和
(d)右手TALE可编程DNA结合结构域。
87.如权利要求21-22中任一项所述的靶向碱基编辑器,其中该第一部分包含
(a)包含SEQ ID NO:169的氨基酸序列的第一拆分脱氨酶结构域,和
(b)左手TALE可编程DNA结合结构域;并且
其中该第二部分包含
(c)包含SEQ ID NO:173或175中任一个的氨基酸序列的第二拆分脱氨酶结构域,和
(d)右手TALE可编程DNA结合结构域。
88.如权利要求21-22中任一项所述的靶向碱基编辑器,其中该第一部分包含
(a)包含SEQ ID NO:171的氨基酸序列的第一拆分脱氨酶结构域,和
(b)左手TALE可编程DNA结合结构域;并且
其中该第二部分包含
(c)包含SEQ ID NO:175中任一个的氨基酸序列的第二拆分脱氨酶结构域,和
(d)右手TALE可编程DNA结合结构域。
89.如权利要求21-22中任一项所述的靶向碱基编辑器,其中该第一部分包含
(a)包含SEQ ID NO:169的氨基酸序列的第一拆分脱氨酶结构域,和
(b)左手BAT可编程DNA结合结构域;并且
其中该第二部分包含
(c)包含SEQ ID NO:173或175中任一个的氨基酸序列的第二拆分脱氨酶结构域,和
(d)右手TALE可编程DNA结合结构域。
90.如权利要求21-22中任一项所述的靶向碱基编辑器,其中该第一部分包含
(a)包含SEQ ID NO:169的氨基酸序列的第一拆分脱氨酶结构域,和
(b)第一卷曲螺旋结构域,以及
(c)任选地左手TALE可编程DNA结合结构域;并且
其中该第二部分包含
(d)包含SEQ ID NO:173或175中任一个的氨基酸序列的第二拆分脱氨酶结构域,和
(e)第二卷曲螺旋结构域,以及
(f)任选地右手TALE可编程DNA结合结构域;
其中该第一和第二卷曲螺旋结构域在该第一和第二部分组合后在一起相互作用。
91.如权利要求22-91中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分中的一个或两个包含至少一个接头。
92.如权利要求50-90中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分中的一个或两个包含至少一个接头,并且
其中该接头位于该可编程DNA结合结构域和该拆分脱氨酶结构域之间。
93.如权利要求92中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分都包含该可编程DNA结合结构域和该拆分脱氨酶结构域之间的接头。
94.如权利要求91-93中任一项任一项所述的靶向碱基编辑器,其中该接头的长度在2与200个氨基酸之间。
95.如权利要求94所述的靶向碱基编辑器,其中该接头的长度在2与16个氨基酸之间。
96.如权利要求91-95中任一项所述的靶向碱基编辑器,其中该接头包含GS、GSG、GSS或SEQ ID NO:23-27或30中任一个的氨基酸序列。
97.如权利要求50-96中任一项所述的靶向碱基编辑器,其中该碱基编辑器被配置为使得该靶核酸距靶DNA链上的可编程结合结构域结合位点9与11个碱基对之间。
98.如权利要求50-97中任一项所述的靶向碱基编辑器,其中靶DNA链上两个可编程结合结构域的两个结合位点之间的距离在12与22个碱基对之间。
99.如权利要求98所述的靶向碱基编辑器,其中靶DNA链上两个可编程结合结构域的两个结合位点之间的距离在14与19个碱基对之间。
100.如权利要求22-99中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分中的至少一个包含细胞靶向部分。
101.如权利要求100所述的靶向碱基编辑器,其中该第一部分和该第二部分都包含细胞靶向部分。
102.如权利要求101所述的靶向碱基编辑器,其中该第一部分和该第二部分都包含相同的细胞靶向部分。
103.如权利要求100-102中任一项所述的靶向碱基编辑器,其中细胞靶向部分选自由以下组成的组:线粒体靶向序列(MTS)和核定位序列(NLS)。
104.如权利要求103所述的靶向碱基编辑器,其中该NLS包含SEQ ID NO:34-39中任一个的氨基酸序列。
105.如权利要求104所述的靶向碱基编辑器,其中该MTS包含SEQ ID NO:22、69、71、182或183中任一个的氨基酸序列。
106.如权利要求22-105中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分中的至少一个包含碱基切除修复抑制剂。
107.如权利要求106所述的靶向碱基编辑器,其中该碱基切除修复抑制剂是哺乳动物DNA糖基化酶抑制剂。
108.如权利要求106或107所述的靶向碱基编辑器,其中该碱基切除修复抑制剂是尿嘧啶糖基化酶抑制剂。
109.如权利要求106-108中任一项所述的靶向碱基编辑器,其中该碱基切除修复抑制剂具有包含SEQ ID NO:21或70中任一个的氨基酸序列。
110.一种方法,其包括
使靶核酸与如权利要求17-109中任一项所述的靶向碱基编辑器接触,其中该靶核酸是双链DNA,由此该靶核苷酸序列的实例被该靶向碱基编辑器脱氨基。
111.如权利要求110所述的方法,其中该靶核苷酸序列中的脱氨基的核苷酸被转换为胸腺嘧啶或鸟嘌呤核苷酸,其中该转换完成了该靶核苷酸序列的碱基编辑。
112.如权利要求110或111所述的方法,其中该靶核酸是线粒体DNA。
113.如权利要求110-112中任一项所述的方法,其中该靶核苷酸序列是AC。
114.如权利要求110-112中任一项所述的方法,其中该靶核苷酸序列是CC。
115.如权利要求110-112中任一项所述的方法,其中该靶核苷酸序列是GC。
116.如权利要求110-112中任一项所述的方法,其中该靶核苷酸序列是TC。
117.如权利要求110-116中任一项所述的方法,其中该靶核苷酸序列中的最后一个C被该靶向碱基编辑器脱氨基。
118.如权利要求110-117中任一项所述的方法,其中该靶DNA中的靶核苷酸序列的实例在该碱基编辑器靶序列的20个核苷酸内。
119.如权利要求110-118中任一项所述的方法,其中该靶核酸在细胞中,其中使该靶核酸与该靶向碱基编辑器接触通过促进该靶向碱基编辑器进入该细胞来实现。
120.如权利要求119所述的方法,其中该细胞在动物体内,其中通过向该动物施用该靶向碱基编辑器来实现该靶核酸与该靶向碱基编辑器的接触。
121.一种方法,其包括:
使靶核酸与一个或多个脱氨酶结构域接触,其中该靶核酸是双链胞嘧啶甲基化DNA,其中该脱氨酶结构域可以使双链DNA脱氨基,其中该脱氨酶结构域基本上仅使该靶核酸中的非甲基化胞嘧啶核苷酸脱氨基,
其中该靶核酸中的基本上所有非甲基化胞嘧啶核苷酸均被该脱氨酶结构域脱氨基;并且
对脱氨基的靶核酸进行测序,由此鉴定该靶核酸中的甲基化胞嘧啶核苷酸。
122.如权利要求121所述的方法,其中该脱氨酶结构域使该靶核酸中的90%或更多的非甲基化胞嘧啶核苷酸脱氨基。
123.一种方法,其包括:
使脱氨酶结构域和靶核酸的多个拷贝在导致该靶核酸的每个拷贝平均0.1至5.0个核苷酸脱氨基的时间和条件下接触,
其中该靶核酸是双链DNA,其中该脱氨酶结构域可以使双链DNA脱氨基。
124.如权利要求123所述的方法,其中该靶核酸的拷贝在体外。
125.如权利要求124所述的方法,其中该靶核酸的拷贝中的脱氨基的核苷酸通过体外反应转换为胸腺嘧啶或鸟嘌呤核苷酸。
126.如权利要求121-125中任一项所述的方法,其进一步包括对该靶核酸的脱氨基的拷贝进行选择程序。
127.如权利要求126所述的方法,其中该选择程序包含mRNA展示、核糖体展示或SELEX或基于细胞的选择测定。
128.如权利要求125-127中任一项所述的方法,其中该靶核酸的拷贝中的脱氨基的核苷酸被转换为胸腺嘧啶或鸟嘌呤核苷酸,其中该转换完成了靶核酸的一些或全部拷贝的一个或多个碱基编辑。
129.如权利要求123所述的方法,其中该靶核酸的拷贝中的脱氨基的核苷酸通过在细胞中孵育该靶核酸的拷贝然后进行DNA复制/扩增步骤来转换为胸腺嘧啶或鸟嘌呤核苷酸。
130.如权利要求123所述的方法,其中该靶核酸的拷贝在细胞中,其中使该脱氨酶结构域与该靶核酸的拷贝接触通过促进该脱氨酶结构域进入这些细胞来实现。
131.如权利要求130所述的方法,其中这些细胞在动物中,其中使该脱氨酶结构域与该靶核酸的拷贝接触通过向该动物施用该脱氨酶结构域来实现。
132.如权利要求130所述的方法,其中该靶核酸的拷贝在细胞中,其中该脱氨酶结构域由这些细胞中的转基因表达构建体编码,其中使该脱氨酶结构域与该靶核酸的拷贝接触通过在这些细胞中瞬时表达该脱氨酶结构域来实现。
133.一种通过编辑受试者的细胞中线粒体DNA中的一个或多个核酸来治疗或预防该受试者的线粒体遗传病的方法,该方法包括
将如权利要求1-110中任一项所述的靶向胞嘧啶脱氨酶碱基编辑器引入该细胞,
其中线粒体DNA内的靶核酸被该靶向碱基编辑器脱氨基。
134.如权利要求133所述的方法,其中该靶核苷酸序列中的脱氨基的核苷酸被转换为胸腺嘧啶或鸟嘌呤核苷酸。
135.如权利要求133-134中任一项所述的方法,其中将该线粒体DNA中的一个或多个核酸编辑成非致病性形式。
136.如权利要求133-135中任一项所述的方法,其中该脱氨基的核苷酸位于选自以下的位置:m.583G>A、m.616T>C、m.1606G>A、m.1644G>A、m.3258T>C、m.3271T>C、m.3460G>A、m.4298G>A、m.5728T>C、m.5650G>A、m.3243A>G、m.8344A>G、m.14459G>A、m.11778G>A、m.14484T>C、m.8993T>C、m.14484T>C、m.3460G>A和m.1555A>G。
137.如权利要求133-136中任一项所述的方法,其中该细胞选自由以下组成的组:成纤维细胞、淋巴细胞、胰腺细胞、肌肉细胞、神经元细胞和干细胞。
138.一种载体,其包含或表达如权利要求22-110中任一项所述的靶向碱基编辑器。
139.如权利要求138所述的载体,其中该载体是改变的腺病毒(AAV)载体、慢病毒载体或病毒样颗粒(VLP)。
140.如权利要求138或139所述的载体,其中该靶向碱基编辑器封装在该载体内。
141.如权利要求120或129-137中任一项所述的方法,其中该脱氨酶结构域构成载体内的靶向碱基编辑器。
142.如权利要求22至49中任一项所述的靶向碱基编辑器,其中该第一部分和该第二部分各自包含独立地选自由以下组成的组的可编程DNA结合结构域:TALE、BAT、CRISPR-Cas9、Cfp1和锌指。
143.如权利要求50/142所述的靶向碱基编辑器,其中该第一部分是TALE并且该第二部分是TALE,其中该第一部分是TALE并且该第二部分是BAT,其中该第一部分是TALE并且该第二部分是锌指,其中该第一部分是TALE并且该第二部分是CRISPR-Cas9,其中该第一部分是TALE并且该第二部分是Cfp1,其中该第一部分是BAT并且该第二部分是TALE,其中该第一部分是BAT并且该第二部分是BAT,其中该第一部分是BAT并且该第二部分是锌指,其中该第一部分是BAT并且该第二部分是CRISPR-Cas9,其中该第一部分是BAT并且该第二部分是Cfp1,其中该第一部分是锌指并且该第二部分是TALE,其中该第一部分是锌指并且该第二部分是BAT,其中该第一部分是锌指并且该第二部分是锌指,其中该第一部分是锌指并且该第二部分是CRISPR-Cas9,其中该第一部分是锌指并且该第二部分是Cfp1,其中该第一部分是CRISPR-Cas9并且该第二部分是TALE,其中该第一部分是CRISPR-Cas9并且该第二部分是BAT,其中该第一部分是CRISPR-Cas9并且该第二部分是锌指,其中该第一部分是CRISPR-Cas9并且该第二部分是CRISPR-Cas9,其中该第一部分是CRISPR-Cas9并且该第二部分是Cfp1,其中该第一部分是Cfp1并且该第二部分是TALE,其中该第一部分是Cfp1并且该第二部分是BAT,其中该第一部分是Cfp1并且该第二部分是锌指,其中该第一部分是Cfp1并且该第二部分是CRISPR-Cas9,或其中该第一部分是Cfp1并且该第二部分是Cfp1。
144.一种编辑线粒体中线粒体DNA或叶绿体中叶绿体DNA中的一个或多个核酸的方法,该方法包括
将如权利要求1-110中任一项所述的靶向胞嘧啶脱氨酶碱基编辑器引入该线粒体或该叶绿体,
其中线粒体或叶绿体DNA内的靶核酸被该靶向碱基编辑器脱氨基。
145.如权利要求144所述的方法,其中该线粒体或该叶绿体在体外。
146.如权利要求1或2所述的脱氨酶结构域,其中这些靶核苷酸各自表现出由在定义的编辑阈值下的脱氨酶概率序列标识图定义的背景特异性。
CN202280018202.1A 2021-01-12 2022-01-12 背景依赖性、双链dna特异性脱氨酶及其用途 Pending CN117321197A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163136524P 2021-01-12 2021-01-12
US63/136,524 2021-01-12
PCT/US2022/012204 WO2022155265A2 (en) 2021-01-12 2022-01-12 Context-dependent, double-stranded dna-specific deaminases and uses thereof

Publications (1)

Publication Number Publication Date
CN117321197A true CN117321197A (zh) 2023-12-29

Family

ID=80168318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280018202.1A Pending CN117321197A (zh) 2021-01-12 2022-01-12 背景依赖性、双链dna特异性脱氨酶及其用途

Country Status (7)

Country Link
EP (1) EP4277989A2 (zh)
JP (1) JP2024502630A (zh)
KR (1) KR20230142500A (zh)
CN (1) CN117321197A (zh)
AU (1) AU2022207981A1 (zh)
CA (1) CA3207102A1 (zh)
WO (1) WO2022155265A2 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112867792A (zh) 2018-08-23 2021-05-28 桑格摩生物治疗股份有限公司 工程化靶特异性碱基编辑器
CN118591626A (zh) * 2021-12-22 2024-09-03 桑格摩生物治疗股份有限公司 用于核碱基编辑的新型锌指融合蛋白
WO2024065721A1 (en) * 2022-09-30 2024-04-04 Peking University Methods of determining genome-wide dna binding protein binding sites by footprinting with double stranded dna deaminase
WO2024107263A2 (en) * 2022-11-15 2024-05-23 Mayo Foundation For Medical Education And Research Chimeric polypeptides and their use for editing mitochondrial and genomic dna
CN117106758B (zh) * 2023-08-25 2024-05-17 南京医科大学 一种特异在DNA的gC基序上实现C/G到T/A编辑的RiCBE系统
CN117327683A (zh) * 2023-09-13 2024-01-02 南京医科大学 一种在DNA的gC基序上实现高效C/G到T/A编辑的高保真LnCBE系统

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4751180A (en) 1985-03-28 1988-06-14 Chiron Corporation Expression using fused genes providing for protein product
US4935233A (en) 1985-12-02 1990-06-19 G. D. Searle And Company Covalently linked polypeptide cell modulators
GB9710807D0 (en) 1997-05-23 1997-07-23 Medical Res Council Nucleic acid binding proteins
GB9710809D0 (en) 1997-05-23 1997-07-23 Medical Res Council Nucleic acid binding proteins
US6140081A (en) 1998-10-16 2000-10-31 The Scripps Research Institute Zinc finger binding domains for GNN
US6453242B1 (en) 1999-01-12 2002-09-17 Sangamo Biosciences, Inc. Selection of sites for targeting by zinc finger proteins and methods of designing zinc finger proteins to bind to preselected sites
US6534261B1 (en) 1999-01-12 2003-03-18 Sangamo Biosciences, Inc. Regulation of endogenous gene expression in cells using zinc finger proteins
US7067617B2 (en) 2001-02-21 2006-06-27 The Scripps Research Institute Zinc finger binding domains for nucleotide sequence ANN
US20040197892A1 (en) 2001-04-04 2004-10-07 Michael Moore Composition binding polypeptides
US20040224385A1 (en) 2001-08-20 2004-11-11 Barbas Carlos F Zinc finger binding domains for cnn
EP1963499A4 (en) 2005-11-28 2009-04-08 Scripps Research Inst ZINCFINGER BINDING DOMAIN FOR TNN
WO2007081647A2 (en) 2006-01-03 2007-07-19 The Scripps Research Institute Zinc finger domains specifically binding agc
WO2009146179A1 (en) 2008-04-15 2009-12-03 University Of Iowa Research Foundation Zinc finger nuclease for the cftr gene and methods of use thereof
EP2206723A1 (en) 2009-01-12 2010-07-14 Bonas, Ulla Modular DNA-binding domains
AU2010327998B2 (en) 2009-12-10 2015-11-12 Iowa State University Research Foundation, Inc. TAL effector-mediated DNA modification
DK2800811T3 (en) 2012-05-25 2017-07-17 Univ Vienna METHODS AND COMPOSITIONS FOR RNA DIRECTIVE TARGET DNA MODIFICATION AND FOR RNA DIRECTIVE MODULATION OF TRANSCRIPTION
JP2015527889A (ja) 2012-07-25 2015-09-24 ザ ブロード インスティテュート, インコーポレイテッド 誘導可能なdna結合タンパク質およびゲノム撹乱ツール、ならびにそれらの適用
EP3825401A1 (en) 2012-12-12 2021-05-26 The Broad Institute, Inc. Crispr-cas component systems, methods and compositions for sequence manipulation
US9790490B2 (en) 2015-06-18 2017-10-17 The Broad Institute Inc. CRISPR enzymes and systems
WO2017070632A2 (en) * 2015-10-23 2017-04-27 President And Fellows Of Harvard College Nucleobase editors and uses thereof
US20190233814A1 (en) 2015-12-18 2019-08-01 The Broad Institute, Inc. Novel crispr enzymes and systems
US11313328B2 (en) 2016-03-28 2022-04-26 Walbro Llc Fuel supply system for engine warm-up
CA3032699A1 (en) 2016-08-03 2018-02-08 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
KR102687373B1 (ko) * 2017-03-23 2024-07-23 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 핵산 프로그램가능한 dna 결합 단백질을 포함하는 핵염기 편집제
EP4097124A1 (en) 2020-01-28 2022-12-07 The Broad Institute Inc. Base editors, compositions, and methods for modifying the mitochondrial genome

Also Published As

Publication number Publication date
CA3207102A1 (en) 2022-07-21
WO2022155265A3 (en) 2022-08-25
JP2024502630A (ja) 2024-01-22
EP4277989A2 (en) 2023-11-22
AU2022207981A1 (en) 2023-07-27
WO2022155265A2 (en) 2022-07-21
KR20230142500A (ko) 2023-10-11

Similar Documents

Publication Publication Date Title
US11773412B2 (en) Crispr enzymes and systems
CN117321197A (zh) 背景依赖性、双链dna特异性脱氨酶及其用途
US11098326B2 (en) Using RNA-guided FokI nucleases (RFNs) to increase specificity for RNA-guided genome editing
JP6793547B2 (ja) 最適化機能CRISPR−Cas系による配列操作のための系、方法および組成物
US10011850B2 (en) Using RNA-guided FokI Nucleases (RFNs) to increase specificity for RNA-Guided Genome Editing
JP2023525304A (ja) 標的二本鎖ヌクレオチド配列の両鎖同時編集のための方法および組成物
DE112020001339T5 (de) Verfahren und zusammensetzung zum editing von nukleotidsequenzen
EP3658573A1 (en) Methods and compositions for evolving base editors using phage-assisted continuous evolution (pace)
JP2019517802A (ja) オンターゲットおよびオフターゲットの多標的システムを用いた標的特異的ヌクレアーゼをスクリーニングするための方法およびその利用
JPWO2020191234A5 (zh)
JPWO2020191233A5 (zh)
JPWO2020191243A5 (zh)
US20240287487A1 (en) Improved cytosine to guanine base editors
JP2024501892A (ja) 新規の核酸誘導型ヌクレアーゼ
US20240318159A1 (en) Context-dependent, double-stranded dna-specific deaminases and uses thereof
WO2024081738A2 (en) Compositions, methods, and systems for dna modification
WO2024052681A1 (en) Rett syndrome therapy
WO2024173573A1 (en) Crispr-transposon systems and components
CA3163369A1 (en) Variant cas9

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination