CN116234914A

CN116234914A - 编码smn1蛋白的密码子优化的核酸

Info

Publication number: CN116234914A
Application number: CN202180058177.5A
Authority: CN
Inventors: D·A·马德拉; P·M·格绍维奇; A·S·维塞洛娃; T·E·舒加娃; M·A·洛穆诺娃; M·A·雪莉雅娃; D·V·莫洛佐夫
Original assignee: Biocard Jsc
Current assignee: Biocard Jsc
Priority date: 2020-06-02
Filing date: 2021-06-02
Publication date: 2023-06-06
Also published as: US20230212609A1; JP2023529855A; AU2021282898A1; EP4159863A1; AR122500A1; ECSP22092206A; CL2022003428A1; CR20220619A; MX2022015231A; RU2742837C1; BR112022024708A2; IL298772A; KR20230019162A; MA58655A1; WO2021246909A1; CA3181288A1; CO2022017334A2; PE20240079A1; MA58655B1; TW202214862A

Abstract

本申请涉及遗传学、基因疗法和分子生物学领域。更具体地说，本发明涉及编码SMN1蛋白(生存运动神经元蛋白)的分离的密码子优化的核酸、基于其的表达盒和载体，以及用于增加SMN1基因在靶细胞中的表达的基于AAV9(腺相关病毒血清型9)的重组病毒，及其用途。

Description

编码SMN1蛋白的密码子优化的核酸

技术领域

背景技术

脊髓性肌萎缩症(SMA)是一种常染色体隐性神经肌肉病症，由生存运动神经元1(SMN1)基因中的突变和编码的SMN蛋白的丧失引起(Lefebvre等人,Cell(1995)80:155-165)。SMN的缺乏导致脊髓腹角(前角)的运动神经元变性，这导致负责爬行、行走、颈部活动和吞咽的近端肌以及控制呼吸和咳嗽的不随意肌的无力(Sumner C.J.,NeuroRx(2006)3:235-245)。因此，SMA患者很容易患肺炎和其他肺部问题，诸如限制性肺病。

基因疗法是治疗脊髓性肌萎缩症(SMA)的一种有前景的方法。

腺相关病毒(AAV)载体被认为在CNS基因疗法中是有效的，因为它们具有合适的毒性和免疫原性概况，它们可用于神经细胞转导，并且它们能够介导CNS中的长期表达。

腺相关病毒(AAV)是一种小的(20纳米)、独立复制缺陷的、无包膜的病毒。许多不同的AAV血清型已经在人类和灵长类动物中描述。腺相关病毒的基因组由长约4,700个核苷酸的(+或-)单链DNA(ssDNA)构成。基因组DNA的末端有末端反向重复(ITR)。基因组包含两个开放阅读框(ORF)，Rep和Cap，其包含若干个编码各种蛋白产物的替代阅读框(alternative reading frame)。rep产物是AAV复制必不可少的，而三种衣壳蛋白(VP1、VP2和VP3)以及其他替代产物则由Cap基因编码。VP1、VP2和VP3以1:1:10的比例存在，形成二十面体的衣壳(Xie Q.等人The atomic structure of adeno-associated virus(AAV-2),avector for human gene therapy.Proc Natl Acad Sci USA,2002；99:10405-10410)。在重组AAV(rAAV)载体产生期间，由ITR侧接的表达盒被包装到AAV衣壳中。AAV复制所需的基因不包括在盒中。重组AAV被认为是最安全和最广泛使用的用于体内基因转移的病毒载体之一。载体可以感染多种组织类型的细胞，提供强大和持续的转基因表达。它们也是非致病性的，而且具有低免疫原性概况(High KA等人,"rAAV human trial experience"MethodsMol Biol.2011；807:429-57)。

在开发有效的基因疗法领域，研究的迫切目的之一是对载体中的目的基因进行密码子优化，以实现目的基因的最大水平表达，这反过来将允许使用较低剂量的载体来实现显著的效果。

遗传密码子的特性之一是简并性，即不同的密码子(三核苷酸)编码相同的氨基酸的能力。这种翻译成相同氨基酸的密码子被称为同义密码子。在天然序列中，同义密码子之一在进化过程中被随机选择，但同义密码子的使用频率是不同的：每个氨基酸都有更优选和更不优选的密码子。密码子优化是一种用于扩大蛋白分子的产生的广泛使用的技术，其提供了合适的同义密码子之一与蛋白序列中每个氨基酸的合理映射。密码子优化的共通原则之一涉及使用最频繁的密码子，而其他方法是后来引入的，诸如协调(再现密码子使用频率的分布)，但它们并不总是能提高生产率。除了密码子频率外，序列GC含量(鸟嘌呤和胞嘧啶占序列总长度的比例)也可能影响生产效率，特别是显示高GC含量与哺乳动物细胞中mRNA水平的提高有关(Grzegorz Kudla等人,High Guanine and Cytosine ContentIncreases mRNALevels in Mammalian Cells,2006年6月,第4卷,第6期,e180,第933-942页)。值得进一步注意的是，mRNA的稳定二级结构元件，即具有低自由折叠能的那些，可能会降低效率。

对目的基因序列进行密码子优化的不同变体可能导致以下情况(与野生型基因相比)：a)目的基因的表达水平将略有提高；

b)目的基因的表达水平将显著提高；

c)目的基因的表达水平将大致保持在相同水平；

d)目的基因的表达水平将降低。

因此，需要SMN1基因的密码子优化序列来增加SMN1基因在靶细胞中的表达。

发现与SMN1-WT(野生型)相比，SMN1的密码子优化序列(SMN1-GeneBeam(或缩写为SMN1-GB))(其具有SEQ ID NO:2的核苷酸序列)，使SMN1基因的转录显著增加至超过3倍，即，SMN1-GeneBeam的mRNA拷贝数显著增加至超过3倍，这反过来又导致了SMN1基因以及相应的SMN蛋白的表达显著增加。

发明内容

一方面，本发明涉及分离的密码子优化的核酸，其编码具有SEQ ID NO:1的SMN1蛋白(生存运动神经元蛋白)，并包括SEQ ID NO:2的核酸序列。

一方面，本发明涉及表达盒，其包括上述密码子优化的核酸。

在一些实施方案中，表达盒在5'-端到3'-端方向上包括以下元件：

左侧(第一)ITR(反向末端重复)；

CMV(巨细胞病毒)增强子；

CMV(巨细胞病毒)启动子；

hBG1基因(血红蛋白亚基γ1基因)的内含子；

SMN1基因的上述密码子优化的核酸；

hGH1多聚腺苷酸化信号(人生长激素基因多聚腺苷酸化信号)

右侧(第二)ITR。

在一些实施方案中，表达盒包括具有SEQ ID NO:4的序列的核酸。

一方面，本发明涉及包括上述密码子优化的核酸或上述盒的表达载体。

一方面，本发明涉及用于增加SMN1基因在靶细胞中的表达的基于AAV9(腺相关病毒血清型9)的重组病毒，其包括衣壳和上述表达盒。

在一些实施方案中，基于AAV9的重组病毒具有包括AAV9蛋白VP1的衣壳。

在一些实施方案中，基于AAV9的重组病毒具有包括AAV9蛋白VP1的衣壳，所述VP1具有SEQ ID NO:5的氨基酸序列。

在一些实施方案中，基于AAV9的重组病毒具有包括AAV9蛋白VP1的衣壳，所述VP1具有带有一个或多个点突变的SEQ ID NO:5的氨基酸序列。

在一些实施方案中，基于AAV9的重组病毒具有包括AAV9蛋白VP1的衣壳，所述VP1具有SEQ ID NO:5的氨基酸序列或带有一个或多个点突变的SEQ ID NO:5的氨基酸序列，且表达盒在5'-端到3'-端方向上包括以下元件：

CMV增强子；

CMV启动子；

hBG1基因的内含子；

SMN1基因的上述密码子优化的核酸；

hGH1多聚腺苷酸化信号；

右侧ITR。

在一些实施方案中，基于AAV9的重组病毒具有包括AAV9蛋白VP1的衣壳，所述VP1具有SEQ ID NO:5的氨基酸序列或带有一个或多个点突变的SEQ ID NO:5的氨基酸序列，且表达盒包含具有SEQ ID NO:4的核酸。

一方面，本发明涉及用于向靶细胞递送SMN1基因的药物组合物，其包括与一种或多种药学上可接受的赋形剂组合的上述基于AAV9的重组病毒。

一方面，本发明涉及上述基于AAV9的重组病毒或上述组合物用于向靶细胞递送SMN1基因的用途。

附图说明

图1.转染后SMN1在mRNA水平的表达。用5μg质粒pAAV-SMN1-WT和pAAV-SMN1-GB(根据GeneBeam算法，编码无密码子优化和有密码子优化的SMN1基因)转染HEK293细胞和HSMC。72小时后，通过定量PCR确定每个样品中SMN1基因的拷贝数(n＝3)。还确定了GAPDH持家基因(household gene)的拷贝数。所有获得的SMN1的水平都相对于每个样品中10,000个拷贝的GAPDH基因归一化。提供了两种细胞系的SMN1-WT、SMN-GB的归一化平均拷贝数的数据，其中标明了标准偏差。此外，提供了每个系中SMN1-GB和SMN1-WT的归一化拷贝数的比例。

图2.转染后SMN1在蛋白水平的表达。用5μg质粒pAAV-SMN1-WT和pAAV-SMN1-GB(根据GeneBeam算法，编码无密码子优化和有密码子优化的SMN1基因)转染HSMC。72小时后，每个样品中用针对SMN1蛋白的一抗和用Alexa Fluor 488标记的二抗对细胞进行染色(n＝3)。显示了扣除用二抗而不用一抗染色的细胞上获得的背景信号后样品中活细胞的平均荧光信号强度，其中标明了标准偏差。

图3.转导后SMN1在mRNA和蛋白水平的表达的比例。在3个独立的实验中，用AAV9-SMN1-WT和AAV9-SMN1-GB病毒转导HSMC，在每个实验中，转导效率至少为对照含GFP的病毒的50％。在mRNA和蛋白水平上确定SMN1的表达(见上文)，然后计算SMN1-GB和SMN1-WT表达的比例。图中显示了平均比例和标准偏差。

定义和一般方法

除非另有定义，否则本文使用的所有技术和科学术语的含义与本领域普通技术人员通常理解的相同。

此外，除非上下文另有要求，单数术语应包括复数，且复数术语应包括单数。通常，本文所述的细胞培养、分子生物学、免疫学、微生物学、遗传学、分析化学、有机合成化学、医学和药物化学以及蛋白和核酸的杂交和化学的分类和方法是众所周知的，并被本领域的技术人员广泛使用。如在本领域常见的，或如本文所述，酶反应和纯化方法根据制造商的指南进行。

“分离的”是指从天然状态改变或取出。例如，天然存在于动物中的核酸或肽不是“分离的”，但部分或完全与其天然状态的共存材料分离的同一核酸或肽是“分离的”。分离的核酸或蛋白可以以基本上纯化的形式存在，或者可以存在于非天然环境(诸如，例如遗传修饰细胞)中。

术语“天然存在的”、“天然的”或“野生型”用于描述可以在自然界找到的与人工生产的不同的对象。例如，可以从自然界的来源中分离，并且未经实验室人员有意修饰的存在于生物体(包括病毒)中的蛋白或核苷酸序列是天然存在的。

术语“基因组”是指生物体的完整遗传材料。

如本描述和随后的权利要求所用，除非上下文另有规定，否则词语“包括(include)”和“包含(comprise)”或其变体，诸如“具有”、“包括(includes)”、“包括(including)”、“包含(comprises)”或“包含(comprising)”，将理解为意味着包括所述的整数或整数组，但不排除任何其他整数或整数组。

蛋白(肽)

如本描述所用，术语“肽”、“多肽”和“蛋白”可以互换使用，且它们指的是由通过肽键共价连接的氨基酸残基组成的化合物。蛋白或肽必须至少含有两个氨基酸，而且对构成蛋白或肽的序列的最大氨基酸数量没有限制。多肽包括包含通过肽键彼此连接的两个或更多个氨基酸的任何肽或蛋白。如本描述所用，该术语既指短链(在本领域也通常被称为例如肽、寡肽和寡聚物)，也指较长链(在本领域通常被称为蛋白，其有许多类型)。“多肽”尤其包括例如生物活性片段、基本上同源的多肽、寡肽、同二聚体、异二聚体、多肽的变体、修饰的多肽、衍生物、类似物、融合蛋白。多肽包括天然肽、重组肽、合成肽或其组合。

核酸分子

术语“核酸”、“核酸序列(nucleic sequence)"、“核酸序列(nucleic acidsequence)”、“多核苷酸”、“寡核苷酸”、“多核苷酸序列”和“核苷酸序列”在本描述中可互换使用，是指修饰或未修饰的核苷酸精确序列，其决定核酸的片段或区域、含有或不含非天然核苷酸以及是双链DNA或RNA、单链DNA或RNA或所述DNA的转录产物。

本领域的技术人员普遍知道，核酸是可以水解为单体“核苷酸”的多核苷酸。单体核苷酸可以水解成核苷。如本描述所用，作为非限制性的实例，多核苷酸包括所有通过本领域内的任何可用手段获得的核酸序列，作为非限制性的实例，所述手段包括重组手段(即使用普通的克隆技术和PCR等，从重组文库或细胞基因组中克隆核酸序列)和通过合成手段。

这里还应该指出，本发明并不涉及在其天然染色体环境中(即在天然状态下)的核苷酸序列。本发明的序列已经过分离和/或纯化，即它们被直接或间接取样(例如通过复制)，它们的环境已至少部分地修改。因此，这里也应提到通过重组遗传学(例如通过宿主细胞)获得，或通过化学合成获得的分离的核酸。

“分离的”核酸分子是从至少一种核酸分子-杂质(前者通常在核酸酶核酸的天然来源中与其结合)中鉴定并分离的核酸分子。分离的核酸分子与其在天然条件下发现的形式或集合不同。因此，分离的核酸分子与天然条件下存在于细胞中的核酸分子不同。然而，分离的核酸分子包括位于核酸酶正常表达的细胞中的核酸分子，例如，如果该核酸分子的染色体定位与其天然条件下在细胞中的定位不同。

除非另有说明，否则术语核苷酸序列涵盖其互补物。因此，具有特定序列的核酸应理解为涵盖具有其互补序列的其互补链的核酸。

术语“转化”、“转染”和“转导”是指将核酸引入细胞或宿主生物体的任何方法或手段，并可互换使用以表达相同的含义。这种方法包括但不限于转染、电穿孔、显微注射、感染、PEG融合等。

腺相关病毒(AAV)

细小病毒科(Parvovirinae family)的病毒是小的含DNA的动物病毒。细小病毒科可分成两个亚科：细小病毒亚科(Parvovirinae)(其成员感染脊椎动物)和浓核病毒亚科(Densovirinae)(其成员感染昆虫)。到2006年，已经描述了11种腺相关病毒的血清型(Mori,S.等人,2004,《Two novel adeno-associated viruses from cynomolgus monkey:pseudotyping characterization of capsid protein》,Virology,Т.330(2):375-83)。所有已知的血清型都可以感染来自多种组织类型的细胞。组织特异性由衣壳蛋白血清型决定；因此，通过分配所期望的血清型来构建基于腺相关病毒的载体。细小病毒和细小病毒科其他成员的进一步信息在文献(Kenneth I.Berns,《Parvoviridae:The Viruses andTheir Replication》,病毒学领域(Fields Virology)中的第69章(1996年第3版))中描述。

所有已知AAV血清型的基因组组织都非常相似。AAV的基因组是长度小于约5000个核苷酸(nt)的线性的单链DNA分子。反向末端重复(ITR)侧接非结构蛋白(Rep)和结构蛋白(Cap)的复制的独特编码核苷酸序列。Cap基因编码形成衣壳的VP蛋白(VP1、VP2和VP3)。末端的145个核苷酸是自身互补的，且其被组织使得可以形成能量稳定的分子内双链体，该双链体形成T形发夹。这种发夹结构作为病毒DNA复制的起点起作用，充当细胞DNA聚合酶复合物的引物。哺乳动物细胞感染野生型AAV(wtAAV)后，Rep基因(例如Rep78和Rep52)分别使用P5启动子和P19启动子表达，且两种Rep蛋白在病毒基因组的复制中均具有一定功能。Rep开放阅读框(Rep ORF)中的剪接事件导致实际上四种Rep蛋白(例如Rep78、Rep68、Rep52和Rep40)的表达。然而，已经显示编码Rep78和Rep52蛋白的未剪接的mRNA足以在哺乳动物细胞中产生AAV载体。

载体

如本文所用的术语“载体”是指能够运输与其相连的另一种核酸的核酸分子。

术语“感染单位(iu)”、“感染性颗粒”或“复制单位”在关于病毒滴度使用时，是指如通过感染中心检测法(也称为复制中心检测法)(如例如在McLaughlin等人,J.Virol.(1988)62:1963-1973中所述)测量的，感染性重组AAV载体颗粒的数量。

术语“异源”当其涉及核酸序列(诸如编码序列和调控序列)时，表示通常不连接在一起，和/或通常不与特定细胞相关的序列。因此，核酸构建体或载体的“异源”区是在另一个核酸分子内或与另一个核酸分子连接的核酸片段，所述核酸片段在自然界中未发现与另一个分子有关联。例如，核酸构建体的异源区可以包括编码序列，其侧接在自然界中未发现与该编码序列有关联的序列。异源编码序列的另一个实例是编码序列本身在自然界中未发现的构建体(例如，具有不同于天然基因的密码子的合成序列)。

如本描述中所用，术语“表达”定义为特定核苷酸序列在其启动子驱动下的转录和/或翻译。

用途

“基因疗法”是将基因插入受试者的细胞和/或组织中，以治疗疾病，通常是遗传性疾病，其中有缺陷的突变等位基因用功能等位基因替换。

“治疗(treat)”、“治疗(treatment)”和“疗法”是指减轻或消除生物学病症和/或其伴随症状中至少一种的方法。如本文所用，“减轻”疾病、病症或状况是指降低疾病、病症或状况的症状的严重程度和/或发生频率。此外，本文对“治疗”的提及包括对治愈性、姑息性和预防性治疗的提及。

一方面，治疗的受试者或患者是哺乳动物，优选为人类受试者。所述受试者可以是任何年龄的男性或女性。

术语“病症”是指任何可从根据本发明的治疗中获益的状况。这包括慢性和急性病症或疾病，包括那些使哺乳动物容易出现有关病症的病理状况。

“疾病”是指这样的动物健康状态，其中动物无法维持体内稳态，且其中如果疾病没有得到改善，那么动物的健康就会继续恶化。

术语“受试者”、“患者”、“个体”等在本描述中可以互换使用，且它们指的是适用本描述中所述方法的任何动物。在某些非限制性的实施方案中，受试者、患者或个体是人类。

“治疗有效量”是指在治疗期间施用的治疗剂的量，其将在一定程度上缓解所治疗疾病的一种或多种症状。

具体实施方式

密码子优化的核酸

一方面，本发明涉及编码具有SEQ ID NO:1的SMN1蛋白(生存运动神经元蛋白)的分离的密码子优化的核酸，且包括SEQ ID NO:2的核酸序列。

使用SMN_HUMAN蛋白的相应氨基酸序列作为基础，产生密码子优化的SMN1基因：MAMSSGGSGGGVPEQEDSVLFRRGTGQSDDSDIWDDTALIKAYDKAVASFKHALKNGDICETSGKPKTTPKRKPAKKNKSQKKNTAASLQQWKVGDKCSAIWSEDGCIYPATIASIDFKRETCVVVYTGYGNREEQNLSDLLSPICEVANNIEQNAQENENESQVSTDESENSRSPGNKSDNIKPKSAPWNSFLPPPPPMPGPRLGPGKPGLKFNGPPPPPPPPPPHLLSCWLPPFPSGPPIIPPPPPICPDSLDDADALGSMLISWYMSGYHTGYYMGFRQNQKEGRCSHSLN(SEQ ID NO:1)。

通过从编码SEQ ID NO:1的同义密码子之一的N-端开始，序贯地匹配每个氨基酸，将SEQ ID NO:1的氨基酸序列翻译成核苷酸序列。

实施例1中提供了关于密码子优化的SMN1基因和最终序列的选择的详细信息。

SMN1的最终密码子优化序列(SMN1-GeneBeam)具有以下核苷酸序列：ATGGCCATGAGCAGCGGCGGCAGCGGCGGCGGCGTGCCTGAGCAAGAGGACAGCGTGCTGTTCAGAAGAGGCACCGGCCAGAGCGACGACAGCGACATCTGGGACGACACCGCCCTGATCAAGGCCTACGACAAGGCCGTGGCCAGCTTCAAGCACGCCCTGAAGAACGGCGACATCTGCGAGACCAGCGGCAAGCCCAAGACCACCCCCAAGAGAAAGCCCGCCAAGAAGAACAAGAGCCAGAAGAAGAACACCGCCGCCAGCCTGCAGCAGTGGAAGGTGGGCGACAAGTGCAGCGCCATCTGGAGCGAGGACGGCTGCATCTACCCCGCCACCATCGCCAGCATCGACTTCAAGAGAGAGACCTGCGTGGTGGTGTACACCGGCTACGGCAACAGAGAGGAGCAGAACCTGAGCGACCTGCTGAGCCCCATCTGCGAGGTGGCCAACAACATCGAGCAGAACGCCCAAGAGAACGAGAACGAGAGCCAAGTGAGCACCGACGAGAGCGAGAACAGCAGAAGCCCCGGCAACAAGAGCGACAACATCAAGCCCAAGAGCGCCCCCTGGAACAGCTTCCTGCCCCCTCCCCCCCCTATGCCCGGCCCTAGACTGGGCCCTGGCAAGCCTGGCCTGAAGTTCAACGGCCCCCCCCCCCCTCCTCCTCCTCCTCCTCCTCACCTGCTGAGCTGCTGGCTGCCCCCCTTCCCCAGCGGCCCTCCTATCATCCCTCCTCCCCCCCCCATCTGCCCCGACAGCCTGGACGACGCCGACGCCCTGGGCAGCATGCTGATCAGCTGGTACATGAGCGGCTACCACACCGGCTACTACATGGGCTTCAGACAGAACCAGAAGGAGGGCCGGTGCAGCCACAGCCTGAACTAG(SEQ ID NO:2)。

与野生型SMN基因的编码序列(SMN1-WT)相比，该SMN1的最终密码子优化核苷酸序列(SMN1-GeneBeam)的密码子适应指数(评估序列的密码子频率的标准测量)增加：ATGGCGATGAGCAGCGGCGGCAGTGGTGGCGGCGTCCCGGAGCAGGAGGATTCCGTGCTGTTCCGGCGCGGCACAGGCCAGAGCGATGATTCTGACATTTGGGATGATACAGCACTGATAAAAGCATATGATAAAGCTGTGGCTTCATTTAAGCATGCTCTAAAGAATGGTGACATTTGTGAAACTTCGGGTAAACCAAAAACCACACCTAAAAGAAAACCTGCTAAGAAGAATAAAAGCCAAAAGAAGAATACTGCAGCTTCCTTACAACAGTGGAAAGTTGGGGACAAATGTTCTGCCATTTGGTCAGAAGACGGTTGCATTTACCCAGCTACCATTGCTTCAATTGATTTTAAGAGAGAAACCTGTGTTGTGGTTTACACTGGATATGGAAATAGAGAGGAGCAAAATCTGTCCGATCTACTTTCCCCAATCTGTGAAGTAGCTAATAATATAGAACAAAATGCTCAAGAGAATGAAAATGAAAGCCAAGTTTCAACAGATGAAAGTGAGAACTCCAGGTCTCCTGGAAATAAATCAGATAACATCAAGCCCAAATCTGCTCCATGGAACTCTTTTCTCCCTCCACCACCCCCCATGCCAGGGCCAAGACTGGGACCAGGAAAGCCAGGTCTAAAATTCAATGGCCCACCACCGCCACCGCCACCACCACCACCCCACTTACTATCATGCTGGCTGCCTCCATTTCCTTCTGGACCACCAATAATTCCCCCACCACCTCCCATATGTCCAGATTCTCTTGATGATGCTGATGCTTTGGGAAGTATGTTAATTTCATGGTACATGAGTGGCTATCATACTGGCTATTATATGGGTTTCAGACAAAATCAAAAAGAAGGAAGGTGCTCACATTCCTTAAATTAA(SEQ ID NO:3)。

SMN1基因的最终密码子优化的核苷酸序列(SEQ ID NO:2)的密码子适应指数对于主题序列为98％，而对于野生型序列密码子适应指数为75％。

野生型序列的GC含量为45％，即其与目标值相差15％，而对于优化的序列，SMN1基因的最终密码子优化的核苷酸序列(SEQ ID NO:2)的GC含量为64％，即其与目标值相差4％。

SMN1基因的最终密码子优化的核苷酸序列(SEQ ID NO:2)与野生型SMN1基因的核苷酸序列(SEQ ID NO:3)有71％的同一性。

表达盒。表达载体。

一方面，本发明涉及包括上述密码子优化的核酸的表达盒。

如本文所用的术语“表达盒”特别是指能够在适当环境中诱导包括在所述表达盒中的编码目的多肽的多核苷酸表达的DNA片段。当引入宿主细胞中时，表达盒尤其能够接合细胞机制以将编码目的多肽的多核苷酸转录为RNA，其然后通常进一步加工并最终翻译成目的多肽。表达盒可以包含在表达载体中。

本发明的表达盒包含启动子作为元件。如本文所用的术语“启动子”特别是指促进与启动子可操作地连接的多核苷酸转录的DNA元件。启动子可以进一步形成启动子/增强子元件的一部分。尽管“启动子”和“增强子”元件之间的物理界限并不总是很清楚，但术语“启动子”通常是指核酸分子上的一个位点，RNA聚合酶和/或任何相关因子与其结合，并在此启动转录。增强子在时间上以及空间上增强启动子的活性。本领域已知在各种各样的细胞类型中具有转录活性的许多启动子。启动子可分为两类，一类是组成性地发挥功能的启动子，而另一类是通过诱导或脱抑制调控的启动子。这两类都适合用于蛋白的表达。用于在真核细胞且特别是哺乳动物细胞中高水平生产多肽的启动子应该是强的，且优选在各种各样的细胞类型中有活性。能够在许多细胞类型中驱动表达的强组成型启动子在本领域中是众所周知的，且因此本文没有必要详细描述它们。根据本发明的想法，优选使用巨细胞病毒(CMV)启动子。衍生自人巨细胞病毒(hCMV)的即刻早期(IE)区的启动子或启动子/增强子特别适合作为本发明的表达盒中的启动子。人巨细胞病毒(hCMV)的即刻早期(IE)区以及由此获得的功能性表达诱导片段和/或功能性表达增强片段，例如，在EP0173177和EP0323997中描述，且也是本领域内众所周知的。因此，hCMV的即刻早期(IE)区的若干个片段可用作启动子和/或启动子/增强子。根据本发明的一个实施方案，人CMV启动子用于本发明的表达盒中。

左侧(第一)ITR(反向末端重复)；

CMV(巨细胞病毒)增强子；

CMV(巨细胞病毒)启动子；

hBG1基因(血红蛋白亚基γ1基因)的内含子；

SMN1基因的上述密码子优化的核酸；

hGH1多聚腺苷酸化信号(人生长激素基因多聚腺苷酸化信号)

右侧(第二)ITR。

在一些实施方案中，左侧(第一)ITR(反向末端重复)具有以下核酸序列：Cctgcaggcagctgcgcgctcgctcgctcactgaggccgcccgggcgtcgggcgacctttggtcgcccggcctcagtgagcgagcgagcgcgcagagagggagtggccaactccatcactaggggttcct(SEQ ID NO:8)。

在一些实施方案中，CMV(巨细胞病毒)增强子具有以下核酸序列：cgttacataacttacggtaaatggcccgcctggctgaccgcccaacgacccccgcccattgacgtcaataatgacgtatgttcccatagtaacgCcaatagggactttccattgacgtcaatgggtggagtatttacggtaaactgcccacttggcagtacatcaagtgtatcatatgccaagtacgccccctattgacgtcaatgacggtaaatggcccgcctggcattatgcccagtacatgaccttatgggactttcctacttggcagtacatctacgtattagtcatcgctattaccatg(SEQ ID NO:9)。

在一些实施方案中，CMV(巨细胞病毒)启动子具有以下核酸序列：gtgatgcggttttggcagtacatcaatgggcgtggatagcggtttgactcacggggatttccaagtctccaccccattgacgtcaatgggagtttgttttgGcaccaaaatcaacgggactttccaaaatgtcgtaacaactccgccccattgacgcaaatgggcggtaggcgtgtacggtgggaggtctatataagcagagct(SEQ ID NO:10)。

在一些实施方案中，hBG1(血红蛋白亚基γ1)基因的内含子具有以下核酸序列：cgaatcccggccgggaacggtgcattggaacgcggattccccgtgccaagagtgacgtaagtaccgcctatagagtctataggcccacaaaaaatgctttcttcttttaatatacttttttgtttatcttatttctaatactttccctaatctctttctttcagggcaataatgatacaatgtatcatgcctctttgcaccattctaaagaataacagtgataatttctgggttaaggcaatagcaatatttctgcatataaatatttctgcatataaattgtaactgatgtaagaggtttcatattgctaatagcagctacaatccagctaccattctgcttttattttatggttgggataaggctggattattctgagtccaagctaggcccttttgctaatcatgttcatacctcttatcttcctcccacagctcctgggcaacgtgctggtctgtgtgctggcccatcactttggcaaagaattgggat(SEQ ID NO:11)。

在一些实施方案中，hGH1(人生长激素1基因)多聚腺苷酸化信号具有以下核酸序列：

Acgggtggcatccctgtgacccctccccagtgcctctcctggccctggaagttgccactccagtgcccaccagccttgtcctaataaaattaagttgcatcattttgtctgactaggtgtccttctataatattatggggtggaggggggtggtatggagcaaggggcaagttgggaagacaacctgtagggcctgcggggtctattgggaaccaagctggagtgcagtggcacaatcttggctcactgcaatctccgcctcctgggttcaagcgattctcctgcctcagcctcccgagttgttgggattccaggcatgcatgaccaggctcagctaatttttgtttttttggtagagacggggtttcaccatattggccaggctggtctccaactcctaatctcaggtgatctacccaccttggcctcccaaattgctgggattacaggcgtgaaccactgctcccttccctgtcctt(SEQ ID NO:12)。

在一些实施方案中，右侧(第二)ITR具有以下核酸序列：aggaacccctagtgatggagttggccactccctctctgcgcgctcgctcgctcactgaggccgggcgaccaaaggtcgcccgacgcccgggctttgcccgggcggcctcagtgagcgagcgagcgcgcagctgcctgcagg(SEQ ID NO:13)。

在一些实施方案中，表达盒具有以下核酸序列：cctgcaggcagctgcgcgctcgctcgctcactgaggccgcccgggcgtcgggcgacctttggtcgcccggcctcagtgagcgagcgagcgcgcagagagggagtggccaactccatcactaggggttcctgcggccgcacgcgtctagttattaatagtaatcaattacggggtcattagttcatagcccatatatggagttccgcgttacataacttacggtaaatggcccgcctggctgaccgcccaacgacccccgcccattgacgtcaataatgacgtatgttcccatagtaacgCcaatagggactttccattgacgtcaatgggtggagtatttacggtaaactgcccacttggcagtacatcaagtgtatcatatgccaagtacgccccctattgacgtcaatgacggtaaatggcccgcctggcattatgcccagtacatgaccttatgggactttcctacttggcagtacatctacgtattagtcatcgctattaccatggtgatgcggttttggcagtacatcaatgggcgtggatagcggtttgactcacggggatttccaagtctccaccccattgacgtcaatgggagtttgttttgGcaccaaaatcaacgggactttccaaaatgtcgtaacaactccgccccattgacgcaaatgggcggtaggcgtgtacggtgggaggtctatataagcagagctcgtttagtgaaccgtcagatcgcctggagacgccatccacgctgttttgacctccatagaagacaccgggaccgatccagcctccgcggattcgaatcccggccgggaacggtgcattggaacgcggattccccgtgccaagagtgacgtaagtaccgcctatagagtctataggcccacaaaaaatgctttcttcttttaatatacttttttgtttatcttatttctaatactttccctaatctctttctttcagggcaataatgatacaatgtatcatgcctctttgcaccattctaaagaataacagtgataatttctgggttaaggcaatagcaatatttctgcatataaatatttctgcatataaattgtaactgatgtaagaggtttcatattgctaatagcagctacaatccagctaccattctgcttttattttatggttgggataaggctggattattctgagtccaagctaggcccttttgctaatcatgttcatacctcttatcttcctcccacagctcctgggcaacgtgctggtctgtgtgctggcccatcactttggcaaagaattgggattcgaacatCGATTGTAATTCATGAGCCACCATGGCCATGAGCAGCGGCGGCAGCGGCGGCGGCGTGCCTGAGCAAGAGGACAGCGTGCTGTTCAGAAGAGGCACCGGCCAGAGCGACGACAGCGACATCTGGGACGACACCGCCCTGATCAAGGCCTACGACAAGGCCGTGGCCAGCTTCAAGCACGCCCTGAAGAACGGCGACATCTGCGAGACCAGCGGCAAGCCCAAGACCACCCCCAAGAGAAAGCCCGCCAAGAAGAACAAGAGCCAGAAGAAGAACACCGCCGCCAGCCTGCAGCAGTGGAAGGTGGGCGACAAGTGCAGCGCCATCTGGAGCGAGGACGGCTGCATCTACCCCGCCACCATCGCCAGCATCGACTTCAAGAGAGAGACCTGCGTGGTGGTGTACACCGGCTACGGCAACAGAGAGGAGCAGAACCTGAGCGACCTGCTGAGCCCCATCTGCGAGGTGGCCAACAACATCGAGCAGAACGCCCAAGAGAACGAGAACGAGAGCCAAGTGAGCACCGACGAGAGCGAGAACAGCAGAAGCCCCGGCAACAAGAGCGACAACATCAAGCCCAAGAGCGCCCCCTGGAACAGCTTCCTGCCCCCTCCCCCCCCTATGCCCGGCCCTAGACTGGGCCCTGGCAAGCCTGGCCTGAAGTTCAACGGCCCCCCCCCCCCTCCTCCTCCTCCTCCTCCTCACCTGCTGAGCTGCTGGCTGCCCCCCTTCCCCAGCGGCCCTCCTATCATCCCTCCTCCCCCCCCCATCTGCCCCGACAGCCTGGACGACGCCGACGCCCTGGGCAGCATGCTGATCAGCTGGTACATGAGCGGCTACCACACCGGCTACTACATGGGCTTCAGACAGAACCAGAAGGAGGGCCGGTGCAGCCACAGCCTGAACTGATctagagtcgacctgcagaagcttgcctcgagcagcgctgctcgagagatctacgggtggcatccctgtgacccctccccagtgcctctcctggccctggaagttgccactccagtgcccaccagccttgtcctaataaaattaagttgcatcattttgtctgactaggtgtccttctataatattatggggtggaggggggtggtatggagcaaggggcaagttgggaagacaacctgtagggcctgcggggtctattgggaaccaagctggagtgcagtggcacaatcttggctcactgcaatctccgcctcctgggttcaagcgattctcctgcctcagcctcccgagttgttgggattccaggcatgcatgaccaggctcagctaatttttgtttttttggtagagacggggtttcaccatattggccaggctggtctccaactcctaatctcaggtgatctacccaccttggcctcccaaattgctgggattacaggcgtgaaccactgctcccttccctgtccttctgattttgtaggtaaccacgtgcggaccgagcggccgcaggaacccctagtgatggagttggccactccctctctgcgcgctcgctcgctcactgaggccgggcgaccaaaggtcgcccgacgcccgggctttgcccgggcggcctcagtgagcgagcgagcgcgcagctgcctgcagg(SEQ ID NO:4)。

一方面，本发明涉及包括上述密码子优化的核酸或上述表达盒的表达载体。

在一些实施方案中，载体是质粒，即一段环状的双链DNA，其中可以连接另外的DNA段。

在一些实施方案中，载体是病毒载体，其中另外的DNA段可以连接到病毒基因组中。

在一些实施方案中，载体能够在引入其的宿主细胞中自主复制(例如，具有细菌复制起点的细菌载体和游离型哺乳动物载体)。在进一步的实施方案中，载体(例如非游离型哺乳动物载体)在引入宿主细胞后可以整合到宿主细胞的基因组中，且从而与宿主基因一起复制。此外，某些载体能够指导与之可操作地连接的基因的表达。这种载体在本文中称为“重组表达载体”(或简称“表达载体”)。

表达载体包括质粒、逆转录病毒、腺病毒、腺相关病毒(AAV)、植物病毒，诸如花椰菜花叶病毒、烟草花叶病毒、黏粒、YAC、EBV衍生的游离体等。可以将DNA分子连接到载体中，使得载体内的转录和翻译控制序列发挥其预期的调控DNA的转录和翻译的功能。可选择与所使用的表达宿主细胞相容的表达载体和表达控制序列。DNA分子可以通过标准的方法引入到表达载体中(例如互补的限制性位点的连接，或如果不存在限制性位点，则平端连接)。

重组表达载体也可以编码促进宿主细胞分泌目的蛋白的信号肽。目的蛋白的基因可以克隆到载体中，使得信号肽与目的蛋白的氨基末端框内连接在一起。信号肽可以是免疫球蛋白信号肽或异源信号肽(即来自非免疫球蛋白蛋白的信号肽)。

除了本发明的SMN1-GB基因之外，本发明的载体的重组表达可携带控制SMN1-GB基因在宿主细胞中表达的调控序列。本领域技术人员将理解，表达载体的设计，包括调控序列的选择，可以取决于诸如待转化的宿主细胞的选择、所期望蛋白的表达水平等因素。哺乳动物中表达宿主细胞的优选控制序列包括确保在哺乳动物细胞中高水平蛋白表达的病毒元件，诸如衍生自以下的启动子和/或增强子：逆转录病毒LTR、巨细胞病毒(CMV)(诸如CMV启动子/增强子)、猿猴病毒40(SV40)(诸如SV40启动子/增强子)、腺病毒(例如主要晚期启动子腺病毒(AdMLP))、多瘤病毒和强哺乳动物启动子，诸如天然免疫球蛋白启动子或肌动蛋白启动子。

术语“控制序列”是指在特定宿主生物体中表达可操作地连接的编码序列所必需的DNA序列。例如，适合用于原核生物的控制序列包括启动子、任选的操纵序列和核糖体结合位点。已知真核细胞利用启动子、多聚腺苷酸化信号和增强子。

如本描述所用，术语“启动子”或“转录调控序列”或“调控序列”是指控制一个或多个编码序列转录的核酸片段，并且其位于相对于从编码序列的转录起始位点开始的转录方向的阅读方向的上游，并且在结构上通过DNA依赖性RNA聚合酶的结合位点、转录起始位点和任何其他DNA序列(包括但不限于：转录因子结合位点、阻抑蛋白结合位点和激活蛋白结合位点，以及本领域技术人员已知的直接或间接地与所述启动子一起调控转录水平的任何其他核苷酸序列)的存在来鉴定。“组成型”启动子是在通常的生理和发育条件下在大多数组织中有活性的启动子。“诱导型”启动子是例如在化学诱导剂的影响下受到生理或发育调控的启动子。“组织特异性”启动子仅在特定类型的组织或细胞中有活性。

如本文所用的术语"增强子(enhancers)"或"增强子(enhancer)"可以指与编码重组产物的DNA序列相邻定位的DNA序列。增强子元件通常位于启动子元件的5'方向，或者可以位于编码DNA序列(例如转录或翻译成一种或多种重组产物的DNA序列)的下游或内部。因此，增强子元件可以位于编码重组产物的DNA序列上游或所述序列下游的100个碱基对、200个碱基对或300个或更多个碱基对处。增强子元件可以将由DNA序列表达的重组产物的量增加到高于与单个启动子元件相关的表达水平。本领域普通技术人员容易获得多种增强子元件。

除了上述基因和调控序列之外，本发明的重组表达载体可以携带另外的序列，诸如调控宿主细胞中载体的复制的序列(例如复制起点)和选择标记基因。选择标记基因促进引入了载体的宿主细胞的选择(参见例如美国专利号4,399,216、4,634,665和5,179,017)。例如，选择标记基因通常赋予引入了载体的宿主细胞对药物(诸如G418、潮霉素或氨甲蝶呤)的抗性。例如，选择标记基因包括二氢叶酸还原酶(DHFR)基因(用于氨甲蝶呤选择/扩增期间的dhfr-宿主细胞)、neo基因(用于G418选择)和谷氨酸合成酶基因。

如本描述所用的术语“表达控制序列”是指实现它们所连接的编码序列的表达和加工所必需的多核苷酸序列。表达控制序列包括适当的转录起始、终止、启动子和增强子序列；有效的RNA加工信号，诸如剪接和多聚腺苷酸化信号；稳定细胞质mRNA的序列；提高翻译效率的序列(即，Kozak共有序列)；增强蛋白稳定性的序列；以及当需要时，增强蛋白分泌的序列。这种控制序列的性质根据宿主生物体而不同；在原核生物中，这种控制序列通常包括核糖体结合位点的启动子，以及转录终止序列；在真核生物中，通常，这种控制序列包括启动子和转录终止序列。术语“控制序列”旨在至少包括其存在对表达和加工至关重要的所有组件，且还可以包括其存在是有利的另外的组件，例如，前导序列和融合伴侣序列。

如本文所用，术语“可操作地连接”是指多核苷酸(或多肽)元件在功能关系中的连接。当一个核酸与另一个核酸序列在功能关系条件下存在时，它就是“可操作地连接”的。例如，如果转录调控序列影响编码序列的转录，那么它就与所述编码序列可操作地连接。术语“可操作地连接”是指被连接的DNA序列通常是连续的，并且在需要连接两个蛋白编码区时，也是连续的并且存在于阅读框中。

在本发明的一个实施方案中，“表达载体”涉及包含侧接细小病毒序列或反向末端重复(ITR)序列的一个或多个目的多核苷酸序列、目的基因或“转基因”的载体。

本发明的盒和载体都不包含编码腺相关病毒的非结构蛋白(Rep)和结构蛋白(Cap)的基因的核苷酸序列。

基于AAV9(腺相关病毒血清型9)的重组病毒

如本描述所用的术语“基于AAV的重组病毒”(或“基于AAV的病毒样颗粒”，或“AAV重组病毒株”，或“AAV重组载体”，或“rAAV载体”)是指上述表达盒(或上述表达载体)，其被包裹在AAV衣壳中。

除其他替代产物外，Cap基因编码3种衣壳蛋白(VP1、VP2和VP3)。VP1、VP2和VP3以1:1:10的比例存在，形成二十面体的衣壳(Xie Q.等人.The atomic structure of adeno-associated virus(AAV-2),a vector for human gene therapy.Proc Natl Acad SciUSA,2002；99:10405-10410)。这些基因的转录从一个启动子(p40)开始。相应的蛋白(VP1、VP2和VP3)的分子量分别为87、72和62kDa。所有这三种蛋白都翻译自单一的mRNA。转录后，前mRNA可以以两种不同的方式剪接，其中较长或较短的内含子被切除，形成各种核苷酸长度的mRNA。

在生产基于AAV(rAAV)的重组病毒期间，侧接ITR的表达盒被包装到AAV衣壳中。如上述提到的，AAV复制所需的基因并不包括在盒中。

表达盒DNA以单链DNA分子(ssDNA)的形式被包装到病毒衣壳中，长度约为3000个核苷酸。一旦细胞被病毒感染，单链DNA就会转换为双链DNA(dsDNA)的形式。dsDNA只能由细胞的蛋白使用，所述蛋白将本发明的一个或多个基因转录为RNA。

在一些实施方案中，基于AAV9的重组病毒具有包括AAV9蛋白VP1的衣壳，所述VP1具有以下氨基酸序列：MAADGYLPDWLEDNLSEGIREWWALKPGAPQPKANQQHQDNARGLVLPGYKYLGPGNGLDKGEPVNAADAAALEHDKAYDQQLKAGDNPYLKYNHADAEFQERLKEDTSFGGNLGRAVFQAKKRLLEPLGLVEEAAKTAPGKKRPVEQSPQEPDSSAGIGKSGAQPAKKRLNFGQTGDTESVPDPQPIGEPPAAPSGVGSLTMASGGGAPVADNNEGADGVGSSSGNWHCDSQWLGDRVITTSTRTWALPTYNNHLYKQISNSTSGGSSNDNAYFGYSTPWGYFDFNRFHCHFSPRDWQRLINNNWGFRPKRLNFKLFNIQVKEVTDNNGVKTIANNLTSTVQVFTDSDYQLPYVLGSAHEGCLPPFPADVFMIPQYGYLTLNDGSQAVGRSSFYCLEYFPSQMLRTGNNFQFSYEFENVPFHSSYAHSQSLDRLMNPLIDQYLYYLSKTINGSGQNQQTLKFSVAGPSNMAVQGRNYIPGPSYRQQRVSTTVTQNNNSEFAWPGASSWALNGRNSLMNPGPAMASHKEGEDRFFPLSGSLIFGKQGTGRDNVDADKVMITNEEEIKTTNPVATESYGQVATNHQSAQAQAQTGWVQNQGILPGMVWQDRDVYLQGPIWAKIPHTDGNFHPSPLMGGFGMKHPPPQILIKNTPVPADPPTAFNKDKLNSFITQYSTGQVSVEIEWELQKENSKRWNPEIQYTSNYYKSNNVEFAVNTEGVYSEPRPIGTRYLTRNL(SEQID NO:5)。

在一些实施方案中，基于AAV9的重组病毒具有包括AAV9蛋白VP2的衣壳。

在一些实施方案中，基于AAV9的重组病毒具有包括AAV9蛋白VP2的衣壳，所述VP2具有以下氨基酸序列：TAPGKKRPVEQSPQEPDSSAGIGKSGAQPAKKRLNFGQTGDTESVPDPQPIGEPPAAPSGVGSLTMASGGGAPVADNNEGADGVGSSSGNWHCDSQWLGDRVITTSTRTWALPTYNNHLYKQISNSTSGGSSNDNAYFGYSTPWGYFDFNRFHCHFSPRDWQRLINNNWGFRPKRLNFKLFNIQVKEVTDNNGVKTIANNLTSTVQVFTDSDYQLPYVLGSAHEGCLPPFPADVFMIPQYGYLTLNDGSQAVGRSSFYCLEYFPSQMLRTGNNFQFSYEFENVPFHSSYAHSQSLDRLMNPLIDQYLYYLSKTINGSGQNQQTLKFSVAGPSNMAVQGRNYIPGPSYRQQRVSTTVTQNNNSEFAWPGASSWALNGRNSLMNPGPAMASHKEGEDRFFPLSGSLIFGKQGTGRDNVDADKVMITNEEEIKTTNPVATESYGQVATNHQSAQAQAQTGWVQNQGILPGMVWQDRDVYLQGPIWAKIPHTDGNFHPSPLMGGFGMKHPPPQILIKNTPVPADPPTAFNKDKLNSFITQYSTGQVSVEIEWELQKENSKRWNPEIQYTSNYYKSNNVEFAVNTEGVYSEPRPIGTRYLTRNL(SEQ ID NO:6)。

在一些实施方案中，基于AAV9的重组病毒具有包括AAV9蛋白VP2的衣壳，所述VP2具有带有一个或多个点突变的SEQ ID NO:6的氨基酸序列。

在一些实施方案中，基于AAV9的重组病毒具有包括AAV9蛋白VP3的衣壳。

在一些实施方案中，基于AAV9的重组病毒具有包括AAV9蛋白VP3的衣壳，所述VP3具有以下氨基酸序列：MASGGGAPVADNNEGADGVGSSSGNWHCDSQWLGDRVITTSTRTWALPTYNNHLYKQISNSTSGGSSNDNAYFGYSTPWGYFDFNRFHCHFSPRDWQRLINNNWGFRPKRLNFKLFNIQVKEVTDNNGVKTIANNLTSTVQVFTDSDYQLPYVLGSAHEGCLPPFPADVFMIPQYGYLTLNDGSQAVGRSSFYCLEYFPSQMLRTGNNFQFSYEFENVPFHSSYAHSQSLDRLMNPLIDQYLYYLSKTINGSGQNQQTLKFSVAGPSNMAVQGRNYIPGPSYRQQRVSTTVTQNNNSEFAWPGASSWALNGRNSLMNPGPAMASHKEGEDRFFPLSGSLIFGKQGTGRDNVDADKVMITNEEEIKTTNPVATESYGQVATNHQSAQAQAQTGWVQNQGILPGMVWQDRDVYLQGPIWAKIPHTDGNFHPSPLMGGFGMKHPPPQILIKNTPVPADPPTAFNKDKLNSFITQYSTGQVSVEIEWELQKENSKRWNPEIQYTSNYYKSNNVEFAVNTEGVYSEPRPIGTRYLTRNL(SEQ ID NO:7)。

在一些实施方案中，基于AAV9的重组病毒具有包括AAV9蛋白VP3的衣壳，所述VP3具有带有一个或多个点突变的SEQ ID NO:7的氨基酸序列。

在一些实施方案中，基于AAV9的重组病毒具有包括AAV9蛋白VP1、VP2和VP3的衣壳。

在一些实施方案中，基于AAV9的重组病毒具有包括以下蛋白的衣壳：具有SEQ IDNO:5的氨基酸序列的VP1、具有SEQ ID NO:6的氨基酸序列的VP2和具有SEQ ID NO:7的氨基酸序列的VP3。

在一些实施方案中，基于AAV9的重组病毒具有包括以下蛋白的衣壳：具有带有一个或多个点突变的SEQ ID NO:5的氨基酸序列的VP1、具有带有一个或多个点突变的SEQ IDNO:6的氨基酸序列的VP2和具有带有一个或多个点突变的SEQ ID NO:7的氨基酸序列的VP3。

短语“多个点突变”是指两个、三个、四个、五个、六个、七个、八个、九个或十个点取代。

特别优选的实施方案包括本质上是保守的取代(突变)，即取代发生在根据其侧链加入的氨基酸家族内。特别地，氨基酸通常分为四个家族：(1)酸性氨基酸是天冬氨酸和谷氨酸；(2)碱性氨基酸是赖氨酸、精氨酸、组氨酸；(3)非极性氨基酸是丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸；以及(4)不带电荷的极性氨基酸是甘氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、丝氨酸、苏氨酸、酪氨酸。苯丙氨酸、色氨酸和酪氨酸有时被分类为芳香族氨基酸。例如，可以合理地预测，独立地将亮氨酸取代为异亮氨酸或缬氨酸、将天冬氨酸取代为谷氨酸、将苏氨酸取代为丝氨酸，或类似地将氨基酸保守取代为结构上相关的氨基酸将不会对生物学活性产生重大影响。例如，目的多肽可以包括最多达约5-10个保守或非保守的氨基酸取代，只要分子的期望功能保持完整。

在AAV9蛋白VP1、VP2或VP3的序列中有使用氨基酸取代的点突变的一个实施方案是将AAV9蛋白VP1、VP2或VP3中的至少一个氨基酸残基用另一个氨基酸残基取代。

保守取代显示在表A的“优选取代”栏中。

CMV增强子；

CMV启动子；

hBG1基因的内含子；

SMN1基因的上述密码子优化的核酸；

hGH1多聚腺苷酸化信号；

右侧ITR。

在一些实施方案中，基于AAV9的重组病毒具有包括以下蛋白的衣壳：具有SEQ IDNO:5的氨基酸序列的VP1、具有SEQ ID NO:6的氨基酸序列的VP2和具有SEQ ID NO:7的氨基酸序列的VP3，且表达盒在5'-端到3'-端方向上包括以下元件：

CMV增强子；

CMV启动子；

hBG1基因的内含子；

SMN1基因的上述密码子优化的核酸；

hGH1多聚腺苷酸化信号；

右侧ITR。

在一些实施方案中，基于AAV9的重组病毒具有包括以下蛋白的衣壳：具有带有一个或多个点突变的SEQ ID NO:5的氨基酸序列的VP1、具有带有一个或多个点突变的SEQ IDNO:6的氨基酸序列的VP2和具有带有一个或多个点突变的SEQ ID NO:7的氨基酸序列的VP3，且表达盒在5'-端到3'-端方向上包括以下元件：

CMV增强子；

CMV启动子；

hBG1基因的内含子；

SMN1基因的上述密码子优化的核酸；

hGH1多聚腺苷酸化信号；

右侧ITR。

在一些实施方案中，基于AAV9的重组病毒具有包括以下蛋白的衣壳：具有SEQ IDNO:5的氨基酸序列的VP1、具有SEQ ID NO:6的氨基酸序列的VP2和具有SEQ ID NO:7的氨基酸序列的VP3，且表达盒包含具有SEQ ID NO:4的核酸。

在一些实施方案中，基于AAV9的重组病毒具有包括以下蛋白的衣壳：具有带有一个或多个点突变的SEQ ID NO:5的氨基酸序列的VP1、具有带有一个或多个点突变的SEQ IDNO:6的氨基酸序列的VP2和具有带有一个或多个点突变的SEQ ID NO:7的氨基酸序列的VP3，且表达盒包含具有SEQ ID NO:4的核酸。

药物组合物

在特定实施方案中，本发明涉及药物组合物，其包含在药学上可接受的载体中或在其他药剂、佐剂、稀释剂等中的本发明的基于AAV9的重组病毒。对于注射，载体将通常为液体载体。对于其他施用方法，载体可以是固体或液体，诸如无菌无热原水或无菌无热原磷酸盐缓冲盐水溶液。对于吸入施用，载体是可吸入的，且优选为固体或液体颗粒形式。作为注射介质，优选使用含有注射溶液常用的添加剂(诸如稳定剂、盐或盐水和/或缓冲剂)的水。

“药物组合物”是指包含本发明的上述基于AAV9的重组病毒和至少一种选自以下的组分的组合物：药学上可接受的和药理学相容的赋形剂，诸如填充剂、溶剂、稀释剂、载体、助剂、分布剂、递送剂、防腐剂、稳定剂、乳化剂、助悬剂、增稠剂、延长递送控制剂，其选择和比例取决于施用类型和途径及剂量。本发明的药物组合物及其制备方法对于本领域的技术人员将无疑是显而易见的。药物组合物应优选按照GMP(药品生产质量管理规范(GoodManufacturing Practice))的要求制造。组合物可包含缓冲组合物、张力剂、稳定剂和增溶剂。

“药学上可接受的”是指不具有生物学或其他负面副作用的材料，例如，可以施用于受试者而不引起任何不期望的生物学作用的材料。因此，这种药物组合物可用于，例如，离体转染细胞或向受试者直接体内施用本发明的基于AAV9的重组病毒。

术语“赋形剂”在本文中用于描述除本发明上述成分以外的任何成分。这些是无机或有机性质的物质，其在药物制造中使用以给予药物产品必要的物理化学特性。

“稳定剂”是指赋形剂或两种或更多种赋形剂的混合物，其提供活性剂的物理和/或化学稳定性。

术语“缓冲液”、“缓冲组合物”、“缓冲剂”是指能够通过其酸碱共轭组分的作用抵抗pH的变化的溶液，其使得rAAV5载体产品能够抵抗pH的变化。一般来说，药物组合物的pH优选在4,0至8.0的范围内。可使用的缓冲剂的实例包括但不限于乙酸盐、磷酸盐、柠檬酸盐、组氨酸、琥珀酸盐等缓冲溶液。

如果活性剂在规定的保质期期间，在例如2-8℃的储存温度下，保持其物理稳定性和/或化学稳定性和/或生物学活性，则药物组合物是“稳定的”。优选地，活性剂保持物理和化学稳定性两者以及生物学活性。储存期基于加速或自然老化条件下的稳定性测试结果来调整。

本发明的药物组合物可以以即用制剂的形式，以单一单位剂量或多个单一单位剂量的形式制造、包装或广泛销售。如本文所用的术语“单一单位剂量”是指含有预定量的活性成分的离散量的药物组合物。活性成分的量通常等于待在受试者中施用的活性成分的剂量，或这种剂量的方便部分，例如这种剂量的一半或三分之一。

用途

一方面，本发明涉及上述基于AAV9的重组病毒或上述组合物将SMN1基因递送到靶细胞的用途。

本领域公认的任何用于施用基于AAV9的重组病毒的方法，都可以适当地用于本发明的上述基于AAV9的重组病毒。

基于AAV9的重组病毒优选以生物有效量施用于细胞。重组病毒的“生物有效”量是足以引起感染(或转导)和细胞中异源核酸序列的表达的量。如果在体内将病毒施用于细胞(例如，如下所述，将病毒施用于受试者)，病毒载体的“生物有效”量是足以引起转导和靶细胞中异源核酸序列的表达的量。

施用本发明的上述基于AAV9的重组病毒的细胞可以是任何类型的细胞，包括但不限于神经细胞(包括周围和中枢神经系统的细胞，特别是脑细胞)、肺细胞、上皮细胞(例如肠道和呼吸道上皮细胞)、肌肉细胞、胰腺细胞(包括胰岛细胞)、肝细胞、心肌细胞、骨细胞(例如骨髓干细胞)、造血干细胞、脾细胞、角化细胞、成纤维细胞、内皮细胞、前列腺细胞、生殖细胞等。备选地，施用上述基于AAV9的重组病毒的细胞可以是任何祖细胞。作为进一步的替代方案，细胞可以是干细胞(例如神经干细胞、肝脏干细胞)。此外，如上述规定的，细胞可以来自任何物种起源。

上述基于AAV9的重组病毒不用于修饰人生殖系细胞的遗传完整性。

实施例

为了更好地理解本发明，提供以下实施例。这些实施例仅用于说明目的，而不应解释为以任何方式限制本发明的范围。

本说明书中引用的所有出版物、专利和专利申请都通过引入并入本文。尽管为了清楚地理解的目的，已经通过说明和实例的方式对前述发明进行了一些详细的描述，但根据本发明的教导，可以在不脱离所附实施方案的精神或范围的情况下，对其进行某些改变和修改，这对于本领域的普通技术人员而言将是显而易见的。

材料和一般方法

重组DNA技术

如由Sambrook J.等人,Molecular cloning:A laboratory manual；Cold SpringHarbor Laboratory Press,Cold Spring Harbor,New York,1989所述，DNA操作通过标准技术进行。分子生物学试剂按照制造商说明书使用。简言之，在选择性抗生素压力下生长(使得质粒不会在细胞群中丢失)的大肠杆菌(E.coli)细胞中产生质粒DNA用于进一步操作。我们使用商业试剂盒从细胞中分离出质粒DNA，测量浓度，并通过限制性内切酶处理或PCR扩增将其用于克隆。使用连接酶将DNA片段彼此连接，并转化到细菌细胞中，用于选择克隆和进一步生产。所有得到的遗传构建体都通过限制图谱和完整的Sanger测序进行确认。

基因合成

期望的基因段制备自通过化学合成制成的寡核苷酸。通过在彼此的顶部复性寡核苷酸，随后从边界引物进行PCR扩增来收集侧接独特限制性位点的300至1000bp长的基因段。作为结果，产生了片段的混合物，包括期望的片段。在限制性位点将片段克隆到中间载体中，随后通过DNA测序确认亚克隆片段的DNA序列。

DNA序列确定

通过Sanger测序确定DNA序列。分析DNA和蛋白序列，并在SnapGene Viewer 4.2或更高版本中处理序列数据，用于序列创建、作图(mapping)、分析、注释和说明。

培养细胞培养物

实验使用HEK293(人胚肾克隆293)和HSMC(人骨骼肌细胞)细胞系。在37℃和5％CO₂的标准条件下，在补充有10％FBS和抗生素的DMEM完全培养基上培养细胞。为了培养HSMC，用胶原(Gibco)预涂布培养塑料。在达到80-90％汇合时传代培养细胞。使用台盼蓝(Trypan Blue)染色和血细胞计数器或PI染色和流式细胞术评估细胞活力。

细胞转染

在转染前一天将细胞系接种到6孔板中，使它们在转染时达到70-80％汇合。根据制造商的方案，使用商业脂质感染试剂盒进行转染。72小时后，将细胞用胰蛋白酶溶液或类似物处理，从基质中取出，在磷酸盐缓冲液中洗涤，并收集用于进一步分析靶基因和蛋白的表达。对于每次转染，使用表达GFP的对照质粒来对照转染效率(GFP阳性细胞的百分比)。只有当转染效率至少为50％时，才进行进一步的分析。

所有的测量均在3个独立的实验中进行。

基因表达分析

SMN1在mRNA水平的表达是通过定量PCR评估的。简言之，使用对野生型SMN1序列或GeneBeam特异的引物和样品。对GAPDH持家基因特异的引物和样品用于对照初始RNA水平。使用已知拷贝数的包含相应基因扩增序列的线性化质粒DNA，为每组引物和样品绘制校准曲线。通过使用校准曲线确定每个样品中SMN1-GeneBeam、SMN1-WT和GAPDH的拷贝数来分析表达，然后我们将每1000个GAPDH拷贝的SMN1拷贝数归一化。在同一实验中，对不同样品的所得值进行比较。

通过流式细胞术确定SMN1蛋白表达

通过细胞内染色，随后使用流式细胞术分析来评估细胞中的SMN1蛋白含量。简言之，用TrypLE从培养板中取出细胞，在PBS中洗涤，在4％多聚甲醛溶液中固定，使用0.5％TritonX-100的PBS溶液透化，在补充有1-5％BSA的封闭缓冲液中温育，并使用针对SMN1的一抗和用Alexa Fluor 488标记的二抗分两个阶段染色。染色后，将细胞在PBS中洗涤一次并在流式细胞仪上分析。在扣除用二抗而不加入一抗染色的信号后评估信号的平均强度。

重组AAV载体的病毒颗粒的组装和纯化

为了组装含有SMN1基因或GFP对照基因的AAV颗粒，我们使用HEK293包装细胞，其中如下转染3个质粒：

包含具有转基因(SNM1或GFP)表达盒的AAV基因组的质粒；

用于表达AAV9血清型Cap基因和AAV2血清型Rep基因的质粒。使用替代阅读框，每个基因编码若干种蛋白产物；

用于表达AAV衣壳的组装和包装所需的Ad5(腺病毒血清型5)基因的质粒。

72小时后，裂解细胞，并使用过滤和层析方法纯化和浓缩病毒颗粒。用对重组病毒基因组的位点特异的引物和样品通过定量PCR确定病毒颗粒的滴度，并表示为每1ml病毒基因组的拷贝数。

转导细胞培养物

类似于转染实验接种细胞系，然后加入含有病毒颗粒的产物，并在72小时后分析细胞。通过测量GFP+细胞的百分比来估计转导效率。

对所使用的培养物进行预测试，检查转导效率。简言之，将AAV9-GFP病毒产物以细胞和病毒颗粒的不同比例转导到细胞系中。病毒颗粒数与细胞数之比称为感染复数(MOI)。AAV9-GFP病毒的MOI在50,000至1,000,000的范围内。作为结果，确定每个系的MOI范围，在该范围内转导效率随MOI线性变化。细胞系的进一步转导在其线性范围内进行。

转导后，如上所述分析基因和蛋白表达。

所有测量均在3个独立的实验中进行。

实施例1.用于产生密码子优化的SMN1基因的方法

SMN_HUMAN蛋白的相应氨基酸序列(SEQ ID NO:1)用作产生密码子优化的SMN1基因的基础。

考虑到以下特征之一或其组合，通过从编码SEQ ID NO:1的同义密码子之一的N-端开始，序贯地匹配每个氨基酸，将SEQ ID NO:1的氨基酸序列翻译成核苷酸序列：

1)密码子使用频率(Yasukazu Nakamura等人,Codon usage tabulated from theinternational DNA sequence databases；its status 1999,Nucleic Acids Research,1999,第27卷,No.1,doi:10.1093/nar/27.1.292)；

2)所得核苷酸序列末端区域的GC含量(GC含量的目标值为60％，如GrzegorzKudla等人,High Guanine and Cytosine Content Increases mRNA Levels inMammalian Cells,PLoS Biol,2006年6月,第4卷,第6期,e180,doi:10.1371/journal.pbio.0040180的文章所示，因此当前GC含量与目标GC含量之间的差异越小，密码子越优选)；

3)所得核苷酸序列末端区域的折叠自由能(二级结构使用Zuker algorithm,Michael Zuker等人,Optimal computer folding of large RNA sequences usingthermodynamics and auxiliary information,Nucleic Acids Research,第9卷,第1期,1981年1月10日,第133-148页,doi:10.1093/nar/9.1.133确定)。

构建过程进一步避免了语义核苷酸序列(semantic nucleotide sequence)的产生，诸如限制性位点、内部核糖体进入位点和剪接位点。

作为将SEQ ID NO:1的氨基酸序列翻译成核苷酸序列的结果，产生了SMN1基因的密码子优化的核苷酸序列的阵列。

在进一步的研究中，SMN1的上述密码子优化的核苷酸序列的阵列中的几个序列没有显示出SMN1基因转录的增加，即，与所使用的任何细胞系上的SMN1-WT相比，SMN1-opt的mRNA拷贝数没有显著增加，或者这种增加是不显著的。

在进一步的研究中，SMN1基因的大多数密码子优化的核苷酸序列显示出SMN1基因转录增加至1.5-2倍，即，与所使用的所有细胞系上的SMN1-WT相比，SMN1-opt的mRNA拷贝数显著增加。

在进一步的研究中，SMN1基因的上述密码子优化的核苷酸序列的阵列中的一个序列出乎意料地显示出SMN1基因转录增加至超过3倍，即，与所使用的所有细胞系上的SMN1-WT相比，SMN1-opt的mRNA拷贝数出乎意料地增加至超过3倍(参见实施例3-4)。该SMN1基因的最终密码子优化的核苷酸序列通常称为SMN1-GeneBeam(或缩写为SMN1-GB)。

SMN1的最终密码子优化序列(SMN1-GeneBeam)具有由SEQ ID NO:2表示的核苷酸序列。

该SMN1的最终密码子优化核苷酸序列(SMN1-GeneBeam)的特征在于，与野生型SMN基因的编码序列(具有SEQ ID NO:3的SMN1-WT)相比，密码子适应指数增加(Paul M.Sharp等人.,The codon adaptation index-a measure of directional synonymous codonusage bias,and its potential applications,Nucleic Acids Research,第15卷,第3期,1987年2月11日,第1281-1295页,doi:10.1093/nar/15.3.1281-用于评估序列的密码子使用频率的标准测量)。

SMN1基因的最终密码子优化的核苷酸序列(SEQ ID NO：2)的密码子适应指数为98％，而野生型序列的密码子适应指数为75％。

野生型序列的GC含量为45％，即其与目标值相差15％，而SMN1基因的最终密码子优化的核苷酸序列(SEQ ID NO：2)的GC含量为64％，即其与目标值相差4％。

SMN1基因的最终密码子优化核苷酸序列(SEQ ID NO:2)和野生型SMN1基因的核苷酸序列(SEQ ID NO:3)有71％的同一性。

实施例2.携带重组AAV基因组并编码SMN1基因的遗传构建体的组装。

通过用特异性引物以及基于HEK293细胞的总RNA合成的cDNA进行扩增，产生野生型SMN1基因序列。在扩增过程期间，从基因的5'端加入Kozak序列和ClaI限制性位点，以及从3'端加入XbaI限制性位点。其后，通过限制性连接酶法在ClaI和XbaI位点处将SMN1基因的序列克隆到来自CellBiolab(USA)的商业构建体pAAV-GFP对照质粒(VPK-402)中，用SMN1取代GFP基因，从而产生pAAV-SMN1-WT构建体。

SMN1-GeneBeam序列如上所述组装。鉴于序列的复杂性，尽管其大小相对较小，但是我们在中间载体pGEMT中进行了一系列基因片段的亚克隆，其中对每个载体都进行了序列验证。接下来，通过PCR从若干个中间载体组装出全长版本的基因，并克隆到中间载体pGEMT中。构建体pAAV-SMN1-WT用作最终的遗传构建体，其中通过PCR在添加到SMN1-GeneBeam序列的末端的ClaI和XbaI位点处，用SMN1-GeneBeam取代野生型SMN1。

最终的载体含有基因的表达和组装所必需的所有元件作为重组AAV基因组的一部分：

1)在被包裹到病毒衣壳中的序列的末端的ITR；

2)用于表达目标基因的元件(启动子、增强子、内含子、Kozak序列、转基因、多聚腺苷酸化位点)；

3)细菌复制起点和抗生素抗性基因，以在细菌细胞中产生质粒DNA。

值得注意的是，含有SMN1-WT和SMN1-GeneBeam基因的遗传构建体仅在SMN1基因序列上有差异，而其他方面完全相同。

实施例3.验证来自遗传构建体的SMN1表达。

如上所述，将遗传构建体pAAV-GFP、pAAV-SMN1-WT和pAAV-SMN1-GB转染到HEK293细胞和HSMC中。我们每1孔使用5μg的DNA。72小时后，收集细胞并如上所述分析SMN1的表达(相对于GAPDH归一化)。

发现SMN1基因的密码子优化对SMN1的转录有影响，与SMN1-WT的mRNA拷贝数相比，SMN1-GB的mRNA拷贝数在所使用的两个细胞系上都可靠地增加至若干倍(图1)。特别地，对于HEK293细胞，SMN1-GB与SMN1-WT的归一化表达比例为3.9，而对于HSMC，这一比例为12.8。

如所获得的数据所示，SMN1-GeneBeam的该特性不是细胞特异性的，并进一步使目标基因在细胞中的表达增加至若干倍，这可以成为开发基因疗法药物的一个重要优势。此外，该特性不是由于基因表达盒的任何差异和来自SMN1-GeneBeam基因的携带基因组的适当病毒衣壳的特性造成的，因为该分析是在仅在SMN1基因的密码子优化上有差异，而其他方面完全相同的遗传构建体上进行的。

如上所述，选择HSMC通过流式细胞术检查SMN1在蛋白水平上的表达。显示在每1孔使用5μg DNA时，用pAAV-SMN1-GB转染的细胞中来自SMN1特异性抗体的信号比用pAAV-SMN1-WT转染的细胞高12.2倍(图2)。这一观察表明，SMN1-GB在翻译方面没有优势，但转录的增加进一步提高了细胞中的最终蛋白水平。

实施例4.创建表达SMN1的病毒产品

质粒pAAV-SMN1-WT和pAAV-SMN1-GB以及生产重组AAV病毒颗粒所需的其他质粒(见上文)用于AAV生产的生物过程。使用的血清型是野生型AAV9血清型或带有一个或多个点突变的野生型AAV9血清型。

在所有情况下，只有使用的血清型和衣壳突变(如果有的话)相同时，才比较野生型SMN1和SMN1-GeneBeam的特性。所有基于AAV9的血清型，无论是野生型还是带有突变的血清型，在下文中都称为AAV9，不指定突变。

生物过程产生称为AAV9-SMN1-WT和AAV9-SMN1-GB的重组病毒颗粒，以及对照颗粒AAV9-GFP。在确定病毒颗粒的滴度后，使用具有相同MOI(实验之间MOI值在50,000至200,000之间变化)的所有3种产物转导感受细胞，即原代人肌细胞HSMC。只有转导效率至少为50％时才进行进一步分析。

成功转导后，从基质中取出细胞，在磷酸盐缓冲液中洗涤，并如上所述在mRNA和蛋白水平上分析SMN1的表达。显示SMN1-GeneBeam转录活性的增加保持一致；因此，检测到SMN1-GeneBeam的mRNA是野生型SMN1的mRNA的7.3倍。在蛋白水平上进一步观察到类似的增加(6.8倍)(图3)，这显示出SMN1-GB在翻译水平上没有优势；然而，使用AAV9-SMN1-GB产物，转录效率的可检测的增加在靶细胞中提供了较高水平的SMN1表达，这在例如脊髓性肌萎缩症的治疗中是重要的优势，所述脊髓性肌萎缩症中SMN1蛋白表达的水平定义了从0(胚胎致死)到4(无需特殊治疗)的疾病类型。

序列表

<110> LLC "ANABION"

<120> 编码SMN1蛋白的密码子优化的核酸

<160> 13

<170> BiSSAP 1.3.6

<210> 1

<211> 294

<212> PRT

<213> 天然序列

<220>

<223> SMN1蛋白的氨基酸序列

<400> 1

Met Ala Met Ser Ser Gly Gly Ser Gly Gly Gly Val Pro Glu Gln Glu

1 5 10 15

Asp Ser Val Leu Phe Arg Arg Gly Thr Gly Gln Ser Asp Asp Ser Asp

20 25 30

Ile Trp Asp Asp Thr Ala Leu Ile Lys Ala Tyr Asp Lys Ala Val Ala

35 40 45

Ser Phe Lys His Ala Leu Lys Asn Gly Asp Ile Cys Glu Thr Ser Gly

50 55 60

Lys Pro Lys Thr Thr Pro Lys Arg Lys Pro Ala Lys Lys Asn Lys Ser

65 70 75 80

Gln Lys Lys Asn Thr Ala Ala Ser Leu Gln Gln Trp Lys Val Gly Asp

85 90 95

Lys Cys Ser Ala Ile Trp Ser Glu Asp Gly Cys Ile Tyr Pro Ala Thr

100 105 110

Ile Ala Ser Ile Asp Phe Lys Arg Glu Thr Cys Val Val Val Tyr Thr

115 120 125

Gly Tyr Gly Asn Arg Glu Glu Gln Asn Leu Ser Asp Leu Leu Ser Pro

130 135 140

Ile Cys Glu Val Ala Asn Asn Ile Glu Gln Asn Ala Gln Glu Asn Glu

145 150 155 160

Asn Glu Ser Gln Val Ser Thr Asp Glu Ser Glu Asn Ser Arg Ser Pro

165 170 175

Gly Asn Lys Ser Asp Asn Ile Lys Pro Lys Ser Ala Pro Trp Asn Ser

180 185 190

Phe Leu Pro Pro Pro Pro Pro Met Pro Gly Pro Arg Leu Gly Pro Gly

195 200 205

Lys Pro Gly Leu Lys Phe Asn Gly Pro Pro Pro Pro Pro Pro Pro Pro

210 215 220

Pro Pro His Leu Leu Ser Cys Trp Leu Pro Pro Phe Pro Ser Gly Pro

225 230 235 240

Pro Ile Ile Pro Pro Pro Pro Pro Ile Cys Pro Asp Ser Leu Asp Asp

245 250 255

Ala Asp Ala Leu Gly Ser Met Leu Ile Ser Trp Tyr Met Ser Gly Tyr

260 265 270

His Thr Gly Tyr Tyr Met Gly Phe Arg Gln Asn Gln Lys Glu Gly Arg

275 280 285

Cys Ser His Ser Leu Asn

290

<210> 2

<211> 882

<212> DNA

<213> 人工序列

<220>

<223> 编码SMN1蛋白的密码子优化的核酸序列(SMN1 GeneBeam)

<400> 2

atggccatga gcagcggcgg cagcggcggc ggcgtgcctg agcaagagga cagcgtgctg 60

ttcagaagag gcaccggcca gagcgacgac agcgacatct gggacgacac cgccctgatc 120

aaggcctacg acaaggccgt ggccagcttc aagcacgccc tgaagaacgg cgacatctgc 180

gagaccagcg gcaagcccaa gaccaccccc aagagaaagc ccgccaagaa gaacaagagc 240

cagaagaaga acaccgccgc cagcctgcag cagtggaagg tgggcgacaa gtgcagcgcc 300

atctggagcg aggacggctg catctacccc gccaccatcg ccagcatcga cttcaagaga 360

gagacctgcg tggtggtgta caccggctac ggcaacagag aggagcagaa cctgagcgac 420

ctgctgagcc ccatctgcga ggtggccaac aacatcgagc agaacgccca agagaacgag 480

aacgagagcc aagtgagcac cgacgagagc gagaacagca gaagccccgg caacaagagc 540

gacaacatca agcccaagag cgccccctgg aacagcttcc tgccccctcc cccccctatg 600

cccggcccta gactgggccc tggcaagcct ggcctgaagt tcaacggccc ccccccccct 660

cctcctcctc ctcctcctca cctgctgagc tgctggctgc cccccttccc cagcggccct 720

cctatcatcc ctcctccccc ccccatctgc cccgacagcc tggacgacgc cgacgccctg 780

ggcagcatgc tgatcagctg gtacatgagc ggctaccaca ccggctacta catgggcttc 840

agacagaacc agaaggaggg ccggtgcagc cacagcctga ac 882

<210> 3

<211> 885

<212> DNA

<213> 天然序列

<220>

<223> 野生型SMN1基因的核酸序列(SMN1-WT, SMN1-野生型)

<400> 3

atggcgatga gcagcggcgg cagtggtggc ggcgtcccgg agcaggagga ttccgtgctg 60

ttccggcgcg gcacaggcca gagcgatgat tctgacattt gggatgatac agcactgata 120

aaagcatatg ataaagctgt ggcttcattt aagcatgctc taaagaatgg tgacatttgt 180

gaaacttcgg gtaaaccaaa aaccacacct aaaagaaaac ctgctaagaa gaataaaagc 240

caaaagaaga atactgcagc ttccttacaa cagtggaaag ttggggacaa atgttctgcc 300

atttggtcag aagacggttg catttaccca gctaccattg cttcaattga ttttaagaga 360

gaaacctgtg ttgtggttta cactggatat ggaaatagag aggagcaaaa tctgtccgat 420

ctactttccc caatctgtga agtagctaat aatatagaac aaaatgctca agagaatgaa 480

aatgaaagcc aagtttcaac agatgaaagt gagaactcca ggtctcctgg aaataaatca 540

gataacatca agcccaaatc tgctccatgg aactcttttc tccctccacc accccccatg 600

ccagggccaa gactgggacc aggaaagcca ggtctaaaat tcaatggccc accaccgcca 660

ccgccaccac caccacccca cttactatca tgctggctgc ctccatttcc ttctggacca 720

ccaataattc ccccaccacc tcccatatgt ccagattctc ttgatgatgc tgatgctttg 780

ggaagtatgt taatttcatg gtacatgagt ggctatcata ctggctatta tatgggtttc 840

agacaaaatc aaaaagaagg aaggtgctca cattccttaa attaa 885

<210> 4

<211> 2924

<212> DNA

<213> 人工序列

<220>

<223> 表达盒的核酸序列 (完整)

<400> 4

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcgtcg ggcgaccttt 60

ggtcgcccgg cctcagtgag cgagcgagcg cgcagagagg gagtggccaa ctccatcact 120

aggggttcct gcggccgcac gcgtctagtt attaatagta atcaattacg gggtcattag 180

ttcatagccc atatatggag ttccgcgtta cataacttac ggtaaatggc ccgcctggct 240

gaccgcccaa cgacccccgc ccattgacgt caataatgac gtatgttccc atagtaacgc 300

caatagggac tttccattga cgtcaatggg tggagtattt acggtaaact gcccacttgg 360

cagtacatca agtgtatcat atgccaagta cgccccctat tgacgtcaat gacggtaaat 420

ggcccgcctg gcattatgcc cagtacatga ccttatggga ctttcctact tggcagtaca 480

tctacgtatt agtcatcgct attaccatgg tgatgcggtt ttggcagtac atcaatgggc 540

gtggatagcg gtttgactca cggggatttc caagtctcca ccccattgac gtcaatggga 600

gtttgttttg gcaccaaaat caacgggact ttccaaaatg tcgtaacaac tccgccccat 660

tgacgcaaat gggcggtagg cgtgtacggt gggaggtcta tataagcaga gctcgtttag 720

tgaaccgtca gatcgcctgg agacgccatc cacgctgttt tgacctccat agaagacacc 780

gggaccgatc cagcctccgc ggattcgaat cccggccggg aacggtgcat tggaacgcgg 840

attccccgtg ccaagagtga cgtaagtacc gcctatagag tctataggcc cacaaaaaat 900

gctttcttct tttaatatac ttttttgttt atcttatttc taatactttc cctaatctct 960

ttctttcagg gcaataatga tacaatgtat catgcctctt tgcaccattc taaagaataa 1020

cagtgataat ttctgggtta aggcaatagc aatatttctg catataaata tttctgcata 1080

taaattgtaa ctgatgtaag aggtttcata ttgctaatag cagctacaat ccagctacca 1140

ttctgctttt attttatggt tgggataagg ctggattatt ctgagtccaa gctaggccct 1200

tttgctaatc atgttcatac ctcttatctt cctcccacag ctcctgggca acgtgctggt 1260

ctgtgtgctg gcccatcact ttggcaaaga attgggattc gaacatcgat tgtaattcat 1320

gagccaccat ggccatgagc agcggcggca gcggcggcgg cgtgcctgag caagaggaca 1380

gcgtgctgtt cagaagaggc accggccaga gcgacgacag cgacatctgg gacgacaccg 1440

ccctgatcaa ggcctacgac aaggccgtgg ccagcttcaa gcacgccctg aagaacggcg 1500

acatctgcga gaccagcggc aagcccaaga ccacccccaa gagaaagccc gccaagaaga 1560

acaagagcca gaagaagaac accgccgcca gcctgcagca gtggaaggtg ggcgacaagt 1620

gcagcgccat ctggagcgag gacggctgca tctaccccgc caccatcgcc agcatcgact 1680

tcaagagaga gacctgcgtg gtggtgtaca ccggctacgg caacagagag gagcagaacc 1740

tgagcgacct gctgagcccc atctgcgagg tggccaacaa catcgagcag aacgcccaag 1800

agaacgagaa cgagagccaa gtgagcaccg acgagagcga gaacagcaga agccccggca 1860

acaagagcga caacatcaag cccaagagcg ccccctggaa cagcttcctg ccccctcccc 1920

cccctatgcc cggccctaga ctgggccctg gcaagcctgg cctgaagttc aacggccccc 1980

ccccccctcc tcctcctcct cctcctcacc tgctgagctg ctggctgccc cccttcccca 2040

gcggccctcc tatcatccct cctccccccc ccatctgccc cgacagcctg gacgacgccg 2100

acgccctggg cagcatgctg atcagctggt acatgagcgg ctaccacacc ggctactaca 2160

tgggcttcag acagaaccag aaggagggcc ggtgcagcca cagcctgaac tgatctagag 2220

tcgacctgca gaagcttgcc tcgagcagcg ctgctcgaga gatctacggg tggcatccct 2280

gtgacccctc cccagtgcct ctcctggccc tggaagttgc cactccagtg cccaccagcc 2340

ttgtcctaat aaaattaagt tgcatcattt tgtctgacta ggtgtccttc tataatatta 2400

tggggtggag gggggtggta tggagcaagg ggcaagttgg gaagacaacc tgtagggcct 2460

gcggggtcta ttgggaacca agctggagtg cagtggcaca atcttggctc actgcaatct 2520

ccgcctcctg ggttcaagcg attctcctgc ctcagcctcc cgagttgttg ggattccagg 2580

catgcatgac caggctcagc taatttttgt ttttttggta gagacggggt ttcaccatat 2640

tggccaggct ggtctccaac tcctaatctc aggtgatcta cccaccttgg cctcccaaat 2700

tgctgggatt acaggcgtga accactgctc ccttccctgt ccttctgatt ttgtaggtaa 2760

ccacgtgcgg accgagcggc cgcaggaacc cctagtgatg gagttggcca ctccctctct 2820

gcgcgctcgc tcgctcactg aggccgggcg accaaaggtc gcccgacgcc cgggctttgc 2880

ccgggcggcc tcagtgagcg agcgagcgcg cagctgcctg cagg 2924

<210> 5

<211> 736

<212> PRT

<213> 天然序列

<220>

<223> VP1 AAV9蛋白的氨基酸序列

<400> 5

Met Ala Ala Asp Gly Tyr Leu Pro Asp Trp Leu Glu Asp Asn Leu Ser

1 5 10 15

Glu Gly Ile Arg Glu Trp Trp Ala Leu Lys Pro Gly Ala Pro Gln Pro

20 25 30

Lys Ala Asn Gln Gln His Gln Asp Asn Ala Arg Gly Leu Val Leu Pro

35 40 45

Gly Tyr Lys Tyr Leu Gly Pro Gly Asn Gly Leu Asp Lys Gly Glu Pro

50 55 60

Val Asn Ala Ala Asp Ala Ala Ala Leu Glu His Asp Lys Ala Tyr Asp

65 70 75 80

Gln Gln Leu Lys Ala Gly Asp Asn Pro Tyr Leu Lys Tyr Asn His Ala

85 90 95

Asp Ala Glu Phe Gln Glu Arg Leu Lys Glu Asp Thr Ser Phe Gly Gly

100 105 110

Asn Leu Gly Arg Ala Val Phe Gln Ala Lys Lys Arg Leu Leu Glu Pro

115 120 125

Leu Gly Leu Val Glu Glu Ala Ala Lys Thr Ala Pro Gly Lys Lys Arg

130 135 140

Pro Val Glu Gln Ser Pro Gln Glu Pro Asp Ser Ser Ala Gly Ile Gly

145 150 155 160

Lys Ser Gly Ala Gln Pro Ala Lys Lys Arg Leu Asn Phe Gly Gln Thr

165 170 175

Gly Asp Thr Glu Ser Val Pro Asp Pro Gln Pro Ile Gly Glu Pro Pro

180 185 190

Ala Ala Pro Ser Gly Val Gly Ser Leu Thr Met Ala Ser Gly Gly Gly

195 200 205

Ala Pro Val Ala Asp Asn Asn Glu Gly Ala Asp Gly Val Gly Ser Ser

210 215 220

Ser Gly Asn Trp His Cys Asp Ser Gln Trp Leu Gly Asp Arg Val Ile

225 230 235 240

Thr Thr Ser Thr Arg Thr Trp Ala Leu Pro Thr Tyr Asn Asn His Leu

245 250 255

Tyr Lys Gln Ile Ser Asn Ser Thr Ser Gly Gly Ser Ser Asn Asp Asn

260 265 270

Ala Tyr Phe Gly Tyr Ser Thr Pro Trp Gly Tyr Phe Asp Phe Asn Arg

275 280 285

Phe His Cys His Phe Ser Pro Arg Asp Trp Gln Arg Leu Ile Asn Asn

290 295 300

Asn Trp Gly Phe Arg Pro Lys Arg Leu Asn Phe Lys Leu Phe Asn Ile

305 310 315 320

Gln Val Lys Glu Val Thr Asp Asn Asn Gly Val Lys Thr Ile Ala Asn

325 330 335

Asn Leu Thr Ser Thr Val Gln Val Phe Thr Asp Ser Asp Tyr Gln Leu

340 345 350

Pro Tyr Val Leu Gly Ser Ala His Glu Gly Cys Leu Pro Pro Phe Pro

355 360 365

Ala Asp Val Phe Met Ile Pro Gln Tyr Gly Tyr Leu Thr Leu Asn Asp

370 375 380

Gly Ser Gln Ala Val Gly Arg Ser Ser Phe Tyr Cys Leu Glu Tyr Phe

385 390 395 400

Pro Ser Gln Met Leu Arg Thr Gly Asn Asn Phe Gln Phe Ser Tyr Glu

405 410 415

Phe Glu Asn Val Pro Phe His Ser Ser Tyr Ala His Ser Gln Ser Leu

420 425 430

Asp Arg Leu Met Asn Pro Leu Ile Asp Gln Tyr Leu Tyr Tyr Leu Ser

435 440 445

Lys Thr Ile Asn Gly Ser Gly Gln Asn Gln Gln Thr Leu Lys Phe Ser

450 455 460

Val Ala Gly Pro Ser Asn Met Ala Val Gln Gly Arg Asn Tyr Ile Pro

465 470 475 480

Gly Pro Ser Tyr Arg Gln Gln Arg Val Ser Thr Thr Val Thr Gln Asn

485 490 495

Asn Asn Ser Glu Phe Ala Trp Pro Gly Ala Ser Ser Trp Ala Leu Asn

500 505 510

Gly Arg Asn Ser Leu Met Asn Pro Gly Pro Ala Met Ala Ser His Lys

515 520 525

Glu Gly Glu Asp Arg Phe Phe Pro Leu Ser Gly Ser Leu Ile Phe Gly

530 535 540

Lys Gln Gly Thr Gly Arg Asp Asn Val Asp Ala Asp Lys Val Met Ile

545 550 555 560

Thr Asn Glu Glu Glu Ile Lys Thr Thr Asn Pro Val Ala Thr Glu Ser

565 570 575

Tyr Gly Gln Val Ala Thr Asn His Gln Ser Ala Gln Ala Gln Ala Gln

580 585 590

Thr Gly Trp Val Gln Asn Gln Gly Ile Leu Pro Gly Met Val Trp Gln

595 600 605

Asp Arg Asp Val Tyr Leu Gln Gly Pro Ile Trp Ala Lys Ile Pro His

610 615 620

Thr Asp Gly Asn Phe His Pro Ser Pro Leu Met Gly Gly Phe Gly Met

625 630 635 640

Lys His Pro Pro Pro Gln Ile Leu Ile Lys Asn Thr Pro Val Pro Ala

645 650 655

Asp Pro Pro Thr Ala Phe Asn Lys Asp Lys Leu Asn Ser Phe Ile Thr

660 665 670

Gln Tyr Ser Thr Gly Gln Val Ser Val Glu Ile Glu Trp Glu Leu Gln

675 680 685

Lys Glu Asn Ser Lys Arg Trp Asn Pro Glu Ile Gln Tyr Thr Ser Asn

690 695 700

Tyr Tyr Lys Ser Asn Asn Val Glu Phe Ala Val Asn Thr Glu Gly Val

705 710 715 720

Tyr Ser Glu Pro Arg Pro Ile Gly Thr Arg Tyr Leu Thr Arg Asn Leu

725 730 735

<210> 6

<211> 599

<212> PRT

<213> 天然序列

<220>

<223> VP2 AAV9蛋白的氨基酸序列

<400> 6

Thr Ala Pro Gly Lys Lys Arg Pro Val Glu Gln Ser Pro Gln Glu Pro

1 5 10 15

Asp Ser Ser Ala Gly Ile Gly Lys Ser Gly Ala Gln Pro Ala Lys Lys

20 25 30

Arg Leu Asn Phe Gly Gln Thr Gly Asp Thr Glu Ser Val Pro Asp Pro

35 40 45

Gln Pro Ile Gly Glu Pro Pro Ala Ala Pro Ser Gly Val Gly Ser Leu

50 55 60

Thr Met Ala Ser Gly Gly Gly Ala Pro Val Ala Asp Asn Asn Glu Gly

65 70 75 80

Ala Asp Gly Val Gly Ser Ser Ser Gly Asn Trp His Cys Asp Ser Gln

85 90 95

Trp Leu Gly Asp Arg Val Ile Thr Thr Ser Thr Arg Thr Trp Ala Leu

100 105 110

Pro Thr Tyr Asn Asn His Leu Tyr Lys Gln Ile Ser Asn Ser Thr Ser

115 120 125

Gly Gly Ser Ser Asn Asp Asn Ala Tyr Phe Gly Tyr Ser Thr Pro Trp

130 135 140

Gly Tyr Phe Asp Phe Asn Arg Phe His Cys His Phe Ser Pro Arg Asp

145 150 155 160

Trp Gln Arg Leu Ile Asn Asn Asn Trp Gly Phe Arg Pro Lys Arg Leu

165 170 175

Asn Phe Lys Leu Phe Asn Ile Gln Val Lys Glu Val Thr Asp Asn Asn

180 185 190

Gly Val Lys Thr Ile Ala Asn Asn Leu Thr Ser Thr Val Gln Val Phe

195 200 205

Thr Asp Ser Asp Tyr Gln Leu Pro Tyr Val Leu Gly Ser Ala His Glu

210 215 220

Gly Cys Leu Pro Pro Phe Pro Ala Asp Val Phe Met Ile Pro Gln Tyr

225 230 235 240

Gly Tyr Leu Thr Leu Asn Asp Gly Ser Gln Ala Val Gly Arg Ser Ser

245 250 255

Phe Tyr Cys Leu Glu Tyr Phe Pro Ser Gln Met Leu Arg Thr Gly Asn

260 265 270

Asn Phe Gln Phe Ser Tyr Glu Phe Glu Asn Val Pro Phe His Ser Ser

275 280 285

Tyr Ala His Ser Gln Ser Leu Asp Arg Leu Met Asn Pro Leu Ile Asp

290 295 300

Gln Tyr Leu Tyr Tyr Leu Ser Lys Thr Ile Asn Gly Ser Gly Gln Asn

305 310 315 320

Gln Gln Thr Leu Lys Phe Ser Val Ala Gly Pro Ser Asn Met Ala Val

325 330 335

Gln Gly Arg Asn Tyr Ile Pro Gly Pro Ser Tyr Arg Gln Gln Arg Val

340 345 350

Ser Thr Thr Val Thr Gln Asn Asn Asn Ser Glu Phe Ala Trp Pro Gly

355 360 365

Ala Ser Ser Trp Ala Leu Asn Gly Arg Asn Ser Leu Met Asn Pro Gly

370 375 380

Pro Ala Met Ala Ser His Lys Glu Gly Glu Asp Arg Phe Phe Pro Leu

385 390 395 400

Ser Gly Ser Leu Ile Phe Gly Lys Gln Gly Thr Gly Arg Asp Asn Val

405 410 415

Asp Ala Asp Lys Val Met Ile Thr Asn Glu Glu Glu Ile Lys Thr Thr

420 425 430

Asn Pro Val Ala Thr Glu Ser Tyr Gly Gln Val Ala Thr Asn His Gln

435 440 445

Ser Ala Gln Ala Gln Ala Gln Thr Gly Trp Val Gln Asn Gln Gly Ile

450 455 460

Leu Pro Gly Met Val Trp Gln Asp Arg Asp Val Tyr Leu Gln Gly Pro

465 470 475 480

Ile Trp Ala Lys Ile Pro His Thr Asp Gly Asn Phe His Pro Ser Pro

485 490 495

Leu Met Gly Gly Phe Gly Met Lys His Pro Pro Pro Gln Ile Leu Ile

500 505 510

Lys Asn Thr Pro Val Pro Ala Asp Pro Pro Thr Ala Phe Asn Lys Asp

515 520 525

Lys Leu Asn Ser Phe Ile Thr Gln Tyr Ser Thr Gly Gln Val Ser Val

530 535 540

Glu Ile Glu Trp Glu Leu Gln Lys Glu Asn Ser Lys Arg Trp Asn Pro

545 550 555 560

Glu Ile Gln Tyr Thr Ser Asn Tyr Tyr Lys Ser Asn Asn Val Glu Phe

565 570 575

Ala Val Asn Thr Glu Gly Val Tyr Ser Glu Pro Arg Pro Ile Gly Thr

580 585 590

Arg Tyr Leu Thr Arg Asn Leu

595

<210> 7

<211> 534

<212> PRT

<213> 天然序列

<220>

<223> VP3 AAV9蛋白的氨基酸序列

<400> 7

Met Ala Ser Gly Gly Gly Ala Pro Val Ala Asp Asn Asn Glu Gly Ala

1 5 10 15

Asp Gly Val Gly Ser Ser Ser Gly Asn Trp His Cys Asp Ser Gln Trp

20 25 30

Leu Gly Asp Arg Val Ile Thr Thr Ser Thr Arg Thr Trp Ala Leu Pro

35 40 45

Thr Tyr Asn Asn His Leu Tyr Lys Gln Ile Ser Asn Ser Thr Ser Gly

50 55 60

Gly Ser Ser Asn Asp Asn Ala Tyr Phe Gly Tyr Ser Thr Pro Trp Gly

65 70 75 80

Tyr Phe Asp Phe Asn Arg Phe His Cys His Phe Ser Pro Arg Asp Trp

85 90 95

Gln Arg Leu Ile Asn Asn Asn Trp Gly Phe Arg Pro Lys Arg Leu Asn

100 105 110

Phe Lys Leu Phe Asn Ile Gln Val Lys Glu Val Thr Asp Asn Asn Gly

115 120 125

Val Lys Thr Ile Ala Asn Asn Leu Thr Ser Thr Val Gln Val Phe Thr

130 135 140

Asp Ser Asp Tyr Gln Leu Pro Tyr Val Leu Gly Ser Ala His Glu Gly

145 150 155 160

Cys Leu Pro Pro Phe Pro Ala Asp Val Phe Met Ile Pro Gln Tyr Gly

165 170 175

Tyr Leu Thr Leu Asn Asp Gly Ser Gln Ala Val Gly Arg Ser Ser Phe

180 185 190

Tyr Cys Leu Glu Tyr Phe Pro Ser Gln Met Leu Arg Thr Gly Asn Asn

195 200 205

Phe Gln Phe Ser Tyr Glu Phe Glu Asn Val Pro Phe His Ser Ser Tyr

210 215 220

Ala His Ser Gln Ser Leu Asp Arg Leu Met Asn Pro Leu Ile Asp Gln

225 230 235 240

Tyr Leu Tyr Tyr Leu Ser Lys Thr Ile Asn Gly Ser Gly Gln Asn Gln

245 250 255

Gln Thr Leu Lys Phe Ser Val Ala Gly Pro Ser Asn Met Ala Val Gln

260 265 270

Gly Arg Asn Tyr Ile Pro Gly Pro Ser Tyr Arg Gln Gln Arg Val Ser

275 280 285

Thr Thr Val Thr Gln Asn Asn Asn Ser Glu Phe Ala Trp Pro Gly Ala

290 295 300

Ser Ser Trp Ala Leu Asn Gly Arg Asn Ser Leu Met Asn Pro Gly Pro

305 310 315 320

Ala Met Ala Ser His Lys Glu Gly Glu Asp Arg Phe Phe Pro Leu Ser

325 330 335

Gly Ser Leu Ile Phe Gly Lys Gln Gly Thr Gly Arg Asp Asn Val Asp

340 345 350

Ala Asp Lys Val Met Ile Thr Asn Glu Glu Glu Ile Lys Thr Thr Asn

355 360 365

Pro Val Ala Thr Glu Ser Tyr Gly Gln Val Ala Thr Asn His Gln Ser

370 375 380

Ala Gln Ala Gln Ala Gln Thr Gly Trp Val Gln Asn Gln Gly Ile Leu

385 390 395 400

Pro Gly Met Val Trp Gln Asp Arg Asp Val Tyr Leu Gln Gly Pro Ile

405 410 415

Trp Ala Lys Ile Pro His Thr Asp Gly Asn Phe His Pro Ser Pro Leu

420 425 430

Met Gly Gly Phe Gly Met Lys His Pro Pro Pro Gln Ile Leu Ile Lys

435 440 445

Asn Thr Pro Val Pro Ala Asp Pro Pro Thr Ala Phe Asn Lys Asp Lys

450 455 460

Leu Asn Ser Phe Ile Thr Gln Tyr Ser Thr Gly Gln Val Ser Val Glu

465 470 475 480

Ile Glu Trp Glu Leu Gln Lys Glu Asn Ser Lys Arg Trp Asn Pro Glu

485 490 495

Ile Gln Tyr Thr Ser Asn Tyr Tyr Lys Ser Asn Asn Val Glu Phe Ala

500 505 510

Val Asn Thr Glu Gly Val Tyr Ser Glu Pro Arg Pro Ile Gly Thr Arg

515 520 525

Tyr Leu Thr Arg Asn Leu

530

<210> 8

<211> 130

<212> DNA

<213> 天然序列

<220>

<223> 左侧(第一)ITR(反向末端重复)

<400> 8

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcgtcg ggcgaccttt 60

ggtcgcccgg cctcagtgag cgagcgagcg cgcagagagg gagtggccaa ctccatcact 120

aggggttcct 130

<210> 9

<211> 304

<212> DNA

<213> 天然序列

<220>

<223> CMV (巨细胞病毒)增强子

<400> 9

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catg 304

<210> 10

<211> 204

<212> DNA

<213> 天然序列

<220>

<223> CMV (巨细胞病毒)启动子

<400> 10

gtgatgcggt tttggcagta catcaatggg cgtggatagc ggtttgactc acggggattt 60

ccaagtctcc accccattga cgtcaatggg agtttgtttt ggcaccaaaa tcaacgggac 120

tttccaaaat gtcgtaacaa ctccgcccca ttgacgcaaa tgggcggtag gcgtgtacgg 180

tgggaggtct atataagcag agct 204

<210> 11

<211> 493

<212> DNA

<213> 天然序列

<220>

<223> hBG1基因(血红蛋白γ-1亚基)的内含子

<400> 11

cgaatcccgg ccgggaacgg tgcattggaa cgcggattcc ccgtgccaag agtgacgtaa 60

gtaccgccta tagagtctat aggcccacaa aaaatgcttt cttcttttaa tatacttttt 120

tgtttatctt atttctaata ctttccctaa tctctttctt tcagggcaat aatgatacaa 180

tgtatcatgc ctctttgcac cattctaaag aataacagtg ataatttctg ggttaaggca 240

atagcaatat ttctgcatat aaatatttct gcatataaat tgtaactgat gtaagaggtt 300

tcatattgct aatagcagct acaatccagc taccattctg cttttatttt atggttggga 360

taaggctgga ttattctgag tccaagctag gcccttttgc taatcatgtt catacctctt 420

atcttcctcc cacagctcct gggcaacgtg ctggtctgtg tgctggccca tcactttggc 480

aaagaattgg gat 493

<210> 12

<211> 479

<212> DNA

<213> 天然序列

<220>

<223> hGH1多聚腺苷酸化信号(人生长激素的多聚腺苷酸化信号(多聚(A)))

<400> 12

acgggtggca tccctgtgac ccctccccag tgcctctcct ggccctggaa gttgccactc 60

cagtgcccac cagccttgtc ctaataaaat taagttgcat cattttgtct gactaggtgt 120

ccttctataa tattatgggg tggagggggg tggtatggag caaggggcaa gttgggaaga 180

caacctgtag ggcctgcggg gtctattggg aaccaagctg gagtgcagtg gcacaatctt 240

ggctcactgc aatctccgcc tcctgggttc aagcgattct cctgcctcag cctcccgagt 300

tgttgggatt ccaggcatgc atgaccaggc tcagctaatt tttgtttttt tggtagagac 360

ggggtttcac catattggcc aggctggtct ccaactccta atctcaggtg atctacccac 420

cttggcctcc caaattgctg ggattacagg cgtgaaccac tgctcccttc cctgtcctt 479

<210> 13

<211> 141

<212> DNA

<213> 天然序列

<220>

<223> 右侧(第二)ITR

<400> 13

aggaacccct agtgatggag ttggccactc cctctctgcg cgctcgctcg ctcactgagg 60

ccgggcgacc aaaggtcgcc cgacgcccgg gctttgcccg ggcggcctca gtgagcgagc 120

gagcgcgcag ctgcctgcag g 141

Claims

1.编码具有SEQ ID NO:1的SMN1蛋白(生存运动神经元蛋白)的密码子优化的核酸，其包括SEQ ID NO:2的核酸序列。

2.表达盒，其包括权利要求1所述的密码子优化的核酸。

3.权利要求2所述的表达盒，其在5'-端到3'-端方向上包括以下元件：

左侧(第一)ITR(反向末端重复)；

CMV(巨细胞病毒)增强子；

CMV(巨细胞病毒)启动子；

hBG1基因(血红蛋白亚基γ1基因)的内含子；

权利要求1所述的密码子优化的核酸；

hGH1多聚腺苷酸化信号(人生长激素基因多聚腺苷酸化信号)

右侧(第二)ITR。

4.权利要求3所述的表达盒，其包括具有SEQ ID NO:4的核酸。

5.表达载体，其包括权利要求1所述的密码子优化的核酸或权利要求2-4所述的盒。

6.用于增加SMN1基因在靶细胞中的表达的基于AAV9(腺相关病毒血清型9)的重组病毒，其包括衣壳和权利要求2-4中任何一项所述的表达盒。

7.权利要求6所述的基于AAV9的重组病毒，其中所述衣壳包含AAV9蛋白VP1。

8.权利要求7所述的基于AAV9的重组病毒，其中所述衣壳包含具有SEQ ID NO:5的氨基酸序列的AAV9蛋白VP1。

9.权利要求7所述的基于AAV9的重组病毒，其中所述衣壳包含AAV9蛋白VP1，所述VP1具有带有一个或多个点突变的SEQ ID NO:5的氨基酸序列。

10.权利要求6-9所述的基于AAV9的重组病毒，其中所述衣壳包含AAV9蛋白VP1，所述VP1具有SEQ ID NO:5的氨基酸序列或带有一个或多个点突变的SEQ ID NO:5的氨基酸序列，且所述表达盒在5'-端到3'-端方向上包括以下元件：

CMV增强子；

CMV启动子；

hBG1基因的内含子；

权利要求1所述的密码子优化的核酸；

hGH1多聚腺苷酸化信号；

右侧ITR。

11.权利要求6所述的基于AAV9的重组病毒，其中所述衣壳包括AAV9蛋白VP1，所述VP1具有SEQ ID NO:5的氨基酸序列或带有一个或多个点突变的SEQ ID NO:5的氨基酸序列，且所述表达盒包括具有SEQ ID NO:4的核酸。

12.用于向靶细胞递送SMN1基因的药物组合物，其包括与一种或多种药学上可接受的赋形剂组合的权利要求6-11所述的基于AAV9的重组病毒。

13.权利要求6-11所述的基于AAV9的重组病毒或权利要求12所述的组合物用于向靶细胞递送SMN1基因的用途。