CN109153996A

CN109153996A - 具有低重复核苷酸序列的编码富含脯氨酸和丙氨酸残基的重复氨基酸序列的核酸

Info

Publication number: CN109153996A
Application number: CN201680072372.2A
Authority: CN
Inventors: 尤里·宾德尔; 斯特凡·阿卡兹; 阿恩·斯科拉
Original assignee: Technische Universitaet Muenchen; XL Protein GmbH
Current assignee: Technische Universitaet Muenchen; XL Protein GmbH
Priority date: 2015-12-22
Filing date: 2016-12-22
Publication date: 2019-01-04
Anticipated expiration: 2036-12-22
Also published as: EP3394266B1; ES2877539T3; SG11201803958WA; JP2019508020A; AU2016378646B2; HUE055267T2; CN109153996B; EA201891127A1; MX2018007680A; WO2017109087A1; LT3394266T; DK3394266T3; KR20180088484A; PL3394266T3; IL259352B; US11401305B2; NZ742902A; BR112018012784A2; AU2016378646A1; IL259352A

Abstract

本发明涉及包含编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核苷酸序列的核酸分子。编码的多肽包含形成无规卷曲的重复氨基酸序列。包含所述低重复核苷酸序列的核酸分子还可以包含编码生物学或药理学活性蛋白的核苷酸序列。此外，本发明提供了鉴定包含所述低重复核苷酸序列的所述核酸分子的选择手段和方法。本发明还涉及制备所述核酸分子的方法。本文还提供了使用本文提供的核酸分子来制备编码的多肽或具有编码的多肽的药物缀合物的方法。所述药物缀合物可以包含生物学或药理学活性蛋白或小分子药物。本文还提供了包含此类核酸分子的载体和宿主。

Description

具有低重复核苷酸序列的编码富含脯氨酸和丙氨酸残基的重复氨基酸序列的核酸

本发明涉及包含编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核苷酸序列的核酸分子。编码的多肽包含形成无规卷曲的重复氨基酸序列。包含所述低重复核苷酸序列的核酸分子还可以包含编码生物学或药理学活性蛋白的核苷酸序列。此外，本发明提供了鉴定包含所述低重复核苷酸序列的所述核酸分子的选择手段和方法。本发明还涉及制备所述核酸分子的方法。本文还提供了使用本文提供的核酸分子制备编码的多肽或具有编码的多肽的药物缀合物的方法。药物缀合物可以包含生物学或药理学活性蛋白或小分子药物。本文还提供了包含此类核酸分子的载体和宿主。

形成无规卷曲的多肽在现有技术中是已知的。例如，WO2008/155134公开了包含至少约100个氨基酸残基并且由脯氨酸、丙氨酸和丝氨酸(PAS)残基组成的氨基酸序列的蛋白质。形成无规卷曲构象的氨基酸序列可以包含多个氨基酸重复。这些重复可以由至少3至30个或更多个氨基酸残基组成。WO2011/144756公开了包含仅由脯氨酸和丙氨酸(PA)残基组成的重复氨基酸序列的多肽。这些多肽也形成无规卷曲，并且由至少50个脯氨酸和丙氨酸残基组成。WO2015/132004公开了包含由PAS组成的无规卷曲结构域的重组梭菌神经毒素。US2006/0252120A1公开了富含羟脯氨酸的糖蛋白，其含有编码为具有氨基酸序列基序[(AP)₅]_n的富含脯氨酸的糖模块的区段。天然存在的多肽也涵盖富含脯氨酸和丙氨酸的序列，如以基因库登录号(AAP41454.1)公布的恒河猴疱疹病毒1基因的非常大的被膜蛋白。用于密码子优化的方法公开于WO2007/142954中。

重复的现有技术多肽，如PAS或PA序列，通常由相应的重复核酸编码。因此，现有技术的核酸也在其核苷酸序列中反映其编码的氨基酸序列的重复结构。因此，现有技术的核酸在其序列水平上是高度重复的。现有技术核酸的重复性可导致诸如部分遗传不稳定性的警告，特别是当编码长PAS或PA序列时，例如300个残基或更长时。

因此，本发明的潜在技术问题是提供用于方便且可靠地制备含有氨基酸重复的多肽，特别是包含由脯氨酸、丙氨酸和任选的丝氨酸组成的氨基酸重复的多肽的手段和方法。

该技术问题通过提供下文所提供的实施方案并如所附权利要求所表征的得以解决。

本发明涉及下述项：

1.核酸分子，其中所述核酸分子包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列，

其中所述核酸的核苷酸序列的长度为至少300个核苷酸，

其中所述核苷酸序列具有低于50,000的核苷酸重复分数(NRS)，

其中根据以下公式确定所述核苷酸重复分数(NRS)：

其中

N_tot为所述核苷酸序列的长度，

n为所述核苷酸序列内的重复的长度，以及

f_i(n)是长度为n的所述重复的频率，

其中如果有一种以上长度为n的重复，则k(n)是所述长度为n的重复的所述不同序列的数目，否则对于所述长度为n的重复，k(n)为1。

2.如项1所述的核酸分子，其中所述编码的多肽由脯氨酸和丙氨酸组成。

3.如项2所述的核酸分子，其中所述脯氨酸残基占所述编码的多肽的大于约10％且小于约75％。

4.如项1所述的核酸分子，其中所述编码的多肽由脯氨酸、丙氨酸和丝氨酸组成。

5.如项4所述的核酸分子，其中所述脯氨酸残基占所述编码的多肽的大于4％且小于40％。

6.如项1至5中任一项所述的核酸分子，其中所述核苷酸重复分数(NRS)低于100。

7.如项1至6中任一项所述的核酸分子，其中所述核酸分子具有增强的遗传稳定性。

8.如项1至7中任一项所述的核酸分子，其中所述核苷酸序列包含所述重复，其中所述重复具有最大长度n_max，其中根据以下公式确定n_max：

并且其中N_tot为所述核苷酸序列的长度。

9.如项1至8中任一项所述的核酸分子，其中所述重复具有约14、15、16或17个核苷酸至约55个核苷酸的最大长度。

10.如项1至9中任一项所述的核酸分子，其中所述重复具有对应于所述核苷酸序列的长度的50％的最大长度。

11.如项1至10中任一项所述的核酸分子，其中所述编码的多肽包含具有多个氨基酸重复的重复氨基酸序列，其中不超过9个连续氨基酸残基为相同的，并且其中所述多肽形成无规卷曲。

12.如项1至11中任一项所述的核酸分子，其中所述核酸分子选自：

(a)包含选自以下的至少一个核苷酸序列的核酸分子：SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ IDNO:26和SEQ ID NO:27；

(b)包含选自以下的至少一个核苷酸序列的核酸分子：SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ IDNO:35、SEQ ID NO:36和SEQ ID NO:37.

(c)包含选自以下的核苷酸序列的核酸分子：SEQ ID NO:38、SEQ ID NO:39、SEQID NO:40和SEQ ID NO:41；

(d)包含由以下组成的核苷酸序列的核酸分子：SEQ ID NO:42、SEQ ID NO:43、SEQID NO:44和/或SEQ ID NO:45；

(e)在严紧条件下与(a)或(b)所限定的核苷酸序列的互补链杂交的核酸分子；

(f)包含与(a)、(c)和(e)中任一项所限定的核苷酸序列具有至少56％同一性的核苷酸序列的核酸分子；

(g)包含与(b)、(d)和(e)中任一项所限定的核苷酸序列具有至少66.7％同一性的核苷酸序列的核酸分子；以及

(h)与(a)至(d)中任一项所限定的核苷酸序列由于遗传密码而简并的核酸分子。

13.如项1至12中任一项所述的核酸分子，其中所述核酸分子包含两个互补的5’-悬突，其中编码链上的5’-悬突为5’-GCC，并且其中非编码链上的5’-悬突为5’-GGC。

14.如项1至13中任一项所述的核酸分子，其与编码生物学活性蛋白的核酸可操作地连接在同一阅读框中。

15.如项14所述的核酸分子，其中所述生物学活性蛋白为治疗有效蛋白。

16.如项14或15所述的核酸分子，其中所述生物学活性蛋白选自结合蛋白、抗体片段、细胞因子、生长因子、激素、酶、蛋白疫苗、肽疫苗、由多达50个氨基酸残基组成的肽或肽模拟物。

17.如项16所述的核酸分子，其中所述结合蛋白选自抗体、Fab片段、Fab'片段、F(ab')₂片段、单链可变片段(scFv)、(单)域抗体、抗体的分离的可变区(VL和/或VH区)、CDR、免疫球蛋白结构域、CDR-衍生的肽模拟物、凝集素、蛋白支架、纤连蛋白结构域、腱生蛋白结构域、蛋白A结构域、SH3结构域、锚蛋白重复结构域和脂质运载蛋白。

18.如项14至17中任一项所述的核酸分子，其中所述生物学活性蛋白选自白细胞介素1受体拮抗剂、瘦蛋白、酸性鞘磷脂酶、腺苷脱氨酶、α-半乳糖苷酶、α-1抗胰蛋白酶、α心房利钠肽、α-半乳糖苷酶、α-葡糖苷酶、α-N-乙酰氨基葡萄糖苷酶、阿替普酶、安地普酶、糊精、糊精类似物、抗-HIV肽融合抑制剂、精氨酸脱亚胺酶、天冬酰胺酶、B结构域缺失的因子VIII、骨形态发生蛋白、缓激肽拮抗剂、B型利钠肽、Bouganin、生长激素、绒毛膜促性腺激素、CD3受体拮抗剂、CD19拮抗剂、CD20拮抗剂、CD40拮抗剂、CD40L拮抗剂、脑苷脂硫酸酯酶、凝血因子VIIa、凝血因子XIII、凝血因子IX、凝血因子X、补体成分C3抑制剂、补体成分5a拮抗剂、C-肽、CTLA-4拮抗剂、C-型利钠肽、防御素、脱氧核糖核酸酶I、EGFR受体拮抗剂、表皮生长因子、红细胞生成素、艾塞那肽-4、埃兹蛋白肽1、FcγIIB受体拮抗剂、成纤维细胞生长因子21、促卵泡激素、抑胃多肽(GIP)、GIP类似物、胰高血糖素、胰高血糖素受体激动剂、胰高血糖素样肽1(GLP-1)、GLP-1类似物、胰高血糖素样肽2(GLP-2)、GLP-2类似物、戈那瑞林、促性腺素释放激素激动剂、促性腺素释放激素拮抗剂、gp120、gp160、粒细胞集落刺激因子(G-CSF)、粒细胞巨噬细胞集落刺激因子(GM-CSF)、饥饿素(grehlin)、饥饿素类似物、生长激素、生长激素释放激素、Hematide、肝细胞生长因子、肝细胞生长因子受体(HGFR)拮抗剂、铁调素拮抗剂、铁调素模拟物、Her2/neu受体拮抗剂、组氨瑞林、水蛭素、hsp70拮抗剂、Humanin、透明质酸酶、水解溶酶体葡糖脑苷脂特异性酶、艾杜糖醛酸-2-硫酸酯酶、IgE拮抗剂、胰岛素、胰岛素类似物、胰岛素样生长因子1、胰岛素样生长因子2、干扰素-α、干扰素-α拮抗剂、干扰素-α超级激动剂、干扰素-α-n3、干扰素-β、干扰素-γ、干扰素-λ、干扰素τ、白细胞介素、白细胞介素2融合蛋白、白细胞介素-22受体亚基α(IL-22ra)拮抗剂、鸢尾素、胰岛新生相关蛋白、角质细胞生长因子、Kv1.3离子通道拮抗剂、羊毛硫肽类化合物(lanthipeptide)、脂肪酶、黄体化激素、促黄体素α、溶葡球菌酶、甘露糖苷酶、N-乙酰半乳糖胺-6-硫酸酯酶、N-乙酰氨基葡萄糖苷酶、中性粒细胞明胶酶相关脂质运载蛋白、奥曲肽、ω-芋螺毒素、毛白钝缘蜱补体抑制剂、成骨蛋白-1、护骨素、草酸脱羧酶、P128、甲状旁腺激素、Phylomer、PD-1拮抗剂、PDGF拮抗剂、苯丙氨酸解氨酶、血小板衍生生长因子、胰岛素原、蛋白质C、松弛素、松弛素类似物、分泌素、RGD肽、核糖核酸酶、森瑞博特酶(senrebotase)、丝氨酸蛋白酶抑制剂、可溶性1型补体受体、可溶性DCC受体、可溶性TACI受体、可溶性肿瘤坏死因子受体I(sTNF-RI)、可溶性肿瘤坏死因子受体II(sTNF-RII)、可溶性VEGF受体Flt-1、可溶性FcγIIB受体、生长抑素、生长抑素类似物、链激酶、T-细胞受体配体、替奈普酶、特立帕肽、血栓调节蛋白α、胸腺素α1、toll样受体抑制剂、肿瘤坏死因子(TNFα)、肿瘤坏死因子α拮抗剂、尿酸酶、血管活性肠肽、加压素、加压素类似物、VEGF拮抗剂、血管性血友病因子。

19.载体，其包含项1至18中任一项所述的核酸分子。

20.如项19所述的载体，其中所述载体包含被核酸内切酶限制酶识别的上游识别序列以及被核酸内切酶限制酶识别的下游识别序列，并且其中所述上游识别序列和所述下游识别序列处于反向互补方向。

21.如项20所述的载体，其中识别所述下游识别序列的所述核酸内切酶限制酶不同于识别所述上游识别序列的核酸内切酶限制酶。

22.如项20或21所述的载体，其中所述上游识别序列包含两种不同限制酶的两种识别序列。

23.如项20至22中任一项所述的载体，其中所述下游识别序列包含在所述上游识别序列中。

24.如项20至23中任一项所述的载体，其中所述上游识别序列和/或所述下游识别序列为产生核苷酸悬突的限制酶的识别序列。

25.如项20至24中任一项所述的载体，其中所述上游识别序列和/或所述下游识别序列为在所述识别序列之外切割的限制酶的识别位点。

26.如项20至25中任一项所述的载体，其中所述限制酶为IIS型限制酶。

27.如项20至26中任一项所述的载体，其中所述上游识别序列具有核苷酸序列“5'-GCTCTTC-3'”和/或其中所述下游识别序列具有核苷酸序列“5'-CTCTTC-3'”。

28.如项20至27中任一项所述的载体，其中所述上游识别序列被SapI和EarI识别和/或其中所述下游识别序列被EarI识别。

29.如项20至28中任一项所述的载体，其中所述载体具有SEQ IDNO:48或SEQ IDNO:55中给出的序列。

30.宿主，其包含项1至18中任一项所述的核酸分子或转化有项19至29中任一项所述的载体。

31.如项30所述的宿主，其中所述宿主选自细菌、哺乳动物细胞、昆虫细胞、藻细胞、纤毛虫、酵母和植物细胞。

32.如项30或31所述的宿主，其中所述细菌属于埃希氏杆菌属、棒状杆菌属、假单胞菌属或芽孢杆菌属。

33.如项32所述的宿主，其中所述细菌为大肠杆菌(Escherichia coli)、谷氨酸棒状杆菌(Corynebacterium glutamicum)、荧光假单胞菌(Pseudomonas fluorescens)或巨大芽孢杆菌(Bacillus megaterium)。

34.如项31所述的宿主，其中所述哺乳动物细胞为仓鼠细胞。

35.如项34所述的宿主，其中所述哺乳动物细胞是CHO细胞。

36.如项31所述的宿主，其中所述酵母属于酵母属、毕赤酵母属、汉逊酵母属或克鲁维酵母属。

37.如项36所述的宿主，其中所述酵母为酿酒酵母(Saccharomyces cerevisiae)、裂殖酵母(Schizosaccharomyces pombe)、毕赤酵母(Pichia pastoris)、甲醇毕赤酵母(Pichia methanolica)、多形汉逊酵母(Hansenula polymorpha)或乳酸克鲁维酵母(Kluyveromyces lactis)。

38.制备项1至18中任一项所述的核酸分子，或项19至29中任一项所述的载体的方法，其中所述方法包括培养/饲养项30至37中任一项所述的宿主以及任选地分离所产生的核酸分子和/或载体。

39.制备由项1至18中任一项所述的核酸分子编码的多肽的方法，其中所述方法包括培养/饲养项30至37中任一项所述的宿主以及任选地分离所产生的多肽，所述宿主包含项1至18中任一项所述的核酸分子。

40.制备药物缀合物的方法，其中所述药物缀合物包含由项1至18中任一项所述的核酸分子编码的多肽，并且还包含(i)生物学活性蛋白和/或(ii)小分子和/或(iii)碳水化合物。

41.如项40所述的制备药物缀合物的方法，其中所述核酸分子具有增强的遗传稳定性。

42.如项40或41所述的制备药物缀合物的方法，其中所述生物学活性蛋白为治疗有效蛋白。

43.如项40至42中任一项所述的制备药物缀合物的方法，其中所述多肽介导所述药物缀合物的增强的体内和/或体外稳定性。

44.如项40至43中任一项所述的制备药物缀合物的方法，其中所述生物学活性蛋白选自结合蛋白、抗体片段、细胞因子、生长因子、激素、酶、蛋白疫苗、肽疫苗、由多达50个氨基酸残基组成的肽或肽模拟物。

45.如项40至44中任一项所述的制备药物缀合物的方法，其中所述结合蛋白选自抗体、Fab片段、Fab'片段、F(ab')₂片段、单链可变片段(scFv)、(单)域抗体、抗体的分离的可变区(VL和/或VH区)、CDR、免疫球蛋白结构域、CDR-衍生的肽模拟物、凝集素、蛋白支架、纤连蛋白结构域、腱生蛋白结构域、蛋白A结构域、SH3结构域、锚蛋白重复结构域和脂质运载蛋白。

46.如项40至45中任一项所述的制备药物缀合物的方法，其中所述生物学活性蛋白选自白细胞介素1受体拮抗剂、瘦蛋白、酸性鞘磷脂酶、腺苷脱氨酶、α-半乳糖苷酶、α-1抗胰蛋白酶、α心房利钠肽、α-半乳糖苷酶、α-葡糖苷酶、α-N-乙酰氨基葡萄糖苷酶、阿替普酶、安地普酶、糊精、糊精类似物、抗-HIV肽融合抑制剂、精氨酸脱亚胺酶、天冬酰胺酶、B结构域缺失的因子VIII、骨形态发生蛋白、缓激肽拮抗剂、B型利钠肽、Bouganin、生长激素、绒毛膜促性腺激素、CD3受体拮抗剂、CD19拮抗剂、CD20拮抗剂、CD40拮抗剂、CD40L拮抗剂、脑苷脂硫酸酯酶、凝血因子VIIa、凝血因子XIII、凝血因子IX、凝血因子X、补体成分C3抑制剂、补体成分5a拮抗剂、C-肽、CTLA-4拮抗剂、C-型利钠肽、防御素、脱氧核糖核酸酶I、EGFR受体拮抗剂、表皮生长因子、红细胞生成素、艾塞那肽-4、埃兹蛋白肽1、FcγIIB受体拮抗剂、成纤维细胞生长因子21、促卵泡激素、抑胃多肽(GIP)、GIP类似物、胰高血糖素、胰高血糖素受体激动剂、胰高血糖素样肽1(GLP-1)、GLP-1类似物、胰高血糖素样肽2(GLP-2)、GLP-2类似物、戈那瑞林、促性腺素释放激素激动剂、促性腺素释放激素拮抗剂、gp120、gp160、粒细胞集落刺激因子(G-CSF)、粒细胞巨噬细胞集落刺激因子(GM-CSF)、饥饿素、饥饿素类似物、生长激素、生长激素释放激素、Hematide、肝细胞生长因子、肝细胞生长因子受体(HGFR)拮抗剂、铁调素拮抗剂、铁调素模拟物、Her2/neu受体拮抗剂、组氨瑞林、水蛭素、hsp70拮抗剂、Humanin、透明质酸酶、水解溶酶体葡糖脑苷脂特异性酶、艾杜糖醛酸-2-硫酸酯酶、IgE拮抗剂、胰岛素、胰岛素类似物、胰岛素样生长因子1、胰岛素样生长因子2、干扰素-α、干扰素-α拮抗剂、干扰素-α超级激动剂、干扰素-α-n3、干扰素-β、干扰素-γ、干扰素-λ、干扰素τ、白细胞介素、白细胞介素2融合蛋白、白细胞介素-22受体亚基α(IL-22ra)拮抗剂、鸢尾素、胰岛新生相关蛋白、角质细胞生长因子、Kv1.3离子通道拮抗剂、羊毛硫肽类化合物、脂肪酶、黄体化激素、促黄体素α、溶葡球菌酶、甘露糖苷酶、N-乙酰半乳糖胺-6-硫酸酯酶、N-乙酰氨基葡萄糖苷酶、中性粒细胞明胶酶相关脂质运载蛋白、奥曲肽、ω-芋螺毒素、毛白钝缘蜱补体抑制剂、成骨蛋白-1、护骨素、草酸脱羧酶、P128、甲状旁腺激素、Phylomer、PD-1拮抗剂、PDGF拮抗剂、苯丙氨酸解氨酶、血小板衍生生长因子、胰岛素原、蛋白质C、松弛素、松弛素类似物、分泌素、RGD肽、核糖核酸酶、森瑞博特酶、丝氨酸蛋白酶抑制剂、可溶性1型补体受体、可溶性DCC受体、可溶性TACI受体、可溶性肿瘤坏死因子受体I(sTNF-RI)、可溶性肿瘤坏死因子受体II(sTNF-RII)、可溶性VEGF受体Flt-1、可溶性FcγIIB受体、生长抑素、生长抑素类似物、链激酶、T-细胞受体配体、替奈普酶、特立帕肽、血栓调节蛋白α、胸腺素α1、toll样受体抑制剂、肿瘤坏死因子(TNFα)、肿瘤坏死因子α拮抗剂、尿酸酶、血管活性肠肽、加压素、加压素类似物、VEGF拮抗剂、血管性血友病因子。

47.如项40至46中任一项所述的制备药物缀合物的方法，其中所述小分子选自血管生成抑制剂、抗过敏药物、止吐药物、抗抑郁药物、抗高血压药物、抗炎药物、抗感染药物、抗精神病药物、抗增殖(细胞毒性和细胞抑制)药物、钙拮抗剂和其它循环器官药物、胆碱能激动剂、作用于中枢神经系统的药物、作用于呼吸系统的药物、激素、类固醇、聚酮、碳水化合物、寡糖、核酸、核酸衍生物、反义核酸、小干扰RNA(siRNA)、微RNA(miR)抑制剂、微RNA模拟物、DNA适配子和RNA适配子。

48.通过项39所述的方法获得的或可获得的多肽，通过项40至47中任一项所述的方法获得的药物缀合物。

49.对项1至18中任一项所述的核酸分子进行测序的方法。

50.扩增项1至18中任一项所述的核酸分子的方法。

51.克隆项1至18中中任一项所述的核酸分子的方法。

52.选择遗传稳定的核酸分子的方法，其中所述核酸分子包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列，其中所述核苷酸序列的长度为至少300个核苷酸，

所述方法包括选择包含具有低于50,000的核苷酸重复分数(NRS)的核苷酸序列的核酸分子的步骤，

其中根据以下公式确定所述核苷酸重复分数(NRS)：

其中：

N_tot为所述核苷酸序列的长度，

n为所述核苷酸序列内的重复的长度，以及

f_i(n)是长度为n的所述重复的频率，

在某些方面，本申请涉及下述项：

其中所述核酸的核苷酸序列的长度为至少300个核苷酸，

其中所述核苷酸序列具有低于50,000的核苷酸重复分数(NRS)，

其中根据以下公式确定所述核苷酸重复分数(NRS)：

其中

N_tot为所述核苷酸序列的长度，

n为所述核苷酸序列内的重复的长度，以及

f_i(n)是长度为n的所述重复的频率，

2.如项1所述的核酸分子，其中所述编码的多肽由脯氨酸和丙氨酸组成，其中所述脯氨酸残基占所述编码的多肽的大于约10％且小于约75％。

3.如项1所述的核酸分子，其中所述编码的多肽由脯氨酸、丙氨酸和丝氨酸组成，其中所述脯氨酸残基占所述编码的多肽的大于4％且小于40％。

4.如项1至3中任一项所述的核酸分子，其中所述核苷酸重复分数(NRS)低于100。

5.如项1至4中任一项所述的核酸分子，其中所述核酸分子具有增强的遗传稳定性。

6.如项1至5中任一项所述的核酸分子，其中所述核苷酸序列包含所述重复，其中所述重复具有最大长度n_max，其中根据以下公式确定n_max：

并且其中N_tot为所述核苷酸序列的长度。

7.如项1至6中任一项所述的核酸分子，其中所述重复具有约14、15、16或17个核苷酸至约55个核苷酸的最大长度。

8.如项1至7中任一项所述的核酸分子，其中所述编码的多肽包含具有多个氨基酸重复的重复氨基酸序列，其中不超过9个连续氨基酸残基为相同的，并且其中所述多肽形成无规卷曲。

9.如项1至8中任一项所述的核酸分子，其中所述核酸分子选自：

(b)包含选自以下的至少一个核苷酸序列的核酸分子：SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ IDNO:35、SEQ ID NO:36和SEQ ID NO:37；

10.如项1至9中任一项所述的核酸分子，其与编码生物学活性蛋白的核酸可操作地连接在同一阅读框中。

11.如项10所述的核酸分子，其中所述生物学活性蛋白选自结合蛋白、抗体片段、细胞因子、生长因子、激素、酶、蛋白疫苗、肽疫苗、由多达50个氨基酸残基组成的肽或肽模拟物，其中所述结合蛋白选自抗体、Fab片段、Fab'片段、F(ab')₂片段、单链可变片段(scFv)、(单)域抗体、抗体的分离的可变区(VL和/或VH区)、CDR、免疫球蛋白结构域、CDR-衍生的肽模拟物、凝集素、蛋白支架、纤连蛋白结构域、腱生蛋白结构域、蛋白A结构域、SH3结构域、锚蛋白重复结构域和脂质运载蛋白。

12.如项10或11所述的核酸分子，其中所述生物学活性蛋白选自酸性鞘磷脂酶、腺苷脱氨酶、α-半乳糖苷酶、α-1抗胰蛋白酶、α心房利钠肽、α-半乳糖苷酶、α-葡糖苷酶、α-N-乙酰氨基葡萄糖苷酶、阿替普酶、安地普酶、糊精、糊精类似物、抗-HIV肽融合抑制剂、精氨酸脱亚胺酶、天冬酰胺酶、B结构域缺失的因子VIII、骨形态发生蛋白、缓激肽拮抗剂、B型利钠肽、Bouganin、生长激素、绒毛膜促性腺激素、CD3受体拮抗剂、CD19拮抗剂、CD20拮抗剂、CD40拮抗剂、CD40L拮抗剂、脑苷脂硫酸酯酶、凝血因子VIIa、凝血因子XIII、凝血因子IX、凝血因子X、补体成分C3抑制剂、补体成分5a拮抗剂、C-肽、CTLA-4拮抗剂、C-型利钠肽、防御素、脱氧核糖核酸酶I、EGFR受体拮抗剂、表皮生长因子、红细胞生成素、艾塞那肽-4、埃兹蛋白肽1、FcγIIB受体拮抗剂、成纤维细胞生长因子21、促卵泡激素、抑胃多肽(GIP)、GIP类似物、胰高血糖素、胰高血糖素受体激动剂、胰高血糖素样肽1(GLP-1)、GLP-1类似物、胰高血糖素样肽2(GLP-2)、GLP-2类似物、戈那瑞林、促性腺素释放激素激动剂、促性腺素释放激素拮抗剂、gp120、gp160、粒细胞集落刺激因子(G-CSF)、粒细胞巨噬细胞集落刺激因子(GM-CSF)、饥饿素、饥饿素类似物、生长激素、生长激素释放激素、Hematide、肝细胞生长因子、肝细胞生长因子受体(HGFR)拮抗剂、铁调素拮抗剂、铁调素模拟物、Her2/neu受体拮抗剂、组氨瑞林、水蛭素、hsp70拮抗剂、Humanin、透明质酸酶、水解溶酶体葡糖脑苷脂特异性酶、艾杜糖醛酸-2-硫酸酯酶、IgE拮抗剂、胰岛素、胰岛素类似物、胰岛素样生长因子1、胰岛素样生长因子2、干扰素-α、干扰素-α拮抗剂、干扰素-α超级激动剂、干扰素-α-n3、干扰素-β、干扰素-γ、干扰素-λ、干扰素τ、白细胞介素、白细胞介素1受体拮抗剂、白细胞介素2融合蛋白、白细胞介素-22受体亚基α(IL-22ra)拮抗剂、鸢尾素、胰岛新生相关蛋白、角质细胞生长因子、Kv1.3离子通道拮抗剂、羊毛硫肽类化合物、瘦蛋白、脂肪酶、黄体化激素、促黄体素α、溶葡球菌酶、甘露糖苷酶、N-乙酰半乳糖胺-6-硫酸酯酶、N-乙酰氨基葡萄糖苷酶、中性粒细胞明胶酶相关脂质运载蛋白、奥曲肽、ω-芋螺毒素、毛白钝缘蜱补体抑制剂、成骨蛋白-1、护骨素、草酸脱羧酶、P128、甲状旁腺激素、Phylomer、PD-1拮抗剂、PDGF拮抗剂、苯丙氨酸解氨酶、血小板衍生生长因子、胰岛素原、蛋白质C、松弛素、松弛素类似物、分泌素、RGD肽、核糖核酸酶、森瑞博特酶、丝氨酸蛋白酶抑制剂、可溶性1型补体受体、可溶性DCC受体、可溶性TACI受体、可溶性肿瘤坏死因子受体I(sTNF-RI)、可溶性肿瘤坏死因子受体II(sTNF-RII)、可溶性VEGF受体Flt-1、可溶性FcγIIB受体、生长抑素、生长抑素类似物、链激酶、T-细胞受体配体、替奈普酶、特立帕肽、血栓调节蛋白α、胸腺素α1、toll样受体抑制剂、肿瘤坏死因子(TNFα)、肿瘤坏死因子α拮抗剂、尿酸酶、血管活性肠肽、加压素、加压素类似物、VEGF拮抗剂、血管性血友病因子。

13.宿主，其包含项1至12中任一项所述的核酸分子或转化有包含项1至12中任一项所述的核酸分子的载体。

14.制备由项1至12中任一项所述的核酸分子编码的多肽的方法，其中所述方法包括培养/饲养项13所述的宿主以及任选地分离所产生的多肽。

15.制备药物缀合物的方法，其中所述药物缀合物包含由项1至12中任一项所述的核酸分子编码的多肽，并且还包含(i)生物学活性蛋白和/或(ii)小分子和/或(iii)碳水化合物。

本发明涉及编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的具有低重复核苷酸序列的核酸分子。此类多肽在本文中也称为富含PA或富含脯氨酸/丙氨酸的多肽。本文提供的本发明的核酸分子具有很少的或不具有某一最大长度的核苷酸重复，如每个核苷酸重复序列有约14、15、16或17个核苷酸的最大长度。此外，富含PA的编码核苷酸序列具有至少300个核苷酸的总长度，并且在该编码序列内的各个核苷酸重复具有14、15、16、17、约20、约25、约30、约35、约40、约45、约50或约55个核苷酸的各个最大长度。

在一方面，本发明的核酸分子包含编码重复氨基酸序列(例如富含PA的多肽)的核苷酸序列，其中所述核酸分子的核苷酸序列的长度为至少300个核苷酸，其中所述核苷酸序列具有低于50,000的核苷酸重复分数(NRS)，并且其中根据以下公式确定所述核苷酸重复分数(NRS)：

在该公式中，N_tot为所述核苷酸序列的长度，n为所述核苷酸序列内的重复的长度，以及f_i(n)是长度为n的所述重复的频率，并且其中，如果有一种以上长度为n的重复，则k(n)是所述长度为n的重复的所述不同序列的数目，否则对于所述长度为n的重复，k(n)为1。下文提供了定义。

在某个方面，本发明的核酸分子编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽，其中在所述核酸分子的核苷酸序列内重复出现的核苷酸序列区段(即“重复”)最大具有14、15、16、17、约20、约25、约30、约35、约40、约45、约50或约55个核苷酸的长度。换言之，核酸分子包含编码富含PA的多肽的核苷酸序列，其中所述编码核苷酸序列包含具有14、15、16、17、约20、约25、约30、约35、约40、约45、约50或约55个核苷酸的最大长度的核苷酸重复。本发明的核酸分子/序列还可以包含另外的编码序列，如尤其是生物学或药理学活性蛋白。

在所附实施例中显示，与现有技术的高度重复的核酸分子相比，本发明的低重复核酸分子是有利的。特别地，如本文所记载的且在所附实施例中所显示的，本文提供的低重复核酸分子的遗传稳定性得以改善。为了评估现有技术的编码富含PA的多肽的重复核酸分子的遗传稳定性，构建了包含现有技术的编码重复的富含脯氨酸/丙氨酸的序列的重复核酸分子(PAS#1a(600)；SEQ ID NO:12；实施例6，图2B)的载体，所述重复核酸分子包含WO2008/155134中公开的多个60mer的核苷酸序列单元。该载体在本文中被称为“pASK75-PAS#1a(600)-IL1Ra”(SEQ ID NO:51)。用载体转化宿主(大肠杆菌)并培养数日，例如7天。在历经大约70代的连续生长之后的第7天，将细胞铺板于LB/Amp琼脂上，挑取克隆并进行质粒制备。使用限制酶和随后的琼脂糖凝胶电泳(图5)分析质粒。五个分析的pASK75-PAS#1a(600)-IL1Ra克隆中的四个显示缩短的编码富含脯氨酸/丙氨酸的序列的核酸片段(图5泳道1-5)。

因此，现有技术的编码重复的富含脯氨酸/丙氨酸的序列的重复核酸分子为遗传上不稳定的。换言之，现有技术的核酸分子具有低的体内稳定性。不受理论束缚，遗传不稳定性可能是同源重组的结果。由于基因盒的遗传不稳定性和缩短，所得的富含脯氨酸/丙氨酸的氨基酸序列也将被改变。因此，在长期培养期间由不稳定质粒编码的富含脯氨酸/丙氨酸的氨基酸序列将不同于由原始质粒编码的氨基酸序列。因此，存在相当大的风险是使用现有技术的重复核酸分子在长期培养期间获得的多肽不是期望的多肽。

此外，存在这样的风险：所得的多肽组合物可能包含与生物产品(特别是用于生物制药用途的)的期望一致性相反的多种不同的多肽(例如不同大小、长度和/或序列的富含脯氨酸/丙氨酸的多肽)。因此，现有技术的编码富含脯氨酸/丙氨酸的多肽的重复核酸分子的遗传不稳定性可导致生物学最终产品的质量下降，使得其生产变得不方便且不可靠，尤其是在治疗应用的管理方面。

在本发明中，通过设计具有低的内部核苷酸重复的核酸分子来解决遗传不稳定性的问题。然而，考虑到可用于编码富含脯氨酸/丙氨酸的氨基酸序列的核苷酸三联体密码子的数目较低，这不是一项轻松的任务。

如所附非限制性实施例中所示，本发明的核酸分子避免了上述缺点；参见例如实施例5和6以及图4和图5泳道6-10。然而，如同现有技术的核酸分子，本发明的核酸分子编码含有多个富含脯氨酸/丙氨酸重复的富含脯氨酸/丙氨酸的多肽。然而，与现有技术的核酸分子形成强烈对比的是，本发明的核酸分子具有低重复核苷酸序列(即它们含有很少的核苷酸重复和/或仅仅含有短的核苷酸重复)。

示例性实施例5显示包含编码富含脯氨酸/丙氨酸的多肽的低重复核苷酸序列的本发明的示例性载体的制备。在示例性载体中使用的被称为“PAS#1f/1c/1b(600)”的低重复核苷酸序列显示在SEQ ID NO:38中。所得的质粒被命名为“pASK75-PAS#1f/1c/1b(600)-IL1Ra”(SEQ ID NO:50)并且显示在图4中。

对本发明的质粒“pASK75-PAS#1f/1c/1b(600)-IL1Ra”进行与上文关于载体“pASK75-PAS#1a(600)-IL1Ra”所述相同的培养，后面的载体包含现有技术的编码重复的富含脯氨酸/丙氨酸的序列的重复核酸分子(PAS#1a(600)；SEQ ID NO:12)，所述重复核酸分子包含WO 2008/155134中公开的多个60mer的核苷酸序列单元(图1A)。与“pASK75-PAS#1a(600)-IL1Ra”相反，本发明的质粒“pASK75-PAS#1f/1c/1b(600)-IL1R”显示出高的遗传稳定性：所有分析的“pASK75-PAS#1f/1c/1b(600)”克隆仅在3093bp和2377bp处显示预期条带(图5泳道6-10)，表明包含1800个碱基对且编码富含脯氨酸/丙氨酸的序列PAS#1的低重复性PAS#1f/1c/1b(600)基因盒的高的遗传稳定性。由于这种高的遗传稳定性，避免了现有技术核酸分子的缺点。这清楚地显示包含低重复核苷酸序列的本发明的核酸分子可用于方便且可靠地生物合成富含脯氨酸/丙氨酸的多肽和/或相应的融合蛋白。

示例性实施例4显示根据本发明提供的核酸分子的其它优点。此处，将本发明的包含低重复核苷酸序列的示例性核酸分子(被称为PAS#1f/1c/1b(600)盒；SEQ ID NO:38；参见例如实施例1)进行自动化DNA测序。结果，获得了包含多于900个碱基对的明确定义且无错误的电泳图(图3)，其未显示非特异性引物结合的迹象。因此，与仅可用杂交相应克隆基因盒的上游或下游的引物可靠地进行测序的重复核苷酸序列相比，编码富含脯氨酸/丙氨酸的序列的长的低重复性DNA片段可以以简便的方式完全测序。在这种情况下，也可以应用内部结合引物，从而产生多个重叠序列读取(如果需要)；值得注意的是，在重复核苷酸序列的情况下，使用此种内部杂交引物不会导致唯一的测序模式。因此，包含低重复核苷酸序列的本发明的核酸分子避免了这些测序问题。

总之，相对于包含高度重复序列的现有技术核酸分子，本发明尤其具有下述优点。与现有技术的核酸分子相比，本发明的有利的低重复核苷酸序列可以被完全测序而没有其它麻烦。本发明的核酸分子的其它优点是由于低重复性，它们具有改善的扩增特性，例如，经由聚合酶链式反应(PCR)。此外，与包含重复/重复性序列的核苷酸序列相比，本发明的核酸分子改善了克隆程序。本文提供的核酸分子的特别优点是与现有技术的高度重复核酸分子相比，它们具有改善的遗传稳定性。这允许可靠地产生富含脯氨酸/丙氨酸的多肽和/或其融合蛋白。

本发明的核酸分子的特征在于编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列是“低重复核苷酸序列”，其赋予上文所述的有利技术效果。在所附实施例中，显示了可用于分析核酸分子是否包含根据本发明的低重复核苷酸序列的方法。特别地，所附实施例提供了本文中被称为“核苷酸重复分数(NRS)”的分数。根据上文论述的公式确定本文的核苷酸重复分数(NRS)：

其中N_tot为所述核苷酸序列的长度，n为所述核苷酸序列内的重复的长度，以及f_i(n)是长度为n的所述重复的频率，并且其中如果有一种以上长度为n的重复，则k(n)是所述长度为n的重复的所述不同序列的数目，否则对于所述长度为n的重复，k(n)为1。该分数详细描述于下文中，并示于所附实施例中。

NRS允许本领域技术人员选择用于本发明的低重复核苷酸序列。换言之，NRS提供了一种确定核苷酸序列重复程度的工具。为了自动识别重复和计算NRS，可以使用在此提供的被称为NRS计算器的算法。

如所附示例性实施例，例如实施例13中所显示的，使用实施例14中所述的NRS-计算器，将编码富含脯氨酸/丙氨酸的序列的若干现有技术核酸与根据本发明的编码富含脯氨酸/丙氨酸的序列的低重复核酸进行比较。例如，测定了下述现有技术序列的NRS：WO2008/155134中公开的PAS#1a(200)、WO2011144756中公开的PA#1a(200)、US 20060252120中公开的[(AP)₅]₂₀APA、以GenBank登录号DQ399411a公布的[AAPAPAPAP]₁₀AS、以GenBank登录号NP_851896公布的恒河猴疱疹病毒1的大的被膜蛋白。另外，针对这些现有技术的核苷酸序列和本发明的低重复核苷酸序列如PAS#1b(200)(SEQ ID NO:19)或PA#1e/1d/1c/1b(800)(SEQ ID NO:44)，确定了显示相对于各自长度绘制的核苷酸重复的频率的柱状图(图9)。现有技术的核苷酸序列的柱状图显示了高度重复性质。相比之下，本发明的低重复核苷酸序列(例如PAS#1b(200)和PA#1e/1d/1c/1b(800))的柱状图仅显示很少的最大长度为14个核苷酸的重复；参见例如图9F-I。

现有技术的核苷酸序列与本发明的核苷酸序列之间的重复性差异在比较它们的核苷酸重复分数时变得更加明显。本文分析的现有技术的序列显示大于80000的NRS(表2)。相比之下，示例性的本发明的核苷酸序列显示出低的核苷酸重复分数，例如低于34；参见表1。因此，本文清楚地证明，与现有技术的序列相比，本发明的编码富含脯氨酸/丙氨酸的序列的核苷酸序列的重复质量高得多，同时具有较少和较短的核苷酸序列重复。因此，本发明的核酸分子具有低重复序列。

如上文所示，本领域技术人员知道分析核酸分子重复程度的若干替代选择。在所附实施例中显示，也通过点图分析来分析本发明的核酸分子和现有技术的核酸分子的重复性；参见例如实施例3。对WO 2011/144756中公开的编码重复的富含脯氨酸/丙氨酸的序列PA#3a的核酸(SEQ ID NO:15；图2A)、WO 2008/155134中公开的编码PAS#1的核酸(SEQ IDNO:11；图2B)、US2006/0252120中公开的编码编码的[(AP)₅]_n多聚体的核酸(SEQ ID NO:16)以及编码以GenBank登录号AAP41454.1公布的恒河猴疱疹病毒1基因的非常大的被膜蛋白的重复的富含脯氨酸/丙氨酸的区域的核酸(SEQ ID NO:18；图2C)进行点图分析。在所附实施例中，采用Geneious软件包8.1版(Biomatters,Auckland,New Zealand)的“dottup”工具。该算法将各个序列与其自身比对，并应用例如14或15个核苷酸的重复窗口。将现有技术的核苷酸序列的点图与本发明的低重复核苷酸序列，例如单元PA#3b(200)(SEQ ID NO:36)、PA#1b(SEQ ID NO:28)或组装的低重复核苷酸序列PAS#1f/1c/1b(600)(SEQ ID NO:38)和PAS#1d/1f/1c/1b(800)(SEQ ID NO:39)的点图进行比较。鉴于所有分析的现有技术序列在核苷酸序列水平上显示出如通过黑色平行对角线(图2A-C)所示的高度重复性质，根据本发明的示例性核苷酸序列的点图分别在600个核苷酸(图2A，C)、1800个核苷酸或2400个核苷酸(图2B)的整个核苷酸序列内未显示重复或仅显示最大长度为14个核苷酸的一些分散的重复(黑线)。因此，本文证明本文提供的核苷酸序列为不包含或仅包含很少短重复的低重复核苷酸序列。

总之，所附实施例清楚地显示本发明的核酸分子具有低重复核苷酸序列，同时编码富含脯氨酸/丙氨酸的氨基酸重复序列。本文还显示本文提供的核酸分子的“低重复性(low repetitivity)”或“低重复性(low repetitiveness)”可容易地通过替代策略评估，例如本文提供的核苷酸重复分数或本领域技术人员已知的方法，如点图分析。可选地，技术人员可手动或借助于通用软件程序，如Visual Gene Developer(Jung (2011)BMCBioinformatics 12:340)或Repfind工具(Betley(2002)Curr Biol 12:1756-1761)来鉴定核苷酸序列重复，并因此鉴定核苷酸序列的重复程度。因此，具有意想不到的有利特性的本发明的核酸分子可以容易地与缺乏这些特征的现有技术核酸分子区分开来。

如上文所述，本发明的低重复核苷酸序列可以具有低于50,000的NRS，或者其可以具有最大长度为约17、约20、约25、约30、约35、约40、约45、约50或约55个核苷酸的重复。本发明的低重复核苷酸序列的长度为至少100个核苷酸，优选至少150个，更优选至少200个，甚至更优选至少300个核苷酸，甚至更优选至少350个核苷酸，甚至更多优选至少600个核苷酸，甚至更优选至少900个，甚至更优选至少1200个，甚至更优选至少1500个核苷酸或最优选至少1800个核苷酸。换言之，本发明的核酸分子包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列或由其组成，其中所述核酸的核苷酸序列的长度为至少100个核苷酸，优选至少150，更优选至少200，甚至更优选至少300个核苷酸，甚至更优选至少350个核苷酸，甚至更优选至少400或500个核苷酸，甚至更优选至少600个核苷酸，甚至更优选至少700或800个核苷酸，甚至更优选至少900个核苷酸，甚至更优选至少1000或1100，甚至更优选至少1200个核苷酸(例如1203个核苷酸)，甚至更优选至少至少1300或1400个核苷酸，甚至更优选至少1500个核苷酸，甚至更优选至少1600或1700个核苷酸或最优选至少1800个核苷酸。

本发明的核酸分子可包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列或由其组成，其中所述核酸的核苷酸序列的长度为最多5000个核苷酸，优选最多4800个核苷酸、3600个核苷酸或2400个核苷酸。本发明的核酸分子可包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列或由其组成，其中所述核酸的核苷酸序列的长度为最多5000个核苷酸、4900个核苷酸、4800个核苷酸、4700个核苷酸、4600个核苷酸、4500个核苷酸、4400个核苷酸、4300个核苷酸、4200个核苷酸、4100个核苷酸、4000个核苷酸、3900个核苷酸、3800个核苷酸、3700个核苷酸、3600个核苷酸、3500个核苷酸、3400个核苷酸、3300个核苷酸、3200个核苷酸、3100个核苷酸、3000个核苷酸、2900个核苷酸、2800个核苷酸、2700个核苷酸、2600个核苷酸、2500个核苷酸、2400个核苷酸、2300个核苷酸、2200个核苷酸、2100个核苷酸、2000个核苷酸或最多1900个核苷酸。

在特别优选的方面，本发明的核酸分子可以包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列或由其组成，其中所述核酸的核苷酸序列的长度为1200至3600个核苷酸。

此外，低重复核苷酸序列具有低于50,000，优选低于40,000，更优选低于30,000，更优选低于20,000，更优选低于10,000，更优选低于1000，更优选低于500，甚至更优选低于100的核苷酸重复分数(NRS)。特别优选的是具有低于50，更优选低于48，更优选低于45，更优选低于43，更优选低于40，更优选低于38，或最优选低于35的核苷酸重复分数(NRS)的低重复核苷酸序列。换言之，本发明的核酸分子包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列，其中所述核苷酸序列具有低于50,000，优选低于40,000，更优选低于30,000，更优选低于20,000，更优选低于10,000，更优选低于1000，更优选低于500，甚至更优选低于400、300、200，以及甚至更优选低于100的核苷酸重复分数(NRS)。特别优选的是包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列的核酸分子，其中所述核苷酸序列具有低于90、80、70、60，更优选低于50，更优选低于48的核苷酸重复分数(NRS)，更优选地45或低于45，更优选低于43，更优选低于40的NRS分数，更优选地39、38、37或36或者低于39、38、37或36的NRS分数，或者最优选地35或低于35的NRS分数。甚至更特别优选的是包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列的核酸分子，其中所述核苷酸序列具有34、32、31、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、或8的核苷酸重复分数(NRS)或者低于34、32、31、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9或8的NRS。

如上文论述的，可根据以下公式确定核苷酸重复分数”或“NRS”：

因此，NRS被定义为在所有可能的重复长度(从n＝4直到N_tot-1)内每个重复长度(n)平方的总和乘以其总频率的平方根除以分析的核苷酸序列的总长度(N_tot)。换言之，NRS为所述核苷酸序列内重复的长度的平方总和乘以长度为n的所述重复的频率(f_i(n))的总和的平方根，其中如果有一种以上长度为n的重复，则k(n)为所述长度n的重复的所述不同序列的数目，否则对于所述长度为n的重复，k(n)为1；并且其中所述总和除以所述核苷酸序列的总长度。

如本文所用，“N_tot”为编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的所述核苷酸序列的总长度。长度N_tot也为所述核苷酸序列的核苷酸的数目。因此，N_tot为分析的核苷酸序列的总长度。

如本文所用，“n”为编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的所述核苷酸序列内的重复的长度。长度n也为所述重复的核苷酸的数目。因此，n为分析的核苷酸序列内的重复的长度。根据定义，可能的最长重复可具有比分析的核苷酸序列的总长度(N_tot)短一个核苷酸的长度，即n＝N_tot-1。另一方面，针对NRS分析考虑的重复的最短长度为n＝4，其对应于比氨基酸的单一三联体密码子长的最短核苷酸区段。由于此类密码子只是由于编码的氨基酸序列而出现多次，它们不应被视为关于待解决的技术问题的核苷酸序列重复。

本文使用的术语“重复”意为核苷酸序列多次包含相同的长度n的连续核苷酸序列(即重复)。换言之，核苷酸序列包含至少两个或多个拷贝的某一长度的核苷酸的连续部分/区段/序列。换言之，术语“重复”是指长度为n的核苷酸序列多次存在于核苷酸序列中。本文考虑在分析的核苷酸序列的总长度内可能仅有一种类型的长度n的重复，或者可能有多种相同长度n的不同重复。因此，例如，核苷酸序列可具有长度n的重复，其出现全部具有相同的序列；应理解，在分析的核苷酸序列的总长度内，所述重复出现至少两次，但也可多次出现。可选地，存在具有不同序列的相同长度n的重复，即重复共有相同长度(n)，但在序列水平上不同。在这种情况下，每个不同的重复序列构成另一种类型的重复。

如本文所用，“f_i(n)”是长度为n的重复的频率。换言之，f_i(n)是长度为n的重复的出现数目。如果仅有一种类型的长度为n的重复，则k(n)为1。可选地，如果有一种以上不同的长度为n的重复，则k(n)是所述长度为n的重复的不同序列的数目。换言之，如果有一种以上具有不同序列的长度为n的重复，则k(n)是所述长度为n的重复的所述不同序列的数目。因此，如果有两种或更多种不同类型的长度为n的重复，则k(n)是所述长度为n的重复的所述不同序列的数目。否则，如果长度为n的重复都具有相同(即同一)的序列，则对于所述长度为n的重复，k(n)为1。

例如，在(长度为N_tot)的核苷酸序列内，长度为14个核苷酸(n＝14)的重复的频率可以为5。这可意为长度为14个核苷酸的5个重复均具有相同的序列(属于相同类型)，即重复序列在核苷酸序列内出现5次。在这种情况下，k(n)是1并且f₁(n)＝5。在另一种情况下，14个核苷酸长度的5个重复可具有不同的序列。在这种情况下，设想5个重复中的2个共有相同的序列(构成1种类型)，5个重复中的3个共有其它相同的序列(构成第2种类型)，由此共有一个序列的前两个重复的序列与共有其它序列的后三个重复的序列彼此不同。因此，在这种情况下，长度为n的所述不同序列的数目为2，即k(n)为2，以及f₁(n)＝2并且f₂(n)＝3。术语f_i(n)中的指数“i”可以被理解为表示指定长度为n的一组不同重复内的重复类型。

确定NRS的公式包括重复长度的平方(n²)的总和，其中n为求和的指数，4为求和的下界，并且N_tot-1为求和的上界。因此，被认为是重复的长度最低为4。长度为4个核苷酸的重复包括长于一个氨基酸密码子三联体的所有序列。对于每个连续项，指数n增加1，当n＝N_tot-1时停止。

此外，确定NRS的公式包括所述长度为n的重复的频率(f_i(n))的总和的平方根，其中i为求和的指数，f_i(n)为表示系列中每个连续项的索引变量，1为求和的下界，并且k(n)为求和的上界。对于每个连续项，指数i增加1，当i＝k(n)时停止。因此，如果仅有一种类型的长度为n的重复，即所有长度为n的重复具有相同的序列，对于所述长度为n的重复，k(n)为1，并且仅分析核苷酸序列的总长度(N_tot)内该长度为n的重复的频率f₁(n)来代替求和。

例如，根据本发明可以使用下述NRS计算器脚本来确定NRS：

此外，本发明还涉及包含核苷酸重复的核苷酸序列，其中所述重复具有最大长度n_max，其中根据以下公式确定n_max：

并且其中N_tot为所述核苷酸序列的总长度。本文使用的术语“最大长度(maximumlength)”或“最大长度(maximal length)”或“n_max”定义以至少两个拷贝存在于所述核苷酸序列或核酸分子内的核苷酸的最长连续部分/区段/序列的核苷酸数目。换言之，本文使用的术语“最大长度(maximum length)”或“最大长度(maximal length)”或“n_max”意为根据本发明的核酸分子的核苷酸序列不具有比该长度更长的重复。

在所附实施例中显示本发明的示例性核酸分子仅包含例如长度为14个核苷酸的很少的重复；参见例如所附实施例2。如上文所阐明的，可以用任何合适的工具，如本文提供的NRS分析，手动或借助于通用软件程序如点图分析，例如使用Visual Gene Developer(Jung(2011)loc.cit)或Repfind工具(Betley(2002)loc.cit)进行重复分析。点图为两个序列之间相似性的可视化表示。

在所附实施例中，将本文提供的核苷酸序列进行自身比对。矩形阵列的每个轴表示待比较的两个(总体相同的)核苷酸序列中的一个。使用指定的置换矩阵，将来自第一输入序列的所有位置与来自第二输入序列的所有位置进行比较并评分。这产生了分数矩阵，从中鉴定出局部相似性/同一性区域(对应于点图中的对角线)。用户指定长度的重复窗口/阈值沿着所有可能的对角线移动。重复窗口/阈值中的每个位置对应于来自分数矩阵的成对分数。整个窗口的分数为其中各个位置的分数的总和。如果窗口分数高于用户定义的阈值，则在点图中对应于该窗口绘制线条(参见例如，http://emboss.sourceforge.net/apps/cvs/emboss/apps/dotmatcher.html)。

点图分析用于所附实施例，例如实施例3中，以便分析核酸分子的核苷酸序列的重复性。其中证明了如果应用的重复窗口/阈值为14，则本发明的核酸分子，例如SEQ ID NO:36(在本文中被称为PA#3b(200))或SEQ ID NO:28(在本文中被称为PA#1b)在600个核苷酸的整个长度内仅具有一些分散的14个核苷酸的重复。14的重复窗口/阈值增加一个核苷酸，即15个核苷酸的重复窗口/阈值，在分析的整个核苷酸序列内未显示其它重复(参见图2和实施例3)。这意味着研究的整个核酸序列内的重复的最大长度具有14个核苷酸的长度(还包括更短的重复)。通常，可以假定此类核苷酸重复越短，它们在遗传稳定性中所起的不利作用越小。

然而，如果应用在所附实施例(参见实施例3)中使用的例如，14或15个核苷酸的重复窗口/阈值，则现有技术中公开的编码富含脯氨酸/丙氨酸的序列的核酸分子显示更长和/或更多的重复序列。例如，WO2011/144756中公开的富含脯氨酸/丙氨酸的序列(SEQ IDNO:15；在本文中被称为PA#3a(200))具有长度为60的多个核苷酸重复，其是连续的，甚至重叠的，因此产生大量的长平行线。现有技术中公开的其它核酸分子，如SEQ ID NO:12中所示且WO2008/155134中所公开的PAS#1a(600)，SEQ ID NO:16中所示且US2006/0252120中所公开的[(AP)₅]_n多聚体，或SEQ ID NO:18中所示且GenBank条目AAP41454.1中所公开的恒河猴疱疹病毒1的大的被膜蛋白，也记载了这些核苷酸序列的高重复性质。

这与本发明的核酸分子形成鲜明对比，其在核苷酸序列水平上显示出低重复性。例如，当使用14个核苷酸的重复窗口/阈值比较现有技术序列PA#3a(200)(SEQ ID NO:15)的重复数目与本发明的低重复核苷酸序列PA#3b(200)(SEQ ID NO:36)的重复数目时，可以观察到与现有技术序列的许多多于100个重复(每600个核苷酸残基)相比，本发明的序列具有29个重复(每600个核苷酸残基)。如果应用15个核苷酸的窗口，则本发明的示例性分析的核酸分子或核苷酸序列不包含任何重复。相比之下，现有技术的核酸分子显示具有15个核苷酸和更多个核苷酸的长度的多个重复。如所附实施例中所证明的，14至20，例如14、15、16、17、18、19或20个核苷酸的重复窗口/阈值特别适于确认本发明的核酸分子具有低重复核苷酸序列。应理解，重复窗口/阈值的长度与将在特定核苷酸序列中鉴定的重复数目负相关。例如，如果重复窗口/阈值为“1”，则重复数目可以等于核苷酸序列中的所有核苷酸残基(A、T、G和/或C)的数目(条件是在分析的序列中出现的每种类型的核苷酸以至少两个拷贝存在)。如果重复窗口/阈值的长度增加，则分析的核苷酸序列中的重复数目将以序列特异性方式减少。因此，本发明的“低重复”核苷酸序列也可以含有重复；然而，与现有技术序列相比，如果将相同的参数应用于分析，则这些序列较短且较少。

因此，本文提供的核酸分子包含14、15、16、17、约18、约19、约20、约21、约25、约30、约35、约40、约45、约50或约55个核苷酸的最大长度的重复。此外，本文提供的核酸分子包含约17个核苷酸的最大长度至约55个核苷酸的最大长度的重复。在重复的最大长度的上下文中，术语“约”意为最大重复长度为指定重复长度的+/-4个核苷酸。换言之，在该上下文中，“约”是指一个范围，其中重复的长度可以比指定重复长度长或短4个核苷酸。例如，约55个核苷酸的最大重复长度是指包含51至59个核苷酸的最大长度的重复的核苷酸序列。此外，约17个核苷酸的最大重复长度是指包含13至21个核苷酸的最大长度的重复的核苷酸序列。

此外，本发明涉及包含59个核苷酸，优选54个核苷酸，更优选50个核苷酸，更优选48个核苷酸，更优选40个核苷酸，更优选36个核苷酸，更优选35个核苷酸，更优选30个核苷酸，更优选25个核苷酸，更优选24个核苷酸，更优选21个核苷酸，更优选20个核苷酸，更优选19个核苷酸，更优选18个核苷酸，更优选16个核苷酸，更优选15个核苷酸，更优选14个核苷酸，或最优选17个核苷酸的最大长度的重复的核酸分子。

如本文所用，包含，例如，17个核苷酸的最大长度的重复的核酸分子涉及包含具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16或17个核苷酸长度的重复序列的核酸分子。同样地，包含14个核苷酸的最大长度的重复的核酸分子涉及包含至多14个核苷酸，即，“≤14个核苷酸”或“1、2、3、4、5、6、7、8、9、10、11、12、13或14个核苷酸”的重复的核酸分子。换言之，包含14个核苷酸的最大长度的重复的核酸分子不包含长于14个核苷酸，即“>14个核苷酸”的重复。

此外，本发明涉及低重复核酸分子，其中低重复意为在编码重复氨基酸序列的较长核苷酸序列内重复出现的核苷酸序列区段最多对应于编码重复的氨基酸序列区段的核苷酸序列的长度的0.05％，优选0.1％，更优选0.5％，更优选1％，更优选2％，更优选3％，更优选4％，更优选5％，更优选6％，更优选7％，更优选8％，更优选9％，更优选10％，更优选15％，更优选20％，更优选25％，更优选30％，更优选40％，或最优选50％。换言之，本发明的核酸包含重复，其中所述重复具有对应于编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽中的氨基酸序列重复的所述核苷酸序列的长度的0.05％，优选0.1％,更优选0.5％,更优选1％,更优选2％,更优选3％,更优选4％,更优选5％,更优选6％,更优选7％,更优选8％,更优选9％,更优选10％,更优选15％,更优选20％,更优选25％,更优选30％,更优选40％或最优选50％的最大长度。

显然，本发明不仅提供了具有新颖性和创造性的编码富含PA的序列并且具有至少300个核苷酸的长度(对应于100个氨基酸残基)的核苷酸序列，而且本发明还提供了针对重组和/或合成的核酸分子的选择手段和方法，产生遗传稳定的序列和/或允许方便地克隆、测序和/或扩增。该选择方法基于本文提供的NRS和/或本文所述的最大重复长度。因此，本发明涉及用于选择遗传稳定的核酸分子的方法，其中所述核酸分子包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列，其中所述核苷酸序列的长度为至少300个核苷酸，所述方法包括选择包含具有低于50,000的核苷酸重复分数(NRS)的核苷酸序列的核酸分子的步骤，其中根据上文提供的公式确定所述核苷酸重复分数(NRS)。此外，本发明涉及用于选择遗传稳定的核酸分子的方法，其中所述核酸分子包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列，所述方法包括选择包含具有n_max的最大长度的重复的所述核苷酸序列的步骤。此外，本发明涉及用于选择遗传稳定的核酸分子的方法，其中所述核酸分子包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列，所述方法包括选择包含约17个核苷酸的最大长度至约55个核苷酸的最大长度的重复的所述核苷酸序列的步骤。在编码富含PA的序列的本发明核酸的上下文中，上文提供的NRS公式和低重复核苷酸序列的实施方案和参数，如作适当变动，可适用于本文提供和说明的编码富含PA的序列的遗传稳定的核酸分子的选择方法以及用于其它实施方案。

在本文中，令人惊讶地发现和显示本发明的核酸分子具有增强的体内稳定性。如所附示例性实施例，例如实施例6中所示，本文提供的核酸分子比包含更多重复核苷酸序列的核酸分子更稳定。实施例6比较了核苷酸序列的重复性不同的编码由脯氨酸、丙氨酸和丝氨酸组成的多肽的核酸分子。与诸如现有技术中给出的高度重复核苷酸序列，例如SEQ IDNO:51相比，本文提供的包含低重复核苷酸序列的本发明核酸分子(也参见图2B)，如SEQ IDNO:50中给出的，具有较高的遗传稳定性。因此，本文使用的术语“体内稳定性”特别指“遗传稳定性”。本文使用的术语“遗传稳定性”意为核酸稳定地保持在宿主细胞中并且该序列并未例如通过突变、插入或缺失而被遗传修饰。如本文所用，突变是指核苷酸序列的变化，例如，置换、缺失、插入或延伸。在所附实施例中显示包含高度重复核苷酸序列的核酸分子易于缺失或缩短；参见例如实施例6。因此，包含高度重复核苷酸序列/重复基因盒的核酸分子具有较差的遗传稳定性，这可能由例如细胞分裂期间的重组事件引起。本文定义的参数NRS或n_max提供了区分高度重复核苷酸序列，如来自现有技术的具有高的NRS和/或n_max数目的那些高度重复核苷酸序列，和本发明的具有低的NRS和/或n_max数目的低重复核苷酸序列的客观手段。

本文提供的核酸分子编码包含重复氨基酸序列的多肽。值得注意的是，编码的重复氨基酸序列也可以是融合蛋白的一部分/片段。例如，本文公开的核酸分子可以编码由富含脯氨酸/丙氨酸的重复(例如，由脯氨酸、丙氨酸和任选的丝氨酸组成的重复)组成的多肽。富含脯氨酸/丙氨酸的多肽可以形成无规卷曲。在某些方面，本文公开的核酸分子编码由脯氨酸、丙氨酸和丝氨酸组成的多肽，其中所述多肽形成无规卷曲。在某些方面，本文公开的核酸分子编码由脯氨酸和丙氨酸组成的多肽，其中所述多肽形成无规卷曲。

特别地，核苷酸序列编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽。该编码的多肽形成无规卷曲。核苷酸序列包含在本文提供的核酸分子中。因此，在某些方面，本文公开的核酸分子编码包含重复氨基酸序列并由脯氨酸、丙氨酸和任选丝氨酸组成的多肽，其中所述多肽形成无规卷曲。在某些方面，本文公开的核酸分子编码包含重复氨基酸序列并由脯氨酸、丙氨酸和丝氨酸组成的多肽，其中所述多肽形成无规卷曲。在某些方面，本文公开的核酸分子编码包含重复氨基酸序列并由脯氨酸和丙氨酸组成的多肽，其中所述多肽形成无规卷曲。

如本文所用，术语“无规卷曲”涉及聚合物分子，包括氨基酸聚合物，特别是由L-氨基酸制成的多肽的任何构象，其中形成所述聚合物结构的各个单体元件基本上随机地朝向相邻的一个或多个单体元件，同时仍然是化学连接的。具体地，采用/具有/形成“无规卷曲构象”的编码的多肽或氨基酸聚合物基本上缺乏确定的二级和三级结构。编码的多肽无规卷曲的性质及其实验鉴定方法为本领域技术人员已知的，并且已经描述于科学文献(Cantor(1980)Biophysical Chemistry,第2版,W.H.Freeman and Company,New York；Creighton(1993)Proteins–Structures and Molecular Properties,第2版,W.H.Freemanand Company,New York；Smith(1996)Fold.Des.1:R95-R106)和专利文献，例如WO2011/144756and WO2008/155134中。

本发明的编码的无规卷曲多肽例如在水溶液和/或生理条件下采用/形成无规卷曲构象。术语“生理条件”为本领域已知的，并且涉及蛋白质通常采用其天然折叠构象的那些条件。更具体地，术语“生理条件”涉及通常对高等生命形式，特别是对哺乳动物，最优选人类有效的环境生物物理参数。术语“生理条件”可以涉及通常存在于身体中，特别是哺乳动物并且特别是人类的体液中的生物化学和生物物理学参数。所述“生理条件”可以涉及在健康身体中发现的相应参数以及在疾病状况或人类患者中发现的参数。例如，当患病的哺乳动物或人患者发烧时，所述哺乳动物或所述人可能具有较高的，但仍是“生理的”体温(即温度条件)。关于蛋白质采用其天然构象/状态的“生理条件”，最重要的参数是温度(对于健康人体为37℃)、pH(对于人类血液为7.35–7.45)、渗透压(280–300mmol/kg H₂O)以及如果必要的话，一般蛋白质含量(66–85g/l血清)。

然而，本领域技术人员知道，在生理条件下，这些参数可以变化，例如，在给定的体液或组织液如血液、脑脊液、腹膜液和淋巴中，温度、pH、渗透压和蛋白质含量可能不同(Klinke(2005)Physiologie,第4版,Georg Thieme Verlag,Stuttgart)。例如，在脑脊液中，渗透压可以是约290mmol/kg H₂O，并且蛋白质浓度可以是0.15g/l至0.45g/l，而在淋巴中，pH可以是约7.4，并且蛋白质含量可以是3g/l至5g/l。当确定编码的多肽/氨基酸序列在实验条件下是否形成/采用无规卷曲构象时，诸如温度、pH、渗透压和蛋白质含量的生物物理参数可能与通常在体内发现的生理条件不同。1℃至42℃或优选4℃至25℃的温度可能被认为对于在体外生理条件下测试和/或验证蛋白质的生物物理特性和生物学活性是有用的。

数种缓冲液，其可以包括用于药物组合物的溶剂和/或赋形剂，被认为代表体外，具体地，在实验环境中，例如在允许本领域技术人员确定蛋白质/氨基酸序列的结构特性的CD测量或其它方法的上下文中的“生理溶液”/“生理条件”。此类缓冲液的实例为，例如，磷酸盐缓冲盐水(PBS，例如：115mM NaCl,4mM KH₂PO₄,16mM Na₂HPO₄ pH 7.4)、Tris缓冲液、乙酸盐缓冲液、柠檬酸盐缓冲液或类似缓冲液。通常，代表“生理溶液条件”的缓冲液的pH应位于6.5至8.5的范围内，优选7.0至8.0的范围内，最优选7.2至7.7的范围内，并且渗透压应位于10至1000mmol/kg H₂O的范围内，更优选50至500mmol/kg H₂O的范围内并且最优选200至350mmol/kg H₂O的范围内。任选地，生理溶液的蛋白质含量可以位于0至100g/l的范围内，忽略所研究的采用无规卷曲构象的蛋白质本身；此外，可以存在典型的稳定化蛋白质，例如人或牛血清白蛋白。

由本发明的核酸分子编码的多肽不仅在生理条件下形成无规卷曲构象，而且更普遍地，在水溶液中形成无规卷曲构象；例如参见WO2011/144756。术语“水溶液”为本领域众所周知的。“水溶液”可以是具有至少约20％、至少约30％、至少约40％、至少约50％、至少约60％、至少约70％、至少约80％或至少约90％H₂O(重量/重量)的水(H₂O)含量的溶液。因此，本发明中提供的编码的多肽可以在水溶液(可能含有其它能混溶的溶剂)中形成无规卷曲构象，或者在具有较宽范围的温度、pH值、渗透压或蛋白质含量的水性分散体中形成无规卷曲构象。这对于无规卷曲多肽在药物疗法或体内诊断之外的应用(例如在化妆品、营养品或食品技术中)特别相关。

在本发明的上下文中还设想，编码的多肽的无规卷曲构象被保持在药物组合物中，如液体药物/生物制品或冻干的药物组合物中。这在本文提供的尤其包含无规卷曲多肽的编码的生物学活性蛋白或药物缀合物的上下文中特别重要。优选地，“生理条件”将用于相应的缓冲体系、溶剂和/或赋形剂中。然而，例如，在冻干或干燥的组合物(如，例如药物组合物/生物制品)中，设想，本文提供的编码的无规卷曲多肽的无规卷曲构象可能暂时不存在和/或不能被检测到。然而，所述编码的无规卷曲多肽将在相应的缓冲液/溶液/赋形剂/溶剂中重构之后或在施用于患者或动物的身体之后再次采用/形成其无规卷曲。

在本发明的某些方面，本文公开的核酸分子编码(主要或仅仅)由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽，其中不超过9个连续氨基酸残基是相同的。此类编码的多肽形成无规卷曲。在某个方面，采用无规卷曲构象的编码的氨基酸序列/多肽可以包含多个氨基酸重复，其中所述“氨基酸重复”主要或仅仅由脯氨酸、丙氨酸和任选的丝氨酸氨基酸残基组成，其中不超过9个连续氨基酸残基是相同的。在某个方面，采用无规卷曲构象的编码的氨基酸序列/多肽(本文限定的无规卷曲多肽)可以包含多个氨基酸重复，其中所述“氨基酸重复”主要或仅仅由脯氨酸、丙氨酸和丝氨酸氨基酸残基组成，其中不超过9个连续氨基酸残基是相同的。在某个方面，采用无规卷曲构象的编码的氨基酸序列/多肽可以包含多个氨基酸重复，其中所述“氨基酸重复”主要或仅仅由脯氨酸和丙氨酸氨基酸残基组成，其中不超过9个连续氨基酸残基是相同的。

在优选的方面，本文公开的核酸分子编码包含具有多个氨基酸重复的重复氨基酸序列的多肽，其中不超过8个连续氨基酸残基是相同的，并且其中所述多肽形成无规卷曲。优选地，本文公开的核酸分子编码包含具有多个氨基酸重复的重复氨基酸序列的多肽，其中不超过7个连续氨基酸残基是相同的，并且其中所述多肽形成无规卷曲。更优选地，本文公开的核酸分子编码包含具有多个氨基酸重复的重复氨基酸序列的多肽，其中不超过6个连续氨基酸残基是相同的，并且其中所述多肽形成无规卷曲。特别优选地，本文公开的核酸分子编码包含具有多个氨基酸重复的重复氨基酸序列的多肽，其中不超过5个连续氨基酸残基是相同的，并且其中所述多肽形成无规卷曲。更特别优选地，本文公开的核酸分子编码包含具有多个氨基酸重复的重复氨基酸序列的多肽，其中不超过4个连续氨基酸残基是相同的，并且其中所述多肽形成无规卷曲。最优选地，本文公开的核酸分子编码包含具有多个氨基酸重复的重复氨基酸序列的多肽，其中不超过3个连续氨基酸残基是相同的，并且其中所述多肽形成无规卷曲。

下文提供了仅仅由脯氨酸、丙氨酸和丝氨酸残基组成的氨基酸重复的非限制性实例；参见例如SEQ ID NO：6。下文提供了仅仅由脯氨酸和丙氨酸残基组成的编码的氨基酸重复的非限制性实例；参见例如SEQ ID NO：8。编码的多肽可以包含多个拷贝的相同序列或不同序列。

本文公开的核酸分子编码主要或仅仅由三种氨基酸残基脯氨酸(Pro,P)、丙氨酸(Ala,A)和任选的丝氨酸(Ser,S)组成的多肽。本文使用的术语“任选的”意为本发明的编码的多肽主要或仅仅由脯氨酸、丙氨酸和丝氨酸组成，或者主要或仅仅由脯氨酸和丙氨酸组成。主要或仅仅由三种氨基酸残基脯氨酸、丙氨酸和丝氨酸组成的编码多肽在本文中称为“PAS”多肽。主要或仅仅由两种氨基酸残基脯氨酸和丙氨酸组成的编码多肽在本文中称为“PA”多肽。由脯氨酸和丙氨酸组成的编码多肽的非限制性实例在SEQ ID NO：8中给出。由脯氨酸、丙氨酸和丝氨酸组成的编码多肽的非限制性实例在SEQ ID NO：6中给出。本文使用的术语“主要”意为优选至少约90％或至少约95％的编码的氨基酸为脯氨酸、丙氨酸和任选的丝氨酸，由此脯氨酸、丙氨酸和丝氨酸的总数占大多数，但可能不是仅有的氨基酸残基；因此编码的氨基酸序列不一定是100％的脯氨酸、丙氨酸和任选的丝氨酸。因此，只要氨基酸序列形成/采用/具有无规卷曲构象，编码的多肽/氨基酸序列也可以包含除脯氨酸、丙氨酸和任选的丝氨酸以外的作为次要组分的其它氨基酸。可以通过本文所述的手段和方法容易地确定此类无规卷曲构象。因此，在一个实施方案中，本发明涉及编码无规卷曲多肽的核酸分子，其中氨基酸序列主要由脯氨酸、丙氨酸和任选的丝氨酸组成。

在编码的多肽由脯氨酸和丙氨酸组成的情况下，所述脯氨酸残基占所述编码的氨基酸序列的大于约10％且小于约75％。因此，编码的无规卷曲多肽主要由脯氨酸和丙氨酸组成，其中脯氨酸残基占氨基酸序列的大于约10％且小于75％。丙氨酸残基占所述氨基酸序列的剩余的至少25％至90％。

优选地，编码的氨基酸序列包含大于约10％，优选大于约12％，更优选大于约14％、18％、20％，更优选大于约22％、23％、24％或25％，更优选大于约27％、29％或30％，更优选大于约32％、33％或34％并且最优选大于约35％的脯氨酸残基。氨基酸序列优选包含小于约75％，更优选小于70％，更优选小于65％，更优选小于60％，更优选小于55％，更优选小于50％的脯氨酸残基，其中较低值为优选的。甚至更优选地，氨基酸序列包含小于约48％、46％、44％、42％的脯氨酸残基。更优选的是包含小于约41％、40％、39％、38％、37％或36％的脯氨酸残基的氨基酸序列，其中较低值为优选的。更优选的是包含小于约34％、32％或30％的氨基酸序列。更优选的是包含小于约28％、26％或25％的氨基酸序列。最优选地，氨基酸序列包含小于约35％的脯氨酸残基。

反之亦然，氨基酸序列优选包含小于约90％，更优选小于88％、86％、84％、82％或80％的丙氨酸残基，其中较低值为优选的。更优选地，氨基酸序列包含小于约79％、78％、77％、76％的丙氨酸残基，其中较低值为优选的。更优选地，氨基酸序列包含小于约74％、72％或70％的丙氨酸残基，其中较低值为优选的。更优选地，氨基酸序列包含小于约69％、67％或65％的丙氨酸残基，其中较低值为优选的。最优选地，氨基酸序列包含小于约75％的丙氨酸残基。本文还优选包含大于约25％，优选大于约30％，更优选大于约35％，更优选大于约40％，更优选大于约45％，更优选大于约50％，更优选大于约52％、54％、56％、58％或59％的丙氨酸残基的氨基酸序列，其中较高值为优选的。甚至更优选地，氨基酸序列包含大于约60％、61％、62％、63％或64％的丙氨酸残基。更优选地，氨基酸序列包含大于约66％、67％、69％或70％的丙氨酸残基。更优选地，氨基酸序列包含大于约72％、74％或75％的丙氨酸残基。最优选地，氨基酸序列包含大于约65％的丙氨酸残基。

因此，无规卷曲多肽可以包含分别由约25％或30％的脯氨酸残基和约75％或70％的丙氨酸残基组成的氨基酸序列。可选地，无规卷曲多肽可以包含由约35％的脯氨酸残基和约65％的丙氨酸残基组成的氨基酸序列。上文使用的术语“约X％”不限于简洁的百分比值，而且还包括增加10％至20％或减少10％至20％的残基的值。例如，术语10％也可以分别涉及11％或12％和9％或8％。

在由脯氨酸、丙氨酸和丝氨酸组成的编码多肽的情况下，所述脯氨酸残基占所述编码的氨基酸残基的大于约4％且小于约40％。丙氨酸和丝氨酸残基占所述氨基酸序列的剩余量。

优选地，编码的氨基酸序列包含大于约4％，优选大于约6％，更优选大于约10％，更优选大于约15％，更优选大于约20％，更优选大于约22％、23％或24％，更优选大于约26％、29％或30％，更优选大于约31％、32％、33％、34％或35％并且最优选大于约25％的脯氨酸残基。编码的氨基酸序列优选包含小于约40％，更优选小于38％、35％、30％、26％的脯氨酸残基,其中较低值为优选的。

编码的氨基酸序列优选包含小于约95％，更优选小于90％、86％、84％、82％或80％的丙氨酸残基，其中较低值为优选的。更优选地，编码的氨基酸序列包含小于约79％、78％、77％、76％的丙氨酸残基，其中较低值为优选的。更优选地，编码的氨基酸序列包含小于约75％、73％、71％或70％的丙氨酸残基，其中较低值为优选的。更优选地，编码的氨基酸序列包含小于约69％、67％、66％或65％的丙氨酸残基，其中较低值为优选的。更优选地，编码的氨基酸序列包含小于约64％、63％、62％或60％的丙氨酸残基，其中较低值为优选的。更优选地，编码的氨基酸序列包含小于约59％、57％、56％或55％的丙氨酸残基，其中较低值为优选的。更优选地，编码的氨基酸序列包含小于约54％、53％或51％的丙氨酸残基，其中较低值为优选的。最优选地，编码的氨基酸序列包含小于约50％的丙氨酸残基。

本文还优选包含大于约10％，优选大于约15％、17％、19％或20％，更优选大于约22％、24％或25％，更优选大于约27％、29％或30％，更优选大于约32％、34％或35％，更优选大于约37％、39％或40％，优选大于约42％、44％或45％，更优选大于约46％、47％或49％的丙氨酸残基的编码的氨基酸序列，其中较高值为优选的。最优选地，编码的氨基酸序列包含大于约50个丙氨酸残基。如上文所提及的，丝氨酸残基占所述氨基酸序列的剩余量。

因此，编码的无规卷曲多肽可以包含由约35％的脯氨酸残基、约50％的丙氨酸和15％的丝氨酸残基组成的氨基酸序列。示例性核苷酸序列及其编码的多肽可以见于表1中。上文使用的术语“约X％”不限于简洁百分比值，而且还包括增加10％至20％或减少10％至20％的残基的值。例如，术语10％也可以分别涉及11％或12％或者9％和8％。

然而，如上文所提及以及下文进一步详述的，所述编码的无规卷曲多肽，并且特别是氨基酸序列还可以包含不同于脯氨酸、丙氨酸和任选的丝氨酸的作为次要组分的另外的氨基酸。如上文已经论述的，所述次要组分，即不同于脯氨酸、丙氨酸或任选的丝氨酸的氨基酸，可以占本发明的编码无规卷曲多肽的小于约10％或小于约5％。

本领域技术人员知道，当包含除脯氨酸、丙氨酸和任选的丝氨酸以外的其它残基作为所述氨基酸序列/多肽(多肽片段)中的次要组分时，编码的氨基酸序列/多肽也可以形成无规卷曲构象。本文使用的术语“次要组分”意为在本发明的编码的无规卷曲多肽中，最多5％或最多10％的氨基酸残基不同于脯氨酸、丙氨酸或丝氨酸。这意味着100个氨基酸中的最多10个可以不同于脯氨酸、丙氨酸和任选的丝氨酸，优选最多8％，即100个氨基酸中的最多8个可以不同于脯氨酸、丙氨酸和任选的丝氨酸，更优选最多6％，即100个氨基酸中的最多6个可以不同于脯氨酸、丙氨酸和任选的丝氨酸，甚至更优选最多5％，即100个氨基酸中的最多5个可以不同于脯氨酸、丙氨酸和任选的丝氨酸，特别优选最多4％，即100个氨基酸中的最多4个可以不同于脯氨酸、丙氨酸和任选的丝氨酸，更特别优选最多3％，即100个氨基酸中的最多3个可以不同于脯氨酸、丙氨酸和任选的丝氨酸，甚至更特别优选最多2％，即100个氨基酸中的最多2个可以不同于脯氨酸、丙氨酸和任选的丝氨酸，并且最优选最多1％，即包含在无规卷曲多肽中的100个氨基酸中的最多1个可以不同于脯氨酸、丙氨酸和任选的丝氨酸。所述不同于脯氨酸、丙氨酸和任选的丝氨酸的氨基酸可以选自Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Ile、Leu、Lys、Met、Phe、Thr、Trp、Tyr和Val，包括翻译后修饰的氨基酸或非天然氨基酸(参见例如Budisa(2004)Angew Chem Int Ed Engl 43:6426-6463；Young(2010)J Biol Chem 285:11039-11044；Liu(2010)Annu Rev Biochem 79:413-444；Wagner(1983)AngewChem Int Ed Engl 22:816-828；Walsh(2010)Drug Discov Today 15:773-780)。在某些情况下，富含PA的序列也可以包含Ser作为次要组分。例如，如果编码的无规卷曲多肽由脯氨酸和丙氨酸组成，则丝氨酸也可以被认为是次要组分。

通常，本文优选这些“次要”氨基酸(除了脯氨酸、丙氨酸和任选的丝氨酸之外)不存在于本文所述的编码的无规卷曲多肽中或不存在于作为融合蛋白的一部分/片段的编码的无规卷曲多肽中。根据本发明，编码的无规卷曲多肽/氨基酸序列可以，特别地，仅仅由脯氨酸、丙氨酸和任选的丝氨酸残基组成(即在编码的无规卷曲多肽或氨基酸序列中不存在其它氨基酸残基)。

在本发明的上下文中，编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核酸分子或编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列可以由至少300个核苷酸组成。然而，对于本领域技术人员显而易见的是，只要编码的多肽形成无规卷曲，本文提供的核苷酸序列的长度不受限制。所附实施例记载了可以令人惊讶地合成本文提供的包含低重复核苷酸序列的核酸分子，不管其长度如何。本文证明了，例如，可以合成长度为约600个核苷酸的核苷酸序列。此类核苷酸序列可用于组装甚至更长的核苷酸序列。换言之，这些核苷酸序列可以用作单元/模块/构件以组合/组装本发明的核酸分子中涵盖的更长的核苷酸序列。在一个实施方案中，单个核苷酸序列单元/模块/构件也对应于本发明的核酸分子。

根据本发明，只要组装的核苷酸序列编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽，相同或不同的核苷酸序列单元/模块/构件就可彼此组合。此外，根据本发明，只要编码具有重复氨基酸序列的多肽的组装的核苷酸序列形成无规卷曲，相同或不同的核苷酸序列单元/模块/构件就可彼此组合。如上文所提及的，通过使用这些单元/模块/构件来组装本文提供的包含低重复核苷酸序列的核酸分子是特别有利的。在下文中记载了可以组装长度为至少2400个核苷酸的长核苷酸序列。本发明的核苷酸序列可彼此组合或与另外的不同核苷酸序列组合。因此，本文提供的核酸分子可以由相同或不同的核苷酸序列组装，其中所述核苷酸序列是低重复核苷酸序列。在某些方面，本文提供的核酸分子包含选自以下的至少一个核苷酸序列：SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ IDNO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ IDNO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ IDNO:35、SEQ ID NO:36、SEQ ID NO:37、SEQ ID NO:87、SEQ ID NO:88、SEQ ID NO:89、SEQ IDNO:90、SEQ ID NO:91、SEQ ID NO:92、SEQ ID NO:93、SEQ ID NO:94、SEQ ID NO:95、SEQ IDNO:96、SEQ ID NO:97、SEQ ID NO:98、SEQ ID NO:99、SEQ ID NO:100、SEQ ID NO:101、SEQID NO:102、SEQ ID NO:103、SEQ ID NO:104、SEQ ID NO:105、SEQ ID NO:106、SEQ ID NO:107、SEQ ID NO:108、SEQ ID NO:109、SEQ ID NO:110、SEQ ID NO:111、SEQ ID NO:112、SEQID NO:113、SEQ ID NO:114、SEQ ID NO:115、SEQ ID NO:116、SEQ ID NO:117、SEQ ID NO:118、SEQ ID NO:119、SEQ ID NO:120、SEQ ID NO:121、SEQ ID NO:122、SEQ ID NO:123、SEQID NO:124、SEQ ID NO:125、SEQ ID NO:126、SEQ ID NO:127、SEQ ID NO:128、SEQ ID NO:129、SEQ ID NO:130、SEQ ID NO:131、SEQ ID NO:132、SEQ ID NO:133、SEQ ID NO:134、SEQID NO:135、SEQ ID NO:136、SEQ ID NO:137、SEQ ID NO:138、SEQ ID NO:139、SEQ ID NO:140、SEQ ID NO:141、SEQ ID NO:142、SEQ ID NO:143、SEQ ID NO:144、SEQ ID NO:145、SEQID NO:146、SEQ ID NO:147、SEQ ID NO:148、SEQ ID NO:149、SEQ ID NO:150、SEQ ID NO:151、SEQ ID NO:152、SEQ ID NO:192、SEQ ID NO:193、SEQ ID NO:194和SEQ ID NO:195。因为这些示例性核苷酸序列可以用于组装更长的核苷酸序列，所以这些核苷酸序列可以被称为单元或模块或构件。因此，在本文中应理解，本发明的核酸分子可以包含被组装成更长核苷酸序列的这些核苷酸模块或核苷酸序列中的多个，其中所述更长的核苷酸序列本身是如上所述的低重复核苷酸序列。本领域技术人员理解本发明的核酸分子还可以包含给定核苷酸序列模块的片段。换言之，本文提供的核酸分子包含选自以下的至少一个核苷酸序列或其片段，或者为选自以下的至少一个核苷酸序列或其片段：SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ IDNO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ ID NO:35、SEQ ID NO:36、SEQ ID NO:37、SEQ IDNO:87、SEQ ID NO:88、SEQ ID NO:89、SEQ ID NO:90、SEQ ID NO:91、SEQ ID NO:92、SEQ IDNO:93、SEQ ID NO:94、SEQ ID NO:95、SEQ ID NO:96、SEQ ID NO:97、SEQ ID NO:98、SEQ IDNO:99、SEQ ID NO:100、SEQ ID NO:101、SEQ ID NO:102、SEQ ID NO:103、SEQ ID NO:104、SEQ ID NO:105、SEQ ID NO:106、SEQ ID NO:107、SEQ ID NO:108、SEQ ID NO:109、SEQ IDNO:110、SEQ ID NO:111、SEQ ID NO:112、SEQ ID NO:113、SEQ ID NO:114、SEQ ID NO:115、SEQ ID NO:116、SEQ ID NO:117、SEQ ID NO:118、SEQ ID NO:119、SEQ ID NO:120、SEQ IDNO:121、SEQ ID NO:122、SEQ ID NO:123、SEQ ID NO:124、SEQ ID NO:125、SEQ ID NO:126、SEQ ID NO:127、SEQ ID NO:128、SEQ ID NO:129、SEQ ID NO:130、SEQ ID NO:131、SEQ IDNO:132、SEQ ID NO:133、SEQ ID NO:134、SEQ ID NO:135、SEQ ID NO:136、SEQ ID NO:137、SEQ ID NO:138、SEQ ID NO:139、SEQ ID NO:140、SEQ ID NO:141、SEQ ID NO:142、SEQ IDNO:143、SEQ ID NO:144、SEQ ID NO:145、SEQ ID NO:146、SEQ ID NO:147、SEQ ID NO:148、SEQ ID NO:149、SEQ ID NO:150、SEQ ID NO:151、SEQ ID NO:152、SEQ ID NO:192、SEQ IDNO:193、SEQ ID NO:194和SEQ ID NO:195。

在本文中应理解，只要组装的核苷酸序列包含根据本发明的低重复核苷酸序列，本文提供的低重复核苷酸序列或单元或模块或构件可以以任何组合彼此排列或组合。示例性组装的核苷酸序列呈现于下文中，例如SEQ ID NO:38或在本文被描述为PAS#1f/1c/1b(600)，SEQ ID NO:39或在本文被描述为PAS#1d/1f/1c/1b(800)，SEQ ID NO:40或在本文被描述为PAS#1h/1e/1i(600)，SEQ ID NO:41或在本文被描述为PAS#1j/1h/1e/1i(800)，SEQID NO:42或在本文被描述为PA#1d/1c/1b(600)，SEQ ID NO:43或在本文被描述为PA#1i/1h/1g/1f(800)，SEQ ID NO:44或在本文被描述为PA#1e/1d/1c/1b(800)，SEQ ID NO:45或在本文被描述为PA#1i/1h/1g/1f/1e/1d/1c/1b(1600)，SEQ ID NO:153，SEQ ID NO:154，SEQ ID NO:155，SEQ ID NO:156，SEQ ID NO:157，SEQ ID NO:158，SEQ ID NO:159，SEQ IDNO:160，SEQ ID NO:161，SEQ ID NO:162，SEQ ID NO:163，SEQ ID NO:164，SEQ ID NO:165，SEQ ID NO:166，SEQ ID NO:167，SEQ ID NO:168，SEQ ID NO:169，SEQ ID NO:170，SEQ IDNO:171，SEQ ID NO:172，SEQ ID NO:173；SEQ ID NO:174，SEQ ID NO:175，SEQ ID NO:176，SEQ ID NO:177，SEQ ID NO:178，SEQ ID NO:179，SEQ ID NO:180，SEQ ID NO:181，SEQ IDNO:182，SEQ ID NO:184，SEQ ID NO:185，SEQ ID NO:186，SEQ ID NO:187，SEQ ID NO:188，SEQ ID NO:189，SEQ ID NO:190和/或SEQ ID NO:191。

因此，本文提供的核酸分子具有、包含或为本发明的优选方面中的所述组装的核苷酸序列。

如所附实施例(参见实施例1)中所记载的，根据本发明的长核苷酸序列可以以逐步方式组装。组装的核苷酸序列保持低重复性。在所附实施例中显示如何组装SEQ ID NO：39中给出的或在本文中被描述为PAS#1d/1f/1c/1b(800)的包含2400个核苷酸并且编码800个氨基酸的示例性核苷酸序列。

在本文中应理解，这些组装的核苷酸序列为低重复核苷酸序列。例如，所附实施例记载了在2400个核苷酸的整个核苷酸序列内，在重复窗口为15的情况下，SEQ ID NO:39中给出的或在本文被描述为PAS#1d/1f/1c/1b(800)序列的示例性核苷酸序列不显示重复，或显示只有一个单一的14个核苷酸的重复；参见图2B。为了比较，现有技术中公开的长核苷酸序列包含在本文给出的PAS#1a(600)的情况下以SEQ ID NO:12示例性显示的重复核苷酸序列。因此，根据本发明的长核酸分子具有低重复核苷酸序列，因此克服了上文所提及的与重复核苷酸区段相关的技术挑战。

核酸分子以及相关的核酸分子(如与本文提供和限定的编码由脯氨酸和丙氨酸组成的多肽的特定核苷酸序列具有至少66％，例如至少66.6％的同一性的变体、片段、核酸分子；或如与本文提供和限定的编码由脯氨酸、丙氨酸和丝氨酸组成的多肽的特定核苷酸序列具有至少56％，例如至少56.6％的同一性的变体、片段、核酸分子等)包含或为编码这样的多肽的低重复核苷酸序列，所述多肽形成无规卷曲构象，增加体内/体外稳定性。

核酸分子以及相关的核酸分子具有、包含或为编码这样的多肽的低重复核苷酸序列，所述多肽形成无规卷曲构象并增加生物学或药理学活性蛋白或药物的体内/体外稳定性。所述相关的核酸分子包含或为所述核酸分子的变体和片段。所述相关的核酸分子与本文提供和限定的编码由脯氨酸和丙氨酸组成的多肽的特定核苷酸序列具有至少66％，例如至少66.6％的同一性或者与本文提供和限定的编码由脯氨酸、丙氨酸和丝氨酸组成的多肽的特定核苷酸序列具有至少56％，例如至少56.6％的同一性。

在某些方面，包含编码由脯氨酸和丙氨酸组成的多肽的直系同源/同源/相同/相似的(并且因此相关的)核苷酸序列的核酸分子尤其与SEQ ID NO:28、29、30、31、32、33、34、35、36、37、42、43、44、45、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、192和193中示出的核苷酸序列具有至少66％，例如至少66.6％的同源性/同一性。更优选地，包含编码由脯氨酸和丙氨酸组成的多肽的直系同源/同源/相同/相似的(并且因此相关的)核苷酸序列的核酸分子尤其与28、29、30、31、32、33、34、35、36、37、42、43、44、45、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、192和193中示出的核苷酸序列具有至少68％、70％、75％、80％、85％、90％、92％、93％、94％、95％、96％、97％或98％的同源性/同一性，其中较高值为优选的。最优选地，包含编码由脯氨酸和丙氨酸组成的多肽的直系同源/同源/相同/相似的(并且因此相关的)核苷酸序列的核酸分子尤其与28、29、30、31、32、33、34、35、36、37、42、43、44、45、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、192和193中示出的核苷酸序列具有至少99％的同源性/同一性/相似性。

在其它方面，包含编码由脯氨酸、丙氨酸和丝氨酸组成的多肽的直系同源/同源/相同/相似的(并且因此相关的)核苷酸序列的核酸分子尤其与SEQ ID NO:19、20、21、22、23、24、25、26、27、38、39、40、41、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、174、175、176、177、178、179、180、181、182、184、185、186、187、188、189、190、191、194和195中示出的核苷酸序列具有至少56％，例如至少56.6％的同源性/同一性/相似性。更优选地，包含编码由脯氨酸、丙氨酸和丝氨酸组成的多肽的直系同源/同源/相同/相似的(并且因此相关的)核苷酸序列的核酸分子尤其与19、20、21、22、23、24、25、26、27、38 39、40、41、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、174、175、176、177、178、179、180、181、182、184、185、186、187、188、189、190、191、194和195中示出的核苷酸序列具有至少58％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％或98％的同源性/同一性。最优选地，包含编码由脯氨酸、丙氨酸和丝氨酸组成的多肽的直系同源/同源/相同/相似的(并且因此相关的)核苷酸序列的核酸分子尤其与SEQ ID NO:19、20、21、22、23、24、25、26、27、38、39、40、41、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、174、175、176、177、178、179、180、181、182、184、185、186、187、188、189、190、191、194和195中示出的核苷酸序列具有至少99％的同源性/同一性/相似性。上文限定的相关核苷酸序列也可以涵盖在更长或更短的同种型、剪接变体或融合构建体中。

在某些方面，本文提供的核酸分子可以尤其与SEQ ID NO:19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、184、185、186、187、188、189、190、191、192、193、194和195中示出的核苷酸序列的互补链在严紧条件下杂交。本文使用的术语“杂交(hybridization)”或“杂交(hybridizes)”可以涉及在严紧条件或非严紧条件下的杂交。如果没有进一步指明，条件优选为严紧的。所述杂交条件可以根据例如Sambrook(2001)Molecular Cloning:A Laboratory Manual,Cold Spring HarborLaboratory Press,第3版,New York；Ausubel(1989)Current Protocols in MolecularBiology,Green Publishing Associates and Wiley Interscience,New York,orHiggins(1985)Nucleic acid hybridization,a practical approach,IRL PressOxford,Washington DC中所述的常规方案建立。合适条件的设定完全在技术人员的技能内，并且可根据本领域所述的方案确定。因此，仅检测特异性杂交的序列通常将需要严紧的杂交和洗涤条件，如，例如，在65℃下，0.1x盐水柠檬酸钠缓冲液(SSC)，0.1％w/v SDS或2xSSC，60℃，0.1％w/v SDS。用于检测同源或不精确互补序列的低严紧杂交条件可以，例如，被设定为在65℃下，6x SSC,1％w/v SDS。众所周知的，核酸探针的长度和待测定的核酸组成构成杂交条件的其它参数。

根据本发明，在两个或更多个核苷酸序列的上下文中，术语“同源性”或“同源性百分比”或“同一的”或“同一性百分比(percent identity)”或“同一性百分比(percentageidentity)”或“序列同一性”是指如使用本领域已知的序列比较算法或通过手动比对和目测而测量的，在比较窗口(优选全长)，或在指定区域内为最大对应性而进行比较和比对时，两个或更多个序列或亚序列是相同的，或者具有特定百分比的相同核苷酸(在编码由脯氨酸和丙氨酸组成的多肽的核酸分子的情况下，优选至少66％，例如至少66.6％的同一性，更优选至少68％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％或98％的同一性，最优选至少99％的同一性；或者在编码脯氨酸、丙氨酸和丝氨酸的核酸分子的情况下，优选至少56％，例如至少56.6％的同一性，更优选至少58％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％或98％的同一性，最优选至少99％的同一性)。

具有，例如，70％至90％或更高序列同一性的序列可以被认为是基本相同或相似的。此类限定也适用于测试核酸序列的互补物。优选地，所述同一性存在于长度为至少约15至25个核苷酸的区域中，更优选地，长度为至少约50至100个核苷酸的区域中，更优选长度为至少约125至200个核苷酸的区域中，更优选长度为至少约225至300个核苷酸的区域中，甚至更优选长度为至少约325至600个核苷酸的区域中，甚至更优选长度为至少约625至800个核苷酸的区域中，并且最优选地，长度为至少约825至1200个核苷酸的区域中。本领域技术人员将知道如何使用，例如，诸如基于CLUSTALW计算机程序(Thompson(1994)Nucl.AcidsRes。2:4673-4680),CLUSTAL Omega(Sievers(2014)Curr.Protoc Bioinformatics 48:3.13.1-3.13.16)或FASTDB(Brutlag(1990)Comp App Biosci 6:237-245)的那些算法确定序列之间的同一性百分比。对于本领域技术人员也可用的是代表基本局部比对搜索工具的BLAST和BLAST 2.0算法(Altschul,(1997)Nucl.Acids Res.25:3389-3402；Altschul(1990)J.Mol.Biol.215:403-410)。针对核酸序列的BLASTN程序默认使用：字长(W)为11、预期值(E)为10，M＝5，N＝4以及两条链比较。BLOSUM62分数矩阵(Henikoff(1992)Proc.Natl.Acad.Sci.U.S.A.89:10915-10919)使用比对为(B)50，预期值(E)为10，M＝5，N＝4以及两条链的比较。

为了确定给定核苷酸序列中的核苷酸残基是否分别对应于例如SEQ ID NO:19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44,45、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、184、185、186、187、188、189、190、191、192、193、194和195的核苷酸序列中的某一位置，本领域技术人员可使用本领域众所周知的手段和方法，例如手动或通过使用诸如本文提及的那些计算机程序进行比对。例如，BLAST 2.0可用于搜索局部序列比对。如上文论述的，BLAST或BLAST 2.0产生核苷酸序列的比对以确定序列相似性。由于比对的局部性质，BLAST或BLAST2.0在确定精确匹配或者鉴定相似或相同序列中特别有用。

如所附实施例中所示，本文提供了快速且容易地克隆长的低重复核苷酸序列或包含所述核苷酸序列的长的低重复核酸分子的手段和方法；参见例如实施例1、2、5、7和10。如在所附实施例中所示，本文提供了特别适用于将本发明的核苷酸序列组装成更长构建体的示例性载体。如上文所提及的，本文提供的核酸分子或核苷酸序列可以以逐步方式组装以建立长核酸分子或长核苷酸序列。本文设想，组装的核酸分子或核苷酸序列的大小不受限制或最多受到实际情况，如质粒大小或转化/转染效率的限制。

包含低重复核苷酸序列的核酸分子或长度为约2400个核苷酸(编码长度为800个氨基酸残基的多肽)的编码脯氨酸、丙氨酸和丝氨酸的重复氨基酸序列的核酸分子的示例性组装显示在所附实施例2中。其中显示了，首先如SEQ ID NO：19中给出的核苷酸序列单元(构件)PAS#1b(200)，然后如SEQ ID NO：20中给出的核苷酸序列单元PAS#1c(200)，随后如SEQ ID NO：23中给出的核苷酸序列单元PAS#1f(200)，最后如SEQ ID NO：21中给出的核苷酸序列单元PAS#1d(200)被克隆并组装在示例性的pXL2载体中。这种示例性组装的核酸分子或组装的核苷酸序列在本文中被描述为PAS#1d/1f/1c/1b(800)并且在SEQ ID NO：39中给出。另外，在本文中证明，这些组装的本发明核酸分子具有或包含低重复核苷酸序列。特别地，在实施例2中显示，如SEQ ID NO：39中给出的这种示例性组装核苷酸序列仅具有14个核苷酸的最大长度的重复序列。

本发明还涉及用于提供本发明的核酸分子的方法；参见例如图1E，其显示了组装更长的核苷酸序列的示例性程序。此外，本发明涉及特别适于组装编码富含PA的多肽的低重复核酸分子的载体。

根据上文，本文提供的核酸分子可编码由脯氨酸和丙氨酸组成的多肽。

因此，本文提供的核酸分子可选自：

(a)包含选自以下的至少一个核苷酸序列的核酸分子：SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ IDNO:35、SEQ ID NO:36、SEQ ID NO:37、SEQ ID NO:87、SEQ ID NO:88、SEQ ID NO:89、SEQ IDNO:90、SEQ ID NO:91、SEQ ID NO:92、SEQ ID NO:93、SEQ ID NO:94、SEQ ID NO:95、SEQ IDNO:96、SEQ ID NO:97、SEQ ID NO:98、SEQ ID NO:99、SEQ ID NO:100、SEQ ID NO:101、SEQID NO:102、SEQ ID NO:103、SEQ ID NO:104、SEQ ID NO:105、SEQ ID NO:106、SEQ ID NO:107、SEQ ID NO:108、SEQ ID NO:109、SEQ ID NO:110、SEQ ID NO:111、SEQ ID NO:112、SEQID NO:113、SEQ ID NO:114、SEQ ID NO:115、SEQ ID NO:116、SEQ ID NO:117、SEQ ID NO:118、SEQ ID NO:119、SEQ ID NO:120、SEQ ID NO:121、SEQ ID NO:122、SEQ ID NO:192和SEQ ID NO:193；

(b)包含由以下组成的核苷酸序列的核酸分子：SEQ ID NO:42、SEQ ID NO:43、SEQID NO:44、SEQ ID NO:45、SEQ ID NO:153、SEQ ID NO:154、SEQ ID NO:155、SEQ ID NO:156、SEQ ID NO:157、SEQ ID NO:158、SEQ ID NO:159、SEQ ID NO:160、SEQ ID NO:161、SEQID NO:162、SEQ ID NO:163、SEQ ID NO:164、SEQ ID NO:165、SEQ ID NO:166、SEQ ID NO:167、SEQ ID NO:168、SEQ ID NO:169、SEQ ID NO:170、SEQ ID NO:171、SEQ ID NO:172和/或SEQ ID NO:173；

(c)在严紧条件下与(a)或(b)所限定的核苷酸序列的互补链杂交的核酸分子；

(d)包含与(a)、(b)和(c)中任一项所限定的核苷酸序列具有至少66.7％同一性的核苷酸序列的核酸分子；以及

(e)与(a)或(b)所限定的核苷酸序列由于遗传密码而简并的核酸分子。

根据上文，本文提供的核酸分子可编码由脯氨酸、丙氨酸和丝氨酸组成的多肽。

因此，本文提供的核酸分子可以选自：

(a)包含选自以下的至少一个核苷酸序列的核酸分子：SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ IDNO:26、SEQ ID NO:27、SEQ ID NO:123、SEQ ID NO:124、SEQ ID NO:125、SEQ ID NO:126、SEQ ID NO:127、SEQ ID NO:128、SEQ ID NO:129、SEQ ID NO:130、SEQ ID NO:131、SEQ IDNO:132、SEQ ID NO:133、SEQ ID NO:134、SEQ ID NO:135、SEQ ID NO:136、SEQ ID NO:137、SEQ ID NO:138、SEQ ID NO:139、SEQ ID NO:140、SEQ ID NO:141、SEQ ID NO:142、SEQ IDNO:143、SEQ ID NO:144、SEQ ID NO:145、SEQ ID NO:146、SEQ ID NO:147、SEQ ID NO:148、SEQ ID NO:149、SEQ ID NO:150、SEQ ID NO:151、SEQ ID NO:152；SEQ ID NO:194和SEQ IDNO:195；

(b)包含选自以下的核苷酸序列的核酸分子：SEQ ID NO:38、SEQ ID NO:39、SEQID NO:40、SEQ ID NO:41、SEQ ID NO:174、SEQ ID NO:175、SEQ ID NO:176、SEQ ID NO:177、SEQ ID NO:178、SEQ ID NO:179、SEQ ID NO:180、SEQ ID NO:181、SEQ ID NO:182、SEQID NO:184、SEQ ID NO:185、SEQ ID NO:186、SEQ ID NO:187、SEQ ID NO:188、SEQ ID NO:189、SEQ ID NO:190和SEQ ID NO:191；

(d)包含与(a)、(b)和(c)中任一项所限定的核苷酸序列具有至少56％同一性的核苷酸序列的核酸分子；

在某些方面，本发明涉及制备包含本发明的低重复核苷酸序列的核酸分子的方法，其中所述方法包括：

(a)提供包含被核酸内切酶限制酶识别的上游识别序列和被内切核酸内切酶限制酶识别的下游识别序列的载体，

其中任选地识别所述下游识别序列的所述核酸内切酶限制酶不同于识别上游识别序列的核酸内切酶限制酶，

其中所述上游识别序列和所述下游识别序列处于反向互补方向，

其中所述上游识别序列包含两种不同限制酶的两种识别序列，

其中所述下游识别序列包含在上游识别序列中，和/或

其中所述上游识别序列和/或所述下游识别序列为用于在识别序列外切割的限制酶的识别位点；

(b)用识别所述上游和/或所述下游识别序列的限制酶切割(a)的所述载体；

(c)任选地，将(b)的所述载体去磷酸化以防止互补粘末端的杂交；

(d)提供编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核酸分子，其中核苷酸序列的末端与(b)或(c)的载体的切割末端杂交；以及

(e)在DNA连接酶存在的情况下将(d)的所述核酸分子插入所述切割的载体中。

在本发明的某些方面，本文提供的方法可用于制备更长的核酸分子，其中所述核酸分子包含组装的低重复核苷酸序列，其中用于制备如上所述的核酸分子的方法另外包括：

(f)用识别所述上游或所述下游识别序列的限制性酶切割(e)的所述载体；

(g)任选地，将(f)的所述载体去磷酸化以防止互补粘末端的杂交；

(h)提供编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核酸分子，其中所述核苷酸序列的末端与(f)或(g)的载体的切割末端杂交；

(i)在DNA连接酶存在的情况下将(h)的所述核苷酸序列插入所述切割的载体中，

(j)重复步骤(f)至(i)直至达到期望长度的核苷酸序列。

本领域技术人员理解，可以反复地重复该方法的步骤，直至获得期望长度的编码富含PA的多肽的组装的核苷酸序列或组装的核酸分子。

为了提供有利克隆本文提供的核酸分子的手段和方法，合适的克隆载体包含被核酸内切酶限制酶识别的上游识别序列和被核酸内切酶限制酶识别的下游识别序列，其中任选地识别所述下游识别序列的所述核酸内切酶限制酶不同于识别所述上游识别序列的所述核酸内切酶限制酶，其中所述上游识别序列和所述下游识别序列处于反向互补方向。此外，所述上游识别序列可包含两种不同限制酶的两种识别序列。此外，所述下游识别序列可包含在上游识别序列中。因此，所述下游识别序列可包含在上游识别序列之一中。所附示例性实施例显示示例性载体和核酸分子以及提供那些的方法，特别是图1、4、6和8。

在所附实施例中记载了下游识别序列包含在上游识别序列中是特别有益的。通过使用此种策略，上游识别位点可以用于将其它核苷酸序列组装到本文提供的载体中。当然，此类载体上的上游和下游限制性位点的位置是可互换的。具有插入的本发明的核苷酸序列的示例性克隆区显示在图1D中。在这种情况下，识别下游识别序列的限制酶也识别并切割上游识别序列。因此，本发明的编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列或核酸分子可以通过采用识别下游和上游识别序列的限制酶从本文提供的载体中切除，从而允许用于与其它核酸或载体的连接，例如以允许基因表达或产生融合蛋白的编码区。下文示出了用于实现长的低重复核苷酸序列的组装的该克隆策略的实例；参见例如图1E。

在某些方面，第一悬突可包含编码丙氨酸的核苷酸三联体/密码子，特别是GCC，但也可以是GCT、GCA或GCG。在优选方面，本发明的核酸分子包含两个互补的5'-悬突，即一个5'-悬突位于编码链上，而另一个5'-悬突位于非编码链上。在特别优选的实施方案中，编码链上的5'-悬突为GCC，并且非编码链上的5'-悬突为GGC。

在某些其它方面，第一悬突还可包含编码脯氨酸或丝氨酸的核苷酸三联体/密码子，例如CCT、CCC、CCA、CCG、TCT、TCC、TCA、TCG、AGT或AGC。然而，本领域技术人员知道，制备本文提供的核酸分子的方法不限于悬突，而且核酸分子或核苷酸序列也可例如经由平末端连接。如本文所用，术语“悬突”涉及核酸链的作为双链DNA分子的一部分的没有连接互补物的末端部分，也被称为粘末端。如本文所用，术语“平末端”涉及DNA链的没有悬突的末端部分。设想悬突的长度不受限制；然而，包含1至10个核苷酸的悬突似乎是特别合适的。在所附实施例中，采用编码氨基酸丙氨酸的3个核苷酸的悬突。这种三联体悬突提供了这样的优点：其与根据本发明的核酸分子的氨基酸翻译的阅读框直接相容。

值得注意的是，悬突向编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列或核酸分子引入一个另外的三联体。因此，本发明的克隆策略引入一个另外的氨基酸，例如丙氨酸。该另外的氨基酸或相应的三联体/密码子可被认为分别是由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽或编码核酸的一部分。因此，如本领域技术人员所知，当对包含例如300个核苷酸的核苷酸序列采用上文所述的克隆策略时，如果还计数两个三核苷酸的5'悬突，则切除的核酸分子包含303个核苷酸。在本文中设想，取决于本文采用的悬突的长度，甚至更多的三联体/密码子或因此更多的氨基酸残基可以通过该克隆程序而被引入。

此外，当克隆到载体上或作为较长合成DNA片段的一部分(例如，一串)时，本文提供的核酸分子或核苷酸序列包含所述上游识别序列和/或所述下游识别序列，其中所述上游识别序列和/或所述下游识别序列是在识别序列之外切割的限制酶的识别位点。本文采用的限制酶，例如IIS型类别的那些限制酶优选在其识别序列之外的一侧切割，取决于不对称识别序列的适当方向，这产生不包含识别位点的切割的核酸分子或核苷酸序列。

另外，在本文提供的载体中，用此类限制酶进行切割保持了限制酶的识别序列。示例性载体pXL2的克隆位点显示在图1C中。从该载体切除的核酸分子或核苷酸序列缺乏用于其克隆或切除的限制酶识别位点，这对于例如根据本文所述的程序，组装更长的核酸分子或更长的核苷酸序列，对于在表达载体上克隆或者对于产生融合蛋白的编码区是特别有利的。

在其它实施方案中，提供了示例性载体pXL1(SEQ ID NO:55)，并显示在图1B中。在这种情况下，根据本发明的克隆/插入的核酸分子或核苷酸序列侧接两个SapI限制性位点。因此，编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核酸分子可以通过用单一限制酶即SapI(或也可以是EarI)消化/切割而从该载体中简单地切除，这对于随后在表达载体上克隆和/或产生融合蛋白的编码区是特别有利的。

如所附实施例中所示，将本文提供的核酸分子或核苷酸序列以重复方式组装在载体pXL2(SEQ ID NO:48)中；参见例如实施例2。因此，载体中的一个或两个识别位点可以用于将其它的核苷酸序列插入载体中(在存在的插入物的一侧上)，或者可选地，从载体中切除全部(组装的)核苷酸序列或核酸分子。

作为其它优点，在用于产生本文提供的本发明核酸分子的方法中，根据本发明的核酸分子内没有限制酶的识别位点(i)防止了本文提供的组装的更长的核苷酸序列在内部切割，例如在组装的核苷酸序列的单元/模块之间切割，以及(ii)导致了组装的核苷酸序列的相邻单元/模块上编码的氨基酸序列之间或本发明的核苷酸序列与生物学活性蛋白的核苷酸序列上编码的氨基酸序列之间的无偏差过渡。这种策略可以被称为“无痕”或“无缝”组装或克隆。

在所附实施例中显示可采用IIS型限制酶；参见实施例1和2。这类限制酶具有与它们的切割位点分开的识别位点，并且它们中的一些(例如SapI和EarI)在其识别序列之外的一侧切割。在下文中显示，pXL2上的所述上游识别序列被SapI和EarI识别，并且所述下游识别序列被EarI识别。因此，所述上游识别序列具有核苷酸序列5’-GCTCTTC-3’，并且所述下游识别序列具有核苷酸序列5’-CTCTTC-3’。本领域技术人员知道限制酶在本文中没有特别地限制，只要它们满足本文定义的目的或限制即可。

如本文所用，术语“核酸内切酶限制酶”涉及这样的核酸内切酶，其在包含核苷酸区段的特定识别序列处或附近，切断/切割/水解核酸分子或核苷酸序列，例如DNA内连接某些核苷酸的磷酸二酯键处的寡/多核苷酸。因此，限制酶催化核苷酸序列或核酸分子内的磷酸二酯键的水解。限制酶通常基于它们的结构的不同，以及它们是在其识别序列处还是在单独位点处切断/切割它们的底物而被分为三种类型。为切断/切割双链DNA，限制酶通常切割两个磷酸二酯键，各自在DNA双螺旋的每个糖-磷酸骨架(即每条链)中。

如本文所用，术语“识别序列”涉及被限制酶识别的特定核苷酸序列，例如长度为4至8个特定碱基对。

如本文所用，术语“切割”意为用限制酶切断/消化/水解核酸分子和/或载体。如上文所提及的，限制酶切割多核苷酸链内的磷酸二酯键。

如本文所用，术语“插入”是指通过酶的作用将核酸分子连接到载体中。因此，多核苷酸的末端通过在一个多核苷酸末端的3'-羟基与另一个多核苷酸的5'-磷酰基之间形成磷酸二酯键而连接在一起。编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核酸分子或核苷酸序列具有能够与载体的切割末端杂交的末端。在本发明的优选方面，此类末端为能够与切割的载体的相应悬突杂交的悬突。

为了将核酸分子插入载体中，优选将载体去磷酸化以避免高背景的无插入物的再环化载体DNA。去磷酸化的示例性酶可以是小牛肠碱性磷酸酶(CIP或CIAP)或虾碱性磷酸酶，它们都从消化的多核苷酸的5'末端去除磷酸基团。

如本文所用，术语“上游”和“下游”均指核酸分子或核苷酸序列上的相对位置。核酸分子或核苷酸序列的每条链都具有5'末端和3'末端，其针对脱氧核糖(或核糖)上的碳原子而命名。通常，上游和下游涉及发生RNA转录的编码链的5'至3'方向。当考虑到双链DNA时，上游朝向讨论中的基因的编码链或阅读框的5'末端，而下游朝向3'末端。由于双链DNA的反平行性质，这意味着非编码链的3'末端位于基因的上游，其5'末端位于下游。

如本文所用，术语“核酸分子”或“核苷酸序列”旨在包括诸如DNA分子和RNA分子的核酸分子。在本文中，应理解，术语“核苷酸序列”等于术语“核酸序列”，并且这些术语可以在本文中互换使用。所述核酸分子或所述核苷酸序列可以是单链或双链的，但优选是双链DNA。本领域技术人员知道，双链DNA实际上包含具有大量互补核苷酸序列的两个不同的核酸分子(如果存在的话，忽略粘末端)，其非共价缔合/杂交以形成双链。

在本发明的一个方面，编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列或核酸分子与编码生物学或药理学活性蛋白的核酸可操作地连接在同一阅读框中。在本发明的优选方面，编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列或核酸分子与编码生物学或药理学活性蛋白的核酸可操作地连接在同一阅读框中。因此，核酸分子编码异源药物缀合物，其包含由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽以及生物学或药理学活性蛋白。如本文所用，异源意为在自然界中未发现编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核酸分子以及生物学或药理学活性蛋白。

如本文所用，术语“可操作地连接”是指并置，其中讨论中的组分处于允许它们以其预期方式发挥功能的关系中。

编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列可与编码生物学或药理学活性蛋白的核苷酸序列无缝缀合，即没有接头散布这两个序列中。可选地，接头或间隔子结构包含在无规卷曲多肽与生物学或药理学活性蛋白之间。因此，在本发明的某些方面，将编码氨基酸接头的核苷酸序列插入编码富含脯氨酸/丙氨酸的多肽的核苷酸序列与编码生物学或药理学活性蛋白的核苷酸序列之间。示例性接头可以是蛋白酶敏感性切割位点、丝氨酸/甘氨酸接头、亲和标签(如His₆标签或Strep-标签II)、信号肽、保留肽、靶向肽如膜转位肽或另外的效应结构域，例如用于肿瘤靶向的与抗肿瘤毒素相关的抗体片段或用于前药活化的酶等。包含接头/间隔子的多肽可具有血浆蛋白酶切割位点，其允许所述生物学活性蛋白的受控释放。可以在没有过度负担的情况下鉴定不同类型或长度的接头/间隔子，从而获得特定蛋白质的最佳生物学活性。

接头/间隔子可在接受携带接头或间隔子结构的融合蛋白的对象中引起免疫应答。因此，在本发明的优选方面，编码富含脯氨酸/丙氨酸的多肽的核苷酸序列与编码生物学或药理学活性蛋白的核苷酸序列无缝缀合。如本文所用，“无缝的”意为编码无规卷曲多肽的核苷酸序列与编码生物学或药理学活性蛋白的核苷酸序列直接缀合。因此，不引入编码除脯氨酸、丙氨酸或任选的丝氨酸以外的氨基酸残基的另外的核苷酸。如所附实施例中所示，通过使用编码氨基酸残基丙氨酸的悬突实现无缝克隆；参见例如实施例7。因此，本发明还涉及制备核酸分子的方法，其中所述核酸分子包含编码脯氨酸、丙氨酸和任选的丝氨酸的核苷酸序列以及编码生物学或药理学活性蛋白或肽的核苷酸序列，并且其中所述核苷酸序列与编码生物学或药理学活性蛋白的所述核苷酸序列无缝缀合。在所附实施例和上文中还显示，无缝克隆可用于组装编码富含PA的多肽的较长核苷酸序列。因此，如果应用无缝克隆方法，则编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的所得核苷酸序列为本文所述的低重复核苷酸序列。

如本文所用，术语“生物学活性”描述了物质对生命物质例如有机体的生物学作用。因此，本文使用的术语“生物学活性蛋白”或“生物学活性肽”涉及这样的蛋白质或肽：其能够在暴露于所述蛋白质或多肽或肽的活细胞/有机体中诱导生物学作用。在本发明的上下文中，编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列或核酸分子与编码生物学活性蛋白的异源核酸可操作地连接在同一阅读框中。

在本文中应理解，编码的生物学活性蛋白或肽为“具有和/或介导生物学活性的氨基酸序列”或为“具有生物学活性的氨基酸序列”和/或为具有和/或介导药理学活性的氨基酸序列。术语“生物学活性蛋白”，“具有和/或介导生物学活性的氨基酸序列”或“具有生物学活性的氨基酸序列”和/或“具有和/或介导药理学活性的氨基酸序列”还包括任何感兴趣的蛋白质或肽(及其功能片段，如抗体片段，包含膜受体的细胞外或细胞内结构域的片段，生长因子或细胞因子的截短形式等)，对于其而言，体内或体外半衰期的延长为有益的。本领域技术人员知道由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的无规卷曲构象介导生物学/药理学活性(“功能”)蛋白或肽的增加的体内和/或体外稳定性，特别是增加的血浆半衰期。

在本发明的一个实施方案中，根据本发明的具有和/或介导生物学活性的编码的氨基酸序列可以从任何“感兴趣的蛋白”，即感兴趣的任何药物学或生物学蛋白或者可用作治疗有效蛋白的任何蛋白推断出。因此，所述生物学活性蛋白或肽可以是药理学活性或治疗有效蛋白或肽。药理学活性或治疗有效蛋白或肽为具有期望药理学、药物学和/或生理学作用的任何蛋白质或肽。该作用可以(i)就完全或部分预防和/或改善疾病/医学病况/病症或其症状而言，是预防性的；和/或可以(ii)就部分或完全抑制疾病/医学病况/病症而言，是治疗性的，即阻止其发展，或缓解疾病/医学病况/病症，即导致疾病/医学病况/病症的消退。最优选地，所述生物学活性蛋白为治疗有效蛋白，例如用作疫苗的治疗有效蛋白。因此，所述生物学活性蛋白也可用于疫苗接种。

此外，所述生物学活性蛋白可以是诊断相关蛋白。如本文所用，“诊断相关蛋白”涉及用于诊断的蛋白质或多肽。在本发明的上下文中，诊断涉及对象中的疾病例如，癌症和肿瘤，或临床病况的识别和(早期)检测。它还可以包括鉴别诊断。另外，在某些实施方案中，疾病或临床病况的严重程度的评估可以涵盖在术语“诊断”中。特别地，由本发明的核酸分子编码的多肽和/或药物缀合物可用于体外或体内诊断学。例如，编码的多肽和/或药物缀合物可用于医学成像的方法中。编码的富含PA的多肽和/或药物缀合物特别适用于这些方法中，因为它们具有改善的细胞摄取。此外，编码的富含PA的多肽和/或药物缀合物在肿瘤细胞与血液或健康细胞/组织之间显示出较高的反差。

编码的生物学活性蛋白选自结合蛋白、抗体片段、细胞因子、生长因子、激素、酶、蛋白疫苗、肽疫苗或肽或肽模拟物。如本文所用，“肽”优选包含多达50个氨基酸残基/由其组成，然而“蛋白质”优选包含50个或更多个氨基酸残基/由其组成。

如本文所用，术语“结合蛋白”涉及这样的分子，其能够与潜在结合伴侣特异性相互作用使得能够以这样的程度区分所述潜在结合伴侣与多个不同于所述潜在结合伴侣的分子：从作为潜在结合伴侣的所述多个不同分子的库中，仅所述潜在结合伴侣结合或显著结合。测量结合蛋白与潜在结合伴侣之间的结合活性的方法为本领域已知的，并且可以例如通过使用酶联免疫吸附测定(ELISA)、等温滴定量热法(ITC)、平衡透析、拉下测定、微型热泳、荧光滴定或使用例如Biacore仪器的表面等离子体共振(SPR)光谱学常规进行。

可用于本发明上下文中的示例性结合蛋白/结合分子包括但不限于抗体，抗体片段如Fab片段、Fab'片段、F(ab')₂片段、单链可变片段(scFv)，(单)域抗体，特别是来源于骆驼科、美洲驼或鲨鱼的那些，抗体的分离的可变区(VL和/或VH区)，特别是来自人或灵长类的那些，CDR，免疫球蛋白结构域，CDR-衍生的肽模拟物，凝集素，纤连蛋白结构域，腱生蛋白结构域，蛋白A结构域，SH3结构域，锚蛋白重复结构域和脂质运载蛋白或如例如Skerra(2000)J.Mol.Recognit.13:167-187,Gebauer(2009)Curr.Opin.Chem.Biol.13:245-255orBinz(2005)Nat.Biotechnol.23:1257-1268中所述的各种类型的支架来源的结合蛋白。

可用于本发明上下文中的感兴趣的其它示例性编码的生物学、药理学活性蛋白或治疗有效蛋白包括但不限于白细胞介素受体拮抗剂、白细胞介素-1受体拮抗剂如EBI-005或阿那白滞素、瘦蛋白、乙酰胆碱酯酶、活化的蛋白质C(drotrecogin)、活化素受体IIB拮抗剂、腺苷脱氨酶、α-半乳糖苷酶、toll样受体5的激动剂如Entolimod、α-1抗胰蛋白酶、α-1蛋白酶抑制剂、α-半乳糖苷酶、α-人心房利钠肽、α-N-乙酰氨基葡萄糖苷酶、阿替普酶、安地普酶、糊精、糊精类似物、ANF-Rho、血管紧张素(1-7)、血管紧张素II、血管紧张素转化酶2、抗上皮细胞粘附分子单链抗体片段、抗凝血酶α、抗凝血酶III、凋亡诱导酶mi-APO、精氨酸脱亚胺酶、天冬酰胺酶如Calaspargase、培门冬酶、克立他酶(crisantaspase)、B结构域缺失的因子VIII如贝罗凝血素α(beroctocog alfa)或Octofactor、贝妥莫单抗(bectumomab)(Lymphoscan)、胆汁盐刺激的脂肪酶如胆固醇酯酶α(bucelipase alfa)、针对呼吸道合胞病毒的结合蛋白如Pavlizumab、骨形态发生蛋白如BMP-2(地博特明α(dibotermin alfa))或BMP-6、Bouganin、牛碳氧血红蛋白、牛生长激素、C1酯酶抑制剂、C3胞外酶蛋白、碳氧血红蛋白、CD19拮抗剂、CD20拮抗剂如利妥昔单抗(rituxan)、CD3受体拮抗剂、CD40拮抗剂、CD40L拮抗剂如Dapirolizumab或Antova、脑苷脂硫酸酯酶、Cethrin如VGX-210、软骨素裂解酶、凝血因子IX如诺那凝血素γ(Nonacog gamma)、Conacogβ、阿布诺凝血素α(albutrepenonacog alfa)、凝血因子VIIa如依他凝血素α(eptacog alfa)、Marzeptacogα、Vatreptacogα、Oreptacogα、凝血因子VIII如Susoctocogα、Damoctocogα、Turoctocogα、Rurioctocogα、Efmoroctocogα、Efraloctocogα、Simoctocogα、凝血因子X、凝血因子XIII如卡曲得考(catridecacog)、溶组织梭菌胶原酶(collagenase of clostridiumhistolyticum)、补体因子C3抑制剂、补体受体5a拮抗剂、促皮质素释放因子、CSF1受体拮抗剂如FPA008、CSF1R拮抗剂、CTLA-4拮抗剂如易普利姆玛(ipilimumab)、蓝藻抗病毒蛋白-N(cyanovirin-N)、脱氧核糖核酸酶I如链道酶α(dornase alfa)、EGFR受体拮抗剂、弹性蛋白酶如人I型胰弹性蛋白酶如伏帕尼酶(vonapanitase)、内皮抑素、恩卡斯替母(enkastim)、表皮生长因子、红细胞生成素α、红细胞生成素ζ、FcγIIB受体拮抗剂、纤维蛋白原酶、纤溶酶如纤维蛋白酶、成纤维细胞生长因子1(人酸性成纤维细胞生长因子)、成纤维细胞生长因子18、成纤维细胞生长因子2(人碱性成纤维细胞生长因子)、成纤维细胞生长因子21、成纤维细胞生长因子受体2拮抗剂如FPA144、Fms样酪氨酸激酶3配体、促卵泡激素如促卵泡素α或促卵泡素β、人类杀菌/渗透性增加蛋白21(奥培巴康(opebacan)/rBPI 21)的片段、白树毒素、胰高血糖素受体激动剂、糖蛋白IIb/IIIa拮抗剂如阿昔单抗(abciximab)、糖胺聚糖降解酶如康朵莱斯(condoliase)、gp120/gp160、粒细胞集落刺激因子(G-CSF)、粒细胞巨噬细胞集落刺激因子(GM-CSF)、来自与转录因子E7融合的分支杆菌BCG的热休克蛋白hsp 65(verpasep caltespen)、肝细胞生长因子、肝细胞生长因子受体(HGFR)拮抗剂、铁调素拮抗剂、Her2/neu受体拮抗剂如赫塞汀(herceptin)、异二聚体15:IL-15Ra(hetIL-15)、水蛭素、hsp70拮抗剂、人酸性鞘磷脂酶、人绒毛膜促性腺激素如绒毛膜促性腺激素α、人酶酸性α-葡萄糖苷酶如Reveglucosidaseα或阿葡糖苷酶α(alglucosidase alfa)、人生长激素、人角质细胞生长因子(KGF)、人基质金属蛋白酶、人髓磷脂碱性蛋白片段、人成骨蛋白1、人成骨蛋白-1、人甲状旁腺激素、人血栓调节蛋白α、透明质酸酶如rHuPH20、透明质酸酶如人透明质酸酶PH-20(vorhyaluronidase alfa)、透明糖酶或牛透明质酸酶、水解溶酶体葡糖脑苷脂特异性酶如葡糖脑苷脂酶、维拉苷酶α(velaglucerase alfa)或Taligluceraseα、艾杜糖醛酸-2-硫酸酯酶、IgE拮抗剂如奥马珠单抗(omalizumab)、易洛魁家族同源盒蛋白2(iIroquois homeobox protein 2)(IRX-2)、胰岛素、胰岛素类似物、整合蛋白α4β1拮抗剂、干扰素τ、干扰素-α、干扰素-α拮抗剂、干扰素-α超级激动剂、干扰素-α-n3(Alferon N注射剂)、干扰素-β、干扰素-γ、干扰素-λ、白细胞介素2融合蛋白如DAB(389)IL-2、白细胞介素-11如Oprelevkin、白细胞介素-12、白细胞介素-17受体拮抗剂、白细胞介素-18结合蛋白、白细胞介素-2、白细胞介素-22、白细胞介素-4如Pitrakinra、白细胞介素-4突变蛋白、白细胞介素-6受体拮抗剂、白细胞介素-7、白细胞介素-22受体亚基α(IL-22ra)拮抗剂、鸢尾素、胰岛新生相关蛋白、血管舒缓素、乳铁蛋白、乳铁蛋白片段、拉诺普酶(lanoteplase)、脂肪酶如Burlulipase、根霉脂肪酶、依帕非酶(epafipase)或Sebelipaseα、黄体化激素、促黄体素α、淋巴细胞扩增分子、溶葡球菌酶、哺乳动物胃脂肪酶(merispace)、甘露糖苷酶如Velmanaseα、黑皮质素-4受体激动剂、MEPE-衍生的23-氨基酸肽、甲硫氨酰基人干细胞因子(安塞司亭(ancestim))、微纤溶酶、N-乙酰半乳糖胺-6-硫酸酯酶如Elosulfaseα、N-乙酰氨基葡萄糖苷酶、那沙普酶β、神经生长因子、神经调节蛋白-1、神经毒素(例如梭菌神经毒素如肉毒杆菌(Clostridium botulinum)神经毒素(如肉毒杆菌神经毒素血清型A、B、C、D、E、F或G，特别是肉毒杆菌神经毒素血清型A)、中性粒细胞明胶酶相关脂质运载蛋白、奥克纤溶酶(ocriplasmin)、毛白钝缘蜱补体抑制剂(OmCI/Coversin)、护骨素、P128(StaphTAME)、帕米普酶(pamiteplase)、甲状旁腺素(PTH)、PD-1拮抗剂、PDGF拮抗剂、正五聚蛋白-2蛋白、噬菌体细胞溶解酶如HY133、苯丙氨酸解氨酶如Valiase、磷酸酶如组织非特异性碱性磷酸酶或阿司弗泰斯α(asfotase alfa)、纤溶酶原、纤溶酶原变体如V10153、血小板衍生生长因子-BB、猪生长激素、抗增殖蛋白靶向肽1、胰岛素原、蛋白质A、蛋白质C如Drotrecognin、蛋白质结合成纤维细胞生长因子受体配体如FP-1039、重组组织因子途径抑制剂(替法可近(tifacogin))、松弛素、松弛素类似物如Serelaxin、瑞替普酶(reteplase)、rhPDGF-BB、核糖核酸酶如豹蛙酶或两栖酶(amphinase)、森瑞博特酶、丝氨酸蛋白酶抑制剂如阿法可奈司他(conestat alfa)、司非立酶(sfericase)、唾液酸酶、可溶性1型补体受体、可溶性DCC(结肠直肠癌缺失)受体、可溶性TACI受体(阿塞西普(atacicept))、可溶性肿瘤坏死因子受体I(sTNF-RI)、可溶性肿瘤坏死因子受体II(sTNF-RII)、可溶性VEGF受体Flt-1、可溶性人FcγIIB受体、金葡菌激酶、链激酶、硫酸胺酶、T-细胞受体配体、替奈普酶、血小板生成刺激蛋白(AMG-531)、血小板生成素、血小板反应蛋白-1、甲状腺激素、促甲状腺激素释放激素(TRH)类似物如他替瑞林(taltirelin)、组织纤溶酶原激活剂、组织型纤溶酶原激活剂如帕米普酶、三肽基肽酶I、肿瘤坏死因子(TNFα)、肿瘤坏死因子α拮抗剂、尿酸酶如拉布立酶(rasburicase)或聚乙二醇化重组假丝酵母尿酸氧化酶(pegadricase)、尿扩张素(urodilatin)、尿促卵泡素、尿激酶、子宫珠蛋白(uteroglobin)、VEGF拮抗剂如兰尼单抗(ranbizumab)或贝伐单抗(bevacizumab)、VEGF/PDGF拮抗剂、VEGF/PDGF拮抗剂如多VEGF/PDGF DARPin或融合蛋白、槲寄生素(viscumin)、血管性血友病因子如Vonicogα。白细胞介素受体拮抗剂，尤其是白细胞介素-1受体拮抗剂如EBI-005或阿那白滞素，以及瘦蛋白，尤其是人瘦蛋白或突变的人瘦蛋白(huLeptin(W100Q)，在成熟多肽链中的第100位的色氨酸置换为谷氨酰胺的人瘦蛋白突变体)为本文优选的。人瘦蛋白的氨基酸序列公开于例如UniProtKB登录编码P41159中。突变的人瘦蛋白(W100Q)由Ricci(2006)Mutationalapproach to improve physical stability of protein therapeutics susceptible toaggregation,In Murphy(ed.)Misbehaving proteins:protein(mis)folding,aggregation,and stability,Springer,1st edition,New York描述。

示例性肽和肽模拟物包括但不限于促肾上腺皮质激素(ACTH)、阿法诺肽(afamelanotide)、阿拉瑞林(alarelin)、α4整合蛋白抑制剂、抗-HIV融合抑制剂(如恩夫韦地(enfurvitide)、V2o、SC34EK、SC35EK、IQN17或IZN17)、2型血管紧张素II(AT2)受体激动剂(如LT2)、抗独特型p53肽、糊精、糊精类似物、Astressin、阿托西班(atosiban)、具有抗癌和抗HIV活性的细菌肽片段(如ATP-01)、双环肽(如TG-758)、比伐卢定(bivalirudin)、缓激肽拮抗剂(如艾替班特(icatibant))、布雷默浪丹(bremelanotide)、B型利钠肽、降钙素、卡贝缩宫素(carbetocin)、卡非佐米(carfilzomib)、Chrysalin、西仑吉肽(cilengitide)、C-型利钠肽、Colostrinin、促皮质素释放因子(如Xerecept、Coysnthropin)、CNGRCG肿瘤归巢肽、ω-芋螺毒素肽(如齐考诺肽(ziconotide))、C-肽、达奈加肽(danegaptide)、防御素、艾卡拉肽(ecallantide)、依降钙素(elcatonin)、依来多辛(eledoisin)、艾塞那肽-4、艾塞那肽-4类似物(如艾塞那肽9-39)、埃兹蛋白肽1、来自人基质细胞外磷糖蛋白的片段(如AC-100)、甘丙肽(galanin)、抑胃多肽(GIP)、GIP类似物、格拉替雷(glatiramer)、胰高血糖素、胰高血糖素类似物、胰高血糖素样肽1(GLP-1)、GLP-1类似物(如利西拉肽(lixisenatide)、利拉鲁肽(liraglutide)或索马鲁肽(semiglutide))、胰高血糖素样肽2(GLP-2)、GLP-2类似物(如替度鲁肽(teduglutide))、戈那瑞林、促性腺素释放激素激动剂(如戈舍瑞林(goserelin)、布舍瑞林(buserelin)、曲普瑞林(triptorelin)、亮丙瑞林(leuprolide)、普罗瑞林(protirelin)、Lecirelin、夫替瑞林(fertirelin)或Desiorelin)、促性腺素释放激素拮抗剂(如阿巴瑞克(abarelix)、西曲瑞克(cetrorelix)、地加瑞克(degarelix)、加尼瑞克(ganirelix)或替维瑞克(teverelix))、饥饿素、饥饿素类似物(如AZP-531)、生长激素释放激素、生长激素释放激素类似物(如舍莫瑞林(sermorelin)或替莫瑞林(tesamorelin))、Hematide、铁调素模拟物肽、组氨瑞林、吲哚力西丁(indolicidin)、吲哚力西丁类似物(如奥米加南(omiganan))、IgE下调肽(如SC-01)、INGAP肽(exsulin)、胰岛素样生长因子1、胰岛素样生长因子2、Kv1.3离子通道拮抗剂(如cgtxA、cgtxE或cgtxF)、兰瑞肽(lanreotide)、凝集素结合肽(如sv6B、sv6D、svC2、svH1C、svH1D或svL4)、羊毛硫肽类化合物、拉瑞唑来(larazotide)、利那洛肽(linaclotide)、卢舒普肽(lusupultide)、黑皮质素-4受体激动剂(如AZD2820)、MEPE-衍生的23-氨基酸肽、线粒体来源的肽(如MOTS-c、Humanin、SHLP-6或SHLP-2)、胰岛素样生长因子结合蛋白-2的突变体(如I-HBD1)、Nav离子通道调节剂(如GTx1-15或VSTx3)、奥曲肽、前蛋白质转化酶枯草杆菌蛋白酶/kexin 9型(PCSK9)抑制肽、天青蛋白的肽片段、Phylomer、MHC II类相关不变肽(CLIP)的肽拮抗剂(如VG1177)、来源于热休克蛋白的肽(如恩卡斯替母)、培西加南(pexiganan)、Plovamer、普兰林肽(pramlintide)、抗增殖蛋白靶向肽1、前胰岛肽、酪酪肽(PYY3-36)、RGD肽或肽模拟物、雷莫拉宁(ramoplanin)、分泌素、西那普肽(sinapultide)、生长抑素、生长抑素类似物(如帕瑞肽(pasireotide)或CAP-232)、特异性靶向的抗微生物肽(STAMP)(如C16G2)、骨形态发生蛋白的受体激动剂(如THR-184或THR-575)、顶压素(stresscopin)、Surfaxin、Tc99m阿帕西肽(apcitide)、特立帕肽(PTH 1-34)、替可克肽(tetracosactide)、胸腺素α1、TLR2抑制肽、TLR3抑制肽、TLR4抑制肽、胸腺素B4、胸腺素B15、血管活性肠肽、加压素、加压素类似物如(去氨加压素(desompressin)、苯赖加压素(felypressin)或特利加压素(terlypressin))。

用于疫苗接种上下文中的感兴趣的示例性生物学活性蛋白包括但不限于AE37肽、铃蟾肽-胃泌素释放肽、癌胚抗原(CEA)、戊型肝炎病毒的衣壳蛋白开放阅读框2(ORF2)蛋白、霍乱毒素B、金黄色葡萄球菌凝集因子A、白喉毒素、白喉毒素突变体(如CRM 197)、大肠杆菌不耐热肠毒素、铜绿假单胞菌的外毒素A、麻疹病毒的F蛋白、日本脑炎(JE)病毒的糖蛋白E、GPC3来源的肽、甲型肝炎多蛋白、HER2来源的肽GP2、Herregulin、Her2neu肽、乙型肝炎病毒表面抗原(HbSAg)、人谷氨酸脱羧酶蛋白同种型65kDa(rhGAD65)、流感血凝素抗原(HA)、流感神经氨酸酶(NA)、人乳头瘤病毒的L1蛋白、li-Key/HER2/neu杂合肽、伯氏疏螺旋体(borrelia burgdorferi)外表面上的脂蛋白(OspA)、轮状病毒的主要外壳蛋白、粘蛋白-1(MUC-1)肽、诺沃克病毒(rNVP)衣壳蛋白、细小病毒B19VLP、来源于粒细胞-巨噬细胞集落刺激因子的肽、猪圆环病毒2衣壳(PCV2ORF2)蛋白、蜱传脑炎病毒的蛋白质C、蜱传脑炎病毒的蛋白质E、黄热病毒的蛋白质E、风疹病毒的蛋白质E-1、弹状病毒科的蛋白质G、麻疹病毒的蛋白质H、副粘病毒科的蛋白质H、黄热病毒的蛋白质NS、副粘病毒科的蛋白质N、猪瘟病毒的前列腺特异性抗原E2蛋白、轮状病毒的蛋白质VP6、轮状病毒的蛋白质VP7、来自SARS病毒的突刺蛋白(D3252)、脊髓灰质炎病毒的蛋白质VP1、脊髓灰质炎病毒的蛋白质VP4、Ras癌蛋白、精子来源的肽(如YLP12、P10G、A9D、mFA-12-19、SP56和或mFA-1117-136)、破伤风毒素、结核菌素、肿瘤相关肽(TUMAP)(如IMA901、IMA910或IMA950)等。

在一方面，本发明涉及如本文公开的核酸分子，例如，包含编码由脯氨酸、丙氨酸和丝氨酸组成的多肽的核苷酸序列的核酸分子，其中所述核酸的核苷酸序列的长度为至少300个核苷酸；或

在一方面，本发明涉及与编码生物学活性蛋白的核酸可操作地连接在同一阅读框中的本文公开的核酸分子，例如包含编码由脯氨酸、丙氨酸和丝氨酸组成的多肽的核苷酸序列的核酸分子，其中所述核酸的核苷酸序列的长度为至少300个核苷酸，其中核酸分子与编码生物学活性蛋白的核酸可操作地连接在同一阅读框中；

其中所述核苷酸序列不是

(SEQ ID No.196)

其中所述核苷酸序列不是

(SEQ ID No.197)

在一方面，本发明涉及核酸分子，其中所述核酸分子由核苷酸序列组成，所述核苷酸序列编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽，

其中所述核酸的核苷酸序列的长度为至少300个核苷酸,

其中所述核苷酸序列具有低于50,000的核苷酸重复分数(NRS)，

其中根据以下公式确定所述核苷酸重复分数(NRS)：

其中

N_tot为所述核苷酸序列的长度，

n为所述核苷酸序列内的重复的长度，以及

f_i(n)是长度为n的所述重复的频率，

此外，本发明还涉及包含本发明的核酸分子或核苷酸序列的载体。也可采用所述载体以提供包含(i)编码由丙氨酸、脯氨酸和任选的丝氨酸组成的多肽的核苷酸序列，以及(ii)编码生物学活性蛋白的核苷酸序列的核酸分子；参见例如图4和实施例7。

此类载体可以被用作表达载体以表达包含编码的无规卷曲多肽和生物学活性蛋白的融合蛋白。因此，编码的融合蛋白涵盖与(ii)生物学活性蛋白连接的(i)由低重复核苷酸序列编码的无规卷曲多肽。优选地，无规卷曲多肽由丙氨酸、脯氨酸和任选的丝氨酸组成。示例性载体在SEQ ID NO：56中给出。在所附实施例中，显示了提供此类载体或核酸分子的示例性方法；参见例如图6和实施例7。

在本发明的方法中，本文提供的载体包含编码生物学活性蛋白的核苷酸序列，以及在第二步中，将编码富含PA的多肽的核苷酸序列引入载体中。为了将编码富含脯氨酸/丙氨酸的序列的核苷酸序列引入包含编码生物学活性蛋白的核苷酸序列的载体中，可以采用包含至少一个编码例如丙氨酸、脯氨酸和/或任选的丝氨酸的核苷酸三联体/密码子的悬突；参见上文。因此，此类三联体或密码子可编码被认为是富含脯氨酸/丙氨酸的序列的一部分的氨基酸，特别是丙氨酸。

因此，本文提供的方法和载体通过利用常规限制性位点避免了可被引入的另外的氨基酸接头的引入。因此，本文提供的手段和方法允许本发明的核酸分子的无缝克隆，所述核酸分子包含(i)编码由丙氨酸、脯氨酸和任选的丝氨酸组成的多肽的核苷酸序列以及(ii)编码生物学活性蛋白的核苷酸序列。

许多合适的载体为分子生物学领域技术人员已知的。合适载体的选择取决于期望的功能，包括质粒、粘粒、病毒、噬菌体和常规用于基因工程的其它载体。

优选地，载体为质粒，更优选基于通用的大肠杆菌表达载体pASK37、pASK75或pXL2的质粒。

本领域技术人员众所周知的方法可以用于构建各种质粒；参见，例如，Sambrook(2001)loc cit.和Ausubel(1989)loc.cit中所述的技术。典型的质粒载体包括，例如pQE-12、pUC系列质粒、pBluescript(Stratagene)、pET系列表达载体(Novagen)或pCRTOPO(Invitrogen)、λgt11、pJOE、pBBR1-MCS系列、pJB861、pBSMuL、pBC2、pUCPKS、pTACT1。与哺乳动物细胞中的表达相容的典型载体包括E-027pCAG Kosak-Cherry(L45a)载体系统、pREP(Invitrogen)、pCEP4(Invitrogen)、pMC1neo(Stratagene)、pXT1(Stratagene)、pSG5(Stratagene)、EBO-pSV2neo、pBPV-1、pdBPVMMTneo、pRSVgpt、pRSVneo、pSV2-dhfr、pIZD35、Okayama-Berg cDNA表达载体pcDV1(Pharmacia)、pRc/CMV、pcDNA1、pcDNA3(Invitrogen)、pcDNA3.1、pSPORT1(GIBCO BRL)、pGEMHE(Promega)、pLXIN、pSIR(Clontech)、pIRES-EGFP(Clontech)、pEAK-10(Edge Biosystems)pTriEx-Hygro(Novagen)和pCINeo(Promega)。适用于毕赤酵母(Pichia pastoris)的质粒载体的非限制性实例包括例如质粒pAO815、pPIC9K和pPIC3.5K(均来自Invitrogen)。

通常，载体可含有用于克隆或表达的一个或多个复制起点(ori)和遗传系统，用于在宿主中选择的一个或多个标志物，例如抗生素抗性以及一个或多个表达盒。合适的复制起点的实例包括例如全长ColE1、其截短形式如存在于pUC质粒上的那些、SV40病毒和M13噬菌体复制起点。可选择标志物的非限制性实例包括氨苄青霉素、氯霉素、四环素、卡那霉素、dhfr、gpt、新霉素、潮霉素、杀稻瘟菌素或遗传霉素。

此外，所述载体包含与本文限定的所述核苷酸序列或核酸分子可操作连接的调控序列。

可以使用建立的方法将包含在载体中的编码序列，例如所述编码富含PA的多肽的核苷酸序列，与转录调控元件和/或其它氨基酸编码序列连接。此类调控序列为本领域技术人员众所周知的，并且包括但不限于确保转录起始的调控序列、内部核糖体进入位点(IRES)以及任选地确保转录终止和转录物稳定的调控元件。确保转录起始的此类调控序列的非限制性实例包括启动子、翻译起始密码子、增强子、绝缘子和/或确保转录终止的调控元件。其它实例包括Kozak序列以及侧接RNA剪接的供体和受体位点的插入序列，编码分泌信号的核酸序列，或取决于所用的表达系统，能够将表达的蛋白质引导至细胞区室或培养基的信号序列。

合适的启动子的实例包括但不限于巨细胞病毒(CMV)启动子、SV40启动子、RSV(劳斯肉瘤病毒)启动子、lacZ启动子、鸡β-肌动蛋白启动子、CAG启动子(鸡β-肌动蛋白启动子和巨细胞病毒立早增强子的组合)、人延伸因子1α启动子、AOX1启动子、GAL1启动子、CaM-激酶启动子、lac、trp或tac启动子、lacUV5启动子、T7或T5启动子、苜蓿银纹夜蛾(Autographacalifornica)多核型多角体病毒(AcMNPV)多面体启动子或哺乳动物或其它动物细胞中的珠蛋白内含子。增强子的一个实例为，例如SV40增强子。确保转录终止的调控元件/序列的非限制性另外的实例包括SV40聚A位点、tk聚A位点或AcMNPV多面体聚腺苷酸化信号。

此外，取决于表达系统，可以将能够将多肽引导至细胞区室或使其分泌至培养基中的前导序列添加到本文提供的核酸分子的编码序列中。前导序列与翻译、起始和终止序列在框内组装，并且优选地，前导序列能够将翻译的蛋白质或其一部分引导分泌至周质空间中或细胞外培养基中。合适的前导序列为，例如，大肠杆菌中的BAP(细菌碱性磷酸酶)、CTB(霍乱毒素亚基B)、DsbA、ENX、OmpA、PhoA、stII、OmpT、PelB、Tat(双精氨酸转运)的信号序列以及真核细胞中的牛生长激素、人胰凝乳蛋白酶原、人因子VIII、人ig-κ、人胰岛素、人白细胞介素-2、来自Metrida或Vargula的荧光素酶、人胰蛋白酶原-2、来自马克斯克鲁维酵母(Kluyveromyces marxianus)的菊粉酶、来自酿酒酵母(Saccharomyces cerevisiae)的交配因子α-1、蜂毒肽(mellitin)、人天青杀素等的信号序列。

载体还可以含有编码一种或多种分子伴侣以促进正确蛋白质折叠的另外可表达的核酸序列。

优选地，本发明的载体为表达载体。根据本发明的表达载体能够指导本发明的核酸分子，例如包含编码富含脯氨酸/丙氨酸的多肽的核苷酸序列以及编码生物学活性蛋白的核苷酸序列的核酸分子的复制和表达。在所附实施例中，构建了包含(i)编码由脯氨酸、丙氨酸和丝氨酸组成的多肽和(ii)生物学活性蛋白如IL-1Ra的核苷酸序列的表达载体；参见实施例6。包含编码由脯氨酸和丙氨酸组成的多肽的核酸分子的示例性表达载体显示在实施例10中。

合适的细菌表达宿主包括，例如，来源于大肠杆菌(Escherichia coli)JM83、W3110、KS272、TG1、BL21(如BL21(DE3)、BL21(DE3)PlysS、BL21(DE3)RIL、BL21(DE3)PRARE)、Origami(K-12)、Origami B或Rosetta的菌株。对于载体修饰、PCR扩增和连接技术，参见Sambrook(2001)(见上文)中所述的方法。

另外，杆状病毒系统也可用作载体以在真核表达系统中表达本发明的核酸分子。在这些方面，pFBDM载体可用作表达载体。在转化DH10MultiBac大肠杆菌细胞时，经由Tn7转座序列介导插入MultiBac杆状病毒DNA(Berger(2013)J.Vis.Exp.77:50159,Fitzgerald(2006)Nat.Methods.2006 3:1021-1032.)。可在Sf21(草地贪夜蛾(Spodopterafrugiperda))或High Five(粉纹夜蛾(Trichoplusia ni))细胞中进行病毒扩增和表达。

上文所述的本发明的核酸分子和/或载体可以被设计用以通过例如非化学方法(电穿孔、声致穿孔(sonoporation)、光学转染、基因电转移、流体动力学递送或在使细胞与本发明的核酸分子接触时的天然存在的转化)，基于化学的方法(磷酸钙、DMSO、PEG、脂质体、DEAE-葡聚糖、聚乙烯亚胺、核转染等)，基于颗粒的方法(基因枪、磁转染、刺穿转染(impalefection))，基于噬菌体或噬菌粒载体的方法和病毒方法引入细胞中。例如，来源于病毒如逆转录病毒、牛痘病毒、腺相关病毒、疱疹病毒、塞姆利基森林病毒或牛乳头瘤病毒的表达载体可以用于将核酸分子递送到靶细胞群中。

优选地，本发明的核酸分子和/或载体被设计用于通过电穿孔转化电感受态大肠杆菌或者用于通过磷酸钙、聚乙烯亚胺或Lipofectamine转染稳定转染CHO细胞(Pham(2006)Mol.Biotechnol.34:225-237；Geisse(2012)Methods Mol.Biol.899:203-219；Hacker(2013)Protein Expr.Purif.92:67-76)。

本发明还涉及转化有本发明的载体或核酸分子的宿主细胞或非人宿主。应理解，根据本发明，术语“转化有本发明的载体的宿主细胞或非人宿主”涉及包含本发明的载体或核酸分子的宿主细胞或非人宿主。用于表达多肽的宿主细胞为本领域中众所周知的，并且包括原核细胞以及真核细胞。因此，宿主可以选自细菌、哺乳动物细胞、藻细胞、纤毛虫、酵母和植物细胞。

典型的细菌包括埃希氏杆菌、(谷氨酸)棒状杆菌、(荧光)假单胞菌、乳杆菌、链霉菌、沙门氏菌、芽孢杆菌(如巨大芽孢杆菌(Bacillus megaterium)或枯草芽孢杆菌(Bacillus subtilis))或棒状杆菌(如谷氨酸棒状杆菌(Corynebacterium glutamicum))。在本文中最优选的细菌宿主为大肠杆菌。本文中使用的示例性纤毛虫为四膜虫，例如嗜热四膜虫(Tetrahymena thermophila)。

典型的哺乳动物细胞包括Hela、HEK293、HEK293T、H9、Per.C6和Jurkat细胞、小鼠NIH3T3、NS0和C127细胞、COS 1、COS 7和CV1、鹌鹑QC1-3细胞、小鼠L细胞、小鼠肉瘤细胞、Bowes黑色素瘤细胞和中国仓鼠卵巢(CHO)细胞。根据本发明最优选的哺乳动物宿主细胞为CHO细胞。本文使用的示例性宿主为仓鼠，例如灰仓鼠(Cricetulus griseus)(中国仓鼠)。另外，人胚肾(HEK)细胞为优选的。

其它合适的真核宿主细胞为例如酵母，如毕赤酵母、乳酸克鲁维酵母(Kluyveromyces lactis)、酿酒酵母和裂殖酵母(Schizosaccharomyces pombe)或鸡细胞，如例如DT40细胞。适用于表达的昆虫细胞为例如果蝇S2、果蝇Kc、夜蛾Sf9和Sf21或粉纹夜蛾Hi5细胞。优选的藻细胞为莱氏衣藻(Chlamydomonas reinhardtii)或细长聚球藻(Synechococcus elongates)细胞等。示例性植物为藓属(Physcomitrella)，例如小立碗藓(Physcomitrella patens)。示例性植物细胞为藓属植物细胞，例如小立碗藓植物细胞。

原代哺乳动物细胞或细胞系也在本发明的范围内。原代细胞为直接获自有机体的细胞。合适的原代细胞为例如小鼠胚胎成纤维细胞(MEF)，小鼠原代肝细胞，心肌细胞和神经元细胞以及小鼠肌肉干细胞(卫星细胞)，人皮肤和肺成纤维细胞，人上皮细胞(鼻上皮细胞、气管上皮细胞、肾上皮细胞、胎盘上皮细胞、肠上皮细胞、支气管上皮细胞)，人分泌细胞(来自唾液腺、皮脂腺和汗腺)，人内分泌细胞(甲状腺细胞)，人脂肪细胞，人平滑肌细胞，人骨骼肌细胞，人白细胞如B细胞、T细胞、NK细胞或树突细胞以及由以上衍生的稳定的永生化细胞系(例如hTERT或致癌基因永生化细胞)。针对上文所述的宿主细胞的适当培养基和条件为本领域已知的。

宿主细胞可以例如用于产生大量的本文提供的核酸分子、本文提供的编码的多肽和/或本文提供的所述药物缀合物。因此，宿主细胞可以用于产生大量的本文提供的核酸分子、由包含编码富含PA的多肽的核苷酸序列的核酸分子编码的多肽和/或由包含编码富含PA的多肽和生物学活性蛋白的核苷酸序列的核酸分子编码的多肽。

因此，本发明还涉及制备本文提供的核酸分子或载体的方法，所述方法包括在合适的条件下培养本发明的宿主或宿主细胞，以及任选地分离所产生的核酸分子和/或载体。

此外，本发明涉及制备由本文提供的核酸分子或核苷酸序列编码的多肽的方法，所述方法包括在合适的条件下培养本发明的宿主或宿主细胞，以及任选地分离所产生的多肽。

此外，本发明涉及制备药物缀合物的方法，所述方法包括在合适的条件下培养本发明的宿主细胞以及任选地分离所产生的所述药物缀合物。优选地，本发明涉及制备药物缀合物的方法，其中所述药物缀合物由核酸分子编码，其中所述核酸分子包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽和生物学活性蛋白的核苷酸序列。

因此，在一方面，本发明涉及制备药物缀合物的方法，其中所述药物缀合物包含由本文限定的核酸分子编码的多肽，并且还包含(i)生物学活性蛋白和/或(ii)小分子和/或(iii)碳水化合物，其中所述方法还包括培养本文提供的宿主或宿主细胞以及任选地分离所产生的多肽和/或药物缀合物。例如，如果药物缀合物为包含由本文限定的核酸分子编码的多肽并且还包含生物学活性蛋白的融合蛋白，则该方法还可包括培养本文提供的宿主或宿主细胞(即包含本文提供的编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核酸以及编码本文限定的生物学活性蛋白，特别是治疗活性蛋白的核酸的宿主或宿主细胞)，以及任选地分离所产生的融合蛋白(药物缀合物)。当然，如果药物缀合物为蛋白质，则方法还可包括培养本文提供的宿主或宿主细胞(即，包含本文提供的编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核酸的宿主或宿主细胞)和/或培养包含编码本文限定的生物学活性蛋白，特别是治疗活性蛋白的核酸的宿主或宿主细胞，以及任选地分离所产生的由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽和/或分离所产生的生物学活性蛋白，以及还任选地缀合多肽和生物学活性蛋白(例如通过化学偶联)以产生药物缀合物。

例如，如果药物缀合物为由本文限定的核酸分子(即本文提供的编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核酸)编码的多肽和小分子和/或碳水化合物的缀合物，则该方法还可包括培养本文提供的宿主或宿主细胞(即包含本文提供的编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核酸的宿主或宿主细胞)，以及任选地分离所产生的多肽，以及还任选地将多肽与小分子和/或碳水化合物缀合(例如通过化学偶联)。

在该上下文中，“培养宿主或宿主细胞”包括在宿主或宿主细胞中表达本文限定的多肽和/或生物学活性蛋白。

在所附实施例中显示此类包含(i)编码由脯氨酸、丙氨酸和丝氨酸组成的多肽以及(ii)生物学活性蛋白，如IL-1Ra的核苷酸序列的核酸分子，可以被细菌表达，随后被纯化；参见实施例8和图7。此外，本文显示由本文提供的核酸分子编码的由脯氨酸和丙氨酸组成的多肽可以被表达和纯化；参见例如实施例11和图8。通过编码的由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽与小分子药物、碳水化合物和/或生物学活性蛋白的缀合，可以增加小分子/小分子药物和/或生物学活性蛋白的血浆半衰期和/或溶解度，可以降低非特异性毒性，以及将活性药物延长暴露于体内的靶细胞或结构可导致增强的药效学。

存在于本发明宿主中的载体为表达载体，或者载体以确保蛋白质表达的方式介导本发明的核酸分子稳定整合到宿主细胞的基因组中。用于选择其中已成功引入本发明的核酸分子从而确保蛋白质表达的宿主细胞的手段和方法为本领域众所周知的，并且已经得以描述(Browne(2007)Trends Biotechnol.25:425-432；Matasci(2008)Drug Discov.Today:Technol.5:e37-e42；Wurm(2004)Nat.Biotechnol.22:1393-1398)。

培养原核或真核宿主细胞的合适条件为本领域技术人员众所周知的。例如，细菌如例如大肠杆菌通常可在4℃至约37℃的温度下于Luria Bertani(LB)培养基中在通风下进行培养。为了提高表达产物的产量和溶解度，可用已知增强或促进两者的合适添加剂对培养基进行缓冲或补充。在诱导型启动子控制存在于宿主细胞中的载体中的本发明的核酸分子的那些情况下，可通过添加合适的诱导剂如例如所附实施例中采用的异丙基-β-D-硫代半乳糖苷(IPTG)或脱水四环素(aTc)诱导多肽的表达。合适的表达方案和策略已经描述在本领域中，例如，在Sambrook(2001)(见上文),(Gebauer(2012)Meth.Enzymol.503:157-188)中，并且如果需要可适应特定宿主细胞的需要以及待表达的蛋白质的要求。

根据细胞类型及其具体要求，哺乳动物细胞培养可例如在含有10％(v/v)FCS、2mML-谷氨酰胺和100U/ml青霉素/链霉素的RPMI、Williams’E或培养基DMEM中进行。在5％CO₂，水饱和的气氛中，将细胞保持在例如37℃，或者对于DT40鸡细胞，保持在41℃。昆虫细胞培养的合适培养基为，例如，TNM+10％FCS,SF900或HyClone SFX-昆虫培养基。昆虫细胞通常在27℃以贴壁或悬浮培养物生长。用于真核或脊椎动物细胞的合适表达方案为本领域技术人员众所周知的，并且可例如从Sambrook(2001)(见上文)中获得。

优选地，使用细菌细胞，如例如大肠杆菌细胞，或者哺乳动物细胞，如例如CHO细胞实施制备本发明的核酸分子、载体、多肽和/或药物缀合物的方法。更优选地，使用大肠杆菌细胞或CHO细胞实施所述方法，并且最优选地，使用大肠杆菌细胞实施所述方法。

分离所产生的编码多肽的方法包括但不限于纯化步骤，如亲和层析(优选使用融合标签如Strep-标签II或His₆-标签)、凝胶过滤(尺寸排阻层析)、阴离子交换层析、阳离子交换层析、疏水相互作用层析、高压液相层析(HPLC)、反相HPLC、硫酸铵沉淀或免疫沉淀。这些方法为本领域众所周知的，已经一般地描述在Sambrook(2001)(见上文)中并且还描述在所附实施例中，参见例如实施例8和11。此类方法提供基本上纯的多肽。所述纯的多肽具有优选至少约90％至95％(在蛋白质水平上)，更优选至少约98％至99％的同质性。最优选地，这些纯的多肽适用于药物用途/应用。另外，本文设想了在食品或化妆品行业中的应用。取决于生产程序中采用的宿主细胞/有机体，本发明的编码的多肽可以是糖基化的或可以是非糖基化的。优选地，由本发明的核酸分子编码的由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽不被糖基化。最优选地，由本发明的核酸分子编码的由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽在其侧链中不经翻译后修饰，如例如通过脯氨酸羟基化。

编码的无规卷曲多肽主要由丙氨酸、脯氨酸和任选的丝氨酸残基组成，而O-或N-糖基化所需的丝氨酸、苏氨酸或天冬酰胺优选不存在。因此，包含编码的无规卷曲多肽的多肽本身或生物学活性蛋白的产生可产生在Pro/Ala/Ser或Pro/Ala序列内优选没有翻译后修饰的单分散产物。这对于真核细胞，如中国仓鼠卵巢细胞(CHO)、HEK细胞或酵母中重组蛋白质的产生是有利的，所述真核细胞经常被选择用于复合蛋白质的生物合成。

本发明还涉及制备药物缀合物的方法，其中所述药物缀合物包含由本文提供的本发明的核酸分子编码的多肽并且还包含(i)生物学活性蛋白和/或(ii)小分子和/或(iii)碳水化合物。此类碳水化合物缀合物可以特别用作疫苗。

如上文所述，包含富含PA的多肽和生物学活性蛋白的药物缀合物可以通过表达核酸分子来制备，所述核酸分子包含编码富含PA的多肽的核苷酸序列和编码生物学活性蛋白的核酸序列。可以分离表达的药物缀合物。可选地，可以通过培养/饲养包含编码所述由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列或核酸分子的宿主来制备药物缀合物。因此，核酸分子在宿主中表达。任选地，分离所述产生的多肽。所产生的由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽可以例如经由肽键或非肽键与生物学活性蛋白缀合。

在示例性实施例中显示由本文提供的核酸分子编码的富含PA的多肽可在细菌中表达，并且可从其中纯化；参见例如实施例11和图8。特别地，令人惊讶地显示制备的多肽的起始甲硫氨酸(N-端甲硫氨酸)被切掉，因此在产生的多肽中缺失；参见例如实施例12和图8D。制备的多肽中缺失的起始甲硫氨酸允许下一个氨基酸(起始甲硫氨酸之后)的伯氨基在N-端与生物学活性蛋白、小分子和/或碳水化合物无缝缀合。因此，本发明的核酸分子及其制备的多肽对于缀合至例如生物学活性蛋白是特别有利的。

特别地，生物学活性蛋白可例如在存在活化剂如N-(3-二甲基氨基丙基)-N'-乙基碳二亚胺(EDC)或作为N-羟基琥珀酰亚胺(NHS)酯的情况下(Hermanson(1996)Bioconjugate Techniques,1st edition,Academic Press,San Diego,CA)与所产生的无规卷曲多肽的N-端位点特异性地缀合。可选地，生物学活性蛋白可例如在存在活化剂如EDC或在活化之后作为NHS酯的情况下与所产生的由脯氨酸、丙氨酸和任选的丝氨酸组成的无规卷曲多肽的C-端位点特异性地缀合。

此外，所产生的由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽可经由非肽键与小分子和/或碳水化合物缀合。可用于交联蛋白质的非肽键为本领域已知的，并且可以包括例如在两个Cys侧链和/或硫醇基之间的二硫键、硫醚键以及羧基与氨基之间的酰胺键。非肽共价键也可以通过化学交联剂如双琥珀酰亚胺基辛二酸酯(DSS)、N-β-马来酰亚胺丙基-氧基琥珀酰亚胺酯(BMPS)或4-[对马来酰亚胺苯基]丁酸磺基琥珀酰亚胺酯(磺基-SMPB)，金属螯合/络合基团以及非共价蛋白质-蛋白质或蛋白质-肽相互作用提供。

此外，小分子药物可与形成无规卷曲的多肽位点特异性地缀合。任选地，可用合适的保护基团例如乙酰基或焦谷氨酰基团修饰多肽的N-端，并且在例如使用常用试剂EDC和NHS(Hermanson(1996)(见上文))活化C-端羧酸酯基团之后，可实现药物与无规卷曲多肽的C端的位点特异性偶联。以这种方式可以容易地获得一致的药物缀合物。

作为单一位点特异性缀合的替代方案，由脯氨酸、丙氨酸和任选的丝氨酸组成的无规卷曲多肽可以在N-或C-端或内部配备有适于化学修饰的另外的侧链，如具有ε-氨基的赖氨酸残基、具有硫醇基的半胱氨酸残基或甚至非天然氨基酸，从而允许使用例如NHS或马来酰亚胺活性基团缀合一个、两个或多个小分子。

除了稳定缀合外，前药还可以短暂地与无规卷曲多肽连接。连接可以被设计成经由酶促机制或通过在生理pH开始的缓慢水解以可预测的方式(类似于例如难溶性抗肿瘤剂喜树碱与PEG聚合物缀合)在体内切割，从而实现增加的生物分布、降低的毒性、增强的功效和肿瘤积聚(Conover(1998)Cancer Chemother.Pharmacol.42:407-414)。其它前药的实例为化疗剂，如多西他赛(Liu(2008)J.Pharm.Sci.97:3274-3290)、阿霉素(Veronese(2005)Bioconjugate Chem.16:775-784)或紫杉醇(Greenwald(2001)J.Control Release 74:159-171)。

本文还设想了小分子可以与融合蛋白，例如与靶向结构域例如，抗体片段遗传融合的由脯氨酸、丙氨酸和任选的丝氨酸组成的形成无规卷曲的多肽偶联，从而导致小分子药物的特异性递送。例如，如果靶向结构域针对经历内化的细胞表面受体，则在后一种情况下通过与细胞毒性小分子缀合产生的免疫毒素是特别有用的。

如本文所用，术语“药物”是指小分子、生物学活性蛋白、肽或碳水化合物。如本文所用，术语“小分子”可指(有机)低分子量(<900道尔顿)化合物。小分子可帮助调控生物学过程，并且通常具有纳米级的大小。本文设想小分子用于治疗、诊断的方法中，或者用于食品或化妆品行业。例如，具有所产生的由本文提供的核苷酸序列或核酸分子编码的多肽的药物缀合物可包含选自以下的小分子：血管生成抑制剂、抗过敏药物、止吐药物、抗抑郁药物、抗高血压药物、抗炎药物、抗感染药物、抗精神病药物、抗增殖(细胞毒性和细胞抑制)药物、钙拮抗剂和其它循环器官药物、胆碱能激动剂、作用于中枢神经系统的药物、作用于呼吸系统的药物、类固醇、反义核酸、小干扰RNA(siRNA)、微RNA(miR)抑制剂、微RNA模拟物、DNA适配子和RNA适配子。

示例性血管生成抑制剂包括但不限于MetAP2抑制剂(如烟曲霉素、烟曲霉素衍生物、2-{3-[3,5-双[4-硝基亚苄基]-4-氧代哌啶-1-基]-3-氧代丙基硫烷基}乙磺酸)，VGFR抑制剂(如阿西替尼(axitinib)、布立尼布(brivanib)、卡博替尼(cabozantinib)、Tivozanib和莫特沙尼(motesanib))，胚胎生长因子(PIGF)抑制剂，血小板衍生的生长因子受体抑制剂(如AC 710、索拉非尼(sorafenib)、舒尼替尼(sunitinib)和瓦他拉尼(vatalanib))等。

示例性抗过敏药物包括但不限于抗组胺剂(如苯海拉明(diphenhydramine)(苯那君(benadryl))，茶苯海明(dimenhydrinate)(晕海宁(dramamine)、Driminate)，盐酸羟嗪(hydroxyzine hydrochloride)(雷斯托尔(restall)、Vistacot)，异丙嗪(promethazine)(非那根(phenergan))等。

示例性抗抑郁药物包括但不限于格拉司琼、帕洛诺司琼等。

示例性抗抑郁药物包括但不限于顺式三氟噻吨(cis-flupenthixol)、盐酸丙咪嗪、米安色林等。

示例性抗高血压药物包括但不限于前列地尔、二氮嗪、尼卡地平等。

示例性抗炎药物包括但不限于可的松、透明质酸、酮咯酸等。

示例性抗感染药物包括但不限于氨基糖苷类、Amadovir、阿莫西林、氨苄青霉素、苄青霉素、碳青霉烯、头孢菌素、头孢噻呋、氯霉素、头孢吡肟、头孢他啶、头孢比普、克林霉素、瑞可新、达巴万星、达托霉素、双氢链霉素、红霉素、氟苯尼考、氟喹诺酮、氟尼辛葡甲胺、利奈唑胺、马波沙星、米卡芬净、呋喃西林、奥利万星、土霉素、青霉素、哌拉西林、普鲁卡因、芦平曲韦、螺旋霉素、链阳菌素、磺胺二甲氧嘧啶(sulfadimethoxin)、磺胺甲嘧啶、泰地唑胺(tedizolid)、特拉万星(telavancin)、替卡西林、替米考星、替加环素、泰地罗新、泰乐菌素、万古霉素等。

示例性抗精神病药物包括但不限于阿米舒必利、阿立哌唑、苯哌利多、溴哌利多、氯丙嗪(clorpromazin)、氯普噻吨(chlorprothixen)、氯哌噻吨、氯氮平、氟哌噻吨、氟奋乃静(fluphenazin)、氟司必林(fluspirilen)、氟哌啶醇、左美丙嗪(levomepromazin)、美哌隆(melperon)、奥氮平、培拉嗪(perazin)、奋乃静、匹莫齐特(pimozid)、匹泮哌隆(pipamperon)、丙嗪(promazin)、异丙嗪、丙硫喷地、奎硫平、利培酮(risperido)、舒必利、硫利达嗪(thioridazin)、三氟拉嗪(trifluoperazin)、三氟丙嗪(triflupromazin)、珠氯噻醇(zuclopenthixol)等。

示例性抗肿瘤药物包括但不限于蒽环类药物(anthracyclin)(如阿霉素、表柔比星、伊达比星和道诺霉素)，烷化剂(如刺孢霉素、放线菌素(dactinomycines)、丝裂霉素(mitromycines)和吡咯并苯并二氮杂卓(pyrrolobenzodiazepines))，AKT抑制剂(如AT7867)，鹅膏毒素(如ax-鹅膏蕈碱、P-鹅膏蕈碱、y-鹅膏蕈碱、c-鹅膏蕈碱、鹅膏无毒环肽(amanullin)、鹅膏毒肽羧酸(amanullic acid)、三羟鹅膏毒肽酰胺(amaninamide)、鹅膏素和鹅膏无毒环肽原(proamanullin)、SN-38和喜树碱)，ATM抑制剂，奥利斯达汀(auristatin)(如奥利斯达汀EB(AEB)、奥利斯达汀EFP(AEFP)、单甲基奥利斯达汀E(MMAE)、单甲基奥利斯达汀F(MMAF)、奥利斯达汀F和尾海兔素)，Cryptophycin，周期素依赖性激酶抑制剂(如BMS-387032、PD0332991、GSK429286、AZD7762；AZD 1152、MLN8054和MLN8237；BI2536、B16727、GSK461364、ON-01910、SB 743921、SB 715992、MK-0731、AZD8477、AZ3146和ARRY-520)，倍癌霉素，DNA-PK抑制剂，埃博霉素(如埃博霉素A、B、C、D、E或F及衍生物)，GSK-3抑制剂，HDAC抑制剂(如贝利司他、CUDC-101、卓西司他(droxinostat)、ITF2357、JNJ-26481585、LAQ824和帕比司他(panobinostat)MC1568、Mocetinostat、恩替诺特(entinostat)、PCI-24781、Pyroxamide、曲古抑菌素A和伏立诺他)，hsp70抑制剂，hsp90抑制剂(如17AAG衍生物、B11B021、B11B028、SNX-5422、NVP-AUY-922、KW-2478和格尔德霉素)，MAPK信号传导途径抑制剂(如MEK、Racs、JNK、B-Raf)，美登木素生物碱(maytansinoid)，美登木素生物碱类似物(如美登醇、美登醇类似物、美登素、DM-1和DM-4)，p38MAPK抑制剂(如GDC-0973、GSK1 120212、MSC1936369B、AS703026、R05126766和R04987655、PD0325901、AZD6244、AZD 8330、GDC-0973、CDC-0879、PLX-4032、SB590885、BIRB 796、LY2228820、SB202190、AEE788、BIBW2992、阿法替尼、拉帕替尼、厄洛替尼和吉非替尼)，PARP抑制剂(如依尼帕利(iniparib)、奥拉帕尼、维利帕尼(veliparib)、AG014699、CEP 9722、MK 4827、KU-0059436、LT-673、3-氨基苯甲酰胺、A-966492和AZD2461)，PDK-1抑制剂，铂化合物(如顺铂、卡铂、奥沙利铂、异丙铂(iproplatin)、奥马铂或Tetraplatin)，紫杉醇类(taxan)(如紫杉醇和或多西他赛)，Tubulysin(如Tubulysin A、Tubulysin B和Tubulysin衍生物)，长春花生物碱(如长春花碱、长春地辛和长春瑞滨)，Wnt/Hedgehog信号传导途径抑制剂(如维莫德吉(vismodegib)、GDC-0449、环巴胺和XAV-939)等。

作用于中枢神经系统的示例性药物包括但不限于丁丙诺啡(buprenorphine)、Cryostatin、Naltroxrexone、纳洛酮等。

示例性维生素包括但不限于维生素B-12(氰钴胺)、维生素A等。

示例性类固醇包括但不限于雄激素类固醇(如氟甲睾酮、甲基睾酮、睾酮、去甲雄三烯醇酮)，雌激素(如β-雌二醇、己烯雌酚、雌酮、雌三醇、马烯雌酮、雌酮硫酸酯哌嗪马烯雌酮(estropipate equilin)、美雌醇(mestranol))，促孕化合物(如19-去甲孕酮、阿法前列醇、氯地孕酮、地美孕酮、地屈孕酮、地美炔酮、炔孕酮、炔诺醇二乙酸酯(ethynodioldiacetate)、炔诺酮、炔诺酮乙酸酯(norethindrone acetate)、甲羟孕酮、美仑孕酮黄体酮、甲基炔诺酮、普美孕酮、折仑诺)等。

示例性反义核酸包括但不限于靶向以下的反义核酸：雄激素受体(如ISIS-AR、AZD5312)，血管生成素样蛋白3(如ISIS-ANGPTL3)，载脂蛋白B100(如米泊美生(mipomersen))，载脂蛋白CIII(如ISIS-APOCIII、Volanesorsen)，结缔组织生长因子(CTGF)(如EXC 001、PF-06473871)，丛生蛋白(clusterin)(如库司替森(custirsen)，OGX-011)，C-反应蛋白(如ISIS-CRP)，二酰基甘油酰基转移酶(如ISIS-DGAT2)，因子VII(如ISIS-FVII)，成纤维细胞生长因子受体4(如ISIS-FGFR4)，铁调素(如XEN701)，Hsp27(如Apatorsen、OGX-427)，HTT基因(如ISIS-HTT)，ICAM-1(如Alicaforsen)，前激肽释放酶(prekallikren)(如ISIS-PKK)，SMN2(如ISIS-SMN)，STAT3(如ISIS-STAT3-2.5、AZD9150)，甲状腺素运载蛋白基因(如ISIS-TTR)等。

示例性小干扰RNA(siRNA)包括但不限于靶向以下的siRNA：α-1-抗胰蛋白酶突变的Z-AAT(如ALN-AAT)，氨基乙酰丙酸合酶1(ALAS-1)(如ALN-AS1，ALN-AS2)，抗凝血酶III(如ALN-AT3)，补体成分C5(如ALN-CC5)，补体成分C6(如ALN-CC6)，结缔组织生长因子(如RXI-109)，肌营养不良基因的外显子8(如SRP-4008)，肌营养不良基因的外显子44(如SRP-4044)，肌营养不良基因的外显子45(如SRP-4045)，肌营养不良基因的外显子50(如SRP-4050)，埃博拉病毒(如AVI-7537)，肌营养不良基因的外显子51(如Eteplirsen、AVI-4658)，肌营养不良基因的外显子52(如SRP-4052)，肌营养不良基因的外显子53(如SRP-4053)，流感病毒(如AVI-7100)，纺锤体驱动蛋白(the kinesin spindle protein)(KSP)，肺病(如Atu111)，马尔堡病毒(如AVI-7288)，多靶向小干扰RNA(siRNA)混合物(如STP503、STP523、STP601、STP702、STP705、STP801、STP805、STP900、STP902、STP911、STP916、siPOOLs)，病毒基因组的核衣壳(如ALN-RSV01)，PCSK9(如ALN-PCS01、ALN-PCSsc)，促凋亡蛋白半胱天冬酶2(如QPI-1007)，促凋亡蛋白p53(如QPI-1002)，RTP801(如PF-655)，SERPINC1(如ALN-AT4)，跨膜蛋白酶丝氨酸6(Tmprss6)(如ALN-TMP)，甲状腺素运载蛋白(如ALN-TTRsc、ALN-TTR02)，PCSK10(如ALN-PCS02)，PKN3(如Atu027)，血管内皮生长因子(VEGF)(如ALN-VSP)等。

示例性微RNA抑制剂包括但不限于以下的抑制剂：miR-10b、miR-15、miR-21、miR-29、miR-33、miR-92、miR-145、miR195、miR-208、miR-221、miR-451、miR-499等。

示例性微RNA模拟物包括但不限于miR-34(如MRX34)、miR-Rx06、miR-Rx07、miR-Rx16的类似物；let7的类似物(如miR-Rxlet-7)等。

示例性DNA适配子包括但不限于核仁蛋白抑制剂(如AS1411)、pGDF抑制剂(如E10030)、凝血酶抑制剂(如NU172)、vWF抑制剂(如ARC1779)等。

示例性RNA适配子包括但不限于C5a抑制剂(如NOX-D21或ARC1905)、降钙素基因相关肽抑制剂(如NOX-L41)、C-C趋化因子配体2抑制剂(如NOX-E36)、CXCL12抑制剂(如NOX-A12)、胰高血糖素抑制剂(如NOX-G16)、铁调素拮抗剂(如NOX-H94)、病原体识别受体激动剂(如RIG-I激动剂)、鞘氨醇-1-磷酸抑制剂(如NOX-S93)、VEGF拮抗剂(如NX1838)等。

可能用于制备疫苗的示例性碳水化合物包括但不限于能被以下特异性结合的碳水化合物表位：凝集素，大肠杆菌O 121O-抗原，大肠杆菌O 121O-抗原衍生物，来自HIV-Igpl20的Man9，弗氏志贺菌(shigella flexneri)2a O-多糖，金黄色葡萄球菌多糖荚膜多糖5，金黄色葡萄球菌多糖荚膜多糖8，肿瘤相关碳水化合物抗原(TACA)(如Tn抗原(例如α-GalNAc-O-Ser/Thr)，唾液酸化Tn抗原(例如NeuAcα(2,6)-GalNAcα-O-Ser/Thr)，Thomsen-Friedenreich抗原(Galβ1-3GalNAcα1)，LewisY(例如Fucα(l,2)-Galβ(l,4)-[Fucα(l,3)]-GalNAc)，唾液酸化LewisX和唾液酸化LewisA，LewisX(阶段特异性胚胎抗原-1/SSEA-1)，Globo H抗原(例如Fucα(l,2)-Galβ(l,3)-GalNAcβ(l,3)-Galα(l,4)-Gal(1,4)-Glc)，T抗原(例如Galβ(l,3)-GalNAcα-O-Ser/Thr)、鞘糖脂阶段特异性胚胎抗原-3(SSEA-3)、含有唾液酸的鞘糖脂、神经节苷脂GD2、GD3、神经节苷脂GM2、神经节苷脂岩藻糖基GM和神经节苷脂Neu5GcGM3)等。

包含由本文提供的本发明核酸分子编码的多肽以及包含生物学活性蛋白和/或小分子和/或碳水化合物的药物缀合物可以用于治疗炎性疾病、传染性疾病、呼吸系统疾病、内分泌病症、中枢神经系统疾病、肌肉骨骼疾病、心血管疾病、肿瘤疾病、泌尿生殖系统疾病和代谢疾病。

示例性炎性疾病包括但不限于强直性脊柱炎、关节炎、动脉粥样硬化、非典型溶血尿毒综合征(aHUS)、纤维肌痛、格林-巴利综合征(Guillain Barré syndrome)(GBS)、肠易激综合征(IBS)、克罗恩病、结肠炎、皮炎、憩室炎、骨关节炎、银屑病关节炎、Lambert-Eaton肌无力综合征、全身性红斑狼疮(SLE)、肾炎、帕金森氏病、多发性硬化症、阵发性睡眠性血红蛋白尿症(PNH)、类风湿性关节炎(RA)、干燥综合症( syndrome)、溃疡性结肠炎等。

示例性传染性疾病包括但不限于非洲锥虫病、螺旋体症(borreliosis)、霍乱、隐孢子虫病、登革热、甲型肝炎、乙型肝炎、丙型肝炎、HIV/AIDS、流感、日本脑炎、利什曼病、疟疾、麻疹、脑膜炎、盘尾丝虫病、肺炎、轮状病毒感染、血吸虫病、败血症、志贺氏菌病、链球菌性扁桃体炎、肺结核、伤寒、黄热病等。

示例性呼吸系统疾病包括但不限于哮喘、慢性阻塞性肺病(COPD)、囊肿性纤维化等。

示例性内分泌病症包括但不限于肢端肥大症、I型糖尿病、II型糖尿病、妊娠糖尿病、格雷夫斯氏病、生长激素缺乏症、高血糖症、甲状旁腺机能亢进、甲状腺机能亢进、低血糖症、不孕症、肥胖症、甲状旁腺疾病、莫尔奎A综合征(Morquio A syndrome)、粘多糖病等。

示例性中枢神经系统疾病包括但不限于阿尔茨海默氏病、僵住症、亨廷顿病、帕金森氏病等。

示例性肌肉骨骼疾病包括但不限于骨质疏松症、肌肉萎缩症等。

示例性心血管疾病包括但不限于急性心力衰竭、脑血管疾病(中风)、缺血性心脏病等。

示例性肿瘤疾病包括但不限于肾上腺癌、膀胱癌、乳腺癌、结肠直肠癌、子宫内膜癌、肾癌、急性淋巴细胞白血病(ALL)和其它类型的白血病、肺癌、黑色素瘤、非霍奇金淋巴瘤、胰腺癌、前列腺癌、甲状腺癌等。

示例性泌尿生殖系统疾病包括但不限于良性前列腺增生(BPH)、血尿症、神经源性膀胱、佩罗尼病(Peyronie's disease)等。

示例性代谢疾病包括但不限于戈谢病、法布里病、生长激素缺乏症、Hurler综合征、亨特氏综合征、高草酸尿症、神经元蜡样脂褐质贮积症、马-拉综合征(Maroteaux-Lamysyndrome)、莫尔奎综合征(Morquio syndrome)、努南综合征(Noonan syndrome)、SHOX基因单倍不足、特纳综合征、普拉德-威利综合征(Prader-Willi syndrome)、苯丙酮尿症、沙费利波综合征(Sanfilippo syndrome)等。

如上文所述，本文提供的核酸分子也可以单独用于基因疗法目的或者作为载体的一部分用于基因疗法目的。基于通过离体或体内技术将治疗基因引入细胞的基因疗法是基因转移最重要的应用之一。用于体内基因疗法的合适载体、方法或基因递送系统描述在文献中，并且为本领域技术人员已知的；参见，例如Giordano(1996)Nat.Med.2:534-539；Schaper(1996)Circ.Res.79:911-919；Anderson(1992)Science 256:808-813；Verma(1997)Nature 389:239-249；Isner(1996)Lancet 348:370-374；Muhlhauser(1995)Circ.Res.77:1077-1086；Onodera(1998)Blood 91:30-36；Verma(1998)Gene Ther.5:692-699；Nabel(1997)Ann.N.Y.Acad.Sci.811:289-292；Verzeletti(1998)Hum.Gene Ther.9:2243-2251；Wang(1996)Nat.Med.2:714-716；WO 94/29469；WO 97/00957,US 5,580,859；US5,589,466；or Schaper(1996)Curr.Opin.Biotechnol.7:635-640。本文提供的核酸分子和载体可以被设计用于直接引入细胞，或者经由脂质体或病毒载体(例如，腺病毒、逆转录病毒)引入细胞中。例如，载体可以是腺相关病毒(AAV)载体，特别是AAV8载体。AAV载体对于基因疗法具有吸引力。AAV系统具有若干优点，包括长期基因表达、在没有辅助病毒的情况下不能自主复制、转导分裂和不分裂的细胞以及缺乏来自野生型感染的致病性。优选地，所述引入核酸分子或载体的细胞为生殖系细胞、胚胎细胞或卵细胞或由其衍生的细胞，最优选地所述细胞为干细胞。胚胎干细胞的实例可尤其为Nagy(1993)Proc.Natl.Acad.Sci.USA90:8424-8428中所述的干细胞。

术语“多肽”，“肽”和“蛋白质”在本文中可互换使用，并且指经由在一个氨基酸的氨基与另一个氨基酸的羧基之间形成的酰胺或肽键连接的两个或更多个氨基酸的聚合物。优选地，在一个氨基酸的α-氨基与另一个氨基酸的α-羧基之间形成肽键。包含在肽或蛋白质中的也被称为氨基酸残基的氨基酸可以选自20种标准蛋白α-氨基酸(即，Ala、Arg、Asn、Asp、Cys、Glu、Gln、Gly、His、Ile、Leu、Lys、Met、Phe、Pro、Ser、Thr、Trp、Tyr和Val)，但也可选自非蛋白和/或非标准α-氨基酸(如例如鸟氨酸、瓜氨酸、高赖氨酸、吡咯赖氨酸或4-羟脯氨酸)以及β-氨基酸(例如β-丙氨酸)、γ-氨基酸和δ-氨基酸。优选地，包含在肽或蛋白质中的氨基酸残基选自α-氨基酸，更优选选自20种标准蛋白α-氨基酸(其可以以L-异构体或D-异构体存在，并且优选全部(除Gly之外)以L-异构体存在)。

编码的多肽或蛋白质可以是未修饰的或者可以在其N端、其C端和/或其任何氨基酸残基的侧链(特别是在Lys、His、Ser、Thr、Tyr、Cys、Asp、Glu和/或Arg残基中的一个或多个的侧链官能团处)被修饰。此类修饰可以包括例如针对Wuts(2006)Greene’s protectivegroups in organic synthesis,John Wiley&Sons,第4版,Hoboken,N.J.中相应官能团所述的任何保护基团的连接。此类修饰还可以包括糖基化和/或用一种或多种脂肪酸(例如一种或多种C_8-30链烷酸或链烯酸；形成脂肪酸酰化的肽或蛋白质)进行的酰化。编码的多肽优选不被羟基化，特别是不包含羟脯氨酸。

包含在编码的肽或蛋白质中的氨基酸残基可以例如作为线性分子链存在(形成线性肽或蛋白质)或者可以形成一个或多个环(对应于环肽或蛋白质)，例如经由肽键或异肽键或二硫桥环化的。肽或蛋白质也可以形成由两个或更多个相同或不同分子组成的寡聚物。如本文所用，术语“结构域”涉及能够自主采用特定结构和/或功能的氨基酸序列的任何区域/部分。因此，在本发明的上下文中，“结构域”可以表示功能结构域或结构结构域，其可以例如形成较大多肽的一部分。

如本文所用，术语“包含”和“包括”或其语法变型将被视为指定所述特征、整数、步骤或组分，但不排除添加一个或多个另外的特征、整数、步骤、组分或其群组。这些术语涵盖术语“由......组成”和“基本上由......组成”。

因此，术语“包含”/“包括”/“具有”意为任何其它组分(或同样的特征、整数、步骤等)能够/可以存在。因此，每当术语“包含”/“包括”/“具有”在本文中使用时，它们可以被“基本上由......组成”或优选地由“由...组成”代替。

术语“由...组成”意为不存在其它组分(或者同样的特征、整数、步骤等)。

当在本文中使用时，术语“基本上由...组成”或其语法变型被视为指定所述特征、整数、步骤或组分，但并不排除添加一个或多个另外的特征、整数、步骤、组分或其群组，只要所述另外的特征、整数、步骤、组分或其群组不会实质性地改变要求保护的组合物、装置或方法的基本和新型特征即可。

因此，术语“基本上由...组成”意为可以存在特定的其它组分(或同样的特征、整数、步骤等)，即不会实质性地影响组合物、装置或方法的基本特性的那些组分。换言之，术语“基本上由...组成”(其在本文中可以与术语“基本上包含”互换使用)允许组合物、装置或方法中存在除了强制性组分(或同样的特征、整数、步骤等)以外的其它组分，条件是该装置或方法的基本特性不会实质性地受存在的其它组分的影响。

术语“方法”是指用于完成给定任务的方式、手段、技术和程序，包括但不限于化学、生物和生物物理领域的从业人员已知的或易于从已知方式、手段、术和程序开发的那些方式、手段、技术和程序。

如本文所用，并且如果没有另外指示，术语“约”优选指所示数值的±10％，更优选指所示数值的±5％，并且特别指所指示的确切数值。

通过参考下述非限制性附图和实施例进一步描述本发明。除非另外指明，如例如在Sambrook(2001)(见上文)(将其通过引用整体并入本文)中所述，使用建立的重组基因技术的方法。

通过参考下述非限制性附图和实施例进一步描述本发明。附图显示：

图1：使用质粒pXL2组装编码富含脯氨酸/丙氨酸的序列的低重复核酸。

(A)pXL2(SEQ ID NO:48)的质粒图谱。将SapI识别位点(5’-GCTCTTC-3’)和EarI识别位点(5’-CTCTTC-3’)插入到受lac启动子/操纵子(lac^p/o)的转录控制的选择标志物基因lacZ中。SapI限制性位点允许连续插入编码富含脯氨酸/丙氨酸的序列的低重复核酸分子的一个或多个单元(构件)。用EarI(一种限制酶，其识别序列与SapI识别序列重叠/为SapI识别序列的子集)切断允许切除和/或分离编码富含脯氨酸/丙氨酸的序列的组装的低重复性核酸分子(基因盒)。质粒骨架与一般克隆载体pUC19的质粒骨架相同(Yanisch-Perron(1985)Gene33:103-119)，除了经由沉默突变缺失了另外的SapI和EarI限制性位点。(B)pXL1(SEQ ID NO:55)的质粒图谱。将两个相反方向的SapI识别位点(5’-GCTCTTC-3’)插入到受lac启动子/操纵子(lac^p/o)转录控制的选择标志物基因lacZ中。SapI限制性位点允许插入/克隆以及增殖/扩增和随后切除和/或分离编码富含脯氨酸/丙氨酸的序列的低重复核酸分子(基因盒)。质粒骨架与pUC19的质粒骨架相同，除了经由沉默突变缺失了另外的SapI限制性位点。注意，与pXL2相比，插入的基因盒具有相反定向。(C)可用于克隆和组装低重复核酸分子的pXL2的克隆位点及其周围的核苷酸序列区段。核苷酸序列含有呈相反方向的SapI限制性位点和EarI限制性位点。因为EarI识别序列也是SapI识别序列的一部分，EarI在两个识别位点均切割。无论使用限制酶SapI或EarI，消化均导致突出的GCC/CGG末端(编码Ala)，其与编码富含脯氨酸/丙氨酸的序列的低重复核酸分子的GCC/CGG悬突相容，因此允许有效连接。识别序列加下划线。(D)在插入一个低重复核酸单元/构件，PAS#1b(200)(SEQ ID NO:19)之后pXL2的克隆位点的核苷酸序列和编码的氨基酸序列。标记了克隆的低重复核酸单元/构件侧翼的SapI和EarI限制性位点(识别序列加下划线)。(E)低重复核酸序列单元的组装以获得编码富含脯氨酸/丙氨酸的氨基酸重复序列的更长克隆的核苷酸序列(核酸分子)。在第一步中，将pXL2用SapI消化，去磷酸化并与第一序列单元，PAS#1b(200)连接。在第二步中，通过单一SapI限制性消化将所得质粒在克隆的序列单元的上游打开/线性化，随后去磷酸化并与第二核苷酸序列单元，PAS#1c(200)连接。所得质粒pXL2-PAS#1c/1b(400)含有包含总共1200个碱基对长度的插入的基因/DNA盒。总体而言，所得的克隆的编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核苷酸序列仅含有最大长度为14个核苷酸的核苷酸重复(SEQ ID NO:52)。经由用EarI消化可以容易地切除整个组装的基因盒/核酸分子，随后将其用于在表达载体上亚克隆，例如与编码生物学活性蛋白等的核苷酸序列在同一阅读框中。值得注意的是，通过重复第二步骤，具有连续增加长度的基因盒可以以系统方式被组装并克隆到pXL2上。如果使用不同的合适的核苷酸序列单元，则所得的编码富含脯氨酸/丙氨酸的氨基酸重复序列的长的低重复核酸分子仅含有很少或短的核苷酸重复。

图2：富含脯氨酸/丙氨酸的序列的重复分析。

(A)将现有技术的富含脯氨酸/丙氨酸的序列PA#3a(200)(SEQ ID NO:15)的点图与根据本发明的低重复核苷酸序列，PA#3b(200)(SEQ ID NO:36)的点图进行比较，两者均使用Geneious V8.1软件包(Biomatters,Auckland,New Zealand)中包括的点图工具“dottup”，应用14或15的重复窗口生成。通过分别在二维图的x轴和y轴上将分析的核苷酸序列与其自身进行比较，“dottup”工具鉴定出现指定长度(重复窗口)的相同序列的所有区域，并画出对角线，从而指示重复序列在x轴和y轴上的位置(如果由不同于中心对角线的对角线表示，则后者指示自我身份)。连续重复延伸对角线。这里分析的PA#3a(200)核苷酸序列显示出如通过许多和/或长对角线所示的高度重复性质。在这种情况下，核苷酸序列显示各自为60个碱基对的许多重复。通过应用14的重复窗口，甚至在60bp的重复内出现较短的14bp的重复。相比之下，PA#3b(200)核苷酸序列在整个分析的600bp的核苷酸序列内仅显示一些分散的14bp的重复，而当应用稍大的15的重复窗口进行分析时，没有可检测的重复。(B)使用14和15个碱基对的重复窗口，将编码富含脯氨酸/丙氨酸的序列的WO2008155134中公开的核酸PAS#1a(600)(SEQ ID NO:12)的点图与根据本发明的编码富含脯氨酸/丙氨酸的氨基酸重复序列的组装的低重复核苷酸序列(PAS#1d/1f/1c/1b(800)(SEQ ID NO:39)和PAS#1f/1c/1b(600)(SEQ ID NO:38))的点图进行比较。鉴于核苷酸序列PAS#1a(600)显示了60个碱基对的重复的组成，PAS#1d/1f/1c/1b(800)和PAS#1f/1c/1b(600)核苷酸序列分别在2400或1800bp的整个分析的核苷酸序列内未显示或在14个核苷酸重复窗口的情况下，仅显示一个单一的14个核苷酸的重复(对角线)。(C)应用14或15个核苷酸的重复窗口，与根据本发明的低重复核苷酸序列PA#3a(200)(SEQ ID NO:15)相比，US2006/0252120中公开的编码[(AP)₅]_n多聚体的合成DNA序列(SEQ ID NO:16)和编码恒河猴疱疹病毒1的非常大的被膜蛋白(GenBank AAP41454.1)(SEQ ID NO:18)的重复的富含脯氨酸/丙氨酸的区域的天然DNA序列的点图分析。编码[(AP)₅]_n多聚体和恒河猴疱疹病毒1的非常大的被膜蛋白的富含脯氨酸/丙氨酸的区域的DNA序列的点图显示这些核苷酸序列的高度重复性质。相比之下，在整个分析的600bp的核苷酸序列内，PA#1b(200)核苷酸序列的点图仅显示一些分散的14个核苷酸的重复(14个核苷酸的重复窗口)或根本不显示重复(15个核苷酸的重复窗口)。

图3：来自编码富含脯氨酸/丙氨酸的氨基酸序列的低重复核酸分子的DNA测序的电泳图谱。

来自根据本发明的具有编码富含脯氨酸/丙氨酸的序列的低重复核苷酸序列的pXL2-PAS#1f/1c/1b(600)(SEQ ID NO:38)的DNA测序的电泳图谱。使用能在PAS#1b(200)核苷酸序列单元(SEQ ID NO:19)的编码区内特异性杂交的引物XLP-1(SEQ ID NO:3)对双链质粒DNA进行测序。在该电泳图谱中，超过900个碱基是可读的，并且对应于pXL2-PAS#1f/1c/1b(600)的已知核苷酸序列。值得注意的是，电泳图谱未显示非特异性或多重引物杂交的迹象。

图4：用于细菌产生具有治疗相关性的PAS#1(600)-IL1Ra融合蛋白的遗传稳定的表达载体pASK75-PAS#1f/1c/1b(600)-IL1Ra。

(A)pASK75-IL1Ra(SEQ ID NO:49)的质粒图谱，以及(B)在插入PAS#1f/1c/1b(600)基因盒之后，pASK75-IL1Ra(SEQ ID NO:49)的衍生物pASK75-PAS#1f/1c/1b(600)-IL1Ra(SEQ ID NO:50)的质粒图谱。生物学/药理学活性(前)蛋白PAS#1(600)-IL1Ra的结构基因被克隆在tet启动子/操纵子(tet^p/o)的转录控制下，所述结构基因包含编码具有601个氨基酸残基的PAS#1多肽的低重复核苷酸序列和人IL-1Ra的结构基因以及细菌OmpA信号序列和His₆-标签的编码区。侧接XbaI和HindIII限制性位点的表达盒之外的质粒骨架与通用表达载体pASK75(Skerra(1994)Gene 151:131-135)的质粒骨架相同。指示了在插入根据本发明的编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核酸分子之后保留的单一SapI限制性位点。

图5：与现有技术的核苷酸序列PAS#1a(600)相比，编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核酸分子PAS#1f/1c/1b(600)的遗传稳定性的分析

在用pASK75-PAS#1a(600)-IL1Ra(泳道1-5)(SEQ ID NO:51)或pASK75-PAS#1f/1c/1b(600)-IL1Ra(泳道1-10)(SEQ ID NO:50)转化的大肠杆菌JM83克隆历经7天培养(其对应于大约70代的细菌细胞分裂)的10个质粒制备物的XbaI/HindIII限制性分析之后的琼脂糖凝胶电泳。5个分析的pASK75-PAS#1a(600)-IL1Ra克隆中有4个显示了包含编码富含脯氨酸/丙氨酸的氨基酸重复序列的核酸插入物的缩短的DNA片段(图5A)，清楚地表明遗传不稳定性。相比之下，所有5个pASK75-PAS#1f/1c/1b(600)-IL1Ra克隆仅显示分别对应于3093bp和2377bp的预期条带，表明编码富含脯氨酸/丙氨酸的氨基酸重复序列的完整核酸插入物和高遗传质粒稳定性。因此，根据本发明的编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核苷酸序列提供了明显优于现有技术的重复核苷酸序列的优势。

图6：编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核苷酸序列在编码生物学活性蛋白IL-1Ra的表达质粒上的无缝克隆。

(A)融合蛋白的编码区的示意图，所述融合蛋白的编码区包含OmpA信号序列基因，随后为GCC丙氨酸密码子，在非编码链上的第一SapI识别序列GCTCTTC，GC二核苷酸间隔子以及反向方向的第二SapI识别(其识别序列GCTCTTC在编码链上)，最终为GCC丙氨酸密码子和成熟IL-1Ra(UniProt ID P18510)的编码序列。经由通用表达载体pASK75上的XbaI/HindIII限制性位点克隆所示的整个序列。(B)(A)中所述的DNA盒在SapI切割和切除短的24bp的插入物之后侧接两个SapI限制性位点的示意图。值得注意的是，由于两个5'-悬突，仅中间的18个核苷酸形成DNA双链，因此包含真正意义上的碱基对。(C)包含低重复核苷酸序列PA#1b(200)的DNA片段(例如从pXL2-PA#1b(200)(SEQ ID NO:54)切除的)，经由EarI限制性消化产生的相容性粘性GCC/CGG末端以单向方式无缝插入(参见图1)。包含根据本发明的编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核苷酸序列的所得表达盒在下文中进一步显示为SEQ ID NO:47。

图7：使用遗传稳定的表达载体pASK75-PAS#1f/1c/1b(600)-IL1Ra在大肠杆菌产生的PAS#1(600)-IL1Ra融合蛋白的表征

(A)通过10％SDS-PAGE分析经由IMAC、AEX、CEX和SEC纯化的PAS#1(600)-IL1Ra融合蛋白。凝胶显示用2-巯基乙醇还原的2μg PAS#1(600)-IL1Ra样品(泳道1)以及未还原的2μg PAS#1(600)-IL1Ra样品(泳道2)。左边指示蛋白标志物蛋白(M)的大小。PAS#1(600)-IL1Ra融合蛋白呈现为单一均质条带，表观分子大小大于116kDa。由于差的SDS结合，PAS融合蛋白通常显示出比例如PAS#1(600)-IL1Ra的68kDa的计算质量显著更大的大小(Schlapschy(2013)Protein Eng Des Sel.26:489-501)。(B)经由电喷雾离子化质谱法(ESI-MS)表征PAS#1(600)融合蛋白。纯化的PAS#1(600)-IL1Ra融合蛋白的去卷积的ESI-MS谱显示67994.8Da的测量质量，其几乎完全对应于67994.9Da的计算质量。

图8：使用遗传稳定的表达载体pASK37-MP-PA#1d/1c/1b(600)在大肠杆菌中产生纯的PA#1(600/)多肽的表征

(A)pASK37-MP-PA#1d/1c/1b(600)(SEQ ID NO:53)的质粒图谱。将编码PA#1(600)多肽的低重复核苷酸序列克隆在lacUV5启动子/操纵子(lacUV5^p/o)的转录控制下，之前为起始Met残基和Pro残基的密码子。侧接XbaI和HindIII限制性位点的表达盒之外的质粒骨架与通用表达载体pASK37(Skerra(1991)Protein Eng.4:971-979)的质粒骨架相同。(B)通过10％SDS-PAGE，随后用碘化钡染色来分析重组的PA#1(600)多肽。上样的样品为3h表达之后的裂解细胞(泳道1)，用20％w/v(NH₄)₂SO₄沉淀的蛋白质(泳道2)，溶解于20mM Tris/HCl中的(NH₄)₂SO₄沉淀物在17.000rpm离心20min之后的上清液且随后用1％v/v AcOH处理(泳道3)和PA#1(600)多肽处理的随后消减阳离子交换层析的流过物(flow through)(泳道4)。PA#1(600)多肽较差地结合SDS；因此，PA#1(600)多肽在浓缩胶内呈现红色/黄色碘染色的条带，表明均一的组成。(C)在用水脱色并用考马斯亮蓝染色之后的(B)中所示的凝胶。PA#1(600)多肽较差地结合SDS，并且不被考马斯亮蓝染料染色；因此，仅杂质(宿主细胞蛋白)在考马斯亮蓝染色的凝胶上可见。(D)经由电喷雾离子化质谱法(ESI-MS)表征纯的PA#1(600)多肽。去卷积谱显示48301.78Da的测量质量，其几乎完全匹配重组PA#1(600)多肽的计算质量(48301.4Da)，所述重组PA#1(600)多肽如上文所说明的在N-端携带另外的Pro残基以及在C-端携带由于用于基因克隆的SapI限制性位点而产生的另外的Ala残基。注意，该重组多肽不再携带起始Met残基，这最可能是由甲硫氨酸氨肽酶的细胞内作用所导致(Giglione(2015)Biochimie 114:134-46)。

图9：编码富含脯氨酸/丙氨酸的氨基酸序列的核苷酸序列的自动化重复分析。

使用Python脚本NRS-计算器(参见实施例14)如实施例13中所述分析现有技术的编码富含脯氨酸/丙氨酸的氨基酸序列的天然以及合成核苷酸序列的重复，并在此将其与根据本发明的低重复核苷酸序列PAS#1b(200)和PA#1e/1d/1c/1b(800)进行比较。将分析的核苷酸序列内某一长度的所有重复的频率(出现的数目)针对重复长度作图。(A)现有技术核苷酸序列PAS#1a(200)(SEQ ID NO:11)的柱状图。(B)核苷酸序列PA#1a(200)(SEQ IDNO:14)的柱状图。(C)编码糖模块[(AlaPro)₅]₂₀APA的核苷酸序列(SEQ ID NO:16)的柱状图。(D)编码糖模块[AAPAPAPAP]₁₀AS的核苷酸序列(SEQ ID NO:17)的柱状图。(E)编码恒河猴疱疹病毒1的大的被膜蛋白(SEQ ID NO:18)内富含脯氨酸/丙氨酸的区段的核苷酸序列的柱状图。(F)低重复核苷酸序列PAS#1b(200)(SEQ ID NO:19)的柱状图。(G)(F)中示出的PAS#1b(200)数据的近视图。(H)根据本发明的低重复核苷酸序列PA#1e/1d/1c/1b(800)(SEQ ID NO:44)的柱状图。(I)(H)中示出的PA#1e/1d/1c/1b(800)数据的近视图。对于表1和表2中的不同核苷酸序列，总结了分析的核苷酸序列的总长度(N_tot)及其核苷酸重复分数(NRS)，其为评估编码富含脯氨酸/丙氨酸的氨基酸序列的核酸分子在重复的频率和长度方面的质量的量度。

图10：用于细菌产生具有治疗相关性的PA#1(600)-IL1Ra融合蛋白的遗传稳定的表达载体pASK75-PA#1d/1c/1b(600)-IL1Ra。

pASK75-PA#1d/1c/1b(600)-IL1Ra(SEQ ID NO:77)的质粒图谱。生物学/药理学活性(前)蛋白PAS#1(600)-IL1Ra的结构基因被克隆在tet启动子/操纵子(tet^p/o)的转录控制下，所述结构基因包含编码具有601个氨基酸残基的PAS#1多肽的低重复核苷酸序列和人IL-1Ra的结构基因以及细菌OmpA信号序列和His₆-标签的编码区。侧接XbaI和HindIII限制性位点的表达盒之外的质粒骨架与通用表达载体pASK75(Skerra(1994)Gene 151:131-135)的质粒骨架相同。指示了在插入根据本发明的编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核酸分子之后保留的单一SapI限制性位点。

图11：与现有技术的核苷酸序列PA#1a(600)相比，编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核酸分子PA#1d/1c/1b(600)的遗传稳定性的分析

用pASK75-PA#1d/1c/1b(600)-IL1Ra(图10)(SEQ ID NO:77)转化的大肠杆菌JM83克隆历经7天培养(其对应于大约70代细菌细胞分裂)的10个质粒制备物或pASK75-PA#1a(600)-IL1Ra(SEQ ID NO:78)的10个质粒制备物在XbaI/HindIII限制性分析之后的琼脂糖凝胶电泳。泳道：M，分子大小标准(GeneRuler 1kb DNA梯带：500、750、1000、1500、2000、2500、3000、3500、4000、5000、6000、8000和10000bp)；1至10：来自限制性消化之后的单个克隆的质粒样品。10个分析的pASK75-PA#1a(600)-IL1Ra克隆中至少有4个显示了包含编码富含脯氨酸/丙氨酸的氨基酸重复序列的核酸插入物的缩短的DNA片段(图11A)，清楚地表明遗传不稳定性。相比之下，所有10个pASK75-PA#1d/1c/1b(600)-IL1Ra克隆(图11B)仅显示分别对应于3093bp和2377bp的预期条带，表明编码富含脯氨酸/丙氨酸的氨基酸重复序列的完整核酸插入物和高遗传质粒稳定性。因此，根据本发明的编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核苷酸序列提供了明显优于现有技术的重复核苷酸序列的优势。

图12：用于细菌产生与富含脯氨酸/丙氨酸的氨基酸序列融合的人瘦蛋白的遗传稳定的表达载体的构建

(A)含有侧接SapI限制性位点(以允许编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核苷酸序列与人瘦蛋白的结构基因在框内无缝和定向克隆)的无缝克隆盒的pASK37-MP-人瘦蛋白(SEQ ID NO:81)的质粒图谱。(B)pASK37-MP-人瘦蛋白-PA#1d/1c/1b(600)(SEQ ID NO:82)(插入PA#1d/1c/1b(600)基因盒(SEQ ID NO:42)的pASK37-MP-人瘦蛋白的衍生物)的质粒图谱。(C)pASK37-MP-人瘦蛋白-PAS#1f/1c/1b(600)(SEQ ID NO:83)(插入PAS#1f/1c/1b(600)基因盒(SEQ ID NO:38)的pASK37-MP-人瘦蛋白的衍生物)的质粒图谱。将生物学/药理学活性人蛋白瘦蛋白、与编码PA#1(600)的低重复核苷酸序列融合的人瘦蛋白和与编码PAS#1(600)多肽的低重复核苷酸序列融合的人瘦蛋白的结构基因克隆在lacUV5启动子/操纵子(lacUV5^p/o)的转录控制下，全部在之前均为起始Met残基和Pro残基的密码子。侧接XbaI和HindIII限制性位点的表达盒之外的质粒骨架与通用表达载体pASK37的质粒骨架(Skerra(1991)Protein Eng.4:971-979)相同。

图13：与PA#1(600)多肽融合且使用遗传稳定的表达载体pASK37-MP-PA#1d/1c/1b(600)-人瘦蛋白(W100Q)在大肠杆菌中产生的人瘦蛋白变体的表征

(A)使用10％的聚丙烯酰胺凝胶，随后用考马斯亮蓝R-250染色对PA#1(600)-人瘦蛋白(W100Q)融合蛋白的SDS-PAGE分析。凝胶显示蛋白质分子量(MW)标志物(泳道M；ThermoFisher Scientific,Waltham,MA)、在还原样品条件下表达19h之后的大肠杆菌全细胞提取物(泳道1)、用1M(NH₄)₂SO₄沉淀的还原的(泳道2)和未还原的(泳道5)蛋白、在阴离子交换层析之后还原的(泳道3)和未还原的(泳道6)蛋白以及在尺寸排阻层析之后还原的(泳道4)和未还原的(泳道7)蛋白。PA#1(600)-人瘦蛋白(W100Q)呈现为单一条带，表明均一的组成。(B)经由电喷雾离子化质谱法(ESI-MS)表征PA#1(600)-人瘦蛋白(W100Q)融合蛋白。去卷积谱显示64249.5Da的测量质量，其与重组融合蛋白的计算质量(64249.8Da)匹配，表明细菌甲硫氨酸氨肽酶成功切割起始Met残基。

另外通过下述说明性非限制性实施例描述本发明，所述实施例为本发明及其许多优点提供了更好理解。

实施例1：编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核苷酸序列单元的合成

就以下方面优化了一组不同的核苷酸序列(包括手动调整)，各自编码200个残基的富含脯氨酸/丙氨酸的氨基酸重复序列：核苷酸水平上的低重复性、低GC含量、低的RNA二级结构、在大肠杆菌中表达的优选密码子使用和避免抗病毒基序以及CIS作用元件。为此，应用了建立的算法，如条件特异性密码子优化方法(Lanza(2014)BMC Syst Biol 8:33)或GeneOptimizer算法(Raab(2010)Syst Synth Biol 4:215–225)。以下述方式手动调整获得的其最初序列。

使用可在http://visualgenedeveloper.net免费获得的Visual Gene Developer软件1.2版鉴定长于给定阈值(例如，14个核苷酸)的重复。随后，在鉴定的重复内的密码子被逐步置换。具体地，鉴定的重复内富含GC的密码子被所选的宿主有机体(例如，大肠杆菌、毕赤酵母或CHO)中高度表达基因中普遍存在的富含AT的密码子代替。在每次置换之后，再次分析整个核苷酸序列的重复。如果置换产生长于给定阈值的新的重复，则拒绝核苷酸交换，并且置换先前鉴定的重复内的不同密码子。如果这种方法失败，则并行置换鉴定的长重复内的两个密码子。通过这种方式，在维持编码的富含脯氨酸/丙氨酸的氨基酸序列的同时，反复消除高于给定阈值的所有鉴定的重复。

在第二步中，使用Visual Gene Developer软件分析优化的核苷酸序列的密码子适应指数(CAI)、GC含量和稳定的mRNA结构，并将其与起始序列进行比较。再次通过密码子置换/沉默突变进行另外的手动调整，直到优化的核苷酸序列达到等于或优于起始序列的CAI、GC含量或mRNA结构。再次进行步骤1的重复分析，并且如果有必要交换其它密码子以满足重复阈值、CAI、GC含量和mRNA结构(二级结构)的目标。

在第三步中，将各自编码相同的200个残基的富含脯氨酸/丙氨酸的氨基酸重复序列的不同单独优化的核苷酸序列组合，即彼此附加，并且以与步骤1和2相同的方式优化所得的较长核苷酸序列。最后，将所得的长核苷酸序列分成较短的，例如600个核苷酸长度的DNA盒。例如，将2400个核苷酸的序列PAS#1d/1f/1c/1b(SEQ ID NO：39)分成四个较短的盒(SEQ ID NO：19、20、21、23)。类似地，将2400个核苷酸的序列A#1e/1d/1c/1b(SEQ ID NO：44)分成四个较短的盒(SEQ ID NO：28、29、30、31)，每个盒包含600个核苷酸。

侧接了两个反向互补方向的SapI识别位点(5’-GCTCTTC-3’)(在限制酶消化之后产生5'-GCC/5'-GGC核苷酸悬突)的这些优化的核苷酸序列单元，由不同的商业供应商分别合成。值得注意的是，由于存在两个GCC/GGC核苷酸悬突，仅中间的597个核苷酸在切除之后形成DNA双链，因此包含碱基对(bp)。另外，由于存在第二个SapI限制性位点，优化的600个核苷酸的序列延伸出另外的Ala密码子，从而产生编码富含脯氨酸/丙氨酸的氨基酸序列的总共603个核苷酸的克隆DNA盒。两个侧翼SapI限制性位点的存在使得能够例如在pXL2上对本发明的整个DNA盒进行精确的切除和亚克隆。

以相同方式设计和合成其它组的编码富含脯氨酸/丙氨酸的氨基酸重复序列的核苷酸序列单元，所述核苷酸序列单元为在大肠杆菌、毕赤酵母、人胚肾(HEK)细胞、荧光假单胞菌(Pseudomonas fluorescens)、谷氨酸棒状杆菌、枯草芽孢杆菌、嗜热四膜虫、酿酒酵母、乳酸克鲁维酵母、小立碗藓或灰仓鼠中表达而进行了密码子优化。这些有机体的密码子偏好表可在http://www.kazusa.or.jp/codon下载获得。表1中总结了根据本发明的合成的核酸分子及其核苷酸序列特征。

实施例2：低重复核苷酸序列单元被组装成编码富含脯氨酸/丙氨酸的氨基酸重复序列的较长核苷酸序列

用SapI消化来自商业供应商的各自携带克隆的合成DNA片段的质粒，并根据标准程序(Sambrook(2001)(见上文))经由琼脂糖凝胶电泳纯化所得的600个核苷酸的DNA片段。使用图1A中所示的质粒pXL2(SEQ ID NO：48)，即pUC19的衍生物(Yanisch-Perron(1985).Gene.33,103-119)将单独的核苷酸序列单元组装成较长的核苷酸序列。pXL2含有单一的SapI限制性位点，用这种IIS型限制酶消化产生编码丙氨酸的5’-GCC/5’-GGC-悬突，其与合成的纯化的DNA片段的粘末端相容(图1C)。在插入/连接一个核苷酸序列单元之后，可通过另一次SapI限制性消化在克隆的序列单元的上游的一端打开该质粒(图1D)。该载体设计允许逐步插入相同或不同的低重复核苷酸序列单元，产生编码富含脯氨酸/丙氨酸的氨基酸重复序列的较长克隆的基因盒(图1E)。

例如，将首先是核苷酸序列单元PAS#1b(200)(SEQ ID NO：19)，然后是序列单元PAS#1c(200)(SEQ ID NO：20)，随后是序列单元PAS#1f(200)(SEQ ID NO：23)以所述方式经由SapI限制性位点插入pXL2中，产生质粒pXL2-PAS#1f/1c/1b(600)(SEQ ID NO：38)。在随后的步骤中，使用SapI限制性位点以相同方式另外插入序列单元PAS#1d(200)(SEQ ID NO：19)。所得的质粒含有组装的2400bp的DNA盒PAS#1d/1f/1c/1b(800)(SEQ ID NO：39)，其总共显示具有14个核苷酸的最大长度的核苷酸序列重复。由于克隆在pXL2上的低重复DNA盒下游EarI的识别序列(5’-CTCTTC-3’)也是SapI识别序列的一部分，整个组装的DNA盒可以容易地经由用EarI限制性消化从而切割两次而被切除，允许随后用于进一步的亚克隆。

以相同的方式，由核苷酸序列单元PA#1b(200)(SEQ ID NO：28)、PA#1c(200)(SEQID NO：29)、PA#1d(200)(SEQ ID NO：30)和PA#1e(200)(SEQ ID NO：31)以规定顺序组装低重复核苷酸序列PA#1e/1d/1c/1b(800)(SEQ ID NO：44)。表1中总结了根据本发明的编码富含脯氨酸/丙氨酸的氨基酸重复序列的所述组装的核苷酸序列以及其它示例性低重复核酸分子，其也具有针对不同于大肠杆菌的宿主有机体优化的密码子使用。所公开的克隆策略提供复合基因盒的简单、逐步组装，所述复合基因盒包含编码富含脯氨酸/丙氨酸的氨基酸重复序列的长的低重复核酸分子，其不能通过常见的基因合成方法直接获得。

实施例3：编码富含脯氨酸/丙氨酸的氨基酸重复序列的核苷酸序列的重复性分析

对于编码以下序列的不同核苷酸序列进行点图分析：WO2011144756中公开的富含脯氨酸/丙氨酸的氨基酸重复序列PA#3(SEQ ID NO：15)(图2A)，WO2008155134中公开的PAS#1(SEQ ID NO：11)(图2B)，WO2004094590中公开的[(AP)₅]_n多聚体(SEQ ID NO：16)和以GenBank登录号AAP41454.1公布的恒河猴疱疹病毒1基因的非常大的被膜蛋白的重复的富含脯氨酸/丙氨酸的氨基酸序列区域(SEQ ID NO：18)(图2C)。通过使用Geneious软件包8.1版(Biomatters,Auckland,New Zealand)的点图工具“dottup”将各个核苷酸序列与其自身比对，并应用14或15个核苷酸的重复窗口来进行分析。该软件的算法基于免费获得的EMBOSS 6.5.7工具“dottup”(Sanger Institute,Cambridge,UK)。将所得的针对现有技术的核苷酸序列获得的二维点图与低重复核苷酸序列单元PA#3b(200)(SEQ ID NO：36)、PA#1b(200)(SEQ ID NO：28)以及编码更长的富含脯氨酸/丙氨酸的氨基酸重复序列的组装的核苷酸序列PAS#1f/1c/1b(600)(SEQ ID NO：38)和PAS#1d/1f/1c/1b(800)(SEQ ID NO：39)的点图进行比较。鉴于所有分析的现有技术的核苷酸序列在核苷酸序列水平上显示出如黑色对角线(图2A，B，C)所示的高度重复性质，根据本发明的编码富含脯氨酸/丙氨酸的氨基酸重复序列的优化的核苷酸序列的点图在整个分析的600个核苷酸的PA#3b(200)和PA#1b(200)盒(图2A，C)、1800个核苷酸的PAS#1f/1c/1b(600)盒(图2B)或2400个核苷酸的PAS#1d/1f/1c/1b(800)盒(图2B)的核苷酸序列内，仅显示一些分散的或短的14个核苷酸的重复(黑线)。

实施例4：编码长的富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核酸分子的DNA测序

使用ABI 3730XL仪器(Thermo Fisher Scientific,Waltham,MA)上的Sanger循环测序由DNA-测序服务提供商(Eurofins Genomics,Ebersberg,Germany)对克隆到质粒pXL2上并且实施例2中所述的低重复PAS#1f/1c/1b(600)DNA盒(SEQ ID NO：38)进行测序。为此，将使用QIAprep Spin Miniprep试剂盒(Qiagen,Hilden,Germany)分离自转化的大肠杆菌XL1-blue细胞的8μl(150ng/μl)pXL2-PAS#1f/1c/1b(600)质粒DNA与5μl双蒸水和2μl引物XLP-1(10μM)(SEQ ID NO：3)混合，并提交给DNA-测序服务提供商，所述引物在PAS#1b(200)核苷酸序列单元的编码区内杂交。结果，获得了包含超过900个可指定核苷酸的无误电泳图谱(图3)，其未显示非特异性或多重引物结合的迹象。因此，与长的重复核苷酸序列(其仅可使用与克隆的DNA上游或下游的载体核苷酸序列杂交的引物进行部分测序)相比，根据本发明的编码富含脯氨酸/丙氨酸的氨基酸重复序列的长的低重复核酸分子也可容易地使用在克隆的核苷酸序列的内部特异性杂交的引物进行测序。这使得能够使用不同的合适引物进行多个重叠序列读取，从而允许即使对于根据本发明的非常长的核酸分子也能够进行全序列覆盖。

实施例5：用于细菌产生治疗性PAS#1(600)-IL1Ra融合蛋白的遗传稳定的表达载体pASK75-PAS#1f/1c/1b(600)的构建

为了构建编码与600个残基的PAS#1氨基酸重复序列(SEQ ID NO：38)融合的白细胞介素-1受体拮抗剂(IL-1Ra)的表达质粒，用SapI切断载体pASK75-IL1Ra(图4A)，用虾碱性磷酸酶(Thermo Fisher Scientific,Waltham,MA)去磷酸化，并与对应于编码600个残基的PAS#1多肽的低重复核苷酸序列盒的DNA片段连接，该DNA片段通过用EarI限制性消化从质粒pXL2-PAS#1f/1c/1b(600)中切除。在转化大肠杆菌XL1-Blue(Bullock(1987)Biotechniques 5:376-378)之后，制备质粒DNA，并通过限制性分析和DNA测序确认插入的DNA片段的存在。所得的质粒被命名为pASK75-PAS#1f/1c/1b(600)-IL1Ra(SEQ ID NO：50)，并且显示在图4B中。

实施例6：具有编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核酸分子的质粒的长期遗传稳定性测试

将质粒pASK75-PAS#1f/1c/1b(600)-IL1Ra(SEQ ID NO：50)的遗传稳定性与pASK75-PAS#1a(600)-IL1Ra(SEQ ID NO：51)(其中PAS#1f/1c/1b(600)DNA盒被重复核酸PAS#1a(600)(SEQ ID NO：12)置换的衍生物)的遗传稳定性进行比较。为此，使用氯化钙方法(Sambrook(2001)(见上文))用相应质粒转化大肠杆菌KS272(Strauch(1988)Proc.Natl.Acad.Sci.USA 85:1576-1580)，以及在100mL摇瓶中，在补充有100mg/mL氨苄青霉素的50ml Luria Bertani(LB)培养基中，在37℃，170rpm培养7天，而不诱导基因表达。在此期间，使用1:1000的稀释度，将细菌细胞每天两次(在早上和晚上)转移至新鲜培养基中。在第7天，在历经大约70代的连续生长之后，培养物最终生长至稳定期，并将细胞铺板在LB/Amp琼脂上。然后，挑取单个克隆，用于LB培养基中的50mL培养物的接种，并且在过夜生长至稳定期之后，使用Qiagen Miniprep试剂盒(Qiagen,Hilden,Germany)针对两种质粒中的每一种制备来自五个克隆的质粒DNA，并通过XbaI/HindIII限制性消化来分析(图5)。

在5个分析的pASK75-PAS#1a(600)-IL1Ra克隆中，仅有1个显示出对应于3093bp和2377bp的预期条带(图5，泳道1)。两个克隆(图5，泳道3和5)在573bp(编码OmpA和IL1Ra的组合基因序列的近似大小)处显示出条带，表明可能通过重组而导致的重复PAS#1a(600)序列盒的或多或少的完全丧失。其它两个克隆显示出显著缩短的DNA片段(图5，泳道2和4)，也表明重复PAS#1a(600)序列盒内的缺失事件，因此表明遗传不稳定。相比之下，所有五个分析的pASK75-PAS#1f/1c/1b(600)-IL1Ra克隆在3093bp和2377bp处显示出预期条带(图5，泳道6–10)，表明完整的编码富含脯氨酸/丙氨酸的氨基酸重复序列的基因盒，因此表明了根据本发明的低重复核酸分子的高的遗传质粒稳定性。

实施例7：编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核苷酸序列在编码生物学活性蛋白IL-1Ra的表达质粒上的无缝和定向克隆。

怀着药物应用的目标，仅包含生物学活性蛋白和富含脯氨酸/丙氨酸的氨基酸重复序列的融合蛋白是期望的。例如为了提供或利用用于克隆的限制性位点而引入的另外的氨基酸接头的缺乏可以防止在临床使用期间潜在的免疫应答和/或避免蛋白质水平上的无意相互作用。因此，针对定向插入低重复核苷酸序列开发了一种无缝克隆策略(图6)，此处对在编码生物学活性蛋白IL1-Ra(Molto(2010)Joint Bone Spine.77:102-107)的通用表达质粒pASK75(Skerra(1994)(见上文))的衍生物上的包含PA#1b(200)(SEQ ID NO：28)的DNA片段进行了例示。

首先，编码IL1-Ra的成熟氨基酸序列(UniProt ID P18510)的合成DNA片段获自基因合成提供商(Thermo Fisher Scientific,Regensburg,Germany)。该基因片段(SEQ IDNO：46)包含XbaI限制性位点，随后为核糖体结合位点，编码OmpA信号肽的核苷酸序列，随后为GCC丙氨酸密码子，在非编码链上的第一SapI识别序列GCTCTTC，GC二核苷酸间隔子和反向互补方向的第二SapI限制性序列(其识别序列GCTCTTC在编码链上)，随后为与成熟IL1Ra(UniProt ID P18510)的编码序列直接连接的GCC丙氨酸密码子，最后接HindIII限制性位点。

根据标准程序(Sambrook(2001)(见上文))，将该基因片段经由侧翼的限制性位点XbaI和HindIII克隆到pASk75上。用SapI消化所得的质粒(参见图6A)，这导致含有两个SapI识别位点的小的(24bp)DNA插入物的释放以及具有正好位于编码的成熟IL-1Ra的N-端之前的位置处的相容性5'-GCC/5’-GGC粘末端的切割的载体骨架，所述粘末端非常适于插入编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核酸分子(图6B)。在使用QIAquick凝胶提取试剂盒(Qiagen,Hilden,Germany)分离载体片段并用热敏碱性磷酸酶FastAP(ThermoFisher Scientific,Waltham,MA)去磷酸化(两者均根据制造商的说明书)之后，将其与经由EarI限制性消化从pXL2-PA#1b(200)(SEQ ID NO:54)切除的PA#1b(200)基因盒连接(图6C)。所得的质粒(SEQ ID NO：56)允许融合蛋白(SEQ ID NO：10)的细菌表达，该融合蛋白仅由与生物学活性蛋白IL-1Ra融合的富含脯氨酸/丙氨酸的氨基酸重复序列组成(在大肠杆菌中周质分泌时OmpA信号肽的体内加工之后)。

实施例8：在遗传稳定的质粒pASK75-PAS#1f/1c/1b(600)-IL1Ra上编码的PAS#1(600)序列与IL-1Ra之间的融合蛋白的细菌产生和纯化

根据公布的程序(Schiweck(1995)Proteins 23:561-565)，使用具有补充了100mg/L氨苄青霉素和30mg/L氯霉素的合成葡萄糖矿物培养基的8L台式发酵罐，在25℃下，在具有来自实施例6的遗传稳定的表达质粒pASK75-PAS#1f/1c/1b(600)-IL1Ra和折叠辅助质粒pTUM4(Schlapschy(2006)Protein Eng.Des.Sel.20:273-284)的大肠杆菌KS272中，产生PAS#1(600)-IL1-Ra融合蛋白(计算的质量：68kDa)。一旦培养物达到OD₅₅₀＝28，通过添加500μg/L无水四环素诱导重组基因表达(Skerra(1994)(见上文))。在2.5h的诱导期之后，通过离心收获细胞，并在10min期间，将其重悬在冰冷的周质分级分离缓冲液(500mM蔗糖，1mMEDTA，100mM Tris/HCl pH 8.0；2ml/L和OD₅₅₀)中。在添加15mM EDTA和250μg/mL溶菌酶之后，将细胞悬浮液在冰上孵育20min，离心数次，并回收含有重组蛋白的澄清上清液。

将周质提取物针对5L 40mM磷酸钠pH7.5，500mM NaCl在4℃分别透析4次，并使用80ml HisTrap HP柱(GE Healthcare,Freiburg,Germany)借助于His₆-标签进行纯化。用40mM磷酸钠pH7.5，0.5M NaCl中的0-200mM的咪唑/HCl pH 7.5浓度梯度洗脱蛋白质。将纯化的蛋白质合并，并针对5L 20mM Tris/HCl pH 8.0，1mM EDTA在4℃透析两次，分别保持至少6h。使用20mM Tris/HCl pH 8.0,1mM EDTA作为运行缓冲液，使用与净化系统连接的填充有Source15Q树脂的60ml XK柱(GE Healthcare,Freiburg,Germany)，使透析过的蛋白质溶液进行阴离子交换层析。使用运行缓冲液中的0至200mM的NaCl浓度梯度来洗脱蛋白质。

将洗脱的级分针对10mM MES/HCl pH 6.0，1mM EDTA在4℃透析两次，分别保持至少6小时，随后使用填充有36ml Source15S树脂(GE Healthcare,Freiburg,Germany)的XK柱进行阳离子交换层析。使用10mM MES/HCl pH 6.0，1mM EDTA作为运行缓冲液在纯化系统上进行阳离子交换层析，以及运行缓冲液中的0至500mM的NaCl浓度梯度历经4个柱体积来洗脱蛋白质。再次合并含有PAS#1(600)-IL1-Ra的洗脱的蛋白质级分，针对5L磷酸盐缓冲盐水(PBS：115mM NaCl,4mM KH₂PO₄和16mM Na₂HPO₄pH 7.4)在4℃透析过夜，使用Amicon Ultra离心过滤装置(30000MWCO；15mL；Millipore,Billerica,MA)浓缩至5mg/ml，并使用用PBS平衡的HiLoad 26/60Superdex 200制备级柱(GE Healthcare,Freiburg,Germany)经由尺寸排阻层析进一步纯化。

从一个8L发酵罐获得终产量为70mg的没有聚集迹象的均质蛋白质制备物。使用15720M^-1cm^-1的计算消光系数(Gill(1989)Anal.Biochem.182:319-326)通过测量280nm处的吸收来测定蛋白质浓度。使用高摩尔浓度的Tris缓冲系统(Fling(1986)Anal.Biochem.155:83-88)进行SDS-PAGE(图7A)。

实施例9：PAS#1(600)-IL1Ra融合蛋白的ESI-MS分析

将如实施例8中所述制备和纯化的PAS#1(600)-IL1Ra针对1000倍体积的10mM乙酸铵，pH 6.8透析两次，并使用正离子模式在Q-Tof Ultima仪器(Waters,Eschbronn,Germany)上经由ESI质谱法分析。PA#1(600)-IL1Ra融合蛋白的去卷积谱显示67994.8Da的质量，其基本上与67994.8Da的计算质量一致(图7B)。这清楚地显示使用遗传稳定的表达质粒pASK75-PAS#1f/1c/1b(600)-IL1Ra可以在大肠杆菌中有效地产生整个PA#1(600)-IL1Ra融合蛋白。

实施例10：用于在大肠杆菌中产生富含脯氨酸/丙氨酸的氨基酸重复多肽的遗传稳定的质粒pASK37-MP-PA#1d/1c/1b(600)的构建

为了构建编码纯的PA#1(600)多肽的稳定表达质粒，将100pmol引物NdeI-MP-SapI-HindIIIfw(SEQ ID NO：4)和NdeI-MP-SapI-HindIIIrev(SEQ ID NO：5)磷酸化，混合，加热直至80℃，保持10min，并缓慢冷却至室温过夜以允许杂交。所得的双链DNA片段表现出与NdeI和HindIII悬突相容的粘末端。用NdeI和HindIII切断质粒pASK37(Skerra(1991)(见上文))，并将骨架片段与杂交的引物连接。

用SapI消化所得的质粒，这导致含有两个SapI识别位点的小的(24bp)插入物的释放和具有相容粘性5'-GCC/5’-GGC末端的切割的载体骨架。这些粘末端非常适于在N-端起始甲硫氨酸密码子(ATG)，随后为脯氨酸密码子CCA(发现其允许有效的翻译起始)的正下游的位置处插入编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核苷酸序列。在根据制造商的说明书使用QIAquick凝胶提取试剂盒分离载体片段以及使用热敏碱性磷酸酶FastAP去磷酸化之后，将其与经由EarI限制性消化从pXL2-PA#1d/1c/1b(600)切除的低重复基因盒PA#1d/1c/1b(600)(SEQ ID NO：42)连接。所得的质粒(SEQ ID NO：53)允许表达仅包含富含脯氨酸/丙氨酸的氨基酸重复序列的多肽(图8A)。

实施例11：在遗传稳定的质粒pASK37-MP-PA#1d/1c/1b(600)上编码的PA#1(600)多肽的细菌表达和纯化

在具有实施例10中所述的表达质粒pASK37-PA#1d/1c/1b(600)的大肠杆菌KS272的细胞质中产生在N-端具有另外的Pro残基并且在C-端具有另外的Ala残基的PA#1(600)多肽(计算质量：48302Da)。用转化有pASK37-PA#1d/1c/1b(600)的大肠杆菌KS272的菌落接种在无菌的13mL聚丙烯管(Sarstedt,Nümbrecht,Germany)中的补充有1％w/v葡萄糖和100mg/L氨苄青霉素的4ml LB培养基，并在37℃，170rpm生长过夜。在30℃，在具有补充了2.5g/L D-葡萄糖和100mg/L氨苄青霉素的2L超级肉汤(TB)培养基(Sambrook(2001)(见上文))的5L摇瓶中，进行细菌蛋白质生产。

用2ml过夜培养物接种大肠杆菌培养物，使细胞生长过夜，并通过添加异丙基-β-D-硫代半乳糖苷(IPTG)至0.5mM的终浓度在OD₅₅₀＝5处诱导重组基因表达。在诱导之后3h收获细菌，重悬在20ml 40mM磷酸钠，pH 7.2，1mM EDTA中，并使用弗氏细胞压碎器(Frenchpressure cell)(Thermo Scientific,Waltham,MA)裂解。在离心(17,000rpm,1h,4℃)裂解物之后，未观察到包涵体。通过在室温于连续搅拌下逐步添加固体(NH₄)₂SO₄至20％w/v的终浓度，使含有可溶性PA#1(600)多肽的上清液经受硫酸铵沉淀。将上清液在室温下以17,000rpm离心20min。将含有沉淀的PA#1(600)多肽的沉淀物溶解于20mM Tris/HCl pH 8.0中，并将溶液离心(13,000rpm,10min,室温)以去除不溶性污染物。

添加纯乙酸(Sigma-Aldrich,Steinheim,Germany)至1％v/v的终浓度，并通过在13,000rpm离心10min使杂质沉淀。将含有几乎纯的PA#1(600)多肽的上清液针对100倍体积的1％v/v乙酸在4℃下透析过夜。为了去除残留杂质，使用1％v/v的乙酸作为运行缓冲液，使用与纯化系统连接的1ml Source15S柱(GE Healthcare,Freiburg,Germany)，使透析的蛋白质进行消减阳离子交换层析。

使用高摩尔浓度的Tris缓冲系统(Fling(1986)(见上文))通过SDS-PAGE分析来自每个纯化步骤的样品。在SDS-PAGE之后，首先将凝胶用碘化钡染色，如针对PEG的分析所述(Kurfurst(1992)Anal.Biochem.200:244-248)。简而言之，用水冲洗聚丙烯酰胺凝胶，然后在2.5％w/v BaI₂(碘化钡二水合物；Sigma-Aldrich,Steinheim,Germany)水溶液中孵育5min。在用水冲洗之后，将凝胶转移到Lugol溶液(10％w/v p.a.级KI(AppliChem,Darmstadt,Germany 5％p.a.级I₂(Riedel de Haen AG,Seelze,Germany)于水中)中，保持5min。在10％v/v乙酸中脱色之后，橙色PA#1(600)多肽条带变得可见(图8B)。随后，将凝胶用水脱色并用考马斯亮蓝R250(Applichem)进行第二次染色，溶解于10％乙酸(HoneywellSpecialty Chemicals,Seelze,Germany)、65％H₂O和25％异丙醇(CLN,Niederhummel,Germany)中。在10％v/v乙酸中脱色之后，蓝色蛋白条带(对于宿主细胞蛋白)变得可见(图8C)。

实施例12：纯PA#1(600)多肽的ESI-MS分析

使用2％v/v乙腈，1％v/v甲酸作为运行缓冲液，将200μl浓度为5mg/mL的来自实施例11的分离的PA#1(600)多肽施加至与纯化系统连接的1mL Resource RPC柱(GEHealthcare,Freiburg,Germany)。使用2％v/v乙腈，1％v/v甲酸至80％v/v乙腈，0.1％v/v甲酸的乙腈梯度历经20个柱体积洗脱蛋白质。使用正离子模式在Q-Tof Ultima仪器上经由ESI质谱法直接分析洗脱的蛋白质。PA#1(600)多肽的去卷积谱显示48301.78Da的质量，其基本上与在N-端具有另外的Pro残基并且在C-端具有另外的Ala残基但没有起始甲硫氨酸的PA#1(600)多肽的计算质量(48301.4Da)一致(图8D)。这清楚地显示由遗传稳定的核苷酸序列编码的纯A#1(600)多肽(没有亲和标签)可以在大肠杆菌中以其完整形式产生。

实施例13：编码富含脯氨酸/丙氨酸的氨基酸序列的核苷酸序列的重复分析

作为评估编码富含脯氨酸/丙氨酸的序列的核酸分子在核苷酸序列重复的频率(出现)方面的质量的量度，我们设计了核苷酸重复分数(NRS)，根据以下公式对其进行计算：

在该公式中，N_tot为分析的核苷酸序列的总长度，n为分析的核苷酸序列内序列重复的长度，并且频率f_i(n)为该序列重复的出现次数。如果有具有相同长度n的若干不同的序列重复，则这些不同的序列重复通过指数i区分，并且具有相同长度n的不同序列重复的数目为k(n)。如果仅有长度为n的一种类型的序列重复，则k(n)等于1。NRS被定义为重复长度的平方总和乘以相应整体频率的平方根除以分析的核苷酸序列的总长度。用于计算NRS所考虑的最小重复长度包含4个核苷酸(其包括长于一个密码子三联体的所有核苷酸序列)，并且其范围高达N_tot-1，即在分析的核苷酸序列中可不止一次出现的最长核苷酸序列重复的长度。

在该上下文中，术语“重复”意为核苷酸序列在分析的核苷酸序列内出现至少两次。当计数频率时，我们既考虑了出现至少两次的具有相同序列的核苷酸区段，也考虑了还各自出现至少两次的具有相同长度的不同序列的核苷酸区段。例如，如果14mer重复的整体频率为5，则这可意味着在分析的核苷酸序列中，相同的14mer的核苷酸区段出现5次，或者一种14mer的核苷酸序列出现两次，并且不同的14个核苷酸的序列出现三次。

此外，对较长的核苷酸序列重复内含有的每个较短重复单独计数。例如，如果分析的核苷酸序列含有两个GCACC核苷酸区段(即重复)，则也对GCAC和CACC重复单独计数，而不管它们是否出现在所述GCACC核苷酸区段内，或者可能还出现在分析的核苷酸序列内的其它地方。值得注意的是，仅考虑核酸分子的编码链上的重复。

本领域技术人员可手动或借助通用软件程序，如可在http://www.visualgenedeveloper.net下载获得的Visual Gene Developer(Jung(2011)(见上文))或可在http://zlab.bu.edu/repfind获得的Repfind工具(Betley(2002)loc.cit)来鉴定核苷酸序列重复。然而，并非每种算法都检测每种重复，例如，Visual Gene Developer的结果不包括重叠重复。因此，必须检查软件工具的结果，如果有必要，对其进行手动校正。可选地，实施例14中所述的被称为NRS-计算器的算法可用于明确鉴定核苷酸序列重复并自动计算NRS。

编码富含脯氨酸/丙氨酸的氨基酸序列的天然核酸以及某些合成核酸为本领域已知的。然而，所有那些序列在基因水平上是高度重复的，这从下文所述的NRS分析中变得很明显，因此，它们用于生物技术和/或生物制药应用的用途是有限的。

使用实施例14中所述的NRS-计算器，将编码富含脯氨酸/丙氨酸的氨基酸序列的数个现有技术核苷酸序列与根据本发明的编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核酸分子进行比较：WO 2008/155134中公开的核苷酸序列PAS#1a(200)(SEQ ID NO：11)(图9A)、WO2011144756中公开的核苷酸序列PA#1a(200)(SEQ ID NO：14)(图9B)、US20060252120中公开的编码[(AP)₅]₂₀APA糖模块的核苷酸序列(SEQ ID NO：16)(图9C)、以GenBank登录号DQ399411.1公布的编码糖模块[AAPAPAPAP]₁₀AS的合成基因构建体的核苷酸序列(SEQ ID NO：17)(图9D)、以GenBank登录号NP_851896公布的恒河猴疱疹病毒1的大的被膜蛋白内编码富含脯氨酸/丙氨酸的序列的225个核苷酸的序列(SEQ ID NO：18)(图9E)、根据本发明的低重复核苷酸序列PAS#1b(200)(SEQ ID NO：19)(图9F，G)和根据本发明的低重复核苷酸序列PA#1e/1d/1c/1b(800)(SEQ ID NO：44)(图9H，I)。

使用Kaleidagraph V3.6软件(Synergy Software,Reading,PA)，将计算的重复频率针对各自的重复长度作图(图9)。如通过大量具有宽的重复长度分布(直至非常长的重复)的高柱条所示，现有技术核苷酸序列的所有柱状图显示高度重复性质。值得注意的是，在这些情况下，重复频率随着渐增的重复长度仅缓慢减少(图9A-E)。相比之下，根据本发明的低重复核苷酸序列PAS#1b(200)和PA#1e/1d/1c/1b(800)的柱状图仅显示最大长度为14个核苷酸的一些重复，当从较短重复变至较长重复时，其频率迅速降至零(图9F，G，H，I)。

当比较核苷酸重复分数时，现有技术的核苷酸序列与本发明的低重复核苷酸序列之间重复性的差异甚至变得更加明显。鉴于所有现有技术序列显示大于80000的NRS(表2)，600个核苷酸的序列PAS#1b(200)和2400个核苷酸的序列PA#1e/1d/1c/1b(800)分别显示仅13和14的NRS(表1)。这清楚地显示与现有技术序列相比，根据本发明的编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核苷酸序列的重复质量高得多，具有较少和较短的核苷酸序列重复。

表1：根据本发明的核酸分子的特征

表2：现有技术的核苷酸序列的特征

实施例14：NRS-计算器，一种明确鉴定核苷酸序列重复和计算核苷酸重复分数的算法

通常可用的诸如Visual Gene Developer(Jung(2011)(见上文))或Repfind工具(Betley(2002)(见上文))的软件程序并不非总是可靠地工作，并且可能需要手动校正以正确地计算分析的核苷酸序列内的所有序列重复。另外，必须手动计数重复，并根据实施例13中所述的公式单独计算NRS。为了提供能产生明确结果的算法并促进NRS的计算，此处描述了被称为NRS-计算器的简单Python脚本。在运行环境Python2.7.10(http://www.python.org)上执行的该脚本基于点矩阵序列比较，并鉴定潜在长核苷酸序列内的所有正向重复(包括重叠重复)，而不用考虑空位。点矩阵序列比较为本领域技术人员众所周知的方法，并且描述于常见的生物信息学教科书，如例如，Mount(2004)Bioinformatics：Sequence and Genome Analysis,Cold Spring Harbor Laboratory Press,第2版,NewYork中。

NRS-计算器对每个重复长度的频率进行计数，并根据实施例13中所述的公式自动计算NRS。为执行NRS-计算器脚本，从https://www.python.org/downloads下载运行环境Python 2.7.10版，并将其安装在运行Windows 7操作系统的ThinkPad L530笔记本(Lenovo,Stuttgart,Germany)上。使用Microsoft Windows Editor 6.1版，将下文列出的NRS-计算器脚本保存为命名为NRScalculator.py的纯文本文件。将待分析的核苷酸序列保存为在同一文件夹中的命名为sequence.fas的FASTA文件。随后，打开命令行shell，并选择含有NRScalculator.py和sequence.fas文件的目录。为开始计算，执行下述命令行：

c:\user\admin\NRSfolder>c:\Python27\python.exeNRScalculator.pysequence.fas

该命令产生两行的屏幕输出：左行表示重复长度(长度)，并且右(第二)行表明各自的重复频率(频率)。另外，在输出的开始和结尾分别陈述N_tot和NRS(数字四舍五入为整数)。

NRS-计算器脚本：

来自NRS-计算器的示例性输出：

>PAS#1b(200)：Ntot＝600

NRS＝13

实施例15：用于细菌产生治疗性PA#1(600)-IL1Ra融合蛋白的遗传稳定的表达载体pASK75-PA#1d/1c/1b(600)-IL1Ra的构建

为了构建编码与600个残基的PAS#1氨基酸重复序列融合的白细胞介素-1受体拮抗剂(IL-1Ra)的表达质粒，用SapI切断载体pASK75-IL1Ra(图4A)，用虾碱性磷酸酶(ThermoFisher Scientific,Waltham,MA)去磷酸化，以及将其与对应于编码600个残基的PAS#1多肽的低重复核苷酸序列盒的DNA片段连接，该DNA片段通过用SapI限制性消化从质粒pXL1-PA#1d/1c/1b(600)(SEQ ID NO:79)中切除。在转化大肠杆菌XL1-Blue(Bullock(1987)(见上文))之后，制备质粒DNA，并通过限制性分析和DNA测序确认插入的DNA片段的存在。所得的质粒被命名为pASK75-PA#1d/1c/1b(600)-IL1Ra(SEQ ID NO:77)，并且显示在图10中。

实施例16：具有编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核酸分子PA#1d/1c/1b(600)的质粒pASK75-PA#1b/1c/1b(600)-IL1Ra的长期遗传稳定性测试

将质粒pASK75-PA#1d/1c/1b(600)-IL1Ra(SEQ ID NO:77)的遗传稳定性与pASK75-PA#1a(600)-IL1Ra(SEQ ID NO:78)(其中PA#1d/1c/1b(600)DNA盒被重复核酸PA#1a(600)(SEQ ID NO:80)代替的衍生物)的遗传稳定性进行比较。为此，使用氯化钙方法(Sambrook(2001)(见上文))用相应质粒转化大肠杆菌JM83(Yanisch-Perron C.(1985)(见上文))，以及在100mL摇瓶中，在补充有100mg/L氨苄青霉素的50ml Luria Bertani(LB)培养基中，在37℃，170rpm培养7天，而不诱导基因表达。在此期间，使用1:1000的稀释度，将细菌细胞每天两次(在早上和晚上)转移至新鲜培养基中。在第7天，在历经大约70代的连续生长之后，培养物最终生长至稳定期，并将细胞铺板在LB/Amp琼脂上。然后，针对两种质粒中的每一种，挑取10个单独的菌落，每个用于LB/Amp培养基中的50mL培养物的接种，在过夜生长至稳定期之后，使用Qiagen Miniprep试剂盒(Qiagen,Hilden,Germany)制备质粒DNA，并经由XbaI/HindIII限制性消化来分析(图11)。

在10个分析的pASK75-PA#1a(600)-IL1Ra克隆中，仅有6个显示出对应于3093bp和2377bp的预期条带(图11A，泳道1、3、4、5、7和8)。四个克隆显示出显著缩短的DNA片段(图11A，泳道2、6、9和10)，表明重复PA#1a(600)序列盒内的缺失，因此表明遗传不稳定。相比之下，所有十个分析的pASK75-PA#1d/1c/1b(600)-IL1Ra克隆在3093bp和2377bp处显示出预期条带(图11B，泳道1–10)，表明完整的编码富含脯氨酸/丙氨酸的氨基酸重复序列的基因盒，因此表明了根据本发明的低重复核酸分子的高的遗传质粒稳定性。

实施例17：用于细菌产生与富含脯氨酸/丙氨酸的氨基酸重复序列融合的人瘦蛋白的遗传稳定的表达载体的构建。

为了构建编码N-端融合了600个残基的PA#1氨基酸重复序列(SEQ ID NO：82)的人瘦蛋白的表达质粒，用SapI切断载体pASK37-MP-人瘦蛋白(图12A)(SEQ ID NO：81)，这导致含有两个SapI识别位点的小的(24bp)DNA插入物的切除以及具有正好位于编码的成熟人瘦蛋白的N-端的上游位置处的相容性5'-GCC/5’-GGC粘末端的切割的载体骨架。这些粘末端非常适于在N-端起始甲硫氨酸密码子(ATG)，随后为脯氨酸密码子CCA(发现其允许有效的翻译起始)的正下游的位置处插入编码富含脯氨酸/丙氨酸的氨基酸重复序列的低重复核苷酸序列。使用QIAquick凝胶提取试剂盒(Qiagen,Hilden,Germany)分离载体片段以及使用热敏碱性磷酸酶FastAP(Thermo Fisher Scientific,Waltham,MA)去磷酸化(二者均根据制造商的说明书)之后，将质粒与通过用SapI限制性消化从质粒pXL1-PA#1d/1c/1b(600)(SEQ ID NO：79)切除的对应于编码600个残基的PA#1多肽的低重复核苷酸序列盒的DNA片段连接。在转化大肠杆菌XL1-Blue(Bullock(1987)(见上文))之后，制备质粒DNA，并通过限制性分析和DNA测序确认插入的DNA片段的存在。所得的质粒被命名为pASK37-MP-PA#1d/1c/1b(600)-人瘦蛋白(SEQ ID NO：82)，并描述在图12B中。以相同的方式，通过将从pXL1-PAS#1f/1c/1b(SEQ ID No：84)切除的低重复核苷酸序列PAS#1f/1c/1b(SEQ ID No：38)插入质粒pASK37-MP-人瘦蛋白(图12A)(SEQ ID NO：81)来构建pASK37-MP-PAS#1f/1c/1b(600)-人瘦蛋白(SEQ ID NO：83)，其为图12C中所示的编码N-端融合有600个残基的PAS#1氨基酸重复序列的人瘦蛋白的表达质粒。类似的克隆策略可用于构建具有C-端融合的富含脯氨酸/丙氨酸的氨基酸重复序列的瘦蛋白形式。

实施例18：在遗传稳定的质粒pASK37-PA#1d/1c/1b(600)人瘦蛋白(W100Q)上编码的富含脯氨酸/丙氨酸的氨基酸重复序列与人瘦蛋白突变体之间的融合蛋白的细菌产生、纯化和表征

在30℃，在Origami B(Novagene/Merck Millipore,Billerica,MA)的细胞质中产生人瘦蛋白突变体(成熟氨基酸序列(UniProtKB登录编码P41159)的第100位的色氨酸置换为谷氨酰胺)与富含脯氨酸/丙氨酸的氨基酸重复序列PA#1(600)之间的融合蛋白PA#1(600)-人瘦蛋白(W100Q)(SEQ ID NO：85)(计算的质量：64.25kDa)，所述Origami B为一种大肠杆菌菌株，其具有由于trxB、gor和ahpC突变而引起的氧化细胞质(Bessette(1999)Proc.Natl.Acad.Sci.USA 96:13703-13708)。为此，用转化有遗传稳定的表达质粒pASK37-MP-PA#1d/1c/1b(600)-huLep(W100Q)(SEQ ID NO：86)的大肠杆菌Origami B的菌落接种在无菌的13mL聚丙烯管(Sarstedt,Nümbrecht,Germany)中的补充有1％w/v D-葡萄糖和100mg/L氨苄青霉素的4ml LB培养基。使细菌细胞在30℃在170rpm的摇床上生长过夜。

在30℃，在具有补充了2.5g/L D-葡萄糖和100mg/L氨苄青霉素的2L超级肉汤(TB)培养基(Sambrook(2001)(见上文))的5L挡板烧瓶(baffle flask)中进行细菌蛋白质产生，所述培养基接种有2ml大肠杆菌过夜培养物。细菌细胞在30℃生长，并通过添加异丙基-β-D-硫代半乳糖苷(IPTG)至0.5mM的终浓度在OD₅₅₀＝0.85时诱导重组基因表达。在诱导之后19h收获细菌，每1g细菌细胞湿重重悬于3ml PBS/E(补充有10mM EDTA的PBS)并使用Panda细胞匀浆器(GEA,Parma,Italy)裂解。在离心(20,000rpm,30min,4℃)裂解物之后，未观察到包涵体。将1mM 2,2'-二硫代联吡啶添加至上清液中以促进重组瘦蛋白中的二硫键形成。将含有可溶性瘦蛋白融合蛋白的上清液针对100倍体积的PBS在4℃透析过夜。随后，在室温下，通过在连续搅拌下逐滴添加4M(NH₄)₂SO₄(溶解于水中)直至达到1M(NH₄)₂SO₄的终浓度，沉淀融合蛋白。在室温下，在17,000rpm离心20min之后，将含有沉淀的PA#1(600)-人瘦蛋白(W100/Q)融合蛋白的沉淀物溶解于PBS中，并将溶液离心(13,000rpm,10min,室温)以去除不溶的污染物。

将PA#1(600)-人瘦蛋白(W100Q)融合蛋白针对5L 20mM Tris/HCl pH 8.5在4℃透析两次，每次持续至少6h。然后，使用20mM Tris/HCl pH 8.5作为运行缓冲液，使用与纯化系统(GE Healthcare,Freiburg,Germany)连接的6ml ResourceQ柱(GE Healthcare,Freiburg,Germany)，对蛋白质溶液进行阴离子交换层析。随后，使用NaCl浓度梯度洗脱融合蛋白。收集洗脱的级分，并使用用PBS平衡的Superdex 200HR10/300柱(GE Healthcare,Freiburg,Germany)经由尺寸排阻层析进一步纯化。

通过该程序，获得了终产量为0.8mg/L细菌培养物的没有聚集迹象的均质蛋白质制备物。使用8605M^-1cm^-1的计算的消光系数(Gill(1989)(见上文))，通过测量280nm处的吸收来测定蛋白质浓度。使用10％高摩尔浓度的Tris缓冲系统进行SDS-PAGE(Fling(1986)(见上文))(图13A)。将洗脱的蛋白质针对10000倍体积的10mM乙酸铵，pH 5.5透析两次，并使用正离子模式在maXis Q-TOF仪器(Bruker Daltonics,Bremen,Germany)上经由ESI质谱法进行分析。PA#1(600)-人瘦蛋白(W100Q)的去卷积谱显示64249.53Da的质量(图13B)，其基本上与该融合蛋白的计算质量(64249.80Da)一致。这清楚地显示由根据本发明的遗传稳定的低重复核酸分子编码的PA#1(600)-人瘦蛋白(W100Q)融合蛋白可在大肠杆菌中以其完整形式产生。

Claims

其中所述核酸的核苷酸序列的长度为至少300个核苷酸，

其中所述核苷酸序列具有低于50,000的核苷酸重复分数(NRS)，

其中根据以下公式确定所述核苷酸重复分数(NRS)：

其中

N_tot为所述核苷酸序列的长度，

n为所述核苷酸序列内的重复的长度，以及

f_i(n)是长度为n的所述重复的频率，

2.如权利要求1所述的核酸分子，其中所述编码的多肽由脯氨酸和丙氨酸组成。

3.如权利要求2所述的核酸分子，其中所述脯氨酸残基占所述编码的多肽的大于约10％且小于约75％。

4.如权利要求1所述的核酸分子，其中所述编码的多肽由脯氨酸、丙氨酸和丝氨酸组成。

5.如权利要求4所述的核酸分子，其中所述脯氨酸残基占所述编码的多肽的大于4％且小于40％。

6.如权利要求1至5中任一项所述的核酸分子，其中所述核苷酸重复分数(NRS)低于100。

7.如权利要求1至6中任一项所述的核酸分子，其中所述核苷酸重复分数(NRS)低于50。

8.如权利要求1至7中任一项所述的核酸分子，其中所述核苷酸重复分数(NRS)低于35。

9.如权利要求1至8中任一项所述的核酸分子，其中所述核酸的核苷酸序列的长度为至少900个核苷酸。

10.如权利要求1至9中任一项所述的核酸分子，其中所述核酸分子具有增强的遗传稳定性。

11.如权利要求1至10中任一项所述的核酸分子，其中所述核苷酸序列包含所述重复，其中所述重复具有最大长度n_max，其中根据以下公式确定n_max：

并且其中N_tot为所述核苷酸序列的长度。

12.如权利要求1至11中任一项所述的核酸分子，其中所述重复具有约14、15、16或17个核苷酸至约55个核苷酸的最大长度。

13.如权利要求1至12中任一项所述的核酸分子，其中所述编码的多肽包含具有多个氨基酸重复的重复氨基酸序列，其中不超过9个连续氨基酸残基为相同的，并且其中所述多肽形成无规卷曲。

14.如权利要求1至3和6至13中任一项所述的核酸分子，其中所述核酸分子选自：

(a)包含选自以下的至少一个核苷酸序列的核酸分子：SEQ ID NO：28、SEQ ID NO：29、SEQ ID NO：30、SEQ ID NO：31、SEQ ID NO：32、SEQ ID NO：33、SEQ ID NO：34、SEQ ID NO：35、SEQ ID NO：36、SEQ ID NO：37、SEQ ID NO：87、SEQ ID NO：88、SEQ ID NO：89、SEQ IDNO：90、SEQ ID NO：91、SEQ ID NO：92、SEQ ID NO：93、SEQ ID NO：94、SEQ ID NO：95、SEQ IDNO：96、SEQ ID NO：97、SEQ ID NO：98、SEQ ID NO：99、SEQ ID NO：100、SEQ ID NO：101、SEQID NO：102、SEQ ID NO：103、SEQ ID NO：104、SEQ ID NO：105、SEQ ID NO：106、SEQ ID NO：107、SEQ ID NO：108、SEQ ID NO：109、SEQ ID NO：110、SEQ ID NO：111、SEQ ID NO：112、SEQID NO：113、SEQ ID NO：114、SEQ ID NO：115、SEQ ID NO：116、SEQ ID NO：117、SEQ ID NO：118、SEQ ID NO：119、SEQ ID NO：120、SEQ ID NO：121、SEQ ID NO：122、SEQ ID NO：192和SEQ ID NO：193；

(b)包含由以下组成的核苷酸序列的核酸分子：SEQ ID NO：42、SEQ ID NO：43、SEQ IDNO：44、SEQ ID NO：45、SEQ ID NO：153、SEQ ID NO：154、SEQ ID NO：155、SEQ ID NO：156、SEQ ID NO：157、SEQ ID NO：158、SEQ ID NO：159、SEQ ID NO：160、SEQ ID NO：161、SEQ IDNO：162、SEQ ID NO：163、SEQ ID NO：164、SEQ ID NO：165、SEQ ID NO：166、SEQ ID NO：167、SEQ ID NO：168、SEQ ID NO：169、SEQ ID NO：170、SEQ ID NO：171、SEQ ID NO：172和/或SEQID NO：173；

15.如权利要求1和4至13中任一项所述的核酸分子，其中所述核酸分子选自：

(a)包含选自以下的至少一个核苷酸序列的核酸分子：SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ ID NO：22、SEQ ID NO：23、SEQ ID NO：24、SEQ ID NO：25、SEQ ID NO：26、SEQ ID NO：27、SEQ ID NO：123、SEQ ID NO：124、SEQ ID NO：125、SEQ ID NO：126、SEQID NO：127、SEQ ID NO：128、SEQ ID NO：129、SEQ ID NO：130、SEQ ID NO：131、SEQ ID NO：132、SEQ ID NO：133、SEQ ID NO：134、SEQ ID NO：135、SEQ ID NO：136、SEQ ID NO：137、SEQID NO：138、SEQ ID NO：139、SEQ ID NO：140、SEQ ID NO：141、SEQ ID NO：142、SEQ ID NO：143、SEQ ID NO：144、SEQ ID NO：145、SEQ ID NO：146、SEQ ID NO：147、SEQ ID NO：148、SEQID NO：149、SEQ ID NO：150、SEQ ID NO：151、SEQ ID NO：152、SEQ ID NO：194和SEQ ID NO：195；

(b)包含选自以下的核苷酸序列的核酸分子：SEQ ID NO：38、SEQ ID NO：39、SEQ IDNO：40、SEQ ID NO：41、SEQ ID NO：174、SEQ ID NO：175、SEQ ID NO：176、SEQ ID NO：177、SEQ ID NO：178、SEQ ID NO：179、SEQ ID NO：180、SEQ ID NO：181、SEQ ID NO：182、SEQ IDNO：184、SEQ ID NO：185、SEQ ID NO：186、SEQ ID NO：187、SEQ ID NO：188、SEQ ID NO：189、SEQ ID NO：190和SEQ ID NO：191；

(d)包含与(a)、(b)和(c)中任一项所限定的核苷酸序列具有至少56％同一性的核苷酸序列的核酸分子；以及

16.如权利要求1至15中任一项所述的核酸分子，其与编码生物学活性蛋白的核酸可操作地连接在同一阅读框中。

17.如权利要求16所述的核酸分子，其中所述生物学活性蛋白为治疗有效蛋白。

18.如权利要求16或17所述的核酸分子，其中所述生物学活性蛋白选自结合蛋白、抗体片段、细胞因子、生长因子、激素、酶、蛋白疫苗、肽疫苗、由多达50个氨基酸残基组成的肽或肽模拟物。

19.如权利要求18所述的核酸分子，其中所述结合蛋白选自抗体、Fab片段、Fab′片段、F(ab′)₂片段、单链可变片段(scFv)、(单)域抗体、抗体的分离的可变区(VL和/或VH区)、CDR、免疫球蛋白结构域、CDR-衍生的肽模拟物、凝集素、蛋白支架、纤连蛋白结构域、腱生蛋白结构域、蛋白A结构域、SH3结构域、锚蛋白重复结构域和脂质运载蛋白。

20.如权利要求16至18中任一项所述的核酸分子，其中所述生物学活性蛋白选自白细胞介素1受体拮抗剂、瘦蛋白、酸性鞘磷脂酶、腺苷脱氨酶、α-半乳糖苷酶、α-1抗胰蛋白酶、α心房利钠肽、α-半乳糖苷酶、α-葡糖苷酶、α-N-乙酰氨基葡萄糖苷酶、阿替普酶、安地普酶、糊精、糊精类似物、抗-HIV肽融合抑制剂、精氨酸脱亚胺酶、天冬酰胺酶、B结构域缺失的因子VIII、骨形态发生蛋白、缓激肽拮抗剂、B型利钠肽、Bouganin、生长激素、绒毛膜促性腺激素、CD3受体拮抗剂、CD19拮抗剂、CD20拮抗剂、CD40拮抗剂、CD40L拮抗剂、脑苷脂硫酸酯酶、凝血因子VIIa、凝血因子XIII、凝血因子IX、凝血因子X、补体成分C3抑制剂、补体成分5a拮抗剂、C-肽、CTLA-4拮抗剂、C-型利钠肽、防御素、脱氧核糖核酸酶I、EGFR受体拮抗剂、表皮生长因子、红细胞生成素、艾塞那肽-4、埃兹蛋白肽1、FcγIIB受体拮抗剂、成纤维细胞生长因子21、促卵泡激素、抑胃多肽(GIP)、GIP类似物、胰高血糖素、胰高血糖素受体激动剂、胰高血糖素样肽1(GLP-1)、GLP-1类似物、胰高血糖素样肽2(GLP-2)、GLP-2类似物、戈那瑞林、促性腺素释放激素激动剂、促性腺素释放激素拮抗剂、gp120、gp160、粒细胞集落刺激因子(G-CSF)、粒细胞巨噬细胞集落刺激因子(GM-CSF)、饥饿素、饥饿素类似物、生长激素、生长激素释放激素、Hematide、肝细胞生长因子、肝细胞生长因子受体(HGFR)拮抗剂、铁调素拮抗剂、铁调素模拟物、Her2/neu受体拮抗剂、组氨瑞林、水蛭素、hsp70拮抗剂、Humanin、透明质酸酶、水解溶酶体葡糖脑苷脂特异性酶、艾杜糖醛酸-2-硫酸酯酶、IgE拮抗剂、胰岛素、胰岛素类似物、胰岛素样生长因子1、胰岛素样生长因子2、干扰素-α、干扰素-α拮抗剂、干扰素-α超级激动剂、干扰素-α-n3、干扰素-β、干扰素-γ、干扰素-λ、干扰素τ、白细胞介素、白细胞介素2融合蛋白、白细胞介素-22受体亚基α(IL-22ra)拮抗剂、鸢尾素、胰岛新生相关蛋白、角质细胞生长因子、Kv1.3离子通道拮抗剂、羊毛硫肽类化合物、脂肪酶、黄体化激素、促黄体素α、溶葡球菌酶、甘露糖苷酶、N-乙酰半乳糖胺-6-硫酸酯酶、N-乙酰氨基葡萄糖苷酶、中性粒细胞明胶酶相关脂质运载蛋白、奥曲肽、ω-芋螺毒素、毛白钝缘蜱补体抑制剂、成骨蛋白-1、护骨素、草酸脱羧酶、P128、甲状旁腺激素、Phylomer、PD-1拮抗剂、PDGF拮抗剂、苯丙氨酸解氨酶、血小板衍生生长因子、胰岛素原、蛋白质C、松弛素、松弛素类似物、分泌素、RGD肽、核糖核酸酶、森瑞博特酶、丝氨酸蛋白酶抑制剂、可溶性1型补体受体、可溶性DCC受体、可溶性TACI受体、可溶性肿瘤坏死因子受体I(sTNF-RI)、可溶性肿瘤坏死因子受体II(sTNF-RII)、可溶性VEGF受体Flt-1、可溶性FcγIIB受体、生长抑素、生长抑素类似物、链激酶、T-细胞受体配体、替奈普酶、特立帕肽、血栓调节蛋白α、胸腺素α1、toll样受体抑制剂、肿瘤坏死因子(TNFα)、肿瘤坏死因子α拮抗剂、尿酸酶、血管活性肠肽、加压素、加压素类似物、VEGF拮抗剂、血管性血友病因子。

21.载体，其包含权利要求1至20中任一项所述的核酸分子。

22.包含权利要求1至20中任一项所述的核酸分子的宿主或宿主细胞，包含权利要求21所述的载体的宿主或宿主细胞或者转化有权利要求21所述的载体的宿主或宿主细胞。

23.制备权利要求1至20中任一项所述的核酸分子的方法，其中所述方法包括培养权利要求22所述的宿主或宿主细胞，以及任选地分离所产生的核酸分子。

24.制备权利要求21所述的载体的方法，其中所述方法包括培养权利要求22所述的宿主或宿主细胞，以及任选地分离所产生的载体。

25.制备由权利要求1至20中任一项所述的核酸分子编码的多肽的方法，其中所述方法包括培养/饲养权利要求22所述的宿主或宿主细胞，以及任选地分离所产生的多肽。

26.制备药物缀合物的方法，其中所述药物缀合物包含由权利要求1至15中任一项所述的核酸分子编码的多肽，并且还包含(i)生物学活性蛋白和/或(ii)小分子和/或(iii)碳水化合物，其中所述方法还包括培养权利要求22所述的宿主或宿主细胞，以及任选地分离所产生的多肽和/或药物缀合物。

27.如权利要求26所述的制备药物缀合物的方法，其中所述生物学活性蛋白为治疗有效蛋白。

28.如权利要求26或27所述的制备药物缀合物的方法，其中所述生物学活性蛋白选自结合蛋白、抗体片段、细胞因子、生长因子、激素、酶、蛋白疫苗、肽疫苗、由多达50个氨基酸残基组成的肽或肽模拟物。

29.如权利要求28所述的制备药物缀合物的方法，其中所述结合蛋白选自抗体、Fab片段、Fab′片段、F(ab′)₂片段、单链可变片段(scFv)、(单)域抗体、抗体的分离的可变区(VL和/或VH区)、CDR、免疫球蛋白结构域、CDR-衍生的肽模拟物、凝集素、蛋白支架、纤连蛋白结构域、腱生蛋白结构域、蛋白A结构域、SH3结构域、锚蛋白重复结构域和脂质运载蛋白。

30.如权利要求26至28中任一项所述的制备药物缀合物的方法，其中所述生物学活性蛋白选自白细胞介素1受体拮抗剂、瘦蛋白、酸性鞘磷脂酶、腺苷脱氨酶、α-半乳糖苷酶、α-1抗胰蛋白酶、α心房利钠肽、α-半乳糖苷酶、α-葡糖苷酶、α-N-乙酰氨基葡萄糖苷酶、阿替普酶、安地普酶、糊精、糊精类似物、抗-HIV肽融合抑制剂、精氨酸脱亚胺酶、天冬酰胺酶、B结构域缺失的因子VIII、骨形态发生蛋白、缓激肽拮抗剂、B型利钠肽、Bouganin、生长激素、绒毛膜促性腺激素、CD3受体拮抗剂、CD19拮抗剂、CD20拮抗剂、CD40拮抗剂、CD40L拮抗剂、脑苷脂硫酸酯酶、凝血因子VIIa、凝血因子XIII、凝血因子IX、凝血因子X、补体成分C3抑制剂、补体成分5a拮抗剂、C-肽、CTLA-4拮抗剂、C-型利钠肽、防御素、脱氧核糖核酸酶I、EGFR受体拮抗剂、表皮生长因子、红细胞生成素、艾塞那肽-4、埃兹蛋白肽1、FcγIIB受体拮抗剂、成纤维细胞生长因子21、促卵泡激素、抑胃多肽(GIP)、GIP类似物、胰高血糖素、胰高血糖素受体激动剂、胰高血糖素样肽1(GLP-1)、GLP-1类似物、胰高血糖素样肽2(GLP-2)、GLP-2类似物、戈那瑞林、促性腺素释放激素激动剂、促性腺素释放激素拮抗剂、gp120、gp160、粒细胞集落刺激因子(G-CSF)、粒细胞巨噬细胞集落刺激因子(GM-CSF)、饥饿素、饥饿素类似物、生长激素、生长激素释放激素、Hematide、肝细胞生长因子、肝细胞生长因子受体(HGFR)拮抗剂、铁调素拮抗剂、铁调素模拟物、Her2/neu受体拮抗剂、组氨瑞林、水蛭素、hsp70拮抗剂、Humanin、透明质酸酶、水解溶酶体葡糖脑苷脂特异性酶、艾杜糖醛酸-2-硫酸酯酶、IgE拮抗剂、胰岛素、胰岛素类似物、胰岛素样生长因子1、胰岛素样生长因子2、干扰素-α、干扰素-α拮抗剂、干扰素-α超级激动剂、干扰素-α-n3、干扰素-β、干扰素-γ、干扰素-λ、干扰素τ、白细胞介素、白细胞介素2融合蛋白、白细胞介素-22受体亚基α(IL-22ra)拮抗剂、鸢尾素、胰岛新生相关蛋白、角质细胞生长因子、Kv1.3离子通道拮抗剂、羊毛硫肽类化合物、脂肪酶、黄体化激素、促黄体素α、溶葡球菌酶、甘露糖苷酶、N-乙酰半乳糖胺-6-硫酸酯酶、N-乙酰氨基葡萄糖苷酶、中性粒细胞明胶酶相关脂质运载蛋白、奥曲肽、ω-芋螺毒素、毛白钝缘蜱补体抑制剂、成骨蛋白-1、护骨素、草酸脱羧酶、P128、甲状旁腺激素、Phylomer、PD-1拮抗剂、PDGF拮抗剂、苯丙氨酸解氨酶、血小板衍生生长因子、胰岛素原、蛋白质C、松弛素、松弛素类似物、分泌素、RGD肽、核糖核酸酶、森瑞博特酶、丝氨酸蛋白酶抑制剂、可溶性1型补体受体、可溶性DCC受体、可溶性TACI受体、可溶性肿瘤坏死因子受体I(sTNF-RI)、可溶性肿瘤坏死因子受体II(sTNF-RII)、可溶性VEGF受体Flt-1、可溶性FcγIIB受体、生长抑素、生长抑素类似物、链激酶、T-细胞受体配体、替奈普酶、特立帕肽、血栓调节蛋白α、胸腺素α1、toll样受体抑制剂、肿瘤坏死因子(TNFα)、肿瘤坏死因子α拮抗剂、尿酸酶、血管活性肠肽、加压素、加压素类似物、VEGF拮抗剂、血管性血友病因子。

31.如权利要求26至30中任一项所述的制备药物缀合物的方法，其中所述小分子选自血管生成抑制剂、抗过敏药物、止吐药物、抗抑郁药物、抗高血压药物、抗炎药物、抗感染药物、抗精神病药物、抗增殖(细胞毒性和细胞抑制)药物、钙拮抗剂和其它循环器官药物、胆碱能激动剂、作用于中枢神经系统的药物、作用于呼吸系统的药物、激素、类固醇、聚酮、碳水化合物、寡糖、核酸、核酸衍生物、反义核酸、小干扰RNA(siRNA)、微RNA(miR)抑制剂、微RNA模拟物、DNA适配子和RNA适配子。

32.对权利要求1至20中任一项所述的核酸分子进行测序的方法。

33.扩增权利要求1至20中任一项所述的核酸分子的方法。

34.克隆权利要求1至20中任一项所述的核酸分子的方法。

35.选择遗传稳定的核酸分子的方法，其中所述核酸分子包含编码由脯氨酸、丙氨酸和任选的丝氨酸组成的多肽的核苷酸序列，其中所述核苷酸序列的长度为至少300个核苷酸，

其中根据以下公式确定所述核苷酸重复分数(NRS)：

其中：

N_tot为所述核苷酸序列的长度，

n为所述核苷酸序列内的重复的长度，以及

f_i(n)是长度为n的所述重复的频率，