CN1390937A

CN1390937A - 按植物偏爱密码子设计合成的蜘蛛丝蛋白基因及其应用

Info

Publication number: CN1390937A
Application number: CN 02111492
Authority: CN
Inventors: 唐克轩; 左开井; 孙小芬
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2002-04-25
Filing date: 2002-04-25
Publication date: 2003-01-15

Abstract

本发明提供了一种按植物偏爱密码子设计合成的具有在植物纤维组织中高效表达的蜘蛛丝晶体蛋白基因及其应用。该合成基因编码具有野生型蜘蛛丝晶体蛋白活性的多肽的核苷酸序列，而且所述的核苷酸序列与SEQ ID N0.1中从核苷酸第78－2038位或者与SEQ ID NO.3中从核苷酸第78－2000位的核苷酸序列有至少75％的同源性。本发明涉及所说基因的表达载体及其转化的植物细胞，以及由转化细胞产生的转基因植物及其后代。本发明将所说基因在纤维植物中高效表达，所获得的蛋白质分子与植物的纤维素相互结合后具有显著增强植物纤维强度的特性，形成的复合植物纤维可以用于纺织工业的生产，具有广阔的应用前景。

Description

按植物偏爱密码子设计合成的蜘蛛丝蛋白基因及其应用

技术领域：

本发明涉及一种按植物偏爱密码子设计合成的蜘蛛丝蛋白基因及其应用，将这种具有天然蜘蛛丝蛋白相同强度的复合蜘蛛丝蛋白及其编码序列在纤维植物中高效表达，所获得的蛋白质分子与植物的纤维素相互结合后具有显著增强植物纤维强度的特性，形成的复合植物纤维可以用于纺织工业的生产。本发明涉及分子生物学以及基因工程等技术领域。

背景技术：

长期的研究发现，蜘蛛能够产生具有极高的抗张强力网和拖丝。由于蜘蛛丝具有极高的抗张强力(比蚕丝高数倍，比钢强5倍)，比Kevlar(9.5×10⁴/3×10⁴JKg^-1)强数倍，因而蜘蛛丝可以作为帆、降落伞、防护服和需要强力丝线的其它用途的材料。目前从理论上大规模生产蜘蛛丝蛋白可以具有以下几种途径：1)通过提取蜘蛛体内的总蛋白获得蜘蛛丝蛋白。由于蜘蛛在高密度养殖的条件下，蜘蛛之间的相互残杀习性导致大规模养殖蜘蛛的成本十分昂贵。同时由于每一个蜘蛛所产生的蛋白质只能够达到微克量级，所以利用该方法大规模生产商业蜘蛛丝蛋白完全不可能。2)利用重组动物细胞和微生物的方法生产蜘蛛丝蛋白(AnthoulaLazaris etc..Science，2002，95(18)：472-476)。由于该方法获得的蜘蛛丝蛋白必须经过提取加工等过程，同时存在着部分的蛋白质不能溶解等原因，获得的蜘蛛丝蛋白必须经过额外的多种加工工序，才能用于工业纺织等用途(科斯塔斯.N.卡拉察斯等，中国发明专利C12N15/11 A01K 67/027)。此外，即使利用重组动物细胞的方法得到大量蜘蛛丝蛋白，但由于在加工过程中残留各种合成化学组分而导致部分人群的皮肤过敏。

发明内容：

本发明的目的在于针对现有技术的不足，提供一种按植物偏爱密码子设计合成的蜘蛛丝蛋白基因，并利用基因工程的办法，将蜘蛛丝蛋白的高强度以及植物纤维纯天然的特性相结合，生产出具有高强度的蜘蛛丝蛋白天然复合纤维，使之更具有实用价值和经济价值。

为实现这样的目的，本发明根据公开发表的蜘蛛丝蛋白的核酸序列，按照植物偏爱密码子的优先结构，设计并通过化学方法人工合成了复合型蜘蛛丝蛋白基因。这种人工合成的DNA分子，编码具有与不同野生型蜘蛛丝分泌的晶体蛋白相同功能的复合型核苷酸序列。这种编码具有蜘蛛丝晶体蛋白活性的多肽的核苷酸序列，具有SEQ ID NO.1中从核苷酸第78-2038位的核苷酸序列或者具有SEQ ID NO.3中从核苷酸第78-2000位的核苷酸序列，至少与SEQ IDNO.1中从核苷酸第78-2038位或者与SEQ ID NO.3中从核苷酸第78-2000位的核苷酸序列有75％的同源性，或者能在中度严谨条件下与SEQ ID NO.1中从核苷酸第78-2038位或者与SEQ IDNO.3中从核苷酸第78-2000位的核苷酸序列杂交。

本发明的复合型蜘蛛丝蛋白基因，核苷酸序列编码具有SEQ ID NO.2所示的氨基酸序列的多肽或者编码具有SEQ ID NO.4所示的氨基酸序列的多肽，或其保守性变异多肽、或其活性片段，或其活性衍生物。

本发明的复合型蜘蛛丝蛋白基因按如下植物偏爱密码子对照表的优先结构设计：

氨基酸	代码	植物	氨基酸	代码	植物
氨基酸	代码	植物	氨基酸	代码	植物	Gly	G	GGA	Cys	C	TGC
Glu	E	GAG	Tyr	Y	TAC	Gly	G	GGA	Cys	C	TGC
Glu	E	GAG	Tyr	Y	TAC	Asp	D	GAT/GAC	Leu	L	CTT
Val	V	GTT	Pro	P	CCA	Asp	D	GAT/GAC	Leu	L	CTT
Val	V	GTT	Pro	P	CCA	Ala	A	GCT	Phe	F	TTC
Arg	R	AGG	His	H	CAC	Ala	A	GCT	Phe	F	TTC
Arg	R	AGG	His	H	CAC	Ser	S	TCT	Gln	Q	CAA
Lys	K	AAG	Ile	I	ATC	Ser	S	TCT	Gln	Q	CAA
Lys	K	AAG	Ile	I	ATC	Asn	N	AAC	Thr	T	ACC
Met	M	ATG	Trp	W	TGG	Asn	N	AAC	Thr	T	ACC
Met	M	ATG	Trp	W	TGG	End		TAA/TGA/TAG

本发明涉及的序列及记号分列如下：SEQ ID NO.1的信息

(i)序列特征：

(A)长度：2038bp

(B)类型：核苷酸

(C)链性：单链

(D)拓扑结构：线性(ii).分子类型：核苷酸(iii).序列描述：SEQ ID NO.11 ctaaggatcc cattgccggc cgccatgaga gctctcgctc tcgcggtggt ggccatggcg61 gtggtggccg tgcgcggcgc tgctgctgct gctgctgctg gaggagctgg acaaggagga121 tacggaggac ttggatctca aggagctgga aggggaggac aaggagcagg agctgccgct181 gctgctgccg gaggagctgg acaaggagga tacggaggac ttggatctca aggtgctgga241 aggggaggac ttggtggaca aggtgccggt gccgccgccg ccgccgccgc tggaggagcc301 ggacaaggag gacttggagg acaaggagct ggacaaggag ctggagctgc cgctgctgct361 gctggaggag ccggacaagg aggatacgga ggacttggat ctcaaggagc tggaagggga421 ggacaaggag ccggagctgc cgctgctgct gccggaggag ctggacaagg aggatacgga481 ggacaaggag ccggacaagg aggatacgga ggacttggat ctcaaggagc tggaagggga541 ggacttggag gacaaggagc tggagctgct gctgctgctg ctgctggagg agccggacaa601 ggaggacttg gaggacaagg agctggacaa ggagctggag ctgccgctgc tgctgctgga661 ggagccggac aaggaggata cggaggactt ggatctcaag gagctggaag gggaggatct721 ggaggacaag gagctggagc tgctgctgct gctgctggag gagccggaca aggaggatac781 ggaggacttg gatctcaagg agctggaagg ggaggacttg gaggacaagg agctggagct841 gctgctgctg ctgctgctgg aggagctgga caaggaggat acggaggact tggaggacaa901 ggagccggac aaggaggcta cggaggactt ggatctcaag gagccggaag gggaggactt961 ggaggacaag gagctggagc tgctgctgct gctgctgctg gaggaggagg acaaggagga1021 cttggaggac aaggagctgg acaaggagct ggagctgccg ctgctgctgc tggaggagcc1081 ggacaaggag gatacggagg acttggaaac caaggagctg gaaggggagg acaaggagct1141 ggagctgctg ctgctgctgc tggaggagct ggacaaggag gatacggagg acttggatct1201 caaggagctg gaaggggagg acttggagga caaggagctg gagctgctgc tgctgctgct1261 ggaggagctg gacaaggagg atacggagga cttggaggac aaggagccgg acaaggaggc1321 tacggaggac ttggatctca aggatctgga aggggaggac ttggaggaca aggagctgga1381 gctgctgctg ctgctgctgg aggagctgga caaggaggac ttggaggaca aggagctgga1441 caaggagctg gagctgccgc tgctgctgct ggaggagctg gacaaggagg atacggagga1501 cttggatctc aaggagctgg aaggggagga caaggagctg gcgctgccgc tgcagcagcc1561 ggaggagctg gacaaggagg atacggagga cttggaggac aaggagttgg caggggagga1621 cttggaggac aaggagctgg cgctgctgct gctggaggag ctggacaagg aggatacgga1681 ggagttggat ctggagcttc tgctgcctct gcagctgcat ctaggctttc ttctccacaa1741 gcttcttcta gagtttcttc tgctgtttct aaccttgttg cttctggacc taccaattct1801 gctgcccttt cttctaccat ctctaacgtt gtttctcaaa tcggcgcttc taacccagga1861 ctttctggat gcgatgttct tatccaagct cttcttgagg ttgtttctgc tcttatccag1921 atccttggat cttcttctat cggccaagtt aactacggat ctgctggaca agctacccaa1981 atcgttggac aatctgttta ccaagccctt ggatgagagc tcaaaaaaga gctccaaaSEQ ID NO.2的信息(i)序列特征：

(A)长度：663个氨基酸

(B)类型：氨基酸

(C)链性：单链

(D)拓扑结构：2个α螺旋-β折叠(ii).分子类型：多肽(iii).序列描述：SEQ ID NO.2

atgagagctctcgctctcgcggtggtggccatggcggtggtggcc1 M R A L A L A V V A M A V V A

gtgcgcggcgctgctgctgctgctgctgctggaggagctggacaa16 V R G A A A A A A A G G A G Q

ggaggatacggaggacttggatctcaaggagctggaaggggagga31 G G Y G G L G S Q G A G R G G

caaggagcaggagctgccgctgctgctgccggaggagctggacaa46 Q G A G A A A A A A G G A G Q

ggaggatacggaggacttggatctcaaggtgctggaaggggagga61 G G Y G G L G S Q G A G R G G

cttggtggacaaggtgccggtgccgccgccgccgccgccgctgga76 L G G Q G A G A A A A A A A G

ggagccggacaaggaggacttggaggacaaggagctggacaagga91 G A G Q G G L G G Q G A G Q G

gctggagctgccgctgctgctgctggaggagccggacaaggagga106 A G A A A A A A G G A G Q G G

tacggaggacttggatctcaaggagctggaaggggaggacaagga121 Y G G L G S Q G A G R G G Q G

gccggagctgccgctgctgctgccggaggagctggacaaggagga136 A G A A A A A A G G A G Q G G

tacggaggacaaggagccggacaaggaggatacggaggacttgga151 Y G G Q G A G Q G G Y G G L G

tctcaaggagctggaaggggaggacttggaggacaaggagctgga166 S Q G A G R G G L G G Q G A G

gctgctgctgctgctgctgctggaggagccggacaaggaggactt181 A A A A A A A G G A G Q G G L

ggaggacaaggagctggacaaggagctggagctgccgctgctgct196 G G Q G A G Q G A G A A A A A

gctggaggagccggacaaggaggatacggaggacttggatctcaa211 A G G A G Q G G Y G G L G S Q

ggagctggaaggggaggatctggaggacaaggagctggagctgct226 G A G R G G S G G Q G A G A A

gctgctgctgctggaggagccggacaaggaggatacggaggactt241 A A A A G G A G Q G G Y G G L

ggatctcaaggagctggaaggggaggacttggaggacaaggagct256 G S Q G A G R G G L G G Q G A

ggagctgctgctgctgctgctgctggaggagctggacaaggagga271 G A A A A A A A G G A G Q G G

tacggaggacttggaggacaaggagccggacaaggaggctacgga286 Y G G L G G Q G A G Q G G Y G

ggacttggatctcaaggagccggaaggggaggacttggaggacaa301 G L G S Q G A G R G G L G G Q

ggagctggagctgctgctgctgctgctgctggaggaggaggacaa316 G A G A A A A A A A G G G G Q

ggaggacttggaggacaaggagctggacaaggagctggagctgcc331 G G L G G Q G A G Q G A G A A

gctgctgctgctggaggagccggacaaggaggatacggaggactt346 A A A A G G A G Q G G Y G G L

ggaaaccaaggagctggaaggggaggacaaggagctggagctgct361 G N Q G A G R G G Q G A G A A

gctgctgctgctggaggagctggacaaggaggatacggaggactt376 A A A A G G A G Q G G Y G G L

ggatctcaaggagctggaaggggaggacttggaggacaaggagct391 G S Q G A G R G G L G G Q G A

ggagctgctgctgctgctgctggaggagctggacaaggaggatac406 G A A A A A A G G A G Q G G Y

ggaggacttggaggacaaggagccggacaaggaggctacggagga421 G G L G G Q G A G Q G G Y G G

cttggatctcaaggatctggaaggggaggacttggaggacaagga436 L G S Q G S G R G G L G G Q G

gctggagctgctgctgctgctgctggaggagctggacaaggagga451 A G A A A A A A G G A G Q G G

cttggaggacaaggagctggacaaggagctggagctgccgctgct466 L G G Q G A G Q G A G A A A A

gctgctggaggagctggacaaggaggatacggaggacttggatct481 A A G G A G Q G G Y G G L G S

caaggagctggaaggggaggacaaggagctggcgctgccgctgca496 Q G A G R G G Q G A G A A A A

gcagccggaggagctggacaaggaggatacggaggacttggagga511 A A G G A G Q G G Y G G L G G

caaggagttggcaggggaggacttggaggacaaggagctggcgct526 Q G V G R G G L G G Q G A G A

gctgctgctggaggagctggacaaggaggatacggaggagttgga541 A A A G G A G Q G G Y G G V G

tctggagcttctgctgcctctgcagctgcatctaggctttcttct556 S G A S A A S A A A S R L S S

ccacaagcttcttctagagtttcttctgctgtttctaaccttgtt571 P Q A S S R V S S A V S N L V

gcttctggacctaccaattctgctgccctttcttctaccatctct586 A S G P T N S A A L S S T I S

aacgttgtttctcaaatcggcgcttctaacccaggactttctgga601 N V V S Q I G A S N P G L S G

tgcgatgttcttatccaagctcttcttgaggttgtttctgctctt616 C D V L I Q A L L E V V S A L

atccagatccttggatcttcttctatcggccaagttaactacgga631 I Q I L G S S S I G Q V N Y G

tctgctggacaagctacccaaatcgttggacaatctgtttaccaa646 S A G Q A T Q I V G Q S V Y Q

gcccttggatga661 A L G *SEQ ID NO.3的信息(i)序列特征：

(A)长度：2000bp

(B)类型：核苷酸

(C)链性：单链

(D)拓扑结构：线性(ii).分子类型：核苷酸(iii).序列描述：SEQ ID NO.31 ctaaggatcc cattgccggc cgccatgaga gctctcgctc tcgcggtggt ggccatggcg61 gtggtggccg tgcgcggcgc tcgagctgga tctggacaac aaggaccagg acaacaagga121 ccaggacaac aaggaccagg acaacaagga ccatacggac caggagcttc cgctgctgct181 gctgctgctg gaggatacgg accaggatct ggacaacaag gaccaagcca acaaggacct241 ggccaacaag gaccaggagg acaaggacca tacggaccag gagcttccgc tgctgctgct301 gctgctggag gatacggacc aggatccgga caacaaggac caggaggaca aggaccatac361 ggacctggat catccgctgc tgctgctgct gctggaggaa atggaccagg atctggacaa421 caaggggctg gacaacaagg acctggacaa caaggaccag gagcttccgc tgctgctgct481 gctgctggag gatacggacc aggatctgga caacaaggac caggacaaca aggaccagga541 ggacaaggac catacggacc tggagcttcc gctgctgctg ctgctgctgg aggatacgga601 ccaggatctg gacaaggacc aggacaacaa ggaccaggag gacaaggacc atacggacca661 ggagcttccg ctgctgctgc tgctgctgga ggatacggac caggatctgg acaacaagga 721 ccaggacaac aaggacctgg acaacaagga ccaggaggac aaggaccata cggaccagga781 gcttccgctg ctgctgctgc tgctggagga tacggaccag gatacggaca gcaaggacca841 ggacaacaag gaccaggagg acaaggacca tacggacctg gagcttccgc tgcttcagct901 gcttctggag gatacggacc aggatctgga caacaaggac caggacaaca aggacctgga961 ggacaaggac catacggacc tggagcttcc gctgctgctg ctgctgctgg aggatacgga1021 ccaggatctg gacaacaagg accaggccaa caaggaccag gacaacaagg acctggacaa1081 caaggaccag gaggacaagg accatacgga cctggagctt ccgctgctgc tgctgctgct1141 ggaggatacg gaccaggatc tggacaacaa ggaccaggac aacaaggacc aggacaacaa1201 ggaccaggac aacaaggacc aggacaacaa ggaccaggcc aacaaggacc aggacaacaa1261 ggaccaggcc aacaaggacc tggacaacaa ggaccaggag gacaaggggc ttacggacct1321 ggagcttccg ctgctgctgg agctgctgga ggatacggac caggatctgg acaacaagga1381 ccaggacaac aaggaccagg acaacaagga ccaggacaac aaggaccagg acaacaagga1441 ccaggacaac aaggaccagg acaacaagga ccaggacaac aaggaccata cggacctgga1501 gcttccgctg ctgctgctgc tgctggagga tacggaccag gatctggaca acaaggacca1561 ggccaacaag gacctggaca acaaggacca ggaggacaag gaccatacgg acctggagcg1621 gcttctgctg ctgtttctgt tggaggatac ggaccacaaa gctcctctgt tcctgttgct1681 tcagctgtcg cttctcgcct ttcttctcca gcggctagtt ctagagtttc atctgctgtt1741 tcatctttgg tttctagtgg acctaccaag cacgctgctc tttctaatac catcagtagc1801 gttgtttctc aagttagtgc tagtaatcct ggactttctg gatgcgatgt tcttgttcaa1861 gctttgctcg aagttgtttc tgctctggtt tctatccttg gatcttctag tatcgggcaa1921 atcaactacg gagcttctgc tcagtacatc caaatggttg gacaatctgt tgctcaagct1981 cttgcttaag agctccaaaSEQ ID NO.4的信息(i)序列特征：

(A)长度：654个氨基酸

(B)类型：氨基酸

(C)链性：单链

(D)拓扑结构：2个α螺旋-β折叠(ii).分子类型：多肽(iii).序列描述：SEQ ID NO.4 1 atgagagctctcgctctcgcggtggtggccatggcggtggtggcc

M R A L A L A V V A M A V V A15 gtgcgcggcgctcgagctggatctggacaacaaggaccaggacaa

V R G A R A G S G Q Q G P G Q30 caaggaccaggacaacaaggaccaggacaacaaggaccatacgga

Q G P G Q Q G P G Q Q G P Y G45 ccaggagcttccgctgctgctgctgctgctggaggatacggacca

P G A S A A A A A A G G Y G P60 ggatctggacaacaaggaccaagccaacaaggacctggccaacaa

G S G Q Q G P S Q Q G P G Q Q75 ggaccaggaggacaaggaccatacggaccaggagcttccgctgct

G P G G Q G P Y G P G A S A A90 gctgctgctgctggaggatacggaccaggatccggacaacaagga

A A A A G G Y G P G S G Q Q G105 ccaggaggacaaggaccatacggacctggatcatccgctgctgct

P G G Q G P Y G P G S S A A A120 gctgctgctggaggaaatggaccaggatctggacaacaaggggct

A A A G G N G P G S G Q Q G A135 ggacaacaaggacctggacaacaaggaccaggagcttccgctgct

G Q Q G P G Q Q G P G A S A A150 gctgctgctgctggaggatacggaccaggatctggacaacaagga

A A A A G G Y G P G S G Q Q G165 ccaggacaacaaggaccaggaggacaaggaccatacggacctgga

P G Q Q G P G G Q G P Y G P G180 gcttccgctgctgctgctgctgctggaggatacggaccaggatct

A S A A A A A A G G Y G P G S195 ggacaaggaccaggacaacaaggaccaggaggacaaggaccatac

G Q G P G Q Q G P G G Q G P Y210 ggaccaggagcttccgctgctgctgctgctgctggaggatacgga

G P G A S A A A A A A G G Y G225 ccaggatctggacaacaaggaccaggacaacaaggacctggacaa

P G S G Q Q G P G Q Q G P G Q240 caaggaccaggaggacaaggaccatacggaccaggagcttccgct

Q G P G G Q G P Y G P G A S A255 gctgctgctgctgctggaggatacggaccaggatacggacagcaa

A A A A A G G Y G P G Y G Q Q270 ggaccaggacaacaaggaccaggaggacaaggaccatacggacct

G P G Q Q G P G G Q G P Y G P285 ggagcttccgctgcttcagctgcttctggaggatacggaccagga

G A S A A S A A S G G Y G P G300 tctggacaacaaggaccaggacaacaaggacctggaggacaagga

S G Q Q G P G Q Q G P G G Q G315 ccatacggacctggagcttccgctgctgctgctgctgctggagga

P Y G P G A S A A A A A A G G330 tacggaccaggatctggacaacaaggaccaggccaacaaggacca

Y G P G S G Q Q G P G Q Q G P345 ggacaacaaggacctggacaacaaggaccaggaggacaaggacca

G Q Q G P G Q Q G P G G Q G P360 tacggacctggagcttccgctgctgctgctgctgctggaggatac

Y G P G A S A A A A A A G G Y375 ggaccaggatctggacaacaaggaccaggacaacaaggaccagga

G P G S G Q Q G P G Q Q G P G390 caacaaggaccaggacaacaaggaccaggacaacaaggaccaggc

Q Q G P G Q Q G P G Q Q G P G405 caacaaggaccaggacaacaaggaccaggccaacaaggacctgga

Q Q G P G Q Q G P G Q Q G P G420 caacaaggaccaggaggacaaggggcttacggacctggagcttcc

Q Q G P G G Q G A Y G P G A S435 gctgctgctggagctgctggaggatacggaccaggatctggacaa

A A A G A A G G Y G P G S G Q450 caaggaccaggacaacaaggaccaggacaacaaggaccaggacaa

Q G P G Q Q G P G Q Q G P G Q465 caaggaccaggacaacaaggaccaggacaacaaggaccaggacaa

Q G P G Q Q G P G Q Q G P G Q480 caaggaccaggacaacaaggaccatacggacctggagcttccgct

Q G P G Q Q G P Y G P G A S A495 gctgctgctgctgctggaggatacggaccaggatctggacaacaa

A A A A A G G Y G P G S G Q Q510 ggaccaggccaacaaggacctggacaacaaggaccaggaggacaa

G P G Q Q G P G Q Q G P G G Q525 ggaccatacggacctggagcggcttctgctgctgtttctgttgga

G P Y G P G A A S A A V S V G540 ggatacggaccacaaagctcctctgttcctgttgcttcagctgtc

G Y G P Q S S S V P V A S A V555 gcttctcgcctttcttctccagcggctagttctagagtttcatct

A S R L S S P A A S S R V S S570 gctgtttcatctttggtttctagtggacctaccaagcacgctgct

A V S S L V S S G P T K H A A585 ctttctaataccatcagtagcgttgtttctcaagttagtgctagt

L S N T I S S V V S Q V S A S600 aatcctggactttctggatgcgatgttcttgttcaagctttgctc

N P G L S G C D V L V Q A L L615 gaagttgtttctgctctggtttctatccttggatcttctagtatc

E V V S A L V S I L G S S S I630 gggcaaatcaactacggagcttctgctcagtacatccaaatggtt

G Q I N Y G A S A Q Y I Q M V645 ggacaatctgttgctcaagctcttgcttaa

G Q S V A Q A L A *

用人工合成的方法获得复合型蜘蛛丝蛋白基因核苷酸编码序列后，就可以用重组法来大批量地获得有关序列。这通常是将其克隆入载体，再转入细胞，然后通过常规方法从增殖后的宿主细胞中分离得到有关序列。

本发明提供了一种复合型蜘蛛丝蛋白基因在植物中产生和表达的方法，其步骤如下：

(1)将按植物偏爱密码子设计人工合成的编码具有蜘蛛丝晶体蛋白活性多肽的核苷酸序列可操作地连于表达调控序列，形成蜘蛛丝蛋白基因表达载体，所述的核苷酸序列与SEQ ID NO.1中从核苷酸第78～2038位或者与SEQ ID NO.3中从核苷酸第78～2000位的核苷酸序列有至少75％的同源性，或者所述的核苷酸序列能在中度严谨条件下与SEQ ID NO.1中从核苷酸第78-2038位或者与SEQ ID NO.3中从核苷酸第78-2000位的核苷酸序列杂交。

本发明可选用本领域已知的各种载体，如市售的载体，包括质粒，粘粒等。

合成的蜘蛛丝蛋白基因表达载体包括：根据蛋白酶抑制剂基因和几丁质酶基因的表达特点设计的具有液泡定位表达作用的信号肽序列，该序列位于SEQ ID NO.1或者SEQ ID NO.3中的1-78位。还包括，根据植物偏爱密码子设计的具有多个与野生型蜘蛛丝蛋白基因保守区段类似的核酸序列，所述的核酸序列与SEQ ID NO.1中从核苷酸第78-2038位或者与SEQ ID NO.3中从核苷酸第78-2000位DNA分子的核苷酸序列有至少75％的同源性；或者所述的核苷酸序列能在中度严谨条件下与SEQ ID NO.1中从核苷酸第78-2038位或者与SEQ ID NO.3中从核苷酸第78-2000位的核苷酸序列杂交。较佳地，所述的序列编码具有SEQ ID NO.2或者具有SEQ IDNO.4所示的氨基酸序列的多肽。更佳地，所述的序列具有SEQ ID NO.1中从核苷酸第78-2038位或者SEQ ID NO.3中从核苷酸第78-2000位的核苷酸序列。

本发明所说的“可操作地连于”指这样一种状况，即线性DNA序列的某些部分能够影响同一线性DNA序列其他部分的活性。例如，如果信号肽DNA作为前体表达并参与多肽的分泌，那么信号肽(分泌前导序列)DNA就是可操作地连于多肽DNA；如果启动子控制序列的转录，那么它是可操作地连于编码序列；如果核糖体结合位点被置于能使其翻译的位置时，那么它是可操作地连于编码序列。一般，“可操作地连于”意味着相邻，而对于分泌前导序列则意味着在阅读框中相邻。

(2)将步骤(1)中的表达载体转入农杆菌，将含表达载体的农杆菌同宿主细胞共培养，在22-28℃条件下，暗培养1-2天后，利用抗生素筛选，获得含有蜘蛛丝蛋白基因的重组细胞。

本发明所说的“宿主细胞”为真核细胞。常用的真核宿主细胞包括酵母细胞、烟草细胞、番茄细胞及其它植物细胞，本发明特别针对于纤维作物而言，例如棉花、亚麻、苎麻、剑麻等等。

(3)再生重组细胞，获得表达蜘蛛丝蛋白基因的转基因植物及其后代，包括植物种子及植物组织。

本发明所说的“蜘蛛丝蛋白基因”指编码具有与不同野生型蜘蛛分泌的晶体蛋白spidroin或fibroin-3(ADF-3)相同功能的复合型核苷酸序列，如SEQ ID NO.1中第78-2038位或者SEQ ID NO.3中第78-2000位核苷酸序列及其简并序列。该简并序列是指，位于SEQ IDNO.1序列的编码框第78-2038位或者SEQ ID NO.3中第78-2000位核苷酸中，有一个或多个密码子被编码相同氨基酸的简并密码子所取代后而产生的序列。由于密码子的简并性，所以与SEQ ID NO.1中第78-2038位核苷酸序列同源性低至约75％的简并序列也能编码出SEQ ID NO.2所述的序列，或者与SEQ ID NO.3中第78-2000位核苷酸序列同源性低至约75％的简并序列也能编码出SEQ ID NO.4所述的序列。

本发明所说的“蜘蛛丝蛋白基因”还包括能在中度严谨条件下，更佳的在高度严谨条件下与SEQ ID NO.1中从核苷酸第78-2038位或者与SEQ ID NO.3中从核苷酸第78-2000位的核苷酸序列杂交的核苷酸序列；包括与SEQ ID NO.1中从核苷酸第78-2038位或者与SEQ ID NO.3中从核苷酸第78-2000位的核苷酸序列的同源性至少75％，较佳地至少80％，更佳地至少90％，最佳地至少95％的核苷酸序列；包括能编码具有与天然的蜘蛛丝蛋白基因相同功能的蛋白的SEQID NO.1中开放阅读框序列的变异形式。这些变异形式包括(但并不限于)：若干个(通常为1-90个，较佳地1-60个，更佳地1-20个，最佳地1-10个)核苷酸的缺失、插入和/或取代，以及在5’和/或3’端添加数个(通常为60个以内，较佳地为30个以内，更佳地为10个以内，最佳地为5个以内)核苷酸。

本发明所说的“蜘蛛丝蛋白”指具有与多个野生型蜘蛛丝晶体蛋白spidroin或fibroin-3(ADF-3)相同活性的SEQ ID NO.2或者SEQ ID NO.4序列的多肽，包括具有与蜘蛛丝蛋白晶体蛋白在植物中表达相同功能的8EQ ID NO.2或者与SEQ ID NO.4序列的变异形式。这些变异形式包括(但并不限于)：若干个(通常为1-20个，较佳地1-15个，更佳地1-10个，最佳地1-5个)氨基酸的缺失、插入和/或取代，以及在C末端和/或N末端添加一个或数个(通常为15个以内，较佳地为10个以内，更佳地为5个以内)氨基酸。例如，在本领域中，用性能相近或相似的在植物中偏爱的氨基酸进行取代时，通常不会改变蛋白质的功能。又比如，在C末端和/或N末端添加一个或数个植物偏爱密码子所表达的氨基酸通常也不会改变蛋白质的功能。“蜘蛛丝蛋白”还包括在植物中的表达的蜘蛛丝蛋白基因的活性片段和活性衍生物。

本发明的蜘蛛丝蛋白基因的变异形式包括：同源序列、保守性变异体、等位变异体、天然突变体、诱导突变体、在高或低的严紧条件下能与蜘蛛丝蛋白基因DNA杂交的DNA所编码的蛋白、以及利用蜘蛛丝蛋白晶体蛋白的抗血清获得的多肽或蛋白。

在本发明中，“蜘蛛丝晶体蛋白保守性变异多肽”是指与SEQ ID NO.2或者与SEQ ID NO.4的氨基酸序列相比，有至多10个，较佳地至多8个，更佳地至多5个氨基酸被性质相似或相近的氨基酸所替换而形成多肽。

发明还包括人工合成的在植物中表达的蜘蛛丝晶体蛋白或多肽的类似物。这些类似物与蜘蛛丝晶体蛋白的差别可以是氨基酸序列上的差异，也可以是不影响序列的修饰形式上的差异，或者兼而有之。这些多肽包括天然或诱导的遗传变异体。诱导变异体可以通过各种技术得到，如通过辐射或暴露于诱变剂而产生随机诱变，还可通过定点诱变法或其他已知分子生物学的技术。类似物还包括具有不同于天然L-氨基酸的残基(如D-氨基酸)的类似物，以及具有非天然存在的或合成的氨基酸(如β、γ-氨基酸)的类似物。应理解，本发明的多肽并不限于上述例举的代表性的多肽。

修饰(通常不改变一级结构)形式包括：体内或体外的多肽的化学衍生形式如乙酰化或羧基化。修饰还包括糖基化，如那些在多肽的合成和加工中或进一步加工步骤中进行糖基化修饰而产生的多肽。这种修饰可以通过将多肽暴露于进行糖基化的酶(如哺乳动物的糖基化酶或去糖基化酶)而完成。修饰形式还包括具有磷酸化氨基酸残基(如磷酸酪氨酸，磷酸丝氨酸，磷酸苏氨酸)的序列。还包括被修饰从而提高了其抗蛋白水解性能或优化了溶解性能的多肽。

本发明按照植物偏爱密码子的优先结构，人工合成了具有与不同野生型蜘蛛分泌的晶体蛋白相同功能的复合型蜘蛛丝蛋白基因，并利用基因工程的办法，使之在植物纤维中高度表达，将蜘蛛丝蛋白的高强度以及植物纤维纯天然的特性相结合，生产出具有高强度的蜘蛛丝蛋白天然复合纤维，对植物纤维的改良具有积极意义，具有很好的实用价值和经济价值，在工业上更具有广阔的应用前景。

具体实施方式：

为更好地理解本发明的技术方案，以下通过具体的实施例来进一步详细说明。

实施例1

本发明根据蜘蛛丝蛋白spidroin的核酸序列，按植物偏爱密码子对照表设计合成了复合型蜘蛛丝蛋白基因-I(超强纤维基因Super Fiber Strength Gene，SFSG-I)，全长为2038bp(含接头)，其核酸序列为SEQ ID NO.1，其中开放阅读框位于25-2038位核苷酸。根据推导出的全长SFSG-I的氨基酸序列，共663个氨基酸残基，分子量为51.2KD，pI为7.3，详细序列见SEQ ID NO.2。

为了证实所合成的基因与公开发表的蜘蛛丝蛋白基因在基因的功能上没有发生改变，本发明对所合成的基因进行信息与同源性分析。

将SFSG-I全长序列及其编码蛋白质用BLAST程序在Non-redundant+GenBank+EMBL+DDBJ+PDB和Non-redundant GenBank CDS translations+PDB+SwissProt+Superdate+PIR数据库中进行核苷酸和蛋白质同源性检索，结果发现它与野生型蜘蛛丝蛋白Spidroin存在一定的同源性。在核苷酸水平上，它与野生型蜘蛛丝蛋白Spidroin核苷酸序列(GenBank Accession No.NCU20329)的全编码序列有一定的相同性，其中同源性较高的部分见同源比较(GAP)图表1。其中，相同的核苷酸在两个序列之间用竖线符标出。

图表1：超强纤维强度基因(SFSG-I)与野生型蜘蛛丝蛋白基因spidroin的核酸序列比较。其中，上列为超强纤维强度基因SFSG-I核酸序列，下列为野生型蜘蛛丝蛋白基因spidroin的核酸序列。＞ gi|2911273|gb|U20329.1|NCU20329.Nephila clavipes spidroin 1 mRNA，partial cds

Length＝1726Score＝170bits(86)，Expect＝3e-39 Identities＝284/350(81％)Query：1660 gctggacaaggaggatacggaggagttggatctggagcttctgctgcctctgcagctgca 1719

||||||||||||||||| || || ||||| ||||| ||||||||||||||||||||||||Sbjct：1281 gctggacaaggaggatatggtggtgttggttctggggcgtctgctgcctctgcagctgca 1340Query：1720 tctaggctttcttctccacaagcttcttctagagtttcttctgctgtttctaaccttgtt 1779

|| | | |||||||| |||||| ||| |||||||| || |||||||| ||| | |||Sbjct：1341 tcccgtttgtcttctcctcaagctagttcaagagtttcatcagctgtttccaacttggtt 1400Query：1780 gcttctggacctaccaattctgctgccctttcttctaccatctctaacgttgtttctcaa 1839

|| ||| ||||| |||||||||| ||| | || ||| ||| ||| || ||||| |||Sbjct：1401 gcaagtggtcctactaattctgcggccttgtcaagtacaatcagtaatgtggtttcacaa 1460Query：1840 atcggcgcttctaacccaggactttctggatgcgatgttcttatccaagctcttcttgag 1899

|| ||||| || || || ||||||||||| ||||| || || |||||||||||| |||Sbjct：1461 ataggcgccagcaatcctggtctttctggatgtgatgtcctcattcaagctcttctcgag 1520Query：1900 gttgtttctgctcttatccagatccttggatcttcttctatcggccaagttaactacgga 1959

|||||||||||||||||||||||| | || ||||| ||||||||||||||||| ||Sbjct：1521 gttgtttctgctcttatccagatcttaggttcttccagcatcggccaagttaactatggt 1580Query：1960 tctgctggacaagctacccaaatcgttggacaatctgtttaccaagccct 2009

|| ||||||||||| || || |||||||| ||||| ||||| ||||||||Sbjct：1581 tccgctggacaagccactcagatcgttggtcaatcagtttatcaagccct 1630Query：109 ggacaaggaggatacggaggacttggatctcaaggagctggaaggggaggacaaggagca 168

|||||||||||||| ||||| |||||| ||||| |||||| | || |||||||| |||Sbjct：78 ggacaaggaggatatggaggtcttggaagccaaggtgctggacgaggtggacaaggtgca 137Query：178 ggagctgccgctgctgctgccggaggagctggacaaggaggatacggaggacttggatct 228

|| || ||||| || || || ||||| ||||| ||||||||||||||||| ||||||Sbjct：138 ggcgcagccgcagccgcagctggaggtgctggtcaaggaggatacggaggtcttggaagc 197Query：229 caaggtgctggaaggggaggacttggtggacaaggtgc 266

|||||||||||| | |||||| | ||||||||||||||Sbjct：198 caaggtgctggacgaggaggattaggtggacaaggtgc 235

在氨基酸水平上，SFSG-I与野生型蜘蛛丝蛋白Spidroin氨基酸残基有一定的相似性(GenPept Accession No.AAC38957.1)其中同源性较高的部分见同源比较(FASTA)图表2。其中，相同的氨基酸在两个序列之间用氨基酸的缩写代码标出。

图表2：超强纤维强度基因(SFSG-I)与野生型蜘蛛丝蛋白spidroin基因编码的氨基酸序列比较，其中，上列为超强纤维强度基因SFSG-I编码的氨基酸序列，下列为野生型蜘蛛丝蛋白spidroin的氨基酸序列。＞ gi|2911274|gb|AAC38957.1|(U20329)spidroin 1[Nephila clavipes]Length＝544 Score＝144bits(363)，Expect＝3e-33Identities＝76/76(100％)，Positives＝76/76(100％)Query：1786 GPTNSAALSSTISNWSQIGASNPGLSGCDVLIQALLEWSALIQILGSSSIGQVNYGSA 1965

GPTNSAALSSTISNVVSQIGASNPGLSGCDVLIQALLEWSALIQILGSSSIGQVNYGSASbjct：478 GPTNSAALSSTISNWSQIGASNPGLSGCDVLIQALLEWSALIQILGSSSIGQVNYGSA 528Query：1966 GQATQIVGQSVYQALG 2013

GQATQIVGQSVYQALGSbjct：529 GQATQIVGQSVYQALG 544

由上可见，在植物中表达本发明的SFSG-I与野生型的蜘蛛丝蛋白Spidroin基因无论从核酸还是蛋白水平上都存在较高的同源性，可以认为两者在功能上也有很高相似性。实施例2

本发明根据蜘蛛丝蛋白fibroin-3(ADF-3)的核酸序列，按植物偏爱密码子对照表设计合成了复合型蜘蛛丝蛋白基因-II(超强纤维强度基因SFSG-II)，全长为2000bp(含接头)，其核酸序列为SEQ ID NO.3，其中开放阅读框位于25-2000位核苷酸。根据推导出的全长SFSG-II的氨基酸序列，共654个氨基酸残基，分子量为60KD，pI为6.8，详细序列见SEQ ID NO.4。

将SFSG-II全长序列及其编码蛋白质用BLAST程序在Non-redundant+GenBank+EMBL+DDBJ+PDB和Non-redundant GenBank CDS translations+PDB+SwissProt+Superdate+PIR数据库中进行核苷酸和蛋白质同源性检索，结果发现它与野生型蜘蛛丝蛋白fibroin-3(ADF-3)存在一定的同源性。在核苷酸水平上，它与野生型蜘蛛丝蛋白fibroin-3核苷酸序列(GenBank Accession No.ADU47855)的全编码序列有一定的相同性，其中同源性较高的部分见同源比较(GAP)图表3。其中，相同的核苷酸在两个序列之间用竖线符标出。

图表3：超强纤维强度基因(SFSG-II)与野生型蜘蛛丝蛋白(ADF-3)基因的核酸比较序列，其中，上列为超强纤维强度基因SFSG-II核酸序列，下列为野生型蜘蛛丝蛋白(ADF-3)基因的核酸序列。gi|1263286|gb|U47855.1|ADU47855 Araneus diadematus fibroin-3(ADF-3)mRNA，partial cds

Length＝2019Score＝579bits(292)，Expect＝e-162Identities＝415/456(91％)Strand＝Plus/PlusQuery：1534 ggaccaggatctggacaacaaggaccaggccaacaaggacctggacaacaaggaccagga 1593

||||| |||||||||||||||||||| ||||||||||||||||||||||||||||| ||Sbjct：1456 ggacccggatctggacaacaaggacccggccaacaaggacctggacaacaaggacccggt 1515Query：1594 ggacaaggaccatacggacctggagcggcttctgctgctgtttctgttggaggatacgga 1653

|| ||||||||||| |||||||| ||||||||||| ||||| |||||||||||||| |||Sbjct：1516 ggtcaaggaccatatggacctggtgcggcttctgcagctgtatctgttggaggatatgga 1575Query：1654 ccacaaagctcctctgttcctgttgcttcagctgtcgcttctcgcctttcttctccagcg 1713

|||||||||||||| ||||||||||| ||||| |||||||||||||||||||||||||||Sbict：1576 ccacaaagctcctcggttcctgttgcatcagcagtcgcttctcgcctttcttctccagcg 1635Query：1714 gctagttctagagtttcatctgctgtttcatctttggtttctagtggacctaccaagcac 1773

|| ||||||||||||||||| ||||| ||||||||||| ||||||||||||||||||||Sbjct：1636 gccagttctagagtttcatcggctgtatcatctttggtatctagtggacctactaagcat 1695Query：1774 gctgctctttctaataccatcagtagcgttgtttctcaagttagtgctagtaatcctgga 1833

||||| ||||||||||| |||||||||||||| || ||||||||||| |||||||||||Sbjct：1696 gctgcactttctaatactatcagtagcgttgtatcgcaagttagtgcaagtaatcctggt 1755Query：1834 ctttctggatgcgatgttcttgttcaagctttgctcgaagttgtttctgctctggtttct 1893

|||||||| |||||||| ||||||||||| |||||||||||||| || || ||||| |||Sbjct：1756 ctttctggttgcgatgtacttgttcaagcattgctcgaagttgtatcggccctggtatct 1815Query：1894 atccttggatcttctagtatcgggcaaatcaactacggagcttctgctcagtacatccaa 1953

||||||||||||||||||||||||||||| ||||| || || ||||||||||||| ||||Sbjct：1816 atccttggatcttctagtatcgggcaaattaactatggtgcctctgctcagtacacccaa 1875Query：1954 atggttggacaatctgttgctcaagctcttgcttaa 1989

||||| || |||||||| |||||||| |||||||||Sbjct：1876 atggtaggtcaatctgtagctcaagcccttgcttaa 1911

在氨基酸水平上，SFSG-II与野生型的蜘蛛丝蛋白fibroin-3的氨基酸残基有一定的相似性(GenPept Accession No.AAC47010.1)，其中同源性较高的部分见同源比较(FASTA)图表4。其中，相同的氨基酸在两个序列之间用氨基酸的缩写代码标出。

图表4：超强纤维强度基因(SFSG-II)与野生型蜘蛛丝蛋白(ADF-3)基因编码的氨基酸序列比较。其中，上列为超强纤维强度基因(SFSG-II)编码的氨基酸序列，下列为野生型蜘蛛丝蛋白(ADF-3)的氨基酸序列。＞ gi|1263287|gb|AAC47010.1|(U47855)fibroin-3[Araneus diadematus]Length＝636 Score＝154bits(389)，Expect＝3e-36Identities＝84/118(71％)，Positives＝84/118(71％)Frame＝+1Query：1633 VSVGGYGPQXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGPTKHAALSNTISSWSQ 1812

VSVGGYGPQ GPTKHAALSNTISSVVSQSbjct：519 VSVGGYGPQSSSVPVASAVASRLSSPAASSRVSSAVSSLVSSGPTKHAALSNTISSVVSQ 578Query：1813 VSASNPGLSGCDVLVQALLEWSALVSILGSSSIGQINYGASAQYIQMVGQSVAQALA 1986

VSASNPGLSGCDVLVQALLEWSALVSILGSSSIGQINYGASAQY QMVGQSVAQALASbjct：579 VSASNPGLSGCDVLVQALLEWSALVSILGSSSIGQINYGASAQYTQMVGQSVAQALA 636

由上可见，在植物中表达的SFSG-II与野生型的蜘蛛丝蛋白fibroin-3(ADF-3)无论从核酸还是蛋白水平上都存在较高的同源性，可以认为两者在功能上也有很高相似性。

实施例3：

将实施例1和实施例2合成的基因(SFSG-I或SFSG-II)在棉花中产生和表达。农杆菌表达载体的构建

在保证阅读框架正确的前提下，将含有合成基因(SFSG-I或SFSG-II)的PBI121质粒载体的大肠杆菌，接种到含有氨苄青霉素的LB培养基中，在37℃的恒温摇床上培养过夜。过夜的细菌按照分子克隆所提供的方法抽提质粒。

再将其转入农杆菌(如EHA105或LBA4404)植物表达载体中，再利用农杆菌转化棉花。农杆菌转化方法

挑取单菌落接种于5mlYEB液体培养基中，28℃、250rpm振荡过夜。

取2ml菌液转入50mlYEB培养基中继续培养至OD600至0.5。

转入无菌的离心管，冰浴30分钟。

5000rpm离心5分钟，去上清。

加入2ml0.1MCaCl2重新悬浮菌体。

每管200ul分装与无菌的试管中，于4℃保存。

取20ug提取纯化的重组质粒DNA，加入200ul的感受态细胞，混匀。

冰浴5分钟，转入液氮中冷冻5分钟，迅速在37℃水浴5分钟。

加入800ulYEB液体培养基，28℃、250rpm振荡4~5小时。

用移液枪将菌液转移到YEB的固体培养基上，均匀涂布于整个平板。利用农杆菌转化棉花1.挑取平板培养基上构建好的带有目的基因和选择标记基因的菌株的单菌落，接种于含卡那霉素的LB或者YEB液体培养基中。25-28度温度振荡培养过夜暗培养到细菌生长对数期。取液体菌株用LB或者YEB培养基稀释至OD600为0.3-0.8。2.无菌苗制备：棉花种子用硫酸脱绒，自来水清洗种子表面硫酸，晾干。70％酒精表面消毒种子1分钟，洗去酒精。0.5％升汞消毒10分钟后用无菌水冲洗3次，然后加入无菌水置于恒温下(26-28度)培养18-24小时，直到种子露白。3.在无菌条件下剥去种子表皮，种子放入培养基(1/2MS+琼脂6g/L，pH6.8)中，25-28度温度下培养3-5天备用。4.选取无菌苗的下胚轴或者子叶，用解剖刀切成直径约0.5cm的小块。将下胚轴浸入到已经稀释的菌液中5-10min。5.取出浸泡过的胚轴段或者子叶块用无菌的滤纸吸去多余的菌液，将外植体放入到诱导的培养基(MS+2，4-D 0.1mg/L+KT 0.1mg/L+葡萄糖30g/L+琼脂6g/L，pH5.8)表面的无菌滤纸上，于22-27度条件下培养2天。6.经共培养的下胚轴和子叶小块放入诱导培养基中(MS+2，4-D 0.1mg/L+KT 0.1mg/L+MgCl20.91g/L+Phytagel 2.0g/L+km 70mg/L+Cef或Cb 500mg/L+葡萄糖30g/L，pH5.8)，在常规条件下培养(光或者暗)2个月(每一个月换一次培养基)。7.诱导出的愈伤组织块放入到增殖培养基中(MS+MgCl2 0.91g/L+Phytagel 2.0g/L+葡萄糖30g/L，pH5.8)中，于26-28度恒温下培养，每隔一个月转一次培养基，直到愈伤组织分化为止。8.愈伤组织继代培养3-5次后，选取米粒状颗粒愈伤组织，将其转入到分化培养基中[MS(无NH4，NO3加倍)+谷胺酰氨胺酰氨2，4-D 0.1mg/L+KT 0.1mg/L+MgCl2 0.91g/L+Phytagel 2.0g/L+Km 70mg/L+Cef或Cb 500mg/L+葡萄糖30g/L，pH5.8]，将分化出的再生植株移栽到温室中。

本发明利用PCR方法和Southern印迹法技术分析确认了植物体内含有目的基因SFSG，利用Northern/Western印迹法技术分析证实了SFSG基因在转基因植株中的表达。

在进行基因的鉴定和蛋白质的表达分析，确定棉花为含超强纤维基因的转基因棉花后(方法参考《分子克隆》，Sambrook等，1989)，利用纤维测定仪HIV-9000测定棉花的纤维品质，包括以下几个方面：纤维长度、纤维强度、纤维细度、纤维整齐度等方面。就一般的不含蜘蛛丝蛋白基因的非转基因棉花而言，棉花的纤维强度在23g.tex^-1左右。而本发明中从表达超强纤维基因(SFSG)的转基因植株中所获得的复合纤维的纤维强度与正常的棉花纤维对照相比，具有显著的差异(纤维强度增强)(P＜0.05)，复合纤维的纤维强度在26g.tex^-1以上。就麻类而言，麻类的纤维强度一般在2.6牛.分特^-1左右，表达有本发明基因的转基因麻类纤维强度一般在3.0牛.分特^-1之上，与其正常的麻类纤维存在显著的差异(P＜0.05)。

Claims

1、一种按植物偏爱密码子设计合成的蜘蛛丝蛋白基因，其特征在于编码具有蜘蛛丝晶体蛋白活性的多肽的核苷酸序列，而且所述的核苷酸序列与SEQ ID NO.1中从核苷酸第78-2038位或者与SEQ ID NO.3中从核苷酸第78-2000位的核苷酸序列有至少75％的同源性，或者能在中度严谨条件下与SEQ ID NO.1中从核苷酸第78-2038位或者与SEQ ID NO.3中从核苷酸第78-2000位的核苷酸序列杂交。

2、如权利要求1所述的按植物偏爱密码子设计合成的蜘蛛丝蛋白基因，其特征在于所述的核苷酸序列编码具有SEQ ID NO.2所示的氨基酸序列的多肽或者编码具有SEQ ID NO.4所示的氨基酸序列的多肽。

3、如权利要求1所述的按植物偏爱密码子设计合成的蜘蛛丝蛋白基因，其特征在于所述的核苷酸序列具有SEQ ID NO.1中从核苷酸第78-2038位的核苷酸序列或者具有SEQ ID NO.3中从核苷酸第78-2000位的核苷酸序列。

4、一种如权利要求1所述基因的表达载体，其特征在于还包括具有液泡定位作用的信号肽序列，该序列位于SEQ ID NO.1或者SEQ ID NO.3中的1-78位。

5、一种用权利要求4所述载体转化的宿主细胞，其特征在于它是植物细胞。

6、一种如权利要求1所述基因在植物中产生和表达的方法，其特征在于包括如下步骤：

(1)将按权利要求1所述的按植物偏爱密码子设计人工合成的编码具有蜘蛛丝晶体蛋白活性多肽的核苷酸序列可操作地连于表达调控序列，形成蜘蛛丝蛋白晶体蛋白表达载体；

(2)将步骤(1)中的表达载体转入农杆菌，将含表达载体的农杆菌同宿主细胞共培养，在22-28℃条件下，暗培养1-2天后，利用抗生素筛选，获得含有蜘蛛丝蛋白基因的重组细胞；