JP2014528720A

JP2014528720A - スプリットインテインおよびその使用

Info

Publication number: JP2014528720A
Application number: JP2014532409A
Authority: JP
Inventors: ロセル、パリッセ、ベルグウェルフ; シュテファン、ロベルト、シュミット; ディダック、マルコ、フェリウ; パトリシア、カリーナ、カルバハル、バリェッホス
Original assignee: Era Biotech SA
Current assignee: Era Biotech SA
Priority date: 2011-09-28
Filing date: 2012-09-28
Publication date: 2014-10-30
Anticipated expiration: 2032-09-28
Also published as: ES2618632T3; IL231817B; EP2761006A1; JP6177780B2; AU2012314355A1; CN104053779B; WO2013045632A1; DK2761006T3; US10100080B2; KR102096534B1; IL231817A0; CN104053779A; AU2012314355B2; CA2850411C; EP2761006B1; US20150232507A1; KR20140069313A; CA2850411A1

Abstract

本発明は、一般にロバストなスプリットインテインに関する。本明細書に記載のスプリットインテインは、０℃といった低温を含む大きな温度範囲、広いｐＨ範囲、およびカオトロピック塩の存在下で活性である。これらのスプリットインテインはまた、融合した異種ポリペプチドにおける配列変異性に対して高い耐用性を示し、従って、タンパク質精製・工学技術に有用である。

Description

本発明は一般に、ロバストなスプリットインテイン（robust split inteins）、および、例えば、タンパク質精製および工学におけるその使用に関する。

インテインは、それらの宿主タンパク質から自己切除し、ペプチド結合によるフランキング配列（エクステイン）の連結を触媒する内部タンパク質エレメントである。インテイン切除は、補助酵素または補因子を必要としない翻訳後プロセスである。この自己切除プロセスは、ｍＲＮＡ前駆体からのＲＮＡイントロンのスプライシングなぞらえて、「タンパク質スプライシング」と呼ばれる(Perler F et al., Nucl Acids Res. 22:1125-1127 (1994))。セグメントは、ｉｎｔｅｒｎａｌｐｒｏｔｅｉｎ配列としての「インテイン」と、ｅｘｔｅｒｎａｌｐｒｏｔｅｉｎ配列としての「エクステイン」と呼ばれ、上流エクステインは「Ｎ−エクステイン」と呼ばれ、下流エクステインは「Ｃ−エクステイン」と呼ばれる。タンパク質スプライシングプロセスの産物は、成熟タンパク質とインテインの２つの安定なタンパク質である。

ミニインテインおよびラージインテインの構造
インテインは、ラージおよびミニマル（ミニ）の２つの群に分類される(Liu XQ, Ann Rev Genet 34:61-76 (2000))。ラージインテインは、ミニインテインには存在しないホーミングエンドヌクレアーゼドメインを含む。スプライシング有効ミニインテインは、中央エンドヌクレアーゼドメインを削除することによりラージインテインから作製されたものであり、このことはエンドヌクレアーゼドメインがタンパク質スプライシングに関与しないことを示している(Chong S. and Xu M., J Biol Chem. 272:15587-15589 (1997); Derbyshire V. et al., Proc Natl Acad Sci USA. 94:11466-11471 (1997);およびShingledecker K. et al. Gene. 207:187-195 (1998))。

既知のインテインは総て、低い程度の配列類似性を有し、Ｎ末端およびＣ末端にのみ保存された残基を有する。ほとんどのインテインはＳｅｒまたはＣｙｓで始まり、Ｈｉｓ−ＡｓｎまたはＨｉｓ−Ｇｌｎで終わる。Ｃ−エクステインの最初のアミノ酸は不変のＳｅｒ、Ｔｈｒ、またはＣｙｓであるが、Ｎ−エクステインにおけるインテインの前の残基は保存されていない(Perler F. 2002, Nucl. Acids Res. 30: 383-384)。しかしながら、Ｎ末端およびＣ末端エクステインの両方においてインテインスプライシング接合部に隣接する残基はタンパク質スプライシングを加速化または減弱することが最近見出された(Amitai G et al. 2009, Proc. Natl. Acad. Sci. USA. 106:11005-11010)。

インテインのシスおよびトランススプライシング機構
インテインは、それらのスプライシング機構によって分類することができる。最もよく研究されているインテイン群であるクラス１インテインは、４つの保存されたスプライス接合部残基のうちの３つにより媒介される４つの求核攻撃の急速なプロセスを持つ。ステップ１において、このスプライシングプロセスは、Ｎ末端スプライシングドメインの第１の位置に位置するセリンまたはシステイン残基のアシルシフトで始まる。これにより、Ｎ−エクステイン／インテイン接合部に（チオ）エステル結合が形成される。ステップ２において、この（チオ）エステル結合は、Ｃ−エクステインの最初の残基（Ｃｙｓ、Ｓｅｒ、またはＴｈｒ）のＯＨ基またはＳＨ基によって作用を受ける。これにより、Ｎ−エクステインをＣ−エクステインの最初の残基の側鎖に移動させるトランスエステル化に至る。ステップ３において、Ｃ末端スプライシングドメインの最後の位置に存在する保存されているＡｓｎまたはＧｌｎ残基が環化して、（チオ）エステル結合によりエクステインを連結する。最後に、ステップ４は、自発的なＳ−ＮまたはＯ−Ｎアシルシフトによる、（チオ）エステル結合のペプチド結合への再配列である。スプライシング反応に直接的または間接的に関与する重要なアミノ酸を図３Ａに示す。

クラス１インテインのインテイン−エクステイン接合部の部位特異的切断は、保存されているインテイン残基の突然変異によって達成できる。インテインＣ末端におけるＡｓｎまたはＧｌｎ残基の突然変異により、スプライシング反応のステップ３および４が損なわれ、Ｎ末端切断のみが起こる。ステップ１はなお起こるので、（チオ）エステル結合は自発的に加水分解して、インテイン／Ｃ−エクステイン部分からＮ−エクステインを分離する。Ｎ末端スプライシングドメインの第１の位置にあるセリンまたはシステイン残基は、Ｎ末端切断に必要である（図３Ｃ参照）。インテインのこの保存されている最初の残基の突然変異によりスプライシング反応のステップ１、２、および４が損なわれ、Ｃ末端切断のみが起こる。このような突然変異インテインでは、Ａｓｎ環化（ステップ３）はなお起こり、Ｎ−エクステイン／インテイン部からＣ−エクステインが分離される。Ｃ末端スプライシングドメインのそれぞれ最後（Ｘ_Ｎ）および最後から２番目（_ＸＮ−１）に位置するＡｓｎ（またはＧｌｎ）、およびＨｉｓ残基はＮ末端切断に必要である（図３Ｂ参照）。改変されたシス−スプライシングインテインの制御可能な切断は、分子生物学およびバイオテクノロジーにおける広範な有用な適用に採用されている。

天然スプリットインテイン
インテインは、２つの個別に転写および翻訳された遺伝子によりコードされる２つの断片として存在することもできる。これらのいわゆるスプリットインテインは自己会合し、タンパク質スプライシング活性をトランスで触媒する。

スプリットインテインは、多様なシアノバクテリアおよび古細菌において確認されているが(Caspi et al., Mol Microbiol. 50:1569-1577 (2003); Choi J. et al., J Mol Biol. 356:1093-1106 (2006.); Dassa B. et al., Biochemistry. 46:322-330 (2007.); Liu X. and Yang J., J Biol Chem. 278:26315-26318 (2003); Wu H. et al., Proc Natl Acad Sci USA. 95:9226-9231 (1998.); and Zettler J. et al., FEBS Letters. 583:909-914 (2009))、これまでのところ、真核生物では発見されていない。最近、環境メタゲノムデータのバイオインフォマティック分析により、新規なゲノム構成を有する２６の異なる遺伝子座が明らかになった。各遺伝子座において、保存されている酵素コード領域にはスプリットインテインが割り込み、インテインサブドメインをコードするセクション間には自立型のエンドヌクレアーゼ遺伝子が挿入されている。それらのうち、５つの遺伝子座：ＤＮＡヘリカーゼ（ｇｐ４１−１、ｇｐ４１−８）；イノシン−５’−一リン酸デヒドロゲナーゼ（ＩＭＰＤＨ−１）；およびリボヌクレオチドレダクターゼ触媒サブユニット（ＮｒｄＡ−２およびＮｒｄＪ−１）は完全に組み立てられた。この分断された遺伝子構成は、主としてファージ内に存在すると思われる(Dassa et al. Nucleic Acids Research. 37:2560-2573 (2009))。

スプリットインテインＮｐｕＤｎａＥは、タンパク質トランススプライシング反応に関して報告されている最高率を有することを特徴とした。さらにＮｐｕＤｎａＥタンパク質スプライシング反応は、種々のエクステイン配列、６〜３７℃の温度、および最大６Ｍの尿素の存在下について、ロバストで高収量であると考えられる(Zettler J. et al., FEBS Letters. 583:909-914 (2009); Iwai I. et al., FEBS Letters 580:1853-1858 (2006))。予想されたように、これらのインテインのＮドメインのＣｙｓ１Ａｌａ突然変異が導入された場合には、最初のＮのＳ−アシルへのシフト、従って、タンパク質スプライシングが遮断された。残念なことに、Ｃ末端切断反応もほぼ完全に阻害された。Ｃ末端スプライス接合部におけるアスパラギン環化がＮ末端の切れやすいペプチド結合におけるアシルシフトに依存していることは、天然スプリットＤｎａＥインテイン対立遺伝子に共通のユニークな特性であると思われる(Zettler J. et al. FEBS Letters. 583:909-914 (2009))。

バイオテクノロジーにおけるインテインの適用
インテインは、広範なバイオテクノロジー適用において有益なツールである。インテインの天然スプライシング活性を用いたペプチドおよびタンパク質の連結は、インテイン媒介タンパク質連結（ＩＰＬ）として知られ、またはタンパク質連結（ＥＰＬ）と表現され、分子生物学およびバイオテクノロジーの方法において十分に確立されている(Evans T. et al., Biopolymers 51:333-342 (1999); Muir T. et al., Proc Natl Acad Sci USA. 95:6705-6710 (1998); and Severinov K. and Muir T., J Biol Chem. 273:16205-16209 (1998))。さらに、インテインは、インテイン標的タンパク質ボーダーにおいてのみ、部位特異的切断によるタンパク質精製に使用されてきた(Lu W. et al, J Chromatography A. 1218:2553-2560 (2011))。バイオセパレーションにおけるインテイン媒介法の使用は実験室規模では十分に確立され、大規模バイオテクノロジーへのますますの関心が寄せられている。大規模タンパク質生産のためのこれらのタンパク質精製技術の可能性は明らかであるが、工業的スケールアップ条件下でのインテイン媒介タンパク質精製系を開発しなければならない。他の適用としては、ＮＭＲ分析のためのタンパク質のセグメント標識、タンパク質の環化、毒性タンパク質の発現制御、タンパク質への量子ドットのコンジュゲーションおよび非カノニカルアミノ酸の組み込みがある(Arnold U., Biotechnol Lett. 31:1129-1139 (2009); Charalambous A. et al., J Nanobiotechnology 7:9 (2009); Oeemig J. et al., FEBS Letters 583:1451-1456 (2009); Seyedsayamdost M. et al., Nat Protoc. 2:1225-1235 (2007); Zuger S. and Iwai H., Nat Biotechnol. 23:736-740 (2005);およびEvans T. et al., Annu Rev Plant Biol. 56:375-392 (2005))。基礎研究では、インテインは、ｉｎｖｉｖｏタンパク質−タンパク質相互作用、具体的には、タンパク質の細胞オルガネラへの移行、外因性ポリペプチドの、生細胞上の膜タンパク質への連結またはタンパク質活性の光制御をモニタリングするために使用されてきた(Chong S. and Xu M., Homing endonucleases and inteins. Vol 16. Springer, Berlin Heidelberg, New York, 273-292 (2005); Ozawa T. and Umezawa Y., Homing endonucleases and inteins. Vol 16. Springer, Berlin Heidelberg, New York, 307-323 (2005); Ozawa T. et al., Nat Biotechnol. 21:287-293 (2003); Dhar T. and Mootz H., Chem Commun. 47:3063-3065 (2011);およびBinschik J. et al., Angewandte Chemie International Ed. 50(14):3249-3252 (2011))。バイオテクノロジーにおいて使用されるインテインのほとんどは原核生物に由来するか、またはＳ．セレビシエ(S. cerevisiae)ＶＭＡ１−インテインの操作型変異体である(Elleuche & Poggeler 2010 Appl. Microbiol Biotechnol 78:479-489)。

大規模生物学的プロセスにおいてこのような技術を使用するためには、ロバストな特性を有するインテインおよびその使用方法を同定する必要がある。本明細書に記載されているインテインおよびこのようなインテインの使用方法は、このような必要に、大きな温度範囲、塩の存在下、および配列が変動するポリペプチドと融合した場合にも機能する高活性のインテインを提供することによって取り組むものである。

発明の概要
本発明は、ロバストなスプリットインテインおよびその使用方法を提供する。本スプリットインテインは、大きな温度範囲、広いｐＨ範囲、およびカオトロピック塩の存在下で活性である。本スプリットインテインはまた、融合した異種ポリペプチドの配列変異性に対して高い耐用性を示す。これらの特徴は、本スプリットインテインをタンパク質精製・工学技術に特に有用なものとする。

特に、（ｉ）配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一であるインテインドメインと、（ｉｉ）異種ポリペプチドとを含んでなり、前記異種ポリペプチドが前記インテインドメインのＣ末端にある融合タンパク質が提供される。いくつかの態様では、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミンである。いくつかの態様では、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸、例えば、アラニンである。いくつかの態様では、インテインドメインの最後から２番目のアミノ酸は、ヒスチジン以外のアミノ酸である。いくつかの態様では、異種ポリペプチドは、インテインドメインに、ペプチド結合によって直接連結されている。いくつかの態様では、異種ポリペプチドの最初のアミノ酸は、セリン、システイン、またはトレオニンである。いくつかの態様では、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸、例えば、アラニンであり、異種ポリペプチドの最初のアミノ酸は、セリン、トレオニンまたはシステイン以外、例えば、アラニンである。いくつかの態様では、融合タンパク質は、異種ポリペプチドとインテインドメインの間にリンカーをさらに含んでなる。いくつかの態様では、リンカーの最初のアミノ酸は、セリン、システイン、またはトレオニンである。いくつかの態様では、リンカーの最初のアミノ酸は、セリン、システイン、またはトレオニン以外のアミノ酸、すなわち、アラニンである。いくつかの態様では、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸、例えば、アラニンであり、リンカーの最初のアミノ酸は、セリン、トレオニンまたはシステイン以外のアミノ酸、例えば、アラニンである。いくつかの態様では、リンカーは、天然エクステイン配列の１〜５個のアミノ酸を含んでなる。配列番号７、１６、２４、３８および６５からなる群から選択される配列を有するインテインドメインと、（ｉｉ）異種ポリペプチドとを含んでなり、前記異種ポリペプチドが前記インテインドメインのＣ末端にある融合タンパク質もまた提供される。

さらに、（ｉ）配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一であるインテインドメインと、（ｉｉ）異種ポリペプチドとを含んでなり、前記異種ポリペプチドが前記インテインドメインのＮ末端にある融合タンパク質が提供される。いくつかの態様では、インテインドメインの最初のアミノ酸は、システインである。いくつかの態様では、インテインドメインの最初のアミノ酸は、セリンまたはシステイン以外のアミノ酸、例えば、アラニンである。いくつかの態様では、異種ポリペプチドはインテインドメインに、ペプチド結合によって直接連結されている。いくつかの態様では、融合タンパク質は、異種ポリペプチドとインテインドメインの間にリンカーをさらに含んでなる。いくつかの態様では、リンカーは、天然エクステイン配列の１〜５個のアミノ酸を含んでなる。配列番号３、１２、２０、３４および６４からなる群から選択される配列を有するインテインドメインと異種ポリペプチドとを含んでなり、前記異種ポリペプチドが前記インテインドメインのＮ末端にある融合タンパク質もまた提供される。

さらに、第１のインテインドメインと第２のインテインドメインと異種ポリペプチドとを含んでなる融合タンパク質が提供される。さらに、第１のインテインドメインと第２のインテインドメインと異種ポリペプチドとを含んでなる融合タンパク質が提供され、この場合、前記異種ポリペプチドは前記第１のインテインドメインのＮ末端にあり、前記異種ポリペプチドは前記第２のインテインドメインのＣ末端にある。さらに、第１のインテインドメインと第２のインテインドメインと異種ポリペプチドとを含んでなる融合タンパク質が提供され、この場合、前記異種ポリペプチドは前記第１のインテインドメインのＮ末端にあり（Ｎ末端スプライシングドメイン）、前記異種ポリペプチドは前記第２のインテインドメインのＣ末端にある（Ｃ末端スプライシングドメイン）。いくつかの態様では、（ａ）第１のインテインドメインは配列番号３と少なくとも７５％同一であって、第２のインテインドメインは配列番号７と少なくとも７５％同一であるか；（ｂ）第１のインテインドメインは配列番号１２と少なくとも７５％同一であって、第２のインテインドメインは配列番号１６と少なくとも７５％同一であるか；（ｃ）第１のインテインドメインは配列番号２０と少なくとも７５％同一であって、第２のインテインドメインは配列番号２４と少なくとも７５％同一であるか；（ｄ）第１のインテインドメインは配列番号３４と少なくとも７５％同一であって、第２のインテインドメインは配列番号３８と少なくとも７５％同一であるか；または（ｄ）第１のインテインドメインは配列番号６４と少なくとも７５％同一であって、第２のインテインドメインは配列番号６５と少なくとも７５％同一である。いくつかの態様では、異種ポリペプチドの最初のアミノ酸は、セリン、システイン、またはトレオニンである。いくつかの態様では、融合タンパク質は、異種ポリペプチドと第２のインテインドメインの間にリンカーをさらに含んでなり、リンカーの最初のアミノ酸、セリン、システイン、またはトレオニンである。いくつかの態様では、リンカーの最初のアミノ酸はセリンである。

本発明による融合タンパク質をコードするポリヌクレオチドも本明細書において提供される。

融合タンパク質を含んでなる組成物も提供される。このような組成物は、例えば、Ｃ末端切断反応、Ｎ末端切断反応、トランススプライシング反応、およびタンパク質環化法に有用である。

本タンパク質、融合タンパク質、ポリヌクレオチドまたは組成物を含んでなる宿主細胞も提供される。

本明細書で提供されるポリペプチドおよび融合タンパク質を、例えば、Ｃ末端切断反応、Ｎ末端切断反応、トランススプライシング反応、およびタンパク質環化に使用する方法が提供される。このような方法は、約０℃〜約６０℃の温度、約６〜約１０のｐＨ、および／または約０．５Ｍ〜約６Ｍ尿素の存在下で起こり得る。

いくつかの態様では、本明細書で提供される反応の反応速度定数は、少なくとも約１×１０^−１ｓ^−１、または少なくとも約２×１０^−１ｓ^−１である。いくつかの態様では、反応速度半減期は約１００秒未満、約５０秒未満、または約２５秒未満または約１５秒未満である。

これらの反応は、例えば、温度もしくはｐＨの変更、またはタンパク質の混合によって開始させることができる。

本発明はまた、配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの下流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも１つのクローニング部位とを含んでなり、これにより、インテインドメインと対象ポリヌクレオチドによりコードされるポリペプチドとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターを提供する。

本発明はまた、配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの上流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも１つのクローニング部位とを含んでなり、これにより、対象ポリヌクレオチドによりコードされるポリペプチドとインテインドメインとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターを提供する。

本発明はまた、配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの下流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも１つのクローニング部位と、前記クローニング部位の下流に、配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一であるインテインドメインをコードするポリヌクレオチドとを含んでなり、これにより、前記対象ポリヌクレオチドによりコードされるポリペプチドと前記２つのインテインドメインとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターを提供し、この場合、
ａ．第１のインテインドメインが配列番号７と少なくとも７５％同一であれば、第２のインテインドメインは配列番号３と少なくとも７５％同一であり；
ｂ．第１のインテインドメインが配列番号１６と少なくとも７５％同一であれば、第２のインテインドメインは配列番号１２と少なくとも７５％同一であり；
ｃ．第１のインテインドメインが配列番号２４と少なくとも７５％同一であれば、第２のインテインドメインは配列番号２０と少なくとも７５％同一であり；
ｄ．第１のインテインドメインが配列番号３８と少なくとも７５％同一であれば、第２のインテインドメインは配列番号３４と少なくとも７５％同一である。

本発明はまた、配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一である第１のインテインドメインをコードするポリヌクレオチドと、前記第１のインテインドメインをコードするポリヌクレオチドの下流に、第１のクローニング部位と、配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一である第２のインテインドメインをコードするポリヌクレオチドと、前記第２のインテインドメインをコードするポリヌクレオチドの上流に、第２のクローニング部位とを含んでなり、ここで、前記第１のクローニング部位は第１の対象ポリヌクレオチドのクローニングを可能とし、前記第２のクローニング部位は第２の対象ポリヌクレオチドのクローニングを可能とし、これにより、前記の順に、第２の対象ポリヌクレオチドによりコードされるポリペプチドと、第２のインテインドメインと、第１のインテインドメインと、第２の対象ポリヌクレオチドによりコードされるポリペプチドとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターを提供し、この場合、
ａ．第１のインテインドメインが配列番号７と少なくとも７５％同一であれば、第２のインテインドメインは配列番号３と少なくとも７５％同一であり；
ｂ．第１のインテインドメインが配列番号１６と少なくとも７５％同一であれば、第２のインテインドメインは配列番号１２と少なくとも７５％同一であり；
ｃ．第１のインテインドメインが配列番号２４と少なくとも７５％同一であれば、第２のインテインドメインは配列番号２０と少なくとも７５％同一であり；
ｄ．第１のインテインドメインが配列番号３８と少なくとも７５％同一であり、第２のインテインドメインは配列番号３４と少なくとも７５％同一であり；または
ｅ．第１のインテインドメインが配列番号６５と少なくとも７５％同一であれば、第２のインテインドメインは配列番号６４と少なくとも７５％同一である。

（Ａ）トランススプライシング反応の概略図。スプリットインテインの最初のＮ末端断片（Ｆ１）とＣ末端断片（Ｆ２）を上に示す。トランススプライシング反応後に連結される領域をグレーで示す。トランススプライシング反応から生じた３断片を下に示す。Ｆ３はスプライシング産物を表し（グレー）、Ｆ４およびＦ５はそれぞれＮ−スプリットインテイン副産物およびＣ−スプリットインテイン副産物を表す。ＳｔｒｅｐｔａｇＩＩ精製タグ（ＳＴ）、ファージタンパク質バクテリオファージλ頭部タンパク質Ｄ（ｇｐＤ）、Ｎ末端エクステインに属す５個の天然フランキングアミノ酸（Ｅ^Ｎ）、Ｎ末端スプリットインテイン（Ｉ^Ｎ）、ヘキサヒスチジン精製タグ（Ｈ６）、Ｃ末端スプリットインテイン（Ｉ^Ｃ）、Ｃ末端エクステインに属す５個の天然フランキングアミノ酸（Ｅ^Ｃ）、チオレドキシン（Ｔｒｘ）、およびＮ末端およびＣ末端エクステインの接合（Ｅ^ＮＣ）。（Ｂ）ＳＤＳ−ＰＡＧＥゲルのクーマシーブルー染色により分析されたＧｐ４１．１（Ｇ１）スプリットインテインのトランススプライシング反応の経時的推移。最初のＮ末端断片とＣ末端断片（それぞれＦ１およびＦ２）をレーン１に示す。２５℃で１０秒、２０秒、３０秒、１分、５分、３０分、１時間および２時間のインキュベーション後のトランススプライシング反応をレーン２〜９に示す。Ｆ１、Ｆ２、Ｆ３、Ｆ４およびＦ５の位置を矢印で示す。

（Ａ）Ｇｐ４１．１（Ｇ１）スプリットインテインのＣ末端自己切断反応。Ｎ末端インテインの最初のアミノ酸（システイン）がアラニンで置換されていた（Ｃ１Ａ）。一般的な自己切断反応の概略図を左に示す。スプリットインテインの変異型Ｎ末端断片（Ｆ１）およびＣ末端断片（Ｆ２）をインキュベートすると、Ｆ２の切断が起こり、断片（Ｆ３）とＣ末端スプリットインテイン副産物（Ｆ４）を含有する所望のＴｒｘが生じる。自己切断反応において遊離した断片をグレーで示す。ＳＤＳ−ＰＡＧＥゲルのクーマシーブルー染色により分析されたＧｐ４１．１（Ｇ１）スプリットインテインの自己切断反応の経時的推移を右に示す。最初のＮ末端断片とＣ末端断片（それぞれＦ１およびＦ２）をレーン１に示す。３７℃で１分、５分、３５分、１時間、２時間および４時間のインキュベーション後の自己切断反応をレーン２〜７に示す。Ｆ１、Ｆ２、Ｆ３、およびＦ４の位置を矢印で示す。（Ｂ）Ｇｐ４１．１（Ｇ１）スプリットインテインのＣ末端自己切断反応。Ｎ末端インテインがＣ１Ａ置換を含み、Ｅ^Ｃに相当する５つの天然アミノ酸がＦ２から除かれている場合の一般的な自己切断反応の概略図を左に示す。ＳＤＳ−ＰＡＧＥゲルのクーマシーブルー染色により分析されたＧｐ４１．１（Ｇ１）スプリットインテインの自己切断反応を右に示す。最初のＮ末端断片とＣ末端断片（それぞれＦ１およびＦ２）をレーン２に示す。レーン３は、３７℃で２３時間のインキュベーション後の自己切断反応を示す。Ｆ１、Ｆ２、Ｆ３、およびＦ４の位置を矢印で示す。ＳｔｒｅｐｔａｇＩＩ精製タグ（ＳＴ）、ファージタンパク質バクテリオファージλ頭部タンパク質Ｄ（ｇｐＤ）、Ｎ末端エクステインに属す５個の天然フランキングアミノ酸（Ｅ^Ｎ）、Ｎ末端スプリットインテイン（Ｉ^Ｎ）、ヘキサヒスチジン精製タグ（Ｈ６）、Ｃ末端スプリットインテイン（Ｉ^Ｃ）、Ｃ末端エクステインに属す５個の天然フランキングアミノ酸（Ｅ^Ｃ）およびチオレドキシン（Ｔｒｘ）。

（Ａ）トランススプライシング、（Ｂ）Ｃ末端自己切断、および（Ｃ）Ｎ末端自己切断構築物を示す概略図。Ｎ末端エクステインに属す天然フランキングアミノ酸（Ｅ^Ｎ）、Ｎ末端スプリットインテイン（Ｉ^Ｎ）、Ｃ末端スプリットインテイン（Ｉ^Ｃ）、Ｃ末端エクステインに属す天然フランキングアミノ酸（Ｅ^Ｃ）。対応する反応に直接的または間接的に関与する重要なアミノ酸を示す。

発明の具体的説明
いくつかのタンパク質工学適用において有用なスプリットインテインの説明を以下に提供する。スプリットインテインは、異種タンパク質と融合したＧｐ４１．１、Ｇｐ４１．８、ＮｒｄＡ２、ＮｒｄＪ１またはＩＭＰＤＨ１配列を含有し、例えば、タンパク質合成、切断、精製、連結、環化、および調節ならびに／またはタンパク質活性のモニタリングに使用することができる。

本明細書で使用する見出しは単に構成のためのものであり、記載される対象を何ら限定すると解釈されるものではない。

Ｉ．定義
そうではないことが明確に定義されない限り、本明細書で使用される用語は、当技術分野における通常の意味に従って理解される。単数で使用されるまたは「１つ("a" or "an")」として言及される用語は、そうではないことが明示されているか文脈により示されない限り、複数形を含み、逆もまたそうである。標準技術および手順は一般に、当技術分野における常法および本明細書を通して示される種々の一般参照文献（引用することにより本明細書の一部とされるSambrook et al. Molecular Cloning: A Laboratory Manual, 2nd ed. (1989) Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y.参照）に従って実施される。

用語「ポリペプチド」、「ペプチド」および「タンパク質」とは、本明細書において、任意の長さのアミノ酸ポリマーを意味して互換的に使用される。このポリマーは直鎖であっても分岐していてもよく、修飾アミノ酸を含んでなることができ、さらに、非アミノ酸が挿入されていてもよい。これらの用語はまた、例えば、ジスルフィド結合の形成、グリコシル化、脂質化、アセチル化、リン酸化、または他の任意の操作もしくは修飾、例えば標識成分とのコンジュゲーションなどにより、天然にまたは介入により修飾されたアミノ酸ポリマーも包含する。また、例えば、１以上のアミノ酸類似体（例えば、非天然アミノ酸などを含む）、ならびに当技術分野で公知の他の修飾を含むポリペプチドもこの定義に含まれる。

「融合ポリペプチド」とは、少なくとも２つのポリペプチドと、場合により、その２つのポリペプチドを１つの連続するポリペプチドに作動可能に連結する架橋配列とから構成されるポリペプチドである。融合ポリペプチドにおいて連結されている２つのポリペプチドは、一般に、２つの独立した供給源に由来し、従って、融合ポリペプチドは、自然界では通常連結された状態では見られない、２つの連結されたポリペプチドを含んでなる。これら２つのポリペプチドは、ペプチド結合により直接的に作動可能に結合されてもよく、または本明細書に記載の、またはそうでなければ当技術分野で公知のリンカーを介して間接的に連結されてもよい。

「核酸」、「ポリヌクレオチド」、または「核酸分子」とは、ヌクレオチドと呼ばれる、共有結合されたサブユニットから構成されるポリマー化合物である。核酸は、ポリリボ核酸（ＲＮＡ）およびポリデオキシリボ核酸（ＤＮＡ）を含み、両方とも一本鎖または二本鎖であり得る。ＤＮＡは、ｃＤＮＡ、ゲノムＤＮＡ、合成ＤＮＡ、および半合成ＤＮＡを含む。

２つ以上の核酸またはポリペプチドに関して「同一」または「同一性」パーセントという用語は、保存的アミノ酸置換を配列同一性の一部と考えずに最大の一致となるように比較およびアラインした際に（必要であればギャップを導入する）、同一であるか、または同一であるヌクレオチドもしくはアミノ酸残基の特定のパーセンテージを有する２つ以上の配列または部分配列を意味する。同一性パーセントは配列比較ソフトウエアもしくはアルゴリズムまたはもしくは目視検査により評価することができる。アミノ酸またはヌクレオチド配列のアラインメントを得るために使用可能な種々のアルゴリズムおよびソフトウエアは当技術分野で公知である。配列アラインメントアルゴリズムのこのような限定されない例の１つが、Karlin et al., 1993, Proc. Natl. Acad. Sci., 90:5873-5877において改変されているKarlin et al, 1990, Proc. Natl. Acad. Sci., 87:2264-2268に記載され、ＮＢＬＡＳＴおよびＸＢＬＡＳＴプログラム(Altschul et al., 1991, Nucleic Acids Res., 25:3389-3402)に組み込まれているアルゴリズムである。特定の態様では、ギャップＢＬＡＳＴをAltschul et al., 1997, Nucleic Acids Res. 25:3389-3402に記載されているように使用することができる。ＢＬＡＳＴ−２、ＷＵ−ＢＬＡＳＴ−２(Altschul et al., 1996, Methods in Enzymology, 266:460-480)、ＡＬＩＧＮ、ＡＬＩＧＮ−２（Ｇｅｎｅｎｔｅｃｈ，サウスサンフランシスコ、カリフォルニア）またはＭｅｇａｌｉｇｎ（ＤＮＡＳＴＡＲ）は、配列をアラインするために使用可能な、そのたの公的に利用可能なソフトウエアプログラムである。特定の態様では、２つのヌクレオチド配列間の同一性パーセントは、ＧＣＧソフトウエアのＧＡＰプログラム（例えば、ＮＷＳｇａｐｄｎａ．ＣＭＰマトリックスおよびギャップウェイト４０、５０、６０、７０または９０、およびレングスウェイト１、２、３、４、５または６を使用）を用いて決定される。特定の別の態様では、Needleman and
Wunsch (J. Mol. Biol. 48:444-453 (1970))のアルゴリズムを組み込んだＧＣＧソフトウエアパッケージのＧＡＰプログラムを用いて、２つのアミノ酸配列間の同一性パーセントを決定することができる（例えば、Ｂｌｏｓｓｕｍ６２マトリックスまたはＰＡＭ２５０マトリックスのいずれか、およびギャップウェイト１６、１４、１２、１０、８、６または４、およびレングスウェイト１、２、３、４、５を使用）。あるいは、特定の態様では、ヌクレオチド配列またはアミノ酸配列間の同一性パーセントは、Myers and Miller (CABIOS, 4:11-17 (1989))のアルゴリズムを用いて決定される。例えば、同一性パーセントは、ＡＬＩＧＮプログラム（バージョン２．０）を使用し、残基表、ギャップレングスペナルティー１２およびギャップペナルティー４とともにＰＡＭ１２０を用いて決定することができる。特定のアラインメントソフトウエアによる最大アラインメントのために適当なパラメーターは当業者により決定可能である。特定の態様では、アラインメントソフトウエアのデフォルトパラメーターを使用する。特定の態様では、第１のアミノ酸配列の第２のアミノ酸配列に対する同一性パーセンテージ「Ｘ」は、１００×（Ｙ／Ｚ）として計算され、式中、Ｙは、第１の配列と第２の配列のアラインメントにおいて（目視検査または特定の配列アラインメントプログラムによりアラインされた場合に）同一一致としてスコアが入れられたアミノ酸残基の数であり、Ｚは、第２の配列の残基の総数である。第２の配列が第１の配列よりも長ければ、同一性パーセントは、前記の第１の配列と第２の配列の間の重複領域でのみ決定されてよい。この場合、第１の配列と第２の配列が重複する領域の長さをＺ値として使用すること以外は上記と同じ式を使用することができ、前記の領域は第１の配列の長さと実質的に同じ長さを有する。

限定されない例として、任意の特定のポリヌクレオチドが参照配列に対して特定の配列同一性パーセンテージ（例えば、少なくとも８０％同一、少なくとも８５％同一、少なくとも９０％同一、いくつかの態様では、少なくとも９５％、９６％、９７％、９８％、または９９％同一）を有するかどうかは、特定の態様において、Ｂｅｓｔｆｉｔプログラム(Wisconsin Sequence Analysis Package, Version 8 for Unix, Genetics Computer Group, University Research Park, 575 Science Drive, Madison, WI 53711)を用いて決定することができる。Ｂｅｓｔｆｉｔは、Smith and Waterman, Advances in Applied Mathematics 2: 482 489 (1981)のローカルホモロジーアルゴリズムを用いて、２つの配列間に最良の相同性セグメントを見つけ出す。Ｂｅｓｔｆｉｔまたは任意の他の配列アラインメントプログラムを用いて、特定の配列が本発明による参照配列と例えば９５％同一であるかどうかを決定する場合、同一性のパーセンテージが参照ヌクレオチド配列の全長にわたって計算されるように、かつ、参照配列のヌクレオチド総数の５％までの相同性ギャップが許容されるようにパラメーターを設定する。

いくつかの態様では、本発明の２つの核酸またはポリペプチドは、配列比較アルゴリズムを用いて、または目視検査により評価した際、最大一致となるように比較およびアラインした場合に、それらが少なくとも７０％、少なくとも７５％、少なくとも８０％、少なくとも８５％、少なくとも９０％、いくつかの態様では、少なくとも９５％、９６％、９７％、９８％、９９％のヌクレオチドまたはアミノ酸残基同一性を有することを意味して、実質的に同一であるという。同一性は少なくとも約１０、約２０、約４０〜６０残基長またはその間の任意の整数値である配列の領域にわたって存在することもできるし、または６０〜８０残基、例えば、少なくとも約９０〜１００残基より長い領域にわたることもでき、いくつかの態様では、配列は例えばヌクレオチド配列のコード領域などの比較される配列の全長にわたって実質的に同一である。

用語「ベクター」とは、宿主細胞に１以上の対象遺伝子または配列を送達し、所望により発現させることができる構築物を意味する。ベクターの例としては、限定されるものではないが、ウイルスベクター、裸のＤＮＡまたはＲＮＡ発現ベクター、プラスミド、コスミドまたはファージベクター、陽イオン性縮合剤と会合したＤＮＡまたはＲＮＡ発現ベクター、リポソーム中に封入されたＤＮＡまたはＲＮＡ発現ベクター、および生産細胞などの特定の真核細胞が含まれる。ベクターは安定であり得、自己複製可能である。「発現ベクター」とは、それが作動可能に会合された遺伝子の発現を指示することができるベクターである。

「プロモーター」とは、コード配列または機能的ＲＮＡの発現を制御することができるＤＮＡ断片を意味する。一般に、コード領域は、プロモーターの３’側に位置する。プロモーターは、その全体が天然遺伝子に由来してもよいし、または天然に見られるものとは異なるプロモーターに由来する異なるエレメントから構成されてもよく、またはさらには合成ＤＮＡセグメントを含んでなってもよい。当業者には、プロモーターが異なれば、異なる組織もしくは細胞種、または異なる発達段階、または異なる環境もしくは生理条件に対する応答での遺伝子の発現を指示し得ることが理解される。ほとんどの細胞種において、ほとんどの時点で遺伝子を発現させるプロモーターは、一般に「構成プロモーター」と呼ばれる。さらに、ほとんどの場合、調節配列の正確な境界は完全に定義されているわけではないので、長さの異なるＤＮＡ断片が同じプロモーター活性を持つ場合があると認識される。プロモーターは、一般に、その３’末端で転写開始部位により画定され、バックグラウンドを上回る検出可能なレベルで転写を開始するために必要な最小数の塩基またはエレメントを含んで上流に（５’方向に）延びる。プロモーター内には、転写開始部位（好都合には、例えば、ヌクレアーゼＳ１を用いたマッピングにより定義される）、ならびにＲＮＡポリメラーゼの結合を担うタンパク質結合ドメイン（コンセンサス配列）が見られる。

本発明において用語「異種」とは、内因性供給源以外の供給源に由来するベクター、プラスミドまたは宿主細胞のエレメントを意味する。よって、例えば、異種配列（例えば、ポリヌクレオチド配列またはポリペプチド配列）は、同じ宿主、異なる宿主細胞株、または異なる分類群（例えば、異なる界、門、綱、目、科、属もしくは種、またはこれらの分類の１つの中の任意の亜群）の生物体からの異なる遺伝子またはプラスミドに由来する配列であり得る。用語「異種」はまた、本明細書では用語「外因性」と同義で用いられる。

ＤＮＡまたはＲＮＡ「コード領域」とは、適当な調節配列の制御下に置かれた場合にｉｎｖｉｔｒｏまたはｉｎｖｉｖｏで細胞においてポリペプチドへと転写および／または翻訳されるＤＮＡまたはＲＮＡ分子である。「好適な調節領域」とは、コード領域の上流（５’非コード配列）、内部、または下流（３’非コード配列）に位置して、転写、ＲＮＡのプロセシングもしくは安定性、または関連のコード領域の翻訳に影響を及ぼす核酸領域を意味する。調節領域は、プロモーター、翻訳リーダー配列、ＲＮＡプロセシング部位、エフェクター結合部位およびステム−ループ構造を含み得る。コード領域の境界は５’（アミノ）末端では開始コドン、および３’（カルボキシル）末端では翻訳終止コドンによって画定される。コード領域としては、限定されるものではないが、原核生物領域、ｍＲＮＡ由来のｃＤＮＡ、ゲノムＤＮＡ分子、合成ＤＮＡ分子、またはＲＮＡ分子を含み得る。コード領域が真核細胞における発現向けに意図される場合、ポリアデニル化シグナルおよび転写終結配列は通常、コード領域の３’側に位置する。

「オープンリーディングフレーム」とは、ＯＲＦと略され、翻訳開始シグナルまたは開始コドン（ＡＴＧまたはＡＵＧなど）、および終止コドンを含んでなる、ある長さの核酸、ＤＮＡ、ｃＤＮＡまたはＲＮＡのいずれかを意味し、潜在的にポリペプチド配列へと翻訳され得る。

ＲＮＡポリメラーゼがコード領域をｍＲＮＡへと転写し、その後、トランス−ＲＮＡスプライシングされ（コード領域がイントロンを含む場合）、コード領域によりコードされるタンパク質へと翻訳される場合に、そのコード領域は、細胞内で転写および翻訳制御エレメントの「制御下」にある。

「転写および翻訳制御領域」とは、プロモーター、エンハンサー、ターミネーターなどの、宿主細胞内でコード領域の発現を提供するＤＮＡ調節領域である。真核細胞では、ポリアデニル化シグナルが制御領域である。

用語「作動可能に会合された」および「作動可能に連結された」とは、一方の機能が他方の影響を受けるような２つの分子の会合を意味する。例えば、プロモーターは、それがコード領域の発現に影響を及ぼし得る（すなわち、コード領域がプロモーターの転写制御下にある）場合に、コード領域と作動可能に会合されている。コード領域は、センス配向またはアンチセンス配向で調節領域と作動可能に会合させることができる。２つの分子は、それらが直接結合されている場合（例えば、融合タンパク質）でもまたは間接的に結合されている場合（例えば、リンカーを介して）でも「作動可能に連結されている」。

本発明において、用語「発現」とは、核酸鋳型からのＲＮＡ（例えば、ｍＲＮＡ）の転写および／またはｍＲＮＡのポリペプチドへの翻訳を意味する。用語「発現の増強」とは、ｍＲＮＡ生産の増加のレベルおよび／またはポリペプチド発現のレベルでの遺伝子発現の変更を含むことを意図し、一般に、遺伝子産物またはタンパク質の量の増加をもたらす。場合によっては、「発現の増強」は、用語「過剰発現」または「過剰発現された」と互換的に使用される。

ＩＩ．インテイン
インテインは、宿主タンパク質から自己切除し、ペプチド結合によるフランキング配列の連結を触媒することができるタンパク質エレメントである。スプリットインテインは、インテインのＮ末端ドメインとインテインのＣ末端ドメインがペプチド結合により直接連結されない任意のインテインである。天然スプリットインテインはシアノバクテリアおよび古細菌で確認されているが、スプリットインテインは、インテインの配列を２つに分離することにより人工的に作出することもできる。本明細書に記載のスプリットインテインは、大きな温度範囲および塩の存在下で機能するという点で既知のスプリットインテインを超える利点を提供する。スプリットインテインまた、他の既知のスプリットインテインよりも速い反応でスプライスする。さらに、本明細書に記載のスプリットインテインは、インテイン内とエクステイン内の両方の配列変異および／または異種ポリペプチド配列に耐用性を示す。本明細書に記載のスプリットインテインは、Ｃ−エクステインの最初のアミノ酸に依存せずにＣ末端自己切断を遂行できるという点で既知のスプリットインテインを超える利点を提供する。

本明細書で使用するスプリットインテインは、ＨＩＮＴ（Ｈｏｇ／インテイン）ファミリーの６つの保存されているタンパク質スプライシングモチーフを含んでなり得る。このような保存されているモチーフの配列は、インテインドメイン内のどのアミノ酸がより厳格に保存されているか、およびどのアミノ酸があまり厳格に保存されていないかを推定するために使用することができる。厳格に保存されているアミノ酸の突然変異ほど、インテイン切断の有効性を低下させる可能性がある。

「インテインＮ末端ドメイン」とは、トランススプライシング反応および／またはＮ末端自己切断反応に機能的なＮ末端アミノ酸配列を含んでなるインテイン配列を意味する。インテインＮ末端ドメインは、トランススプライシングが起こった場合にスプライシングで切り出すことができる。インテイン配列がＮ末端ドメインであるかどうかを決定するための好適なアッセイは、トランススプライシング活性を測定するためのアッセイを提供する本発明の実施例１、またはＮ末端自己切断を検出するためのアッセイを提供する実施例６に見出すことができる。

インテインＮ末端ドメインは、ＨＩＮＴ（Ｈｏｇ／インテイン）ファミリーのＮ１、Ｎ２、Ｎ３、および／またはＮ４モチーフのうち１以上を含んでなり得る。よって、例えば、インテインＮ末端ドメインは、Ｎ１およびＮ３モチーフを含んでなり得る。

いくつかの態様では、インテインＮ末端ドメインは、Ｎ１ボックス（Ａボックス）配列を含んでなる。Ｎ１ボックスは厳格でない保存配列である。Ｎ１ボックスは、例えば、配列ＣｈｓＸｃｐｌｈＸＴＸＸＧ（配列番号４４）を含んでなることができ、ここで、ｈは疎水性アミノ酸であり、ｓは小型のアミノ酸であり、ｃは電荷を有するアミノ酸であり、ｐは極性アミノ酸であり、ｌは大型のアミノ酸である。いくつかの態様では、インテインＮ末端ドメインは、配列Ｘ_１Ｘ_２Ｘ_３Ｘ_４Ｘ_５Ｘ_６Ｘ_７Ｘ_８Ｘ_９Ｘ_１０Ｘ_１１Ｘ_１２Ｘ_１３（配列番号４５）を含んでなり、ここで、Ｘ_１はＣであり；Ｘ_２はＬ、Ｆ、またはＶであり；Ｘ_３はＳ、Ｔ、Ｖ、またはＡであり；Ｘ_４はＬ、Ｐ、Ｇ、またはＹであり；Ｘ_５はＤ、Ｅ、Ｋ、またはＧであり；Ｘ_６はＴまたはＡであり；Ｘ_７はＥ、Ｑ、Ｌ、Ｍ、Ｋ、またはＴであり；Ｘ_８はＩまたはＶであり；Ｘ_９はＬ、Ｑ、Ｖ、Ｎ、Ｋ、Ｄ、またはＴであり；Ｘ_１０はＴ、Ｉ、またはＶであり；Ｘ_１１はＶ、Ｐ、Ｑ、Ｎ、Ｅ、Ｋ、またはＬであり；Ｘ_１２はＥ、Ｑ、Ｇ、Ｎ、Ｙ、Ｉ、またはＥであり；かつＸ_１３はＹ、Ｇ、Ｋ、Ｐ、またはＤである。いくつかの態様では、インテインＮ末端ドメインは、配列Ｘ_１Ｘ_２Ｘ_３Ｘ_４Ｘ_５Ｘ_６Ｘ_７Ｘ_８Ｘ_９Ｘ_１０Ｘ_１１Ｘ_１２Ｘ_１３（配列番号４６）を含んでなり、ここで、Ｘ_１はＣであり；Ｘ_２はＬ、Ｆ、またはＶであり；Ｘ_３はＳ、Ｔ、Ｖ、またはＡであり；Ｘ_４はＬ、Ｐ、またはＧであり；Ｘ_５はＤ、Ｋ、またはＧであり；Ｘ_６はＴまたはＡであり；Ｘ_７はＱ、Ｌ、Ｍ、Ｋ、またはＴであり；Ｘ_８はＩまたはＶであり；Ｘ_９はＱ、Ｖ、Ｎ、Ｋ、Ｄ、またはＴであり；Ｘ_１０はＴ、Ｉ、またはＶであり；Ｘ_１１はＰ、Ｑ、Ｎ、Ｅ、Ｋ、またはＬであり；Ｘ_１２はＥ、Ｑ、Ｇ、Ｎ、Ｙ、Ｉ、またはＥであり、かつＸ_１３はＧ、Ｋ、Ｐ、またはＤである。

アミノ酸の化学特性に基づけば、それらは（ｉ）電荷型（Ｄ、Ｅ、Ｋ、Ｒ、Ｈ）、（ｉｉ）酸性（Ｄ、Ｅ）、（ｉｉｉ）塩基性（Ｋ、Ｒ、Ｈ）、（ｉｖ）小型（Ｖ、Ｃ、Ｓ、Ｔ、Ｐ、Ｇ、Ｄ、Ａ）、（ｖ）極性（Ｎ，Ｑ、Ｓ、Ｔ）、（ｖｉ）大型（Ｅ、Ｑ、Ｒ、Ｋ、Ｈ、Ｙ、Ｗ、Ｆ、Ｍ、Ｌ、Ｉ）、（ｖｉｉ）疎水性（Ｖ、Ｉ、Ｌ、Ｍ、Ｆ、Ｙ、Ｗ、Ａ）および（ｖｉｉｉ）求核性（Ｓ、Ｔ、Ｃ）に分類することができる。

いくつかの態様では、インテインＮ末端ドメインＮ１ボックスは、配列番号３のアミノ酸１〜１３に相当する配列と少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＮ末端ドメインＮ１ボックスは、配列番号１２のアミノ酸１〜１３に相当する配列と少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約４５％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＣ末端ドメインＮ１ボックスは、配列番号３４のアミノ酸１〜１３に相当する配列と少なくとも約４０％、少なくとも約４５％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＮ末端ドメインＮ１ボックスは、配列番号６４のアミノ酸１〜１３に相当する配列と少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約４５％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＮ末端ドメインＮ１ボックスは、配列番号２０のアミノ酸１〜１３に相当する配列と少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＮ末端ドメインは、Ｎ３ボックス（Ｂボックス）配列を含んでなる。Ｎ３ボックスは、厳格でない保存配列である。Ｎ３ボックスは、例えば、配列ＧＸＸｈＸｈＴＸａＨＸｈｈＴＸ（配列番号４７）を含んでなることができ、ここで、ｈは疎水性アミノ酸であり、ａは酸性アミノ酸である。いくつかの態様では、インテインＮ末端ドメインは、配列Ｘ_１Ｘ_２Ｘ_３Ｘ_４Ｘ_５Ｘ_６Ｘ_７Ｘ_８Ｘ_９Ｘ_１０Ｘ_１１Ｘ_１２Ｘ_１３Ｘ_１４Ｘ_１５（配列番号４８）を含んでなり、ここで、Ｘ_１はＧまたはＡであり；Ｘ_２はＳ、Ｋ、Ｑ、Ｎ、またはＦであり；Ｘ_３はＬ、Ｅ、Ｋ、またはＲであり；Ｘ_４はＩ、Ｌ、またはＶであり；Ｘ_５はＲ、Ｉ、Ｖ、またはＮであり；Ｘ_６はＡ、Ｃ、Ｖ、またはＥであり；Ｘ_７はＴ、Ｓ、またはＤであり；Ｘ_８はＫ、Ｅ、Ａ、Ｐ、またはＮであり；Ｘ_９はＤ、Ｅ、Ｎ、またはＩであり；Ｘ_１０はＨであり；Ｘ_１１はＫ、Ｌ、Ｑ、またはＭであり；Ｘ_１２はＦ、Ｖ、またはＩであり；Ｘ_１３はＭ、Ｐ、Ｆ、Ｙ、またはＡであり；Ｘ_１４はＴであり；かつＸ_１５はＶ、Ｑ、Ｋ、またはＬである。いくつかの態様では、インテインＮ末端ドメインは、配列Ｘ_１Ｘ_２Ｘ_３Ｘ_４Ｘ_５Ｘ_６Ｘ_７Ｘ_８Ｘ_９Ｘ_１０Ｘ_１１Ｘ_１２Ｘ_１３Ｘ_１４Ｘ_１５（配列番号４９）を含んでなり、ここで、Ｘ_１はＧまたはＡであり；Ｘ_２はＫ、Ｑ、Ｎ、またはＦであり；Ｘ_３はＥ、Ｋ、またはＲであり；Ｘ_４はＩ、Ｌ、またはＶであり；Ｘ_５はＲ、Ｉ、Ｖ、またはＮであり；Ｘ_６はＣ、Ｖ、またはＥであり；Ｘ_７はＴ、Ｓ、またはＤであり；Ｘ_８はＥ、Ａ、Ｐ、またはＮであり；Ｘ_９はＤ、Ｅ、Ｎ、またはＩであり；Ｘ_１０はＨであり；Ｘ_１１はＫ、Ｌ、Ｑ、またはＭであり；Ｘ_１２はＦ、Ｖ、またはＩであり；Ｘ_１３はＰ、Ｆ、Ｙ、またはＡであり；Ｘ_１４はＴであり；かつＸ_１５はＱ、Ｋ、またはＬである。

インテインＮ末端ドメインの最初のアミノ酸は保存性が高く、タンパク質スプライシング反応に重要である。従って、いくつかの態様では、インテインＮ末端ドメインの最初のアミノ酸は、システインである。いくつかの態様では、インテインＮ末端ドメインの最初のアミノ酸は、セリンである。他の態様では、インテインＮ末端ドメインの最初のアミノ酸は、異種ポリペプチドまたはＮ−エクステインとインテインとの間の切断を防ぐまたは減らすアミノ酸に変異させることができる。よって、いくつかの態様では、インテインＮ末端ドメインの最初のアミノ酸は、セリンまたはシステイン以外のアミノ酸である。例えば、インテインＮ末端ドメインの最初のアミノ酸は、アラニンであり得る。

いくつかの態様では、インテインＮ末端ドメインは、約５０〜約１５０個のアミノ酸である。いくつかの態様では、インテインＮ末端ドメインは、約６０〜約１４０個のアミノ酸である。いくつかの態様では、インテインＮ末端ドメインは、約７５〜約１２５個のアミノ酸である。いくつかの態様では、インテインＮ末端ドメインは、約７０〜約８０、約８０〜約９０、約９０〜約１００、約１００〜約１１０、約１１０〜約１２０、または約１２０〜約１３０個のアミノ酸である。

いくつかの態様では、インテインＮ末端ドメインは、配列番号３、１２、２０、３４および６４からなる群から選択される配列のアミノ酸を含んでなる。

いくつかの態様では、インテインＮ末端ドメインは、配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＮ末端ドメインは、ｇｐ４１−１（配列番号７９）、ｇｐ４１−２（配列番号８０）、ｇｐ４１−３（配列番号８１）、ｇｐ４１−４（配列番号８２）、ｇｐ４１−５（配列番号８３）、ｇｐ４１−６（配列番号８４）、ｇｐ４１−７（配列番号８５）、ｇｐ４１−８（配列番号８６）、ＩＭＰＤＨ−１（配列番号８７）、ＮｒｄＡ−１（配列番号８８）、ＮｒｄＡ−２（配列番号８９）、ＮｒｄＡ−４（配列番号９０）、ＮｒｄＡ−５（配列番号９１）、ＮｒｄＡ−６（配列番号９２）、ＮｒｄＪ−１（配列番号９３）およびＮｒｄＪ−２（配列番号９４）のＮ末端ドメインに相当する配列を含んでなる。

いくつかの態様では、インテインＮ末端ドメインは、配列番号３、１２、２０、３４および６４からなる群から選択される配列の少なくとも約１０個、少なくとも約２０個、少なくとも約３０個、少なくとも約４０個、または少なくとも約５０個のアミノ酸を含む。いくつかの態様では、インテインＮ末端ドメインは、配列番号３、１２、２０、３４および６４からなる群から選択される配列の少なくとも約１０個、少なくとも約２０個、少なくとも約３０個、少なくとも約４０個、または少なくとも約５０個の連続するアミノ酸を含む。いくつかの態様では、インテインＮ末端ドメインは、配列番号３、１２、２０、３４および６４からなる群から選択される配列の多くて約５個、約１０個、約１５個、約２０個、または約２５個のアミノ酸の欠失を含む。いくつかの態様では、インテインＮ末端ドメインは、配列番号３、１２、２０、３４および６４からなる群から選択される配列の多くて約５個、約１０個、約１５個、約２０個、または約２５個の連続するアミノ酸の欠失を含む。

いくつかの態様では、インテインＮ末端ドメインは、配列番号３の配列と少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＮ末端ドメインは、配列番号１２の配列と少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約４５％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＮ末端ドメインは、配列番号２０の配列と少なくとも約４０％、少なくとも約４５％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＮ末端ドメインは、配列番号６４の配列と少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約４５％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＮ末端ドメインは、配列番号３４の配列と少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

「インテインＣ末端ドメイン」とは、トランススプライシング反応および／またはＣ末端自己切断反応に機能的なＣ末端アミノ酸配列を含んでなるインテイン配列を意味する。インテインＣ末端ドメインは、トランススプライシングが起こった場合にスプライシングで切り出すことができる。所与のポリペプチドのどれがインテインＣ末端ドメインであるかを決定するための好適なアッセイは、機能的Ｎ末端インテインドメインの存在下でトランススプライシング活性を測定するためのアッセイを提供する本発明の実施例１、または最初のシステイン残基に突然変異を有するＮ末端インテインドメインの存在下で、Ｃ末端インテインと異種ポリペプチドとを含んでなる融合タンパク質のＣ末端自己切断を検出するためのアッセイを提供する実施例５に見出すことができる。

インテインＣ末端ドメインは、ＨＩＮＴ（Ｈｏｇ／インテイン）ファミリーのＣ１および／またはＣ２モチーフを含んでなり得る。

いくつかの態様では、インテインＣ末端ドメインは、Ｃ２ボックス（Ｆボックス）配列を含んでなる。Ｃ２ボックスは、厳格でない保存配列である。Ｃ２ボックスは、例えば、配列ＸｈｈＤＩｐＶＸＸｐＨＸＦＸ（配列番号５０）を含んでなることができ、ここで、ｈは疎水性アミノ酸であり、ｐは極性アミノ酸である。いくつかの態様では、インテインＣ末端ドメインは、配列Ｘ_１Ｘ_２Ｘ_３Ｘ_４Ｘ_５Ｘ_６Ｘ_７Ｘ_８Ｘ_９Ｘ_１０Ｘ_１１Ｘ_１２Ｘ_１３Ｘ_１４（配列番号５１）を含んでなり、ここで、Ｘ_１はＮ、Ｅ、Ｌ、Ｋ、Ｑ、Ｄ、Ｐ、またはＲであり；Ｘ_２はＶ、Ｌ、またはＴであり；Ｘ_３はＹ、Ｉ、Ｖ、Ｈ、またはＦであり；Ｘ_４はＤであり；Ｘ_５はＩまたはＬであり；Ｘ_６はＧ、Ｅ、Ｔ、Ｑ、またはＫであり；Ｘ_７はＶまたはＴであり；Ｘ_８はＥ、Ｓ、Ｔ、Ｄ、Ｎ、またはＫであり；Ｘ_９はＲ、Ｇ、Ｄ、Ｎ、Ｑ、Ｓ、またはＫであり；Ｘ_１０はＤ、Ｅ、Ｎ、Ｔ、またはＫであり；Ｘ_１１はＨ、Ｒ、Ｓ、Ｉ、またはＮであり；Ｘ_１２はＮ、Ｌ、Ｓ、Ｉ、またはＮであり；Ｘ_１３はＦ、Ｙ、Ｌ、またはＩであり；かつＸ_１４はＡ、Ｙ、Ｆ、Ｎ、Ｃ、またはＳである。いくつかの態様では、インテインＣ末端ドメインは、配列Ｘ_１Ｘ_２Ｘ_３Ｘ_４Ｘ_５Ｘ_６Ｘ_７Ｘ_８Ｘ_９Ｘ_１０Ｘ_１１Ｘ_１２Ｘ_１３Ｘ_１４（配列番号５２）を含んでなり、ここで、Ｘ_１はＥ、Ｌ、Ｋ、Ｑ、Ｄ、Ｐ、またはＲであり；Ｘ_２はＶ、Ｌ、またはＴであり；Ｘ_３はＹ、Ｉ、Ｖ、Ｈ、またはＦであり；Ｘ_４はＤであり；Ｘ_５はＩまたはＬであり；Ｘ_６はＧ、Ｅ、Ｔ、Ｑ、またはＫであり；Ｘ_７はＶまたはＴであり；Ｘ_８はＥ、Ｓ、Ｔ、Ｄ、Ｎ、またはＫであり；Ｘ_９はＧ、Ｄ、Ｎ、Ｑ、Ｓ、またはＫであり；Ｘ_１０はＤ、Ｅ、Ｎ、Ｔ、またはＫであり；Ｘ_１１はＨ、Ｒ、Ｓ、Ｉ、またはＮであり；Ｘ_１２はＮ、Ｌ、Ｓ、Ｉ、またはＮであり；Ｘ_１３はＦ、Ｙ、Ｌ、またはＩであり；かつＸ_１４はＡ、Ｙ、Ｆ、Ｎ、Ｃ、またはＳである。

いくつかの態様では、インテインＣ末端ドメインは、Ｃ１ボックス（Ｇボックス）配列の一部を含んでなる。Ｃ１ボックスは、厳格でない保存配列である。Ｃ１ボックスは、例えば、配列ｈＮＸＩｈＸＨＮｎ（配列番号５３）を含んでなることができ、ここで、ｈは疎水性アミノ酸であり、ｎは求核性アミノ酸である。いくつかの態様では、インテインＣ末端ドメインは、配列Ｘ_１Ｘ_２Ｘ_３Ｘ_４Ｘ_５Ｘ_６Ｘ_７Ｘ_８Ｘ_９（配列番号５４）を含んでなり、ここで、Ｘ_１はＬ、Ａ、Ｖ、Ｉ、またはＣであり；Ｘ_２はＮまたはＲであり；Ｘ_３はＧ、Ｄ、Ａ、またはＮであり；Ｘ_４はＩ、Ｆ、またはＴであり；Ｘ_５はＬ、Ｉ、またはＶであり；Ｘ_６はＶ、Ｉ、Ｔ、またはＡであり；Ｘ_７はＨまたはＳであり；Ｘ_８はＮであり；かつＸ_９はＳ、Ｔ、またはＣである。いくつかの態様では、インテインＣ末端ドメインは、配列Ｘ_１Ｘ_２Ｘ_３Ｘ_４Ｘ_５Ｘ_６Ｘ_７Ｘ_８Ｘ_９（配列番号５５）を含んでなり、ここで、Ｘ_１はＡ、Ｖ、Ｉ、またはＣであり；Ｘ_２はＮまたはＲであり；Ｘ_３はＧ、Ｄ、Ａ、またはＮであり；Ｘ_４はＩ、Ｆ、またはＴであり；Ｘ_５はＬまたはＶであり；Ｘ_６はＶ、Ｉ、またはＴであり；Ｘ_７はＨであり；Ｘ_８はＮであり；かつＸ_９はＳ、Ｔ、またはＣである。Ｃ１ボックス配列内で、Ｘ_１〜Ｘ_８のアミノ酸はインテイン配列に相当し、Ｘ_９はエクステインの最初のアミノ酸に相当する。

いくつかの態様では、インテインＣ末端Ｃ１−ボックスドメインは、配列番号７の最後の８個のアミノ酸に相当する配列と少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＣ末端Ｃ１ボックスドメインは、配列番号１６の最後の８個のアミノ酸に相当する配列と少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＣ末端Ｃ１ボックスドメインは、配列番号３８の最後の８個のアミノ酸に相当する配列と少なくとも約４５％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＣ末端Ｃ１ボックスドメインは、配列番号６５の最後の８個のアミノ酸に相当する配列と少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＣ末端Ｃ１ボックスドメインは、配列番号２４の最後の８個のアミノ酸に相当する配列と少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

インテインＣ末端ドメインの最後の２個のアミノ酸は保存性が高く、タンパク質スプライシング反応に重要である。従って、いくつかの態様では、インテインＣ末端ドメインの最後のアミノ酸はアスパラギンである。いくつかの態様では、インテインＣ末端ドメインの最後のアミノ酸はグルタミンである。いくつかの態様では、インテインＣ末端ドメインの最後から２番目のアミノ酸はヒスチジンである。他の態様では、インテインＣ末端ドメインの最後のアミノ酸および／または最後から２番目のアミノ酸は、異種ポリペプチドまたはエクステインとインテインとの間の切断を防ぐまたは減らすアミノ酸に変異させることができる。よって、いくつかの態様では、インテインＣ末端ドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸である。いくつかの態様では、インテインＣ末端ドメインの最後から２番目のアミノ酸は、ヒスチジン以外のアミノ酸である。いくつかの態様では、インテインＣ末端ドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸であり、かつ、エクステインＣ末端ドメインの最初のアミノ酸は、セリン以外のアミノ酸である。例えば、インテインＣ末端ドメインの最後のアミノ酸および／またはエクステインＣ末端ドメインの最初のアミノ酸はアラニンであり得る。

いくつかの態様では、インテインＣ末端ドメインは、約１０〜約８０個のアミノ酸である。いくつかの態様では、インテインＣ末端ドメインは、約２０〜約７０個のアミノ酸である。いくつかの態様では、インテインＣ末端ドメインは、約３０〜約６０個のアミノ酸である。いくつかの態様では、インテインＣ末端ドメインは、約２５〜約３５個、約３０〜約４０個、約３５〜約４５個、約４０〜約５０個、約４５〜約５５個、または約５５〜約６５個のアミノ酸である。

いくつかの態様では、インテインＣ末端ドメインは、配列番号７、１６、２４、３８および６５からなる群から選択される配列のアミノ酸を含んでなる。いくつかの態様では、インテインＣ末端ドメインは、配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、または少なくとも約９９％同一である配列を含んでなる。いくつかの態様では、インテインＣ末端ドメインは、配列番号７、１６、２４、３８および６５からなる群から選択される配列の少なくとも約１０個、少なくとも約２０個、少なくとも約３０個、少なくとも約４０個、または少なくとも約５０個のアミノ酸を含む。いくつかの態様では、インテインＣ末端ドメインは、配列番号７、１６、２４、３８および６５からなる群から選択される配列の少なくとも約１０個、少なくとも約２０個、少なくとも約３０個、少なくとも約４０個、または少なくとも約５０個の連続するアミノ酸を含む。いくつかの態様では、インテインＣ末端ドメインは、配列番号７、１６、２４、３８および６５からなる群から選択される配列の多くて約５個、約１０個、約１５個、約２０個、または約２５個のアミノ酸の欠失を含む。いくつかの態様では、インテインＣ末端ドメインは、配列番号７、１６、２４、３８および６５からなる群から選択される配列の多くて約５個、約１０個、約１５個、約２０個、または約２５個の連続するアミノ酸の欠失を含む。

いくつかの態様では、インテインＣ末端ドメインは、配列番号７の配列と少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＣ末端ドメインは、配列番号１６の配列と少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約４５％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＣ末端ドメインは、配列番号３８の配列と少なくとも約４０％、少なくとも約４５％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＣ末端ドメインは、配列番号６５の配列と少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約４５％、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＣ末端ドメインは、配列番号２４の配列と少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一である配列を含んでなる。

いくつかの態様では、インテインＣ末端ドメインは、ｇｐ４１−１（配列番号９５）、ｇｐ４１−２（配列番号９６）、ｇｐ４１−３（配列番号９７）、ｇｐ４１−８（配列番号９８）、ｇｐ４１−８（配列番号９９）、ＩＭＰＤＨ−１（配列番号１００）、ＩＭＰＤＨ−２（配列番号１０１）、ＩＭＰＤＨ−３（配列番号１０２）、ＮｒｄＡ−２（配列番号１０３）、ＮｒｄＡ−３（配列番号１０４）、ＮｒｄＡ−５（配列番号１０５）、ＮｒｄＡ−６（配列番号１０６）、ＮｒｄＡ−７（配列番号１０７）、ＮｒｄＪ−１（配列番号１０８）のＣ末端ドメインに相当する配列を含んでなる。

いくつかの態様では、インテインＮ末端ドメインおよびインテインＣ末端ドメインは、反対の電荷を有する。よって、いくつかの態様では、インテインＮ末端ドメインは負電荷を有し、インテインＣ末端ドメインは正電荷を有する。他の態様では、インテインＮ末端ドメインは正電荷を有し、インテインＣ末端ドメインは負電荷を有する。

インテインおよびスプリットインテインにおいて確認されているいくつかのボックス（Ｎ１、Ｎ２、Ｃ１およびＣ２）タンパク質配列のうち、Ｃ１は最も保存性の高いボックスであり、トランススプライシング反応に直接関与している。Ｃ１の中枢的役割はスプリットインテインを分類およびグループ分けする上で重要な特徴であると考えられる。

いくつかの態様では、インテインＣ末端ドメインは、ｇｐ−４１−１スプリットインテインのＣ末端ドメインのＣ１ボックスに相当する配列ＡＮＤＩＬＴＨＮＳ（配列番号７８）と少なくとも約６０％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、または少なくとも約９９％同一であるＣ１ボックスを含む。

本明細書の残りの部分について、下表のような場合の同一性は、アミノ酸総数に対する同一のアミノ酸のパーセンテージとして計算される。

表２：ｇｐ４１−１Ｃ１ボックス（ＡＮＤＩＬＴＨＮＳ、配列番号７８）に対する、数種のスプリットインテイン由来のＣ１ボックス（Ｇボックスとしても知られる）の同一性パーセンテージ。本特許出願の残りの部分について、同一性は、アミノ酸総数に対する同一のアミノ酸のパーセンテージとして計算される。分かりやすいように、同一性は同じ長さを有する２つの配列間で計算される。従来技術から既知のＤＮＡ−Ｅインテインは、Ｃ１ボックスがｇｐ４１−１Ｃ１ボックスと実質的な同一性を示さないという点で他のインテインとは異なる。

ＩＩＩ．インテイン融合タンパク質
スプリットインテインを含んでなる融合タンパク質もまた本明細書に記載される。インテインＮ末端ドメインおよび／またはインテインＣ末端ドメインは、直接的（すなわちペプチド結合を介して）または間接的（すなわちリンカーアミノ酸配列を介して）のいずれかで異種ポリペプチドと融合させることができる。

よって、いくつかの態様では、異種ポリペプチドを、インテインＮ末端ドメインのＮ末端に直接的または間接的のいずれかで融合させる。このようなポリペプチドはまた所望により、インテインＮ末端ドメイン（例えば、発現または精製タグ）のＣ末端に直接的もしくは間接的に融合された、または異種ポリペプチドのＮ末端に直接的もしくは間接的に融合された付加的アミノ酸または異種ポリペプチドを含んでなってもよい。

いくつかの態様では、異種ポリペプチドは、インテインＣ末端ドメインのＣ末端に直接的または間接的のいずれかで融合させる。このようなポリペプチドはまた所望により、インテインＣ末端ドメイン（例えば、発現または精製タグ）のＮ末端に直接的もしくは間接的に融合された、または異種ポリペプチドのＣ末端に直接的もしくは間接的に融合された付加的アミノ酸または異種ポリペプチドを含んでなってもよい。

いくつかの態様では、インテインＣ末端ドメインのＣ末端に融合された異種ポリペプチドを含んでなる融合タンパク質と、インテインＮ末端ドメインのＮ末端に融合された異種ポリペプチドを含んでなる融合タンパク質が、２つの別個のポリペプチドとして発現される。

いくつかの態様では、インテインＣ末端ドメインのＣ末端に融合された異種ポリペプチドを含んでなる融合タンパク質と、インテインＮ末端ドメインのＮ末端に融合された異種ポリペプチドを含んでなる融合タンパク質が、単一のポリペプチドとして発現される。インテインＣ末端ドメインのＣ末端に融合された異種ポリペプチドを含んでなる融合タンパク質は、インテインＮ末端ドメインのＮ末端に融合された異種ポリペプチドを含んでなる融合タンパク質から約１〜約１０００個、約１〜約５００個、約１〜約２５０個、約１〜約２００個、約１〜約１５０個、約１〜約１００個、または約１〜約５０個のアミノ酸により分離することができる。

いくつかの態様では、融合タンパク質は、異種ポリペプチドのＮ末端に融合されたインテインＣ末端ドメインを含んでなる。好ましい態様では、融合タンパク質は、（ｉ）配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一であるインテインドメインと（ｉｉ）異種ポリペプチドとを含んでなり、前記異種ポリペプチドは前記インテインドメインのＣ末端にある。さらにより好ましい態様では、インテインドメインの最後のアミノ酸はグルタミンまたはアスパラギンである。さらに別の態様では、異種ポリペプチドの最初のアミノ酸は、Ｍｅｔ、Ｃｙｓ、Ｔｈｒ、Ａｒｇ、Ｌｙｓ、Ｓｅｒ、Ｇｌｎ、Ｈｉｓ、Ａｌａ、Ｔｙｒ、Ｐｈｅ、Ａｓｎ、Ｔｒｐ、Ｖａｌ、Ｌｅｕ、Ａｓｐ、Ｉｌｅ、Ｇｌｙ、ＧｌｕまたはＰｒｏからなる群から選択される。別の態様では、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸であり、異種ポリペプチドの最初のアミノ酸は、Ｍｅｔ、Ｃｙｓ、Ｔｈｒ、Ａｒｇ、Ｌｙｓ、Ｓｅｒ、Ｇｌｎ、Ｈｉｓ、Ａｌａ、Ｔｙｒ、Ｐｈｅ、Ａｓｎ、Ｔｒｐ、Ｖａｌ、Ｌｅｕ、Ａｓｐ、Ｉｌｅ、Ｇｌｙ、ＧｌｕまたはＰｒｏからなる群から選択される。別の態様では、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸であり、異種ポリペプチドの最初のアミノ酸は、セリン、システイン、またはトレオニン以外のアミノ酸である。

いくつかの態様では、融合タンパク質は、異種ポリペプチドのＣ末端に融合されたインテインＮ末端ドメインを含んでなる。別の態様では、融合タンパク質は、（ｉ）配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一であるインテインドメインとｉｉ）異種ポリペプチドとを含んでなり、前記異種ポリペプチドは前記インテインドメインのＮ末端にある。好ましい態様では、インテインドメインの最初のアミノ酸は、セリンまたはシステインである。さらに別の態様では、インテインドメインの最初のアミノ酸は、セリンまたはシステイン以外のアミノ酸である。

異種ポリペプチドは、例えば、酵素、ホルモン（カルシトニン、エリスロポエチン、トロンボポエチン、ヒト成長ホルモン、上皮細胞増殖因子など）、インターフェロン、サイトカイン、治療用途、栄養補助用途、農業用途、または工業用途を有するタンパク質であり得る。さらなる異種ポリペプチドは、酵素、抗体、抗体フラグメント、および医薬用タンパク質であり得る。異種ポリペプチドはまた、ポリペプチド断片であり得る。

異種ポリペプチドはまた、例えば、抗体鎖、シングルドメイン抗体、ラクダ科重鎖抗体（ＶＨＨもしくはナノボディー）、または一価（可変領域フラグメント（Ｆｖ）、ジスルフィド安定化Ｆｖ抗体フラグメント（ｄｓＦｖ）、ｓｃＦｖ、一本鎖抗体フラグメント（ｓｃＡｂ）およびＦａｂ）、二価（ミニボディー、ダイアボディー、Ｆ（ａｂ’）_２および（ｓｃＦｖ）_２）および多価（テトラボディー、トリアボディーおよびＦ（ａｂ’）_３）形式などの抗体ドメインの組合せを用いて開発された組換え抗体（Vijayalakshmi B et al. Methods Volume 56, Issue 2, February 2012, 116-129の図３）であり得る。

いくつかの態様では、異種ポリペプチドの最初のアミノ酸は、セリン、システイン、またはトレオニンである。いくつかの態様では、異種ポリペプチドの最初のアミノ酸は、セリン、システイン、またはトレオニンではない。

いくつかの態様では、異種ポリペプチドとインテインまたはインテインドメインとを含んでなる融合タンパク質は、精製タグまたは発現タグなどの付加的配列をさらに含んでなる。このような発現および／または精製タグは、例えば、Ｓｔｒｅｐ、Ｈｉｓ、およびＭｙｃタグを含む。

いくつかの態様では、融合タンパク質は、タンパク質溶解度を高める配列、例えば、ファージバクテリオファージλ頭部タンパク質Ｄ（ｇｐＤ）、チオレドキシン（Ｔｘ）またはＧＳＴをさらに含んでなる。

いくつかの態様では、異種ポリペプチドおよびインテインＮ末端および／またはＣ末端ドメインを含んでなる融合タンパク質は、とりわけ、蛍光基、ビオチン、ポリエチレングリコール（ＰＥＧ）、アミノ酸類似体、非天然アミノ酸、リン酸基、グリコシル基、放射性同位元素標識、および医薬分子を含む付加的化学部分を含んでなり得る。他の態様では、異種ポリペプチドは、とりわけ、ケトン、アルデヒド、Ｃｙｓ残基およびＬｙｓ残基を含む１以上の化学反応性基を含んでなり得る。

いくつかの態様では、融合タンパク質は、異種ポリペプチドとインテイン配列との間にリンカーを含んでなる。よって、融合タンパク質は、異種タンパク質のＣ末端とインテインのＮ末端ドメインのＮ末端との間にリンカーを含んでなり得る。融合タンパク質はまた、異種タンパク質のＮ末端とインテインのＣ末端ドメインのＣ末端との間にリンカーを含んでなることもできる。リンカーは、例えば、１〜１０アミノ酸長であり得る。リンカーは、１〜５アミノ酸長であり得る。よって、リンカーは、１、２、３、４、または５個のアミノ酸を含み得る。いくつかの態様では、リンカーは、エクステイン配列を含んでなり得る。

いくつかの態様では、異種ポリペプチドおよびインテインのＣ末端ドメインのＣ末端と接するリンカーの最初のアミノ酸は、Ｍｅｔ、Ｃｙｓ、Ｔｈｒ、Ａｒｇ、Ｌｙｓ、Ｓｅｒ、Ｇｌｎ、Ｈｉｓ、Ａｌａ、Ｔｙｒ、Ｐｈｅ、Ａｓｎ、Ｔｒｐ、Ｖａｌ、Ｌｅｕ、Ａｓｐ、Ｉｌｅ、Ｇｌｙ、ＧｌｕまたはＰｒｏからなる群から選択される。さらに別の態様では、異種ポリペプチドおよびインテインのＣ末端ドメインのＣ末端と接するリンカーの最初のアミノ酸は、セリン、システイン、またはトレオニンを含んでなり得る。インテインのＣ末端ドメインのＣ末端に隣接するセリン、システイン、またはトレオニンは、Ｃ末端切断（すなわち、インテインＣ末端ドメインと異種ポリペプチドのセリン、システイン、またはトレオニンとの間の切断）の効率を高めることができる。いくつかの態様では、リンカーの１番目、２番目、３番目、４番目および／または５番目のアミノ酸はセリン、システイン、またはトレオニンである。

いくつかの態様では、リンカーは、天然エクステイン配列を含んでなり得る。本発明において、用語「エクステイン」とは、本来インテインまたはインテインドメインに隣接して見られる配列を意味する。よって、本来インテインまたはインテインドメインに隣接して見られないポリペプチドである異種ポリペプチドは、エクステインではない。いくつかの態様では、エクステインは、配列番号４、８、１３、１７、２１、２５、３５、および３９からなる群から選択される配列を含んでなる。いくつかの態様では、エクステインのアミノ酸を含んでなるリンカーは、配列番号４、８、１３、１７、２１、２５、３５、および３９からなる群から選択される配列の、例えば、最初（すなわち、Ｎ末端）の１〜５個のアミノ酸を含んでなる。いくつかの態様では、リンカーは、配列番号４、８、１３、１７、２１、２５、３５、および３９からなる群から選択される配列の１、２、３、４、または５個のアミノ酸を含んでなる。いくつかの態様では、融合タンパク質は、本来一緒に見られるインテインドメインとエクステインドメインを含んでなる。他の態様では、融合タンパク質は、本来一緒に見られないインテインドメインとエクステインドメイン、すなわち、異種エクステインドメインを含んでなる。例として、融合タンパク質は、Ｇｐ４１．１インテインドメインと、ＩＭＰＤＨエクステインドメインなどの異種エクステインドメインとを含んでなり得る。

ＩＩＩ．インテイン融合物をコードするポリヌクレオチドおよびインテイン融合物の発現
インテイン融合物をコードするポリヌクレオチドも本明細書に記載される。ポリヌクレオチドは、ＲＮＡまたはＤＮＡの形態であり得る。ＤＮＡは、ｃＤＮＡ、ゲノムＤＮＡ、および合成ＤＮＡを含み、二本鎖または一本鎖であってよく、一本鎖である場合、コード鎖であっても非コード（アンチセンス）鎖であってもよい。特定の態様では、ポリヌクレオチドは単離される。特定の態様では、ポリヌクレオチドは実質的に純粋される。

このようなポリヌクレオチドは、例えば、インテイン融合タンパク質を生産するための発現ベクターに組み込むことができる。発現ベクターは、好適な転写または翻訳調節エレメントに作動可能に連結されたインテイン融合タンパク質をコードする合成またはｃＤＮＡ由来ＤＮＡ断片を有する複製可能なＤＮＡ構築物である。転写または翻訳調節エレメントは、例えば、哺乳動物、微生物、ウイルス、または昆虫遺伝子に由来し得る。転写単位は一般に、下記に詳細に記載されるように、（１）遺伝子エレメントまたは遺伝子発現の調節の役割を有するエレメント、例えば、転写プロモーターまたはエンハンサー、（２）ｍＲＮＡに転写され、タンパク質に翻訳される構造またはコード配列、および（３）適当な転写および翻訳開始および終結配列のアセンブリを含んでなる。このような調節エレメントは、転写を制御するためのオペレーター配列を含むことができる。宿主における複製能は、通常、複製起点により付与され、形質転換体の認識を容易にするための選択遺伝子をさらに組み込むことができる。ＤＮＡ領域は、互いに機能的に関連づけられる場合に、作動可能に連結されると言う。例えば、シグナルペプチドのＤＮＡは、それがポリペプチドの分泌に関与する前駆体として発現される場合に、そのポリペプチドのＤＮＡに作動可能に連結されると言い；プロモーターは、それが配列の転写を制御する場合に、コード配列に作動可能に連結されると言い；またはリボソーム結合部位は、それが翻訳を可能とするように配置される場合に、コード配列に作動可能に連結されると言う。

発現制御配列および発現ベクターの選択は、宿主の選択に依存する。多様な発現宿主／ベクターの組合せが利用できる。真核生物宿主に有用な発現ベクターとしては、例えば、ＳＶ４０、ウシ乳頭腫ウイルス、アデノウイルスおよびサイトメガロウイルス由来の発現制御配列を含んでなるベクターが含まれる。細菌宿主に有用な発現ベクターとしては、ｐＣＲ１、ｐＢＲ３２２、ｐＭＢ９およびそれらの誘導体を含む大腸菌(Esherichia coli)由来のプラスミドなどの既知の細菌プラスミド、Ｍ１３および微細線維性一本鎖ＤＮＡファージなどの広宿主域プラスミドが含まれる。

いくつかの態様では、インテインをコードするポリヌクレオチドを含んでなるベクターは、多重クローニング部位をさらに含んでなる。多重クローニング部位は、１以上のユニークな制限部位を含んでなるポリヌクレオチド配列である。制限部位の限定されない例としては、ＥｃｏＲＩ、ＳａｃＩ、ＫｐｎＩ、ＳｍａＩ、ＸｍａＩ、ＢａｍＨＩ、ＸｂａＩ、ＨｉｎｃＩＩ、ＰｓｔＩ、ＳｐｈＩ、ＨｉｎｄＩＩＩ、ＡｖａＩ、またはそれらの任意の組合せが含まれる。

多重クローニング部位は、インテインをコードするポリヌクレオチドを含んでなるベクターで、異種ポリペプチドをコードするポリヌクレオチドのベクターへの挿入を簡単にするために使用することができ、これにより、ベクターは、インテインと異種ポリペプチドとを含んでなる融合タンパク質を発現させるために使用することができる。よって、例えば、ベクターは、多重クローニング部位の上流にインテインＣ末端ドメインをコードする配列を含んでなることができ、これにより、異種ポリペプチドをコードする配列がインテインＣ末端ドメインの下流に容易に挿入できる。ベクターはまた、多重クローニング部位の下流にインテインＮ末端ドメインをコードする配列を含んでなることもでき、これにより、異種ポリペプチドをコードする配列は、インテインＮ末端ドメインの上流に容易に挿入できる。

よって、例えば、ベクターは、多重クローニング部位の上流にインテインＣ末端ドメインをコードする配列を含んでなることができ、そしてこれはインテインＮ末端ドメインをコードする配列の上流にあるので、異種ポリペプチドをコードする配列は、インテインＣ末端ドメインの下流、かつ、インテインＮ末端ドメインの上流に容易に挿入することができる。

インテインＮ末端ドメインの上流に多重クローニング部位を伴うポリヌクレオチドを含んでなるベクターは、インテインＣ末端ドメインの下流に多重クローニング部位を伴うポリヌクレオチドを含んでなるベクターとキットとして組み合わせることができる。いくつかの態様では、単一のベクターが、インテインＮ末端ドメインの上流に多重クローニング部位を伴うポリヌクレオチドを、およびインテインＣ末端ドメインの下流に多重クローニング部位を伴うポリヌクレオチド含んでなる。このようなベクターでは、インテインＮ末端ドメインの上流の多重クローニング部位を伴うポリヌクレオチドとインテインＣ末端ドメインの下流の多重クローニング部位を伴うポリヌクレオチドはそれぞれ、調節配列に作動可能に連結させることができ、調節配列は同一であっても異なっていてもよい。

ベクターは、少なくとも１つのプロモーターを含んでなり得る。プロモーターは、インテインドメインまたはインテイン融合物の発現を駆動するために好適な任意の配列であり得る。

宿主が異なれば、特定のアミノ酸残基をコードするために使用すべき特定のコドンの選好を持っている場合が多い。このようなコドンの選好は周知であり、目的の融合タンパク質配列をコードするＤＮＡ配列を、ｉｎｖｉｔｒｏ突然変異誘発を用い、例えば、融合タンパク質を発現させる特定の宿主に対して宿主が選好するコドンが使用されるように変更することができる。

また、上述のように、企図する融合タンパク質をコードする遺伝子を定義する外因性核酸セグメント（例えば、ＤＮＡセグメントまたは配列）に作動可能に連結された、適合する細菌または真核生物宿主細胞生物においてその遺伝子の発現を駆動するのに好適なプロモーターなどの１以上の調節配列（制御エレメント）を含む遺伝子ベクターまたは構築物を含んでなる、ＤＮＡ分子などの組換え核酸分子も企図される。より詳しくは、異種ポリペプチドに連結されたインテインドメインをコードする遺伝子を定義するＤＮＡセグメントに作動可能に連結された、宿主生物細胞においてその融合タンパク質の発現を駆動するためのプロモーターを含んでなる遺伝子ベクターを含んでなる組換えＤＮＡ分子もまた企図される。このような組換えＤＮＡ分子は、宿主細胞における好適なトランスフェクションおよび発現時に企図する融合タンパク質を提供する。

当技術分野で周知のように、必要な核酸、例えばＤＮＡ配列（開始および終止シグナルを含む）が存在する限り、通常、そのＤＮＡセグメントのいずれかの末端に付加的な塩基対が存在してもよく、このようなセグメントはタンパク質を発現させるためにやはり利用可能である。当然のことながら、これは、発現を抑制する、または発現を望む融合タンパク質を消費するさらなる産物を発現する、または目的の融合タンパク質によって生産される所望の反応産物を消費する産物を発現する、またはそうでなければそのＤＮＡセグメントの遺伝子の発現に干渉する、作動可能に連結されたＤＮＡ配列のセグメントが存在しないことを仮定したものである。

よって、ＤＮＡセグメントにこのような干渉ＤＮＡ配列が存在しない限り、本発明のＤＮＡセグメントは約５００〜約１５，０００塩基対の長さであり得る。組換えＤＮＡ分子、特に発現ベクターの最大サイズは、所望により複製および発現に必要な最小ＤＮＡ配列の総てがひとたび出そろえば、ほとんど利便性と宿主細胞により収容可能なベクターサイズにより左右される。最小のベクターサイズは周知である。

融合タンパク質をコードするＤＮＡセグメントは、化学技術、例えば、Matteucci et al., 1981 J. Am. Chem. Soc., 103:3185のホスホトリエステル法によって合成することができる。当然のことながら、コード配列を化学的に合成することにより、天然のアミノ酸残基配列をコードするものを適当な塩基で置換することにより、任意の所望の修飾を簡単に行うことができる。

融合タンパク質をコードする遺伝子を含むＤＮＡセグメントはまた、その遺伝子を含む組換えＤＮＡ分子（プラスミドベクター）から得ることもできる。

宿主細胞において融合タンパク質遺伝子の発現を指示するベクターは、本明細書で「発現ベクター」と呼ばれる。発現ベクターは、プロモーターを含む発現制御エレメントを含む。融合タンパク質コード遺伝子は、プロモーター配列にＲＮＡポリメラーゼの結合および融合タンパク質コード遺伝子の発現を指示させることができるように、発現ベクターに作動可能に連結される。Paszkowski et al., 1989 EMBO J., 3:2719 and Odell et al., 1985 Nature, 313:810に記載されているような誘導型、ウイルス型、合成型、構成型、ならびにChua et al., 1989 Science, 244:174-181に示されているような時間的調節型、空間的調節型、および時空間的調節型であるプロモーターがポリペプチドコード遺伝子の発現に有用である。

本明細書では、真核細胞に適合する発現ベクター、例えば、原核生物（大腸菌）、哺乳動物、藻類または昆虫などの細胞に適合するものが企図される。このような発現ベクターは、本発明の組換えＤＮＡ分子を形成するためにも使用可能である。原核細胞および真核細胞発現ベクターは当技術分野で周知であり、いくつかの商業ソースから入手可能である。通常、このようなベクターは、所望のＤＮＡセグメントおよびプロモーター配列の挿入のための１以上の好都合な制限部位を含む。所望により、このようなベクターは、原核細胞または真核細胞における使用に特異的な選択マーカーを含む。

どの発現ベクターか、最終的には、どのプロモーターに融合タンパク質コード遺伝子が作動可能に連結されるかの選択は、直接的には所望の機能的特性、例えば、タンパク質発現の場所および時機、ならびに形質転換される宿主細胞に依存する。組換えＤＮＡ分子の構築分野に内在する周知の制限がある。しかしながら、本発明の実施に有用なベクターは、それが作動可能に連結されているＤＮＡセグメントに含まれる融合タンパク質遺伝子の複製を、および好ましくは発現もまた（発現ベクターの場合）指示することができる。

スプリットインテイン融合タンパク質は、任意の細胞種で発現させることができる。例えば、スプリットインテイン融合タンパク質は、原核生物、植物（例えば、単子葉または双子葉）、動物、昆虫、真菌、または酵母（例えば、サッカロミセス(Saccharomyces)またはピキア(Pichia)）で発現させることができる。好適な細胞としては、例を挙げれば、植物（例えば、トマト、タバコ、アブラナ科(Arabidopsis)、アルファルファ）、哺乳動物細胞（例えばＣＨＯ、ＣＯＳおよび２９３Ｔ細胞）、糸状真菌（例えば、トリコデルマ・リーゼイ(Tricoderma resei)およびアスペルギルス(Aspergillus)種）、および昆虫細胞が含まれる。好適な哺乳動物宿主細胞株の例としては、Gluzman (Cell 23:175, 1981)に記載されているサル腎臓細胞のＣＯＳ−７株、および例えば、Ｌ細胞、Ｃ１２７、３Ｔ３、チャイニーズハムスター卵巣（ＣＨＯ）、ＨｅＬａおよびＢＨＫ細胞株を含む、適当なベクターを発現させることができる他の細胞株があげられる。昆虫細胞における異種タンパク質の生産のためのバキュロウイルス系は、Luckow and Summers, Bio/Technology 6:47 (1988)に概説されている。スプリットインテイン融合タンパク質は、このような細胞から、当技術分野で公知の技術を用いて精製することができる。さらに、スプリットインテイン融合タンパク質は、無細胞転写／翻訳系で生産することもできる。

ＩＶ．インテイン融合物を含んでなる組成物
本発明はまた、本発明の融合タンパク質を含有する組成物およびパーツキットに関する。本発明において用語「組成物」とは１以上の成分の組合せを意味し、これらの成分は、
（ｉ）別個の処方物として提供し（すなわち、互いに独立）、次に、互いに併用するために一緒にすることができ；または
（ｉｉ）互いに併用するために、「合剤パック」の別個の成分として一緒に包装および提供することができる。

一態様では、組成物またはパーツキットは、インテインのＣ末端ドメインのＣ末端に連結されているポリペプチドのＣ末端切断に十分な成分を含んでなる。これらの組成物は、
（ｉ）（ｉ）配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一であるインテインドメインと、（ｉｉ）異種ポリペプチド（前記異種ポリペプチドは前記インテインドメインのＣ末端にある）とを含んでなる融合タンパク質である第１の成分、ならびに
（ｉｉ）（ｉ）配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一であるインテインドメインと、（ｉｉ）異種ポリペプチド（前記異種ポリペプチドは前記インテインドメインのＮ末端にある）とを含んでなる融合タンパク質、およびＮ末端インテインドメイン（前記インテインドメインの最初のアミノ酸がセリンまたはシステイン以外のアミノ酸である）からなる群から選択される第２の成分
を含んでなり、ここで、
ａ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号７と少なくとも７５％同一であり、かつ、第２の成分を形成する融合タンパク質に由来するインテインドメインまたはＮ末端インテインドメインは配列番号３と少なくとも７５％同一であり；
ｂ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号１６と少なくとも７５％同一であり、かつ、第２の成分の融合タンパク質に由来するインテインドメインまたはＮ末端インテインドメインは配列番号１２と少なくとも７５％同一であり；
ｃ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号２４と少なくとも７５％同一であり、かつ、第２の成分を形成する融合タンパク質に由来するインテインドメインまたはＮ末端インテインドメインは配列番号２０と少なくとも７５％同一であり；
ｄ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号３８と少なくとも７５％同一であり、かつ、第２の成分を形成する融合タンパク質に由来するインテインドメインまたはＮ末端インテインドメインは配列番号３４と少なくとも７５％同一であり；あるいは
ｅ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号６５と少なくとも７５％同一であり、かつ、第２の成分を形成する融合タンパク質に由来するインテインドメインまたはＮ末端インテインドメインは配列番号６４と少なくとも７５％同一である。

別の態様では、パーツキットの組成物の第１の成分を形成する融合タンパク質を形成する異種ポリペプチドとインテインドメインは、ペプチド結合により直接連結されるかまたはリンカーにより連結される。別の態様では、Ｃ末端インテインドメインの最後のアミノ酸は、グルタミンまたはアスパラギンである。

別の態様では、第２の成分は、配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一であるインテインドメインからなる群から選択され、インテインドメインの最初のアミノ酸は、セリンまたはシステイン以外のアミノ酸である。(no tengo claro que sea necesario que el dominio N de la inteina este fusionado a una proteina heterologa para funcionar)

別の態様では、本発明の組成物またはパーツキットは、インテインのＮ末端ドメインのＮ末端に連結されているポリペプチドのＮ末端切断に十分な成分を含んでなる。これらの組成物は、
（ｉ）（ｉ）配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一であるインテインドメインと、（ｉｉ）異種ポリペプチド（この異種ポリペプチドは前記インテインドメインのＮ末端にある）とを含んでなる融合タンパク質である第１の成分、ならびに
（ｉｉ）（ｉ）配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一であるインテインドメインと、（ｉｉ）異種ポリペプチド（前記異種ポリペプチドは前記インテインドメインのＣ末端にある）とを含んでなる融合タンパク質、およびＣ末端インテインドメイン（前記インテインドメインの最後のアミノ酸がアスパラギンまたはグルタミン以外のアミノ酸であり、前記異種ポリペプチドまたは前記リンカーの最初のアミノ酸がセリン、システイン、またはトレオニン以外のアミノ酸である）からなる群から選択される第２の成分
を含んでなり、ここで、
ａ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号３と少なくとも７５％同一であり、かつ、第２の成分を形成する融合タンパク質に由来するインテインドメインまたはＣ末端インテインドメインは配列番号７と少なくとも７５％同一であり；
ｂ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号１２と少なくとも７５％同一であり、かつ、第２の成分に由来するインテインドメインまたはＣ末端インテインドメインは配列番号１６と少なくとも７５％同一であり；
ｃ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号２０と少なくとも７５％同一であり、かつ、第２の成分を形成する融合タンパク質に由来するインテインドメインまたはＣ末端インテインドメインは配列番号２４と少なくとも７５％同一であり；
ｄ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号３４と少なくとも７５％同一であり、かつ、第２の成分を形成する融合タンパク質に由来するインテインドメインまたはＣ末端インテインドメインは配列番号３８と少なくとも７５％同一であり；あるいは
ｅ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号６４と少なくとも７５％同一であり、かつ、第２の成分を形成する融合タンパク質に由来するインテインドメインまたはＣ末端インテインドメインは配列番号６５と少なくとも７５％同一である。

好ましい態様では、組成物またはパーツキットの第１の成分を形成する異種ポリペプチドとインテインドメインは、ペプチド結合により直接連結されるかまたはリンカーにより連結される。別の態様では、インテインドメインの最初のアミノ酸は、セリンまたはシステインである。

別の態様では、第２の成分は、配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一であるインテインドメインからなる群から選択され、インテインドメインの最後のアミノ酸は、アスパラギンまたはグルタミン以外のアミノ酸である。

別の態様では、本発明による組成物またはパーツキットは、第１のポリペプチドのＮ末端を第２のポリペプチドのＣ末端に共有結合させるのに十分な試薬を含んでなり、前記組成物は、
（ｉ）（ｉ）配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一であるインテインドメインと、（ｉｉ）第２の異種ポリペプチド（前記異種ポリペプチドは前記インテインドメインのＣ末端にある）とを含んでなる融合タンパク質、ならびに
（ｉｉ）（ｉ）配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一であるインテインドメインと、（ｉｉ）第１の異種ポリペプチド（前記異種ポリペプチドは前記インテインドメインのＮ末端にある）とを含んでなる融合タンパク質
を含んでなり、ここで、
ａ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号７と少なくとも７５％同一であり、かつ、第２の成分を形成する融合タンパク質に由来するインテインドメインは配列番号３と少なくとも７５％同一であり；
ｂ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号１６と少なくとも７５％同一であり、かつ、第２の成分を形成する融合タンパク質に由来するインテインドメインは配列番号１２と少なくとも７５％同一であり；
ｃ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号２４と少なくとも７５％同一であり、かつ、第２の成分を形成する融合タンパク質に由来するインテインドメインは配列番号２０と少なくとも７５％同一であり；
ｄ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号３８と少なくとも７５％同一であり、かつ、第２の成分を形成する融合タンパク質に由来するインテインドメインは配列番号３４と少なくとも７５％同一であり；あるいは
ｅ．第１の成分を形成する融合タンパク質に由来するインテインドメインは配列番号６５と少なくとも７５％同一であり、かつ、第２の成分を形成する融合タンパク質に由来するインテインドメインは配列番号６４と少なくとも７５％同一である。

好ましい態様では、組成物の第１の成分である融合タンパク質の一部を形成する異種ポリペプチドとインテインドメインは、ペプチド結合により直接連結されるかまたはリンカーにより連結される。より好ましい態様では、本発明の第１の成分である融合タンパク質中のインテインドメインの最後のアミノ酸は、グルタミンまたはアスパラギンである。

別の好ましい態様では、組成物の第２の成分である融合タンパク質の一部を形成する異種ポリペプチドとインテインドメインは、ペプチド結合により直接連結されるかまたはリンカーにより連結される。より好ましい態様では、本発明の第２の成分である融合タンパク質中のインテインドメインの最初のアミノ酸は、セリンまたはシステインである。

組成物中の成分の比率は、融合タンパク質の効率的プロセシングに十分なものである。第１の成分と第２の成分の好適な比率としては、限定されるものではないが、１０００：１、１００：１、１０：１、１：１、１：１０、１：１００および１：１０００が含まれる。

Ｖ．インテイン融合物の使用方法
本明細書に記載のスプリットインテインおよびスプリットインテインを含んでなる融合タンパク質は、例えば、ポリペプチド配列を切断、連結（スプライシング）および／または環化するために使用することができる。インテイン配列はこれらの反応を触媒し、これらの反応は、他の酵素、化学添加剤、または処理の不在下で起こり得る。

いくつかの態様では、異種ポリペプチドをインテインドメインから切断することができる。例えば、異種ポリペプチドは、異種ポリペプチドとインテインＮ末端ドメインとの間の切断を防ぐまたは減らすアミノ酸配列を含んでなる融合タンパク質を含んでなるスプリットインテインを用いて、インテインＣ末端ドメインのＣ末端から切断することができる。好ましい態様では、インテインＮ末端ドメインの最初のアミノ酸は、システインまたはセリン以外のアミノ酸、例えば、アラニンである。異種ポリペプチドの最初のアミノ酸は、反応半減期の延長をもたらす、またはｋ値の増加をもたらすという理由で、反応収率を高めるために選択することができる。よって、好ましい態様では、異種ポリペプチド、またはインテインＣ末端ドメインと異種ポリペプチドを連結しているリンカーの最初のアミノ酸は、Ｍｅｔ、Ｃｙｓ、Ｔｈｒ、Ａｒｇ、Ｌｙｓ、Ｓｅｒ、Ｇｌｎ、Ｈｉｓ、Ａｌａ、Ｔｙｒ、Ｐｈｅ、Ａｓｎ、Ｔｒｐ、Ｖａｌ、Ｌｅｕ、Ａｓｐ、Ｉｌｅ、Ｇｌｙ、ＧｌｕまたはＰｒｏからなる群から選択される。

さらに、異種ポリペプチドは、異種ポリペプチドとインテインＣ末端ドメインとの間の切断を減らすアミノ酸配列を含む融合タンパク質を含んでなるスプリットインテインを用いて、インテインＮ末端ドメインのＮ末端から切断することができる。好ましい態様では、インテインＣ末端ドメインの最後のアミノ酸は、グルタミンまたはアスパラギン以外のアミノ酸、例えば、アラニンである。

いくつかの態様では、第１のポリペプチドとインテインＮ末端ドメインとを含んでなる融合タンパク質を、第２のポリペプチドとインテインＣ末端ドメインとを含んでなる融合タンパク質と接触させることにより、第１のポリペプチドを第２のポリペプチドに連結（スプライシング）することができる。第１のポリペプチドのＣ末端が、第２のポリペプチドのＮ末端と連結されることになる。

いくつかの態様では、スプリットインテインは、ポリペプチドのＮ末端にインテインＣ末端ドメイン、およびポリペプチドのＣ末端にインテインＮ末端ドメインを含んでなるポリペプチドを環化するために使用することができる。

いくつかの態様では、反応は約０℃〜約６０℃で行う。いくつかの態様では、反応は約０℃、約４℃、約８℃、約１２℃、約２０℃、約２５℃、約３０℃、約３２℃、約３４℃、約３７℃、約４０℃、約４５℃、約５０℃、約５５℃、または約６０℃で行う。

いくつかの態様では、反応はｐＨ約５〜約１０で行う。いくつかの態様では、反応はｐＨ約６、約６．５、約７、約７．５、約８、約８，５、約９、約９，５または約１０で行う。

いくつかの態様では、反応は、例えばタンパク質の溶解度を高めるために変性剤の存在下で行う。いくつかの態様では、反応は尿素の存在下で行う。いくつかの態様では、反応は、約６．５Ｍ、約６Ｍ、約５Ｍ、約４．５Ｍ、約４Ｍ、約３．５Ｍ、約３Ｍ、約２．５Ｍ、約２Ｍ、約１．５Ｍ、約１Ｍ、または約０．５Ｍ以下の尿素の存在下で行う。いくつかの態様では、反応は約０．５〜約６Ｍ、約０．５〜約４Ｍ、約１〜約４Ｍ、約２〜約４Ｍ、または約３〜約４Ｍの尿素の存在下で行う。いくつかの態様では、反応は、約０．５〜約２Ｍ、または約０．５〜１Ｍの尿素の存在下で行う。

本明細書に記載の方法は、スプリットインテインがロバストな活性を持ち得ることを実証する。よって、いくつかの態様では、インテインＮ末端ドメインとＣ末端ドメインが等モル濃度で混合される場合、反応速度定数は、少なくとも約０．５×１０^−１ｓ^−１、１×１０^−１ｓ^−１、１．５×１０^−１ｓ^−１、０．５×１０^−２ｓ^−１、約１×１０^−２ｓ^−１、約１．５×１０^−２ｓ^−１、約２．０×１０^−２ｓ^−１、約２．５×１０^−２ｓ^−１、または約３×１０^−２ｓ^−１である。さらに、インテインＮ末端ドメインとＣ末端ドメインが等モル濃度で混合される場合、反応速度半減期は、約１５０、約１００、約５０、約４０、約４５、約３０、約２５、約２０、または約１５秒未満であり得る。いくつかの態様では、インテインＮ末端ドメインとＣ末端ドメインが等モル濃度で混合される場合、トランススプライシング反応速度定数は、少なくとも約０．５×１０^−１ｓ^−１、１×１０^−１ｓ^−１、１．５×１０^−１ｓ^−１、０．５×１０^−２ｓ^−１、約１×１０^−２ｓ^−１、約１．５×１０^−２ｓ^−１、約２．０×１０^−２ｓ^−１、約２．５×１０^−２ｓ^−１、または約３×１０^−２ｓ^−１である。さらに、インテインＮ末端ドメインとＣ末端ドメインが等モル濃度で混合される場合、反応速度半減期は、約１５０、約１００、約５０、約４０、約４５、約３０、約２５、約２０、または約１５秒未満であり得る。いくつかの態様では、インテインＮ末端ドメインとＣ末端ドメインが等モル濃度で混合される場合、Ｃ切断反応速度定数は、少なくとも約１×１０^−４ｓ^−１、３×１０^−４ｓ^−１、６×１０^−４ｓ^−１、９×１０^−４ｓ^−１、１×１０^−５ｓ^−１、約３×１０^−５ｓ^−１、約６×１０^−５ｓ^−１、または約９×１０^−５ｓ^−１である。さらに、インテインＮ末端ドメインとＣ末端ドメインが等モル濃度で混合される場合、反応速度半減期は、約１５０、約１００、約５０、約４０、約４５、約３０、約２５、約２０、または約１５分未満であり得る。(el C cleavage es mas lento)

いくつかの態様では、インテインＮ末端ドメインとＣ末端ドメインが当モル濃度で混合される場合、反応は、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％の収率をもたらす。いくつかの態様では、反応は、５分以内に少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％の収率をもたらす。いくつかの態様では、インテインＮ末端ドメインとＣ末端ドメインが当モル濃度で混合される場合、反応は、５分以内に約７５〜約８０％、８０％〜約８５％、８５％〜約９０％、または約９０〜９５％の収率をもたらす。

いくつかの態様では、インテイン反応（例えば、切断、連結（スプライシング）、環化）は、インテインＮ末端ドメインおよび任意選択の異種ポリペプチドを含んでなる融合タンパク質を、インテインＣ末端ドメインおよび任意選択の異種ポリペプチドを含んでなる融合タンパク質と接触させることにより開始させることができる。他の態様では、インテイン反応は、スプリットインテイン融合タンパク質または複数のスプリットインテイン融合タンパク質の組合せがインキュベートされる条件、例えば、温度またはｐＨを変更することによって開始させることができる。いくつかの態様では、Ｃ末端切断はｐＨまたは温度変更によって開始される。

いくつかの態様では、インテイン反応は、融合タンパク質をＤＴＴまたは他の強力な求核試薬と接触させることにより開始される。いくつかの態様では、ＤＴＴは反応を増進するために使用される。いくつかの態様では、Ｎ末端切断は、強力な求核試薬、例えばＤＴＴによって開始される。

タンパク質スプライシングまたは切断を誘導する別法は、スプライシングまたは切断を活性化するペプチドまたはペプチド模倣薬との接触によるものである。タンパク質スプライシングまたは切断を誘導する別法は、スプライシングまたは切断を遮断または阻害するペプチドまたはペプチド模倣薬の除去によるものである。

いくつかの態様では、融合タンパク質は、例えば、引用することにより本明細書の一部とされるLu et al., Journal of Chromatography A 1218: 2553-2560 (2011)およびElleuche and Poggeler, Appl. Microbiol. Biotechnol 87:479-489 (2010)で提供されているものなど、タンパク質の分離および精製の目的で樹脂に結合させることができる。さらに、融合タンパク質は、液相にあってもよいし、親和性ビーズまたはカラムに結合させてもよいし、細胞膜またはファージ表面に係留してもよい。親和性結合剤には、例えば、Ｈｉｓタグ、キチン結合ドメイン、マルトース結合タンパク質、またはグルタチオン−Ｓ−トランスフェラーゼを含むことができる。融合タンパク質は細胞の内部にあっても外部にあってもよい。

いくつかの態様では、インテイン反応は、例えば、引用することにより本明細書の一部とされるElleuche and Poggeler, Appl. Microbiol. Biotechnol 87:479-489 (2010), and Evans T. et al., Biopolymers 51:333-342 (1999)に記載されているように、タンパク質精製（例えば、クロマトグラフィータグもしくは非クロマトグラフィータグおよび／または大規模プロセスを使用）、タンパク質環化、タンパク質重合、およびセレノプロテイン生産に使用することができる。本明細書に提供されるインテインの高い効率は、インテインを大規模工業適用に特に従いやすいものとする。

いくつかの態様では、インテイン反応は、標的ポリペプチドを生産するために使用することができる。標的ポリペプチドは、それまでには連結されていなかった２つの配列を含む融合ポリペプチドであり得る。標的ポリペプチドはまた、それまで連結されていた配列から切断されるポリペプチドでもあり得る。

所望により、ポリペプチド配列を配列および再配列させるためまたは複数のまたは異なるポリペプチドを連結させるために、複数のスプライシング反応を連続的に任意の順序で行うことができる。

ＶＩ．インテイン融合タンパク質生成用ベクター
本発明はまた、インテインドメインをコードするポリヌクレオチドと、インテインドメインと異種ポリペプチドを含んでなる融合タンパク質の発現をもたらす位置に異種ポリペプチドをコードするポリヌクレオチドの挿入を可能とする１以上のクローニング部位とを含んでなるインテイン融合タンパク質の生成に好適なベクターも提供する。

従って、別の側面において、本発明は、配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの下流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも１つのクローニング部位とを含んでなり、これにより、インテインドメインと対象ポリヌクレオチドによりコードされるポリペプチドとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターに関する。

一態様では、配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％の同一性を示すインテインドメインをコードするポリヌクレオチドは、最後のアミノ酸がグルタミンまたはアスパラギンであるインテインドメインをコードする。別の態様では、配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％の同一性を示すインテインドメインをコードするポリヌクレオチドは、インテインドメインの最後のアミノ酸がアスパラギンまたはグルタミン以外のアミノ酸であるインテインドメインをコードする。別の態様では、ベクターは、インテインドメインとおよび異種ペプチドによりコードされるポリペプチドとの間にリンカーペプチドを形成するポリペプチドをコードするポリヌクレオチドをさらに含んでなる。好ましい態様では、配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％の同一性を示すインテインドメインをコードするポリヌクレオチドが、インテインドメインの最後のアミノ酸がアスパラギンまたはグルタミン以外のアミノ酸であるインテインドメインをコードする場合、ポリヌクレオチドは、前記リンカーの最初のアミノ酸がセリン、トレオニンまたはセリン以外のアミノ酸であるリンカー領域をコードする。

別の側面において、本発明は、配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの上流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも１つのクローニング部位とを含んでなり、これにより、対象ポリヌクレオチドによりコードされるポリペプチドとインテインドメインとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターに関する。

一態様では、配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％の同一性を示すインテインドメインをコードするポリヌクレオチドは、最初のアミノ酸がセリンまたはシステインであるインテインドメインをコードする。別の態様では、配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％の同一性を示すインテインドメインをコードするポリヌクレオチドは、インテインドメインの最初のアミノ酸がセリンまたはシステイン以外のアミノ酸であるインテインドメインをコードする。

別の態様では、本発明は、対象タンパク質をコードし、環化可能な前記ポリペプチドを産生するポリヌクレオチドをクローニングするのに有用なベクターに関する。よって、本発明は、配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一である第１のインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの下流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも１つのクローニング部位と、前記クローニング部位の下流に、配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一である第２のインテインドメインをコードするポリヌクレオチドとを含んでなり、これにより、対象ポリヌクレオチドによりコードされるポリペプチドと第１および第２のインテインドメインとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクターに関する。

好ましい態様では、第１のインテインドメインの最後のアミノ酸は、グルタミンまたはアスパラギンである。別の態様では、第１のインテインドメインの最後から２番目のアミノ酸は、ヒスチジンである。さらに別の態様では、第２のインテインドメインの最初のアミノ酸は、セリンまたはシステインである。

一態様では、本発明は、Ｎ末端およびＣ末端ドメインと、両インテインドメインの間のトランススプライシング反応により連結されるポリペプチドの２つの領域とを含んでなる融合タンパク質を作製するのに有用なベクターに関する。よって、別の側面において、本発明は、
（ｉ）配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一である第１のインテインドメインをコードするポリヌクレオチドと、
（ｉｉ）前記ポリヌクレオチドの下流に、第１のインテインドメインをコードする第１のクローニング部位と、
（ｉｉｉ）配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一である第２のインテインドメインをコードするポリヌクレオチドと、
（ｉｖ）前記ポリヌクレオチドの上流に、第２のインテインドメインをコードする第２のクローニング部位と
を含んでなり、
第１のクローニング部位が第１の対象ポリヌクレオチドのクローニングを可能とし、第２のクローニング部位が第２の対象ポリヌクレオチドのクローニングを可能とし、これにより、前記の順に、第２の対象ポリヌクレオチドによりコードされるポリペプチドと、第２のインテインドメインと、第１のインテインドメインと、第２の対象ポリヌクレオチドによりコードされるポリペプチドとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成されるベクターであって、
ａ．前記第１のインテインドメインが配列番号７と少なくとも７５％同一であれば、前記第２のインテインドメインは配列番号３と少なくとも７５％同一であり；
ｂ．前記第１のインテインドメインが配列番号１６と少なくとも７５％同一であれば、前記第２のインテインドメインは配列番号１２と少なくとも７５％同一であり；
ｃ．前記第１のインテインドメインが配列番号２４と少なくとも７５％同一でれば、前記第２のインテインドメインは配列番号２０と少なくとも７５％同一であり；
ｄ．前記第１のインテインドメインが配列番号３８と少なくとも７５％同一であれば、前記第２のインテインドメインは配列番号３４と少なくとも７５％同一であり；または
ｅ．前記第１のインテインドメインが配列番号６５と少なくとも７５％同一であれば、前記第２のインテインドメインは配列番号６４と少なくとも７５％同一である、
ベクターに関する。

別の態様では、ベクターは、第２のインテインドメインと第２の対象ポリヌクレオチドによりコードされるポリペプチドとを連結する第１のペプチドリンカーをコードするポリヌクレオチドをさらに含んでなり、かつ／または第１のインテインドメインと第１の対象ポリヌクレオチドによりコードされるポリペプチドとを連結する第２のペプチドリンカーをコードするポリヌクレオチドをさらに含んでなる。

別の態様では、第２のインテインドメインの最初のアミノ酸は、システインまたはセリンであり、第１のインテインドメインの最後のアミノ酸は、グルタミンまたはアスパラギンであり、第１のインテインドメインの最後から２番目のアミノ酸は、ヒスチジンであり、かつ／または第２の対象ポリペプチドまたは第１のペプチドリンカーの最初のアミノ酸は、システイン、セリンまたはトレオニンである。

本発明で用いる場合、用語「ベクター」とは、それによりポリヌクレオチドまたはＤＮＡ分子が取り扱われ得る、または細胞に導入され得るビヒクルを意味する。ベクターは直鎖もしくは環状ポリヌクレオチドであってよく、あるいはベクターはより大型のポリヌクレオチド、または他の任意のタイプの構築物、例えば、ウイルスゲノム由来のＤＮＡもしくはＲＮＡ、ビリオンまたはＤＮＡの操作もしくはその細胞への導入を可能とする他の任意の生物構築物であってもよい。「組換えベクター」および「組換え系」という表現は用語「ベクター」と互換的に使用してよいと理解される。当業者ならば、これらのベクターは融合タンパク質の精製に好適な種々の異種生物において、増殖のため、また、適切なポリヌクレオチドまたは遺伝子構築物または発現ベクターを得るために好適なクローニングベクターであり得るので、使用可能なベクターのタイプに関して制限はないことに気づくであろう。よって、本発明による好適なベクターとしては、ｐＵＣ１８、ｐＵＣ１９、Ｂｌｕｅｓｃｒｉｐｔおよびその誘導体、ｍｐ１８、ｍｐ１９、ｐＢＲ３２２、ｐＭＢ９、ＣｏＩＥｌ、ｐＣＲｌ、ＲＰ４などの原核生物の発現ベクター；ファージ；ｐＳＡ３およびｐＡＴ２８などの「シャトル」ベクター；２ミクロンプラスミド型、組込プラスミド、ＹＥＰベクター、セントロメアプラスミドおよび類似物のベクターなどの酵母の発現ベクター；ｐＡＣ系およびｐＶＬ系のベクターなどの昆虫細胞の発現ベクター；ｐＩＢＩ、ｐＥａｒｌｅｙＧａｔｅ、ｐＡＶＡ、ｐＣＡＭＢＩＡ、ｐＧＳＡ、ｐＧＷＢ、ｐＭＤＣ、ｐＭＹ、ｐＯＲＥ系および類似物由来のベクターなどの植物の発現ベクター；ウイルスベクター（アデノウイルス、アデノウイルス随伴ウイルス、ならびにレトロウイルスおよびレンチウイルス）に基づく高等真核細胞の発現ベクター；ならびにｐＳｉｌｅｎｃｅｒ４．１−ＣＭＶ（Ａｍｂｉｏｎ）、ｐｃＤＮＡ３、ｐｃＤＮＡ３．１／ｈｙｇ、ｐＨＣＭＶ／Ｚｅｏ、ｐＣＲ３．１、ｐＥＦｌ／Ｈｉｓ、ｐＩＮＤ／ＧＳ、ｐＲｃ／ＨＣＭＶ２、ｐＳＶ４０／Ｚｅｏ２、ｐＴＲＡＣＥＲ−ＨＣＭＶ、ｐＵＢ６／Ｖ５−Ｈｉｓ、ｐＶＡＸｌ、ｐＺｅｏＳＶ２、ｐＣＩ、ｐＳＶＬおよびｐＫＳＶ−１０、ｐＢＰＶ−１、ｐＭＬ２ｄおよびｐＴＤＴｌなどの非ウイルスベクターが含まれる。

態様の好ましい形態では、ベクターは、インテインドメインをコードするポリヌクレオチドの３’位に、異種ポリペプチドをコードするポリヌクレオチドのクローニングを可能とする１または複数の部位をさらに含んでなる。好ましくは、これらのクローニング部位は、クローニングベクターでよく見られるように、多重クローニング部位を形成するようにグループ分けされる。従って、用語「多重クローニング部位」とは、本発明で使用する場合、互いに近接している一連の２以上の制限エンドヌクレアーゼ標的配列を含んでなる核酸配列を意味する。多重クローニング部位には、平滑末端、付着５’末端または付着３’末端を有する断片の挿入を可能とする制限エンドヌクレアーゼ標的が含まれる。対象とするポリヌクレオチドの挿入は、Sambrook et al. (Sambrook et al. Molecular Cloning: A Laboratory Manual, Cold Spring Harbour Laboratory Press, 1989)および／またはAusubel et al. (Current Protocols in Molecular Biology, Greene Pub. Associates and Wiley- Interscience (1988,これまでの総ての更新を含む)により記載されている標準的な分子生物学的方法を用いて実施される。

本明細書の記載から当業者には自明であるように、本開示は、発現構築物、すなわち、核酸が好適なプロモーターに作動可能に連結されている構築物を作出するのに有用である。

本開示により無細胞発現系が企図される。例えば、核酸を好適なプロモーター、例えば、Ｔ７プロモーターに作動可能に連結し、得られた発現構築物を転写および翻訳に十分な条件に曝す。ｉｎｖｉｔｒｏ発現または無細胞発現に典型的な発現ベクターはすでに記載されており、限定されるものではないが、ＴＮＴＴ７およびＴＮＴＴ３系（Ｐｒｏｍｅｇａ）、ｐＥＸＰｌ−ＤＥＳＴおよびｐＥＸＰ２−ＤＥＳＴベクター（Ｉｎｖｉｔｒｏｇｅｎ）が含まれる。

細胞で発現させるための多くのベクターが利用可能である。ベクター成分には、一般に、限定されるものではないが、以下のものの１以上が含まれる：シグナル配列、ポリペプチドをコードする配列、エンハンサーエレメント、プロモーター、および転写終結配列。当業者ならば、タンパク質の発現に好適な配列が分かるであろう。例えば、例示的シグナル配列としては、原核生物分泌シグナル（例えば、ｐｅｌＢ、アルカリ性ホスファターゼ、ペニシリナーゼ、Ｉｐｐ、または熱安定性内毒素ＩＩ）、酵母分泌シグナル（例えば、インベルターゼリーダー、α因子リーダー、または酸性ホスファターゼリーダー）または哺乳動物分泌シグナル（例えば、単純ヘルペスｇＤシグナル）が含まれる。

例示的プロモーターとしては、原核生物で活性なもの（例えば、ｐｈｏＡプロモーター、β−ラクタマーゼおよびラクトースプロモーター系、アルカリ性ホスファターゼ、トリプトファン（ｔｒｐ）プロモーター系、およびｔａｃプロモーターなどのハイブリッドプロモーター）が含まれる。これらのプロモーターは、真正細菌、例えば、グラム陰性またはグラム陽性生物、例えば、腸内細菌科(Enterobacteriaceae)、例えば、エシェリキア属(Escherichia)（例えば、大腸菌(E. coli)）、エンテロバクター属(Enterobacter)、エルウィニア属(Erwinia)、クレブシェラ属(Klebsiella)、プロテウス(Proteus)、サルモネラ菌属(Salmonella)（例えば、ネズミチフス菌（Salmonella typhimurium)）、セラチア属(Serratia)（例えば、霊菌(Serratia marcescans)）、および赤痢菌属(Shigella)、ならびにバチルス属(Bacilli)(例えば、枯草菌(B. subtilis)およびリケニホルミス菌(B. licheniformis)、シュードモナス属(Pseudomonas)（例えば、緑膿菌(P. aeruginosa)、および放線菌属(Streptomyces)を含む原核生物での発現に有用である。一例では、宿主は大腸菌である。１つの好ましい大腸菌クローニング宿主は大腸菌２９４（ＡＴＣＣ３１，４４６）であるが、大腸菌Ｂ、大腸菌Ｘ１７７６（ＡＴＣＣ３１，５３７）、および大腸菌Ｗ３１１０（ＡＴＣＣ２７，３２５）、ＤＨ５ａまたはＤＨ１０Ｂなどの他の株も好適である。

哺乳動物細胞で活性のある例示的プロモーターとしては、サイトメガロウイルス前初期プロモーター（ＣＭＶ−ＩＥ）、ヒト延長因子１−ｏｃプロモーター（ＥＦ１）、低分子核内プロモーター(small nuclear RNA promoter)（ＵｌａおよびＵｌｂ）、αミオシン重鎖(a-myosm heavy chain)プロモーター、シミアンウイルス４０プロモーター（ＳＶ４０）、ラウス肉腫ウイルスプロモーター（ＲＳＶ）、アデノウイルス主要後期プロモーター、βアクチンプロモーター；ＣＭＶエンハンサー／βアクチンプロモーターを含んでなるハイブリッドレギュレーター｝’エレメントまたは免疫グロブリンプロモーターもしくは活性なそのフラグメントが含まれる。有用な哺乳動物宿主細胞株の例としては、ＳＶ４０で形質転換されたサル腎臓ＣＶ１系統（ＣＯＳ−７、ＡＴＣＣＣＲＬ１６５１）；ヒト胎児腎臓系統（２９３細胞または懸濁培養で増殖に関してサブクローニングされた２９３細胞）；ベビーハムスター腎臓細胞（ＢＨＫ、ＡＴＣＣＣＣＬ１０）；またはチャイニーズハムスター卵巣細胞（ＣＨＯ）がある。

例えば、ピキア・パストリス(Pichia pastoris)、サッカロミセス・セレビシエ(Saccharomyces cerevisiae)およびＳ．ポンベ(S. pombe)からなる群から選択される酵母細胞などの酵母細胞での発現に好適な典型的プロモーターとしては、限定されるものではないが、ＡＤＨ１プロモーター、ＧＡＬ１プロモーター、ＧＡＬ４プロモーター、ＣＵＰＩプロモーター、ＰＨ０５プロモーター、ｎｍｔプロモーター、ＲＰＲ１プロモーター、またはＴＥＦ１プロモーターが含まれる。

昆虫細胞での発現に好適な典型的プロモーターとしては、限定されるものではないが、ＯＰＥＩ２プロモーター、カイコ(Bombyx muri)から単離された昆虫アクチンプロモーター、ショウジョウバエ種(Drosophila sp.)ｄｓｈプロモーターおよび誘導メタロチオネインプロモーターが含まれる。組換えタンパク質の発現のための例示的昆虫細胞としては、ＢＴ１−ＴＮ−５Ｂ１−４細胞、およびヨトウガ(Spodoptera frugiperda)細胞（例えば、ｓｆｌ９細胞、ｓｆ２１細胞）からなる群から選択される昆虫細胞が含まれる。核酸断片の発現に好適な昆虫としては、限定されるものではないが、ショウジョウバエ種が含まれる。ヨトウガの使用も企図される。

本発明によるベクターは、マーカータンパク質をコードするポリヌクレオチドをさらに含んでなってよい。本開示に好適なマーカータンパク質としては、抗生物質耐性または他の毒性化合物に対する耐性を付与するものが含まれる。抗生物質に対する耐性を付与するマーカータンパク質の例としては、ネオマイシンおよびカナマイシンをリン酸化するネオマイシンホスホトランスフェラーゼ、またはハイグロマイシンをリン酸化するｈｐｔ、または例えば、ブレオマイシン、ストレプトマイシン、テトラサイクリン、クロラムフェニコール、アンピシリン、ゲンタマイシン、ジェネティシン（Ｇ４１８）、スペクチノマイシンまたはブラストサイジンに対する耐性を付与するタンパク質が含まれる。一例では、前記タンパク質はクロラムフェニコール耐性を付与する。例えば、前記タンパク質は、Nilsen et al, J. Bacteriol, 178: 3188-3193, 1996に記載されているような、ＣｍＲと呼ばれる大腸菌由来遺伝子である。

あるいは、マーカータンパク質は、細胞の栄養要求性を補足する。例えば、ＨＰＲＴ発現を欠く真核細胞を、ＨＰＲＴをコードする核酸を含んでなる発現構築物で形質転換させる。このリポーター遺伝子が発現するとＨＡＴ培地で増殖可能な細胞となるが、リポーター遺伝子を発現しない細胞は、これらの条件で増殖できない。

あるいは、酵母細胞の場合、マーカータンパク質は、例えば、ＬＥＵ２またはＬＹＳ２またはＴＲＰである。このようなリポーター遺伝子は、関連の遺伝子に対して栄養要求性である酵母細胞を補足することができる。

別の例では、直接検出が可能なマーカータンパク質は、例えば、蛍光タンパク質である。数種の蛍光リポーター遺伝子が当技術分野で公知であり、例えば、緑色蛍光タンパク質（ＧＦＰ）、増強緑色蛍光タンパク質（ｅＧＦＰ）、赤色シフト緑色蛍光タンパク質（ＲＦＰ）、青色蛍光タンパク質（ＣＦＰ）、黄色蛍光タンパク質（ＹＦＰ）、モノマーイソキンチャクモドキ(discosoma)赤色蛍光タンパク質（ｄｓＲＥＤ）、またはｄｓＲＥＤ２；オワンクラゲ(Aequorea coerulescens)由来のモノマー橙色蛍光タンパク質またはモノマーＧＦＰをコードするものが含まれる。これらのタンパク質は、標準的な技術、例えば、蛍光活性化細胞選別（ＦＡＣＳ）を用い、マーカータンパク質を発現する細胞の選択を可能とする。

さらなる例では、マーカー遺伝子は、検出可能な反応を触媒する酵素である。例示的酵素リポーター遺伝子としては、例えば、β−ガラクトシダーゼ、アルカリ性ホスファターゼ、ホタル・ルシフェラーゼまたはウミシイタケ(Renilla)・ルシフェラーゼが含まれる。例えば、β−ガラクトシダーゼの発現は、β−ガラクトシダーゼにより加水分解されて青色の沈殿を生成する基質５−ブロモ−４−クロロ−３−インドリル−β−Ｄ−ガラクトピラノシド（ｘ−ｇａｌ）を添加することによって検出される。あるいは、ホタル・ルシフェラーゼまたはウミシイタケ・ルシフェラーゼのいずれかの発現は、関連タンパク質の存在下で発光し、例えば分光光度計を用いて検出可能な基質を添加することによって検出される。

対象ポリペプチドをコードするポリヌクレオチドの、本発明のベクターへのクローニングは、当業者に周知の標準的な技術を用いて行うことができる。例えば、対象ポリペプチドをコードするポリヌクレオチドは、ポリメラーゼ連鎖反応（ＰＣＲ）を用いて生産される。ＰＣＲを実施するための方法は当技術分野で公知である。抗体の場合、ＰＣＲは、例えば、被験体由来のまたはライブラリー由来のまたはライブラリーのスクリーニング後の可変領域（場合により１以上の定常領域と連結されている）を増幅するために使用することができる。このように抗体領域をコードする核酸を増幅するためのプライマーは当技術分野で公知である（例えば、米国特許第６，０９６，５５１号およびＷＯＯＯ／７００２３に記載の通り）。さらなる例では、核酸は、当技術分野で標準的な方法に従い、制限エンドヌクレアーゼ消化を用いて生産／単離することができる。

核酸を連結する方法は当業者には自明であり、例えば、Sambrook et al. Molecular Cloning: A Laboratory Manual, Cold Spring Harbour Laboratory Press, 1989および／またはAusubel et al. (editors), Current Protocols in Molecular Biology, Greene Pub. Associates and Wiley-Interscience (1988, これまでの総ての更新を含む)に記載されている。一例では、前記方法は核酸を連結するためにリガーゼ(hgase)、例えば、Ｔ４ＤＮＡリガーゼを用いる。

本開示の１つの例示的形態では、核酸を連結するためにリガーゼ非依存的クローニングを用いる。

リガーゼ非依存的クローニングの１つの形態では、連結させる２つの核酸に相補的な一本鎖領域が含まれる。次に、これらの核酸を互いにハイブリダイズさせ、生じた核酸を細胞に形質転換し、そこで、内因性の酵素が残存しているギャップを修復し、単一の連続する核酸を形成する。

リガーゼ非依存的クローニングの別の形態では、単一の核酸分子の形成を促進するために１以上の酵素が用いられる。例えば、米国特許第７５７５８６０号には、３’−５’エンドヌクレアーゼ活性を有するポリメラーゼ（例えば、ワクシニアウイルス由来）を用いて２つの核酸を連結する技術が記載されている。例えば、連結させる核酸は、実質的に同一または同一の領域を含んでなる。これらの領域は、５〜５０の間のヌクレオチド長、例えば、約１２〜１５ヌクレオチド長、例えば、約１５ヌクレオチド長であり得る。次に、連結させる核酸を、３’−５’エキソヌクレアーゼ活性を有するポリメラーゼと接触させる。例示的ポリメラーゼとしては、ワクシニアＤＮＡポリメラーゼ、Ｔ４ＤＮＡポリメラーゼおよび大腸菌ＤＮＡポリメラーゼＩのクレノウ断片が含まれる。一例では、核酸をさらに、ワクシニアおよび大腸菌一本鎖結合タンパク質、単純ヘルペスウイルスＩＣＰ８タンパク質、および酵母およびヒト複製プロテインＡ（例えば、ｙＲＰＡおよびｈＲＰＡ）などの一本鎖ＤＮＡ結合タンパク質と接触させる。このタイプのリガーゼ非依存的クローニングを実施するためのキットが商標Ｉｎ−Ｆｕｓｉｏｎ（Ｒ）としてＣｌｏｎｔｅｃｈから市販されている。

その他のリガーゼ非依存的クローニング法も当技術分野で公知であり、例えば、連結非依存的クローニング（ＬＩＣ；例えば、Aslanidis et al, Nucl. Acids Res., 18: 6069に記載の通り）、Ｔ７エキソヌクレアーゼ媒介クローニング（米国特許第５５８０７５９号）、ヘテロスタッガーＰＣＲに基づくクローニング(Liu et al, Nucleic Acids Res 24: 2458-2459, 1996)、ウラシル切断に基づくクローニング(Nisson et al, PCR Meth. Appl 7: 120-123, 1991)ホスホロチオエートに基づくリガーゼ非依存的クローニング（例えば、Blanusa et al, Anal. Biochem, 406: 141-146, 2010に記載の通り）が含まれる。

次に、得られた核酸を、例えば後述するような当技術分野で標準的な方法を用いて細胞に導入することができる。

一例では、核酸を連結するために組換えを用いる。例えば、連結させる２つの核酸の両方が、同一または実質的に同一の領域（例えば、１００ヌクレオチドまたは５０ヌクレオチドまたは２０ヌクレオチドまたは１０ヌクレオチド長）を含んでなる。次に、これらの核酸を相同組換え能がある細胞に導入し、相同組換えが起こった細胞を、例えば、マーカータンパク質の発現を選択することにより選択する。

以下、本発明を下記の実施例を例として説明するが、これらの実施例は単に例示を意図するものであって、本発明の範囲を限定しない。

実施例１：ＮｐｕＤｎａＥと比較した場合のＧｐ４１．１、Ｇｐ４１．８、ＮｒｄＪ１、ＩＭＰＤＨ１スプリットインテインのトランススプライシング活性
Ｇｐ４１．１（Ｇ１）、Ｇｐ４１．８（Ｇ８）、ＮｒｄＪ１（Ｎ１）、およびＩＭＰＤＨ１（Ｉ１）スプリットインテイン配列を含む構築物を用いてｉｎｖｉｔｒｏトランススプライシング反応を行った。ロバストで高収率のインテインとして同定されているスプリットインテインＮｐｕＤｎａＥ（ＤＥ）(Zettler J. et al, FEBS Letters 583:909-914 (2009))を対照として選択した。これらのインテインの番号、略号、配列および分子量を下表３に示す。図１Ａに示されるように、各スプリットインテイン構築物のＮ末端断片は、（ｉ）ＳｔｒｅｐｔａｇＩＩ（ＳＴ）精製タグ、（ｉｉ）タンパク質の溶解度を高めることができるファージタンパク質バクテリオファージλ頭部タンパク質Ｄ（ｇｐＤ）、（ｉｉｉ）Ｎ−エクステインに属す５個の天然フランキングアミノ酸（Ｅ^Ｎ）、（ｉｖ）Ｎ末端スプリットインテイン断片（Ｉ^Ｎ）、および（ｖ）ヘキサヒスチジン精製タグ（Ｈ_６）からなった。各スプリットインテイン構築物のＣ末端断片も図１Ａに示し、（ｉ）Ｃ末端スプリットインテイン断片（Ｉ^Ｃ）、（ｉｉ）Ｃ−エクステインに属す５個の天然フランキングアミノ酸（Ｅ^Ｃ）、（ｉｉｉ）タンパク質の溶解度を高め、タンパク質フォールディングを助けることができるチオレドキシン、および（ｉｖ）ヘキサヒスチジン精製タグ（Ｈ_６）からなった。

これらの融合タンパク質を総て、大腸菌で独立に発現させ、可溶性形態を精製した。等モル濃度（５〜１５μＭ）のＮ末端およびＣ末端スプリットインテイン対を混合した（Ｇ１^Ｎ＋Ｇ１^Ｃ＋、Ｇ８^Ｎ＋Ｇ８^Ｃ、Ｎ１^Ｎ＋Ｎ１^Ｃ、およびＩ^Ｎ＋Ｉ^Ｃ）。２５℃でのインキュベーション後、トランススプライシング反応を種々の時点で、ＳＤＳサンプルバッファーを添加した後すぐに５分間煮沸することにより停止させた。トランススプライシング反応を図１Ａにまとめる。

４つのスプリットインテイン（Ｇｐ４１．１（Ｇ１）、Ｇｐ４１．８（Ｇ８）、ＮｒｄＪ１（Ｎ１）、およびＩＭＰＤＨ１（Ｉ１））の総てを用いて実験を行った。Ｇｐ４１．１（Ｇ１）を用いて得られた結果の例を図１Ｂに示す。最初のＮ末端断片およびＣ末端断片（図１Ｂ、レーン１：それぞれＦ１およびＦ２）は極めて速く反応してスプライシング産物とＮ−およびＣ−スプリットインテイン副産物を生成した（図１Ｂ、レーン２〜９：それぞれＦ３、Ｆ４、およびＦ５）。トランススプライシング反応の速度を、トランススプライシング反応の速度に直接比例する速度定数「ｋ」として計算した。反応半減期「ｔ_１／２」（スプライシング反応において前駆体（Ｆ１またはＦ２）の半分が消費されるのに要される時間を表す）も計算した。

驚くことに、分析した総てのスプリットインテイン（Ｇ１、Ｇ８、Ｎ１およびＩ１）がこれまでに同定されているＮｐｕＤｎａＥ(Zettler J. et al, FEBS Letters 583:909-914 (2009))よりも速かった。２５℃にて同じ反応条件で、Ｇ１、Ｇ８、Ｎ１およびＩ１は、これまでに報告されている最高の速度定数を有する別格のスプリットインテインとして同定されているＮｐｕＤｎａＥのそれぞれ３１倍、６倍、９倍および７倍の速さであった（表４）。スプライシング収率は、５分時点でＧ１、Ｇ８、Ｎ１およびＩ１は約９０％のスプライシング産物を形成することを示した。

Ｇ１、Ｇ８、Ｎ１およびＩ１のスプライシング産物は質量分析ＬＣ−ＭＳ／ＭＳ（配列包括度＞９０％）により同定した。測定された分子量は、それらの総てで理論値２７．３ｋＤａと一致していた。

これらの顕著な特性を考えれば、この天然スプリットインテイン群は、タンパク質工学、細胞化学、環化、精製およびその他を含む多くの適用に使用可能な、新世代の超迅速スプライシングインテインとなると思われる。

実施例２：Ｇｐ４１．１のトランススプライシング活性に対する温度の影響
これらのスプリットインテインの多才性およびロバスト性を種々の温度で試験するため、Ｇｐ４１．１をより詳細に分析した。インテイン活性は温度によって影響を受けることが示されている。これまでには４℃といった低温で天然ＳｓｐＤｎａＥおよび半合成ＭｔｕＲｅｃＡスプリットインテインにより媒介されるタンパク質スプライシング活性の証拠が報告されている(Martin, D. et al. 2001. Biochemistry, 40:1393-1402 and Lew, B. et al. 1999. Biopolymers (Peptide Science), 51:355-362)が、４℃未満での活性は本発明者らの知る限り従前の記載はない。従って、ＧＰ４１．１の活性を様々な温度で試験した。Ｇｐ４１．１の精製Ｎ末端断片およびＣ末端断片をスプライシングバッファー中、５μＭの等モル濃度で混合し、０、１２、２５および３７℃でインキュベートした。スプライシング産物の形成および速度定数を決定し、結果を表５に示す。

驚くことに、Ｇｐ４１．１インテインは０℃でなお活性を示した。このインテインはｋ＝５．５×１０^−３ｓ^−１であり、このような極端な条件下で１時間の反応の後に８０〜９０％の間のスプライシング産物が生じた。同じ反応を１２℃で行った場合、トランススプライシング速度はｋ＝１．３×１０^−２ｓ^−１（１２℃でｋ＝２．２±０．５×１０^−３ｓ^−１のＮｐｕＤｎａＥよりも速い）に上昇し、１時間の反応の後に、８５〜９０％の間のスプライシング産物が生じた。２５℃で、Ｇｐ４１．１スプリットインテインは、ｋ＝５．２×１０^−２ｓ^−１（これもまた２５℃でｋ＝３．５±０．２×１０^−３ｓ^−１のＮｐｕＤｎａＥより速い）を示し、３０分時点で９０〜９５％のスプライシング産物を形成した。

またこれまでに、ＳｓｐＤｎａＥおよびＭｔｕＲｅｃＡを含む多くのスプリットインテインは比較的高い温度（すなわち３７℃）で収率の低下、および加水分解副産物形成の増加を呈することも示されている。しかしながら、ＮｐｕＤｎａＥなどの他のインテインは、３７℃で活性がより高い。Ｇｐ４１．１スプリットインテインは３７℃で最高の活性率を示した：ｋ＝１．１×１０^−１ｓ^−１（この場合にも、３７℃でｋ＝１．１±０．２×１０^−２ｓ^−１のＮｐｕＤｎａＥよりも速い）。特に、５分以内に９０〜９５％のスプライシング産物が生じていた。これらの結果は、Ｇ１が広範囲（０〜３７℃）の温度耐用性を持つことを示す。

興味深いことに、分析した総ての温度で、Ｇ１トランススプライシング活性は、高性能のＮｐｕＤｎａＥスプリットインテインよりも速かった。１２℃および２５℃で、Ｇ１はＮｐｕＤｎａＥの６倍および１５倍の速さであり、ＮｐｕＤｎａＥがその最高活性を示す３７℃でも、Ｇ１は１０倍速い活性を有していた。

実施例３：トランススプライシング活性に対するｐＨおよびカオトロピック塩の影響
ＳｓｐＤｎａＥ、およびＭｔｕＲｅｃＡインテインを含む多くのスプリットインテインが高ｐＨまたは変性剤の存在下で収率の低下、および加水分解副産物形成の増加を呈することが示されている(Zettler et al., 2009. FEBS letters 583: 909-914)。しかしながら、Ｇ１スプライシングの効率は６〜９の間のｐＨにほぼ依存しなかった（表６）。４および１０といった極端なｐＨ値でのみ活性の低下が見られた。これに対して、ＭｔｕＲｅｃＡは、ｐＨ６〜７．５の間というはるかに狭い最適スプライシング範囲を有している(Lew B. et al. Biopolymers. 51:355-362 (1999))。ＳｓｐＤｎａＥインテインは、ｐＨ７．０で最大のトランススプライシング活性を示すが、それより高いｐＨでは低下する(Martin D. et al. 2001. Biochemistry. 40:1393-1402)。

いくつかの場合では、インテイン融合タンパク質の発現は、それらの溶解度を高めるために何らかの変性剤の存在を必要とし得る。従って、Ｇｐ４１．１スプリットインテインについてもスプライシング反応における４Ｍ尿素の存在に対する耐用性を調べた。表４に示す結果は、適度な濃度の尿素（４Ｍ）の存在下で有意なスプライシング活性を示し、最適化条件に関して１時間の反応の後に５０％近いトランススプライシング活性を示した。

これらの特徴は、Ｇ１スプリットインテインの予期しない多才性およびロバスト性を示す。

実施例４：トランススプライシング活性に対するエクステインの影響
Ｎ−インテインドメインに隣接するＮ−エクステイン（Ｅ^Ｎ）アミノ酸はトランススプライシング反応に直接関与しないが、反応効率に影響を及ぼし得る。この可能性を調べるために、Ｇ１由来のＥ^Ｎの５個のアミノ酸（ＴＲＳＧＹ）を欠失させ、作出された新たなＮ末端断片（Ｇ１^{Ｎ（Δｅｘｔ）}）を、実施例１に記載したものと同じ条件で、対応するＣ末端断片（Ｇ１^Ｃ）とともにインキュベートした。興味深いことに、Ｅ^Ｎの不在下でトランススプライシング活性が見られ（速度値１．８Ｅ−３ｓ^−１および収率４５％）、このことはＧ１スプリットインテイン由来のＥ^Ｎが必須ではないことを示す。

対照的に、Ｃ−エクステインの最初のアミノ酸はインテインおよびスプリットインテインにより媒介されるトランススプライシング反応に直接関与することが記載されている。Ｇ１Ｎ−エクステインの最初の位置にあるセリンの役割を調べるために、２つの新たなＧ１Ｃ末端断片を作出した。それらはＥ^Ｃドメインが、（ｉ）部分的に除去されたＣ末端断片（Ｉ^Ｎに隣接するセリンのみが維持；Ｇ１^Ｃ（Ｓ））、または（ｉｉ）完全に除去された（Ｇ１^{Ｃ（Δｅｘｔ）}）Ｃ末端断片を含んでなった。

Ｇ１^Ｃ（Ｓ）を、Ｅ^Ｎを含むまたは欠く（それぞれＧ１^ＮまたはＧ１^{Ｎ（Δｅｘｔ）}）対応するＮ末端断片とともにインキュベートすると、効率的なトランススプライシング反応が起こった。これに対して、Ｇ１^ＮまたはＧ１^{Ｎ（Δｅｘｔ）}をＧ１^{Ｃ（Δｅｘｔ）}の存在下でインキュベートすると、トランススプライシング反応は見られなかった。この特殊な状況で、驚くことに、Ｃ−切断活性およびＮ−切断活性が見られる。これらの結果から、Ｉ^Ｎに近接する、好ましくはＩ^Ｎに隣接する、セリン残基は、効率的なトランススプライシング反応を保証するのに必要であると結論づけることができる。

実施例５：Ｃ末端自己切断に対するＧｐ４１．１、Ｇｐ４１．８、ＮｒｄＪ１およびＩＭＰＤＨ１スプリットインテインのＩ ^Ｎにおける点突然変異Ｃ１Ａの影響
いくつかのインテインはＮ末端またはＣ末端において非依存的自己切断活性を示し、独特なアミノ酸残基を必要とする。Ｉ^ＮにおけるＣｙｓ１からＡｌａへの突然変異（Ｃ１Ａ）はＮ末端における切断を不能とするが、Ｃ末端における切断は不能とせず（これまでにＣ末端自己切断と呼ばれていたもの）、一方、Ｉ^ＣのＣ末端におけるＡｓｎ１５４からＡｌａへの突然変異はＣ末端における切断を不能とするが、Ｎ末端における切断は不能としない(Mathys, S. et al. Gene 231:1-13 (1999) and Lu et al. J. Chromatography A. 1218:2553-2560 (2011))。この興味深い特性のために、いくつかの突然変異インテインは、融合タンパク質からの対象タンパク質の制御された遊離を可能とする自己切断可能なペプチドとして使用することができる。よって、このような突然変異インテインは、高価な市販のプロテアーゼの代わりに使用できる。

これまでに分析された総ての天然スプリットインテインにおいて、Ｃ１Ａ突然変異はタンパク質スプライシングを無効にする。天然スプリットインテインＮｐｕＤｎａＥおよびＳｓｐＤｎａＥにおけるＣ１Ａ突然変異は最初のＮからＳ−アシルへのシフトを遮断し、タンパク質スプライシングを遮断するが、Ｃ末端切断反応(Zettler J., et al. 2009. FEBS Letters 583:909-914) およびＳｓｐＤｎａＥ(Martin, D. et al. 2001. Biochemistry. 40:1393-1402)をほぼ完全に阻害する。さらに、Ｃ末端自己切断活性はＳ１Ａの突然変異を有する天然全長ＰａｂＰｏＩＩＩインテインでは最大９０％阻害されることが報告されている(Xu, M. & Perler, F. EMBO J. 15:5146-5153 (1996))。

Ｃ末端自己切断活性を調べるために、Ｃｙｓ１からＡｌａへの突然変異（Ｃ１Ａ）を総てのＩ^Ｎスプリットインテインに導入した（Ｇ１^{Ｎ（Ｃ１Ａ）}、Ｇ８^{Ｎ（Ｃ１Ａ）}、Ｎ１^{Ｎ（Ｃ１Ａ）}、およびＩ１^{Ｎ（Ｃ１Ａ）}）。この点突然変異を有する構築物の番号および概略図をそれぞれ表３および図２Ａに示す。大腸菌ホモジネートから精製したＦ１（Ｉ^{Ｎ（Ｃ１Ａ）}）およびＦ２（Ｉ^Ｃ）断片を５〜１５μＭの等モル濃度で混合し、２５℃経時的試験を行った。驚くことに、天然スプリットインテインＮｐｕＤｎａＥおよびＳｓｐＤｎａＥとは対照的に、試験した４つのスプリットインテインの総てがＣ末端自己切断を示した。総ての場合で、予想されたＦ３（Ｔｒｘ−Ｈ６）と切断されたＦ４（Ｉｎｔ^Ｃ）断片の大きさに相当する２つの新たなタンパク質バンドが見られた（図２Ａ）。２５℃でのＣ末端切断反応の収率（％ＣＰ）および速度定数の値を下表に示す。

Ｎ末端エクステイン（Ｅ^Ｎ）とは対照的に、Ｃ末端エクステイン（Ｅ^Ｃ）はＣ末端自己切断反応に間接的に関与する。Ｅ^Ｃは、効率的なＣ末端自己切断反応を保証するためにＩ^Ｃに適切な環境を提供すると考えられている(Zettler J. et al, FEBS Letters 583:909-914 (2009); Lu L. et al, J. Chromatography A. 1218:2553-2560 (2011); Nichols N. et al. Biochemistry. 42:5301-5311 (2003);およびAppleby et al., JBC 284:6194-6199 (2009))。エクステイン配列は自己切断反応後も対象タンパク質と結合したままであるので、この要件はいくつかの適用については重要な制限となり得る。

Ｃ末端スプリットインテインに隣接するエクステイン配列（Ｅ^Ｃ）の５個のアミノ酸を除去した。対応する構築物（Ｇ１^{Ｃ（Δｅｘｔ）}、Ｇ８^{Ｃ（Δｅｘｔ）}、Ｎ１^{Ｃ（Δｅｘｔ）}、およびＩ１^{Ｃ（Δｅｘｔ）}、表１参照）はＩ^ＣとＴｒｘ遺伝子との間に直接的連結を呈した。クローニングのために、ＫｐｎＩ切断部位を維持したが、この余分なアミノ酸ＧＴの存在は、それらがエクステインフランキング配列と相同性を持たず、Ｔｒｘタンパク質の一部とみなすことができるので、エクステインの役割の分析に影響を及ぼさない。

Ｇｐ４１．１（Ｇ１）、Ｇｐ４１．８（Ｇ８）、ＮｒｄＪ１（Ｎ１）、およびＩＭＰＤＨ１（Ｉ１）に相当するＦ１（ｇｐＤ−Ｉ^{Ｎ（Ｃ１Ａ）}）断片およびＦ２（Ｉ_Ｃ−Ｔｒｘ）断片を大腸菌ホモジネートから精製し、５〜１５μＭの等モル濃度で混合した。２５℃で経時的試験を行った。驚くことに、４つの天然スプリットインテインの総てがＣ末端自己切断を示し、３時間のインキュベーション後にＦ３（Ｔｒｘ）およびＦ４（Ｉ^Ｃ）と一致する移動度を有する２本のバンドが見られた（図２Ｂ）。Ｇ１およびＮ１の２５℃でのＣ末端切断反応の収率（％ＣＰ）および速度定数を求めた。表４と５を比較すると、収率は極めて高く、Ｅ^Ｃの５個のアミノ酸の存在に依存しないことを示す。Ｅ^Ｃ断片の不在は速度定数の低下をもたらすが、このスプリットインテイン反応の速度の低下は、反応温度を３７℃または４５℃に引き上げることによって克服することができる（表８）。この予期しない所見は、これらのインテインが、たとえこれらのタンパク質が好熱性微生物に由来するものでなくとも、高温度で極めて効率的に働き得ることを示唆する。

Ｃ末端切断反応で遊離したＦ３断片のエドマンプロテインシーケンシングは、Ｆ３断片の最初のアミノ酸がＧＴであったことを示した。このことはＣ末端切断反応が適切に行われたことを示す。

これらの結果は、ＮｐｕＤｎａＥ(Zettler J. et al, FEBS Letters 583:909-914 (2009))、ＳｓｐＤｎａＥ(Nichols N. et al., Biochemistry 42:5301-5311 (2003))、およびＳｓｐＤｎａＢ(Lu L. et al, J. Chromatography A. 1218:2553-2560 (2011))とは対照的に、Ｇｐ４１．１（Ｇ１）、Ｇｐ４１．８（Ｇ８）、ＮｒｄＪ１（Ｎ１）、およびＩＭＰＤＨ１（Ｉ１）は５アミノ酸Ｃ−エクステインフランキング断片（Ｅ^Ｃ）の不在下でＣ末端切断を示し得ることを示す。

上記の試験では、Ｃ−切断がＥ^Ｃの不在下で起こり得ることが示された。しかしながらやはり、Ｉ^Ｃの後の最初のアミノ酸の性質がＣ−切断効率に対して持つ影響は分析されなかった。Ｃ−切断の適用については、切断された融合タンパク質から遊離したタンパク質がそのＮ末端に余分なアミノ酸を含まないことが好ましい。Ｇ１スプリットインテインが対象タンパク質の最初のアミノ酸に依存しない「クリーンな」切断をもたらすことができたかどうかを判定するために、新たな一連の構築物を作製した。これらの構築物では、Ｔｒｘタンパク質の最初のアミノ酸をあらゆるアミノ酸天然変異体に変異させ、その後、Ｇ１のＣ末端ドメインに直接クローニングした。驚くことに、総ての変異体が著しいＣ−切断活性を示した。

各構築物について求めた収率、速度定数およびｔ（１／２）を表９にまとめる。

実施例６：Ｇｐ４１．１、Ｇｐ４１．８、ＮｒｄＪ１およびＩＭＰＤＨ１スプリットインテインによるＮ末端自己切断
数種のインテインおよびスプリットインテインについて、エクステインのすぐ上流のＡｓｎの突然変異によりＣ末端切断を遮断しても、Ｎ−切断がなお起こり得ることが記載されている。エクステインのすぐ上流のＡｓｎをＡｌａに置換することにより、この突然変異をＧｐ４１．１、Ｇｐ４１．８、ＮｒｄＪ１およびＩＭＰＤＨ１スプリットインテインのＩ^Ｃドメインに導入した（それぞれＧ１^{Ｃ（Ｎ→Ａ）}、Ｇ８^{Ｃ（Ｎ→Ａ）}、Ｎ１^{Ｃ（Ｎ→Ａ）}およびＩ１^{Ｃ（Ｎ→Ａ）}）。従前に記載されているように、これらの融合タンパク質を、大腸菌で生産し、精製し、その後、本質的に従前に記載されているように等量の対応物Ｇ１^Ｎ、Ｇ８^Ｎ、Ｎ１^ＮおよびＩ１^Ｎとともにインキュベートした。驚くことに、ＳＤＳ−ＰＡＧＥゲルに明らかに見られたのは２つの予想されたＮ末端自己切断産物のうちの一方（Ｉ^Ｎ−Ｈ６）だけであったという所見により結論づけることができるように、Ｎ末端自己切断反応は極めて非効率的であった。ＳＴ−ｇｐＤ−Ｅ^Ｎに相当するもう一方の予想産物も、極めて弱いバンドながら見られ、このことは、Ｎ末端自己切断反応が極めて非効率的であったことを示している。さらに、おそらくはＳＴ−ｇｐＤ−Ｅ^Ｎと結合したＣ末端断片（Ｇ１^{Ｃ（Ｎ→Ａ）}、Ｇ８^{Ｃ（Ｎ→Ａ）}、Ｎ１^{Ｃ（Ｎ→Ａ）}またはＩ１^{Ｃ（Ｎ→Ａ）}）に相当する中間産物も主要副産物として見られた。

Ｎ−切断の効率を高めるために、従前にアッセイした単一突然変異体の総てにもう一度点突然変異を行った（Ｇ１^{Ｃ（Ｎ→Ａ）}、Ｇ８^{Ｃ（Ｎ→Ａ）}、Ｎ１^{Ｃ（Ｎ→Ａ）}およびＩ１^{Ｃ（Ｎ→Ａ）}）。Ｅ^Ｃの最初のＳｅｒ残基をＡｌａに変異させた。作出された新たな二重突然変異体（Ｇ１^{Ｃ（Ｎ／Ｓ→Ａ）}、Ｇ８^{Ｃ（Ｎ／Ｓ→Ａ）}、Ｎ１^{Ｃ（Ｎ／Ｓ→Ａ）}およびＩ１^{Ｃ（Ｎ／Ｓ→Ａ）}）を大腸菌で発現させ、精製したタンパク質を２５℃で等濃度の対応物（それぞれＧ１^Ｎ、Ｇ８^Ｎ、Ｎ１^ＮおよびＩ１^Ｎ）とともにインキュベートした。この場合、ＳＤＳ−ＰＡＧＥによる分析は、Ｎ末端自己切断が極めて効率的に起こったことを示した。結論として、Ｅ^Ｃの最初の位置のＳｅｒ残基の突然変異とＩ^Ｃの最後のＡｓｎ残基における突然変異を組み合わせると、効率的なＮ末端切断が可能となる。例えば、精製Ｇ１^{Ｃ（Ｎ／Ｓ→Ａ）}をＧ１^Ｎとともにインキュベートすると、５．７Ｅ−４ｓ^−１のＮ末端切断速度と７０％の収率がもたらされた。

本明細書に引用されている総ての刊行物、特許、特許出願、インターネットサイト、および受託番号／データベース配列（ポリヌクレオチド配列およびポリペプチド配列の両方を含む）は、各個の刊行物、特許、特許出願、インターネットサイト、または受託番号／データベース配列が具体的にかつ個々に参照により本明細書の一部とされることが示された場合と同程度に、あらゆる目的で引用することによりそれらの全内容が本明細書の一部とされる。

詳細な説明の説は特許請求の範囲を説明するために使用されることが意図され、概要および要約の節はこの限りでないと理解すべきである。概要および要約の節は、本発明者らにより企図される本発明の、総てではなく１以上の例示的態様を示し得るものであり、従って、本発明および添付の特許請求の範囲を何ら限定することを意図しない。

具体的態様の以上の記載は、他者が当技術分野の技術の範囲内の知識を使って、過度な実験を行うことなく、本発明の一般概念から逸脱することなく、このような具体的態様を種々の適用に合わせて容易に改変および／または適合化することができるように本発明の一般的性質を十分に明らかにするものである。従って、このような適合および改変は、本明細書に提供される教示および指針に基づき、開示されている態様の等価物の意味および範囲内にあるものとする。本明細書内の術語または用語は説明のためのものであって限定を目的とするものではないと理解すべきであり、従って、本明細書の用語または術語は本教示および指針に照らして当業者により解釈されるべきである。

本発明の幅および範囲は上記の例示的態様のいずれによっても限定されるべきでなく、以下の特許請求の範囲およびそれらの等価物によってのみ定義されるべきである。

Claims

（ｉ）配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一であるインテインドメインと、（ｉｉ）異種ポリペプチドとを含んでなる融合タンパク質であって、前記異種ポリペプチドが、前記インテインドメインのＣ末端にある、融合タンパク質。
前記異種ポリペプチドと前記インテインドメインとが、ペプチド結合により直接連結されているかまたはリンカーにより連結されている、請求項１に記載の融合タンパク質。
前記インテインドメインの最後のアミノ酸が、グルタミンまたはアスパラギンである、請求項１または２に記載の融合タンパク質。
前記異種ポリペプチドまたは前記リンカーの最初のアミノ酸が、セリン、システイン、またはトレオニンである、請求項３に記載の融合タンパク質。
前記インテインドメインの最後のアミノ酸が、アスパラギンまたはグルタミン以外のアミノ酸であり、かつ、前記異種ポリペプチドまたは前記リンカーの最初のアミノ酸が、セリン、システイン、またはトレオニン以外のアミノ酸である、請求項１または２に記載の融合タンパク質。
（ｉ）配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一であるインテインドメインと、（ｉｉ）異種ポリペプチドとを含んでなる融合タンパク質であって、前記異種ポリペプチドが、前記インテインドメインのＮ末端にある、融合タンパク質。
前記異種ポリペプチドと前記インテインドメインとが、ペプチド結合により直接連結されているかまたはリンカーにより連結されている、請求項６に記載の融合タンパク質。
前記インテインドメインの最初のアミノ酸が、セリンまたはシステインである、請求項６または７に記載の融合タンパク質。
前記インテインドメインの最初のアミノ酸が、セリンまたはシステイン以外のアミノ酸である、請求項６または７に記載の融合タンパク質。
第１のインテインドメインと第２のインテインドメインと異種ポリペプチドとを含んでなる融合タンパク質であって、前記異種ポリペプチドが、前記第１のインテインドメインのＮ末端にあり、かつ、前記異種ポリペプチドが、前記第２のインテインドメインのＣ末端にあり、かつ、
（ａ）前記第１のインテインドメインが配列番号３と少なくとも７５％同一であって、前記第２のインテインドメインが配列番号７と少なくとも７５％同一であるか；
（ｂ）前記第１のインテインドメインが配列番号１２と少なくとも７５％同一であって、前記第２のインテインドメインが配列番号１６と少なくとも７５％同一であるか；
（ｃ）前記第１のインテインドメインが配列番号２０と少なくとも７５％同一であって、前記第２のインテインドメインが配列番号２４と少なくとも７５％同一であるか；または
（ｄ）前記第１のインテインドメインが配列番号３４と少なくとも７５％同一であって、前記第２のインテインドメインが配列番号３８と少なくとも７５％同一であるか；または
（ｅ）前記第１のインテインドメインが配列番号６４と少なくとも７５％同一であって、前記第２のインテインドメインが配列番号６５と少なくとも７５％同一である、
融合タンパク質。
前記異種ポリペプチドと第２のインテインドメインとが、ペプチド結合またはリンカーにより連結されており、かつ、前記異種ポリペプチドの最初のアミノ酸または前記リンカーの最初のアミノ酸が、セリン、システイン、またはトレオニンである、請求項１０に記載の融合タンパク質。
第１の成分と第２の成分とを含んでなる、組成物またはパーツキットであって、
（ｉ）前記第１の成分が請求項１〜４のいずれか一項に記載の融合タンパク質であり、かつ、
（ｉｉ）前記第２の成分が請求項９に記載の融合タンパク質およびＮ末端インテインドメインからなる群から選択され、
ａ．請求項１〜４のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号７と少なくとも７５％同一であって、請求項９に記載の融合タンパク質に由来するインテインドメインまたはＮ末端インテインドメインが配列番号３と少なくとも７５％同一であるか；
ｂ．請求項１〜４のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号１６と少なくとも７５％同一であって、請求項９に記載の融合タンパク質に由来するインテインドメインまたはＮ末端インテインドメインが配列番号１２と少なくとも７５％同一であるか；
ｃ．請求項１〜４のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号２４と少なくとも７５％同一であって、請求項９に記載の融合タンパク質に由来するインテインドメインまたはＮ末端インテインドメインが配列番号２０と少なくとも７５％同一であるか；
ｄ．請求項１〜４のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号３８と少なくとも７５％同一であって、請求項９に記載の融合タンパク質に由来するインテインドメインまたはＮ末端インテインドメインが配列番号３４と少なくとも７５％同一であるか；
ｅ．請求項１〜４のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号６５と少なくとも７５％同一であって、請求項９に記載の融合タンパク質に由来するインテインドメインまたはＮ末端インテインドメインが配列番号６４と少なくとも７５％同一である、
組成物またはパーツキット。
第１の成分と第２の成分とを含んでなる、組成物またはパーツキットであって、
（ｉ）前記第１の成分が請求項６〜８のいずれか一項に記載の融合タンパク質であり、かつ、
（ｉｉ）前記第２の成分が請求項５に記載の融合タンパク質およびＣ末端インテインドメインからなる群から選択され、
ａ．請求項６〜８のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号３と少なくとも７５％同一であって、請求項５に記載の融合タンパク質に由来するインテインドメインまたはＣ末端インテインドメインが配列番号７と少なくとも７５％同一であるか；
ｂ．請求項６〜８のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号１２と少なくとも７５％同一であって、請求項５に記載の融合タンパク質に由来するインテインドメインまたはＣ末端インテインドメインが配列番号１６と少なくとも７５％同一であるか；
ｃ．請求項６〜８のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号２０と少なくとも７５％同一であって、請求項５に記載の融合タンパク質に由来するインテインドメインまたはＣ末端インテインドメインが配列番号２４と少なくとも７５％同一であるか；
ｄ．請求項６〜８のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号３４と少なくとも７５％同一であって、請求項５に記載の融合タンパク質に由来するインテインドメインまたはＣ末端インテインドメインが配列番号３８と少なくとも７５％同一であるか；
ｅ．請求項６〜８のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号６４と少なくとも７５％同一であって、請求項５に記載の融合タンパク質に由来するインテインドメインまたはＣ末端インテインドメインが配列番号６５少なくとも７５％同一である、
組成物またはパーツキット。
請求項１〜４のいずれか一項に記載の融合タンパク質と請求項６〜８のいずれか一項に記載の融合タンパク質とを含んでなる、組成物またはパーツキットであって、
ａ．請求項１〜４のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号７と少なくとも７５％同一であって、請求項６〜８のいずれか一項に記載の融合タンパク質が配列番号３と少なくとも７５％同一であるか；
ｂ．請求項１〜４のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号１６と少なくとも７５％同一であって、請求項６〜８のいずれか一項に記載の融合タンパク質が配列番号１２と少なくとも７５％同一であるか；
ｃ．請求項１〜４のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号２４と少なくとも７５％同一であって、請求項６〜８のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号２０と少なくとも７５％同一であるか；
ｄ．請求項１〜４のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号３８と少なくとも７５％同一であって、請求項６〜８のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号３４と少なくとも７５％同一であるか；または
ｅ．請求項１〜４のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号６５と少なくとも７５％同一であって、請求項６〜８のいずれか一項に記載の融合タンパク質に由来するインテインドメインが配列番号６４と少なくとも７５％同一である、
組成物またはパーツキット。
（ｉ）インテインドメインのＣ末端に連結されている異種ポリペプチドをインテインドメインから切断するための方法であって、インテインを介したタンパク質切断を可能とする条件下で、請求項１２に記載の組成物をインキュベートすること、または請求項１２に記載のパーツキットの成分を会合させること、を含んでなる方法、
（ｉｉ）インテインドメインのＮ末端に連結されている異種ポリペプチドをインテインドメインから切断するための方法であって、インテインを介したタンパク質切断を可能とする条件下で、請求項１３に記載の組成物をインキュベートすること、または請求項１３に記載のパーツキットの成分を会合させること、を含んでなる方法、
（ｉｉｉ）第１のポリペプチドのＮ末端と第２のポリペプチドのＣ末端を共有結合させる方法であって、インテインスプライシングを可能とする条件下で、請求項１４に記載の組成物をインキュベートすること、または請求項１４に記載のパーツキットの成分を会合させることを含んでなり、前記第１のポリペプチドが、請求項１〜４のいずれか一項に記載の融合タンパク質の一部を形成する異種ポリペプチドであって、前記第２のポリペプチドが、請求項６〜８のいずれか一項に記載の融合タンパク質の一部を形成する異種ポリペプチドである、方法、
（ｉｖ）異種ポリペプチドを環化するための方法であって、請求項１０または１１に記載の融合タンパク質を、インテインスプライシングを可能とする条件下でインキュベートすることを含んでなり、前記異種ポリペプチドが、請求項１０または１１に記載の融合タンパク質の一部を形成する異種ポリペプチドである、方法
からなる群から選択される方法。
配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの下流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも１つのクローニング部位とを含んでなり、これにより、前記インテインドメインと対象ポリヌクレオチドによりコードされるポリペプチドとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクター。
前記インテインドメインの最後のアミノ酸が、グルタミンまたはアスパラギンである、請求項１６に記載のベクター。
前記インテインドメインの最後から２番目のアミノ酸が、ヒスチジンである、請求項１７に記載のベクター。
前記インテインドメインの最後のアミノ酸が、アスパラギンまたはグルタミン以外のアミノ酸である、請求項１６に記載のベクター。
前記インテインドメインと前記異種ペプチドによりコードされるポリペプチドとの間にリンカーペプチドを形成するポリペプチドをコードするポリヌクレオチドをさらに含んでなる、請求項１６に記載のベクター。
前記インテインドメインの最後のアミノ酸が、アスパラギンまたはグルタミン以外のアミノ酸であり、前記リンカーの最初のアミノ酸が、セリン、システインまたはトレオニン以外のアミノ酸である、請求項２０に記載のベクター。
配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一であるインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドに上流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも１つのクローニング部位とを含んでなり、これにより、対象ポリヌクレオチドによりコードされるポリペプチドとインテインドメインとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成される、ベクター。
前記インテインドメインの最初のアミノ酸が、セリンまたはシステインである、請求項２２に記載のベクター。
前記インテインドメインの最初のアミノ酸が、セリンまたはシステイン以外のアミノ酸である、請求項２２に記載のベクター。
配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一である第１のインテインドメインをコードするポリヌクレオチドと、前記ポリヌクレオチドの下流に、対象ポリヌクレオチドのクローニングを可能とする少なくとも１つのクローニング部位と、前記クローニング部位の下流に、配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一である第２のインテインドメインをコードするポリヌクレオチドとを含んでなり、これにより、対象ポリヌクレオチドによりコードされるポリペプチドと第１および第２のインテインドメインとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成されるベクターであって、
ａ．前記第１のインテインドメインが配列番号７と少なくとも７５％同一であれば、前記第２のインテインドメインは配列番号３と少なくとも７５％同一であり；
ｂ．前記第１のインテインドメインが配列番号１６と少なくとも７５％同一であれば、前記第２のインテインドメインは配列番号１２と少なくとも７５％同一であり；
ｃ．前記第１のインテインドメインが配列番号２４と少なくとも７５％同一であれば、前記第２のインテインドメインは配列番号２０と少なくとも７５％同一であり；
ｄ．前記第１のインテインドメインが配列番号３８と少なくとも７５％同一であれば、前記第２のインテインドメインは配列番号３４と少なくとも７５％同一であり；または
ｅ．前記第１のインテインドメインが配列番号６５と少なくとも７５％同一であれば、前記第２のインテインドメインは配列番号６４と少なくとも７５％同一である、ベクター。
前記インテインドメインの最後のアミノ酸が、グルタミンまたはアスパラギンであり、前記インテインドメインの最後から２番目のアミノ酸が、ヒスチジンであり、かつ／または前記第２のインテインドメインの最初のアミノ酸が、セリンまたはシステインである、請求項２５に記載のベクター。
（ｉ）配列番号７、１６、２４、３８および６５からなる群から選択される配列と少なくとも７５％同一である第１のインテインドメインをコードするポリヌクレオチドと、
（ｉｉ）第１のインテインドメインをコードする前記ポリヌクレオチドの下流に、第１のクローニング部位と、
（ｉｉｉ）配列番号３、１２、２０、３４および６４からなる群から選択される配列と少なくとも７５％同一である第２のインテインドメインをコードするポリヌクレオチドと、
（ｉｖ）第２のインテインドメインをコードする前記ポリヌクレオチドの上流に、第２のクローニング部位と
を含んでなる、ベクターであって、
第１のクローニング部位が第１の対象ポリヌクレオチドのクローニングを可能とし、第２のクローニング部位が第２の対象ポリヌクレオチドのクローニングを可能とし、これにより、前記の順に、第２の対象ポリヌクレオチドによりコードされるポリペプチドと、第２のインテインドメインと、第１のインテインドメインと、第２の対象ポリヌクレオチドによりコードされるポリペプチドとを含んでなる融合タンパク質をコードするポリヌクレオチドが形成され、
ａ．前記第１のインテインドメインが配列番号７と少なくとも７５％同一であれば、前記第２のインテインドメインは配列番号３と少なくとも７５％同一であり；
ｂ．前記第１のインテインドメインが配列番号１６と少なくとも７５％同一であれば、前記第２のインテインドメインは配列番号１２と少なくとも７５％同一であり；
ｃ．前記第１のインテインドメインが配列番号２４と少なくとも７５％同一でれば、前記第２のインテインドメインは配列番号２０と少なくとも７５％同一であり；
ｄ．前記第１のインテインドメインが配列番号３８と少なくとも７５％同一であれば、前記第２のインテインドメインは配列番号３４と少なくとも７５％同一であり；または
ｅ．前記第１のインテインドメインが配列番号６５と少なくとも７５％同一であれば、前記第２のインテインドメインは配列番号６４と少なくとも７５％同一である、ベクター。
前記第２のインテインドメインと前記第２の対象ポリヌクレオチドによりコードされるポリペプチドとを連結する第１のペプチドリンカーをコードするポリヌクレオチドをさらに含んでなり、かつ／または前記第１のインテインドメインと前記第１の対象ポリヌクレオチドによりコードされるポリペプチドとを連結する第２のペプチドリンカーをコードするポリヌクレオチドをさらに含んでなる、請求項２７に記載のベクター。
前記第２のインテインドメインの最初のアミノ酸が、システインまたはセリンであり、前記第１のインテインドメイン最後のアミノ酸が、グルタミンまたはアスパラギンであり、前記第１のインテインドメインの最後から２番目のアミノ酸が、ヒスチジンであり、かつ／または第２の対象ポリペプチドのまたは前記第１のペプチドリンカーの最初のアミノ酸が、システイン、セリンまたはトレオニンである、請求項２７に記載のベクター。