JP7157483B2

JP7157483B2 - Ｐｐｒモチーフを利用したｒｎａ結合性蛋白質の設計方法及びその利用

Info

Publication number: JP7157483B2
Application number: JP2021086108A
Authority: JP
Inventors: 崇裕中村; 祐介八木; 啓子小林
Original assignee: Kyushu University NUC
Current assignee: Kyushu University NUC
Priority date: 2011-10-21
Filing date: 2021-05-21
Publication date: 2022-10-20
Anticipated expiration: 2032-10-22
Also published as: JP6934644B2; US9513283B2; PT2784157T; ES2751126T3; JP6267388B2; JPWO2013058404A1; AU2019280013B2; JP7381133B2; AU2017254874A1; US20140335521A1; JP2017192391A; EP2784157B1; US20180247018A1; JP2021130678A; US20190311783A1; AU2012326971A1; JP2018078896A; AU2017254874B2; AU2019280013A1; AU2012326971B2

Description

本発明は、意図したRNA塩基又はRNA配列に選択的又は特異的に結合可能な蛋白質に関する。本発明では、pentatricopeptide repeat(PPR)モチーフを利用する。本発明は、RNA結合性蛋白質の同定、設計、PPR蛋白質の標的RNAの同定、RNAの機能制御のために用いることができる。本発明は、医療分野、農学分野等で有用である。

近年、様々な解析より明らかになった核酸結合性の蛋白質因子を用いて、意図する配列に結合する技術が確立、利用されている。この配列特異的な結合を利用することで、標的とする核酸（DNA又はRNA）の細胞内局在の解析、標的とするDNA配列の除去、又はその下流に存在する蛋白質コード遺伝子の発現の制御（活性化、又は不活化）が可能になりつつある。

DNAに作用する蛋白質性因子として、ジンクフィンガー蛋白質(非特許文献1)やTAL effector(非特許文献2、特許文献1)を蛋白質工学的材料とした研究及び開発が行われているが、RNAに特異的に作用する蛋白質性因子の開発はいまだ非常に限定されている。これは、一般的に蛋白質を構成するアミノ酸配列が有するRNAとの親和性及び結合RNA配列との法則性がほとんど明らかになっていない、もしくは法則性が見いだせないためである。例外的に、38アミノ酸から成るpufモチーフの複数個の繰り返しで構成されるpumilio蛋白質に関して、pufモチーフ1個がRNA 1塩基に結合することが示されており(非特許文献3)、pumilio蛋白質を用いた新規RNA結合特性をもつ蛋白質、及びRNA結合特性の改変技術が試みられている(非特許文献4)。しかし、pufモチーフは高度に保存されており、かつ存在数が少ない。そのため、限られたRNA配列に作用する蛋白質因子の創成にしか用いられていない。

他方、ゲノム配列情報から、植物のみで500個もの大きなファミリーを形成する蛋白質、PPR蛋白質（pentatricopeptide repeat(PPR)モチーフを有するタンパク質）が同定された(非特許文献5)。PPR蛋白質は核コードであるが、専らオルガネラ（葉緑体とミトコンドリア）のRNAレベルでの制御、切断、翻訳、スプライシング、RNA編集、RNA安定性に遺伝子特異的に作用する。PPR蛋白質は、典型的には、保存性の低い35アミノ酸のモチーフ、すなわちPPRモチーフが約10個連続した構造を有しており、PPRモチーフの組み合わせが、RNAとの配列選択的な結合を担っていると考えられている。ほとんどのPPR蛋白質はPPRモチーフ約10個の繰り返しのみで構成されており、多くの場合、触媒作用を発揮するために必要なドメインが見いだせない。そのため、このPPR蛋白質の実体はRNAアダプターだと考えられている(非特許文献6)。

本発明者らは、このPPRモチーフを利用した、RNA結合性蛋白質の改変方法について、提案してきた（特許文献2）。

WO2011/072246 WO2011/111829

Maeder, M.L., Thibodeau-Beganny, S., Osiak, A., Wright, D.A., Anthony, R.M., Eichtinger, M., Jiang, T., Foley, J.E., Winfrey, R.J., Townsend, J.A., et al. (2008). Rapid "open-source" engineering of customized zinc-fingernucleases for highly efficient gene modification. Mol. Cell 31, 294-301. Miller, J.C., Tan, S., Qiao, G., Barlow, K.A., Wang, J., Xia, D.F., Meng, X., Paschon, D.E., Leung, E., Hinkley, S.J., et al. (2011). A TALE nuclease architecture for efficient genome editing. Nature biotech. 29, 143-148. Wang, X., McLachlan, J., Zamore, P.D., and Hall, T.M. (2002). Modular recognition of RNA by a human pumilio-homology domain. Cell 110, 501-512. Cheong, C.G., and Hall, T.M. (2006). Engineering RNA sequence specificity of Pumilio repeats. Proc. Natl. Acad. Sci. USA 103, 13635-13639. Small, I.D., and Peeters, N. (2000). The PPR motif - a TPR-related motif prevalent in plant organellar proteins. Trends Biochem. Sci. 25, 46-47. Woodson, J.D., and Chory, J. (2008). Coordination of gene expression between organellar and nuclear genomes. Nature Rev. Genet. 9, 383-395.

PPR蛋白質のRNAアダプターとしての性質は、PPR蛋白質を構成するそれぞれのPPRモチーフの性質、及び複数個のPPRモチーフの組み合わせで決定されると予想される。しかしながら、そのアミノ酸構成と機能の相関関係はほとんど明らかでない。PPRモチーフがRNA結合特性を発揮する際に機能するアミノ酸を同定し、またPPRモチーフの構造と標的塩基との関係が明らかになれば、PPRモチーフの構造や複数のモチーフの組み合わせを人為的に操作することで、任意の配列、長さを有するRNAに結合可能な蛋白質を構築できる可能性がある。

本発明者らは、上記課題を解決するために、遺伝学的に解析されたPPR蛋白質、特にRNA編集（RNAレベルでの遺伝情報の改変、特にシトシン(以下C)からウラシル(以下U)への変換）に関わるPPR蛋白質とその標的RNA配列について検討してきた。そして、計算科学的手法を用いることで、PPRモチーフ中の、3つのアミノ酸（1番、4番、“ii”（-2）番のアミノ酸）に、特定のRNA塩基との結合を司る情報が含まれていることを明らかにした。より詳細には、本発明者らは、PPRモチーフの結合RNA塩基の選択性（特異性ということもある。）は、モチーフを構成する2つのαヘリックス構造のうち、最初のヘリックスに含まれる1番目及び4番目のアミノ酸、及び2つ目のヘリックスの後の、ループ構造を形成しうる部分において、後ろ（C末端側）から2番目のアミノ酸（“ii”;-2番）、の3箇所のアミノ酸で決定されることを見出し、本発明を完成した。

本発明は、以下を提供する：
［1］RNA塩基選択的に、又はRNA塩基配列特異的に結合可能な蛋白質を設計する方法であって；
蛋白質が、式1で表される30～38アミノ酸長のポリペプチドからなるPPRモチーフを1個以上（好ましくは2～14個）含む、蛋白質であり

（式中：
Helix Aは、12アミノ酸長の、αヘリックス構造を形成可能な部分であって、式2で表され、

式2中、A₁～A₁₂はそれぞれ独立にアミノ酸を表し；
Xは、存在しないか又は1～9アミノ酸長からなる部分であり；
Helix Bは、11～13アミノ酸長からなる、αヘリックス構造を形成可能な部分であり；
Lは、2～7アミノ酸長の、式3で表される部分であり；

式3中、各アミノ酸は、“i”(-1)、“ii”(-2)、とC末端側からナンバリングされ、
ただし、L_iii～L_viiは存在しない場合がある。）
A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせ、又はA₄、L_iiの2つのアミノ酸の組み合わせを、対象RNA塩基又は塩基配列に応じたものとする、方法。
［2］A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせを、RNA塩基又は対象塩基配列に応じたものとする、[1]に記載の方法であって、アミノ酸の組み合わせが、下記のいずれかに基づいて決定される、方法：
(3-1) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、バリン、アスパラギン、アスパラギン酸であるとき、そのPPRモチーフは、U（ウラシル）に選択的に結合でき；
(3-2) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、バリン、トレオニン、アスパラギンであるとき、そのPPRモチーフは、A（アデニン）に選択的に結合でき；
(3-3) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、バリン、アスパラギン、アスパラギンであるとき、そのPPRモチーフは、C（シトシン）に選択的に結合でき；
(3-4) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、グルタミン酸、グリシン、アスパラギン酸であるとき、そのPPRモチーフは、G（グアニン）に選択的に結合でき；
(3-5) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、イソロイシン、アスパラギン、アスパラギンであるとき、そのPPRモチーフは、C又はUに選択的に結合でき；
(3-6) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、バリン、トレオニン、アスパラギン酸であるとき、そのPPRモチーフは、Gに選択的に結合でき；
(3-7) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、リジン、トレオニン、アスパラギン酸であるとき、そのPPRモチーフは、Gに選択的に結合でき；
(3-8) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、フェニルアラニン、セリン、アスパラギンであるとき、そのPPRモチーフは、Aに選択的に結合でき；
(3-9) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、バリン、アスパラギン、セリン、の場合であるとき、そのPPRモチーフは、Cに選択的に結合でき；
(3-10) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、フェニルアラニン、トレオニン、アスパラギンであるとき、そのPPRモチーフは、Aに選択的に結合でき；
(3-11) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、イソロイシン、アスパラギン、アスパラギン酸であるとき、そのPPRモチーフは、UまたはAに選択的に結合でき；
(3-12) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、トレオニン、トレオニン、アスパラギンであるとき、そのPPRモチーフは、Aに選択的に結合でき；
(3-13) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、イソロイシン、メチオニン、アスパラギン酸であるとき、そのPPRモチーフは、UまたはCに選択的に結合でき；
(3-14) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、フェニルアラニン、プロリン、アスパラギン酸であるとき、そのPPRモチーフは、Uに選択的に結合でき；
(3-15) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、チロシン、プロリン、アスパラギン酸であるとき、そのPPRモチーフは、Uに選択的に結合でき；
(3-16) A₁、A₄、及びL_iiの3つのアミノ酸が、順に、ロイシン、トレオニン、アスパラギン酸であるとき、そのPPRモチーフは、Gに選択的に結合できる。
［3］A₄、及びL_iiの2つのアミノ酸の組み合わせを、RNA塩基又は対象塩基配列に応じたものとする、[1]に記載の方法であって、アミノ酸の組み合わせが、下記のいずれかに基づいて決定される、方法：
(2-1) A₄、L_iiが、順に、アスパラギン、アスパラギン酸であるとき、そのモチーフは、Uに選択的に結合でき；
(2-2) A₄、L_iiが、順に、アスパラギン、アスパラギンであるとき、そのモチーフは、Cに選択的に結合でき；
(2-3) A₄、L_iiが、順に、トレオニン、アスパラギンであるとき、そのモチーフは、Aに選択的に結合でき；
(2-4) A₄、L_iiが、順に、トレオニン、アスパラギン酸であるとき、そのモチーフは、Gに選択的に結合でき；
(2-5) A₄、L_iiが、順に、セリン、アスパラギンであるとき、そのモチーフは、Aに選択的に結合でき；
(2-6) A₄、L_iiが、順に、グリシン、アスパラギン酸であるとき、そのモチーフは、Gに選択的に結合でき；
(2-7) A₄、L_iiが、順に、アスパラギン、セリンであるとき、そのモチーフは、Cに選択的に結合でき；
(2-8) A₄、L_iiが、順に、プロリン、アスパラギン酸であるとき、そのモチーフは、Uに選択的に結合でき；
(2-9) A₄、L_iiが、順に、グリシン、アスパラギンであるとき、そのモチーフは、Aに選択的に結合でき；
(2-10) A₄、L_iiが、順に、メチオニン、アスパラギン酸であるとき、そのモチーフは、Uに選択的に結合でき；
(2-11) A₄、L_iiが、順に、ロイシン、アスパラギン酸であるとき、そのモチーフは、Cに選択的に結合でき；
(2-12) A₄、L_iiが、順に、バリン、トレオニンであるとき、そのモチーフは、Uに選択的に結合できる。
［4］[1]に定義されたPPRモチーフを、1個以上（好ましくは2～14個）含む、RNA結合性蛋白質の標的となる塩基、又は塩基配列を同定する方法であって：
同定が、2に記載の(3-1)～(3-16)のいずれか、又は3に記載の(2-1)～(2-12)のいずれかに基づいて、PPRモチーフのA₁、A₄、及びL_iiの3つのアミノ酸の組み合わせ、又はA₄、L_iiの2つのアミノ酸の組み合わせに応じた塩基の有無を認定することにより行われる、方法。
［5］標的RNA塩基、又は特定の塩基配列を有する標的RNAに結合可能な、[1]に定義されたPPRモチーフを1個以上（好ましくは2～14個）含む、PPR蛋白質を同定する方法であって：
同定が、2に記載の(3-1)～(3-16)のいずれか、又は3に記載の(2-1)～(2-12)のいずれかに基づいて、標的RNA塩基、又は標的RNAを構成する特定の塩基に応じた、PPRモチーフのA₁、A₄、及びL_iiの3つのアミノ酸の組み合わせの有無を認定することにより行われる、方法。
［6］[1]に記載された方法で設計された蛋白質を用いる、RNAの機能の制御方法。
［7］[1]に記載された方法で設計された蛋白質からなる領域と機能性領域とが連結されてなる、複合体。
［8］以下の工程を含む、細胞の遺伝物質を改変する方法：
標的配列を有するRNAを含む細胞を準備し；そして
[7]に記載された複合体を細胞に導入することにより、複合体の蛋白質領域が標的配列を有するRNAに結合し、そのため機能性領域が、標的配列を有するRNAを改変する、方法。
［9］細胞質雄性不稔性の稔性回復因子として働くPPR蛋白質遺伝子において、様々な品種間で見られる当該遺伝子のアミノ酸多型を検出する工程；
当該遺伝子における多型と稔性との関連を特定する工程；
被検サンプルから得られたPPR蛋白質遺伝子の塩基配列を特定し、被検サンプルの稔性を決定する工程；
を含む、PPR蛋白質遺伝子の稔性を判定する方法。
［10］PPR蛋白質が、[1]において定義される式1で表される30～38アミノ酸長のポリペプチドからなるPPRモチーフを1個以上（好ましくは2～16個）含む、蛋白質である、[9]に記載の方法。
［11］アミノ多型をPPRモチーフごとの多型として特定することを特徴とする、[9]または[10]に記載の方法。
［12］PPRモチーフの多型が、式1のモチーフのA₁、A₄、及びL_iiの3つのアミノ酸の組み合わせ、又はA₄、L_iiの2つのアミノ酸の組み合わせにより特定されるものである、[9]～[11]のいずれかに記載の方法。
［13］PPRモチーフの多型が、式1のモチーフの4番アミノ酸（A₄）の多型により特定される、請求項12に記載の方法。
［14］PPR蛋白質遺伝子上のすべてのPPRモチーフの4番アミノ酸が、Enko Bの対応するすべてのPPRモチーフの4番アミノ酸と同一であることが、稔性であることを示す、請求項13に記載の方法。
［15］PPR蛋白質遺伝子が、orf687様遺伝子（すなわち、Enko Bをコードする「687遺伝子」と相同な遺伝子座に座乗するファミリー遺伝子、Enko Bと90％以上のアミノ酸配列同一性を有する遺伝子、Enko Bをコードする「ORF687遺伝子」90％以上の塩基配列同一性を有する遺伝子）である、請求項9～14のいずれか1項に記載の方法。
［16］様々な品種のorf687様遺伝子によりコードされる蛋白質が、配列番号：576～578、585～591のいずれかである、請求項9～15のいずれか1項に記載の方法。

本発明により、対象RNA塩基に結合可能なPPRモチーフ及びそれを含む蛋白質が提供できる。複数個のPPRモチーフを配することにより、任意の配列や長さを有する標的RNAに結合可能な蛋白質が提供できる。

本発明により、任意のPPR蛋白質の標的RNAを予測し、同定することができ、また逆に、任意のRNAに結合するPPR蛋白質を予測し、同定することができる。標的RNA配列を予測することで、その遺伝子的実体を明らかにし、また利用できる可能性が広がる。例えば、本発明においてPPR蛋白質の機能として稔性を考える場合、細胞質雄性不稔性の回復因子として働くような産業的に有用なPPR蛋白質遺伝子について、様々なアミノ酸多型を有した相同遺伝子の機能性をその標的RNA配列の相違から検定することができる。

また、本発明により提供されるPPRモチーフ又はPPR蛋白質に機能性を結合し、複合体を調製することができる。

さらに本発明により、上記の複合体を生体内にデリバリーし、機能させる方法、又は本発明により得られた蛋白質をコードする核酸配列（DNA、RNA）を用いた形質転換体の作製や、生物（細胞、組織、個体）における様々な場面での、特異的な改変、制御及び機能の付与に利用できる。

図1は、PPRモチーフの保存配列とアミノ酸番号を示す。(A) 本発明で定義するPPRモチーフを構成するアミノ酸、およびそのアミノ酸番号を記す。(B) 結合塩基選択性を制御する3つのアミノ酸（1、4、“ii”（-2）番）の予測構造上での位置を示す。(C) 予測構造上での当該アミノ酸の位置。シロイヌナズナCRR4（配列番号6）、CRR21（配列番号3）の全アミノ酸を問い合わせ配列に用いて、PHYRE (http://www.sbg.bio.ic.ac.uk/phyre/)プログラムで予測構造を解析したところ、O‐GlucNAc transferase(1w3b)を鋳型に、それぞれ高スコアで構造が予測された（4.3e-17 and 4.7e-16；for CRR4 and CRR21）。そのうち、CRR4の5番目のPPRモチーフ（左図）およびCRR21の8番目のPPRモチーフ（右図）を示した。1、4、“ii”（-2）番はマゼンタ色（白黒表示では濃灰色）のスティックとして示した。図2は、これまでに解析されたRNA編集PPR蛋白質とその標的となるRNA編集部位を示す。図3は、シロイヌナズナRNA編集PPR蛋白質のPPRモチーフ配列とアミノ酸番号を示す。図3-2は、図3-1の続きを示す。図3-3は、図3-2の続きを示す。図3-4は、図3-3の続きを示す。図4は、RNA認識に関わるPPRモチーフ中のアミノ酸を示す。(A) PPRモチーフ中の結合塩基指定能力を持つアミノ酸の同定。RNA編集PPR蛋白質のPPRモチーフをRNA編集部位上流配列と様々な配置で整列させた。整列は、モチーフと塩基を1対1として、連続的に配置することで行った。整列P1は最後のPPRモチーフを編集されるCの一つ前の塩基に対応させた。塩基配列を右方向に1塩基ずつずらすことでP2～P6の整列を得た。四角はPPRモチーフ、菱形はC末端側の付加モチーフ（E、E+、DYW）を示す。もしモチーフ内の特定箇所のアミノ酸（例、緑色（白黒表示では濃灰色）のモチーフのアミノ酸）がRNA塩基認識を担う場合、特定の整列に置いて、対応する塩基との間にlow randomnessが期待できる（右下図）。そうでない場合、high randomnessが予想される（右上図）。(B) 1、4、“ii”（-2）番アミノ酸の結合RNA塩基指定能力。各整列におけるアミノ酸と塩基のlow randomnessをP値で示した。(C) 様々な核酸の分類における1、4、“ii”（-2）番アミノ酸の結合RNA塩基指定能力。(B) と同じ。ただし、核酸はプリンまたはピリミジン（RY; A&G or U&C）、水素結合グループ（WS; A&U、G&C）の分類。(D) 上記(C)で示したPPRモチーフ中のRNA認識アミノ酸による結合塩基指定能力についてさらに詳細に解析した結果、4番アミノ酸が結合する塩基のプリン/ピリミジン（RY）を主に区別する以外に、“ii”（-2）番アミノ酸が塩基のアミノ型（AおよびC）ケト型（GおよびU）（MK）の区別に働くことが示された（図4D）。(E) いくつかのPPRモチーフのRNA認識コード（PPRコード）の例。白地は1、4、“ii”（-2）番アミノ酸の種類。各コードの出現頻度をNo.に、また対応する核酸の出現頻度をNucleotide frequencyに示した。図5は、RNA認識に関わるPPRモチーフ中のアミノ酸の同定(例) を示す。各整列におけるPPRモチーフと対応するRNA塩基のデータセットを用いて、RNA認識に関わるアミノ酸を探索した。例えば、整列P4におけるPPRモチーフと対応するRNA塩基のデータを用い、4番および5番アミノ酸の結合RNA塩基指定能力を解析した。それぞれの整列において、まずアミノ酸の種類でデータを並べ替え、含まれるRNA塩基の数を算出した（左上図）。つぎに理論値をデータセットに含まれる全てのRNAの出現頻度の中央値を基に作製した（右上図）。この2つのデータを用いたカイ二乗検定により、P値を算出した。上図は、有意なP値が得られた整列P4の4番アミノ酸、下図は有意なP値が得られなかった整列4の5番アミノ酸、における解析結果を示す。図6は、RNA塩基指定能力を担うアミノ酸の探索を示す。(A) アミノ酸の種類と塩基の出現頻度との間のlow randomnessをP1～P6の整列における全ての位置のアミノ酸に対して算出した。有意なP値（P<0.01)を示したアミノ酸は、マゼンタ色（白黒表示では、濃灰色）で示した。シアン色の線（グラフ中の横線。白黒表示では濃灰色）は、P値=0.01を示す。(B) 各整列におけるlow randomnessのまとめ。(A)で示した各位置のアミノ酸でのP値の積をその整列におけるlow randomnessの総合値として示した。図7は、2つのアミノ酸による結合RNA塩基指定能力を示す。異なる組み合わせの2アミノ酸（1&4、1&“ii”、4&“ii”番アミノ酸）による結合RNA塩基指定能力を図4と同様に、アミノ酸と対応する塩基とのlow randomnessで解析した。図8は、シロイヌナズナより抽出したPPRモチーフのRNA認識コードを示す。図9は、ヒメツリガネゴケRNA編集PPR蛋白質、及び各蛋白質が働くRNA編集部位の配列を示す。蛋白質のモチーフ構造と共に、各PPRモチーフ中の1、4、“ii”（-2）番アミノ酸配列を示した。マゼンタ、シアン色（いずれも白黒表示では濃灰色）の文字は、それぞれシロイヌナズナより抽出されたtriPPR、またはdiPPR コードと相同なアミノ酸の組み合わせを示す。C末端側の付加モチーフ（E、E+、DYW）も示した。各蛋白質が作用するRNA編集部位の配列（編集されるCを含む上流配列）を図4で示した整列P4の位置で示した。図10は、PPR蛋白質とRNA編集部位RNA配列との適合値算出法のフローチャートを示す。Uniprot、もしくはPROSITEデータベースより、蛋白質のPPRモデルを入手し、図1に従って、各アミノ酸番号を付与する。1、4、“ii”番アミノ酸を抽出する。例として、コケPPR蛋白質、PpPPR71を示した。次に一致するアミノ酸の組み合わせを、triPPRコード行列に変換する。triPPRコードに変換できなかったモチーフは、次にdiPPRコード行列に変換する。平行して、RNA編集部位30nt（最後が編集されるC）を数式行列に変換する。例として、PpPPR71蛋白質が作用するccmFCeU122SF配列を示した。次に、蛋白質コード行列とRNA数式行列の相当するマス目同士の積を求め、その和から適合値を算出する。蛋白質コード行列の最後の行は編集されるCの4つ前の塩基に相当する行に適合させること。この計算は、triPPRコード、diPPRコードから作製した蛋白質コード行列それぞれで行う。複数のRNA配列との適合値より作製した標準分布曲線を用い、それぞれのRNA配列に対する暫定P値をtriPPRコード、diPPRコード、それぞれで求める。最終的な適合値（P値）は、triPPRおよびdiPPRコードの暫定P値の積として算出する。図11は、PPRコードを用いたPPR蛋白質の標的RNA配列の予測を示す。(A) コケPPR蛋白質より、1、4、“ii”（-2）番アミノ酸を抽出し、図10に示したようにtriPPRまたはdiPPRコードに変換し、RNA編集部位との適合値を計算、P値で示した。RNA編集部位として、コケの13箇所のRNA編集部位、参照配列として、シロイヌナズナ葉緑体の34 RNA編集部位を用いた。図には、コケの13 RNA編集部位との適合値のみを示した。菱形は、それぞれの編集部位に対する各蛋白質の適合値を示す。正しい編集部位をマゼンタ色（白黒表示ではベタ灰色）で示した。(B) (A)に記したP値をテーブルで示した。図12は、シロイヌナズナRNA編集蛋白質を用いたRNA編集部位予測精度の検証を示す。コード抽出に用いたシロイヌナズナPPR蛋白質を用いて、予測精度を検証した。(A) 葉緑体RNA編集部位全34箇所に対する既知PR蛋白質13コのRNA編集部位予測。それぞれの菱形は、蛋白質とRNA編集部位配列との適合値を示す。正しいRNA編集部位をマゼンタ色（白黒表示ではベタ灰色）で示した。(B) ミトコンドリアRNA編集部位全488箇所に対する既知PR蛋白質11コのRNA編集部位予測。図13は、シロイヌナズナPPR蛋白質AHG11の標的RNA編集部位の予測と実験的な検証を示す。(A) AHG11のモチーフ構造。12コのPPRモチーフとC末端側の付加モチーフ（E、E+、DYW）という典型的なRNA編集型PPR蛋白質の構造を有する。Ahg11変異体では、星印で示した位置（295番目のTrp）の点変異によりコード領域内に新たな翻訳集結コドンが見いだせる。(B) シロイヌナズナの葉緑体、ミトコンドリアに含まれる全てのRNA編集部位を用いた標的RNA編集部位予測。最も高いP値を示したトップ10編集部位を示した。野生株、変異株におけるRNA編集の有無を実験的に検証し、editing statusとして示した。野生株、変異株両方で編集が検出された部位をE、変異株のみでRNA編集が見いだせなかった部位をUn、と示した。(C) 予測の結果をグラフで示した。(D) AHG11の標的RNA編集部位の実験的な検証。ミトコンドリアnad4を含む領域のシークエンス解析結果を示す。野生株、ahg11変異株よりRNAを抽出し、逆転写によって、cDNAを調製し、塩基配列解析を行った。この領域には、2つのRNA編集部位（nsd4_362及び_376）が存在する。編集された部位を黒矢印、編集されていない部位を白矢印、で示した。図14は、葉緑体ゲノム配列からの標的部位の予測を示す。6コのPPR蛋白質を用いて、シロイヌナズナ葉緑体全ゲノム配列（154,478bp）から標的部位の予測を行った。予測には、シロイヌナズナより抽出したコード（At code）、もしくは、シロイヌナズナとコケから抽出したコード（At+Pp code）を用いた。図15は、シロイヌナズナ及びヒメツリガネゴケより抽出したPPRモチーフのRNA認識コードを示す。図16は、本発明に関連するアミノ酸配列又は塩基配列を示す。図16は、本発明に関連するアミノ酸配列又は塩基配列を示す。図16は、本発明に関連するアミノ酸配列又は塩基配列を示す。図16は、本発明に関連するアミノ酸配列又は塩基配列を示す。図16は、本発明に関連するアミノ酸配列又は塩基配列を示す。図16は、本発明に関連するアミノ酸配列又は塩基配列を示す。図16は、本発明に関連するアミノ酸配列又は塩基配列を示す。図16は、本発明に関連するアミノ酸配列又は塩基配列を示す。図16は、本発明に関連するアミノ酸配列又は塩基配列を示す。図16は、本発明に関連するアミノ酸配列又は塩基配列を示す。図17は、Enko B蛋白質と細胞質雄性不稔（CMS）遺伝子を含むRNAとの結合解析を示す。図18は、ORF687様蛋白質とRNAとの結合を示す。図19は、オグラ型細胞質に働く稔性回復因子の結合配列予測を示す。図20は、ORF687様蛋白質の候補結合RNA領域の二次構造と構造変化を示す。図21は、ORF687様蛋白質のアライメントを示す。図21は、ORF687様蛋白質のアライメントを示す。図22は、様々なダイコン品種に含まれるORF687様蛋白質の塩基指定アミノ酸の一覧を示す。

［PPR モチーフ及びPPR蛋白質］
本発明で「PPRモチーフ」というときは、特に記載した場合を除き、Web上の蛋白質ドメイン検索プログラムでアミノ酸配列を解析した際に、PfamにおいてPF01535、PrositeにおいてPS51375で得られるE値が所定値以下（望ましくはE-03）のアミノ酸配列をもつ30～38アミノ酸で構成されるポリペプチドをいう。本発明で定義するPPRモチーフを構成するアミノ酸の位置番号は、PF01535とほぼ同義である一方で、PS51375のアミノ酸の場所から2引いた数（例；本発明の1番→PS51375の3番）に相当する。ただし、“ii”(-2)番のアミノ酸というときは、PPRモチーフを構成するアミノ酸の後ろ（C末端側）から2番目のアミノ酸、又は次のPPRモチーフの1番アミノ酸に対して2コN末端側、すなわち-2番目のアミノ酸とする（図1）。次のPPRモチーフが明確に同定されない場合、次のヘリックス構造の1番目のアミノ酸に対して、2コ前のアミノ酸を“ii”とする。Pfamについてはhttp://pfam.sanger.ac.uk/、Prositeについては、http://www.expasy.org/prosite/を参照することができる。

PPRモチーフの保存アミノ酸配列は、アミノ酸レベルでの保存性は低いが、2次構造上で2つのαへリックスはよく保存されている。典型的なPPRモチーフは35アミノ酸で構成されるが、その長さは30～38アミノ酸と可変的である。

本発明でいうPPRモチーフは、より具体的には、式1で表される、30～38アミノ酸長のポリペプチドからなる。

式中：
Helix Aは、12アミノ酸長の、αヘリックス構造を形成可能な部分であって、式2で表され、

式3中、各アミノ酸は、“i” (-1)、“ii”(-2)、とC末端側からナンバリングされ、
ただし、L_iii～L_viiは存在しない場合がある。

本発明で「PPR蛋白質」というときは、特に記載した場合を除き、上述のPPRモチーフを、1個以上、好ましくは2個以上有するPPR蛋白質をいう。本明細書で「蛋白質」というときは、特に記載した場合を除き、ポリペプチド（複数のアミノ酸がペプチド結合した鎖）からなる物質全般をいい、比較的低分子のポリペプチドからなるものも含まれる。本発明で「アミノ酸」という場合、通常のアミノ酸分子を指すことがあるほか、ペプチド鎖を構成しているアミノ酸残基を指すことがある。いずれを指しているかは、文脈から、当業者には明らかである。

PPR蛋白質は植物に多く存在し、シロイヌナズナでは500蛋白質、約5000モチーフが見いだせる。イネ、ポプラ、イワヒバ等、多くの陸上植物にも多様なアミノ酸配列のPPRモチーフ及びPPR蛋白質が存在する。いくつかのPPR蛋白質は、花粉形成（雄性配偶子）の形成に働く稔性回復因子として、雑種強勢のためのF1種子取得のための重要な遺伝子であることが知られている。稔性回復と類似して、いくつかのPPR蛋白質は種分化に作用していることが明らかになっている。ほとんどのPPR蛋白質は、ミトコンドリアか葉緑体中のRNAに働くことも分かっている。

動物では、LRPPRCと同定されるPPR蛋白質の異常がLeigh syndromFrench Canadian (LSFC; リー症候群、亜急性壊死性脳脊髄症)を引き起こすことが知られている。

本発明で、PPRモチーフのRNA塩基との結合性に関し、「選択的」というときは、特に記載した場合を除き、RNA塩基のいずれか一つの塩基に対する結合活性が、他の塩基に対する結合活性より高いことをいう。この選択性は、当業者であれば実験を企画し、確認することができるほか、本明細書の実施例に開示されているように、計算により求めることもできる。

本発明でRNA塩基というときは、特に記載した場合を除き、RNAを構成するリボヌクレオチドの塩基を指し、具体的には、アデニン(A)、グアニン(G)、シトシン(C)、又はウラシル(U)のいずれかをいう。なおPPR蛋白質は、RNA中の塩基に対して選択性を有しうるが、核酸モノマーに結合するわけではない。

本発明以前には、PPRモチーフとしての保存アミノ酸の配列検索法は確立しているが、選択的なRNA塩基との結合に関する法則性は、まったく発見されていなかった。

本発明により、以下の知見が提供される。

(I) 選択的結合のために重要なアミノ酸の位置に関する情報。具体的には、PPRモチーフの、1、4、“ii”(-1)番の3つのアミノ酸の組み合わせ（A₁、A₄、L_ii）、又は4、“ii”(-1)番の2つのアミノ酸の組み合わせ（A₄、L_ii）が、RNA塩基との選択的な結合のために重要であり、これらの組み合わせにより、結合するRNA塩基がいずれであるかを決定できる。

本発明は、本発明者らにより見出された、A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせ、及び／又はA₄、及びL_iiの2つのアミノ酸の組み合わせに関する知見に基づく。

(II) A ₁ 、A ₄ 、及びL _ii の3つのアミノ酸の組み合わせとNA塩基との対応に関する情報。具体的には、下記のようなものである。
(3-1) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、バリン、アスパラギン及びアスパラギン酸の場合、そのPPRモチーフは、Uに強く結合し、次にCに、その次にA又はGに対して結合するという、選択的なRNA塩基結合能を有する。
(3-2) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、バリン、トレオニン、アスパラギンの場合、そのPPRモチーフは、Aに強く結合し、次にGに、その次にCに対して結合するが、Uには結合しないという、選択的なRNA塩基結合能を有する。
(3-3) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、バリン、アスパラギン、アスパラギンの場合、そのPPRモチーフは、Cに強く結合し、次にA又はUに対して結合するが、Gには結合しないという、選択的なRNA塩基結合能を有する。
(3-4) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、グルタミン酸、グリシン、アスパラギン酸の場合、そのPPRモチーフは、Gに強く結合するが、A、U及びCには結合しないという、選択的なRNA塩基結合能を有する。
(3-5) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、イソロイシン、アスパラギン、アスパラギンの場合、そのPPRモチーフは、Cに強く結合し、次にUに、その次にAに対して結合するが、Gには結合しないという、選択的なRNA塩基結合能を有する。
(3-6) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、バリン、トレオニン、アスパラギン酸の場合、そのPPRモチーフは、Gに強く結合し、次にUに対して結合するが、AとCには結合しないという、選択的なRNA塩基結合能を有する。
(3-7) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、リジン、トレオニン、アスパラギン酸、の場合、そのPPRモチーフは、Gに強く結合し、次にAに対して結合するが、U及びCには結合しないという、選択的なRNA塩基結合能を有する。
(3-8) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、フェニルアラニン、セリン、アスパラギンの場合、そのPPRモチーフは、Aに強く結合し、次にCに、その次にG及びUに対して結合するという、選択的なRNA塩基結合能を有する。
(3-9) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、バリン、アスパラギン、セリンの場合、そのPPRモチーフは、Cに強く結合し、次にUに対して結合するが、A及びGには結合しないという、選択的なRNA塩基結合能を有する。
(3-10) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、フェニルアラニン、トレオニン、アスパラギンの場合、そのPPRモチーフは、Aに強く結合するが、G、U及びCには結合しないという、選択的なRNA塩基結合能を有する。
(3-11) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、イソロイシン、アスパラギン、アスパラギン酸の場合、そのPPRモチーフは、Uに強く結合し、次にAに対して結合するが、G及びCには結合しないという、選択的なRNA塩基結合能を有する。
(3-12) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、トレオニン、トレオニン、アスパラギンの場合、そのPPRモチーフは、Aに強く結合するが、G、U及びCには結合しないという、選択的なRNA塩基結合能を有する。
(3-13) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、イソロイシン、メチオニン、アスパラギン酸の場合、そのPPRモチーフは、Uに強く結合し、次にCに対して結合するが、A及びGには結合しないという、選択的なRNA塩基結合能を有する。
(3-14) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、フェニルアラニン、プロリン、アスパラギン酸の場合PPR、そのモチーフは、Uに強く結合し、次にCに対して結合するが、A及びGには結合しないという、選択的なRNA塩基結合能を有する。
(3-15) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、チロシン、プロリン、アスパラギン酸の場合、そのPPRモチーフは、Uに強く結合するが、A、G及びCには結合しないという、選択的なRNA塩基結合能を有する。
(3-16) A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、順に、ロイシン、トレオニン、アスパラギン酸の場合、そのPPRモチーフは、Gに強く結合するが、A、U及びCには結合しないという、選択的なRNA塩基結合能を有する。

(II) A ₄ 、及びL _ii の2つのアミノ酸の組み合わせとNA塩基との対応に関する情報。具体的には、下記のようなものである。
(2-1) A₄、L_iiが、順に、アスパラギン、アスパラギン酸の場合、そのPPRモチーフは、Uに強く結合し、次にC、その次にA及びGに対して結合するという、選択的なRNA塩基結合能を有する。
(2-2) A₄、L_iiが、順に、アスパラギン、アスパラギンの場合、そのPPRモチーフは、Cに強く結合し、次にU、その次にA及びGに対して結合するという、選択的なRNA塩基結合能を有する。
(2-3) A₄、L_iiが、順に、トレオニン、アスパラギンの場合、そのPPRモチーフは、Aに強く結合し、次にG、U及びCに対して弱く結合するという、選択的なRNA塩基結合能を有する。
(2-4) A₄、L_iiが、順に、トレオニン、アスパラギン酸の場合、そのPPRモチーフは、Gに強く結合し、次にA、U及びCに対して弱く結合するという、選択的なRNA塩基結合能を有する。
(2-5) A₄、L_iiが、順に、セリン、アスパラギンの場合、そのPPRモチーフは、Aに強く結合し、次にG、U及びCに対して結合するという、選択的なRNA塩基結合能を有する。
(2-6) A₄、L_iiが、順に、グリシン、アスパラギン酸の場合、そのPPRモチーフは、Gに強く結合し、次にU、その次にAと結合するが、Cに結合しないという、選択的なRNA塩基結合能を有する。
(2-7) A₄、L_iiが、順に、アスパラギン、セリンの場合、そのPPRモチーフは、Cに強く結合し、次にU、その次にA及びGに対して結合するという、選択的なRNA塩基結合能を有する。
(2-8) A₄、L_iiが、順に、プロリン、アスパラギン酸の場合、そのPPRモチーフは、Uに強く結合し、次にG、C及びCに対して結合するが、Aに結合しないという、選択的なRNA塩基結合能を有する。
(2-9) A₄、L_iiが、順に、グリシン、アスパラギンの場合、そのPPRモチーフは、Aに強く結合し、次にGに対して結合するが、C及びUに結合しないという、選択的なRNA塩基結合能を有する。
(2-10) A₄、L_iiが、順に、メチオニン、アスパラギン酸の場合、そのPPRモチーフは、Uに強く結合し、次にA、G及びCに対して弱く結合するという、選択的なRNA塩基結合能を有する。
(2-11) A₄、L_iiが、順に、ロイシン、アスパラギン酸の場合、そのPPRモチーフは、Cに強く結合し、次にUに対して結合するが、A及びGに結合しないという、選択的なRNA塩基結合能を有する。
(2-12) A₄、L_iiが、順に、バリン、トレオニンの場合、そのPPRモチーフは、Uに強く結合し、次にAに対して結合するが、G及びCに結合しないという、選択的なRNA塩基結合能を有する。

本明細書の実施例では、遺伝学的又は分子生物学的に、部分的には解析された蛋白質とその潜在的なRNA標的配列との結合を、さらに計算科学的に解析することにより、上記の知見を得ている。より詳細には、蛋白質とRNAとの結合又はその選択的な結合を、P値（probability;確率）を指標に解析している。本発明では、一般的な有意水準であるP値が0.05以下(5％以下の偶然性)のとき、好ましくはP値が0.01以下（1%以下の偶然性）、のとき、より好ましくはそれより有意なP値が算出されたとき、その蛋白質とRNAとが結合する確率が充分に高い、と評価している。このようなP値による判断は当業者間であれば充分に理解できる。

特定の位置のアミノ酸の特定の組み合わせとRNA塩基との結合性は、実験により確認することができる。このような目的での実験は、PPRモチーフ又は複数のPPRモチーフを含む蛋白質の調製、基質RNAの調製、及び結合性試験（例えば、ゲルシフト法）を含む。各々の実験は当業者にはよく知られているし、より具体的な手順・条件としては、例えば特許文献2を参考にすることができる。

［PPRモチーフ及びPPR蛋白質の利用］
同定及び設計：
一のPPRモチーフは、RNAの特定の塩基を認識しうる。そして、本発明に基づけば、特定の位置のアミノ酸を適切にすることで、A、U、G、Cそれぞれに選択的なPPRモチーフを選択又は設計することができ、さらにはそのようなPPRモチーフの適切な連続を含む蛋白質は、対応する特異的な配列を認識しうる。そのため、本発明に基づけば、特定の塩基配列を有するRNAに選択的に結合する天然型PPR蛋白質を予測・同定することができ、また逆に、PPR蛋白質の結合の標的となるRNAを予測・同定することができる。標的の予測・同定は、遺伝子的実体を明らかにするのに役立ち、また標的の利用可能性を拡大しうる点でも有用である。

さらに本発明により、所望のRNA塩基に選択的に結合可能なPPRモチーフ、及び所望のRNAに配列特異的に結合可能な、複数個のPPRモチーフを有する蛋白質を設計することができる。設計に際し、PPRモチーフ中の重要な位置のアミノ酸以外の部分は、天然型のPPRモチーフの配列情報を参考にすることができる。また、全体として天然型を用い、該当位置のアミノ酸だけを置換することにより、設計してもよい。PPRモチーフの繰り返し数は、標的配列に応じ、適宜とすることができるが、例えば2個以上とすることができ、2～20個とすることができる。

設計に際し、1、4、“ii”番アミノ酸の組み合わせ、又は4、“ii”番アミノ酸の組み合わせ以外に配慮してもよい。例えば、前掲特許文献2に記載された8番及び12番のアミノ酸の考慮は、RNA結合活性を呈するために重要である場合がある。本発明者らの検討に拠ると、あるPPRモチーフのA₈と、それと同じPPRモチーフのA₁₂とが、RNA結合において協同している可能性がある。A₈は、塩基性アミノ酸、好ましくはリジン、又は酸性アミノ酸、好ましくはアスパラギン酸とすることができ、A₁₂は、塩基性アミノ酸又は中性アミノ酸又は疎水性アミノ酸とすることができる。

設計されたモチーフ又は蛋白質は、当業者にはよく知られた方法により調製することができる。すなわち、本発明は、1、4、“ii”番アミノ酸の組み合わせ、又は4、“ii”番アミノ酸の組み合わせに着目した特定のRNA塩基に選択的に結合するPPRモチーフ、及び特定配列を有するRNAに特異的に結合するPPR蛋白質を提供する。中でも、PPR蛋白質の機能として稔性に対する作用を考えた場合、上記3アミノ酸の組み合わせまたは2アミノ酸の組み合わせのいずれの場合であっても、4番アミノ酸（A₄）および“ii”番アミノ酸が有効であることが見出された。このようなモチーフ及び蛋白質は、当業者にはよく知られた方法で、比較的大量にも調製可能であり、そのような方法は、目的のモチーフ又は蛋白質が有するアミノ酸配列から、それをコードする核酸配列が決定し、クローニングし、目的のモチーフ又は蛋白質を生産する形質転換体を作製することを含みうる。

複合体の調製及びその利用：
本発明により提供されるPPRモチーフ又はPPR蛋白質は、機能性領域を連結し、複合体とすることができる。機能性領域とは、生体内又は細胞内で特定の生物学的機能、例えば酵素機能、触媒機能、阻害機能、亢進機能などの機能を有する部分、又は標識としての機能を有する部分をいう。そのような領域は、例えば、蛋白質、ペプチド、核酸、生理活性物質、薬剤からなる。機能性領域が蛋白質である場合の例は、リボヌクレアーゼ（RNase）である。RNaseの例は、RNase A（例えば、bovine pancreatic ribonuclease A: PDB 2AAS）、RNase Hである。このような複合体は天然には存在せず、新規なものである。

さらに本発明により得られる複合体は、生体内又は細胞内に、RNA配列特異的に機能性領域をデリバリーし、機能させることができる可能性がある。これにより、ジンクフィンガー蛋白質(前掲非特許文献1)やTAL effector(前掲非特許文献2、前掲特許文献1)と同様、生体内又は細胞内において、RNA配列特異的に改変・破壊を行うことができる可能性があり、また新たな機能を付与できる可能性がある。さらにはRNA配列特異的に薬物を送達し、することができる可能性がある。したがって、本発明は、RNA配列特異的な機能性物質の送達方法を提供するものでもある。

いくつかのPPR蛋白質は、花粉形成（雄性配偶子）の形成に働く稔性回復因子として、雑種強勢のためのF1種子取得において重要であることが知られている。本発明により、未だ同定されていない稔性回復因子を同定し、さらにその因子を高度に利用する技術の開発が期待できる。例えば、本願実施例において明らかになった事例において、細胞質雄性不稔性の稔性回復因子として働くPPR蛋白質遺伝子において、特定のPPRモチーフにおけるアミノ酸多型を検出することにより、当該遺伝子における多型と稔性との関連に基づいて、被検サンプルのPPR蛋白質遺伝子が稔性に関する遺伝型か、不稔に関連する遺伝型かを判定することができる。この場合、多型を検出する対象であるPPR蛋白質遺伝子としては、例えばダイコンの場合、園紅のORF687蛋白質（Enko Bと命名）をコードする「ORF687遺伝子」と相同な遺伝子座に座乗するファミリー遺伝子、Enko Bと90％以上のアミノ酸配列同一性を有する遺伝子、Enko Bをコードする「ORF687遺伝子」90％以上の塩基配列同一性を有する遺伝子、とが含まれる。ここで、園紅のORF687蛋白質（Enko Bと命名）をコードする「ORF687遺伝子」と相同な遺伝子座に座乗するファミリー遺伝子という場合、図21及び図22に示す遺伝子（Kosena B、Comet B、Enko A、Comet A、Icicle CA、rrORF690-1、rrORF690-2、PC_PPR-A、PC_PPR-BL）がすべて含まれるが、これらには限定されない。また、Enko Bと90％以上のアミノ酸配列同一性を有する遺伝子、Enko Bをコードする「ORF687遺伝子」90％以上の塩基配列同一性を有する遺伝子は、遺伝子データベースを検索することにより、取得することができ、由来の種もダイコンには限定されない。またPPRモチーフとしては、上述した式1で表される30～38アミノ酸長のポリペプチドからなるPPRモチーフであり、PPR蛋白質は、その様なPPRモチーフを1個以上（好ましくは2～16個）含むことを特徴していてもよい。このPPRモチーフにおける多型という場合、それぞれのPPRモチーフでRNAへの結合を司っていることが本発明において明らかになった、1、4、“ii”番アミノ酸の組み合わせ、又は4、“ii”番アミノ酸の組み合わせに基づく多型を利用することができる。図4Bもしくは4Dで算出したP値が示す通り、このようなPPRモチーフのRNAへの結合を司っているアミノ酸の組み合わせのうち、4番アミノ酸がもっとも重要な役割を果たしており、次いで“ii”番アミノ酸が重要な役割を果たしている。そして、Enko BのPPR蛋白質と比較して、検定対象とする遺伝子のコードする蛋白質中のすべてのPPRモチーフの4番アミノ酸がEnko Bと同一であること、または対応するすべてのPPRモチーフの“ii”番アミノ酸がEnko Bと同一であることが、稔性回復因子としての機能に重要であることを明らかにした。また、稔性回復と類似して、いくつかのPPR蛋白質が種分化に作用していることが明らかになっている。当該PPR蛋白質の標的RNAの同定・改変は、今まで不可能だった種間の交配の可能性を期待させる。さらにほとんどのPPR蛋白質は、ミトコンドリア、葉緑体中のRNAに働くことから、本発明で提供される新規PPR蛋白質は、光合成、呼吸、有用代謝物の合成に関する機能の改変・向上に資するであろう。

一方、動物では、LRPPRCと同定されるPPR蛋白質の異常がLeigh syndromFrench Canadian (LSFC; リー症候群、亜急性壊死性脳脊髄症)を引き起こすことが知られている。本発明は、LSFCの処置（予防、治療、進行の抑制）に寄与しうる。

また、PPR蛋白質は、オルガネラで見られるすべてのRNA加工のステップ、切断、RNA編集、翻訳、スプライシング、RNA安定化に関与している。本発明により、PPRモチーフの結合塩基選択性を改変することで、所望のRNAの発現を改変することが期待できる。

本発明で材料にしたPPR蛋白質は、専らRNA編集（RNA上での遺伝情報の変換；多くの場合、C→U）の編集部位の指定に働く（後掲参照文献2及び3参照）。このタイプのPPR蛋白質は、RNA変種酵素と相互作用すると示唆される付加モチーフがC末端側に存在する。このような構造を有するPPR蛋白質により、塩基多型を導入すること、又は塩基多型に起因した疾患又は状態を処置することが期待できる。

また一部のPPR蛋白質のC末端側には、RNA切断酵素が付与されているものもある。N末端側のPPRモチーフの結合RNA塩基選択性を改変することで、RNA配列特異的なRNA切断酵素を構成しうる。また、GFP等の標識部分を連結した複合体は、所望のRNAを生体内で可視化するために用いうる。

他方、既存のPPR蛋白質のなかには、DNAに作用するものがある。一つはミトコンドリア遺伝子の転写活性化因子であり、他の一つは核に局在する転写活性化因子であると報告されている。したがって、本発明で得られた知見を基に、所望のDNA配列に結合する蛋白質因子の設計も可能であろう。

実施例1：RNA編集に関わるPPR蛋白質及びその標的配列の収集
図2に示した情報を参照し、これまでに解析されたシロイヌナズナのRNA編集に関わるPPR蛋白質（配列番号2～24）をシロイヌナズナゲノム情報データベース（MATDB: http://mips.gsf.de/proj/thal/db/index.html）、標的となるRNA編集部位の周辺配列（配列番号48、50、53、55、57、59、60、61、62、63、64、65、68、69、70、71、73、74、76、78、80、122、206、228、232、252、284、316、338、339、358、430、433、455、552、563）をRNA編集データベース（http://biologia.unical.it/py_script/overview.html）より収集した。RNA配列は編集されるC（シトシン）残基を含む、その上流31塩基を収集した。収集した全ての蛋白質と、それぞれの蛋白質に対応するRNA編集部位を図2に示した。

蛋白質中のPPRモチーフ構造は、Uniprot データベース(http://www.uniprot.org/)の情報と共に、本発明で定義するアミノ酸番号を付与した。実験に用いたシロイヌナズナ24コ（配列番号2～25）のPPR蛋白質に含まれるPPRモチーフとそのアミノ酸番号を、図3に記す。

実施例2：結合塩基選択性を付与するアミノ酸の同定
これまでの研究から、RNA編集に関わるPPR蛋白質はそのC末端側に特定の保存アミノ酸配列を持つモチーフ（E、E+及びDYWモチーフ、ただしDYWはしばしば存在しない）を持つことが分かっている。E+モチーフ中の十数アミノ酸は、RNAとの選択的な結合でなく、C（シトシン）からU（ウラシル）への変換に必要なことが示唆されている（参照文献3）。また、編集されるCの認識に必要な情報は、その上流20塩基及び下流5塩基に含まれていることが過去の非特許論文によって示唆されている。すなわち、PPR蛋白質中の複数個のPPRモチーフは、編集されるCの上流配列の「どこか」を認識し、E+モチーフが編集されるCの近傍に位置すると予想できる。さらに、PPRモチーフ中の特定のアミノ酸が結合する上流配列のRNA残基を認識する可能性が考えられる（図4A）。

この可能性を、実施例1で記したシロイヌナズナの24コのRNA編集PPR蛋白質とその標的RNA配列を用いて検証した。そこでまず、蛋白質中の最後のPPRモチーフを、編集されるCの一つ目の塩基に配置し、全てのPPRモチーフをRNA残基と、1対1の対応関係、かつ直線的な連続性、で整列させた（図4A、整列P1）。次にRNA配列を1塩基ずつ右側にずらすことで、P2～P6の整列を得た。この整列P1～P6のデータセットにおいて、それぞれのPPRモチーフと対応するRNA残基の情報を収集した。

1箇所のRNA編集部位に働くPPR蛋白質に対しては、出現したRNA残基（A、U、G or C）に1点を付与した。2箇所、又は3箇所のRNA編集に働くPPR蛋白質に対しては、出現したRNA残基にそれぞれ0.5点、又は0.3点を付与した。次にPPRモチーフ中のアミノ酸番号ごとにアミノ酸の種類で並べ替えを行った。通常、アミノ酸の種類と出現するRNA残基の種類は無作為（high-randomness or high-entropy）であると予測できる（例、図4Aの右上図）。しかし、もし、特定の箇所のアミノ酸が結合RNA塩基選択能力を有するとすると、正しい整列（上記P1～P6）において、対応するRNA塩基が一種類もしくは限定された種類に収束すると予測される（low randomness or low entropy；例、図4Aの右下図）。

上記で作成したP1～P6の整列のデータセットを対象に、PPRモチーフの全てのアミノ酸番号において、上記のlow randomnessを算出した。Low randomnesは、理論値（全ての塩基出現頻度の平均値）に対するカイ二乗検定によって算出した（例、図5）。

その結果、P4の整列における1番、4番、及び“ii”(-2)番アミノ酸において、有意値P< 0.01（1 %以下の確率（probability））が算出された（図4B）。すなわち、RNA編集PPR蛋白質中の最後のPPRモチーフが編集されるCの4コ前の塩基に配置され、3つのアミノ酸（1番、4番、及び“ii”番）が結合RNA塩基選択を司ることを示している。また、P3及びP5の整列において、有意なP値が算出されなかったことより、両脇のPPRモチーフからの干渉がない、すなわち、一つのPPRモチーフが一つのRNA残基を認識し、モチーフ構成に依存しないことを示している。整列P4の他のアミノ酸、及び他の整列の全てのアミノ酸において、有意なP値は得られなかった（図6）。また、プリン（AとG）又はピリミジン（CとU）（RY）でRNA塩基を分類し、同様の計算を行ったところ、4番アミノ酸のみで非常に有意なP値（P<0.01）、が得られた（図4C）。これは4番アミノ酸が結合するRNA塩基のプリン/ピリミジンを主に区別していることを示している。図4Cで示したPPRモチーフ中のRNA認識アミノ酸による結合塩基指定能力についてさらに詳細に解析を行った。その結果、4番アミノ酸が結合する塩基のプリン／ピリミジン（RY）を主に区別するする以外に、“ii”（-2）番アミノ酸が塩基のアミノ型（AおよびC）ケト型（GおよびU）（MK）の区別に働くことがわかった（図4D）。

3回以上使用されている3つのアミノ酸（1番、4番、及び“ii”番）の組み合わせをPPRモチーフのRNA認識コードのうち、triPPR codeとして、それぞれのP値を算出し、その結合RNA塩基指定能力を算出した。同定したtriPPR codeの一部を図4Eに示した。

当該3箇所のアミノ酸が非常に多様であるため、2箇所のアミノ酸（1&4、1&“ii”又は4&“ii”）での結合RNA塩基指定能力を算出したところ、4& “ii”番アミノ酸の組み合わせにおいて、顕著なP値が算出された（図7）。そのため、3回以上使用されている4&“ii”番アミノ酸の組み合わせを、PPRモチーフのRNA認識コードのうち、diPPR codeとした。同定したtriPPR code、diPPR codeを図8に示した。

実施例3：同定したRNA認識コードの検証
シロイヌナズナのRNA編集PPR蛋白質を用いて同定したPPRモチーフのRNA認識コードの検証をおこなった。検証には、ヒメツリガネゴケのRNA編集PPR蛋白質を用いた。ヒメツリガネゴケ（以下、コケ）では、計13箇所（ミトコンドリア11箇所、葉緑体2箇所；配列番号32～44）のRNA編集が行われることが既に明らかになっている。さらに、6コのPPR蛋白質（PpPPR_56, 71, 77, 78, 79, and 91）が9箇所のRNA編集にそれぞれ働くことが明らかになっている。蛋白質と対応するRNA編集部位を図9に示した。

検証は図10に示すとおりに行った。まず、コケPPR蛋白質のアミノ酸配列情報を非特許論文より取得し（配列番号26～31；図2及び図9）、図1に定義したPPRモチーフモデルに従って、3つのアミノ酸（1番、4番、及び“ii”番）をそれぞれのPPRモチーフから抽出した。抽出した3つのアミノ酸の組み合わせが、シロイヌナズナより同定したtriPPR codeと一致する場合、そのcodeが呈する結合塩基得点行列（socring matrix）に置換した。次に、triPPR codeで変換できなかったPPRモチーフのうち、diPPR codeと一致する場合、当該モチーフをdiPPR codeの結合塩基得点行列に置換した。平行して、RNA編集部位周辺配列を（編集されるCを3’末端とする31 merの配列）を非特許論文より取得し（配列番号32～44；図2、図9、及び図16）、図10に示すようなRNA配列の数字行列に置換した。次に、上述の整列P4（最後のPPRモチーフが編集されるCの4つ前の塩基に対応）に従うように、蛋白質の結合塩基得点行列とRNA配列の数字行列のそれぞれのマス目通しでかけ算を行い、得られた値の和を蛋白質とRNA配列の適合値（Matching score）として算出した。この計算は、triPPR code、diPPR code、それぞれのPPR結合塩基得点行列（PPR scoring matrix）
において行った。

一つの蛋白質に対して、この計算を全てのコケのRNA編集部位（13箇所）に対して行った。また、RNA編集部位周辺配列の参照配列としてシロイヌナズナ葉緑体のRNA編集部位のRNA配列34箇所（図16、配列番号45～78）についても同様の計算を行った。

次に、それぞれのRNA配列に対する蛋白質の適合値より、正規分布曲線を描き、それぞれのRNA配列に対する適合値の暫定P値をtriPPR code、及びdiPPR codeそれぞれ算出した。

最終的なP値（蛋白質とRNA配列の適合値）は、triPPR codeとdiPPR codeの暫定P値の積として求めた。

それぞれのコケPPR蛋白質と13箇所のコケRNA編集部位との適合値を図11に示す。解析の結果、7種の蛋白質のうち、6種の蛋白質が正しいRNA編集部位に計算的に特定された。すなわち、この解析は、3つのアミノ酸（1番、4番、及び“ii”番）にPPRモチーフの結合RNA塩基指定に関する情報が全て含まれることを意味している。言い換えると、図8に示した3つ、又は2つ、の組み合わせのアミノ酸の情報（triPPR、diPPR code）を参照することで、意図するRNA配列に結合するPPR蛋白質を探索できることを示している。同時に、当該アミノ酸情報を有したPPRモチーフを用いること、又は連結することで、意図したRNA配列に結合する人工タンパク質を合成できることを示している。

実施例4：未解析RNA編集PPR蛋白質の標的分子の同定
次に、コケより多くのRNA編集部位を含むシロイヌナズナを用いた解析を行った（葉緑体ゲノム34箇所（配列番号45～78）、ミトコンドリアゲノム488箇所（配列番号79～566）、図6を参照）。予測精度を検証するために、コード抽出に用いた24種のPPR蛋白質のRNA変種部位予測を行った。その結果、葉緑体局在PPR蛋白質では、13個中10個が最低1個の正しいRNA編集部位を最も高いP値で予測した。ミトコンドリア局在PPR蛋白質では、11個中8個が正しいRNA編集部位をトップ20以内で予測した（図12）。この予測精度検証を基に、機能未知PPR蛋白質の標的RNA編集部位の予測を行った。AHG11変異体は、アブシジン酸経路に異常をきたす変異体であり、その遺伝子（ahg11、at2g44880）がコードする蛋白質は典型的なRNA編集PPR蛋白質様のモチーフ構造を有する（図13；配列番号1）。RNA編集部位を予測し、トップ20を含むミトコンドリア405箇所、葉緑体30箇所のRNA編集を実験的に検証した。その結果、7番目に高いP値で予測されたミトコンドリアnad4_376のRNA編集のみが変異体で異常をきたしていることが明らかになった（図13）。

次に、オルガネラ全ゲノム配列、すなわち約3×10⁵のRNA配列のデータセット、からの標的RNA配列の同定を試みた。この解析には、図8に示すPPR codeの蓋然性行列（probability matrix）を用いた。また、diPPR、triPPR コードと一致しないアミノ酸の組み合わせを持つモチーフには、background frequencyを適応した。作製した蛋白質の蓋然性行列は、シロイヌナズナの葉緑体全塩基配列（AP000423）と共に、MEME suiteのFIMO解析（http://meme.nbcr.net/meme4_6_1/fimo-intro.html）に供した。

その結果、CRR4とCRR21において、その標的RNA配列を正確に予測することが出来た。また、コケPPR蛋白質からもPPRコードの抽出を行うことでコードの改良を行ったところ（図15）、いくつかの蛋白質に置いて、その予測精度が大きく向上した。

これらの結果から、同定したPPRコードを用いることで、数十万パターンのRNA配列から一カ所の正しい標的配列を同定できることを示している。逆に言えば、コードに沿ったアミノ酸を当該位置（1、4、“ii”）に持つPPRモチーフ、を探索することで、意図する有用なRNA配列に結合する蛋白質を同定できる。もしくはPPRモチーフを連結させることで、高い配列選択性を有する人工RNA結合蛋白質を創出できることを示している。変異導入により、当該位置のアミノ酸をPPRコードに準じた組み合わせにすることで、意図したRNA結合選択性を獲得させることが可能なことも当業者であれば理解できる。

図15では、triPPR code、diPPR codeそれぞれの結合RNA塩基選択能力をP値で評価した。有意なP値（P <0.05）を示したPPRcodeは、高い結合RNA塩基選択能力を有すると推認できる。

実施例5：ダイコンRfの標的RNA配列の予測
次に本発明で得られた知見を基に、細胞質雄性不稔性の稔性回復因子として働くPPR蛋白質の機能判定を行った（実施例5～9）。

細胞質雄性不稔（Cytoplasmic Male Sterility；CMS）は、細胞質のゲノム、特にミトコンドリアのゲノムの変異が原因で雄性配偶子が正常に機能しなくなる形質である。この形質は、しばしば核に存在する稔性回復遺伝子（Restorer of Fertility；Rf）によって打ち消され、雄性配偶子が正常になることが知られている。一代雑種育種法に利用されており、農業上重要な形質の一つである。このCMS-Rfシステムにおいて、Rf遺伝子は多くの場合、PPR蛋白質をコードすることが知られている。

ダイコンやナタネの一代雑種育種法に用いられるオグラ型（別名、コセナ型）細胞質は、ミトコンドリアゲノムのorf125遺伝子の発現に由来し、核コードのorf687遺伝子の存在によって不稔性が解除され、可稔となる。orf687遺伝子産物はPPR蛋白質であり、orf125を含むRNAに作用することで、その発現を不活化し、結果として不稔性が解除されると考えられている。

しかし、様々なダイコン系統が有するorf687様遺伝子にはアミノ酸多型が有ること、このアミノ酸多型が稔性回復因子としての遺伝子の機能性に影響を及ぼすことがこれまでの育種学的解析から明らかになってきた。しかし、当該遺伝子のアミノ酸配列からその機能性を類推する手法は確立されていない。

そこで、まず優性Rfとして働くことが知られているダイコン品種、園紅のORF687蛋白質（Enko Bと命名）のアミノ酸から、PPRモチーフを特定し、塩基指定能力を司るアミノ酸（1、4、ii）を抽出し、PPRコードに変換後、ミトコンドリアorf125を含む転写物に対して、標的RNA配列予測を行った（図19）。

平行して、優性Rfとして働くことが知られているダイコン品種、園紅のORF687蛋白質（Enko Bと命名）、同じく園紅中に含まれ、ORF687と良く似ているが、劣性の遺伝子として働くORF687様蛋白質（enko Aと命名）、異なるダイコン品種である小瀬菜ゲノム中に存在する園紅ORF687と相同な遺伝子（kosena Bと命名；劣性の遺伝子）、の3種のORF687様蛋白質を材料にその特徴を生化学的に解析した。

（5-1）ダイコンからのゲノムDNAの調製
ダイコンをムラシゲ・スクーク培地（2％ショ糖、0.5％ Gellangamを含む）で3週間培養した。培養した植物の緑葉（0.5 g）をフェノール/クロロホルム抽出した後、エタノールを加えてDNAを不溶化した。回収したDNAを100μlのTE液（10 mM トリス・塩酸（pH 8.0）、1 mM EDTA）に溶解し、10ユニットのRNase A（DNase-free、タカラバイオ社）を加えて、37℃で30分反応させた。その後、反応液を再度フェノール/クロロホルム抽出した後、エタノール沈殿によりDNAを回収した。10μgのDNAが得られた。

（5-2）ORF687様蛋白質をコードする遺伝子のクローニング
ダイコンゲノムDNAを鋳型に、Enko Bはオリゴヌクレオチドプライマー（Enko_B-FプライマーとEnko_B-Rプライマー；それぞれ配列番号567、568に記載）、Kosena Bはオリゴヌクレオチドプライマー（kosena_B-Fプライマーとkosena_B-Rプライマー；それぞれ配列番号569、570に記載）、Enko Aはオリゴヌクレオチドプライマー（Enko_A-FプライマーとEnko_A-Rプライマー；それぞれ配列番号571、572に記載）、を用いて、50μlの反応液を95℃ 30秒、60℃ 30秒、72℃ 30秒の25サイクルでKOD-FX（TOYOBO社）をDNA 伸長酵素として用い、PCRすることによって、それぞれ増幅した。

得られたDNA断片は、pBAD/Thio-TOPO ベクター（Invitrogen社）を用いて、製品に添付するプロトコールに従ってクローニングした。DNA配列を決定し、目的と相当するDNA配列と相同な配列（Enko B、配列番号：573；kosena B、配列番号：574；Enko A、配列番号：575）であることを確認した。

（5-3）組換えORF687様蛋白質の調製
上で得られたプラスミドをEscherichia coli TOP10株（Invitrogen社）に形質転換した。この大腸菌をアンピシリンが100μg/mlの濃度で存在するLB培地300 ml（300 mL培地を含む1 L三角フラスコ）中で、37℃で培養した。培養液の濁度が波長600 nmでの吸光度が0.5に達した時に、誘導物質であるL-アラビノースを最終濃度が0.2％になるように添加し、さらに4時間培養を行った。

遠心による集菌後、菌体を1 mg/mlのリゾチームを含む200 mlのバッファーA（50 mMトリス・塩酸 pH 8.0、500 mM KCl、2 mMイミダゾール、10 mM MgCl₂、0.5％Triton X100、10％グリセロール）に懸濁し、超音波破砕と凍結溶解により菌体を破壊した。15,000×g、20分間の遠心分離後に、上清を粗抽出液として回収した。

この粗抽出液をバッファーAで平衡化したニッケルカラム樹脂（ProBond A、Invitrogen社）を充填したカラムに供した。

カラムクロマトグラフィーは、20 mMイミダゾールを含むバッファーAで十分に洗浄した後、200 mMイミダゾールを含むバッファーAで目的タンパク質を溶出する二段階濃度勾配により行った。得られたタンパク質は、配列番号（Enko B、配列番号：576；kosena B、配列番号：577；Enko A、配列番号：578）に記載のアミノ酸配列を備えるとともに、N末端側に溶解性を高めるためのチオレドキンのアミノ酸配列、C末端側にヒスチジンタグ配列を備える融合タンパク質である。精製画分100μlを500 mLのバッファー E（20 mMトリス・塩酸 pH 7.9、60 mM KCl、12.5 mM MgCl₂、0.1 mM EDTA、17％グリセロール、2 mM DTT）で透析した後、精製標品とした。

（5-4）基質RNAの調製
基質RNAとして、オグラ型細胞質ダイコンのミトコンドリアDNAの配列をふくむ3種のRNA、RNAa、RNAb、およびRNAcを用いた。

RNAaはオリゴヌクレオチドプライマーA-FプライマーとA-Rプライマー（それぞれ、配列番号579、580）、RNAbはオリゴヌクレオチドプライマーB-FプライマーとB-Rプライマー（それぞれ、配列番号581、582）、RNACはオリゴヌクレオチドプライマーC-FプライマーとC-Rプライマー（配列番号583、584）、を用いて、上記のオグラ型細胞質ダイコンDNA 10 ngを鋳型DNAとして含む50μlの反応液を95℃30秒、60℃30秒、72℃30秒の25サイクルでKOD FX（TOYOBO社）をDNA伸長酵素として用い、PCRすることによって増幅した。それぞれのフォワードプライマー（-F）には、基質RNAを試験管内で合成するためのT7プロモータ配列を付加した。

得られたDNA断片は、アガロースゲルで展開後、ゲルから切り出すことによって精製した。精製DNA断片を鋳型にNTP mix（10 nmol GTP、CTP、ATP、0.5 nmol UTP）、4μl [³²P] α-UTP（GEヘルスケア社、3000 Ci/mmol）、T7 RNA polymerase（タカラバイオ社）を含む20μlの反応液を37℃60分間反応させることで、基質RNAを合成した。

基質RNAはフェノール/クロロホルム抽出、エタノール沈殿後、全量を6 M尿素を含む変性6％ポリアクリルアミドゲル電気泳動で展開し、X線フィルムで60秒間感光させることによって、³²P標識RNAを検出した。

次に、³²P標識RNAをゲルから切り出し、200μlのゲル溶出液（0.3 M酢酸ナトリウム、2.5 mM EDTA、0.01％SDS）中に、4℃で12時間浸し、RNAをゲルから溶出した。RNAのうち、1μlの放射活性を測定し、合成したRNAの総量を算出した。エタノール沈殿後、2500 cpm/μl（1 fmol/μl)になるように、RNAを超純水に溶解した。この調製方法で通常、2500 cpm/μlのRNAが約100μl得られた。

（5-5）蛋白質とRNAとの結合実験
Enko B（Rf）、Kosena B（rf）、およびEnko A（rf；園紅品種に存在するORF687様蛋白質）の組換え蛋白質を作製し、そのRNA結合活性を検証した。

作製した組換え蛋白質（Enko B（配列番号：576）、Kosena B（配列番号：577）、Enko A（配列番号：578））のRNA結合活性は、ゲルシフト法によって解析した。反応液（10 mMトリス・塩酸 pH 7.9、30 mM KCl、6 mM MgCl₂、2 mM DTT、8％グリセロール、0.0067％Triton X-100）20μl中に上記の375 pM（7.5 fmol/20μL）の基質RNA（BD120）と0～2500 nMの組換え蛋白質を混合し、25℃で15分間反応した。その後、反応液に4μLの80％グリセロール液を添加し、10μLを1×TBE（89 mM Tris-HCl、89 mM Boric acid、2 mM EDTA）を含む10％未変性ポリアクリルアミドゲルで展開し、電気泳動後にゲルを乾燥させた。

ゲル中のRNAの放射活性をバイオイメージングアナライザーBAS2000（フジフィルム社）で測定した。

実施例6：組換え蛋白質を用いたRNA結合実験
図17は、Enko B蛋白質と細胞質雄性不稔（CMS）遺伝子を含むRNAとの結合解析を示す図である。このうち、図17Aは、ミトコンドリアorf125 近傍の模式図を示し、あわせて結合実験に用いたRNA a、RNA bc、RNA b、およびRNA c の領域を模式図で示した。図17Bは、Enko B蛋白質のRNA結合について示す図である。Enko Bタンパク質（1.4 nmol）と³²P標識したRNA bc（0.1 ng）と共に、未標識のRNA a、RNA bc、RNA b、RNA c（RNA bc に対して、×5、×10 w/w；競合阻害物質として使用）を20μLの反応液中で反応させ、ゲルシフト競合実験を行った。図左のComplex（▽）はタンパク質とRNAとの複合体を、Free（▼）はRNA のみを示す。

これらの図に示すように、蛋白質とRNAの結合は、³²P標識RNAの移動度の違いとして現れる。³²P標識RNA・蛋白質複合体の分子量が、³²P標識RNA単体の分子量より大きいため、電気泳動での移動度が遅くなるためである。
この実験では、EnkoBの組換え蛋白質を調製し、orf125を含むミトコンドリアRNAとの結合を競合ゲルシフト法で検証した。RI標識したRNAbと蛋白質を混合し、次に未標識RNAを添加した。すなわち、Complexで示した位置のバンドのシグナル強度がより減少したほうがcompetitorとして加えたRNAと蛋白質が結合する、すわなち、EnkoBが高い親和性で結合するRNA領域、であることを意味する。その結果、RNAbの領域にEnkoBは強く結合することが明らかとなった。

No.208の候補配列は図19に示す結合配列予測で一番有意なP値を示し、tRNAメチオニンの3’末端に正確に位置する。しかし、これまでの解析で、tRNA量およびorf125を含むRNAの形状（切断の有無）が不稔および回復系統において差が無いこと、in vitroの結合実験（図17B）でNo.208を含むRNAa配列とEnko Bが結合しないことから、この領域は、オグラ型細胞質の稔性・不稔性には関係ないと判断した。

よって、RNAb中に含まれるNo.316、352、373の領域に着目して解析を進めた。RNAbは125bから成る。scanning mutationにより、20b単位まで結合領域を絞り込もうと試みたが、単一の箇所に絞り込むことができなかった（データ未公開）。そのため、Enko Bの結合箇所は、RNAb中に複数ある可能性が考えられた。

実施例7：Rf様蛋白質のRNA結合活性
図18は、ORF687様蛋白質とRNAとの結合を示す。このうち、図18Aは、ORF687様蛋白質のRNA結合特性に関して、Enko B（Rf）、Kosena B（rf）、Enko A（rf）とRNAbとの結合をゲルシフト法で解析した結果を示す。図18Bは、(A)の結果をグラフ化したものであり、このグラフより、各蛋白質のRNA結合能力を表す解離定数（KD）を算出した。図18Cは、Enko B（Rf）、Kosena B（rf）、Enko A（rf）と潜在的な結合領域との適合値を図19と同様な方法で算出した。

その結果、非競合状態では、3つの蛋白質（Enko B、Kosena B、Enko A）ともに、RNAbに高い親和性でRNAと結合した。Kosena Bに関しては競合状態でのRNA結合活性を解析したが、Enko Bと明確な差は見られなかった（図18Aおよび図18B）。

Kosena BはしばしばEnko Bより若干低いRNA結合活性を示す（KDで約2倍）。しかし、一般的なRNA結合における活性の強弱は10倍以上の差で検出されることが多く、この差が有意とは見なせない。

PPRコードに基づいた予測でも該当領域に対する適合スコアは、各蛋白質間で明確な差はない（図18C）。このことから、EnkoBとkosenaBの差は、単純なRNA結合親和性の違いではなく、結合した後の作用に違いがある可能性を検討することとした。

さらに、オグラ型細胞質に働く稔性回復因子の結合配列予測を図19に示す。ここで、図19Aは、PPRコードを用いたEnko B蛋白質の結合予測を示しており、図19A下図にCMS遺伝子orf125を含むRNAの構造を示す。図19A中のRNAa～RNAcの領域は図17を参照。この図19Aでは、有意な高いP値を示した領域のうち、No.208、230、316、352、373に着目した（図19A）。

次に、図19BにORF687蛋白質配列から予測された標的RNA配列（有意なP値を示した領域（No.208、316、352、373）の配列）のロゴ表記、候補となる結合RNA配列、劣性rfを持つダイコン品種、小瀬菜のORF687様蛋白質（Kosena B）配列から予測された標的RNA配列のロゴ表記、を示した。また、劣性rfであるKosena Bの予測結合塩基も示した。

EnkoBとKosenaBは、2及び3番目のPPRモチーフ中のアミノ酸多型により、指定塩基が異なることが明らかとなった（RfはUA、rfはGC）。この違いが、Rfとrfの機能的差異に直結すると予測できた。

実施例8：RNAの構造予測と解析
コンピュータ予測およびin vitro RNA結合実験より、RfはRNAbの領域、特にNo.316、352、373、に結合する可能性が考えられた。in vitroの解析からRNAb中に複数箇所の結合個所がある可能性も考えられた。そこで、RNAb配列の2次構造予測を行い、該当領域に着目した。

結果を図20に示す。ここで、図20は、ORF687様蛋白質の候補結合RNA領域の二次構造と構造変化を示す。図20Aは、No.306を含む領域の2次構造とORF687様蛋白質の予測結合サイトを示しており、各PPRモチーフをボックスで対応する塩基と共に示した。EnkoB(Rf）とKosena B（rf）で顕著な差がある2番目、3番目のPPRモチーフを強調した。図20Bは、No. 352および373を含む領域の2次構造とORF687様蛋白質の予測結合サイトを示した。図20Cは、RNAbのEnko Bによる構造変化しており、RNAbとEnko B蛋白質を混合し、その後、2本鎖選択的なRNA分解酵素（Rnase V1）を添加した。

その結果、No. 316領域は、orf125の開始コドン直下のステムループ構造に相当することが明らかとなった（図20A）。また、Enko BとKosena Bとで多型が見られる2番および3番PPRモチーフはステムループの根元の二本鎖に位置した。特に3番PPRモチーフの対応塩基はEnko BではAで有るのに対して、Kosena Bでは、Cとなっている（図19Bを参照）。これらのことから、EnkoBが当該領域に結合し、ステムループ構造形成を促進することで、orf125の翻訳を阻害する作業仮説が考えられた。

No.352および373領域でも2本鎖構造が予測され、Rf蛋白質が両側に結合することが考えられた（図20B）。しかし、この場合、Rf結合により、構造の破壊（1本鎖形成促進）が予測される。また。Rfとrfの違いである2番および3番PPRモチーフに対応する塩基と構造の違いは考えられず、具体的な分子機構の予測は出来なかった。

そこで、内部ラベルRNAを蛋白質と混合し、そこに、RNaseV1を添加し、標識RNAを限定分解した。RNaseV1はRNAの2本鎖領域のみを選択的に切断するRNaseである。その結果、蛋白質存在下で、基質RNAが早く分解されること、すわなち、Rf（Enko B）存在下で、2本鎖RNA形成が促進することが示された（図20C）。すなわち、Rfによるorf125 mRNAの2本鎖RNA形成による翻訳阻害が、オグラ型細胞質雄性不稔性の稔性回復の主原因と考えられた。

実施例9：ORF687様遺伝子の稔性回復能についての機能判定
これまでに様々なダイコン品種よりORF687様遺伝子が単離されており、交配実験により、そのRfとしての機能性が類推されている。しかし、それぞれのアミノ酸配列は非常に似ており、全体のアミノ酸保存性からRfとしての機能性を判定することは出来ない。

本実施例においてはまず、ORF687様蛋白質の配列解析を行った。具体的には、配列番号576～578、および585～591に示す蛋白質配列を材料にPPR蛋白質としての配列解析を行った。全ての配列を問い合わせ配列に用いて、CLUSTALW（http://www.genome.jp/tools/clustalw/）によって、配列アライメントを得た。Web上のドメイン解析ソフト、
Pfam（http://pfam.sanger.ac.uk/）、
InterProScan（http://www.ebi.ac.uk/Tools/InterProScan/）、
Prosite（http://www.expasy.org/prosite/）、
を用いて、ORF687様蛋白質のアライメントを作成し、そしてそれぞれの蛋白質のPPRモチーフ構造を解析した。その結果を図21に示す。全てのORF687様遺伝子は16個のPPRモチーフから構成されている（図21）。

得られたPPRモチーフモデルと非特許文献5に示されるアミノ酸番号に従って、1、2、”ii”(-2)番アミノ酸を抽出し、ORF様蛋白質の稔性回復能機能判定に用いた。

そこで、9種のRf様遺伝子の機能判定をPPRコードを用いて行った。前述のEnkoBと同じように塩基指定能力を司るアミノ酸（1、4、ii）を抽出し、PPRコードに変換後、アミノ酸種をRNA binding windowとして、その機能性判定に用いた（図22）。Enko BとKosena Bは、全体で99.4%の相同性を示すが、RNA binding windowには2箇所のアミノ酸多型があり、これがORF687様遺伝子の稔性回復に対する優性/劣性に深く関与すると考えられた（非特許論文4）。一方、品種Comet中で、Enko Bと相同な遺伝子座に座乗する遺伝子Comet BはEnko Bと98.0%の相同性を示し、RNA binding windowは全く同一である。過去の交配試験で得られたCometBが優性遺伝子であるという知見を裏付けることができた。また、Enko AはEnko Bの近傍に座乗する重複遺伝子だが、RNA認識の観点からも劣性の遺伝子であることが示唆された。これらのデータから、ORF687様遺伝子の稔性回復に対する優性/劣性は、Enko BのRNA binding windowと比較した場合に、ORF687様遺伝子における対応するPPRモチーフすべてにおいて、塩基指定能力を司るアミノ酸（1、4、ii）が同一であること、特に同一の4番アミノ酸（A₄）を有すること、あるいは同一の“ii”番アミノ酸を有すること、が重要であることが示唆された。中でも、特に同一の4番アミノ酸（A₄）を有することが重要と考えられた。この点から、稔性に関する情報が未知である様々な系統のダイコンにおいて、Enko Bと相同な遺伝子座に座乗する遺伝子、rrORF690-1、rrORF690-2、icicle_pprCA、PC_PPR-A、PC_PPR-BLについては、優性遺伝子であるEnko Bとは異なったRNA binding windowを持ち、これら遺伝子も劣性rfであると考えられた。

以上の結果は、本発明で示すPPRコードは、稔性回復因子として働くような産業上有用なPPR蛋白質の機能判定を高速化することができる。当該技術はCMS-Rfシステムを利用した一代雑種育種法に新しい系統を適用するさいに、候補Rf遺伝子の配列から、その稔性回復能の有無を判定することが可能である。発明者らは21種の新規ダイコン品種のORF687様遺伝子の機能判定を行い、19種のORF様遺伝子の稔性回復能の優性/劣性の判定に成功している（データ未公開）。本技術はオグラ型細胞質のダイコンに限らず、PPR蛋白質をRfとする様々な細胞質、植物種に適用可能である。

[実施例で引用した論文]
参照文献1：Small, I.D., and Peeters, N. (2000). The PPR motif - a TPR-related motif prevalent in plant organellar proteins. Trends Biochem. Sci. 25, 46-47.
参照文献2：Lurin, C., Andres, C., Aubourg, S., Bellaoui, M., Bitton, F., Bruyere, C., Caboche, M., Debast, C., Gualberto, J., Hoffmann, B., et al. (2004). Genome-wide analysis of Arabidopsis pentatricopeptide repeat proteins reveals their essential role in organelle biogenesis. Plant Cell 16, 2089-2103.
参照文献3：Okuda, K., Myouga, F., Motohashi, R., Shinozaki, K., and Shikanai, T. (2007). Conserved domain structure of pentatricopeptide repeat proteins involved in chloroplast RNA editing. Proc Natl Acad Sci USA 104, 8178-8183.
参照文献4：Koizuka N, Imai R, Fujimoto H, Hayakawa T, Kimura Y, et al. (2003) Genetic characterization of a pentatricopeptide repeat protein gene, orf687, that restores fertility in the cytoplasmic male-sterile Kosena radish. Plant J 34: 407-415.
参照文献5：Nakamura T, Yagi Y, Kobayashi K (2012) Mechanistic insight into pentatricopeptide repeat proteins as sequence-specific RNA-binding proteins for organellar RNAs in plants. Plant & Cell Physiology 53: 1171-1179

Claims

標的RNA塩基又は特定の塩基配列を有する標的RNAと結合可能な蛋白質であって、
前記蛋白質が、1～20個のPPRモチーフからなり、
前記PPRモチーフは、30～38アミノ酸長のポリペプチドであって、式1：

（式1中：
Helix Aは、12アミノ酸長の、αヘリックス構造を形成可能な部分であって、
式2：

（式2中、A₁～A₁₂はそれぞれ独立にアミノ酸を表す）で表され、
式１中Xは、存在しないか又は1～9アミノ酸長からなる部分であり、
式１中Helix Bは、11～13アミノ酸長からなる、αヘリックス構造を形成可能な部分であり、
式１中Lは、2～7アミノ酸長の、式3：

（式3中、各アミノ酸は、“i” (-1)、“ii”(-2)、とC末端側からナンバリングされ、
ただし、L_iii～L_viiは存在しない場合がある。）で表され、
A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせ、又はA₄、L_iiの2つのアミノ酸の組み合わせが、標的RNA塩基又は標的RNA特定の塩基配列に応じたものである。）
で表され、このとき
A₁、A₄、及びL_iiの3つのアミノ酸の組み合わせが、標的RNA塩基又は標的RNAの塩基配列に応じた、下記：
(3-1) U（ウラシル）に選択的に結合するPPRモチーフを構成する、順に、バリン、アスパラギン、アスパラギン酸である組み合わせ；
(3-2) A（アデニン）に選択的に結合するPPRモチーフを構成する、順に、バリン、トレオニン、アスパラギンである組み合わせ；
(3-3) C（シトシン）に選択的に結合するPPRモチーフを構成する、順に、バリン、アスパラギン、アスパラギンである組み合わせ；
(3-4) G（グアニン）に選択的に結合するPPRモチーフを構成する、順に、グルタミン酸、グリシン、アスパラギン酸である組み合わせ；
(3-5) C又はUに選択的に結合するPPRモチーフを構成する、順に、イソロイシン、アスパラギン、アスパラギンである組み合わせ；
(3-6) Gに選択的に結合するPPRモチーフを構成する、順に、バリン、トレオニン、アスパラギン酸である組み合わせ；
(3-7) Gに選択的に結合するPPRモチーフを構成する、順に、リジン、トレオニン、アスパラギン酸である組み合わせ；
(3-8) Aに選択的に結合するPPRモチーフを構成する、順に、フェニルアラニン、セリン、アスパラギンである組み合わせ；
(3-9) Cに選択的に結合するPPRモチーフを構成する、順に、バリン、アスパラギン、セリン、の場合である組み合わせ；
(3-10) Aに選択的に結合するPPRモチーフを構成する、順に、フェニルアラニン、トレオニン、アスパラギンである組み合わせ；
(3-11) U又はAに選択的に結合するPPRモチーフを構成する、順に、イソロイシン、アスパラギン、アスパラギン酸である組み合わせ；
(3-12) Aに選択的に結合するPPRモチーフを構成する、順に、トレオニン、トレオニン、アスパラギンである組み合わせ；
(3-13) U又はCに選択的に結合するPPRモチーフを構成する、順に、イソロイシン、メチオニン、アスパラギン酸である組み合わせ；
(3-14) Uに選択的に結合するPPRモチーフを構成する、順に、フェニルアラニン、プロリン、アスパラギン酸である組み合わせ；
(3-15) Uに選択的に結合するPPRモチーフを構成する、順に、チロシン、プロリン、アスパラギン酸である組み合わせ；
(3-16) Gに選択的に結合するPPRモチーフを構成する、順に、ロイシン、トレオニン、アスパラギン酸である組み合わせ
のいずれかで表されるか、又は
A₄、及びL_iiの2つのアミノ酸の組み合わせが、標的RNA塩基又は標的RNAの塩基配列に応じた、下記：
(2-1) Uに選択的に結合するPPRモチーフを構成する、順に、アスパラギン、アスパラギン酸である組み合わせ；
(2-2) Cに選択的に結合するPPRモチーフを構成する、順に、アスパラギン、アスパラギンである組み合わせ；
(2-3) Aに選択的に結合するPPRモチーフを構成する、順に、トレオニン、アスパラギンである組み合わせ；
(2-4) Gに選択的に結合するPPRモチーフを構成する、順に、トレオニン、アスパラギン酸である組み合わせ；
(2-5) Aに選択的に結合するPPRモチーフを構成する、順に、セリン、アスパラギンである組み合わせ；
(2-6) Gに選択的に結合するPPRモチーフを構成する、順に、グリシン、アスパラギン酸である組み合わせ；
(2-7) Cに選択的に結合するPPRモチーフを構成する、順に、アスパラギン、セリンである組み合わせ；
(2-8) Uに選択的に結合するPPRモチーフを構成する、順に、プロリン、アスパラギン酸である組み合わせ；
(2-9) Aに選択的に結合するPPRモチーフを構成する、順に、グリシン、アスパラギンである組み合わせ、；
(2-10) Uに選択的に結合するPPRモチーフを構成する、順に、メチオニン、アスパラギン酸である組み合わせ；
(2-11) Cに選択的に結合するPPRモチーフを構成する、順に、ロイシン、アスパラギン酸である組み合わせ；
(2-12) Uに選択的に結合するPPRモチーフを構成する、順に、バリン、トレオニンである組み合わせ
で表されることを特徴とする、組成物。
蛋白質が、請求項1に定義されたPPRモチーフを2～14個含む、請求項1に記載の組成物。