CN116444634A

CN116444634A - 利用ppr基序的dna结合性蛋白质及其应用

Info

Publication number: CN116444634A
Application number: CN202310067824.XA
Authority: CN
Inventors: 山本卓; 佐久间哲史; 中村崇裕; 八木祐介; 大川恭行
Original assignee: Kyushu University NUC; Hiroshima University NUC
Current assignee: Kyushu University NUC; Hiroshima University NUC
Priority date: 2013-04-22
Filing date: 2014-04-22
Publication date: 2023-07-18
Also published as: JP5896547B2; SG10201802430VA; EP3020722A4; JP7057983B2; CN116731198A; CN118530318A; JP2023096153A; US20210324019A1; NZ714264A; CN105392796A; KR20210066947A; SG11201508730TA; BR122020018288B1; JP2021045158A; CN116589544A; JP6806822B2; JPWO2014175284A1; EP3696186A1; AU2020264412B2; EP3696186B1

Abstract

本发明提供利用PPR基序的DNA结合性蛋白质及其应用。该蛋白质含有多个、优选2～30个、更优选5～25个、最优选9～15个的具有下述式1结构的PPR基序(式1中：螺旋A为能够形成α螺旋结构的部分；X不存在或者为由长度1～9个的氨基酸构成的部分；螺旋B为能够形成α螺旋结构的部分；并且L为由长度2～7个的氨基酸构成的部分)，该PPR基序具有式1中的螺旋A的第1氨基酸、第4氨基酸、以及L中含有的第“ii”(‑2)氨基酸这3处氨基酸作为与DNA碱基或对象碱基序列对应的特定的氨基酸的组合。(螺旋A)‑X‑(螺旋B)‑L(式1)。

Description

利用PPR基序的DNA结合性蛋白质及其应用

本申请是申请号为201480035686.6(国际申请号为PCT/JP2014/061329)、中国国家阶段进入日为2015年12月22日(国际申请日为2014年4月22日)、发明名称为“利用PPR基序的DNA结合性蛋白质及其应用”的中国发明专利申请的分案申请。

【技术领域】

本发明涉及能够与目标DNA碱基或DNA序列选择性或特异性结合的蛋白质。本发明中利用了三角状五肽重复序列(pentatricopeptide repeat，PPR)基序。本发明可用于DNA结合性蛋白质的鉴定、设计、具有PPR基序的蛋白质的靶标DNA的鉴定、DNA的功能调控。本发明在医疗领域、农学领域等中有用。另外，本发明涉及利用了含有PPR基序的蛋白质与规定功能性区域的蛋白质的复合体的新的DNA切割酶。

【背景技术】

近年来，使用通过各种分析得以明确的核酸结合性蛋白质因子与目标序列结合的技术已被确立并得到了应用。通过利用该序列特异性的结合，能够进行作为靶标的核酸(DNA或RNA)的细胞内定位分析、作为靶标的DNA序列的去除、或其下游存在的蛋白质编码基因的表达调控(活化或失活)。

已经进行了将作为作用于DNA的蛋白质性因子的锌指蛋白(非专利文献1、非专利文献2)、TAL效应因子(TALE、非专利文献3、专利文献1)、CRISPR(非专利文献4、非专利文献5)作为蛋白质工程材料的研究和开发，但这样的蛋白质性因子的种类仍然非常有限。

例如，作为人工DNA切割酶而已知的人工锌指核酸酶(ZFN)为一种嵌合蛋白质，其通过在使特异性识别并结合3～4个碱基的DNA的锌指3～6个连结而构成的、利用3～4个碱基的序列单元对碱基序列进行识别的部分上连结细菌DNA切割酶(例如FokI)的1个DNA切割结构域而形成(非专利文献2)。这样的嵌合蛋白质中，锌指结构域是已知与DNA结合的蛋白质结构域，其根据在于，已知多种转录调控因子具有该结构域，与特异的DNA序列结合并进行基因的表达调控。通过使用2个具有3个锌指的该ZFN，理论上能够在大约每700亿个碱基中诱导1处切断。

但是，由于使用该ZFN的方法在制作中耗费费用等，因而并未达到广泛应用的程度。另外，功能性ZFN的筛选效率差，暗示其在这方面也存在问题。此外，由n个锌指构成的锌指结构域具有识别(GNN)n这样的序列的倾向，因而还具有靶标基因序列的自由度低这样的问题。

另一方面，已开发出了将由能够识别每1个碱基的组件部分的组合序列构成的蛋白质、TAL效应因子(TALE)与细菌DNA切割酶(例如FokI)的DNA切割结构域结合而得到的酶(TALEN)，正在将其作为替代ZFN的人工酶来进行研究(非专利文献3)。该TALEN是将植物病原细菌黄单胞菌(Xanthomonas)所具有的转录因子的DNA结合结构域与DNA限制酶FokI的DNA切割结构域融合而成的酶，已知其与邻近的DNA序列结合，形成二聚物并将双链DNA切断。该分子中，从感染植物的细菌中发现的TALE的DNA结合结构域利用由34个氨基酸构成的TALE基序中的2处氨基酸的组合识别1个碱基，因此，具有能够通过TALE组件的重复结构的选择来选择与靶标DNA的结合性这样的特征。利用了具有这样的特征的DNA结合结构域的TALEN具有与ZFN同样地能够向靶标基因中导入突变的特征，但与ZFN相比，具有很大优越性的是，其靶标基因(碱基序列)的自由度大幅提高，而且能够编码结合碱基。

但是，TALEN的完整的立体结构并不明确，因而现状是无法鉴定TALEN的DNA的切割部位。因此，与ZFN相比，TALEN存在切割部位不准确、不固定、会在类似序列处进行切割的问题。因此，存在无法利用DNA切割酶准确地对靶标碱基序列进行切割的问题。基于这样的情况，希望开发、提供不具有上述问题的新的人工DNA切割酶。

基于基因组序列信息，仅在植物中就鉴定了形成500个成员的大家族的蛋白质、即PPR蛋白质(具有三角状五肽重复序列(pentatricopeptide repeat，PPR)基序的蛋白质)(非专利文献6)。PPR蛋白质为核编码蛋白，已知其是专门对细胞器官(叶绿体和线粒体)的RNA水平的调控、切割、翻译、剪接、RNA编辑、RNA稳定性发挥基因特异性作用的蛋白质。典型地，PPR蛋白质具有约10个保守性低的35氨基酸基序、即PPR基序连续而成的结构，认为PPR基序的组合承担了与RNA的序列选择性结合的作用。绝大部分PPR蛋白质仅由约10个PPR基序的重复构成，多数情况下，未发现发挥催化作用所需要的结构域。因此，认为该PPR蛋白质实质上为RNA衔接子(アダプター)(非专利文献7)。

通常，蛋白质与DNA之间的结合同蛋白质与RNA之间的结合是基于不同的分子机制来进行的，DNA结合型蛋白质通常不与RNA结合，反过来，RNA结合型蛋白质通常不与DNA结合。例如，在作为RNA结合因子而已知的、能够对识别RNA进行编码的Pumilio蛋白质的情况下，并无其与DNA结合的报道(非专利文献8和9)。

但是，在对各种PPR蛋白质的性质进行研究的过程中，已经明确提示了几种类型的PPR蛋白质作为DNA结合性因子发挥作用。

小麦的p63为具有9个PPR基序的PPR蛋白质，通过凝胶迁移分析提示其与DNA进行序列特异性结合(非专利文献10)。

拟南芥(Arabidopsis thaliana)的GUN1蛋白质具有11个PPR基序，通过拉下分析提示其与DNA结合(非专利文献11)。

通过连缀(Run-On)分析显示，拟南芥的pTac2(具有15个PPR基序的蛋白质、非专利文献12)和拟南芥的DG1(具有10个PPR基序的蛋白质、非专利文献13)直接参与以DNA作为模板来生成RNA的转录，认为它们与DNA结合。

拟南芥的GRP23(具有11个PPR基序的蛋白质、非专利文献14)的基因缺陷株表现出胚致死的表现型，显示出该蛋白质与作为DNA依赖型RNA转录酶的真核生物型RNA转录聚合酶2的主要亚基发生物理性相互作用，因此认为GRP23也发挥DNA结合的作用。

但是，关于这些PPR蛋白质，只不过间接地暗示了其与DNA的结合，并未充分证明实际上进行了序列特异性结合。另外，即使这些蛋白质与DNA进行了序列特异性结合，由于通常认为蛋白质与DNA之间的结合同蛋白质与RNA之间的结合是基于不同的分子机制来进行的，因此关于具体是通过怎样的序列规则来进行结合等，甚至连预测也完全没有。

【现有技术文献】

【专利文献】

专利文献1：WO2011/072246

专利文献2：WO2011/111829

【非专利文献】

非专利文献1：Maeder,M.L.,et al.(2008).Rapid“open-source”engineeringofcustomized zinc-fingernucleases for highly efficient genemodification.Mol.Cell 31,294-301.

非专利文献2：Urnov,F.D.,et al.,(2010)Genome editing with engineeredzinc finger nucleases,Nature Review Genetics,11,636-646

非专利文献3：Miller,J.C.,et al.(2011).A TALE nuclease architecture forefficient genome editing.Nature biotech.29,143-148.

非专利文献4：Mali P,et al.(2013)RNA-guided human genome engineeringvia Cas9.Science.339,823-826.

非专利文献5：Cong L,et al.(2013)Multiplex genome engineering usingCRISPR/Cas systems.Science.339,819-823

非专利文献6：Small,I.D.,and Peeters,N.(2000).The PPR motif-a TPR-related motif prevalent in plant organellar proteins.Trends Biochem.Sci.25,46-47.

非专利文献7：Woodson,J.D.,and Chory,J.(2008).Coordination of geneexpression between organellar and nuclear genomes.Nature Rev.Genet.9,383-395.

非专利文献8：Wang,X.,et al.(2002).Modular recognition of RNA by ahuman pumilio-homology domain.Cell 110,501-512.

非专利文献9：Cheong,C.G.,and Hall,T.M.(2006).Engineering RNA sequencespecificity of Pumilio repeats.Proc.Natl.Acad.Sci.USA 103,13635-13639.

非专利文献10：Ikeda T.M.and Gray M.W.(1999)Characterization of a DNA-binding protein implicated in transcription in wheat mitochondria.Mol CellBiol19(12)：8113-8122

非专利文献11：Koussevitzky S,et al.(2007)Signals from chloroplastsconverge to regulate nuclear gene expression.Science 316：715-719.

非专利文献12：Pfalz J,et al.(2006)pTAC2,-6,and-12are components of thetranscriptionally active plastid chromosome that are required for plastidgene expression.Plant Cell 18：176-197.

非专利文献13：Chi W,et al.(2008)The pentratricopeptide repeatproteinDELAYED GREENING1 is involved in the regulation of early chloroplastdevelopment and chloroplast gene expression in Arabidopsis.Plant Physiol.147：573-584.

非专利文献14：Ding YH,et al.(2006)Arabidopsis GLUTAMINE-RICH PROTEIN23is essential for early embryogenesis and encodes a novel nuclear PPR motifprotein that interacts with RNA polymerase II subunit III.Plant Cell 18：815-830.

【发明内容】

【发明所要解决的课题】

本发明人预测，PPR蛋白质(具有PPR基序的蛋白质)作为RNA衔接子的性质是由构成PPR蛋白质的各PPR基序的性质以及多个PPR基序的组合决定的，并提出了利用该PPR基序的RNA结合性蛋白质的改造方法(专利文献2)。并且明确了，PPR基序与RNA是一对一地对应结合的，通过连续的PPR基序来识别RNA序列中的连续的RNA碱基，并且是利用构成PPR基序的35个氨基酸中特定的3处氨基酸的组合来决定RNA识别的；对于利用PPR基序的RNA识别密码的定制RNA结合蛋白质的设计方法及其应用进行了专利申请(PCT/JP2012/077274；Yagi,Y.,et al.(2013)PLoS One,8,e57286；以及Barkan,A.,etal.(2012)PLoS Genet.,8,e1002910.)。

通常认为，蛋白质与DNA之间的结合同蛋白质与RNA之间的结合基于不同的分子机制。与此相对，此次，基于PPR基序所具有的RNA识别规则也能够用于DNA识别的预测，设定了如下课题：对于在DNA结合中起作用的PPR蛋白质进行分析，探寻具有这种特征的PPR蛋白质。另外还设定了如下课题：使用如此得到的可与DNA特异性结合的PPR蛋白质，进行与所期望的序列结合的定制DNA结合蛋白质的制备，同时，通过与规定功能性区域的蛋白质一起使用来提供新的人工酶；并且，通过与作为功能性区域的DNA切割活性区域一起使用来提供新的人工DNA切割酶。

【用于解决课题的手段】

在PPR蛋白质的情况下，在各种结构域检索程序(Pfam、Prosite、Interpro等)中，已知通常的RNA结合型的PPR蛋白质所含有的PPR基序与上述几种DNA结合型的PPR蛋白质所含有的PPR基序并未进行特别区分。因此认为，在PPR蛋白质中，除了核酸识别所需要的氨基酸以外，可能还含有决定与DNA的结合性或与RNA的结合性的氨基酸(氨基酸组)。

本发明人在PCT/JP2012/077274中明确了，RNA结合型PPR基序与RNA一对一地对应结合，通过连续的PPR基序识别RNA序列中的连续的RNA碱基；此时，利用构成PPR基序的35个氨基酸之中特定的3处氨基酸(即，构成基序的2个α螺旋结构中的最初的螺旋(螺旋A)的1位和4位的氨基酸(第1氨基酸和第4氨基酸)以及从C末端侧起的第2位氨基酸(第“ii”(-2)氨基酸))这3处RNA识别氨基酸的组合来决定与碱基选择性的RNA的结合，对于利用PPR基序的RNA识别密码的定制RNA结合蛋白质的设计方法及其应用进行了专利申请。

因此，在PPR蛋白质中被提示为与DNA结合的上述小麦的p63(非专利文献11、拟南芥的同源蛋白质的氨基酸序列为SEQ ID NO：1)、拟南芥的GUN1蛋白质(非专利文献12、氨基酸序列为SEQ ID NO：2)、拟南芥的pTac2(非专利文献13、氨基酸序列为SEQ ID NO：3)、DG1(非专利文献14、氨基酸序列为SEQ ID NO：4)、拟南芥的GRP23(非专利文献15、氨基酸序列为SEQ ID NO：5)中，将在以RNA为靶标的情况下被认为重要的PPR基序中承担核酸识别密码作用的3处氨基酸(第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸)的氨基酸出现频率与RNA结合型基序进行了比较，结果可知，这些被暗示为DNA结合性的PPR蛋白质的PPR基序与RNA结合型基序之间的氨基酸出现频率的倾向基本一致。

由此暗示，RNA结合型PPR基序的核酸识别密码也能够应用于DNA结合型PPR基序。胸腺嘧啶(T)也被称为5-甲基尿嘧啶，其为具有将尿嘧啶(U)的5位碳进行了甲基化的结构的尿嘧啶(U)衍生物。根据这样的构成核酸的碱基的性质，暗示出RNA结合型PPR基序的识别尿嘧啶(U)的氨基酸的组合可用于DNA情况下的胸腺嘧啶(T)的识别。

基于这些发现明确了，通过使用作为DNA结合型PPR蛋白质的上述p63(SEQ ID NO：1的氨基酸序列)、拟南芥的GUN1蛋白质(SEQ ID NO：2的氨基酸序列)、拟南芥的pTac2(SEQID NO：3的氨基酸序列)、DG1(SEQ ID NO：4的氨基酸序列)、拟南芥的GRP23(SEQ ID NO：5的氨基酸序列)作为模板，对这些PPR蛋白质应用RNA结合型PPR基序的研究结果得到的发现，配置3处氨基酸(第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸)，能够制作与任意DNA序列结合的定制DNA结合蛋白质。

即，本发明人通过提供一种能够选择性地结合DNA碱基或者能够特异性地结合DNA碱基序列的蛋白质而完成了本发明，该蛋白质含有多个、优选2～30个、更优选5～25个、特别优选9～15个的PPR基序，该PPR基序是以SEQ ID NO：1的氨基酸序列、SEQ ID NO：2的氨基酸序列、SEQ ID NO：3的氨基酸序列、SEQ ID NO：4的氨基酸序列、SEQ ID NO：5的氨基酸序列为代表的、使各PPR基序中的3处氨基酸(第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸)为后述的特定氨基酸的PPR基序。

本发明提供下述方案：

[1]一种能够选择性地结合DNA碱基或者能够特异性地结合DNA碱基序列的蛋白质，其为含有1个以上的具有下述式1结构的PPR基序的蛋白质，

【化1】

(螺旋A)-X-(螺旋B)-L (式1)

(式1中：

螺旋A为能够形成α螺旋结构的部分；

X不存在或者为由长度1～9个的氨基酸构成的部分；

螺旋B为能够形成α螺旋结构的部分；并且

L为由长度2～7个的氨基酸构成的部分)

蛋白质中含有的一个PPR基序(M_n)为下述的PPR基序：

在将螺旋A的起始氨基酸作为第1氨基酸、将第4位的氨基酸作为第4氨基酸、并且将下述氨基酸作为第“ii”(-2)氨基酸时，所述PPR基序具有第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸作为与对象DNA碱基或对象DNA碱基序列对应的特定的氨基酸的组合，

所述作为第“ii”(-2)氨基酸的氨基酸为：

·在PPR基序(M_n)的C末端侧连续存在下一个PPR基序(M_n+1)时(在PPR基序间无氨基酸插入时)，从构成PPR基序(M_n)的氨基酸的最后位(C末端侧)起的第-2位氨基酸；

·在PPR基序(M_n)与其C末端侧的下一个PPR基序(M_n+1)之间发现1～20个氨基酸的非PPR基序时，从下一个PPR基序(M_n+1)的第1氨基酸起向上游侧数2位、即第-2位氨基酸；或者

·在PPR基序(M_n)的C末端侧未发现下一个PPR基序(M_n+1)时、或者在与C末端侧的下一个PPR基序(M_n+1)之间发现21个氨基酸以上的构成非PPR基序的氨基酸的情况下，从构成PPR基序(M_n)的氨基酸的最后位(C末端侧)起的第2位氨基酸。

[2]如[1]所述的蛋白质，该蛋白质中，使第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸的组合与对象DNA碱基或对象DNA碱基序列对应，其中，氨基酸的组合基于下述任意一种情况来确定：

(1-1)第4氨基酸为甘氨酸(G)的情况下，第1氨基酸可以为任意的氨基酸，并且第“ii”(-2)氨基酸为天冬氨酸(D)、天冬酰胺(N)或丝氨酸(S)；

(1-2)第4氨基酸为异亮氨酸(I)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸；

(1-3)第4氨基酸为亮氨酸(L)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸；

(1-4)第4氨基酸为甲硫氨酸(M)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸；

(1-5)第4氨基酸为天冬酰胺(N)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸；

(1-6)第4氨基酸为脯氨酸(P)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸；

(1-7)第4氨基酸为丝氨酸(S)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸；

(1-8)第4氨基酸为苏氨酸(T)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸；

(1-9)第4氨基酸为缬氨酸(V)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸。

[3]如[1]所述的蛋白质，该蛋白质中，使第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸的组合与对象DNA碱基或对象DNA碱基序列对应，其中，氨基酸的组合基于下述任意一种情况来确定：

(2-1)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、甘氨酸、天冬氨酸时，该PPR基序与G选择性地结合；

(2-2)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为谷氨酸、甘氨酸、天冬氨酸时，该PPR基序与G选择性地结合；

(2-3)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、甘氨酸、天冬酰胺时，该PPR基序与A选择性地结合；

(2-4)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为谷氨酸、甘氨酸、天冬酰胺时，该PPR基序与A选择性地结合；

(2-5)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、甘氨酸、丝氨酸时，该PPR基序与A选择性地结合，其次与C结合；

(2-6)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、异亮氨酸、任意的氨基酸时，该PPR基序与T和C选择性地结合；

(2-7)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、异亮氨酸、天冬酰胺时，该PPR基序与T选择性地结合，其次与C结合；

(2-8)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、亮氨酸、任意的氨基酸时，该PPR基序与T和C选择性地结合；

(2-9)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、亮氨酸、天冬氨酸时，该PPR基序与C选择性地结合；

(2-10)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、亮氨酸、赖氨酸时，该PPR基序与T选择性地结合；

(2-11)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、甲硫氨酸、任意的氨基酸时，该PPR基序与T选择性地结合；

(2-12)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、甲硫氨酸、天冬氨酸时，该PPR基序与T选择性地结合；

(2-13)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为异亮氨酸、甲硫氨酸、天冬氨酸时，该PPR基序与T选择性地结合，其次与C结合；

(2-14)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、天冬酰胺、任意的氨基酸时，该PPR基序与C和T选择性地结合；

(2-15)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、天冬酰胺、天冬氨酸时，该PPR基序与T选择性地结合；

(2-16)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为苯丙氨酸、天冬酰胺、天冬氨酸时，该PPR基序与T选择性地结合；

(2-17)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为甘氨酸、天冬酰胺、天冬氨酸时，该PPR基序与T选择性地结合；

(2-18)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为异亮氨酸、天冬酰胺、天冬氨酸时，该PPR基序与T选择性地结合；

(2-19)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为苏氨酸、天冬酰胺、天冬氨酸时，该PPR基序与T选择性地结合；

(2-20)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、天冬酰胺、天冬氨酸时，该PPR基序与T选择性地结合，其次与C结合；

(2-21)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为酪氨酸、天冬酰胺、天冬氨酸时，该PPR基序与T选择性地结合，其次与C结合；

(2-22)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、天冬酰胺、天冬酰胺时，该PPR基序与C选择性地结合；

(2-23)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为异亮氨酸、天冬酰胺、天冬酰胺时，该PPR基序与C选择性地结合；

(2-24)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为丝氨酸、天冬酰胺、天冬酰胺时，该PPR基序与C选择性地结合；

(2-25)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、天冬酰胺、天冬酰胺时，该PPR基序与C选择性地结合；

(2-26)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、天冬酰胺、丝氨酸时，该PPR基序与C选择性地结合；

(2-27)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、天冬酰胺、丝氨酸时，该PPR基序与C选择性地结合；

(2-28)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、天冬酰胺、苏氨酸时，该PPR基序与C选择性地结合；

(2-29)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、天冬酰胺、苏氨酸时，该PPR基序与C选择性地结合；

(2-30)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、天冬酰胺、色氨酸时，该PPR基序与C选择性地结合，其次与T结合；

(2-31)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为异亮氨酸、天冬酰胺、色氨酸时，该PPR基序与T选择性地结合，其次与C结合；

(2-32)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、脯氨酸、任意的氨基酸时，该PPR基序与T选择性地结合；

(2-33)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、脯氨酸、天冬氨酸时，该PPR基序与T选择性地结合；

(2-34)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为苯丙氨酸、脯氨酸、天冬氨酸时，该PPR基序与T选择性地结合；

(2-35)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为酪氨酸、脯氨酸、天冬氨酸时，该PPR基序与T选择性地结合；

(2-36)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、丝氨酸、任意的氨基酸时，该PPR基序与A和G选择性地结合；

(2-37)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、丝氨酸、天冬酰胺时，该PPR基序与A选择性地结合；

(2-38)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为苯丙氨酸、丝氨酸、天冬酰胺时，该PPR基序与A选择性地结合；

(2-39)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、丝氨酸、天冬酰胺时，该PPR基序与A选择性地结合；

(2-40)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、苏氨酸、任意的氨基酸时，该PPR基序与A和G选择性地结合；

(2-41)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、苏氨酸、天冬氨酸时，该PPR基序与G选择性地结合；

(2-42)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、苏氨酸、天冬氨酸时，该PPR基序与G选择性地结合；

(2-43)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、苏氨酸、天冬酰胺时，该PPR基序与A选择性地结合；

(2-44)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为苯丙氨酸、苏氨酸、天冬酰胺时，该PPR基序与A选择性地结合；

(2-45)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为异亮氨酸、苏氨酸、天冬酰胺时，该PPR基序与A选择性地结合；

(2-46)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、苏氨酸、天冬酰胺时，该PPR基序与A选择性地结合；

(2-47)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、缬氨酸、任意的氨基酸时，该PPR基序与A、C和T结合，但不与G结合；

(2-48)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为异亮氨酸、缬氨酸、天冬氨酸时，该PPR基序与C选择性地结合，其次与A结合；

(2-49)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、缬氨酸、甘氨酸时，该PPR基序与C选择性地结合；

(2-50)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、缬氨酸、苏氨酸时，该PPR基序与T选择性地结合。

[4]如[1]～[3]中任一项所述的蛋白质，其含有2～30个[1]中定义的PPR基序(M_n)。

[5]如[1]～[3]中任一项所述的蛋白质，其含有5～25个[1]中定义的PPR基序(M_n)。

[6]如[1]～[3]中任一项所述的蛋白质，其含有9～15个[1]中定义的PPR基序(M_n)。

[7]如[6]所述的PPR蛋白质，其由选自具有9个PPR基序的SEQ ID NO：1的氨基酸序列、具有11个PPR基序的SEQ ID NO：2的氨基酸序列、具有15个PPR基序的SEQ ID NO：3的氨基酸序列、具有10个PPR基序的SEQ ID NO：4的氨基酸序列、具有11个PPR基序的SEQ ID NO：5的氨基酸序列中的序列构成。

[8]一种对作为DNA结合性蛋白质的靶标的DNA碱基或DNA碱基序列进行鉴定的方法，该DNA结合性蛋白质含有1个以上(优选2～30个)的[1]中定义的PPR基序(M_n)，该方法中，

鉴定通过下述方式进行：基于[1]所述的(1-1)～(1-9)或[3]所述的(2-1)～(2-50)中的任意一种情况来认定有无与PPR基序的第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸的组合对应的DNA碱基。

[9]一种对PPR蛋白质进行鉴定的方法，该PPR蛋白质能够与靶标DNA碱基或具有特定碱基序列的靶标DNA结合、且含有1个以上(优选2～30个)的[1]中定义的PPR基序(M_n)，该方法中，

鉴定通过下述方式进行：基于[1]所述的(1-1)～(1-9)或[1]所述的(2-1)～(2-50)中的任意一种情况来认定有无与靶标DNA碱基或构成靶标DNA的特定碱基对应的PPR基序的第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸的组合。

[10]一种DNA的功能的调控方法，其使用[1]所述的蛋白质。

[11]一种复合体，其通过将由[1]所述的蛋白质构成的区域与功能性区域连结而形成。

[12]如[11]所述的复合体，该复合体通过在[1]所述的蛋白质的C末端侧融合功能性区域而形成。

[13]如[11]或[12]所述的复合体，其中，功能性区域为DNA切割酶或其核酸酶结构域、或者转录调控结构域，复合体作为靶标序列特异性DNA切割酶或转录调控因子发挥功能。

[14]如[13]所述的复合体，其中，DNA切割酶为FokI的核酸酶结构域(SEQ ID NO：6)。

[15]一种对细胞的遗传物质进行改造的方法，其包括下述步骤：

准备含有具有靶标序列的DNA的细胞；并且

将[11]所述的复合体导入到细胞中，由此复合体的由蛋白质构成的区域与具有靶标序列的DNA结合，因此功能性区域对具有靶标序列的DNA进行改造。

[16]一种使用含有1个以上PPR基序的PPR蛋白质对DNA碱基或具有特定碱基序列的DNA进行鉴定、识别或靶标化的方法。

[17]如[16]所述的方法，其中，蛋白质含有1个以上的PPR基序，构成该PPR基序的氨基酸中的3个为特定的氨基酸的组合。

[18]如[16]或[17]所述的方法，其中，蛋白质含有1个以上的[1]中定义的PPR基序(Mn)。

【发明的效果】

根据本发明，可以提供能够与对象DNA碱基结合的PPR基序和含有其的蛋白质。通过配置多个PPR基序，可以提供能够与具有任意序列或长度的靶标DNA结合的蛋白质。

根据本发明，能够预测、鉴定任意PPR蛋白质的靶标DNA，另外反过来能够预测、鉴定与任意DNA结合的PPR蛋白质。通过预测靶标DNA序列，明确了该基因的实质，并且提高了能够利用的可能性。此外，根据本发明，对于产业上有用的PPR蛋白质基因，能够基于其靶标DNA序列的差异来检测具有各种氨基酸多态性的同源基因的功能性。

此外，根据本发明，还可以提供利用PPR基序的新的DNA切割酶，即，可以在由本发明提供的PPR基序或PPR蛋白质上连结功能性区域蛋白质，制备含有对特定核酸序列具有结合活性且具有特定功能性的蛋白质的复合体。

作为可以在本发明中应用的功能性区域，是指能够赋予各种功能中的DNA的切割、转录、复制、修复、合成、修饰等任意功能的区域。通过调整作为本发明特征的PPR基序的序列、确定作为靶标的DNA的碱基序列，能够将几乎所有的DNA序列作为靶标来利用，使用该靶标，能够利用DNA的切割、转录、复制、修复、合成、修饰等功能性区域所具有的功能来实现基因组编辑。

例如，在功能性区域具有DNA的切割功能的情况下，可提供将本申请发明中制备的PPR蛋白质部分与DNA的切割区域连结而成的复合体。这样的复合体可以作为人工DNA切割酶发挥功能，在利用PPR蛋白质部分识别作为靶标的DNA的碱基序列后，利用DNA的切割区域对DNA进行切割。在功能性区域具有转录调控功能的情况下，可提供将本申请发明中制备的PPR蛋白质部分与DNA的转录调控区域连结而成的复合体。这样的复合体可以作为人工转录调控因子发挥功能，在利用PPR蛋白质部分识别作为靶标的DNA的碱基序列后，促进目的DNA的转录。

此外，根据本发明，还能够用于将上述复合体输送到生物体内并使其发挥功能的方法、使用编码由本发明得到的蛋白质的核酸序列(DNA、RNA)的转化体的制作、或者在生物(细胞、组织、个体)中的各种情况下的特异性改造、调控和功能的赋予。

【附图说明】

图1示出了PPR基序的保守序列和氨基酸编号。图1的A记载了构成本发明中定义的PPR基序的氨基酸及其氨基酸编号。图1的B示出了对结合碱基选择性进行调控的3个氨基酸(第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸)在预测结构上的位置。图1的C示出了PPR基序的结构的2个示例和各情况下在预测结构上的氨基酸的位置。此处，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸在蛋白质立体结构图中以品红色(在黑白显示中为深灰色)的条棒的形式表示。

图2概括了作为DNA结合型的在DNA的代谢中发挥功能的PPR蛋白质的拟南芥p63(SEQ ID NO：1的氨基酸序列)、拟南芥的GUN1蛋白质(SEQ ID NO：2的氨基酸序列)、拟南芥的pTac2(SEQ ID NO：3的氨基酸序列)、DG1(SEQ ID NO：4的氨基酸序列)、拟南芥的GRP23(SEQ ID NO：5的氨基酸序列)的结构概要以及用于表示它们与DNA结合的分析系统的概要。

图3概括了提示为DNA结合性的PPR蛋白质(SEQ ID NO：1～5)的PPR基序与公知的RNA结合型基序之间的、PPR基序中承担核酸识别密码作用的3处氨基酸(第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸)的氨基酸出现频率。

图4-1示出了(A)拟南芥p63(SEQ ID NO：1的氨基酸序列)、(B)拟南芥的GUN1蛋白质(SEQ ID NO：2的氨基酸序列)各自在内部所包含的PPR基序的位置以及PPR基序中的承担核酸识别密码作用的3处氨基酸(第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸)的位置。

图4-2示出了(C)拟南芥的pTac2(SEQ ID NO：3的氨基酸序列)、(D)DG1(SEQ IDNO：4的氨基酸序列)各自在内部所包含的PPR基序的位置以及PPR基序中的承担核酸识别密码作用的3处氨基酸(第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸)的位置。

图4-3示出了(E)拟南芥的GRP23(SEQ ID NO：5的氨基酸序列)在内部所包含的PPR基序的位置以及PPR基序中的承担核酸识别密码作用的3处氨基酸(第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸)的位置。

图5为PPR分子的序列特异性DNA结合能力的评价。制作在3种(被看作)DNA结合型的PPR分子上融合作为转录活化结构域的VP64而成的人工转录因子，研究在人培养细胞内是否能够活化具有各靶标序列的荧光素酶报告基因。

图6中，在将pTac2-VP64和GUN1-VP64分别与作为阴性对照的pminCMV-luc2共导入的情况下、以及与具有4个或8个靶标序列的报告基因载体共导入的情况下，对荧光素酶活性进行了比较。结果，对于两者均观察到活性随着靶标序列的增加而上升的倾向，证明了它们的PPR-VP64分子与各靶标序列特异性结合，作为部位特异性的转录活化因子发挥功能。

【具体实施方式】

[PPR基序和PPR蛋白质]

在本发明中提到“PPR基序”时，除了特别记载的情况以外，是指具有下述氨基酸序列的由30～38个氨基酸构成的多肽，所述氨基酸序列在利用网络上的蛋白质结构域检索程序(例如，Pfam、Prosite、Uniprot等)对氨基酸序列进行分析时，利用Pfam(http://pfam.sanger.ac.uk/)中的PF01535、Prosite(http://www.expasy.org/prosite/)中的PS51375得到的E值为规定值以下(优选为E-03)。另外，在Uniprot database(http://www.uniprot.org)中也定义了各种蛋白质中的PPR基序。

本发明的PPR基序中，PPR基序的氨基酸序列的保守性低，但其良好地保留了下图所示的螺旋、环、螺旋、环的二级结构。

【化2】

(螺旋A)-X-(螺旋B)-L (式1)

构成本发明中定义的PPR基序的氨基酸的位置编号依据本发明人的论文(Kobayashi K,et al.,Nucleic Acids Res.,40,2712-2723(2012))。即，构成本发明中定义的PPR基序的氨基酸的位置编号与Pfam中的PF01535的氨基酸编号大致为相同含义，另一方面，其相当于从Prosite中的PS51375的氨基酸编号中减去2而得到的数(例如，本发明的1位→PS51375的3位)，也相当于从Uniprot中定义的PPR基序的氨基酸的编号中减去2而得到的数。

详细地说，本发明中，第1氨基酸为从式1所表示的螺旋A开始的起始氨基酸。第4氨基酸为从第1氨基酸数起的第4位氨基酸。其中，在提到“ii”(-2)位氨基酸时，

·在PPR基序(M_n)的C末端侧连续存在下一个PPR基序(M_n+1)时(在PPR基序间无氨基酸插入时，例如，在图4-1的(A)中，相当于Motif Nos.1、2、3、4、6和7)，是指从构成PPR基序(M_n)的氨基酸的最后位(C末端侧)起的第-2位氨基酸；

·在PPR基序(M_n)与其C末端侧的下一个PPR基序(M_n+1)之间发现1～20个氨基酸的非PPR基序(并非为PPR基序的部分)时(例如，在图4-1的(A)中，相当于Motif Nos.5和8。在图4-3的(D)中，相当于Motif Nos.1、2、7和8)，将相对于下一个PPR基序(M_n+1)的第1氨基酸向上游侧数2位、即第-2位氨基酸作为“ii”(-2)位氨基酸(参照图1)；并且

·在PPR基序(M_n)的C末端侧未发现下一个PPR基序(M_n+1)时(例如，在图4-1中，相当于(A)的Motif No.9、(B)的Motif No.11)、或者在与C末端侧的下一个PPR基序(M_n+1)之间发现21个氨基酸以上的构成非PPR基序的氨基酸的情况下，将从构成PPR基序(M_n)的氨基酸的最后位(C末端侧)起的第2位氨基酸作为“ii”(-2)位氨基酸。

在本发明中提到“PPR蛋白质”时，除了特别记载的情况以外，是指具有多个上述PPR基序的PPR蛋白质。本说明书中提到“蛋白质”时，除了特别记载的情况以外，是指由多肽(多个氨基酸通过肽键结合而成的链)构成的全体物质，也包括由较低分子的多肽构成的物质。在本发明中提到“氨基酸”的情况下，有时是指通常的氨基酸分子，此外有时还指构成肽链的氨基酸残基。本领域技术人员根据上下文可明确所指的是哪一者。

PPR蛋白质在植物中大量存在，在拟南芥中发现了500种蛋白质、约5000个基序。在稻米、白杨、卷柏等多种陆地植物中也存在氨基酸序列多样的PPR基序和PPR蛋白质。已知几种PPR蛋白质是在花粉形成(雄配子)中发挥作用的育性恢复因子，是用于获取杂种优势的F1种子的重要基因。与育性恢复类似，已经明确了几种PPR蛋白质在物种分化中起作用。还已知绝大部分PPR蛋白质作用于线粒体或叶绿体中的RNA。

在动物中，已知鉴定为LRPPRC的PPR蛋白质的异常会引起法国加拿大型Leigh综合征(LSFC；Leigh氏综合征、亚急性坏死性脑脊髄病)。

在本发明中，关于PPR基序与DNA碱基的结合性，在提到“选择性的”时，除了特别记载的情况以外，是指与DNA碱基中的任意一个碱基的结合活性高于与其他碱基的结合活性。对于本领域技术人员而言，该选择性可以设计实验来进行确认，此外还可以像本说明书的实施例中所公开的那样通过计算来求出。

在本发明中提到DNA碱基时，除了特别记载的情况以外，是指构成DNA的脱氧核糖核苷酸的碱基，具体而言，是指腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)或胸腺嘧啶(T)中的任一种。需要说明的是，尽管PPR蛋白质可以对DNA中的碱基具有选择性，但其并非与核酸单体结合。

在本发明之前已经确立了作为PPR基序的保守氨基酸的序列检索法，但完全未发现关于与DNA碱基的选择性结合的规则性。

[由本发明提供的发现]

本发明提供以下的发现。

(I)对于选择性结合而言重要的氨基酸位置的相关信息。

具体而言，在将PPR基序的螺旋A的起始氨基酸作为第1氨基酸、将第4位的氨基酸作为第4氨基酸、并且将下述氨基酸作为第“ii”(-2)位氨基酸的情况下，作为螺旋(螺旋A)的1位和4位氨基酸的第1氨基酸、第4氨基酸和上述中定义的第“ii”(-2)氨基酸这3个氨基酸的组合(第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸)对于与DNA碱基的选择性结合是重要的，可以通过它们的组合来确定所结合的DNA碱基是哪一种；

所述作为第“ii”(-2)位氨基酸的氨基酸为：

·在PPR基序(M_n)的C末端侧连续存在下一个PPR基序(M_n+1)时(在PPR基序间无氨基酸插入时)，从构成PPR基序(M_n)的氨基酸的最后位(C末端侧)起第-2位的氨基酸；

·在PPR基序(M_n)与其C末端侧的下一个PPR基序(M_n+1)之间发现1～20个氨基酸的非PPR基序时，从下一个PPR基序(M_n+1)的第1氨基酸起向上游侧数2位、即第-2位的氨基酸；或者

本发明基于由本发明人发现的与第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸的组合相关的发现。具体而言，

(1-1)第4氨基酸为甘氨酸(G)的情况下，第1氨基酸可以为任意的氨基酸，并且第“ii”(-2)氨基酸为天冬氨酸(D)、天冬酰胺(N)或丝氨酸(S)，作为一例，作为第1氨基酸与第“ii”(-2)氨基酸的组合，可以为：

·任意的氨基酸与天冬氨酸(D)的组合(*GD)、

·优选的是，谷氨酸(E)与天冬氨酸(D)的组合(EGD)、

·任意的氨基酸与天冬酰胺(N)的组合(*GN)、

·优选的是，谷氨酸(E)与天冬酰胺(N)的组合(EGN)、或

·任意的氨基酸与丝氨酸(S)的组合(*GS)；

(1-2)第4氨基酸为异亮氨酸(I)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸，作为一例，作为第1氨基酸与第“ii”(-2)氨基酸的组合，可以为：

·任意的氨基酸与天冬酰胺(N)的组合(*IN)；

(1-3)第4氨基酸为亮氨酸(L)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸，作为一例，作为第1氨基酸与第“ii”(-2)氨基酸的组合，可以为：

·任意的氨基酸与天冬氨酸(D)的组合(*LD)、或

·任意的氨基酸与赖氨酸(K)的组合(*LK)；

(1-4)第4氨基酸为甲硫氨酸(M)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸，作为一例，作为第1氨基酸与第“ii”(-2)氨基酸的组合，可以为：

·任意的氨基酸与天冬氨酸(D)的组合(*MD)、或

·异亮氨酸(I)与天冬氨酸(D)的组合(IMD)；

(1-5)第4氨基酸为天冬酰胺(N)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸，作为一例，作为第1氨基酸与第“ii”(-2)氨基酸的组合，可以为：

·任意的氨基酸与天冬氨酸(D)的组合(*ND)、

·苯丙氨酸(F)、甘氨酸(G)、异亮氨酸(I)、苏氨酸(T)、缬氨酸(V)、酪氨酸(Y)中的任一者与天冬氨酸(D)的组合(FND、GND、IND、TND、VND或YND)、

·任意的氨基酸与天冬酰胺(N)的组合(*NN)、

·异亮氨酸(I)、丝氨酸(S)、缬氨酸(V)中的任一者与天冬酰胺(N)的组合(INN、SNN或VNN)、

·任意的氨基酸与丝氨酸(S)的组合(*NS)、

·缬氨酸(V)与丝氨酸(S)的组合(VNS)、

·任意的氨基酸与苏氨酸(T)的组合(*NT)、

·缬氨酸(V)与苏氨酸(T)的组合(VNT)、

·任意的氨基酸与色氨酸(W)的组合(*NW)、或

·异亮氨酸(I)与色氨酸(W)的组合(INW)；

(1-6)第4氨基酸为脯氨酸(P)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸，作为一例，作为第1氨基酸与第“ii”(-2)氨基酸的组合，可以为：

·任意的氨基酸与天冬氨酸(D)的组合(*PD)、

·苯丙氨酸(F)与天冬氨酸(D)的组合(FPD)、或

·酪氨酸(Y)与天冬氨酸(D)的组合(YPD)；

(1-7)第4氨基酸为丝氨酸(S)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸，作为一例，作为第1氨基酸与第“ii”(-2)氨基酸的组合，可以为：

·任意的氨基酸与天冬酰胺(N)的组合(*SN)、

·苯丙氨酸(F)与天冬酰胺(N)的组合(FSN)、或

·缬氨酸(V)与天冬酰胺(N)的组合(VSN)；

(1-8)第4氨基酸为苏氨酸(T)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸，作为一例，作为第1氨基酸与第“ii”(-2)氨基酸的组合，可以为：

·任意的氨基酸与天冬氨酸(D)的组合(*TD)、

·缬氨酸(V)与天冬氨酸(D)的组合(VTD)、

·任意的氨基酸与天冬酰胺(N)的组合(*TN)、

·苯丙氨酸(F)与天冬酰胺(N)的组合(FTN)、

·异亮氨酸(I)与天冬酰胺(N)的组合(ITN)、或

·缬氨酸(V)与天冬酰胺(N)的组合(VTN)；

(1-9)第4氨基酸为缬氨酸(V)的情况下，第1氨基酸和第“ii”(-2)氨基酸均可以为任意的氨基酸，作为一例，作为第1氨基酸与第“ii”(-2)氨基酸的组合，可以为：

·异亮氨酸(I)与天冬氨酸(D)的组合(IVD)、

·任意的氨基酸与甘氨酸(G)的组合(*VG)、或

·任意的氨基酸与苏氨酸(T)的组合(*VT)。

(II)第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸的组合与DNA碱基的对应的相关信息。

具体而言，蛋白质是基于如下情况确定的蛋白质，其具有选择性的DNA碱基结合能力。

特定位置的氨基酸的特定组合与DNA碱基的结合性可通过实验来确认。基于这种目的的实验包括：PPR基序或含有多个PPR基序的蛋白质的制备、底物DNA的制备、以及结合性试验(例如，凝胶迁移法)。各实验对于本领域技术人员而言是熟知的，作为更具体的程序、条件，例如可将专利文献2作为参考。

[PPR基序和PPR蛋白质的利用]

鉴定和设计：

一个PPR基序识别DNA的一个特定碱基，连续的多个PPR基序可识别DNA序列中的连续的碱基。并且，基于本发明，通过适当选择特定位置的氨基酸，能够选择或设计对A、T、G、C各自具有选择性的PPR基序，进而，含有适当连续的这样的PPR基序的蛋白质能够识别对应的特异性序列。因此，基于本发明，能够预测、鉴定与具有特定碱基序列的DNA选择性地结合的天然型PPR蛋白质，另外，反过来能够预测、鉴定作为PPR蛋白质的结合靶标的DNA。靶标的预测、鉴定对于明确基因的实质是有用的，另外在能够扩大靶标的利用可能性的方面也是有用的。

此外，根据本发明，可以设计出能够与所期望的DNA碱基选择性地结合的PPR基序、以及能够与所期望的DNA序列特异性地结合的具有多个PPR基序的蛋白质。在进行设计时，PPR基序中的重要位置的氨基酸以外的部分可以参考SEQ ID NO：1至5记载的DNA结合型PPR蛋白质中的天然型PPR基序的序列信息。另外，也可以通过使用天然型作为整体、仅置换相应位置的氨基酸来进行设计。PPR基序的重复数可根据靶标序列适当设定，例如可以为2个以上、优选为2～30个、更优选为5～25个、特别优选为9～15个。

在进行设计时，也可以对第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸的组合以外的氨基酸进行考虑。例如，前述专利文献2中记载的8位和12位氨基酸的考虑对于呈现出DNA结合活性有时是很重要的。根据本发明人的研究，某一PPR基序的8位氨基酸和与其相同的PPR基序的12位氨基酸在DNA结合中可能具有协同性。8位氨基酸可以为碱性氨基酸、优选为赖氨酸，或者可以为酸性氨基酸、优选为天冬氨酸，12位氨基酸可以为碱性氨基酸或中性氨基酸或疏水性氨基酸。

设计出的基序或蛋白质可利用本领域技术人员公知的方法来制备。即，本发明提供着眼于第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸的氨基酸的组合的与特定的DNA碱基选择性地结合的PPR基序、以及与具有特定序列的DNA特异性地结合的PPR蛋白质。这样的基序和蛋白质可以利用本领域技术人员公知的方法比较大量地制备，这样的方法可以包括从目的基序或蛋白质所具有的氨基酸序列确定编码其的核酸序列、进行克隆化、制作生产目的基序或蛋白质的转化体。

复合体的制备及其应用：

由本发明提供的PPR基序或PPR蛋白质可以连结功能性区域而制成复合体。功能性区域通常是指在生物体内或细胞内具有特定的生物学功能例如酶功能、催化功能、抑制功能、促进功能等功能的部分、或者具有作为标记的功能的部分。这样的区域例如由蛋白质、肽、核酸、生理活性物质、药剂构成。

在本发明中，通过在PPR蛋白质上连结功能性区域，能够组合发挥出由PPR蛋白质发挥的靶标DNA序列结合功能以及由功能性区域发挥的功能。例如，通过使用具有DNA切割功能的蛋白质(例如FokI等限制酶)或其核酸酶结构域作为功能性区域，复合体能够作为人工DNA切割酶发挥功能。

为了制造这样的复合体，可以利用该技术领域通常可利用的方法，已知有下述方法：将复合体作为1个蛋白质分子进行合成的方法；分别合成多个蛋白质的部件后，将这些部件组合而形成复合体的方法；等等。

作为一例，在将复合体作为1个蛋白质分子进行合成的方法的情况下，可以设计出在PPR蛋白质的C末端经由氨基酸接头融合切割酶而成的蛋白质复合体，构建用于表达该蛋白质复合体的表达用载体结构体，由该结构体表达目的复合体。关于这样的制备方法，可以使用日本特愿2011-242250中记载的方法等。

PPR蛋白质与功能性区域蛋白质的连结可以使用藉由氨基酸接头的连结、藉由亲和素-生物素等的特异性亲和性的连结、藉由其他化学接头的连结等该技术领域中已知的任意一种连结手段。

作为可以在本发明中利用的功能性区域，是指能够赋予各种功能中的DNA的切割、转录、复制、修复、合成、修饰等任意功能的区域。通过调整作为本发明特征的PPR基序的序列，确定作为靶标的DNA的碱基序列，能够将几乎所有的DNA序列作为靶标来利用，使用该靶标，能够利用DNA的切割、转录、复制、修复、合成、修饰等功能性区域所具有的功能来实现基因组编辑。

例如，在功能性区域的功能为DNA的切割功能的情况下，可提供将本申请发明中制备的PPR蛋白质部分与DNA的切割区域连结而成的复合体。这样的复合体可以作为人工DNA切割酶发挥功能，在利用PPR蛋白质部分识别作为靶标的DNA的碱基序列后，利用DNA的切割区域对DNA进行切割。

本发明中可以使用的具有切割功能的功能性区域的示例为作为脱氧核糖核酸内切酶发挥功能的脱氧核糖核酸酶(DNase)。作为这样的DNase的示例，可以利用DNase A(例如牛胰核糖核酸酶A：PDB 2AAS)、DNase H、DNase I等脱氧核糖核酸内切酶、或者来源于各种细菌的限制酶(例如FokI(SEQ ID NO：6)等)或其核酸酶结构域。这样的含有PPR蛋白质和功能性区域的复合体并非天然存在的，是新的复合体。

在功能性区域的功能为转录调控功能的情况下，可提供将本申请发明中制备的PPR蛋白质部分与DNA的转录调控区域连结而成的复合体。这样的复合体可以作为人工转录调控因子发挥功能，在利用PPR蛋白质部分识别作为靶标的DNA的碱基序列后，对目的DNA的转录进行调控。

本发明中可以使用的具有转录调控功能的功能性区域可以为转录活化结构域，也可以为转录抑制结构域。转录调控结构域的示例为VP16、VP64、TA2、STAT-6、p65。这样的含有PPR蛋白质和转录调控结构域的复合体并非天然存在的，是新的复合体。

此外，由本发明得到的复合体具有能够以DNA序列特异性的方式将功能性区域输送到生物体内或细胞内并使其发挥功能的可能性。由此，能够与利用锌指蛋白(上述非专利文献1和非专利文献2)、TAL效应因子(上述非专利文献3、上述专利文献1)的蛋白质复合体同样地在生物体内或细胞内进行DNA序列特异性的改造、破坏，能够赋予DNA切割及利用该功能的基因组编辑这样的新功能。具体而言，能够利用多个可与特定碱基结合的PPR基序连结而成的PPR蛋白质对特定的DNA序列进行识别。并且，通过与PPR蛋白质连结的功能性区域，能够利用功能性区域所具有的功能来实现所识别的DNA区域的基因组编辑。

此外，通过将药物与DNA序列特异性结合的PPR蛋白质结合，具有能够以该DNA序列周边为靶标进行药物输送的可能性。因此，本发明还提供DNA序列特异性的功能性物质的输送方法。

已经明确了，在本发明中作为材料的PPR蛋白质发挥出指定DNA编辑的编辑部位的作用，并且，这样的在第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸残基的位置配置有特定氨基酸的PPR基序在识别DNA上的特异性碱基的基础上具有该DNA结合活性。基于这样的特征，在第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸残基的位置配置有特定氨基酸的这种类型的PPR蛋白质可以期待识别DNA上对各PPR蛋白质具有特异性的碱基，作为其结果，可导入碱基多态性或对起因于碱基多态性的疾病或状态进行处置；此外，认为通过与上述那样的其他功能性区域进行组合，能够有助于用于切割DNA、实现基因组编辑的功能的改造、提高。

另外，可以在PPR蛋白质的C末端侧融合外源性的DNA切割酶。或者，还可以通过对N末端侧的PPR基序的结合DNA碱基选择性进行改良来构成DNA序列特异性的DNA切割酶。另外，连结有GFP等标记部分的复合体还能够用于使所期望的DNA在生物体内可视化。

实施例

实施例1：与DNA编辑相关的PPR蛋白质及其靶标序列的收集

参照现有技术文献(非专利文献11～非专利文献15)中示出的信息，对p63蛋白质(SEQ ID NO：1)、GUN1蛋白质(SEQ ID NO：2)、pTac2蛋白质(SEQ ID NO：3)、DG1蛋白质(SEQID NO：4)及GRP23蛋白质(SEQ ID NO：5)的结构和功能进行分析。

这些蛋白质中的PPR基序结构中，连同Uniprot数据库(http://www.uniprot.org/)的信息，还赋予了本发明中定义的氨基酸编号。实验所用的5种拟南芥(SEQ ID NO：1～5)的PPR蛋白质中含有的PPR基序及其氨基酸编号记载于图3。

具体而言，在上述的p63蛋白质(SEQ ID NO：1)、GUN1蛋白质(SEQ ID NO：2)、pTac2蛋白质(SEQ ID NO：3)、DG1蛋白质(SEQ ID NO：4)和GRP23蛋白质(SEQ ID NO：5)中，对于在以RNA作为靶标的情况下被认为是重要的PPR基序中的承担核酸识别密码作用的3处氨基酸(第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸)，将氨基酸出现频率与RNA结合型基序进行比较。

拟南芥的p63蛋白质(SEQ ID NO：1)具有9个PPR基序，并且将其氨基酸序列中的第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸残基的位置汇总于下述的表中以及图3中。

【表1】

拟南芥的GUN1蛋白质(SEQ ID NO：2)具有11个PPR基序，并且将其氨基酸序列中的第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸残基的位置汇总于下述的表中以及图3中。

【表2】

拟南芥的pTac2蛋白质(SEQ ID NO：3)具有15个PPR基序，并且将其氨基酸序列中的第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸残基的位置汇总于下述的表中以及图3中。

【表3】

(B.G.表示背景)

拟南芥的DG1蛋白质(SEQ ID NO：4)具有10个PPR基序，并且将其氨基酸序列中的第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸残基的位置汇总于下述的表中以及图3中。

【表4】

(B.G.表示背景)

拟南芥的GRP23蛋白质(SEQ ID NO：5)具有11个PPR基序，并且将其氨基酸序列中的第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸残基的位置汇总于下述的表中以及图3中。

【表5】

(B.G.表示背景)

在各蛋白质中对这些位置的氨基酸频率进行确认，与RNA结合型基序的情况下相同位置的氨基酸频率进行比较。结果示于图2。明确了这些提示为DNA结合性的PPR蛋白质的PPR基序与RNA结合型基序之间的氨基酸出现频率的倾向基本一致。即明确了，发挥DNA结合作用的PPR蛋白质按照与发挥RNA结合作用的PPR蛋白质相同的序列规则与核酸结合；本发明人在申请中的专利(PCT/JP2012/077274)中记载的RNA识别密码能够作为发挥DNA结合作用的PPR蛋白质的DNA识别密码来应用。

参考非专利文献(Yagi,Y.et al.,Plos One,2013,8,e57286)的RNA识别密码，对于与各碱基选择性地结合的DNA结合型PPR基序进行了评价。详细而言，基于表6所示的碱基出现频率(occurrence nuceotide frequency)以及由背景频率计算出的期待值(Expectednuceotide frequency)，通过卡方检验进行计算。检验在各碱基(NT)、嘌呤/嘧啶(AG或CT；PY)、氢键组(AT或GC；HB)、或者氨基/酮型(AC或GT)中进行。将显著性值设为P<0.06(5.E-02；5％显著水平)，在任一检验中得到了显著性值的情况下，选择第1氨基酸、第4氨基酸、第“ii”(-2)氨基酸的组合。

【表6-1】

表6，DNA结合密码的碱基选择性

【表6-2】

表1中列举了显示出显著的碱基选择性的氨基酸的组合的情况。即，这些结果意味着，具有得到了显著的P值的第1氨基酸、第4氨基酸、第“ii”(-2)氨基酸(表中为(NSRs：1、4、ii)的氨基酸种的PPR基序为赋予了碱基选择性结合能力的PPR基序；并且，在减除背景后，“正”的数值越大，对该碱基的碱基选择性越高。在第1氨基酸、第4氨基酸、第“ii”(-2)氨基酸之中，第4氨基酸对碱基选择性的影响强，第“ii”(-2)氨基酸对碱基选择性的影响次强，第1氨基酸对碱基选择性的影响在3个氨基酸之中弱。

实施例2：PPR分子的序列特异性DNA结合能力的评价

在本实施例中，制作在p63、pTac2、GUN1这3种(被看作)DNA结合型的PPR分子上融合作为转录活化结构域的VP64而成的人工转录因子，研究在人培养细胞内是否能够使具有各靶标序列的荧光素酶报告基因活化，由此考察各PPR分子是否具有序列特异性DNA结合能力(图5)。

(实验方法)

1.PPR-VP64表达载体的制作

通过人工合成来制作p63、pTac2、GUN1的编码序列中的仅相当于PPR基序的部分。DNA合成利用了Biomatik公司的人工基因合成服务。利用具有CMV启动子的pCS2P载体作为骨架载体，插入合成的PPR序列。进而在PPR序列的N末端插入Flag标签和核转移信号、在C末端插入VP64序列。所制作的p63-VP64、pTac2-VP64、GUN1-VP64的序列示于序列表的SEQ IDNO：7～9。

2.具有PPR靶标序列的报告基因载体的制作

制作在最小CMV启动子的下游连结有萤火虫的荧光素酶基因、在启动子的上游配置有多克隆位点的报告基因载体(pminCMV-luc2、SEQ ID NO：10)。在该载体的多克隆位点处插入各PPR的预测靶标序列。各PPR的靶标序列(p63为TCTATCACT、pTac2为AACTTTCGTCACTCA、GUN1为AATTTGTCGAT。序列表的SEQ ID NO：11～13)通过由RNA结合型PPR中的基序-RNA间的识别密码预测DNA结合型PPR中的基序-DNA间的密码来确定。对于各PPR，分别制作插入有4个靶标序列和插入有8个靶标序列的序列，用于下述分析。各载体的碱基序列示于序列表的SEQ ID NO：14～19。

3.向HEK293T细胞中的转染

使用Life Technologies公司的Lipofectamine LTX导入1中制作的PPR-VP64表达载体、2中制作的萤火虫荧光素酶表达载体、以及作为参比的Promega公司的pRL-CMV载体(海肾荧光素酶的表达载体)。在96孔板的各孔中加入25μl的DMEM培养基，进而加入将PPR-VP64表达载体400ng、萤火虫荧光素酶表达载体100ng和pRL-CMV载体20ng混合而成的溶液。之后向各孔中加入DMEM培养基25μl与Lipofectamine LTX 0.7μl混合而成的溶液，在室温静置30分钟后，加入悬浮在100μl的含有15％胎牛血清的DMEM培养基中的6×10⁴细胞量的HEK293T细胞，在37℃的CO₂孵箱中培养24小时。

4.荧光素酶分析

荧光素酶分析使用Promega公司的Dual-Glo荧光素酶分析系统，按照试剂盒的操作说明书进行。荧光素酶活性的测定使用Berthold公司的TriStar LB 941酶标仪。

(结果、考察)

在将pTac2-VP64和GUN1-VP64分别与作为阴性对照的pminCMV-luc2共导入的情况下、以及与具有4个或8个靶标序列的报告基因载体共导入的情况下，对荧光素酶活性进行了比较(下表、图6)。活性的比较基于用Fluc(萤火虫荧光素酶)的测定值除以参比的Rluc(海肾荧光素酶)的测定值而进行了标准化的分数(Fluc/Rluc)来进行。其结果，在两者中均观察到了活性随着靶标序列增加而上升的倾向，证明了这些PPR-VP64分子与各靶标序列特异性地结合，作为位点特异性的转录活化因子发挥功能。

【表7】

Claims

1.一种制造蛋白质的方法，其包括设计下述与DNA碱基或具有特定碱基序列的DNA结合的蛋白质的步骤：

使所述蛋白质含有1个以上的具有下述式1的结构的PPR基序，

(螺旋A)-X-(螺旋B)-L (式1)

式1中：

螺旋A为能够形成α螺旋结构的部分；

X不存在或者为由长度1个～9个的氨基酸构成的部分；

螺旋B为能够形成α螺旋结构的部分；并且

L为由长度2个～7个的氨基酸构成的部分；

蛋白质中含有的一个PPR基序(M_n)为下述的PPR基序：

在将螺旋A的起始氨基酸作为第1氨基酸、将第4位的氨基酸作为第4氨基酸、并且将下述氨基酸作为第“ii”(-2)氨基酸时，

所述第“ii”(-2)氨基酸为：

·在PPR基序(M_n)的C末端侧未发现下一个PPR基序(M_n+1)时、或者在与C末端侧的下一个PPR基序(M_n+1)之间发现21个氨基酸以上的构成非PPR基序的氨基酸的情况下，从构成PPR基序(M_n)的氨基酸的最后位(C末端侧)起的第2位氨基酸，

使第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸的组合与下述中的任一者相对应，

2.如权利要求1所述的方法，其中，PPR基序选自下述PPR基序：

由序列号1的氨基酸序列构成的p63蛋白质所具有9个PPR基序、

由序列号2的氨基酸序列构成的GUN1蛋白质所具有11个PPR基序、

由序列号3的氨基酸序列构成的pTac2蛋白质所具有15个PPR基序、

由序列号4的氨基酸序列构成的DG1蛋白质所具有10个PPR基序、和

由序列号5的氨基酸序列构成的蛋白质所具有11个PPR基序。

3.一种使用含有1个以上PPR基序的PPR蛋白质对DNA碱基或具有特定碱基序列的DNA进行鉴定、识别或靶标化的方法，其包括下述步骤：

设计与DNA碱基或具有特定碱基序列的DNA结合的蛋白质的步骤，

使所述蛋白质含有1个以上的具有下述式1的结构的PPR基序，

(螺旋A)-X-(螺旋B)-L (式1)

式1中：

螺旋A为能够形成α螺旋结构的部分；

X不存在或者为由长度1个～9个的氨基酸构成的部分；

螺旋B为能够形成α螺旋结构的部分；并且

L为由长度2个～7个的氨基酸构成的部分；

蛋白质中含有的一个PPR基序(M_n)为下述的PPR基序：

所述第“ii”(-2)氨基酸为：

4.如权利要求3所述的方法，其中，PPR基序选自下述PPR基序：

由序列号1的氨基酸序列构成的p63蛋白质所具有9个PPR基序、

由序列号2的氨基酸序列构成的GUN1蛋白质所具有11个PPR基序、

由序列号5的氨基酸序列构成的蛋白质所具有11个PPR基序。

5.一种使用含有1个以上PPR基序的PPR蛋白质对DNA碱基或具有特定碱基序列的DNA进行鉴定、识别或靶标化的方法，

PPR蛋白质为含有1个以上的具有下述式1的结构的PPR基序的蛋白质，

(螺旋A)-X-(螺旋B)-L (式1)

式1中：

螺旋A为能够形成α螺旋结构的部分；

X不存在或者为由长度1个～9个的氨基酸构成的部分；

螺旋B为能够形成α螺旋结构的部分；并且

L为由长度2个～7个的氨基酸构成的部分；

蛋白质中含有的一个PPR基序(M_n)为下述的PPR基序：

所述第“ii”(-2)氨基酸为：

第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸的组合为下述中的任一者，

(2-1)该PPR基序与G选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、甘氨酸、天冬氨酸；

(2-2)该PPR基序与G选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为谷氨酸、甘氨酸、天冬氨酸；

(2-3)该PPR基序与A选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、甘氨酸、天冬酰胺；

(2-4)该PPR基序与A选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为谷氨酸、甘氨酸、天冬酰胺；

(2-5)该PPR基序与A选择性地结合，其次与C结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、甘氨酸、丝氨酸；

(2-6)该PPR基序与T和C选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、异亮氨酸、任意的氨基酸；

(2-7)该PPR基序与T选择性地结合，其次与C结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、异亮氨酸、天冬酰胺；

(2-8)该PPR基序与T和C选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、亮氨酸、任意的氨基酸；

(2-9)该PPR基序与C选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、亮氨酸、天冬氨酸；

(2-10)该PPR基序与T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、亮氨酸、赖氨酸；

(2-11)该PPR基序与T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、甲硫氨酸、任意的氨基酸；

(2-12)该PPR基序与T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、甲硫氨酸、天冬氨酸；

(2-13)该PPR基序与T选择性地结合，其次与C结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为异亮氨酸、甲硫氨酸、天冬氨酸；

(2-14)该PPR基序与C和T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、天冬酰胺、任意的氨基酸；

(2-15)该PPR基序与T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、天冬酰胺、天冬氨酸；

(2-16)该PPR基序与T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为苯丙氨酸、天冬酰胺、天冬氨酸；

(2-17)该PPR基序与T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为甘氨酸、天冬酰胺、天冬氨酸；

(2-18)该PPR基序与T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为异亮氨酸、天冬酰胺、天冬氨酸；

(2-19)该PPR基序与T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为苏氨酸、天冬酰胺、天冬氨酸；

(2-20)该PPR基序与T选择性地结合，其次与C结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、天冬酰胺、天冬氨酸；

(2-21)该PPR基序与T选择性地结合，其次与C结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为酪氨酸、天冬酰胺、天冬氨酸；

(2-22)该PPR基序与C选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、天冬酰胺、天冬酰胺；

(2-23)该PPR基序与C选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为异亮氨酸、天冬酰胺、天冬酰胺；

(2-24)该PPR基序与C选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为丝氨酸、天冬酰胺、天冬酰胺；

(2-25)该PPR基序与C选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、天冬酰胺、天冬酰胺；

(2-26)该PPR基序与C选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、天冬酰胺、丝氨酸；

(2-27)该PPR基序与C选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、天冬酰胺、丝氨酸；

(2-28)该PPR基序与C选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、天冬酰胺、苏氨酸；

(2-29)该PPR基序与C选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、天冬酰胺、苏氨酸；

(2-30)该PPR基序与C选择性地结合，其次与T结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、天冬酰胺、色氨酸；

(2-31)该PPR基序与T选择性地结合，其次与C结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为异亮氨酸、天冬酰胺、色氨酸；

(2-32)该PPR基序与T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、脯氨酸、任意的氨基酸；

(2-33)该PPR基序与T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、脯氨酸、天冬氨酸；

(2-34)该PPR基序与T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为苯丙氨酸、脯氨酸、天冬氨酸；

(2-35)该PPR基序与T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为酪氨酸、脯氨酸、天冬氨酸；

(2-36)该PPR基序与A和G选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、丝氨酸、任意的氨基酸；

(2-37)该PPR基序与A选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、丝氨酸、天冬酰胺；

(2-38)该PPR基序与A选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为苯丙氨酸、丝氨酸、天冬酰胺；

(2-39)该PPR基序与A选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、丝氨酸、天冬酰胺；

(2-40)该PPR基序与A和G选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、苏氨酸、任意的氨基酸；

(2-41)该PPR基序与G选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、苏氨酸、天冬氨酸；

(2-42)该PPR基序与G选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、苏氨酸、天冬氨酸；

(2-43)该PPR基序与A选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、苏氨酸、天冬酰胺；

(2-44)该PPR基序与A选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为苯丙氨酸、苏氨酸、天冬酰胺；

(2-45)该PPR基序与A选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为异亮氨酸、苏氨酸、天冬酰胺；

(2-46)该PPR基序与A选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为缬氨酸、苏氨酸、天冬酰胺；

(2-47)该PPR基序与A、C和T结合，但不与G结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、缬氨酸、任意的氨基酸；

(2-48)该PPR基序与C选择性地结合，其次与A结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为异亮氨酸、缬氨酸、天冬氨酸；

(2-49)该PPR基序与C选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、缬氨酸、甘氨酸；

(2-50)该PPR基序与T选择性地结合时，第1氨基酸、第4氨基酸和第“ii”(-2)氨基酸这3个氨基酸依次为任意的氨基酸、缬氨酸、苏氨酸。

6.如权利要求5所述的方法，其中，PPR基序选自下述PPR基序：

由序列号1的氨基酸序列构成的p63蛋白质所具有9个PPR基序、

由序列号2的氨基酸序列构成的GUN1蛋白质所具有11个PPR基序、

由序列号5的氨基酸序列构成的蛋白质所具有11个PPR基序。

7.一种PPR融合蛋白质，其包含：

由序列号1的氨基酸序列构成的p63蛋白质所具有9个PPR基序、

由序列号2的氨基酸序列构成的GUN1蛋白质所具有11个PPR基序、

由序列号4的氨基酸序列构成的DG1蛋白质所具有10个PPR基序、或

由序列号5的氨基酸序列构成的蛋白质所具有11个PPR基序，以及

插入在该PPR蛋白质的N末端、由序列号7-9中的任一者的165-185位构成的多核苷酸所编码的核转移信号。

8.一种复合体，其由权利要求1所述的PPR蛋白质和靶标序列特异性DNA切割酶构成，所述靶标序列特异性DNA切割酶为FokI的核酸酶结构域。